このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220207となっている論文です。

PDF登録状況(公開日: 20220207)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) アラビア語攻撃言語検出システムのための細調整手法:BERTモデル [全文訳有]

Fine-Tuning Approach for Arabic Offensive Language Detection System: BERT-Based Model ( http://arxiv.org/abs/2203.03542v1 )

ライセンス: CC BY 4.0
Fatemah Husain and Ozlem Uzuner(参考訳) オンライン攻撃言語の問題は、オンラインユーザの健康とセキュリティを制限する。 オンライン攻撃言語を検知し、オンラインコミュニティに社会正義を確実にするシステムを開発するためには、最新の最先端技術を適用することが不可欠である。 本研究は,アラビア語攻撃言語データセットにおける微調整の効果について検討した。 4つのデータセットを個別と組み合わせて複数の分類器を開発し,オンラインアラビア語攻撃コンテンツに関する知識を得て,それに従ってユーザのコメントを分類する。 本研究は,移動学習が分類器の性能,特に方言的コメントに与える影響を限定的に示すものである。

The problem of online offensive language limits the health and security of online users. It is essential to apply the latest state-of-the-art techniques in developing a system to detect online offensive language and to ensure social justice to the online communities. Our study investigates the effects of fine-tuning across several Arabic offensive language datasets. We develop multiple classifiers that use four datasets individually and in combination in order to gain knowledge about online Arabic offensive content and classify users comments accordingly. Our results demonstrate the limited effects of transfer learning on the classifiers performance, particularly for highly dialectal comments.
翻訳日:2022-03-13 17:21:12 公開日:2022-02-07
# 交通ルールに基づく実際の道路利用者行動の定量化

Quantification of Actual Road User Behavior on the Basis of Given Traffic Rules ( http://arxiv.org/abs/2202.09269v1 )

ライセンス: Link先を確認
Daniel Bogdoll and Moritz Nekolla and Tim Joseph and J. Marius Z\"ollner(参考訳) 道路上での運転は、すべての交通参加者の安全を確保するため、様々な交通規則によって制限されている。 しかし、人間の道路利用者は通常これらの規則に厳密に従わないため、規則の順応性は様々である。 このようなルールからの逸脱は、今日の道路交通の重要な要素である。 自律運転では、ロボットエージェントはルール偏差を考慮していない場合、交通の流れを妨害することができる。 本稿では,人間の運転データから規則適合度の分布を導出する手法を提案する。 Waymo Open Motion データセットとSafety Distance および Speed Limit ルールを用いて本手法を実証する。

Driving on roads is restricted by various traffic rules, aiming to ensure safety for all traffic participants. However, human road users usually do not adhere to these rules strictly, resulting in varying degrees of rule conformity. Such deviations from given rules are key components of today's road traffic. In autonomous driving, robotic agents can disturb traffic flow, when rule deviations are not taken into account. In this paper, we present an approach to derive the distribution of degrees of rule conformity from human driving data. We demonstrate our method with the Waymo Open Motion dataset and Safety Distance and Speed Limit rules.
翻訳日:2022-02-27 17:35:48 公開日:2022-02-07
# (参考訳) 再帰的混合整数プログラムのよい解を見つけるためのエントロピーの最小化 [全文訳有]

Minimizing Entropy to Discover Good Solutions to Recurrent Mixed Integer Programs ( http://arxiv.org/abs/2202.06736v1 )

ライセンス: CC BY 4.0
Charly Robinson La Rocca, Emma Frejinger, Jean-Fran\c{c}ois Cordeau(参考訳) 混合整数プログラミング(MIP)問題に対する最先端の解法は,幅広い問題に対して良好に動作するように設計されている。 しかし、現実世界の多くのユースケースでは、問題インスタンスは狭い分布から来ている。 これは、履歴データセットの情報を利用してヒューリスティックスの設計を導くことができる専門的な手法の開発を動機付けた。 近年の研究では、機械学習(ML)をMIPソルバと統合してドメイン知識を注入し、最適性ギャップを効率的に閉じることが示されている。 このハイブリダイゼーションは通常、大きなデータセットと広範なハイパーパラメータチューニングを必要とするディープ・ラーニング(DL)によって行われる。 本稿では、エントロピーの概念を用いて、最小限のトレーニングデータとチューニングで効率的にモデルを構築するオンラインヒューリスティックを提案する。 本稿では,大規模に解決が困難な実世界の問題である機関車代入問題(LAP)について検討する。 実験の結果, 相対ギャップが2%未満の汎用解法 (CPLEX) と比較して, 桁違いのスピードアップが認められた。 また、いくつかのケースでは、我々のメソッドは時間制限内でCPLEXよりも優れた解を見つけることができる。

Current state-of-the-art solvers for mixed-integer programming (MIP) problems are designed to perform well on a wide range of problems. However, for many real-world use cases, problem instances come from a narrow distribution. This has motivated the development of specialized methods that can exploit the information in historical datasets to guide the design of heuristics. Recent works have shown that machine learning (ML) can be integrated with an MIP solver to inject domain knowledge and efficiently close the optimality gap. This hybridization is usually done with deep learning (DL), which requires a large dataset and extensive hyperparameter tuning to perform well. This paper proposes an online heuristic that uses the notion of entropy to efficiently build a model with minimal training data and tuning. We test our method on the locomotive assignment problem (LAP), a recurring real-world problem that is challenging to solve at scale. Experimental results show a speed up of an order of magnitude compared to a general purpose solver (CPLEX) with a relative gap of less than 2%. We also observe that for some instances our method can discover better solutions than CPLEX within the time limit.
翻訳日:2022-02-20 17:17:01 公開日:2022-02-07
# 大学生のメンタルヘルスに及ぼすcovid-19とオンライン学習の影響に関する人工知能による分析

Artificial Intelligence-Based Analytics for Impacts of COVID-19 and Online Learning on College Students' Mental Health ( http://arxiv.org/abs/2202.07441v1 )

ライセンス: Link先を確認
Mostafa Rezapour, Scott K. Elmshaeuser(参考訳) 新型コロナウイルス感染症(SARS-CoV-2)は、2019年12月下旬に中国の武漢で初めて発見された。 その直後、このウイルスは世界中に広まり、2020年3月に世界保健機関(WHO)によってパンデミックと宣言された。 これは世界やアメリカ合衆国で多くの変化を引き起こした。 こうした変化の1つは、オンライン学習への移行だった。 本稿では,新型コロナウイルスのパンデミックとオンライン学習が大学生の感情健康に与える影響を理解することを目的とする。 これを実現するために,我々は,スロベニアのリュブリャナ大学公共行政学部が収集したデータと,大学,他の高等教育機関,学生協会の国際コンソーシアムのデータを,機械学習および統計モデルを用いて分析する。 その結果,学習モダリティ(対面,オンライン同期,オンライン非同期など)は,学生の感情的幸福度の主要な予測要因であり,次いで金融セキュリティが続くことが示唆された。 大学や政府のパンデミック対応に対する満足感などの要因も重要な予測要因である。

COVID-19, the disease caused by the novel coronavirus (SARS-CoV-2), was first found in Wuhan, China late in the December of 2019. Not long after that the virus spread worldwide and was declared a pandemic by the World Health Organization in March 2020. This caused many changes around the world and in the United States. One of these changes was the shift towards online learning. In this paper, we seek to understand how the COVID-19 pandemic and online learning impact college students' emotional wellbeing. To do this we use several machine learning and statistical models to analyze data collected by the Faculty of Public Administration at the University of Ljubljana, Slovenia in conjunction with an international consortium of universities, other higher education institutions and students' associations. Our results indicate that learning modality (face-to-face, online synchronous, online asynchronous, etc.) is the main predictor of students' emotional wellbeing, followed by financial security. Factors such as satisfaction with their university's and government's handling of the pandemic are also important predictors.
翻訳日:2022-02-20 16:31:17 公開日:2022-02-07
# blind lead blind: 連合学習に対するゼロ知識攻撃

Blind leads Blind: A Zero-Knowledge Attack on Federated Learning ( http://arxiv.org/abs/2202.05877v1 )

ライセンス: Link先を確認
Jiyue Huang, Zilong Zhao, Lydia Y. Chen, Stefanie Roos(参考訳) フェデレーション学習(fl)に対する攻撃は、生成されたモデルの品質を著しく低下させ、オンプレミスの分散学習を可能にするこの新興学習パラダイムの有用性を制限できる。 FLに対する様々な未標的攻撃があったが、それらが広く適用されていない。 i) 攻撃者は、実際に暗号化形式で中央サーバに送信される良性クライアントの更新を全て知っていると仮定する、又は 二 攻撃者が、良質な当事者を模倣した更新をローカルに訓練するために、大きなデータセットと十分なリソースを持っていると仮定する。 本稿では,ゼロ知識未目標攻撃(ZKA)を設計し,悪意あるクライアントの送信を全く盗むことなく,あるいは大量のタスク固有の訓練データを必要とすることなく,悪意あるデータを合成して敵モデルを構築する。 FLシステムに悪意のある入力を合成データで注入するために、ZKAには2つのバリエーションがある。 ZKA-Rは、地球モデルから工学を逆転させることにより、逆不明瞭なデータを生成する。 ステルス性を実現するため、zka-gはランダムに選択されたクラスとは異なる画像を合成することを目的としたジェネレータからの合成データのローカルモデルをトレーニングする。 さらに,両攻撃に対する距離に基づく新しい正規化用語を追加し,さらにステルス性を高める。 Fashion-MNIST と CIFAR-10 の実験結果から、ZKA は様々な防御機構に対する最先端の未標的攻撃(Cifar-10 の50%以上)と類似またはそれ以上の攻撃成功率を達成することが示された。 予想通り、ZKA-Gは防御の回避に優れており、ZKA-Rが70%しか達成できないときでも90%近い防衛パス率を示す。 高いデータの均一性は、検出が困難になるため、ZKA-Rを好む。

Attacks on Federated Learning (FL) can severely reduce the quality of the generated models and limit the usefulness of this emerging learning paradigm that enables on-premise decentralized learning. There have been various untargeted attacks on FL, but they are not widely applicable as they i) assume that the attacker knows every update of benign clients, which is indeed sent in encrypted form to the central server, or ii) assume that the attacker has a large dataset and sufficient resources to locally train updates imitating benign parties. In this paper, we design a zero-knowledge untargeted attack (ZKA), which synthesizes malicious data to craft adversarial models without eavesdropping on the transmission of benign clients at all or requiring a large quantity of task-specific training data. To inject malicious input into the FL system by synthetic data, ZKA has two variants. ZKA-R generates adversarial ambiguous data by reversing engineering from the global models. To enable stealthiness, ZKA-G trains the local model on synthetic data from the generator that aims to synthesize images different from a randomly chosen class. Furthermore, we add a novel distance-based regularization term for both attacks to further enhance stealthiness. Experimental results on Fashion-MNIST and CIFAR-10 show that the ZKA achieves similar or even higher attack success rate than the state-of-the-art untargeted attacks against various defense mechanisms, namely more than 50% for Cifar-10 for all considered defense mechanisms. As expected, ZKA-G is better at circumventing defenses, even showing a defense pass rate of close to 90% when ZKA-R only achieves 70%. Higher data heterogeneity favours ZKA-R since detection becomes harder.
翻訳日:2022-02-20 16:22:30 公開日:2022-02-07
# IoTネットワークにおける負荷分散に基づくマルチドメインVNEアルゴリズム

A Multi-Domain VNE Algorithm based on Load Balancing in the IoT networks ( http://arxiv.org/abs/2202.05667v1 )

ライセンス: Link先を確認
Peiying Zhang, Fanglin Liu, Chunxiao Jiang, Abderrahim Benslimane, Juan-Luis Gorricho, Joan Serrat-Fernacute(参考訳) 仮想ネットワーク埋め込みは,ネットワーク仮想化の重要な問題のひとつだ。 仮想ネットワークマッピングはnp問題であるため、多くの研究が進化アルゴリズムの傑作遺伝的アルゴリズムに焦点を当てている。 しかし、従来の方法のパラメータ設定は経験に依存しすぎており、柔軟性が低いため、ますます複雑なネットワーク環境に適応できない。 さらに、ロードバランシングを考慮しないリンクマッピング戦略は、高トラフィック環境におけるリンクブロッキングを容易に引き起こすことができる。 医療、災害救助、生命維持、その他の機器を含むIoT環境においては、ネットワーク性能と安定性が特に重要である。 したがって、大量のトラフィックを持つ異種ネットワーク環境において、より柔軟な仮想ネットワークマッピングサービスを提供する方法は、緊急の問題である。 この問題を解決するために,ハイブリッド遺伝的アルゴリズムに基づく仮想ネットワークマッピング戦略を提案する。 この戦略は動的に計算された交叉確率とフェロモンに基づく変異遺伝子選択戦略を用いてアルゴリズムの柔軟性を向上させる。 また,負荷バランスに基づく重み更新機構を導入し,負荷バランスを保ちながらマッピング障害の確率を低減する。 シミュレーションの結果,提案手法は, 平均推定, リンク負荷分散, マッピングコスト-便益比, 受入率, ランニング時間など, 多数の性能指標で良好に動作することがわかった。

Virtual network embedding is one of the key problems of network virtualization. Since virtual network mapping is an NP-hard problem, a lot of research has focused on the evolutionary algorithm's masterpiece genetic algorithm. However, the parameter setting in the traditional method is too dependent on experience, and its low flexibility makes it unable to adapt to increasingly complex network environments. In addition, link-mapping strategies that do not consider load balancing can easily cause link blocking in high-traffic environments. In the IoT environment involving medical, disaster relief, life support and other equipment, network performance and stability are particularly important. Therefore, how to provide a more flexible virtual network mapping service in a heterogeneous network environment with large traffic is an urgent problem. Aiming at this problem, a virtual network mapping strategy based on hybrid genetic algorithm is proposed. This strategy uses a dynamically calculated cross-probability and pheromone-based mutation gene selection strategy to improve the flexibility of the algorithm. In addition, a weight update mechanism based on load balancing is introduced to reduce the probability of mapping failure while balancing the load. Simulation results show that the proposed method performs well in a number of performance metrics including mapping average quotation, link load balancing, mapping cost-benefit ratio, acceptance rate and running time.
翻訳日:2022-02-20 16:21:29 公開日:2022-02-07
# EquiBind: 薬物結合構造予測のための幾何学的深層学習

EquiBind: Geometric Deep Learning for Drug Binding Structure Prediction ( http://arxiv.org/abs/2202.05146v1 )

ライセンス: Link先を確認
Hannes St\"ark, Octavian-Eugen Ganea, Lagnajit Pattanaik, Regina Barzilay, Tommi Jaakkola(参考訳) 薬物のような分子が特定のタンパク質標的にどのように結合するかを予測することは、薬物発見における中核的な問題である。 非常に高速な計算結合手法は、高速仮想スクリーニングや薬物工学のような重要な応用を可能にする。 既存の手法は、スコア、ランキング、微調整のステップと合わせて、重い候補サンプリングに依存するため、計算コストがかかる。 両者の直接ショット予測を行うSE(3)等変幾何深層学習モデルであるEquiBindで、このパラダイムに挑戦する。 一 受容体結合位置(ブラインドドッキング)及び 二 リガンドの束縛されたポーズ及び向き equibindは従来のベースラインや最近のベースラインと比べて、大幅なスピードアップと品質向上を実現している。 さらに,既存の微調整技術と組み合わせることで,ランニング時間の増加を犠牲にすることで,さらなる改善を示す。 最後に,von Mises角距離から与えられた入力原子点雲への閉形式大域最小値に基づいて,リガンドの回転可能な結合のねじれ角を調整し,エネルギー最小化のための従来の高価な微分進化戦略を回避する新しい高速微調整モデルを提案する。

Predicting how a drug-like molecule binds to a specific protein target is a core problem in drug discovery. An extremely fast computational binding method would enable key applications such as fast virtual screening or drug engineering. Existing methods are computationally expensive as they rely on heavy candidate sampling coupled with scoring, ranking, and fine-tuning steps. We challenge this paradigm with EquiBind, an SE(3)-equivariant geometric deep learning model performing direct-shot prediction of both i) the receptor binding location (blind docking) and ii) the ligand's bound pose and orientation. EquiBind achieves significant speed-ups and better quality compared to traditional and recent baselines. Further, we show extra improvements when coupling it with existing fine-tuning techniques at the cost of increased running time. Finally, we propose a novel and fast fine-tuning model that adjusts torsion angles of a ligand's rotatable bonds based on closed-form global minima of the von Mises angular distance to a given input atomic point cloud, avoiding previous expensive differential evolution strategies for energy minimization.
翻訳日:2022-02-11 17:00:40 公開日:2022-02-07
# DeepSSN:空間的シーンの類似性を評価するディープ畳み込みニューラルネットワーク

DeepSSN: a deep convolutional neural network to assess spatial scene similarity ( http://arxiv.org/abs/2202.04755v1 )

ライセンス: Link先を確認
Danhuai Guo, Shiyin Ge, Shu Zhang, Song Gao, Ran Tao, Yangang Wang(参考訳) spatial-query-by-ske tchは、地理環境に関する人間の空間知識を探求し、シーンデータベースクエリとの通信をサポートするための直感的なツールである。 しかしながら、従来のスケッチに基づく空間探索手法は、メンタルスケッチから隠れたマルチスケールの地図特徴を見つけることができないため、不十分に機能する。 本研究では,Deep Space Scene Network(DeepSSN)と呼ばれる深層畳み込みニューラルネットワークを提案する。 DeepSSNでは、類似性評価をサポートするために三重項損失関数を包括距離メートル法として設計する。 空間的推論における定性的制約ネットワークを用いた正負の例採鉱戦略は、トレーニング過程における三重項の連続的な区別を確保するために設計されている。 さらに,提案したDeepSSNを用いて,スケッチマップによる空間クエリをユーザが入力し,スケッチ学習データを自動的に拡張できる空間シーン検索システムを開発した。 提案モデルは,データ拡張後の131,300のラベル付きシーンサンプルを含む多元コンフラットマップデータを用いて検証される。 実験結果から,deepssnは,k-nearest-neighbors ,多層パーセプトロン,alexnet,drknet,resn etなどのベースライン法を,平均相互ランクと精度指標を用いて上回っている。 本研究では,空間的シーンクエリに適した新しい深層学習手法を導入することにより,地理情報検索研究を進める。

Spatial-query-by-ske tch is an intuitive tool to explore human spatial knowledge about geographic environments and to support communication with scene database queries. However, traditional sketch-based spatial search methods perform insufficiently due to their inability to find hidden multi-scale map features from mental sketches. In this research, we propose a deep convolutional neural network, namely Deep Spatial Scene Network (DeepSSN), to better assess the spatial scene similarity. In DeepSSN, a triplet loss function is designed as a comprehensive distance metric to support the similarity assessment. A positive and negative example mining strategy using qualitative constraint networks in spatial reasoning is designed to ensure a consistently increasing distinction of triplets during the training process. Moreover, we develop a prototype spatial scene search system using the proposed DeepSSN, in which the users input spatial query via sketch maps and the system can automatically augment the sketch training data. The proposed model is validated using multi-source conflated map data including 131,300 labeled scene samples after data augmentation. The empirical results demonstrate that the DeepSSN outperforms baseline methods including k-nearest-neighbors, multilayer perceptron, AlexNet, DenseNet, and ResNet using mean reciprocal rank and precision metrics. This research advances geographic information retrieval studies by introducing a novel deep learning method tailored to spatial scene queries.
翻訳日:2022-02-11 14:44:31 公開日:2022-02-07
# (参考訳) ReCOVER: 組換え薬の合成モデル最適化プラットフォームはin vitroで新規な相乗的化合物を同定する [全文訳有]

RECOVER: sequential model optimization platform for combination drug repurposing identifies novel synergistic compounds in vitro ( http://arxiv.org/abs/2202.04202v1 )

ライセンス: CC BY 4.0
Paul Bertin, Jarrid Rector-Brooks, Deepak Sharma, Thomas Gaudelet, Andrew Anighoro, Torsten Gross, Francisco Martinez-Pena, Eileen L. Tang, Suraj M S, Cristian Regep, Jeremy Hayter, Maksym Korablyov, Nicholas Valiante, Almer van der Sloot, Mike Tyers, Charles Roberts, Michael M. Bronstein, Luke L. Lairson, Jake P. Taylor-King, and Yoshua Bengio(参考訳) さらなる前臨床開発のために最適な薬物再生産の組み合わせを選択することは、技術的な課題である。 多くの治療剤(化学療法など)の毒性のため、高い有効性を維持しながら低用量で使用できる相乗効果のある化合物の選択が推奨されている。 固定された小さな分子ライブラリーでは、徹底的な組合せ化学スクリーンが学術的、産業的な実験室でも実行できなくなる。 ディープラーニングモデルは、シナジースコアの予測のためにsilicoで最先端の結果を達成している。 しかしながら、薬物の組み合わせのデータベースは相乗的エージェントに非常に偏りがあり、これらの結果は必ずしも分布から一般化するとは限らない。 深層学習モデルに適用した逐次モデル最適化探索を用いて,がん細胞株に対して高い相乗効果を持つ薬物の組み合わせを迅速に発見する。 モデルを新たに取得したデータに反復的に適応させることにより,ml誘導実験(キャリブレーションラウンドを含む)を3回のみ行った結果,モデルで検索したコンビネーションの組が高度に相乗的なコンビネーションのために豊かになることがわかった。 臨床的に検討中であることが判明した相乗的薬物の組み合わせが再発見された。

Selecting optimal drug repurposing combinations for further preclinical development is a challenging technical feat. Due to the toxicity of many therapeutic agents (e.g., chemotherapy), practitioners have favoured selection of synergistic compounds whereby lower doses can be used whilst maintaining high efficacy. For a fixed small molecule library, an exhaustive combinatorial chemical screen becomes infeasible to perform for academic and industry laboratories alike. Deep learning models have achieved state-of-the-art results in silico for the prediction of synergy scores. However, databases of drug combinations are highly biased towards synergistic agents and these results do not necessarily generalise out of distribution. We employ a sequential model optimization search applied to a deep learning model to quickly discover highly synergistic drug combinations active against a cancer cell line, while requiring substantially less screening than an exhaustive evaluation. Through iteratively adapting the model to newly acquired data, after only 3 rounds of ML-guided experimentation (including a calibration round), we find that the set of combinations queried by our model is enriched for highly synergistic combinations. Remarkably, we rediscovered a synergistic drug combination that was later confirmed to be under study within clinical trials.
翻訳日:2022-02-11 07:50:37 公開日:2022-02-07
# VAEL: 変分オートエンコーダのブリッジングと確率論理プログラミング

VAEL: Bridging Variational Autoencoders and Probabilistic Logic Programming ( http://arxiv.org/abs/2202.04178v1 )

ライセンス: Link先を確認
Eleonora Misino, Giuseppe Marra, Emanuele Sansone(参考訳) 本稿では,可変オートエンコーダ(vae)と確率論理(l)プログラミングの推論能力を統合するニューロシンボリック生成モデルvaelを提案する。 標準潜伏部分シンボリック変数の他に,確率論的論理プログラムを用いて,論理推論に使用される構造的表現を定義する。 プロセス全体はエンドツーエンドで微分可能である。 VAELはトレーニングが終わったら、目に見えない新しいタスクを解決できる (i)神経成分に符号化された予め獲得した知識の活用及び (ii)構造化潜在空間における新しい論理プログラムの活用 本実験は,タスクの一般化とデータ効率の両面から,このニューロシンボリック統合の利点を裏付けるものである。 我々の知る限りでは、確率論的論理プログラミングを深い生成モデルに統合する汎用的なエンドツーエンドフレームワークを最初に提案する。

We present VAEL, a neuro-symbolic generative model integrating variational autoencoders (VAE) with the reasoning capabilities of probabilistic logic (L) programming. Besides standard latent subsymbolic variables, our model exploits a probabilistic logic program to define a further structured representation, which is used for logical reasoning. The entire process is end-to-end differentiable. Once trained, VAEL can solve new unseen generation tasks by (i) leveraging the previously acquired knowledge encoded in the neural component and (ii) exploiting new logical programs on the structured latent space. Our experiments provide support on the benefits of this neuro-symbolic integration both in terms of task generalization and data efficiency. To the best of our knowledge, this work is the first to propose a general-purpose end-to-end framework integrating probabilistic logic programming into a deep generative model.
翻訳日:2022-02-10 15:46:50 公開日:2022-02-07
# (参考訳) 赤外線画像強調技術の性能評価 [全文訳有]

Performance Evaluation of Infrared Image Enhancement Techniques ( http://arxiv.org/abs/2202.03427v1 )

ライセンス: CC BY 4.0
Rania Gaber, AbdElmgied Ali, and Kareem Ahmed(参考訳) 赤外線画像は医療画像、物体追跡、天文学、国境確保のための軍事目的など多くの分野で広く利用されている。 赤外線画像は、撮影装置の種類に応じて昼夜撮影することができる。 捕獲装置は長い波長の電磁波を使用する。 波長範囲と対応する周波数に基づいて、いくつかの種類のir放射が存在する。 ノイズやその他のアーティファクトのため、IR画像ははっきりとは見えない。 本稿では、赤外線画像強調技術に関する最新の調査について述べる。 調査には、IR放射型とデバイス、既存のIRデータセットが含まれている。 本調査は,空間拡張技術,周波数領域に基づく強化技術,深層学習に基づく手法を対象とする。

Infrared (IR) images are widely used in many fields such as medical imaging, object tracking, astronomy and military purposes for securing borders. Infrared images can be captured day or night based on the type of capturing device. The capturing devices use electromagnetic radiation with longer wavelengths. There are several types of IR radiation based on the range of wavelength and corresponding frequency. Due to noising and other artifacts, IR images are not clearly visible. In this paper, we present a complete up-todate survey on IR imaging enhancement techniques. The survey includes IR radiation types and devices and existing IR datasets. The survey covers spatial enhancement techniques, frequency-domain based enhancement techniques and Deep learning-based techniques.
翻訳日:2022-02-10 08:27:07 公開日:2022-02-07
# (参考訳) ディープメトリック変分オートエンコーダを用いたマルチモーダルデータ生成 [全文訳有]

Multi-modal data generation with a deep metric variational autoencoder ( http://arxiv.org/abs/2202.03434v1 )

ライセンス: CC BY 4.0
Josefine Vilsb{\o}ll Sundgaard, Morten Rieger Hannemose, S{\o}ren Laugesen, Peter Bray, James Harte, Yosuke Kamide, Chiemi Tanaka, Rasmus R. Paulsen, and Anders Nymark Christensen(参考訳) マルチモーダルデータ生成のためのディープメトリック変分オートエンコーダを提案する。 変分オートエンコーダは、各クラスクラスタ内の潜在空間でサンプリングすることで条件付きデータ生成を可能にする潜在空間における三重項損失を用いる。 本手法は, 広帯域ティンパノメトリー測定による鼓膜観察画像からなるマルチモーダルデータセットを用いて評価した。 このデータセットのモダリティは、中耳の状態の異なる側面を表すため相関するが、直接の画素間相関は示さない。 このアプローチは、画像とタイパノグラムのペアの条件付き生成に有望な結果を示し、マルチモーダルソースからのデータの効率的なデータ拡張を可能にする。

We present a deep metric variational autoencoder for multi-modal data generation. The variational autoencoder employs triplet loss in the latent space, which allows for conditional data generation by sampling in the latent space within each class cluster. The approach is evaluated on a multi-modal dataset consisting of otoscopy images of the tympanic membrane with corresponding wideband tympanometry measurements. The modalities in this dataset are correlated, as they represent different aspects of the state of the middle ear, but they do not present a direct pixel-to-pixel correlation. The approach shows promising results for the conditional generation of pairs of images and tympanograms, and will allow for efficient data augmentation of data from multi-modal sources.
翻訳日:2022-02-10 08:11:21 公開日:2022-02-07
# (参考訳) モデルベース強化学習のための報酬評価サブタスク [全文訳有]

Reward-Respecting Subtasks for Model-Based Reinforcement Learning ( http://arxiv.org/abs/2202.03466v1 )

ライセンス: CC BY 4.0
Richard S. Sutton and Marlos C. Machado and G. Zacharias Holland and David Szepesvari Finbarr Timbers and Brian Tanner and Adam White(参考訳) 人工知能の野心的な目標を達成するために、強化学習は、状態と時間に抽象的な世界のモデルによる計画を含む必要がある。 ディープラーニングは状態抽象化を進歩させたが、時間抽象化の理論はオプションフレームワークに基づいて広範囲に開発されてきたが、実際には計画にはほとんど使われていない。 この理由の1つは、オプションの空間が巨大であり、オプション発見のために提案されたメソッドは、オプションモデルが計画にどのように使用されるかを考慮していない。 オプションは通常、ボトルネック状態に到達する、または報酬以外の感覚信号を最大化するといった補助的なタスクを実行することで発見される。 各サブタスクは、オプションを生成するために解決され、オプションのモデルが学習され、計画プロセスで利用できる。 提案するサブタスクは,従来の問題に対する報酬を無視するのに対して,オプションが停止した時の状態の特徴に基づいて,元の報酬とボーナスを併用するサブタスクを提案する。 このような報酬評価サブタスクから得られるオプションやオプションモデルは、計画に有用である可能性が高く、既存の学習アルゴリズムを使用して、オンラインやオフポリシーで学ぶことができる。 サブタスクを尊重するリワードは、オプションの空間を強く制約し、オプション発見の問題に対する部分解を提供する。 最後に、一般的な値関数を用いて、値、ポリシー、オプション、モデルを学ぶアルゴリズムをどのように統合するかを示す。

To achieve the ambitious goals of artificial intelligence, reinforcement learning must include planning with a model of the world that is abstract in state and time. Deep learning has made progress in state abstraction, but, although the theory of time abstraction has been extensively developed based on the options framework, in practice options have rarely been used in planning. One reason for this is that the space of possible options is immense and the methods previously proposed for option discovery do not take into account how the option models will be used in planning. Options are typically discovered by posing subsidiary tasks such as reaching a bottleneck state, or maximizing a sensory signal other than the reward. Each subtask is solved to produce an option, and then a model of the option is learned and made available to the planning process. The subtasks proposed in most previous work ignore the reward on the original problem, whereas we propose subtasks that use the original reward plus a bonus based on a feature of the state at the time the option stops. We show that options and option models obtained from such reward-respecting subtasks are much more likely to be useful in planning and can be learned online and off-policy using existing learning algorithms. Reward respecting subtasks strongly constrain the space of options and thereby also provide a partial solution to the problem of option discovery. Finally, we show how the algorithms for learning values, policies, options, and models can be unified using general value functions.
翻訳日:2022-02-10 08:02:08 公開日:2022-02-07
# (参考訳) Targeted-BEHRT:縦型電子健康記録における観察因果推論のための深層学習 [全文訳有]

Targeted-BEHRT: Deep learning for observational causal inference on longitudinal electronic health records ( http://arxiv.org/abs/2202.03487v1 )

ライセンス: CC BY 4.0
Shishir Rao, Mohammad Mamouei, Gholamreza Salimi-Khorshidi, Yikuan Li, Rema Ramakrishnan, Abdelaali Hassaine, Dexter Canoy, Kazem Rahimi(参考訳) 観察因果推論は、ランダム化臨床試験(RCT)が無効または一般化できない場合に、医学における意思決定に有用である。 しかし、伝統的なアプローチは、実際には根拠のない因果的結論を出すことができない。 二重ロバストな」非パラメトリックツールの台頭と、マルチモーダルデータのリッチな表現を捉えるためのディープラーニングの成長は、包括的な電子健康記録(ehr)上で因果推論のためのモデルを開発し、テストするためのユニークな機会を提供する。 本稿では,RCTが確立したNull causal associationの因果モデリングについて検討する。 我々は,我々の観測研究のためのデータセットと,2倍のロバストな推定を併用したトランスフォーマーモデルを構築し,平均リスク比(rr)を推定した。 本モデルと統計モデルと深層学習モデルを比較し,データセットの半合成導出実験における因果推論について,各種の型と組合せの強度について検討した。 提案手法の信頼性をさらに検証するため,限られたデータの状況においてモデルをテストする。 本モデルは,高次元ehrにおけるリスク比推定のためのベンチマークと比較し,rr (least sum absolute error from ground truth) を精度良く推定できることを見出した。 最後に,本モデルを用いて,がんに対する降圧薬の効果を検証し,本モデルが一般的に有効なヌル結合を捉えることを実証した。

Observational causal inference is useful for decision making in medicine when randomized clinical trials (RCT) are infeasible or non generalizable. However, traditional approaches fail to deliver unconfounded causal conclusions in practice. The rise of "doubly robust" non-parametric tools coupled with the growth of deep learning for capturing rich representations of multimodal data, offers a unique opportunity to develop and test such models for causal inference on comprehensive electronic health records (EHR). In this paper, we investigate causal modelling of an RCT-established null causal association: the effect of antihypertensive use on incident cancer risk. We develop a dataset for our observational study and a Transformer-based model, Targeted BEHRT coupled with doubly robust estimation, we estimate average risk ratio (RR). We compare our model to benchmark statistical and deep learning models for causal inference in multiple experiments on semi-synthetic derivations of our dataset with various types and intensities of confounding. In order to further test the reliability of our approach, we test our model on situations of limited data. We find that our model provides more accurate estimates of RR (least sum absolute error from ground truth) compared to benchmarks for risk ratio estimation on high-dimensional EHR across experiments. Finally, we apply our model to investigate the original case study: antihypertensives&#x 27; effect on cancer and demonstrate that our model generally captures the validated null association.
翻訳日:2022-02-10 07:42:37 公開日:2022-02-07
# (参考訳) ラウンドufpとラウンドsapの近似アルゴリズム [全文訳有]

Approximation Algorithms for ROUND-UFP and ROUND-SAP ( http://arxiv.org/abs/2202.03492v1 )

ライセンス: CC BY 4.0
Debajyoti Kar, Arindam Khan, Andreas Wiese(参考訳) ROUND-UFP と ROUND-SAP は,経路 (UFP) 上の不安定な流れ問題に対応する古典的 BIN パッキング問題の2つの一般化である。 エッジに能力を持ったパスと,各タスクに対して要求とサブパスが与えられる一連のタスクが与えられます。 ROUND-UFPでは、すべてのタスクを与えられたパスの最小数のコピー(ラウンド)にまとめることが目標であり、それぞれのコピーに対して、エッジ上のタスクの総需要がそれぞれのエッジの容量を超えない。 ROUND-SAP では、これらのタスクは長方形と見なされ、その目標は、すべての矩形がエッジの容量プロファイルを完全に下回るように、これらの長方形を最小数のラウンドに重ね合わせることにある。 ビンパッキングとは対照的に,すべてのエッジ容量が等しい場合でも,両問題は漸近多項式時間近似スキーム(aptas)を認めないことを示した。 しかし、この設定では、両方の問題に対する漸近的な$(2+\varepsilon)$-approx imationsを得る。 一般的な場合、どちらの問題に対しても$O(\log\log n)$-approximationアルゴリズムと$O(\log\log\frac{1}{\delta})$-approximationを$(1+\delta)$-resource augmentationで得られる。 ボトルネックのない仮定の中間設定(つまり、最大タスク要求は最低限のエッジ容量)では、それぞれROUND-UFP と ROUND-SAP の絶対 12$- と漸近 $ 16+\varepsilon の近似アルゴリズムを得る。

We study ROUND-UFP and ROUND-SAP, two generalizations of the classical BIN PACKING problem that correspond to the unsplittable flow problem on a path (UFP) and the storage allocation problem (SAP), respectively. We are given a path with capacities on its edges and a set of tasks where for each task we are given a demand and a subpath. In ROUND-UFP, the goal is to find a packing of all tasks into a minimum number of copies (rounds) of the given path such that for each copy, the total demand of tasks on any edge does not exceed the capacity of the respective edge. In ROUND-SAP, the tasks are considered to be rectangles and the goal is to find a non-overlapping packing of these rectangles into a minimum number of rounds such that all rectangles lie completely below the capacity profile of the edges. We show that in contrast to BIN PACKING, both the problems do not admit an asymptotic polynomial-time approximation scheme (APTAS), even when all edge capacities are equal. However, for this setting, we obtain asymptotic $(2+\varepsilon)$-approx imations for both problems. For the general case, we obtain an $O(\log\log n)$-approximation algorithm and an $O(\log\log\frac{1}{\delta})$-approximation under $(1+\delta)$-resource augmentation for both problems. For the intermediate setting of the no bottleneck assumption (i.e., the maximum task demand is at most the minimum edge capacity), we obtain absolute $12$- and asymptotic $(16+\varepsilon)$-approx imation algorithms for ROUND-UFP and ROUND-SAP, respectively.
翻訳日:2022-02-10 07:21:01 公開日:2022-02-07
# (参考訳) DeepStability: ディープラーニングにおける不安定な数値手法とその解法に関する研究 [全文訳有]

DeepStability: A Study of Unstable Numerical Methods and Their Solutions in Deep Learning ( http://arxiv.org/abs/2202.03493v1 )

ライセンス: CC BY 4.0
E. Kloberdanz, K. G. Kloberdanz, W. Le(参考訳) 深層学習(DL)は、様々な重要な問題に対するソリューションの不可欠な部分となっているため、DLシステムの品質確保が不可欠である。 dlソフトウェアの信頼性と堅牢性を達成するための課題の1つは、アルゴリズムの実装が数値的に安定であることを保証することである。 DLアルゴリズムは多種多様な数値計算を必要とする。 数値計算のナイーブな実装は、誤った、あるいは不正確な学習と結果をもたらす可能性のある誤りにつながる可能性がある。 数値アルゴリズムや数式は、数学的に等価だが数値安定性の異なるいくつかの実装を持つことができる。 数値的に安定なアルゴリズムの実装を設計することは、ソフトウェア工学、DL、数値解析の学際的な知識を必要とするため困難である。 本稿では,2つの成熟したdlライブラリpytorchとtensorflowを調査し,不安定な数値手法とその解を同定することを目的とした。 具体的には,どのdlアルゴリズムが数値的に不安定であるかを調べ,根因,症状,パッチの数値不安定性について詳細な解析を行う。 これらの知見に基づいて,DLにおける数値安定性問題と解のデータベースを初めて立ち上げる。 我々は,数値的に不安定なアルゴリズムの実装を回避し,検出し,局所化し,修正するために,開発者やツールビルダーに今後の参照を提供する。 証明するために、 {\it DeepStability} を用いて、Tensorflow に数値安定性の問題を見つけ、受け入れ、マージされた修正を提出した。

Deep learning (DL) has become an integral part of solutions to various important problems, which is why ensuring the quality of DL systems is essential. One of the challenges of achieving reliability and robustness of DL software is to ensure that algorithm implementations are numerically stable. DL algorithms require a large amount and a wide variety of numerical computations. A naive implementation of numerical computation can lead to errors that may result in incorrect or inaccurate learning and results. A numerical algorithm or a mathematical formula can have several implementations that are mathematically equivalent, but have different numerical stability properties. Designing numerically stable algorithm implementations is challenging, because it requires an interdisciplinary knowledge of software engineering, DL, and numerical analysis. In this paper, we study two mature DL libraries PyTorch and Tensorflow with the goal of identifying unstable numerical methods and their solutions. Specifically, we investigate which DL algorithms are numerically unstable and conduct an in-depth analysis of the root cause, manifestation, and patches to numerical instabilities. Based on these findings, we launch, the first database of numerical stability issues and solutions in DL. Our findings and provide future references to developers and tool builders to prevent, detect, localize and fix numerically unstable algorithm implementations. To demonstrate that, using {\it DeepStability} we have located numerical stability issues in Tensorflow, and submitted a fix which has been accepted and merged in.
翻訳日:2022-02-10 06:43:28 公開日:2022-02-07
# (参考訳) 知識伝達, データ拡張, 事前学習による小型データセットにおける音声事象検出モデルの性能の最大化 [全文訳有]

Maximizing Audio Event Detection Model Performance on Small Datasets Through Knowledge Transfer, Data Augmentation, And Pretraining: An Ablation Study ( http://arxiv.org/abs/2202.03514v1 )

ライセンス: CC BY 4.0
Daniel Tompkins, Kshitiz Kumar, Jian Wu(参考訳) Xceptionモデルは、ImageNet重みからの知識伝達、AudioSetでの事前トレーニング、およびオンザフライデータ拡張パイプラインによるオーディオイベント検出のためのESC-50データセットの最先端(SOTA)精度に達する。 本稿では,パフォーマンス向上とトレーニング時間向上に寄与するコンポーネントの分析を行うアブレーション研究について述べる。 より小さなXceptionモデルも提示され、パラメータの約3分の1でSOTAのパフォーマンスに近づいた。

An Xception model reaches state-of-the-art (SOTA) accuracy on the ESC-50 dataset for audio event detection through knowledge transfer from ImageNet weights, pretraining on AudioSet, and an on-the-fly data augmentation pipeline. This paper presents an ablation study that analyzes which components contribute to the boost in performance and training time. A smaller Xception model is also presented which nears SOTA performance with almost a third of the parameters.
翻訳日:2022-02-10 06:15:43 公開日:2022-02-07
# (参考訳) MINER:マルチスケールインシシトニューラル表現 [全文訳有]

MINER: Multiscale Implicit Neural Representations ( http://arxiv.org/abs/2202.03532v1 )

ライセンス: CC BY 4.0
Vishwanath Saragadam, Jasper Tan, Guha Balakrishnan, Richard G. Baraniuk, Ashok Veeraraghavan(参考訳) 大規模信号の効率的な高分解能表現を目的とした新しいニューラル信号表現を提案する。 当社のmultiscale implicit neural representation(miner )における重要なイノベーションは、ラプラシアンピラミッドによる内部表現です。 我々は,各スケールのピラミッドの小さな不整合パッチを小さなMLPで表現することで,ラプラシアピラミッドの利点を生かした。 これにより、ネットワークの容量を粗いものから細かいスケールに適応的に増加させ、信号の一部を強い信号エネルギーで表現できる。 各MLPのパラメータは粗いスケールから細かなスケールに最適化され、粗いスケールでの高速な近似が得られ、結果として極端に高速なトレーニングプロセスとなる。 我々は,ギガピクセル画像や非常に大きな点群を含む大規模信号表現タスクにMINERを適用し,パラメータの25%未満,メモリフットプリントの33%,ACORNなどの競合技術で同じ表現誤差に到達するためには10%の計算時間を必要とすることを示した。

We introduce a new neural signal representation designed for the efficient high-resolution representation of large-scale signals. The key innovation in our multiscale implicit neural representation (MINER) is an internal representation via a Laplacian pyramid, which provides a sparse multiscale representation of the signal that captures orthogonal parts of the signal across scales. We leverage the advantages of the Laplacian pyramid by representing small disjoint patches of the pyramid at each scale with a tiny MLP. This enables the capacity of the network to adaptively increase from coarse to fine scales, and only represent parts of the signal with strong signal energy. The parameters of each MLP are optimized from coarse-to-fine scale which results in faster approximations at coarser scales, thereby ultimately an extremely fast training process. We apply MINER to a range of large-scale signal representation tasks, including gigapixel images and very large point clouds, and demonstrate that it requires fewer than 25% of the parameters, 33% of the memory footprint, and 10% of the computation time of competing techniques such as ACORN to reach the same representation error.
翻訳日:2022-02-10 06:07:10 公開日:2022-02-07
# (参考訳) 視覚接地とマスキング言語モデルを用いた音声の自己教師あり表現学習 [全文訳有]

Self-Supervised Representation Learning for Speech Using Visual Grounding and Masked Language Modeling ( http://arxiv.org/abs/2202.03543v1 )

ライセンス: CC BY 4.0
Puyuan Peng and David Harwath(参考訳) 本稿では,ZeroSpeech 2021 Challenge and SUPERBベンチマークへの提案について述べる。 提案手法は,音声の文字起こしを使わずに生音声波形と意味的関連画像の関連付けを学習するトランスフォーマーモデルであるFaST-VGSモデルに基づく。 さらに,このモデルの新たな拡張であるFaST-VGS+を導入し,視覚的グラウンド化の目的に加えて,マスク付き言語モデリングの目的を持つマルチタスク方式で学習する。 ZeroSpeech 2021では、我々のモデルはABXタスク上で競合的に動作し、SyntacticおよびSemanticタスクにおける他のコンカレントサブミッションよりも優れており、Lexicalタスクにおける最高のシステムとほぼ一致していることを示す。 superbベンチマークでは、我々のモデルは、人気のあるwav2vec2.0モデルよりも優れたパフォーマンスを実現しています。

In this paper, we describe our submissions to the ZeroSpeech 2021 Challenge and SUPERB benchmark. Our submissions are based on the recently proposed FaST-VGS model, which is a Transformer-based model that learns to associate raw speech waveforms with semantically related images, all without the use of any transcriptions of the speech. Additionally, we introduce a novel extension of this model, FaST-VGS+, which is learned in a multi-task fashion with a masked language modeling objective in addition to the visual grounding objective. On ZeroSpeech 2021, we show that our models perform competitively on the ABX task, outperform all other concurrent submissions on the Syntactic and Semantic tasks, and nearly match the best system on the Lexical task. On the SUPERB benchmark, we show that our models also achieve strong performance, in some cases even outperforming the popular wav2vec2.0 model.
翻訳日:2022-02-10 05:52:22 公開日:2022-02-07
# (参考訳) LwPosr:軽量高効率微粒ヘッドポース推定 [全文訳有]

LwPosr: Lightweight Efficient Fine-Grained Head Pose Estimation ( http://arxiv.org/abs/2202.03544v1 )

ライセンス: CC BY-SA 4.0
Naina Dhingra(参考訳) 本稿では,頭部ポーズ推定(HPE)タスクのための軽量ネットワークを提案する。 従来のアプローチは畳み込みニューラルネットワークに依存しているが、提案するネットワーク \textit{lwposr} では、2つのストリームと3つのステージからなる奥行き分離畳み込み層(dsc)とトランスフォーマエンコーダ層が混在し、頭部ポーズを予測するための細粒度回帰を提供する。 提案するネットワークは,パラメータ空間を小さくして効率よく頭部ポーズを学習できることを示すために,定量的かつ定性的な実演を行う。 300W-LP, AFLW2000, BIWIの3つのオープンソースデータセットを用いて, 大規模な改善を行う。 我々の知る限り、(1) \textit{LwPosr} は、キーポイントベースおよびキーポイントフリーアプローチと比較して、頭部ポーズを推定するための最も軽量なネットワークであり、(2) 平均絶対誤差とパラメータ数の削減の両方で以前の軽量ネットワークをオーバーパフォーマンスするためのベンチマークを設定し、(3) DSCとトランスフォーマーの混合をHPEに使用するのはこれが初めてである。 このアプローチは軽量ネットワークを必要とするモバイルデバイスに適している。

This paper presents a lightweight network for head pose estimation (HPE) task. While previous approaches rely on convolutional neural networks, the proposed network \textit{LwPosr} uses mixture of depthwise separable convolutional (DSC) and transformer encoder layers which are structured in two streams and three stages to provide fine-grained regression for predicting head poses. The quantitative and qualitative demonstration is provided to show that the proposed network is able to learn head poses efficiently while using less parameter space. Extensive ablations are conducted using three open-source datasets namely 300W-LP, AFLW2000, and BIWI datasets. To our knowledge, (1) \textit{LwPosr} is the lightest network proposed for estimating head poses compared to both keypoints-based and keypoints-free approaches; (2) it sets a benchmark for both overperforming the previous lightweight network on mean absolute error and on reducing number of parameters; (3) it is first of its kind to use mixture of DSCs and transformer encoders for HPE. This approach is suitable for mobile devices which require lightweight networks.
翻訳日:2022-02-10 05:36:49 公開日:2022-02-07
# (参考訳) HeadPosr: トランスフォーマーエンコーダを用いたエンドツーエンドのトレーニング可能なヘッドポーズ推定 [全文訳有]

HeadPosr: End-to-end Trainable Head Pose Estimation using Transformer Encoders ( http://arxiv.org/abs/2202.03548v1 )

ライセンス: CC BY-SA 4.0
Naina Dhingra(参考訳) 本稿では,単一のrgb画像を用いて頭部ポーズの予測を行うheadposrを提案する。 \textit{HeadPosr} は、トランスフォーマーエンコーダを含む新しいアーキテクチャを使用する。 具体的には、(1)バックボーン、(2)コネクタ、(3)トランスフォーマーエンコーダ、(4)予測ヘッドで構成される。 変圧器エンコーダを用いたHPEの意義について検討した。 1)エンコーダ数,(2)ヘッド数,(3)異なる位置埋め込み,(4)異なるアクティベーション,(5)HeadPosrで使用されるトランスフォーマーにおける入力チャネルサイズについて広範囲にわたるアブレーション研究を行った。 さらに,(1)異なるバックボーン,(2)異なる学習率を用いた使用法についても検討した。 HPE、300W-LP、AFLW2000、BIWIの3つの異なるオープンソースで広く使われているデータセットを用いて、精巧な実験と改善研究を行う。 実験では、300W-LPでトレーニングされたAFLW2000データセットとBIWIデータセットのランドマークまたは深さ推定を用いて、ランドマークフリーと他の2つを含むすべての最先端メソッドよりもパフォーマンスが良くなっている。 また、比較したデータセットの結果を平均化することで、HPEの問題に対するベンチマークを設定し、最先端技術に対するトランスフォーマーの使用の有効性を示す。

In this paper, HeadPosr is proposed to predict the head poses using a single RGB image. \textit{HeadPosr} uses a novel architecture which includes a transformer encoder. In concrete, it consists of: (1) backbone; (2) connector; (3) transformer encoder; (4) prediction head. The significance of using a transformer encoder for HPE is studied. An extensive ablation study is performed on varying the (1) number of encoders; (2) number of heads; (3) different position embeddings; (4) different activations; (5) input channel size, in a transformer used in HeadPosr. Further studies on using: (1) different backbones, (2) using different learning rates are also shown. The elaborated experiments and ablations studies are conducted using three different open-source widely used datasets for HPE, i.e., 300W-LP, AFLW2000, and BIWI datasets. Experiments illustrate that \textit{HeadPosr} outperforms all the state-of-art methods including both the landmark-free and the others based on using landmark or depth estimation on the AFLW2000 dataset and BIWI datasets when trained with 300W-LP. It also outperforms when averaging the results from the compared datasets, hence setting a benchmark for the problem of HPE, also demonstrating the effectiveness of using transformers over the state-of-the-art.
翻訳日:2022-02-10 05:21:24 公開日:2022-02-07
# (参考訳) 協調型MARLのロバスト性評価 : モデルに基づくアプローチ [全文訳有]

Evaluating Robustness of Cooperative MARL: A Model-based Approach ( http://arxiv.org/abs/2202.03558v1 )

ライセンス: CC BY 4.0
Nhan H. Pham, Lam M. Nguyen, Jie Chen, Hoang Thanh Lam, Subhro Das, Tsui-Wei Weng(参考訳) 近年,協調型マルチエージェント強化学習(c-marl)のための手法が開発されている。 しかし、敵攻撃に対するc-MARL剤の堅牢性はめったに調査されていない。 本稿では,モデルベースアプローチを用いて,c-MARLエージェントの堅牢性を評価する。 提案した定式化により,c-MARLエージェントの対向状態摂動がより強くなり,既存のモデルフリーアプローチよりもチーム報酬の低減が図られる。 さらに,より強力な敵攻撃を展開できる最初の被害者・エージェント選択戦略を提案する。 マルチエージェント MuJoCo ベンチマークの数値実験では,他のベースラインに対するアプローチの利点が示されている。 提案されたモデルベースの攻撃は、テストされたすべての環境において、一貫して他のベースラインを上回る。

In recent years, a proliferation of methods were developed for cooperative multi-agent reinforcement learning (c-MARL). However, the robustness of c-MARL agents against adversarial attacks has been rarely explored. In this paper, we propose to evaluate the robustness of c-MARL agents via a model-based approach. Our proposed formulation can craft stronger adversarial state perturbations of c-MARL agents(s) to lower total team rewards more than existing model-free approaches. In addition, we propose the first victim-agent selection strategy which allows us to develop even stronger adversarial attack. Numerical experiments on multi-agent MuJoCo benchmarks illustrate the advantage of our approach over other baselines. The proposed model-based attack consistently outperforms other baselines in all tested environments.
翻訳日:2022-02-10 05:08:57 公開日:2022-02-07
# トポロジーアテンションconvlstmネットワークとそのem画像への応用

A Topology-Attention ConvLSTM Network and Its Application to EM Images ( http://arxiv.org/abs/2202.03430v1 )

ライセンス: Link先を確認
Jiaqi Yang, Xiaoling Hu, Chao Chen, and Chialing Tsai(参考訳) セグメンテーションの構造的精度は生体画像の微細な構造に重要である。 本研究では,3次元画像分割作業における高構造精度を実現するために,新しい3次元画像分割のためのTopologyAttention ConvLSTM Network (TACNet)を提案する。 具体的には,2次元画像スライスのスタックとして3次元画像を処理する空間トポロジーアテンション(sta)モジュールを提案し,隣接スライスからの文脈構造情報を活用するためにconvlstmを採用する。 スライス間でトポロジクリティカル情報を効果的に伝達するために,より安定したセグメンテーションのためのトポロジクリティカルマップを提供するIterative-Topology Attention (ITA)モジュールを提案する。 定量的および定性的な結果から,提案手法はトポロジ対応評価指標の点から,様々なベースラインよりも優れていることが示された。

Structural accuracy of segmentation is important for finescale structures in biomedical images. We propose a novel TopologyAttention ConvLSTM Network (TACNet) for 3D image segmentation in order to achieve high structural accuracy for 3D segmentation tasks. Specifically, we propose a Spatial Topology-Attention (STA) module to process a 3D image as a stack of 2D image slices and adopt ConvLSTM to leverage contextual structure information from adjacent slices. In order to effectively transfer topology-critical information across slices, we propose an Iterative-Topology Attention (ITA) module that provides a more stable topology-critical map for segmentation. Quantitative and qualitative results show that our proposed method outperforms various baselines in terms of topology-aware evaluation metrics.
翻訳日:2022-02-09 16:28:03 公開日:2022-02-07
# 病理組織学的パッチからのキャプションの推測

Inference of captions from histopathological patches ( http://arxiv.org/abs/2202.03432v1 )

ライセンス: Link先を確認
Masayuki Tsuneki, Fahdi Kanavati(参考訳) 計算病理学はここ数年で大きな進歩を遂げ、徐々に臨床応用に近づきつつある。 利点の1つは、H&Eが保持する全スライド画像から診断レポートを自動生成することで、病理医の日常的な診断ワークフローの効率をさらに高めることである。 本研究では,胃腺癌内視鏡的生検標本の病理組織学的キャプションのデータセット(patchgastricadc22)を,診断報告から抽出し,関連する全スライド画像から抽出したパッチと組み合わせた。 このデータセットは、様々な胃腺癌サブタイプを含む。 我々は,パッチから抽出した特徴からキャプションを予測し,有望な結果を得た。 キャプション付き262Kパッチのデータセットを公開しています。

Computational histopathology has made significant strides in the past few years, slowly getting closer to clinical adoption. One area of benefit would be the automatic generation of diagnostic reports from H\&E-stained whole slide images which would further increase the efficiency of the pathologists' routine diagnostic workflows. In this study, we compiled a dataset (PatchGastricADC22) of histopathological captions of stomach adenocarcinoma endoscopic biopsy specimens, which we extracted from diagnostic reports and paired with patches extracted from the associated whole slide images. The dataset contains a variety of gastric adenocarcinoma subtypes. We trained a baseline attention-based model to predict the captions from features extracted from the patches and obtained promising results. We make the captioned dataset of 262K patches publicly available.
翻訳日:2022-02-09 16:27:46 公開日:2022-02-07
# 肺結節分節に対する知識ベースルールと自己適応補正を用いた粗大な形態的アプローチ

A Coarse-to-fine Morphological Approach With Knowledge-based Rules and Self-adapting Correction for Lung Nodules Segmentation ( http://arxiv.org/abs/2202.03433v1 )

ライセンス: Link先を確認
Xinliang Fu, Jiayin Zheng, Juanyun Mai, Yanbo Shao, Minghao Wang, Linyu Li, Zhaoqi Diao, Yulong Chen, Jianyu Xiao, Jian You, Airu Yin, Yang Yang, Xiangcheng Qiu, Jinsheng Tao, Bo Wang and Hua Ji(参考訳) 結節を正確に概説するセグメンテーションモジュールは,コンピュータ支援診断(CAD)システムにおいて重要なステップである。 このようなモジュールの最も難しい部分は、セグメンテーションの高精度化の方法であり、特に、juxtapleural、non-solid、small nodulesについてである。 本研究では,新しい自己適応補正アルゴリズムを用いてしきい値化手法の性能を大幅に向上させ,知識ベース原理の確立したノイズ画素を効果的に除去する手法を提案する。 近年の強い形態素ベースラインと比較して,我々のアルゴリズムは,SOTA深層学習モデルの性能に近づき,一般のLIDC-IDRIデータセット(DSC 0.699)とプライベートLC015データセット(DSC 0.760)の両方で最先端のパフォーマンスを達成する。 さらに,本手法の精度は,分離した小節のみを高精度に分割できるほとんどの形態素法とは異なり,小節タイプや直径とは完全に独立しており,その適用性と汎用性が証明されている。

The segmentation module which precisely outlines the nodules is a crucial step in a computer-aided diagnosis(CAD) system. The most challenging part of such a module is how to achieve high accuracy of the segmentation, especially for the juxtapleural, non-solid and small nodules. In this research, we present a coarse-to-fine methodology that greatly improves the thresholding method performance with a novel self-adapting correction algorithm and effectively removes noisy pixels with well-defined knowledge-based principles. Compared with recent strong morphological baselines, our algorithm, by combining dataset features, achieves state-of-the-art performance on both the public LIDC-IDRI dataset (DSC 0.699) and our private LC015 dataset (DSC 0.760) which closely approaches the SOTA deep learning-based models' performances. Furthermore, unlike most available morphological methods that can only segment the isolated and well-circumscribed nodules accurately, the precision of our method is totally independent of the nodule type or diameter, proving its applicability and generality.
翻訳日:2022-02-09 16:27:31 公開日:2022-02-07
# PolSAR画像のセマンティックセグメンテーションのためのランダムファーン

Random Ferns for Semantic Segmentation of PolSAR Images ( http://arxiv.org/abs/2202.03498v1 )

ライセンス: Link先を確認
Pengchao Wei and Ronny H\"ansch(参考訳) アンサンブルラーニングのあまり知られていない例であるRandom Fernsは、キーポイントマッチングからオブジェクト検出まで、多くのコンピュータビジョンアプリケーションで成功している。 本稿では,ポラリメトリック合成開口レーダ画像のセマンティクスセグメンテーションにランダムなfernフレームワークを拡張する。 エルミート行列の空間上で定義される内部射影を用いることで、事前に定義された画像特徴を明示的に計算することなく、偏差共分散行列に直接分類器を適用することができる。 さらに、2つの異なる最適化戦略が提案されている: 1つは分類器作成前の内部二項特徴の選択とグループ化に基づくもので、もう1つは与えられたランダムフェルンの性質を反復的に改善するものである。 どちらの戦略も冗長か低情報コンテンツかのどちらかの機能をフィルタリングし、相関した特徴をグループ化して無作為なfern分類器による独立性の仮定を最善に満たすことで性能を向上させることができる。 実験により、より複雑なランダムフォレストモデルと類似し、ディープラーニングベースラインと競合する結果が得られることが示された。

Random Ferns -- as a less known example of Ensemble Learning -- have been successfully applied in many Computer Vision applications ranging from keypoint matching to object detection. This paper extends the Random Fern framework to the semantic segmentation of polarimetric synthetic aperture radar images. By using internal projections that are defined over the space of Hermitian matrices, the proposed classifier can be directly applied to the polarimetric covariance matrices without the need to explicitly compute predefined image features. Furthermore, two distinct optimization strategies are proposed: The first based on pre-selection and grouping of internal binary features before the creation of the classifier; and the second based on iteratively improving the properties of a given Random Fern. Both strategies are able to boost the performance by filtering features that are either redundant or have a low information content and by grouping correlated features to best fulfill the independence assumptions made by the Random Fern classifier. Experiments show that results can be achieved that are similar to a more complex Random Forest model and competitive to a deep learning baseline.
翻訳日:2022-02-09 16:25:20 公開日:2022-02-07
# aladdin:ジョイントアトラス構築とペアワイズアライメントによる二相性登録学習

Aladdin: Joint Atlas Building and Diffeomorphic Registration Learning with Pairwise Alignment ( http://arxiv.org/abs/2202.03563v1 )

ライセンス: Link先を確認
Zhipeng Ding and Marc Niethammer(参考訳) アトラスの構築と画像登録は医療画像解析において重要な課題である。 画像集団からの1つまたは複数のアトラスが構築されると、(1)イメージはアトラス空間に巻き込まれて、サブジェクト内またはサブジェクト間の変化を研究するか、(2)確率的アトラスを画像空間に巻き込み、解剖学的ラベルを割り当てる。 アトラス推定と非パラメトリック変換は通常数値最適化を必要とするため、計算コストがかかる。 さらに, ファジィアトラスと個々の画像との類似度は, ファジィアトラスが個々の画像に対して明確な解剖学的構造を示さないため, アライメントの困難を生じさせる可能性がある。 本研究では、畳み込みニューラルネットワーク(CNN)を用いて、アトラスと定常速度場(SVF)パラメーター化を共同で予測し、アトラスに関する微分画像登録を行う。 提案手法では,アフィン事前登録は必要とせず,画像アライメント損失を利用して登録精度を向上する。 我々は,OAI-ZIBデータセットを用いた3次元膝関節磁気共鳴画像(MRI)の評価を行った。 提案手法は,他の最先端画像登録アルゴリズムよりも優れた性能を実現し,エンドツーエンドのトレーニング,テスト時の高速推論を実現している。

Atlas building and image registration are important tasks for medical image analysis. Once one or multiple atlases from an image population have been constructed, commonly (1) images are warped into an atlas space to study intra-subject or inter-subject variations or (2) a possibly probabilistic atlas is warped into image space to assign anatomical labels. Atlas estimation and nonparametric transformations are computationally expensive as they usually require numerical optimization. Additionally, previous approaches for atlas building often define similarity measures between a fuzzy atlas and each individual image, which may cause alignment difficulties because a fuzzy atlas does not exhibit clear anatomical structures in contrast to the individual images. This work explores using a convolutional neural network (CNN) to jointly predict the atlas and a stationary velocity field (SVF) parameterization for diffeomorphic image registration with respect to the atlas. Our approach does not require affine pre-registrations and utilizes pairwise image alignment losses to increase registration accuracy. We evaluate our model on 3D knee magnetic resonance images (MRI) from the OAI-ZIB dataset. Our results show that the proposed framework achieves better performance than other state-of-the-art image registration algorithms, allows for end-to-end training, and for fast inference at test time.
翻訳日:2022-02-09 16:25:01 公開日:2022-02-07
# 超高分解能低磁場MRI

Accurate super-resolution low-field brain MRI ( http://arxiv.org/abs/2202.03564v1 )

ライセンス: Link先を確認
Juan Eugenio Iglesias, Riana Schleicher, Sonia Laguna, Benjamin Billot, Pamela Schaefer, Brenna McKaig, Joshua N. Goldstein, Kevin N. Sheth, Matthew S. Rosen, W. Taylor Kimberly(参考訳) 最近の臨床領域へのポータブル低磁場MRI(LF-MRI)の導入は、ニューロイメージングを変革する可能性がある。 しかし、LF-MRIは低分解能と信号-雑音比によって制限されており、脳の領域を不完全に特徴づけている。 この課題に対処するため、機械学習の最近の進歩により、1つまたは複数の低解像度スキャンから得られる高解像度画像の合成が容易になった。 本稿では,lf-mri t1重み付きおよびt2重み付きシーケンスから1mm等方性mprage様スキャンを合成する機械学習スーパーレゾリューション(sr)アルゴリズムの拡張について報告する。 LF と High-field (HF, 1.5T-3T) のペアデータセットの初期結果は以下の通りである。 (i)LF-MRI画像への自動分割ツールの直接適用 (II) HF-MRIによる金標準測定と高い相関関係を持つSR画像に適用した場合に、セグメンテーションツールが成功する(例えば、海馬体積のr = 0.85、視床のr = 0.84、大脳全体のr = 0.92)。 本研究は,低分解能LF-MRI系列からのポストプロセッシング画像の高精細化を実証する。 これらの結果は、LFにおける正常画像および異常画像の検出を高め、最終的にLF-MRIの診断性能を向上させるための今後の研究の基礎となった。 私たちのツールはFreeSurfer(surfer.nm r.mgh.harvard.edu/)で公開されています。

The recent introduction of portable, low-field MRI (LF-MRI) into the clinical setting has the potential to transform neuroimaging. However, LF-MRI is limited by lower resolution and signal-to-noise ratio, leading to incomplete characterization of brain regions. To address this challenge, recent advances in machine learning facilitate the synthesis of higher resolution images derived from one or multiple lower resolution scans. Here, we report the extension of a machine learning super-resolution (SR) algorithm to synthesize 1 mm isotropic MPRAGE-like scans from LF-MRI T1-weighted and T2-weighted sequences. Our initial results on a paired dataset of LF and high-field (HF, 1.5T-3T) clinical scans show that: (i) application of available automated segmentation tools directly to LF-MRI images falters; but (ii) segmentation tools succeed when applied to SR images with high correlation to gold standard measurements from HF-MRI (e.g., r = 0.85 for hippocampal volume, r = 0.84 for the thalamus, r = 0.92 for the whole cerebrum). This work demonstrates proof-of-principle post-processing image enhancement from lower resolution LF-MRI sequences. These results lay the foundation for future work to enhance the detection of normal and abnormal image findings at LF and ultimately improve the diagnostic performance of LF-MRI. Our tools are publicly available on FreeSurfer (surfer.nmr.mgh.harv ard.edu/).
翻訳日:2022-02-09 16:24:36 公開日:2022-02-07
# 機械(un)学習における削除推論、再構成、コンプライアンス

Deletion Inference, Reconstruction, and Compliance in Machine (Un)Learning ( http://arxiv.org/abs/2202.03460v1 )

ライセンス: Link先を確認
Ji Gao, Sanjam Garg, Mohammad Mahmoody, Prashant Nalini Vasudevan(参考訳) マシンラーニングモデルのプライバシ攻撃は、そのようなモデルのトレーニングに使用されるデータを特定することを目的としている。 このような攻撃は伝統的に、一度訓練された静的モデルで研究され、敵によってアクセス可能である。 新しい法的要件を満たすために、多くの機械学習手法が最近拡張され、トレーニングセットから特定の例が削除されたかのようにモデルを更新すること、新しい法的要件を満たす。 しかし、プライバシ攻撃は、削除前のオリジナルのモデルと削除後の新しいモデルの両方にアクセスできるようになったため、この新しい設定でさらに破壊的になる可能性がある。 実際、削除の行為は、削除されたレコードをプライバシー攻撃に弱いものにするかもしれない。 暗号定義と差分プライバシフレームワークに着想を得て,マシンラーニングのプライバシへの影響を正式に研究した。 我々は、削除されたレコードを特定するか、削除されたレコードを再構築(おそらく一部)することを目的とした、削除推測と削除復元攻撃を形式化する。 次に,様々な機械学習モデルと分類,回帰,言語モデルなどのタスクに対して,削除推論と再構成攻撃を成功させる。 最後に、スキームが削除コンプライアンス(garg, goldwasser, and vasudevan, eurocrypt' 20)を満たしている場合、我々の攻撃は確実に予測できることを示した。

Privacy attacks on machine learning models aim to identify the data that is used to train such models. Such attacks, traditionally, are studied on static models that are trained once and are accessible by the adversary. Motivated to meet new legal requirements, many machine learning methods are recently extended to support machine unlearning, i.e., updating models as if certain examples are removed from their training sets, and meet new legal requirements. However, privacy attacks could potentially become more devastating in this new setting, since an attacker could now access both the original model before deletion and the new model after the deletion. In fact, the very act of deletion might make the deleted record more vulnerable to privacy attacks. Inspired by cryptographic definitions and the differential privacy framework, we formally study privacy implications of machine unlearning. We formalize (various forms of) deletion inference and deletion reconstruction attacks, in which the adversary aims to either identify which record is deleted or to reconstruct (perhaps part of) the deleted records. We then present successful deletion inference and reconstruction attacks for a variety of machine learning models and tasks such as classification, regression, and language models. Finally, we show that our attacks would provably be precluded if the schemes satisfy (variants of) Deletion Compliance (Garg, Goldwasser, and Vasudevan, Eurocrypt' 20).
翻訳日:2022-02-09 16:21:09 公開日:2022-02-07
# 信頼できない予測によるオンライン最適化

Online Optimization with Untrusted Predictions ( http://arxiv.org/abs/2202.03519v1 )

ライセンス: Link先を確認
Daan Rutten, Nico Christianson, Debankur Mukherjee, Adam Wierman(参考訳) オンライン最適化の問題点を考察し,ラウンド間における決定の切り替えコストと非凸打撃コストの和を最小化するために,一般的な距離空間内のポイントを順次選択しなければならない。 意思決定者は、機械学習モデルのようなブラックボックスのオラクルにアクセスでき、各ラウンドにおける最適な決定の信頼できない、潜在的に不正確な予測を提供する。 意思決定者の目標は、予測が正確である場合の予測を活用し、予測が不正確である場合でも、後続の最適な決定シーケンスよりもパフォーマンスを保証することである。 我々は、打撃コストが全世界で$\alpha$-polyhedralであると仮定する。 本稿では,新しいアルゴリズムであるAdaptive Online Switching (AOS)を提案し,予測が完全であれば$(1+2\delta)$-competitiv eであること,また予測が逆である場合でも$2^{\tilde{\mathcal{O}}(1/(\alpha \delta))を均一に有界な競合比として維持することを証明する。 さらに、予測が完全であれば(1+\delta)$-競合である決定論的アルゴリズムは、予測が不正確である場合には少なくとも2^{\tilde{\omega}(1/(\alpha \delta))}$-競合でなければならないという意味で、このトレードオフは必要であり、ほぼ最適であることを示す。

We examine the problem of online optimization, where a decision maker must sequentially choose points in a general metric space to minimize the sum of per-round, non-convex hitting costs and the costs of switching decisions between rounds. The decision maker has access to a black-box oracle, such as a machine learning model, that provides untrusted and potentially inaccurate predictions of the optimal decision in each round. The goal of the decision maker is to exploit the predictions if they are accurate, while guaranteeing performance that is not much worse than the hindsight optimal sequence of decisions, even when predictions are inaccurate. We impose the standard assumption that hitting costs are globally $\alpha$-polyhedral. We propose a novel algorithm, Adaptive Online Switching (AOS), and prove that, for any desired $\delta > 0$, it is $(1+2\delta)$-competitiv e if predictions are perfect, while also maintaining a uniformly bounded competitive ratio of $2^{\tilde{\mathcal{O}}(1/(\alpha \delta))}$ even when predictions are adversarial. Further, we prove that this trade-off is necessary and nearly optimal in the sense that any deterministic algorithm which is $(1+\delta)$-competitive if predictions are perfect must be at least $2^{\tilde{\Omega}(1/(\alpha \delta))}$-competitive when predictions are inaccurate.
翻訳日:2022-02-09 16:20:47 公開日:2022-02-07
# mlopsを用いた機械学習モデルの自動デプロイのための継続的インテグレーション/継続的デリバリ

On Continuous Integration / Continuous Delivery for Automated Deployment of Machine Learning Models using MLOps ( http://arxiv.org/abs/2202.03541v1 )

ライセンス: Link先を確認
Satvik Garg, Pradyumn Pundir, Geetanjali Rathee, P.K. Gupta, Somya Garg, Saransh Ahlawat(参考訳) 近年,機械学習のモデル展開が研究分野として注目されている。 従来のソフトウェア開発で定義された手順に匹敵する。 継続的統合と継続的デリバリ(CI/CD)は、開発と運用(DevOps)と併用することで、ソフトウェア進歩の円滑化とビジネスのスピードアップを図っている。 一方、機械学習オペレーション(mlops)コンポーネントを含むアプリケーションでci/cdパイプラインを使用することは困難であり、この分野の先駆者は、一般的にクラウドプロバイダが提供するユニークなツールを使用することで、それらを解決する。 この調査は、マシンラーニングのライフサイクルと、DevOpsとMLOpsの主な違いについて、より詳細な調査を提供する。 MLOpsアプローチでは、機械学習フレームワークのCI/CDパイプラインを実行するためのツールとアプローチについて議論する。 その後は、Github Operations(GitOps)のプッシュとプルベースのデプロイメントを深く検討します。 オープン探索の問題も特定され、今後の研究を導く可能性がある。

Model deployment in machine learning has emerged as an intriguing field of research in recent years. It is comparable to the procedure defined for conventional software development. Continuous Integration and Continuous Delivery (CI/CD) have been shown to smooth down software advancement and speed up businesses when used in conjunction with development and operations (DevOps). Using CI/CD pipelines in an application that includes Machine Learning Operations (MLOps) components, on the other hand, has difficult difficulties, and pioneers in the area solve them by using unique tools, which is typically provided by cloud providers. This research provides a more in-depth look at the machine learning lifecycle and the key distinctions between DevOps and MLOps. In the MLOps approach, we discuss tools and approaches for executing the CI/CD pipeline of machine learning frameworks. Following that, we take a deep look into push and pull-based deployments in Github Operations (GitOps). Open exploration issues are also identified and added, which may guide future study.
翻訳日:2022-02-09 16:20:17 公開日:2022-02-07
# ゆるやかな後悔を伴うレスレスブレイディットに対するウィトル指数の学習について

On learning Whittle index policy for restless bandits with scalable regret ( http://arxiv.org/abs/2202.03463v1 )

ライセンス: Link先を確認
Nima Akbarzadeh, Aditya Mahajan(参考訳) 強化学習は、システムモデルが不明なときにデータに基づいて、優れたリソース割り当てとスケジューリングポリシーを学ぶための魅力的なアプローチである。 しかし、ほとんどのrlアルゴリズムの累積後悔は$\tilde o(\mathsf{s} \sqrt{\mathsf{a} t})$であり、ここで$\mathsf{s}$は状態空間の大きさ、$\mathsf{a}$はアクション空間のサイズ、$t$は地平線、$\tilde{o}(\cdot)$記法は対数項を隠す。 状態空間の大きさに線形依存するため、これらの後悔の限界はリソースの割り当てやスケジューリングの問題に対して非常に大きい。 本稿では,このような問題に対してスケーラブルなモデルベースrlアルゴリズムを提案する。 特に,restless banditモデルについて検討し,モデルの基盤構造に適応したトンプソンサンプリングに基づく学習アルゴリズムを提案する。 本稿では,Whittleインデックスポリシーに対する提案アルゴリズムの後悔の2つの特徴について述べる。 まず、n$のアームと最大$m$のアクティベーションを持つレストレスのバンディットに対して、後悔は、報酬モデルによって$\tilde{o}(mn\sqrt{t})$または$\tilde{o}(n^2 \sqrt{t})$となる。 第二に、追加の技術的仮定の下で、後悔のスケールは$\tilde{O}(n^{1.5} \sqrt{T})$である。 本稿では,アルゴリズムの有意な特徴を示す数値例を示す。

Reinforcement learning is an attractive approach to learn good resource allocation and scheduling policies based on data when the system model is unknown. However, the cumulative regret of most RL algorithms scales as $\tilde O(\mathsf{S} \sqrt{\mathsf{A} T})$, where $\mathsf{S}$ is the size of the state space, $\mathsf{A}$ is the size of the action space, $T$ is the horizon, and the $\tilde{O}(\cdot)$ notation hides logarithmic terms. Due to the linear dependence on the size of the state space, these regret bounds are prohibitively large for resource allocation and scheduling problems. In this paper, we present a model-based RL algorithm for such problem which has scalable regret. In particular, we consider a restless bandit model, and propose a Thompson-sampling based learning algorithm which is tuned to the underlying structure of the model. We present two characterizations of the regret of the proposed algorithm with respect to the Whittle index policy. First, we show that for a restless bandit with $n$ arms and at most $m$ activations at each time, the regret scales either as $\tilde{O}(mn\sqrt{T})$ or $\tilde{O}(n^2 \sqrt{T})$ depending on the reward model. Second, under an additional technical assumption, we show that the regret scales as $\tilde{O}(n^{1.5} \sqrt{T})$. We present numerical examples to illustrate the salient features of the algorithm.
翻訳日:2022-02-09 16:15:16 公開日:2022-02-07
# チャネル符号化理論を用いた分散テンソルの局所ランダムP族合金符号

Locally Random P-adic Alloy Codes with ChannelCoding Theorems for Distributed Coded Tensors ( http://arxiv.org/abs/2202.03469v1 )

ライセンス: Link先を確認
Pedro Soto, Haibin Guan, Jun Li(参考訳) テンソル、すなわちマルチリニア関数は、機械学習アルゴリズムの基本的な構築ブロックである。 大規模データセットのトレーニングには,作業者間で計算を分散することが一般的である。 しかし、ストラグラーやその他の障害は、パフォーマンスやトレーニング時間全体に重大な影響を与える可能性がある。 これらの障害を軽減するための新しい戦略は、コード化された計算を使うことである。 我々は,最も可能性の高い事象に注目し,この尺度に最適な分散符号化テンソル演算を新たに構築した,典型的な回復しきい値と呼ばれる新しい分析指標を導入する。 我々は,我々の汎用フレームワークが,他の多くの計算スキームやメトリクスを特別に包含していることを示す。 特に,ノイズの確率が0である場合,典型的な回復しきい値の特別な場合に,回復しきい値とテンソルランクを回復可能であることを証明し,ノイズのない計算をセレンディピタイトな結果としてノイズを一般化する。 純粋に理論的な構成とは程遠いが、これらの定義は実践的なランダムなコード構成、すなわち局所的なランダムなp進合金符号へと導かれる。 amazon ec2で実施した実験を分析し、理論によって予測されるように、実際の多くのベンチマーク計算方式よりも高速で数値的に安定であることを示す。

Tensors, i.e., multi-linear functions, are a fundamental building block of machine learning algorithms. In order to train on large data-sets, it is common practice to distribute the computation amongst workers. However, stragglers and other faults can severely impact the performance and overall training time. A novel strategy to mitigate these failures is the use of coded computation. We introduce a new metric for analysis called the typical recovery threshold, which focuses on the most likely event and provide a novel construction of distributed coded tensor operations which are optimal with this measure. We show that our general framework encompasses many other computational schemes and metrics as a special case. In particular, we prove that the recovery threshold and the tensor rank can be recovered as a special case of the typical recovery threshold when the probability of noise, i.e., a fault, is equal to zero, thereby providing a noisy generalization of noiseless computation as a serendipitous result. Far from being a purely theoretical construction, these definitions lead us to practical random code constructions, i.e., locally random p-adic alloy codes, which are optimal with respect to the measures. We analyze experiments conducted on Amazon EC2 and establish that they are faster and more numerically stable than many other benchmark computation schemes in practice, as is predicted by theory.
翻訳日:2022-02-09 16:10:21 公開日:2022-02-07
# スケーラブルなカーネルメソッドのためのランダムgegenbauer機能

Random Gegenbauer Features for Scalable Kernel Methods ( http://arxiv.org/abs/2202.03474v1 )

ライセンス: Link先を確認
Insu Han, Amir Zandieh, Haim Avron(参考訳) 本稿では,GZK(Generalized Zonal Kernels)と呼ばれるカーネル関数の新しいクラスを近似するための効率的なランダムな特徴を提案する。 提案したGZKファミリーは、ゲゲンバウアー級数展開に半径因子を導入して、粒子核(すなわち、単位球上のドット積核)を一般化し、ガウス環や最近導入されたニューラル・タンジェント核と同様に、ドット積核全体を含む幅広いユビキタスカーネル関数を含む。 興味深いことに、gegenbauer多項式の再現性を利用して、ランダムに向き付けられたgegenbauerカーネルに基づいて、gzkファミリーの効率的なランダム特徴を構築することができる。 我々は、カーネルk平均クラスタリングやカーネルリッジ回帰といった学習問題を概ね解決するために、我々の機能を使用できる、Gegenbauer機能に対するサブスペース埋め込み保証を証明する。 実験の結果,提案手法は近年のカーネル近似手法よりも優れていることがわかった。

We propose efficient random features for approximating a new and rich class of kernel functions that we refer to as Generalized Zonal Kernels (GZK). Our proposed GZK family, generalizes the zonal kernels (i.e., dot-product kernels on the unit sphere) by introducing radial factors in their Gegenbauer series expansion, and includes a wide range of ubiquitous kernel functions such as the entirety of dot-product kernels as well as the Gaussian and the recently introduced Neural Tangent kernels. Interestingly, by exploiting the reproducing property of the Gegenbauer polynomials, we can construct efficient random features for the GZK family based on randomly oriented Gegenbauer kernels. We prove subspace embedding guarantees for our Gegenbauer features which ensures that our features can be used for approximately solving learning problems such as kernel k-means clustering, kernel ridge regression, etc. Empirical results show that our proposed features outperform recent kernel approximation methods.
翻訳日:2022-02-09 15:26:29 公開日:2022-02-07
# MAMLとAnILはおそらく表現を学ぶ

MAML and ANIL Provably Learn Representations ( http://arxiv.org/abs/2202.03483v1 )

ライセンス: Link先を確認
Liam Collins, Aryan Mokhtari, Sewoong Oh and Sanjay Shakkottai(参考訳) 最近の実証的証拠は、グラデーションベースのメタラーニング(gbml)手法が、タスク間で共有される表現力のあるデータ表現を学習するため、少数の学習でうまく機能すると信じている。 しかし、GBMLの力学は理論的な観点からほとんど謎のままである。 本稿では,MAMLとANILの2つのよく知られたGBML手法と,それらの一階述語近似が与えられたタスク間の共通表現を学習できることを示す。 具体的には、よく知られたマルチタスク線形表現学習環境では、指数関数的に速い速度で基底表現を復元することができる。 さらに,MAMLとANILを誘導する駆動力がモデルの最終層を適応させることで,タスクの多様性を生かし,関心のあらゆる方向の表現を改善することが本分析から明らかとなった。 私たちの知る限り、これらはMAMLおよび/またはANILが表現表現を学習し、その理由を厳格に説明するための最初の結果である。

Recent empirical evidence has driven conventional wisdom to believe that gradient-based meta-learning (GBML) methods perform well at few-shot learning because they learn an expressive data representation that is shared across tasks. However, the mechanics of GBML have remained largely mysterious from a theoretical perspective. In this paper, we prove that two well-known GBML methods, MAML and ANIL, as well as their first-order approximations, are capable of learning common representation among a set of given tasks. Specifically, in the well-known multi-task linear representation learning setting, they are able to recover the ground-truth representation at an exponentially fast rate. Moreover, our analysis illuminates that the driving force causing MAML and ANIL to recover the underlying representation is that they adapt the final layer of their model, which harnesses the underlying task diversity to improve the representation in all directions of interest. To the best of our knowledge, these are the first results to show that MAML and/or ANIL learn expressive representations and to rigorously explain why they do so.
翻訳日:2022-02-09 15:26:11 公開日:2022-02-07
# ヒューマンマシン対話を用いた自己教師付き話者認識訓練

Self-supervised Speaker Recognition Training Using Human-Machine Dialogues ( http://arxiv.org/abs/2202.03484v1 )

ライセンス: Link先を確認
Metehan Cekic, Ruirui Li, Zeya Chen, Yuguang Yang, Andreas Stolcke, Upamanyu Madhow(参考訳) 話者認識は、音声のみに基づいて話者識別を認識することで、パーソナライゼーションや認証といった重要な下流アプリケーションを可能にする。 話者表現の学習は、教師付き学習の文脈において、クリーンで十分なラベル付けされたデータの両方に大きく依存する。 一方、ノイズのないラベル付きデータは、自己教師付きトレーニング手法で活用できる貴重な情報も提供します。 本研究では,ユーザとスマートスピーカーデバイス間の対話を活用し,音声認識モデルの事前学習について検討する。 しかし、このような対話における監督情報は本質的にノイズであり、複数の話者が同じ対話の途中でデバイスに話しかけることができる。 この問題に対処するために,音声同質性に基づいて対話から選択的に学習する効果的な拒絶機構を提案する。 再構成ベースとコントラスト学習ベースの自己教師方式を比較した。 実験により,提案手法は従来よりも優れた性能向上をもたらすことが示された。 拒絶機構と組み合わせた対話事前学習は、自己教師なし事前学習モデルと比較して話者認識において27.10%の誤り率(EER)が減少する。

Speaker recognition, recognizing speaker identities based on voice alone, enables important downstream applications, such as personalization and authentication. Learning speaker representations, in the context of supervised learning, heavily depends on both clean and sufficient labeled data, which is always difficult to acquire. Noisy unlabeled data, on the other hand, also provides valuable information that can be exploited using self-supervised training methods. In this work, we investigate how to pretrain speaker recognition models by leveraging dialogues between customers and smart-speaker devices. However, the supervisory information in such dialogues is inherently noisy, as multiple speakers may speak to a device in the course of the same dialogue. To address this issue, we propose an effective rejection mechanism that selectively learns from dialogues based on their acoustic homogeneity. Both reconstruction-based and contrastive-learning -based self-supervised methods are compared. Experiments demonstrate that the proposed method provides significant performance improvements, superior to earlier work. Dialogue pretraining when combined with the rejection mechanism yields 27.10% equal error rate (EER) reduction in speaker recognition, compared to a model without self-supervised pretraining.
翻訳日:2022-02-09 15:25:51 公開日:2022-02-07
# 深層強化学習を用いたワーファリン投与の最適化

Optimizing Warfarin Dosing using Deep Reinforcement Learning ( http://arxiv.org/abs/2202.03486v1 )

ライセンス: Link先を確認
Sadjad Anzabi Zadeh (1), W. Nick Street (1), Barrett W. Thomas (1) ((1) The University of Iowa Tippie College of Business)(参考訳) ワーファリンは広く使用される抗凝固薬であり、治療範囲は狭い。 少量の過剰投与や下投与は破滅的あるいは致命的な結果をもたらす可能性があるため、ワルファリンの投与は個別化されるべきである。 ワーファリン服用に関する多くの研究にもかかわらず、現在の服用プロトコルは期待に届かず、特にワーファリンに敏感な患者には有効である。 ウォーファリンの深層強化学習に基づく投薬モデルを提案する。 ドスティング試験における比較的小さなサンプルサイズの問題に対処するため,ワーファリンのPK/PDモデルを用いて仮想患者の服用応答をシミュレートした。 仮想テスト患者に提案するアルゴリズムを適用すると,このモデルが臨床で認められたドーピングプロトコル群をはるかに上回っていることが分かる。

Warfarin is a widely used anticoagulant, and has a narrow therapeutic range. Dosing of warfarin should be individualized, since slight overdosing or underdosing can have catastrophic or even fatal consequences. Despite much research on warfarin dosing, current dosing protocols do not live up to expectations, especially for patients sensitive to warfarin. We propose a deep reinforcement learning-based dosing model for warfarin. To overcome the issue of relatively small sample sizes in dosing trials, we use a Pharmacokinetic/ Pharmacodynamic (PK/PD) model of warfarin to simulate dose-responses of virtual patients. Applying the proposed algorithm on virtual test patients shows that this model outperforms a set of clinically accepted dosing protocols by a wide margin.
翻訳日:2022-02-09 15:25:32 公開日:2022-02-07
# オーバーパラメータ付きランク1マトリクスリカバリにおける雑音の定式化

Noise Regularizes Over-parameterized Rank One Matrix Recovery, Provably ( http://arxiv.org/abs/2202.03535v1 )

ライセンス: Link先を確認
Tianyi Liu, Yan Li, Enlu Zhou and Tuo Zhao(参考訳) 過パラメータモデル学習のための最適化アルゴリズムにおけるノイズの役割について検討する。 具体的には,次数 1 の行列 $Y^*\in R^{d\times d}$ を,過パラメータ化モデルを用いたノイズ観測 $Y$ から回収する。 階数 1 の行列 $Y^*$ by $XX^\top$ ここで、$X\in R^{d\times d}$ をパラメータ化する。 そこで, 軽度条件下では, 正方形損失関数を用いたランダム摂動勾配降下アルゴリズムにより得られた推定器は, 平均2乗誤差がo(\sigma^2/d)$となり, ここで, $\sigma^2$ が観測ノイズの分散であることを示す。 対照的に、ランダムな摂動を伴わない勾配降下から得られる推定子は、平均2乗誤差が$O(\sigma^2)$となる。 本結果は,過パラメータ化モデル学習における雑音の暗黙的正規化効果を部分的に正当化し,過パラメータ化ニューラルネットワークのトレーニングの新たな理解を提供する。

We investigate the role of noise in optimization algorithms for learning over-parameterized models. Specifically, we consider the recovery of a rank one matrix $Y^*\in R^{d\times d}$ from a noisy observation $Y$ using an over-parameterizatio n model. We parameterize the rank one matrix $Y^*$ by $XX^\top$, where $X\in R^{d\times d}$. We then show that under mild conditions, the estimator, obtained by the randomly perturbed gradient descent algorithm using the square loss function, attains a mean square error of $O(\sigma^2/d)$, where $\sigma^2$ is the variance of the observational noise. In contrast, the estimator obtained by gradient descent without random perturbation only attains a mean square error of $O(\sigma^2)$. Our result partially justifies the implicit regularization effect of noise when learning over-parameterized models, and provides new understanding of training over-parameterized neural networks.
翻訳日:2022-02-09 15:25:19 公開日:2022-02-07
# 構造的先行のない構造的時系列予測

Structured Time Series Prediction without Structural Prior ( http://arxiv.org/abs/2202.03539v1 )

ライセンス: Link先を確認
Darko Drakulic and Jean-Marc Andreoli(参考訳) 時系列予測は多くの領域(医学、地球科学、ネットワーク分析、ファイナンス、エコノメトリーなど)の応用において広く研究されている問題である。 多変量時系列の場合、良いパフォーマンスの鍵は、変量間の依存関係を適切に捉えることである。 これらの変数は、しばしば構造化され、すなわち、それらは抽象空間に局所化され、通常は物理世界の側面を表し、予測は時間とともにその空間にまたがる情報の拡散の形式に等しい。 拡散のニューラルネットワークモデルが文献で提案されている。 しかし、既存の提案の多くは空間の構造に関するいくつかの事前知識に依存しており、通常はその点の双対拡散容量を重んじるグラフの形式である。 データには拡散容量情報が含まれており、通常はほとんど手作りのグラフから得られるものよりも信頼性が高いため、この情報をしばしば使い捨てることができると主張している。 代わりに、このようなグラフや他の事前構造情報に依存しない完全なデータ駆動モデルを提案する。 ベースラインモデルで用いられるように、構造先行の性能への影響を計測するための最初の実験を行い、非常に低いデータレベルを除いては無視可能であり、しきい値を超えると有害になる可能性があることを示す。 次に、第2の実験を通して、欠落データ処理とドメイン適応という2つの点でモデルの能力について検討する。

Time series prediction is a widespread and well studied problem with applications in many domains (medical, geoscience, network analysis, finance, econometry etc.). In the case of multivariate time series, the key to good performances is to properly capture the dependencies between the variates. Often, these variates are structured, i.e. they are localised in an abstract space, usually representing an aspect of the physical world, and prediction amounts to a form of diffusion of the information across that space over time. Several neural network models of diffusion have been proposed in the literature. However, most of the existing proposals rely on some a priori knowledge on the structure of the space, usually in the form of a graph weighing the pairwise diffusion capacity of its points. We argue that this piece of information can often be dispensed with, since data already contains the diffusion capacity information, and in a more reliable form than that obtained from the usually largely hand-crafted graphs. We propose instead a fully data-driven model which does not rely on such a graph, nor any other prior structural information. We conduct a first set of experiments to measure the impact on performance of a structural prior, as used in baseline models, and show that, except at very low data levels, it remains negligible, and beyond a threshold, it may even become detrimental. We then investigate, through a second set of experiments, the capacity of our model in two respects: treatment of missing data and domain adaptation.
翻訳日:2022-02-09 15:25:02 公開日:2022-02-07
# data2vec: 音声、視覚、言語における自己教師あり学習のための汎用フレームワーク

data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language ( http://arxiv.org/abs/2202.03555v1 )

ライセンス: Link先を確認
Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli(参考訳) 自己指導学習の一般的な考え方は、モダリティ全体で同一であるが、実際のアルゴリズムと目的は、単一のモダリティを念頭に開発されたため、大きく異なる。 一般の自己教師型学習に近づくために,音声,NLP,コンピュータビジョンのいずれかに同じ学習方法を使用するフレームワークであるData2vecを提案する。 基本的な考え方は、標準のトランスフォーマーアーキテクチャを用いて、自己蒸留セットアップにおける入力のマスキングビューに基づいて、全入力データの潜在表現を予測することである。 data2vecは、自然に局所的な単語、視覚トークン、人間の発話単位などのモダリティ固有のターゲットを予測する代わりに、入力全体からの情報を含むコンテキスト化された潜在表現を予測する。 音声認識、画像分類、自然言語理解の主要なベンチマークの実験は、主要なアプローチに対する技術や競争性能の新たな状態を実証している。

While the general idea of self-supervised learning is identical across modalities, the actual algorithms and objectives differ widely because they were developed with a single modality in mind. To get us closer to general self-supervised learning, we present data2vec, a framework that uses the same learning method for either speech, NLP or computer vision. The core idea is to predict latent representations of the full input data based on a masked view of the input in a self-distillation setup using a standard Transformer architecture. Instead of predicting modality-specific targets such as words, visual tokens or units of human speech which are local in nature, data2vec predicts contextualized latent representations that contain information from the entire input. Experiments on the major benchmarks of speech recognition, image classification, and natural language understanding demonstrate a new state of the art or competitive performance to predominant approaches.
翻訳日:2022-02-09 15:24:17 公開日:2022-02-07
# エッジコンピューティングシナリオにおけるブロックチェーンを用いた信頼性の高いデータ転送機構

A Reliable Data-transmission Mechanism using Blockchain in Edge Computing Scenarios ( http://arxiv.org/abs/2202.03428v1 )

ライセンス: Link先を確認
Peiying Zhang, Xue Pang, Neeraj Kumar, Gagangeet Singh Aujla, Haotong Cao(参考訳) IoT(Internet of Things)時代の到来に伴い、IoTに接続されるデバイスはますます増えている。 従来の集中管理モードでは、大量のデータの送信は多くの困難に直面しており、データの信頼性を保証することは困難である。 新興テクノロジとして、ブロックチェーンテクノロジとエッジコンピューティング(EC)テクノロジは、IoTテクノロジの信頼性、プライバシ、不変性の向上において、学界の注目を集めている。 本稿では,IoTにおけるデータ伝送の信頼性を確保するため,ECとブロックチェーンの特性を組み合わせる。 まず,ブロックチェーンを基盤とするデータ伝送機構を提案する。ブロックチェーンの分散アーキテクチャを用いて,データを改ざんしないことを保証する。第2に,アーキテクチャの3層構造を順に導入し,最後に,ブロックチェーンの動作メカニズムと類似した4つの動作ステップを導入する。 シミュレーションの結果,提案手法はモノのインターネットにおけるデータ伝送の信頼性をある程度確保できることがわかった。

With the advent of the Internet of things (IoT) era, more and more devices are connected to the IoT. Under the traditional cloud-thing centralized management mode, the transmission of massive data is facing many difficulties, and the reliability of data is difficult to be guaranteed. As emerging technologies, blockchain technology and edge computing (EC) technology have attracted the attention of academia in improving the reliability, privacy and invariability of IoT technology. In this paper, we combine the characteristics of the EC and blockchain to ensure the reliability of data transmission in the IoT. First of all, we propose a data transmission mechanism based on blockchain, which uses the distributed architecture of blockchain to ensure that the data is not tampered with; secondly, we introduce the three-tier structure in the architecture in turn; finally, we introduce the four working steps of the mechanism, which are similar to the working mechanism of blockchain. In the end, the simulation results show that the proposed scheme can ensure the reliability of data transmission in the Internet of things to a great extent.
翻訳日:2022-02-09 15:20:02 公開日:2022-02-07
# マルチクリトリア意思決定を考慮した混和ハイブリッド受粉アルゴリズムに基づくvne戦略

VNE Strategy based on Chaotic Hybrid Flower Pollination Algorithm Considering Multi-criteria Decision Making ( http://arxiv.org/abs/2202.03429v1 )

ライセンス: Link先を確認
Peiying Zhang, Fanglin Liu, Gagangeet Singh Aujla, Sahil Vashist(参考訳) 科学技術の発展とMCDM(Multi-Criteria Decision-Making)の必要性により、解決すべき最適化問題は極めて複雑になる。 理論的に正確で最適な解はしばしば得るのが難しい。 そのため,多点探索に基づくメタヒューリスティックアルゴリズムが注目されている。 これらの問題を踏まえ、仮想ネットワーク埋め込み(VNE)問題に対するハイブリッド花の受粉アルゴリズムの設計戦略について論じる。 遺伝的アルゴリズム(GA)とFPAの利点を組み合わせることで、離散最適化問題の特徴を最適化する。 交叉操作は、交叉操作を置き換えてグローバル検索を完了させ、突然変異操作を自己交叉操作に置き換え、局所検索能力を高めるために用いられる。 さらに、早期収束を避けるため、従来のフィットネスベースの選択戦略を補完するライフサイクルメカニズムを導入する。 ランダムシーケンス誘導クロスオーバープロセスを置き換えるためにカオス最適化戦略を導入し,グローバル検索能力を強化し,不正な個人を発生させる確率を低減した。

With the development of science and technology and the need for Multi-Criteria Decision-Making (MCDM), the optimization problem to be solved becomes extremely complex. The theoretically accurate and optimal solutions are often difficult to obtain. Therefore, meta-heuristic algorithms based on multi-point search have received extensive attention. Aiming at these problems, the design strategy of hybrid flower pollination algorithm for Virtual Network Embedding (VNE) problem is discussed. Combining the advantages of the Genetic Algorithm (GA) and FPA, the algorithm is optimized for the characteristics of discrete optimization problems. The cross operation is used to replace the cross-pollination operation to complete the global search and replace the mutation operation with self-pollination operation to enhance the ability of local search. Moreover, a life cycle mechanism is introduced as a complement to the traditional fitness-based selection strategy to avoid premature convergence. A chaotic optimization strategy is introduced to replace the random sequence-guided crossover process to strengthen the global search capability and reduce the probability of producing invalid individuals.
翻訳日:2022-02-09 15:19:45 公開日:2022-02-07
# 自己教師付き特徴を用いた音声感情認識

Speech Emotion Recognition using Self-Supervised Features ( http://arxiv.org/abs/2202.03896v1 )

ライセンス: Link先を確認
Edmilson Morais, Ron Hoory, Weizhong Zhu, Itai Gat, Matheus Damasceno and Hagai Aronowitz(参考訳) 自己教師付き事前訓練された特徴は、自然言語処理(NLP)分野における最先端の成果を一貫して提供してきたが、音声感情認識(SER)分野におけるそれらのメリットは、いまだにさらなる調査が必要である。 本稿では,アップストリーム+ダウンストリームアーキテクチャのパラダイムに基づくモジュール型エンド・ツー・エンド(E2E)SERシステムを提案する。 IEMOCAPデータセットからカテゴリ感情クラスを予測するためのSER実験が行われた。 これらの実験は, 自己教師付き特徴モデルの微調整, フレームレベル特徴の発話レベル特徴への集約, バックエンド分類網間の相互作用について検討した。 提案する単調音声のみに基づくシステムは, sota結果を達成するだけでなく, 音声とテキストのモダリティを用いて, sotaマルチモーダルシステムによる結果に類似した, 強力で精細な自己教師あり音響的特徴量の可能性にも光を当てている。

Self-supervised pre-trained features have consistently delivered state-of-art results in the field of natural language processing (NLP); however, their merits in the field of speech emotion recognition (SER) still need further investigation. In this paper we introduce a modular End-to- End (E2E) SER system based on an Upstream + Downstream architecture paradigm, which allows easy use/integration of a large variety of self-supervised features. Several SER experiments for predicting categorical emotion classes from the IEMOCAP dataset are performed. These experiments investigate interactions among fine-tuning of self-supervised feature models, aggregation of frame-level features into utterance-level features and back-end classification networks. The proposed monomodal speechonly based system not only achieves SOTA results, but also brings light to the possibility of powerful and well finetuned self-supervised acoustic features that reach results similar to the results achieved by SOTA multimodal systems using both Speech and Text modalities.
翻訳日:2022-02-09 15:04:51 公開日:2022-02-07
# 有限和最適化:グローバルソリューションへの収束の新しい視点

Finite-Sum Optimization: A New Perspective for Convergence to a Global Solution ( http://arxiv.org/abs/2202.03524v1 )

ライセンス: Link先を確認
Lam M. Nguyen, Trang H. Tran, Marten van Dijk(参考訳) ディープニューラルネットワーク(DNN)は多くの機械学習タスクで大きな成功を収めている。 ネットワークアーキテクチャの損失面は一般に非凸あるいは非平滑であるため、トレーニングは難しい。 どんな仮定の下で、最小限のtextit{global} への収束が保証されるのか? 本稿では,新しい再帰的アルゴリズムフレームワークを可能にする最小化問題の再構成を提案する。 有界なスタイル仮定を用いることで、$\mathcal{\tilde{o}}(1/\varepsilon^3)$勾配計算を用いて、$\varepsilon$-(globa l)最小値への収束を証明する。 我々の理論的基礎は、新しいアルゴリズムフレームワークのさらなる研究、実装、最適化と、その非標準有界型仮定のさらなる研究を動機付けるものである。 この新たな方向は、DNNのトレーニングが世界最小限に収束する理由と状況に対する理解を広げます。

Deep neural networks (DNNs) have shown great success in many machine learning tasks. Their training is challenging since the loss surface of the network architecture is generally non-convex, or even non-smooth. How and under what assumptions is guaranteed convergence to a \textit{global} minimum possible? We propose a reformulation of the minimization problem allowing for a new recursive algorithmic framework. By using bounded style assumptions, we prove convergence to an $\varepsilon$-(globa l) minimum using $\mathcal{\tilde{O}}(1/\varepsilon^3)$ gradient computations. Our theoretical foundation motivates further study, implementation, and optimization of the new algorithmic framework and further investigation of its non-standard bounded style assumptions. This new direction broadens our understanding of why and under what circumstances training of a DNN converges to a global minimum.
翻訳日:2022-02-09 15:04:32 公開日:2022-02-07
# 凸最適化のためのNesterov Accelerated Shuffling Gradient Method

Nesterov Accelerated Shuffling Gradient Method for Convex Optimization ( http://arxiv.org/abs/2202.03525v1 )

ライセンス: Link先を確認
Trang H. Tran, Lam M. Nguyen, Katya Scheinberg(参考訳) 本稿では,凸有限サム最小化問題に対する新しいアルゴリズムであるNesterov Accelerated Shuffling Gradient (NASG)を提案する。 本手法は,従来のネステロフ加速運動量と異なるシャッフルサンプリングスキームを統合する。 我々は,このアルゴリズムが統合シャッフルスキームを用いて$\mathcal{O}(1/T)$の改善率を示し,そこでは$T$がエポックの数である。 この値は凸系における他のシャッフル勾配法よりも優れている。 我々の収束解析は有界領域や有界勾配条件に関する仮定を必要としない。 ランダムなシャッフルスキームでは、収束境界をさらに改善する。 初期条件を用いる場合, この手法は解の小さな近傍付近でより高速に収束することを示す。 数値シミュレーションはアルゴリズムの効率を実証する。

In this paper, we propose Nesterov Accelerated Shuffling Gradient (NASG), a new algorithm for the convex finite-sum minimization problems. Our method integrates the traditional Nesterov's acceleration momentum with different shuffling sampling schemes. We show that our algorithm has an improved rate of $\mathcal{O}(1/T)$ using unified shuffling schemes, where $T$ is the number of epochs. This rate is better than that of any other shuffling gradient methods in convex regime. Our convergence analysis does not require an assumption on bounded domain or a bounded gradient condition. For randomized shuffling schemes, we improve the convergence bound further. When employing some initial condition, we show that our method converges faster near the small neighborhood of the solution. Numerical simulations demonstrate the efficiency of our algorithm.
翻訳日:2022-02-09 15:04:18 公開日:2022-02-07
# 文字統計を用いた種子単語の選択

Selecting Seed Words for Wordle using Character Statistics ( http://arxiv.org/abs/2202.03457v1 )

ライセンス: Link先を確認
Nisansa de Silva(参考訳) 単語推測ゲーム「wordle」は2022年1月に世界的な人気を博した。 ゲームの目的は6回以内に5文字の英語単語を推測することである。 各トライは、あるキャラクタがソリューションの一部であるかどうかを知らせる色を変えるタイルによってプレイヤーにヒントを与え、それがソリューションの一部である場合、それが正しい配置にあるかどうかを判断する。 毎日の単語を解決するための最善の出発語と最善の戦略を見つけるために、多くの試みがなされている。 本研究は,5文字単語の文字統計を用いて,最良3単語を決定する。

Wordle, a word guessing game rose to global popularity in the January of 2022. The goal of the game is to guess a five-letter English word within six tries. Each try provides the player with hints by means of colour changing tiles which inform whether or not a given character is part of the solution as well as, in cases where it is part of the solution, whether or not it is in the correct placement. Numerous attempts have been made to find the best starting word and best strategy to solve the daily wordle. This study uses character statistics of five-letter words to determine the best three starting words.
翻訳日:2022-02-09 15:01:28 公開日:2022-02-07
# 宣言的プロセスに対するステークホルダーの効用とプロセス比較における利用

Stakeholder utility measures for declarative processes and their use in process comparisons ( http://arxiv.org/abs/2202.03520v1 )

ライセンス: Link先を確認
Mark Dukes(参考訳) 本稿では,社会科学に限らず,プロセスの利害関係者の効用を計算し,分析する手法を提案する。 これらの領域には、ビジネスプロセス分析、ヘルスケアワークフロー分析、ポリシープロセス分析が含まれる。 この方法は極めて一般的であり、モダルおよび/または時間的性質の宣言型制約が関与する状況に適用できる。 宣言的プロセスは、一連の制約を尊重しながら自由に活動を行うプロセスである。 このようなプロセスでは、明示的に禁止されていない限り、何事も起こりうる。 宣言的プロセスは、いくつかの著者によってビジネスおよび医療ワークフローのモデルとして使われ、研究されている。 あるシステムのモデルとして宣言的プロセスを考えるとき、利害関係者に対してプロセスがどのように振る舞うかを考えるのは自然です。 我々は、非常に一般的な環境で適用可能なステークホルダーユーティリティーの尺度を導出する。 この導出は、そのような利害関係者の効用関数が満足すべきものであると主張するプロパティをコレクションにリストアップすることで実現されます。 ユーティリティ測度は宣言的プロセスの一意なトレースの集合に依存しており、この集合の計算にはプロセスを表す宣言的グラフの組合せ解析が必要である。 これは、宣言的プロセスのための組合せ多様性メトリクスがポリシープロセス分析で使われるために派生した著者の以前の仕事に基づいている。 利害関係者のユーティリティの収集は、それぞれがメトリクスを形成するために使用することができ、異なる宣言的プロセスを互いに比較することができます。 これらは、文献にすでに存在する宣言的プロセスのいくつかの例を使って示されています。

We present a method for calculating and analyzing stakeholder utilities of processes that arise in, but are not limited to, the social sciences. These areas include business process analysis, healthcare workflow analysis and policy process analysis. This method is quite general and applicable to any situation in which declarative-type constraints of a modal and/or temporal nature play a part. A declarative process is a process in which activities may freely happen while respecting a set of constraints. For such a process, anything may happen so long as it is not explicitly forbidden. Declarative processes have been used and studied as models of business and healthcare workflows by several authors. In considering a declarative process as a model of some system it is natural to consider how the process behaves with respect to stakeholders. We derive a measure for stakeholder utility that can be applied in a very general setting. This derivation is achieved by listing a collection a properties which we argue such a stakeholder utility function ought to satisfy, and then using these to show a very specific form must hold for such a utility. The utility measure depends on the set of unique traces of the declarative process, and calculating this set requires a combinatorial analysis of the declarative graph that represents the process. This builds on previous work of the author wherein the combinatorial diversity metrics for declarative processes were derived for use in policy process analysis. The collection of stakeholder utilities can themselves then be used to form a metric with which we can compare different declarative processes to one another. These are illustrated using several examples of declarative processes that already exist in the literature.
翻訳日:2022-02-09 15:00:28 公開日:2022-02-07
# リモートセンシング画像における弱い監視対象検出のためのスクリブルベース境界認識ネットワーク

Scribble-based Boundary-aware Network for Weakly Supervised Salient Object Detection in Remote Sensing Images ( http://arxiv.org/abs/2202.03501v1 )

ライセンス: Link先を確認
Zhou Huang, Tian-Zhu Xiang, Huai-Xin Chen, Hang Dai(参考訳) 既存のcnnsベースのsalient object detection(sod)は、大規模なピクセルレベルのアノテーションに大きく依存しています。 対照的に、スパースアノテーションは、健全なオブジェクト検出コミュニティにアピールします。 しかし、特にリモートセンシング分野において、スパースアノテーションから健全なオブジェクト検出を学習する努力はほとんど行われていない。 さらに、スパースアノテーションは、通常、スカンティな情報を含んでいるため、パフォーマンスのよいモデルへのトレーニングが難しくなり、結果として、完全に教師付きモデルよりもパフォーマンスが大幅に遅れる。 一部のSOD法は検出性能を向上させるためにいくつかの先行手法を採用しているが、通常は対象境界の識別を欠いているため、境界のローカライゼーションが不十分である。 そこで本稿では,sparse scribbleアノテーションからリモートセンシング画像の塩分率を予測するための,弱教師付きサルエント物体検出フレームワークを提案する。 まず,既存の大規模SODデータセットをスクリブル,すなわちS-EORデータセットでラップすることで,スクリブルベースのリモートセンシングサリエンシデータセットを構築する。 その後,リモートセンシングサリアン物体検出のためのスクリブルベース境界認識ネットワーク(SBA-Net)を提案する。 具体的には、境界ラベル生成(BLG)モジュールが生成する高信頼オブジェクト境界(擬似)ラベルによって明示的に教師されるオブジェクト境界セマンティクスを探索するために、境界認識モジュール(BAM)を設計し、オブジェクト構造をハイライトする特徴を学習させ、オブジェクトの境界ローカライゼーションを高める。 次に,境界セマンティクスを高次特徴と統合し,スクリブルラベルの監督下での健全な物体検出を誘導する。

Existing CNNs-based salient object detection (SOD) heavily depends on the large-scale pixel-level annotations, which is labor-intensive, time-consuming, and expensive. By contrast, the sparse annotations become appealing to the salient object detection community. However, few efforts are devoted to learning salient object detection from sparse annotations, especially in the remote sensing field. In addition, the sparse annotation usually contains scanty information, which makes it challenging to train a well-performing model, resulting in its performance largely lagging behind the fully-supervised models. Although some SOD methods adopt some prior cues to improve the detection performance, they usually lack targeted discrimination of object boundaries and thus provide saliency maps with poor boundary localization. To this end, in this paper, we propose a novel weakly-supervised salient object detection framework to predict the saliency of remote sensing images from sparse scribble annotations. To implement it, we first construct the scribble-based remote sensing saliency dataset by relabelling an existing large-scale SOD dataset with scribbles, namely S-EOR dataset. After that, we present a novel scribble-based boundary-aware network (SBA-Net) for remote sensing salient object detection. Specifically, we design a boundary-aware module (BAM) to explore the object boundary semantics, which is explicitly supervised by the high-confidence object boundary (pseudo) labels generated by the boundary label generation (BLG) module, forcing the model to learn features that highlight the object structure and thus boosting the boundary localization of objects. Then, the boundary semantics are integrated with high-level features to guide the salient object detection under the supervision of scribble labels.
翻訳日:2022-02-09 14:58:59 公開日:2022-02-07
# マルチスケールドメイン適応型YOLO

Integrated Multiscale Domain Adaptive YOLO ( http://arxiv.org/abs/2202.03527v1 )

ライセンス: Link先を確認
Mazin Hnewa and Hayder Radha(参考訳) ドメイン適応の領域は多くのアプリケーションで遭遇するドメインシフト問題に対処するのに役立ちました。 この問題は、トレーニングに使用されるソースデータの分布と、実際のテストシナリオで使用されるターゲットデータとの差に起因する。 本稿では、最近導入されたYOLOv4オブジェクト検出器の異なるスケールで、複数のドメイン適応パスと対応するドメイン分類器を利用する新しいMultiScale Domain Adaptive YOLO(MS-DAYOLO)フレームワークを提案する。 ベースラインのマルチスケールdayoloフレームワークに基づいて、ドメイン不変機能を生成するドメイン適応ネットワーク(dan)のための3つの新しいディープラーニングアーキテクチャを紹介します。 特に、プログレッシブ・フィーチャー・リダクション(PFR)、統一分類器(UC)、統合アーキテクチャを提案する。 私たちは、一般的なデータセットを使用して、YOLOv4と一緒に提案されたDANアーキテクチャをトレーニングし、テストします。 本実験は,提案したMS-DAYOLOアーキテクチャを用いたYOLOv4のトレーニングや,自動運転アプリケーションを対象とした目標データを用いたテストにおいて,オブジェクト検出性能が大幅に向上したことを示す。 さらに、MS-DAYOLOフレームワークは、高速なR-CNNソリューションに対して、オブジェクト検出性能を同等にしながら、桁違いのリアルタイム高速化を実現している。

The area of domain adaptation has been instrumental in addressing the domain shift problem encountered by many applications. This problem arises due to the difference between the distributions of source data used for training in comparison with target data used during realistic testing scenarios. In this paper, we introduce a novel MultiScale Domain Adaptive YOLO (MS-DAYOLO) framework that employs multiple domain adaptation paths and corresponding domain classifiers at different scales of the recently introduced YOLOv4 object detector. Building on our baseline multiscale DAYOLO framework, we introduce three novel deep learning architectures for a Domain Adaptation Network (DAN) that generates domain-invariant features. In particular, we propose a Progressive Feature Reduction (PFR), a Unified Classifier (UC), and an Integrated architecture. We train and test our proposed DAN architectures in conjunction with YOLOv4 using popular datasets. Our experiments show significant improvements in object detection performance when training YOLOv4 using the proposed MS-DAYOLO architectures and when tested on target data for autonomous driving applications. Moreover, MS-DAYOLO framework achieves an order of magnitude real-time speed improvement relative to Faster R-CNN solutions while providing comparable object detection performance.
翻訳日:2022-02-09 14:58:24 公開日:2022-02-07
# SliTraNet:畳み込みニューラルネットワークを用いた講義映像におけるスライド遷移の自動検出

SliTraNet: Automatic Detection of Slide Transitions in Lecture Videos using Convolutional Neural Networks ( http://arxiv.org/abs/2202.03540v1 )

ライセンス: Link先を確認
Aline Sindel, Abner Hernandez, Seung Hee Yang, Vincent Christlein and Andreas Maier(参考訳) Webにおけるオンライン学習教材の増加に伴い、講義ビデオ中の特定のコンテンツを探すのに時間がかかる。 したがって,講義ビデオからのスライドの自動抽出は,主内容の概要を簡潔に説明し,学生の学習支援に役立てることができる。 本研究では,講義ビデオ中のスライド遷移を検出するディープラーニング手法を提案する。 まず,ビデオの各フレームを2次元畳み込みニューラルネットワークを用いてヒューリスティックなアプローチで処理し,遷移候補を予測する。 そして、2つの3次元畳み込みニューラルネットワークを用いて遷移候補を洗練することにより複雑さを増大させる。 その結果,スライド遷移の発見における本手法の有効性が示された。

With the increasing number of online learning material in the web, search for specific content in lecture videos can be time consuming. Therefore, automatic slide extraction from the lecture videos can be helpful to give a brief overview of the main content and to support the students in their studies. For this task, we propose a deep learning method to detect slide transitions in lectures videos. We first process each frame of the video by a heuristic-based approach using a 2-D convolutional neural network to predict transition candidates. Then, we increase the complexity by employing two 3-D convolutional neural networks to refine the transition candidates. Evaluation results demonstrate the effectiveness of our method in finding slide transitions.
翻訳日:2022-02-09 14:58:03 公開日:2022-02-07
# tactis: 時系列のためのトランスフォーマー・アテンション・コプラ

TACTiS: Transformer-Attentio nal Copulas for Time Series ( http://arxiv.org/abs/2202.03528v1 )

ライセンス: Link先を確認
Alexandre Drouin, \'Etienne Marcotte, Nicolas Chapados(参考訳) 時間変化量の推定は、医療や金融といった分野における意思決定の基本的な要素である。 しかし、予測の不確実性を正確に定量化することによって、その実用性は限られている。 本研究では,高次元多変量時系列の連立予測分布を推定する問題に対処する。 本研究では,非パラメトリックコプラの特性を模倣して学習するアテンションベースデコーダを用いて,共同分布を推定するトランスフォーマーアーキテクチャに基づく多目的手法を提案する。 結果として得られたモデルは、数百の時系列にスケールでき、予測と補間の両方をサポートし、不整合と不均一にサンプリングされたデータを処理し、トレーニング中に失われたデータにシームレスに適応できる。 これらの特性を実証的に実証し、我々のモデルがいくつかの実世界のデータセット上で最先端の予測を生成することを示す。

The estimation of time-varying quantities is a fundamental component of decision making in fields such as healthcare and finance. However, the practical utility of such estimates is limited by how accurately they quantify predictive uncertainty. In this work, we address the problem of estimating the joint predictive distribution of high-dimensional multivariate time series. We propose a versatile method, based on the transformer architecture, that estimates joint distributions using an attention-based decoder that provably learns to mimic the properties of non-parametric copulas. The resulting model has several desirable properties: it can scale to hundreds of time series, supports both forecasting and interpolation, can handle unaligned and non-uniformly sampled data, and can seamlessly adapt to missing data during training. We demonstrate these properties empirically and show that our model produces state-of-the-art predictions on several real-world datasets.
翻訳日:2022-02-09 14:12:33 公開日:2022-02-07
# 模倣学習のためのランキングゲーム

A Ranking Game for Imitation Learning ( http://arxiv.org/abs/2202.03481v1 )

ライセンス: Link先を確認
Harshit Sikchi, Akanksha Saran, Wonjoon Goo, Scott Niekum(参考訳) 擬似学習のための新しいフレームワークを提案する - 模倣を2プレイヤーのランキングベースのStackelbergゲームとして、$\textit{policy}$と$\textit{reward}$関数の間で扱う。 このゲームでは、報酬エージェントは一連のポリシー内でペアワイズパフォーマンスランキングを満たすことを学習し、政策エージェントは、この報酬を最大化する。 このゲームは、オフラインの好みから学習するirl(inverse reinforcement learning)メソッドとメソッドの両方を包含する。 stackelbergゲーム定式化により,ゲーム構造を考慮した最適化手法の使用が可能となり,既存のirl手法と比較して,よりサンプル効率が向上し,安定した学習ダイナミクスが実現される。 本研究では,均衡条件下での準最適模倣学習を容易にするために,政策性能のランク付けに使用される損失関数の要件を理論的に分析する。 本研究では,自動生成したランキングやオフラインのアノテートランキングを用いて,ランキングゲームのサンプル効率をさらに向上させる。 実験の結果,提案手法は最先端のサンプル効率を実現し,LfO(Learning from Observation)設定における未解決課題を解くことができることがわかった。

We propose a new framework for imitation learning - treating imitation as a two-player ranking-based Stackelberg game between a $\textit{policy}$ and a $\textit{reward}$ function. In this game, the reward agent learns to satisfy pairwise performance rankings within a set of policies, while the policy agent learns to maximize this reward. This game encompasses a large subset of both inverse reinforcement learning (IRL) methods and methods which learn from offline preferences. The Stackelberg game formulation allows us to use optimization methods that take the game structure into account, leading to more sample efficient and stable learning dynamics compared to existing IRL methods. We theoretically analyze the requirements of the loss function used for ranking policy performances to facilitate near-optimal imitation learning at equilibrium. We use insights from this analysis to further increase sample efficiency of the ranking game by using automatically generated rankings or with offline annotated rankings. Our experiments show that the proposed method achieves state-of-the-art sample efficiency and is able to solve previously unsolvable tasks in the Learning from Observation (LfO) setting.
翻訳日:2022-02-09 14:06:27 公開日:2022-02-07
# patclarc: ノイズロバストモデルデバッグにパターン概念活性化ベクトルを使用する

PatClArC: Using Pattern Concept Activation Vectors for Noise-Robust Model Debugging ( http://arxiv.org/abs/2202.03482v1 )

ライセンス: Link先を確認
Frederik Pahde, Leander Weber, Christopher J. Anders, Wojciech Samek, Sebastian Lapuschkin(参考訳) 最先端の機械学習モデルは、大規模なベンチマークデータセットで一般的に(事前)トレーニングされる。 これらはしばしば、データ収集プロセスに気付かれていないバイアス、アーティファクト、エラーを含んでいるため、現実の世界を真実に表現できない。 これにより、これらのデータセットでトレーニングされたモデルは、例えば画像に著作権タグが存在するなど、刺激的な相関に基づいて、望ましくない振る舞いを学ぶことができる。 概念活性化ベクトル(cav)は、既知の概念を潜在空間でモデル化するためのツールとして提案されており、概念の感度テストやモデル修正に使われている。 特にクラスアーティファクト補償(clarc)はcavsを使ってデータアーティファクトを線形に表現するモデルを修正する。 しかし、線形モデルのフィルタを用いたキャビネットのモデル化は、データ内のノイズ部分に大きな影響を与え、最近の研究は、入力の信号方向を見つけるために線形モデルフィルタの不適合性を提案している。 本稿では,潜在空間における雑音・ロバスト概念表現のためのパターン概念活性化ベクトル(pcav)を提案する。 パターンベースアーティファクトモデリングは、ClArCフレームワークを介してモデルからコンバウンディング特徴の影響を取り除く手段として、CAVの適用に有益であることを示す。

State-of-the-art machine learning models are commonly (pre-)trained on large benchmark datasets. These often contain biases, artifacts, or errors that have remained unnoticed in the data collection process and therefore fail in representing the real world truthfully. This can cause models trained on these datasets to learn undesired behavior based upon spurious correlations, e.g., the existence of a copyright tag in an image. Concept Activation Vectors (CAV) have been proposed as a tool to model known concepts in latent space and have been used for concept sensitivity testing and model correction. Specifically, class artifact compensation (ClArC) corrects models using CAVs to represent data artifacts in feature space linearly. Modeling CAVs with filters of linear models, however, causes a significant influence of the noise portion within the data, as recent work proposes the unsuitability of linear model filters to find the signal direction in the input, which can be avoided by instead using patterns. In this paper we propose Pattern Concept Activation Vectors (PCAV) for noise-robust concept representations in latent space. We demonstrate that pattern-based artifact modeling has beneficial effects on the application of CAVs as a means to remove influence of confounding features from models via the ClArC framework.
翻訳日:2022-02-09 13:51:08 公開日:2022-02-07
# BERTモデルの伝達学習を用いたユニバーサルスパム検出

Universal Spam Detection using Transfer Learning of BERT Model ( http://arxiv.org/abs/2202.03480v1 )

ライセンス: Link先を確認
Vijay Srinivas Tida, Sonya Hsu(参考訳) ディープラーニングトランスフォーマーモデルは,セルフアテンション機構に基づいたテキストデータによるトレーニングによって重要になる。 この原稿は、トレーニング済みのGoogle’s Bidirectional Encoder Representations from Transformers (BERT)ベース非ケースモデルの4つのデータセットを使用して、ハムやスパムメールをリアルタイムで効率的に分類することで、新しい普遍的なスパム検出モデルを実証した。 Enron, Spamassain, Lingspam, Spamtextメッセージ分類データセットの異なる手法を用いて, 4つのデータセットで許容可能な性能で1つのモデルが得られるモデルを個別に訓練した。 ユニバーサルスパム検出モデル(USDM)は4つのデータセットでトレーニングされ、各モデルからハイパーパラメータを利用した。 組み合わせたモデルは、4つのモデルからそれぞれ同じハイパーパラメータで微調整された。 各モデルが対応するデータセットを使用する場合、f1-scoreは個々のモデルで0.9以上である。 全体の精度は97%で、f1スコアは0.96である。 研究成果と意義について考察した。

Deep learning transformer models become important by training on text data based on self-attention mechanisms. This manuscript demonstrated a novel universal spam detection model using pre-trained Google's Bidirectional Encoder Representations from Transformers (BERT) base uncased models with four datasets by efficiently classifying ham or spam emails in real-time scenarios. Different methods for Enron, Spamassain, Lingspam, and Spamtext message classification datasets, were used to train models individually in which a single model was obtained with acceptable performance on four datasets. The Universal Spam Detection Model (USDM) was trained with four datasets and leveraged hyperparameters from each model. The combined model was finetuned with the same hyperparameters from these four models separately. When each model using its corresponding dataset, an F1-score is at and above 0.9 in individual models. An overall accuracy reached 97%, with an F1 score of 0.96. Research results and implications were discussed.
翻訳日:2022-02-09 13:47:50 公開日:2022-02-07
# 異なる拡張層を持つ深部不変ネットワーク

Deep invariant networks with differentiable augmentation layers ( http://arxiv.org/abs/2202.02142v2 )

ライセンス: Link先を確認
C\'edric Rommel, Thomas Moreau and Alexandre Gramfort(参考訳) 特定のデータ変換に不変な学習システムの設計は、機械学習において重要である。 実践者は一般的に、ネットワークアーキテクチャの選択、例えば翻訳の畳み込みやデータ拡張の使用を通じて、トレーニングされたモデルに望ましい不変性を強制することができる。 しかし、ネットワークに真の不変性を持たせることは困難であり、データ不変性は常にpioriとして知られているとは限らない。 データ拡張ポリシーを学ぶための最先端の手法は、保持されたデータを必要とし、二段階最適化の問題に基づいている。 本研究では,学習データからのみ不変性を学習する方法を検討する。 ネットワーク上に直接構築された学習可能な拡張レイヤを用いて,本手法が極めて汎用的であることを示す。 あらゆる種類の微分可能拡張を組み込んで、コンピュータビジョン以外の幅広い学習問題に適用することができる。 両レベル最適化に基づく最新の自動データ拡張技術よりも,我々のアプローチがより簡単かつ高速にトレーニングできることを示す実証的な証拠を提示する。 実験により, 自動データ拡張によるモデルへの不変性はモデル表現性によって制限されるが, 提案手法により得られる不変性は設計上は不感であることがわかった。

Designing learning systems which are invariant to certain data transformations is critical in machine learning. Practitioners can typically enforce a desired invariance on the trained model through the choice of a network architecture, e.g. using convolutions for translations, or using data augmentation. Yet, enforcing true invariance in the network can be difficult, and data invariances are not always known a piori. State-of-the-art methods for learning data augmentation policies require held-out data and are based on bilevel optimization problems, which are complex to solve and often computationally demanding. In this work we investigate new ways of learning invariances only from the training data. Using learnable augmentation layers built directly in the network, we demonstrate that our method is very versatile. It can incorporate any type of differentiable augmentation and be applied to a broad class of learning problems beyond computer vision. We provide empirical evidence showing that our approach is easier and faster to train than modern automatic data augmentation techniques based on bilevel optimization, while achieving comparable results. Experiments show that while the invariances transferred to a model through automatic data augmentation are limited by the model expressivity, the invariance yielded by our approach is insensitive to it by design.
翻訳日:2022-02-09 11:52:59 公開日:2022-02-07
# (参考訳) 高次元スパース行列表現に対するパラメトリック法と非パラメトリック法の影響 [全文訳有]

Effects of Parametric and Non-Parametric Methods on High Dimensional Sparse Matrix Representations ( http://arxiv.org/abs/2202.02894v1 )

ライセンス: CC BY 4.0
Sayali Tambe, Raunak Joshi, Abhishek Gupta, Nandan Kanvinde, Vidya Chitre(参考訳) セマンティクスは、機械学習アルゴリズムの表現を提供するテキストデータに由来する。 これらの表現は、機械学習アルゴリズムへの入力として与えられる高次元スパース行列の解釈可能な形式である。 学習法はパラメトリックおよび非パラメトリック学習法として広く分類されているので,高次元スパース行列表現にこの種のアルゴリズムが与える影響について述べる。 テキストデータから表現を導出するため,本論文ではTF-IDF表現を妥当な理由から検討した。 我々は,50,100,500,1000,500 0次元の表現を作成し,パラメータ学習法として線形判別分析,ネイブベイズを,非パラメトリック学習法として,決定木とサポートベクトルマシンを分類した。 その後、本論文で詳述した全てのアルゴリズムの表現と効果のすべての次元についてメトリクスを提供した。

The semantics are derived from textual data that provide representations for Machine Learning algorithms. These representations are interpretable form of high dimensional sparse matrix that are given as an input to the machine learning algorithms. Since learning methods are broadly classified as parametric and non-parametric learning methods, in this paper we provide the effects of these type of algorithms on the high dimensional sparse matrix representations. In order to derive the representations from the text data, we have considered TF-IDF representation with valid reason in the paper. We have formed representations of 50, 100, 500, 1000 and 5000 dimensions respectively over which we have performed classification using Linear Discriminant Analysis and Naive Bayes as parametric learning method, Decision Tree and Support Vector Machines as non-parametric learning method. We have later provided the metrics on every single dimension of the representation and effect of every single algorithm detailed in this paper.
翻訳日:2022-02-09 06:13:56 公開日:2022-02-07
# (参考訳) 因果学習アルゴリズムの評価方法と対策 [全文訳有]

Evaluation Methods and Measures for Causal Learning Algorithms ( http://arxiv.org/abs/2202.02896v1 )

ライセンス: CC BY 4.0
Lu Cheng, Ruocheng Guo, Raha Moraffah, Paras Sheth, K. Selcuk Candan, Huan Liu(参考訳) 複雑な多面データへの便利なアクセスにより、機械学習研究者は相関ベースの学習を再考し、因果性に基づく学習、すなわち因果性機械学習(causal learning)の機会を受け入れることができる。 近年、AIが人間レベルの知性を達成するための因果学習アルゴリズムの開発に多大な努力が注がれている。 基礎データがないため、現在の因果学習研究における最大の課題の1つはアルゴリズム評価である。 これはAIと因果推論の交叉を阻害し、もう一方の進歩の恩恵を受けるために2つの分野を妨げる。 本調査では,従来の因果推論(統計的手法に基づく)からビッグデータによる因果学習(因果推論と機械学習の交わり)へ橋渡しするため,従来の機械学習と類似した評価パイプラインを用いた因果学習のための一般的なデータセット,評価方法,尺度をレビューする。 我々は2つの基本的な因果推論タスクと因果認識機械学習タスクに焦点を当てる。 現在の評価手順の限界についても論じる。 次に、一般的な因果推論ツール/パッケージを調べ、ビッグデータ時代の因果学習アルゴリズムをベンチマークする主な課題と機会を結論づける。 この調査は、観察データを用いた因果学習評価のための公開ベンチマークやコンセンサス構築標準の開発を急務とするものである。 そうすることで、議論を広げ、因果学習の革新と応用を進めるためのコラボレーションを促進したいと思っています。

The convenient access to copious multi-faceted data has encouraged machine learning researchers to reconsider correlation-based learning and embrace the opportunity of causality-based learning, i.e., causal machine learning (causal learning). Recent years have therefore witnessed great effort in developing causal learning algorithms aiming to help AI achieve human-level intelligence. Due to the lack-of ground-truth data, one of the biggest challenges in current causal learning research is algorithm evaluations. This largely impedes the cross-pollination of AI and causal inference, and hinders the two fields to benefit from the advances of the other. To bridge from conventional causal inference (i.e., based on statistical methods) to causal learning with big data (i.e., the intersection of causal inference and machine learning), in this survey, we review commonly-used datasets, evaluation methods, and measures for causal learning using an evaluation pipeline similar to conventional machine learning. We focus on the two fundamental causal-inference tasks and causality-aware machine learning tasks. Limitations of current evaluation procedures are also discussed. We then examine popular causal inference tools/packages and conclude with primary challenges and opportunities for benchmarking causal learning algorithms in the era of big data. The survey seeks to bring to the forefront the urgency of developing publicly available benchmarks and consensus-building standards for causal learning evaluation with observational data. In doing so, we hope to broaden the discussions and facilitate collaboration to advance the innovation and application of causal learning.
翻訳日:2022-02-09 06:07:54 公開日:2022-02-07
# (参考訳) 勾配ブースティングマシンと注意深い前処理作業:ashrae great energy predictor iiiの教訓 [全文訳有]

Gradient boosting machines and careful pre-processing work best: ASHRAE Great Energy Predictor III lessons learned ( http://arxiv.org/abs/2202.02898v1 )

ライセンス: CC BY-SA 4.0
Clayton Miller, Liu Hao, Chun Fu(参考訳) ASHRAE Great Energy Predictor III (GEPIII)コンペティションは、2019年末に開催され、建築性能に焦点を当てた機械学習コンペティションの1つとなった。 この大会はKaggleプラットフォームで開催され、39,402件の予測が提出され、上位5チームが賞金25,000ドルを分けた。 本稿では,上位5%で得点したチームを中心に,参加者から得た教訓について概説する。 オンライン調査、公開投稿とノートブックの分析、優勝チームのドキュメントなどを通じて、彼らの経験からさまざまな洞察を得た。 トップパフォーマンスソリューションは、主にグラデーションブースティングマシン(gbm)ツリーベースのモデルのアンサンブルを使用しており、lightgbmパッケージが最も人気がある。 調査参加者は、事前処理と特徴抽出フェーズが最良のモデリングアプローチを作成する上で最も重要な側面であることを示した。 すべての回答者がPythonを主要なモデリングツールとして使用し、Jupyterスタイルのノートブックを開発環境として使用することが一般的だった。 これらの結論は、将来エネルギーメータ予測の研究と実用化を支援するために不可欠である。

The ASHRAE Great Energy Predictor III (GEPIII) competition was held in late 2019 as one of the largest machine learning competitions ever held focused on building performance. It was hosted on the Kaggle platform and resulted in 39,402 prediction submissions, with the top five teams splitting $25,000 in prize money. This paper outlines lessons learned from participants, mainly from teams who scored in the top 5% of the competition. Various insights were gained from their experience through an online survey, analysis of publicly shared submissions and notebooks, and the documentation of the winning teams. The top-performing solutions mostly used ensembles of Gradient Boosting Machine (GBM) tree-based models, with the LightGBM package being the most popular. The survey participants indicated that the preprocessing and feature extraction phases were the most important aspects of creating the best modeling approach. All the survey respondents used Python as their primary modeling tool, and it was common to use Jupyter-style Notebooks as development environments. These conclusions are essential to help steer the research and practical implementation of building energy meter prediction in the future.
翻訳日:2022-02-09 05:23:11 公開日:2022-02-07
# (参考訳) ゴール指向対話システムにおける逐次対話行動モデルを用いたユーザ満足度推定 [全文訳有]

User Satisfaction Estimation with Sequential Dialogue Act Modeling in Goal-oriented Conversational Systems ( http://arxiv.org/abs/2202.02912v1 )

ライセンス: CC BY 4.0
Yang Deng, Wenxuan Zhang, Wai Lam, Hong Cheng, Helen Meng(参考訳) ユーザ満足度推定(USE)は,目標指向の対話システムにおいて重要な課題である。 ユーザがシステムに満足しているかは,ユーザニーズの満足度に大きく依存するが,ユーザの対話行為によって暗黙的に反映される。 しかし,既存の研究は,対話行為の逐次的推移を無視したり,注釈付き対話行為ラベルに強く依存したりすることがしばしばある。 本稿では,ユーザ満足度推定と対話行為認識タスクを共同で学習することにより,ユーザ満足度を予測するための対話行為の逐次的ダイナミクスを取り入れた新しいフレームワーク,USDAを提案する。 具体的には、まず階層型トランスフォーマーを用いて対話コンテキスト全体を符号化し、2つのタスク適応型事前学習戦略を用いて対話モデリング能力を高めるための第2フェーズのドメイン内事前学習を行う。 対話行為ラベルの可利用性の観点からは,さらに2種類のusdaを開発し,対話行為情報を教師なしあるいは教師なしのマナーで捉えた。 最後に、USDAはユーザー満足度を予測するために、対話中のコンテンツと行動機能の連続的な遷移を利用する。 異なるアプリケーションにまたがる4つの目標指向対話データセットのベンチマーク実験結果から,提案手法は既存のUSE手法よりも実質的に一貫した性能を示し,USEにおける対話行動シーケンスの重要な役割を検証した。

User Satisfaction Estimation (USE) is an important yet challenging task in goal-oriented conversational systems. Whether the user is satisfied with the system largely depends on the fulfillment of the user's needs, which can be implicitly reflected by users' dialogue acts. However, existing studies often neglect the sequential transitions of dialogue act or rely heavily on annotated dialogue act labels when utilizing dialogue acts to facilitate USE. In this paper, we propose a novel framework, namely USDA, to incorporate the sequential dynamics of dialogue acts for predicting user satisfaction, by jointly learning User Satisfaction Estimation and Dialogue Act Recognition tasks. In specific, we first employ a Hierarchical Transformer to encode the whole dialogue context, with two task-adaptive pre-training strategies to be a second-phase in-domain pre-training for enhancing the dialogue modeling ability. In terms of the availability of dialogue act labels, we further develop two variants of USDA to capture the dialogue act information in either supervised or unsupervised manners. Finally, USDA leverages the sequential transitions of both content and act features in the dialogue to predict the user satisfaction. Experimental results on four benchmark goal-oriented dialogue datasets across different applications show that the proposed method substantially and consistently outperforms existing methods on USE, and validate the important role of dialogue act sequences in USE.
翻訳日:2022-02-09 05:10:19 公開日:2022-02-07
# (参考訳) ABG:プライバシー保護協調学習のための多人数混合プロトコルフレームワーク [全文訳有]

ABG: A Multi-Party Mixed Protocol Framework for Privacy-Preserving Cooperative Learning ( http://arxiv.org/abs/2202.02928v1 )

ライセンス: CC BY 4.0
Hao Wang, Zhi Li, Chunpeng Ge, Willy Susilo(参考訳) 2人以上のデータ所有者が共同でモデルをトレーニングできる協調学習は、機械学習における不十分なトレーニングデータの問題を解決するために広く採用されている。 今日では、互いにデータをプライベートに保ちながら協力的にモデルを訓練する機関や組織が緊急に必要となっている。 協調学習におけるプライバシ保護の問題に対処するために,セキュアなアウトソース計算と連合学習が典型的な方法である。 それにもかかわらず、これら2つの方法が協調学習で活用される場合、多くの欠点がある。 セキュアなアウトソース計算のためには、半正直なサーバを導入する必要がある。 アウトソースされたサーバが他のアクティブアタックを実行した場合、データのプライバシが開示される。 フェデレーション学習では,垂直分割されたデータを複数のパーティに分散するシナリオに適用することは困難である。 本研究では,多人数混合プロトコルフレームワーク abg$^n$ を提案する。これは計算共有 (a) ,ブール共有 (b) およびgarbled-circuits sharing (g) 間の任意の変換を,n$ パーティシナリオに対して効果的に実装するものである。 ABG$^n$に基づいて、さまざまなデータ所有者がデータセキュリティとプライバシ保護の観点から機械学習に協力できる、プライバシ保護型多人数協調学習システムを設計する。 さらに,ロジスティック回帰やニューラルネットワークなどの一般的な機械学習手法に対して,プライバシ保存型計算プロトコルを設計する。 従来の手法と比較して,提案手法はアプリケーションの範囲が広く,サーバの追加に頼る必要はない。 最後に,ローカル設定およびパブリッククラウド設定におけるABG$^n$の性能を評価する。 実験によると、abg$^n$は特に低レイテンシのネットワーク環境において優れた性能を示す。

Cooperative learning, that enables two or more data owners to jointly train a model, has been widely adopted to solve the problem of insufficient training data in machine learning. Nowadays, there is an urgent need for institutions and organizations to train a model cooperatively while keeping each other's data privately. To address the issue of privacy-preserving in collaborative learning, secure outsourced computation and federated learning are two typical methods. Nevertheless, there are many drawbacks for these two methods when they are leveraged in cooperative learning. For secure outsourced computation, semi-honest servers need to be introduced. Once the outsourced servers collude or perform other active attacks, the privacy of data will be disclosed. For federated learning, it is difficult to apply to the scenarios where vertically partitioned data are distributed over multiple parties. In this work, we propose a multi-party mixed protocol framework, ABG$^n$, which effectively implements arbitrary conversion between Arithmetic sharing (A), Boolean sharing (B) and Garbled-Circuits sharing (G) for $n$-party scenarios. Based on ABG$^n$, we design a privacy-preserving multi-party cooperative learning system, which allows different data owners to cooperate in machine learning in terms of data security and privacy-preserving. Additionally, we design specific privacy-preserving computation protocols for some typical machine learning methods such as logistic regression and neural networks. Compared with previous work, the proposed method has a wider scope of application and does not need to rely on additional servers. Finally, we evaluate the performance of ABG$^n$ on the local setting and on the public cloud setting. The experiments indicate that ABG$^n$ has excellent performance, especially in the network environment with low latency.
翻訳日:2022-02-09 04:48:44 公開日:2022-02-07
# (参考訳) SUD: 医用画像セグメンテーションのためのデノベーションによる監督 [全文訳有]

SUD: Supervision by Denoising for Medical Image Segmentation ( http://arxiv.org/abs/2202.02952v1 )

ライセンス: CC BY 4.0
Sean I. Young, Adrian V. Dalca, Enzo Ferrante, Polina Golland, Bruce Fischl, and Juan Eugenio Iglesias(参考訳) セマンティックセグメンテーションのための完全畳み込みネットワークのトレーニングは通常、適切な一般化が保証される場合、ラベルノイズが少ない大きなラベル付きデータセットを必要とする。 しかし、多くのセグメンテーション問題では、手動ラベリングのコストのためにピクセルレベルまたはボクセルレベルのラベリング精度のデータが不足している。 手動アノテーションが難しいドメインでは、この問題が悪化し、ドメインの専門家間でも、ラベリングに大量の変動が生じます。 したがって、ラベル付き画像とラベル付き画像(半教師付き学習と呼ばれる)の両方から学習することで、より一般化するための訓練用セグメンテーションネットワークは、実用的・理論的に問題となる。 しかし、セグメント化のための従来の半教師付き学習手法は、しばしば、与えられたセグメント化問題に特有の微分可能な正規化器を手作りする必要がある。 そこで本研究では,特定出力をターゲットとしてセグメント化モデルを監視可能なフレームワークであるSUD(supervision by Denoising)を提案する。 SUDは時空間重畳法と時空間重畳法を時空間重畳法で統合し,半スーパービジョン最適化フレームワークにおける分極法とネットワーク重み更新を交互に行う。 SUDは3つのタスク・キドニーと腫瘍(3D),脳(3D)セグメンテーションと2D)セグメンテーションで評価され,DiceオーバーラップとHausdorffの時間的アンサンブルベースラインに対するセグメンテーション距離が有意に改善した。

Training a fully convolutional network for semantic segmentation typically requires a large, labeled dataset with little label noise if good generalization is to be guaranteed. For many segmentation problems, however, data with pixel- or voxel-level labeling accuracy are scarce due to the cost of manual labeling. This problem is exacerbated in domains where manual annotation is difficult, resulting in large amounts of variability in the labeling even across domain experts. Therefore, training segmentation networks to generalize better by learning from both labeled and unlabeled images (called semi-supervised learning) is problem of both practical and theoretical interest. However, traditional semi-supervised learning methods for segmentation often necessitate hand-crafting a differentiable regularizer specific to a given segmentation problem, which can be extremely time-consuming. In this work, we propose "supervision by denoising" (SUD), a framework that enables us to supervise segmentation models using their denoised output as targets. SUD unifies temporal ensembling and spatial denoising techniques under a spatio-temporal denoising framework and alternates denoising and network weight update in an optimization framework for semi-supervision. We validate SUD on three tasks-kidney and tumor (3D), and brain (3D) segmentation, and cortical parcellation (2D)-demonstrating a significant improvement in the Dice overlap and the Hausdorff distance of segmentations over supervised-only and temporal ensemble baselines.
翻訳日:2022-02-09 04:11:32 公開日:2022-02-07
# (参考訳) ゲノミクスにおける遺伝子発現データ解析のための計算学習法の包括的調査

Comprehensive survey of computational learning methods for analysis of gene expression data in genomics ( http://arxiv.org/abs/2202.02958v1 )

ライセンス: CC BY 4.0
Nikita Bhandari, Rahee Walambe, Ketan Kotech, Satyajeet Khare(参考訳) 機械学習を含む計算分析手法は、ゲノム学や医学の分野に大きな影響を与えている。 マイクロアレイ技術やRNAシークエンシングなどの高スループット遺伝子発現解析手法は膨大な量のデータを生成する。 伝統的に、統計的手法は遺伝子発現データの比較分析に用いられる。 しかし、特徴遺伝子の分類と発見のためのより複雑な分析やサンプル観察には高度な計算手法が必要である。 本稿では,表現マイクロアレイデータの解析に用いられる各種統計・計算ツールについて概説する。 これらの手法は, 発現マイクロアレイデータの文脈で論じられているが, RNAシークエンシングや定量プロテオミクスデータセットの解析にも応用できる。 具体的には,不備値(遺伝子発現)の計算方法,特徴遺伝子のスケーリング,次元減少のための特徴の選択と抽出,表現データの学習と解析について論じる。 欠落する値の型と、通常そのインプテーションで使われるメソッドとアプローチについて論じる。 また、データ変換の手法や特徴スケーリングの手法についても論じる。 特徴選択や抽出に用いられる様々なアプローチも検討されている。 最後に、クラス比較、クラス予測、クラス発見を含む学習および分析方法とその評価パラメータについて詳述する。 以上の手法の利点と限界とともに,マイクロアレイ遺伝子発現データの生成プロセスについて述べる。 この詳細なレビューは、ユーザがデータの種類と期待される結果に基づいて適切な方法を選択するのに役立つと信じています。

Computational analysis methods including machine learning have a significant impact in the fields of genomics and medicine. High-throughput gene expression analysis methods such as microarray technology and RNA sequencing produce enormous amounts of data. Traditionally, statistical methods are used for comparative analysis of the gene expression data. However, more complex analysis for classification and discovery of feature genes or sample observations requires sophisticated computational approaches. In this review, we compile various statistical and computational tools used in analysis of expression microarray data. Even though, the methods are discussed in the context of expression microarray data, they can also be applied for the analysis of RNA sequencing or quantitative proteomics datasets. We specifically discuss methods for missing value (gene expression) imputation, feature gene scaling, selection and extraction of features for dimensionality reduction, and learning and analysis of expression data. We discuss the types of missing values and the methods and approaches usually employed in their imputation. We also discuss methods of data transformation and feature scaling viz. normalization and standardization. Various approaches used in feature selection and extraction are also reviewed. Lastly, learning and analysis methods including class comparison, class prediction, and class discovery along with their evaluation parameters are described in detail. We have described the process of generation of a microarray gene expression data along with advantages and limitations of the above-mentioned techniques. We believe that this detailed review will help the users to select appropriate methods based on the type of data and the expected outcome.
翻訳日:2022-02-09 03:33:32 公開日:2022-02-07
# (参考訳) 敵対的信頼伝達による不完全な実演から学ぶ [全文訳有]

Learning from Imperfect Demonstrations via Adversarial Confidence Transfer ( http://arxiv.org/abs/2202.02967v1 )

ライセンス: CC BY 4.0
Zhangjie Cao, Zihan Wang, Dorsa Sadigh(参考訳) 既存のデモンストレーションアルゴリズムからの学習は通常、専門家によるデモへのアクセスを前提としている。 しかし、この仮定は多くの実世界のアプリケーションで制限されている。 そこで,信頼度予測子を学習することにより,不完全な実演から学習の問題を研究する。 具体的には、異なる対応環境(ソース環境)からの信頼度値とともに、ポリシー(ラベルなしの実証しか持たないターゲット環境)の信頼度予測器を学ぶために、異なる対応環境(ソース環境)からの信頼度値とともに、デモに頼り、複数の長さ部分軌跡の対角分布マッチングを通じて共通の潜伏空間を学び、ソースおよびターゲット環境間の信頼度の伝達を可能にする。 学習された自信はデモを再重み付けし、情報的なデモンストレーションから学び、無関係なものを捨てることを可能にする。 3つのシミュレーション環境と実際のロボット到達タスクによる実験は、我々のアプローチが最も期待されたリターンでポリシーを学ぶことを示す。

Existing learning from demonstration algorithms usually assume access to expert demonstrations. However, this assumption is limiting in many real-world applications since the collected demonstrations may be suboptimal or even consist of failure cases. We therefore study the problem of learning from imperfect demonstrations by learning a confidence predictor. Specifically, we rely on demonstrations along with their confidence values from a different correspondent environment (source environment) to learn a confidence predictor for the environment we aim to learn a policy in (target environment -- where we only have unlabeled demonstrations.) We learn a common latent space through adversarial distribution matching of multi-length partial trajectories to enable the transfer of confidence across source and target environments. The learned confidence reweights the demonstrations to enable learning more from informative demonstrations and discarding the irrelevant ones. Our experiments in three simulated environments and a real robot reaching task demonstrate that our approach learns a policy with the highest expected return.
翻訳日:2022-02-09 03:32:27 公開日:2022-02-07
# (参考訳) 知識蒸留による局所的個人分散型深層学習 [全文訳有]

Locally Differentially Private Distributed Deep Learning via Knowledge Distillation ( http://arxiv.org/abs/2202.02971v1 )

ライセンス: CC BY 4.0
Di Zhuang, Mingchen Li and J. Morris Chang(参考訳) ディープラーニングは多くの場合、大量のデータを必要とする。 医療アプリケーションのような現実世界のアプリケーションでは、単一の組織(病院など)が収集するデータは、しばしば制限され、大規模で多様なデータの大部分は、複数の組織にまたがって分離される。 そのため、データ利用者は複数の異なるデータ所有者間で分離されたデータを使用してDLモデルを構築したいと考える。 しかし、これはデータの機密性に起因するプライバシー上の深刻な懸念につながる可能性があるため、データ所有者はためらって参加を嫌うだろう。 本研究では,各データ所有者が独自の(ローカルな)プライベートデータセットを用いて教師モデルを学習し,データ利用者が教師モデルのアンサンブルの出力を模倣するために学生モデルを学習する,ローカルな差分プライバシーと知識蒸留によるプライバシー保護型分散ディープラーニングフレームワーク LDP-DL を提案する。 実験評価では,3つの人気のあるディープラーニングベンチマークデータセット(CIFAR10,MNIST,Fashi onMNIST)を用いて,提案手法(DP-DL),DP-SGD,PATE, DP-FL)の総合的な比較を行った。 実験結果から, LDP-DLはプライバシ予算やモデル精度において, 他社よりも一貫して優れていた。

Deep learning often requires a large amount of data. In real-world applications, e.g., healthcare applications, the data collected by a single organization (e.g., hospital) is often limited, and the majority of massive and diverse data is often segregated across multiple organizations. As such, it motivates the researchers to conduct distributed deep learning, where the data user would like to build DL models using the data segregated across multiple different data owners. However, this could lead to severe privacy concerns due to the sensitive nature of the data, thus the data owners would be hesitant and reluctant to participate. We propose LDP-DL, a privacy-preserving distributed deep learning framework via local differential privacy and knowledge distillation, where each data owner learns a teacher model using its own (local) private dataset, and the data user learns a student model to mimic the output of the ensemble of the teacher models. In the experimental evaluation, a comprehensive comparison has been made among our proposed approach (i.e., LDP-DL), DP-SGD, PATE and DP-FL, using three popular deep learning benchmark datasets (i.e., CIFAR10, MNIST and FashionMNIST). The experimental results show that LDP-DL consistently outperforms the other competitors in terms of privacy budget and model accuracy.
翻訳日:2022-02-09 03:15:40 公開日:2022-02-07
# (参考訳) NLPの構造化予測におけるモデル更新回帰の測定と低減 [全文訳有]

Measuring and Reducing Model Update Regression in Structured Prediction for NLP ( http://arxiv.org/abs/2202.02976v1 )

ライセンス: CC BY 4.0
Deng Cai and Elman Mansimov and Yi-An Lai and Yixuan Su and Lei Shu and Yi Zhang(参考訳) 近年のディープラーニングの進歩により、幅広いアプリケーションで機械学習ベースのNLPモデルが急速に採用されている。 精度の継続的な向上にもかかわらず、後方互換性は産業アプリケーションにとって重要な側面であるが、研究の注目を集めていない。 後方互換性は、新しいモデルが前任者が正しく処理したケースを後退させないように要求する。 本研究は、構造化予測タスクにおける更新回帰をモデル化する。 我々は,NLPにおける構造化予測タスクの代表的な例として,構文依存解析と会話意味解析を選択する。 まず、異なるモデル更新設定でモデル更新レグレッションを測定し、分析する。 次に,モデルアンサンブルと知識蒸留を含むモデル更新回帰を低減するための既存手法の検討とベンチマークを行う。 さらに、構造化された出力の特性を考慮し、単純で効果的なBCR(Backward-Congrue nt Re- rank)を提案する。 実験により、BCRはモデルアンサンブルや知識蒸留法よりもモデル更新回帰を緩和できることが示された。

Recent advance in deep learning has led to rapid adoption of machine learning based NLP models in a wide range of applications. Despite the continuous gain in accuracy, backward compatibility is also an important aspect for industrial applications, yet it received little research attention. Backward compatibility requires that the new model does not regress on cases that were correctly handled by its predecessor. This work studies model update regression in structured prediction tasks. We choose syntactic dependency parsing and conversational semantic parsing as representative examples of structured prediction tasks in NLP. First, we measure and analyze model update regression in different model update settings. Next, we explore and benchmark existing techniques for reducing model update regression including model ensemble and knowledge distillation. We further propose a simple and effective method, Backward-Congruent Re-ranking (BCR), by taking into account the characteristics of structured output. Experiments show that BCR can better mitigate model update regression than model ensemble and knowledge distillation approaches.
翻訳日:2022-02-09 02:53:08 公開日:2022-02-07
# (参考訳) 意味的に類似したサンプルから音像定位を学ぶ [全文訳有]

Learning Sound Localization Better From Semantically Similar Samples ( http://arxiv.org/abs/2202.03007v1 )

ライセンス: CC BY 4.0
Arda Senocak, Hyeonggon Ryu, Junsik Kim, In So Kweon(参考訳) 本研究の目的は,視覚シーンにおける音源のローカライズである。 既存のオーディオ・ビジュアル作品では、正と同じソースから対応するオーディオとビジュアルのペアを割り当て、ランダムにミスマッチしたペアを負に割り当てて対比学習を行っている。 しかし、これらの負のペアは意味的に一致した音声視覚情報を含むかもしれない。 したがって、これらの意味的相関の組である「強正」は誤って負としてグループ化される。 私たちの重要な貢献は、ハード陽性が対応するペアに同様の応答マップを提供することを示すことです。 このアプローチでは,これらの難易度を,コントラスト学習目標に直接対応マップを追加することで取り入れる。 本稿では,vgg-ss および soundnet-flickr テストセットにおける提案手法の有効性を実証し,最先端手法に好適な性能を示す。

The objective of this work is to localize the sound sources in visual scenes. Existing audio-visual works employ contrastive learning by assigning corresponding audio-visual pairs from the same source as positives while randomly mismatched pairs as negatives. However, these negative pairs may contain semantically matched audio-visual information. Thus, these semantically correlated pairs, "hard positives", are mistakenly grouped as negatives. Our key contribution is showing that hard positives can give similar response maps to the corresponding pairs. Our approach incorporates these hard positives by adding their response maps into a contrastive learning objective directly. We demonstrate the effectiveness of our approach on VGG-SS and SoundNet-Flickr test sets, showing favorable performance to the state-of-the-art methods.
翻訳日:2022-02-09 02:32:02 公開日:2022-02-07
# (参考訳) CECILIA: 包括的なセキュア機械学習フレームワーク [全文訳有]

CECILIA: Comprehensive Secure Machine Learning Framework ( http://arxiv.org/abs/2202.03023v1 )

ライセンス: CC BY 4.0
Ali Burak \"Unal, Mete Akg\"un, Nico Pfeifer(参考訳) 機械学習アルゴリズムはデータマイニングタスクの成功を証明しているため、機密性の高い情報を持つデータは、機械学習アルゴリズムが出現するためのプライバシー保護を強制する。 さらに、これらのアルゴリズムが必要とするデータソースの数の増加と高い計算能力により、個人はトレーニングや機械学習モデルの推論を、そのようなサービスを提供するクラウドにアウトソースせざるを得なくなる。 このジレンマに対処するために,より複雑な操作をプライベートに行えるように,ビルディングブロックを保護したセキュアな3要素計算フレームワークであるCECILIAを提案する。 これらビルディングブロックのうち、2つの新しい手法があり、これは秘密のグラム行列の秘密値と逆2乗根の力に引き上げられた公開基底の正確な指数関数である。 我々はceciliaを用いて,畳み込みニューラルネットワークなど他の深層ニューラルネットワークよりも複雑な操作を必要とする事前学習されたリカレントカーネルネットワークにおけるプライバシ保存推論を実現した最初の研究として,タンパク質の構造的分類を行った。 以上の結果から,これまでの文献では近似法を用いて,完全かつ完全プライベートな指数関数計算を行った。 さらに、秘密のグラム行列計算の正確な逆2乗根を特定のプライバシーレベルまで実行することも可能であるが、これは文献では未解決である。 また、CECILIAのスケーラビリティを合成データセット上で様々な設定に解析する。 このフレームワークは、他の機械学習アルゴリズムと、フレームワークのビルディングブロックによってプライベートに計算可能なさらなる計算を可能にすることを約束している。

Since machine learning algorithms have proven their success in data mining tasks, the data with sensitive information enforce privacy preserving machine learning algorithms to emerge. Moreover, the increase in the number of data sources and the high computational power required by those algorithms force individuals to outsource the training and/or the inference of a machine learning model to the clouds providing such services. To address this dilemma, we propose a secure 3-party computation framework, CECILIA, offering privacy preserving building blocks to enable more complex operations privately. Among those building blocks, we have two novel methods, which are the exact exponential of a public base raised to the power of a secret value and the inverse square root of a secret Gram matrix. We employ CECILIA to realize the private inference on pre-trained recurrent kernel networks, which require more complex operations than other deep neural networks such as convolutional neural networks, on the structural classification of proteins as the first study ever accomplishing the privacy preserving inference on recurrent kernel networks. The results demonstrate that we perform the exact and fully private exponential computation, which is done by approximation in the literature so far. Moreover, we can also perform the exact inverse square root of a secret Gram matrix computation up to a certain privacy level, which has not been addressed in the literature at all. We also analyze the scalability of CECILIA to various settings on a synthetic dataset. The framework shows a great promise to make other machine learning algorithms as well as further computations privately computable by the building blocks of the framework.
翻訳日:2022-02-09 02:23:03 公開日:2022-02-07
# (参考訳) 自己教師付き表現学習のためのコンテキストオートエンコーダ [全文訳有]

Context Autoencoder for Self-Supervised Representation Learning ( http://arxiv.org/abs/2202.03026v1 )

ライセンス: CC BY 4.0
Xiaokang Chen, Mingyu Ding, Xiaodi Wang, Ying Xin, Shentong Mo, Yunhao Wang, Shumin Han, Ping Luo, Gang Zeng, Jingdong Wang(参考訳) 自己教師型学習のための新しいマスク付き画像モデリング(MIM)手法であるコンテキストオートエンコーダ(CAE)を提案する。 画像をランダムに、可視パッチとマスクパッチの2つのセットに分割する。 CAEアーキテクチャは以下の通りである。 (i)可視パッチを入力として受け取り、潜在表現を出力するエンコーダ (ii)この回帰器では更新されない可視的パッチ表現からマスクされたパッチ表現を予測する潜在コンテキスト回帰器。 (iii)推定マスクパッチ表現を入力としてマスクパッチの予測を行うデコーダ (iv) マスクされたパッチ表現推定とエンコーダから計算されたマスクされたパッチ表現を整列するアライメントモジュール。 例えばbeitで1つのモジュールを使用して、エンコーディングとデコードロールを結合する以前のmimメソッドと比較して、我々は、異なるモジュールを使用して、エンコーディングロール(コンテンツ理解)とデコードロール(マスキングパッチの予測)を分離し、コンテンツ理解能力を向上させることを試みる。 さらに,提案手法では,意味論に係わると思われる<emph{the latent representation space} において,可視パッチからマスクパッチへの予測を行う。 さらに,比較前訓練と教師付き前訓練が類似する理由と,mimがうまく機能する可能性について解説する。 下流タスクでは, セマンティックセグメンテーション, オブジェクト検出, インスタンスセグメンテーションという, より優れた転送性能によってCAEの有効性を示す。

We present a novel masked image modeling (MIM) approach, context autoencoder (CAE), for self-supervised learning. We randomly partition the image into two sets: visible patches and masked patches. The CAE architecture consists of: (i) an encoder that takes visible patches as input and outputs their latent representations, (ii) a latent context regressor that predicts the masked patch representations from the visible patch representations that are not updated in this regressor, (iii) a decoder that takes the estimated masked patch representations as input and makes predictions for the masked patches, and (iv) an alignment module that aligns the masked patch representation estimation with the masked patch representations computed from the encoder. In comparison to previous MIM methods that couple the encoding and decoding roles, e.g., using a single module in BEiT, our approach attempts to~\emph{separate the encoding role (content understanding) from the decoding role (making predictions for masked patches)} using different modules, improving the content understanding capability. In addition, our approach makes predictions from the visible patches to the masked patches in \emph{the latent representation space} that is expected to take on semantics. In addition, we present the explanations about why contrastive pretraining and supervised pretraining perform similarly and why MIM potentially performs better. We demonstrate the effectiveness of our CAE through superior transfer performance in downstream tasks: semantic segmentation, and object detection and instance segmentation.
翻訳日:2022-02-09 02:06:20 公開日:2022-02-07
# (参考訳) ウェアラブルセンサと非装着センサのデータを用いた精神的ストレス検出

Mental Stress Detection using Data from Wearable and Non-wearable Sensors: A Review ( http://arxiv.org/abs/2202.03033v1 )

ライセンス: CC BY 4.0
Aamir Arsalan, Syed Muhammad Anwar, Muhammad Majid(参考訳) 本稿では,本論文で利用可能な主観的および客観的なストレス検出手法について概観する。 ヒトのストレス反応を測定する方法は、(心理学者が開発した)主観的なアンケートと、ウェアラブルと非ウェアラブルセンサーのデータを用いて観察された客観的マーカーを含むことができる。 特に、ウェアラブルセンサーベースの方法は、脳波、心電図、ガルバニック皮膚反応、筋電図、筋電図、心拍数、心拍変動、および光胸筋電図のデータを個別および多変量核融合戦略で一般的に使用する。 一方、着用不能なセンサーに基づく方法には、瞳孔拡張や音声分析、スマートフォンのデータ、眼球運動、身体姿勢、熱画像などが含まれる。 個人がストレスの多い状況に直面すると、身体的、身体的、行動的変化が引き起こされ、手元の課題に対処するのに役立つ。 様々な種類の心理的、生理的、身体的、行動的尺度を用いて、ストレスの多い状況と人間の反応との関係を確立するために、幅広い研究が行われてきた。 ヒトのストレスとこれらの種類のマーカーとの関係について決定的な評決が得られないことに着想を得て,ヒトのストレス検出方法に関する詳細な調査を行った。 特に, ストレス検出手法が, 各種情報源の関連データを活用した人工知能のメリットを考察する。 このレビューは、人間のストレス状態の効果的な検出を可能にする将来の研究のガイドラインを提供する参考資料であることが証明される。

This paper presents a comprehensive review of methods covering significant subjective and objective human stress detection techniques available in the literature. The methods for measuring human stress responses could include subjective questionnaires (developed by psychologists) and objective markers observed using data from wearable and non-wearable sensors. In particular, wearable sensor-based methods commonly use data from electroencephalograp hy, electrocardiogram, galvanic skin response, electromyography, electrodermal activity, heart rate, heart rate variability, and photoplethysmography both individually and in multimodal fusion strategies. Whereas, methods based on non-wearable sensors include strategies such as analyzing pupil dilation and speech, smartphone data, eye movement, body posture, and thermal imaging. Whenever a stressful situation is encountered by an individual, physiological, physical, or behavioral changes are induced which help in coping with the challenge at hand. A wide range of studies has attempted to establish a relationship between these stressful situations and the response of human beings by using different kinds of psychological, physiological, physical, and behavioral measures. Inspired by the lack of availability of a definitive verdict about the relationship of human stress with these different kinds of markers, a detailed survey about human stress detection methods is conducted in this paper. In particular, we explore how stress detection methods can benefit from artificial intelligence utilizing relevant data from various sources. This review will prove to be a reference document that would provide guidelines for future research enabling effective detection of human stress conditions.
翻訳日:2022-02-09 01:42:38 公開日:2022-02-07
# (参考訳) 計量値回帰

Metric-valued regression ( http://arxiv.org/abs/2202.03045v1 )

ライセンス: CC BY 4.0
Dan Tsir Cohen and Aryeh Kontorovich(参考訳) 2つの距離空間間のマッピングを学ぶための効率的なアルゴリズム, $\x$ と $\y$ を提案する。 我々の手続きは、$\X$ と $\Y$ が位相的に分離可能であり、$\Y$ が期待で有界であるときにいつでも強くベイズ整合である(言い換えれば、分離性仮定はやや弱くなる)。 このレベルの一般性において、我々は無知環境における非有界損失に対する最初の学習可能性の結果である。 この手法は計量メドロイド(fr\'echet means の変種)に基づいており、既存の手法から大きく逸脱しており、我々が示すように、一般的なインスタンスとラベル空間のメトリクスではベイズ一貫性を達成できていない。 我々の証明は、独立興味を持つかもしれない半安定圧縮のテクニックを導入している。

We propose an efficient algorithm for learning mappings between two metric spaces, $\X$ and $\Y$. Our procedure is strongly Bayes-consistent whenever $\X$ and $\Y$ are topologically separable and $\Y$ is "bounded in expectation" (our term; the separability assumption can be somewhat weakened). At this level of generality, ours is the first such learnability result for unbounded loss in the agnostic setting. Our technique is based on metric medoids (a variant of Fr\'echet means) and presents a significant departure from existing methods, which, as we demonstrate, fail to achieve Bayes-consistency on general instance- and label-space metrics. Our proofs introduce the technique of {\em semi-stable compression}, which may be of independent interest.
翻訳日:2022-02-09 01:41:00 公開日:2022-02-07
# (参考訳) 画像領域と映像領域の新たな顔スワップ法:技術報告 [全文訳有]

A new face swap method for image and video domains: a technical report ( http://arxiv.org/abs/2202.03046v1 )

ライセンス: CC BY 4.0
Daniil Chesakov, Anastasia Maltseva, Alexander Groshev, Andrey Kuznetsov, Denis Dimitrov(参考訳) ディープフェイク技術は、ここ数年でホットな研究分野となった。 研究者たちは、顔スワップのための正確で堅牢なアルゴリズムを確立するために、高度なジェネレータネットワーク(GAN)、オートエンコーダ、その他のアプローチを調査した。 得られた結果から, 擬似教師なし合成タスクは, 生成したデータの視覚的品質に問題があることがわかった。 これらの問題は通常、専門家がそれらを分析する際に高いフェイク検出精度をもたらす。 第1の問題は、既存の画像から画像へのアプローチが、ビデオドメインの特異性やフレーム毎の処理を考慮せず、顔のジッタや他の目に見える歪みを引き起こすことである。 もう一つの問題は生成したデータ解像度であり、計算の複雑さのために既存の多くの手法では低い。 第3の問題は、ソースフェイスがより大きな比率(大きな頬など)を持つ場合に現れ、置換後、顔の境界で見えるようになる。 私たちの主な目標は、これらの問題を解決し、多くの手がかりメトリクスで既存のソリューションを上回るようなアプローチを開発することです。 FaceShifterアーキテクチャに基づいた新しいフェイススワップパイプラインを導入し、上記の問題を修正します。 新しい失明機能、超解像度ブロック、およびガウス型フェイスマスクの生成により、評価中に確認される品質が向上する。

Deep fake technology became a hot field of research in the last few years. Researchers investigate sophisticated Generative Adversarial Networks (GAN), autoencoders, and other approaches to establish precise and robust algorithms for face swapping. Achieved results show that the deep fake unsupervised synthesis task has problems in terms of the visual quality of generated data. These problems usually lead to high fake detection accuracy when an expert analyzes them. The first problem is that existing image-to-image approaches do not consider video domain specificity and frame-by-frame processing leads to face jittering and other clearly visible distortions. Another problem is the generated data resolution, which is low for many existing methods due to high computational complexity. The third problem appears when the source face has larger proportions (like bigger cheeks), and after replacement it becomes visible on the face border. Our main goal was to develop such an approach that could solve these problems and outperform existing solutions on a number of clue metrics. We introduce a new face swap pipeline that is based on FaceShifter architecture and fixes the problems stated above. With a new eye loss function, super-resolution block, and Gaussian-based face mask generation leads to improvements in quality which is confirmed during evaluation.
翻訳日:2022-02-09 01:39:30 公開日:2022-02-07
# (参考訳) ソーシャルメディア投稿からうつ病の兆候を検出するためのデータセットの作成と実証分析 [全文訳有]

Data set creation and empirical analysis for detecting signs of depression from social media postings ( http://arxiv.org/abs/2202.03047v1 )

ライセンス: CC BY 4.0
Kayalvizhi S and Thenmozhi D(参考訳) うつ病は、重篤な結果を避けるために早期に発見し治療しなければならない一般的な精神疾患である。 個人の身体的検査を含むうつ病を検出するための多くの方法とモダリティがある。 しかし、そのような身体検査を避けるため、ソーシャルメディアデータを用いたメンタルヘルスの診断はより効果的である。 また、人々はソーシャルメディアで感情をよく表現し、ソーシャルメディアデータを用いてメンタルヘルスを診断することが望ましい。 ソーシャルメディアデータを分析して精神疾患を検出するシステムも数多く存在するが、さらなる治療にはうつ病のレベルを検出することも重要である。 そこで本研究では,うつ病のレベルをソーシャルメディア投稿から'not depressed', 'moderately depressed', 'severely depressed'と検出するゴールドスタンダードデータセットを開発した。 本論文では,従来の学習アルゴリズムをデータセットに適用し,経験的分析を行った。 データ不均衡を克服するためにデータ拡張手法を適用した。 実装されているいくつかのバリエーションのうち、Word2VecベクタライザとRandom Forest分類器を用いたモデルは、精度とF1測度の両方で0.877のスコアで他のバリエーションよりも優れている。

Depression is a common mental illness that has to be detected and treated at an early stage to avoid serious consequences. There are many methods and modalities for detecting depression that involves physical examination of the individual. However, diagnosing mental health using their social media data is more effective as it avoids such physical examinations. Also, people express their emotions well in social media, it is desirable to diagnose their mental health using social media data. Though there are many existing systems that detects mental illness of a person by analysing their social media data, detecting the level of depression is also important for further treatment. Thus, in this research, we developed a gold standard data set that detects the levels of depression as `not depressed', `moderately depressed' and `severely depressed' from the social media postings. Traditional learning algorithms were employed on this data set and an empirical analysis was presented in this paper. Data augmentation technique was applied to overcome the data imbalance. Among the several variations that are implemented, the model with Word2Vec vectorizer and Random Forest classifier on augmented data outperforms the other variations with a score of 0.877 for both accuracy and F1 measure.
翻訳日:2022-02-09 01:32:51 公開日:2022-02-07
# (参考訳) 単純なシーケンスからシーケンスへの学習フレームワークによるアーキテクチャ、タスク、モダリティの統合 [全文訳有]

Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework ( http://arxiv.org/abs/2202.03052v1 )

ライセンス: CC BY-SA 4.0
Peng Wang, An Yang, Rui Men, Junyang Lin, Shuai Bai, Zhikang Li, Jianxin Ma, Chang Zhou, Jingren Zhou, Hongxia Yang(参考訳) 本研究では,マルチモーダルプリトレーニングのための統一パラダイムを追求し,複雑なタスク/モダリティ特有のカスタマイズの足場を壊す。 エンコーダ・デコーダアーキテクチャに基づく単純なシーケンス・ツー・シーケンス学習フレームワークに,モダリティ(クロスモダリティ,視覚,言語)とタスク(画像生成,画像キャプション,画像分類,テキスト生成など)を統合する,統合マルチモーダル事前学習モデルofaを提案する。 OFAはタスク命令で事前トレーニングと微調整を行い、微調整のための追加のタスク固有のレイヤを導入しない。 実験の結果、OFAは画像キャプション(COCO test CIDEr: 149.6)、テキスト・トゥ・イメージ生成(COCO test FID: 10.5)、VQA(test-std acc.: 80.02)、SNLI-VE(test-std acc.: 90.20)、参照式理解(RefCOCO / RefCOCO+ / RefCOCOg test acc.: 92.93 / 90.10 / 85.20)を含む一連のマルチモーダルタスクにおいて、新しい最先端技術を実現していることが示された。 広範に分析した結果,NLU,NLG,画像分類などのユニモーダルタスクにおいて,BERT,MAE,MoCo v3,SimCLR v2など,一様事前学習モデルと同等の性能を達成できた。 コードはもうすぐhttp://github.com/OF A-Sys/OFAでリリースされる。

In this work, we pursue a unified paradigm for multimodal pretraining to break the scaffolds of complex task/modality-specif ic customization. We propose OFA, a unified multimodal pretrained model that unifies modalities (i.e., cross-modality, vision, language) and tasks (e.g., image generation, visual grounding, image captioning, image classification, text generation, etc.) to a simple sequence-to-sequence learning framework based on the encoder-decoder architecture. OFA performs pretraining and finetuning with task instructions and introduces no extra task-specific layers for finetuning. Experimental results show that OFA achieves new state-of-the-arts on a series of multimodal tasks, including image captioning (COCO test CIDEr: 149.6), text-to-image generation (COCO test FID: 10.5), VQA (test-std acc.: 80.02), SNLI-VE (test acc.: 90.20), and referring expression comprehension (RefCOCO / RefCOCO+ / RefCOCOg test acc.: 92.93 / 90.10 / 85.20). Through extensive analyses, we demonstrate that OFA reaches comparable performance with uni-modal pretrained models (e.g., BERT, MAE, MoCo v3, SimCLR v2, etc.) in uni-modal tasks, including NLU, NLG, and image classification, and it effectively transfers to unseen tasks and domains. Code shall be released soon at http://github.com/OF A-Sys/OFA
翻訳日:2022-02-09 01:19:37 公開日:2022-02-07
# (参考訳) データ駆動手法によるソースコード脆弱性の自動修復 [全文訳有]

Enabling Automatic Repair of Source Code Vulnerabilities Using Data-Driven Methods ( http://arxiv.org/abs/2202.03055v1 )

ライセンス: CC BY 4.0
Anastasiia Grishina(参考訳) 世界中のユーザは、日々の活動においてソフトウェア集約的なシステムに依存しています。 これらのシステムには定期的にバグやセキュリティ上の脆弱性が含まれている。 バグ修正を容易にするために、自動プログラム修正のデータ駆動モデルは、バグと修正コードのペアを使用して、コードのエラーを修正する変換を学ぶ。 しかし、セキュリティ脆弱性の自動修復は未検討のままである。 本研究では,入力データ型,データ駆動モデル,ダウンストリームタスクという3つの視点から脆弱性修復のためのコード表現を改善する手法を提案する。 この作業の期待される結果は、自動プログラム修正のためのコード表現の改善、特にセキュリティ脆弱性の修正である。

Users around the world rely on software-intensive systems in their day-to-day activities. These systems regularly contain bugs and security vulnerabilities. To facilitate bug fixing, data-driven models of automatic program repair use pairs of buggy and fixed code to learn transformations that fix errors in code. However, automatic repair of security vulnerabilities remains under-explored. In this work, we propose ways to improve code representations for vulnerability repair from three perspectives: input data type, data-driven models, and downstream tasks. The expected results of this work are improved code representations for automatic program repair and, specifically, fixing security vulnerabilities.
翻訳日:2022-02-09 00:47:12 公開日:2022-02-07
# (参考訳) 測地線による分布的ロバストな主成分 [全文訳有]

Distributionally Robust Fair Principal Components via Geodesic Descents ( http://arxiv.org/abs/2202.03071v1 )

ライセンス: CC BY 4.0
Hieu Vu and Toan Tran and Man-Chung Yue and Viet Anh Nguyen(参考訳) 主成分分析は、現代の機械学習パイプラインにおいて、単純だが有用な次元削減技術である。 大学進学、医療、信用承認などの分野において、学習された投射の公平性や堅牢性といった新たな基準を考慮に入れることが不可欠である。 本稿では,目的関数における公平性基準を内包する主成分分析のための分布的ロバストな最適化問題を提案する。 このようにして学習された投影は、モーメントベース曖昧性集合内のすべての分布のmin-max意味において取られる全再構成誤差と部分群間の再構成誤差ギャップとのトレードオフのバランスをとる。 スティーフェル多様体に対する結果の最適化問題は、線形収束率の低いリーマン下階降下アルゴリズムによって効率よく解ける。 実世界のデータセットに対する実験結果は,提案手法が最先端のベースラインに対して有益であることを示す。

Principal component analysis is a simple yet useful dimensionality reduction technique in modern machine learning pipelines. In consequential domains such as college admission, healthcare and credit approval, it is imperative to take into account emerging criteria such as the fairness and the robustness of the learned projection. In this paper, we propose a distributionally robust optimization problem for principal component analysis which internalizes a fairness criterion in the objective function. The learned projection thus balances the trade-off between the total reconstruction error and the reconstruction error gap between subgroups, taken in the min-max sense over all distributions in a moment-based ambiguity set. The resulting optimization problem over the Stiefel manifold can be efficiently solved by a Riemannian subgradient descent algorithm with a sub-linear convergence rate. Our experimental results on real-world datasets show the merits of our proposed method over state-of-the-art baselines.
翻訳日:2022-02-09 00:41:32 公開日:2022-02-07
# (参考訳) 非パラメトリック2サンプル試験における逆攻撃と防御 [全文訳有]

Adversarial Attacks and Defense for Non-Parametric Two-Sample Tests ( http://arxiv.org/abs/2202.03077v1 )

ライセンス: CC BY 4.0
Xilie Xu, Jingfeng Zhang, Feng Liu, Masashi Sugiyama, Mohan Kankanhalli(参考訳) 2組のサンプルが同じ分布から引き出されるかどうかを判定する非パラメトリック2サンプル試験(TST)は、臨界データの解析に広く用いられている。 人々はTSTを信頼できる基本的なツールとして使う傾向があり、その信頼性を疑うことは滅多にありません。 本稿では,非パラメトリックTSTの障害モードを敵攻撃により体系的に解明し,対応する防衛戦略を提案する。 まず, 攻撃の可視性を保証する分布シフトを, 敵が上向きに展開できることを理論的に示す。 さらに,理論上は,tstテストパワーの下限を低下させることも可能であり,逆ペアを探索するために反復的にテスト基準を最小化することができる。 TST非依存的な攻撃を可能にするために,異なる種類のテスト基準を共同で最小化するアンサンブル攻撃(EA)フレームワークを提案する。 第二に,tstsの強固化のために,ディープカーネルを訓練するために逆ペアを反復的に生成するmax-min最適化を提案する。 非パラメトリックTSTの敵対的脆弱性と,提案した防御の有効性をシミュレーションおよび実世界のデータセットで検証した。

Non-parametric two-sample tests (TSTs) that judge whether two sets of samples are drawn from the same distribution, have been widely used in the analysis of critical data. People tend to employ TSTs as trusted basic tools and rarely have any doubt about their reliability. This paper systematically uncovers the failure mode of non-parametric TSTs through adversarial attacks and then proposes corresponding defense strategies. First, we theoretically show that an adversary can upper-bound the distributional shift which guarantees the attack's invisibility. Furthermore, we theoretically find that the adversary can also degrade the lower bound of a TST's test power, which enables us to iteratively minimize the test criterion in order to search for adversarial pairs. To enable TST-agnostic attacks, we propose an ensemble attack (EA) framework that jointly minimizes the different types of test criteria. Second, to robustify TSTs, we propose a max-min optimization that iteratively generates adversarial pairs to train the deep kernels. Extensive experiments on both simulated and real-world datasets validate the adversarial vulnerabilities of non-parametric TSTs and the effectiveness of our proposed defense.
翻訳日:2022-02-09 00:11:33 公開日:2022-02-07
# (参考訳) 補正ベクトルを用いたフェア解釈可能表現学習

Fair Interpretable Representation Learning with Correction Vectors ( http://arxiv.org/abs/2202.03078v1 )

ライセンス: CC BY 4.0
Mattia Cerrato, Alesia Vallenas Coronel, Marius K\"oppel, Alexander Segner, Roberto Esposito, Stefan Kramer(参考訳) ニューラルネットワークアーキテクチャは、機密情報に依存しない与えられたベクトルの新しい表現を学ぶことを目的として、公正表現学習環境において広く採用されている。 様々な表現脱バイアス技術が文献で提案されている。 しかし、ニューラルネットワークは本質的に不透明であるため、これらの方法を理解するのが難しく、有用性が制限される。 本研究では,与えられたデータベクトルと同じ次元を持つ「補正ベクトル」の学習を中心に,公平表現学習のための新しい枠組みを提案する。 補正ベクトルは、アーキテクチャ上の制約によって明示的に計算するか、正規化フローに基づく可逆モデルをトレーニングすることで暗黙的に計算することができる。 このような方法で制約されたいくつかの公正表現学習モデルが、ランキングや分類性能の損失を示さないことを示す。 さらに,最新の結果が可逆モデルによって達成できることを実証する。 最後に、欧州連合の最近の法律を踏まえて、我々の方法論の法則について論じる。

Neural network architectures have been extensively employed in the fair representation learning setting, where the objective is to learn a new representation for a given vector which is independent of sensitive information. Various representation debiasing techniques have been proposed in the literature. However, as neural networks are inherently opaque, these methods are hard to comprehend, which limits their usefulness. We propose a new framework for fair representation learning that is centered around the learning of "correction vectors", which have the same dimensionality as the given data vectors. Correction vectors may be computed either explicitly via architectural constraints or implicitly by training an invertible model based on Normalizing Flows. We show experimentally that several fair representation learning models constrained in such a way do not exhibit losses in ranking or classification performance. Furthermore, we demonstrate that state-of-the-art results can be achieved by the invertible model. Finally, we discuss the law standing of our methodology in light of recent legislation in the European Union.
翻訳日:2022-02-08 22:55:33 公開日:2022-02-07
# (参考訳) 衣服変化を伴う非監督的長期人物再同定 [全文訳有]

Unsupervised Long-Term Person Re-Identification with Clothes Change ( http://arxiv.org/abs/2202.03087v1 )

ライセンス: CC BY 4.0
Mingkun Li, Peng Xu, Xiatian Zhu, Jun Guo(参考訳) 着替えによる再識別(re-id)は,より実用的なユーザビリティと実世界展開への拡張性を備えた新たな課題である。 既存のre-idメソッドの多くは、すべての人の服を空間と時間にわたって固定していると人工的に仮定している。 この条件は、平均的な人が1日以内に着替えることが多いため、短期的な再識別シナリオにおいてほとんど有効である。 この仮定を緩和するために、近年のいくつかの研究は、衣服の変化に相違のある教師付き学習者識別表現に焦点をあてて、衣料変化面を導入している。 この長期的なre-idの方向性をさらに一歩進めて、短期の人物のre-idデータセットと比較して注釈をつけるのにはるかに高価で退屈な、人物識別ラベルの必要性をさらに排除します。 従来の教師なしの短期的な再識別と比較して、この新たな問題は、同じ人が異なる場所や時間に複数の服を着ることができるのに対して、異なる人が同じ服を持っている場合、非常に困難である。 このような障害を克服するために,クラスタリングの信頼性に応じて教師なしクラスタリング基準を適応的に調整できる,新しいCPC手法を提案する。 長期にわたる3つのre-idデータセットの実験では、我々のCPCはSOTAの教師なしre-idメソッドよりも優れており、教師付きre-idモデルと密接に一致している。

We investigate unsupervised person re-identification (Re-ID) with clothes change, a new challenging problem with more practical usability and scalability to real-world deployment. Most existing re-id methods artificially assume the clothes of every single person to be stationary across space and time. This condition is mostly valid for short-term re-id scenarios since an average person would often change the clothes even within a single day. To alleviate this assumption, several recent works have introduced the clothes change facet to re-id, with a focus on supervised learning person identity discriminative representation with invariance to clothes changes. Taking a step further towards this long-term re-id direction, we further eliminate the requirement of person identity labels, as they are significantly more expensive and more tedious to annotate in comparison to short-term person re-id datasets. Compared to conventional unsupervised short-term re-id, this new problem is drastically more challenging as different people may have similar clothes whilst the same person can wear multiple suites of clothes over different locations and times with very distinct appearance. To overcome such obstacles, we introduce a novel Curriculum Person Clustering (CPC) method that can adaptively regulate the unsupervised clustering criterion according to the clustering confidence. Experiments on three long-term person re-id datasets show that our CPC outperforms SOTA unsupervised re-id methods and even closely matches the supervised re-id models.
翻訳日:2022-02-08 22:53:48 公開日:2022-02-07
# (参考訳) FL_PyTorch:連邦学習のための最適化研究シミュレータ [全文訳有]

FL_PyTorch: optimization research simulator for federated learning ( http://arxiv.org/abs/2202.03099v1 )

ライセンス: CC BY 4.0
Konstantin Burlachenko, Samuel Horv\'ath, Peter Richt\'arik(参考訳) フェデレーション学習(federated learning, fl)は、エッジデバイスがデバイス上でトレーニングデータをローカルに保持しながら、共有機械学習モデルを共同学習する有望なテクニックとして登場し、クラウド内の全データを格納し、アクセスする必要がなくなった。 しかしながら、共通エッジデバイス設定における異種性を考慮した実装、テスト、デプロイは困難であり、研究者が効率的に最適化アルゴリズムをプロトタイプし、テストすることは基本的に困難である。 本研究の目的は,ディープラーニング(DL)フレームワークであるPyTorchをベースとした,pythonで記述されたオープンソースのソフトウェアスイートであるFL_PyTorchを導入することで,この問題を軽減することにある。 FLの高速な開発,プロトタイピング,実験を行うための研究シミュレータとしてFL_PyTorchを開発した。 本システムでは,既存の新しい手法を試すための柔軟性を研究者に提供する抽象化を支援する。 さらにFL_PyTorchは単純なコンソールシステムであり、ローカルCPUやGPUを使って複数のクライアントを同時に実行したり、ユーザが提供する分散実装を必要とせずにリモートコンピューティングデバイスでも実行できる。 fl_pytorchはグラフィカルユーザインタフェースも提供する。 新しい手法では、研究者はアルゴリズムの集中的な実装のみを提供する。 本システムの可能性と有用性を示すために,いくつかの最先端flアルゴリズムと最も一般的なflデータセットを実験した。

Federated Learning (FL) has emerged as a promising technique for edge devices to collaboratively learn a shared machine learning model while keeping training data locally on the device, thereby removing the need to store and access the full data in the cloud. However, FL is difficult to implement, test and deploy in practice considering heterogeneity in common edge device settings, making it fundamentally hard for researchers to efficiently prototype and test their optimization algorithms. In this work, our aim is to alleviate this problem by introducing FL_PyTorch : a suite of open-source software written in python that builds on top of one the most popular research Deep Learning (DL) framework PyTorch. We built FL_PyTorch as a research simulator for FL to enable fast development, prototyping and experimenting with new and existing FL optimization algorithms. Our system supports abstractions that provide researchers with a sufficient level of flexibility to experiment with existing and novel approaches to advance the state-of-the-art. Furthermore, FL_PyTorch is a simple to use console system, allows to run several clients simultaneously using local CPUs or GPU(s), and even remote compute devices without the need for any distributed implementation provided by the user. FL_PyTorch also offers a Graphical User Interface. For new methods, researchers only provide the centralized implementation of their algorithm. To showcase the possibilities and usefulness of our system, we experiment with several well-known state-of-the-art FL algorithms and a few of the most common FL datasets.
翻訳日:2022-02-08 22:44:30 公開日:2022-02-07
# (参考訳) 機械学習による画像からの気泡識別 [全文訳有]

Bubble identification from images with machine learning methods ( http://arxiv.org/abs/2202.03107v1 )

ライセンス: CC BY 4.0
Hendrik Hessenkemper, Sebastian Starke, Yazan Atassi, Thomas Ziegenhein, Dirk Lucas(参考訳) 総合実験シリーズの大規模データセットを解析するためには, 気泡流画像の自動的, 信頼性の高い処理が必要である。 記録された画像内の気泡投射が重なり、個々の気泡の同定が非常に複雑になるため、特に困難が生じる。 近年のアプローチでは,この課題に対するディープラーニングアルゴリズムの利用に焦点が当てられ,その可能性は既に証明されている。 主な困難は、異なる画像条件、高いガス量分画、および部分的に閉塞された気泡の隠れたセグメントを適切に再構成する能力である。 本研究では,従来の2つのアプローチとそれに対応する2つの個別アプローチに対して,畳み込みニューラルネットワーク(CNN)に基づく3つの異なる手法を試すことにより,これらの点に挑戦する。 提案手法を検証するため,合成画像を用いたテストデータセットを作成し,その機能と,組み合わせたアプローチの限界を実証した。 生成されたデータ、コード、訓練されたモデルにアクセスし、実験画像における気泡認識の研究分野におけるさらなる発展を可能にする。

An automated and reliable processing of bubbly flow images is highly needed to analyse large data sets of comprehensive experimental series. A particular difficulty arises due to overlapping bubble projections in recorded images, which highly complicates the identification of individual bubbles. Recent approaches focus on the use of deep learning algorithms for this task and have already proven the high potential of such techniques. The main difficulties are the capability to handle different image conditions, higher gas volume fractions and a proper reconstruction of the hidden segment of a partly occluded bubble. In the present work, we try to tackle these points by testing three different methods based on Convolutional Neural Networks (CNNs) for the two former and two individual approaches that can be used subsequently to address the latter. To validate our methodology, we created test data sets with synthetic images that further demonstrate the capabilities as well as limitations of our combined approach. The generated data, code and trained models are made accessible to facilitate the use as well as further developments in the research field of bubble recognition in experimental images.
翻訳日:2022-02-08 22:26:58 公開日:2022-02-07
# (参考訳) CITRIS:時間的介在配列の因果同定可能性

CITRIS: Causal Identifiability from Temporal Intervened Sequences ( http://arxiv.org/abs/2202.03169v1 )

ライセンス: CC BY 4.0
Phillip Lippe, Sara Magliacane, Sindy L\"owe, Yuki M. Asano, Taco Cohen, Efstratios Gavves(参考訳) 視覚観察から力学系の潜在因果因子を理解することは、複雑な環境においてエージェントを推論するための重要なステップである。 本稿では,因果的要因が絡み合っている可能性のある画像の時間的シーケンスから因果的表現を学習する変分自動エンコーダフレームワークであるCITRISを提案する。 最近の文献とは対照的に、シトリスは3次元回転角などのスカラーおよび多次元因果因子を同定するために、時間的および観察的介入目標を活用している。 さらに、正規化フローを導入することで、CITRISを拡張して、すでに事前訓練済みのオートエンコーダによって得られた表現を活用およびアンタングル化することができる。 スカラー因果因子に関するこれまでの結果を拡張して,因果因子の一部のみが介入によって影響を受けるような,より一般的な設定で識別可能であることを証明した。 3Dレンダリング画像シーケンスの実験では、CITRISは根底にある因果変数を復元する従来の手法よりも優れていた。 さらに、事前訓練されたオートエンコーダを用いて、CITRISは因果的要因の未確認インスタンス化を一般化し、因果的表現学習のためのsim-to-real一般化における将来の研究領域を開くことができる。

Understanding the latent causal factors of a dynamical system from visual observations is a crucial step towards agents reasoning in complex environments. In this paper, we propose CITRIS, a variational autoencoder framework that learns causal representations from temporal sequences of images in which underlying causal factors have possibly been intervened upon. In contrast to the recent literature, CITRIS exploits temporality and observing intervention targets to identify scalar and multidimensional causal factors, such as 3D rotation angles. Furthermore, by introducing a normalizing flow, CITRIS can be easily extended to leverage and disentangle representations obtained by already pretrained autoencoders. Extending previous results on scalar causal factors, we prove identifiability in a more general setting, in which only some components of a causal factor are affected by interventions. In experiments on 3D rendered image sequences, CITRIS outperforms previous methods on recovering the underlying causal variables. Moreover, using pretrained autoencoders, CITRIS can even generalize to unseen instantiations of causal factors, opening future research areas in sim-to-real generalization for causal representation learning.
翻訳日:2022-02-08 22:16:22 公開日:2022-02-07
# (参考訳) more is better (大部分は): フェデレーショングラフニューラルネットワークにおけるバックドア攻撃について [全文訳有]

More is Better (Mostly): On the Backdoor Attacks in Federated Graph Neural Networks ( http://arxiv.org/abs/2202.03195v1 )

ライセンス: CC BY 4.0
Jing Xu, Rui Wang, Kaitai Liang, Stjepan Picek(参考訳) グラフニューラルネットワーク(英: graph neural network、gnns)は、グラフドメイン情報を処理するディープラーニングベースの手法である。 近年,GNNは複雑なグラフデータの表現を学習する能力に優れており,広く利用されているグラフ解析手法となっている。 しかし、プライバシーの懸念と規制の制約のため、集中型GNNはデータに敏感なシナリオに適用することは困難である。 フェデレートラーニング(FL)は、複数のパーティが共同でグローバルモデルを共有する必要がある場合に、プライバシ保護設定のために開発された新興技術である。 多くの研究がGNN(Federated GNN)の訓練にFLを適用しているが、バックドア攻撃に対する堅牢性についての研究は行われていない。 本稿では,集中型バックドアアタック(CBA)と分散バックドアアタック(DBA)という,2種類のバックドアアタックをフェデレートGNNで実施することで,このギャップを埋める。 CBAは、すべての悪意あるパーティのトレーニング中に同じグローバルトリガを埋め込むことで行われ、DBAは、グローバルトリガを別々のローカルトリガに分解し、それぞれ異なる悪意のあるパーティのトレーニングデータセットに埋め込むことによって実行される。 実験の結果, ほぼすべてのケースにおいて, DBA攻撃成功率はCBAよりも高いが, DBA攻撃成功率はCBAに近いことは稀である。 CBAの場合、全てのローカルトリガーの攻撃成功率は、たとえ相手のトレーニングセットにグローバルトリガーが埋め込まれたとしても、グローバルトリガーと似ている。 フェデレートされたGNNにおける2つのバックドア攻撃の特性を更に調査するため、異なるトリガーサイズ、中毒強度、トリガー密度の攻撃性能を評価し、トリガー密度が最も影響を及ぼす。

Graph Neural Networks (GNNs) are a class of deep learning-based methods for processing graph domain information. GNNs have recently become a widely used graph analysis method due to their superior ability to learn representations for complex graph data. However, due to privacy concerns and regulation restrictions, centralized GNNs can be difficult to apply to data-sensitive scenarios. Federated learning (FL) is an emerging technology developed for privacy-preserving settings when several parties need to train a shared global model collaboratively. Although many research works have applied FL to train GNNs (Federated GNNs), there is no research on their robustness to backdoor attacks. This paper bridges this gap by conducting two types of backdoor attacks in Federated GNNs: centralized backdoor attacks (CBA) and distributed backdoor attacks (DBA). CBA is conducted by embedding the same global trigger during training for every malicious party, while DBA is conducted by decomposing a global trigger into separate local triggers and embedding them into the training dataset of different malicious parties, respectively. Our experiments show that the DBA attack success rate is higher than CBA in almost all evaluated cases, while rarely, the DBA attack performance is close to CBA. For CBA, the attack success rate of all local triggers is similar to the global trigger even if the training set of the adversarial party is embedded with the global trigger. To further explore the properties of two backdoor attacks in Federated GNNs, we evaluate the attack performance for different trigger sizes, poisoning intensities, and trigger densities, with trigger density being the most influential.
翻訳日:2022-02-08 22:15:10 公開日:2022-02-07
# (参考訳) ほぼ最適な固有学習とテスト多項式 [全文訳有]

Almost Optimal Proper Learning and Testing Polynomials ( http://arxiv.org/abs/2202.03207v1 )

ライセンス: CC BY 4.0
Nader H. Bshouty(参考訳) まず,一様分布下でのブールスパース多変量多項式の最適多項式時間固有学習アルゴリズムを提案する。 n$変数に対する$s$-スパース多項式と$\epsilon=1/s^\beta$,$\beta>1$に対して、このアルゴリズムは$q_u=\left(\frac{s}{\epsilon}\right)^{\frac{\log \beta}{\beta}+o(\frac{1}{\beta})}+ \tilde o\left(s\right)\left (\log\frac{1}{\epsilon}\right)\log n$$クエリを生成する。 クエリの複雑さが1/\epsilon$のサブリニアで、ほぼリニアである点に注意してください。 以前のアルゴリズムはすべて、少なくとも$s$のクエリ複雑性を持ち、$/\epsilon$の線形である。 すると、ほぼタイトな下界の$$q_L=\left(\frac{s}{\epsilon}\right)^{\frac{\log \beta}{\beta}+\Omega(\frac{1}{\beta})}+ \Omega\left(s\right) \left(\log\frac{1}{\epsilon}\right)\log n,$$\cite{Bshouty19b} を上記のアルゴリズムで適用し、$s$スパース多項式に対して最初のほぼ最適な多項式時間テスターを与える。 私たちのテスターは、$\beta>3.404$で$\tilde o\left(\frac{s}{\epsilon}\right)$$クエリを作成します。

We give the first almost optimal polynomial-time proper learning algorithm of Boolean sparse multivariate polynomial under the uniform distribution. For $s$-sparse polynomial over $n$ variables and $\epsilon=1/s^\beta$, $\beta>1$, our algorithm makes $$q_U=\left(\frac{s}{\epsilon}\right)^{\frac{\log \beta}{\beta}+O(\frac{1}{\beta})}+ \tilde O\left(s\right)\left (\log\frac{1}{\epsilon}\right)\log n$$ queries. Notice that our query complexity is sublinear in $1/\epsilon$ and almost linear in $s$. All previous algorithms have query complexity at least quadratic in $s$ and linear in $1/\epsilon$. We then prove the almost tight lower bound $$q_L=\left(\frac{s}{\epsilon}\right)^{\frac{\log \beta}{\beta}+\Omega(\frac{1}{\beta})}+ \Omega\left(s\right) \left(\log\frac{1}{\epsilon}\right)\log n,$$ Applying the reduction in~\cite{Bshouty19b} with the above algorithm, we give the first almost optimal polynomial-time tester for $s$-sparse polynomial. Our tester, for $\beta>3.404$, makes $$\tilde O\left(\frac{s}{\epsilon}\right)$$ queries.
翻訳日:2022-02-08 21:57:53 公開日:2022-02-07
# (参考訳) 自動音声認識のための自己教師付き音声モデルの適応変換 [全文訳有]

Efficient Adapter Transfer of Self-Supervised Speech Models for Automatic Speech Recognition ( http://arxiv.org/abs/2202.03218v1 )

ライセンス: CC BY 4.0
Bethan Thomas, Samuel Kessler, Salah Karout(参考訳) 自己教師付き学習(SSL)は、ラベルのないデータから基礎となる表現を学習するための強力なツールである。 wav2vec 2.0やHuBERTといったトランスフォーマーベースのモデルが、音声領域の分野をリードしている。 一般に、これらのモデルは、自動音声認識(asr)のような下流タスク用の少量のラベル付きデータに基づいて微調整される。 これには各タスクに対するモデルの大部分が再トレーニングされる。 アダプタは、自然言語処理(nlp)で一般的に使用される小さな軽量モジュールで、事前学習されたモデルを新しいタスクに適応させる。 本稿では,wav2vec 2.0 へのアダプタの適用により,下流 ASR タスクに必要なパラメータ数を削減し,複数のタスクや言語に対するモデルのスケーラビリティを向上させることを提案する。 アダプタを使用することで、パフォーマンスをほとんど低下させることなく、タスク毎のパラメータの10%未満をトレーニングしながら、ASRを実行することができます。 アブレーションは、事前学習されたネットワークの上位数層のみにアダプタを適用することで、フル転送と同等の性能が得られることを示し、より高い事前学習層はより多くの音韻情報をエンコードし、さらに効率を最適化する理論を支持している。

Self-supervised learning (SSL) is a powerful tool that allows learning of underlying representations from unlabeled data. Transformer based models such as wav2vec 2.0 and HuBERT are leading the field in the speech domain. Generally these models are fine-tuned on a small amount of labeled data for a downstream task such as Automatic Speech Recognition (ASR). This involves re-training the majority of the model for each task. Adapters are small lightweight modules which are commonly used in Natural Language Processing (NLP) to adapt pre-trained models to new tasks. In this paper we propose applying adapters to wav2vec 2.0 to reduce the number of parameters required for downstream ASR tasks, and increase scalability of the model to multiple tasks or languages. Using adapters we can perform ASR while training fewer than 10% of parameters per task compared to full fine-tuning with little degradation of performance. Ablations show that applying adapters into just the top few layers of the pre-trained network gives similar performance to full transfer, supporting the theory that higher pre-trained layers encode more phonemic information, and further optimizing efficiency.
翻訳日:2022-02-08 21:30:12 公開日:2022-02-07
# (参考訳) SODA:ディープニューラルネットワークにおける自己組織化データ拡張 -バイオメディカルイメージセグメンテーションタスクへの応用- [全文訳有]

SODA: Self-organizing data augmentation in deep neural networks -- Application to biomedical image segmentation tasks ( http://arxiv.org/abs/2202.03223v1 )

ライセンス: CC BY 4.0
Arnaud Deleruyelle, John Klein, Cristian Versari(参考訳) 実際には、データ拡張は、エポック毎に新しく作成されたサンプルの観点から、事前に定義された予算が割り当てられる。 複数の種類のデータ拡張を使用する場合、予算は通常、拡張のセットで均一に分配されるが、この予算を各タイプにより効率的な方法で割り当てるべきではないか疑問に思う。 本稿では、ニューラルネットワークトレーニングの一環として、オンライン学習を活用して、この予算を割り当てる。 このメタアルゴリズムは、勾配に基づく信号を利用して、どの種類のデータ拡張が望ましいかを決定するため、ほとんど余分なコストで実行できる。 実験によると、この戦略は計算時間を節約し、機械学習の実践を温めることができる。

In practice, data augmentation is assigned a predefined budget in terms of newly created samples per epoch. When using several types of data augmentation, the budget is usually uniformly distributed over the set of augmentations but one can wonder if this budget should not be allocated to each type in a more efficient way. This paper leverages online learning to allocate on the fly this budget as part of neural network training. This meta-algorithm can be run at almost no extra cost as it exploits gradient based signals to determine which type of data augmentation should be preferred. Experiments suggest that this strategy can save computation time and thus goes in the way of greener machine learning practices.
翻訳日:2022-02-08 21:19:36 公開日:2022-02-07
# (参考訳) 組合せ問題における出力空間不変性のニューラルモデル [全文訳有]

Neural Models for Output-Space Invariance in Combinatorial Problems ( http://arxiv.org/abs/2202.03229v1 )

ライセンス: CC BY 4.0
Yatin Nandwani, Vidit Jain, Mausam and Parag Singla(参考訳) 近年,スードゥークやグラフカラーリング (GCP) などの問題解決インスタンスを用いて,基礎となる制約を暗黙的に学習することで,組合せパズルの解法として多くのニューラルモデルが提案されている。 提案アーキテクチャの欠点の1つは、しばしばグラフニューラルネットワーク(GNN)に基づいており、変数がGCPの色のセットやスドクのボードサイズといった値に割り当てられる出力空間のサイズを一般化できないことである。 変数の出力空間を 'value-set' と呼びます。 多くの研究がグラフサイズにまたがってGNNの一般化を実証しているが、同じ領域から生じる問題に対して値セットの不変性を実現するためにGNNを設計する方法は研究されていない。 例えば、たった9 x 9 sudokusでトレーニングした後、16 x 16 sudokuの解法を学ぶ。 本研究では,GNNに基づくアーキテクチャを拡張し,値集合の不変性を実現する手法を提案する。 具体的には,最近提案されたリカレントリレーショナルネットワークをモデルとした。 我々の最初のアプローチは、GNNのグラフサイズ不変性を利用して、マルチクラスノード分類問題をバイナリノード分類問題に変換する。 2つ目のアプローチは、値セットの値に対応する複数のノードを追加し、問題の初期化に応じて変数ノードを値ノードに接続することで、複数のクラスと直接連携する。 3つの組合せ問題について実験的に評価した結果,両モデルともジェネリックニューラル推論器と比較して,新しい問題に対して良好に機能することが示された。 この2つのモデルの間には,2項化モデルはより小さな値集合でトレーニングされた場合,性能が向上するが,多値モデルはよりメモリ効率が良く,より大きな値集合でトレーニングした場合には性能が向上する。

Recently many neural models have been proposed to solve combinatorial puzzles by implicitly learning underlying constraints using their solved instances, such as sudoku or graph coloring (GCP). One drawback of the proposed architectures, which are often based on Graph Neural Networks (GNN), is that they cannot generalize across the size of the output space from which variables are assigned a value, for example, set of colors in a GCP, or board-size in sudoku. We call the output space for the variables as 'value-set'. While many works have demonstrated generalization of GNNs across graph size, there has been no study on how to design a GNN for achieving value-set invariance for problems that come from the same domain. For example, learning to solve 16 x 16 sudoku after being trained on only 9 x 9 sudokus. In this work, we propose novel methods to extend GNN based architectures to achieve value-set invariance. Specifically, our model builds on recently proposed Recurrent Relational Networks. Our first approach exploits the graph-size invariance of GNNs by converting a multi-class node classification problem into a binary node classification problem. Our second approach works directly with multiple classes by adding multiple nodes corresponding to the values in the value-set, and then connecting variable nodes to value nodes depending on the problem initialization. Our experimental evaluation on three different combinatorial problems demonstrates that both our models perform well on our novel problem, compared to a generic neural reasoner. Between two of our models, we observe an inherent trade-off: while the binarized model gives better performance when trained on smaller value-sets, multi-valued model is much more memory efficient, resulting in improved performance when trained on larger value-sets, where binarized model fails to train.
翻訳日:2022-02-08 21:11:07 公開日:2022-02-07
# (参考訳) 教師付きグラフ表現学習のための変分エッジ分割モデル [全文訳有]

A Variational Edge Partition Model for Supervised Graph Representation Learning ( http://arxiv.org/abs/2202.03233v1 )

ライセンス: CC BY 4.0
Yilin He, Chaojie Wang, Hao Zhang, Bo Chen, Mingyuan Zhou(参考訳) エッジを通じてノードの機能を伝搬し、ラベル管理下で集約された機能を変換する方法を学ぶグラフニューラルネットワーク(gnns)は、ノードレベルの分類タスクとグラフレベルの分類タスクの両方において、教師付き特徴抽出で大きな成功を収めている。 しかし、GNNは通常グラフ構造を与えられたように扱い、エッジがどのように形成されるかを無視します。 本稿では,重複するノード群にノード間相互作用を集約することにより観測されたエッジがどのように生成されるかをモデル化するグラフ生成プロセスを提案する。 この生成モデルに基づいて、各エッジを複数のコミュニティ固有の重み付きエッジの和に分割し、コミュニティ固有のGNNを定義する。 エッジを異なるコミュニティに分割するGNNベースの推論ネットワーク,これらのコミュニティ固有のGNN,およびコミュニティ固有のGNNを最終分類タスクに組み合わせたGNNベースの予測器を共同で学習するために,変分推論フレームワークを提案する。 実世界のグラフデータセットに対する大規模な評価は,ノードレベルとグラフレベルの両方の分類タスクにおける識別表現の学習において,提案手法の有効性を検証した。

Graph neural networks (GNNs), which propagate the node features through the edges and learn how to transform the aggregated features under label supervision, have achieved great success in supervised feature extraction for both node-level and graph-level classification tasks. However, GNNs typically treat the graph structure as given and ignore how the edges are formed. This paper introduces a graph generative process to model how the observed edges are generated by aggregating the node interactions over a set of overlapping node communities, each of which contributes to the edges via a logical OR mechanism. Based on this generative model, we partition each edge into the summation of multiple community-specific weighted edges and use them to define community-specific GNNs. A variational inference framework is proposed to jointly learn a GNN based inference network that partitions the edges into different communities, these community-specific GNNs, and a GNN based predictor that combines community-specific GNNs for the end classification task. Extensive evaluations on real-world graph datasets have verified the effectiveness of the proposed method in learning discriminative representations for both node-level and graph-level classification tasks.
翻訳日:2022-02-08 20:43:18 公開日:2022-02-07
# (参考訳) 高スループット科学的発見のための教師なし物理インフォームドマルチモーダルデータの歪み [全文訳有]

Unsupervised physics-informed disentanglement of multimodal data for high-throughput scientific discovery ( http://arxiv.org/abs/2202.03242v1 )

ライセンス: CC0 1.0
Nathaniel Trask, Carianne Martinez, Kookjin Lee, Brad Boyce(参考訳) 物理インフォームド・マルチモーダル・オートエンコーダ (PIMA) - 高スループットテストを表す多モーダル科学データセットにおける共有情報を発見するための変分推論フレームワーク。 個々のモダリティは共有潜在空間に埋め込まれ、専門家の定式化の積を通して融合し、共有特徴を特定する前にガウス混合を可能にする。 クラスタからのサンプリングは、事前の科学的知識をエンコードする帰納的バイアスを課すエキスパートデコーダと、潜在空間の構造化された不連続を付与する混合で、クロスモーダル生成モデルを可能にする。 このアプローチは、高次元の不均一なデータセットで検出される可能性のある指紋の発見を可能にする。 材料製造プロセスの加速共設計と最適化により、金属添加物製造からの格子メタマテリアルのデータセットは、メソスケールトポロジーの画像と機械的応力-ひずみ応答の間の正確なクロスモーダル推論を示す。

We introduce physics-informed multimodal autoencoders (PIMA) - a variational inference framework for discovering shared information in multimodal scientific datasets representative of high-throughput testing. Individual modalities are embedded into a shared latent space and fused through a product of experts formulation, enabling a Gaussian mixture prior to identify shared features. Sampling from clusters allows cross-modal generative modeling, with a mixture of expert decoder imposing inductive biases encoding prior scientific knowledge and imparting structured disentanglement of the latent space. This approach enables discovery of fingerprints which may be detected in high-dimensional heterogeneous datasets, avoiding traditional bottlenecks related to high-fidelity measurement and characterization. Motivated by accelerated co-design and optimization of materials manufacturing processes, a dataset of lattice metamaterials from metal additive manufacturing demonstrates accurate cross modal inference between images of mesoscale topology and mechanical stress-strain response.
翻訳日:2022-02-08 20:24:48 公開日:2022-02-07
# (参考訳) 脳波信号からの感情のAIに基づく芸術的表現--公平性、包摂性、美学に関する議論 [全文訳有]

AI-based artistic representation of emotions from EEG signals: a discussion on fairness, inclusion, and aesthetics ( http://arxiv.org/abs/2202.03246v1 )

ライセンス: CC BY 4.0
Piera Riccio, Kristin Bergaust, Boel Christensen-Scheel, Juan-Carlos De Martin, Maria A. Zuluaga, Stefano Nichele(参考訳) 人工知能(AI)技術は徐々に発展しつつあるが、アーティストや研究者は芸術的実践における自身の役割を調査している。 本研究では、人間と機械が芸術的に感情を表現するために対話するAIベースのBrain-Computer Interface(BCI)を提案する。 このシステムとその画像の生成は、人間の感情の複雑さと範囲とその表現を反映する機会を与える。 本研究では,この相互作用のダイナミクスを理解し,公平性,包摂性,美学の共存性の向上を図る。

While Artificial Intelligence (AI) technologies are being progressively developed, artists and researchers are investigating their role in artistic practices. In this work, we present an AI-based Brain-Computer Interface (BCI) in which humans and machines interact to express feelings artistically. This system and its production of images give opportunities to reflect on the complexities and range of human emotions and their expressions. In this discussion, we seek to understand the dynamics of this interaction to reach better co-existence in fairness, inclusion, and aesthetics.
翻訳日:2022-02-08 20:05:04 公開日:2022-02-07
# (参考訳) 現実的敵意攻撃に対する非現実的敵意強固化の実証的効果について [全文訳有]

On The Empirical Effectiveness of Unrealistic Adversarial Hardening Against Realistic Adversarial Attacks ( http://arxiv.org/abs/2202.03277v1 )

ライセンス: CC BY 4.0
Salijona Dyrmishi and Salah Ghamizi and Thibault Simonetto and Yves Le Traon and Maxime Cordy(参考訳) 機械学習(ML)システムのセキュリティ攻撃と防御に関する文献は、主に非現実的な敵の例に焦点を当てているが、最近の研究は、現実的な敵の攻撃の未調査分野と、それらの実世界のシステムの堅牢性への影響を懸念している。 本稿は,現実の攻撃に対する敵意の強固さをよりよく理解するための道筋を定め,二つの大きな貢献をした。 まず,実世界の3つのユースケース(テキスト分類,ボットネット検出,マルウェア検出)と5つのデータセットについて検討を行い,非現実的な逆行例を用いて実例からモデルを保護することができるかを評価する。 非現実的な例は現実的なものと同じくらい効果的であるか、あるいは限定的な改善しか提供できない。 第2に,これらの結果を説明するために,現実的かつ非現実的攻撃によって生成された敵の潜在表現を解析する。 効果的硬化に使用できる非現実的な例を識別するパターンに光を当てた。 コード、データセット、モデルをリリースし、非現実的および現実的な敵攻撃の間のギャップを減らす方法について、将来の研究を支援する。

While the literature on security attacks and defense of Machine Learning (ML) systems mostly focuses on unrealistic adversarial examples, recent research has raised concern about the under-explored field of realistic adversarial attacks and their implications on the robustness of real-world systems. Our paper paves the way for a better understanding of adversarial robustness against realistic attacks and makes two major contributions. First, we conduct a study on three real-world use cases (text classification, botnet detection, malware detection)) and five datasets in order to evaluate whether unrealistic adversarial examples can be used to protect models against realistic examples. Our results reveal discrepancies across the use cases, where unrealistic examples can either be as effective as the realistic ones or may offer only limited improvement. Second, to explain these results, we analyze the latent representation of the adversarial examples generated with realistic and unrealistic attacks. We shed light on the patterns that discriminate which unrealistic examples can be used for effective hardening. We release our code, datasets and models to support future research in exploring how to reduce the gap between unrealistic and realistic adversarial attacks.
翻訳日:2022-02-08 19:56:10 公開日:2022-02-07
# (参考訳) 信号回復のための離散構造計測演算子の勾配学習 [全文訳有]

Gradient-Based Learning of Discrete Structured Measurement Operators for Signal Recovery ( http://arxiv.org/abs/2202.03391v1 )

ライセンス: CC BY 4.0
Jonathan Sauder and Martin Genzel and Peter Jung(参考訳) 無数の信号処理用途には、少数の間接線形測定からの信号の再構成が含まれる。 効果的な測定演算子の設計は、通常、ハードウェアと物理によって制限され、挑戦的でしばしば離散的な最適化タスクとなる。 反復的回復アルゴリズムの展開による勾配学習の可能性は実証されているが、許容可能な測定演算子の集合が構造化され離散化されている場合、この手法をどのように活用するかは未だ不明である。 Gumbel再パラメータ化とアンロール最適化を組み合わせることでこの問題に対処し、分類確率変数の低分散勾配推定の計算を可能にする。 本手法はGLODISMO (Gradient-based Learning of DIscrete Structured Measurement Operators)によって定式化されている。 この手法は実装が容易で、計算効率が高く、自動微分と互換性があるため拡張可能である。 我々は,glodismoの性能と柔軟性を実証的に実証し,学習行列がランダム化に基づく従来の設計や離散最適化ベースラインよりも優れていることを検証した。

Countless signal processing applications include the reconstruction of signals from few indirect linear measurements. The design of effective measurement operators is typically constrained by the underlying hardware and physics, posing a challenging and often even discrete optimization task. While the potential of gradient-based learning via the unrolling of iterative recovery algorithms has been demonstrated, it has remained unclear how to leverage this technique when the set of admissible measurement operators is structured and discrete. We tackle this problem by combining unrolled optimization with Gumbel reparametrizations, which enable the computation of low-variance gradient estimates of categorical random variables. Our approach is formalized by GLODISMO (Gradient-based Learning of DIscrete Structured Measurement Operators). This novel method is easy-to-implement, computationally efficient, and extendable due to its compatibility with automatic differentiation. We empirically demonstrate the performance and flexibility of GLODISMO in several prototypical signal recovery applications, verifying that the learned measurement matrices outperform conventional designs based on randomization as well as discrete optimization baselines.
翻訳日:2022-02-08 19:30:10 公開日:2022-02-07
# ストレージとプライバシ制約による学習

Learning under Storage and Privacy Constraints ( http://arxiv.org/abs/2202.02892v1 )

ライセンス: Link先を確認
Berivan Isik, Tsachy Weissman(参考訳) ストレージ効率の低いプライバシ保証学習は、ますます多くの学習タスクに必要となる大量の機密データのために重要である。 本稿では,学習のためのデータの有用性を損なうことなく,プライバシの保証と同時にストレージコストを削減するためのフレームワークを提案する。 本手法はノイズ注入と損失圧縮を含む。 その結果,損失圧縮を付加雑音の分布と適切に一致させると,圧縮例が,無雑音訓練データと分布的に収束することがわかった。 この意味では、学習データの有用性は本質的に維持され、定量量によるストレージとプライバシーの漏洩は低減される。 我々は、性別分類のためのCelebAデータセットに実験結果を示し、提案したパイプラインは、画像中の個人が認識できない(または、ノイズレベルによっては認識できない)こと、データの全体的な保存が大幅に減少し、分類精度が著しく低下すること、など、理論の約束に従って実際に提供されることを発見した。 追加のボーナスとして,本手法は逆テストデータに対してロバスト性が大幅に向上することが示唆された。

Storage-efficient privacy-guaranteed learning is crucial due to enormous amounts of sensitive user data required for increasingly many learning tasks. We propose a framework for reducing the storage cost while at the same time providing privacy guarantees, without essential loss in the utility of the data for learning. Our method comprises noise injection followed by lossy compression. We show that, when appropriately matching the lossy compression to the distribution of the added noise, the compressed examples converge, in distribution, to that of the noise-free training data. In this sense, the utility of the data for learning is essentially maintained, while reducing storage and privacy leakage by quantifiable amounts. We present experimental results on the CelebA dataset for gender classification and find that our suggested pipeline delivers in practice on the promise of the theory: the individuals in the images are unrecognizable (or less recognizable, depending on the noise level), overall storage of the data is substantially reduced, with no essential loss of the classification accuracy. As an added bonus, our experiments suggest that our method yields a substantial boost to robustness in the face of adversarial test data.
翻訳日:2022-02-08 18:45:22 公開日:2022-02-07
# 半教師付き局所クラスタ抽出における最小二乗アプローチ

A Least Square Approach to Semi-supervised Local Cluster Extraction ( http://arxiv.org/abs/2202.02904v1 )

ライセンス: Link先を確認
Ming-Jun Lai and Zhaiming Shen(参考訳) 圧縮センシングのアイデアに基づく最小二乗半教師付き局所クラスタリングアルゴリズムを提案し、既知の隣接行列を持つグラフからクラスタを抽出する。 このアルゴリズムは \cite{LaiMckenzie2020} に類似した2段階のアプローチに基づいている。 しかし、より弱い仮定の下で、計算量が少なくて計算量が少ない場合、アルゴリズムは高い確率で所望のクラスタを見つけることができることが示されている。 本アルゴリズムの性能を示すために,合成データやmnist,at\&t,yaleb human facesデータセットなどの実データを含むいくつかの数値実験を行った。

A least square semi-supervised local clustering algorithm based on the idea of compressed sensing are proposed to extract clusters from a graph with known adjacency matrix. The algorithm is based on a two stage approaches similar to the one in \cite{LaiMckenzie2020}. However, under a weaker assumption and with less computational complexity than the one in \cite{LaiMckenzie2020}, the algorithm is shown to be able to find a desired cluster with high probability. Several numerical experiments including the synthetic data and real data such as MNIST, AT\&T and YaleB human faces data sets are conducted to demonstrate the performance of our algorithm.
翻訳日:2022-02-08 18:45:03 公開日:2022-02-07
# モデルプライバシーを用いたオンザエアアンサンブル推論

Over-the-Air Ensemble Inference with Model Privacy ( http://arxiv.org/abs/2202.03129v1 )

ライセンス: Link先を確認
Selim F. Yilmaz, Burak Hasircioglu, Deniz Gunduz(参考訳) ローカルデータセット上で個別に訓練されたモデルの集合を持つ複数のクライアントを並列にクエリして,新しいサンプルの正確な決定を行う,無線エッジでの分散推論を検討する。 推論精度の最大化に加えて、ローカルモデルのプライバシーも最大化したいと考えています。 帯域効率の良いアンサンブル推定手法を実装するために,空気の重畳特性を利用する。 我々は,これらのスキームが直交的手法よりもはるかに優れた性能を示すとともに,リソース使用量が少なく,プライバシの保証を提供することを示す。 また,提案手法の利点を検証する実験結果も提供し,ソースコードをgithub上で公開している。

We consider distributed inference at the wireless edge, where multiple clients with an ensemble of models, each trained independently on a local dataset, are queried in parallel to make an accurate decision on a new sample. In addition to maximizing inference accuracy, we also want to maximize the privacy of local models. We exploit the superposition property of the air to implement bandwidth-efficient ensemble inference methods. We introduce different over-the-air ensemble methods and show that these schemes perform significantly better than their orthogonal counterparts, while using less resources and providing privacy guarantees. We also provide experimental results verifying the benefits of the proposed over-the-air inference approach, whose source code is shared publicly on Github.
翻訳日:2022-02-08 18:43:54 公開日:2022-02-07
# 仮想フロー計測応用における非定常性へのパッシブ学習

Passive learning to address nonstationarity in virtual flow metering applications ( http://arxiv.org/abs/2202.03236v1 )

ライセンス: Link先を確認
Mathilde Hotvedt, Bjarne Grimstad, Lars Imsland(参考訳) 定常プロセスモデルは計算の複雑さが低く、モデルの開発やメンテナンスコストが低く、仮想フローメータアプリケーションでは一般的である。 それにもかかわらず、定常モデルの予測性能は、通常、モデル化されるプロセスの固有の非定常性のために時間の経過とともに低下する。 定常的な仮想フローメータの予測精度を維持するために学習法をどのように適用できるかを研究した研究はほとんどない。 本稿では,非定常性に対処し,長期的性能を向上させる手段として,モデルが新しいデータに校正されることの多い受動的学習について検討する。 受動的学習の利点は、業界で使われているモデルと互換性があることだ。 周期的バッチ学習とオンライン学習という2つのパッシブ学習法を適用し,キャリブレーション周波数を変化させて仮想フローメータを訓練する。 データ駆動型から第一原理型まで、6つの異なるモデルタイプが10の石油油井の歴史的生産データに基づいて訓練されている。 第1に,頻繁なモデル更新は時間とともに優れた予測性能を保ち,第2に,間欠的かつ不十分な測定値が存在する場合には,専門家の知識の活用に加えて頻繁な更新がパフォーマンスの精度向上に不可欠である。 この調査は、仮想フローメーターのような非定常プロセスのためのソフトセンサーを開発する専門家にとって興味深い。

Steady-state process models are common in virtual flow meter applications due to low computational complexity, and low model development and maintenance cost. Nevertheless, the prediction performance of steady-state models typically degrades with time due to the inherent nonstationarity of the underlying process being modeled. Few studies have investigated how learning methods can be applied to sustain the prediction accuracy of steady-state virtual flow meters. This paper explores passive learning, where the model is frequently calibrated to new data, as a way to address nonstationarity and improve long-term performance. An advantage with passive learning is that it is compatible with models used in the industry. Two passive learning methods, periodic batch learning and online learning, are applied with varying calibration frequency to train virtual flow meters. Six different model types, ranging from data-driven to first-principles, are trained on historical production data from 10 petroleum wells. The results are two-fold: first, in the presence of frequently arriving measurements, frequent model updating sustains an excellent prediction performance over time; second, in the presence of intermittent and infrequently arriving measurements, frequent updating in addition to the utilization of expert knowledge is essential to increase the performance accuracy. The investigation may be of interest to experts developing soft-sensors for nonstationary processes, such as virtual flow meters.
翻訳日:2022-02-08 18:43:22 公開日:2022-02-07
# セマンティックノイズに対するロバストなセマンティック通信

Robust Semantic Communications Against Semantic Noise ( http://arxiv.org/abs/2202.03338v1 )

ライセンス: Link先を確認
Qiyu Hu, Guangyi Zhang, Zhijin Qin, Yunlong Cai and Guanding Yu(参考訳) セマンティックコミュニケーションは多くのタスクにおいて満足な性能を示したが、セマンティックノイズの影響とシステムの堅牢性は十分に研究されていない。 意味的ノイズ(semantic noise)は、意味的コミュニケーションシステムにおける特定のノイズの一種であり、意図された意味的シンボルと受信されたシンボルとの誤解を意味する。 本稿ではまず,ロバストなエンドツーエンドのセマンティック通信システムにおいて,セマンティックノイズに対処するためのフレームワークを提案する。 特に,セマンティクスノイズの原因を分析し,それを生成する実用的な手法を提案する。 セマンティックノイズの影響を除去するため,トレーニングデータセットにセマンティックノイズを組み込んだ逆トレーニングを提案する。 次に、マスク付きオートエンコーダは、入力の一部がマスクされているロバストなセマンティック通信システムのアーキテクチャとして設計される。 意味コミュニケーションシステムのロバスト性をさらに高めるため,我々は,送信者と受信者が共有する離散コードブックを符号化特徴表現用に設計する。 したがって、送信側は単にこれらの特徴の指標をコードブックに送信する必要がある。 シミュレーションの結果,提案手法は,伝送オーバーヘッドを著しく低減し,意味雑音に対する意味コミュニケーションシステムのロバスト性を大幅に向上させることがわかった。

Although the semantic communications have exhibited satisfactory performance in a large number of tasks, the impact of semantic noise and the robustness of the systems have not been well investigated. Semantic noise is a particular kind of noise in semantic communication systems, which refers to the misleading between the intended semantic symbols and received ones. In this paper, we first propose a framework for the robust end-to-end semantic communication systems to combat the semantic noise. Particularly, we analyze the causes of semantic noise and propose a practical method to generate it. To remove the effect of semantic noise, adversarial training is proposed to incorporate the samples with semantic noise in the training dataset. Then, the masked autoencoder is designed as the architecture of a robust semantic communication system, where a portion of the input is masked. To further improve the robustness of semantic communication systems, we design a discrete codebook shared by the transmitter and the receiver for encoded feature representation. Thus, the transmitter simply needs to transmit the indices of these features in the codebook. Simulation results show that our proposed method significantly improves the robustness of semantic communication systems against semantic noise with significant reduction on the transmission overhead.
翻訳日:2022-02-08 18:42:58 公開日:2022-02-07
# 集団通信のための最適直接接続トポロジー

Optimal Direct-Connect Topologies for Collective Communications ( http://arxiv.org/abs/2202.03356v1 )

ライセンス: Link先を確認
Liangyu Zhao and Siddharth Pal and Tapan Chugh and Weiyang Wang and Prithwish Basu and Joud Khoury and Arvind Krishnamurthy(参考訳) 集合的コミュニケーションのための最適なネットワークトポロジーを蒸留する問題を考える。 集団通信作業負荷に対して遅延帯域幅トレードオフに最適化された直接接続トポロジを構築するためのアルゴリズムフレームワークを提供する。 我々のアルゴリズムフレームワークは、小さなベーストポロジと関連する通信スケジュールから始めて、より大規模なトポロジと関連するスケジュールを導出するために反復的に適用可能な一連のテクニックを使用することができます。 このアプローチにより、任意のクラスタサイズと次数制約のために多くの異なるトポロジーとスケジュールを合成し、与えられたワークロードの最適なトポロジーを識別できます。 アプリケーション実行期間中のトポロジ設定にパッチパネルを使用する小型光テストベッド上で、導出したトポロジと結果の分析モデルに基づく評価を行う。 導出されたトポロジーとスケジュールは、既存の集合的コミュニケーション実装よりも大きなパフォーマンス上の利点を提供する。

We consider the problem of distilling optimal network topologies for collective communications. We provide an algorithmic framework for constructing direct-connect topologies optimized for the latency-bandwidth tradeoff given a collective communication workload. Our algorithmic framework allows us to start from small base topologies and associated communication schedules and use a set of techniques that can be iteratively applied to derive much larger topologies and associated schedules. Our approach allows us to synthesize many different topologies and schedules for a given cluster size and degree constraint, and then identify the optimal topology for a given workload. We provide an analytical-model-bas ed evaluation of the derived topologies and results on a small-scale optical testbed that uses patch panels for configuring a topology for the duration of an application's execution. We show that the derived topologies and schedules provide significant performance benefits over existing collective communications implementations.
翻訳日:2022-02-08 18:42:39 公開日:2022-02-07
# ディープインパルス応答:ディープネットワークを用いたフィルタの推定とパラメータ化

Deep Impulse Responses: Estimating and Parameterizing Filters with Deep Networks ( http://arxiv.org/abs/2202.03416v1 )

ライセンス: Link先を確認
Alexander Richard, Peter Dodds, Vamsi Krishna Ithapu(参考訳) 基礎となるデータ分布を最小限に抑えた高雑音および電界環境におけるインパルス応答推定は難しい問題である。 ニューラル表現学習の最近の進歩に基づくインパルス応答のパラメータ化と推定のための新しいフレームワークを提案する。 我々のフレームワークは、インパルス応答と観測信号のスペクトルノイズ特性を併用して推定する、慎重に設計されたニューラルネットワークによって駆動される。 信号対雑音比が低い場合でも,推定のロバスト性を示し,時空間実世界音声データから学習した場合の強い結果を示す。 我々のフレームワークは、空間グリッド上でインパルス応答を補間する自然な方法を提供すると同時に、拡張現実およびバーチャルリアリティーにおけるリアルタイムレンダリングアプリケーションのためにそれらを効率的に圧縮し、保存することを可能にする。

Impulse response estimation in high noise and in-the-wild settings, with minimal control of the underlying data distributions, is a challenging problem. We propose a novel framework for parameterizing and estimating impulse responses based on recent advances in neural representation learning. Our framework is driven by a carefully designed neural network that jointly estimates the impulse response and the (apriori unknown) spectral noise characteristics of an observed signal given the source signal. We demonstrate robustness in estimation, even under low signal-to-noise ratios, and show strong results when learning from spatio-temporal real-world speech data. Our framework provides a natural way to interpolate impulse responses on a spatial grid, while also allowing for efficiently compressing and storing them for real-time rendering applications in augmented and virtual reality.
翻訳日:2022-02-08 18:42:24 公開日:2022-02-07
# (参考訳) フェデレーション学習におけるプライバシとセキュリティの保護 [全文訳有]

Preserving Privacy and Security in Federated Learning ( http://arxiv.org/abs/2202.03402v1 )

ライセンス: CC BY 4.0
Truc Nguyen, My T. Thai(参考訳) フェデレーション学習は、セキュリティやプライバシーの問題に弱いことが知られている。 既存の研究は、ユーザーからの毒殺攻撃の防止か、モデル更新のユーザのプライバシーを保護することに焦点を当てている。 しかし、これらの2つの研究を統合することは、脅威モデルに関してしばしば互いに対立するため、重要な課題である。 本研究では,ユーザからの攻撃に対する防御機構とセキュアなアグリゲーションを組み合わせたフレームワークを開発し,それぞれのプライバシ保証を維持した。 ゼロ知識証明プロトコルを利用して,ユーザがローカルに防御機構を実行し,モデル更新に関する情報を公開せずに中央サーバに結果を証明できる。 さらに,悪意のあるユーザに対して堅牢な同型暗号を用いたフェデレーション学習のためのセキュアアグリゲーションプロトコルを提案する。 当社のフレームワークは,セキュアアグリゲーションのプライバシ保証に違反することなく,有害なモデル更新を中央サーバが特定可能にする。 最後に,提案手法の計算と通信の複雑さを分析し,その性能をベンチマークする。

Federated learning is known to be vulnerable to security and privacy issues. Existing research has focused either on preventing poisoning attacks from users or on protecting user privacy of model updates. However, integrating these two lines of research remains a crucial challenge since they often conflict with one another with respect to the threat model. In this work, we develop a framework to combine secure aggregation with defense mechanisms against poisoning attacks from users, while maintaining their respective privacy guarantees. We leverage zero-knowledge proof protocol to let users run the defense mechanisms locally and attest the result to the central server without revealing any information about their model updates. Furthermore, we propose a new secure aggregation protocol for federated learning using homomorphic encryption that is robust against malicious users. Our framework enables the central server to identify poisoned model updates without violating the privacy guarantees of secure aggregation. Finally, we analyze the computation and communication complexity of our proposed solution and benchmark its performance.
翻訳日:2022-02-08 18:40:57 公開日:2022-02-07
# EMGに基づくジェスチャー同定のための深部残留収縮網

Deep Residual Shrinkage Networks for EMG-based Gesture Identification ( http://arxiv.org/abs/2202.02984v1 )

ライセンス: Link先を確認
Yueying Ma, Chengbo Wang, Chengbo Wang, Zimo Li(参考訳) 本研究では,高精度なEMGに基づくジェスチャー識別手法を提案する。 新たな深層学習法である深層残留収縮ネットワークを用いてジェスチャ識別を行う。 ジェスチャによるemg信号の特徴に基づき、識別精度を向上させるための最適化を行う。 最後に、EMG信号認識の精度とDRSNの精度を比較するために、3つの異なるアルゴリズムを適用した。 その結果,DRSNは従来のニューラルネットワークよりもEMG認識精度が高いことがわかった。 本稿では,EMG信号の分類やDRSNの適用可能性を探る上で,信頼性の高い方法を提案する。

This work introduces a method for high-accuracy EMG based gesture identification. A newly developed deep learning method, namely, deep residual shrinkage network is applied to perform gesture identification. Based on the feature of EMG signal resulting from gestures, optimizations are made to improve the identification accuracy. Finally, three different algorithms are applied to compare the accuracy of EMG signal recognition with that of DRSN. The result shows that DRSN excel traditional neural networks in terms of EMG recognition accuracy. This paper provides a reliable way to classify EMG signals, as well as exploring possible applications of DRSN.
翻訳日:2022-02-08 18:17:31 公開日:2022-02-07
# フロー延長を伴うネットワーク計算-MLによるフィードフォワードFIFO解析

Network Calculus with Flow Prolongation -- A Feedforward FIFO Analysis enabled by ML ( http://arxiv.org/abs/2202.03004v1 )

ライセンス: Link先を確認
Fabien Geyer and Alexander Scheffler and Steffen Bondorf(参考訳) データフローの最悪ケーストラバーサル時間における上限の導出は、多くのアプリケーション領域で重要なタスクである。 正確な境界については、大規模ネットワークにおいてもモデル単純化は避けるべきである。 ネットワーク計算(nc)は、遅延境界のモデリングフレームワークと異なる解析を提供する。 すべてのキューがファーストインファーストアウト(fifo)サービスを実装するfeedforwardネットワークの解析について検討する。 FIFOの下でのデータフローの影響を正しく考慮することは、すでに難しい課題である。 しかし、最も速いNC FIFO分析は、不必要に緩い境界をもたらす制限に悩まされている。 Flow Prolongation (FP)と呼ばれる機能は、遅延境界精度を大幅に改善する。 残念ながら、fp は nc fifo 分析内で非常に頻繁に実行される必要があり、そのたびに伸長を伴う指数関数的に増加する別のネットワーク群を生成する。 したがって、FPはスケールせず、大規模ネットワークの網羅的な分析には及ばない。 本稿では,機械学習を用いて拡張を予測することによって,FPをスケールするアプローチであるDeepFPを紹介する。 評価の結果,DeepFPはFIFOネットワークの処理結果を大幅に改善できることがわかった。 標準のNC FIFO解析と比較すると、DeepFPは計算コストを無視できる平均12.1%削減する。

The derivation of upper bounds on data flows' worst-case traversal times is an important task in many application areas. For accurate bounds, model simplifications should be avoided even in large networks. Network Calculus (NC) provides a modeling framework and different analyses for delay bounding. We investigate the analysis of feedforward networks where all queues implement First-In First-Out (FIFO) service. Correctly considering the effect of data flows onto each other under FIFO is already a challenging task. Yet, the fastest available NC FIFO analysis suffers from limitations resulting in unnecessarily loose bounds. A feature called Flow Prolongation (FP) has been shown to improve delay bound accuracy significantly. Unfortunately, FP needs to be executed within the NC FIFO analysis very often and each time it creates an exponentially growing set of alternative networks with prolongations. FP therefore does not scale and has been out of reach for the exhaustive analysis of large networks. We introduce DeepFP, an approach to make FP scale by predicting prolongations using machine learning. In our evaluation, we show that DeepFP can improve results in FIFO networks considerably. Compared to the standard NC FIFO analysis, DeepFP reduces delay bounds by 12.1% on average at negligible additional computational cost.
翻訳日:2022-02-08 18:17:23 公開日:2022-02-07
# b2ea:ニューラルアーキテクチャ探索のための2つのベイズ最適化モジュールによる進化的アルゴリズム

B2EA: An Evolutionary Algorithm Assisted by Two Bayesian Optimization Modules for Neural Architecture Search ( http://arxiv.org/abs/2202.03005v1 )

ライセンス: Link先を確認
Hyunghun Cho, Jungwook Shin, Wonjong Rhee(参考訳) 初期のニューラル・アーキテクチャ・サーチ (NAS) は一般の検索空間に適用可能な多段階的手法であった。 その後の研究は初期の発見を生かし、通常固定されたハイパーパラメータを持つ構造付き探索空間を仮定する重量共有法を開発した。 重量共有NASアルゴリズムの驚くべき計算効率にもかかわらず、特に一般的な探索空間を探索する際には、非常に高性能なアーキテクチャを識別するためには、マルチリアルNASアルゴリズムも必要であることが明らかになっている。 本研究では,最新のマルチリアルNASアルゴリズムを慎重に検討し,進化的アルゴリズム(EA),ベイズ最適化(BO),多様化,入出力変換,低忠実度推定などの重要な戦略を明らかにする。 主要な戦略を一つのフレームワークに適合させるために,2つのBOサロゲートモデルと2つのミュータントステップを持つ補助EAであるB\textsuperscript{2}EAを開発する。 B\textsuperscript{2}EA が頑健で効率的であることを示すため,一般およびセルベースの検索空間を持つ14のベンチマークにおいて,3つの性能指標を評価した。 B\textsuperscript{2}EAは、目標性能の3つの難易度に対して、14のベンチマークに対して堅牢で効率的である。 B\textsuperscript{2}EA コードは \url{https://github.com/s nu-adsl/BBEA} で公開されている。

The early pioneering Neural Architecture Search (NAS) works were multi-trial methods applicable to any general search space. The subsequent works took advantage of the early findings and developed weight-sharing methods that assume a structured search space typically with pre-fixed hyperparameters. Despite the amazing computational efficiency of the weight-sharing NAS algorithms, it is becoming apparent that multi-trial NAS algorithms are also needed for identifying very high-performance architectures, especially when exploring a general search space. In this work, we carefully review the latest multi-trial NAS algorithms and identify the key strategies including Evolutionary Algorithm (EA), Bayesian Optimization (BO), diversification, input and output transformations, and lower fidelity estimation. To accommodate the key strategies into a single framework, we develop B\textsuperscript{2}EA that is a surrogate assisted EA with two BO surrogate models and a mutation step in between. To show that B\textsuperscript{2}EA is robust and efficient, we evaluate three performance metrics over 14 benchmarks with general and cell-based search spaces. Comparisons with state-of-the-art multi-trial algorithms reveal that B\textsuperscript{2}EA is robust and efficient over the 14 benchmarks for three difficulty levels of target performance. The B\textsuperscript{2}EA code is publicly available at \url{https://github.com/s nu-adsl/BBEA}.
翻訳日:2022-02-08 18:17:06 公開日:2022-02-07
# トロイドの深部ネットワーク:景観幾何学における平坦領域の構造を明らかにする対称性の除去

Deep Networks on Toroids: Removing Symmetries Reveals the Structure of Flat Regions in the Landscape Geometry ( http://arxiv.org/abs/2202.03038v1 )

ライセンス: Link先を確認
Fabrizio Pittorino, Antonio Ferraro, Gabriele Perugini, Christoph Feinauer, Carlo Baldassi, Riccardo Zecchina(参考訳) 我々は、パラメータの空間ではなく、実装関数の空間の幾何学に基づいて、ディープニューラルネットワークのランドスケープを調査するアプローチを体系化する。 分類器を同値類に分類し、すべての対称性を除去する標準パラメータ化を開発し、トロイダルトポロジーをもたらす。 この領域では、損失よりもエラーの状況を調査します。 これにより、最小化子の平坦性とそれらをつなぐ測地線経路の有意義な概念を導出することができる。 異なる平坦度を持つ最小化器をサンプリングする異なる最適化アルゴリズムを用いて、モード接続性および他の特性について検討する。 様々な最先端アーキテクチャとベンチマークデータセットを検証し、平坦性と一般化性能の相関性を確認し、関数空間の平坦度最小値が互いに近いことと、それらと接続する測地線に沿った障壁が小さいことを明らかにする。 また、勾配降下の変種によって見つかる最小化子は、単一の曲がり角を持つゼロエラーパスによって接続できることがわかった。 二元重みとアクティベーションを持つニューラルネットワークにおける同様の質的結果を観察し、この設定における接続性に関する最初の結果の1つを提供する。 その結果, 単純な浅層モデルを用いて行った最近の解析研究では, 対称性の除去に重きを置き, リッチな現象学と顕著な一致を示した。

We systematize the approach to the investigation of deep neural network landscapes by basing it on the geometry of the space of implemented functions rather than the space of parameters. Grouping classifiers into equivalence classes, we develop a standardized parameterization in which all symmetries are removed, resulting in a toroidal topology. On this space, we explore the error landscape rather than the loss. This lets us derive a meaningful notion of the flatness of minimizers and of the geodesic paths connecting them. Using different optimization algorithms that sample minimizers with different flatness we study the mode connectivity and other characteristics. Testing a variety of state-of-the-art architectures and benchmark datasets, we confirm the correlation between flatness and generalization performance; we further show that in function space flatter minima are closer to each other and that the barriers along the geodesics connecting them are small. We also find that minimizers found by variants of gradient descent can be connected by zero-error paths with a single bend. We observe similar qualitative results in neural networks with binary weights and activations, providing one of the first results concerning the connectivity in this setting. Our results hinge on symmetry removal, and are in remarkable agreement with the rich phenomenology described by some recent analytical studies performed on simple shallow models.
翻訳日:2022-02-08 18:16:40 公開日:2022-02-07
# SimGRACE: データ拡張のないグラフコントラスト学習のためのシンプルなフレームワーク

SimGRACE: A Simple Framework for Graph Contrastive Learning without Data Augmentation ( http://arxiv.org/abs/2202.03104v1 )

ライセンス: Link先を確認
Jun Xia, Lirong Wu, Jintao Chen, Bozhen Hu, Stan Z.Li(参考訳) グラフコントラスト学習(gcl)は、グラフ表現学習の主要な手法として登場し、同じ意味を持つ対のグラフ拡張間の相互情報を最大化している。 残念ながら、グラフデータの多様性の観点から、拡張中に意味をうまく保存することは困難である。 現在、セマンティクスを保存するように設計されたGCLのデータ拡張は、大きく3つの不満足な方法に分類されている。 まず、補足は試行錯誤によってデータセットごとに手動で選択できる。 第二に、補足は厄介な検索によって選択できる。 第3に、拡張は高価なドメイン固有の知識をガイダンスとして導入することで得られる。 これらの全ては、既存のgclメソッドの効率とより一般的な適用性を制限する。 これらの重要な問題を回避するために、データ拡張を必要としない簡潔性のための \underline{GRA}ph \underline{C}ontrastive l\underline{E}arning, \textbf{SimGRACE} のための \underline{Sim}ple フレームワークを提案する。 具体的には、元のグラフを入力とし、その摂動バージョンでGNNモデルを2つのエンコーダとして、コントラストに対する2つの相関ビューを得る。 simgraceは、グラフデータがエンコーダの摂動の間も、手作業による試行錯誤や面倒な検索、追加選択のための高価なドメイン知識を必要としないという観察から着想を得ている。 また、SimGRACEが成功する理由についても説明する。 さらに,グラフコントラスト学習のロバスト性を高め,理論的に説明するために,敵対的学習スキームである \textbf{at-simgrace} を考案する。 単純ではあるが、simgraceは汎用性、転送性、堅牢性といった点で最先端の手法に比べて競争力や性能が向上し、前例のない柔軟性と効率性が享受できることを示した。

Graph contrastive learning (GCL) has emerged as a dominant technique for graph representation learning which maximizes the mutual information between paired graph augmentations that share the same semantics. Unfortunately, it is difficult to preserve semantics well during augmentations in view of the diverse nature of graph data. Currently, data augmentations in GCL that are designed to preserve semantics broadly fall into three unsatisfactory ways. First, the augmentations can be manually picked per dataset by trial-and-errors. Second, the augmentations can be selected via cumbersome search. Third, the augmentations can be obtained by introducing expensive domain-specific knowledge as guidance. All of these limit the efficiency and more general applicability of existing GCL methods. To circumvent these crucial issues, we propose a \underline{Sim}ple framework for \underline{GRA}ph \underline{C}ontrastive l\underline{E}arning, \textbf{SimGRACE} for brevity, which does not require data augmentations. Specifically, we take original graph as input and GNN model with its perturbed version as two encoders to obtain two correlated views for contrast. SimGRACE is inspired by the observation that graph data can preserve their semantics well during encoder perturbations while not requiring manual trial-and-errors, cumbersome search or expensive domain knowledge for augmentations selection. Also, we explain why SimGRACE can succeed. Furthermore, we devise adversarial training scheme, dubbed \textbf{AT-SimGRACE}, to enhance the robustness of graph contrastive learning and theoretically explain the reasons. Albeit simple, we show that SimGRACE can yield competitive or better performance compared with state-of-the-art methods in terms of generalizability, transferability and robustness, while enjoying unprecedented degree of flexibility and efficiency.
翻訳日:2022-02-08 18:14:29 公開日:2022-02-07
# 効率のよいパレート・オプティカル・フェアネス・アクティビティ・アモルティゼーションのためのexpohedronの導入

Introducing the Expohedron for Efficient Pareto-optimal Fairness-Utility Amortizations in Repeated Rankings ( http://arxiv.org/abs/2202.03237v1 )

ライセンス: Link先を確認
Till Kletti, Jean-Michel Renders and Patrick Loiseau(参考訳) 我々は,消費者側の利便性を最大化する一連のランキングを計算し,生産者側個人の露出の不公平さを最小化する問題を考える。 それまでの作業では、ビスト確率行列上の線形プログラムや二次プログラムを用いてこの問題に対処してきたが、バーホフ・ヴォン・ノイマン(Birkhoff-von Neumann, BvN)分解に依存するアプローチは、大規模に実装するには遅すぎる。 本稿では,測位モデル (PBM) の項目のすべての達成可能な露光をポイントとする幾何学的対象,すなわち「露光子」と呼ぶポリトープを紹介する。 我々は、その性質のいくつかを示し、複素数 $o(n^2\log(n))$ を持つキャラth\'eodory 分解アルゴリズムを配置し、expohedron 内の任意の点を最大$n$頂点の凸和として表現し、ここで $n$ はランク付けすべきアイテムの数である。 このような分解により、少なくとも$n$のランクの分布として実現可能なターゲット露光を表現できる。 さらに、このポリトープを用いて、複雑さ$O(n^2\log(n))$の単純な幾何学的手順を用いて、多目的フェアネスユーティリティ最適化問題のパレートフロンティア全体を復元できることを示す。 提案手法は,アルゴリズムの複雑度と経験的実行時間の観点から線形あるいは二次的なプログラミングベースラインと比較し,項目関連性の非減少関数であるメリットに適用可能である。 さらに、我々の解は、BvN分解で達成された$(n-1)^2 + 1$の代わりに、わずか$n$置換の分布として表すことができる。 合成および実世界のデータセットの実験を行い、理論的結果を確認する。

We consider the problem of computing a sequence of rankings that maximizes consumer-side utility while minimizing producer-side individual unfairness of exposure. While prior work has addressed this problem using linear or quadratic programs on bistochastic matrices, such approaches, relying on Birkhoff-von Neumann (BvN) decompositions, are too slow to be implemented at large scale. In this paper we introduce a geometrical object, a polytope that we call expohedron, whose points represent all achievable exposures of items for a Position Based Model (PBM). We exhibit some of its properties and lay out a Carath\'eodory decomposition algorithm with complexity $O(n^2\log(n))$ able to express any point inside the expohedron as a convex sum of at most $n$ vertices, where $n$ is the number of items to rank. Such a decomposition makes it possible to express any feasible target exposure as a distribution over at most $n$ rankings. Furthermore we show that we can use this polytope to recover the whole Pareto frontier of the multi-objective fairness-utility optimization problem, using a simple geometrical procedure with complexity $O(n^2\log(n))$. Our approach compares favorably to linear or quadratic programming baselines in terms of algorithmic complexity and empirical runtime and is applicable to any merit that is a non-decreasing function of item relevance. Furthermore our solution can be expressed as a distribution over only $n$ permutations, instead of the $(n-1)^2 + 1$ achieved with BvN decompositions. We perform experiments on synthetic and real-world datasets, confirming our theoretical results.
翻訳日:2022-02-08 18:13:53 公開日:2022-02-07
# 動的アルゴリズム構成のための理論に基づくパラメータ制御ベンチマーク

Theory-inspired Parameter Control Benchmarks for Dynamic Algorithm Configuration ( http://arxiv.org/abs/2202.03259v1 )

ライセンス: Link先を確認
Andr\'e Biedenkapp, Nguyen Dang, Martin S. Krejca, Frank Hutter, Carola Doerr(参考訳) 進化的アルゴリズムや他のランダム化された探索ヒューリスティックスの性能は、最適化の振る舞いを制御できるパラメータの非静的な選択の恩恵を受けることが長年観察されてきた。 従って、フライ上の適切な構成を識別するメカニズム(パラメータ制御)や専用のトレーニングプロセス(動的アルゴリズム構成)は、現代の進化的計算フレームワークの重要な要素である。 動的パラメータ設定問題に対処するいくつかのアプローチが存在するが、どのアプリケーションを好むかはほとんど分かっていない。 古典的なベンチマークのように、既知の基底真理を持つ問題コレクションは、この文脈で非常に有意義な洞察を提供する。 残念ながら、よく理解されたコントロールポリシーの設定は非常にまれです。 どのパラメータ設定が期待されるランタイムを最小化しているか知っている数少ない例外の1つは、LeadingOnes問題です。 可能な値のポートフォリオのみからパラメータを選択できる最適制御ポリシを解析することにより、このベンチマークを拡張します。 これにより、与えられたサイズの最適パラメータポートフォリオを計算できます。 動的アルゴリズム構成のためのDDQN強化学習手法の挙動を解析することにより,ベンチマークの有用性を示す。

It has long been observed that the performance of evolutionary algorithms and other randomized search heuristics can benefit from a non-static choice of the parameters that steer their optimization behavior. Mechanisms that identify suitable configurations on the fly ("parameter control") or via a dedicated training process ("dynamic algorithm configuration") are therefore an important component of modern evolutionary computation frameworks. Several approaches to address the dynamic parameter setting problem exist, but we barely understand which ones to prefer for which applications. As in classical benchmarking, problem collections with a known ground truth can offer very meaningful insights in this context. Unfortunately, settings with well-understood control policies are very rare. One of the few exceptions for which we know which parameter settings minimize the expected runtime is the LeadingOnes problem. We extend this benchmark by analyzing optimal control policies that can select the parameters only from a given portfolio of possible values. This also allows us to compute optimal parameter portfolios of a given size. We demonstrate the usefulness of our benchmarks by analyzing the behavior of the DDQN reinforcement learning approach for dynamic algorithm configuration.
翻訳日:2022-02-08 18:13:19 公開日:2022-02-07
# 分散機械学習のための非同期並列インクリメンタルブロック座標Descent

Asynchronous Parallel Incremental Block-Coordinate Descent for Decentralized Machine Learning ( http://arxiv.org/abs/2202.03263v1 )

ライセンス: Link先を確認
Hao Chen, Yu Ye, Ming Xiao and Mikael Skoglund(参考訳) 機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。 急速に増加するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。 本稿では,多くのユーザデバイス上でデータを分散し,学習アルゴリズムをデバイス上で実行することにより,中央エンティティ/サーバの負担を軽減することを目的とした,分散システム上でのMLモデルをトレーニングする問題について検討する。 gossipベースのアプローチは、さまざまなユースケースでこの目的に使用されているが、特にデバイス数が多い場合には、通信コストが高くなる。 これを軽減するためにインクリメンタルベースの手法を提案する。 まず,分散mlのためのインクリメンタルブロック座標降下(i-bcd)を導入することで,実行時間を犠牲にして通信コストを削減できる。 収束速度を高速化するために,複数のデバイス/エージェントを非同期に動作させる非同期並列インクリメンタルBCD (API-BCD) 法を提案する。 提案手法の収束特性を導出する。 シミュレーションの結果,API-BCD法は実行時間や通信コストの面で,最先端の手法であることがわかった。

Machine learning (ML) is a key technique for big-data-driven modelling and analysis of massive Internet of Things (IoT) based intelligent and ubiquitous computing. For fast-increasing applications and data amounts, distributed learning is a promising emerging paradigm since it is often impractical or inefficient to share/aggregate data to a centralized location from distinct ones. This paper studies the problem of training an ML model over decentralized systems, where data are distributed over many user devices and the learning algorithm run on-device, with the aim of relaxing the burden at a central entity/server. Although gossip-based approaches have been used for this purpose in different use cases, they suffer from high communication costs, especially when the number of devices is large. To mitigate this, incremental-based methods are proposed. We first introduce incremental block-coordinate descent (I-BCD) for the decentralized ML, which can reduce communication costs at the expense of running time. To accelerate the convergence speed, an asynchronous parallel incremental BCD (API-BCD) method is proposed, where multiple devices/agents are active in an asynchronous fashion. We derive convergence properties for the proposed methods. Simulation results also show that our API-BCD method outperforms state of the art in terms of running time and communication costs.
翻訳日:2022-02-08 18:13:04 公開日:2022-02-07
# カーネルリッジ回帰におけるスペクトルバイアス予測の失敗と成功--低次元データの場合

Failure and success of the spectral bias prediction for Kernel Ridge Regression: the case of low-dimensional data ( http://arxiv.org/abs/2202.03348v1 )

ライセンス: Link先を確認
Umberto M. Tomasini, Antonio Sclocchi, Matthieu Wyart(参考訳) 近年、レプリカ法を含むいくつかの理論がケルネルリッジ回帰の一般化誤差を予測している。 実関数 $f^*$ を核の固有基底に分解すると、O(P) 最大の固有値に関連付けられた係数がうまく適合する(ここでは、$P$ はトレーニングセットのサイズである)。 この予測は、画像などのベンチマークデータセットで非常にうまく機能するが、これらのアプローチがデータに対して行う仮定は、実際には満たされない。 スペクトルバイアス予測がいつ成り立つかを明らかにするため、まず、厳密な結果が得られる1次元モデルに焦点をあて、その後、スケーリング引数を使用して、より高次元で結果を一般化し、テストする。 我々の予測には、決定境界の$p(x)\sim x_1^{\chi}$で消滅するデータ分布を持つ分類ケース$f(x)=$sign$(x_1)$が含まれる。 $\chi>0$ と laplace kernel では、 (i) クロスオーバーリッジ $\lambda^*_{d,\chi}(P)\sim P^{-\frac{1}{d+\chi}}$ が存在し、これは $\lambda\gg \lambda^*_{d,\chi}(P)$ の場合、レプリカメソッドが適用されるが、$\lambda\ll\lambda^*_{d,\chi}(P)$ の場合ではない。 (ii) リッジレスの場合、スペクトルバイアスは正しいトレーニング曲線指数を$d\rightarrow\infty$ でしか予測しない。

Recently, several theories including the replica method made predictions for the generalization error of Kernel Ridge Regression. In some regimes, they predict that the method has a `spectral bias': decomposing the true function $f^*$ on the eigenbasis of the kernel, it fits well the coefficients associated with the O(P) largest eigenvalues, where $P$ is the size of the training set. This prediction works very well on benchmark data sets such as images, yet the assumptions these approaches make on the data are never satisfied in practice. To clarify when the spectral bias prediction holds, we first focus on a one-dimensional model where rigorous results are obtained and then use scaling arguments to generalize and test our findings in higher dimensions. Our predictions include the classification case $f(x)=$sign$(x_1)$ with a data distribution that vanishes at the decision boundary $p(x)\sim x_1^{\chi}$. For $\chi>0$ and a Laplace kernel, we find that (i) there exists a cross-over ridge $\lambda^*_{d,\chi}(P)\sim P^{-\frac{1}{d+\chi}}$ such that for $\lambda\gg \lambda^*_{d,\chi}(P)$, the replica method applies, but not for $\lambda\ll\lambda^*_{d,\chi}(P)$, (ii) in the ridge-less case, spectral bias predicts the correct training curve exponent only in the limit $d\rightarrow\infty$ .
翻訳日:2022-02-08 18:12:40 公開日:2022-02-07
# 低計算パワーを用いた人工知能概念のリンク予測

Link Prediction of Artificial Intelligence Concepts using Low Computational Power ( http://arxiv.org/abs/2202.03393v1 )

ライセンス: Link先を確認
Francisco Valente(参考訳) 本稿では,人工知能研究所が主催するScience4cast 2021コンペティションに提案するアプローチについて述べる。 提案手法は,低次トポロジカル特徴の抽出と,ノード間の将来の接続度を推定するために最適化された分類器への組み込みを利用して,低次トポロジカル特徴の抽出を行う。 開発方法論を動機づけた理由は、いくつかの結果、制限、改善の提案と同様に議論される。

This paper presents an approach proposed for the Science4cast 2021 competition, organized by the Institute of Advanced Research in Artificial Intelligence, whose main goal was to predict the likelihood of future associations between machine learning concepts in a semantic network. The developed methodology corresponds to a solution for a scenario of availability of low computational power only, exploiting the extraction of low order topological features and its incorporation in an optimized classifier to estimate the degree of future connections between the nodes. The reasons that motivated the developed methodologies will be discussed, as well as some results, limitations and suggestions of improvements.
翻訳日:2022-02-08 18:12:12 公開日:2022-02-07
# (参考訳) lednet: 暗いところでの低光度強化とデブラリング [全文訳有]

LEDNet: Joint Low-light Enhancement and Deblurring in the Dark ( http://arxiv.org/abs/2202.03373v1 )

ライセンス: CC BY 4.0
Shangchen Zhou, Chongyi Li, Chen Change Loy(参考訳) 夜間撮影は通常、暗い環境と長時間露光の一般的な使用により、低照度とぼやけた問題の両方に悩まされる。 既存の光増進法や消臭法は個々の問題を個別に扱うことができるが、このような手法のカスケードは、可視性とテクスチャの合同的な劣化に対処するために調和して機能することができない。 低光とぼかしの共存を特徴付けるペアデータがないため、エンドツーエンドネットワークのトレーニングも不可能である。 我々は、現実的な低照度ぼかし劣化をモデル化する新しいデータ合成パイプラインを導入することで、この問題に対処する。 パイプラインでは,低照度強調とデブラリングを併用した最初の大規模データセットを提案する。 データセットであるLOL-Blurは、12,000個の低青色/ノーマルシャープのペアを含み、異なるシナリオでさまざまな暗黒と動きのぼかしを持つ。 さらに,LEDNetという,低照度化と劣化を両立させる有効なネットワークを提案する。 我々のネットワークは、2つの相互接続されたタスク間のシナジーを考慮するよう特別に設計されているため、ユニークなものである。 提案されたデータセットとネットワークは、この困難な共同作業の基礎を提供する。 大規模な実験により,本手法が合成および実世界のデータセットに与える影響を実証した。

Night photography typically suffers from both low light and blurring issues due to the dim environment and the common use of long exposure. While existing light enhancement and deblurring methods could deal with each problem individually, a cascade of such methods cannot work harmoniously to cope well with joint degradation of visibility and textures. Training an end-to-end network is also infeasible as no paired data is available to characterize the coexistence of low light and blurs. We address the problem by introducing a novel data synthesis pipeline that models realistic low-light blurring degradations. With the pipeline, we present the first large-scale dataset for joint low-light enhancement and deblurring. The dataset, LOL-Blur, contains 12,000 low-blur/normal-shar p pairs with diverse darkness and motion blurs in different scenarios. We further present an effective network, named LEDNet, to perform joint low-light enhancement and deblurring. Our network is unique as it is specially designed to consider the synergy between the two inter-connected tasks. Both the proposed dataset and network provide a foundation for this challenging joint task. Extensive experiments demonstrate the effectiveness of our method on both synthetic and real-world datasets.
翻訳日:2022-02-08 18:10:05 公開日:2022-02-07
# 超高分解能リモートセンシング光画像を用いた土地被覆分類のレビュー-解析ユニット, モデル拡張性, 転送性

A Review of Landcover Classification with Very-High Resolution Remotely Sensed Optical Images-Analysis Unit,Model Scalability and Transferability ( http://arxiv.org/abs/2202.03342v1 )

ライセンス: Link先を確認
Rongjun Qin, Tao Liu(参考訳) リモートセンシングにおける重要な応用として、土地被覆分類は超高分解能(vhr)画像解析において最も難しい課題の1つとなっている。 ディープラーニング(DL)に基づく土地被覆手法とトレーニング戦略の急速な増加が最先端であると主張されているため、既に断片化された土地被覆マッピング手法の技術的景観はさらに複雑である。 ランドカバーマッピング手法の知識的選択について研究者を導くための文献レビューが数多く存在するが、本論文は特定の分野におけるアプリケーションのレビューに焦点を当てるか、あるいは一般的なディープラーニングモデルを中心に展開し、今後も進化を続けるランドカバーマッピング手法の体系的な見解を欠いている。 さらに、データ駆動型アプローチが支配する時代には、トレーニングサンプルやモデル転送可能性に関する問題がこれまで以上に重要になっているが、これらの問題は、リモートセンシング分類に関する以前のレビュー記事において、より少ない範囲で対処された。 そこで本稿では,(1)データの空間性と不均衡,(2)地理的領域間のドメインギャップ,(3)マルチソース・マルチビュー融合を含むリモートセンシング分類に焦点を当てた,拡張性と転送可能性の3つの側面に関する課題と解決策を,ランドカバーマッピングタスクの学習方法や基本分析単位から始めることで,既存の手法を体系的に概観する。 本稿では,これらの分類手法のそれぞれを詳細に議論し,これらの展開の結論を導き,継続的な取り組みに向けて潜在的方向性を推奨する。

As an important application in remote sensing, landcover classification remains one of the most challenging tasks in very-high-resolution (VHR) image analysis. As the rapidly increasing number of Deep Learning (DL) based landcover methods and training strategies are claimed to be the state-of-the-art, the already fragmented technical landscape of landcover mapping methods has been further complicated. Although there exists a plethora of literature review work attempting to guide researchers in making an informed choice of landcover mapping methods, the articles either focus on the review of applications in a specific area or revolve around general deep learning models, which lack a systematic view of the ever advancing landcover mapping methods. In addition, issues related to training samples and model transferability have become more critical than ever in an era dominated by data-driven approaches, but these issues were addressed to a lesser extent in previous review articles regarding remote sensing classification. Therefore, in this paper, we present a systematic overview of existing methods by starting from learning methods and varying basic analysis units for landcover mapping tasks, to challenges and solutions on three aspects of scalability and transferability with a remote sensing classification focus including (1) sparsity and imbalance of data; (2) domain gaps across different geographical regions; and (3) multi-source and multi-view fusion. We discuss in detail each of these categorical methods and draw concluding remarks in these developments and recommend potential directions for the continued endeavor.
翻訳日:2022-02-08 17:51:35 公開日:2022-02-07
# 分散多デバイスローカライズのためのロボットweb

A Robot Web for Distributed Many-Device Localisation ( http://arxiv.org/abs/2202.03314v1 )

ライセンス: Link先を確認
Riku Murai, Joseph Ortiz, Sajad Saeedi, Paul H.J. Kelly, and Andrew J. Davison(参考訳) 本稿では,相互に計測を行うロボットなどのデバイスによる分散ネットワークが協調して,効率的なピアツーピア通信を通じてグローバルにローカライズできることを実証する。 我々のロボットウェブソリューションは、ガウシアン・リーフ・プロパゲーションに基づいて、全ての観測ロボットの確率構造を記述した基本的な非線形因子グラフに基づいており、あらゆる種類のロボット、動き、センサーに対して柔軟である。 我々は,Webページなどの非同期通信技術を公開することで実装可能な,シンプルで効率的な通信プロトコルを定義する。 我々は,1000台までのロボットが任意のパターンで対話するシミュレーションにおいて,分散計算と通信の効率を高く保ちながら,集中型非線形因子グラフソルバと同じ精度で大域的精度を達成することを示す。 gbpにおけるロバストな因子を用いることで,センサ測定や通信パケットの落下において高い障害率に耐性を示す。

We show that a distributed network of robots or other devices which make measurements of each other can collaborate to globally localise via efficient ad-hoc peer to peer communication. Our Robot Web solution is based on Gaussian Belief Propagation on the fundamental non-linear factor graph describing the probabilistic structure of all of the observations robots make internally or of each other, and is flexible for any type of robot, motion or sensor. We define a simple and efficient communication protocol which can be implemented by the publishing and reading of web pages or other asynchronous communication technologies. We show in simulations with up to 1000 robots interacting in arbitrary patterns that our solution convergently achieves global accuracy as accurate as a centralised non-linear factor graph solver while operating with high distributed efficiency of computation and communication. Via the use of robust factors in GBP, our method is tolerant to a high percentage of faults in sensor measurements or dropped communication packets.
翻訳日:2022-02-08 17:49:57 公開日:2022-02-07
# hermes:非定常ファッション時系列のための外部信号を含むハイブリッド誤り訂正モデル

HERMES: Hybrid Error-corrector Model with inclusion of External Signals for nonstationary fashion time series ( http://arxiv.org/abs/2202.03224v1 )

ライセンス: Link先を確認
David Etienne (TIPIC-SAMOVAR), Jean Bellot, Sylvain Le Corff (IP Paris)(参考訳) 時系列の因果推論を描くモデルやアルゴリズムの開発は、長年の統計問題である。 多くのアプリケーション、特にファッションや小売業において、最適な在庫決定を行い、大量の廃棄物を避けることが不可欠である。 最先端のコンピュータビジョンアプローチを用いてソーシャルメディア上で数千のファッショントレンドを追跡することにより、ファッション時系列予測の新しいモデルを提案する。 私たちの貢献は2倍です。 まず、週1万のファッション時系列を収集した最初のファッションデータセットを公開します。 インフルエンスダイナミクスがトレンド検出の鍵となるため,インフルエンサーの行動を表す外部弱いシグナルを時系列毎に関連付ける。 次に,このような複雑でリッチなデータセットを活用するために,新しいハイブリッド予測モデルを提案する。 提案手法では,時系列パラメトリックモデルと季節成分と,散発的な外部信号を含むグローバルリカレントニューラルネットワークを組み合わせる。 このハイブリッドモデルは、提案したファッションデータセット、M4コンペティション \cite{makridakis2018m4} の週次時系列、および外部弱信号の寄与の利点を示す。

Developing models and algorithms to draw causal inference for time series is a long standing statistical problem. It is crucial for many applications, in particular for fashion or retail industries, to make optimal inventory decisions and avoid massive wastes. By tracking thousands of fashion trends on social media with state-of-the-art computer vision approaches, we propose a new model for fashion time series forecasting. Our contribution is twofold. We first provide publicly the first fashion dataset gathering 10000 weekly fashion time series. As influence dynamics are the key of emerging trend detection, we associate with each time series an external weak signal representing behaviors of influencers. Secondly, to leverage such a complex and rich dataset, we propose a new hybrid forecasting model. Our approach combines per-time-series parametric models with seasonal components and a global recurrent neural network to include sporadic external signals. This hybrid model provides state-of-the-art results on the proposed fashion dataset, on the weekly time series of the M4 competition \cite{makridakis2018m4}, and illustrates the benefit of the contribution of external weak signals.
翻訳日:2022-02-08 17:49:23 公開日:2022-02-07
# 列と列の確率重み付き有向グラフ上の分散低減確率最適化

Variance reduced stochastic optimization over directed graphs with row and column stochastic weights ( http://arxiv.org/abs/2202.03346v1 )

ライセンス: Link先を確認
Muhammad I. Qureshi, Ran Xin, Soummya Kar, Usman A. Khan(参考訳) 本稿では,任意の有向グラフ上に分布する滑らかかつ強凸関数の有限和を最小化する一階分散確率最適化法 ab-saga を提案する。 AB-SAGAは、ノードレベルの分散還元を用いて確率勾配に起因する不確実性を除去し、その後、ノード間のデータ差に対処するためにネットワークレベルの勾配追跡を用いる。 有向通信による不均衡を解消するために非線形プッシュサム補正を用いる既存の方法とは異なり、AB-SAGAのコンセンサス更新は線形であり、行および列確率重みの両方を使用する。 一定のステップサイズでは、AB-SAGAは大域的最適値に線形収束することを示す。 我々は,AB-SAGAが中央集権的なグラフよりも直線的なスピードアップを達成する条件を,明示的な指向性定数を用いて定量化する。 数値実験は、強い凸問題と非凸問題に対するAB-SAGAの収束を示す。

This paper proposes AB-SAGA, a first-order distributed stochastic optimization method to minimize a finite-sum of smooth and strongly convex functions distributed over an arbitrary directed graph. AB-SAGA removes the uncertainty caused by the stochastic gradients using a node-level variance reduction and subsequently employs network-level gradient tracking to address the data dissimilarity across the nodes. Unlike existing methods that use the nonlinear push-sum correction to cancel the imbalance caused by the directed communication, the consensus updates in AB-SAGA are linear and uses both row and column stochastic weights. We show that for a constant step-size, AB-SAGA converges linearly to the global optimal. We quantify the directed nature of the underlying graph using an explicit directivity constant and characterize the regimes in which AB-SAGA achieves a linear speed-up over its centralized counterpart. Numerical experiments illustrate the convergence of AB-SAGA for strongly convex and nonconvex problems.
翻訳日:2022-02-08 17:49:02 公開日:2022-02-07
# (参考訳) シームズ表現学習のためのコントラスト的視点の創造 [全文訳有]

Crafting Better Contrastive Views for Siamese Representation Learning ( http://arxiv.org/abs/2202.03278v1 )

ライセンス: CC BY 4.0
Xiangyu Peng, Kai Wang, Zheng Zhu, Yang You(参考訳) 最近の自己指導型コントラスト学習手法は, 正の対間の距離を最小化することを目的とした, シームズ構造から大きな恩恵を受けている。 ハイパフォーマンスなシャム表現学習の鍵の一つは、良いコントラストペアを設計することである。 以前の作品の多くは、同じ画像の異なる作物を作るためにランダムサンプリングを適用しており、ビューの質を損なう可能性のある意味情報を見逃している。 本研究では,シームズ表現学習のためのより良い作物を効果的に生成できるContrastiveCropを提案する。 まず, 学習過程において, 完全に教師なしの方法で意味認識型オブジェクトローカライズ戦略を提案する。 これにより、ほとんどの偽陽性(オブジェクト対バックグラウンド)を避けることができる対照的なビューを生成することができます。 さらに、類似した外観の視点は、シームズモデルのトレーニングでは自明である。 これにより、作物のばらつきを増大させるために、中心抑制サンプリングがさらに設計される。 驚くべきことに,本手法では,過剰なトレーニングオーバヘッドを持つコントラスト学習のための正のペアを慎重に検討する。 ContrastiveCropはプラグインとフレームワークに依存しないモジュールとして、CIFAR-10、CIFAR-100、Tiny ImageNet、STL-10におけるSimCLR、MoCo、BYOL、SimSiamの分類精度を0.4%以上改善している。 ImageNet-1Kで事前トレーニングされた場合、下流検出やセグメンテーションタスクでも上位結果が達成される。

Recent self-supervised contrastive learning methods greatly benefit from the Siamese structure that aims at minimizing distances between positive pairs. For high performance Siamese representation learning, one of the keys is to design good contrastive pairs. Most previous works simply apply random sampling to make different crops of the same image, which overlooks the semantic information that may degrade the quality of views. In this work, we propose ContrastiveCrop, which could effectively generate better crops for Siamese representation learning. Firstly, a semantic-aware object localization strategy is proposed within the training process in a fully unsupervised manner. This guides us to generate contrastive views which could avoid most false positives (i.e., object vs. background). Moreover, we empirically find that views with similar appearances are trivial for the Siamese model training. Thus, a center-suppressed sampling is further designed to enlarge the variance of crops. Remarkably, our method takes a careful consideration of positive pairs for contrastive learning with negligible extra training overhead. As a plug-and-play and framework-agnostic module, ContrastiveCrop consistently improves SimCLR, MoCo, BYOL, SimSiam by 0.4% ~ 2.0% classification accuracy on CIFAR-10, CIFAR-100, Tiny ImageNet and STL-10. Superior results are also achieved on downstream detection and segmentation tasks when pre-trained on ImageNet-1K.
翻訳日:2022-02-08 17:44:10 公開日:2022-02-07
# マルチラベル視覚意味埋め込みモデルによるマイクロビデオサムネイル選択に向けて

Towards Micro-video Thumbnail Selection via a Multi-label Visual-semantic Embedding Model ( http://arxiv.org/abs/2202.02930v1 )

ライセンス: Link先を確認
Liu Bo(参考訳) サムネイルは、マイクロビデオの初見であり、ユーザーがクリックして視聴する際の重要な役割を担っている。 実際のシナリオでは、サムネイルがユーザーを満足させるほど、マイクロビデオがクリックされる可能性が高まる。 本稿では,ほとんどのユーザの興味を満たしたマイクロビデオのサムネイルを選択することを目的とする。 そこで本研究では,各フレームの対とユーザが興味を持つ話題との類似度を推定するために,マルチラベルのビジュアル・セマンティクス埋め込みモデルを提案する。 このモデルでは、視覚的およびテキスト的情報を共有意味空間に埋め込んで、その類似性を直接測定することができる。 さらに,このフレームを一般的な話題のすべての単語と比較するために,意味的意図の投影に関連する注意埋め込み空間を考案した。 これら2つの埋め込み空間の助けを借りて、対応する視覚情報と人気のある話題ペアの類似度スコアの和で定義されるフレームの人気スコアが達成される。 最終的に、各フレームの視覚的表現スコアと人気スコアを融合して、与えられたマイクロビデオの魅力的なサムネイルを選択する。 実世界のデータセットで行った広範囲な実験は、我々のモデルがいくつかの最先端のベースラインを大きく上回っていることをよく証明した。

The thumbnail, as the first sight of a micro-video, plays a pivotal role in attracting users to click and watch. While in the real scenario, the more the thumbnails satisfy the users, the more likely the micro-videos will be clicked. In this paper, we aim to select the thumbnail of a given micro-video that meets most users` interests. Towards this end, we present a multi-label visual-semantic embedding model to estimate the similarity between the pair of each frame and the popular topics that users are interested in. In this model, the visual and textual information is embedded into a shared semantic space, whereby the similarity can be measured directly, even the unseen words. Moreover, to compare the frame to all words from the popular topics, we devise an attention embedding space associated with the semantic-attention projection. With the help of these two embedding spaces, the popularity score of a frame, which is defined by the sum of similarity scores over the corresponding visual information and popular topic pairs, is achieved. Ultimately, we fuse the visual representation score and the popularity score of each frame to select the attractive thumbnail for the given micro-video. Extensive experiments conducted on a real-world dataset have well-verified that our model significantly outperforms several state-of-the-art baselines.
翻訳日:2022-02-08 17:26:12 公開日:2022-02-07
# ハイパースペクトルアンミックスのための深部決定論的独立成分分析

Deep Deterministic Independent Component Analysis for Hyperspectral Unmixing ( http://arxiv.org/abs/2202.02951v1 )

ライセンス: Link先を確認
Hongming Li, Shujian Yu, Jose C. Principe(参考訳) 抽出した成分間の依存性を直接最小化することにより,ニューラルネットワークに基づく独立成分分析(ICA)手法を開発した。 行列ベースの r{\'e}nyi の $\alpha$-order entropy functional を使って、ネットワークは変分近似や逆のトレーニングなしに確率勾配降下 (sgd) によって直接最適化することができる。 強固な応用として,超スペクトルアンミックス問題(hu)におけるicaを評価し,-\cite{nascimento2005does} によって最初に示唆された "\emph{ica は超スペクトルデータのアンミックスにおいて役割を果たさない" という主張を反論する。 DDICAのコードと追加のコメントはhttps://github.com/h ongmingli1995/DDICA. orgで公開されている。

We develop a new neural network based independent component analysis (ICA) method by directly minimizing the dependence amongst all extracted components. Using the matrix-based R{\'e}nyi's $\alpha$-order entropy functional, our network can be directly optimized by stochastic gradient descent (SGD), without any variational approximation or adversarial training. As a solid application, we evaluate our ICA in the problem of hyperspectral unmixing (HU) and refute a statement that "\emph{ICA does not play a role in unmixing hyperspectral data}", which was initially suggested by~\cite{nascimento2005does}. Code and additional remarks of our DDICA is available at https://github.com/h ongmingli1995/DDICA.
翻訳日:2022-02-08 17:25:49 公開日:2022-02-07
# 砂塵画像再構成のための総合ベンチマーク解析

A comprehensive benchmark analysis for sand dust image reconstruction ( http://arxiv.org/abs/2202.03031v1 )

ライセンス: Link先を確認
Yazhong Si, Fan Yang, Ya Guo, Wei Zhang and Yipu Yang(参考訳) 近年,多くの砂塵画像強調アルゴリズムが提案されている。 しかし,ほとんどの手法は,インターネットから選択した実世界の画像を用いて,非参照方式で性能を評価した。 アルゴリズムのパフォーマンスを教師ありの方法で定量的に分析する方法や、この分野の進捗を計測する方法は明らかでない。 さらに、大規模なベンチマークデータセットがないため、これまで砂塵画像強調のためのデータ駆動型手法の報告は知られていない。 アルゴリズム性能の教師付き客観的評価を可能にしつつ、砂塵画像再構成のためのディープラーニングアルゴリズムの開発を進める。 本稿では,実世界の砂塵画像の総合的な知覚研究と解析を行い,畳み込みニューラルネットワーク(cnns)の訓練とアルゴリズム性能評価のための砂塵画像再構成ベンチマーク(sirb)を構築した。 さらに、SIRBをベースラインとしてトレーニングした既存の画像変換ニューラルネットワークを採用し、CNNのトレーニングのためのSIRBの一般化について説明した。 最後に,砂塵画像再構成の今後の研究に光を当てたSOTA(State-of-the-ar ts)の性能と限界を明らかにするために,定性的かつ定量的な評価を行った。

Numerous sand dust image enhancement algorithms have been proposed in recent years. To our best acknowledge, however, most methods evaluated their performance with no-reference way using few selected real-world images from internet. It is unclear how to quantitatively analysis the performance of the algorithms in a supervised way and how we could gauge the progress in the field. Moreover, due to the absence of large-scale benchmark datasets, there are no well-known reports of data-driven based method for sand dust image enhancement up till now. To advance the development of deep learning-based algorithms for sand dust image reconstruction, while enabling supervised objective evaluation of algorithm performance. In this paper, we presented a comprehensive perceptual study and analysis of real-world sand dust images, then constructed a Sand-dust Image Reconstruction Benchmark (SIRB) for training Convolutional Neural Networks (CNNs) and evaluating algorithms performance. In addition, we adopted the existing image transformation neural network trained on SIRB as baseline to illustrate the generalization of SIRB for training CNNs. Finally, we conducted the qualitative and quantitative evaluation to demonstrate the performance and limitations of the state-of-the-arts (SOTA), which shed light on future research in sand dust image reconstruction.
翻訳日:2022-02-08 17:25:34 公開日:2022-02-07
# 360度映像符号化におけるモーションプレーン適応干渉予測

Motion-Plane-Adaptiv e Inter Prediction in 360-Degree Video Coding ( http://arxiv.org/abs/2202.03323v1 )

ライセンス: Link先を確認
Andy Regensky, Christian Herglotz, Andr\'e Kaup(参考訳) インター予測は、現代のビデオコーディング標準の高圧縮効率を実現する重要な技術の1つである。 360度ビデオは、既存のビデオコーディング標準による圧縮を可能にするために、コーディングの前に2D画像プレーンにマッピングする必要がある。 しかし、球面データを2次元画像平面にマッピングする際に必然的に発生する歪みは、古典的相互予測技術の性能を損なう。 本稿では,360度映像の球面特性を考慮した360度映像に対する動き面適応型相互予測手法(mpa)を提案する。 ビデオの既知の射影形式に基づいて、mpaは3d空間内の異なる動き平面上で、任意のマッピングされた2d画像表現を直接行うのではなく、相互に予測することができる。 さらに,動き面適応運動ベクトル予測手法(mpa-mvp)を導出し,異なる動き面と動きモデル間の動き情報を翻訳する。 我々の提案したMPA-MVPと最先端のH.266/VVCビデオ符号化標準の統合により,PSNRベースで3.97%,WS-PSNRベースで1.56%,VTM-14.2ベースラインで3.40%,Bjontegaardデルタレートで1.72%の大幅な削減が可能となった。

Inter prediction is one of the key technologies enabling the high compression efficiency of modern video coding standards. 360-degree video needs to be mapped to the 2D image plane prior to coding in order to allow compression using existing video coding standards. The distortions that inevitably occur when mapping spherical data onto the 2D image plane, however, impair the performance of classical inter prediction techniques. In this paper, we propose a motion-plane-adaptiv e inter prediction technique (MPA) for 360-degree video that takes the spherical characteristics of 360-degree video into account. Based on the known projection format of the video, MPA allows to perform inter prediction on different motion planes in 3D space instead of having to work on the - in theory arbitrarily mapped - 2D image representation directly. We furthermore derive a motion-plane-adaptiv e motion vector prediction technique (MPA-MVP) that allows to translate motion information between different motion planes and motion models. Our proposed integration of MPA together with MPA-MVP into the state-of-the-art H.266/VVC video coding standard shows significant Bjontegaard Delta rate savings of 1.72% with a peak of 3.97% based on PSNR and 1.56% with a peak of 3.40% based on WS-PSNR compared to the VTM-14.2 baseline on average.
翻訳日:2022-02-08 17:25:14 公開日:2022-02-07
# (参考訳) 分布ガウス過程のアンサンブル法としてのガウス図形モデル [全文訳有]

Gaussian Graphical Models as an Ensemble Method for Distributed Gaussian Processes ( http://arxiv.org/abs/2202.03287v1 )

ライセンス: CC BY 4.0
Hamed Jalali, Gjergji Kasneci(参考訳) 分散ガウス過程(DGP)はGPをビッグデータにスケールする一般的な手法であり、トレーニングデータをいくつかのサブセットに分割し、各パーティションに対して局所的な推論を行い、その結果を集約してグローバルな予測を得る。 局所的な予測を組み合わせるために、条件付き独立仮定が使用され、基本的にはサブセット間に完全な多様性が存在することを意味する。 アグリゲーションは扱いやすいが、実際にはしばしば違反し、一般的には結果に乏しい。 本稿では,ガウス的専門家の予測をガウス的グラフィカルモデル(ggm)によって集約する新しい手法を提案する。 まず,期待最大化(em)アルゴリズムを用いて潜在変数と観測変数の合同分布を推定する。 専門家間の相互作用は結合分布の精度行列によって符号化することができ、条件付きガウス分布の性質に基づいて集約された予測が得られる。 合成データと実データの両方を用いて,本手法が他の最先端DGP手法より優れていることを示す。

Distributed Gaussian process (DGP) is a popular approach to scale GP to big data which divides the training data into some subsets, performs local inference for each partition, and aggregates the results to acquire global prediction. To combine the local predictions, the conditional independence assumption is used which basically means there is a perfect diversity between the subsets. Although it keeps the aggregation tractable, it is often violated in practice and generally yields poor results. In this paper, we propose a novel approach for aggregating the Gaussian experts' predictions by Gaussian graphical model (GGM) where the target aggregation is defined as an unobserved latent variable and the local predictions are the observed variables. We first estimate the joint distribution of latent and observed variables using the Expectation-Maximiza tion (EM) algorithm. The interaction between experts can be encoded by the precision matrix of the joint distribution and the aggregated predictions are obtained based on the property of conditional Gaussian distribution. Using both synthetic and real datasets, our experimental evaluations illustrate that our new method outperforms other state-of-the-art DGP approaches.
翻訳日:2022-02-08 17:23:42 公開日:2022-02-07
# 事前学習したタンパク質モデルへの即効性コンフォメーション注入

Prompt-Guided Injection of Conformation to Pre-trained Protein Model ( http://arxiv.org/abs/2202.02944v1 )

ライセンス: Link先を確認
Qiang Zhang, Zeyuan Wang, Yuqiang Han, Haoran Yu, Xurui Jin, Huajun Chen(参考訳) 事前訓練されたタンパク質モデル(PTPM)は1つの固定された埋め込みを持つタンパク質を表しており、多様なタスクをこなすことができない。 例えば、タンパク質の構造は、様々な生物学的過程におけるいくつかのコンフォメーション、すなわちタンパク質の折りたたみによって変化する。 PTPMがタスク認識表現を作成できるように,PTPMにタスク関連知識を注入する方法として,解釈可能な,プラグブルで拡張可能なタンパク質プロンプトを学習することを提案する。 この点において、マスキング言語モデリングタスクによる事前ptpm最適化は、アミノ酸間のシーケンシャルな依存性をptpmがキャプチャできるシーケンスプロンプト(seqプロンプト)の学習と解釈することができる。 コンフォメーション知識をptpmsに組み込むために,タンパク質間相互作用タスクとバックプロパゲーションによって学習される相互作用コンフォーメーションプロンプト(icプロンプト)を提案する。 インスタンス化として、マルチタスク環境でシーケンスと相互作用変換のプロンプトを学習するコンフォーメーション対応事前学習タンパク質モデルを提案する。 9つのタンパク質データセットに関する総合的な実験を行った。 その結果,シーケンシャルプロンプトはシーケンシャルなタスクにおけるptpmsの性能を損なうことはないが,インタラクション・コンフォーメーション・プロンプトはコンフォーメーション的知識がカウントされるタスクにおけるptpmsの性能を大幅に向上させることが示唆された。 また、学習したプロンプトを組み合わせることで、新しい複雑なタスクに対処できることを示す。

Pre-trained protein models (PTPMs) represent a protein with one fixed embedding and thus are not capable for diverse tasks. For example, protein structures can shift, namely protein folding, between several conformations in various biological processes. To enable PTPMs to produce task-aware representations, we propose to learn interpretable, pluggable and extensible protein prompts as a way of injecting task-related knowledge into PTPMs. In this regard, prior PTPM optimization with the masked language modeling task can be interpreted as learning a sequence prompt (Seq prompt) that enables PTPMs to capture the sequential dependency between amino acids. To incorporate conformational knowledge to PTPMs, we propose an interaction-conforma tion prompt (IC prompt) that is learned through back-propagation with the protein-protein interaction task. As an instantiation, we present a conformation-aware pre-trained protein model that learns both sequence and interaction-conforma tion prompts in a multi-task setting. We conduct comprehensive experiments on nine protein datasets. Results confirm our expectation that using the sequence prompt does not hurt PTPMs' performance on sequence-related tasks while incorporating the interaction-conforma tion prompt significantly improves PTPMs' performance on tasks where conformational knowledge counts. We also show the learned prompts can be combined and extended to deal with new complex tasks.
翻訳日:2022-02-08 17:09:50 公開日:2022-02-07
# (参考訳) ニューラルネットワークプルーニングにおけるメンバーシップ推論攻撃と防御

Membership Inference Attacks and Defenses in Neural Network Pruning ( http://arxiv.org/abs/2202.03335v1 )

ライセンス: CC BY 4.0
Xiaoyong Yuan, Lan Zhang(参考訳) ニューラルネットワークのプルーニングは、リソースに制約のあるデバイスにディープニューラルネットワークを使用するための計算とメモリ要件を削減するために不可欠な技術である。 既存の研究のほとんどは、重要なパラメータを戦略的に除去し、プルーンドモデルを再訓練することで、プルーンドニューラルネットワークの空間性と精度のバランスに重点を置いている。 このようなトレーニングサンプルの再利用は、記憶の増大によるプライバシー上の重大なリスクをもたらすが、まだ調査されていない。 本稿では,ニューラルネットワークのプルーニングにおいて,プライバシリスクに関する最初の分析を行う。 具体的には,ニューラルネットワークプルーニングがデータプライバシのトレーニング,すなわちメンバシップ推論攻撃に与える影響について検討する。 まず, 予測発散に対するニューラルネットワークプルーニングの影響について検討し, プルーニングプロセスがメンバや非メンバに対するプルーニングモデルの振る舞いに不釣り合いに影響を及ぼす場合について検討した。 一方,分岐の影響は,細粒度で異なるクラスによっても変化する。 このようなばらつきに悟り、我々はプルーンドニューラルネットワークに対する自己注意型メンバーシップ推論攻撃を提案した。 異なるプルーニングアプローチ、疎度レベル、および敵対的知識のプライバシーへの影響を厳格に評価するために、広範囲にわたる実験が行われた。 提案攻撃は,既存の8つのメンバーシップ推論攻撃と比較して,プルーンドモデルに対する高い攻撃性能を示す。 さらに,KL偏差距離に基づく予測偏差を緩和し,プライバシリスクを効果的に軽減し,プルーニングプロセスを保護するための新しい防御機構を提案する。

Neural network pruning has been an essential technique to reduce the computation and memory requirements for using deep neural networks for resource-constrained devices. Most existing research focuses primarily on balancing the sparsity and accuracy of a pruned neural network by strategically removing insignificant parameters and retraining the pruned model. Such efforts on reusing training samples pose serious privacy risks due to increased memorization, which, however, has not been investigated yet. In this paper, we conduct the first analysis of privacy risks in neural network pruning. Specifically, we investigate the impacts of neural network pruning on training data privacy, i.e., membership inference attacks. We first explore the impact of neural network pruning on prediction divergence, where the pruning process disproportionately affects the pruned model's behavior for members and non-members. Meanwhile, the influence of divergence even varies among different classes in a fine-grained manner. Enlighten by such divergence, we proposed a self-attention membership inference attack against the pruned neural networks. Extensive experiments are conducted to rigorously evaluate the privacy impacts of different pruning approaches, sparsity levels, and adversary knowledge. The proposed attack shows the higher attack performance on the pruned models when compared with eight existing membership inference attacks. In addition, we propose a new defense mechanism to protect the pruning process by mitigating the prediction divergence based on KL-divergence distance, whose effectiveness has been experimentally demonstrated to effectively mitigate the privacy risks while maintaining the sparsity and accuracy of the pruned models.
翻訳日:2022-02-08 17:07:58 公開日:2022-02-07
# 信頼度誘導奥行き完了ネットワーク

Confidence Guided Depth Completion Network ( http://arxiv.org/abs/2202.03257v1 )

ライセンス: Link先を確認
Yongjin Lee, Seokjun Park, Beomgu Kang, Hyunwook Park(参考訳) 高速な計算時間で高精度な深度マップを推定する画像誘導深度補完法を提案する。 提案するネットワークは2段階構造である。 第1段は第1深度マップを予測する。 そして、第2段はさらに信頼マップを用いて第1深度マップを洗練する。 第2段階は2つの層で構成され、それぞれ異なる領域に焦点を当て、洗練された深度マップと信頼マップを生成する。 最終深度マップは、対応する信頼度マップを用いて、2段目から2つの深度マップを組み合わせることで得られる。 kitti depth completion online leaderboardの上位モデルと比較すると、提案モデルの方が計算時間と競合性能がはるかに速い。

The paper proposes an image-guided depth completion method to estimate accurate dense depth maps with fast computation time. The proposed network has two-stage structure. The first stage predicts a first depth map. Then, the second stage further refines the first depth map using the confidence maps. The second stage consists of two layers, each of which focuses on different regions and generates a refined depth map and a confidence map. The final depth map is obtained by combining two depth maps from the second stage using the corresponding confidence maps. Compared with the top-ranked models on the KITTI depth completion online leaderboard, the proposed model shows much faster computation time and competitive performance.
翻訳日:2022-02-08 17:06:12 公開日:2022-02-07
# CZU-MHAD:深度カメラと10個のウェアラブル慣性センサーを用いた人間の行動認識のためのマルチモーダルデータセット

CZU-MHAD: A multimodal dataset for human action recognition utilizing a depth camera and 10 wearable inertial sensors ( http://arxiv.org/abs/2202.03283v1 )

ライセンス: Link先を確認
Xin Chao, Zhenjie Hou, Yujian Mo(参考訳) 人間の行動認識は多くの分野で広く使われており、同時に多くの人間の行動データセットが公開された。 しかし、マルチモーダルデータベースの多くは、動作機能を完全に表現できない、レイアウトやセンサーの数にいくつかの欠点がある。 そこで本研究では,CZU-MHAD (Changzhou University: a comprehensive multi-modal human action dataset) という,無償で利用可能なデータセットを提案する。 22のアクションと3つのモーダルの時間同期データからなる。 これらのモードには、kinect v2カメラからの深度ビデオとスケルトン位置、および10個のウェアラブルセンサーからの慣性信号が含まれる。 単一のモダルセンサと比較して、マルチモダルセンサは異なるモダルデータを収集できるため、マルチモダルセンサを使用することで、より正確な動作を記述できる。 また、czu-mhadは慣性センサを結合して10個の主動作関節の3軸加速度と3軸角速度を求め、同時に観測した。 実験結果は,マルチモーダルセンサデータを含む融合アプローチを行う際に,人体の異なる部位間の構造的関係を研究するために,このデータセットが有効であることを示す。

Human action recognition has been widely used in many fields of life, and many human action datasets have been published at the same time. However, most of the multi-modal databases have some shortcomings in the layout and number of sensors, which cannot fully represent the action features. Regarding the problems, this paper proposes a freely available dataset, named CZU-MHAD (Changzhou University: a comprehensive multi-modal human action dataset). It consists of 22 actions and three modals temporal synchronized data. These modals include depth videos and skeleton positions from a kinect v2 camera, and inertial signals from 10 wearable sensors. Compared with single modal sensors, multi-modal sensors can collect different modal data, so the use of multi-modal sensors can describe actions more accurately. Moreover, CZU-MHAD obtains the 3-axis acceleration and 3-axis angular velocity of 10 main motion joints by binding inertial sensors to them, and these data were captured at the same time. Experimental results are provided to show that this dataset can be used to study structural relationships between different parts of the human body when performing actions and fusion approaches that involve multi-modal sensor data.
翻訳日:2022-02-08 17:06:00 公開日:2022-02-07
# 故障時のポイントクラウド分類のベンチマークと解析

Benchmarking and Analyzing Point Cloud Classification under Corruptions ( http://arxiv.org/abs/2202.03377v1 )

ライセンス: Link先を確認
Jiawei Ren and Liang Pan and Ziwei Liu(参考訳) 3D知覚、特にポイントクラウド分類は、かなりの進歩を遂げた。 しかし、現実のデプロイメントでは、シーンの複雑さ、センサーの不正確性、処理の不正確さのため、ポイントクラウドの破損は避けられない。 本研究では,汚職下でのポイントクラウド分類を厳格にベンチマークし,分析することを目的とする。 体系的な調査を行うため,我々はまず,共通の3次元腐敗の分類と原子崩壊の同定を行う。 そこで我々は,その堅牢性と一般化性を理解するために,幅広い代表点クラウドモデルに関する総合評価を行った。 ベンチマークの結果,ポイントクラウドの分類性能は時間とともに向上するが,最先端の手法では堅牢性が低下する可能性が示唆された。 得られた観測結果に基づき,点雲分類器のロバスト性を高めるためのいくつかの効果的な手法を提案する。 包括的なベンチマーク、詳細な分析、そして提案手法が将来の堅牢な3D知覚研究のきっかけになることを願っている。

3D perception, especially point cloud classification, has achieved substantial progress. However, in real-world deployment, point cloud corruptions are inevitable due to the scene complexity, sensor inaccuracy, and processing imprecision. In this work, we aim to rigorously benchmark and analyze point cloud classification under corruptions. To conduct a systematic investigation, we first provide a taxonomy of common 3D corruptions and identify the atomic corruptions. Then, we perform a comprehensive evaluation on a wide range of representative point cloud models to understand their robustness and generalizability. Our benchmark results show that although point cloud classification performance improves over time, the state-of-the-art methods are on the verge of being less robust. Based on the obtained observations, we propose several effective techniques to enhance point cloud classifier robustness. We hope our comprehensive benchmark, in-depth analysis, and proposed techniques could spark future research in robust 3D perception.
翻訳日:2022-02-08 17:05:38 公開日:2022-02-07
# 政治の媒介的パーソナライゼーションにおけるジェンダーステレオタイプ--語彙・構文・感情分析による実証的証拠

Gender stereotypes in the mediated personalization of politics: Empirical evidence from a lexical, syntactic and sentiment analysis ( http://arxiv.org/abs/2202.03083v1 )

ライセンス: Link先を確認
Emanuele Brugnoli, Rosaria Simone, Marco Delmastro(参考訳) 有名で重要な個人の個人的領域に対するメディアの注目は、ジェンダー物語の重要な要素となっている。 ここでは,2017~2020年のイタリアにおける幅広い政治職のパーソナライゼーションにおけるジェンダーの役割を検討するために,語彙的,構文的,感情的分析を組み合わせる。 代表記事とニュース記事の両方における男女不均衡を考慮に入れた単語のスコアに基づいて,イタリアにおける政治的パーソナライゼーションは,男性よりも女性にとって有害であり,リーダーシップの男性的含意,結果として生じる女性の政治的機能保持の不適切さ,魅力と身体的部分への注目度が高まること,など,定着したステレオタイプが持続していることを示す。 また、女性政治家は、個人的詳細が報告された場合、男性よりもネガティブなトーンで扱われる。 さらに、観察された性別の違いに対する大きな貢献は、印刷ニュースよりもオンラインニュースによるものであり、クリックベイティングや個人的ターゲティングにおいて、特定のステレオタイプの発現がより良く伝達される可能性があることを示唆している。

The media attention to the personal sphere of famous and important individuals has become a key element of the gender narrative. Here we combine lexical, syntactic and sentiment analysis to investigate the role of gender in the personalization of a wide range of political office holders in Italy during the period 2017-2020. On the basis of a score for words that is introduced to account for gender unbalance in both representative and news coverage, we show that the political personalization in Italy is more detrimental for women than men, with the persistence of entrenched stereotypes including a masculine connotation of leadership, the resulting women's unsuitability to hold political functions, and a greater deal of focus on their attractiveness and body parts. In addition, women politicians are covered with a more negative tone than their men counterpart when personal details are reported. Further, the major contribution to the observed gender differences comes from online news rather than print news, suggesting that the expression of certain stereotypes may be better conveyed when click baiting and personal targeting have a major impact.
翻訳日:2022-02-08 17:05:22 公開日:2022-02-07
# 正規化を用いたモデルベースオフラインメタ強化学習

Model-Based Offline Meta-Reinforcement Learning with Regularization ( http://arxiv.org/abs/2202.02929v1 )

ライセンス: Link先を確認
Sen Lin, Jialin Wan, Tengyu Xu, Yingbin Liang, Junshan Zhang(参考訳) 既存のオフライン強化学習(RL)手法は,特に学習方針と行動方針の分散的変化など,いくつかの大きな課題に直面している。 オフラインのメタRLはこれらの課題に対処するための有望なアプローチとして現れており、タスクの集合から情報的なメタ政治を学ぶことを目指している。 それにもかかわらず、我々の経験的な研究で示されるように、オフラインのメタrlは、オフラインのシングルタスクrlメソッドによって、データセットの品質の高いタスクよりも優れており、適切なバランスは、メタポリシーに従って、オフラインのデータセットを動作ポリシーに近づけることで、分散状態の"探索"と"探索"の間に微妙に調整する必要があることを示している。 このような経験的分析により,効率的なタスク構造推論のためのメタモデルと,アウト・オブ・ディストリビューション状態の安全な探索のための情報的メタ政治を学習する,正規化ポリシ最適化(MerPO)を用いたモデルベースオフラインメタRLを探索する。 特に、保守的な政策評価と規則化された政策改善を用いて、merpoの重要な構成要素として、タスク内政策最適化のための新しいメタレギュラライズモデルに基づくアクタ-クリティック(rac)手法を考案し、その内在的なトレードオフは、行動ポリシーに基づくものとメタポリシーに基づく2つのレギュラライザ間の適切なバランスを取ることによって達成される。 理論的には、学習ポリシーは行動ポリシーとメタ政治の両方に対して保証された改善を提供するので、オフラインのメタRLによる新しいタスクの性能改善が保証される。 実験は、既存のオフラインのMeta-RLメソッドよりもMerPOの優れたパフォーマンスを裏付ける。

Existing offline reinforcement learning (RL) methods face a few major challenges, particularly the distributional shift between the learned policy and the behavior policy. Offline Meta-RL is emerging as a promising approach to address these challenges, aiming to learn an informative meta-policy from a collection of tasks. Nevertheless, as shown in our empirical studies, offline Meta-RL could be outperformed by offline single-task RL methods on tasks with good quality of datasets, indicating that a right balance has to be delicately calibrated between "exploring" the out-of-distribution state-actions by following the meta-policy and "exploiting" the offline dataset by staying close to the behavior policy. Motivated by such empirical analysis, we explore model-based offline Meta-RL with regularized Policy Optimization (MerPO), which learns a meta-model for efficient task structure inference and an informative meta-policy for safe exploration of out-of-distribution state-actions. In particular, we devise a new meta-Regularized model-based Actor-Critic (RAC) method for within-task policy optimization, as a key building block of MerPO, using conservative policy evaluation and regularized policy improvement; and the intrinsic tradeoff therein is achieved via striking the right balance between two regularizers, one based on the behavior policy and the other on the meta-policy. We theoretically show that the learnt policy offers guaranteed improvement over both the behavior policy and the meta-policy, thus ensuring the performance improvement on new tasks via offline Meta-RL. Experiments corroborate the superior performance of MerPO over existing offline Meta-RL methods.
翻訳日:2022-02-08 17:01:26 公開日:2022-02-07
# TRGP:連続学習のための信頼領域勾配予測

TRGP: Trust Region Gradient Projection for Continual Learning ( http://arxiv.org/abs/2202.02931v1 )

ライセンス: Link先を確認
Sen Lin, Li Yang, Deliang Fan, Junshan Zhang(参考訳) 破滅的な忘れは継続的な学習における大きな課題の1つだ。 この問題に対処するため、既存の手法では、古いタスクへの干渉を最小限に抑えるために、新しいタスクの最適化空間に制限を設けている。 しかし、これは特に新しいタスクが古いタスクと強く相関している場合、新しいタスクに不満足なパフォーマンスをもたらす可能性がある。 この課題に対処するために,タスク相関の効率的な評価に基づくフォワード知識伝達を容易にするために,連続学習のための信頼領域勾配投影(TRGP)を提案する。 特に,タスク入力によって分散された部分空間への勾配投影のノルムを用いて,新しいタスクの最も関連性の高い古いタスクを階層的かつ単発的に選択する「トラスト領域」の概念を導入する。 次に,信頼領域において選択された古いタスクの凍った重みを層状スケーリングマトリクスを介して巧みに再利用するために,スケールドウェイトプロジェクションを提案する。 従来のタスクのサブ空間に直交する方向に沿ってモデルが更新されるスケーリング行列とモデルを協調的に最適化することにより、TRGPは忘れずに効果的に知識伝達を促進できる。 広範な実験により,本手法は関連する最先端手法よりも大幅に改善できることが示された。

Catastrophic forgetting is one of the major challenges in continual learning. To address this issue, some existing methods put restrictive constraints on the optimization space of the new task for minimizing the interference to old tasks. However, this may lead to unsatisfactory performance for the new task, especially when the new task is strongly correlated with old tasks. To tackle this challenge, we propose Trust Region Gradient Projection (TRGP) for continual learning to facilitate the forward knowledge transfer based on an efficient characterization of task correlation. Particularly, we introduce a notion of `trust region' to select the most related old tasks for the new task in a layer-wise and single-shot manner, using the norm of gradient projection onto the subspace spanned by task inputs. Then, a scaled weight projection is proposed to cleverly reuse the frozen weights of the selected old tasks in the trust region through a layer-wise scaling matrix. By jointly optimizing the scaling matrices and the model, where the model is updated along the directions orthogonal to the subspaces of old tasks, TRGP can effectively prompt knowledge transfer without forgetting. Extensive experiments show that our approach achieves significant improvement over related state-of-the-art methods.
翻訳日:2022-02-08 17:00:53 公開日:2022-02-07
# autonomous measure-while-drilli ng (mwd) データを用いた材料型検層と化学測定のための機械学習手法

A Machine Learning Approach for Material Type Logging and Chemical Assaying from Autonomous Measure-While-Drilli ng (MWD) Data ( http://arxiv.org/abs/2202.02959v1 )

ライセンス: Link先を確認
Rami N Khushaba (1), Arman Melkumyan (1), Andrew J Hill (1) ((1) University of Sydney)(参考訳) 地域の構造と鉱物組成を理解することは、探査(鉱業前)と鉱業プロセスの両方において、鉱業において重要なステップである。 探査中、希薄だが高品質なデータが収集され、全体の鉱石を評価する。 鉱業の過程では、鉱業が進むにつれて境界位置と材料特性が洗練される。 この精製は掘削、材料伐採、化学測定によって促進される。 材料型伐採は, 鉱物の多様性, 地質学の多様性, 専門家による測定の主観的性質, 手動による測定結果の誤りなどの要因により, 高い変動性に悩まされている。 実験室に基づく化学測定はより正確であるが、時間と費用がかかり、全ての物質間の境界位置を常に捕捉または相関するわけではない。 これは、鉱業計画の評価、計画、実行において、生産高の検層と検査プロセスの正確さが不可欠であるため、産業にとって大きな課題と経済的影響をもたらす。 これらの課題を克服するため、物質伐採と化学測定のプロセスを自動化するパイロット研究を報告した。 自律掘削システム(ADS)からログしたMWDデータから抽出した特徴に基づいて、機械学習アプローチが訓練されている。 MWDデータは、穴深さの関数として物理ドリルパラメータのプロファイルの構築を容易にする。 これらの掘削パラメータを基礎となる鉱物組成と結びつける仮説が立てられている。 本研究は, 化学測定法の相関係数が最大0.92, 材料検出の精度が93%であり, 材料の種類や空間領域の一般化によらず, 本プロセスの有効性を実証するものである。

Understanding the structure and mineralogical composition of a region is an essential step in mining, both during exploration (before mining) and in the mining process. During exploration, sparse but high-quality data are gathered to assess the overall orebody. During the mining process, boundary positions and material properties are refined as the mine progresses. This refinement is facilitated through drilling, material logging, and chemical assaying. Material type logging suffers from a high degree of variability due to factors such as the diversity in mineralization and geology, the subjective nature of human measurement even by experts, and human error in manually recording results. While laboratory-based chemical assaying is much more precise, it is time-consuming and costly and does not always capture or correlate boundary positions between all material types. This leads to significant challenges and financial implications for the industry, as the accuracy of production blasthole logging and assaying processes is essential for resource evaluation, planning, and execution of mine plans. To overcome these challenges, this work reports on a pilot study to automate the process of material logging and chemical assaying. A machine learning approach has been trained on features extracted from measurement-while-dr illing (MWD) data, logged from autonomous drilling systems (ADS). MWD data facilitate the construction of profiles of physical drilling parameters as a function of hole depth. A hypothesis is formed to link these drilling parameters to the underlying mineral composition. The results of the pilot study discussed in this paper demonstrate the feasibility of this process, with correlation coefficients of up to 0.92 for chemical assays and 93% accuracy for material detection, depending on the material or assay type and their generalization across the different spatial regions.
翻訳日:2022-02-08 17:00:33 公開日:2022-02-07
# 最大状態エントロピー探査における非マルコフ性の重要性

The Importance of Non-Markovianity in Maximum State Entropy Exploration ( http://arxiv.org/abs/2202.03060v1 )

ライセンス: Link先を確認
Mirco Mutti, Riccardo De Santi, Marcello Restelli(参考訳) 最大状態エントロピー探索フレームワークでは、エージェントは報酬のない環境と相互作用し、それが引き起こしている期待状態訪問のエントロピーを最大化するポリシーを学ぶ。 hazan et al. (2019) は、マルコフの確率政策のクラスは最大状態エントロピーの目的のために十分であり、非マルコフ性を利用するのはこの設定において無意味であると見なされる。 本稿では,非マルコフ性は有限サンプルレジームにおける最大状態エントロピー探索に準じていると主張する。 特に,1回の試行で誘導された国家訪問の期待エントロピーを目標とする目標を再キャストした。 そこで, 非マルコフ的決定主義政策のクラスは導入目的に十分であることを示す一方で, マルコフ的政策は一般にゼロでない後悔に苦しむ。 しかし、最適な非マルコフポリシーを見つける問題は少なくともnp完全であることが証明される。 この否定的な結果にもかかわらず、この問題を抽出可能な方法で解決するための道程と、今後の作業におけるオンライン強化学習のサンプル効率に非マルコフ探索がどう役立つかについて議論する。

In the maximum state entropy exploration framework, an agent interacts with a reward-free environment to learn a policy that maximizes the entropy of the expected state visitations it is inducing. Hazan et al. (2019) noted that the class of Markovian stochastic policies is sufficient for the maximum state entropy objective, and exploiting non-Markovianity is generally considered pointless in this setting. In this paper, we argue that non-Markovianity is instead paramount for maximum state entropy exploration in a finite-sample regime. Especially, we recast the objective to target the expected entropy of the induced state visitations in a single trial. Then, we show that the class of non-Markovian deterministic policies is sufficient for the introduced objective, while Markovian policies suffer non-zero regret in general. However, we prove that the problem of finding an optimal non-Markovian policy is at least NP-complete. Despite this negative result, we discuss avenues to address the problem in a tractable way and how non-Markovian exploration could benefit the sample efficiency of online reinforcement learning in future works.
翻訳日:2022-02-08 16:58:51 公開日:2022-02-07
# 機械学習の現代的かつ実用的な課題への取り組み--オンラインフェデレート・トランスファー学習の実態調査

Addressing modern and practical challenges in machine learning: A survey of online federated and transfer learning ( http://arxiv.org/abs/2202.03070v1 )

ライセンス: Link先を確認
Shuang Dai, Fanlin Meng(参考訳) オンラインフェデレーション学習(ofl)とオンライン転送学習(otl)は、データサイロ、ストリーミングデータ、データセキュリティといった現代の機械学習の課題を克服するための2つのコラボレーティブパラダイムである。 この調査は、オンラインフェデレート・トランスファー学習の理解を深めるために、oflとotlを主要な進化経路を通して調査した。 また、一般的なデータセットやオンラインフェデレートおよび転送学習のための最先端アプリケーションの実践的側面が本研究で強調されている。 さらに、この調査は将来の研究分野に関する洞察を提供し、オンラインフェデレート・トランスファー学習フレームワークを開発するプロフェッショナルのリソースとして機能することを目的としている。

Online federated learning (OFL) and online transfer learning (OTL) are two collaborative paradigms for overcoming modern machine learning challenges such as data silos, streaming data, and data security. This survey explored OFL and OTL throughout their major evolutionary routes to enhance understanding of online federated and transfer learning. Besides, practical aspects of popular datasets and cutting-edge applications for online federated and transfer learning are highlighted in this work. Furthermore, this survey provides insight into potential future research areas and aims to serve as a resource for professionals developing online federated and transfer learning frameworks.
翻訳日:2022-02-08 16:58:28 公開日:2022-02-07
# alm-kd:適応損失混合による雑音ラベル付き知識蒸留

ALM-KD: Knowledge Distillation with noisy labels via adaptive loss mixing ( http://arxiv.org/abs/2202.03250v1 )

ライセンス: Link先を確認
Durga Sivasubramanian, Pradeep Shenoy, Prathosh AP and Ganesh Ramakrishnan(参考訳) 知識蒸留とは、教師モデルとして知られる事前訓練されたモデルの出力を、教師付き環境で生徒モデルを訓練するために使用する技術である。 教師モデル出力は, 従来のハードラベルを用いた学習よりも, 生徒モデルの性能を向上させる必要がある。 しかし、教師ネットワークのロジットによって課されるラベルの分布は、必ずしも情報であり、学生のパフォーマンスが低下する可能性がある。 我々はkd中の適応損失混合方式を用いてこの問題に取り組む。 具体的には,KDの「どの程度」の学生に信号を送る検証メトリック上で,メタラーニングを用いて,教師マッチングとラベル監督の目的のインスタンス固有の凸の組み合わせを学習する。 制御された合成データと実世界のデータセットに関する様々な実験を通じて、標準kd設定とマルチ教師および自己蒸留設定で得られた性能向上を実証する。

Knowledge distillation is a technique where the outputs of a pretrained model, often known as the teacher model is used for training a student model in a supervised setting. The teacher model outputs being a richer distribution over labels should improve the student model's performance as opposed to training with the usual hard labels. However, the label distribution imposed by the logits of the teacher network may not be always informative and may lead to poor student performance. We tackle this problem via the use of an adaptive loss mixing scheme during KD. Specifically, our method learns an instance-specific convex combination of the teacher-matching and label supervision objectives, using meta learning on a validation metric signalling to the student `how much' of KD is to be used. Through a range of experiments on controlled synthetic data and real-world datasets, we demonstrate performance gains obtained using our approach in the standard KD setting as well as in multi-teacher and self-distillation settings.
翻訳日:2022-02-08 16:58:14 公開日:2022-02-07
# 高次元線形分類における不確かさの理論的特徴

Theoretical characterization of uncertainty in high-dimensional linear classification ( http://arxiv.org/abs/2202.03295v1 )

ライセンス: Link先を確認
Lucas Clart\'e, Bruno Loureiro, Florent Krzakala, Lenka Zdeborov\'a(参考訳) 精度だけでなく、モデルの予測の不確実性も確実に評価できることは、現代の機械学習における重要な取り組みである。 データとラベルを生成するモデルが知られているとしても、限られたサンプルからモデルを学習した後で本質的な不確かさを計算し、対応する後続確率測定をサンプリングする。 このようなサンプリングは高次元問題では計算上困難であり、高次元におけるヒューリスティック不確実性推定器の理論的な結果は乏しい。 本稿では,高次元ガウス入力データとプロビットモデルにより生成されたラベルの限られたサンプルから学習する不確実性を特徴付ける。 ベイズの不確実性(すなわち後縁)が近似メッセージパッシングアルゴリズムによって漸近的に得られ、後続の標準的だがコストのかかるモンテカルロサンプリングをバイパスできることを証明した。 次に、ロジスティック分類器と統計学的に最適なベイズ分類器の不確実性、および基底トラス確率の不確実性の間の合同統計量に対する閉形式式を提供する。 この式により,限られたサンプル量からロジスティック分類器学習の校正を検証できる。 我々は,信頼度を適切に正則化することで緩和する方法について論じるとともに,損失に対するクロスバリデーションが0/1誤差よりもキャリブレーションが優れていることを示す。

Being able to reliably assess not only the accuracy but also the uncertainty of models' predictions is an important endeavour in modern machine learning. Even if the model generating the data and labels is known, computing the intrinsic uncertainty after learning the model from a limited number of samples amounts to sampling the corresponding posterior probability measure. Such sampling is computationally challenging in high-dimensional problems and theoretical results on heuristic uncertainty estimators in high-dimensions are thus scarce. In this manuscript, we characterise uncertainty for learning from limited number of samples of high-dimensional Gaussian input data and labels generated by the probit model. We prove that the Bayesian uncertainty (i.e. the posterior marginals) can be asymptotically obtained by the approximate message passing algorithm, bypassing the canonical but costly Monte Carlo sampling of the posterior. We then provide a closed-form formula for the joint statistics between the logistic classifier, the uncertainty of the statistically optimal Bayesian classifier and the ground-truth probit uncertainty. The formula allows us to investigate calibration of the logistic classifier learning from limited amount of samples. We discuss how over-confidence can be mitigated by appropriately regularising, and show that cross-validating with respect to the loss leads to better calibration than with the 0/1 error.
翻訳日:2022-02-08 16:57:57 公開日:2022-02-07
# 確率的最短経路に対する政策最適化

Policy Optimization for Stochastic Shortest Path ( http://arxiv.org/abs/2202.03334v1 )

ライセンス: Link先を確認
Liyu Chen and Haipeng Luo and Aviv Rosenberg(参考訳) ポリシー最適化は、最も人気があり、成功した強化学習アルゴリズムの1つであり、その理論的保証を理解することへの関心が高まっている。 本研究では,有限ホライゾンモデルを厳密に一般化し,多くの応用をうまく捉える目標指向強化学習モデルであるstastic shortest path (ssp)問題に対するポリシー最適化の研究を開始する。 本研究は,全情報やバンディットフィードバックの下での確率的および敵対的環境を含む幅広い設定を考察し,新しい補正項および/または拡張ボーナスの変種(luo et al., 2021)を用いた各設定のポリシー最適化アルゴリズムを提案する。 ほとんどの設定において、我々のアルゴリズムは、ほぼ最適の後悔境界を達成する。 この研究の重要な技術的貢献の1つは、我々が \textit{stacked discounted approximation} と呼ぶssp問題に対処するための新しい近似スキームであり、提案するすべてのアルゴリズムで使用します。 最近のsspアルゴリズムで多用されている有限ホライゾン近似とは異なり、新しい近似により、エピソード中の対数変化のみを含む定常に近いポリシーを学習することができ、空間複雑性の指数関数的な改善につながる可能性がある。

Policy optimization is among the most popular and successful reinforcement learning algorithms, and there is increasing interest in understanding its theoretical guarantees. In this work, we initiate the study of policy optimization for the stochastic shortest path (SSP) problem, a goal-oriented reinforcement learning model that strictly generalizes the finite-horizon model and better captures many applications. We consider a wide range of settings, including stochastic and adversarial environments under full information or bandit feedback, and propose a policy optimization algorithm for each setting that makes use of novel correction terms and/or variants of dilated bonuses (Luo et al., 2021). For most settings, our algorithm is shown to achieve a near-optimal regret bound. One key technical contribution of this work is a new approximation scheme to tackle SSP problems that we call \textit{stacked discounted approximation} and use in all our proposed algorithms. Unlike the finite-horizon approximation that is heavily used in recent SSP algorithms, our new approximation enables us to learn a near-stationary policy with only logarithmic changes during an episode and could lead to an exponential improvement in space complexity.
翻訳日:2022-02-08 16:57:36 公開日:2022-02-07
# Neighbor2Seq: 近隣をシーケンスに変換することで大量グラフを深層学習する

Neighbor2Seq: Deep Learning on Massive Graphs by Transforming Neighbors to Sequences ( http://arxiv.org/abs/2202.03341v1 )

ライセンス: Link先を確認
Meng Liu and Shuiwang Ji(参考訳) 現代のグラフニューラルネットワーク(GNN)はメッセージパッシング方式を採用し、多くの分野で大きな成功を収めている。 しかし、この再帰的設計は本質的に過剰な計算とメモリ要求をもたらし、大規模な実世界のグラフには適用できない。 本研究では,各ノードの階層的近傍をシーケンスに変換するNeighbor2Seqを提案する。 この斬新なトランスフォーメーションによって、畳み込みや注意といった一般的なディープラーニング操作のためのミニバッチトレーニングが可能になり、グリッドのようなデータ用に設計され、さまざまな領域で強力であることが示されている。 そのため、我々のNeighbor2Seqは、Nighbor2Seq変換をプリ計算することで、グリッドライクなデータに対するディープラーニング操作の効率性と利点をGNNに自然に与えている。 我々は,1100万以上のノードと160億のエッジを持つ大規模グラフと,複数の中規模グラフを用いて本手法を評価する。 その結果,提案手法は大規模グラフに対してスケーラブルであり,大規模グラフと中規模グラフにまたがる優れた性能を実現する。 私たちのコードはhttps://github.com/d ivelab/neighbor2seqで利用可能です。

Modern graph neural networks (GNNs) use a message passing scheme and have achieved great success in many fields. However, this recursive design inherently leads to excessive computation and memory requirements, making it not applicable to massive real-world graphs. In this work, we propose the Neighbor2Seq to transform the hierarchical neighborhood of each node into a sequence. This novel transformation enables the subsequent mini-batch training for general deep learning operations, such as convolution and attention, that are designed for grid-like data and are shown to be powerful in various domains. Therefore, our Neighbor2Seq naturally endows GNNs with the efficiency and advantages of deep learning operations on grid-like data by precomputing the Neighbor2Seq transformations. We evaluate our method on a massive graph, with more than 111 million nodes and 1.6 billion edges, as well as several medium-scale graphs. Results show that our proposed method is scalable to massive graphs and achieves superior performance across massive and medium-scale graphs. Our code is available at https://github.com/d ivelab/Neighbor2Seq.
翻訳日:2022-02-08 16:57:13 公開日:2022-02-07
# ほぼ消滅する理想に対する条件勾配

Conditional Gradients for the Approximately Vanishing Ideal ( http://arxiv.org/abs/2202.03349v1 )

ライセンス: Link先を確認
E. Wirth, S. Pokutta(参考訳) 点の集合 $X\subseteq \mathbb{R}^n$ の消滅イデアルは、すべての点 $\mathbf{x} \in X$ 上で$0$ と評価され、ジェネレータと呼ばれる多項式の有限集合による効率的な表現を認める多項式の集合である。 データセットのノイズに対処するため,約消滅するイデアルのジェネレータの集合を構築するために,CGAVI(Conditional Gradients A roughly Vanishing Ideal Algorithm)を導入する。 構築されたジェネレータのセットはデータの多項式構造をキャプチャし、例えば教師付き学習のための線形分類器と組み合わせて使用できる特徴マップを生成する。 CGAVIでは、Pairwise Frank-Wolfeアルゴリズム(PFW)を用いて、(制約付き)凸最適化問題を解くことで、ジェネレータの集合を構築する。 中でも、構築されたジェネレータはLASSO一般化境界を継承し、トレーニングだけでなく、サンプル外のデータにも消滅する。 さらに、CGAVI はスパース係数ベクトルを持つ少数の生成子を構成することで、ほぼ消滅するイデアルのコンパクト表現を認める。

The vanishing ideal of a set of points $X\subseteq \mathbb{R}^n$ is the set of polynomials that evaluate to $0$ over all points $\mathbf{x} \in X$ and admits an efficient representation by a finite set of polynomials called generators. To accommodate the noise in the data set, we introduce the Conditional Gradients Approximately Vanishing Ideal algorithm (CGAVI) for the construction of the set of generators of the approximately vanishing ideal. The constructed set of generators captures polynomial structures in data and gives rise to a feature map that can, for example, be used in combination with a linear classifier for supervised learning. In CGAVI, we construct the set of generators by solving specific instances of (constrained) convex optimization problems with the Pairwise Frank-Wolfe algorithm (PFW). Among other things, the constructed generators inherit the LASSO generalization bound and not only vanish on the training but also on out-sample data. Moreover, CGAVI admits a compact representation of the approximately vanishing ideal by constructing few generators with sparse coefficient vectors.
翻訳日:2022-02-08 16:56:56 公開日:2022-02-07
# 深層学習型知覚システムのための離散事象制御器合成

Discrete-Event Controller Synthesis for Autonomous Systems with Deep-Learning Perception Components ( http://arxiv.org/abs/2202.03360v1 )

ライセンス: Link先を確認
Radu Calinescu (1), Calum Imrie (1), Ravi Mangal (2), Corina P\u{a}s\u{a}reanu (2), Misael Alpizar Santana (1), and Gricel V\'azquez (1) ((1) University of York, (2) Carnegie Mellon University)(参考訳) 本稿では,ディープニューラルネットワーク(dnn)分類器を用いて意思決定過程の知覚ステップを行う自律システムのための,構造的修正型離散イベントコントローラの合成手法であるdeepdecsを提案する。 近年のディープラーニングの大きな進歩にもかかわらず、これらのシステムに対する安全性保証の提供は非常に困難である。 制御器合成法はDNN検証とマルコフモデルの合成を統合することでこの問題に対処する。 合成モデルは、自律システムの安全性、信頼性、性能要件を満たすことが保証された離散イベントコントローラに対応し、一連の最適化基準に関してパレート最適である。 本手法は,移動ロボット衝突回避のための制御器の合成と,共有制御自律運転における運転注意の維持に用いられている。

We present DEEPDECS, a new method for the synthesis of correct-by-construct ion discrete-event controllers for autonomous systems that use deep neural network (DNN) classifiers for the perception step of their decision-making processes. Despite major advances in deep learning in recent years, providing safety guarantees for these systems remains very challenging. Our controller synthesis method addresses this challenge by integrating DNN verification with the synthesis of verified Markov models. The synthesised models correspond to discrete-event controllers guaranteed to satisfy the safety, dependability and performance requirements of the autonomous system, and to be Pareto optimal with respect to a set of optimisation criteria. We use the method in simulation to synthesise controllers for mobile-robot collision avoidance, and for maintaining driver attentiveness in shared-control autonomous driving.
翻訳日:2022-02-08 16:56:33 公開日:2022-02-07
# (参考訳) Cedille: 大規模な自己回帰型フランス語モデル [全文訳有]

Cedille: A large autoregressive French language model ( http://arxiv.org/abs/2202.03371v1 )

ライセンス: CC BY-SA 4.0
Martin M\"uller, Florian Laurent(参考訳) 自己回帰型言語モデルのスケールとトレーニングにより、ゼロショット学習と少数ショット学習を用いた自然言語処理タスクの新たな解決方法が実現されている。 gpt-3のような超大規模言語モデルは多言語機能を提供しているが、英語以外の言語のゼロショット学習はほとんど未解明である。 ここでは,フランス語用に特別に訓練された大規模オープンソース自動回帰言語モデルであるcedilleを紹介する。 以上の結果から,Cedille は既存のフランス語モデルより優れており,GPT-3 と競合する。 さらに,これらのモデルが示す毒性の詳細な比較を行い,データセットフィルタリングにより言語モデルの安全性が向上したことを示す。

Scaling up the size and training of autoregressive language models has enabled novel ways of solving Natural Language Processing tasks using zero-shot and few-shot learning. While extreme-scale language models such as GPT-3 offer multilingual capabilities, zero-shot learning for languages other than English remain largely unexplored. Here, we introduce Cedille, a large open source auto-regressive language model, specifically trained for the French language. Our results show that Cedille outperforms existing French language models and is competitive with GPT-3 on a range of French zero-shot benchmarks. Furthermore, we provide an in-depth comparison of the toxicity exhibited by these models, showing that Cedille marks an improvement in language model safety thanks to dataset filtering.
翻訳日:2022-02-08 16:55:04 公開日:2022-02-07
# 多目的品質多様性最適化

Multi-Objective Quality Diversity Optimization ( http://arxiv.org/abs/2202.03057v1 )

ライセンス: Link先を確認
Thomas Pierrot, Guillaume Richard, Karim Beguir, Antoine Cully(参考訳) 本稿では,複数の目的を持ったqd最適化の問題について考察する。 QDアルゴリズムは、一組の局所最適化ではなく、多種多様かつ高性能なソリューションの大規模なコレクションを探すために提案されている。 多様性を追求することは、多くの産業やロボットの応用において有用であることが示されている。 一方、ほとんどの実生活問題には、最適化すべき敵対的目標がいくつかある。 したがって、多様性を追求しながら適切なテクニックで複数の目的を最適化できることは多くの分野において重要である。 本稿では,多目的設定におけるmap-elitesアルゴリズムの拡張であるmulti-objective map-elites (mome)を提案する。 すなわち、MAP-Elitesグリッドアルゴリズムから受け継いだ多様性と、Pareto Frontで各セルを埋めることによる多目的最適化の強さを組み合わせる。 これにより、ディスクリプタ空間における多様なソリューションを抽出し、目的間の異なる妥協を探求することができる。 標準最適化問題からロボットシミュレーションまで,いくつかの課題について評価を行った。 実験により,momeが多目的アルゴリズムと同様のグローバル性能を提供しながら,多様なソリューションを提供する能力を示す。

In this work, we consider the problem of Quality-Diversity (QD) optimization with multiple objectives. QD algorithms have been proposed to search for a large collection of both diverse and high-performing solutions instead of a single set of local optima. Thriving for diversity was shown to be useful in many industrial and robotics applications. On the other hand, most real-life problems exhibit several potentially antagonist objectives to be optimized. Hence being able to optimize for multiple objectives with an appropriate technique while thriving for diversity is important to many fields. Here, we propose an extension of the MAP-Elites algorithm in the multi-objective setting: Multi-Objective MAP-Elites (MOME). Namely, it combines the diversity inherited from the MAP-Elites grid algorithm with the strength of multi-objective optimizations by filling each cell with a Pareto Front. As such, it allows to extract diverse solutions in the descriptor space while exploring different compromises between objectives. We evaluate our method on several tasks, from standard optimization problems to robotics simulations. Our experimental evaluation shows the ability of MOME to provide diverse solutions while providing global performances similar to standard multi-objective algorithms.
翻訳日:2022-02-08 16:44:30 公開日:2022-02-07
# サルエント物体検出のための深部モデルベンチマーク

Benchmarking Deep Models for Salient Object Detection ( http://arxiv.org/abs/2202.02925v1 )

ライセンス: Link先を確認
Huajun Zhou, Yang Lin, Lingxiao Yang, Jianhuang Lai and Xiaohua Xie(参考訳) 近年,深層ネットワークに基づく手法は,SOD(Salient Object Detection)タスクにおける最先端性能を継続的に更新している。 しかし、異なる実装の詳細によって生じるパフォーマンスの相違は、このタスクの実際の進捗を隠蔽する可能性がある。 将来の研究には公平な比較が必要である。 このニーズを満たすために,いくつかの代表的なsod法を包括的に比較するために,salod(general salient object detection)ベンチマークを構築した。 具体的には,14種類の代表sod法を再実装した。 さらに,いくつかの制約条件下での既存手法の堅牢性を検討するために,ベンチマークに2つの追加プロトコルが設定されている。 第1のプロトコルでは、これらのSOD手法の堅牢性を評価するために、列車とテストセットの客観性分布の違いを拡大する。 第2のプロトコルでは、異なるスケールで複数の列車サブセットを構築し、これらの手法が少数のサンプルから識別的特徴を抽出できるかどうかを検証する。 以上の実験では、既存の損失関数は、通常いくつかの指標に特化しているが、他の指標には劣る結果が報告されている。 そこで本研究では,画素レベルの監視信号と画像レベルの監視信号の両方を統合することにより,ディープネットワークがより識別的特徴を学ぶことを促進する新しいエッジアウェアロスを提案する。 実験によると、EAの損失は、既存の損失よりも堅牢なパフォーマンスを報告している。

In recent years, deep network-based methods have continuously refreshed state-of-the-art performance on Salient Object Detection (SOD) task. However, the performance discrepancy caused by different implementation details may conceal the real progress in this task. Making an impartial comparison is required for future researches. To meet this need, we construct a general SALient Object Detection (SALOD) benchmark to conduct a comprehensive comparison among several representative SOD methods. Specifically, we re-implement 14 representative SOD methods by using consistent settings for training. Moreover, two additional protocols are set up in our benchmark to investigate the robustness of existing methods in some limited conditions. In the first protocol, we enlarge the difference between objectness distributions of train and test sets to evaluate the robustness of these SOD methods. In the second protocol, we build multiple train subsets with different scales to validate whether these methods can extract discriminative features from only a few samples. In the above experiments, we find that existing loss functions usually specialized in some metrics but reported inferior results on the others. Therefore, we propose a novel Edge-Aware (EA) loss that promotes deep networks to learn more discriminative features by integrating both pixel- and image-level supervision signals. Experiments prove that our EA loss reports more robust performances compared to existing losses.
翻訳日:2022-02-08 16:40:56 公開日:2022-02-07
# 自律運転のための画像からの3次元物体検出:調査

3D Object Detection from Images for Autonomous Driving: A Survey ( http://arxiv.org/abs/2202.02980v1 )

ライセンス: Link先を確認
Xinzhu Ma, Wanli Ouyang, Andrea Simonelli, Elisa Ricci(参考訳) 自動運転における基本的かつ困難な問題の一つである画像からの3dオブジェクト検出は、近年、産学界からも注目を集めている。 ディープラーニング技術の急速な発展により、画像に基づく3D検出は目覚ましい進歩を遂げた。 特に、2015年から2021年にかけて200以上の著作がこの問題を研究しており、幅広い理論、アルゴリズム、応用を含んでいる。 しかし、この知識を収集・整理するための最近の調査は存在しない。 本稿では,このギャップを文献に埋めて,この新規かつ継続的な研究分野の包括的調査を行い,イメージベース3d検出のための最も一般的なパイプラインを要約し,各コンポーネントを深く分析する。 さらに,最新の手法を異なるカテゴリに整理するための2つの新しい分類法を提案し,既存の手法をより体系的に検討し,今後の手法との公平な比較を促進することを意図した。 これまでの成果を振り返って,この分野の課題を分析し,画像に基づく3次元検出研究の今後の方向性について考察する。

3D object detection from images, one of the fundamental and challenging problems in autonomous driving, has received increasing attention from both industry and academia in recent years. Benefiting from the rapid development of deep learning technologies, image-based 3D detection has achieved remarkable progress. Particularly, more than 200 works have studied this problem from 2015 to 2021, encompassing a broad spectrum of theories, algorithms, and applications. However, to date no recent survey exists to collect and organize this knowledge. In this paper, we fill this gap in the literature and provide the first comprehensive survey of this novel and continuously growing research field, summarizing the most commonly used pipelines for image-based 3D detection and deeply analyzing each of their components. Additionally, we also propose two new taxonomies to organize the state-of-the-art methods into different categories, with the intent of providing a more systematic review of existing methods and facilitating fair comparisons with future works. In retrospect of what has been achieved so far, we also analyze the current challenges in the field and discuss future directions for image-based 3D detection research.
翻訳日:2022-02-08 16:40:35 公開日:2022-02-07
# 教師なし異常学習による自動欠陥分割

Automatic defect segmentation by unsupervised anomaly learning ( http://arxiv.org/abs/2202.02998v1 )

ライセンス: Link先を確認
Nati Ofir, Ran Yacobi, Omer Granoviter, Boris Levant and Ore Shtalrid(参考訳) 本稿では半導体製造における欠陥セグメント化の問題に対処する。 我々のセグメンテーションの入力は、候補欠陥領域の走査電子顕微鏡(SEM)画像である。 クリーンな背景画像のデータセットを用いて欠陥を分割するためにU-net形状ネットワークをトレーニングする。 トレーニングフェーズのサンプルは、手動ラベリングを必要としないように自動生成される。 クリーンな背景サンプルのデータセットを強化するために,欠陥インプラント拡張を適用した。 そこで本研究では,無作為な画像パッチのコピー&ペーストをクリーンな標本に適用する。 ラベルなしデータシナリオのロバスト性を改善するために,教師なし学習法と損失関数を用いてネットワークの特徴を訓練する。 我々の実験では、データセットに欠陥例がないにもかかわらず、実際の欠陥を高品質でセグメント化することに成功している。 提案手法は,教師付きおよびラベル付き欠陥分割の問題にも正しく対応している。

This paper addresses the problem of defect segmentation in semiconductor manufacturing. The input of our segmentation is a scanning-electron-mi croscopy (SEM) image of the candidate defect region. We train a U-net shape network to segment defects using a dataset of clean background images. The samples of the training phase are produced automatically such that no manual labeling is required. To enrich the dataset of clean background samples, we apply defect implant augmentation. To that end, we apply a copy-and-paste of a random image patch in the clean specimen. To improve robustness to the unlabeled data scenario, we train the features of the network with unsupervised learning methods and loss functions. Our experiments show that we succeed to segment real defects with high quality, even though our dataset contains no defect examples. Our approach performs accurately also on the problem of supervised and labeled defect segmentation.
翻訳日:2022-02-08 16:40:18 公開日:2022-02-07
# 深部単眼体形状の時間的一貫性とポーズ推定

Imposing Temporal Consistency on Deep Monocular Body Shape and Pose Estimation ( http://arxiv.org/abs/2202.03074v1 )

ライセンス: Link先を確認
Alexandra Zimmer, Anna Hilsmann, Wieland Morgenstern, Peter Eisert(参考訳) 人間の身体の正確な時間的一貫したモデリングは、キャラクターアニメーション、人間の社会的振る舞いの理解、AR/VRインターフェースなど、幅広い応用に不可欠である。 単眼画像列から正確に人間の動きを捉えることは依然として困難であり、そのモデリング品質は、捕獲された身体の動きの時間的一貫性に強く影響される。 本研究は, 適合過程における時間制約の統合に対するエレガントな解決法を提案する。 これにより時間的一貫性が向上するだけでなく、最適化時の堅牢性も向上する。 詳しくは、顎のポーズ、表情、指のポーズなど、人の形や動きを表す一連の身体モデルのパラメータを導出する。 これらのパラメータを全体像列上で最適化し, 身体運動に時間的一貫性を付与しながら, 短時間でリニアボディジョイント軌跡を仮定した。 本手法は,表情や手話を含む画像系列からリアルな3次元体モデルの導出を可能にする。 広範にわたる実験では, 身体の形状や動きを正確に推定し, 挑戦的な動きやポーズを呈する。 さらに, 高精度かつ時間的一貫した動きモデリングが不可欠である手話解析の特殊応用に適用し, この種の応用に適していることを示す。

Accurate and temporally consistent modeling of human bodies is essential for a wide range of applications, including character animation, understanding human social behavior and AR/VR interfaces. Capturing human motion accurately from a monocular image sequence is still challenging and the modeling quality is strongly influenced by the temporal consistency of the captured body motion. Our work presents an elegant solution for the integration of temporal constraints in the fitting process. This does not only increase temporal consistency but also robustness during the optimization. In detail, we derive parameters of a sequence of body models, representing shape and motion of a person, including jaw poses, facial expressions, and finger poses. We optimize these parameters over the complete image sequence, fitting one consistent body shape while imposing temporal consistency on the body motion, assuming linear body joint trajectories over a short time. Our approach enables the derivation of realistic 3D body models from image sequences, including facial expression and articulated hands. In extensive experiments, we show that our approach results in accurately estimated body shape and motion, also for challenging movements and poses. Further, we apply it to the special application of sign language analysis, where accurate and temporal consistent motion modelling is essential, and show that the approach is well-suited for this kind of application.
翻訳日:2022-02-08 16:38:23 公開日:2022-02-07
# ポーズ障害を伴う時空点雲完成

Temporal Point Cloud Completion with Pose Disturbance ( http://arxiv.org/abs/2202.03084v1 )

ライセンス: Link先を確認
Jieqi Shi, Lingyun Xu, Peiliang Li, Xiaozhi Chen and Shaojie Shen(参考訳) 現実世界のセンサーによって収集された点雲は常に整列せず、スパースであるため、1つのフレームのデータから物体の完全な形状を再構築することは困難である。 本研究では,限定的な翻訳と回転によるポーズ乱れを伴うスパース入力から完全点雲の提供に成功した。 また、時間情報を用いて完了モデルを強化し、入力シーケンスで出力を精算する。 ゲートリカバリユニット(GRU)とアテンション機構を時間単位として,不整合およびスパース入力のシーケンスを受け入れ,整合性と整合性のある点雲を出力する点雲補完フレームワークを提案する。 我々のネットワークはオンライン方式で動作し、各フレームに洗練された点クラウドを提供し、任意のSLAMや再構築パイプラインに統合することができる。 私たちが知る限り、私たちのフレームワークは、時間的情報を活用し、限られた変換で時間的一貫性を確保する最初のものです。 ShapeNetとKITTIの実験を通じて、我々のフレームワークは、合成データセットと実世界のデータセットの両方に有効であることを示す。

Point clouds collected by real-world sensors are always unaligned and sparse, which makes it hard to reconstruct the complete shape of object from a single frame of data. In this work, we manage to provide complete point clouds from sparse input with pose disturbance by limited translation and rotation. We also use temporal information to enhance the completion model, refining the output with a sequence of inputs. With the help of gated recovery units(GRU) and attention mechanisms as temporal units, we propose a point cloud completion framework that accepts a sequence of unaligned and sparse inputs, and outputs consistent and aligned point clouds. Our network performs in an online manner and presents a refined point cloud for each frame, which enables it to be integrated into any SLAM or reconstruction pipeline. As far as we know, our framework is the first to utilize temporal information and ensure temporal consistency with limited transformation. Through experiments in ShapeNet and KITTI, we prove that our framework is effective in both synthetic and real-world datasets.
翻訳日:2022-02-08 16:38:03 公開日:2022-02-07
# 自己組織化学習による複雑なデータの推論

Reasoning for Complex Data through Ensemble-based Self-Supervised Learning ( http://arxiv.org/abs/2202.03126v1 )

ライセンス: Link先を確認
Gabriel Bertocco, Ant\^onio The\'ofilo, Fernanda Andal\'o and Anderson Rocha(参考訳) 自己教師付き学習は、利用可能なラベル付きデータが少ないか全くない問題を扱う。 最近の研究は、基礎となるクラスが意味的に大きな違いがある場合、印象的な結果を示している。 このテクニックが繁栄する重要なデータセットの1つはimagenetであり、クラス内距離はクラス間距離よりもかなり低い。 しかし、これはいくつかの重要なタスクには当てはまり、クラスがより密接なセマンティクスを持つ場合、一般的な自己教師付き学習手法では識別的特徴を学習できないため、より堅牢な戦略が必要である。 そこで本研究では,異なるクラスからのサンプルが顕著に多様でない場合でも,ラベルなしデータからの学習を可能にする手法を提案する。 本研究では,異なる構成から派生したクラスタを組み合わせ,完全教師なしの方法でデータサンプルのより優れたグループ化を実現する,新しいアンサンブルベースのクラスタリング戦略を活用することで,この問題に対処する。 この戦略により、データセット毎に最適な設定を見つける必要がなくなることなく、異なる密度と高い可変性を持つクラスタが出現し、クラス内の不一致を低減できる。 また、サンプル間の距離を計算するために異なる畳み込みニューラルネットワークも検討する。 コンテキスト分析を行い,それらをグループ化し,補完的情報を取り込むことにより,これらの距離を洗練する。 私たちは、パイプラインを検証するための2つのアプリケーションについて検討しています。 これらは、クラスが意味的に互いに近く、トレーニングとテストセットが不一致のアイデンティティを持つことを考えると、難しいアプリケーションである。 提案手法は異なるモダリティにまたがって頑健であり,ラベル付けや人間の介入なしに完全に教師なしのソリューションで最先端の結果を上回っている。

Self-supervised learning deals with problems that have little or no available labeled data. Recent work has shown impressive results when underlying classes have significant semantic differences. One important dataset in which this technique thrives is ImageNet, as intra-class distances are substantially lower than inter-class distances. However, this is not the case for several critical tasks, and general self-supervised learning methods fail to learn discriminative features when classes have closer semantics, thus requiring more robust strategies. We propose a strategy to tackle this problem, and to enable learning from unlabeled data even when samples from different classes are not prominently diverse. We approach the problem by leveraging a novel ensemble-based clustering strategy where clusters derived from different configurations are combined to generate a better grouping for the data samples in a fully-unsupervised way. This strategy allows clusters with different densities and higher variability to emerge, which in turn reduces intra-class discrepancies, without requiring the burden of finding an optimal configuration per dataset. We also consider different Convolutional Neural Networks to compute distances between samples. We refine these distances by performing context analysis and group them to capture complementary information. We consider two applications to validate our pipeline: Person Re-Identification and Text Authorship Verification. These are challenging applications considering that classes are semantically close to each other and that training and test sets have disjoint identities. Our method is robust across different modalities and outperforms state-of-the-art results with a fully-unsupervised solution without any labeling or human intervention.
翻訳日:2022-02-08 16:37:43 公開日:2022-02-07
# パッチに基づく画像編集のための確率的注意

Patch-Based Stochastic Attention for Image Editing ( http://arxiv.org/abs/2202.03163v1 )

ライセンス: Link先を確認
Nicolas Cherel, Andr\'es Almansa, Yann Gousseau, Alasdair Newson(参考訳) 近年,深層学習において注意のメカニズムが重要になっている。 これらの非ローカルな操作は、画像処理における従来のパッチベースの方法に似ているが、局所的な畳み込みを補完する。 しかしながら、フルアテンション行列の計算は、重いメモリと計算負荷を伴う高価なステップである。 これらの制限は、特に高解像度画像の場合、ネットワークアーキテクチャとパフォーマンスを阻害する。 本稿では,近距離近傍の確率的アルゴリズムであるpatchmatchに基づく効率的な注意層を提案する。 我々は提案したレイヤを「パッチベースの確率的注意層(PSAL)」と呼ぶ。 さらに、パッチアグリゲーションに基づく異なるアプローチを提案し、PSALの差別性を確保することにより、我々の層を含むネットワークのエンドツーエンドトレーニングを可能にする。 PSALはメモリフットプリントが小さいため、高解像度の画像にスケールできる。 このフットプリントは、最寄りの建物の空間的精度とグローバル性を犠牲にすることなく維持されるため、浅いレベルであっても、深層アーキテクチャの任意のレベルに簡単に挿入することができる。 画像インペイントや画像カラー化など,画像編集作業におけるPSALの有用性を示す。

Attention mechanisms have become of crucial importance in deep learning in recent years. These non-local operations, which are similar to traditional patch-based methods in image processing, complement local convolutions. However, computing the full attention matrix is an expensive step with a heavy memory and computational load. These limitations curb network architectures and performances, in particular for the case of high resolution images. We propose an efficient attention layer based on the stochastic algorithm PatchMatch, which is used for determining approximate nearest neighbors. We refer to our proposed layer as a "Patch-based Stochastic Attention Layer" (PSAL). Furthermore, we propose different approaches, based on patch aggregation, to ensure the differentiability of PSAL, thus allowing end-to-end training of any network containing our layer. PSAL has a small memory footprint and can therefore scale to high resolution images. It maintains this footprint without sacrificing spatial precision and globality of the nearest neighbours, which means that it can be easily inserted in any level of a deep architecture, even in shallower levels. We demonstrate the usefulness of PSAL on several image editing tasks, such as image inpainting and image colorization.
翻訳日:2022-02-08 16:37:17 公開日:2022-02-07
# 360{\deg}画像における物体検出のための視野IoU

Field-of-View IoU for Object Detection in 360{\deg} Images ( http://arxiv.org/abs/2202.03176v1 )

ライセンス: Link先を確認
Miao Cao, Satoshi Ikehata, and Kiyoharu Aizawa(参考訳) 360{\deg}カメラはここ数年で人気を集めている。 本稿では,FoV-IoU(Field-of-Vi ew IoU)と360{\deg}画像における物体検出のための360Augmentationという2つの基本手法を提案する。 視点画像のために設計されたほとんどの物体検出ニューラルネットワークは、等方射影(ERP)フォーマットの360{\deg}画像に適用できるが、ERP画像の歪みにより性能が劣化する。 本手法は既存の対象検出器と容易に統合でき,性能が大幅に向上する。 FoV-IoUは、球面像をランダムに回転させ、球面と平面の投影によるバイアスを解消する360{\deg}オブジェクト検出タスクに特有のデータ拡張技術であり、トレーニング、推論、評価に使用可能な球面画像内の2つの視野境界ボックスの交叉結合を計算する。 様々な視点物体検出器を用いた360度インドアデータセットの広範な実験を行い,提案手法の有効性を示す。

360{\deg} cameras have gained popularity over the last few years. In this paper, we propose two fundamental techniques -- Field-of-View IoU (FoV-IoU) and 360Augmentation for object detection in 360{\deg} images. Although most object detection neural networks designed for the perspective images are applicable to 360{\deg} images in equirectangular projection (ERP) format, their performance deteriorates owing to the distortion in ERP images. Our method can be readily integrated with existing perspective object detectors and significantly improves the performance. The FoV-IoU computes the intersection-over-un ion of two Field-of-View bounding boxes in a spherical image which could be used for training, inference, and evaluation while 360Augmentation is a data augmentation technique specific to 360{\deg} object detection task which randomly rotates a spherical image and solves the bias due to the sphere-to-plane projection. We conduct extensive experiments on the 360indoor dataset with different types of perspective object detectors and show the consistent effectiveness of our method.
翻訳日:2022-02-08 16:37:00 公開日:2022-02-07
# 2次元物体検出の最近の動向と映像イベント認識への応用

Recent Trends in 2D Object Detection and Applications in Video Event Recognition ( http://arxiv.org/abs/2202.03206v1 )

ライセンス: Link先を確認
Prithwish Jana and Partha Pratim Mohanta(参考訳) オブジェクト検出は、複雑な下流コンピュータビジョンタスクのパフォーマンスを改善するための重要なステップとなる。 長年にわたって広く研究され、現在最先端の2Dオブジェクト検出技術は、複雑な画像においても最良である。 本稿では,物体検出における幾何学に基づく先駆的研究と,ディープラーニングを用いた最近のブレークスルーについて論じる。 これらのいくつかは、RGBイメージを入力として、フィードフォワードのConvNetまたは Vision Transformerに渡すモノリシックなアーキテクチャを使用している。 これらのメソッドは、クラス予測可能性とバウンディングボックス座標を単一の統一パイプラインで予測する。 一方、2段階アーキテクチャでは、まずリージョンの提案を生成し、CNNに送って特徴を抽出し、オブジェクトカテゴリとバウンディングボックスを予測する。 また,映像イベント認識における物体検出の応用について詳述し,よりきめ細かい映像分類性能を実現する。 さらに,画像と映像の両方における2次元物体検出のための最近のデータセットを強調し,様々な最先端物体検出手法の比較性能概要を示す。

Object detection serves as a significant step in improving performance of complex downstream computer vision tasks. It has been extensively studied for many years now and current state-of-the-art 2D object detection techniques proffer superlative results even in complex images. In this chapter, we discuss the geometry-based pioneering works in object detection, followed by the recent breakthroughs that employ deep learning. Some of these use a monolithic architecture that takes a RGB image as input and passes it to a feed-forward ConvNet or vision Transformer. These methods, thereby predict class-probability and bounding-box coordinates, all in a single unified pipeline. Two-stage architectures on the other hand, first generate region proposals and then feed it to a CNN to extract features and predict object category and bounding-box. We also elaborate upon the applications of object detection in video event recognition, to achieve better fine-grained video classification performance. Further, we highlight recent datasets for 2D object detection both in images and videos, and present a comparative performance summary of various state-of-the-art object detection techniques.
翻訳日:2022-02-08 16:36:36 公開日:2022-02-07
# PSSNet:大規模都市メッシュの平面感性セマンティックセグメンテーション

PSSNet: Planarity-sensible Semantic Segmentation of Large-scale Urban Meshes ( http://arxiv.org/abs/2202.03209v1 )

ライセンス: Link先を確認
Weixiao Gao, Liangliang Nan, Hugo Ledoux, Bas Boom(参考訳) テクスチャメッシュとして表現される3次元都市シーンを解釈する,新しいディープラーニングベースのフレームワークを提案する。 オブジェクト境界が一般的に平面領域の境界と一致するという観測に基づいて、我々のフレームワークは2つのステップでセマンティックセグメンテーションを実現します。 オーバーセグメンテーションステップは、都市景観の平面領域と非平面領域をキャプチャするメッシュセグメントの初期セットを生成する。 その後の分類ステップでは、ノードのセグメントの幾何学的および測光的特徴とエッジのマルチスケールな文脈的特徴をエンコードするグラフを構築する。 最終セマンティックセグメンテーションは、グラフ畳み込みネットワークを用いてセグメントを分類することによって得られる。 大規模セマンティクス都市メッシュベンチマークにおける実験と比較により,提案手法が境界品質と平均iouの点で最先端手法よりも優れていることが示された。 さらに、セマンティックセグメンテーション専用のメッシュオーバーセグメンテーション手法を評価するためのいくつかの新しいメトリクスを導入し、提案したオーバーセグメンテーションアプローチは、すべてのメトリクスで最先端のメソッドよりも優れています。 私たちのソースコードは、論文が受け入れられるとリリースされます。

We introduce a novel deep learning-based framework to interpret 3D urban scenes represented as textured meshes. Based on the observation that object boundaries typically align with the boundaries of planar regions, our framework achieves semantic segmentation in two steps: planarity-sensible over-segmentation followed by semantic classification. The over-segmentation step generates an initial set of mesh segments that capture the planar and non-planar regions of urban scenes. In the subsequent classification step, we construct a graph that encodes geometric and photometric features of the segments in its nodes and multi-scale contextual features in its edges. The final semantic segmentation is obtained by classifying the segments using a graph convolutional network. Experiments and comparisons on a large semantic urban mesh benchmark demonstrate that our approach outperforms the state-of-the-art methods in terms of boundary quality and mean IoU (intersection over union). Besides, we also introduce several new metrics for evaluating mesh over-segmentation methods dedicated for semantic segmentation, and our proposed over-segmentation approach outperforms state-of-the-art methods on all metrics. Our source code will be released when the paper is accepted.
翻訳日:2022-02-08 16:36:19 公開日:2022-02-07
# (参考訳) 効率的なクロスビュービデオ検索のためのハイブリッドコントラスト量子化 [全文訳有]

Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval ( http://arxiv.org/abs/2202.03384v1 )

ライセンス: CC BY 4.0
Jinpeng Wang, Bin Chen, Dongliang Liao, Ziyun Zeng, Gongfu Li, Shu-Tao Xia, Jin Xu(参考訳) 近年の動画ベースのソーシャルプラットフォーム(YouTubeやTikTokなど)のブームにより、文問合せによるビデオ検索が重要な需要となり、研究の注目を集めている。 優れた性能にもかかわらず、視覚と言語コミュニティにおける既存のテキストビデオ検索モデルは、大規模なWeb検索には実用的ではない。 効率を向上させるため、web検索エンジンは学習した埋め込みの処理にベクトル圧縮ライブラリ(例えばfaiss)を広く適用している。 残念ながら、特徴符号化とは別の圧縮は表現の堅牢性を低下させ、性能低下を引き起こす。 性能と効率のバランスを改善するために,クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization (HCQ)を提案する。 具体的には、hcqは、テキストやビデオの補完的な理解を提供し、包括的な意味情報を保存するトランスフォーマーで粗粒度と細粒度の両方を学習する。 AQ-CL(Asymmetric-Qua ntized Contrastive Learning)をビュー全体にわたって実行することにより、HCQはテキストとビデオを粗い粒度と複数のきめ細かいレベルで調整する。 このハイブリッドな粒度の学習戦略は、異なるレベルのコントラスト学習を相互に促進できるクロスビュービデオ量子化モデルに強い監督を与える。 3つのWebビデオベンチマークデータセットの大規模な実験により、HCQは最先端の非圧縮検索手法と競合し、ストレージと計算の効率が高いことを示す。 コードと構成はhttps://github.com/g impong/www22-hcqで確認できる。

With the recent boom of video-based social platforms (e.g., YouTube and TikTok), video retrieval using sentence queries has become an important demand and attracts increasing research attention. Despite the decent performance, existing text-video retrieval models in vision and language communities are impractical for large-scale Web search because they adopt brute-force search based on high-dimensional embeddings. To improve efficiency, Web search engines widely apply vector compression libraries (e.g., FAISS) to post-process the learned embeddings. Unfortunately, separate compression from feature encoding degrades the robustness of representations and incurs performance decay. To pursue a better balance between performance and efficiency, we propose the first quantized representation learning method for cross-view video retrieval, namely Hybrid Contrastive Quantization (HCQ). Specifically, HCQ learns both coarse-grained and fine-grained quantizations with transformers, which provide complementary understandings for texts and videos and preserve comprehensive semantic information. By performing Asymmetric-Quantized Contrastive Learning (AQ-CL) across views, HCQ aligns texts and videos at coarse-grained and multiple fine-grained levels. This hybrid-grained learning strategy serves as strong supervision on the cross-view video quantization model, where contrastive learning at different levels can be mutually promoted. Extensive experiments on three Web video benchmark datasets demonstrate that HCQ achieves competitive performance with state-of-the-art non-compressed retrieval methods while showing high efficiency in storage and computation. Code and configurations are available at https://github.com/g impong/WWW22-HCQ.
翻訳日:2022-02-08 16:34:09 公開日:2022-02-07
# 異なるスーパービジョン信号から導出される文埋め込みの比較と組み合わせ

Comparison and Combination of Sentence Embeddings Derived from Different Supervision Signals ( http://arxiv.org/abs/2202.02990v1 )

ライセンス: Link先を確認
Hayato Tsukagoshi, Ryohei Sasano, Koichi Takeda(参考訳) 近年,文埋め込み手法の応用が数多く成功している。 しかし, 文の埋め込みによってどのような特性が捉えられるかは, 監督信号によってはよく分かっていない。 本稿では,自然言語推論(nli)データセットと定義文を用いて,単語辞書から得られる2種類の文埋め込みに着目し,その特性を2つの視点で分割されたstsデータを用いた意味的テキスト類似性(sts)タスクと比較した。 1) 文の出所,及び 2) 文対の表層的類似性, 下流および探索作業における性能について検討した。 また,これら2つの組込みを組み合わせることで,教師なしのstsタスクと下流タスクの各モデルよりも性能が大幅に向上することを示す。

We have recently seen many successful applications of sentence embedding methods. It has not been well understood, however, what kind of properties are captured in the resulting sentence embeddings, depending on the supervision signals. In this paper, we focus on two types of sentence embeddings obtained by using natural language inference (NLI) datasets and definition sentences from a word dictionary and investigate their properties by comparing their performance with the semantic textual similarity (STS) task using the STS data partitioned by two perspectives: 1) the sources of sentences, and 2) the superficial similarity of the sentence pairs, and their performance on the downstream and probing tasks. We also demonstrate that combining the two types of embeddings yields substantially better performances than respective models on unsupervised STS tasks and downstream tasks.
翻訳日:2022-02-08 16:08:32 公開日:2022-02-07
# オープンドメインダイアログによる学習に向けて

Towards Learning Through Open-Domain Dialog ( http://arxiv.org/abs/2202.03040v1 )

ライセンス: Link先を確認
Eug\'enio Ribeiro, Ricardo Ribeiro, and David Martins de Matos(参考訳) ドメインの制約なしにダイアログを通じて学習できる人工エージェントの開発は、マシンが人間と同じような方法でタスクの実行方法を学習し、それらとの関係を変える可能性を秘めている。 しかし、この地域の研究は事実上存在しない。 本稿では,対話システムにおいてダイアログから学習するために必要な変更点を特定し,それらの修正の実装に使用できる汎用的なアプローチを提案する。 より具体的には、ダイアログから知識を抽出し、エージェントのセマンティックネットワークの更新に使用し、行動と観察に基礎を置く方法について論じる。 このようにして、私たちはこの主題に対する認識を高め、将来研究の焦点になることを期待しています。

The development of artificial agents able to learn through dialog without domain restrictions has the potential to allow machines to learn how to perform tasks in a similar manner to humans and change how we relate to them. However, research in this area is practically nonexistent. In this paper, we identify the modifications required for a dialog system to be able to learn from the dialog and propose generic approaches that can be used to implement those modifications. More specifically, we discuss how knowledge can be extracted from the dialog, used to update the agent's semantic network, and grounded in action and observation. This way, we hope to raise awareness for this subject, so that it can become a focus of research in the future.
翻訳日:2022-02-08 16:06:15 公開日:2022-02-07
# 署名言語から音声言語への機械翻訳 -最先端技術と課題-

Machine Translation from Signed to Spoken Languages: State of the Art and Challenges ( http://arxiv.org/abs/2202.03086v1 )

ライセンス: Link先を確認
Mathieu De Coster, Dimitar Shterionov, Mieke Van Herreweghe, Joni Dambre(参考訳) 符号付き言語から音声言語への自動翻訳は、コンピュータビジョン、機械翻訳、言語学の交差点に位置する学際的な研究分野である。 しかし、この領域の研究は主にコンピュータ科学者が単独で行っている。 この領域がますます普及するにつれて、手話翻訳の話題に関する科学論文の大部分は、過去3年間に出版されている。 自動手話翻訳の要件を説明するため,手話言語学と機械翻訳の高レベルな紹介を行う。 本稿では,ドメイン内の技術状況を説明するための体系的な文献レビューを行い,その要件を振り返って,今後の研究の課題をいくつか紹介する。 音声機械翻訳研究の肩に重要な進歩が見られた。 しかし、現在のアプローチは言語的に動機づけられたり、手話の異なる入力モダリティに適応しないことが多い。 我々は,手話データの表現,データセットの収集,学際的な研究の必要性,研究を超えてアプリケーションに移行するための要件などについて検討する。 本研究は,手話の言語分析における学際研究と今後の研究の基盤となるものと考えられる。 さらに,手話翻訳アプリケーションにおける聴覚障害や聴覚障害をユースケース識別,データ収集,評価に含めることは,手話翻訳モデルの作成において最も重要である。 我々は手話翻訳モデルの設計と開発を反復的に行うことを推奨する。

Automatic translation from signed to spoken languages is an interdisciplinary research domain, lying on the intersection of computer vision, machine translation and linguistics. Nevertheless, research in this domain is performed mostly by computer scientists in isolation. As the domain is becoming increasingly popular - the majority of scientific papers on the topic of sign language translation have been published in the past three years - we provide an overview of the state of the art as well as some required background in the different related disciplines. We give a high-level introduction to sign language linguistics and machine translation to illustrate the requirements of automatic sign language translation. We present a systematic literature review to illustrate the state of the art in the domain and then, harking back to the requirements, lay out several challenges for future research. We find that significant advances have been made on the shoulders of spoken language machine translation research. However, current approaches are often not linguistically motivated or are not adapted to the different input modality of sign languages. We explore challenges related to the representation of sign language data, the collection of datasets, the need for interdisciplinary research and requirements for moving beyond research, towards applications. Based on our findings, we advocate for interdisciplinary research and to base future research on linguistic analysis of sign languages. Furthermore, the inclusion of deaf and hearing end users of sign language translation applications in use case identification, data collection and evaluation is of the utmost importance in the creation of useful sign language translation models. We recommend iterative, human-in-the-loop, design and development of sign language translation models.
翻訳日:2022-02-08 16:06:04 公開日:2022-02-07
# ヒューマンライクな読解プロセスによる文書レベルイベント抽出

Document-Level Event Extraction via Human-Like Reading Process ( http://arxiv.org/abs/2202.03092v1 )

ライセンス: Link先を確認
Shiyao Cui, Xin Cong, Bowen Yu, Tingwen Liu, Yucheng Wang, Jinqiao Shi(参考訳) ドキュメントレベルのイベント抽出(dee: document-level event extraction)は特に難しい。 第1の課題は、1つのイベントレコードの議論がドキュメント内の異なる文に収まることを意味し、第2の議論は1つのドキュメントを反映している。 本稿では,人間の読解認知に動機づけられて興味情報を抽出する手法として,hre(human reading inspired extractor for document events)を提案する。 具体的には、第1段階が文書を閲覧してイベントの発生を検知し、第2段階が特定のイベント引数を抽出する。 各具体的イベントロールに対して、精巧な読み上げは文から文字へ階層的に働き、文間での議論を見つけるため、散乱問題に取り組む。 一方、未検出事象を検出するために、大まかな読み出しを多層的に探索し、マルチイベント問題を処理する。 実験結果は,HREが先行競合法よりも優れていることを示す。

Document-level Event Extraction (DEE) is particularly tricky due to the two challenges it poses: scattering-arguments and multi-events. The first challenge means that arguments of one event record could reside in different sentences in the document, while the second one reflects one document may simultaneously contain multiple such event records. Motivated by humans' reading cognitive to extract information of interests, in this paper, we propose a method called HRE (Human Reading inspired Extractor for Document Events), where DEE is decomposed into these two iterative stages, rough reading and elaborate reading. Specifically, the first stage browses the document to detect the occurrence of events, and the second stage serves to extract specific event arguments. For each concrete event role, elaborate reading hierarchically works from sentences to characters to locate arguments across sentences, thus the scattering-arguments problem is tackled. Meanwhile, rough reading is explored in a multi-round manner to discover undetected events, thus the multi-events problem is handled. Experiment results show the superiority of HRE over prior competitive methods.
翻訳日:2022-02-08 16:05:44 公開日:2022-02-07
# 別の方法:ワードムーバー距離拡張の探求

Moving Other Way: Exploring Word Mover Distance Extensions ( http://arxiv.org/abs/2202.03119v1 )

ライセンス: Link先を確認
Ilya Smirnov, Ivan P. Yamshchikov(参考訳) モービル距離 (WMD) は、2つのテキストに対する一般的な意味的類似度である。 本論文は, WMDの拡張の可能性について考察する。 重み付け係数としてコーパス内の単語の頻度と単語ベクトル空間の幾何について実験を行った。 6つの文書分類データセット上でWMDの拡張性を検証する。 いくつかの拡張は、WMDよりもk-アネレスト近傍の分類誤差の方が良い結果を示す。

The word mover's distance (WMD) is a popular semantic similarity metric for two texts. This position paper studies several possible extensions of WMD. We experiment with the frequency of words in the corpus as a weighting factor and the geometry of the word vector space. We validate possible extensions of WMD on six document classification datasets. Some proposed extensions show better results in terms of the k-nearest neighbor classification error than WMD.
翻訳日:2022-02-08 16:05:26 公開日:2022-02-07
# 弱い監督とスパースデータを用いたロバスト対話状態追跡

Robust Dialogue State Tracking with Weak Supervision and Sparse Data ( http://arxiv.org/abs/2202.03354v1 )

ライセンス: Link先を確認
Michael Heck, Nurul Lubis, Carel van Niekerk, Shutong Feng, Christian Geishauser, Hsien-Chin Lin, Milica Ga\v{s}i\'c(参考訳) 対話状態追跡(DST)を新しいデータに一般化することは、トレーニング中の豊富なきめ細かい監督に依存しているため、特に困難である。 サンプルの間隔、分布シフト、新しい概念やトピックの発生は、しばしば推論中に深刻なパフォーマンス劣化を引き起こす。 本稿では,詳細な手動スパンラベルを必要とせずに抽出DSTモデルを構築するためのトレーニング戦略を提案する。 2つの新しい入力レベルのドロップアウト手法はサンプルスパーシティの負の影響を軽減する。 本稿では,アテンション機構を活用し,価値とスロット独立性をサポートする統一エンコーダを備えた新しいモデルアーキテクチャを提案する。 我々は,三重複写戦略dstと値マッチングの強みを組み合わせることにより,オントロジ独立の原理に違反することなく補完的予測の恩恵を受ける。 本実験は,手動ラベルなしでDSTモデルを訓練できることを実証した。 私たちのアーキテクチャとトレーニング戦略は、サンプルのスパーシリティ、新しい概念、トピックに対する堅牢性を改善し、様々なベンチマークにおける最先端のパフォーマンスをもたらします。 さらに、非対話データから効果的に学習するモデルの能力を強調します。

Generalising dialogue state tracking (DST) to new data is especially challenging due to the strong reliance on abundant and fine-grained supervision during training. Sample sparsity, distributional shift and the occurrence of new concepts and topics frequently lead to severe performance degradation during inference. In this paper we propose a training strategy to build extractive DST models without the need for fine-grained manual span labels. Two novel input-level dropout methods mitigate the negative impact of sample sparsity. We propose a new model architecture with a unified encoder that supports value as well as slot independence by leveraging the attention mechanism. We combine the strengths of triple copy strategy DST and value matching to benefit from complementary predictions without violating the principle of ontology independence. Our experiments demonstrate that an extractive DST model can be trained without manual span labels. Our architecture and training strategies improve robustness towards sample sparsity, new concepts and topics, leading to state-of-the-art performance on a range of benchmarks. We further highlight our model's ability to effectively learn from non-dialogue data.
翻訳日:2022-02-08 16:05:19 公開日:2022-02-07
# (参考訳) FrePGAN:周波数レベルの摂動を用いたロバストディープフェイク検出 [全文訳有]

FrePGAN: Robust Deepfake Detection Using Frequency-level Perturbations ( http://arxiv.org/abs/2202.03347v1 )

ライセンス: CC BY 4.0
Yonghyun Jeong, Doyeon Kim, Youngmin Ro, Jongwon Choi(参考訳) 様々なディープフェイク検出器が提案されているが、トレーニング設定外の未知のカテゴリやGANモデルのイメージを検出することは依然として課題である。 このような問題は、私たち自身の分析と過去の研究から、生成された画像の周波数レベルのアーティファクトから得られたオーバーフィッティング問題に端を発する。 周波数レベルのアーティファクトを無視することで、様々なGANモデルにわたる検出器の一般化を改善することができるが、訓練されたGANモデルのモデルの性能を低下させることができる。 そこで我々は,未知のGANモデルと未知のGANモデルの両方に対してディープフェイク検出器を一般化する枠組みを設計する。 本フレームワークは,実画像と区別できないような周波数レベルの摂動マップを生成する。 deepfake検出器を摂動発生器のトレーニングとともに更新することにより、初期イテレーションで周波数レベルのアーティファクトを検出し、最後のイテレーションでイメージレベルの不規則性を検討するように訓練する。 実験のために、GANモデル、色操作、オブジェクトカテゴリのトレーニング設定から異なる新しいテストシナリオを設計する。 ディープフェイク検出器の最先端性能を検証する実験が数多く行われた。

Various deepfake detectors have been proposed, but challenges still exist to detect images of unknown categories or GAN models outside of the training settings. Such issues arise from the overfitting issue, which we discover from our own analysis and the previous studies to originate from the frequency-level artifacts in generated images. We find that ignoring the frequency-level artifacts can improve the detector's generalization across various GAN models, but it can reduce the model's performance for the trained GAN models. Thus, we design a framework to generalize the deepfake detector for both the known and unseen GAN models. Our framework generates the frequency-level perturbation maps to make the generated images indistinguishable from the real images. By updating the deepfake detector along with the training of the perturbation generator, our model is trained to detect the frequency-level artifacts at the initial iterations and consider the image-level irregularities at the last iterations. For experiments, we design new test scenarios varying from the training settings in GAN models, color manipulations, and object categories. Numerous experiments validate the state-of-the-art performance of our deepfake detector.
翻訳日:2022-02-08 16:02:44 公開日:2022-02-07
# メッセージパッシング型ニューラルPDE解法

Message Passing Neural PDE Solvers ( http://arxiv.org/abs/2202.03376v1 )

ライセンス: Link先を確認
Johannes Brandstetter, Daniel Worrall, Max Welling(参考訳) 偏微分方程式(PDE)の数値解は困難であり、これまでの1世紀にわたる研究に繋がった。 近年,完全エンド・ツー・エンド学習システムへの最新のトレンドを裏付ける,ニューラルネットワーク-数値ハイブリッドソルバの開発が進められている。 これまでのほとんどの研究は、分解、位相、幾何学、境界条件、領域の離散化正則性、次元性など、一般的な解法が直面するような性質のサブセットにのみ一般化できる。 本研究では,計算グラフ内のヒューリスティックに設計されたすべてのコンポーネントを,バックプロップ最適化されたニューラル関数近似器に置き換えることで,これらの特性を満たす解法を構築する。 本稿では, 有限差分, 有限体積, WENOスキームなどの古典的手法を表現的に含んでいることを示す。 自己回帰モデルの訓練における安定性を高めるために,ゼロ安定性の原理に基づく手法を提案し,ドメイン適応問題として安定性を呈する。 各種流体流問題に対する本手法の有効性を検証し, 異なる領域のトポロジ, 離散化等における高速, 安定, 高精度な性能を示す。 本モデルでは,低分解能状態における最先端数値解法の性能を,速度と精度で向上させる。

The numerical solution of partial differential equations (PDEs) is difficult, having led to a century of research so far. Recently, there have been pushes to build neural--numerical hybrid solvers, which piggy-backs the modern trend towards fully end-to-end learned systems. Most works so far can only generalize over a subset of properties to which a generic solver would be faced, including: resolution, topology, geometry, boundary conditions, domain discretization regularity, dimensionality, etc. In this work, we build a solver, satisfying these properties, where all the components are based on neural message passing, replacing all heuristically designed components in the computation graph with backprop-optimized neural function approximators. We show that neural message passing solvers representationally contain some classical methods, such as finite differences, finite volumes, and WENO schemes. In order to encourage stability in training autoregressive models, we put forward a method that is based on the principle of zero-stability, posing stability as a domain adaptation problem. We validate our method on various fluid-like flow problems, demonstrating fast, stable, and accurate performance across different domain topologies, discretization, etc. in 1D and 2D. Our model outperforms state-of-the-art numerical solvers in the low resolution regime in terms of speed and accuracy.
翻訳日:2022-02-08 15:47:01 公開日:2022-02-07
# コントラクタブル回路を用いた因果推論

Causal Inference Using Tractable Circuits ( http://arxiv.org/abs/2202.02891v1 )

ライセンス: Link先を確認
Adnan Darwiche(参考訳) 本研究の目的は,従来難解とされてきたモデルに対して,(未知の)因果的メカニズムの存在下での確率論的推論を抽出可能であることを示す。 この結果はモデルに基づく教師付き学習を容易にするために最近報告されたが、因果関係の文脈で次のように解釈できる。 非パラメトリック因果グラフを、回路サイズで線形な時間内の推論をサポートする演算回路にコンパイルすることができる。 この回路は非パラメトリックなので、データからパラメータを推定したり、これらの推定でパラメータ化された因果グラフについてさらに(線形時間に)推論することができる。 さらに、因果グラフのツリー幅がそうでなくても、回路サイズは境界化されることがあるため、以前に難解と見なされていたモデルの扱いやすい推論に繋がる。 これは、因果メカニズムを計算的に活用できるが、そのアイデンティティ(因果推論の古典的な設定)を知る必要がない新しい技術によって実現されている。 私たちの目標は、これらの新しい結果に対する因果性指向の露出を提供することと、彼らがよりスケーラブルで汎用的な因果推論にどのように貢献できるかを推測することにあります。

The aim of this paper is to discuss a recent result which shows that probabilistic inference in the presence of (unknown) causal mechanisms can be tractable for models that have traditionally been viewed as intractable. This result was reported recently to facilitate model-based supervised learning but it can be interpreted in a causality context as follows. One can compile a non-parametric causal graph into an arithmetic circuit that supports inference in time linear in the circuit size. The circuit is also non-parametric so it can be used to estimate parameters from data and to further reason (in linear time) about the causal graph parametrized by these estimates. Moreover, the circuit size can sometimes be bounded even when the treewidth of the causal graph is not, leading to tractable inference on models that have been deemed intractable previously. This has been enabled by a new technique that can exploit causal mechanisms computationally but without needing to know their identities (the classical setup in causal inference). Our goal is to provide a causality-oriented exposure to these new results and to speculate on how they may potentially contribute to more scalable and versatile causal inference.
翻訳日:2022-02-08 15:46:37 公開日:2022-02-07
# 不均一無線ネットワーク上での動的分散モデルトレーニングのための並列逐次学習

Parallel Successive Learning for Dynamic Distributed Model Training over Heterogeneous Wireless Networks ( http://arxiv.org/abs/2202.02947v1 )

ライセンス: Link先を確認
Seyyedali Hosseinalipour, Su Wang, Nicolo Michelusi, Vaneet Aggarwal, Christopher G. Brinton, David J. Love, Mung Chiang(参考訳) フェデレートラーニング(FedL)は,一連の無線デバイス上で,反復的なローカルアップデート(デバイス)とグローバルアグリゲーション(サーバ)を通じて,モデルトレーニングを分散する一般的なテクニックとして登場した。 本稿では,FedL アーキテクチャを3次元に拡張した <textit{parallel successive learning} (PSL) を開発する。 i)デバイス間通信(D2D)を介してデバイス間の分散協調を可能にするネットワーク。 (ii-a)学習:pslは、デバイスで異なるミニバッチサイズを持つ確率的勾配降下イテレーションの異種数を考慮し、(ii-b)データ:pslはデータの到着と出発を伴う動的環境を想定し、ローカルデータセットの分布は時間とともに進化し、モデル/コンセプトドリフトの新しいメトリックを介してキャプチャされる。 (ii-c) デバイス: PSLは計算能力と通信能力の異なるデバイスを考える。 (iii)近接、デバイス同士の距離とアクセスポイントが異なる。 pslは、資源効率の改善のためにそれらの間にアイドルタイムでグローバルアグリゲーションが実行され、データ分散とモデル分散と局所モデル凝縮をfederに組み込む現実的なシナリオを考察している。 我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。 次に、ネットワーク対応動的モデルトラッキングを提案し、モデル学習とリソース効率のトレードオフを最適化し、NPハードなシグナミカルプログラミング問題を示す。 最後に, 一般最適化解法を提案することで, この問題を解決した。 数値計算により,グローバルアグリゲーション,モデル/コンセプションドリフト,D2D協調構成の間におけるアイドル時間間の相互依存性が明らかになった。

Federated learning (FedL) has emerged as a popular technique for distributing model training over a set of wireless devices, via iterative local updates (at devices) and global aggregations (at the server). In this paper, we develop \textit{parallel successive learning} (PSL), which expands the FedL architecture along three dimensions: (i) Network, allowing decentralized cooperation among the devices via device-to-device (D2D) communications. (ii) Heterogeneity, interpreted at three levels: (ii-a) Learning: PSL considers heterogeneous number of stochastic gradient descent iterations with different mini-batch sizes at the devices; (ii-b) Data: PSL presumes a dynamic environment with data arrival and departure, where the distributions of local datasets evolve over time, captured via a new metric for model/concept drift. (ii-c) Device: PSL considers devices with different computation and communication capabilities. (iii) Proximity, where devices have different distances to each other and the access point. PSL considers the realistic scenario where global aggregations are conducted with idle times in-between them for resource efficiency improvements, and incorporates data dispersion and model dispersion with local model condensation into FedL. Our analysis sheds light on the notion of cold vs. warmed up models, and model inertia in distributed machine learning. We then propose network-aware dynamic model tracking to optimize the model learning vs. resource efficiency tradeoff, which we show is an NP-hard signomial programming problem. We finally solve this problem through proposing a general optimization solver. Our numerical results reveal new findings on the interdependencies between the idle times in-between the global aggregations, model/concept drift, and D2D cooperation configuration.
翻訳日:2022-02-08 15:46:17 公開日:2022-02-07
# DeoupleNetによる依存モデル評価と選択

Dependence model assessment and selection with DecoupleNets ( http://arxiv.org/abs/2202.03406v1 )

ライセンス: Link先を確認
Marius Hofert, Avinash Prasad, Mu Zhu(参考訳) ニューラルネットワークは、基礎となる依存構造を持つ$d$次元のサンプルから$d'$次元の多変量一様性へのマップを学ぶために提案されている。 このマップはDecoupleNetと呼ばれ、依存モデルの評価と選択に使われている。 データ生成依存モデルが知られ、それが数少ない解析的扱いやすいモデルであるなら、$d'=d$ の変換の一つはローゼンブラット変換である。 DecoupleNetsは利用可能なサンプルのみを必要とし、$d'<d$、特に$d'=2$に適用できる。 これにより、数値的にもグラフィカルに$d'=2$なので、情報を失うことなく、よりシンプルなモデル評価と選択が可能になる。 各種コーパスのデータに基づくシミュレーション研究を通じて,本手法の有効性と妥当性を実証した。 実世界データへの応用は、モデル評価と選択にその有用性を示している。

Neural networks are suggested for learning a map from $d$-dimensional samples with any underlying dependence structure to multivariate uniformity in $d'$ dimensions. This map, termed DecoupleNet, is used for dependence model assessment and selection. If the data-generating dependence model was known, and if it was among the few analytically tractable ones, one such transformation for $d'=d$ is Rosenblatt's transform. DecoupleNets only require an available sample and are applicable to $d'<d$, in particular $d'=2$. This allows for simpler model assessment and selection without loss of information, both numerically and, because $d'=2$, graphically. Through simulation studies based on data from various copulas, the feasibility and validity of this novel approach is demonstrated. Applications to real world data illustrate its usefulness for model assessment and selection.
翻訳日:2022-02-08 15:44:48 公開日:2022-02-07
# (参考訳) 地学における畳み込みニューラルネットワークの適用のための説明可能な人工知能手法の忠実性の検討

Investigating the fidelity of explainable artificial intelligence methods for applications of convolutional neural networks in geoscience ( http://arxiv.org/abs/2202.03407v1 )

ライセンス: CC BY 4.0
Antonios Mamalakis, Elizabeth A. Barnes and Imme Ebert-Uphoff(参考訳) 畳み込みニューラルネットワーク(cnns)は最近、非線形システムの振る舞いを捉え、予測時空間パターンを抽出する能力により、地球科学に大きな注目を集めている。 しかし、そのブラックボックスの性質と予測可能性の重要性から、CNN意思決定戦略を説明する手段として、説明可能な人工知能(XAI)の手法が人気を集めている。 ここでは,最もポピュラーなXAI手法の相互比較を確立し,地質学的応用のためのCNN決定を説明する上で,それらの忠実さについて検討する。 我々の目標は、これらの方法の理論的限界に対する認識を高め、ベストプラクティスを導くのに役立つ相対的な強みと弱みについての洞察を得ることです。 XAI法はまず、ネットワークの説明の根底にある真理が先行性として知られ、その性能を客観的に評価する理想的な帰属ベンチマークに適用される。 第2に,気象シミュレーションの日々のスナップショットで大気河川の数を予測するように訓練されたcnnを説明するために,xaiを気候関連予測環境に適用する。 以上の結果から,XAI手法のいくつかの重要な課題(例えば,勾配の破砕,帰属のサインの識別能力の欠如,入力の無知など)が浮き彫りにされ,慎重に考えなければ,CNNの意思決定戦略の歪んだイメージに繋がる可能性が示唆された。 我々は,我々の分析がXAIの忠実性に関するさらなる調査の動機となり,地球科学におけるXAIの慎重な実装に寄与し,CNNのさらなる活用と予測問題へのディープラーニングに寄与することを期待している。

Convolutional neural networks (CNNs) have recently attracted great attention in geoscience due to their ability to capture non-linear system behavior and extract predictive spatiotemporal patterns. Given their black-box nature however, and the importance of prediction explainability, methods of explainable artificial intelligence (XAI) are gaining popularity as a means to explain the CNN decision-making strategy. Here, we establish an intercomparison of some of the most popular XAI methods and investigate their fidelity in explaining CNN decisions for geoscientific applications. Our goal is to raise awareness of the theoretical limitations of these methods and gain insight into the relative strengths and weaknesses to help guide best practices. The considered XAI methods are first applied to an idealized attribution benchmark, where the ground truth of explanation of the network is known a priori, to help objectively assess their performance. Secondly, we apply XAI to a climate-related prediction setting, namely to explain a CNN that is trained to predict the number of atmospheric rivers in daily snapshots of climate simulations. Our results highlight several important issues of XAI methods (e.g., gradient shattering, inability to distinguish the sign of attribution, ignorance to zero input) that have previously been overlooked in our field and, if not considered cautiously, may lead to a distorted picture of the CNN decision-making strategy. We envision that our analysis will motivate further investigation into XAI fidelity and will help towards a cautious implementation of XAI in geoscience, which can lead to further exploitation of CNNs and deep learning for prediction problems.
翻訳日:2022-02-08 15:43:55 公開日:2022-02-07
# ディープナローニューラルネットワークのニューラルタンジェントカーネル解析

Neural Tangent Kernel Analysis of Deep Narrow Neural Networks ( http://arxiv.org/abs/2202.02981v1 )

ライセンス: Link先を確認
Jongmin Lee, Joo Young Choi, Ernest K. Ryu, Albert No(参考訳) 過パラメータニューラルネットワークのトレーニングダイナミクスの分析における最近の大きな進歩は、主に広いネットワークに焦点を当てているため、ディープラーニングにおける奥行きの役割には十分対応していない。 本研究では、無限に深いが狭いニューラルネットワークの最初のトレーニング可能性保証を示す。 我々は,マルチ層パーセプトロン(MLP)の無限深さ限界を特定の初期化で検討し,NTK理論を用いたトレーニング可能性保証を確立する。 その後、分析を無限深部畳み込みニューラルネットワーク(CNN)に拡張し、簡単な実験を行う。

The tremendous recent progress in analyzing the training dynamics of overparameterized neural networks has primarily focused on wide networks and therefore does not sufficiently address the role of depth in deep learning. In this work, we present the first trainability guarantee of infinitely deep but narrow neural networks. We study the infinite-depth limit of a multilayer perceptron (MLP) with a specific initialization and establish a trainability guarantee using the NTK theory. We then extend the analysis to an infinitely deep convolutional neural network (CNN) and perform brief experiments
翻訳日:2022-02-08 15:37:41 公開日:2022-02-07
# 部分単調性を用いた部分モジュラー最大化

Using Partial Monotonicity in Submodular Maximization ( http://arxiv.org/abs/2202.03051v1 )

ライセンス: Link先を確認
Loay Mualem and Moran Feldman(参考訳) 過去20年間で、サブモジュラー関数の最大化は、機械学習アプリケーションにおける多くの離散最適化問題の課題となっている。 伝統的に、部分モジュラ関数の研究は二元関数の性質に基づいている。 しかし、そのような性質には継承の弱点があり、アルゴリズムが特定の性質を持つ関数を仮定すると、その特性に違反する関数に対する保証は提供されない。 そのため、最近の研究は函数特性の連続バージョンを考察し始めた。 これらのうち(今のところ)おそらく最も重要なのは、亜モジュラリティ比と曲率であり、これらが広範囲にまた別々に研究された。 集合函数の単調性は部分モジュラー最大化において中心的な役割を果たす。 それでも、上記のすべての作品にもかかわらず、このプロパティの継続的なバージョンは、現在まで(我々が知る限り)提案されていない。 これは、ほとんど単調な部分モジュラー関数が機械学習アプリケーションでしばしば発生するため不運である。 本研究では、単調性特性の連続バージョンである単調性比を定義することにより、このギャップを埋める。 そして、多くの標準部分モジュラー最大化アルゴリズムにおいて、単調性比に依存する新しい近似保証を証明できることを示し、映画推薦、二次プログラミング、画像要約の一般的な機械学習応用に対する近似比率を改善する。

Over the last two decades, submodular function maximization has been the workhorse of many discrete optimization problems in machine learning applications. Traditionally, the study of submodular functions was based on binary function properties. However, such properties have an inherit weakness, namely, if an algorithm assumes functions that have a particular property, then it provides no guarantee for functions that violate this property, even when the violation is very slight. Therefore, recent works began to consider continuous versions of function properties. Probably the most significant among these (so far) are the submodularity ratio and the curvature, which were studied extensively together and separately. The monotonicity property of set functions plays a central role in submodular maximization. Nevertheless, and despite all the above works, no continuous version of this property has been suggested to date (as far as we know). This is unfortunate since submoduar functions that are almost monotone often arise in machine learning applications. In this work we fill this gap by defining the monotonicity ratio, which is a continues version of the monotonicity property. We then show that for many standard submodular maximization algorithms one can prove new approximation guarantees that depend on the monotonicity ratio; leading to improved approximation ratios for the common machine learning applications of movie recommendation, quadratic programming and image summarization.
翻訳日:2022-02-08 15:37:31 公開日:2022-02-07
# 統計的生産システムのための対話型フィードバックループへの説明可能な教師付き機械学習の導入

Introducing explainable supervised machine learning into interactive feedback loops for statistical production system ( http://arxiv.org/abs/2202.03212v1 )

ライセンス: Link先を確認
Carlos Mougan, George Kanellos, Johannes Micheler, Jose Martinez, Thomas Gottron(参考訳) 統計生産システムは、データの収集、集約、統合からデータ品質保証や普及といったタスクまで、複数のステップをカバーする。 データ品質保証のコンテキストは機械学習を適用する上で最も有望な分野の1つであるが、キュレートされたラベル付きトレーニングデータの欠如はしばしば制限要因である。 中央化証券データベースの統計生産システムは、欧州中央銀行が収集したデータと、国立中央銀行のデータ品質管理者が行うデータ品質保証との間の対話的なフィードバックループを特徴としている。 品質保証フィードバックループは、ユーザがデータを確認したり、実際のエラーを修正したりするための、一連のルールベースのチェックに基づいています。 本稿では,このフィードバックループから受信した情報を用いて,国立中央銀行に提示される例外を最適化し,それらの例外を認証するユーザによる,システム上で発生する例外の質と時間を改善する。 このアプローチでは、説明可能な教師付き機械学習を利用する。 (a)例外の種類を特定して b) NCBによる介入又は修正を必要とする可能性のある例外を優先すること。 さらに、プロジェクト中に生じたさまざまな説明可能なAIニーズを特定することを目的とした、説明可能なAI分類を提供する。

Statistical production systems cover multiple steps from the collection, aggregation, and integration of data to tasks like data quality assurance and dissemination. While the context of data quality assurance is one of the most promising fields for applying machine learning, the lack of curated and labeled training data is often a limiting factor. The statistical production system for the Centralised Securities Database features an interactive feedback loop between data collected by the European Central Bank and data quality assurance performed by data quality managers at National Central Banks. The quality assurance feedback loop is based on a set of rule-based checks for raising exceptions, upon which the user either confirms the data or corrects an actual error. In this paper we use the information received from this feedback loop to optimize the exceptions presented to the National Central Banks thereby improving the quality of exceptions generated and the time consumed on the system by the users authenticating those exceptions. For this approach we make use of explainable supervised machine learning to (a) identify the types of exceptions and (b) to prioritize which exceptions are more likely to require an intervention or correction by the NCBs. Furthermore, we provide an explainable AI taxonomy aiming to identify the different explainable AI needs that arose during the project.
翻訳日:2022-02-08 15:37:09 公開日:2022-02-07
# 固定重み付き単層ニューラルネットワークの近似誤差

Approximation error of single hidden layer neural networks with fixed weights ( http://arxiv.org/abs/2202.03289v1 )

ライセンス: Link先を確認
Vugar Ismailov(参考訳) 本稿では,2つの固定重みを持つ単一層ニューラルネットワークの近似誤差の明示的な式を提供する。

This paper provides an explicit formula for the approximation error of single hidden layer neural networks with two fixed weights.
翻訳日:2022-02-08 15:36:50 公開日:2022-02-07
# グラスマン・スタイン変分勾配降下

Grassmann Stein Variational Gradient Descent ( http://arxiv.org/abs/2202.03297v1 )

ライセンス: Link先を確認
Xing Liu, Harrison Zhu, Jean-Fran\c{c}ois Ton, George Wynne, Andrew Duncan(参考訳) スタイン変分勾配降下(SVGD)は、マルコフ連鎖モンテカルロの効率的な代替となる決定論的粒子推論アルゴリズムである。 しかし, SVGDは, 対象分布の次元性が高い場合, 分散過小評価に悩まされている。 近年の進歩は、スコア関数とデータの両方を実際のラインに投影してこの問題を横取りすることを提唱しているが、これはてんかん(モデル)の不確実性を著しく過大評価する可能性がある。 本研究では、任意の次元部分空間への射影を可能にする代替アプローチとして、グラスマンシュタイン変分勾配降下(GSVGD)を提案する。 次元減少に依存する他のSVGDの変種と比較して、GSVGDはスコア関数とデータに対してプロジェクターを同時に更新し、最適なプロジェクターは、好ましい部分空間を探索する結合グラスマン値拡散過程によって決定される。 我々の理論および実験の結果から,gsvgdは固有低次元構造を持つ高次元問題において,効率的な状態空間探索を享受できることが示唆された。

Stein variational gradient descent (SVGD) is a deterministic particle inference algorithm that provides an efficient alternative to Markov chain Monte Carlo. However, SVGD has been found to suffer from variance underestimation when the dimensionality of the target distribution is high. Recent developments have advocated projecting both the score function and the data onto real lines to sidestep this issue, although this can severely overestimate the epistemic (model) uncertainty. In this work, we propose Grassmann Stein variational gradient descent (GSVGD) as an alternative approach, which permits projections onto arbitrary dimensional subspaces. Compared with other variants of SVGD that rely on dimensionality reduction, GSVGD updates the projectors simultaneously for the score function and the data, and the optimal projectors are determined through a coupled Grassmann-valued diffusion process which explores favourable subspaces. Both our theoretical and experimental results suggest that GSVGD enjoys efficient state-space exploration in high-dimensional problems that have an intrinsic low-dimensional structure.
翻訳日:2022-02-08 15:36:47 公開日:2022-02-07
# 低レベル収縮による2レベル最適化:ウォームスタートのない最適サンプル複雑性

Bilevel Optimization with a Lower-level Contraction: Optimal Sample Complexity without Warm-Start ( http://arxiv.org/abs/2202.03397v1 )

ライセンス: Link先を確認
Riccardo Grazzi, Massimiliano Pontil, Saverio Salzo(参考訳) 両レベル問題の一般的なクラスを解析し、上層問題は滑らかな対象関数の最小化であり、下層問題は滑らかな縮約写像の固定点を見つけることである。 この種の問題には、メタラーニング、ハイパーパラメータ最適化、データ中毒攻撃などがある。 低レベル問題を暖かく開始するアルゴリズム、すなわち、以前の低レベル近似解を低レベル解の凝視点として使用するアルゴリズムが提案されている。 このウォームスタート手順により、確率的および決定論的設定の両方においてサンプル複雑性を改善でき、場合によってはオーダーワイズ最適サンプル複雑性を達成することができる。 ウォームスタートがなければ,確率的および決定論的設定において,オーダーワイズ最適およびほぼ最適なサンプル複雑性をそれぞれ達成できることを示す。 特に,下層における確率的不動点反復と上層における射影的不動勾配降下を用いた簡単な手法を提案する。これは,確率的および決定論的設定に対してそれぞれ$O(\epsilon^{-2})$および$\tilde{O}(\epsilon^{-1})$サンプルを用いて$\epsilon$-stationar y点に達する。 ウォームスタートを使用する手法と比較して、我々の手法はメタラーニングに適しており、上位レベルと下位レベルのイテレートの結合相互作用を研究する必要のない、より単純な分析結果が得られる。

We analyze a general class of bilevel problems, in which the upper-level problem consists in the minimization of a smooth objective function and the lower-level problem is to find the fixed point of a smooth contraction map. This type of problems include instances of meta-learning, hyperparameter optimization and data poisoning adversarial attacks. Several recent works have proposed algorithms which warm-start the lower-level problem, i.e. they use the previous lower-level approximate solution as a staring point for the lower-level solver. This warm-start procedure allows one to improve the sample complexity in both the stochastic and deterministic settings, achieving in some cases the order-wise optimal sample complexity. We show that without warm-start, it is still possible to achieve order-wise optimal and near-optimal sample complexity for the stochastic and deterministic settings, respectively. In particular, we propose a simple method which uses stochastic fixed point iterations at the lower-level and projected inexact gradient descent at the upper-level, that reaches an $\epsilon$-stationar y point using $O(\epsilon^{-2})$ and $\tilde{O}(\epsilon^{-1})$ samples for the stochastic and the deterministic setting, respectively. Compared to methods using warm-start, ours is better suited for meta-learning and yields a simpler analysis that does not need to study the coupled interactions between the upper-level and lower-level iterates.
翻訳日:2022-02-08 15:34:33 公開日:2022-02-07
# (参考訳) 伝達学習評価のための簡易制御ベースライン [全文訳有]

Simple Control Baselines for Evaluating Transfer Learning ( http://arxiv.org/abs/2202.03365v1 )

ライセンス: CC BY 4.0
Andrei Atanov, Shijian Xu, Onur Beker, Andrei Filatov, Amir Zamir(参考訳) 転校学習は近年,強化型コントラスト型自己教師付き学習手法の導入など,著しい進歩を遂げている。 このようなモデルの転送性能に関する大規模な実証研究がいくつか行われているが、報告すべき制御基準、評価プラクティス、メトリクスのセットはまだ一致していない。 トランスファー学習性能の定量化とコミュニケーションを目的とした評価基準を,情報とアクセスの容易な設定で共有する。 これは、評価方法、特にブラインドグス(データセットバイアスの量子化)、スクラッチモデル(アーキテクチャ貢献の量子化)、最大スーパービジョン(上限の量子化)など、単純だが重要なコントロールベースラインを焼くことで実現される。 評価基準をどのように採用できるかを実証するために,自己教師付き学習に関するいくつかの基本的な質問を考察した。 例えば、この標準を用いて、既存の自己教師付き事前学習手法が画像分類タスクに対して、高密度ピクセルワイズ予測よりもスキューされていることを示す。 一般に,提案する制御ベースラインを用いて伝達学習の評価を行い,より意味のある情報的理解を得ることを推奨する。

Transfer learning has witnessed remarkable progress in recent years, for example, with the introduction of augmentation-based contrastive self-supervised learning methods. While a number of large-scale empirical studies on the transfer performance of such models have been conducted, there is not yet an agreed-upon set of control baselines, evaluation practices, and metrics to report, which often hinders a nuanced and calibrated understanding of the real efficacy of the methods. We share an evaluation standard that aims to quantify and communicate transfer learning performance in an informative and accessible setup. This is done by baking a number of simple yet critical control baselines in the evaluation method, particularly the blind-guess (quantifying the dataset bias), scratch-model (quantifying the architectural contribution), and maximal-supervision (quantifying the upper-bound). To demonstrate how the evaluation standard can be employed, we provide an example empirical study investigating a few basic questions about self-supervised learning. For example, using this standard, the study shows the effectiveness of existing self-supervised pre-training methods is skewed towards image classification tasks versus dense pixel-wise predictions. In general, we encourage using/reporting the suggested control baselines in evaluating transfer learning in order to gain a more meaningful and informative understanding.
翻訳日:2022-02-08 15:31:20 公開日:2022-02-07
# 多様性と曖昧さ:未特定データから学ぶ

Diversify and Disambiguate: Learning From Underspecified Data ( http://arxiv.org/abs/2202.03418v1 )

ライセンス: Link先を確認
Yoonho Lee, Huaxiu Yao, Chelsea Finn(参考訳) 多くのデータセットは特定されていないため、データに対して等しく実行可能なソリューションがいくつか存在する。 低トレーニング損失を達成する異なる関数は、異なる予測特徴に焦点を合わせ、分散データに広く異なる予測を持つため、単一の仮説を学習する手法では、不特定なデータセットが問題となる可能性がある。 テスト分布からラベルのないデータを活用することにより,まずタスクに対するさまざまな仮説を学習する,シンプルな2段階フレームワークであるDivDisを提案する。 次に,検出された仮説の1つを,付加ラベルの形で,あるいは機能可視化の検査という形で,最小限の追加監督で選択することで曖昧さを解消する。 我々はDivDisが画像分類や自然言語処理問題において頑健な特徴を用いた仮説を見つける能力を示す。

Many datasets are underspecified, which means there are several equally viable solutions for the data. Underspecified datasets can be problematic for methods that learn a single hypothesis because different functions that achieve low training loss can focus on different predictive features and thus have widely varying predictions on out-of-distribution data. We propose DivDis, a simple two-stage framework that first learns a diverse collection of hypotheses for a task by leveraging unlabeled data from the test distribution. We then disambiguate by selecting one of the discovered hypotheses using minimal additional supervision, in the form of additional labels or inspection of function visualization. We demonstrate the ability of DivDis to find hypotheses that use robust features in image classification and natural language processing problems with underspecification.
翻訳日:2022-02-08 15:15:30 公開日:2022-02-07
# コントラスト信号を用いたデータセット凝縮

Dataset Condensation with Contrastive Signals ( http://arxiv.org/abs/2202.02916v1 )

ライセンス: Link先を確認
Saehyung Lee, Sanghyuk Chun, Sangwon Jung, Sangdoo Yun, Sungroh Yoon(参考訳) 近年の研究では、勾配マッチングに基づくデータセット合成(dataset condensation:dc)が、データ効率のよい学習タスクに適用することで、最先端のパフォーマンスを達成できることが示されている。 しかし,本研究では,タスク関連情報がトレーニングデータセットの重要な部分を形成する場合,既存のDC手法は,ランダム選択法よりも性能が劣ることを示した。 これはクラス毎の勾配マッチング戦略によるクラス間のコントラスト信号の関与の欠如を特徴としている。 この問題に対処するために,クラス間の差異を効果的に捉えるために,損失関数を変更することでコントラスト信号(DCC)を用いたデータセット凝縮を提案する。 さらに,カーネルの速度を追跡することで,新たな損失関数をトレーニングダイナミクスの観点から解析する。 さらに,最適化を安定化するために,バイレベルウォームアップ戦略を導入する。 実験の結果,既存の手法はきめ細かな画像分類作業には有効ではないが,提案手法は同一タスクに対して情報的合成データセットを生成できることが示唆された。 さらに,提案手法は,SVHN,CIFAR-10,CIFAR -100などのベンチマークデータセットにおいても,ベースラインよりも優れていることを示す。 最後に,提案手法を連続学習タスクに適用することにより,高い適用性を示す。

Recent studies have demonstrated that gradient matching-based dataset synthesis, or dataset condensation (DC), methods can achieve state-of-the-art performance when applied to data-efficient learning tasks. However, in this study, we prove that the existing DC methods can perform worse than the random selection method when task-irrelevant information forms a significant part of the training dataset. We attribute this to the lack of participation of the contrastive signals between the classes resulting from the class-wise gradient matching strategy. To address this problem, we propose Dataset Condensation with Contrastive signals (DCC) by modifying the loss function to enable the DC methods to effectively capture the differences between classes. In addition, we analyze the new loss function in terms of training dynamics by tracking the kernel velocity. Furthermore, we introduce a bi-level warm-up strategy to stabilize the optimization. Our experimental results indicate that while the existing methods are ineffective for fine-grained image classification tasks, the proposed method can successfully generate informative synthetic datasets for the same tasks. Moreover, we demonstrate that the proposed method outperforms the baselines even on benchmark datasets such as SVHN, CIFAR-10, and CIFAR-100. Finally, we demonstrate the high applicability of the proposed method by applying it to continual learning tasks.
翻訳日:2022-02-08 15:12:16 公開日:2022-02-07
# 十分データの分析的定義に向けて

Towards an Analytical Definition of Sufficient Data ( http://arxiv.org/abs/2202.03238v1 )

ライセンス: Link先を確認
Adam Byerly and Tatiana Kalganova(参考訳) 複雑性が増大する5つのデータセットのそれぞれに対して、特定のトレーニングサンプルはクラスメンバーシップに関して他のものよりも有益であることを示す。 これらのサンプルは、クラスのセントロイドに対する縮小次元空間におけるそれらの位置を解析することにより、トレーニングの事前を特定できる。 具体的には, クラスのセントロイドに近いサンプルは, それらから最も遠ざかるサンプルよりも, 情報に乏しいことを実証する。 5つのデータセットすべてにおいて、トレーニングセット全体のトレーニングと、各クラスのcentroidに最も近いデータの最大2%を除外した場合の、統計的に有意な差は認められていない。

We show that, for each of five datasets of increasing complexity, certain training samples are more informative of class membership than others. These samples can be identified a priori to training by analyzing their position in reduced dimensional space relative to the classes' centroids. Specifically, we demonstrate that samples nearer the classes' centroids are less informative than those that are furthest from it. For all five datasets, we show that there is no statistically significant difference between training on the entire training set and when excluding up to 2% of the data nearest to each class's centroid.
翻訳日:2022-02-08 15:11:56 公開日:2022-02-07
# 主観的適応脳波に基づく視覚認識のための物体間コントラスト学習

Inter-subject Contrastive Learning for Subject Adaptive EEG-based Visual Recognition ( http://arxiv.org/abs/2202.02901v1 )

ライセンス: Link先を確認
Pilhyeon Lee, Sunhee Hwang, Jewook Lee, Minjung Shin, Seogkyu Jeon, Hyeran Byun(参考訳) 本稿では,被験者適応脳波に基づく視覚認識の問題に取り組む。 その目標は、訓練中に対象被験者のサンプルをほんのわずかしか持たない脳波信号に基づいて、視覚刺激のカテゴリを正確に予測することである。 鍵となる課題は、情報源の豊富なデータから得られた知識を関心の対象に適切に転送する方法である。 そこで本研究では,同じクラスを共有する特徴の類似性を高めることで,対象非依存表現の学習を可能にする手法を提案する。 専用サンプリング原理により,本モデルは異なる被験者間で共有される共通知識を効果的に捉え,限られたデータで過酷な状況下でも対象被験者に有望な性能を与える。 具体的には、EEG-ImageNet40ベンチマークにおいて、対象対象に対して1クラスにつき5つのEEGサンプルしか使用しない場合、トップ1/トップ3テスト精度72.6%/91.6%を記録します。 私たちのコードはhttps://github.com/D eepBCI/Deep-BCI/tree /master/1_Intelligen t_BCI/Inter_Subject_ Contrastive_Learning _for_EEGで利用可能です。

This paper tackles the problem of subject adaptive EEG-based visual recognition. Its goal is to accurately predict the categories of visual stimuli based on EEG signals with only a handful of samples for the target subject during training. The key challenge is how to appropriately transfer the knowledge obtained from abundant data of source subjects to the subject of interest. To this end, we introduce a novel method that allows for learning subject-independent representation by increasing the similarity of features sharing the same class but coming from different subjects. With the dedicated sampling principle, our model effectively captures the common knowledge shared across different subjects, thereby achieving promising performance for the target subject even under harsh problem settings with limited data. Specifically, on the EEG-ImageNet40 benchmark, our model records the top-1 / top-3 test accuracy of 72.6% / 91.6% when using only five EEG samples per class for the target subject. Our code is available at https://github.com/D eepBCI/Deep-BCI/tree /master/1_Intelligen t_BCI/Inter_Subject_ Contrastive_Learning _for_EEG.
翻訳日:2022-02-08 15:11:23 公開日:2022-02-07
# リダクタ:確率的決定境界を用いた目標情報生成

Redactor: Targeted Disinformation Generation using Probabilistic Decision Boundaries ( http://arxiv.org/abs/2202.02902v1 )

ライセンス: Link先を確認
Geon Heo, Steven Euijong Whang(参考訳) さまざまな情報が誤って公開され、機械学習モデルがそのデータをトレーニングしてサービスを提供するため、情報漏洩は重要な問題になりつつある。 その結果、個人の情報はそのような訓練されたモデルによって容易に記憶される。 残念ながら、データがすでにWebやサードパーティのプラットフォームに公開されているため、情報の削除は問題外だ。 また,他者によるラベル付けプロセスやモデルトレーニングも必ずしも制御できない。 本研究では,特定の対象(例えば,人物のプロファイル)に対する推論攻撃の精度をデータ挿入のみを用いて低下させることを目標とする,標的不知の問題を考察する。 私たちの問題はデータプライバシや探索攻撃に対する防御に関係していますが、この技術はターゲットとするデータ中毒攻撃に触発され、いくつかの重要な違いがあります。 我々は,異なるクラスとしてラベル付けされる入力空間のターゲットに最も近い点を見つけることで,この問題を最もよく解決できることを示す。 ラベル付け処理を制御しないので、データプログラミング技術を用いて複数の分類器の判定境界を組み合わせ、確率的にラベルを推定する。 また,偽情報を現実的にするための手法も提案する。 実験では,ラベラーにとって確率的決定境界が優れた指標となり得ることを示し,本手法は,実データセットのエンドツーエンドトレーニングを使用する場合の他の標的中毒法よりも優れることを示した。

Information leakage is becoming a critical problem as various information becomes publicly available by mistake, and machine learning models train on that data to provide services. As a result, one's private information could easily be memorized by such trained models. Unfortunately, deleting information is out of the question as the data is already exposed to the Web or third-party platforms. Moreover, we cannot necessarily control the labeling process and the model trainings by other parties either. In this setting, we study the problem of targeted disinformation where the goal is to lower the accuracy of inference attacks on a specific target (e.g., a person's profile) only using data insertion. While our problem is related to data privacy and defenses against exploratory attacks, our techniques are inspired by targeted data poisoning attacks with some key differences. We show that our problem is best solved by finding the closest points to the target in the input space that will be labeled as a different class. Since we do not control the labeling process, we instead conservatively estimate the labels probabilistically by combining decision boundaries of multiple classifiers using data programming techniques. We also propose techniques for making the disinformation realistic. Our experiments show that a probabilistic decision boundary can be a good proxy for labelers, and that our approach outperforms other targeted poisoning methods when using end-to-end training on real datasets.
翻訳日:2022-02-08 15:07:29 公開日:2022-02-07
# パラメトリック微分同相写像上のパラメトリックカップリング流れの普遍性

Universality of parametric Coupling Flows over parametric diffeomorphisms ( http://arxiv.org/abs/2202.02906v1 )

ライセンス: Link先を確認
Junlong Lyu, Zhitang Chen, Chang Feng, Wenjing Cun, Shengyu Zhu, Yanhui Geng, Zhijie Xu, Yongwei Chen(参考訳) 結合フローcflowsに基づく可逆ニューラルネットワークは、画像合成やデータ圧縮といった様々な応用がある。 CFlowsの近似普遍性はモデル表現性を保証するために最重要となる。 本稿では,CFlowsがC^k-ノルムの任意の微分同相を近似できることを示す。 具体的には、アフィン結合層と可逆線型変換の合成がこの普遍性を達成することを導出する。 さらに、微分同相がいくつかの余剰パラメータに依存するパラメトリックの場合、パラメトリックカップリングフローに対する対応する近似定理をパラメトリックフローと呼ぶ。 実際に,Para-CFlowsを文脈的ベイズ最適化タスクにおけるニューラルサロゲートモデルとして適用し,最適化性能の点で他のニューラルサロゲートモデルよりも優れていることを示す。

Invertible neural networks based on Coupling Flows CFlows) have various applications such as image synthesis and data compression. The approximation universality for CFlows is of paramount importance to ensure the model expressiveness. In this paper, we prove that CFlows can approximate any diffeomorphism in C^k-norm if its layers can approximate certain single-coordinate transforms. Specifically, we derive that a composition of affine coupling layers and invertible linear transforms achieves this universality. Furthermore, in parametric cases where the diffeomorphism depends on some extra parameters, we prove the corresponding approximation theorems for our proposed parametric coupling flows named Para-CFlows. In practice, we apply Para-CFlows as a neural surrogate model in contextual Bayesian optimization tasks, to demonstrate its superiority over other neural surrogate models in terms of optimization performance.
翻訳日:2022-02-08 15:07:07 公開日:2022-02-07
# 高速リトレーニングのための抑制ネットワークを用いたソフトアクター・クリティカル

Soft Actor-Critic with Inhibitory Networks for Faster Retraining ( http://arxiv.org/abs/2202.02918v1 )

ライセンス: Link先を確認
Jaime S. Ide, Daria Mi\'covi\'c, Michael J. Guarino, Kevin Alcedo, David Rosenbluth(参考訳) 事前訓練されたモデルの再利用は、新しいエージェントのトレーニングを高速化するために、深層強化学習において重要である。 しかし、目標や制約が以前の学習したスキルと矛盾している場合、新しいスキルを身につける方法が不明である。 さらに、再トレーニング時には、すでに学んできたことの活用と新しいスキルの探求との間には、内在的な葛藤がある。 soft actor-critic (sac) メソッドでは、温度パラメータを動的に調整してアクションエントロピーを重み付け、explore $\times$ exploit トレードオフのバランスをとることができる。 しかし、単一係数の制御は再訓練の文脈において困難であり、さらにゴールが矛盾する場合にも困難である。 本研究は,神経科学研究に触発されて,独立かつ適応的な状態評価と,異なる自動エントロピーチューニングを可能にするために,抑制ネットワークを用いた新しいアプローチを提案する。 最終的に、我々のアプローチは、リスクの少ない、獲得された行動の悪用と、より困難なタスクを克服するための新しい行動の間の競合に対処するための抑制を制御できる。 本手法はOpenAI Gym環境での実験を通して検証する。

Reusing previously trained models is critical in deep reinforcement learning to speed up training of new agents. However, it is unclear how to acquire new skills when objectives and constraints are in conflict with previously learned skills. Moreover, when retraining, there is an intrinsic conflict between exploiting what has already been learned and exploring new skills. In soft actor-critic (SAC) methods, a temperature parameter can be dynamically adjusted to weight the action entropy and balance the explore $\times$ exploit trade-off. However, controlling a single coefficient can be challenging within the context of retraining, even more so when goals are contradictory. In this work, inspired by neuroscience research, we propose a novel approach using inhibitory networks to allow separate and adaptive state value evaluations, as well as distinct automatic entropy tuning. Ultimately, our approach allows for controlling inhibition to handle conflict between exploiting less risky, acquired behaviors and exploring novel ones to overcome more challenging tasks. We validate our method through experiments in OpenAI Gym environments.
翻訳日:2022-02-08 15:05:25 公開日:2022-02-07
# トラクタブルブール回路と算術回路

Tractable Boolean and Arithmetic Circuits ( http://arxiv.org/abs/2202.02942v1 )

ライセンス: Link先を確認
Adnan Darwiche(参考訳) トラクタブルブール回路と算術回路は、20年以上にわたりAIで広く研究されてきた。 これらの回路は、線形時間およびニューラルネットワークのようなフィードフォワード方式で様々な推論を可能にするため、論理的かつ確率的推論を容易にするために、当初「コンパイルされたオブジェクト」として提案された。 近年では、知識、推論、学習を統合することを目的としたいくつかのアプローチの計算と意味論のバックボーンとなるにつれて、扱いやすい回路の役割が大幅に拡大している。 本稿では, トラクタブル回路の基礎と関連するマイルストーンを概観するとともに, ニューロシンボリックAIの幅広い目的に特に役立つコア特性と技術に注目した。

Tractable Boolean and arithmetic circuits have been studied extensively in AI for over two decades now. These circuits were initially proposed as "compiled objects," meant to facilitate logical and probabilistic reasoning, as they permit various types of inference to be performed in linear-time and a feed-forward fashion like neural networks. In more recent years, the role of tractable circuits has significantly expanded as they became a computational and semantical backbone for some approaches that aim to integrate knowledge, reasoning and learning. In this article, we review the foundations of tractable circuits and some associated milestones, while focusing on their core properties and techniques that make them particularly useful for the broad aims of neuro-symbolic AI.
翻訳日:2022-02-08 15:05:04 公開日:2022-02-07
# ジャリーラーニング: 散在する音声を機械学習モデルに統合する

Jury Learning: Integrating Dissenting Voices into Machine Learning Models ( http://arxiv.org/abs/2202.02950v1 )

ライセンス: Link先を確認
Mitchell L. Gordon, Michelle S. Lam, Joon Sung Park, Kayur Patel, Jeffrey T. Hancock, Tatsunori Hashimoto, Michael S. Bernstein(参考訳) 機械学習(ml)アルゴリズムは誰のラベルをエミュレートすべきか? オンラインコメント毒性から誤情報検出、医療診断まで、MLタスクでは、社会の様々なグループが、根拠となる真理ラベルについて不一致を抱えている可能性がある。 監督されたMLは、これらのラベルの不一致を多数決で暗黙的に解決し、少数派を圧倒している。 これは、陪審員のメタファーを通じて、これらの不一致を明確に解決する、監督されたmlアプローチである:どの人々やグループがどの割合で分類者の予測を決定するかを定義する。 例えば、オンライン中毒に関する陪審の学習モデルでは、オンラインハラスメントの対象となっている女性や黒人陪審員が中心になる可能性がある。 陪審員の学習を可能にするために、データセット内のすべてのアノテータをモデル化し、アノテータのモデルからサンプルを採取して陪審員を投入し、推論して分類するディープラーニングアーキテクチャをコントリビュートする。 私たちのアーキテクチャは、構成を動的に適応し、反事実を探求し、意見を視覚化する陪審活動を可能にします。

Whose labels should a machine learning (ML) algorithm learn to emulate? For ML tasks ranging from online comment toxicity to misinformation detection to medical diagnosis, different groups in society may have irreconcilable disagreements about ground truth labels. Supervised ML today resolves these label disagreements implicitly using majority vote, which overrides minority groups' labels. We introduce jury learning, a supervised ML approach that resolves these disagreements explicitly through the metaphor of a jury: defining which people or groups, in what proportion, determine the classifier's prediction. For example, a jury learning model for online toxicity might centrally feature women and Black jurors, who are commonly targets of online harassment. To enable jury learning, we contribute a deep learning architecture that models every annotator in a dataset, samples from annotators' models to populate the jury, then runs inference to classify. Our architecture enables juries that dynamically adapt their composition, explore counterfactuals, and visualize dissent.
翻訳日:2022-02-08 15:04:50 公開日:2022-02-07
# 非構造化文書における住所検出のための深層学習と推論の組み合わせ

Combining Deep Learning and Reasoning for Address Detection in Unstructured Text Documents ( http://arxiv.org/abs/2202.03103v1 )

ライセンス: Link先を確認
Matthias Engelbach, Dennis Klau, Jens Drawehn, Maximilien Kintz(参考訳) 構造化されていない文書から情報を抽出することは要求のある作業であり、これらの文書は多列文書や入れ子テーブルのように、多種多様なレイアウトと非自明な読み順を持つことができる。 さらに、多くのビジネス文書を紙形式で受け取り、さらに分析する前にテキストの内容がデジタル化される必要がある。 それでも、送信者アドレスのような重要な文書情報の自動検出と取得は、多くの企業の処理効率を高めるだろう。 本研究では,非構造化文書からアドレスを検索・抽出する手法として,ディープラーニングと推論を組み合わせたハイブリッド手法を提案する。 本研究では,ビジュアル深層学習モデルを用いて,スキャンした文書画像上のアドレス領域の境界を検知し,ルールベースシステムとして表現されたドメイン知識を用いてテキストを解析し,その検証を行う。

Extracting information from unstructured text documents is a demanding task, since these documents can have a broad variety of different layouts and a non-trivial reading order, like it is the case for multi-column documents or nested tables. Additionally, many business documents are received in paper form, meaning that the textual contents need to be digitized before further analysis. Nonetheless, automatic detection and capturing of crucial document information like the sender address would boost many companies' processing efficiency. In this work we propose a hybrid approach that combines deep learning with reasoning for finding and extracting addresses from unstructured text documents. We use a visual deep learning model to detect the boundaries of possible address regions on the scanned document images and validate these results by analyzing the containing text using domain knowledge represented as a rule based system.
翻訳日:2022-02-08 15:04:31 公開日:2022-02-07
# 知識グラフの疎結合化とオントロジーに基づく推論

Towards Loosely-Coupling Knowledge Graph Embeddings and Ontology-based Reasoning ( http://arxiv.org/abs/2202.03173v1 )

ライセンス: Link先を確認
Zoi Kaoudi and Abelardo Carlos Martinez Lorenzo and Volker Markl(参考訳) ナレッジグラフの補完(すなわちリンク予測)、すなわち、ナレッジグラフから欠落情報を推測するタスクは、製品レコメンデーションや質問応答など、多くのアプリケーションで広く使われているタスクである。 知識グラフ埋め込みと/またはルールマイニングと推論の最先端アプローチは、データ駆動であり、入力知識グラフが持つ情報のみに基づいている。 これにより、医療などの重要な領域では適用できないような予測結果が不十分になる。 知識グラフ補完の精度をさらに高めるために,知識グラフ埋め込みのデータ駆動力と,専門家や包含体制(OWL2)から生じるドメイン固有の推論とを疎結合にすることを提案する。 このようにして、入力知識グラフに含まれないかもしれないドメイン知識による予測精度を高めるだけでなく、ユーザが独自の知識グラフ埋め込みと推論方法をプラグインできるようにする。 最初の結果から,バニラ知識グラフ埋め込みのMRR精度を最大3倍に向上し,知識グラフ埋め込みとルールマイニング,最大3.5倍MRRの推論を組み合わせたハイブリッドソリューションより優れていた。

Knowledge graph completion (a.k.a.~link prediction), i.e.,~the task of inferring missing information from knowledge graphs, is a widely used task in many applications, such as product recommendation and question answering. The state-of-the-art approaches of knowledge graph embeddings and/or rule mining and reasoning are data-driven and, thus, solely based on the information the input knowledge graph contains. This leads to unsatisfactory prediction results which make such solutions inapplicable to crucial domains such as healthcare. To further enhance the accuracy of knowledge graph completion we propose to loosely-couple the data-driven power of knowledge graph embeddings with domain-specific reasoning stemming from experts or entailment regimes (e.g., OWL2). In this way, we not only enhance the prediction accuracy with domain knowledge that may not be included in the input knowledge graph but also allow users to plugin their own knowledge graph embedding and reasoning method. Our initial results show that we enhance the MRR accuracy of vanilla knowledge graph embeddings by up to 3x and outperform hybrid solutions that combine knowledge graph embeddings with rule mining and reasoning up to 3.5x MRR.
翻訳日:2022-02-08 15:04:17 公開日:2022-02-07
# (参考訳) gmc --幾何多様コントラスト表現学習 [全文訳有]

GMC -- Geometric Multimodal Contrastive Representation Learning ( http://arxiv.org/abs/2202.03390v1 )

ライセンス: CC BY 4.0
Petra Poklukar, Miguel Vasco, Hang Yin, Francisco S. Melo, Ana Paiva, Danica Kragic(参考訳) テスト時のモダリティの欠如に対して情報的かつ堅牢なマルチモーダルデータの表現を学習することは、異なるチャネルから得られるデータの固有不均一性のため、依然として難しい問題である。 そこで本研究では,2つの主成分からなるGMC(Geometric Multimodal Contrastive)表現学習手法を提案する。 一 任意の数のモダリティを固定次元の中間表現に加工することができるモダリティ固有の基底エンコーダと、中間表現を潜在表現空間にマッピングする共有投影ヘッドとからなる二段階アーキテクチャ 二 学習した表現の幾何学的アライメントを促進するマルチモーダルコントラスト損失関数 我々は,gmc表現が意味的に豊かであり,予測や強化学習タスクを含む3つの異なる学習問題のモダリティ情報を欠いた最先端のパフォーマンスを実現することを実験的に実証する。

Learning representations of multimodal data that are both informative and robust to missing modalities at test time remains a challenging problem due to the inherent heterogeneity of data obtained from different channels. To address it, we present a novel Geometric Multimodal Contrastive (GMC) representation learning method comprised of two main components: i) a two-level architecture consisting of modality-specific base encoder, allowing to process an arbitrary number of modalities to an intermediate representation of fixed dimensionality, and a shared projection head, mapping the intermediate representations to a latent representation space; ii) a multimodal contrastive loss function that encourages the geometric alignment of the learned representations. We experimentally demonstrate that GMC representations are semantically rich and achieve state-of-the-art performance with missing modality information on three different learning problems including prediction and reinforcement learning tasks.
翻訳日:2022-02-08 15:02:42 公開日:2022-02-07
# 精度不一致学習を用いたグラフ自己教師付き学習

Graph Self-supervised Learning with Accurate Discrepancy Learning ( http://arxiv.org/abs/2202.02989v1 )

ライセンス: Link先を確認
Dongki Kim, Jinheon Baek, Sung Ju Hwang(参考訳) グラフニューラルネットワーク(GNN)の自己教師付き学習は、教師なしの方法でグラフの正確な表現を学習することを目的としており、下流の様々なタスクに対してそれらの伝達可能な表現を得る。 予測学習とコントラスト学習はグラフ自己教師学習の2つの最も一般的なアプローチである。 しかし、彼ら独自の欠点がある。 予測学習手法は隣接ノードとエッジ間の文脈的関係を学習できるが,グローバルグラフレベルの類似性は学習できない。 対照的に、グローバルグラフレベルの類似性を学習できるが、2つの異なる摂動グラフ間の類似性を最大化する目的は、異なる性質を持つ2つの類似グラフを識別できない表現をもたらす可能性がある。 このような制約に対処するために、D-SLA(Drecrepancy-ba sed Self-supervised LeArning)と呼ばれる原図と摂動グラフの正確な相違を学習することを目的としたフレームワークを提案する。 具体的には、与えられたグラフの様々な摂動を類似度で生成し、各グラフが元のグラフか摂動グラフかを予測するようモデルを訓練する。 さらに,グラフ編集距離を用いて各摂動グラフの差分量を正確に把握することを目的とする。 提案手法は,分子特性予測,タンパク質機能予測,リンク予測タスクなど,様々なグラフ関連下流タスクにおいて検証を行い,本モデルが関連するベースラインを圧倒的に上回っていることを示す。

Self-supervised learning of graph neural networks (GNNs) aims to learn an accurate representation of the graphs in an unsupervised manner, to obtain transferable representations of them for diverse downstream tasks. Predictive learning and contrastive learning are the two most prevalent approaches for graph self-supervised learning. However, they have their own drawbacks. While the predictive learning methods can learn the contextual relationships between neighboring nodes and edges, they cannot learn global graph-level similarities. Contrastive learning, while it can learn global graph-level similarities, its objective to maximize the similarity between two differently perturbed graphs may result in representations that cannot discriminate two similar graphs with different properties. To tackle such limitations, we propose a framework that aims to learn the exact discrepancy between the original and the perturbed graphs, coined as Discrepancy-based Self-supervised LeArning (D-SLA). Specifically, we create multiple perturbations of the given graph with varying degrees of similarity and train the model to predict whether each graph is the original graph or a perturbed one. Moreover, we further aim to accurately capture the amount of discrepancy for each perturbed graph using the graph edit distance. We validate our method on various graph-related downstream tasks, including molecular property prediction, protein function prediction, and link prediction tasks, on which our model largely outperforms relevant baselines.
翻訳日:2022-02-08 14:38:17 公開日:2022-02-07
# 低コスト加速度センサを応用した特殊ミル機械の人工知能による工具摩耗と欠陥予測

Artificial Intelligence based tool wear and defect prediction for special purpose milling machinery using low-cost acceleration sensor retrofits ( http://arxiv.org/abs/2202.03068v1 )

ライセンス: Link先を確認
Mahmoud Kheir-Eddine, Michael Banf and Gregor Steinhagen(参考訳) ミリングマシンは多くの産業加工チェーンの不可欠な部分を形成する。 その結果、ツールウェア検出のための機械学習に基づくいくつかのアプローチが近年提案されているが、これらの手法は主に標準的なミリングマシンに対処する一方、より専門的なタスクのために設計された機械は、今のところ限定的な注目を集めている。 本稿では,このような特別目的機械,すなわち丸いシームミリングマシンの簡便な状態監視を実現するための加速度センサの適用を実証する。 ブレード摩耗, ブレード破損, 不適切な機械装着, 変速ベルト張力の不足など, 各種条件について検討した。 さらに,限られたトレーニングデータを用いて,障害認識を監督する異なる手法を提案する。 したがって、理論的洞察はさておき、古い機械を加速度センサとオンエッジ分類設定で再構築することは低コストかつ労力がかかるが、特に機械やツールの状態や製造プロセスに関する貴重な洞察を提供するため、我々の分析は、高い実用的重要性を持つ。

Milling machines form an integral part of many industrial processing chains. As a consequence, several machine learning based approaches for tool wear detection have been proposed in recent years, yet these methods mostly deal with standard milling machines, while machinery designed for more specialized tasks has gained only limited attention so far. This paper demonstrates the application of an acceleration sensor to allow for convenient condition monitoring of such a special purpose machine, i.e. round seam milling machine. We examine a variety of conditions including blade wear and blade breakage as well as improper machine mounting or insufficient transmission belt tension. In addition, we presents different approaches to supervised failure recognition with limited amounts of training data. Hence, aside theoretical insights, our analysis is of high, practical importance, since retrofitting older machines with acceleration sensors and an on-edge classification setup comes at low cost and effort, yet provides valuable insights into the state of the machine and tools in particular and the production process in general.
翻訳日:2022-02-08 14:37:53 公開日:2022-02-07
# 自然環境におけるOOD検出器の訓練

Training OOD Detectors in their Natural Habitats ( http://arxiv.org/abs/2202.03299v1 )

ライセンス: Link先を確認
Julian Katz-Samuels, Julia Nakhleh, Robert Nowak, Yixuan Li(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、野生にデプロイされた機械学習モデルにとって重要である。 近年の手法では,OOD検出の改善のために補助外乱データを用いてモデルを正規化している。 しかし, これらの手法は, 補助外乱データが分布内(ID)データから完全に分離可能であることを強く仮定する。 本稿では,自然にIDとOODの両方のサンプルからなる野生の混合データを活用する新しいフレームワークを提案する。 このような野生データは豊富で、機械学習の分類器を \emph{natural habitats} に配置すると自由に現れる。 私たちのキーとなる考え方は、制約付き最適化問題を定式化し、その解決方法を示すことです。 学習目的は,IDデータの分類誤差やサンプルのOOD誤り率に制約を課し,OOD検出率を最大化する。 我々は,一般的なOOD検出タスクに対するアプローチを広く評価し,優れた性能を示す。

Out-of-distribution (OOD) detection is important for machine learning models deployed in the wild. Recent methods use auxiliary outlier data to regularize the model for improved OOD detection. However, these approaches make a strong distributional assumption that the auxiliary outlier data is completely separable from the in-distribution (ID) data. In this paper, we propose a novel framework that leverages wild mixture data -- that naturally consists of both ID and OOD samples. Such wild data is abundant and arises freely upon deploying a machine learning classifier in their \emph{natural habitats}. Our key idea is to formulate a constrained optimization problem and to show how to tractably solve it. Our learning objective maximizes the OOD detection rate, subject to constraints on the classification error of ID data and on the OOD error rate of ID examples. We extensively evaluate our approach on common OOD detection tasks and demonstrate superior performance.
翻訳日:2022-02-08 14:37:35 公開日:2022-02-07
# パラメトリック積分確率計量を用いた公平表現の学習

Learning fair representation with a parametric integral probability metric ( http://arxiv.org/abs/2202.02943v1 )

ライセンス: Link先を確認
Dongha Kim, Kunwoong Kim, Insung Kong, Ilsang Ohn, and Yongdai Kim(参考訳) 社会的な意思決定に重要な影響を与えるため、AIアルゴリズムは正確であるだけでなく公平であるべきだ。 フェアネスAIのための様々なアルゴリズムの中で、性別や人種などの敏感な変数に対して公正な表現を見つけることを目標とする学習公正表現(LFR)が注目されている。 LFRでは、生成的対数ネットワーク型アルゴリズムと同様に、逆数トレーニングスキームが一般的である。 しかし、差別者の選択は正当化なしでヒューリスティックに行われる。 本稿では,識別器の特定のパラメトリック族を持つ積分確率計量(ipm)を用いた,lfrの新たな逆学習手法を提案する。 提案したLFRアルゴリズムの最も顕著な結果は、まだ検討されていない最終予測モデルの公平性に関する理論的保証である。 すなわち、表現の公平さと表現の上部に構築された予測モデルの公正さ(つまり表現を入力として使用する)の間の理論的関係を導出する。 さらに, 数値実験により, 提案したLFRアルゴリズムは計算的に軽量で安定であり, 最終予測モデルは, より複雑な判別器を用いた他のLFRアルゴリズムよりも優れていることを示す。

As they have a vital effect on social decision-making, AI algorithms should be not only accurate but also fair. Among various algorithms for fairness AI, learning fair representation (LFR), whose goal is to find a fair representation with respect to sensitive variables such as gender and race, has received much attention. For LFR, the adversarial training scheme is popularly employed as is done in the generative adversarial network type algorithms. The choice of a discriminator, however, is done heuristically without justification. In this paper, we propose a new adversarial training scheme for LFR, where the integral probability metric (IPM) with a specific parametric family of discriminators is used. The most notable result of the proposed LFR algorithm is its theoretical guarantee about the fairness of the final prediction model, which has not been considered yet. That is, we derive theoretical relations between the fairness of representation and the fairness of the prediction model built on the top of the representation (i.e., using the representation as the input). Moreover, by numerical experiments, we show that our proposed LFR algorithm is computationally lighter and more stable, and the final prediction model is competitive or superior to other LFR algorithms using more complex discriminators.
翻訳日:2022-02-08 14:35:22 公開日:2022-02-07
# 老化するアルゴリズム : 生成アルゴリズムの場合

Algorithms that get old : the case of generative algorithms ( http://arxiv.org/abs/2202.03008v1 )

ライセンス: Link先を確認
Gabriel Turinici(参考訳) 可変オートエンコーダ(VAE)やGAN(Generative Adversarial Networks)のような生成IAネットワークは、そのように要求されるたびに新しいオブジェクトを生成する。 しかし、この行動は時代が経つにつれて様式を変え、初期に戻ることはめったにない人間アーティストとは異なっている。 実験セットによって記述された確率尺度からvaesをサンプルとして要求する状況について検討する。 ラドン・ソボレフ統計距離に関する最近の研究に基づいて、生成アルゴリズムと組み合わせて用いる数値パラダイムを提案し、次の2つの要件を満たす。

Generative IA networks, like the Variational Auto-Encoders (VAE), and Generative Adversarial Networks (GANs) produce new objects each time when asked to do so. However, this behavior is unlike that of human artists that change their style as times go by and seldom return to the initial point. We investigate a situation where VAEs are requested to sample from a probability measure described by some empirical set. Based on recent works on Radon-Sobolev statistical distances, we propose a numerical paradigm, to be used in conjunction with a generative algorithm, that satisfies the two following requirements: the objects created do not repeat and evolve to fill the entire target probability measure.
翻訳日:2022-02-08 14:35:00 公開日:2022-02-07
# グラフ表現学習のための構造認識トランス

Structure-Aware Transformer for Graph Representation Learning ( http://arxiv.org/abs/2202.03036v1 )

ライセンス: Link先を確認
Dexiong Chen and Leslie O'Bray and Karsten Borgwardt(参考訳) トランスフォーマーアーキテクチャは、厳密な構造的帰納バイアスを避け、代わりに位置符号化を通じてグラフ構造を符号化することで、グラフニューラルネットワーク(GNN)のいくつかの制限を自然に克服するため、近年、グラフ表現学習において注目を集めている。 ここでは,トランスフォーマーによって生成された位置符号化によるノード表現が,必ずしもそれらの構造的類似性を捉えるとは限らないことを示す。 この問題に対処するために,新しい自己認識機構上に構築された単純で柔軟なグラフ変換器のクラスであるStructure-Aware Transformerを提案する。 この新しいセルフアテンションは、注意を計算する前に各ノードに根ざしたサブグラフ表現を抽出することにより、元の自己アテンションに構造情報を組み込む。 本稿では,サブグラフ表現を自動的に生成する方法をいくつか提案し,結果表現が少なくともサブグラフ表現と同じくらい表現的であることを理論的に示す。 本手法は,5つのグラフ予測ベンチマークにおいて最先端のパフォーマンスを実現する。 我々の構造認識フレームワークは,既存のGNNを利用してサブグラフ表現を抽出し,GNNとトランスフォーマーの利点をうまく組み合わせることで,基本GNNモデルに対する性能を体系的に向上することを示す。

The Transformer architecture has gained growing attention in graph representation learning recently, as it naturally overcomes several limitations of graph neural networks (GNNs) by avoiding their strict structural inductive biases and instead only encoding the graph structure via positional encoding. Here, we show that the node representations generated by the Transformer with positional encoding do not necessarily capture structural similarity between them. To address this issue, we propose the Structure-Aware Transformer, a class of simple and flexible graph transformers built upon a new self-attention mechanism. This new self-attention incorporates structural information into the original self-attention by extracting a subgraph representation rooted at each node before computing the attention. We propose several methods for automatically generating the subgraph representation and show theoretically that the resulting representations are at least as expressive as the subgraph representations. Empirically, our method achieves state-of-the-art performance on five graph prediction benchmarks. Our structure-aware framework can leverage any existing GNN to extract the subgraph representation, and we show that it systematically improves performance relative to the base GNN model, successfully combining the advantages of GNNs and transformers.
翻訳日:2022-02-08 14:34:47 公開日:2022-02-07
# nuq: 決定論的ニューラルネットワークに対する非パラメトリック不確実性定量化

NUQ: Nonparametric Uncertainty Quantification for Deterministic Neural Networks ( http://arxiv.org/abs/2202.03101v1 )

ライセンス: Link先を確認
Nikita Kotelevskii, Aleksandr Artemenkov, Kirill Fedyanin, Fedor Noskov, Alexander Fishkov, Aleksandr Petiushko and Maxim Panov(参考訳) 本稿では,機械学習モデルの予測の不確実性定量化のための高速でスケーラブルな手法を提案する。 まず,nadaraya-watsonの条件付きラベル分布の非パラメトリック推定に基づく分類器の予測の不確かさを原理的に測定する方法を示す。 重要なことに、このアプローチははっきりとアリーテータと認識的不確実性を区別することができる。 結果のメソッドは機能空間で直接動作する。 しかし、ネットワークによって引き起こされるデータの埋め込みを考慮すれば、任意のニューラルネットワークに適用することができる。 我々は,MNIST,SVHN,CIFAR-10 0,ImageNetなど,様々な実世界の画像データセットに対する不確実性推定タスクにおいて,この手法の強い性能を示す。

This paper proposes a fast and scalable method for uncertainty quantification of machine learning models' predictions. First, we show the principled way to measure the uncertainty of predictions for a classifier based on Nadaraya-Watson' ;s nonparametric estimate of the conditional label distribution. Importantly, the approach allows to disentangle explicitly aleatoric and epistemic uncertainties. The resulting method works directly in the feature space. However, one can apply it to any neural network by considering an embedding of the data induced by the network. We demonstrate the strong performance of the method in uncertainty estimation tasks on a variety of real-world image datasets, such as MNIST, SVHN, CIFAR-100 and several versions of ImageNet.
翻訳日:2022-02-08 14:34:24 公開日:2022-02-07
# SLIDE:フェアネスの整合性を確保するための代理フェアネス制約

SLIDE: a surrogate fairness constraint to ensure fairness consistency ( http://arxiv.org/abs/2202.03165v1 )

ライセンス: Link先を確認
Kunwoong Kim, Ilsang Ohn, Sara Kim, and Yongdai Kim(参考訳) 社会的な意思決定に重要な影響を与えるため、AIアルゴリズムは正確であるだけでなく公平であるべきだ。 フェアネスAIのための様々なアルゴリズムの中で、与えられたフェアネス制約の対象となる経験的リスク(例えば、クロスエントロピー)を最小限にして予測モデルを学ぶことが注目されている。 しかし、計算の難しさを避けるため、分類問題では0-1の損失が凸サーロゲート損失に置き換えられるため、与えられたフェアネス制約をサーロゲートフェアネス制約に置き換える。 本稿では,既存のサロゲートフェアネス制約の有効性を検証し,学習モデルがフェアネス制約を漸近的に満たし,高速収束率を達成するという意味で計算可能かつ漸近的に有効であるslideと呼ばれる新しいサロゲートフェアネス制約を提案する。 数値実験により、SLIDEは様々なベンチマークデータセットでうまく機能することを確認した。

As they have a vital effect on social decision makings, AI algorithms should be not only accurate and but also fair. Among various algorithms for fairness AI, learning a prediction model by minimizing the empirical risk (e.g., cross-entropy) subject to a given fairness constraint has received much attention. To avoid computational difficulty, however, a given fairness constraint is replaced by a surrogate fairness constraint as the 0-1 loss is replaced by a convex surrogate loss for classification problems. In this paper, we investigate the validity of existing surrogate fairness constraints and propose a new surrogate fairness constraint called SLIDE, which is computationally feasible and asymptotically valid in the sense that the learned model satisfies the fairness constraint asymptotically and achieves a fast convergence rate. Numerical experiments confirm that the SLIDE works well for various benchmark datasets.
翻訳日:2022-02-08 14:34:12 公開日:2022-02-07
# 大規模レコメンダシステムのためのベイズ線形帯域

Bayesian Linear Bandits for Large-Scale Recommender Systems ( http://arxiv.org/abs/2202.03167v1 )

ライセンス: Link先を確認
Saeed Ghoorchian, Setareh Maghsudi(参考訳) 場合によっては、利用可能なサイド情報を活用することで、レコメンダシステムのパフォーマンスが向上します。 したがって、このような高次元コンテキストをリアルタイムに処理できる意思決定アルゴリズムを開発することが不可欠である。 これは、意思決定者が推奨すべきさまざまな項目がある場合、特に難しい。 本稿では,この問題を解決するために,線形コンテキスト型マルチアームバンディットフレームワークを構築した。 我々は高次元の文脈ベクトルと複数のアームを持つ線形帯域問題に対する意思決定ポリシーを開発する。 我々の方針はトンプソンサンプリングを採用し、文脈ベクトルを減らし、そこで次元の減少はランダムな投影によって従う。 提案するリコメンデータシステムは,ユーザの項目選択をオンラインで学習すると同時に,ランタイムを可能な限り低く維持する。 我々は、元の次元ではなく縮小次元の因子としてスケールする後悔の境界を証明する。 数値評価には,提案アルゴリズムを用いて推薦システムを構築し,実世界のデータセットに適用する。 理論的および数値的な結果から,提案アルゴリズムの有効性を計算複雑性と後悔性能の観点から比較した。

Potentially, taking advantage of available side information boosts the performance of recommender systems; nevertheless, with the rise of big data, the side information has often several dimensions. Hence, it is imperative to develop decision-making algorithms that can cope with such a high-dimensional context in real-time. That is especially challenging when the decision-maker has a variety of items to recommend. In this paper, we build upon the linear contextual multi-armed bandit framework to address this problem. We develop a decision-making policy for a linear bandit problem with high-dimensional context vectors and several arms. Our policy employs Thompson sampling and feeds it with reduced context vectors, where the dimensionality reduction follows by random projection. Our proposed recommender system follows this policy to learn online the item preferences of users while keeping its runtime as low as possible. We prove a regret bound that scales as a factor of the reduced dimension instead of the original one. For numerical evaluation, we use our algorithm to build a recommender system and apply it to real-world datasets. The theoretical and numerical results demonstrate the effectiveness of our proposed algorithm compared to the state-of-the-art in terms of computational complexity and regret performance.
翻訳日:2022-02-08 14:33:55 公開日:2022-02-07
# データ分割のための最適比率

Optimal Ratio for Data Splitting ( http://arxiv.org/abs/2202.03326v1 )

ライセンス: Link先を確認
V. Roshan Joseph(参考訳) 統計モデルや機械学習モデルに適合する前に、データセットをトレーニングとテストセットに分割するのが一般的です。 しかし、トレーニングやテストにどれだけのデータを使うべきか、明確なガイダンスはありません。 本稿では、最適な分割比が$\sqrt{p}:1$であり、$p$はデータをうまく説明する線形回帰モデルにおけるパラメータの数であることを示す。

It is common to split a dataset into training and testing sets before fitting a statistical or machine learning model. However, there is no clear guidance on how much data should be used for training and testing. In this article we show that the optimal splitting ratio is $\sqrt{p}:1$, where $p$ is the number of parameters in a linear regression model that explains the data well.
翻訳日:2022-02-08 14:33:38 公開日:2022-02-07
# (参考訳) UAV緊急着陸時の監視方法の評価 [全文訳有]

Evaluation of Runtime Monitoring for UAV Emergency Landing ( http://arxiv.org/abs/2202.03059v1 )

ライセンス: CC BY 4.0
Joris Guerin, Kevin Delmas, J\'er\'emie Guiochet(参考訳) 人口の多い地域でのUAVの運用を認証するには、緊急着陸(EL)のようなリスク軽減戦略が、潜在的な失敗を考慮に入れなければならない。 elは、オンボードセンサーを使って安全な着陸地点を見つけることで、地上のリスクを減らすことを目指している。 本論文の最初の貢献は,最近の研究で導入された安全要件に合わせて,新しいelアプローチを提案することである。 特に、提案されたELパイプラインには、実行中に学習ベースのコンポーネントを監視するメカニズムが含まれている。 この方法では、機械学習ランタイムモニタリング(MLRM)アプローチの振る舞いを、現実世界のクリティカルシステムのコンテキスト内で研究することにも貢献する。 新しい評価手法を導入し、3つのMLRM機構の実用的安全性の利点を評価する。 提案されたアプローチは、デフォルトの緩和戦略(障害が検出された場合にパラシュートを開く)と比較され、より安全であるように見える。

To certify UAV operations in populated areas, risk mitigation strategies -- such as Emergency Landing (EL) -- must be in place to account for potential failures. EL aims at reducing ground risk by finding safe landing areas using on-board sensors. The first contribution of this paper is to present a new EL approach, in line with safety requirements introduced in recent research. In particular, the proposed EL pipeline includes mechanisms to monitor learning based components during execution. This way, another contribution is to study the behavior of Machine Learning Runtime Monitoring (MLRM) approaches within the context of a real-world critical system. A new evaluation methodology is introduced, and applied to assess the practical safety benefits of three MLRM mechanisms. The proposed approach is compared to a default mitigation strategy (open a parachute when a failure is detected), and appears to be much safer.
翻訳日:2022-02-08 14:32:07 公開日:2022-02-07
# (参考訳) オンラインソーシャルメディアにおける言語と行動のレンズによる精神障害:分析と可視化

Mental Disorders on Online Social Media Through the Lens of Language and Behaviour: Analysis and Visualisation ( http://arxiv.org/abs/2202.03291v1 )

ライセンス: CC BY 4.0
Esteban A. R\'issola, Mohammad Aliannejadi, Fabio Crestani(参考訳) インターネットへの世界的なアクセシビリティと、モバイル技術の継続的な進歩により、物理的世界とデジタル世界は完全に融合し、ソーシャルメディアプラットフォームの普及がこの進化において主要な役割を担ってきた。 本稿では,精神障害の影響を受けるソーシャルメディア利用者を特徴付ける要因を可視化し,理解するための徹底的な分析を行う。 語彙の独特さ,単語の使用状況,言語スタイル,心理分析的属性,感情の共起パターン,オンライン行動特性,ソーシャルエンゲージメントやポストトレンドなど,言語の多次元について異なる実験を行った。 副詞や動詞の時制などの機能語の使用と,生物学的プロセスなどの話題固有の語彙に有意な差異が認められた。 感情表現に関しては,感情の共有が平均的な個人よりも頻繁に行われる傾向が観察された。 総じて、影響を受けるグループの毎月の投稿のばらつきは、コントロールグループよりも高い。 さらに,マイクロブログプラットフォーム上での言語使用が,他の制限の少ないプラットフォームよりも精神障害を持つユーザにとって区別しにくいことを示す証拠が発見された。 特に、Twitter上では、Redditと比較して、影響されたグループとコントロールグループの違いの定量化が低いことを観察する。

Due to the worldwide accessibility to the Internet along with the continuous advances in mobile technologies, physical and digital worlds have become completely blended, and the proliferation of social media platforms has taken a leading role over this evolution. In this paper, we undertake a thorough analysis towards better visualising and understanding the factors that characterise and differentiate social media users affected by mental disorders. We perform different experiments studying multiple dimensions of language, including vocabulary uniqueness, word usage, linguistic style, psychometric attributes, emotions' co-occurrence patterns, and online behavioural traits, including social engagement and posting trends. Our findings reveal significant differences on the use of function words, such as adverbs and verb tense, and topic-specific vocabulary, such as biological processes. As for emotional expression, we observe that affected users tend to share emotions more regularly than control individuals on average. Overall, the monthly posting variance of the affected groups is higher than the control groups. Moreover, we found evidence suggesting that language use on micro-blogging platforms is less distinguishable for users who have a mental disorder than other less restrictive platforms. In particular, we observe on Twitter less quantifiable differences between affected and control groups compared to Reddit.
翻訳日:2022-02-08 14:14:27 公開日:2022-02-07
# Auto-Lambda: 動的タスク関係の分離

Auto-Lambda: Disentangling Dynamic Task Relationships ( http://arxiv.org/abs/2202.03091v1 )

ライセンス: Link先を確認
Shikun Liu, Stephen James, Andrew J. Davison, Edward Johns(参考訳) 複数の関連するタスクの構造を理解することで、マルチタスク学習は1つまたはすべてのタスクの一般化能力を改善することができる。 しかし、通常は、タスク関係を非常に高い計算コストで捉えるために、各タスクの組み合わせを同時に訓練する必要がある。 本研究では,自動重み付けフレームワークauto-lambdaを用いてタスク関係を学習する。 タスク間の関係を固定する従来の方法とは異なり、auto-lambdaは勾配ベースのメタ学習フレームワークであり、タスク固有の重み付けを通じて連続的でダイナミックなタスク関係を探索し、メタ損失の定式化を通じてタスクの組み合わせの選択を最適化する。 提案手法をコンピュータビジョンとロボット工学のマルチタスクおよび補助学習問題に適用し,各問題とデータ領域用に設計された最適化戦略と比較しても,auto-lambdaが最先端のパフォーマンスを達成していることを示す。 最後に、auto-lambdaが興味深い学習行動を発見し、マルチタスク学習に新たな洞察をもたらすことを観察する。 コードはhttps://github.com/l orenmt/auto-lambdaで入手できる。

Understanding the structure of multiple related tasks allows for multi-task learning to improve the generalisation ability of one or all of them. However, it usually requires training each pairwise combination of tasks together in order to capture task relationships, at an extremely high computational cost. In this work, we learn task relationships via an automated weighting framework, named Auto-Lambda. Unlike previous methods where task relationships are assumed to be fixed, Auto-Lambda is a gradient-based meta learning framework which explores continuous, dynamic task relationships via task-specific weightings, and can optimise any choice of combination of tasks through the formulation of a meta-loss; where the validation loss automatically influences task weightings throughout training. We apply the proposed framework to both multi-task and auxiliary learning problems in computer vision and robotics, and show that Auto-Lambda achieves state-of-the-art performance, even when compared to optimisation strategies designed specifically for each problem and data domain. Finally, we observe that Auto-Lambda can discover interesting learning behaviors, leading to new insights in multi-task learning. Code is available at https://github.com/l orenmt/auto-lambda.
翻訳日:2022-02-08 14:12:41 公開日:2022-02-07
# 自己監督型視覚前訓練のための故障画像モデリング

Corrupted Image Modeling for Self-Supervised Visual Pre-Training ( http://arxiv.org/abs/2202.03382v1 )

ライセンス: Link先を確認
Yuxin Fang, Li Dong, Hangbo Bao, Xinggang Wang, Furu Wei(参考訳) 自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。 CIMは、小さなトレーニング可能なBEiTを備えた補助ジェネレータを使用して、人工マスクトークンの代わりに入力イメージを破損させ、いくつかのパッチをランダムに選択し、BEiT出力分布からサンプリングされたプラウシブルな代替品に置き換える。 この破損した画像から、エンハンサーネットワークは、元の画像ピクセルをすべて復元するか、または各ビジュアルトークンがジェネレータサンプルに置き換えられるかどうかを予測する。 発電機とエンハンサーは同時に訓練され、相乗的に更新される。 事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。 CIMは、様々なネットワークアーキテクチャに適した、汎用的で柔軟なビジュアル事前トレーニングフレームワークである。 CIMは、ViTとCNNの両方が、統合された非サイメスフレームワークを使用してリッチな視覚表現を学習できることを初めて示す。 実験の結果,imagenet分類やade20kセマンティクスセグメンテーションなど,視覚ベンチマークで有意な結果が得られた。 例えば、300-epoch CIM で事前訓練されたバニラ ViT-Base/16 と ResNet-50 はそれぞれ ImageNet-1K 画像分類において83.3 と 80.6 Top-1 の微調整精度を得る。

We introduce Corrupted Image Modeling (CIM) for self-supervised visual pre-training. CIM uses an auxiliary generator with a small trainable BEiT to corrupt the input image instead of using artificial mask tokens, where some patches are randomly selected and replaced with plausible alternatives sampled from the BEiT output distribution. Given this corrupted image, an enhancer network learns to either recover all the original image pixels, or predict whether each visual token is replaced by a generator sample or not. The generator and the enhancer are simultaneously trained and synergistically updated. After pre-training, the enhancer can be used as a high-capacity visual encoder for downstream tasks. CIM is a general and flexible visual pre-training framework that is suitable for various network architectures. For the first time, CIM demonstrates that both ViT and CNN can learn rich visual representations using a unified, non-Siamese framework. Experimental results show that our approach achieves compelling results in vision benchmarks, such as ImageNet classification and ADE20K semantic segmentation. For example, 300-epoch CIM pre-trained vanilla ViT-Base/16 and ResNet-50 obtain 83.3 and 80.6 Top-1 fine-tuning accuracy on ImageNet-1K image classification respectively.
翻訳日:2022-02-08 14:11:50 公開日:2022-02-07
# 会話エージェント:理論と応用

Conversational Agents: Theory and Applications ( http://arxiv.org/abs/2202.03164v1 )

ライセンス: Link先を確認
Mattias Wahde and Marco Virgolin(参考訳) 本章では、会話エージェント(cas)のレビューを行い、ユーザとのカジュアルな会話を意図したチャットボットや、特定のドメイン内において、1つまたは複数の特定の目標を達成することを意図した議論を行うタスク指向エージェントについて述べる。 また,文字アニメーションや音声処理など,会話エージェントの具体化という概念についても検討する。 CAにおける対話を表現するための多くの異なるアプローチと、そのようなエージェントを評価する方法について、説明責任と解釈可能性の重要なトピックを強調した。 簡単な歴史的概要が述べられ、さらに健康・教育分野における様々な応用の広範な概要が述べられている。 我々は、現在および将来のCA技術の社会的影響に関する利益と潜在的なリスクについて論じて、章を締めくくります。

In this chapter, we provide a review of conversational agents (CAs), discussing chatbots, intended for casual conversation with a user, as well as task-oriented agents that generally engage in discussions intended to reach one or several specific goals, often (but not always) within a specific domain. We also consider the concept of embodied conversational agents, briefly reviewing aspects such as character animation and speech processing. The many different approaches for representing dialogue in CAs are discussed in some detail, along with methods for evaluating such agents, emphasizing the important topics of accountability and interpretability. A brief historical overview is given, followed by an extensive overview of various applications, especially in the fields of health and education. We end the chapter by discussing benefits and potential risks regarding the societal impact of current and future CA technology.
翻訳日:2022-02-08 14:10:43 公開日:2022-02-07
# 未知カメラを用いた自己監督単眼深度推定における変圧器

Transformers in Self-Supervised Monocular Depth Estimation with Unknown Camera Intrinsics ( http://arxiv.org/abs/2202.03131v1 )

ライセンス: Link先を確認
Arnav Varma, Hemang Chawla, Bahram Zonooz and Elahe Arani(参考訳) 自動運転と高度な運転支援システムの出現は、3次元シーン理解のためのコンピュータビジョンの継続的な発展を必要とする。 地上の真理ラベルを使わずに1台のカメラから物体の画素方向距離を推定する方法である自己監督単眼深度推定は3次元シーン理解において重要な課題である。 しかし,既存の手法は畳み込みニューラルネットワーク(CNN)アーキテクチャに限定されている。 ローカライズされた線形演算を使用し、レイヤ全体の特徴分解能を失うCNNとは対照的に、視覚トランスフォーマーは各ステージにおいてグローバルな受容場を持つ一定の解像度で処理する。 近年の研究では、画像分類などのタスクにおいてトランスフォーマーをCNNのタスクと比較しているが、自己教師付き単眼深度推定におけるトランスフォーマーの使用の影響を調査する研究は存在しない。 本稿では,まず視覚トランスフォーマーを自己教師付き単眼深度推定に適用する方法を示す。 その後,キティ深度予測ベンチマークにおけるトランスフォーマーとcnnベースのアーキテクチャと,カメラ内在性が不明な場合を含め,自然腐敗や敵対的攻撃に対するロバスト性を比較した。 本研究は、トランスフォーマーベースのアーキテクチャが、実行時の効率が低いにもかかわらず、より堅牢で一般化可能な性能を実現する方法を示す。

The advent of autonomous driving and advanced driver assistance systems necessitates continuous developments in computer vision for 3D scene understanding. Self-supervised monocular depth estimation, a method for pixel-wise distance estimation of objects from a single camera without the use of ground truth labels, is an important task in 3D scene understanding. However, existing methods for this task are limited to convolutional neural network (CNN) architectures. In contrast with CNNs that use localized linear operations and lose feature resolution across the layers, vision transformers process at constant resolution with a global receptive field at every stage. While recent works have compared transformers against their CNN counterparts for tasks such as image classification, no study exists that investigates the impact of using transformers for self-supervised monocular depth estimation. Here, we first demonstrate how to adapt vision transformers for self-supervised monocular depth estimation. Thereafter, we compare the transformer and CNN-based architectures for their performance on KITTI depth prediction benchmarks, as well as their robustness to natural corruptions and adversarial attacks, including when the camera intrinsics are unknown. Our study demonstrates how transformer-based architecture, though lower in run-time efficiency, achieves comparable performance while being more robust and generalizable.
翻訳日:2022-02-08 14:08:58 公開日:2022-02-07
# チューニングするか、チューニングしないか? 訴訟解決のためのゼロショットモデル

To Tune or Not To Tune? Zero-shot Models for Legal Case Entailment ( http://arxiv.org/abs/2202.03120v1 )

ライセンス: Link先を確認
Guilherme Moraes Rosa, Ruan Chaves Rodrigues, Roberto de Alencar Lotufo, Rodrigo Nogueira(参考訳) 大規模で多様な教師付きデータセットに微調整された事前訓練された言語モデルが、さまざまなドメイン外タスクにうまく移行できるという証拠がいくつかある。 本研究では,本法域への移転能力について検討する。 そこで我々は,COLIEE 2021の判例提出作業に参加し,対象領域に適応しないモデルを用いた。 我々の応募は最高得点を達成し、第2位を6ポイント以上上回った。 我々の実験は、事前訓練された言語モデルの新たなパラダイムにおける反直感的な結果を確認した: 限定ラベル付きデータに対して、ターゲットタスクへの適応がほとんど、あるいは全くないモデルは、その上で微調整されたモデルよりも、データ分散の変化に対してより堅牢である。 コードはhttps://github.com/n euralmind-ai/colieeで入手できる。

There has been mounting evidence that pretrained language models fine-tuned on large and diverse supervised datasets can transfer well to a variety of out-of-domain tasks. In this work, we investigate this transfer ability to the legal domain. For that, we participated in the legal case entailment task of COLIEE 2021, in which we use such models with no adaptations to the target domain. Our submissions achieved the highest scores, surpassing the second-best team by more than six percentage points. Our experiments confirm a counter-intuitive result in the new paradigm of pretrained language models: given limited labeled data, models with little or no adaptation to the target task can be more robust to changes in the data distribution than models fine-tuned on it. Code is available at https://github.com/n euralmind-ai/coliee.
翻訳日:2022-02-08 14:07:46 公開日:2022-02-07
# (参考訳) 因果正規化フローを用いた社会科学における個人化公共政策分析 [全文訳有]

Personalized Public Policy Analysis in Social Sciences using Causal-Graphical Normalizing Flows ( http://arxiv.org/abs/2202.03281v1 )

ライセンス: CC BY 4.0
Sourabh Balgi, Jose M. Pena, Adel Daoud(参考訳) 構造方程式/因果モデル(SEMs/SCMs)は疫学や社会科学において、平均治療効果(ATE)と条件ATE(CATE)を同定し分析するために広く用いられている。 逆確率重み付け (ipw) やより最近の回帰帰納法 (rwr) のような従来の因果効果推定法は、scmパラメータを識別する困難なタスクを避けるために広く使われている。 しかし、伝統的な推定手法が偽物推論や社会科学におけるパーソナライズされた公共政策分析(p$^3$a)の恩恵を受ける前には、多くの研究が残っている。 医師は、実験室(比較的閉じたシステム)で患者に治療を施すためにパーソナライズされた医療に頼っているが、p$^3$aはそのような調整からインスピレーションを得ているが、オープンな社会システムに適用できる。 本稿では, 因果正規化フロー (c-GNF) と命名し, P$^3$A を容易にする反実的推論手法を開発する。 まず、c-GNFが機能形式を仮定することなく、基礎となるSCMをどうやって捉えるかを示す。 第二に, 流れの正規化の限界である離散変数を扱うための新しい解量化手法を提案する。 第3に,c-GNF が IPW と RWR に対して,真の機能形式が分かっていれば ATE を推定するためのバイアスと分散の点において,かつ,それらが未知である場合の方が優れていることを示す実験を行った。 第4に,我々は,c-GNFの反実的推論を行い,有望な経験的性能を示す。 他の従来の方法と同様に、IPWとRWRは反ファクト的推論の能力を欠いているため、c-GNFはパーソナライズされた治療を調整し、P$^3$Aを促進し、社会的介入を最適化する上で大きな役割を果たす可能性が高い。

Structural Equation/Causal Models (SEMs/SCMs) are widely used in epidemiology and social sciences to identify and analyze the average treatment effect (ATE) and conditional ATE (CATE). Traditional causal effect estimation methods such as Inverse Probability Weighting (IPW) and more recently Regression-With-Resi duals (RWR) are widely used - as they avoid the challenging task of identifying the SCM parameters - to estimate ATE and CATE. However, much work remains before traditional estimation methods can be used for counterfactual inference, and for the benefit of Personalized Public Policy Analysis (P$^3$A) in the social sciences. While doctors rely on personalized medicine to tailor treatments to patients in laboratory settings (relatively closed systems), P$^3$A draws inspiration from such tailoring but adapts it for open social systems. In this article, we develop a method for counterfactual inference that we name causal-Graphical Normalizing Flow (c-GNF), facilitating P$^3$A. First, we show how c-GNF captures the underlying SCM without making any assumption about functional forms. Second, we propose a novel dequantization trick to deal with discrete variables, which is a limitation of normalizing flows in general. Third, we demonstrate in experiments that c-GNF performs on-par with IPW and RWR in terms of bias and variance for estimating the ATE, when the true functional forms are known, and better when they are unknown. Fourth and most importantly, we conduct counterfactual inference with c-GNFs, demonstrating promising empirical performance. Because IPW and RWR, like other traditional methods, lack the capability of counterfactual inference, c-GNFs will likely play a major role in tailoring personalized treatment, facilitating P$^3$A, optimizing social interventions - in contrast to the current `one-size-fits-all&#x 27; approach of existing methods.
翻訳日:2022-02-08 14:05:19 公開日:2022-02-07
# (参考訳) 言語モデルを用いた赤いチーム言語モデル

Red Teaming Language Models with Language Models ( http://arxiv.org/abs/2202.03286v1 )

ライセンス: CC BY 4.0
Ethan Perez, Saffron Huang, Francis Song, Trevor Cai, Roman Ring, John Aslanides, Amelia Glaese, Nat McAleese, Geoffrey Irving(参考訳) 言語モデル(lms)は、予測が難しい方法でユーザを傷つける可能性があるため、しばしばデプロイできない。 以前の作業では、人間のアノテーションを使ってテストケースを手書きすることで、デプロイ前に有害な振る舞いを特定する。 しかしながら、人間のアノテーションは高価であり、テストケースの数と多様性を制限する。 この作業では、ターゲットlmが有害な方法で振る舞う場合を自動的に見つけて、別のlmを使ってテストケース(赤いチーム)を生成します。 280B のパラメータ LM チャットボットにおいて,攻撃内容を検出するために訓練された分類器を用いて,ターゲット LM の応答を評価した。 ゼロショット生成から強化学習まで,多様な多様性と難易度を持つテストケースを生成するためのいくつかの手法を探索する。 さらに,lmが生成するテストケースの制御,チャットボットが議論するグループの自動検出,チャットボット自身の連絡先情報として生成した個人と病院の電話番号,生成したテキストにおけるプライベートトレーニングデータの漏洩,会話の過程で発生する被害など,さまざまな有害性を明らかにするために,プロンプトエンジニアリングを用いる。 全体として、lmベースのred teamingは、ユーザに影響を与える前に多様で望ましくないlmの動作を見つけて修正するための有望なツールのひとつです。

Language Models (LMs) often cannot be deployed because of their potential to harm users in hard-to-predict ways. Prior work identifies harmful behaviors before deployment by using human annotators to hand-write test cases. However, human annotation is expensive, limiting the number and diversity of test cases. In this work, we automatically find cases where a target LM behaves in a harmful way, by generating test cases ("red teaming") using another LM. We evaluate the target LM's replies to generated test questions using a classifier trained to detect offensive content, uncovering tens of thousands of offensive replies in a 280B parameter LM chatbot. We explore several methods, from zero-shot generation to reinforcement learning, for generating test cases with varying levels of diversity and difficulty. Furthermore, we use prompt engineering to control LM-generated test cases to uncover a variety of other harms, automatically finding groups of people that the chatbot discusses in offensive ways, personal and hospital phone numbers generated as the chatbot's own contact info, leakage of private training data in generated text, and harms that occur over the course of a conversation. Overall, LM-based red teaming is one promising tool (among many needed) for finding and fixing diverse, undesirable LM behaviors before impacting users.
翻訳日:2022-02-08 13:46:35 公開日:2022-02-07
# (参考訳) COIL: 学習された潜在空間における制約付き最適化 -- 有効なソリューションの学習表現 [全文訳有]

COIL: Constrained Optimization in Learned Latent Space -- Learning Representations for Valid Solutions ( http://arxiv.org/abs/2202.02163v2 )

ライセンス: CC BY-SA 4.0
Peter J Bentley, Soo Ling Lim, Adam Gaier and Linh Tran(参考訳) 制約付き最適化問題は、探索空間が、例えば、マルチモーダリティ、不連続性、詐欺といった、探索に適さない性質を持っているため、困難である。 このような困難に対処するために、新しい進化的アルゴリズムや特殊遺伝演算子の作成についてかなりの研究がなされている。 しかし, 探索空間を定義した表現を, 制約を満たす有効な解のみを許すように変更すれば, 最適化アルゴリズムの専門化を必要とせずに, 最適な解を求めるタスクをより実現可能である。 このような表現を学習するための変分オートエンコーダの利用を提案する。 本稿では, 遅延空間における制約付き最適化(COIL)を提案する。これは, VAEを用いて, 探索空間の有効領域から抽出されたサンプルからなるデータセットから, 学習された遅延表現を生成することで, 学習された表現によって定義される新しい空間における目的を見つけることができる。 本稿では,このアプローチの異なる制約型と異なる変数数に対する価値について検討する。 標準表現を用いた同一GAと比較すると,COILと学習遅延表現は制約を満たすことができ,最大2桁の精度で目標とする解を求めることができる。

Constrained optimization problems can be difficult because their search spaces have properties not conducive to search, e.g., multimodality, discontinuities, or deception. To address such difficulties, considerable research has been performed on creating novel evolutionary algorithms or specialized genetic operators. However, if the representation that defined the search space could be altered such that it only permitted valid solutions that satisfied the constraints, the task of finding the optimal would be made more feasible without any need for specialized optimization algorithms. We propose the use of a Variational Autoencoder to learn such representations. We present Constrained Optimization in Latent Space (COIL), which uses a VAE to generate a learned latent representation from a dataset comprising samples from the valid region of the search space according to a constraint, thus enabling the optimizer to find the objective in the new space defined by the learned representation. We investigate the value of this approach on different constraint types and for different numbers of variables. We show that, compared to an identical GA using a standard representation, COIL with its learned latent representation can satisfy constraints and find solutions with distance to objective up to two orders of magnitude closer.
翻訳日:2022-02-08 12:45:19 公開日:2022-02-07
# (参考訳) wing上の5gネットワーク:uavベースの統合アクセスとバックホールへの深い強化学習アプローチ [全文訳有]

5G Network on Wings: A Deep Reinforcement Learning Approach to UAV-based Integrated Access and Backhaul ( http://arxiv.org/abs/2202.02006v2 )

ライセンス: CC BY 4.0
Hongyi Zhang, Jingya Li, Zhiqiang Qi, Xingqin Lin, Anders Aronsson, Jan Bosch, Helena Holmstr\"om Olsson(参考訳) 高速で信頼性の高い無線通信は、人間の生活において重要な需要となっている。 自然災害が襲うと、従来の無線ネットワークを利用することで、ユビキタスな接続が困難になる。 この文脈において、無人航空機(uav)ベースの航空ネットワークは、ミッションクリティカル(mc)シナリオにおける高速で柔軟で信頼性の高い無線通信の代替手段を提供する。 移動性、フレキシブルなデプロイメント、迅速な再設定といったユニークな特徴により、緊急時に地上のユーザにオンデマンド通信を提供するために、ドローンは簡単に位置を動的に変更できる。 その結果、UAV基地局(UAV-BS)の使用は、MCシナリオにおける迅速な接続を提供するための適切なアプローチとして検討されている。 本稿では,静的環境と動的環境の両方において,UAV-BSの制御方法を検討する。 本研究では,自然災害によってマクロbsが破壊され,iab(integrated access and backhaul)技術を用いてuav-bsが展開される状況を調査し,災害地域のユーザへのカバレッジを提供する。 本稿では,データ収集システム,シグナリング手順,機械学習の応用について述べる。 UAV-BSのアクセスとバックホールアンテナの傾斜と3次元配置を協調的に最適化するディープ強化学習アルゴリズムを開発した。 評価の結果,提案アルゴリズムは,地上のMCユーザを満足できるように自律的にUAV-BSをナビゲートし,設定することができることがわかった。

Fast and reliable wireless communication has become a critical demand in human life. When natural disasters strike, providing ubiquitous connectivity becomes challenging by using traditional wireless networks. In this context, unmanned aerial vehicle (UAV) based aerial networks offer a promising alternative for fast, flexible, and reliable wireless communications in mission-critical (MC) scenarios. Due to the unique characteristics such as mobility, flexible deployment, and rapid reconfiguration, drones can readily change location dynamically to provide on-demand communications to users on the ground in emergency scenarios. As a result, the usage of UAV base stations (UAV-BSs) has been considered as an appropriate approach for providing rapid connection in MC scenarios. In this paper, we study how to control a UAV-BS in both static and dynamic environments. We investigate a situation in which a macro BS is destroyed as a result of a natural disaster and a UAV-BS is deployed using integrated access and backhaul (IAB) technology to provide coverage for users in the disaster area. We present a data collection system, signaling procedures and machine learning applications for this use case. A deep reinforcement learning algorithm is developed to jointly optimize the tilt of the access and backhaul antennas of the UAV-BS as well as its three-dimensional placement. Evaluation results show that the proposed algorithm can autonomously navigate and configure the UAV-BS to satisfactorily serve the MC users on the ground.
翻訳日:2022-02-08 12:26:38 公開日:2022-02-07
# SignSGD: BlindとByzantineの敵に対するフォールトトレランス

SignSGD: Fault-Tolerance to Blind and Byzantine Adversaries ( http://arxiv.org/abs/2202.02085v2 )

ライセンス: Link先を確認
Jason Akoun, Sebastien Meyer(参考訳) 分散学習は、複数のデバイス間で計算を共有することによって、成長を続けるモデルをトレーニングする上で必要となっている。 しかし、一部のデバイスは意図的に故障し、適切な収束を防止できる。 実のところ、ベースライン分散SGDアルゴリズムは、ビザンティンの1つの敵の存在下では収束しない。 本稿ではSGDから派生したより堅牢なSignSGDアルゴリズムに焦点を当てる。 我々は、新しいバージョンがビザンツの敵に対して堅牢であることを示すSignSGDの収束率の上限を与える。 我々は、ビザンティンの学習プロセスを潰そうとする戦略とともにSignSGDを実装した。 それゆえ,我々は実験から経験的な観察を行い,理論を裏付ける。 私たちのコードはgithub https://github.com/j asonakoun/signsgd-fa ult-toleranceで利用可能です。

Distributed learning has become a necessity for training ever-growing models by sharing calculation among several devices. However, some of the devices can be faulty, deliberately or not, preventing the proper convergence. As a matter of fact, the baseline distributed SGD algorithm does not converge in the presence of one Byzantine adversary. In this article we focus on the more robust SignSGD algorithm derived from SGD. We provide an upper bound for the convergence rate of SignSGD proving that this new version is robust to Byzantine adversaries. We implemented SignSGD along with Byzantine strategies attempting to crush the learning process. Therefore, we provide empirical observations from our experiments to support our theory. Our code is available on GitHub https://github.com/j asonakoun/signsgd-fa ult-tolerance and our experiments are reproducible by using the provided parameters.
翻訳日:2022-02-08 12:02:18 公開日:2022-02-07
# トランスポートスコアクライミング:前向きKLと適応型ニューラルトランスポートを用いた変分推論

Transport Score Climbing: Variational Inference Using Forward KL and Adaptive Neural Transport ( http://arxiv.org/abs/2202.01841v2 )

ライセンス: Link先を確認
Liyi Zhang, Christian A. Naesseth, David M. Blei(参考訳) 変分推論はしばしば、近似分布 q から後 p への「逆」クルベック・リーバー (KL) KL(q||p) を最小化する。 最近の研究は、逆KLとは異なり「前方」KL KL(p||q)は不確実性を過小評価する変動近似を導かない。 本稿では,ハミルトニアンモンテカルロ(HMC)と新しい適応トランスポートマップを用いて,KL(p||q)を最適化するトランスポートスコアクライミング(TSC)を提案する。 トランスポートマップは、潜在変数空間と歪んだ空間の間の変数の変化として作用することで、HMCの軌道を改善する。 TSCはHMCサンプルを使用してKL(p||q)を最適化しながら輸送マップを動的に訓練する。 TSCはシナジーを活用し、より良い輸送マップはより良いHMCサンプリングをもたらし、より良い輸送マップをもたらす。 合成および実データ上でのTSCの実証を行った。 大規模データを用いた変分オートエンコーダの訓練において,TSCは競争性能が向上することがわかった。

Variational inference often minimizes the "reverse" Kullbeck-Leibler (KL) KL(q||p) from the approximate distribution q to the posterior p. Recent work studies the "forward" KL KL(p||q), which unlike reverse KL does not lead to variational approximations that underestimate uncertainty. This paper introduces Transport Score Climbing (TSC), a method that optimizes KL(p||q) by using Hamiltonian Monte Carlo (HMC) and a novel adaptive transport map. The transport map improves the trajectory of HMC by acting as a change of variable between the latent variable space and a warped space. TSC uses HMC samples to dynamically train the transport map while optimizing KL(p||q). TSC leverages synergies, where better transport maps lead to better HMC sampling, which then leads to better transport maps. We demonstrate TSC on synthetic and real data. We find that TSC achieves competitive performance when training variational autoencoders on large-scale data.
翻訳日:2022-02-08 12:02:04 公開日:2022-02-07