このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220220となっている論文です。

PDF登録状況(公開日: 20220220)

TitleAuthorsAbstract論文公表日・翻訳日
# 地球の移動距離を考慮したシアムスパイクニューラルネットワークの教師付き訓練

Supervised Training of Siamese Spiking Neural Networks with Earth's Mover Distance ( http://arxiv.org/abs/2203.13207v1 )

ライセンス: Link先を確認
Mateusz Pabian, Dominik Rzepka, Miros{\l}aw Pawlak(参考訳) 本研究は、高度に可逆なシアムニューラルネットワークモデルをイベントデータ領域に適用する。 本研究では,スパイクトレインとスパイクニューラルネットワーク(SNN)間の地球距離(EMD)を最適化するための教師付きトレーニングフレームワークを提案する。 我々は、mnistデータセットを新しい変換スキームでスパイキングドメインに変換するイメージで、このモデルをトレーニングする。 入力画像のシアム埋め込みの品質を,異なるデータセット符号化型の分類器性能の測定により評価した。 モデルは既存のSNNベースのアプローチ(F1スコアは最大0.9386)と同様のパフォーマンスを達成し、各例を分類するために隠蔽層ニューロンの15%しか使用しなかった。 さらに、スパースニューラルコードを使用しないモデルはスパースニューラルコードよりも約45%遅くなった。 これらの特性は、低エネルギー消費と低予測遅延アプリケーションに適したモデルを作成する。

This study adapts the highly-versatile siamese neural network model to the event data domain. We introduce a supervised training framework for optimizing Earth's Mover Distance (EMD) between spike trains with spiking neural networks (SNN). We train this model on images of the MNIST dataset converted into spiking domain with novel conversion schemes. The quality of the siamese embeddings of input images was evaluated by measuring the classifier performance for different dataset coding types. The models achieved performance similar to existing SNN-based approaches (F1-score of up to 0.9386) while using only about 15% of hidden layer neurons to classify each example. Furthermore, models which did not employ a sparse neural code were about 45% slower than their sparse counterparts. These properties make the model suitable for low energy consumption and low prediction latency applications.
翻訳日:2022-03-27 05:43:54 公開日:2022-02-20
# (参考訳) MANet:マルチアライメントネットワークによるビデオデノイングの改善 [全文訳有]

MANet: Improving Video Denoising with a Multi-Alignment Network ( http://arxiv.org/abs/2202.09704v1 )

ライセンス: CC BY 4.0
Yaping Zhao, Haitian Zheng, Zhongrui Wang, Jiebo Luo, Edmund Y. Lam(参考訳) ビデオのデノイングでは、隣接するフレームは、しばしば非常に有用な情報を提供するが、そのような情報がハーナスされる前に正確なアライメントが必要である。 本稿では,複数のフロー提案を生成し,注意に基づく平均化を行うマルチアリゲーションネットワークを提案する。 これは非局所的なメカニズムを模倣し、複数の観測を平均化することでノイズを抑制する。 本手法は,フロー推定に基づく各種最先端モデルに適用可能である。 大規模ビデオデータセットを用いた実験により,本手法は基本ラインモデルを0.2dB改善し,モデルの蒸留によりパラメータを47%削減することを示した。

In video denoising, the adjacent frames often provide very useful information, but accurate alignment is needed before such information can be harnassed. In this work, we present a multi-alignment network, which generates multiple flow proposals followed by attention-based averaging. It serves to mimics the non-local mechanism, suppressing noise by averaging multiple observations. Our approach can be applied to various state-of-the-art models that are based on flow estimation. Experiments on a large-scale video dataset demonstrate that our method improves the denoising baseline model by 0.2dB, and further reduces the parameters by 47% with model distillation.
翻訳日:2022-02-25 14:43:59 公開日:2022-02-20
# (参考訳) 分節網膜血管像に対する統計的・トポロジカルなサマリーエイド病の検出 [全文訳有]

Statistical and Topological Summaries Aid Disease Detection for Segmented Retinal Vascular Images ( http://arxiv.org/abs/2202.09708v1 )

ライセンス: CC BY 4.0
John T. Nardini, Charles W. J. Pugh, Helen M. Byrne(参考訳) 疾患の合併症は血管網の形態を変え、組織機能を阻害する。 例えば、糖尿病網膜症は1型および2型糖尿病の合併症であり、盲目を引き起こす可能性がある。 微小血管疾患は網膜画像の視覚検査によって評価されるが、無声症状や患者が対面ミーティングに参加できない場合、これは困難である。 網膜血管画像の統計的あるいはトポロジカルな要約をトレーニングした際の微小血管疾患検出における機械学習アルゴリズムの性能について検討した。 提案手法を4つの公開データセットに適用し, フラクタル次元が高解像度画像に対して最適であることを示す。 対照的に、データ中のループ数を定量化するトポロジカルディスクリプタベクトルは、低解像度画像に対して最も高い精度を実現する。 トポロジカルアプローチを用いたさらなる分析により、微小血管疾患は網膜血管のループ数を減らすことで形態を変化させる可能性があることが明らかになった。 本研究は,高分解能画像と低解像度画像の疾患評価に最も適した方法に関する予備的ガイドラインを提供する。 長期的には、これらの手法を自動疾患評価ツールに組み込むことができる。

Disease complications can alter vascular network morphology and disrupt tissue functioning. Diabetic retinopathy, for example, is a complication of type 1 and 2 diabetus mellitus that can cause blindness. Microvascular diseases are assessed by visual inspection of retinal images, but this can be challenging when diseases exhibit silent symptoms or patients cannot attend in-person meetings. We examine the performance of machine learning algorithms in detecting microvascular disease when trained on either statistical or topological summaries of segmented retinal vascular images. We apply our methods to four publicly-available datasets and find that the fractal dimension performs best for high resolution images. By contrast, we find that topological descriptor vectors quantifying the number of loops in the data achieve the highest accuracy for low resolution images. Further analysis, using the topological approach, reveals that microvascular disease may alter morphology by reducing the number of loops in the retinal vasculature. Our work provides preliminary guidelines on which methods are most appropriate for assessing disease in high and low resolution images. In the longer term, these methods could be incorporated into automated disease assessment tools.
翻訳日:2022-02-25 14:37:10 公開日:2022-02-20
# (参考訳) マイクログリッドのリアルタイムニューラル制御 [全文訳有]

Runtime-Assured, Real-Time Neural Control of Microgrids ( http://arxiv.org/abs/2202.09710v1 )

ライセンス: CC BY 4.0
Amol Damare, Shouvik Roy, Scott A. Smolka, Scott D. Stoller(参考訳) 本稿では,ニューラルコントローラを用いたマイクログリッド(mgs)の実行時保証のための新しい,確実に正しい設計手法であるsimplemgを提案する。 われわれのアプローチはNeural Simplex Architectureを中心にしており、ShaらのSimplex Control Architectureをベースとしている。 強化学習はMGのための高性能ニューラルネットワークの合成に用いられる。 バリア証明書はSimpleMGのランタイム保証を確立するために使われる。 本稿では,未検証のニューラルコントローラから検証済みの安全なベースラインコントローラに切り替える条件を導出する新しい手法を提案し,その方法が正しいことを証明した。 3つの分散型エネルギー資源(バッテリ、太陽光発電、ディーゼル発電機)からなるマイクログリッドの現実的なモデルに基づいて、電力系統用高忠実度リアルタイムシミュレーション環境であるrtdsを用いたsimplemgの広範な実験評価を行った。 実験の結果,SimpleMGは,ニューラルネットワークに対する逆入力攻撃があっても,実行時の安全性を確保しつつ,複雑なマイクログリッドのための高性能なニューラルコントローラの開発に有効であることが確認された。 我々の実験は、ベースラインコントローラが制御されている間、ニューラルコントローラのオンラインリトレーニングの利点も示している。

We present SimpleMG, a new, provably correct design methodology for runtime assurance of microgrids (MGs) with neural controllers. Our approach is centered around the Neural Simplex Architecture, which in turn is based on Sha et al.'s Simplex Control Architecture. Reinforcement Learning is used to synthesize high-performance neural controllers for MGs. Barrier Certificates are used to establish SimpleMG's runtime-assurance guarantees. We present a novel method to derive the condition for switching from the unverified neural controller to the verified-safe baseline controller, and we prove that the method is correct. We conduct an extensive experimental evaluation of SimpleMG using RTDS, a high-fidelity, real-time simulation environment for power systems, on a realistic model of a microgrid comprising three distributed energy resources (battery, photovoltaic, and diesel generator). Our experiments confirm that SimpleMG can be used to develop high-performance neural controllers for complex microgrids while assuring runtime safety, even in the presence of adversarial input attacks on the neural controller. Our experiments also demonstrate the benefits of online retraining of the neural controller while the baseline controller is in control
翻訳日:2022-02-25 14:18:17 公開日:2022-02-20
# (参考訳) 画像特徴と画素強度を用いたホログラフィー推定への統一的アプローチに向けて [全文訳有]

Towards a Unified Approach to Homography Estimation Using Image Features and Pixel Intensities ( http://arxiv.org/abs/2202.09716v1 )

ライセンス: CC BY 4.0
Lucas Nogueira, Ely C. de Paiva, Geraldo Silvera(参考訳) ホモグラフィ行列は、様々な視覚に基づくロボットタスクにおいて重要な要素である。 伝統的に、ホモグラフィ推定アルゴリズムは特徴量や強度に基づいて分類される。 後者の主な利点は、任意の照明変化に対する汎用性、精度、堅牢性である。 一方、それらは特徴ベースのソリューションよりも収束の領域が小さい。 それらの組み合わせは有望だが、既存の技術は連続的にしか適用できない。 本稿では,両クラスを1つの非線形最適化手順に統合し,同じ最小化法を適用し,同じホモグラフィパラメトリゼーションとワープ関数を用いるハイブリッド手法を提案する。 古典的なテストフレームワークを用いた実験的検証により、提案する統一アプローチは、個々のクラスに対する収束特性を改善した。 これらは視覚追跡アプリケーションでも実証されている。 最終的な貢献として、我々のアルゴリズムの実装は、研究コミュニティに公開されています。

The homography matrix is a key component in various vision-based robotic tasks. Traditionally, homography estimation algorithms are classified into feature- or intensity-based. The main advantages of the latter are their versatility, accuracy, and robustness to arbitrary illumination changes. On the other hand, they have a smaller domain of convergence than the feature-based solutions. Their combination is hence promising, but existing techniques only apply them sequentially. This paper proposes a new hybrid method that unifies both classes into a single nonlinear optimization procedure, applies the same minimization method, and uses the same homography parametrization and warping function. Experimental validation using a classical testing framework shows that the proposed unified approach has improved convergence properties compared to each individual class. These are also demonstrated in a visual tracking application. As a final contribution, our ready-to-use implementation of the algorithm is made publicly available to the research community.
翻訳日:2022-02-25 13:58:21 公開日:2022-02-20
# (参考訳) 正規言語学習におけるロバスト一般化の理解 [全文訳有]

Understanding Robust Generalization in Learning Regular Languages ( http://arxiv.org/abs/2202.09717v1 )

ライセンス: CC BY 4.0
Soham Dan and Osbert Bastani and Dan Roth(参考訳) 人間の知性の重要な特徴は、例えば過去のものよりも長い文を解析するなど、トレーニング分布を超えて一般化する能力である。 現在、ディープニューラルネットワークは、データ分散のこのようなシフトにロバストに一般化するのに苦労している。 本研究では,recurrent neural network(rnn)を用いた正規言語学習におけるロバスト一般化について検討する。 我々は,標準的なエンドツーエンドモデリング戦略が系統的な分布シフトにうまく適応できないことを仮定し,これに対応するための構成戦略を提案する。 我々は、文字列をラベルにマッピングするエンドツーエンド戦略と、正規言語を受け入れる決定論的有限状態オートマトン(DFA)の構造を予測する構成戦略を比較する。 理論上は、構成戦略がエンドツーエンド戦略よりもかなり優れていることを証明している。 本実験では,DFAが文字列を解析する際に訪れた中間状態を予測するための補助的タスクによって構成戦略を実装した。 我々の経験的結果は我々の仮説を支持し、補助的なタスクが堅牢な一般化を可能にすることを示す。 興味深いことに、エンドツーエンドの RNN は理論的な下界よりもはるかに良く一般化し、少なくともある程度の堅牢な一般化を達成することができることを示唆している。

A key feature of human intelligence is the ability to generalize beyond the training distribution, for instance, parsing longer sentences than seen in the past. Currently, deep neural networks struggle to generalize robustly to such shifts in the data distribution. We study robust generalization in the context of using recurrent neural networks (RNNs) to learn regular languages. We hypothesize that standard end-to-end modeling strategies cannot generalize well to systematic distribution shifts and propose a compositional strategy to address this. We compare an end-to-end strategy that maps strings to labels with a compositional strategy that predicts the structure of the deterministic finite-state automaton (DFA) that accepts the regular language. We theoretically prove that the compositional strategy generalizes significantly better than the end-to-end strategy. In our experiments, we implement the compositional strategy via an auxiliary task where the goal is to predict the intermediate states visited by the DFA when parsing a string. Our empirical results support our hypothesis, showing that auxiliary tasks can enable robust generalization. Interestingly, the end-to-end RNN generalizes significantly better than the theoretical lower bound, suggesting that it is able to achieve at least some degree of robust generalization.
翻訳日:2022-02-25 13:48:40 公開日:2022-02-20
# (参考訳) PooL:大規模マルチエージェント強化学習のためのフェロモンによるコミュニケーションフレームワーク [全文訳有]

PooL: Pheromone-inspired Communication Framework forLarge Scale Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2202.09722v1 )

ライセンス: CC BY 4.0
Zixuan Cao, Mengzhi Shi, Zhanbo Zhao, Xiujun Ma(参考訳) スケールアップが難しいことは、マルチエージェント協調において大きな問題を引き起こす。 小規模マルチエージェントシステムに適用されたマルチエージェント強化学習(marl)アルゴリズムは,エージェント数の増加に伴って相互作用数が指数関数的に増加するため,大規模システムへの拡張が困難である。 いくつかのスウォームインテリジェンスアルゴリズムは、大規模なエージェント調整を制御するためにフェロモンの放出と利用機構をシミュレートする。 このようなアルゴリズムに着想を得て, 大規模マルチエージェント強化に応用した \textbf{PooL}, a \textbf{p}her\textbf{o}m\textbf{o}ne-based indirect communication framework を提案する。 poolのエージェントによって放出されるフェロモンは、現在の環境に対するエージェントの見解を反映した強化学習アルゴリズムのアウトプットとして定義される。 フェロモン更新機構は、全てのエージェントの情報を効率的に整理し、エージェント間の複雑な相互作用を低次元表現に単純化することができる。 エージェントによって知覚されるフェロモンは、環境の実態をよりよく反映できる近くのエージェントの視点の要約と見なすことができる。 また, 大規模協調環境において, PooL の実装のためのQ-Learning を基本モデルとし, PooL の評価を行った。 実験によると、エージェントはプールを通じて効果的な情報をキャプチャし、通信コストの低減で他の最先端メソッドよりも高い報酬を得ることができる。

Being difficult to scale poses great problems in multi-agent coordination. Multi-agent Reinforcement Learning (MARL) algorithms applied in small-scale multi-agent systems are hard to extend to large-scale ones because the latter is far more dynamic and the number of interactions increases exponentially with the growing number of agents. Some swarm intelligence algorithms simulate the release and utilization mechanism of pheromones to control large-scale agent coordination. Inspired by such algorithms, \textbf{PooL}, an \textbf{p}her\textbf{o}m\textbf{o}ne-based indirect communication framework applied to large scale multi-agent reinforcement \textbf{l}earning is proposed in order to solve the large-scale multi-agent coordination problem. Pheromones released by agents of PooL are defined as outputs of most reinforcement learning algorithms, which reflect agents' views of the current environment. The pheromone update mechanism can efficiently organize the information of all agents and simplify the complex interactions among agents into low-dimensional representations. Pheromones perceived by agents can be regarded as a summary of the views of nearby agents which can better reflect the real situation of the environment. Q-Learning is taken as our base model to implement PooL and PooL is evaluated in various large-scale cooperative environments. Experiments show agents can capture effective information through PooL and achieve higher rewards than other state-of-arts methods with lower communication costs.
翻訳日:2022-02-25 12:31:20 公開日:2022-02-20
# (参考訳) ループゲーム:低光度画像強調のための品質評価と最適化 [全文訳有]

The Loop Game: Quality Assessment and Optimization for Low-Light Image Enhancement ( http://arxiv.org/abs/2202.09738v1 )

ライセンス: CC BY 4.0
Baoliang Chen, Lingyu Zhu, Hanwei Zhu, Wenhan Yang, Fangbo Lu, Shiqi Wang(参考訳) 低光度画像強調法の設計と最適化は知覚的品質によって完全に駆動される必要があるというコンセンサスが増えている。 低光度画像を強化するための多くのアプローチが提案されているため、低光度画像の品質評価と品質最適化に関する作業は少なくなっている。 本稿では,強調と評価のギャップを埋めるために,低照度画像の強調が視覚的品質の向上にどのように最適化できるかを明確にしたループ強調フレームワークを提案する。 特に,QUality Assessment of The Enhanced LOw-Light Image (QUOTE-LOL) を大規模に作成し,客観的品質評価尺度の研究・開発の基礎となる。 客観的品質評価尺度は、視覚品質と強調度との間に重要な橋渡しの役割を担い、知覚の最適化に向けた強調モデル学習の最適化にさらに組み込まれている。 最後に,強調タスクと最適化タスクを反復的に実行し,低照度画像を連続的に改善する。 提案手法の優位性は,様々な低照度シーンに基づいて検証される。 データベースとコードが利用可能になる。

There is an increasing consensus that the design and optimization of low light image enhancement methods need to be fully driven by perceptual quality. With numerous approaches proposed to enhance low-light images, much less work has been dedicated to quality assessment and quality optimization of low-light enhancement. In this paper, to close the gap between enhancement and assessment, we propose a loop enhancement framework that produces a clear picture of how the enhancement of low-light images could be optimized towards better visual quality. In particular, we create a large-scale database for QUality assessment Of The Enhanced LOw-Light Image (QUOTE-LOL), which serves as the foundation in studying and developing objective quality assessment measures. The objective quality assessment measure plays a critical bridging role between visual quality and enhancement and is further incorporated in the optimization in learning the enhancement model towards perceptual optimally. Finally, we iteratively perform the enhancement and optimization tasks, enhancing the low-light images continuously. The superiority of the proposed scheme is validated based on various low-light scenes. The database as well as the code will be available.
翻訳日:2022-02-25 12:17:26 公開日:2022-02-20
# (参考訳) マルチモーダル監督と潜在ドメイン適応による音楽誘発脳波の情動表現の増強 [全文訳有]

Enhancing Affective Representations of Music-Induced EEG through Multimodal Supervision and latent Domain Adaptation ( http://arxiv.org/abs/2202.09750v1 )

ライセンス: CC BY 4.0
Kleanthis Avramidis, Christos Garoufis, Athanasia Zlatintsi, Petros Maragos(参考訳) 音楽認知と音楽に対する神経反応の研究は人間の感情を理解する上で非常に重要である。 しかし、脳信号は、特に影響のような抽象的な構造において、意味のある特徴の処理と検索を困難にする非常に複雑な構造を示す。 さらに、学習モデルの性能は、利用可能なニューロンデータの限られた量と、その厳しいサブジェクト間変動性によって低下する。 本稿では,音楽聴取時の脳波信号から効率良くパーソナライズされた感情表現を抽出する。 この目的のために,脳波の監督的モダリティとして音楽信号を用い,その意味的対応を共通の表現空間に投影する。 LSTMに基づくアテンションモデルと音楽タギングのための事前訓練されたモデルとを組み合わせ,2つのモダリティの分布を整列させる逆領域判別器を併用し,さらに学習過程を感情タグで制約する。 得られたフレームワークは、脳波入力クエリに関連する音楽サンプルを提供することにより、モダリティまたは間接の両方から教師付き予測を行うことで、感情認識の両方に直接利用できる。 実験結果から、認知目的の刺激情報を通じて神経データを増強する可能性を示し、音楽誘発性感情特徴の分布と時間的変動に関する洞察を得ることができた。

The study of Music Cognition and neural responses to music has been invaluable in understanding human emotions. Brain signals, though, manifest a highly complex structure that makes processing and retrieving meaningful features challenging, particularly of abstract constructs like affect. Moreover, the performance of learning models is undermined by the limited amount of available neuronal data and their severe inter-subject variability. In this paper we extract efficient, personalized affective representations from EEG signals during music listening. To this end, we employ music signals as a supervisory modality to EEG, aiming to project their semantic correspondence onto a common representation space. We utilize a bi-modal framework by combining an LSTM-based attention model to process EEG and a pre-trained model for music tagging, along with a reverse domain discriminator to align the distributions of the two modalities, further constraining the learning process with emotion tags. The resulting framework can be utilized for emotion recognition both directly, by performing supervised predictions from either modality, and indirectly, by providing relevant music samples to EEG input queries. The experimental findings show the potential of enhancing neuronal data through stimulus information for recognition purposes and yield insights into the distribution and temporal variance of music-induced affective features.
翻訳日:2022-02-25 12:03:07 公開日:2022-02-20
# (参考訳) 深度完了のための動的空間伝搬ネットワーク [全文訳有]

Dynamic Spatial Propagation Network for Depth Completion ( http://arxiv.org/abs/2202.09769v1 )

ライセンス: CC BY 4.0
Yuankai Lin, Tao Cheng, Qi Zhong, Wending Zhou and Hua Yang(参考訳) 画像誘導深度補正は、疎深度測定と対応するRGB画像を用いた濃密深度マップを作成することを目的としている。 現在、空間伝播ネットワーク(SPN)は深度補完において最も一般的な親和性に基づく手法であるが、固定親和性の表現限界と反復中の過度な平滑化に悩まされている。 提案手法は,SPNイテレーション毎に独立親和性行列を推定することであるが,過パラメータ化と重計算である。 本稿では,隣接画素間の親和性を注意に基づく動的アプローチで学習する効率的なモデルを提案する。 具体的には,非線形伝搬モデル(NLPM)を用いた動的空間伝搬ネットワーク(DySPN)を提案する。 近傍を異なる距離に関する部分に分けて再帰的に独立したアテンションマップを生成し、これらの部分を適応親和性行列に洗練する。 さらに,拡散抑制 (DS) 操作を採用して, モデルが早期に収束し, 密集深度の過度な平滑化を防止する。 最後に,計算コストを削減するために,類似の精度を維持しつつ,隣人や注意を減らした3つのバリエーションを導入する。 実際に,本手法では,他のSPNの性能に適合するイテレーションを少なくし,全体としてより優れた結果が得られる。 DySPNは、KITTI Depth Completion (DC)の評価において、他の最先端(SoTA)メソッドよりも優れており、NYU Depth v2データセットでもSoTAのパフォーマンスを得ることができる。

Image-guided depth completion aims to generate dense depth maps with sparse depth measurements and corresponding RGB images. Currently, spatial propagation networks (SPNs) are the most popular affinity-based methods in depth completion, but they still suffer from the representation limitation of the fixed affinity and the over smoothing during iterations. Our solution is to estimate independent affinity matrices in each SPN iteration, but it is over-parameterized and heavy calculation. This paper introduces an efficient model that learns the affinity among neighboring pixels with an attention-based, dynamic approach. Specifically, the Dynamic Spatial Propagation Network (DySPN) we proposed makes use of a non-linear propagation model (NLPM). It decouples the neighborhood into parts regarding to different distances and recursively generates independent attention maps to refine these parts into adaptive affinity matrices. Furthermore, we adopt a diffusion suppression (DS) operation so that the model converges at an early stage to prevent over-smoothing of dense depth. Finally, in order to decrease the computational cost required, we also introduce three variations that reduce the amount of neighbors and attentions needed while still retaining similar accuracy. In practice, our method requires less iteration to match the performance of other SPNs and yields better results overall. DySPN outperforms other state-of-the-art (SoTA) methods on KITTI Depth Completion (DC) evaluation by the time of submission and is able to yield SoTA performance in NYU Depth v2 dataset as well.
翻訳日:2022-02-25 11:52:22 公開日:2022-02-20
# (参考訳) 探索しない場所発見による論理プログラムの学習 [全文訳有]

Learning logic programs by discovering where not to search ( http://arxiv.org/abs/2202.09806v1 )

ライセンス: CC BY 4.0
Andrew Cropper and C\'eline Hocquette(参考訳) 帰納論理プログラミング(ILP)の目標は、トレーニング例とバックグラウンド知識(BK)を一般化する仮説を探索することである。 性能向上のために,仮説を探索する前に最初に「検索しない場所」を発見する手法を提案する。 我々は与えられたBKを用いて、数が偶数と奇数の両方で成り立たないような仮説上の制約を発見する。 我々は制約駆動型LPシステムのブートストラップに制約を用いる。 プログラム合成と帰納的汎用ゲームプレイを含む)複数の領域に対する実験により,本手法が学習時間を著しく短縮できることが示された。

The goal of inductive logic programming (ILP) is to search for a hypothesis that generalises training examples and background knowledge (BK). To improve performance, we introduce an approach that, before searching for a hypothesis, first discovers `where not to search'. We use given BK to discover constraints on hypotheses, such as that a number cannot be both even and odd. We use the constraints to bootstrap a constraint-driven ILP system. Our experiments on multiple domains (including program synthesis and inductive general game playing) show that our approach can substantially reduce learning times.
翻訳日:2022-02-25 11:36:41 公開日:2022-02-20
# (参考訳) コンテクスト知的意思決定:商業運転の公正評価のための機械出力のエキスパートモデレーション [全文訳有]

Contextual Intelligent Decisions: Expert Moderation of Machine Outputs for Fair Assessment of Commercial Driving ( http://arxiv.org/abs/2202.09816v1 )

ライセンス: CC BY 4.0
Jimiama Mafeni Mase, Direnc Pekaslan, Utkarsh Agrawal, Mohammad Mesgarpour, Peter Chapman, Mercedes Torres Torres, Grazziela P. Figueredo(参考訳) 商用運転は、個人の特性や、天気、交通、道路条件など外部の状況要因に影響される複雑な多面的タスクである。 従来のインテリジェントな商業運転評価システムは、運転行動が道路安全に与える影響を分析し、バイアス、不正確、不公平な評価を生じさせる場合、これらの要因を考慮しない。 本稿では,運転者の行動の公平な自動道路安全評価のための方法論(専門化ドライバ評価)を導入し,文脈要因への応答として行動を考慮した。 インテリジェントな意思決定プロセスに埋め込まれたコンテキストモデレーションは、業界内のさまざまな関連する利害関係者からなる専門家のインプットによって基づいています。 文献と専門家のインプットから,運転に影響を及ぼす重要な要因を特定し,要因の影響の不確かさと専門家の見解のばらつきを捉えた,区間価値応答書式質問紙の開発を行った。 不確実性のある意思決定システムに組み込まれる適切な計算手法を提供するため、アンケートデータはファジィ集合を用いてモデル化され分析される。 この手法により,ドライバセンサデータをモデレートする際に考慮すべき要因を特定し,その要因の影響に関する専門家の意見を効果的に捉えることができる。 重品車専門家のインプットを用いた手法の例として,知的運転者アセスメントシステムに専門家中心のモデレーションを組み込む方法を示す。

Commercial driving is a complex multifaceted task influenced by personal traits and external contextual factors, such as weather, traffic, road conditions, etc. Previous intelligent commercial driver-assessment systems do not consider these factors when analysing the impact of driving behaviours on road safety, potentially producing biased, inaccurate, and unfair assessments. In this paper, we introduce a methodology (Expert-centered Driver Assessment) towards a fairer automatic road safety assessment of drivers' behaviours, taking into consideration behaviours as a response to contextual factors. The contextual moderation embedded within the intelligent decision-making process is underpinned by expert input, comprising of a range of associated stakeholders in the industry. Guided by the literature and expert input, we identify critical factors affecting driving and develop an interval-valued response-format questionnaire to capture the uncertainty of the influence of factors and variance amongst experts' views. Questionnaire data are modelled and analysed using fuzzy sets, as they provide a suitable computational approach to be incorporated into decision-making systems with uncertainty. The methodology has allowed us to identify the factors that need to be considered when moderating driver sensor data, and to effectively capture experts' opinions about the effects of the factors. An example of our methodology using Heavy Goods Vehicles professionals input is provided to demonstrate how the expert-centred moderation can be embedded in intelligent driver assessment systems.
翻訳日:2022-02-25 11:05:48 公開日:2022-02-20
# (参考訳) ディープニューラルネットワークを用いたディジタル通信におけるリアルタイムオーバー・ザ・エア・バイ・ザ・エアの摂動 [全文訳有]

Real-time Over-the-air Adversarial Perturbations for Digital Communications using Deep Neural Networks ( http://arxiv.org/abs/2202.11197v1 )

ライセンス: CC BY 4.0
Roman A. Sandler, Peter K. Relich, Cloud Cho, Sean Holloway(参考訳) ディープニューラルネットワーク(DNN)は、様々な伝統的な高周波(RF)問題でますます使われている。 これまでの研究によると、DNN分類器は従来の信号処理アルゴリズムよりも精度が高いが、DNN分類器を騙し、その精度を著しく低下させる意図的な逆方向の摂動に対して脆弱である。 このような意図的な逆方向の摂動は、RF通信システムによってDNN分類器に依存する反応性ジャマーやインターセプションシステムを避けるために利用することができる。 RF対向摂動に関するこれまでの研究は、シミュレーションによる攻撃の理論的実現可能性を確立してきたが、現実の実装と生存性に関する批判的な疑問は未解決のままである。 この研究は、クラス固有およびサンプル非依存の逆摂動を定義することによって、このギャップを解消しようとするものである。 ソフトウェア定義無線 (SDR) を用いて, 物理的チャネルをまたいだ空対空攻撃の有効性を示す。 最後に,これらの逆方向の摂動が通信装置以外のソースから発生することを実証し,物理層での伝送信号を操作できないデバイスに対して,これらの攻撃を実用的なものにする。

Deep neural networks (DNNs) are increasingly being used in a variety of traditional radiofrequency (RF) problems. Previous work has shown that while DNN classifiers are typically more accurate than traditional signal processing algorithms, they are vulnerable to intentionally crafted adversarial perturbations which can deceive the DNN classifiers and significantly reduce their accuracy. Such intentional adversarial perturbations can be used by RF communications systems to avoid reactive-jammers and interception systems which rely on DNN classifiers to identify their target modulation scheme. While previous research on RF adversarial perturbations has established the theoretical feasibility of such attacks using simulation studies, critical questions concerning real-world implementation and viability remain unanswered. This work attempts to bridge this gap by defining class-specific and sample-independent adversarial perturbations which are shown to be effective yet computationally feasible in real-time and time-invariant. We demonstrate the effectiveness of these attacks over-the-air across a physical channel using software-defined radios (SDRs). Finally, we demonstrate that these adversarial perturbations can be emitted from a source other than the communications device, making these attacks practical for devices that cannot manipulate their transmitted signals at the physical layer.
翻訳日:2022-02-25 10:44:45 公開日:2022-02-20
# (参考訳) 畳み込み変動生成モデルに基づく脳腫瘍検出のための新しい枠組み [全文訳有]

A Novel Framework for Brain Tumor Detection Based on Convolutional Variational Generative Models ( http://arxiv.org/abs/2202.09850v1 )

ライセンス: CC BY 4.0
Wessam M. Salama and Ahmed Shokry(参考訳) 脳腫瘍検出は、生命と死を区別することができる。 近年,ディープラーニングを用いた脳腫瘍検出技術が注目されている。 しかし,このような深層学習システムの性能は,深層モデルの学習に大量の分類画像を必要とする。 このようなデータを取得するのは退屈で時間がかかり、人間のミスに容易にさらされ、このようなディープラーニングアプローチの利用を妨げる。 本稿では,脳腫瘍の検出と分類のための新しい枠組みを提案する。 基本的な考え方は、小さなクラス不均衡の収集データセットから、脳MRI画像の典型的なパターンを反映した大規模な合成MRI画像データセットを作成することである。 得られたデータセットは、検出と分類のための深層モデルのトレーニングに使用される。 具体的には,2種類の深層モデルを用いています。 最初のモデルは、小さなクラス非バランスな脳mri画像における重要な特徴の分布を捉えた生成モデルである。 そして、この分布を用いることで、生成モデルはクラス毎に任意の数の脳MRI画像を合成することができる。 したがって、システムは小さな不均衡データセットをより大きな均衡データセットに自動的に変換することができる。 第2のモデルは、mri画像中の脳腫瘍を検出するために、大きなバランスデータセットを使用して訓練される分類器である。 提案フレームワークは96.88%の総合的検出精度を取得し,脳腫瘍検出システムとしてのフレームワークの約束を明らかにする。

Brain tumor detection can make the difference between life and death. Recently, deep learning-based brain tumor detection techniques have gained attention due to their higher performance. However, obtaining the expected performance of such deep learning-based systems requires large amounts of classified images to train the deep models. Obtaining such data is usually boring, time-consuming, and can easily be exposed to human mistakes which hinder the utilization of such deep learning approaches. This paper introduces a novel framework for brain tumor detection and classification. The basic idea is to generate a large synthetic MRI images dataset that reflects the typical pattern of the brain MRI images from a small class-unbalanced collected dataset. The resulted dataset is then used for training a deep model for detection and classification. Specifically, we employ two types of deep models. The first model is a generative model to capture the distribution of the important features in a set of small class-unbalanced brain MRI images. Then by using this distribution, the generative model can synthesize any number of brain MRI images for each class. Hence, the system can automatically convert a small unbalanced dataset to a larger balanced one. The second model is the classifier that is trained using the large balanced dataset to detect brain tumors in MRI images. The proposed framework acquires an overall detection accuracy of 96.88% which highlights the promise of the proposed framework as an accurate low-overhead brain tumor detection system.
翻訳日:2022-02-25 10:34:34 公開日:2022-02-20
# (参考訳) ChemTab:物理ガイドによる化学モデリングフレームワーク [全文訳有]

ChemTab: A Physics Guided Chemistry Modeling Framework ( http://arxiv.org/abs/2202.09855v1 )

ライセンス: CC BY 4.0
Amol Salunkhe, Dwyer Deighan, Paul DesJardin, Varun Chandola(参考訳) 乱流燃焼システムのモデリングには、基礎となる化学と乱流のモデリングが必要である。 両方のシステムを同時に解くことは、計算的に禁止される。 代わりに、2つのサブシステムが進化するスケールの違いを考えると、2つのサブシステムは通常(再)別々に解決される。 フラムレット生成多様体 (FGM) のような一般的なアプローチでは、制御反応の速度論を事前計算し、いくつかの反応進行変数(モデル還元)を特徴とする低次元多様体にマッピングする2段階の戦略を用いており、フローシステムによって高次元系の状態が推定される。 既存の研究はこれらの2つのステップに独立して焦点を当てているが、進行変数とルックアップモデルの共同学習により、より正確な結果が得られることを示す。 我々は、共同学習タスク用にカスタマイズされたChemTabと呼ばれるディープニューラルネットワークアーキテクチャを提案し、既存の最先端手法よりもその優位性を実験的に実証する。

Modeling of turbulent combustion system requires modeling the underlying chemistry and the turbulent flow. Solving both systems simultaneously is computationally prohibitive. Instead, given the difference in scales at which the two sub-systems evolve, the two sub-systems are typically (re)solved separately. Popular approaches such as the Flamelet Generated Manifolds (FGM) use a two-step strategy where the governing reaction kinetics are pre-computed and mapped to a low-dimensional manifold, characterized by a few reaction progress variables (model reduction) and the manifold is then "looked-up" during the run-time to estimate the high-dimensional system state by the flow system. While existing works have focused on these two steps independently, we show that joint learning of the progress variables and the look-up model, can yield more accurate results. We propose a deep neural network architecture, called ChemTab, customized for the joint learning task and experimentally demonstrate its superiority over existing state-of-the-art methods.
翻訳日:2022-02-25 10:24:45 公開日:2022-02-20
# (参考訳) 協調型人工知能

Cooperative Artificial Intelligence ( http://arxiv.org/abs/2202.09859v1 )

ライセンス: CC0 1.0
Tobias Baumann(参考訳) 将来的には、我々の社会に人工知能エージェントが普及する可能性が高い。 それらは、社会的ジレンマを含むさまざまな複雑な設定で、他の学習エージェントと人間の両方と対話する。 我々は、ゲーム理論と人工知能の交点の研究が必要であり、社会的ジレンマをうまくナビゲートできる協調的な人工知能を実現することを目標としている。 学習者の行動を観察し,追加の報酬や罰を分配することで,外部エージェントが人工学習者の協力を促進するかという課題を考察する。 各エージェントの予測パラメータ更新を考慮し,適切なインセンティブ作成方法を自動的に学習するルールを提案する。 この学習規則を用いることで、エージェントが高い確率で欠陥を学習するマトリクスゲームにおいて、高い社会福祉と協調することにつながる。 その結果,計画エージェントが一定回数のエピソードの後にオフになっても,あるゲームでは協調的な結果が安定し,他のゲームでは相互協力を維持するために継続的な介入が必要であることが示された。 最後に,マルチエージェント強化学習の目標がそもそも何であるかを考察し,協調型AI構築の目標に向けた必要な構築ブロックについて議論する。

In the future, artificial learning agents are likely to become increasingly widespread in our society. They will interact with both other learning agents and humans in a variety of complex settings including social dilemmas. We argue that there is a need for research on the intersection between game theory and artificial intelligence, with the goal of achieving cooperative artificial intelligence that can navigate social dilemmas well. We consider the problem of how an external agent can promote cooperation between artificial learners by distributing additional rewards and punishments based on observing the actions of the learners. We propose a rule for automatically learning how to create the right incentives by considering the anticipated parameter updates of each agent. Using this learning rule leads to cooperation with high social welfare in matrix games in which the agents would otherwise learn to defect with high probability. We show that the resulting cooperative outcome is stable in certain games even if the planning agent is turned off after a given number of episodes, while other games require ongoing intervention to maintain mutual cooperation. Finally, we reflect on what the goals of multi-agent reinforcement learning should be in the first place, and discuss the necessary building blocks towards the goal of building cooperative AI.
翻訳日:2022-02-25 10:14:03 公開日:2022-02-20
# (参考訳) TensorFlowとPyTorchの線形代数認識のベンチマーク [全文訳有]

Benchmarking the Linear Algebra Awareness of TensorFlow and PyTorch ( http://arxiv.org/abs/2202.09888v1 )

ライセンス: CC BY 4.0
Aravind Sankaran, Navid Akbari Alashti, Christos Psarras, Paolo Bientinesi(参考訳) 機械学習においてユビキタスな線形代数演算は、大きなパフォーマンスボトルネックを形成する。 高性能コンピューティングコミュニティは、線形代数演算を高速化するために、blasやlapackライブラリが提供するようなアーキテクチャ固有の最適化カーネルの開発に多大な投資をしている。 しかし、エンドユーザーは、これらのカーネルを直接使用するエラーの傾向と時間のかかるプロセスを徐々に経験しなくなり、代わりに、機械学習アプリケーションの開発を容易にするTensorFlow(TF)やPyTorch(PyT)といったフレームワークがますます人気を集めている。 このようなフレームワークは BLAS や LAPACK にリンクしているが、線形代数の知識を使って計算を高速化するかどうかは不明である。 そこで本稿では, TF と PyT の線形代数最適化能力を評価するベンチマークを開発する。 例えば、分散則を適用してスカラー演算の数を減らし、行列連鎖の最適括弧を自動同定するなどである。 本研究では,TF と PyT の線形代数計算に焦点をあて,両フレームワークの開発者によるパフォーマンス向上の機会を明らかにし,エンドユーザーに性能向上の方法に関するガイドラインを提供する。

Linear algebra operations, which are ubiquitous in machine learning, form major performance bottlenecks. The High-Performance Computing community invests significant effort in the development of architecture-specifi c optimized kernels, such as those provided by the BLAS and LAPACK libraries, to speed up linear algebra operations. However, end users are progressively less likely to go through the error prone and time-consuming process of directly using said kernels; instead, frameworks such as TensorFlow (TF) and PyTorch (PyT), which facilitate the development of machine learning applications, are becoming more and more popular. Although such frameworks link to BLAS and LAPACK, it is not clear whether or not they make use of linear algebra knowledge to speed up computations. For this reason, in this paper we develop benchmarks to investigate the linear algebra optimization capabilities of TF and PyT. Our analyses reveal that a number of linear algebra optimizations are still missing; for instance, reducing the number of scalar operations by applying the distributive law, and automatically identifying the optimal parenthesization of a matrix chain. In this work, we focus on linear algebra computations in TF and PyT; we both expose opportunities for performance enhancement to the benefit of the developers of the frameworks and provide end users with guidelines on how to achieve performance gains.
翻訳日:2022-02-25 10:13:03 公開日:2022-02-20
# (参考訳) 分子特性予測のための同変グラフ注意ネットワーク [全文訳有]

Equivariant Graph Attention Networks for Molecular Property Prediction ( http://arxiv.org/abs/2202.09891v1 )

ライセンス: CC BY 4.0
Tuan Le, Frank No\'e, Djork-Arn\'e Clevert(参考訳) 大きさの異なる3d分子構造の学習と推論は、機械学習、特に創薬において、新しくて重要な課題である。 等価グラフニューラルネットワーク(gnns)は問題領域の幾何学的および関係的詳細を同時に活用することができ、中間層における方向性のようなデータの幾何学を忠実に表現するために高階表現を利用するノード間の情報伝達を通じて表現的表現を学ぶことが知られている。 本研究では,デカルト座標と協調して方向性を持たせる同変gnnを提案し,ノード間の情報伝達において,コンテンツおよび空間依存フィルタとして機能する新しい注意機構を実装した。 小分子の量子力学的性質の予測におけるアーキテクチャの有効性と,タンパク質複合体などの高分子構造に関する問題に対する利点を示す。

Learning and reasoning about 3D molecular structures with varying size is an emerging and important challenge in machine learning and especially in drug discovery. Equivariant Graph Neural Networks (GNNs) can simultaneously leverage the geometric and relational detail of the problem domain and are known to learn expressive representations through the propagation of information between nodes leveraging higher-order representations to faithfully express the geometry of the data, such as directionality in their intermediate layers. In this work, we propose an equivariant GNN that operates with Cartesian coordinates to incorporate directionality and we implement a novel attention mechanism, acting as a content and spatial dependent filter when propagating information between nodes. We demonstrate the efficacy of our architecture on predicting quantum mechanical properties of small molecules and its benefit on problems that concern macromolecular structures such as protein complexes.
翻訳日:2022-02-25 09:53:37 公開日:2022-02-20
# (参考訳) 一般化類似度尺度を用いた空間熱リスク評価の枠組み [全文訳有]

A framework for spatial heat risk assessment using a generalized similarity measure ( http://arxiv.org/abs/2202.10963v1 )

ライセンス: CC BY 4.0
Akshay Bansal and Ayda Kianmehr(参考訳) 本研究では,メリーランド州の様々な地域(ジップコード)にまたがるヒートハザードによる健康リスクを,露出と脆弱性という2つの一般的な指標の助けを借りて評価する新しい枠組みを開発する。 上記の2つの指標をそれぞれ対応する特徴ベクトルを開発して定量化し,そのデータポイントを経験的リスクスペクトルの尾端にクラスタリングすることにより,リスクの高い環境を示す指標固有参照ベクトルを計算する。 提案手法は,自然に主観的なエントロピーの視点が異なる情報理論エントロピーに基づくアグリゲーション手法を回避し,また,未知の基準点とコサイン類似性を用いたリスク評価の概念を一般化する。

In this study, we develop a novel framework to assess health risks due to heat hazards across various localities (zip codes) across the state of Maryland with the help of two commonly used indicators i.e. exposure and vulnerability. Our approach quantifies each of the two aforementioned indicators by developing their corresponding feature vectors and subsequently computes indicator-specific reference vectors that signify a high risk environment by clustering the data points at the tail-end of an empirical risk spectrum. The proposed framework circumvents the information-theoreti c entropy based aggregation methods whose usage varies with different views of entropy that are subjective in nature and more importantly generalizes the notion of risk-valuation using cosine similarity with unknown reference points.
翻訳日:2022-02-25 09:28:38 公開日:2022-02-20
# 多様体上の拡散モデルの擬数値計算法

Pseudo Numerical Methods for Diffusion Models on Manifolds ( http://arxiv.org/abs/2202.09778v1 )

ライセンス: Link先を確認
Luping Liu, Yi Ren, Zhijie Lin, Zhou Zhao(参考訳) Denoising Diffusion Probabilistic Models (DDPM) は、画像やオーディオサンプルなどの高品質なサンプルを生成することができる。 しかし、DDPMは最終的なサンプルを生成するために数百から数千のイテレーションを必要とする。 いくつかの先行研究は、分散スケジュール(例えば、改良された拡散確率モデル)やデノナイジング方程式(例えば、Diffusion Implicit Models (DDIMs))を調整することでDDPMを加速した。 しかし, これらの加速法は, 試料の品質を維持することができず, 高い速度で新しいノイズを発生させることさえできない。 サンプルの品質を維持しながら推論プロセスを加速するため、DDPMを多様体上の微分方程式の解として扱うべきという新たな視点を提供する。 このような観点から拡散モデル(PNDM)の擬似数値法を提案する。 具体的には、多様体上の微分方程式の解法を解明し、DDIMが擬数値法の単純な場合であることを示す。 いくつかの古典的数値法を対応する擬似数値法に変更し、擬似線形多段階法がほとんどの状況で最適であることを示す。 実験によると、cifar10、celeba、lsunで事前訓練されたモデルを直接使用することにより、pndmは、1000ステップのddim(20倍のスピードアップ)と比較して50ステップしか持たない高品質な合成画像を生成することができ、250ステップ(fidで約0.4倍)のddimを著しく上回り、異なる分散スケジュールでうまく一般化することができる。 実装はhttps://github.com/l uping-liu/PNDMで公開しています。

Denoising Diffusion Probabilistic Models (DDPMs) can generate high-quality samples such as image and audio samples. However, DDPMs require hundreds to thousands of iterations to produce final samples. Several prior works have successfully accelerated DDPMs through adjusting the variance schedule (e.g., Improved Denoising Diffusion Probabilistic Models) or the denoising equation (e.g., Denoising Diffusion Implicit Models (DDIMs)). However, these acceleration methods cannot maintain the quality of samples and even introduce new noise at a high speedup rate, which limit their practicability. To accelerate the inference process while keeping the sample quality, we provide a fresh perspective that DDPMs should be treated as solving differential equations on manifolds. Under such a perspective, we propose pseudo numerical methods for diffusion models (PNDMs). Specifically, we figure out how to solve differential equations on manifolds and show that DDIMs are simple cases of pseudo numerical methods. We change several classical numerical methods to corresponding pseudo numerical methods and find that the pseudo linear multi-step method is the best in most situations. According to our experiments, by directly using pre-trained models on Cifar10, CelebA and LSUN, PNDMs can generate higher quality synthetic images with only 50 steps compared with 1000-step DDIMs (20x speedup), significantly outperform DDIMs with 250 steps (by around 0.4 in FID) and have good generalization on different variance schedules. Our implementation is available at https://github.com/l uping-liu/PNDM.
翻訳日:2022-02-23 12:51:40 公開日:2022-02-20
# RFデータ駆動無線デバイス分類のための複素値CNNの解析

An Analysis of Complex-Valued CNNs for RF Data-Driven Wireless Device Classification ( http://arxiv.org/abs/2202.09777v1 )

ライセンス: Link先を確認
Jun Chen, Weng-Keen Wong, Bechir Hamdaoui, Abdurrahman Elmaghbub, Kathiravetpillai Sivanesan, Richard Dorrance, Lily L. Yang(参考訳) 最近のディープニューラルネットワークに基づくデバイス分類研究は、複素数値ニューラルネットワーク(CVNN)が実数値ニューラルネットワーク(RVNN)よりも高い分類精度が得られることを示している。 この改善は(意図的に)入力されたRFデータ(IQシンボル)の複雑な性質に起因しているが、無線デバイス識別の文脈でそのような傾向を分析するための先行研究は行われていない。 本研究は、実際のLoRaおよびWiFi RFデータセットを用いて、この傾向についてより深く理解する。 私たちは影響を理解するために深く掘り下げます (i)入力表現/型及び (ii)ニューラルネットワークのアーキテクチャ層。 入力表現については、IQと極座標を部分的にも完全にも考慮した。 アーキテクチャレイヤでは,CVNNコンポーネントの一部を除去する一連のアブレーション実験を検討した。 以上の結果から,CVNNは様々なシナリオにおいて常にRVNNよりも優れており,CVNNは信号の相内(I)成分と4次(Q)成分を介して提供されるジョイント情報をより有効に活用できることが示唆された。

Recent deep neural network-based device classification studies show that complex-valued neural networks (CVNNs) yield higher classification accuracy than real-valued neural networks (RVNNs). Although this improvement is (intuitively) attributed to the complex nature of the input RF data (i.e., IQ symbols), no prior work has taken a closer look into analyzing such a trend in the context of wireless device identification. Our study provides a deeper understanding of this trend using real LoRa and WiFi RF datasets. We perform a deep dive into understanding the impact of (i) the input representation/type and (ii) the architectural layer of the neural network. For the input representation, we considered the IQ as well as the polar coordinates both partially and fully. For the architectural layer, we considered a series of ablation experiments that eliminate parts of the CVNN components. Our results show that CVNNs consistently outperform RVNNs counterpart in the various scenarios mentioned above, indicating that CVNNs are able to make better use of the joint information provided via the in-phase (I) and quadrature (Q) components of the signal.
翻訳日:2022-02-23 12:50:38 公開日:2022-02-20
# NetSentry: 大規模なネットワーク攻撃を検出するためのディープラーニングアプローチ

NetSentry: A Deep Learning Approach to Detecting Incipient Large-scale Network Attacks ( http://arxiv.org/abs/2202.09873v1 )

ライセンス: Link先を確認
Haoyu Liu and Paul Patras(参考訳) データストリームに隠された複雑なパターンを抽出するユニークな能力のため、DDoS、ボットネット、ランサムウェアなど、目立ったネットワーク攻撃に対処するために機械学習(ML)技術がますます採用されている。 しかし、これらのアプローチは同一の環境で収集されたデータで定期的に検証され、異なるネットワークトポロジにデプロイされたり、以前は見つからなかったトラフィックに適用されるとパフォーマンスが低下する。 これは悪意ある/良質な行動が表面的に学習され、mlベースのネットワーク侵入検知システム(nid)は実際に効果的に再訪する必要があることを示唆している。 本稿では,ネットワーク侵入検出(nid)にmlをどのように利用するのかを原理的に理解するために,大規模ネットワーク攻撃のメカニズムを考察する。 サイバー攻撃はペイロードやベクター、ターゲットによって大きく異なるが、攻撃の成功に不可欠な初期段階は、多くの類似点を共有し、重要な時間的相関を示す。 そこで我々は,NIDを時間に敏感なタスクとして扱うとともに,二方向非対称LSTM(Bi-ALSTM)をベースとしたNIDSとして初めて,ネットワークの脅威を検出するNetSentryを提案する。 我々は2つの実用的なデータセットを用いてNetSentryを横断的に評価し、1つのトレーニングともう1つのテストを行い、F1スコアが最先端技術よりも33%以上上昇し、XSSやWeb bruteforceのような攻撃を検出する確率が最大3倍高いことを実証した。 さらに、幅広い教師付きディープラーニングアルゴリズムの一般化能力を高める新しいデータ拡張手法を提案し、平均的なF1スコアが35%を超える結果となった。

Machine Learning (ML) techniques are increasingly adopted to tackle ever-evolving high-profile network attacks, including DDoS, botnet, and ransomware, due to their unique ability to extract complex patterns hidden in data streams. These approaches are however routinely validated with data collected in the same environment, and their performance degrades when deployed in different network topologies and/or applied on previously unseen traffic, as we uncover. This suggests malicious/benign behaviors are largely learned superficially and ML-based Network Intrusion Detection System (NIDS) need revisiting, to be effective in practice. In this paper we dive into the mechanics of large-scale network attacks, with a view to understanding how to use ML for Network Intrusion Detection (NID) in a principled way. We reveal that, although cyberattacks vary significantly in terms of payloads, vectors and targets, their early stages, which are critical to successful attack outcomes, share many similarities and exhibit important temporal correlations. Therefore, we treat NID as a time-sensitive task and propose NetSentry, perhaps the first of its kind NIDS that builds on Bidirectional Asymmetric LSTM (Bi-ALSTM), an original ensemble of sequential neural models, to detect network threats before they spread. We cross-evaluate NetSentry using two practical datasets, training on one and testing on the other, and demonstrate F1 score gains above 33% over the state-of-the-art, as well as up to 3 times higher rates of detecting attacks such as XSS and web bruteforce. Further, we put forward a novel data augmentation technique that boosts the generalization abilities of a broad range of supervised deep learning algorithms, leading to average F1 score gains above 35%.
翻訳日:2022-02-23 12:50:20 公開日:2022-02-20
# LFRパラメータ空間におけるノードクラスタリングのための分割グラフ計測性能

Dissecting graph measure performance for node clustering in LFR parameter space ( http://arxiv.org/abs/2202.09827v1 )

ライセンス: Link先を確認
Vladimir Ivashkin, Pavel Chebotarev(参考訳) ノード間の近接性や距離を表すグラフ測度は、メトリクスクラスタリングアルゴリズムを使用してグラフノードのクラスタリングに使用できる。 このタスクには多くの手段が適用でき、どれがより良く機能するかは、オープンな質問です。 パラメータの異なるグラフに対する25のグラフ測度の性能について検討する。 通常、測度比較は特定のデータセット上での一般的な測度ランキングに限られるが、グラフの特徴に応じて様々な測度のパフォーマンスを検討することを目的としている。 LFRグラフ生成器を用いて,LFRパラメータ全体をカバーする11780グラフのデータセットを作成する。 各グラフについて,k-meansアルゴリズムによるクラスタリングの質を評価する。 これに基づいてパラメータ空間の各領域について最良測度を決定する。 パラメータ空間は、ある特定の測度が最良である異なるゾーンからなることが分かる。 得られたゾーンの形状を分析し,簡単な基準で記述する。 特定のグラフパラメータを考えると、クラスタリングに使用する特定の指標を推奨できます。

Graph measures that express closeness or distance between nodes can be employed for graph nodes clustering using metric clustering algorithms. There are numerous measures applicable to this task, and which one performs better is an open question. We study the performance of 25 graph measures on generated graphs with different parameters. While usually measure comparisons are limited to general measure ranking on a particular dataset, we aim to explore the performance of various measures depending on graph features. Using an LFR graph generator, we create a dataset of 11780 graphs covering the whole LFR parameter space. For each graph, we assess the quality of clustering with k-means algorithm for each considered measure. Based on this, we determine the best measure for each area of the parameter space. We find that the parameter space consists of distinct zones where one particular measure is the best. We analyze the geometry of the resulting zones and describe it with simple criteria. Given particular graph parameters, this allows us to recommend a particular measure to use for clustering.
翻訳日:2022-02-23 12:23:49 公開日:2022-02-20
# RDP-Net:変更検出のための領域詳細保存ネットワーク

RDP-Net: Region Detail Preserving Network for Change Detection ( http://arxiv.org/abs/2202.09745v1 )

ライセンス: Link先を確認
Hongjia Chen, Fangling Pu, Rui Yang, Rui Tang, Xin Xu(参考訳) 変化検出(CD)は重要な地球観測技術である。 陸地オブジェクトの動的情報をキャプチャする。 ディープラーニングの台頭に伴い、ニューラルネットワーク(NN)はCDに大きな可能性を示している。 しかし、現在のnnモデルは学習中に詳細情報を失うバックボーンアーキテクチャを導入している。 さらに、現在のNNモデルはパラメータが重いため、ドローンなどのエッジデバイスへのデプロイを妨げている。 本研究は,CD のための領域詳細保存ネットワーク RDP-Net を提案することでこの問題に対処する。 NNトレーニングのウォームアップ期間中の個々のサンプルの重要性を定量化する,効率的なトレーニング戦略を提案する。 そして,重要度スコアに基づいて非一様サンプリングを行い,nnが分かり易く難易度の高い詳細情報を学習できるようにする。 次に,境界や小領域といった細部に対するネットワークの注意を向上する効果的なエッジロスを提案する。 その結果,170mのパラメータしか持たないcdにおける最先端の経験的性能を実現するnnモデルを提供する。 当社のRDP-Netは,コンパクトデバイス上での実用的なCDアプリケーションのメリットを享受し,より効率的なトレーニング戦略によって,変革検出を新たなレベルに導くことができることを願っています。

Change detection (CD) is an essential earth observation technique. It captures the dynamic information of land objects. With the rise of deep learning, neural networks (NN) have shown great potential in CD. However, current NN models introduce backbone architectures that lose the detail information during learning. Moreover, current NN models are heavy in parameters, which prevents their deployment on edge devices such as drones. In this work, we tackle this issue by proposing RDP-Net: a region detail preserving network for CD. We propose an efficient training strategy that quantifies the importance of individual samples during the warmup period of NN training. Then, we perform non-uniform sampling based on the importance score so that the NN could learn detail information from easy to hard. Next, we propose an effective edge loss that improves the network's attention on details such as boundaries and small regions. As a result, we provide a NN model that achieves the state-of-the-art empirical performance in CD with only 1.70M parameters. We hope our RDP-Net would benefit the practical CD applications on compact devices and could inspire more people to bring change detection to a new level with the efficient training strategy.
翻訳日:2022-02-23 10:29:08 公開日:2022-02-20
# タスク固有およびタスク非依存の重なりによる画像品質評価--前立腺癌領域におけるマルチパラメトリックmr画像への応用

Image quality assessment by overlapping task-specific and task-agnostic measures: application to prostate multiparametric MR images for cancer segmentation ( http://arxiv.org/abs/2202.09798v1 )

ライセンス: Link先を確認
Shaheer U. Saeed, Wen Yan, Yunguan Fu, Francesco Giganti, Qianye Yang, Zachary M. C. Baum, Mirabela Rusu, Richard E. Fan, Geoffrey A. Sonn, Mark Emberton, Dean C. Barratt, Yipeng Hu(参考訳) 医用画像における画像品質評価(IQA)は、下流の臨床的タスクを確実に行えるようにするために用いられる。 タスクアメニビリティ(Task Amenability)とも呼ばれる特定のタスクに対するイメージの影響を定量化する必要がある。 タスク固有のIQAが最近提案され、ターゲットタスク予測器と同時にイメージアメニビリティ予測コントローラを学習している。 これにより、トレーニングされたIQAコントローラは、現代の臨床応用におけるセグメンテーションや分類ニューラルネットワークなどの予測器を用いて、画像が目標タスクのパフォーマンスに与える影響を測定することができる。 本研究では,タスク固有のIQAアプローチの拡張として,自動エンコーディングを対象タスクとするタスク非依存IQAを提案する。 タスク特化とタスク非依存の両方で見なされる低品質なイメージ間の交差を分析することは、ターゲットとするタスクパフォーマンスの低下の原因となる要因を区別するのに役立ちます。 例えば、一般的なイメージングアーティファクトは、ターゲットのタスクに悪影響を与えないため、タスクに依存しない品質が低く、タスク固有の品質が高くなるが、より優れたイメージング機器やプロトコルでは改善できない、臨床的に難しいと思われる個々のケースは、タスクに依存しない品質で、タスク固有の品質が低下する可能性が高い。 まず,タスク非依存とタスク固有の品質スコアの重み付けの調整を可能にする,柔軟な報酬形成戦略について述べる。 さらに,850例のMRI画像を用いて,前立腺腫瘍の領域分割に関する臨床的に困難な課題を用いて,提案アルゴリズムの評価を行った。 与えられた報酬形成戦略は、適切に重み付けされたタスク固有性およびタスク非依存性を持ち、欠陥画像処理による再取得を必要とするサンプルの同定に成功した。

Image quality assessment (IQA) in medical imaging can be used to ensure that downstream clinical tasks can be reliably performed. Quantifying the impact of an image on the specific target tasks, also named as task amenability, is needed. A task-specific IQA has recently been proposed to learn an image-amenability-pr edicting controller simultaneously with a target task predictor. This allows for the trained IQA controller to measure the impact an image has on the target task performance, when this task is performed using the predictor, e.g. segmentation and classification neural networks in modern clinical applications. In this work, we propose an extension to this task-specific IQA approach, by adding a task-agnostic IQA based on auto-encoding as the target task. Analysing the intersection between low-quality images, deemed by both the task-specific and task-agnostic IQA, may help to differentiate the underpinning factors that caused the poor target task performance. For example, common imaging artefacts may not adversely affect the target task, which would lead to a low task-agnostic quality and a high task-specific quality, whilst individual cases considered clinically challenging, which can not be improved by better imaging equipment or protocols, is likely to result in a high task-agnostic quality but a low task-specific quality. We first describe a flexible reward shaping strategy which allows for the adjustment of weighting between task-agnostic and task-specific quality scoring. Furthermore, we evaluate the proposed algorithm using a clinically challenging target task of prostate tumour segmentation on multiparametric magnetic resonance (mpMR) images, from 850 patients. The proposed reward shaping strategy, with appropriately weighted task-specific and task-agnostic qualities, successfully identified samples that need re-acquisition due to defected imaging process.
翻訳日:2022-02-23 10:28:49 公開日:2022-02-20
# 等角射影を用いた360^o内映像符号化の歪み認識ループフィルタリング

Distortion-Aware Loop Filtering of Intra 360^o Video Coding with Equirectangular Projection ( http://arxiv.org/abs/2202.09802v1 )

ライセンス: Link先を確認
Pingping Zhang, Xu Wang, Linwei Zhu, Yun Zhang, Shiqi Wang, Sam Kwong(参考訳) 本稿では,等角射影(erp)方式で投影された360$^o$ビデオのイントラコーディング性能を向上させるために,歪みを検知するループフィルタリングモデルを提案する。 歪みの認識を可能にするため,提案モジュールは符号化ユニット(CU)パーティションマスクに基づいてコンテンツ特性を分析し,部分的畳み込み処理を行い,特定領域を活性化する。 チャネル間およびチャネル内機能を自動的に調整するために、カスケードされた残留チャネルワイドアテンションブロック(RCAB)を利用する機能リカバリモジュールは、異なる品質レベルに適応することができる。 重み付き平均二乗誤差(WMSE)と知覚損失を組み合わせた知覚幾何最適化は、局所視野(FoV)と大域画像再構成の両方を高品質で保証する。 実験の結果,提案手法はアンカー (HM + 360Lib) と比較してビットレートの大幅な削減を実現し,PSNR, WPSNR, PSNRの2つのビューポートにおいて平均ビットレート削減率8.9%,9.0%,7.1%,7.4%となることがわかった。

In this paper, we propose a distortion-aware loop filtering model to improve the performance of intra coding for 360$^o$ videos projected via equirectangular projection (ERP) format. To enable the awareness of distortion, our proposed module analyzes content characteristics based on a coding unit (CU) partition mask and processes them through partial convolution to activate the specified area. The feature recalibration module, which leverages cascaded residual channel-wise attention blocks (RCABs) to adjust the inter-channel and intra-channel features automatically, is capable of adapting with different quality levels. The perceptual geometry optimization combining with weighted mean squared error (WMSE) and the perceptual loss guarantees both the local field of view (FoV) and global image reconstruction with high quality. Extensive experimental results show that our proposed scheme achieves significant bitrate savings compared with the anchor (HM + 360Lib), leading to 8.9%, 9.0%, 7.1% and 7.4% on average bit rate reductions in terms of PSNR, WPSNR, and PSNR of two viewports for luminance component of 360^o videos, respectively.
翻訳日:2022-02-23 10:27:59 公開日:2022-02-20
# 分散微分プライバシーを用いたコルーシオン抵抗型フェデレーション学習

Collusion Resistant Federated Learning with Oblivious Distributed Differential Privacy ( http://arxiv.org/abs/2202.09897v1 )

ライセンス: Link先を確認
David Byrd, Vaikkunth Mugunthan, Antigoni Polychroniadou, Tucker Hybinette Balch(参考訳) プライバシを保存するフェデレーション学習により、分散クライアントの集団は、信頼できないサーバからでも、クライアントのトレーニングデータをプライベートに保ちながら、共有モデルを共同で学習することができる。 以前の作業では、当事者が協力して正直なクライアントのモデルパラメータを公開する、結束攻撃から保護する効率的なソリューションを提供していません。 サーバが侵入したデバイスを優先的に選択したり、偽のデバイスをシミュレートする"サイビル"攻撃を含む、このようなクライアントの共謀から保護する最初の方法である、暗黙の分散ディファレンシャルプライバシに基づく効率的なメカニズムを提案する。 新たなプライバシメカニズムを活用して,セキュアなフェデレーション学習プロトコルを構築し,そのプロトコルのセキュリティを証明する。 5000の分散ネットワーククライアントの現実的なシミュレーションにおいて,プロトコルの実行速度,学習精度,2つのデータセットにおけるプライバシパフォーマンスを実証的に分析した。

Privacy-preserving federated learning enables a population of distributed clients to jointly learn a shared model while keeping client training data private, even from an untrusted server. Prior works do not provide efficient solutions that protect against collusion attacks in which parties collaborate to expose an honest client's model parameters. We present an efficient mechanism based on oblivious distributed differential privacy that is the first to protect against such client collusion, including the "Sybil" attack in which a server preferentially selects compromised devices or simulates fake devices. We leverage the novel privacy mechanism to construct a secure federated learning protocol and prove the security of that protocol. We conclude with empirical analysis of the protocol's execution speed, learning accuracy, and privacy performance on two data sets within a realistic simulation of 5,000 distributed network clients.
翻訳日:2022-02-23 10:25:05 公開日:2022-02-20
# メタグラディエントの歴史--メタ学習のための勾配法

A History of Meta-gradient: Gradient Methods for Meta-learning ( http://arxiv.org/abs/2202.09701v1 )

ライセンス: Link先を確認
Richard S. Sutton(参考訳) 勾配降下に基づくメタ学習法の歴史を概観し,ステップサイズ(学習率)メタパラメータを適応させる手法に着目した。

The history of meta-learning methods based on gradient descent is reviewed, focusing primarily on methods that adapt step-size (learning rate) meta-parameters.
翻訳日:2022-02-23 09:57:23 公開日:2022-02-20
# 特定の確率的勾配による個人化フェデレーション学習

Personalized Federated Learning with Exact Stochastic Gradient Descent ( http://arxiv.org/abs/2202.09848v1 )

ライセンス: Link先を確認
Sotirios Nikoloutsopoulos, Iordanis Koutsopoulos, Michalis K. Titsias(参考訳) フェデレートラーニング(FL)では、クライアント間のデータセットは異種またはパーソナライズされがちであり、これはパーソナライズを考慮しない標準的なFLスキームの収束に困難をもたらす。 そこで本研究では,SGD(Stochastic gradient descent)の最小化を実現したパーソナライズFLに対する新しいアプローチを提案する。 私たちは、パーソナライズのためのFedPer(Arivazhagan et al., 2019)ニューラルネットワーク(NN)アーキテクチャから始まり、NNには2つのタイプのレイヤがあります。 本稿では、各最適化ラウンドにおいて、ランダムに選択されたクライアントが、共通の重みを更新することなく、自身のデータセット上の損失関数を最適化するために、クライアント固有の重みに対して勾配差更新を行う新しいSGD型スキームを提案する。 最終更新では、各クライアントはクライアント固有のものと共通する両方の重みのジョイント勾配を計算し、共通のパラメータの勾配をサーバに返す。 これにより、分散された方法でパラメータの完全なセット、すなわちパーソナライズされたパラメータの更新がクライアントとサーバによって実行される、正確に偏りのないSGDステップを実行することができる。 本手法はOmniglot, CIFAR-10, MNIST, Fashion-MNIST, EMNISTなどのマルチクラス分類ベンチマークにおいてFedAvgやFedPerのベースラインよりも優れており, ラウンド毎の複雑性がはるかに低い。

In Federated Learning (FL), datasets across clients tend to be heterogeneous or personalized, and this poses challenges to the convergence of standard FL schemes that do not account for personalization. To address this, we present a new approach for personalized FL that achieves exact stochastic gradient descent (SGD) minimization. We start from the FedPer (Arivazhagan et al., 2019) neural network (NN) architecture for personalization, whereby the NN has two types of layers: the first ones are the common layers across clients, while the few final ones are client-specific and are needed for personalization. We propose a novel SGD-type scheme where, at each optimization round, randomly selected clients perform gradient-descent updates over their client-specific weights towards optimizing the loss function on their own datasets, without updating the common weights. At the final update, each client computes the joint gradient over both client-specific and common weights and returns the gradient of common parameters to the server. This allows to perform an exact and unbiased SGD step over the full set of parameters in a distributed manner, i.e. the updates of the personalized parameters are performed by the clients and those of the common ones by the server. Our method is superior to FedAvg and FedPer baselines in multi-class classification benchmarks such as Omniglot, CIFAR-10, MNIST, Fashion-MNIST, and EMNIST and has much lower computational complexity per round.
翻訳日:2022-02-23 09:57:19 公開日:2022-02-20
# sointer:構造化出力モデルを説明するための新しい深層エネルギーに基づく解釈法

SOInter: A Novel Deep Energy Based Interpretation Method for Explaining Structured Output Models ( http://arxiv.org/abs/2202.09914v1 )

ライセンス: Link先を確認
S. Fatemeh Seyyedsalehi, Mahdieh Soleymani, Hamid R. Rabiee(参考訳) 本稿では,入力ベクトルから出力変数の集合へのマッピングを同時に学習する構造化出力モデルの振る舞いを説明する新しい解釈手法を提案する。 構造化モデルにおける出力変数の計算パス間の複雑な関係のため、特徴は他のモデルによる出力の値に影響を与える可能性がある。 我々は、出力の1つを目標とし、入力空間の各局所性において目標を決定するために構造化モデルによって使用される最も重要な特徴を見つけ出そうとする。 本稿では,任意の構造化出力モデルがブラックボックスとして利用可能であると仮定し,出力変数間の相関を考慮すれば説明性能が向上することを示す。 目標は、入力空間上のターゲット出力変数のインタプリタとして関数をトレーニングすることである。 本稿では,インタプリタ関数に対するエネルギーベーストレーニングプロセスを導入し,モデルに組み込まれた構造情報を効果的に考察する。 提案手法の有効性は,様々なシミュレーションデータと実データを用いて確認した。

We propose a novel interpretation technique to explain the behavior of structured output models, which learn mappings between an input vector to a set of output variables simultaneously. Because of the complex relationship between the computational path of output variables in structured models, a feature can affect the value of output through other ones. We focus on one of the outputs as the target and try to find the most important features utilized by the structured model to decide on the target in each locality of the input space. In this paper, we assume an arbitrary structured output model is available as a black box and argue how considering the correlations between output variables can improve the explanation performance. The goal is to train a function as an interpreter for the target output variable over the input space. We introduce an energy-based training process for the interpreter function, which effectively considers the structural information incorporated into the model to be explained. The effectiveness of the proposed method is confirmed using a variety of simulated and real data sets.
翻訳日:2022-02-23 09:56:47 公開日:2022-02-20
# リソース制約付きAutoMLのためのロバストデフォルト設定のマイニング

Mining Robust Default Configurations for Resource-constrained AutoML ( http://arxiv.org/abs/2202.09927v1 )

ライセンス: Link先を確認
Moe Kayali and Chi Wang(参考訳) 機械学習(AutoML)は、次世代の機械学習システムの大量展開を可能にする重要な手段である。 将来のMLシステムでは、モデルとハイパーパラメータの自動選択が重要となる。 本稿では,様々なタスク群に対してオフラインオートmlとマイニングを行うことにより,所定のタスクの実行者構成を選択する新しい方法を提案する。 トレーニングタスクをマイニングすることで、さまざまなタスクに対して良好に機能する構成のコンパクトなポートフォリオを選択したり、未確認タスクのポートフォリオ構成を選択する戦略を学ぶことができます。 アルゴリズムはゼロショット方式で動作し、選択したモデル以外はオンラインのモデルをトレーニングしない。 計算や時間制約のある設定では、この事実上の瞬間選択は高い性能を持つ。 さらに,本手法は既存のAutoMLプラットフォームを温めるのに有効であることを示す。 いずれの環境でも,62以上の分類と回帰データセットをテストすることで,最先端の改善を実証する。 また、広く使われている手作りのデフォルトよりも優れたデータ依存のデフォルト設定を推奨するユーティリティを実証する。

Automatic machine learning (AutoML) is a key enabler of the mass deployment of the next generation of machine learning systems. A key desideratum for future ML systems is the automatic selection of models and hyperparameters. We present a novel method of selecting performant configurations for a given task by performing offline autoML and mining over a diverse set of tasks. By mining the training tasks, we can select a compact portfolio of configurations that perform well over a wide variety of tasks, as well as learn a strategy to select portfolio configurations for yet-unseen tasks. The algorithm runs in a zero-shot manner, that is without training any models online except the chosen one. In a compute- or time-constrained setting, this virtually instant selection is highly performant. Further, we show that our approach is effective for warm-starting existing autoML platforms. In both settings, we demonstrate an improvement on the state-of-the-art by testing over 62 classification and regression datasets. We also demonstrate the utility of recommending data-dependent default configurations that outperform widely used hand-crafted defaults.
翻訳日:2022-02-23 09:55:03 公開日:2022-02-20
# コンフリクトに基づく説明可能なマルチエージェント経路探索

Conflict-Based Search for Explainable Multi-Agent Path Finding ( http://arxiv.org/abs/2202.09930v1 )

ライセンス: Link先を確認
Justin Kottinger, Shaull Almagor, Morteza Lahijanian(参考訳) マルチエージェントパス探索(mapf)問題では、各エージェントが初期位置から目標に達するように、環境内のエージェントの非衝突パスを見つけることが目標である。 安全クリティカルなアプリケーションでは、人間の監督者は、計画が実際に衝突のないものであることを確認したいかもしれない。 この目的のために、最近の研究では、時間セグメントを表す画像の短いシーケンスとして計画の視覚化に基づいてMAPFの説明可能性の概念を導入し、各時間セグメントにおいてエージェントの軌道が切り離されている。 そして、説明可能なMAPF問題は、短い説明を許容する非衝突経路の集合を求める。 説明可能なMAPFは、エージェントの数だけでなく、環境の大きさに関してNPハードであるという点において、MAPFに新たな困難をもたらす。 したがって、従来のMAPFアルゴリズムは説明可能なMAPFを直接扱うことができない。 本研究では、MAPFのためのよく研究されたアルゴリズムであるConflict Based Search (CBS) を用いて、説明可能なMAPFを扱う。 CBSツリーとその基盤となるA*検索の上に、説明可能性の制約を加える方法を示す。 このアプローチの有用性,特に計画時間と説明可能性のトレードオフについて検討する。

In the Multi-Agent Path Finding (MAPF) problem, the goal is to find non-colliding paths for agents in an environment, such that each agent reaches its goal from its initial location. In safety-critical applications, a human supervisor may want to verify that the plan is indeed collision-free. To this end, a recent work introduces a notion of explainability for MAPF based on a visualization of the plan as a short sequence of images representing time segments, where in each time segment the trajectories of the agents are disjoint. Then, the explainable MAPF problem asks for a set of non-colliding paths that admits a short-enough explanation. Explainable MAPF adds a new difficulty to MAPF, in that it is NP-hard with respect to the size of the environment, and not just the number of agents. Thus, traditional MAPF algorithms are not equipped to directly handle explainable-MAPF. In this work, we adapt Conflict Based Search (CBS), a well-studied algorithm for MAPF, to handle explainable MAPF. We show how to add explainability constraints on top of the standard CBS tree and its underlying A* search. We examine the usefulness of this approach and, in particular, the tradeoff between planning time and explainability.
翻訳日:2022-02-23 09:50:57 公開日:2022-02-20
# ARM3D:屋内3次元物体検出のための注意に基づく関係モジュール

ARM3D: Attention-based relation module for indoor 3D object detection ( http://arxiv.org/abs/2202.09715v1 )

ライセンス: Link先を確認
Yuqing Lan, Yao Duan, Chenyi Liu, Chenyang Zhu, Yueshan Xiong, Hui Huang, Kai Xu(参考訳) 関連コンテキストは、多くの困難なビジョンタスクで有用であることが証明されている。 3Dオブジェクト検出の分野では、従来の手法ではコンテキストエンコーディングやグラフ埋め込み、関係コンテキスト抽出のための明示的関係推論といった利点を生かしてきた。 しかし、ノイズや低品質の提案によって必然的に冗長な関係コンテキストが存在する。 実際、無効な関係コンテキストは、通常、下位のシーン誤解と曖昧さを示し、逆に複雑なシーンのパフォーマンスを低下させる可能性がある。 近年のtransformerのような注意機構に触発されて,新しい3次元注意ベース関係モジュール (arm3d) を提案する。 適格な提案間の対関係コンテキストを抽出するオブジェクト指向関係推論と、異なる関係コンテキストに対して注意重みを分配する注意モジュールとを包含する。 このようにして、ARM3Dは有用な関係コンテキストを完全に活用し、関連性の低いコンテキストや混乱したコンテキストをフィルタリングすることで、検出の曖昧さを軽減することができる。 我々は、ARM3Dを最先端の3Dオブジェクト検出器に差し込んで、より正確で堅牢な検出結果を示すことにより、ARM3Dの有効性を評価した。 大規模な実験は、3Dオブジェクト検出におけるARM3Dの機能と一般化を示している。 ソースコードはhttps://github.com/l anlan96/arm3dで入手できます。

Relation context has been proved to be useful for many challenging vision tasks. In the field of 3D object detection, previous methods have been taking the advantage of context encoding, graph embedding, or explicit relation reasoning to extract relation context. However, there exists inevitably redundant relation context due to noisy or low-quality proposals. In fact, invalid relation context usually indicates underlying scene misunderstanding and ambiguity, which may, on the contrary, reduce the performance in complex scenes. Inspired by recent attention mechanism like Transformer, we propose a novel 3D attention-based relation module (ARM3D). It encompasses object-aware relation reasoning to extract pair-wise relation contexts among qualified proposals and an attention module to distribute attention weights towards different relation contexts. In this way, ARM3D can take full advantage of the useful relation context and filter those less relevant or even confusing contexts, which mitigates the ambiguity in detection. We have evaluated the effectiveness of ARM3D by plugging it into several state-of-the-art 3D object detectors and showing more accurate and robust detection results. Extensive experiments show the capability and generalization of ARM3D on 3D object detection. Our source code is available at https://github.com/l anlan96/ARM3D.
翻訳日:2022-02-23 09:07:26 公開日:2022-02-20
# 3DRM:3Dオブジェクト検出のためのPair-wiseリレーションモジュール

3DRM:Pair-wise relation module for 3D object detection ( http://arxiv.org/abs/2202.09721v1 )

ライセンス: Link先を確認
Yuqing Lan, Yao Duan, Yifei Shi, Hui Huang, Kai Xu(参考訳) コンテキストは3Dシーン理解のためのオブジェクトレイアウト推論において最も重要な要素の1つであることが証明されている。 既存のディープコンテキストモデルは、コンテキストエンコーディングの全体的特徴を学ぶか、コンテキストモデリングのために事前に定義されたシーンテンプレートに依存する。 我々は,3次元オブジェクト検出の曖昧さを軽減し,より正確かつ堅牢な3次元オブジェクトの発見・分類を支援する,オブジェクト関係推論によるシーン理解の利点を論じる。 そこで本研究では,ペアレベルのオブジェクト関係を理由として,新しい3D関係モジュール(DRM)を提案する。 3DRMはオブジェクト間の意味的および空間的関係を予測し、オブジェクト関係の特徴を抽出する。 提案方式と投票方式の3Dオブジェクト検出パイプラインに3DRMを接続することで,その効果を実証する。 広範囲な評価は、3Dオブジェクト検出における3DRMの有効性と一般化を示している。 ソースコードはhttps://github.com/l anlan96/3drmで入手できます。

Context has proven to be one of the most important factors in object layout reasoning for 3D scene understanding. Existing deep contextual models either learn holistic features for context encoding or rely on pre-defined scene templates for context modeling. We argue that scene understanding benefits from object relation reasoning, which is capable of mitigating the ambiguity of 3D object detections and thus helps locate and classify the 3D objects more accurately and robustly. To achieve this, we propose a novel 3D relation module (3DRM) which reasons about object relations at pair-wise levels. The 3DRM predicts the semantic and spatial relationships between objects and extracts the object-wise relation features. We demonstrate the effects of 3DRM by plugging it into proposal-based and voting-based 3D object detection pipelines, respectively. Extensive evaluations show the effectiveness and generalization of 3DRM on 3D object detection. Our source code is available at https://github.com/l anlan96/3DRM.
翻訳日:2022-02-23 09:07:03 公開日:2022-02-20
# 視覚注意ネットワーク

Visual Attention Network ( http://arxiv.org/abs/2202.09741v1 )

ライセンス: Link先を確認
Meng-Hao Guo, Cheng-Ze Lu, Zheng-Ning Liu, Ming-Ming Cheng and Shi-Min Hu(参考訳) 元々は自然言語処理(nlp)タスク用に設計されたが、最近は様々なコンピュータビジョン領域をストームで捉えている。 しかし、画像の2次元的な性質は、コンピュータビジョンに自己注意を適用するための3つの課題をもたらす。 1) 画像を1次元配列として扱うことは2次元構造を無視する。 2) 二次複雑性は高解像度画像には高すぎる。 3)空間適応性だけでなく,チャネル適応性も無視する。 本稿では,この問題を回避しつつ,自己アテンションにおける自己適応性と長距離の相関性を実現するためのLKAモジュールを提案する。 さらに,lkaに基づく新しいニューラルネットワークである視覚注意ネットワーク(van)についても紹介する。 極めてシンプルで効率的なVANは、画像分類、オブジェクト検出、セマンティックセグメンテーション、インスタンスセグメンテーションなどを含む広範な実験において、最先端のビジョントランスフォーマーや畳み込みニューラルネットワークよりも優れたパフォーマンスを発揮する。 コードはhttps://github.com/V isual-Attention-Netw ork.comで入手できる。

While originally designed for natural language processing (NLP) tasks, the self-attention mechanism has recently taken various computer vision areas by storm. However, the 2D nature of images brings three challenges for applying self-attention in computer vision. (1) Treating images as 1D sequences neglects their 2D structures. (2) The quadratic complexity is too expensive for high-resolution images. (3) It only captures spatial adaptability but ignores channel adaptability. In this paper, we propose a novel large kernel attention (LKA) module to enable self-adaptive and long-range correlations in self-attention while avoiding the above issues. We further introduce a novel neural network based on LKA, namely Visual Attention Network (VAN). While extremely simple and efficient, VAN outperforms the state-of-the-art vision transformers and convolutional neural networks with a large margin in extensive experiments, including image classification, object detection, semantic segmentation, instance segmentation, etc. Code is available at https://github.com/V isual-Attention-Netw ork.
翻訳日:2022-02-23 09:06:48 公開日:2022-02-20
# 3次元事前情報に基づく顔マスクの非決定的除去

Non-Deterministic Face Mask Removal Based On 3D Priors ( http://arxiv.org/abs/2202.09856v1 )

ライセンス: Link先を確認
Xiangnan Yin and Liming Chen(参考訳) 本稿では,マスク除去のための新しい画像塗布フレームワークを提案する。 現在の方法では、損傷した顔画像の復元能力を示すが、手動でラベル付けされた欠損領域への依存と、各入力に対応する決定論的結果の2つの主な問題に悩まされている。 提案手法は,マルチタスクの3次元顔再構成モジュールとフェイスインペインティングモジュールを統合することで,これらの問題に対処する。 マスクされた顔画像が与えられると、前者は2次咬合マップと共に3dmmベースの再構成された顔を予測する。 3次元形状パラメータを徐々に制御することにより, 表情や口の動きの異なる高品質な動的インペインティング結果を生成する。 定性的かつ定量的な実験により,提案手法の有効性が検証された。

This paper presents a novel image inpainting framework for face mask removal. Although current methods have demonstrated their impressive ability in recovering damaged face images, they suffer from two main problems: the dependence on manually labeled missing regions and the deterministic result corresponding to each input. The proposed approach tackles these problems by integrating a multi-task 3D face reconstruction module with a face inpainting module. Given a masked face image, the former predicts a 3DMM-based reconstructed face together with a binary occlusion map, providing dense geometrical and textural priors that greatly facilitate the inpainting task of the latter. By gradually controlling the 3D shape parameters, our method generates high-quality dynamic inpainting results with different expressions and mouth movements. Qualitative and quantitative experiments verify the effectiveness of the proposed method.
翻訳日:2022-02-23 09:06:31 公開日:2022-02-20
# 有限メモリによる部分観測系制御の学習

Learning to Control Partially Observed Systems with Finite Memory ( http://arxiv.org/abs/2202.09753v1 )

ライセンス: Link先を確認
Semih Cayci, Niao He, R. Srikant(参考訳) 制御器が制御されたマルコフ連鎖のノイズのみを観測できるような、大きく、あるいは数え切れないほど無限な状態空間を持つ部分観測マルコフ決定過程(POMDP)の強化学習問題を考察する。 ポリシーパラメータ化に有限内部メモリを用いる自然なアクター批判法とポリシー評価のための多段階時間差分学習アルゴリズムを考える。 我々の知る限りでは、関数近似の下で部分的に観測されたシステムに対するアクター-批判法の非漸近的大域収束を初めて確立する。 特に, MDP で発生する関数近似や統計的誤差に加えて, 有限状態制御器の使用による誤差を明示的に特徴づける。 この追加誤差は、PMDPの伝統的な信念状態と有限状態コントローラを使用する場合の隠れ状態の後部分布との間の全変動距離の観点から記述される。 さらに,より大きなブロックサイズを用いることで,スライディングブロックコントローラの場合,この誤差を小さくすることができることを示す。

We consider the reinforcement learning problem for partially observed Markov decision processes (POMDPs) with large or even countably infinite state spaces, where the controller has access to only noisy observations of the underlying controlled Markov chain. We consider a natural actor-critic method that employs a finite internal memory for policy parameterization, and a multi-step temporal difference learning algorithm for policy evaluation. We establish, to the best of our knowledge, the first non-asymptotic global convergence of actor-critic methods for partially observed systems under function approximation. In particular, in addition to the function approximation and statistical errors that also arise in MDPs, we explicitly characterize the error due to the use of finite-state controllers. This additional error is stated in terms of the total variation distance between the traditional belief state in POMDPs and the posterior distribution of the hidden state when using a finite-state controller. Further, we show that this error can be made small in the case of sliding-block controllers by using larger block sizes.
翻訳日:2022-02-23 08:52:02 公開日:2022-02-20
# 一般化のための記憶:高次元線形回帰における補間の必要性について

Memorize to Generalize: on the Necessity of Interpolation in High Dimensional Linear Regression ( http://arxiv.org/abs/2202.09889v1 )

ライセンス: Link先を確認
Chen Cheng, John Duchi, Rohith Kuditipudi(参考訳) 機械学習問題における最適予測リスクを達成するには、トレーニングデータを(ほぼ)補間する必要がある。 特に、単純な過パラメータ化線型回帰 $y = X \theta + w$ とランダム設計 $X \in \mathbb{R}^{n \times d}$ を比例漸近s $d/n \to \gamma \in (1, \infty)$ で考える。 この設定では、トレーニングエラーで予測(テスト)エラーが必ずスケールするかを正確に特徴づける。 この特徴付けの含意として、ラベルノイズ分散 $\sigma^2 \to 0$ として、ある定数 $\mathsf{c}\sigma^4$ に対して少なくとも$\mathsf{c}\sigma^4$ のトレーニングエラーは必ずしも最適ではなく、少なくともトレーニングエラーにおいて過剰な予測誤差が増大する。 したがって、最適性能には、問題の固有のノイズフロアよりもかなり高い精度でトレーニングデータを取り付ける必要がある。

We examine the necessity of interpolation in overparameterized models, that is, when achieving optimal predictive risk in machine learning problems requires (nearly) interpolating the training data. In particular, we consider simple overparameterized linear regression $y = X \theta + w$ with random design $X \in \mathbb{R}^{n \times d}$ under the proportional asymptotics $d/n \to \gamma \in (1, \infty)$. We precisely characterize how prediction (test) error necessarily scales with training error in this setting. An implication of this characterization is that as the label noise variance $\sigma^2 \to 0$, any estimator that incurs at least $\mathsf{c}\sigma^4$ training error for some constant $\mathsf{c}$ is necessarily suboptimal and will suffer growth in excess prediction error at least linear in the training error. Thus, optimal performance requires fitting training data to substantially higher accuracy than the inherent noise floor of the problem.
翻訳日:2022-02-23 08:51:46 公開日:2022-02-20
# 一般化ベイズ加法的回帰木モデル:条件共役を超えて

Generalized Bayesian Additive Regression Trees Models: Beyond Conditional Conjugacy ( http://arxiv.org/abs/2202.09924v1 )

ライセンス: Link先を確認
Antonio R. Linero(参考訳) ベイズ加法回帰木は、機械学習技術と原理的不確実性定量化を組み合わせる能力により、近年関心が高まっている。 しかし、ベイジアンバックフィッティングアルゴリズムはBARTモデルに適合するが、それらの応用を条件共役が存在する少数のモデルに限定する。 本稿では、非常に単純でチューニングパラメータなしで可逆なジャンプマルコフ連鎖モンテカルロアルゴリズムを導入することにより、BARTの適用範囲を任意の \emph{ Generalized BART} モデルに拡大する。 我々のアルゴリズムは、ユーザがその勾配とフィッシャー情報を(任意に)計算できることのみを要求する。 我々は生存分析、構造化ヘテロスケダスティック回帰、ガンマ形状回帰の例を考察する。

Bayesian additive regression trees have seen increased interest in recent years due to their ability to combine machine learning techniques with principled uncertainty quantification. The Bayesian backfitting algorithm used to fit BART models, however, limits their application to a small class of models for which conditional conjugacy exists. In this article, we greatly expand the domain of applicability of BART to arbitrary \emph{generalized BART} models by introducing a very simple, tuning-parameter-fre e, reversible jump Markov chain Monte Carlo algorithm. Our algorithm requires only that the user be able to compute the likelihood and (optionally) its gradient and Fisher information. The potential applications are very broad; we consider examples in survival analysis, structured heteroskedastic regression, and gamma shape regression.
翻訳日:2022-02-23 08:51:18 公開日:2022-02-20
# 画像復元におけるDeepPDNetの代替設計

Alternative design of DeepPDNet in the context of image restoration ( http://arxiv.org/abs/2202.09810v1 )

ライセンス: Link先を確認
Mingyuan Jiu and Nelly Pustelnik(参考訳) 本研究は,未解決のチャンボレル・ポック・プリマル・デュアルイテレーションに基づく画像復元深層ネットワークをデザインする。 ネットワークの各レイヤは、$\ell_2$-normのデータタームと分析スパースを最小化するために指定された場合に、chambolle-pockイテレーションから構築されます。 我々のネットワークのパラメータは、シャンブル・ポックスキームのステップサイズと、正規化パラメータを含む空間的ペナル化に関与する線形作用素である。 バックプロパゲーション手順を完全に記述する。 BSD68データベース上の画像復元の文脈において、このような深層原始双対ネットワークの良好な挙動を予備実験で示す。

This work designs an image restoration deep network relying on unfolded Chambolle-Pock primal-dual iterations. Each layer of our network is built from Chambolle-Pock iterations when specified for minimizing a sum of a $\ell_2$-norm data-term and an analysis sparse prior. The parameters of our network are the step-sizes of the Chambolle-Pock scheme and the linear operator involved in sparsity-based penalization, including implicitly the regularization parameter. A backpropagation procedure is fully described. Preliminary experiments illustrate the good behavior of such a deep primal-dual network in the context of image restoration on BSD68 database.
翻訳日:2022-02-23 08:50:16 公開日:2022-02-20
# 緊急車両の高速走行を支援する学習 : 共同走行スケジューリングアプローチ

Learning to Help Emergency Vehicles Arrive Faster: A Cooperative Vehicle-Road Scheduling Approach ( http://arxiv.org/abs/2202.09773v1 )

ライセンス: Link先を確認
Lige Ding, Dong Zhao, Zhaofeng Wang, Guang Wang, Chang Tan, Lei Fan and Huadong Ma(参考訳) 交通渋滞の増大は、緊急車両(EV)のアクセシビリティを損なう可能性があり、重要なサービスや人々の生活の安全にも有害な影響を及ぼす。 したがって、evの高速到達を支援する効率的なスケジューリングアプローチを提案することは重要である。 既存の車両中心スケジューリングアプローチは、現在の交通状況に基づいてevの最適経路を推奨することを目的としているが、道路中心のスケジューリングアプローチは、交通条件を改善し、交差点を通過するevの優先度を高めることを目的としている。 リアルタイム道路情報通信と戦略協調がより多くの利益をもたらすという直観から、リアルタイム経路計画モジュールと協調交通信号制御モジュールを含む学習ベースの協調道路スケジューリングアプローチであるlevidを提案し、相互に対話し、反復的に意思決定を行う。 リアルタイム経路計画モジュールは、トラヒック信号のリアルタイム変化に対処するために人工ポテンシャル場法を適用し、局所最適に陥ることを避ける。 コラボレーティブトラヒック信号制御モジュールは、グラフ注意強化学習フレームワークを利用して、異なる交差点の潜在特徴を抽出し、それらの相互作用を抽象化して協調ポリシーを学ぶ。 複数の実世界のデータセットに基づく広範な実験は、我々のアプローチが最先端のベースラインを上回ることを示している。

The ever-increasing heavy traffic congestion potentially impedes the accessibility of emergency vehicles (EVs), resulting in detrimental impacts on critical services and even safety of people's lives. Hence, it is significant to propose an efficient scheduling approach to help EVs arrive faster. Existing vehicle-centric scheduling approaches aim to recommend the optimal paths for EVs based on the current traffic status while the road-centric scheduling approaches aim to improve the traffic condition and assign a higher priority for EVs to pass an intersection. With the intuition that real-time vehicle-road information interaction and strategy coordination can bring more benefits, we propose LEVID, a LEarning-based cooperative VehIcle-roaD scheduling approach including a real-time route planning module and a collaborative traffic signal control module, which interact with each other and make decisions iteratively. The real-time route planning module adapts the artificial potential field method to address the real-time changes of traffic signals and avoid falling into a local optimum. The collaborative traffic signal control module leverages a graph attention reinforcement learning framework to extract the latent features of different intersections and abstract their interplay to learn cooperative policies. Extensive experiments based on multiple real-world datasets show that our approach outperforms the state-of-the-art baselines.
翻訳日:2022-02-23 08:41:18 公開日:2022-02-20
# TPTP世界の非古典論理における自動推論

Automated Reasoning in Non-classical Logics in the TPTP World ( http://arxiv.org/abs/2202.09836v1 )

ライセンス: Link先を確認
Alexander Steen, David Fuenmayor, Tobias Glei{\ss}ner, Geoff Sutcliffe, Christoph Benzm\"uller(参考訳) 非古典論理は人工知能、計算機科学、数学、哲学など幅広い分野で使われている。 自動定理証明のためのデファクト標準基盤であるTPTP Worldは現在、古典論理のみをサポートしている。 非古典論理推論の類似の標準は存在しない(yet)。 これは推論システムの実践的な開発を妨げ、相互運用性と応用を制限します。 本稿では,非古典論理学における推論のための言語と基盤を提供するTPTP Worldの最新の拡張について述べる。 この拡張は既存のTPTP Worldとシームレスに統合される。

Non-classical logics are used in a wide spectrum of disciplines, including artificial intelligence, computer science, mathematics, and philosophy. The de-facto standard infrastructure for automated theorem proving, the TPTP World, currently supports only classical logics. Similar standards for non-classical logic reasoning do not exist (yet). This hampers practical development of reasoning systems, and limits their interoperability and application. This paper describes the latest extension of the TPTP World, which provides languages and infrastructure for reasoning in non-classical logics. The extensions integrate seamlessly with the existing TPTP World.
翻訳日:2022-02-23 08:40:55 公開日:2022-02-20
# 生だ! 状態空間モデルによる音声生成

It's Raw! Audio Generation with State-Space Models ( http://arxiv.org/abs/2202.09729v1 )

ライセンス: Link先を確認
Karan Goel and Albert Gu and Chris Donahue and Christopher R\'e(参考訳) 生音声のモデリングに適したアーキテクチャを開発することは、音声波形のサンプリング率が高いため、難しい問題である。 rnnやcnnのような標準的なシーケンスモデリングアプローチは、オーディオの要求に合致するように調整されてきたが、結果として得られるアーキテクチャは望ましくない計算上のトレードオフをもたらし、波形を効果的にモデル化するのに苦労している。 本稿では,最近導入されたs4モデルを中心に構築した波形モデリングのための新しいマルチスケールアーキテクチャである刺身を提案する。 我々は,自己回帰生成においてS4が不安定であることを示すとともに,Hurwitz行列への接続を描画することでパラメータ化の簡易化を実現する。 SaShiMiは自己回帰設定における非条件波形生成のための最先端性能を得る。 さらに,拡散モデルのバックボーンアーキテクチャとして使用すると,非自己回帰生成性能が向上する。 自己回帰生成設定の以前のアーキテクチャと比較すると、SaShiMiはピアノと音声の波形を生成して、例えば、無条件音声生成タスクにおいてWaveNetよりも2倍良い平均評価スコアを求める。 音楽生成タスクでは、SashiMiは3倍のパラメータを使用する場合でも、トレーニングと推論の両方において、密度推定と速度でWaveNetを上回っている。 コードはhttps://github.com/H azyResearch/state-sp acesで、サンプルはhttps://hazyresearch .stanford.edu/sashim i-examplesで見ることができる。

Developing architectures suitable for modeling raw audio is a challenging problem due to the high sampling rates of audio waveforms. Standard sequence modeling approaches like RNNs and CNNs have previously been tailored to fit the demands of audio, but the resultant architectures make undesirable computational tradeoffs and struggle to model waveforms effectively. We propose SaShiMi, a new multi-scale architecture for waveform modeling built around the recently introduced S4 model for long sequence modeling. We identify that S4 can be unstable during autoregressive generation, and provide a simple improvement to its parameterization by drawing connections to Hurwitz matrices. SaShiMi yields state-of-the-art performance for unconditional waveform generation in the autoregressive setting. Additionally, SaShiMi improves non-autoregressive generation performance when used as the backbone architecture for a diffusion model. Compared to prior architectures in the autoregressive generation setting, SaShiMi generates piano and speech waveforms which humans find more musical and coherent respectively, e.g. 2x better mean opinion scores than WaveNet on an unconditional speech generation task. On a music generation task, SaShiMi outperforms WaveNet on density estimation and speed at both training and inference even when using 3x fewer parameters. Code can be found at https://github.com/H azyResearch/state-sp aces and samples at https://hazyresearch .stanford.edu/sashim i-examples.
翻訳日:2022-02-23 07:54:22 公開日:2022-02-20
# マルチタスク勧告におけるクロスタスク知識蒸留

Cross-Task Knowledge Distillation in Multi-Task Recommendation ( http://arxiv.org/abs/2202.09852v1 )

ライセンス: Link先を確認
Chenxiao Yang, Junwei Pan, Xiaofeng Gao, Tingyu Jiang, Dapeng Liu, Guihai Chen(参考訳) マルチタスク学習は、様々なタイプのユーザーフィードバックを予測するために、現実世界のレコメンデーションで広く使われている。 ほとんどの先行研究は、入力機能表現に関する知識を共有する手段として、ボトム層のためのネットワークアーキテクチャを設計することに重点を置いている。 しかしながら、タスク固有のバイナリラベルをトレーニングの教師付きシグナルとして採用しているため、アイテムを正確にランク付けする方法に関する知識がタスク間で完全に共有されていない。 本稿では,マルチタスクパーソナライズされた推薦最適化目標に対する知識伝達の促進を目的とする。 提案手法は,3つの手順から構成するクロスタスク知識蒸留(crossdistil)フレームワークを提案する。 1)タスク強化:クロスタスクの微粒なランキング情報を取得するために,クロスタスク一貫した知識を保ちながらタスクの衝突を回避するために,四重項損失関数付き補助タスクを導入する。 2)知識蒸留:我々は,タスクの予測が校正プロセスと整合しているランキング知識を共有するための強化タスクに基づく知識蒸留アプローチを設計する。 3)モデルトレーニング:教師と学生のモデルは,モデルトレーニングを高速化し,知識の質を向上させる新しい誤り訂正機構を用いて,エンドツーエンドで訓練される。 公開データセットと運用データセットに関する総合的な実験を行い、CrossDistilの有効性と重要なコンポーネントの必要性を検証する。

Multi-task learning has been widely used in real-world recommenders to predict different types of user feedback. Most prior works focus on designing network architectures for bottom layers as a means to share the knowledge about input features representations. However, since they adopt task-specific binary labels as supervised signals for training, the knowledge about how to accurately rank items is not fully shared across tasks. In this paper, we aim to enhance knowledge transfer for multi-task personalized recommendat optimization objectives. We propose a Cross-Task Knowledge Distillation (CrossDistil) framework in recommendation, which consists of three procedures. 1) Task Augmentation: We introduce auxiliary tasks with quadruplet loss functions to capture cross-task fine-grained ranking information, which could avoid task conflicts by preserving the cross-task consistent knowledge; 2) Knowledge Distillation: We design a knowledge distillation approach based on augmented tasks for sharing ranking knowledge, where tasks' predictions are aligned with a calibration process; 3) Model Training: Teacher and student models are trained in an end-to-end manner, with a novel error correction mechanism to speed up model training and improve knowledge quality. Comprehensive experiments on a public dataset and our production dataset are carried out to verify the effectiveness of CrossDistil as well as the necessity of its key components.
翻訳日:2022-02-23 07:53:59 公開日:2022-02-20
# (参考訳) 推薦のためのグラフベース抽出説明器 [全文訳有]

Graph-based Extractive Explainer for Recommendations ( http://arxiv.org/abs/2202.09730v1 )

ライセンス: CC BY 4.0
Peng Wang, Renqin Cai and Hongning Wang(参考訳) 推薦者のシステムにおける説明は,推薦項目の集合の中で情報的意思決定を支援する。 推奨がどのように生成され、なぜユーザが注意を払うべきかを描写するために、自然言語の説明を作成することに大きな研究が費やされてきた。 しかし、テンプレートベースやジェネレーションベースなど、これらのソリューションのさまざまな制限により、説明が容易に認識でき、信頼性があり、パーソナライズされるようにすることは困難である。 本研究では,ユーザ,項目,属性,文をシームレスに統合し,抽出に基づく説明を行うグラフ注意ニューラルネットワークモデルを提案する。 項目の属性を仲介者として選択し、ユーザ固有の文関連性評価のためのメッセージパッシングを容易にする。 そして,個々の文の関連性,総属性のカバレッジ,コンテンツの冗長性のバランスをとるために,整数線形計画問題を解くことで文の最終的な選択を行う。 2つのベンチマークレビューデータセットにおける最先端のベースラインメソッドに対する広範囲な経験的評価は、提案するソリューションの生成品質を実証した。

Explanations in a recommender system assist users in making informed decisions among a set of recommended items. Great research attention has been devoted to generating natural language explanations to depict how the recommendations are generated and why the users should pay attention to them. However, due to different limitations of those solutions, e.g., template-based or generation-based, it is hard to make the explanations easily perceivable, reliable and personalized at the same time. In this work, we develop a graph attentive neural network model that seamlessly integrates user, item, attributes, and sentences for extraction-based explanation. The attributes of items are selected as the intermediary to facilitate message passing for user-item specific evaluation of sentence relevance. And to balance individual sentence relevance, overall attribute coverage, and content redundancy, we solve an integer linear programming problem to make the final selection of sentences. Extensive empirical evaluations against a set of state-of-the-art baseline methods on two benchmark review datasets demonstrated the generation quality of the proposed solution.
翻訳日:2022-02-22 20:08:34 公開日:2022-02-20
# (参考訳) オーバーパラメトリゼーションは敵攻撃に対する堅牢性を改善する:複製研究 [全文訳有]

Overparametrization improves robustness against adversarial attacks: A replication study ( http://arxiv.org/abs/2202.09735v1 )

ライセンス: CC BY 4.0
Ali Borji(参考訳) オーバーパラメトリゼーションは機械学習のデファクトスタンダードになっている。 数多くの努力にもかかわらず、過度パラメータ化がモデルの正確性と堅牢性にどのように役立つかの理解はまだ限られている。 この目的のために,本研究では,この領域,特にMadryらの研究を体系的に研究し,再現するための実証的研究を行っている。 本研究とともに,Bubeckらにより最近提唱された「強靭性に関する普遍法則」を支持した。 我々は、頑健な知覚に批判的ではあるが、過度なパラメータ化は完全な堅牢性とよりスマートなアーキテクチャ(例えば人間の視覚野によって実装されたもの)を達成するには不十分であると主張する。

Overparametrization has become a de facto standard in machine learning. Despite numerous efforts, our understanding of how and where overparametrization helps model accuracy and robustness is still limited. To this end, here we conduct an empirical investigation to systemically study and replicate previous findings in this area, in particular the study by Madry et al. Together with this study, our findings support the "universal law of robustness" recently proposed by Bubeck et al. We argue that while critical for robust perception, overparametrization may not be enough to achieve full robustness and smarter architectures e.g. the ones implemented by the human visual cortex) seem inevitable.
翻訳日:2022-02-22 19:50:41 公開日:2022-02-20
# (参考訳) 極値理論からの確率分布によるクラスタリング [全文訳有]

Clustering by the Probability Distributions from Extreme Value Theory ( http://arxiv.org/abs/2202.09784v1 )

ライセンス: CC BY 4.0
Sixiao Zheng, Ke Fan, Yanxi Hou, Jianfeng Feng, and Yanwei Fu(参考訳) クラスタリングは教師なしの学習に不可欠である。 自動的にインスタンスをコヒーレントなサブセットに分離しようとする。 最もよく知られたクラスタリングアルゴリズムの1つとして、k-meansは境界のサンプルポイントを一意なクラスタに割り当てるが、サンプル分布や密度の情報を利用しない。 比較して、考えられるクラスタ内の各サンプルの確率を考える方が、より有益かもしれない。 そこで本研究では,クラスタの分布をモデル化するためにk-meansを一般化する。 提案アルゴリズムは, 極値理論 (EVT) における一般化パレート分布 (GPD) を用いて, しきい値上での距離の分布をモデル化する。 特に,遠心辺縁距離の概念を提案し,gpdを用いて各クラスタの確率モデルを構築し,gpdから派生した被覆確率関数に基づくクラスタリングアルゴリズムを実行する。 このような GPD k-平均は確率論的観点からクラスタリングアルゴリズムを可能にする。 また,GEV (Generalized Extreme Value) k-means と呼ばれるナイーブなベースラインも導入した。 GEVはブロック最大値の分布に適合する。 対照的に、gpdは十分大きな閾値を超える中心体への距離分布に適合し、より安定したgpd k-meansの性能をもたらす。 特に、gev k-meansはクラスター構造を推定することができ、古典的k-meansよりも合理的に機能する。 このように、合成データセットと実際のデータセットに関する広範な実験は、GPD k-平均が競合より優れていることを示した。 githubコードはhttps://github.com/s ixiaozheng/evt-k-mea nsでリリースされている。

Clustering is an essential task to unsupervised learning. It tries to automatically separate instances into coherent subsets. As one of the most well-known clustering algorithms, k-means assigns sample points at the boundary to a unique cluster, while it does not utilize the information of sample distribution or density. Comparably, it would potentially be more beneficial to consider the probability of each sample in a possible cluster. To this end, this paper generalizes k-means to model the distribution of clusters. Our novel clustering algorithm thus models the distributions of distances to centroids over a threshold by Generalized Pareto Distribution (GPD) in Extreme Value Theory (EVT). Notably, we propose the concept of centroid margin distance, use GPD to establish a probability model for each cluster, and perform a clustering algorithm based on the covering probability function derived from GPD. Such a GPD k-means thus enables the clustering algorithm from the probabilistic perspective. Correspondingly, we also introduce a naive baseline, dubbed as Generalized Extreme Value (GEV) k-means. GEV fits the distribution of the block maxima. In contrast, the GPD fits the distribution of distance to the centroid exceeding a sufficiently large threshold, leading to a more stable performance of GPD k-means. Notably, GEV k-means can also estimate cluster structure and thus perform reasonably well over classical k-means. Thus, extensive experiments on synthetic datasets and real datasets demonstrate that GPD k-means outperforms competitors. The github codes are released in https://github.com/s ixiaozheng/EVT-K-mea ns.
翻訳日:2022-02-22 19:30:30 公開日:2022-02-20
# (参考訳) ニューラルテキスト分類の階層的解釈

Hierarchical Interpretation of Neural Text Classification ( http://arxiv.org/abs/2202.09792v1 )

ライセンス: CC BY 4.0
Hanqi Yan, Lin Gui, Yulan He(参考訳) 近年、自然言語処理(NLP)における解釈可能なモデル開発への関心が高まっている。 既存のモデルの多くは、モデル予測に重要な単語やフレーズなどの入力特徴を識別することを目指している。 NLPで開発されたニューラルモデルは、しばしば階層的な方法で単語意味論を構成する。 言葉やフレーズによる解釈は、モデル決定を忠実に説明できない。 本稿では,階層的手法でラベル関連トピックの形式でモデル予測の説明を自動生成する階層型インテプリタ型ニューラルテキスト分類器Hintを提案する。 モデル解釈はもはや単語レベルではなく、基本的な意味単位としてトピックに基づいて構築されている。 レビューデータセットとニュースデータセットの両方の実験結果から,提案手法は既存の最先端テキスト分類器と同等のテキスト分類結果を達成し,モデル予測に忠実に解釈し,他の解釈可能なニューラルテキスト分類器よりも人間の方が理解しやすい。

Recent years have witnessed increasing interests in developing interpretable models in Natural Language Processing (NLP). Most existing models aim at identifying input features such as words or phrases important for model predictions. Neural models developed in NLP however often compose word semantics in a hierarchical manner. Interpretation by words or phrases only thus cannot faithfully explain model decisions. This paper proposes a novel Hierarchical INTerpretable neural text classifier, called Hint, which can automatically generate explanations of model predictions in the form of label-associated topics in a hierarchical manner. Model interpretation is no longer at the word level, but built on topics as the basic semantic unit. Experimental results on both review datasets and news datasets show that our proposed approach achieves text classification results on par with existing state-of-the-art text classifiers, and generates interpretations more faithful to model predictions and better understood by humans than other interpretable neural text classifiers.
翻訳日:2022-02-22 19:05:24 公開日:2022-02-20
# (参考訳) ニューラルネットワークサブ空間における効率的な連続学習アンサンブル

Efficient Continual Learning Ensembles in Neural Network Subspaces ( http://arxiv.org/abs/2202.09826v1 )

ライセンス: CC BY 4.0
Thang Doan, Seyed Iman Mirzadeh, Joelle Pineau, Mehrdad Farajtabar(参考訳) 継続的な学習における研究は、破滅的な忘れの問題に焦点を当てている。 この問題を軽減するために多くの試みがなされているが、ほとんどの手法は連続的な学習設定において単一のモデルを想定している。 本稿では,この仮定に疑問を呈し,アンサンブルモデルの採用が,連続的パフォーマンスを改善するための単純かつ効果的な方法であることを示す。 しかし、アンサンブルのトレーニングと推論コストはモデル数とともに線形的に増加する可能性がある。 この制限により、モード接続やニューラルネットワーク部分空間といったディープラーニング最適化の文献の最近の進歩を活用し、計算的に有利であり、最先端の連続学習アルゴリズムより優れている新しい手法を導出する。

A growing body of research in continual learning focuses on the catastrophic forgetting problem. While many attempts have been made to alleviate this problem, the majority of the methods assume a single model in the continual learning setup. In this work, we question this assumption and show that employing ensemble models can be a simple yet effective method to improve continual performance. However, the training and inference cost of ensembles can increase linearly with the number of models. Motivated by this limitation, we leverage the recent advances in the deep learning optimization literature, such as mode connectivity and neural network subspaces, to derive a new method that is both computationally advantageous and can outperform the state-of-the-art continual learning algorithms.
翻訳日:2022-02-22 19:04:31 公開日:2022-02-20
# (参考訳) 相互作用する輪郭確率勾配ランゲヴィンダイナミクス [全文訳有]

Interacting Contour Stochastic Gradient Langevin Dynamics ( http://arxiv.org/abs/2202.09867v1 )

ライセンス: CC BY 4.0
Wei Deng, Siqi Liang, Botao Hao, Guang Lin, Faming Liang(参考訳) そこで本研究では, 対話型連続確率勾配Langevin Dynamics (ICSGLD) と, 効率よく対話できるマルチチェーンマルチチェーン勾配Langevin Dynamics (CSGLD) を提案する。 ICSGLDは,等価な計算予算を持つ単一チェーンCSGLDよりも理論的に効率的であることを示す。 また,ビッグデータにおける自己適応パラメータの推定を容易にし,自由モード探索を行う新しいランダムフィールド関数を提案する。 実験により,提案アルゴリズムを後方サンプリングのための一般的なベンチマーク手法と比較した。 数値計算の結果,ICSGLDの大規模不確実性推定における大きな可能性を示した。

We propose an interacting contour stochastic gradient Langevin dynamics (ICSGLD) sampler, an embarrassingly parallel multiple-chain contour stochastic gradient Langevin dynamics (CSGLD) sampler with efficient interactions. We show that ICSGLD can be theoretically more efficient than a single-chain CSGLD with an equivalent computational budget. We also present a novel random-field function, which facilitates the estimation of self-adapting parameters in big data and obtains free mode explorations. Empirically, we compare the proposed algorithm with popular benchmark methods for posterior sampling. The numerical results show a great potential of ICSGLD for large-scale uncertainty estimation tasks.
翻訳日:2022-02-22 19:03:31 公開日:2022-02-20
# (参考訳) ディテンタングリングオートエンコーダ(DAE) [全文訳有]

Disentangling Autoencoders (DAE) ( http://arxiv.org/abs/2202.09926v1 )

ライセンス: CC BY 4.0
Jaehoon Cha and Jeyan Thiyagalingam(参考訳) 潜伏空間の分解や解離の重要性に留意し、非確率的不整合自己エンコーダモデルである群理論における対称性変換の原理に基づく自己エンコーダのための新しい枠組みを提案する。 私たちの知る限りでは、これは正規化子なしでオートエンコーダをベースにした絡み合いを達成する最初のモデルです。 提案モデルは, オートエンコーダに基づく7つの最先端生成モデルと比較し, 復元損失と不連続損失を定量化する5つの指標に基づいて評価した。 実験の結果,各特徴のばらつきが異なる場合,提案モデルの方がより良い絡み合いを持つことがわかった。 我々は,このモデルが正規化不要なオートエンコーダに基づくアンタングル学習の新しい分野を導くと考えている。

Noting the importance of factorizing or disentangling the latent space, we propose a novel framework for autoencoders based on the principles of symmetry transformations in group-theory, which is a non-probabilistic disentangling autoencoder model. To the best of our knowledge, this is the first model that is aiming to achieve disentanglement based on autoencoders without regularizers. The proposed model is compared to seven state-of-the-art generative models based on autoencoders and evaluated based on reconstruction loss and five metrics quantifying disentanglement losses. The experiment results show that the proposed model can have better disentanglement when variances of each features are different. We believe that this model leads a new field for disentanglement learning based on autoencoders without regularizers.
翻訳日:2022-02-22 18:02:12 公開日:2022-02-20
# 最適早期停止について:オーバーインフォーマティブとアンダーインフォーマティブパラメトリゼーション

On Optimal Early Stopping: Over-informative versus Under-informative Parametrization ( http://arxiv.org/abs/2202.09885v1 )

ライセンス: Link先を確認
Ruoqi Shen, Liyao Gao, Yian Ma(参考訳) 早期停止は、オーバートレーニングニューラルネットワークを防ぐためのシンプルで広く使われている方法である。 我々は,最適早期停止時間とモデル次元の関係を明らかにするための理論的結果と,特定の線形モデルに対するデータセットのサンプルサイズを明らかにする。 この結果から,モデル次元が特徴数を超える場合と反対のシナリオで異なる2つの挙動を示す。 線形モデルに関するこれまでのほとんどの研究は後者の設定に焦点を当てているが、モデルの次元は一般的なディープラーニングタスクでデータから生じる特徴数を上回ることも多く、この設定を研究するモデルを提案する。 我々は, ニューラルネットワークの学習過程に最適な早期停止時間に関する理論的結果が対応することを実験的に示す。

Early stopping is a simple and widely used method to prevent over-training neural networks. We develop theoretical results to reveal the relationship between the optimal early stopping time and model dimension as well as sample size of the dataset for certain linear models. Our results demonstrate two very different behaviors when the model dimension exceeds the number of features versus the opposite scenario. While most previous works on linear models focus on the latter setting, we observe that the dimension of the model often exceeds the number of features arising from data in common deep learning tasks and propose a model to study this setting. We demonstrate experimentally that our theoretical results on optimal early stopping time corresponds to the training process of deep neural networks.
翻訳日:2022-02-22 16:30:00 公開日:2022-02-20
# 2倍のスパーシティ: より効率的なトレーニングによるロバストな一般化

Sparsity Winning Twice: Better Robust Generaliztion from More Efficient Training ( http://arxiv.org/abs/2202.09844v1 )

ライセンス: Link先を確認
Tianlong Chen, Zhenyu Zhang, Pengjun Wang, Santosh Balachandra, Haoyu Ma, Zehao Wang, Zhangyang Wang(参考訳) 最近の研究では、最先端の敵対的訓練(at)によって強固な深層ネットワークでさえも、標準訓練よりもはるかに高価なトレーニングコストに加えて、大きな強固な一般化ギャップに苦しむことが示されている。 本稿では,この興味深い問題を新たな視点,すなわち,敵訓練中に適切なスパルサシティを注入することから検討する。 sparse adversarial trainingの代替案を2つ紹介する。 (i) 抽選券仮説の最近の結果を利用して、早期訓練から生じる重要なスパースサブネットワークを特定することにより、静的なスパース性。 (ii)動的スパーシティ(dynamic sparsity)は、スパースサブネットワークがトレーニングを通して(同じスパース率に固執しながら)その接続パターンを適応的に調整することを可能にする。 強固な一般化ギャップを実質的に縮小し、強固な過剰フィッティングを緩和する一方で、トレーニングと推論のフラップを大幅に削減する。 CIFAR-10/100 や Tiny-ImageNet など,さまざまなデータセット上での複数のネットワークアーキテクチャによる提案を検証する。 例えば、我々の手法では、34.44%と4.02%の精度向上と87.83%/87.82%のトレーニング/推論 FLOPをCIFAR-100とResNet-18で削減する。 さらに,本手法を既存の正則化器と有機的に組み合わせることで,ATにおける新たな最先端結果が確立される。 コードはhttps://github.com/V ITA-Group/Sparsity-W in-Robust-Generaliza tionで公開されている。

Recent studies demonstrate that deep networks, even robustified by the state-of-the-art adversarial training (AT), still suffer from large robust generalization gaps, in addition to the much more expensive training costs than standard training. In this paper, we investigate this intriguing problem from a new perspective, i.e., injecting appropriate forms of sparsity during adversarial training. We introduce two alternatives for sparse adversarial training: (i) static sparsity, by leveraging recent results from the lottery ticket hypothesis to identify critical sparse subnetworks arising from the early training; (ii) dynamic sparsity, by allowing the sparse subnetwork to adaptively adjust its connectivity pattern (while sticking to the same sparsity ratio) throughout training. We find both static and dynamic sparse methods to yield win-win: substantially shrinking the robust generalization gap and alleviating the robust overfitting, meanwhile significantly saving training and inference FLOPs. Extensive experiments validate our proposals with multiple network architectures on diverse datasets, including CIFAR-10/100 and Tiny-ImageNet. For example, our methods reduce robust generalization gap and overfitting by 34.44% and 4.02%, with comparable robust/standard accuracy boosts and 87.83%/87.82% training/inference FLOPs savings on CIFAR-100 with ResNet-18. Besides, our approaches can be organically combined with existing regularizers, establishing new state-of-the-art results in AT. Codes are available in https://github.com/V ITA-Group/Sparsity-W in-Robust-Generaliza tion.
翻訳日:2022-02-22 16:29:15 公開日:2022-02-20
# srl-soa:sparse 1d-operational autoencoderによるハイパースペクトル画像帯域選択のための自己表現学習

SRL-SOA: Self-Representation Learning with Sparse 1D-Operational Autoencoder for Hyperspectral Image Band Selection ( http://arxiv.org/abs/2202.09918v1 )

ライセンス: Link先を確認
Mete Ahishali, Serkan Kiranyaz, Iftikhar Ahmad, Moncef Gabbouj(参考訳) ハイパースペクトル画像(HSI)データ処理における帯域選択は,その計算複雑性と精度への影響を考慮した重要な課題である。 本稿では,sparse 1d-operational autoencoder(soa)を用いた自己表現学習(srl)という,バンド選択問題の新たな枠組みを提案する。 提案されたSLR-SOAアプローチは、データを疎結合に表現する表現領域を学ぶように設計された、新しいオートエンコーダモデルであるSOAを導入している。 さらに、ネットワークは非線形ニューロンモデルを用いて1d操作層を構成する。 したがって、ニューロン(フィルター)の学習能力は浅いアーキテクチャで大幅に向上する。 コンパクトアーキテクチャの使用は、識別マッピングの目的のため、オートエンコーダにとって特に重要である。 総じて,srl-soaバンド選択手法は,達成された土地被覆分類の精度を考慮した2つのhsiデータよりも優れていることが示された。 SRL-SOAアプローチのソフトウェア実装はhttps://github.com/m eteahishali/SRL-SOAで公開されています。

The band selection in the hyperspectral image (HSI) data processing is an important task considering its effect on the computational complexity and accuracy. In this work, we propose a novel framework for the band selection problem: Self-Representation Learning (SRL) with Sparse 1D-Operational Autoencoder (SOA). The proposed SLR-SOA approach introduces a novel autoencoder model, SOA, that is designed to learn a representation domain where the data are sparsely represented. Moreover, the network composes of 1D-operational layers with the non-linear neuron model. Hence, the learning capability of neurons (filters) is greatly improved with shallow architectures. Using compact architectures is especially crucial in autoencoders as they tend to overfit easily because of their identity mapping objective. Overall, we show that the proposed SRL-SOA band selection approach outperforms the competing methods over two HSI data including Indian Pines and Salinas-A considering the achieved land cover classification accuracies. The software implementation of the SRL-SOA approach is shared publicly at https://github.com/m eteahishali/SRL-SOA.
翻訳日:2022-02-22 16:28:45 公開日:2022-02-20
# 群フェアネス下におけるベイズ最適分類器

Bayes-Optimal Classifiers under Group Fairness ( http://arxiv.org/abs/2202.09724v1 )

ライセンス: Link先を確認
Xianli Zeng and Edgar Dobriban and Guang Cheng(参考訳) 機械学習のアルゴリズムは、社会福祉問題など、より高度な意思決定プロセスに統合されつつある。 アルゴリズム予測から潜在的に異なる影響を緩和する必要があるため、公正な機械学習の分野において多くのアプローチが提案されている。 しかしながら、様々な群フェアネス制約の下でベイズ最適分類器を特徴付ける基本的な問題は、理論的ベンチマークとしてはあまり理解されていない。 古典的なナイマン・ピアソン論(Neyman and Pearson, 1933; Shao, 2003)に基づいて、群フェアネスの下でベイズ最適分類器を導出するための一般的な枠組みを提供する。 これにより、不均一性を直接制御できるグループベースのしきい値決定法が提案され、さらに重要なことは、最適フェアネス精度トレードオフを実現することである。 これらの利点は実験によって支えられている。

Machine learning algorithms are becoming integrated into more and more high-stakes decision-making processes, such as in social welfare issues. Due to the need of mitigating the potentially disparate impacts from algorithmic predictions, many approaches have been proposed in the emerging area of fair machine learning. However, the fundamental problem of characterizing Bayes-optimal classifiers under various group fairness constraints is not well understood as a theoretical benchmark. Based on the classical Neyman-Pearson argument (Neyman and Pearson, 1933; Shao, 2003) for optimal hypothesis testing, this paper provides a general framework for deriving Bayes-optimal classifiers under group fairness. This enables us to propose a group-based thresholding method that can directly control disparity, and more importantly, achieve an optimal fairness-accuracy tradeoff. These advantages are supported by experiments.
翻訳日:2022-02-22 16:13:35 公開日:2022-02-20
# 機械学習における因果性の実行:予測変数の同定のためのモデル説明可能性の限界

Trying to Outrun Causality in Machine Learning: Limitations of Model Explainabilty Techniques for Identifying Predictive Variables ( http://arxiv.org/abs/2202.09875v1 )

ライセンス: Link先を確認
Matthew J. Vowels(参考訳) 機械学習の説明可能性技術は、なぜ特定の決定や予測がなされたのかを理解するために「説明」やモデルを問う方法として提案されている。 このような能力は、センシティブな要因や法的結果に関する意思決定プロセスの自動化にマシンラーニングが使用されている場合に特に重要です。 実際、これはEUの法律による要件ですらある。 さらに、過度に制限された機能形式(例えば線形回帰の場合)を課すことに関心を持つ研究者は、興味のある結果に関連する重要な変数を特定することを目的として、探索研究の一環として説明可能性技術とともに機械学習アルゴリズムを使用する動機があるかもしれない。 例えば、疫学者は「リスク要因」、すなわち、ランダムな森林を用いて病気からの回復に影響を与える要因を特定し、重要度を用いて変数の関連性を評価することに興味があるかもしれない。 しかし、私たちが実証しようとしているように、機械学習のアルゴリズムは見た目ほど柔軟性がなく、データの根底にある因果構造に驚くほど敏感です。 この結果、実際に因果系に批判的であり、結果と非常に相関している予測子は、しかしながら、結果に無関係で非重要かつ非予測的な説明可能性技術によって見なされる可能性がある。 これは、それ自体が説明可能性のテクニックの制限であるよりもむしろ、回帰の数学的含意と、これらの含意と、根底にある因果構造の関連する条件的非依存性との相互作用の結果である。 重要な変数のデータを探索したい研究者に、代替案をいくつか提供します。

Machine Learning explainability techniques have been proposed as a means of `explaining' or interrogating a model in order to understand why a particular decision or prediction has been made. Such an ability is especially important at a time when machine learning is being used to automate decision processes which concern sensitive factors and legal outcomes. Indeed, it is even a requirement according to EU law. Furthermore, researchers concerned with imposing overly restrictive functional form (e.g. as would be the case in a linear regression) may be motivated to use machine learning algorithms in conjunction with explainability techniques, as part of exploratory research, with the goal of identifying important variables which are associated with an outcome of interest. For example, epidemiologists might be interested in identifying 'risk factors' - i.e., factors which affect recovery from disease - by using random forests and assessing variable relevance using importance measures. However, and as we aim to demonstrate, machine learning algorithms are not as flexible as they might seem, and are instead incredibly sensitive to the underling causal structure in the data. The consequences of this are that predictors which are, in fact, critical to a causal system and highly correlated with the outcome, may nonetheless be deemed by explainability techniques to be unrelated/unimportan t/unpredictive of the outcome. Rather than this being a limitation of explainability techniques per se, it is rather a consequence of the mathematical implications of regressions, and the interaction of these implications with the associated conditional independencies of the underlying causal structure. We provide some alternative recommendations for researchers wanting to explore the data for important variables.
翻訳日:2022-02-22 16:13:19 公開日:2022-02-20
# オントロジー仮定予測のための文脈意味埋め込み

Contextual Semantic Embeddings for Ontology Subsumption Prediction ( http://arxiv.org/abs/2202.09791v1 )

ライセンス: Link先を確認
Jiaoyan Chen and Yuan He and Ernesto Jimenez-Ruiz and Hang Dong and Ian Horrocks(参考訳) オントロジーキュレーションの自動化は知識工学における重要な課題である。 セマンティック埋め込みのような機械学習技術による予測は有望な方向であるが、関連する研究はまだ予備的である。 本稿では,事前学習された言語モデル BERT を用いて,クラスラベルのコンテキスト埋め込みを計算し,周辺クラスのコンテキストを組み込んだ入力テンプレートをカスタマイズした BERTSubs というクラス仮定予測手法を提案する。 2つの大規模実世界のオントロジに対する評価は、最先端技術よりも優れた性能を示している。

Automating ontology curation is a crucial task in knowledge engineering. Prediction by machine learning techniques such as semantic embedding is a promising direction, but the relevant research is still preliminary. In this paper, we present a class subsumption prediction method named BERTSubs, which uses the pre-trained language model BERT to compute contextual embeddings of the class labels and customized input templates to incorporate contexts of surrounding classes. The evaluation on two large-scale real-world ontologies has shown its better performance than the state-of-the-art.
翻訳日:2022-02-22 15:56:15 公開日:2022-02-20
# $\mathcal{Y}$-Tuning:ラベル表現学習による大規模事前学習モデルの効率的なチューニングパラダイム

$\mathcal{Y}$-Tuning: An Efficient Tuning Paradigm for Large-Scale Pre-Trained Models via Label Representation Learning ( http://arxiv.org/abs/2202.09817v1 )

ライセンス: Link先を確認
Yitao Liu, Chenxin An, Xipeng Qiu(参考訳) 大規模事前学習モデル(PTM)の成功により、下流タスクへのPTMの適応の効率は、特に数十億のパラメータを持つPTMにとって大きな注目を集めている。 この問題に対処するためにパラメータ効率のよいチューニングパラダイムがいくつか提案されているが、トレーニングフェーズの勾配を計算するには大きなリソースが必要である。 本稿では,凍った大規模ptmを特定の下流タスクに適応させるための効率的かつ効果的なパラダイムである$\mathcal{y}$-tuningを提案する。 $\mathcal{Y}$-tuningは、与えられたタスクで定義されたラベルの密度の高い表現を学習し、固定された特徴表現に調整する。 入力テキストとモデルパラメータの機能をチューニングせずに、$\mathcal{Y}$-tuningはパラメータ効率とトレーニング効率の両方です。 160億のパラメータを持つ$\text{deberta}_\text{xxl}$に対して、$\mathcal{y}$-tuningは、$2\%$の調整可能なパラメータとはるかに少ないトレーニングコストで、guyベンチマークの完全な微調整の96%以上のパフォーマンスを達成している。

With the success of large-scale pre-trained models (PTMs), how efficiently adapting PTMs to downstream tasks has attracted tremendous attention, especially for PTMs with billions of parameters. Although some parameter-efficient tuning paradigms have been proposed to address this problem, they still require large resources to compute the gradients in the training phase. In this paper, we propose $\mathcal{Y}$-Tuning, an efficient yet effective paradigm to adapt frozen large-scale PTMs to specific downstream tasks. $\mathcal{Y}$-tuning learns dense representations for labels $\mathcal{Y}$ defined in a given task and aligns them to fixed feature representation. Without tuning the features of input text and model parameters, $\mathcal{Y}$-tuning is both parameter-efficient and training-efficient. For $\text{DeBERTa}_\text{XXL}$ with 1.6 billion parameters, $\mathcal{Y}$-tuning achieves performance more than $96\%$ of full fine-tuning on GLUE Benchmark with only $2\%$ tunable parameters and much fewer training costs.
翻訳日:2022-02-22 15:52:32 公開日:2022-02-20
# ディープラーニングのための動的かつ効率的なグレイボックスハイパーパラメータ最適化

Dynamic and Efficient Gray-Box Hyperparameter Optimization for Deep Learning ( http://arxiv.org/abs/2202.09774v1 )

ライセンス: Link先を確認
Martin Wistuba, Arlind Kadra, Josif Grabocka(参考訳) 近年,ディープラーニング手法をチューニングするための有望な方向として,グレーボックスハイパーパラメータ最適化技術が登場している。 本研究では,次にどの設定を試すべきかを動的に決定する手法であるDyHPOを紹介する。 我々の手法は、グレーボックスの設定に対する古典的ベイズ最適化の修正である。 具体的には,学習曲線のダイナミクスを組み込んだガウス過程の新しいサロゲートと,多予算情報を含む新たな獲得関数を提案する。 我々は,50のデータセット(Tabular, Image, NLP)と多様なニューラルネットワーク(MLP, CNN/NAS, RNN)からなる大規模実験により,DyHPOの最先端ハイパーパラメータ最適化ベースラインに対する顕著な優位性を実証した。

Gray-box hyperparameter optimization techniques have recently emerged as a promising direction for tuning Deep Learning methods. In this work, we introduce DyHPO, a method that learns to dynamically decide which configuration to try next, and for what budget. Our technique is a modification to the classical Bayesian optimization for a gray-box setup. Concretely, we propose a new surrogate for Gaussian Processes that embeds the learning curve dynamics and a new acquisition function that incorporates multi-budget information. We demonstrate the significant superiority of DyHPO against state-of-the-art hyperparameter optimization baselines through large-scale experiments comprising 50 datasets (Tabular, Image, NLP) and diverse neural networks (MLP, CNN/NAS, RNN).
翻訳日:2022-02-22 15:49:50 公開日:2022-02-20
# ExAIS: 実行可能なAIセマンティックス

ExAIS: Executable AI Semantics ( http://arxiv.org/abs/2202.09868v1 )

ライセンス: Link先を確認
Richard Schumi, Jun Sun(参考訳) ニューラルネットワークは、プログラマの心の中で(しばしば非公式に)論理的推論を通じて、より複雑なプログラムを構築する代わりに、汎用的なニューラルネットワークモデルをビッグデータで最適化することで、新しいプログラミングパラダイムとみなすことができる。 この新たなパラダイムでは、TensorFlowやPyTorchといったAIフレームワークが重要な役割を果たす。 プログラミング言語(Cなど)の適切な意味論が欠如していること、すなわちコンパイラの正当性仕様が多くの問題となるプログラムの動作やセキュリティ問題に寄与していることが知られている。 一般的に、プログラミング言語の複雑さと急速な進化のためにコンパイラの正当性仕様を持つのは難しいが、ニューラルネットワーク(関数セットが限られており、そのほとんどは安定的なセマンティクスを持っている)に対して、今回はそれを正しく行うユニークな機会がある。 本稿では、tensorflowなどのニューラルネットワークフレームワークの正確性仕様を提供する取り組みについて報告する。 論理プログラミング言語Prologで、ほぼすべてのTensorFlow層のセマンティクスを指定する。 2つの応用を通して意味論の有用性を示す。 1つはtensorflowのファジングエンジンで、強力なオラクルと有効なニューラルネットワークを生成する体系的な方法を備えている。 もう1つは、TensorFlowモデルの一貫性のあるバグレポートを可能にするモデル検証アプローチである。

Neural networks can be regarded as a new programming paradigm, i.e., instead of building ever-more complex programs through (often informal) logical reasoning in the programmers' mind, complex 'AI' systems are built by optimising generic neural network models with big data. In this new paradigm, AI frameworks such as TensorFlow and PyTorch play a key role, which is as essential as the compiler for traditional programs. It is known that the lack of a proper semantics for programming languages (such as C), i.e., a correctness specification for compilers, has contributed to many problematic program behaviours and security issues. While it is in general hard to have a correctness specification for compilers due to the high complexity of programming languages and their rapid evolution, we have a unique opportunity to do it right this time for neural networks (which have a limited set of functions, and most of them have stable semantics). In this work, we report our effort on providing a correctness specification of neural network frameworks such as TensorFlow. We specify the semantics of almost all TensorFlow layers in the logical programming language Prolog. We demonstrate the usefulness of the semantics through two applications. One is a fuzzing engine for TensorFlow, which features a strong oracle and a systematic way of generating valid neural networks. The other is a model validation approach which enables consistent bug reporting for TensorFlow models.
翻訳日:2022-02-22 15:49:36 公開日:2022-02-20
# 分散を分解する: 学習のポイントワイドフレームワーク

Deconstructing Distributions: A Pointwise Framework of Learning ( http://arxiv.org/abs/2202.09931v1 )

ライセンス: Link先を確認
Gal Kaplun, Nikhil Ghosh, Saurabh Garg, Boaz Barak, Preetum Nakkiran(参考訳) 機械学習では、従来、テスト入力の集合を平均して、1つのモデルのパフォーマンスを評価する。 本稿では,新しいアプローチを提案する: $\textit{single input point}$で評価された場合,モデルの集合のパフォーマンスを測定する。 具体的には、ある点の$\textit{known}$: テスト分布におけるモデルの平均性能と、この点におけるポイントワイズパフォーマンスの関係について検討する。 プロファイルは、モデルとデータの両方の構造に関する新たな洞察を得ることができます。 例えば、実データ分布は質的に異なるプロファイルを持つ点からなることを実証的に示す。 一方、ポイントワイドと平均性能の間には強い相関関係を持つ「互換」点が存在する。 一方、弱い点や$\textit{negative}$相関点もある: モデル全体の精度を改善する場合、これらの入力で$\textit{hurts}$のパフォーマンスが実際に向上する。 これらの実験的な観察は、先行研究で提案されたいくつかの簡易学習モデルの予測と矛盾していることを示す。 CIFAR-10-NEGの標準モデルでは、CIFAR-10-NEGの精度は、CIFAR-10テストの精度で$\textit{ negatively correlation}$である。 これは初めて、"精度・オン・ザ・ライン"を完全に逆転するOODデータセット(Miller, Taori, Raghunathan, Sgawa, Koh, Shankar, Liang, Carmon, Schmidt 2021)を示している。

In machine learning, we traditionally evaluate the performance of a single model, averaged over a collection of test inputs. In this work, we propose a new approach: we measure the performance of a collection of models when evaluated on a $\textit{single input point}$. Specifically, we study a point's $\textit{profile}$: the relationship between models' average performance on the test distribution and their pointwise performance on this individual point. We find that profiles can yield new insights into the structure of both models and data -- in and out-of-distribution. For example, we empirically show that real data distributions consist of points with qualitatively different profiles. On one hand, there are "compatible" points with strong correlation between the pointwise and average performance. On the other hand, there are points with weak and even $\textit{negative}$ correlation: cases where improving overall model accuracy actually $\textit{hurts}$ performance on these inputs. We prove that these experimental observations are inconsistent with the predictions of several simplified models of learning proposed in prior work. As an application, we use profiles to construct a dataset we call CIFAR-10-NEG: a subset of CINIC-10 such that for standard models, accuracy on CIFAR-10-NEG is $\textit{negatively correlated}$ with accuracy on CIFAR-10 test. This illustrates, for the first time, an OOD dataset that completely inverts "accuracy-on-the-line " (Miller, Taori, Raghunathan, Sagawa, Koh, Shankar, Liang, Carmon, and Schmidt 2021)
翻訳日:2022-02-22 15:16:09 公開日:2022-02-20
# 選択的クレジット割り当て

Selective Credit Assignment ( http://arxiv.org/abs/2202.09699v1 )

ライセンス: Link先を確認
Veronica Chelu, Diana Borsa, Doina Precup, Hado van Hasselt(参考訳) 予測と制御の両方において、強化学習アルゴリズムには効率的なクレジット割り当てが不可欠である。 選択的クレジット代入のための時間差アルゴリズムについて統一的な視点を述べる。 これらの選択アルゴリズムは、学習更新の寄与を定量化するために重み付けを適用する。 我々は,価値ベースの学習と計画アルゴリズムに重み付けを適用することへの洞察を示し,予測と制御における後方信用分布の仲介におけるその役割について述べる。 この領域内では、信用を特別なケースとして選択的に割り当てることができる既存のオンライン学習アルゴリズムと、信用を反事実的に後方に割り当て、信用をオフトラックとオフポリティシーに割り当てる新しいアルゴリズムを識別する。

Efficient credit assignment is essential for reinforcement learning algorithms in both prediction and control settings. We describe a unified view on temporal-difference algorithms for selective credit assignment. These selective algorithms apply weightings to quantify the contribution of learning updates. We present insights into applying weightings to value-based learning and planning algorithms, and describe their role in mediating the backward credit distribution in prediction and control. Within this space, we identify some existing online learning algorithms that can assign credit selectively as special cases, as well as add new algorithms that assign credit backward in time counterfactually, allowing credit to be assigned off-trajectory and off-policy.
翻訳日:2022-02-22 15:14:47 公開日:2022-02-20