このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211102となっている論文です。

PDF登録状況(公開日: 20211102)

TitleAuthorsAbstract論文公表日・翻訳日
# 未知量のランダムファジィ双対解釈の視点による推定と認識:IMMフィルタの実証

Estimation & Recognition under Perspective of Random-Fuzzy Dual Interpretation of Unknown Quantity: with Demonstration of IMM Filter ( http://arxiv.org/abs/2110.10572v2 )

ライセンス: Link先を確認
Wei Mei, Yunfeng Xu, Limin Liu(参考訳) 本稿では, 未知量のいくつかをファジィ不確実性として忠実にモデル化できるかどうかに着目し, シグマ-マックス推論(確率-可能性推論)の観点から推定と認識の問題を検討する。 関連する2つの問題に対処する。 1) 未知量のランダム・ファジィ二重解釈が推定される 2)シグママックス演算子を推定・認識などの実用上の問題に選択する原理。 ランダム性や曖昧性の定義から考えられた我々の視点では、不正確な先行による推定にかかわる連続未知量は、より適切にランダム性としてモデル化され、シグマ推論によって処理されるべきである。 この哲学は、よく知られた対話型多重モデル (IMM) フィルタの更新版によって実証され、ジャンプマルコフ系はハイブリッド不確実性系として再構成され、連続状態はモデル条件の確率的系として、離散モード遷移は確率(確率)遷移行列によってファジィ系としてモデル化され、仮説混合は「シグマ」の代わりに「マックス」の演算を用いて行われる。 短距離火器管制レーダと長距離監視レーダのシミュレーションデータを用いた目標追跡の操作例では,システムモデルの硬度決定の特異性や離散モードの遷移に対する応答の速さにより,改良されたIMMフィルタが従来のIMMフィルタよりも大幅に改善されている。

This paper is to consider the problems of estimation and recognition from the perspective of sigma-max inference (probability-possibi lity inference), with a focus on discovering whether some of the unknown quantities involved could be more faithfully modeled as fuzzy uncertainty. Two related key issues are addressed: 1) the random-fuzzy dual interpretation of unknown quantity being estimated; 2) the principle of selecting sigma-max operator for practical problems, such as estimation and recognition. Our perspective, conceived from definitions of randomness and fuzziness, is that continuous unknown quantity involved in estimation with inaccurate prior should be more appropriately modeled as randomness and handled by sigma inference; whereas discrete unknown quantity involved in recognition with insufficient (and inaccurate) prior could be better modeled as fuzziness and handled by max inference. The philosophy was demonstrated by an updated version of the well-known interacting multiple model (IMM) filter, for which the jump Markovian System is reformulated as a hybrid uncertainty system, with continuous state evolution modeled as usual as model-conditioned stochastic system and discrete mode transitions modeled as fuzzy system by a possibility (instead of probability) transition matrix, and hypotheses mixing is conducted by using the operation of "max" instead of "sigma". For our example of maneuvering target tracking using simulated data from both a short-range fire control radar and a long-range surveillance radar, the updated IMM filter shows significant improvement over the classic IMM filter, due to its peculiarity of hard decision of system model and a faster response to the transition of discrete mode.
翻訳日:2021-11-14 15:46:35 公開日:2021-11-02
# BiosecurID:マルチモーダルバイオメトリックデータベース

BiosecurID: a multimodal biometric database ( http://arxiv.org/abs/2111.03472v1 )

ライセンス: Link先を確認
Julian Fierrez, Javier Galbally, Javier Ortega-Garcia, Manuel R Freire, Fernando Alonso-Fernandez, Daniel Ramos, Doroteo Torre Toledano, Joaquin Gonzalez-Rodriguez, Juan A Siguenza, Javier Garrido-Salas, E Anguiano, Guillermo Gonzalez-de-Rivera, Ricardo Ribalda, Marcos Faundez-Zanuy, JA Ortega, Valent\'in Carde\~noso-Payo, A Viloria, Carlos E Vivaracho, Q Isaac Moro, Juan J Igarza, J Sanchez, Inmaculada Hernaez, Carlos Orrite-Urunuela, Francisco Martinez-Contreras, Juan Jos\'e Gracia-Roche(参考訳) BiosecurIDプロジェクトのフレームワークで取得された新しいマルチモーダルバイオメトリックデータベースについて,買収設定とプロトコルの説明とともに紹介する。 データベースには、音声、虹彩、顔(静止画像、話す顔のビデオ)、手書き署名、手書きテキスト(オンライン動的信号、オフラインスキャン画像)、指紋(2つの異なるセンサーで取得)、手(palmprint、contour-geometry)、キートローキングの8つのユニモーダルバイオメトリック特性が含まれている。 データベースは、現実的な取得シナリオ、バランスのとれた性別と人口分布、特定の人口統計グループ(年齢、性別、手渡)に関する情報の入手、スピーチとキーストーミングのためのリプレイアタックの取得、署名のための熟練した偽造、および他の既存のデータベースとの互換性など、400のテーマで構成されている。 これらの特徴は、一様および多モード生体計測システムの研究・開発に非常に有用である。

A new multimodal biometric database, acquired in the framework of the BiosecurID project, is presented together with the description of the acquisition setup and protocol. The database includes eight unimodal biometric traits, namely: speech, iris, face (still images, videos of talking faces), handwritten signature and handwritten text (on-line dynamic signals, off-line scanned images), fingerprints (acquired with two different sensors), hand (palmprint, contour-geometry) and keystroking. The database comprises 400 subjects and presents features such as: realistic acquisition scenario, balanced gender and population distributions, availability of information about particular demographic groups (age, gender, handedness), acquisition of replay attacks for speech and keystroking, skilled forgeries for signatures, and compatibility with other existing databases. All these characteristics make it very useful in research and development of unimodal and multimodal biometric systems.
翻訳日:2021-11-14 15:28:06 公開日:2021-11-02
# (参考訳) 通信制限ネットワークにおける分散スパース特徴選択 [全文訳有]

Distributed Sparse Feature Selection in Communication-Restri cted Networks ( http://arxiv.org/abs/2111.02802v1 )

ライセンス: CC BY 4.0
Hanie Barghi, Amir Najafi, and Seyed Abolfazl Motahari(参考訳) 本稿では,疎線形回帰と特徴選択のための新しい分散スキームの提案と理論的解析を目的とする。 主な目的は、未知のスパース線形モデルからのノイズ観測に基づいて、高次元データセットのいくつかの因果的特徴を学ぶことである。 しかし、$\mathbb{R}^p$の$n$データサンプルを含む推定トレーニングセットは、非常に低帯域幅のリンクを介してN$クライアントが接続された大きなネットワーク上で既に分散されている。 また、1\ll N\ll n\ll p$ の漸近構成を考える。 データセット全体から因果次元を推定するために,ネットワークにおける情報共有のための単純かつ効果的な手法を提案する。 本稿では,ネットワーク全体にわたる$O\left(N\log p\right)$を無視して,真の因果的特徴を確実に回復できることを理論的に示す。 これにより、すべてのサンプルを単一のノード(中央化シナリオ)に送信する簡単なケースと比較して、通信コストが大幅に低減され、これには$o\left(np\right)$の送信が必要となる。 ADMMのようなさらに洗練されたスキームは、通信複雑性が$O\left(Np\right)$である。 意外なことに、我々のサンプルの複雑性境界は、各ノードにおける固定性能測定の最適集中的アプローチと同じ(定数係数まで)であることが証明され、na\"{i}ve 分散化技術は$N$で線形に成長する。 本論文の理論的保証は, Javanmard et al. (2019) における脱バイアスLASSOの最近の分析枠組みに基づいており, 合成および実世界のデータセット上で行われたいくつかの計算機実験によって支持されている。

This paper aims to propose and theoretically analyze a new distributed scheme for sparse linear regression and feature selection. The primary goal is to learn the few causal features of a high-dimensional dataset based on noisy observations from an unknown sparse linear model. However, the presumed training set which includes $n$ data samples in $\mathbb{R}^p$ is already distributed over a large network with $N$ clients connected through extremely low-bandwidth links. Also, we consider the asymptotic configuration of $1\ll N\ll n\ll p$. In order to infer the causal dimensions from the whole dataset, we propose a simple, yet effective method for information sharing in the network. In this regard, we theoretically show that the true causal features can be reliably recovered with negligible bandwidth usage of $O\left(N\log p\right)$ across the network. This yields a significantly lower communication cost in comparison with the trivial case of transmitting all the samples to a single node (centralized scenario), which requires $O\left(np\right)$ transmissions. Even more sophisticated schemes such as ADMM still have a communication complexity of $O\left(Np\right)$. Surprisingly, our sample complexity bound is proved to be the same (up to a constant factor) as the optimal centralized approach for a fixed performance measure in each node, while that of a na\"{i}ve decentralized technique grows linearly with $N$. Theoretical guarantees in this paper are based on the recent analytic framework of debiased LASSO in Javanmard et al. (2019), and are supported by several computer experiments performed on both synthetic and real-world datasets.
翻訳日:2021-11-06 05:10:20 公開日:2021-11-02
# 類似性について

On Similarity ( http://arxiv.org/abs/2111.02803v1 )

ライセンス: Link先を確認
Luciano da F. Costa(参考訳) 2つの数学的構造間の類似性の客観的定量化は、科学と技術における繰り返しの問題を構成する。 本研究では,2つのスカラー値のKroneckerのデルタ関数を類似度定量化の原型基準として用い,より収率の高い指標を導出する原理的手法を開発し,そのうち3つを0から1に有界とする。 スカラー値の符号を考慮に入れたこれらの指標の一般化は、実空間の多重集合、ベクトル、関数に提示され、発展する。 クロネッカーのデルタ関数の帰納的実装としてのjaccardインデックスの解釈を含む、いくつかの重要な結果が得られた。 実関数に一般化すると、4つの類似度指数はそれぞれの関数となり、畳み込みと相関の関連する演算を得るのに使うことができる。

The objective quantification of similarity between two mathematical structures constitutes a recurrent issue in science and technology. In the present work, we developed a principled approach that took the Kronecker's delta function of two scalar values as the prototypical reference for similarity quantification and then derived for more yielding indices, three of which bound between 0 and 1. Generalizations of these indices to take into account the sign of the scalar values were then presented and developed to multisets, vectors, and functions in real spaces. Several important results have been obtained, including the interpretation of the Jaccard index as a yielding implementation of the Kronecker's delta function. When generalized to real functions, the four described similarity indices become respective functionals, which can then be employed to obtain associated operations of convolution and correlation.
翻訳日:2021-11-05 15:27:55 公開日:2021-11-02
# (参考訳) 契約条項における論理関係の検出 [全文訳有]

Detecting Logical Relation In Contract Clauses ( http://arxiv.org/abs/2111.01856v1 )

ライセンス: CC BY 4.0
Alexandre Yukio Ichida and Felipe Meneguzzi(参考訳) 契約は、合意の中で関連する当事者の義務と義務を定義する最も近代的な商業取引を成す。 このような合意がエラーフリーであることを保証することは現代社会にとって不可欠であり、契約の分析には条項間の論理的関係の理解と潜在的な矛盾の特定が必要である。 この分析は、各契約条項を理解するためにエラーを起こしやすい人間の努力に依存する。 本研究では,契約における節間の論理関係の抽出を自動化する手法を開発した。 本稿では,契約中の2つの節間の係り受け型を検出する自然言語推論タスクとしてこの問題に対処する。 結果として得られたアプローチは、コントラクト作者が節間の潜在的な論理的衝突を検出するのに役立つだろう。

Contracts underlie most modern commercial transactions defining define the duties and obligations of the related parties in an agreement. Ensuring such agreements are error free is crucial for modern society and their analysis of a contract requires understanding the logical relations between clauses and identifying potential contradictions. This analysis depends on error-prone human effort to understand each contract clause. In this work, we develop an approach to automate the extraction of logical relations between clauses in a contract. We address this problem as a Natural Language Inference task to detect the entailment type between two clauses in a contract. The resulting approach should help contract authors detecting potential logical conflicts between clauses.
翻訳日:2021-11-05 01:39:51 公開日:2021-11-02
# (参考訳) OpenMP並列ループのソース・ソース自動微分

Source-to-Source Automatic Differentiation of OpenMP Parallel Loops ( http://arxiv.org/abs/2111.01861v1 )

ライセンス: CC BY 4.0
Jan H\"uckelheim and Laurent Hasco\"et(参考訳) 本稿では,OpenMP並列ワークシェアリングループの前方・逆モードにおける精度向上に向けた取り組みについて述べる。 自動微分は、最適化、不確実性定量化、機械学習において重要な数値プログラムの勾配を求める方法である。 勾配を計算する計算コストは、実際には一般的なボトルネックである。 OpenMPを使用したマルチコアCPUやGPU用に並列化されたアプリケーションでは、勾配を並列に計算したいと考えている。 本稿では,生成した派生コードの正しさを判断する枠組みを提案し,OpenMP拡張から微分モデルへの拡張を正当化する。 我々は,このモデルを自動分化ツールタペネードに実装し,拡張した分化手順に従って分化したテストケースを提案する。 生成した導関数プログラムの前方・逆モードの性能は逐次モードよりも優れているが,我々の逆モードは入力プログラムよりもよくスケールする。

This paper presents our work toward correct and efficient automatic differentiation of OpenMP parallel worksharing loops in forward and reverse mode. Automatic differentiation is a method to obtain gradients of numerical programs, which are crucial in optimization, uncertainty quantification, and machine learning. The computational cost to compute gradients is a common bottleneck in practice. For applications that are parallelized for multicore CPUs or GPUs using OpenMP, one also wishes to compute the gradients in parallel. We propose a framework to reason about the correctness of the generated derivative code, from which we justify our OpenMP extension to the differentiation model. We implement this model in the automatic differentiation tool Tapenade and present test cases that are differentiated following our extended differentiation procedure. Performance of the generated derivative programs in forward and reverse mode is better than sequential, although our reverse mode often scales worse than the input programs.
翻訳日:2021-11-05 01:29:55 公開日:2021-11-02
# (参考訳) 確率的深層学習による大規模変形の実時間シミュレーション

FEM-based Real-Time Simulations of Large Deformations with Probabilistic Deep Learning ( http://arxiv.org/abs/2111.01867v1 )

ライセンス: CC BY 4.0
Saurabh Deshpande, Jakub Lengiewicz and St\'ephane P.A. Bordas(参考訳) リアルタイムシミュレーションや制御のような多くの工学的応用において、基礎となる非線形問題の従来の解法は通常計算コストが高すぎる。 本研究では,負荷下での超弾性体の応答を予測できる高効率なディープラーニングサロゲートフレームワークを提案する。 サーロゲートモデルは、特別畳み込みニューラルネットワークアーキテクチャ(いわゆるu-net)の形式をとり、有限要素法で得られた力分散データを用いて訓練する。 本稿では,フレームワークの決定論的および確率的バージョンを提案し,三つのベンチマーク問題について検討する。 特に,最大類似度と変分ベイズ推論の定式化の能力を確認し,解の信頼区間を評価する。

For many engineering applications, such as real-time simulations or control, conventional solution techniques of the underlying nonlinear problems are usually computationally too expensive. In this work, we propose a highly efficient deep-learning surrogate framework that is able to predict the response of hyper-elastic bodies under load. The surrogate model takes the form of special convolutional neural network architecture, so-called U-Net, which is trained with force-displacement data obtained with the finite element method. We propose deterministic- and probabilistic versions of the framework and study it for three benchmark problems. In particular, we check the capabilities of the Maximum Likelihood and the Variational Bayes Inference formulations to assess the confidence intervals of solutions.
翻訳日:2021-11-05 01:29:07 公開日:2021-11-02
# (参考訳) 文字列からデータサイエンスへ - 文字列の自動処理のための実践的フレームワーク [全文訳有]

From Strings to Data Science: a Practical Framework for Automated String Handling ( http://arxiv.org/abs/2111.01868v1 )

ライセンス: CC BY 4.0
John W. van Lith and Joaquin Vanschoren(参考訳) 多くの機械学習ライブラリは、モデルの意図した動作のために、文字列機能を数値表現に変換する必要がある。 カテゴリ文字列機能は、様々なデータ(例えば、zipコード、名前、結婚状態)を表現でき、自動で前処理するのは非常に難しい。 本稿では,ベストプラクティス,ドメイン知識,新しい技術に基づく枠組みを提案する。 異なるタイプの文字列の特徴を自動的に識別し、それに従って処理し、数値表現にエンコードする。 また、オープンソースのPython実装で、表形式のデータセットで分類文字列を自動的に前処理し、幅広いデータセットで有望な結果を示す。

Many machine learning libraries require that string features be converted to a numerical representation for the models to work as intended. Categorical string features can represent a wide variety of data (e.g., zip codes, names, marital status), and are notoriously difficult to preprocess automatically. In this paper, we propose a framework to do so based on best practices, domain knowledge, and novel techniques. It automatically identifies different types of string features, processes them accordingly, and encodes them into numerical representations. We also provide an open source Python implementation to automatically preprocess categorical string data in tabular datasets and demonstrate promising results on a wide range of datasets.
翻訳日:2021-11-05 01:26:34 公開日:2021-11-02
# (参考訳) フェアネスを考慮したフェデレーション学習に関する調査 [全文訳有]

A Survey of Fairness-Aware Federated Learning ( http://arxiv.org/abs/2111.01872v1 )

ライセンス: CC BY 4.0
Yuxin Shi, Han Yu, Cyril Leung(参考訳) フェデレーション学習(fl)の最近の進歩は、パフォーマンスとデータのプライバシの保証を備えた大規模分散クライアントに大規模機械学習の機会をもたらした。 しかし、現在のほとんどの作業は、flの中央コントローラの関心のみに焦点を当て、クライアントの関心を無視している。 これは、顧客が積極的に学習プロセスに参加することを妨げ、flシステム全体の持続性を損なう不公平をもたらす可能性がある。 したがって、FLにおける公正性の確保というトピックは、多くの研究の関心を集めている。 近年、異なる視点からflの公平性を達成するために、多様な公正性認識fl(fafl)アプローチが提案されている。 しかし、この学際的な分野についての洞察を得るのに役立つ包括的な調査は存在しない。 本稿ではそのような調査を行うことを目的とする。 本研究は,本分野において既存文献で採用されている公正性の概念と基本的かつ単純化された仮定を考察し,クライアント選択,最適化,貢献評価,インセンティブ分布など,FLの主要なステップをカバーするFAFLアプローチの分類法を提案する。 さらに,FAFLアプローチの性能を実験的に評価するための主要な指標について考察し,将来的な研究方向性を提案する。

Recent advances in Federated Learning (FL) have brought large-scale machine learning opportunities for massive distributed clients with performance and data privacy guarantees. However, most current works only focus on the interest of the central controller in FL, and ignore the interests of clients. This may result in unfairness which discourages clients from actively participating in the learning process and damages the sustainability of the whole FL system. Therefore, the topic of ensuring fairness in an FL is attracting a great deal of research interest. In recent years, diverse Fairness-Aware FL (FAFL) approaches have been proposed in an effort to achieve fairness in FL from different viewpoints. However, there is no comprehensive survey which helps readers gain insight into this interdisciplinary field. This paper aims to provide such a survey. By examining the fundamental and simplifying assumptions, as well as the notions of fairness adopted by existing literature in this field, we propose a taxonomy of FAFL approaches covering major steps in FL, including client selection, optimization, contribution evaluation and incentive distribution. In addition, we discuss the main metrics for experimentally evaluating the performance of FAFL approaches, and suggest some promising future research directions.
翻訳日:2021-11-05 01:14:34 公開日:2021-11-02
# (参考訳) 運動予測のための等変深部力学モデル [全文訳有]

Equivariant Deep Dynamical Model for Motion Prediction ( http://arxiv.org/abs/2111.01892v1 )

ライセンス: CC BY 4.0
Bahar Azari and Deniz Erdo\u{g}mu\c{s}(参考訳) 深層生成モデリングによる表現の学習は、動的モデリングがデータの最も単純化され圧縮された基礎的な記述を発見し、予測のような他のタスクでそれを使うための強力なアプローチである。 ほとんどの学習タスクは固有の対称性を持ち、すなわち入力変換は出力をそのままにするか、出力が同様の変換を行う。 しかし、学習プロセスは、通常、これらの対称性を変形しない。 したがって、個々の変換された入力に対する学習表現は意味的に関連しないかもしれない。 本稿では, 入力空間の構造的表現を, 対称性の変換によって異なるという意味で学習する動き予測のためのSO(3)同変深部力学モデル(EqDDM)を提案する。 EqDDMは、状態空間の放出と遷移モデルをパラメータ化するための同変ネットワークを備えている。 本稿では,提案モデルの各種動作データに対する優れた予測性能を示す。

Learning representations through deep generative modeling is a powerful approach for dynamical modeling to discover the most simplified and compressed underlying description of the data, to then use it for other tasks such as prediction. Most learning tasks have intrinsic symmetries, i.e., the input transformations leave the output unchanged, or the output undergoes a similar transformation. The learning process is, however, usually uninformed of these symmetries. Therefore, the learned representations for individually transformed inputs may not be meaningfully related. In this paper, we propose an SO(3) equivariant deep dynamical model (EqDDM) for motion prediction that learns a structured representation of the input space in the sense that the embedding varies with symmetry transformations. EqDDM is equipped with equivariant networks to parameterize the state-space emission and transition models. We demonstrate the superior predictive performance of the proposed model on various motion data.
翻訳日:2021-11-05 00:52:49 公開日:2021-11-02
# (参考訳) 制約下での識別・顔・性別・表情認識のための深層学習 [全文訳有]

Deep learning for identification and face, gender, expression recognition under constraints ( http://arxiv.org/abs/2111.01930v1 )

ライセンス: CC BY 4.0
Ahmad B. Hassanat, Abeer Albustanji, Ahmad S. Tarawneh, Malek Alrashidi, Hani Alharbi, Mohammed Alanazi, Mansoor Alghamdi, Ibrahim S Alkhazi, V. B. Surya Prasath(参考訳) 全顔に基づく生体認証は広範な研究領域である。 しかし, 対象者の場合のように, 部分的に見える顔のみを使用することは難しい課題である。 深層畳み込みニューラルネットワーク(deep convolutional neural network, cnn)は,人間の顔画像から特徴を抽出するために用いられる。 その結果,VGG19ネットワーク構造における第6層と第7層,FC6層とFC7層は,それぞれ4096個の特徴を含むロバストな特徴を有することがわかった。 本研究の目的は, 深層学習に基づく自動計算機システムを用いて, 人物だけでなく, 性別, 年齢, 表情の認識や, 笑顔などの表情の認識を行う能力をテストすることである。 実験の結果,すべてのタスクにおいて高い精度が得られた。 最良記録の精度は、人物識別に99.95%、性別認識に99.9%、年齢認識に99.9%、表情(笑)認識に80.9%である。

Biometric recognition based on the full face is an extensive research area. However, using only partially visible faces, such as in the case of veiled-persons, is a challenging task. Deep convolutional neural network (CNN) is used in this work to extract the features from veiled-person face images. We found that the sixth and the seventh fully connected layers, FC6 and FC7 respectively, in the structure of the VGG19 network provide robust features with each of these two layers containing 4096 features. The main objective of this work is to test the ability of deep learning based automated computer system to identify not only persons, but also to perform recognition of gender, age, and facial expressions such as eye smile. Our experimental results indicate that we obtain high accuracy for all the tasks. The best recorded accuracy values are up to 99.95% for identifying persons, 99.9% for gender recognition, 99.9% for age recognition and 80.9% for facial expression (eye smile) recognition.
翻訳日:2021-11-05 00:33:36 公開日:2021-11-02
# (参考訳) HASHTAG:ディープニューラルネットワークにおける障害注入攻撃のオンライン検出のためのハッシュシグナチャ [全文訳有]

HASHTAG: Hash Signatures for Online Detection of Fault-Injection Attacks on Deep Neural Networks ( http://arxiv.org/abs/2111.01932v1 )

ライセンス: CC BY 4.0
Mojan Javaheripi, Farinaz Koushanfar(参考訳) 本稿では,Deep Neural Networks (DNN) における障害注入攻撃の高精度検出を可能にする最初のフレームワークであるHASHTAGを提案する。 近年のフォールトインジェクション攻撃では,ビットフリップによるDNNの精度低下が報告されている。 このシナリオでは、攻撃者はプログラムのDRAMメモリを改ざんすることで、DNN実行中にいくつかの重みを変更できる。 ランタイムビットフリップを検出するため、HASHTAGはデプロイ前に良質なDNNからユニークなシグネチャを抽出する。 このシグネチャは後に、DNNの整合性を検証し、フライ時の推論出力を検証するために使用される。 本稿では,障害注入攻撃に対する最も脆弱なDNN層を正確に識別する新しい感度解析手法を提案する。 次にdnnシグネチャは、脆弱なレイヤの基盤となる重みを低コリシオンハッシュ関数を使ってエンコードすることで構築される。 DNNがデプロイされると、推論中にターゲット層から新しいハッシュを抽出し、接地トラストシグネチャと比較する。 HASHTAGには,組込みプラットフォーム上での低オーバーヘッドかつリアルタイムな障害検出を実現する,軽量な方法論が組み込まれている。 各種DNNに対する最先端ビットフリップ攻撃による広範囲な評価は、攻撃検出と実行オーバーヘッドの両方の観点から、HASHTAGの競争上の優位性を示している。

We propose HASHTAG, the first framework that enables high-accuracy detection of fault-injection attacks on Deep Neural Networks (DNNs) with provable bounds on detection performance. Recent literature in fault-injection attacks shows the severe DNN accuracy degradation caused by bit flips. In this scenario, the attacker changes a few weight bits during DNN execution by tampering with the program's DRAM memory. To detect runtime bit flips, HASHTAG extracts a unique signature from the benign DNN prior to deployment. The signature is later used to validate the integrity of the DNN and verify the inference output on the fly. We propose a novel sensitivity analysis scheme that accurately identifies the most vulnerable DNN layers to the fault-injection attack. The DNN signature is then constructed by encoding the underlying weights in the vulnerable layers using a low-collision hash function. When the DNN is deployed, new hashes are extracted from the target layers during inference and compared against the ground-truth signatures. HASHTAG incorporates a lightweight methodology that ensures a low-overhead and real-time fault detection on embedded platforms. Extensive evaluations with the state-of-the-art bit-flip attack on various DNNs demonstrate the competitive advantage of HASHTAG in terms of both attack detection and execution overhead.
翻訳日:2021-11-05 00:09:32 公開日:2021-11-02
# (参考訳) 非人間化音声技術:人間-機械間相互作用の音声的・経験的影響 [全文訳有]

Dehumanizing Voice Technology: Phonetic & Experiential Consequences of Restricted Human-Machine Interaction ( http://arxiv.org/abs/2111.01934v1 )

ライセンス: CC BY 4.0
Christian Hildebrand, Donna Hoffman, Tom Novak(参考訳) 自然言語と音声ベースのインターフェイスの使用は、消費者が好みを検索、買い物、表現する方法を段階的に変える。 本研究は,対話インタフェースとの相互作用の統語的構造の変化が消費者の主観的タスクの楽しさに悪影響を及ぼし,人間の声の客観的な声質を体系的に変化させる方法について考察する。 我々は、要求(vs.コマンド)が音声の収束と低音声の遅延を増大させ、最終的には消費者にとってより自然なタスク体験をもたらすことを示す。 私たちの知る限りでは、スマートオブジェクトとのインタラクションの入力モダリティが消費者のIoTエクスペリエンスに体系的に影響を及ぼすのは、これが初めての作業ドキュメントです。 スマートオブジェクトとの対話を開始するために必要な入力を変更することは、消費者の主観的経験と人間の声の客観的な変化の両方において体系的な変化を引き起こすことを示す。 本研究は,音声生成時の音声特徴と主観的課題経験を結びつけた新たなデータ形式として,人声の特徴抽出の可能性について検討した。

The use of natural language and voice-based interfaces gradu-ally transforms how consumers search, shop, and express their preferences. The current work explores how changes in the syntactical structure of the interaction with conversational interfaces (command vs. request based expression modalities) negatively affects consumers' subjective task enjoyment and systematically alters objective vocal features in the human voice. We show that requests (vs. commands) lead to an in-crease in phonetic convergence and lower phonetic latency, and ultimately a more natural task experience for consumers. To the best of our knowledge, this is the first work docu-menting that altering the input modality of how consumers interact with smart objects systematically affects consumers' IoT experience. We provide evidence that altering the required input to initiate a conversation with smart objects provokes systematic changes both in terms of consumers' subjective experience and objective phonetic changes in the human voice. The current research also makes a methodological con-tribution by highlighting the unexplored potential of feature extraction in human voice as a novel data format linking consumers' vocal features during speech formation and their sub-jective task experiences.
翻訳日:2021-11-04 23:53:55 公開日:2021-11-02
# (参考訳) 作曲行動認識のための時空間レイアウトの再検討 [全文訳有]

Revisiting spatio-temporal layouts for compositional action recognition ( http://arxiv.org/abs/2111.01936v1 )

ライセンス: CC BY 4.0
Gorjan Radevski, Marie-Francine Moens, Tinne Tuytelaars(参考訳) 人間の行動を認識することは基本的に時空間的推論の問題であり、少なくともある程度は、人間と対象の出現に不変であるべきである。 この仮説に動機づけられたこの研究では、アクション認識にオブジェクト中心のアプローチを採用する。 これまで複数の作品がこの設定を研究してきたが、いまだにはっきりしていない (i)精巧に作られた時空間的レイアウトに基づく手法がいかに人間の行動を認識するか、 (II)レイアウトと外見に基づくモデルから情報を融合させる方法と時期 本稿では,空間的推論に有効であるマルチヘッド・アテンション(マルチヘッド・アテンション)を,時空間的レイアウト,すなわちオブジェクトバウンディングボックスの構成に対して用いることを提唱する。 システムへの映像出現情報を注入するための異なるスキームを評価し,背景クラッタ化動作認識に対するアプローチをベンチマークした。 Something-ElseとAction Genomeのデータセットについて (i)時空間レイアウトに基づく行動認識のためのマルチヘッドアテンションの拡張方法 (ii)レイアウトベースモデルとの融合による外観ベースモデルの性能向上方法 (3)非合成背景クラッタビデオデータセットにおいても,レイアウトモデルと外観モデルとの融合により性能が向上する。

Recognizing human actions is fundamentally a spatio-temporal reasoning problem, and should be, at least to some extent, invariant to the appearance of the human and the objects involved. Motivated by this hypothesis, in this work, we take an object-centric approach to action recognition. Multiple works have studied this setting before, yet it remains unclear (i) how well a carefully crafted, spatio-temporal layout-based method can recognize human actions, and (ii) how, and when, to fuse the information from layout and appearance-based models. The main focus of this paper is compositional/few-sh ot action recognition, where we advocate the usage of multi-head attention (proven to be effective for spatial reasoning) over spatio-temporal layouts, i.e., configurations of object bounding boxes. We evaluate different schemes to inject video appearance information to the system, and benchmark our approach on background cluttered action recognition. On the Something-Else and Action Genome datasets, we demonstrate (i) how to extend multi-head attention for spatio-temporal layout-based action recognition, (ii) how to improve the performance of appearance-based models by fusion with layout-based models, (iii) that even on non-compositional background-cluttered video datasets, a fusion between layout- and appearance-based models improves the performance.
翻訳日:2021-11-04 23:46:49 公開日:2021-11-02
# (参考訳) 冠動脈狭窄症における血行動態の機械学習による同定 [全文訳有]

Machine-Learning Identification of Hemodynamics in Coronary Arteries in the Presence of Stenosis ( http://arxiv.org/abs/2111.01950v1 )

ライセンス: CC BY 4.0
Mohammad Farajtabar, Morsal Momeni Larimi, Mohit Biglarian, Morteza Miansari(参考訳) 血流特性の予測は、特に狭窄などの血管疾患の存在において、血管網の挙動を理解する上で最も重要である。 計算流体力学(CFD)は、ネットワーク内の圧力場や速度場を含むこれらの特性を決定するための強力で効率的なツールを提供する。 この分野での多くの研究にもかかわらず、CFDの計算コストが非常に高いため、研究者らは機械学習アプローチを含む新しいプラットフォームを開発し、より高速な分析をはるかに低コストで提供するようになった。 本研究では,狭窄などの異常が存在する場合の冠動脈内血流動態を予測するためのDeep Neural Networkフレームワークを提案する。 この目的のために、人工ニューラルネットワーク(ANN)モデルは、動脈ネットワーク内の圧力と速度を予測するために、合成データを用いて訓練される。 ニューラルネットワークのトレーニングに必要なデータは、ABAQUSソフトウェアに特有の特徴を持ついくつかの動脈のCFD解析から得られた。 心臓疾患の診断において最も重要な因子の一つである狭窄による血圧低下は、冠動脈のどの部分の幾何学的および流れ境界条件を知るモデルを用いて予測できる。 モデルの有効性を3つの実測値を用いて検証した。 提案手法は血流の血行動態を正確に予測する。 圧力予測の平均精度は98.7%、平均速度の精度は93.2%であった。 3つの患者固有のジオメトリでモデルをテストする結果によると、モデルは他の実装や時間を要する数値シミュレーションと同様に有限要素法に代わるものと見なすことができる。

Prediction of the blood flow characteristics is of utmost importance for understanding the behavior of the blood arterial network, especially in the presence of vascular diseases such as stenosis. Computational fluid dynamics (CFD) has provided a powerful and efficient tool to determine these characteristics including the pressure and velocity fields within the network. Despite numerous studies in the field, the extremely high computational cost of CFD has led the researchers to develop new platforms including Machine Learning approaches that instead provide faster analyses at a much lower cost. In this study, we put forth a Deep Neural Network framework to predict flow behavior in a coronary arterial network with different properties in the presence of any abnormality like stenosis. To this end, an artificial neural network (ANN) model is trained using synthetic data so that it can predict the pressure and velocity within the arterial network. The data required to train the neural network were obtained from the CFD analysis of several geometries of arteries with specific features in ABAQUS software. Blood pressure drop caused by stenosis, which is one of the most important factors in the diagnosis of heart diseases, can be predicted using our proposed model knowing the geometrical and flow boundary conditions of any section of the coronary arteries. The efficiency of the model was verified using three real geometries of LAD's vessels. The proposed approach precisely predicts the hemodynamic behavior of the blood flow. The average accuracy of the pressure prediction was 98.7% and the average velocity magnitude accuracy was 93.2%. According to the results of testing the model on three patient-specific geometries, model can be considered as an alternative to finite element methods as well as other hard-to-implement and time-consuming numerical simulations.
翻訳日:2021-11-04 23:29:41 公開日:2021-11-02
# 連続図形モデルの双対性

Duality for Continuous Graphical Models ( http://arxiv.org/abs/2111.01938v1 )

ライセンス: Link先を確認
Mehdi Molkaraie(参考訳) 双対正規因子グラフと因子グラフ双対性定理は離散グラフィカルモデルに対して検討されてきた。 本稿では,因子グラフ双対定理の連続的グラフィカルモデルへの応用について述べる。 具体的には,局所共分散行列の条件を満たす場合,ラダーグラフ上に定義されたガウス図形モデルを正確に解く方法を提案する。 従来の手法とは異なり、手法の効率は局所共分散行列における零点の位置に依存する。 双対化の方法と詳細は2つのおもちゃの例で示される。

The dual normal factor graph and the factor graph duality theorem have been considered for discrete graphical models. In this paper, we show an application of the factor graph duality theorem to continuous graphical models. Specifically, we propose a method to solve exactly the Gaussian graphical models defined on the ladder graph if certain conditions on the local covariance matrices are satisfied. Unlike the conventional approaches, the efficiency of the method depends on the position of the zeros in the local covariance matrices. The method and details of the dualization are illustrated on two toy examples.
翻訳日:2021-11-04 14:28:31 公開日:2021-11-02
# 共形テスト:markov代替のバイナリケース

Conformal testing: binary case with Markov alternatives ( http://arxiv.org/abs/2111.01885v1 )

ライセンス: Link先を確認
Vladimir Vovk, Ilia Nouretdinov, and Alex Gammerman(参考訳) 二元モデル環境での共形テストの研究を継続する。 本稿では、交換可能性のヌル仮説に対するマルコフの代替を考える。 1つのクラスは実験において統計的に効率的であり、もう1つのクラスは計算効率を得るために統計効率を部分的に犠牲にしている。

We continue study of conformal testing in binary model situations. In this note we consider Markov alternatives to the null hypothesis of exchangeability. We propose two new classes of conformal test martingales; one class is statistically efficient in our experiments, and the other class partially sacrifices statistical efficiency to gain computational efficiency.
翻訳日:2021-11-04 14:28:25 公開日:2021-11-02
# 膨大なデータのオーダネス:計算材料発見における機械学習におけるデータ不足とデータ品質の課題を克服する

Audacity of huge: overcoming challenges of data scarcity and data quality for machine learning in computational materials discovery ( http://arxiv.org/abs/2111.01905v1 )

ライセンス: Link先を確認
Aditya Nandy, Chenru Duan, Heather J. Kulik(参考訳) 機械学習(ML)に加速された発見は、予測構造とプロパティの関係を明らかにするために大量の高忠実度データを必要とする。 材料発見に関心を持つ多くの特性において、データ生成の挑戦的な性質と高いコストは、人口が少なく、疑わしい品質を持つデータランドスケープを生み出している。 これらの限界を克服し始めたデータ駆動技術には、密度汎関数理論における関数間のコンセンサスの利用、新しい関数論や加速電子構造理論の開発、計算的要求法がもっとも必要である場所の検出が含まれる。 プロパティが確実にシミュレートできない場合、MLモデルのトレーニングに大規模な実験データセットを使用することができる。 手作業によるキュレーションがなければ、より洗練された自然言語処理と自動画像解析により、文献から構造-プロパティ関係を学習できるようになる。 これらのデータセットでトレーニングされたモデルは、コミュニティのフィードバックを取り入れることで改善される。

Machine learning (ML)-accelerated discovery requires large amounts of high-fidelity data to reveal predictive structure-property relationships. For many properties of interest in materials discovery, the challenging nature and high cost of data generation has resulted in a data landscape that is both scarcely populated and of dubious quality. Data-driven techniques starting to overcome these limitations include the use of consensus across functionals in density functional theory, the development of new functionals or accelerated electronic structure theories, and the detection of where computationally demanding methods are most necessary. When properties cannot be reliably simulated, large experimental data sets can be used to train ML models. In the absence of manual curation, increasingly sophisticated natural language processing and automated image analysis are making it possible to learn structure-property relationships from the literature. Models trained on these data sets will improve as they incorporate community feedback.
翻訳日:2021-11-04 14:28:20 公開日:2021-11-02
# マルチセンサドローン検出のためのデータセット

A dataset for multi-sensor drone detection ( http://arxiv.org/abs/2111.01888v1 )

ライセンス: Link先を確認
Fredrik Svanstr\"om, Fernando Alonso-Fernandez, Cristofer Englund(参考訳) 小型で遠隔操作された無人航空機(uav)やドローンの利用は近年増加している。 これは誤用と並行して行われ、人々や施設の安全に対する明らかな脅威となる。 その結果、UAVの検出も研究トピックとして浮上した。 ドローン検出に関するほとんどの研究は、取得デバイスの種類、ドローンの種類、検出範囲、データセットの特定に失敗している。 熱赤外線カメラを用いた適切なUAV検出研究の欠如も、他のターゲットでの成功にもかかわらず問題となっている。 また,検出タスクを目標までの距離の関数として扱う以前の研究は発見されていない。 センサーの融合もオープンな研究課題として示されるが、この方向の研究も少ない。 上記の問題に対処し、共通の公開ベンチマークによる基礎研究を可能にするため、赤外線および可視光ビデオとオーディオファイルを含むドローン検出のための注釈付きマルチセンサーデータベースにコントリビュートする。 データベースには3つの異なる大きさのドローンと、鳥、飛行機、ヘリコプターなどのドローンとして誤って検出される他の飛行物体が含まれている。 複数の異なるセンサーを使用するのに加えて、クラスの数は以前の研究よりも多い。 センサ間距離の関数としての研究を可能にするために、johnsonの基準に基づいて構築された業界標準検出・認識・識別(dri)要件に従って、データセットを3つのカテゴリ(近、中、遠)に分割する。 規制により、ドローンは視界範囲内を飛行しなければならないため、ドローンのセンサーからターゲットまでの距離は200mで、日光の下で取得される。 スウェーデンのHalmstad Airport(IATAコード:HAD/ICAOコード:ESMT)、Gothenburg City Airport(GSE/ESGP)、Malm\o Airport(MMX/ESMS)の3つの空港で収集された。

The use of small and remotely controlled unmanned aerial vehicles (UAVs), or drones, has increased in recent years. This goes in parallel with misuse episodes, with an evident threat to the safety of people or facilities. As a result, the detection of UAV has also emerged as a research topic. Most studies on drone detection fail to specify the type of acquisition device, the drone type, the detection range, or the dataset. The lack of proper UAV detection studies employing thermal infrared cameras is also an issue, despite its success with other targets. Besides, we have not found any previous study that addresses the detection task as a function of distance to the target. Sensor fusion is indicated as an open research issue as well, although research in this direction is scarce too. To counteract the mentioned issues and allow fundamental studies with a common public benchmark, we contribute with an annotated multi-sensor database for drone detection that includes infrared and visible videos and audio files. The database includes three different drones, of different sizes and other flying objects that can be mistakenly detected as drones, such as birds, airplanes or helicopters. In addition to using several different sensors, the number of classes is higher than in previous studies. To allow studies as a function of the sensor-to-target distance, the dataset is divided into three categories (Close, Medium, Distant) according to the industry-standard Detect, Recognize and Identify (DRI) requirements, built on the Johnson criteria. Given that the drones must be flown within visual range due to regulations, the largest sensor-to-target distance for a drone is 200 m, and acquisitions are made in daylight. The data has been obtained at three airports in Sweden: Halmstad Airport (IATA code: HAD/ICAO code: ESMT), Gothenburg City Airport (GSE/ESGP) and Malm\"o Airport (MMX/ESMS).
翻訳日:2021-11-04 14:07:16 公開日:2021-11-02
# 訓練されたヒューマノイドロボットは、人間のようなソーシャルアテンション紛争解決を行うことができる

A trained humanoid robot can perform human-like crossmodal social attention conflict resolution ( http://arxiv.org/abs/2111.01906v1 )

ライセンス: Link先を確認
Di Fu, Fares Abawi, Hugo Carneiro, Matthias Kerzel, Ziwei Chen, Erik Strahl, Xun Liu, Stefan Wermter(参考訳) 新型コロナウイルス(COVID-19)のパンデミックにより、ロボットはリモートワーク、ソーシャルディスタンシングの維持、精神や身体の健康の改善といったタスクの潜在的なリソースと見なされる。 人間とロボットの相互作用を強化するためには、複雑な現実の環境で複数の社会的手がかりを処理することによって、ロボットがより社会的になる必要がある。 本研究では,視聴覚と視覚のクロスモーダル統合によるニューロロボティクスのパラダイムを採用し,icubロボットが人間のような社会的注意応答を表現できるようにした。 最初は37人の被験者を対象に行動実験を行った。 生態学的妥当性を向上させるため,3つのマスクアニメーションアニメーションアバターを用いたラウンドテーブルミーティングシナリオを,視線シフトが可能な中盤と,音を発生可能な他の2台で設計した。 視線方向と音の位置は一致または一致しない。 マスクは、アバターの目以外のすべての顔の視覚的手がかりをカバーするために使用された。 本研究は, アバターの視線が, 違和感よりも, 視聴覚的コングルーエント状態において, 人間のパフォーマンスが向上し, 対人的社会的注意を惹起する可能性が示唆された。 そこで,我々の計算モデルであるGASPは,ソーシャルキューの検出,音声・視覚の相性予測,選択的注意の実施を訓練した。 モデルトレーニングを終えると、icubロボットは人間と同じような実験条件に晒され、コングルエンシーと違和感に関する人間と同様の注意応答を再現できることを示した。 したがって、この学際的な研究は、クロスモーダルな社会的な注意のメカニズムと、複雑な環境でロボットでどのようにモデル化できるかについての新たな洞察を提供する。

Due to the COVID-19 pandemic, robots could be seen as potential resources in tasks like helping people work remotely, sustaining social distancing, and improving mental or physical health. To enhance human-robot interaction, it is essential for robots to become more socialised, via processing multiple social cues in a complex real-world environment. Our study adopted a neurorobotic paradigm of gaze-triggered audio-visual crossmodal integration to make an iCub robot express human-like social attention responses. At first, a behavioural experiment was conducted on 37 human participants. To improve ecological validity, a round-table meeting scenario with three masked animated avatars was designed with the middle one capable of performing gaze shift, and the other two capable of generating sound. The gaze direction and the sound location are either congruent or incongruent. Masks were used to cover all facial visual cues other than the avatars' eyes. We observed that the avatar's gaze could trigger crossmodal social attention with better human performance in the audio-visual congruent condition than in the incongruent condition. Then, our computational model, GASP, was trained to implement social cue detection, audio-visual saliency prediction, and selective attention. After finishing the model training, the iCub robot was exposed to similar laboratory conditions as human participants, demonstrating that it can replicate similar attention responses as humans regarding the congruency and incongruency performance, while overall the human performance was still superior. Therefore, this interdisciplinary work provides new insights on mechanisms of crossmodal social attention and how it can be modelled in robots in a complex environment.
翻訳日:2021-11-04 14:05:44 公開日:2021-11-02
# 一般化線形計画法における座標線形分散低減

Coordinate Linear Variance Reduction for Generalized Linear Programming ( http://arxiv.org/abs/2111.01842v1 )

ライセンス: Link先を確認
Chaobing Song, Cheuk Yin Lin, Stephen J. Wright, Jelena Diakonikolas(参考訳) 一般化線形プログラム (GLP) のクラスを大規模に検討し, 単純な非平滑凸正規化器と単純な凸集合制約を含む。 GLP を等価凸凹 min-max 問題として再構成することにより、その問題の線形構造を用いて効率よくスケーラブルな1次アルゴリズムを設計できることを示し、このアルゴリズムは 'emph{Coordinate Linear Variance Reduction} (\textsc{clvr}, 発音「clever''」) という名前を与える。 \textsc{clvr} は暗黙の分散還元を持つ増分座標法であり、双対変数反復の \emph{affine combination} を出力する。 \textsc{clvr} はスペクトルノルムではなく、線形制約行列(GLP)の最大行ノルムに依存する(GLP)に対して、より複雑な結果をもたらす。 正規化項と制約が分離可能であるとき、 \textsc{clvr} は、その複雑性を行列次元ではなく (GLP) における線形制約行列の 0 個の非零要素の数に制限する効率的な遅延更新戦略を認める。 分散ロバスト最適化(DRO)問題と,$f$-divergence と Wasserstein の両測度に基づいて,疎結合な共役変数を導入することで,(GLP) として再構成可能であることを示す。 理論的保証は、ウォールクロック時間とデータパス数の両方において、アルゴリズムの実用性を検証する数値実験で補う。

We study a class of generalized linear programs (GLP) in a large-scale setting, which includes possibly simple nonsmooth convex regularizer and simple convex set constraints. By reformulating GLP as an equivalent convex-concave min-max problem, we show that the linear structure in the problem can be used to design an efficient, scalable first-order algorithm, to which we give the name \emph{Coordinate Linear Variance Reduction} (\textsc{clvr}; pronounced ``clever''). \textsc{clvr} is an incremental coordinate method with implicit variance reduction that outputs an \emph{affine combination} of the dual variable iterates. \textsc{clvr} yields improved complexity results for (GLP) that depend on the max row norm of the linear constraint matrix in (GLP) rather than the spectral norm. When the regularization terms and constraints are separable, \textsc{clvr} admits an efficient lazy update strategy that makes its complexity bounds scale with the number of nonzero elements of the linear constraint matrix in (GLP) rather than the matrix dimensions. We show that Distributionally Robust Optimization (DRO) problems with ambiguity sets based on both $f$-divergence and Wasserstein metrics can be reformulated as (GLPs) by introducing sparsely connected auxiliary variables. We complement our theoretical guarantees with numerical experiments that verify our algorithm's practical effectiveness, both in terms of wall-clock time and number of data passes.
翻訳日:2021-11-04 14:05:15 公開日:2021-11-02
# Basis Matters: フェデレーション学習のためのコミュニケーション効率の良い2次手法

Basis Matters: Better Communication-Effici ent Second Order Methods for Federated Learning ( http://arxiv.org/abs/2111.01847v1 )

ライセンス: Link先を確認
Xun Qian and Rustem Islamov and Mher Safaryan and Peter Richt\'arik(参考訳) 分散最適化の最近の進歩は、適切な通信圧縮機構を持つニュートン型手法は、一階法に比べて高速な局所レートと低い通信コストを保証できることを示している。 これらの手法の通信コストは、驚くほど単純なトリックでさらに削減され、時には劇的に削減できることが判明した: {\em basis learn (bl)}。 その考え方は、行列空間における基底の変化を通じて局所ヘッセンの通常の表現を変換し、新しい表現に圧縮ツールを適用することである。 カスタムベースを使用する可能性を示すため,新しいNewton-type Method (BL1) を設計した。 さらに,federated learningアプリケーションに対応するために,部分参加のための2つの代替拡張(bl2とbl3)を提案する。 条件数に依存しない局所線形および超線形率を示す。 最後に,いくつかの第1および第2次--メソッドを比較することで,数値実験による主張を裏付ける。

Recent advances in distributed optimization have shown that Newton-type methods with proper communication compression mechanisms can guarantee fast local rates and low communication cost compared to first order methods. We discover that the communication cost of these methods can be further reduced, sometimes dramatically so, with a surprisingly simple trick: {\em Basis Learn (BL)}. The idea is to transform the usual representation of the local Hessians via a change of basis in the space of matrices and apply compression tools to the new representation. To demonstrate the potential of using custom bases, we design a new Newton-type method (BL1), which reduces communication cost via both {\em BL} technique and bidirectional compression mechanism. Furthermore, we present two alternative extensions (BL2 and BL3) to partial participation to accommodate federated learning applications. We prove local linear and superlinear rates independent of the condition number. Finally, we support our claims with numerical experiments by comparing several first and second~order~methods .
翻訳日:2021-11-04 14:03:37 公開日:2021-11-02
# MIMOレーダを用いた活動認識のためのメトリック学習手法

A MIMO Radar-Based Metric Learning Approach for Activity Recognition ( http://arxiv.org/abs/2111.01939v1 )

ライセンス: Link先を確認
Fady Aziz, Omar Metwally, Pascal Weller, Urs Schneider, Marco F. Huber(参考訳) 人的活動認識は医療・監視の分野で非常に重要である。 radarは、捕獲されたマイクロドップラー({\mu}-d)シグネチャに基づいて、この分野において大きな可能性を示している。 本稿では,非タンジェンシャルシナリオにおける角速度 ({\mu}-{\omega}) に対する新しいマイクロモーションスペクトログラムを作成するために,mimoレーダを用いた。 {\mu}-D と {\mu}-{\omega} のシグネチャを組み合わせることでパフォーマンスが向上した。 メートル法学習による分類精度は88.9%であった。 実験装置は、異なるアスペクト角と視線(LOS)のマイクロモーションシグネチャをキャプチャするために設計された。 活用したトレーニングデータセットは,8つのアクティビティをキャプチャした最先端技術に比べて小さかった。 フォール検出に事前トレーニングされたモデルを適用するために,少数の学習アプローチが使用されている。 最終モデルは10のアクティビティに対して86.42%の分類精度を示した。

Human activity recognition is seen of great importance in the medical and surveillance fields. Radar has shown great feasibility for this field based on the captured micro-Doppler ({\mu}-D) signatures. In this paper, a MIMO radar is used to formulate a novel micro-motion spectrogram for the angular velocity ({\mu}-{\omega}) in non-tangential scenarios. Combining both the {\mu}-D and the {\mu}-{\omega} signatures have shown better performance. Classification accuracy of 88.9% was achieved based on a metric learning approach. The experimental setup was designed to capture micro-motion signatures on different aspect angles and line of sight (LOS). The utilized training dataset was of smaller size compared to the state-of-the-art techniques, where eight activities were captured. A few-shot learning approach is used to adapt the pre-trained model for fall detection. The final model has shown a classification accuracy of 86.42% for ten activities.
翻訳日:2021-11-04 14:02:57 公開日:2021-11-02
# シングル画像からの多人数再建における体の大きさと深さの曖昧さ

Body Size and Depth Disambiguation in Multi-Person Reconstruction from Single Images ( http://arxiv.org/abs/2111.01884v1 )

ライセンス: Link先を確認
Nicolas Ugrinovic, Adria Ruiz, Antonio Agudo, Alberto Sanfeliu, Francesc Moreno-Noguer(参考訳) 複数人物の身体ポーズと1枚の画像からの形状推定の問題に対処する。 この問題は、同一場面に複数の人物アプローチを適用することで解決できるが、近年の研究では、シーン内のすべての人々を、例えば、深さの順序の制約や再構成された物体間の間隙を最小化するなど、全体論的に推論する、深いアーキテクチャの上に構築する利点が示されている。 しかし、既存のアプローチでは、身体の規模や深さのあいまいさによって引き起こされる人々のサイズの変動を捉えることはできない。 本研究では,この課題に対処するために,すべての人の足が1階に残るように強制することで,適切な身体規模と相対カメラのポーズを学習する新しい最適化手法を考案する。 MuPoTS-3Dと3DPWデータセットの徹底的な評価は、我々のアプローチが空間的配置を取得しながら、複数の人の身体翻訳と形状を頑健に推定できることを示す。

We address the problem of multi-person 3D body pose and shape estimation from a single image. While this problem can be addressed by applying single-person approaches multiple times for the same scene, recent works have shown the advantages of building upon deep architectures that simultaneously reason about all people in the scene in a holistic manner by enforcing, e.g., depth order constraints or minimizing interpenetration among reconstructed bodies. However, existing approaches are still unable to capture the size variability of people caused by the inherent body scale and depth ambiguity. In this work, we tackle this challenge by devising a novel optimization scheme that learns the appropriate body scale and relative camera pose, by enforcing the feet of all people to remain on the ground floor. A thorough evaluation on MuPoTS-3D and 3DPW datasets demonstrates that our approach is able to robustly estimate the body translation and shape of multiple people while retrieving their spatial arrangement, consistently improving current state-of-the-art, especially in scenes with people of very different heights
翻訳日:2021-11-04 13:49:32 公開日:2021-11-02
# 品質関連特徴に基づく高性能指紋活度検出法

A high performance fingerprint liveness detection method based on quality related features ( http://arxiv.org/abs/2111.01898v1 )

ライセンス: Link先を確認
Javier Galbally, Fernando Alonso-Fernandez, Julian Fierrez, Javier Ortega-Garcia(参考訳) 品質関連特徴に基づく新しい指紋パラメータ化を用いた, ソフトウェアによるライブネス検出手法を提案する。 システムは、異なる技術の5つのセンサーで取得された10,500以上の実画像と偽画像からなる非常に困難なデータベース上でテストされ、材料や手順の観点から幅広い直接攻撃シナリオをカバーする。 提案手法はマルチシナリオデータセットに対して堅牢であることが証明され、全体の90%が正しく分類されたサンプルである。 さらに、本手法は、従来研究した1つの画像のみを、実物か偽物かを決定するために指から1枚だけ必要とするという手法よりも、さらに有利である。 この最後の特性は、侵入性が低く、ユーザフレンドリーで、より速く、実装コストが削減されるため、非常に価値のある機能を提供します。

A new software-based liveness detection approach using a novel fingerprint parameterization based on quality related features is proposed. The system is tested on a highly challenging database comprising over 10,500 real and fake images acquired with five sensors of different technologies and covering a wide range of direct attack scenarios in terms of materials and procedures followed to generate the gummy fingers. The proposed solution proves to be robust to the multi-scenario dataset, and presents an overall rate of 90% correctly classified samples. Furthermore, the liveness detection method presented has the added advantage over previously studied techniques of needing just one image from a finger to decide whether it is real or fake. This last characteristic provides the method with very valuable features as it makes it less intrusive, more user friendly, faster and reduces its implementation costs.
翻訳日:2021-11-04 13:49:10 公開日:2021-11-02
# 強化されたインテリジェンスによるサプライチェーンリンクの発見

Discovering Supply Chain Links with Augmented Intelligence ( http://arxiv.org/abs/2111.01878v1 )

ライセンス: Link先を確認
Achintya Gopal, Chunho Chang(参考訳) 企業のリスクを分析する上で重要な要素のひとつは、企業のサプライチェーンを理解することだ。 サプライチェーンは、関税、パンデミック、厳しい天候などによって常に混乱している。 本稿では,グラフニューラルネットワーク(gnns)を利用する企業の既知サプライヤと顧客を予測し,モデル予測とサプライチェーンアナリストのドメイン専門知識を組み合わせることにより,既知のコネクションの発見において強力な性能を示す。

One of the key components in analyzing the risk of a company is understanding a company's supply chain. Supply chains are constantly disrupted, whether by tariffs, pandemics, severe weather, etc. In this paper, we tackle the problem of predicting previously unknown suppliers and customers of companies using graph neural networks (GNNs) and show strong performance in finding previously unknown connections by combining the predictions of our model and the domain expertise of supply chain analysts.
翻訳日:2021-11-04 13:44:49 公開日:2021-11-02
# データから空港の乗客接続を予測・説明するための意思決定支援モデル

Decision Support Models for Predicting and Explaining Airport Passenger Connectivity from Data ( http://arxiv.org/abs/2111.01915v1 )

ライセンス: Link先を確認
Marta Guimaraes, Claudia Soares, Rodrigo Ventura(参考訳) 接続便の乗客が接続を失うかどうかを予測することは、航空会社の利益率にとって最優先事項である。 本稿では,接続飛行管理の異なる段階,すなわち戦略的,戦術的,戦術的,事後的といった新しい機械学習に基づく意思決定支援モデルを提案する。 航空会社のハブ空港におけるフライト・コネクションの欠落をフライト・乗客の履歴データを用いて予測し,決定の地平線毎の予測結果に寄与する要因を分析した。 我々のデータは高次元、不均一、不均衡、騒音であり、乗客の到着・出発・出発時刻を知らせない。 我々は,カテゴリクラスの確率的エンコーディング,ガウス混合モデルによるデータバランス,ブースティングを用いる。 すべての計画地平線について、我々のモデルは 0.93 以上の roc の auc を得る。 本モデルのSHAP値説明は, スケジュール/知覚された接続時間が最も予測に寄与し, 続いて乗客年齢, 境界制御が必要か否かを示唆している。

Predicting if passengers in a connecting flight will lose their connection is paramount for airline profitability. We present novel machine learning-based decision support models for the different stages of connection flight management, namely for strategic, pre-tactical, tactical and post-operations. We predict missed flight connections in an airline's hub airport using historical data on flights and passengers, and analyse the factors that contribute additively to the predicted outcome for each decision horizon. Our data is high-dimensional, heterogeneous, imbalanced and noisy, and does not inform about passenger arrival/departure transit time. We employ probabilistic encoding of categorical classes, data balancing with Gaussian Mixture Models, and boosting. For all planning horizons, our models attain an AUC of the ROC higher than 0.93. SHAP value explanations of our models indicate that scheduled/perceived connection times contribute the most to the prediction, followed by passenger age and whether border controls are required.
翻訳日:2021-11-04 13:44:41 公開日:2021-11-02
# グラフ上のマルチレゾリューション行列分解とそのウェーブレットネットワークの学習

Learning Multiresolution Matrix Factorization and its Wavelet Networks on Graphs ( http://arxiv.org/abs/2111.01940v1 )

ライセンス: Link先を確認
Truong Son Hy and Risi Kondor(参考訳) 多分解能行列因数分解(MMF)は、低ランクの仮定をしない高速行列因数分解アルゴリズムの中でも珍しい。 これによってmmfは、複雑なマルチスケールまたは階層的なストルカットルを持つ特定の種類のグラフのモデル化に特に適している。 MMFは有用なウェーブレット基底を生成することを約束するが、分解そのものを見つけることは困難であり、既存のグリード法は脆弱である。 本稿では,バックプロパゲーションエラーによる強化学習とスティフェル多様体最適化を組み合わせることで,因子化を巧みに最適化するmmfの学習可能なバージョンを提案する。 得られたウェーブレット基底は、従来のMMFアルゴリズムよりも優れており、標準学習タスクに頑健に展開できるこのタイプの分解の最初のバージョンを提供する。

Multiresolution Matrix Factorization (MMF) is unusual amongst fast matrix factorization algorithms in that it does not make a low rank assumption. This makes MMF especially well suited to modeling certain types of graphs with complex multiscale or hierarchical strucutre. While MMF promises to yields a useful wavelet basis, finding the factorization itself is hard, and existing greedy methods tend to be brittle. In this paper we propose a learnable version of MMF that carfully optimizes the factorization with a combination of reinforcement learning and Stiefel manifold optimization through backpropagating errors. We show that the resulting wavelet basis far outperforms prior MMF algorithms and provides the first version of this type of factorization that can be robustly deployed on standard learning tasks.
翻訳日:2021-11-04 13:44:24 公開日:2021-11-02
# ロバスト動的バス制御:分散マルチエージェント強化学習アプローチ

Robust Dynamic Bus Control: A Distributional Multi-agent Reinforcement Learning Approach ( http://arxiv.org/abs/2111.01946v1 )

ライセンス: Link先を確認
Jiawei Wang, Lijun Sun(参考訳) バスシステムは持続可能な都市交通の重要な要素である。 しかし、バス車両の運用は本質的に不安定であり、バス輸送はバスシステムの効率と信頼性を損なう一般的な現象となっている。 近年,マルチエージェント強化学習(MARL)による効率的な車両保持制御を実現し,バスの群れ回避を図っている。 しかしながら、既存の研究では、トランジットシステムにおけるさまざまなイベント、摂動、異常に起因する堅牢性の問題を見落としている。 本研究では,暗黙の質的ネットワークとメタラーニングを統合し,分布型marlフレームワーク iqnc-m を開発し,連続制御を学習する。 提案するiqnc-mフレームワークは、リアルタイムトランジット操作における様々な不確実性/事象の処理を改善することにより、効率的で信頼性の高い制御決定を実現する。 具体的には,グローバル情報を分散marlフレームワークに組み込むための解釈可能なメタラーニングモジュールを提案する。 さらに,フレームワーク内の各エージェントを訓練し,堅牢な制御ポリシーを追求する,特定の学習手順を設計する。 実世界のバスサービスと乗客需要データに基づくシミュレーション環境を構築し、従来の保持制御モデルと最先端のmarlモデルの両方に対して提案手法を評価する。 提案するIQNC-Mフレームワークは,交通状態の摂動,サービス中断,需要急増といった極端な事象を効果的に処理し,システムの効率性と信頼性を向上できることを示す。

Bus system is a critical component of sustainable urban transportation. However, the operation of a bus fleet is unstable in nature, and bus bunching has become a common phenomenon that undermines the efficiency and reliability of bus systems. Recently research has demonstrated the promising application of multi-agent reinforcement learning (MARL) to achieve efficient vehicle holding control to avoid bus bunching. However, existing studies essentially overlook the robustness issue resulting from various events, perturbations and anomalies in a transit system, which is of utmost importance when transferring the models for real-world deployment/applicati on. In this study, we integrate implicit quantile network and meta-learning to develop a distributional MARL framework -- IQNC-M -- to learn continuous control. The proposed IQNC-M framework achieves efficient and reliable control decisions through better handling various uncertainties/events in real-time transit operations. Specifically, we introduce an interpretable meta-learning module to incorporate global information into the distributional MARL framework, which is an effective solution to circumvent the credit assignment issue in the transit system. In addition, we design a specific learning procedure to train each agent within the framework to pursue a robust control policy. We develop simulation environments based on real-world bus services and passenger demand data and evaluate the proposed framework against both traditional holding control models and state-of-the-art MARL models. Our results show that the proposed IQNC-M framework can effectively handle the various extreme events, such as traffic state perturbations, service interruptions, and demand surges, thus improving both efficiency and reliability of the system.
翻訳日:2021-11-04 13:44:12 公開日:2021-11-02
# 再帰ベイズネットワーク:確率的文脈自由文法と動的ベイズネットワークの一般化と統一

Recursive Bayesian Networks: Generalising and Unifying Probabilistic Context-Free Grammars and Dynamic Bayesian Networks ( http://arxiv.org/abs/2111.01853v1 )

ライセンス: Link先を確認
Robert Lieck, Martin Rohrmeier(参考訳) 確率的文脈自由文法 (PCFGs) と動的ベイズネットワーク (DBNs) は相補的な強みと制約を持つシーケンスモデルとして広く使われている。 PCFGはネストした階層的依存関係(ツリー構造)を許容するが、潜伏変数(非終端記号)は離散的である必要がある。 対照的にDBNは連続的な潜伏変数を許容するが、依存関係は厳密なシーケンシャル(チェーン構造)である。 したがって、潜在変数が連続であり、ネストした階層的依存関係構造を持つと仮定すると、どちらも適用できない。 本稿では,PCFGとDBNを一般化・統合するRecursive Bayesian Networks(RBNs)について述べる。 RBNは、離散変数あるいは連続変数を持つ木構造ベイズネットワーク上の合同分布を定義する。 主な課題は、可能な構造と連続変数の指数的数に対する共同推論を行うことである。 解決策は2つあります 1) 任意の RBN に対して,PCFG から混合離散連続体への内部および外部確率を一般化する。 2)ガウス RBN に対して解析近似を導出し,ロバストパラメータ最適化とベイズ推定を可能にする。 RBNのキャパシティと多種多様な応用を2つの例に示す。 合成データを用いた定量的評価では, 変化点検出や階層的クラスタリングと比較して, ノイズ列からの分節化と木誘導に対するRBNの利点を実証し, 議論する。 音楽データへの応用として,原音レベルから階層音楽解析の未解決問題にアプローチし,その結果を専門家のアノテーションと比較する。

Probabilistic context-free grammars (PCFGs) and dynamic Bayesian networks (DBNs) are widely used sequence models with complementary strengths and limitations. While PCFGs allow for nested hierarchical dependencies (tree structures), their latent variables (non-terminal symbols) have to be discrete. In contrast, DBNs allow for continuous latent variables, but the dependencies are strictly sequential (chain structure). Therefore, neither can be applied if the latent variables are assumed to be continuous and also to have a nested hierarchical dependency structure. In this paper, we present Recursive Bayesian Networks (RBNs), which generalise and unify PCFGs and DBNs, combining their strengths and containing both as special cases. RBNs define a joint distribution over tree-structured Bayesian networks with discrete or continuous latent variables. The main challenge lies in performing joint inference over the exponential number of possible structures and the continuous variables. We provide two solutions: 1) For arbitrary RBNs, we generalise inside and outside probabilities from PCFGs to the mixed discrete-continuous case, which allows for maximum posterior estimates of the continuous latent variables via gradient descent, while marginalising over network structures. 2) For Gaussian RBNs, we additionally derive an analytic approximation, allowing for robust parameter optimisation and Bayesian inference. The capacity and diverse applications of RBNs are illustrated on two examples: In a quantitative evaluation on synthetic data, we demonstrate and discuss the advantage of RBNs for segmentation and tree induction from noisy sequences, compared to change point detection and hierarchical clustering. In an application to musical data, we approach the unsolved problem of hierarchical music analysis from the raw note level and compare our results to expert annotations.
翻訳日:2021-11-04 13:14:39 公開日:2021-11-02
# 学習行動空間におけるスパース報酬の発見と活用

Discovering and Exploiting Sparse Rewards in a Learned Behavior Space ( http://arxiv.org/abs/2111.01919v1 )

ライセンス: Link先を確認
Giuseppe Paolo, Alexandre Coninx, Alban Laflaqui\`ere, and Stephane Doncieux(参考訳) スパース報酬設定での最適ポリシーの学習は、学習エージェントがそのアクションの品質に対するフィードバックがほとんどないため、難しい。 これらの状況において、良い戦略は探索に集中することであり、改善のための報酬信号の発見につながることを願っている。 この種の設定を扱うことができる学習アルゴリズムは、(1)エージェントの振る舞いを探索し、(2)発見可能な報酬を活用できる必要がある。 効率的な探索アルゴリズムが提案され、行動空間を定義し、エージェントに関連付け、その結果として生じる振る舞いを探索する価値のある空間に関連付ける。 この空間を定義する必要性は、これらのアルゴリズムの制限である。 本研究では,与えられた報酬を効率的に最適化しつつ,行動空間を学習し,探索するアルゴリズムであるSTAXを紹介する。 それは、行動空間の探索と学習を、報酬の搾取から交互に2段階のプロセスを通して切り離すことによって行われる。 最初のステップでは、STAXは、ポリシー評価中に発生する高次元観測の低次元表現を学習しながら、多様なポリシーのレパートリーを構築する。 搾取ステップでは、エミッタを使用して、検出された報酬ソリューションのパフォーマンスを最適化する。 3つの異なるスパース報酬環境で行われた実験により、STAXは既存のベースラインと相容れない性能を示し、自律的に行動空間を構築する際に、タスクに関する事前情報を要求する。

Learning optimal policies in sparse rewards settings is difficult as the learning agent has little to no feedback on the quality of its actions. In these situations, a good strategy is to focus on exploration, hopefully leading to the discovery of a reward signal to improve on. A learning algorithm capable of dealing with this kind of settings has to be able to (1) explore possible agent behaviors and (2) exploit any possible discovered reward. Efficient exploration algorithms have been proposed that require to define a behavior space, that associates to an agent its resulting behavior in a space that is known to be worth exploring. The need to define this space is a limitation of these algorithms. In this work, we introduce STAX, an algorithm designed to learn a behavior space on-the-fly and to explore it while efficiently optimizing any reward discovered. It does so by separating the exploration and learning of the behavior space from the exploitation of the reward through an alternating two-steps process. In the first step, STAX builds a repertoire of diverse policies while learning a low-dimensional representation of the high-dimensional observations generated during the policies evaluation. In the exploitation step, emitters are used to optimize the performance of the discovered rewarding solutions. Experiments conducted on three different sparse reward environments show that STAX performs comparably to existing baselines while requiring much less prior information about the task as it autonomously builds the behavior space.
翻訳日:2021-11-04 13:14:08 公開日:2021-11-02
# TGANを用いた腫瘍マスクを用いた3次元PET画像生成

3-D PET Image Generation with tumour masks using TGAN ( http://arxiv.org/abs/2111.01866v1 )

ライセンス: Link先を確認
Robert V Bergen, Jean-Francois Rajotte, Fereshteh Yousefirizi, Ivan S Klyuzhin, Arman Rahmim, Raymond T. Ng(参考訳) 疾患診断や画像分割のための医用画像に対するコンピュータビジョン関連アルゴリズムの訓練は、トレーニングデータ、ラベル付きサンプル、プライバシー上の懸念のために困難である。 このため, 合成データを生成するための頑健な生成手法が求められている。 しかし、ほとんどの3次元画像生成装置は追加のイメージ入力を必要とするか、非常にメモリ集約的である。 この問題に対処するため,我々は3次元画像生成に適応した映像生成手法を提案する。 時間的GAN(TGAN)アーキテクチャを用いて,頭部と頸部のPET画像を生成することができることを示す。 また, 腫瘍マスクにジェネレータを固定することにより, 発生画像中の腫瘍の形状や位置を制御できることも示している。 合成画像の有用性をテストするために,合成画像を用いたセグメンテーションモデルを訓練する。 実際の腫瘍マスクに条件付き合成画像を自動的に分割し、対応する実画像も分割する。 diceスコアを用いてセグメンテーションを評価し、セグメンテーションアルゴリズムが両方のデータセット(0.65合成データ、0.70実データ)で同じように動作するのを見つける。 その後、各データセットの区切られた腫瘍体積に対して様々な放射能特性が計算される。 実特徴分布と合成特徴分布を比較すると、8つの特徴分布のうち7つは統計的に有意差(p>0.05。 また,すべての放射能特性の相関係数を算出し,実データ集合における強い統計的相関関係が合成データセットに保存されていることを示した。

Training computer-vision related algorithms on medical images for disease diagnosis or image segmentation is difficult due to the lack of training data, labeled samples, and privacy concerns. For this reason, a robust generative method to create synthetic data is highly sought after. However, most three-dimensional image generators require additional image input or are extremely memory intensive. To address these issues we propose adapting video generation techniques for 3-D image generation. Using the temporal GAN (TGAN) architecture, we show we are able to generate realistic head and neck PET images. We also show that by conditioning the generator on tumour masks, we are able to control the geometry and location of the tumour in the generated images. To test the utility of the synthetic images, we train a segmentation model using the synthetic images. Synthetic images conditioned on real tumour masks are automatically segmented, and the corresponding real images are also segmented. We evaluate the segmentations using the Dice score and find the segmentation algorithm performs similarly on both datasets (0.65 synthetic data, 0.70 real data). Various radionomic features are then calculated over the segmented tumour volumes for each data set. A comparison of the real and synthetic feature distributions show that seven of eight feature distributions had statistically insignificant differences (p>0.05). Correlation coefficients were also calculated between all radionomic features and it is shown that all of the strong statistical correlations in the real data set are preserved in the synthetic data set.
翻訳日:2021-11-04 13:13:28 公開日:2021-11-02
# Batch Prioritized Experience ReplayによるDeep Deterministic Policy Gradient Algorithmのオフポリティ補正

Off-Policy Correction for Deep Deterministic Policy Gradient Algorithms via Batch Prioritized Experience Replay ( http://arxiv.org/abs/2111.01865v1 )

ライセンス: Link先を確認
Dogan C. Cicek, Enes Duran, Baturay Saglam, Furkan B. Mutlu, Suleyman S. Kozat(参考訳) experience replayメカニズムにより、エージェントは複数の体験を使うことができる。 先行研究では,遷移のサンプリング確率は,その重要性に応じて調整された。 繰り返し後のリプレイバッファの遷移毎にサンプリング確率を再割り当てすることは、非常に非効率である。 したがって、経験リプレイ優先順位付けアルゴリズムは、対応する遷移をサンプリングして計算効率を得る場合の遷移の意義を再計算する。 しかし、ポリシーとエージェントの価値関数が更新されると、遷移の重要性レベルは動的に変化する。 さらに、経験リプレイストアでは、エージェントの最新のポリシーから著しく逸脱する可能性があるエージェントの以前のポリシーによって遷移が生成される。 エージェントの最近のポリシーからの逸脱は、エージェントにとって有害な、よりオフ・ポリティカルなアップデートにつながる。 本稿では,各遷移を直接優先するのではなく,遷移のバッチを優先するkl divergence (klper) による経験リプレイをバッチ優先化する新しいアルゴリズムを開発した。 さらに,更新のオフポリシー性を低減するために,特定のバッチのうち1つのバッチを選択し,エージェントの最新のポリシーが生成する可能性のあるバッチを通じてエージェントに学習を強いるアルゴリズムを提案する。 我々は,このアルゴリズムをDeep Deterministic Policy GradientとTwin Delayed Deep Deterministic Policy Gradientと組み合わせ,様々な連続制御タスクで評価する。 KLPERは、サンプル効率、最終的なパフォーマンス、トレーニング中のポリシーの安定性の観点から、深い決定論的連続制御アルゴリズムに有望な改善を提供する。

The experience replay mechanism allows agents to use the experiences multiple times. In prior works, the sampling probability of the transitions was adjusted according to their importance. Reassigning sampling probabilities for every transition in the replay buffer after each iteration is highly inefficient. Therefore, experience replay prioritization algorithms recalculate the significance of a transition when the corresponding transition is sampled to gain computational efficiency. However, the importance level of the transitions changes dynamically as the policy and the value function of the agent are updated. In addition, experience replay stores the transitions are generated by the previous policies of the agent that may significantly deviate from the most recent policy of the agent. Higher deviation from the most recent policy of the agent leads to more off-policy updates, which is detrimental for the agent. In this paper, we develop a novel algorithm, Batch Prioritizing Experience Replay via KL Divergence (KLPER), which prioritizes batch of transitions rather than directly prioritizing each transition. Moreover, to reduce the off-policyness of the updates, our algorithm selects one batch among a certain number of batches and forces the agent to learn through the batch that is most likely generated by the most recent policy of the agent. We combine our algorithm with Deep Deterministic Policy Gradient and Twin Delayed Deep Deterministic Policy Gradient and evaluate it on various continuous control tasks. KLPER provides promising improvements for deep deterministic continuous control algorithms in terms of sample efficiency, final performance, and stability of the policy during the training.
翻訳日:2021-11-04 12:46:10 公開日:2021-11-02
# 浅層ニューラルネットワークのサブクアドラティックオーバーパラメータ化

Subquadratic Overparameterization for Shallow Neural Networks ( http://arxiv.org/abs/2111.01875v1 )

ライセンス: Link先を確認
Chaehwan Song, Ali Ramezani-Kebrya, Thomas Pethick, Armin Eftekhari, Volkan Cevher(参考訳) オーバーパラメータ化(Overparameterizatio n)とは、ニューラルネットワークの幅が選択され、学習アルゴリズムが非凸トレーニングにおいて確実に損失をゼロにする重要な現象である。 既存の理論は、様々な初期化戦略、トレーニング修正、幅スケーリングを用いて、そのような大域的な収束を確立する。 特に、最先端の結果は、実際に最高の一般化性能のために使用される標準的な初期化戦略の下でのトレーニングデータ数と2次スケールの幅を必要とする。 対照的に、最近の結果は、"遅延トレーニング"につながる初期化を必要とするか、単一のレイヤのみをトレーニングすることによって、線形スケーリングが得られる。 本研究では,標準的な初期化戦略を採用し,遅延トレーニングを回避し,基本的浅層ニューラルネットワークですべてのレイヤを同時にトレーニングし,ネットワーク幅で望ましいサブクアッドラティックスケーリングを実現するための分析フレームワークを提供する。 我々は、Polyak-Lojasiewicz条件、滑らかさ、およびデータ上の標準仮定を介してdeiderataを実現し、ランダム行列理論のツールを使用する。

Overparameterization refers to the important phenomenon where the width of a neural network is chosen such that learning algorithms can provably attain zero loss in nonconvex training. The existing theory establishes such global convergence using various initialization strategies, training modifications, and width scalings. In particular, the state-of-the-art results require the width to scale quadratically with the number of training data under standard initialization strategies used in practice for best generalization performance. In contrast, the most recent results obtain linear scaling either with requiring initializations that lead to the "lazy-training", or training only a single layer. In this work, we provide an analytical framework that allows us to adopt standard initialization strategies, possibly avoid lazy training, and train all layers simultaneously in basic shallow neural networks while attaining a desirable subquadratic scaling on the network width. We achieve the desiderata via Polyak-Lojasiewicz condition, smoothness, and standard assumptions on data, and use tools from random matrix theory.
翻訳日:2021-11-04 12:42:10 公開日:2021-11-02
# (参考訳) gtfs2vec -- マイクロリージョンにおける公共交通提供の比較のためのGTFS埋め込みの学習 [全文訳有]

gtfs2vec -- Learning GTFS Embeddings for comparing Public Transport Offer in Microregions ( http://arxiv.org/abs/2111.00960v2 )

ライセンス: CC BY-SA 4.0
Piotr Gramacki, Szymon Wo\'zniak, Piotr Szyma\'nski(参考訳) 欧州48都市を選定し,公共交通機関の時刻表をgtfs形式で収集した。 UberのH3空間指数を用いて、各都市を六角形に分割した。 時刻表データに基づいて、各地域における公共交通機関の可用性の量と多様性を記述する特定の機能を作成しました。 次に、各領域を埋め込むための自己連想型ディープニューラルネットワークを訓練した。 このような表現を準備した上で,階層的クラスタリングアプローチを用いて類似領域を識別した。 そこで我々は,領域間のユークリッド距離を持つ凝集クラスタリングアルゴリズムとウォード法を用いてクラスタ内分散を最小化した。 最後に、得られたクラスタを異なるレベルで分析し、公共交通機関の可用性を質的に記述するいくつかのクラスタを特定した。 本研究は, 分析都市の特徴と一致し, 公共交通機関のスケジュール特性に類似した地域を検索できることを示した。

We selected 48 European cities and gathered their public transport timetables in the GTFS format. We utilized Uber's H3 spatial index to divide each city into hexagonal micro-regions. Based on the timetables data we created certain features describing the quantity and variety of public transport availability in each region. Next, we trained an auto-associative deep neural network to embed each of the regions. Having such prepared representations, we then used a hierarchical clustering approach to identify similar regions. To do so, we utilized an agglomerative clustering algorithm with a euclidean distance between regions and Ward's method to minimize in-cluster variance. Finally, we analyzed the obtained clusters at different levels to identify some number of clusters that qualitatively describe public transport availability. We showed that our typology matches the characteristics of analyzed cities and allows succesful searching for areas with similar public transport schedule characteristics.
翻訳日:2021-11-04 11:28:45 公開日:2021-11-02
# (参考訳) 新しい特徴的ヒト外観データセットを用いた人間および機械の顔検出の評価 [全文訳有]

Evaluation of Human and Machine Face Detection using a Novel Distinctive Human Appearance Dataset ( http://arxiv.org/abs/2111.00660v2 )

ライセンス: CC BY 4.0
Necdet Gurkan and Jordan W. Suchow(参考訳) 顔検出はコンピュータビジョンの分野で長年の課題であり、究極の目標は、制約のない環境で人間の顔を正確にローカライズすることである。 これらのシステムには、ポーズ、画像の解像度、照明、閉塞、視点に関連する要因が混在しているため、重要な技術的ハードルがある [44]。 しかし、最近の機械学習の発展に伴い、顔検出システムは異常な精度を達成し、主にデータ駆動ディープラーニングモデル [70] に基づいている。 奨励的ではあるが、配備システムの顔検出性能と社会的責任を制限する重要な側面は、人間の外見に固有の多様性である。 あらゆる人間の外観は、その遺産、アイデンティティ、経験、自己表現の目に見える表現など、個人に特有の何かを反映している。 しかし, 顔の大きさや形状, 肌の色, 体調, 身体の装飾などの違いに直面すると, 顔検出システムの性能に疑問がある。 この目的に向けて,表情を低頻度で表現し,顔のデータセットでアンサンプリングされる傾向の強い特徴的人間出現データセットを収集した。 そして,これらの画像中の顔を検出する能力について,最先端の顔検出モデルの評価を行った。 評価結果は,顔検出アルゴリズムがこれらの多様な外観によく適応していないことを示す。 現在の顔検出モデルの評価と特徴付けは、より公平で正確な顔検出システムの構築に向けた研究と開発を加速する。

Face detection is a long-standing challenge in the field of computer vision, with the ultimate goal being to accurately localize human faces in an unconstrained environment. There are significant technical hurdles in making these systems accurate due to confounding factors related to pose, image resolution, illumination, occlusion, and viewpoint [44]. That being said, with recent developments in machine learning, face-detection systems have achieved extraordinary accuracy, largely built on data-driven deep-learning models [70]. Though encouraging, a critical aspect that limits face-detection performance and social responsibility of deployed systems is the inherent diversity of human appearance. Every human appearance reflects something unique about a person, including their heritage, identity, experiences, and visible manifestations of self-expression. However, there are questions about how well face-detection systems perform when faced with varying face size and shape, skin color, body modification, and body ornamentation. Towards this goal, we collected the Distinctive Human Appearance dataset, an image set that represents appearances with low frequency and that tend to be undersampled in face datasets. Then, we evaluated current state-of-the-art face-detection models in their ability to detect faces in these images. The evaluation results show that face-detection algorithms do not generalize well to these diverse appearances. Evaluating and characterizing the state of current face-detection models will accelerate research and development towards creating fairer and more accurate face-detection systems.
翻訳日:2021-11-04 02:57:09 公開日:2021-11-02
# (参考訳) 特徴豊かさを有する蒸留物体検出器 [全文訳有]

Distilling Object Detectors with Feature Richness ( http://arxiv.org/abs/2111.00674v2 )

ライセンス: CC BY 4.0
Zhixing Du, Rui Zhang, Ming Chang, Xishan Zhang, Shaoli Liu, Tianshi Chen, Yunji Chen(参考訳) 近年、大規模深層モデルが大きな成功を収めているが、計算の複雑さと巨大なストレージ要件により、リソース制限のあるデバイスにデプロイすることが大きな課題となっている。 モデル圧縮・加速法として、知識蒸留は教師検出器から暗黒知識を伝達することにより、小型モデルの性能を効果的に向上させる。 しかし、既存の蒸留法に基づく検出法のほとんどは、主に2つの制限がある境界ボックス付近の特徴を模倣している。 まず、バウンディングボックスの外にある有益な機能を無視する。 第二に、これらの手法は教師検出器によって背景と見なされるいくつかの特徴を模倣する。 以上の課題に対処するため,蒸留時の一般化検出性を向上する重要な特徴を選択するために,FRS(Feature-Richnes s Score)法を提案する。 提案手法は,境界ボックスの外にある重要な特徴を効果的に検索し,境界ボックス内の有害な特徴を取り除く。 本手法は,アンカーベース,アンカーフリー両検出器において優れた性能を示す。 例えば、resnet-50のretinanetはcoco2017データセットのマップで39.7%に達し、resnet-101ベースの教師検出器38.9%を0.8%上回っている。

In recent years, large-scale deep models have achieved great success, but the huge computational complexity and massive storage requirements make it a great challenge to deploy them in resource-limited devices. As a model compression and acceleration method, knowledge distillation effectively improves the performance of small models by transferring the dark knowledge from the teacher detector. However, most of the existing distillation-based detection methods mainly imitating features near bounding boxes, which suffer from two limitations. First, they ignore the beneficial features outside the bounding boxes. Second, these methods imitate some features which are mistakenly regarded as the background by the teacher detector. To address the above issues, we propose a novel Feature-Richness Score (FRS) method to choose important features that improve generalized detectability during distilling. The proposed method effectively retrieves the important features outside the bounding boxes and removes the detrimental features within the bounding boxes. Extensive experiments show that our methods achieve excellent performance on both anchor-based and anchor-free detectors. For example, RetinaNet with ResNet-50 achieves 39.7% in mAP on the COCO2017 dataset, which even surpasses the ResNet-101 based teacher detector 38.9% by 0.8%.
翻訳日:2021-11-04 02:43:38 公開日:2021-11-02
# (参考訳) サブガンマ摂動をもつネットワークモデルにおける漸近

Asymptotic in a class of network models with sub-Gamma perturbations ( http://arxiv.org/abs/2111.01301v1 )

ライセンス: CC BY 4.0
Jiaxin Guo, Haoyu Wei, Xiaoyu Lei, Jing Luo(参考訳) サブガンマノイズ下の微分プライバシーについては、一般リンク関数を持つバイナリ値を持つネットワークモデルのクラスにおける漸近特性を導出する。 本稿では、離散的なLaplace機構を特別なケースとして、一般的な雑音機構の下でバイナリネットワークの次数列を解放する。 ネットワークモデルのクラスにおいてパラメータの数が無限度に達すると、パラメータ推定器の一貫性と漸近正規性の両方を含む漸近結果を確立する。 漸近的な結果を示すシミュレーションと実データ例が提供される。

For the differential privacy under the sub-Gamma noise, we derive the asymptotic properties of a class of network models with binary values with a general link function. In this paper, we release the degree sequences of the binary networks under a general noisy mechanism with the discrete Laplace mechanism as a special case. We establish the asymptotic result including both consistency and asymptotically normality of the parameter estimator when the number of parameters goes to infinity in a class of network models. Simulations and a real data example are provided to illustrate asymptotic results.
翻訳日:2021-11-03 22:34:30 公開日:2021-11-02
# (参考訳) NLPにおけるメタラーニングのための自己監督課題の多変量分布 [全文訳有]

Diverse Distributions of Self-Supervised Tasks for Meta-Learning in NLP ( http://arxiv.org/abs/2111.01322v1 )

ライセンス: CC BY 4.0
Trapit Bansal, Karthick Gunasekaran, Tong Wang, Tsendsuren Munkhdalai, Andrew McCallum(参考訳) メタラーニングは、過去の経験を活かして新しいタスクを正確に解決できる効率的な学習プロセスを学ぶ問題を考える。 しかし、メタラーニングの有効性は、トレーニングに利用可能なタスクの分布に大きく依存しており、これは事前知識や限られた教師付きデータセットから構築されると考えられている。 本研究では,NLPにおける大規模メタラーニングを実現するために,ラベルのないテキストから自動的に提案される自己教師型タスクを考慮し,メタラーニングのためのタスク分布の提供を目的とする。 課題の多様性、難易度、タイプ、ドメイン、カリキュラムの重要な側面を考慮し、自己指導型タスクの複数分布を設計し、メタラーニングのパフォーマンスにどのように影響するかを検討する。 分析の結果,これらすべての要因がタスク分布を有意に変化させ,メタ学習モデルの下流数ショット精度を大幅に向上させることが示唆された。 実証的に、20のダウンストリームタスクの結果は、前回の教師なしメタラーニングメソッドに+4.2%の絶対精度(平均)を付加し、FewRel 2.0ベンチマークで教師付きメソッドと互換性のあるパフォーマンスを実現している。

Meta-learning considers the problem of learning an efficient learning process that can leverage its past experience to accurately solve new tasks. However, the efficacy of meta-learning crucially depends on the distribution of tasks available for training, and this is often assumed to be known a priori or constructed from limited supervised datasets. In this work, we aim to provide task distributions for meta-learning by considering self-supervised tasks automatically proposed from unlabeled text, to enable large-scale meta-learning in NLP. We design multiple distributions of self-supervised tasks by considering important aspects of task diversity, difficulty, type, domain, and curriculum, and investigate how they affect meta-learning performance. Our analysis shows that all these factors meaningfully alter the task distribution, some inducing significant improvements in downstream few-shot accuracy of the meta-learned models. Empirically, results on 20 downstream tasks show significant improvements in few-shot learning -- adding up to +4.2% absolute accuracy (on average) to the previous unsupervised meta-learning method, and perform comparably to supervised methods on the FewRel 2.0 benchmark.
翻訳日:2021-11-03 22:33:29 公開日:2021-11-02
# (参考訳) 周期的視点から見た半教師付きビデオオブジェクト分割問題の探索 [全文訳有]

Exploring the Semi-supervised Video Object Segmentation Problem from a Cyclic Perspective ( http://arxiv.org/abs/2111.01323v1 )

ライセンス: CC BY 4.0
Yuxi Li, Ning Xu, Wenjie Yang, John See, Weiyao Lin(参考訳) 現代のビデオオブジェクトセグメンテーション(vos)アルゴリズムは、シーケンシャルな処理順序で驚くほど高いパフォーマンスを達成しているが、現在普及しているパイプラインのほとんどは、蓄積エラー、未知のロバスト性、適切な解釈ツールの欠如といった明らかな不備を示している。 本稿では,半教師付きビデオオブジェクトセグメンテーション問題を循環ワークフローに配置し,上記の欠陥を半教師付きVOSシステムの本質的循環特性によって一括的に解決できることを示す。 第一に、標準的なシーケンシャルフローに組み込まれた循環機構は、ピクセルワイド対応のより一貫性のある表現を生成することができる。 開始フレームの正確な参照マスクを用いて,誤差伝搬問題を緩和できることを示す。 次に、オフライン循環パイプラインをオンライン的に自然に拡張する単純な勾配補正モジュールにより、高頻度かつ詳細な結果の部分を強調し、計算コストを抑えながらセグメンテーション品質をさらに向上させることができる。 一方、この補正は、干渉信号による深刻な性能低下からネットワークを保護することができる。 最後に,傾斜補正プロセスに基づくサイクル有効受容場(cycle-erf)を開発し,対象に固有の関心領域を分析する新しい視点を提供する。 我々は,DAVIS16,DAVIS17,You tube-VOSの挑戦的ベンチマークに関する包括的な比較と詳細な分析を行い,この循環機構がセグメンテーション品質の向上,VOSシステムの堅牢性の向上,VOSアルゴリズムの動作方法の質的比較と解釈を提供する。 プロジェクトのコードはhttps://github.com/l yxok1/STM-Trainingにある。

Modern video object segmentation (VOS) algorithms have achieved remarkably high performance in a sequential processing order, while most of currently prevailing pipelines still show some obvious inadequacy like accumulative error, unknown robustness or lack of proper interpretation tools. In this paper, we place the semi-supervised video object segmentation problem into a cyclic workflow and find the defects above can be collectively addressed via the inherent cyclic property of semi-supervised VOS systems. Firstly, a cyclic mechanism incorporated to the standard sequential flow can produce more consistent representations for pixel-wise correspondance. Relying on the accurate reference mask in the starting frame, we show that the error propagation problem can be mitigated. Next, a simple gradient correction module, which naturally extends the offline cyclic pipeline to an online manner, can highlight the high-frequent and detailed part of results to further improve the segmentation quality while keeping feasible computation cost. Meanwhile such correction can protect the network from severe performance degration resulted from interference signals. Finally we develop cycle effective receptive field (cycle-ERF) based on gradient correction process to provide a new perspective into analyzing object-specific regions of interests. We conduct comprehensive comparison and detailed analysis on challenging benchmarks of DAVIS16, DAVIS17 and Youtube-VOS, demonstrating that the cyclic mechanism is helpful to enhance segmentation quality, improve the robustness of VOS systems, and further provide qualitative comparison and interpretation on how different VOS algorithms work. The code of this project can be found at https://github.com/l yxok1/STM-Training
翻訳日:2021-11-03 22:17:28 公開日:2021-11-02
# (参考訳) 2ブロックADMMによる高速凸リプシッツ回帰 [全文訳有]

Faster Convex Lipschitz Regression via 2-block ADMM ( http://arxiv.org/abs/2111.01348v1 )

ライセンス: CC BY 4.0
Ali Siahkamari, Durmus Alp Emre Acar, Christopher Liao, Kelly Geyer, Venkatesh Saligrama, Brian Kulis(参考訳) 任意の凸関数を近似するタスクは、凸回帰、凸関数(DC)の差による学習、ブレグマン発散の近似など、いくつかの学習問題に現れる。 本稿では,各ブロックの更新を閉じた形式で計算できる2ブロックadmmアプローチにより,凸関数学習問題の幅広いクラスをいかに解くかを示す。 凸リプシッツ回帰のタスクに対して、提案アルゴリズムはデータセット$X \in R^{n\times d}$に対して$O(n^3 d^{1.5}+n^2 d^{2.5}+n d^3)$の速度で収束する。 この新たなレートは、$d = o(n^4)$ の場合、内部ポイントメソッドで利用可能な $O(n^5d^2$) の状態を改善します。 さらに,直流回帰とブレグマン分岐学習に類似した解法を提供する。 従来の手法とは異なり、我々の手法はGPUの使用に適している。 回帰および計量学習実験において、我々の手法は既存の手法の最大20倍高速であり、最先端技術に匹敵する結果が得られることを示した。

The task of approximating an arbitrary convex function arises in several learning problems such as convex regression, learning with a difference of convex (DC) functions, and approximating Bregman divergences. In this paper, we show how a broad class of convex function learning problems can be solved via a 2-block ADMM approach, where updates for each block can be computed in closed form. For the task of convex Lipschitz regression, we establish that our proposed algorithm converges at the rate of $O(n^3 d^{1.5}+n^2 d^{2.5}+n d^3)$ for a dataset $X \in R^{n\times d}$. This new rate improves the state of the art $O(n^5d^2$) available by interior point methods if $d = o( n^4)$. Further we provide similar solvers for DC regression and Bregman divergence learning. Unlike previous approaches, our method is amenable to the use of GPUs. We demonstrate on regression and metric learning experiments that our approach is up to 20 times faster than the existing method, and produces results that are comparable to state-of-the-art.
翻訳日:2021-11-03 22:00:04 公開日:2021-11-02
# (参考訳) 多層脳機能結合ネットワークに基づく大うつ病の認識と認知分析 [全文訳有]

Major Depressive Disorder Recognition and Cognitive Analysis Based on Multi-layer Brain Functional Connectivity Networks ( http://arxiv.org/abs/2111.01351v1 )

ライセンス: CC BY 4.0
Xiaofang Sun, Xiangwei Zheng, Yonghui Xu, Lizhen Cui and Bin Hu(参考訳) 大うつ病(MDD)の増加について、多くの研究者が認識と治療に注意を払っている。 既存のMDD認識アルゴリズムは、常に単一の時間周波数領域法を用いるが、単一の時間周波数領域法は単純すぎるため、脳機能間の複雑なリンク関係をシミュレートすることができない。 そこで本研究では,大うつ病に対する多層脳機能接続ネットワーク(MBFCN)に基づく認識手法を提案し,認知分析を行う。 提案するmbfcnに基づく認知分析により、α-β1周波数帯がmddを認識するための鍵サブバンドであることが判明した。 高度うつ病(EDD)の右前頭前葉と側頭葉の接続は、位相ラグ指数(PLI)に基づく脳機能接続網(BFCN)において不足している。 さらに、うつ病の特徴とPHQ-9の意義分析による潜在的なバイオマーカーも見いだせる。

On the increase of major depressive disorders (MDD), many researchers paid attention to their recognition and treatment. Existing MDD recognition algorithms always use a single time-frequency domain method method, but the single time-frequency domain method is too simple and is not conducive to simulating the complex link relationship between brain functions. To solve this problem, this paper proposes a recognition method based on multi-layer brain functional connectivity networks (MBFCN) for major depressive disorder and conducts cognitive analysis. Cognitive analysis based on the proposed MBFCN finds that the Alpha-Beta1 frequency band is the key sub-band for recognizing MDD. The connections between the right prefrontal lobe and the temporal lobe of the extremely depressed disorders (EDD) are deficient in the brain functional connectivity networks (BFCN) based on phase lag index (PLI). Furthermore, potential biomarkers by the significance analysis of depression features and PHQ-9 can be found.
翻訳日:2021-11-03 21:24:39 公開日:2021-11-02
# (参考訳) DeepParticle: 相互作用粒子法によるワッサースタイン距離を最小化するディープニューラルネットワークによる学習不変測度 [全文訳有]

DeepParticle: learning invariant measure by a deep neural network minimizing Wasserstein distance on data generated from an interacting particle method ( http://arxiv.org/abs/2111.01356v1 )

ライセンス: CC BY 4.0
Zhongjian Wang, Jack Xin, Zhiwen Zhang(参考訳) 本稿では,相互作用粒子法(ipm)から計算されたデータに基づいて物理パラメータを持つ確率力学系の不変測度を学習し生成する,いわゆるdeepparticle法を提案する。 本研究では, 深層ニューラルネットワーク(DNN)の表現性を利用して, 与えられた入力(ソース)分布から任意のターゲット分布への変換を表現する。 トレーニングでは、入力とターゲットサンプル間の離散的なワッサースタイン距離を最小化するためにネットワーク重みを更新。 計算コストを削減するために,wasserstein距離における最適遷移行列を求めるために,逐次分割・分割(ミニバッチ内点)アルゴリズムを提案する。 本研究では, カオス流による反応拡散前線速度の計算において発生する確率力学系の不変測度の ipm 計算を高速化する手法の性能を示す。 物理パラメータは大きなペクレット数であり、我々の関心のアドベクション支配体制を反映している。

We introduce the so called DeepParticle method to learn and generate invariant measures of stochastic dynamical systems with physical parameters based on data computed from an interacting particle method (IPM). We utilize the expressiveness of deep neural networks (DNNs) to represent the transform of samples from a given input (source) distribution to an arbitrary target distribution, neither assuming distribution functions in closed form nor a finite state space for the samples. In training, we update the network weights to minimize a discrete Wasserstein distance between the input and target samples. To reduce computational cost, we propose an iterative divide-and-conquer (a mini-batch interior point) algorithm, to find the optimal transition matrix in the Wasserstein distance. We present numerical results to demonstrate the performance of our method for accelerating IPM computation of invariant measures of stochastic dynamical systems arising in computing reaction-diffusion front speeds through chaotic flows. The physical parameter is a large Pecl\'et number reflecting the advection dominated regime of our interest.
翻訳日:2021-11-03 21:18:35 公開日:2021-11-02
# (参考訳) 温室効果ガスの損失関数に基づく極低温予測法 [全文訳有]

Improved Loss Function-Based Prediction Method of Extreme Temperatures in Greenhouses ( http://arxiv.org/abs/2111.01366v1 )

ライセンス: CC BY 4.0
Liao Qu, Shuaiqi Huang, Yunsong Jia, Xiang Li(参考訳) 温室栽培の分野において、作物が感受性を持つ極端な温室効果温度の予測が不可欠である。 熱や凍傷や経済的な損失を避けるのに役立つ。 したがって、正確に予測できるモデルを開発することが重要です。 データセットに極端な温度データがないため、モデルを正確に予測することは困難である。 本稿では,様々な機械学習モデルに適した改良された損失関数を提案する。 極端温度サンプルの重量を増大させ、極端温度を通常のように誤測定する可能性を減らすことにより、提案された損失関数は極端状況における予測結果を向上することができる。 提案手法の有効性を検証するため,LightGBM,長期記憶,人工ニューラルネットワークに改良された損失関数を実装し,実世界の温室データセット上で実験を行った。 その結果, 損失関数を改良したモデルの性能は, 極端な場合と比較して向上していることがわかった。 改良されたモデルを用いて、農業用温室における極端温度のタイムリーな判定を保証し、誤った予測による不要な損失を防止することができる。

The prediction of extreme greenhouse temperatures to which crops are susceptible is essential in the field of greenhouse planting. It can help avoid heat or freezing damage and economic losses. Therefore, it's important to develop models that can predict them accurately. Due to the lack of extreme temperature data in datasets, it is challenging for models to accurately predict it. In this paper, we propose an improved loss function, which is suitable for a variety of machine learning models. By increasing the weight of extreme temperature samples and reducing the possibility of misjudging extreme temperature as normal, the proposed loss function can enhance the prediction results in extreme situations. To verify the effectiveness of the proposed method, we implement the improved loss function in LightGBM, long short-term memory, and artificial neural network and conduct experiments on a real-world greenhouse dataset. The results show that the performance of models with the improved loss function is enhanced compared to the original models in extreme cases. The improved models can be used to guarantee the timely judgment of extreme temperatures in agricultural greenhouses, thereby preventing unnecessary losses caused by incorrect predictions.
翻訳日:2021-11-03 21:02:23 公開日:2021-11-02
# (参考訳) エッジ型IoTネットワークにおける侵入検出のための機械学習アルゴリズムの比較解析 [全文訳有]

A Comparative Analysis of Machine Learning Algorithms for Intrusion Detection in Edge-Enabled IoT Networks ( http://arxiv.org/abs/2111.01383v1 )

ライセンス: CC BY 4.0
Poornima Mahadevappa, Syeda Mariam Muzammal and Raja Kumar Murugesan(参考訳) 相互接続されたデバイス数と無線ネットワークによるデータ通信の大幅な増加は、さまざまな脅威、リスク、セキュリティ上の懸念を引き起こしている。 IoT(Internet of Things)アプリケーションは、センシティブな環境を含む、ほぼすべての日常生活領域にデプロイされる。 エッジコンピューティングパラダイムは、計算処理をデータソースの近くに移すことで、iotアプリケーションを補完している。 さまざまなセキュリティモデルの中で、機械学習(ML)ベースの侵入検出は、エッジ対応IoTネットワークにおける異常な動作に対処するための最も認識可能な防御メカニズムである。 MLアルゴリズムは、ネットワークトラフィックを通常の攻撃と悪意のある攻撃に分類するために使用される。 侵入検知は、ネットワークセキュリティの分野における課題の1つである。 研究コミュニティは多数の侵入検知システムを提案している。 しかし、エッジ対応IoTネットワークのセキュリティを提供するための適切なアルゴリズムの選択に関わる課題は存在する。 本稿では、従来の機械学習分類アルゴリズムの比較分析を行い、Jupyter on Pycharmツールを用いてNSL-KDDデータセット上のネットワークトラフィックを分類した。 多層知覚(mlp)は入力と出力の間に依存性があり、侵入検出にはネットワーク構成に依存することが観察できる。 したがって、MLPは、1.2秒のトレーニング時間と79%のテスト精度でエッジベースのIoTネットワークに適している。

A significant increase in the number of interconnected devices and data communication through wireless networks has given rise to various threats, risks and security concerns. Internet of Things (IoT) applications is deployed in almost every field of daily life, including sensitive environments. The edge computing paradigm has complemented IoT applications by moving the computational processing near the data sources. Among various security models, Machine Learning (ML) based intrusion detection is the most conceivable defense mechanism to combat the anomalous behavior in edge-enabled IoT networks. The ML algorithms are used to classify the network traffic into normal and malicious attacks. Intrusion detection is one of the challenging issues in the area of network security. The research community has proposed many intrusion detection systems. However, the challenges involved in selecting suitable algorithm(s) to provide security in edge-enabled IoT networks exist. In this paper, a comparative analysis of conventional machine learning classification algorithms has been performed to categorize the network traffic on NSL-KDD dataset using Jupyter on Pycharm tool. It can be observed that Multi-Layer Perception (MLP) has dependencies between input and output and relies more on network configuration for intrusion detection. Therefore, MLP can be more appropriate for edge-based IoT networks with a better training time of 1.2 seconds and testing accuracy of 79%.
翻訳日:2021-11-03 20:53:00 公開日:2021-11-02
# (参考訳) 深宇宙ネットワークにおける時系列比較 [全文訳有]

Time Series Comparisons in Deep Space Network ( http://arxiv.org/abs/2111.01393v1 )

ライセンス: CC BY 4.0
Kyongsik Yun, Rishi Verma, Umaa Rebbapragada(参考訳) ディープ・スペース・ネットワーク(deep space network)は、惑星間宇宙ミッションをサポートするnasaの国際アンテナである。 トラックは、DSNとターゲット宇宙船との通信の開始から終了までの多次元時系列のブロックであり、0.2-1Hzの周波数で数時間続く何千ものモニターデータを含む。 それぞれのトラックのデータを監視し、特定の宇宙船の運用とDSN自体のパフォーマンスを報告する。 DSNは、太陽系の32の宇宙船から信号を受信している。 DSNは、DSNミッションユーザのサポート品質を維持しながら、コスト削減を迫られている。 DSN Link Control Operatorsは複数のトラックを同時に監視し、リアルタイムで異常を識別する必要がある。 dsnは、ミッションの数が増えるにつれて、処理すべきデータは時間とともに増加すると見ている。 このプロジェクトでは、分析のために過去8年間のデータを調べます。 軌道上の異常は、宇宙船、dsn機器、気象条件のいずれかの問題を示している。 DSNオペレータは通常、さらなる分析のために離散レポートを書く。 巨大なデータベースから10の類似した履歴トラックを識別して、異常を素早く見つけて一致させることは、非常に有益であると認識されている。 本ツールには,(1) 類似したトラックトップ10の識別,(2) 基準トラックに対する異常検出,(3) 与えられたトラック間の統計的差異の比較の3つの機能がある。 これらの特徴の要件は、21のdsnオペレーターとエンジニアによる調査回答によって確認された。 予備的な機械学習モデルは有望な性能を示した(AUC=0.92)。 dsnフィールドオペレータとエンジニアを支援するトラックビジュアライザインターフェースに統合される前に、データセットの数を増やし、さらにパフォーマンスを向上させるための追加テストを行う予定です。

The Deep Space Network is NASA's international array of antennas that support interplanetary spacecraft missions. A track is a block of multi-dimensional time series from the beginning to end of DSN communication with the target spacecraft, containing thousands of monitor data items lasting several hours at a frequency of 0.2-1Hz. Monitor data on each track reports on the performance of specific spacecraft operations and the DSN itself. DSN is receiving signals from 32 spacecraft across the solar system. DSN has pressure to reduce costs while maintaining the quality of support for DSN mission users. DSN Link Control Operators need to simultaneously monitor multiple tracks and identify anomalies in real time. DSN has seen that as the number of missions increases, the data that needs to be processed increases over time. In this project, we look at the last 8 years of data for analysis. Any anomaly in the track indicates a problem with either the spacecraft, DSN equipment, or weather conditions. DSN operators typically write Discrepancy Reports for further analysis. It is recognized that it would be quite helpful to identify 10 similar historical tracks out of the huge database to quickly find and match anomalies. This tool has three functions: (1) identification of the top 10 similar historical tracks, (2) detection of anomalies compared to the reference normal track, and (3) comparison of statistical differences between two given tracks. The requirements for these features were confirmed by survey responses from 21 DSN operators and engineers. The preliminary machine learning model has shown promising performance (AUC=0.92). We plan to increase the number of data sets and perform additional testing to improve performance further before its planned integration into the track visualizer interface to assist DSN field operators and engineers.
翻訳日:2021-11-03 20:45:38 公開日:2021-11-02
# (参考訳) 対話システム : 訓練されたサルから確率的なオウムへ [全文訳有]

A Review of Dialogue Systems: From Trained Monkeys to Stochastic Parrots ( http://arxiv.org/abs/2111.01414v1 )

ライセンス: CC BY 4.0
Atharv Singh Patlan, Shiven Tripathi, Shubham Korde(参考訳) 音声対話システムでは,人間と会話できる自動対話エージェントを構築するために,人工知能の展開を目指している。 対話システムは、会話を模倣するだけでなく、時間とともにそのような対話から改善するように設計されている。 本稿では,長年にわたり対話システムを構築するために開発された手法の概要を紹介する。 タスクベースシステムからオープンドメインチャットボットに至るまで、対話システムのさまざまなユースケースは、特定のシステムを動機付け、必要とします。 単純なルールベースのシステムから始まって、ディープラーニングシステムのような膨大なデータセットでトレーニングされる複雑なアーキテクチャへと研究が進んでいる。 人間の対話に類似した直感によって、強化学習を用いて感情を自然言語ジェネレータに組み込むことが進歩している。 いくつかの指標では極めて限界的な改善の傾向が見られるが、指標に対する限定的な正当性が存在し、評価プラクティスは均一ではない。 結論として、これらの懸念にフラグを付け、研究の方向性を強調する。

In spoken dialogue systems, we aim to deploy artificial intelligence to build automated dialogue agents that can converse with humans. Dialogue systems are increasingly being designed to move beyond just imitating conversation and also improve from such interactions over time. In this survey, we present a broad overview of methods developed to build dialogue systems over the years. Different use cases for dialogue systems ranging from task-based systems to open domain chatbots motivate and necessitate specific systems. Starting from simple rule-based systems, research has progressed towards increasingly complex architectures trained on a massive corpus of datasets, like deep learning systems. Motivated with the intuition of resembling human dialogues, progress has been made towards incorporating emotions into the natural language generator, using reinforcement learning. While we see a trend of highly marginal improvement on some metrics, we find that limited justification exists for the metrics, and evaluation practices are not uniform. To conclude, we flag these concerns and highlight possible research directions.
翻訳日:2021-11-03 20:40:18 公開日:2021-11-02
# (参考訳) 弱教師付き少数ショットセマンティクスセグメンテーションのためのピクセルレベルメタリーナー [全文訳有]

A Pixel-Level Meta-Learner for Weakly Supervised Few-Shot Semantic Segmentation ( http://arxiv.org/abs/2111.01418v1 )

ライセンス: CC BY 4.0
Yuan-Hao Lee, Fu-En Yang, Yu-Chiang Frank Wang(参考訳) Few-shotのセマンティックセマンティックセグメンテーションは、興味のある新しいクラスのために、真実のピクセルレベルのラベルを持つ画像がほとんどない学習タスクに対処する。 一般に、そのような基礎となる真理情報を持つ大量のデータ(すなわち、基礎クラス)を収集することが求められ、続いて上記の学習課題に対処するためのメタラーニング戦略が従う。 トレーニングとテストの両方で画像レベルのセマンティックラベルのみを観察できる場合、弱教師付き少数ショットセマンティックセマンティックセマンティックセグメンテーションのさらに難しい課題と見なされる。 この問題に対処するために,限られた量のデータとその意味ラベルから疑似ピクセルレベルのセグメンテーションマスクを予測する新しいメタラーニングフレームワークを提案する。 さらに,学習方式では,生成したピクセルレベル情報をさらに活用して,セグメント化を保証したクエリ画像入力を行う。 したがって,提案する学習モデルはピクセルレベルのメタリーナーと見なすことができる。 ベンチマークデータセットの広範な実験を通して,本モデルが十分に教師付きされた設定下では満足な性能を達成できたが,弱教師付き設定下では最先端の手法に対して好適な性能を示した。

Few-shot semantic segmentation addresses the learning task in which only few images with ground truth pixel-level labels are available for the novel classes of interest. One is typically required to collect a large mount of data (i.e., base classes) with such ground truth information, followed by meta-learning strategies to address the above learning task. When only image-level semantic labels can be observed during both training and testing, it is considered as an even more challenging task of weakly supervised few-shot semantic segmentation. To address this problem, we propose a novel meta-learning framework, which predicts pseudo pixel-level segmentation masks from a limited amount of data and their semantic labels. More importantly, our learning scheme further exploits the produced pixel-level information for query image inputs with segmentation guarantees. Thus, our proposed learning model can be viewed as a pixel-level meta-learner. Through extensive experiments on benchmark datasets, we show that our model achieves satisfactory performances under fully supervised settings, yet performs favorably against state-of-the-art methods under weakly supervised settings.
翻訳日:2021-11-03 20:19:03 公開日:2021-11-02
# (参考訳) カラビ・ヤウ空間の学習サイズと形状 [全文訳有]

Learning Size and Shape of Calabi-Yau Spaces ( http://arxiv.org/abs/2111.01436v1 )

ライセンス: CC BY 4.0
Magdalena Larfors, Andre Lukas, Fabian Ruehle, Robin Schneider(参考訳) 文字列圧縮空間のメトリクスを計算するための新しい機械学習ライブラリを提案する。 モンテカルロのサンプル積分の性能を従来の数値近似値と比較し,ニューラルネットワークがよりサンプル効率と計算効率に優れていることを見いだした。 我々は、コンパクト空間の任意の形状と大きさのパラメータについてこれらの指標を計算し、訓練している偏微分方程式の最適化とリッチ曲率の消滅の間の線形関係を観察する可能性を初めて提供する。

We present a new machine learning library for computing metrics of string compactification spaces. We benchmark the performance on Monte-Carlo sampled integrals against previous numerical approximations and find that our neural networks are more sample- and computation-efficien t. We are the first to provide the possibility to compute these metrics for arbitrary, user-specified shape and size parameters of the compact space and observe a linear relation between optimization of the partial differential equation we are training against and vanishing Ricci curvature.
翻訳日:2021-11-03 20:04:41 公開日:2021-11-02
# (参考訳) 拡散モデルを用いたゼロショット翻訳 [全文訳有]

Zero-Shot Translation using Diffusion Models ( http://arxiv.org/abs/2111.01471v1 )

ライセンス: CC BY 4.0
Eliya Nachmani, Shaked Dovrat(参考訳) 本研究では,近年の分野の発展に伴い,テキストデータに適応した拡散確率モデル(DDPM)を用いたニューラルマシン翻訳(NMT)の新たな手法を提案する。 原文に条件付けられた拡散モデルを用いて,非回帰的に文を翻訳することが可能であることを示す。 また、トレーニング中に見つからない言語(ゼロショット学習)のペア間でモデルを変換できることも示しています。

In this work, we show a novel method for neural machine translation (NMT), using a denoising diffusion probabilistic model (DDPM), adjusted for textual data, following recent advances in the field. We show that it's possible to translate sentences non-autoregressively using a diffusion model conditioned on the source sentence. We also show that our model is able to translate between pairs of languages unseen during training (zero-shot learning).
翻訳日:2021-11-03 19:55:30 公開日:2021-11-02
# (参考訳) LDAに適用される変分メッセージパッシング(VMP) [全文訳有]

Variational message passing (VMP) applied to LDA ( http://arxiv.org/abs/2111.01480v1 )

ライセンス: CC BY 4.0
Rebecca M.C. Taylor and Johan A. du Preez(参考訳) 潜時ディリクレ割り当て(LDA)に適用される変分ベイズ(VB)は、LDAの本来の推論機構である。 LDA用やVB用の多くの変種は、2013年のLDAの登場以来開発されてきたが、標準のVBは依然としてLDAに広く適用されている。 変分メッセージパッシング(vmp)はvbと等価なメッセージパッシングであり、多種多様な共役指数型グラフィカルモデルに対する変分推論ソリューションを構築するのに有用なツールである。 本稿では, LDA の VMP 方程式について述べるとともに, 簡単な議論を行う。 これは、他の類似のグラフィカルモデルへの変分推論ソリューションの導出に役立ちたいと思っています。

Variational Bayes (VB) applied to latent Dirichlet allocation (LDA) is the original inference mechanism for LDA. Many variants of VB for LDA, as well as for VB in general, have been developed since LDA's inception in 2013, but standard VB is still widely applied to LDA. Variational message passing (VMP) is the message passing equivalent of VB and is a useful tool for constructing a variational inference solution for a large variety of conjugate exponential graphical models (there is also a non conjugate variant available for other models). In this article we present the VMP equations for LDA and also provide a brief discussion of the equations. We hope that this will assist others when deriving variational inference solutions to other similar graphical models.
翻訳日:2021-11-03 19:47:18 公開日:2021-11-02
# (参考訳) 皮膚およびマラリア画像の分布検出の欠如 [全文訳有]

Out of distribution detection for skin and malaria images ( http://arxiv.org/abs/2111.01505v1 )

ライセンス: CC BY 4.0
Muhammad Zaida, Shafaqat Ali, Mohsen Ali, Sarfaraz Hussein, Asma Saadia, and Waqas Sultani(参考訳) 深層ニューラルネットワークは、医療画像データを用いた疾患の検出と分類において有望な結果を示している。 しかし、現実世界のシナリオ、特にOoD(out-of-distriion )サンプルを確実に検出することの難しさに苦しむ。 トレーニング中にラベル付きOoDサンプルにアクセスすることなく,皮膚およびマラリア画像中のOoDサンプルを堅牢に分類する手法を提案する。 具体的には、メトリクス学習とロジスティック回帰を用いて、ディープネットワークにもっとリッチなクラス代表機能を学ぶように強制する。 OoDの例に対して学習過程をガイドするために、画像中のクラス固有な局所領域を除去するか、画像部品を置換し、分布内サンプルから切り離してID類似の例を生成する。 推定時間中、K-相反隣人は分布外サンプルを検出するために使用される。 皮膚がんのOoD検出には,標準の2つのISICデータセットをIDとして使用し,難易度が異なる6つのデータセットを分布外とした。 マラリア OoD の検出には,BBBC041 のマラリアデータセットを ID として,分布から5つの課題データセットを抽出する。 その結果,tnr@tpr95%の5%と4%が皮膚癌とマラリアood検出に比較して改善した。

Deep neural networks have shown promising results in disease detection and classification using medical image data. However, they still suffer from the challenges of handling real-world scenarios especially reliably detecting out-of-distribution (OoD) samples. We propose an approach to robustly classify OoD samples in skin and malaria images without the need to access labeled OoD samples during training. Specifically, we use metric learning along with logistic regression to force the deep networks to learn much rich class representative features. To guide the learning process against the OoD examples, we generate ID similar-looking examples by either removing class-specific salient regions in the image or permuting image parts and distancing them away from in-distribution samples. During inference time, the K-reciprocal nearest neighbor is employed to detect out-of-distribution samples. For skin cancer OoD detection, we employ two standard benchmark skin cancer ISIC datasets as ID, and six different datasets with varying difficulty levels were taken as out of distribution. For malaria OoD detection, we use the BBBC041 malaria dataset as ID and five different challenging datasets as out of distribution. We achieved state-of-the-art results, improving 5% and 4% in TNR@TPR95% over the previous state-of-the-art for skin cancer and malaria OoD detection respectively.
翻訳日:2021-11-03 19:30:28 公開日:2021-11-02
# (参考訳) 協調動作プリミティブを用いたシフトとグレープ学習のためのハイブリッドアプローチ [全文訳有]

A Hybrid Approach for Learning to Shift and Grasp with Elaborate Motion Primitives ( http://arxiv.org/abs/2111.01510v1 )

ライセンス: CC BY 4.0
Zohar Feldman and Hanna Ziesche and Ngo Anh Vien and Dotan Di Castro(参考訳) 現実世界におけるロボットの応用の多くの可能性分野は、ロボットが物体をつかむ能力にかかっている。 その結果、ロボットの把握は長年にわたって研究の活発な分野であった。 私たちの出版物では、特にビンピッキングアプリケーションに焦点をあてて、ロボットが把握できるように努力しています。 ビンピッキングは、しばしば乱雑で構造化されていないオブジェクトの配置と、単純なトップダウンによるオブジェクトの把握性が制限されるため、特に難しい。 これらの課題に対処するために,ソフトアクター・クリティック(SAC)のハイブリッド型離散連続適応に基づく完全自己教師付き強化学習手法を提案する。 パラメトリドモーションプリミティブ(parametrized motion primitives)を動作のプッシュと把持に使用することで,検討する困難な設定に対して柔軟に適応可能な動作を可能にする。 さらに,サンプル効率を向上させるためにデータ拡張を用いる。 我々は,平面把持学習や行動判別手法が多くの困難に直面するような選択シナリオに対する提案手法を実証する。

Many possible fields of application of robots in real world settings hinge on the ability of robots to grasp objects. As a result, robot grasping has been an active field of research for many years. With our publication we contribute to the endeavor of enabling robots to grasp, with a particular focus on bin picking applications. Bin picking is especially challenging due to the often cluttered and unstructured arrangement of objects and the often limited graspability of objects by simple top down grasps. To tackle these challenges, we propose a fully self-supervised reinforcement learning approach based on a hybrid discrete-continuous adaptation of soft actor-critic (SAC). We employ parametrized motion primitives for pushing and grasping movements in order to enable a flexibly adaptable behavior to the difficult setups we consider. Furthermore, we use data augmentation to increase sample efficiency. We demonnstrate our proposed method on challenging picking scenarios in which planar grasp learning or action discretization methods would face a lot of difficulties
翻訳日:2021-11-03 19:13:50 公開日:2021-11-02
# (参考訳) FedFly: エッジベースの分散フェデレーション学習のマイグレーションを目指す [全文訳有]

FedFly: Towards Migration in Edge-based Distributed Federated Learning ( http://arxiv.org/abs/2111.01516v1 )

ライセンス: CC BY 4.0
Rehmat Ullah, Di Wu, Paul Harvey, Peter Kilpatrick, Ivor Spence, Blesson Varghese(参考訳) Federated Learning(FL)は、デバイス上で生成されたオリジナルのデータに直接アクセスすることなくモデルをトレーニングする、プライバシ保護の分散機械学習技術である。 デバイスはリソース制約を受ける可能性があるため、オフロードはデバイスからエッジサーバに計算負荷を転送することでFL性能を改善するために使用できる。 しかし、モビリティのため、flに参加しているデバイスはトレーニング中にネットワークを離れ、異なるエッジサーバに接続する必要がある。 edge serverからオフロードされた計算を移行する必要があるため、これは難しい。 FLトレーニング中にデバイスがエッジサーバ間を移動するときに、ディープニューラルネットワーク(DNN)を移行するための最初の作業である。 CIFAR-10データセットにおける実験結果では、バランスの取れたデータと不均衡なデータ分散の両方で、FedFlyはトレーニングの50%の完了後にデバイスが動き、FLの最先端のオフロードアプローチと比較してトレーニングの90%が完了すると最大で45%のトレーニング時間を最大33%短縮できる、という主張を支持しています。 FedFlyは2秒の無視可能なオーバーヘッドを持ち、精度を損なわない。 最後に、さらなる調査のために、多くのオープンリサーチの問題を強調する。 FedFlyはhttps://github.com/q ub-blesson/FedFlyからダウンロードできる。

Federated learning (FL) is a privacy-preserving distributed machine learning technique that trains models without having direct access to the original data generated on devices. Since devices may be resource constrained, offloading can be used to improve FL performance by transferring computational workload from devices to edge servers. However, due to mobility, devices participating in FL may leave the network during training and need to connect to a different edge server. This is challenging because the offloaded computations from edge server need to be migrated. In line with this assertion, we present FedFly, which is, to the best of our knowledge, the first work to migrate a deep neural network (DNN) when devices move between edge servers during FL training. Our empirical results on the CIFAR-10 dataset, with both balanced and imbalanced data distribution support our claims that FedFly can reduce training time by up to 33% when a device moves after 50% of the training is completed, and by up to 45% when 90% of the training is completed when compared to state-of-the-art offloading approach in FL. FedFly has negligible overhead of 2 seconds and does not compromise accuracy. Finally, we highlight a number of open research issues for further investigation. FedFly can be downloaded from https://github.com/q ub-blesson/FedFly
翻訳日:2021-11-03 18:56:50 公開日:2021-11-02
# (参考訳) uquad1.0:機械読解のためのウルドゥー質問応答学習データの開発 [全文訳有]

UQuAD1.0: Development of an Urdu Question Answering Training Data for Machine Reading Comprehension ( http://arxiv.org/abs/2111.01543v1 )

ライセンス: CC BY 4.0
Samreen Kazi (1), Shakeel Khoja (1) ((1) School of Mathematics & Computer Science, Institute of Business Administration, Karachi Pakistan)(参考訳) 近年、低リソースのMachine Reading Comprehension (MRC) が大幅に進歩し、様々な言語データセットで顕著なパフォーマンスが得られた。 しかし、これらのモデルはいずれもウルドゥー語用にカスタマイズされていない。 本研究は,機械翻訳スクワッドとwikipedia記事から抽出した人間生成サンプルと,ケンブリッジoレベル書籍のurdu rcワークシートを組み合わせることで,半自動的なurdu質問応答データセット(uquad1.0)の作成を考察する。 UQuAD1.0は、49kの質問Answersペアからなる機械読解タスクを抽出するための大規模Urduデータセットである。 UQuAD1.0では、45,000対のQAがオリジナルのSQuAD1.0の機械翻訳と約4000対のクラウドソーシングによって生成される。 本研究では,ルールベースラインと高度なトランスフォーマーベースモデルという2種類のmrcモデルを用いた。 しかし、後者が他のアーキテクチャよりも優れていることが分かり、トランスフォーマーベースのアーキテクチャにのみ集中することを決定した。 XLMRoBERTaと多言語BERTを用いてそれぞれ0.66と0.63のスコアを得る。

In recent years, low-resource Machine Reading Comprehension (MRC) has made significant progress, with models getting remarkable performance on various language datasets. However, none of these models have been customized for the Urdu language. This work explores the semi-automated creation of the Urdu Question Answering Dataset (UQuAD1.0) by combining machine-translated SQuAD with human-generated samples derived from Wikipedia articles and Urdu RC worksheets from Cambridge O-level books. UQuAD1.0 is a large-scale Urdu dataset intended for extractive machine reading comprehension tasks consisting of 49k question Answers pairs in question, passage, and answer format. In UQuAD1.0, 45000 pairs of QA were generated by machine translation of the original SQuAD1.0 and approximately 4000 pairs via crowdsourcing. In this study, we used two types of MRC models: rule-based baseline and advanced Transformer-based models. However, we have discovered that the latter outperforms the others; thus, we have decided to concentrate solely on Transformer-based architectures. Using XLMRoBERTa and multi-lingual BERT, we acquire an F1 score of 0.66 and 0.63, respectively.
翻訳日:2021-11-03 18:45:14 公開日:2021-11-02
# (参考訳) プライバシー保護型通信効率の良いフェデレーションマルチアーマッドバンド

Privacy-Preserving Communication-Effici ent Federated Multi-Armed Bandits ( http://arxiv.org/abs/2111.01570v1 )

ライセンス: CC BY 4.0
Tan Li, Linqi Song(参考訳) 通信ボトルネックとデータプライバシは、意思決定の状況や無線経由のコネクテッドカーの推奨など、連合型多武装バンディット(MAB)問題における2つの重要な問題である。 本稿では,このような問題において,プライバシ保全型コミュニケーション効率のよいアルゴリズムを設計し,プライバシ,コミュニケーション,学習性能の相互作用を後悔の観点から検討する。 具体的には、プライバシ保護学習アルゴリズムと通信プロトコルを設計し、ネットワーク化されたプライベートエージェントがマスターワーカー、分散化およびハイブリッド構造でオンラインバンディット学習を行う際の学習後悔を導出する。 我々の帯域学習アルゴリズムは、各エージェントにおけるエポックワイズ・サブ最適アームの除去に基づいており、各エージェントは、各エポックの最後にサーバと学習知識を交換する。 さらに、情報交換時に各エージェントのデータプライバシを保護するために差分プライバシ(dp)アプローチを採用し、より少ないエージェントによる頻繁な通信を少なくすることで通信コストを削減します。 主作業者,分散構造,ハイブリッド構造において提案するアルゴリズムフレームワークの後悔を分析することで,後悔と通信コスト/プライバシーのトレードオフを理論的に示す。 最後に、理論分析と一致するこれらのトレードオフを実証的に示します。

Communication bottleneck and data privacy are two critical concerns in federated multi-armed bandit (MAB) problems, such as situations in decision-making and recommendations of connected vehicles via wireless. In this paper, we design the privacy-preserving communication-effici ent algorithm in such problems and study the interactions among privacy, communication and learning performance in terms of the regret. To be specific, we design privacy-preserving learning algorithms and communication protocols and derive the learning regret when networked private agents are performing online bandit learning in a master-worker, a decentralized and a hybrid structure. Our bandit learning algorithms are based on epoch-wise sub-optimal arm eliminations at each agent and agents exchange learning knowledge with the server/each other at the end of each epoch. Furthermore, we adopt the differential privacy (DP) approach to protect the data privacy at each agent when exchanging information; and we curtail communication costs by making less frequent communications with fewer agents participation. By analyzing the regret of our proposed algorithmic framework in the master-worker, decentralized and hybrid structures, we theoretically show tradeoffs between regret and communication costs/privacy. Finally, we empirically show these trade-offs which are consistent with our theoretical analysis.
翻訳日:2021-11-03 18:31:04 公開日:2021-11-02
# (参考訳) 自己監督型世界モデルによる計画立案による手続き的一般化 [全文訳有]

Procedural Generalization by Planning with Self-Supervised World Models ( http://arxiv.org/abs/2111.01587v1 )

ライセンス: CC BY 4.0
Ankesh Anand, Jacob Walker, Yazhe Li, Eszter V\'ertes, Julian Schrittwieser, Sherjil Ozair, Th\'eophane Weber, Jessica B. Hamrick(参考訳) モデルベースの強化学習の重要な約束の1つは、世界の内部モデルを使って新しい環境やタスクで予測を一般化する能力である。 しかし、モデルベースエージェントの一般化能力は、ベンチマークの一般化において、既存の作業がモデルフリーエージェントに焦点を当てているため、よく分かっていない。 本稿では,モデルフリーエージェントと比較して,モデルベースエージェントの一般化能力を明確に評価する。 我々は、強力なモデルベースエージェントであるMuZero(Schrittwieser et al., 2020)に着目し、手続き的およびタスクの一般化においてその性能を評価する。 手続き的一般化の3つの要因 – 計画,自己指導型表現学習,手続き的データ多様性 – を同定し,これらの手法を組み合わせることで, Procgen(Cobbe et al., 2019)の最先端の一般化性能とデータ効率を達成することを示す。 しかしながら、これらの要因がメタワールドにおけるタスク一般化ベンチマーク(yuなど、2019年)に常に同じ利点をもたらすとは限らないことが分かり、転送は依然として課題であり、手続き的一般化とは異なるアプローチを必要とする可能性があることを示している。 全体として、汎用エージェントの構築には、単一タスク、モデルフリーパラダイムを超えて、リッチで手続き的でマルチタスク環境で訓練された自己教師型モデルベースエージェントに移行する必要があることを示唆する。

One of the key promises of model-based reinforcement learning is the ability to generalize using an internal model of the world to make predictions in novel environments and tasks. However, the generalization ability of model-based agents is not well understood because existing work has focused on model-free agents when benchmarking generalization. Here, we explicitly measure the generalization ability of model-based agents in comparison to their model-free counterparts. We focus our analysis on MuZero (Schrittwieser et al., 2020), a powerful model-based agent, and evaluate its performance on both procedural and task generalization. We identify three factors of procedural generalization -- planning, self-supervised representation learning, and procedural data diversity -- and show that by combining these techniques, we achieve state-of-the art generalization performance and data efficiency on Procgen (Cobbe et al., 2019). However, we find that these factors do not always provide the same benefits for the task generalization benchmarks in Meta-World (Yu et al., 2019), indicating that transfer remains a challenge and may require different approaches than procedural generalization. Overall, we suggest that building generalizable agents requires moving beyond the single-task, model-free paradigm and towards self-supervised model-based agents that are trained in rich, procedural, multi-task environments.
翻訳日:2021-11-03 18:29:55 公開日:2021-11-02
# (参考訳) 腕依存遅延の非定型バンディットと専門家 [全文訳有]

Nonstochastic Bandits and Experts with Arm-Dependent Delays ( http://arxiv.org/abs/2111.01589v1 )

ライセンス: CC BY 4.0
Dirk van der Hoeven and Nicol\`o Cesa-Bianchi(参考訳) 遅延が時間と腕の両方に依存するような遅延設定で非定型的な盗賊や専門家を調査した。 遅延が時間にのみ依存する設定は、広く研究されているが、アーム依存の遅延設定は、新しい技術的課題を導入するコストで、現実世界のアプリケーションをよりよくキャプチャする。 完全な情報(エキスパート)設定では、遅延と損失の間の興味深いトレードオフを示す一階の後悔境界を持つアルゴリズムを設計する。 我々は,学習者が失った損失の数を観察することが許された場合に,バンディット設定にも同様の一階後悔が生じることを証明した。 これらは、最高のアームの損失と遅延にのみ依存する遅延設定の最初の境界である。 バンディット設定において損失以外の情報が観測されていない場合、ジマートとセルディンのアルゴリズム(2020年)の修正を通じて、我々は依然として後悔を証明することができる。 私たちの分析は、ドリフトに束縛された新しいバウンドにかかっており、1ラウンドのルックアヘッドを与えられるとアルゴリズムがどれだけうまく機能するかを測定します。

We study nonstochastic bandits and experts in a delayed setting where delays depend on both time and arms. While the setting in which delays only depend on time has been extensively studied, the arm-dependent delay setting better captures real-world applications at the cost of introducing new technical challenges. In the full information (experts) setting, we design an algorithm with a first-order regret bound that reveals an interesting trade-off between delays and losses. We prove a similar first-order regret bound also for the bandit setting, when the learner is allowed to observe how many losses are missing. These are the first bounds in the delayed setting that depend on the losses and delays of the best arm only. When in the bandit setting no information other than the losses is observed, we still manage to prove a regret bound through a modification to the algorithm of Zimmert and Seldin (2020). Our analyses hinge on a novel bound on the drift, measuring how much better an algorithm can perform when given a look-ahead of one round.
翻訳日:2021-11-03 18:04:34 公開日:2021-11-02
# (参考訳) OSOA: 損失のない圧縮のための深層生成モデルのワンショットオンライン適応 [全文訳有]

OSOA: One-Shot Online Adaptation of Deep Generative Models for Lossless Compression ( http://arxiv.org/abs/2111.01662v1 )

ライセンス: CC BY 4.0
Chen Zhang, Shifeng Zhang, Fabio Maria Carlucci, Zhenguo Li(参考訳) VAEや正規化フローなどのDGM(Deep Generative Model)は、損失のない圧縮に有効なデータモデリング代替手段を提供することを示した。 しかし、DGM自体は通常、大きなストレージスペースを必要とするため、正確なデータ密度推定による利点を汚染する。 異なる対象データセットに対して別々のモデルを保存する必要をなくすため,事前訓練された深層生成モデルから始めて,そのモデルに1時間だけ動的システムを適用しながら圧縮する新しい設定を提案する。 我々はこの設定を,dgmのone-shot online adaptation (osoa) によるロスレス圧縮を定式化し,バニラアルゴリズムを提案する。 実験の結果,vanilla osoaは,単発のモデルと空間をトレーニングするよりも,すべてのターゲットにひとつのモデルを使用することよりも,かなりの時間を節約できることがわかった。 同じ適応ステップ数または適応時間で、バニラOSOAは、事前訓練されたモデルを微調整し、微調整されたモデルを節約するよりも、より優れた空間効率(例:4,7\%$)を示す。 さらに、我々は、OSOAの可能性を示し、より洗練されたOSOAアルゴリズムを動機付け、バッチ毎に複数の更新を行い、より空間や時間効率を示す。

Explicit deep generative models (DGMs), e.g., VAEs and Normalizing Flows, have shown to offer an effective data modelling alternative for lossless compression. However, DGMs themselves normally require large storage space and thus contaminate the advantage brought by accurate data density estimation. To eliminate the requirement of saving separate models for different target datasets, we propose a novel setting that starts from a pretrained deep generative model and compresses the data batches while adapting the model with a dynamical system for only one epoch. We formalise this setting as that of One-Shot Online Adaptation (OSOA) of DGMs for lossless compression and propose a vanilla algorithm under this setting. Experimental results show that vanilla OSOA can save significant time versus training bespoke models and space versus using one model for all targets. With the same adaptation step number or adaptation time, it is shown vanilla OSOA can exhibit better space efficiency, e.g., $47\%$ less space, than fine-tuning the pretrained model and saving the fine-tuned model. Moreover, we showcase the potential of OSOA and motivate more sophisticated OSOA algorithms by showing further space or time efficiency with multiple updates per batch and early stopping.
翻訳日:2021-11-03 17:07:59 公開日:2021-11-02
# (参考訳) 生成的対立ネットワークによる説明可能な医用画像分割とレイヤーワイド関連伝播 [全文訳有]

Explainable Medical Image Segmentation via Generative Adversarial Networks and Layer-wise Relevance Propagation ( http://arxiv.org/abs/2111.01665v1 )

ライセンス: CC BY 4.0
Awadelrahman M. A. Ahmed and Leen A. M. Ali(参考訳) 本稿では,ポリープとインスツルメンツの両方を内視鏡画像に分割するための生成型逆ネットワークモデルを提案することで,医用画像分割の自動化に寄与する。 この研究の主な貢献は、どの入力画像画素が予測とどの程度関連しているかを指定する階層的関連伝播手法を用いて予測を説明することである。 polypのセグメンテーションタスクでは、モデルは0.84の精度と0.46のjaccardインデックスを達成した。 計器セグメンテーションタスクでは、モデルの精度は0.96、ジャカード指数は0.70に達した。 コードはhttps://github.com/A wadelrahman/MedAIで入手できる。

This paper contributes to automating medical image segmentation by proposing generative adversarial network-based models to segment both polyps and instruments in endoscopy images. A major contribution of this work is to provide explanations for the predictions using a layer-wise relevance propagation approach designating which input image pixels are relevant to the predictions and to what extent. On the polyp segmentation task, the models achieved 0.84 of accuracy and 0.46 on Jaccard index. On the instrument segmentation task, the models achieved 0.96 of accuracy and 0.70 on Jaccard index. The code is available at https://github.com/A wadelrahman/MedAI.
翻訳日:2021-11-03 16:44:11 公開日:2021-11-02
# (参考訳) テキストベースフィッシング検出に向けて [全文訳有]

Towards text-based phishing detection ( http://arxiv.org/abs/2111.01676v1 )

ライセンス: CC BY 4.0
Gilchan Park and Julia M. Taylor(参考訳) 本稿では,テキストベースのフィッシング検出を,容易に利用可能なリソースを用いて,セマンティクスを使わずに行う実験について報告する。 開発されたアルゴリズムは、同じツールで動作する以前に公開された作業の修正版である。 フィッシングメールを認識できた結果は、以前報告されたものよりもかなり優れているが、フィッシングと誤認されたテキストの割合はやや悪い。 検出精度を維持しつつ,意味成分を付加することで偽陽性率を低減できることが期待される。

This paper reports on an experiment into text-based phishing detection using readily available resources and without the use of semantics. The developed algorithm is a modified version of previously published work that works with the same tools. The results obtained in recognizing phishing emails are considerably better than the previously reported work; but the rate of text falsely identified as phishing is slightly worse. It is expected that adding semantic component will reduce the false positive rate while preserving the detection accuracy.
翻訳日:2021-11-03 16:40:42 公開日:2021-11-02
# (参考訳) ニューラルネットワークに対する低ランク+スパーステンソル圧縮 [全文訳有]

Low-Rank+Sparse Tensor Compression for Neural Networks ( http://arxiv.org/abs/2111.01697v1 )

ライセンス: CC BY 4.0
Cole Hawkins, Haichuan Yang, Meng Li, Liangzhen Lai, Vikas Chandra(参考訳) 低ランクテンソル圧縮は、エッジデバイスに展開するニューラルネットワークのメモリと計算要求を減らすための有望なアプローチとして提案されている。 テンソル圧縮は、ネットワーク重みが粗い高次構造を持つと仮定することで、ニューラルネットワーク重みを表すために必要なパラメータの数を減らす。 この粗い構造仮定は、VGGやResNetのような大きなニューラルネットワークの圧縮に応用されている。 しかし、コンピュータビジョンタスク(MobileNet、EfficientNet)のための最新の最先端のニューラルネットワークは、深く分離可能な畳み込みを通じて粗い分解構造を前提としており、純粋なテンソル分解はより魅力的ではない。 本稿では,低ランクテンソル分解とスパースプルーニングを組み合わせることで,圧縮の粗さと微細構造を両立させることを提案する。 我々はSOTAアーキテクチャ(MobileNetv3、EfficientNet、Vision Transformer)の重みを圧縮し、この手法をスパースプルーニングとテンソル分解だけで比較する。

Low-rank tensor compression has been proposed as a promising approach to reduce the memory and compute requirements of neural networks for their deployment on edge devices. Tensor compression reduces the number of parameters required to represent a neural network weight by assuming network weights possess a coarse higher-order structure. This coarse structure assumption has been applied to compress large neural networks such as VGG and ResNet. However modern state-of-the-art neural networks for computer vision tasks (i.e. MobileNet, EfficientNet) already assume a coarse factorized structure through depthwise separable convolutions, making pure tensor decomposition a less attractive approach. We propose to combine low-rank tensor decomposition with sparse pruning in order to take advantage of both coarse and fine structure for compression. We compress weights in SOTA architectures (MobileNetv3, EfficientNet, Vision Transformer) and compare this approach to sparse pruning and tensor decomposition alone.
翻訳日:2021-11-03 16:32:27 公開日:2021-11-02
# (参考訳) aiの倫理声明 -- 幅広い影響声明から学んだ分析と教訓 [全文訳有]

AI Ethics Statements -- Analysis and lessons learnt from NeurIPS Broader Impact Statements ( http://arxiv.org/abs/2111.01705v1 )

ライセンス: CC BY 4.0
Carolyn Ashurst, Emmie Hine, Paul Sedille, Alexis Carlier(参考訳) 倫理声明は、透明性を高め、公表された研究の社会的影響に対する反省を促進するメカニズムとして提案されている。 2020年、機械学習(ML)カンファレンスNeurIPSは、すべての論文に広範なインパクトステートメントを含むことを要求して、新たな基盤を突破した。 この要件はチェックリストアプローチに賛成して2021年に取り除かれた。 それゆえ、2020年の声明は、より広範なインパクト実験から学ぶためのユニークな機会を提供する。これと類似のガバナンスメカニズムの利点と課題を調査し、ml研究者が自分たちの仕事の社会的影響をどう考えるかに関する洞察を提供する。 このような学習はNeurIPSや他の施設が政策を疑問視し、適応し続けているため必要である。 これを実現するために、我々は、すべてのNeurIPS 2020論文のインパクトステートメントを含むデータセットを作成し、アフィリエレーションタイプ、位置と対象領域などの追加情報と、探索のためのシンプルな可視化ツールを作成しました。 また、データセットを定量的に分析し、表現、エンゲージメント、共通テーマ、潜在的な害と利益を議論する意思などについて説明する。 本研究は, 地理, 所属型, 主題領域によって異なる要因について検討する。 これらの結果を踏まえて,倫理声明要求の潜在的利益と否定的結果,それらの要因と関連する課題について考察する。 これらのことから、2020年の要件から学ぶべき教訓がいくつかあります。 (i)適切なインセンティブを作ることの重要性。 (二)明確な期待と指導の必要性、 三 透明性及び建設的熟考の重要性 我々は、他の研究者が我々のデータセットを使用してさらなる分析を行い、研究者がこの要件にどう対応したかを理解し、これと関連するメカニズムの利点と課題を調査することを奨励する。

Ethics statements have been proposed as a mechanism to increase transparency and promote reflection on the societal impacts of published research. In 2020, the machine learning (ML) conference NeurIPS broke new ground by requiring that all papers include a broader impact statement. This requirement was removed in 2021, in favour of a checklist approach. The 2020 statements therefore provide a unique opportunity to learn from the broader impact experiment: to investigate the benefits and challenges of this and similar governance mechanisms, as well as providing an insight into how ML researchers think about the societal impacts of their own work. Such learning is needed as NeurIPS and other venues continue to question and adapt their policies. To enable this, we have created a dataset containing the impact statements from all NeurIPS 2020 papers, along with additional information such as affiliation type, location and subject area, and a simple visualisation tool for exploration. We also provide an initial quantitative analysis of the dataset, covering representation, engagement, common themes, and willingness to discuss potential harms alongside benefits. We investigate how these vary by geography, affiliation type and subject area. Drawing on these findings, we discuss the potential benefits and negative outcomes of ethics statement requirements, and their possible causes and associated challenges. These lead us to several lessons to be learnt from the 2020 requirement: (i) the importance of creating the right incentives, (ii) the need for clear expectations and guidance, and (iii) the importance of transparency and constructive deliberation. We encourage other researchers to use our dataset to provide additional analysis, to further our understanding of how researchers responded to this requirement, and to investigate the benefits and challenges of this and related mechanisms.
翻訳日:2021-11-03 16:22:00 公開日:2021-11-02
# (参考訳) スコアベース生成モデルによるリアル銀河画像シミュレーション [全文訳有]

Realistic galaxy image simulation via score-based generative models ( http://arxiv.org/abs/2111.01713v1 )

ライセンス: CC BY-SA 4.0
Michael J. Smith (Hertfordshire), James E. Geach, Ryan A. Jackson, Nikhil Arora, Connor Stone, St\'ephane Courteau(参考訳) 本稿では,銀河の観測を模倣した現実的かつ偽のイメージを生成するために,スコアベース生成モデルのクラスであるDenoising Diffusion Probabalistic Model (DDPM)が利用できることを示す。 本手法は,銀河系外調査(probes)試料とsloan digital sky surveyから選択した銀河の光度および回転曲線観測から,暗エネルギー分光器grzイメージングを用いて検証した。 主観的には、生成された銀河は実際のデータセットのサンプルと比較すると非常に現実的である。 本研究では,「Fr\'echet Inception Distance」を用いて,深層学習文献からの借用により類似性を定量化し,主観的および形態的類似性を検証した。 また,「合成ギャラクシーディスタンス(Synthetic Galaxy Distance)」測定基準を導入し,基本真理親と合成子データセットの創発的物理的特性(総等級,色,半光半径など)を比較した。 ddpmアプローチは、逆ネットワークのような他の生成的手法よりもシャープでリアルな画像を生成し(よりコストのかかる推論の欠点がある)、特定の画像調査に合わせた大規模な合成観察のサンプルを生成するのに使うことができる。 DDPMの2つの潜在的な用途として、(1)衛星軌道などの隠蔽データの正確なインペイント、(2)ドメイン転送、(2)新しい入力画像を処理してDDPMトレーニングセットの特性を模倣する。 ここではドメイン転送の概念実証として「DESI-fy」の漫画画像について述べる。 最後に、天文学コミュニティにおけるこのトピックに関するさらなる研究の動機となるスコアベースのアプローチへの潜在的な応用を提案する。

We show that a Denoising Diffusion Probabalistic Model (DDPM), a class of score-based generative model, can be used to produce realistic yet fake images that mimic observations of galaxies. Our method is tested with Dark Energy Spectroscopic Instrument grz imaging of galaxies from the Photometry and Rotation curve OBservations from Extragalactic Surveys (PROBES) sample and galaxies selected from the Sloan Digital Sky Survey. Subjectively, the generated galaxies are highly realistic when compared with samples from the real dataset. We quantify the similarity by borrowing from the deep generative learning literature, using the `Fr\'echet Inception Distance' to test for subjective and morphological similarity. We also introduce the `Synthetic Galaxy Distance' metric to compare the emergent physical properties (such as total magnitude, colour and half light radius) of a ground truth parent and synthesised child dataset. We argue that the DDPM approach produces sharper and more realistic images than other generative methods such as Adversarial Networks (with the downside of more costly inference), and could be used to produce large samples of synthetic observations tailored to a specific imaging survey. We demonstrate two potential uses of the DDPM: (1) accurate in-painting of occluded data, such as satellite trails, and (2) domain transfer, where new input images can be processed to mimic the properties of the DDPM training set. Here we `DESI-fy' cartoon images as a proof of concept for domain transfer. Finally, we suggest potential applications for score-based approaches that could motivate further research on this topic within the astronomical community.
翻訳日:2021-11-03 16:05:34 公開日:2021-11-02
# (参考訳) 深層学習物体検出と単眼深度推定モデルに基づく絶対距離予測 [全文訳有]

Absolute distance prediction based on deep learning object detection and monocular depth estimation models ( http://arxiv.org/abs/2111.01715v1 )

ライセンス: CC BY 4.0
Armin Masoumian, David G. F. Marei, Saddam Abdulwahab, Julian Cristiano, Domenec Puig and Hatem A. Rashwan(参考訳) ステレオカメラや3Dカメラを用いて深度画像を推定することにより、シーン内の物体と2次元画像からのカメラセンサの距離を推定できる。 深さ推定の結果は、現実に適用できる絶対距離を計算するために使用できる相対距離である。 しかし, 2次元単眼カメラを用いた距離推定は非常に困難である。 本稿では,1つの画像を用いた深度推定と物体検出のための2つの深度ネットワークからなる深度学習フレームワークを提案する。 まず、シーン内のオブジェクトを検出し、YOLOv5(You Only Look Once)ネットワークを使用してローカライズする。 並行して、推定深度画像をディープオートエンコーダネットワークを用いて計算し、相対距離を検出する。 対象検出に基づくYOLOは、教師付き学習技術を用いて訓練され、その上で、深さ推定のネットワークは自己教師付き訓練であった。 屋外シーンの実際の画像から提案した距離推定フレームワークを評価した。 その結果,提案したフレームワークは有望であり,RMSEが0.203の精度で96%の精度が得られることがわかった。

Determining the distance between the objects in a scene and the camera sensor from 2D images is feasible by estimating depth images using stereo cameras or 3D cameras. The outcome of depth estimation is relative distances that can be used to calculate absolute distances to be applicable in reality. However, distance estimation is very challenging using 2D monocular cameras. This paper presents a deep learning framework that consists of two deep networks for depth estimation and object detection using a single image. Firstly, objects in the scene are detected and localized using the You Only Look Once (YOLOv5) network. In parallel, the estimated depth image is computed using a deep autoencoder network to detect the relative distances. The proposed object detection based YOLO was trained using a supervised learning technique, in turn, the network of depth estimation was self-supervised training. The presented distance estimation framework was evaluated on real images of outdoor scenes. The achieved results show that the proposed framework is promising and it yields an accuracy of 96% with RMSE of 0.203 of the correct absolute distance.
翻訳日:2021-11-03 15:43:12 公開日:2021-11-02
# (参考訳) CPSeg: 3次元LiDAR点雲のクラスタフリーパノプティックセグメンテーション [全文訳有]

CPSeg: Cluster-free Panoptic Segmentation of 3D LiDAR Point Clouds ( http://arxiv.org/abs/2111.01723v1 )

ライセンス: CC BY-SA 4.0
Enxu Li, Ryan Razani, Yixuan Xu, Bingbing Liu(参考訳) 高速かつ正確なLiDAR点雲分割システムは、自動運転車が周囲の物体やシーンを理解するために不可欠である。 既存のアプローチは通常、セグメントフォアグラウンドインスタンスに対する提案やクラスタリングに依存している。 その結果、リアルタイムパフォーマンスを達成するのに苦労した。 本稿では,lidar点群に対するリアルタイムエンドツーエンドのパオプティカルセグメンテーションネットワークであるcpsegを提案する。 特に、CPSegは、共有エンコーダ、デュアルデコーダ、タスク認識アテンションモジュール(TAM)、クラスタフリーインスタンスセグメンテーションヘッドを含む。 TAMは、これらの2つのデコーダを強制して、セマンティックとインスタンスの埋め込みのためのリッチなタスク認識機能を学ぶように設計されている。 さらに、CPSegは新しいクラスタフリーインスタンスセグメンテーションヘッドを組み込んで、学習した埋め込みに応じて前景点を動的に柱付けする。 次に、ペアワイズ埋め込み比較で連結された柱を見つけ、インスタンスラベルを取得する。 これにより、従来の提案またはクラスタリングに基づくインスタンスセグメンテーションは、ペアワイズ埋め込み比較行列上のバイナリセグメンテーション問題に変換される。 ネットワーク回帰インスタンスの埋め込みを支援するため,高速かつ決定論的深度補完アルゴリズムを提案し,各点雲の表面正規度をリアルタイムに算出する。 提案手法は、SemanticKITTIとnuScenesという2つの大規模自律走行データセットでベンチマークされる。 特に、CPSegが両方のデータセットに対してリアルタイムにアプローチすることで、最先端の結果が得られている。

A fast and accurate panoptic segmentation system for LiDAR point clouds is crucial for autonomous driving vehicles to understand the surrounding objects and scenes. Existing approaches usually rely on proposals or clustering to segment foreground instances. As a result, they struggle to achieve real-time performance. In this paper, we propose a novel real-time end-to-end panoptic segmentation network for LiDAR point clouds, called CPSeg. In particular, CPSeg comprises a shared encoder, a dual decoder, a task-aware attention module (TAM) and a cluster-free instance segmentation head. TAM is designed to enforce these two decoders to learn rich task-aware features for semantic and instance embedding. Moreover, CPSeg incorporates a new cluster-free instance segmentation head to dynamically pillarize foreground points according to the learned embedding. Then, it acquires instance labels by finding connected pillars with a pairwise embedding comparison. Thus, the conventional proposal-based or clustering-based instance segmentation is transformed into a binary segmentation problem on the pairwise embedding comparison matrix. To help the network regress instance embedding, a fast and deterministic depth completion algorithm is proposed to calculate surface normal of each point cloud in real-time. The proposed method is benchmarked on two large-scale autonomous driving datasets, namely, SemanticKITTI and nuScenes. Notably, extensive experimental results show that CPSeg achieves the state-of-the-art results among real-time approaches on both datasets.
翻訳日:2021-11-03 15:34:48 公開日:2021-11-02
# (参考訳) ヒューマントレーニング、支援、説明可能性のためのインストラクティブ人工知能(AI) [全文訳有]

Instructive artificial intelligence (AI) for human training, assistance, and explainability ( http://arxiv.org/abs/2111.01726v1 )

ライセンス: CC BY 4.0
Nicholas Kantack, Nina Cohen, Nathan Bos, Corey Lowman, James Everett, and Timothy Endres(参考訳) 本稿では,ニューラルネットワークの「指導」の概念に基づく,説明可能なAI(XAI)の新たなアプローチを提案する。 このケーススタディでは、XAIの従来のアプローチの代替として、超人的ニューラルネットワークが人間の訓練者をいかに指導するかを示す。 具体的には、AIは人間の行動を調べ、より良いパフォーマンスをもたらす人間の戦略のバリエーションを計算する。 協力型カードゲーム「はなび」のためのJHU/APLが開発したAIプレイヤーを用いた実験は、人間のパフォーマンスを改善しながら説明可能性に独特な貢献をすることを示唆している。 インストラクティブAIの焦点の1つは、人間の実際の戦略と彼らが使用する戦略との間に生じる大きな相違である。 この不正確な自己評価は、AIの戦略の説明が人間の受信者によって適切に理解または実施されないため、XAIにとって障壁となる。 我々は、人間の行動を観察することによって人間の戦略を推定する、新しいインストラクティブAIアプローチを開発し、テストしている。 ニューラルネットワークによって、aiをよりうまくエミュレートするために人間の戦略を改善するために必要な重みの変化を直接計算できるようになる。 制約(空間性など)に従うと、これらの重み変化は人間の戦略に対する推奨的な変化として解釈できる(例えば、"value A more, and value B less")。 このようなAIからの指示は、人間のタスクの改善を支援するだけでなく、AIのアクションをよりよく理解し、予測し、修正するのに役立つ。 結果は、ハナビにおける人間の意思決定と人間-AIチームを改善するAIインストラクションの能力について提示される。

We propose a novel approach to explainable AI (XAI) based on the concept of "instruction" from neural networks. In this case study, we demonstrate how a superhuman neural network might instruct human trainees as an alternative to traditional approaches to XAI. Specifically, an AI examines human actions and calculates variations on the human strategy that lead to better performance. Experiments with a JHU/APL-developed AI player for the cooperative card game Hanabi suggest this technique makes unique contributions to explainability while improving human performance. One area of focus for Instructive AI is in the significant discrepancies that can arise between a human's actual strategy and the strategy they profess to use. This inaccurate self-assessment presents a barrier for XAI, since explanations of an AI's strategy may not be properly understood or implemented by human recipients. We have developed and are testing a novel, Instructive AI approach that estimates human strategy by observing human actions. With neural networks, this allows a direct calculation of the changes in weights needed to improve the human strategy to better emulate a more successful AI. Subjected to constraints (e.g. sparsity) these weight changes can be interpreted as recommended changes to human strategy (e.g. "value A more, and value B less"). Instruction from AI such as this functions both to help humans perform better at tasks, but also to better understand, anticipate, and correct the actions of an AI. Results will be presented on AI instruction's ability to improve human decision-making and human-AI teaming in Hanabi.
翻訳日:2021-11-03 15:23:32 公開日:2021-11-02
# (参考訳) 事前学習を改善するメタラーニング

Meta-Learning to Improve Pre-Training ( http://arxiv.org/abs/2111.01754v1 )

ライセンス: CC BY 4.0
Aniruddh Raghu, Jonathan Lorraine, Simon Kornblith, Matthew McDermott, David Duvenaud(参考訳) pre-training (pt) と fine-tuning (ft) はニューラルネットワークのトレーニングに有効な方法であり、多くの領域で大幅なパフォーマンス向上をもたらした。 PTは、タスクとデータ再重み付け戦略、拡張ポリシー、ノイズモデルなどの様々な設計選択を組み込むことができ、これらすべてが学習した表現の質に大きな影響を与える。 したがって、これらの戦略によって導入されたハイパーパラメータは適切に調整されなければならない。 しかし、これらのハイパーパラメータの値の設定は困難である。 既存のほとんどの手法は、高次元にスケールするのに苦労するが、遅すぎ、メモリ集約的であるか、2段階のPTおよびFT学習プロセスに直接適用できない。 本研究では,メタ学習型PTハイパーパラメータに対する効率よく勾配に基づくアルゴリズムを提案する。 本稿では,PTハイパーパラメータ最適化問題を定式化し,非スクロール最適化による暗黙の微分とバックプロパゲーションを組み合わせたPTハイパーパラメータ勾配を求める手法を提案する。 本手法は2つの実世界領域における予測性能を向上させることを実証する。 まず,タンパク質間相互作用グラフのマルチタスク事前学習のためのハイパーパラメータの高次元タスク重み付けを最適化し,AUROCを最大3.9%改善する。 次に、心電図データ上でSimCLRを用いた自己教師型PTのためのデータ拡張ニューラルネットワークを最適化し、AUROCを最大1.9%改善する。

Pre-training (PT) followed by fine-tuning (FT) is an effective method for training neural networks, and has led to significant performance improvements in many domains. PT can incorporate various design choices such as task and data reweighting strategies, augmentation policies, and noise models, all of which can significantly impact the quality of representations learned. The hyperparameters introduced by these strategies therefore must be tuned appropriately. However, setting the values of these hyperparameters is challenging. Most existing methods either struggle to scale to high dimensions, are too slow and memory-intensive, or cannot be directly applied to the two-stage PT and FT learning process. In this work, we propose an efficient, gradient-based algorithm to meta-learn PT hyperparameters. We formalize the PT hyperparameter optimization problem and propose a novel method to obtain PT hyperparameter gradients by combining implicit differentiation and backpropagation through unrolled optimization. We demonstrate that our method improves predictive performance on two real-world domains. First, we optimize high-dimensional task weighting hyperparameters for multitask pre-training on protein-protein interaction graphs and improve AUROC by up to 3.9%. Second, we optimize a data augmentation neural network for self-supervised PT with SimCLR on electrocardiography data and improve AUROC by up to 1.9%.
翻訳日:2021-11-03 15:12:33 公開日:2021-11-02
# (参考訳) レベルセット推定のための準最適アルゴリズム

Nearly Optimal Algorithms for Level Set Estimation ( http://arxiv.org/abs/2111.01768v1 )

ライセンス: CC BY 4.0
Blake Mason, Romain Camilleri, Subhojyoti Mukherjee, Kevin Jamieson, Robert Nowak, Lalit Jain(参考訳) レベルセット推定問題は、未知関数 $f:{\cal X}\rightarrow \mathbb{R}$ の値が閾値 $\alpha$ を超えるような領域のすべての点を見つけようとする。 この推定は、${\cal x}$ で逐次および適応的に選択された場所で得られるノイズ関数評価に基づいている。 しきい値 $\alpha$ は \emph{explicit} であり、事前値として \emph{implicit} が与えられ、与えられた $\epsilon > 0$ に対して $\alpha = (1-\epsilon)f(x_\ast )$ という最適関数値に対して定義される。 本研究では,再生核ヒルベルト空間(rkhs)における線形バンドイットに対する近年の適応的実験設計法に関連して,レベル集合推定問題に対する新しいアプローチを提案する。 我々は、RKHSの関数から未知の誤特定まで、$f$を近似できると仮定し、この設定における暗黙的かつ明示的なケースに対して、強い理論的保証を持つ新しいアルゴリズムを提供する。 さらに、線形(カーネル)設定では、我々の境界はほぼ最適であり、つまり、我々の上界は閾値線形バンドイットの既存の下界と一致することを示す。 我々の知る限り、この研究は、情報理論の下界と一致するレベルセット推定のサンプルの複雑さに関する最初のインスタンス依存の非漸近上界を提供する。

The level set estimation problem seeks to find all points in a domain ${\cal X}$ where the value of an unknown function $f:{\cal X}\rightarrow \mathbb{R}$ exceeds a threshold $\alpha$. The estimation is based on noisy function evaluations that may be acquired at sequentially and adaptively chosen locations in ${\cal X}$. The threshold value $\alpha$ can either be \emph{explicit} and provided a priori, or \emph{implicit} and defined relative to the optimal function value, i.e. $\alpha = (1-\epsilon)f(x_\ast )$ for a given $\epsilon > 0$ where $f(x_\ast)$ is the maximal function value and is unknown. In this work we provide a new approach to the level set estimation problem by relating it to recent adaptive experimental design methods for linear bandits in the Reproducing Kernel Hilbert Space (RKHS) setting. We assume that $f$ can be approximated by a function in the RKHS up to an unknown misspecification and provide novel algorithms for both the implicit and explicit cases in this setting with strong theoretical guarantees. Moreover, in the linear (kernel) setting, we show that our bounds are nearly optimal, namely, our upper bounds match existing lower bounds for threshold linear bandits. To our knowledge this work provides the first instance-dependent, non-asymptotic upper bounds on sample complexity of level-set estimation that match information theoretic lower bounds.
翻訳日:2021-11-03 15:11:34 公開日:2021-11-02
# オーバーラップモデルと非オーバーラップモデル

Overlapping and nonoverlapping models ( http://arxiv.org/abs/2111.01392v1 )

ライセンス: Link先を確認
Huan Qing(参考訳) k_{r}$行コミュニティと$k_{c}$列コミュニティを持つ有向ネットワークを考える。 以前の研究では、すべてのノードが重複するプロパティを持つ有向ネットワークのモデリングには、識別性のために$k_{r}=k_{c}$が必要であることがわかった。 本稿では,列ノードが重複する特性を持つ有向ネットワークについて,列ノードが重複しない場合のオーバラップ・非オーバラップモデルを提案する。 提案されたモデルは、$k_{r}\leq k_{c}$で識別できる。 一方,ノード次数が変化する有向ネットワークに対して,onmの拡張として1つの識別可能なモデルを提供する。 一貫した推定に関する理論的保証を持つ2つのスペクトルアルゴリズムは、モデルに適合するように設計されている。 アルゴリズムを説明するために、小さな数値的な研究が用いられる。

Consider a directed network with $K_{r}$ row communities and $K_{c}$ column communities. Previous works found that modeling directed networks in which all nodes have overlapping property requires $K_{r}=K_{c}$ for identifiability. In this paper, we propose an overlapping and nonoverlapping model to study directed networks in which row nodes have overlapping property while column nodes do not. The proposed model is identifiable when $K_{r}\leq K_{c}$. Meanwhile, we provide one identifiable model as extension of ONM to model directed networks with variation in node degree. Two spectral algorithms with theoretical guarantee on consistent estimations are designed to fit the models. A small scale of numerical studies are used to illustrate the algorithms.
翻訳日:2021-11-03 15:07:23 公開日:2021-11-02
# エンコーダ・デコーダによる頭蓋内深部電極からの音声合成

Synthesizing Speech from Intracranial Depth Electrodes using an Encoder-Decoder Framework ( http://arxiv.org/abs/2111.01457v1 )

ライセンス: Link先を確認
Jonas Kohler, Maarten C. Ottenhoff, Sophocles Goulis, Miguel Angrick, Albert J. Colon, Louis Wagner, Simon Tousseyn, Pieter L. Kubben, Christian Herff(参考訳) 言語ニューロプロテーゼは、構音障害や不整脈の人のためのコミュニケーションを可能にする可能性を秘めている。 最近の進歩は、皮質表面に配置した電気皮質グリッドから高品質なテキストデコードと音声合成を実証している。 そこで本研究では,皮質下領域を含む複数の脳領域からスパースサンプリングを行う定位脳波(sEEG)の低侵襲計測法について検討する。 ニューラル記録から高品質な音声を合成するのにsEEGが使えるかどうかを評価するために,現代のディープラーニング手法に基づく繰り返しエンコーダ・デコーダ・フレームワークを用いる。 少ないトレーニングデータにもかかわらず,これらの低侵襲な記録から高品質な音声を再構成できることを実証する。 最後に,最も情報性の高い電極接触の同定にバラツキ特徴ドロップアウトを用いる。

Speech Neuroprostheses have the potential to enable communication for people with dysarthria or anarthria. Recent advances have demonstrated high-quality text decoding and speech synthesis from electrocorticographi c grids placed on the cortical surface. Here, we investigate a less invasive measurement modality, namely stereotactic EEG (sEEG) that provides sparse sampling from multiple brain regions, including subcortical regions. To evaluate whether sEEG can also be used to synthesize high-quality audio from neural recordings, we employ a recurrent encoder-decoder framework based on modern deep learning methods. We demonstrate that high-quality speech can be reconstructed from these minimally invasive recordings, despite a limited amount of training data. Finally, we utilize variational feature dropout to successfully identify the most informative electrode contacts.
翻訳日:2021-11-03 15:07:13 公開日:2021-11-02
# ニューラルネットワーク判別器による生成的敵対ネットワークのスパイク:局所学習、ベイズモデル、連続メタラーニング

Spiking Generative Adversarial Networks With a Neural Network Discriminator: Local Training, Bayesian Models, and Continual Meta-Learning ( http://arxiv.org/abs/2111.01750v1 )

ライセンス: Link先を確認
Bleema Rosenfeld, Osvaldo Simeone, Bipin Rajendran(参考訳) ニューロモルフィックデータはスパイクによって符号化された時空間パターンの情報を運ぶ。 したがって、ニューロモルフィックコンピューティングにおける中心的な問題は、スパイキング刺激に応じて時空間スパイキングパターンを再現するためにスパイキングニューラルネットワーク(SNN)を訓練することである。 既存のほとんどのアプローチは、特定の所望の出力スパイクシーケンスに各入力を割り当てることで、SNNの入力出力挙動を決定論的にモデル化する。 対照的に,スパイクの時間エンコーディング能力を十分に活用するために,個々のスパイク信号ではなくスパイク信号の分布を一致させるようにsnsを訓練することを提案する。 そこで本研究では,SNNを介して実装された条件付きジェネレータと,従来のニューラルネットワーク(ANN)によって実装された識別器とを組み合わせた,新しいハイブリッドアーキテクチャを提案する。 ANNの役割は、GAN(Generative Adversarial Network)の原則に従う敵の反復学習戦略において、SNNにトレーニング中にフィードバックを提供することである。 マルチモーダル時空間分布をよりよく捉えるために、提案手法であるspikeganは、発電機の重量のベイズ学習をサポートするためにさらに拡張されている。 最後に、PikeGANのオンラインメタ学習版を提案することで、時間変化統計による設定に対処する。 実験は、(静的)信念ネットワークと最大可能性(または経験的リスク最小化)に基づく既存のソリューションと比較して、提案手法の利点に関する洞察をもたらす。

Neuromorphic data carries information in spatio-temporal patterns encoded by spikes. Accordingly, a central problem in neuromorphic computing is training spiking neural networks (SNNs) to reproduce spatio-temporal spiking patterns in response to given spiking stimuli. Most existing approaches model the input-output behavior of an SNN in a deterministic fashion by assigning each input to a specific desired output spiking sequence. In contrast, in order to fully leverage the time-encoding capacity of spikes, this work proposes to train SNNs so as to match distributions of spiking signals rather than individual spiking signals. To this end, the paper introduces a novel hybrid architecture comprising a conditional generator, implemented via an SNN, and a discriminator, implemented by a conventional artificial neural network (ANN). The role of the ANN is to provide feedback during training to the SNN within an adversarial iterative learning strategy that follows the principle of generative adversarial network (GANs). In order to better capture multi-modal spatio-temporal distribution, the proposed approach -- termed SpikeGAN -- is further extended to support Bayesian learning of the generator's weight. Finally, settings with time-varying statistics are addressed by proposing an online meta-learning variant of SpikeGAN. Experiments bring insights into the merits of the proposed approach as compared to existing solutions based on (static) belief networks and maximum likelihood (or empirical risk minimization).
翻訳日:2021-11-03 15:05:58 公開日:2021-11-02
# ニューラルネットワークを用いた波動中の6-DoF船動のデータ駆動システム同定

Data-Driven System Identification of 6-DoF Ship Motion in Waves with Neural Networks ( http://arxiv.org/abs/2111.01773v1 )

ライセンス: Link先を確認
Kevin M. Silva and Kevin J. Maki(参考訳) 海洋における船舶応答の批判的評価と理解は、将来のプラットフォームの設計と工学だけでなく、現在配備されている船の運用と安全性にも重要である。 シミュレーションや実験は通常、船の設計中や配備前の名目上の海条件で行われ、その結果は配備中の船舶と海洋環境の瞬時状態を反映するものではない。 現在の波動環境と船の状態から船の応答の短期的予測は、有人船と無人船の双方の意思決定の強化を可能にする。 しかし, 数値流体力学シミュレーションツールの現況は, 計算コストが高すぎるため, 船舶のリアルタイム動作予測に利用できないため, 精度が低く, 正確な応答が得られていない。 長期短期記憶 (lstm) ニューラルネットワークを用いて, 自由走行型デビッド・テイラー・モデル・ベースン (dtmb) 5415駆逐体の動きを表現し, 海面に20ノットの海面不規則な海域で動作させる手法を開発した。 ケーススタディはコースキーピングとターンサークルのシナリオの両方で実施される。 船の遭遇フレームの推定は、訓練データセットで観測された軌道を用いて行われる。 波高の時間履歴は、推定された遭遇フレームと共に移動し、ニューラルネットワークへの入力として機能する人工波プローブによって与えられ、出力は6-DOFの時間的船動応答である。 全体として、ニューラルネットワークは、目に見えない波による船の時間応答を正確に予測できるため、この手法はシステム識別とリアルタイムの船の動き予測に適している。 本手法, モデル精度のウェーブプローブ依存性, トレーニングデータ量, および推定遭遇フレームについて詳述した。

Critical evaluation and understanding of ship responses in the ocean is important for not only the design and engineering of future platforms but also the operation and safety of those that are currently deployed. Simulations or experiments are typically performed in nominal sea conditions during ship design or prior to deployment and the results may not be reflective of the instantaneous state of the vessel and the ocean environment while deployed. Short-term temporal predictions of ship responses given the current wave environment and ship state would enable enhanced decision-making onboard for both manned and unmanned vessels. However, the current state-of-the-art in numerical hydrodynamic simulation tools are too computationally expensive to be employed for real-time ship motion forecasting and the computationally efficient tools are too low fidelity to provide accurate responses. A methodology is developed with long short-term memory (LSTM) neural networks to represent the motions of a free running David Taylor Model Basin (DTMB) 5415 destroyer operating at 20 knots in Sea State 7 stern-quartering irregular seas. Case studies are performed for both course-keeping and turning circle scenarios. An estimate of the vessel's encounter frame is made with the trajectories observed in the training dataset. Wave elevation time histories are given by artificial wave probes that travel with the estimated encounter frame and serve as input into the neural network, while the output is the 6-DOF temporal ship motion response. Overall, the neural network is able to predict the temporal response of the ship due to unseen waves accurately, which makes this methodology suitable for system identification and real-time ship motion forecasting. The methodology, the dependence of model accuracy on wave probe and training data quantity and the estimated encounter frame are all detailed.
翻訳日:2021-11-03 15:05:33 公開日:2021-11-02
# 分散GNNに基づく実世界のマルチロボットシステムのためのフレームワーク

A Framework for Real-World Multi-Robot Systems Running Decentralized GNN-Based Policies ( http://arxiv.org/abs/2111.01777v1 )

ライセンス: Link先を確認
Jan Blumenkamp, Steven Morad, Jennifer Gielis, Qingbiao Li, Amanda Prorok(参考訳) グラフニューラルネットワーク(GNN)は、複雑なマルチエージェント動作の学習を容易にするパラダイムシフト型ニューラルネットワークである。 最近の研究は、群れ、マルチエージェントパス計画、協調的カバレッジといったタスクにおいて顕著なパフォーマンスを示している。 しかし、GNNベースの学習スキームによって導かれるポリシーは、物理マルチロボットシステム上で現実世界にまだ適用されていない。 本稿では,GNN ベースのポリシを分散的に実行可能なシステムの設計について述べる。 我々はROS2に基づくフレームワークを作成し、その詳細を本稿で詳述する。 我々は,ロボット間の緊密な協調を必要とする事例研究の枠組みを実証し,アドホックなコミュニケーションに依存する分散マルチロボットシステム上でgnnベースのポリシーを実世界で展開することに成功した実例を示す。 このケーススタディのビデオはオンラインで見ることができる。 https://www.youtube. com/watch? v=COh-WLn4iO4

Graph Neural Networks (GNNs) are a paradigm-shifting neural architecture to facilitate the learning of complex multi-agent behaviors. Recent work has demonstrated remarkable performance in tasks such as flocking, multi-agent path planning and cooperative coverage. However, the policies derived through GNN-based learning schemes have not yet been deployed to the real-world on physical multi-robot systems. In this work, we present the design of a system that allows for fully decentralized execution of GNN-based policies. We create a framework based on ROS2 and elaborate its details in this paper. We demonstrate our framework on a case-study that requires tight coordination between robots, and present first-of-a-kind results that show successful real-world deployment of GNN-based policies on a decentralized multi-robot system relying on Adhoc communication. A video demonstration of this case-study can be found online. https://www.youtube. com/watch?v=COh-WLn4iO4
翻訳日:2021-11-03 15:05:04 公開日:2021-11-02
# (参考訳) PatchGame: Referential Gamesにおける中レベルのパッチの署名を学ぶ [全文訳有]

PatchGame: Learning to Signal Mid-level Patches in Referential Games ( http://arxiv.org/abs/2111.01785v1 )

ライセンス: CC BY 4.0
Kamal Gupta, Gowthami Somepalli, Anubhav Gupta, Vinoj Jayasundara, Matthias Zwicker, Abhinav Shrivastava(参考訳) 2つのエージェントが離散的ボトルネックを介して相互に通信し,共通の目標を達成するためのレファレンシャルゲーム(シグナリングゲームの一種)について検討した。 私たちの参照ゲームでは、話者のゴールは「重要な」イメージパッチのメッセージまたは象徴的な表現を構成することであるが、リスナーのタスクは話者のメッセージを同じイメージの異なるビューにマッチさせることである。 我々は,2人のエージェントが明示的あるいは暗黙的な監督なしに通信プロトコルを開発することが可能であることを示す。 さらに, 重要なパッチのみを用いた最近の視覚トランスフォーマーの高速化や, 下流認識タスク(例えば分類)の事前学習への応用について検討した。 コードはhttps://github.com/k ampta/patchgame。

We study a referential game (a type of signaling game) where two agents communicate with each other via a discrete bottleneck to achieve a common goal. In our referential game, the goal of the speaker is to compose a message or a symbolic representation of "important" image patches, while the task for the listener is to match the speaker's message to a different view of the same image. We show that it is indeed possible for the two agents to develop a communication protocol without explicit or implicit supervision. We further investigate the developed protocol and show the applications in speeding up recent Vision Transformers by using only important patches, and as pre-training for downstream recognition tasks (e.g., classification). Code available at https://github.com/k ampta/PatchGame.
翻訳日:2021-11-03 15:04:19 公開日:2021-11-02
# 人間のデモとガイドによるロボット超音波スキャンスキルの学習

Learning Robotic Ultrasound Scanning Skills via Human Demonstrations and Guided Explorations ( http://arxiv.org/abs/2111.01625v1 )

ライセンス: Link先を確認
Xutian Deng, Yiting Chen, Fei Chen and Miao Li(参考訳) 近年, 超音波検査は日常的な検査手法となり, 様々な医療応用に広く採用されているため, 超音波検査を自律的に行うロボット超音波システムが望まれている。 しかし,超音波検査のスキルはかなり複雑であり,超音波医の経験に大きく依存している。 本稿では,人間の実演からロボット超音波スキャン技術を学ぶための学習に基づくアプローチを提案する。 まず,ロボット超音波スキャン技術を高次元マルチモーダルモデルにカプセル化し,超音波画像,プローブのポーズ・配置,接触力を考慮した。 第2に, 模倣学習の力を利用して, 経験豊富な超音波医師のデモンストレーションから収集したトレーニングデータを用いて, マルチモーダルモデルの学習を行う。 最後に,学習モデルの性能向上を図るため,ガイド付き探索を用いた後最適化手法を提案する。 提案するフレームワークと学習モデルの利点を検証するために,ロボット実験を行った。

Medical ultrasound has become a routine examination approach nowadays and is widely adopted for different medical applications, so it is desired to have a robotic ultrasound system to perform the ultrasound scanning autonomously. However, the ultrasound scanning skill is considerably complex, which highly depends on the experience of the ultrasound physician. In this paper, we propose a learning-based approach to learn the robotic ultrasound scanning skills from human demonstrations. First, the robotic ultrasound scanning skill is encapsulated into a high-dimensional multi-modal model, which takes the ultrasound images, the pose/position of the probe and the contact force into account. Second, we leverage the power of imitation learning to train the multi-modal model with the training data collected from the demonstrations of experienced ultrasound physicians. Finally, a post-optimization procedure with guided explorations is proposed to further improve the performance of the learned model. Robotic experiments are conducted to validate the advantages of our proposed framework and the learned models.
翻訳日:2021-11-03 14:44:19 公開日:2021-11-02
# 文検索による文章記述を用いた商品の分類

Classification of Goods Using Text Descriptions With Sentences Retrieval ( http://arxiv.org/abs/2111.01663v1 )

ライセンス: Link先を確認
Eunji Lee, Sundong Kim, Sihyun Kim, Sungwon Park, Meeyoung Cha, Soyeon Jung, Suyoung Yang, Yeonsoo Choi, Sungdae Ji, Minsoo Song, Heeja Kim(参考訳) 貿易商品に国際的に認められた商品コード(hsコード)を割り当て、検証する仕事は関税局の重要な機能の一つである。 この決定は関税率を決定するため輸入者や輸出者にとって重要である。 しかし、裁判官が下した裁判所の決定と同様に、経験豊富な税関職員でさえその任務は簡単ではない。 本稿では,この一見困難なhsコード分類を支援するディープラーニングモデルを提案する。 韓国税関とともに、我々はKoELECTRAに基づく決定モデルを構築し、HSコードの最上位と下位の4桁(すなわち、最初の4桁と6桁)を示唆した。 過去の129,084例の評価から,本モデルによるトップ3提案は265のサブヘッドの分類において95.5%の精度を示した。 この有望な結果から、アルゴリズムはhsコード分類タスクを補助することにより、税関職員の時間と労力を大幅に削減することができる。

The task of assigning and validating internationally accepted commodity code (HS code) to traded goods is one of the critical functions at the customs office. This decision is crucial to importers and exporters, as it determines the tariff rate. However, similar to court decisions made by judges, the task can be non-trivial even for experienced customs officers. The current paper proposes a deep learning model to assist this seemingly challenging HS code classification. Together with Korea Customs Service, we built a decision model based on KoELECTRA that suggests the most likely heading and subheadings (i.e., the first four and six digits) of the HS code. Evaluation on 129,084 past cases shows that the top-3 suggestions made by our model have an accuracy of 95.5% in classifying 265 subheadings. This promising result implies algorithms may reduce the time and effort taken by customs officers substantially by assisting the HS code classification task.
翻訳日:2021-11-03 14:44:04 公開日:2021-11-02
# 音響言語類似度を用いた音声処理のための言語間伝達

Cross-lingual Transfer for Speech Processing using Acoustic Language Similarity ( http://arxiv.org/abs/2111.01326v1 )

ライセンス: Link先を確認
Peter Wu, Jiatong Shi, Yifan Zhong, Shinji Watanabe, Alan W Black(参考訳) 現在、音声処理システムは、低リソース言語でのデータ不足のために、ほとんどの言語をサポートしていない。 クロスランガルトランスファーは、高リソースデータを低リソースシステムに組み込むことによって、このデジタルディビジョンを橋渡しする魅力的な方法を提供する。 現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。 しかし、数百の低リソース言語をサポートするために音声システムをスケールアップすることは未解決である。 このギャップを埋めるために,何百もの言語にまたがる音響クロスリンガルトランスファーペアを効率的に識別する言語類似性アプローチを提案する。 本稿では,言語家族分類,音声認識,音声合成タスクにおけるアプローチの有効性を示す。

Speech processing systems currently do not support the vast majority of languages, in part due to the lack of data in low-resource languages. Cross-lingual transfer offers a compelling way to help bridge this digital divide by incorporating high-resource data into low-resource systems. Current cross-lingual algorithms have shown success in text-based tasks and speech-related tasks over some low-resource languages. However, scaling up speech systems to support hundreds of low-resource languages remains unsolved. To help bridge this gap, we propose a language similarity approach that can efficiently identify acoustic cross-lingual transfer pairs across hundreds of languages. We demonstrate the effectiveness of our approach in language family classification, speech recognition, and speech synthesis tasks.
翻訳日:2021-11-03 14:43:27 公開日:2021-11-02
# 属性に基づく深部眼球運動認識:ソフトバイオメトリックスを活用して眼球認識を改善する

Attribute-Based Deep Periocular Recognition: Leveraging Soft Biometrics to Improve Periocular Recognition ( http://arxiv.org/abs/2111.01325v1 )

ライセンス: Link先を確認
Veeru Talreja and Nasser M. Nasrabadi and Matthew C. Valenti(参考訳) 近年では、顔認証が適用できない野生環境(例えば、COVID-19パンデミックによるマスクされた顔)において、眼周囲認識は貴重な生体認証手法として開発されている。 本稿では,属性に基づく深部眼球認識(ADPR)と呼ばれる新しい深部眼球認識フレームワークを提案する。これはソフトバイオメトリックスを予測し,その予測を近部眼球運動認識アルゴリズムに組み込んで,高精度に近部眼球運動像の識別を行う。 本稿では、複数の共有畳み込みニューラルネットワーク(共通ネットワーク)を用いて、2つの独立した専用枝(モダリティ専用層)を出力するエンド・ツー・エンドのフレームワークを提案し、第1の枝は眼周囲の画像の分類を行い、第2の枝は軟部バイオメトリックスを予測する。 次に、これら2つのブランチの特徴を融合して、最終的なperiocular recognitionを行う。 提案手法は,これら2つのタスクを共同で学習するために共有cnn機能空間を使用するだけでなく,推定されたソフトバイオメトリック特徴をトレーニングステップの周囲特徴と融合させることにより,全体的な認識性能を向上させるため,既存の手法とは異なる。 提案モデルは,4つの異なる公開データセットを用いて広範に評価される。 実験結果から,本手法は野生環境下での生体計測による近視認識方法よりも優れていたことが示唆された。

In recent years, periocular recognition has been developed as a valuable biometric identification approach, especially in wild environments (for example, masked faces due to COVID-19 pandemic) where facial recognition may not be applicable. This paper presents a new deep periocular recognition framework called attribute-based deep periocular recognition (ADPR), which predicts soft biometrics and incorporates the prediction into a periocular recognition algorithm to determine identity from periocular images with high accuracy. We propose an end-to-end framework, which uses several shared convolutional neural network (CNN)layers (a common network) whose output feeds two separate dedicated branches (modality dedicated layers); the first branch classifies periocular images while the second branch predicts softn biometrics. Next, the features from these two branches are fused together for a final periocular recognition. The proposed method is different from existing methods as it not only uses a shared CNN feature space to train these two tasks jointly, but it also fuses predicted soft biometric features with the periocular features in the training step to improve the overall periocular recognition performance. Our proposed model is extensively evaluated using four different publicly available datasets. Experimental results indicate that our soft biometric based periocular recognition approach outperforms other state-of-the-art methods for periocular recognition in wild environments.
翻訳日:2021-11-03 14:43:15 公開日:2021-11-02
# ctデータを用いた高次符号付き距離マップの構築と骨形態計測への応用

Constructing High-Order Signed Distance Maps from Computed Tomography Data with Application to Bone Morphometry ( http://arxiv.org/abs/2111.01350v1 )

ライセンス: Link先を確認
Bryce A. Besler, Tannis D. Kemp, Nils D. Forkert, Steven K. Boyd(参考訳) 計算トモグラフィーで画像化した2相材料に対して,高次符号付き距離場を構築するアルゴリズムを提案する。 符号付き距離場は、サンプリングされた信号の距離変換に関連する量子化アーティファクトがないという点で高次である。 狭帯域は符号付き距離場でない暗黙の埋め込みのために拡張された最接近点アルゴリズムを用いて解かれる。 高次高速スイーピングアルゴリズムは、狭帯域を領域の残りの部分まで拡張するために用いられる。 狭帯域および拡張法の精度の順序は理想的暗黙的曲面上で検証される。 ウシの骨の10個の抜去立方体に適用する。 表面の局在, 位相密度の推定, 局所形態計測をこれらの被験者で検証した。 埋め込みは高次であるため、画像データにおいて勾配や曲率を正確に推定することができる。

An algorithm is presented for constructing high-order signed distance fields for two phase materials imaged with computed tomography. The signed distance field is high-order in that it is free of the quantization artifact associated with the distance transform of sampled signals. The narrowband is solved using a closest point algorithm extended for implicit embeddings that are not a signed distance field. The high-order fast sweeping algorithm is used to extend the narrowband to the remainder of the domain. The order of accuracy of the narrowband and extension methods are verified on ideal implicit surfaces. The method is applied to ten excised cubes of bovine trabecular bone. Localization of the surface, estimation of phase densities, and local morphometry is validated with these subjects. Since the embedding is high-order, gradients and thus curvatures can be accurately estimated locally in the image data.
翻訳日:2021-11-03 14:42:52 公開日:2021-11-02
# isp非依存型アンダーディスプレイカメラの画像再構成

ISP-Agnostic Image Reconstruction for Under-Display Cameras ( http://arxiv.org/abs/2111.01511v1 )

ライセンス: Link先を確認
Miao Qi, Yuqi Li, Wolfgang Heidrich(参考訳) 近年,画面面積を最大化しながらモバイルデバイスの形状係数を下げる手段として,アンダーディスプレイカメラが提案されている。 残念なことに、カメラを画面の後ろに配置するとコントラストの喪失、ノイズ、色の変化、散乱アーティファクト、光感度の低下など、画像の歪みが大幅に減少する。 本稿では、ISPに依存しない画像復元パイプラインを提案する。すなわち、どのレガシーISPと組み合わせて、同じISPを用いて通常のカメラの外観にマッチする最終的な画像を生成することができる。 これは、RAW-to-RAW画像復元を行うディープラーニングアプローチによって実現される。 十分なコントラストとシーンの多様性を持つ多数の実写カメラトレーニングデータを得るために,HDRモニタを用いたデータキャプチャ法と,適切なHDRコンテンツを生成するためのデータ拡張法を開発した。 モニタデータは、シーンの多様性が低い実世界のデータで補足されるが、モニタの解像度に制限されることなく詳細なリカバリを実現することができる。 このアプローチは、色とコントラストの復元と画像の詳細化に成功している。

Under-display cameras have been proposed in recent years as a way to reduce the form factor of mobile devices while maximizing the screen area. Unfortunately, placing the camera behind the screen results in significant image distortions, including loss of contrast, blur, noise, color shift, scattering artifacts, and reduced light sensitivity. In this paper, we propose an image-restoration pipeline that is ISP-agnostic, i.e. it can be combined with any legacy ISP to produce a final image that matches the appearance of regular cameras using the same ISP. This is achieved with a deep learning approach that performs a RAW-to-RAW image restoration. To obtain large quantities of real under-display camera training data with sufficient contrast and scene diversity, we furthermore develop a data capture method utilizing an HDR monitor, as well as a data augmentation method to generate suitable HDR content. The monitor data is supplemented with real-world data that has less scene diversity but allows us to achieve fine detail recovery without being limited by the monitor resolution. Together, this approach successfully restores color and contrast as well as image detail.
翻訳日:2021-11-03 14:42:39 公開日:2021-11-02
# Detect-and-Segment: 画像の自動分割のためのディープラーニングアプローチ

Detect-and-Segment: a Deep Learning Approach to Automate Wound Image Segmentation ( http://arxiv.org/abs/2111.01590v1 )

ライセンス: Link先を確認
Gaetano Scebba, Jia Zhang, Sabrina Catanzaro, Carina Mihai, Oliver Distler, Martin Berli, Walter Karlen(参考訳) 慢性的な傷は生活の質に大きく影響する。 適切に管理しなければ、ひどく悪化することがある。 画像に基づく創傷解析は、治癒に関連する重要な特徴を定量化することにより、創傷状態の客観的評価に役立つ。 しかし,創傷の種類,画像背景組成,撮影条件の多様性が高いため,創傷画像のロバストなセグメンテーションが困難となる。 本研究では,高い一般化能力を有する創傷セグメンテーションマップを作成するための深層学習手法であるdiscover-and-segment (ds)を提案する。 このアプローチでは,専用深層ニューラルネットワークが創傷位置を検知し,創傷を非形成的背景から分離し,創傷分節マップを計算した。 糖尿病性足底潰瘍の画像を用いた1データセットを用いて本手法の評価を行った。 さらなるテストには、4つの補足的な独立したデータセットを使用し、異なる部位の傷の種類が多様であった。 マシューズ相関係数(mcc)は、全画像のセグメンテーションを計算する場合の0.29から、同じアプローチで検出とセグメンテーションを組み合わせる場合の0.85に改善した。 補足データセットから抽出した創傷画像に対して,DS法により平均MCCが0.17から0.85に増加した。 さらにDSアプローチは、セグメンテーション性能を維持しながら、最大90%のトレーニングデータを持つセグメンテーションモデルのトレーニングを可能にした。

Chronic wounds significantly impact quality of life. If not properly managed, they can severely deteriorate. Image-based wound analysis could aid in objectively assessing the wound status by quantifying important features that are related to healing. However, the high heterogeneity of the wound types, image background composition, and capturing conditions challenge the robust segmentation of wound images. We present Detect-and-Segment (DS), a deep learning approach to produce wound segmentation maps with high generalization capabilities. In our approach, dedicated deep neural networks detected the wound position, isolated the wound from the uninformative background, and computed the wound segmentation map. We evaluated this approach using one data set with images of diabetic foot ulcers. For further testing, 4 supplemental independent data sets with larger variety of wound types from different body locations were used. The Matthews' correlation coefficient (MCC) improved from 0.29 when computing the segmentation on the full image to 0.85 when combining detection and segmentation in the same approach. When tested on the wound images drawn from the supplemental data sets, the DS approach increased the mean MCC from 0.17 to 0.85. Furthermore, the DS approach enabled the training of segmentation models with up to 90% less training data while maintaining the segmentation performance.
翻訳日:2021-11-03 14:42:20 公開日:2021-11-02
# グラフに基づくデュアルスケールコンテキスト融合による軌道予測

Trajectory Prediction with Graph-based Dual-scale Context Fusion ( http://arxiv.org/abs/2111.01592v1 )

ライセンス: Link先を確認
Lu Zhang, Peiliang Li, Jing Chen and Shaojie Shen(参考訳) 交通参加者の運動予測は安全でロバストな自動運転システム、特に散在する都市環境において不可欠である。 しかし、複雑な道路のトポロジーや他のエージェントの意図が不明なため、非常に困難である。 本稿では,静的駆動コンテキストと動的駆動コンテキストの両方を階層的に符号化するdsp(dual scale predictionor)というグラフに基づく軌道予測ネットワークを提案する。 ラスタ化マップやスパースレーングラフに基づく手法とは異なり、駆動コンテキストを幾何学的特徴と位相的特徴の両方に焦点を当てた2層グラフと考える。 グラフニューラルネットワーク(gnns)は、粒度の異なる特徴を抽出し、その特徴を注意に基づく層間ネットワークに集約することで、より優れた局所的特徴融合を実現する。 最近の目標駆動軌道予測パイプラインに続いて、目標エージェントの確率の高い目標候補を抽出し、これらの目標に基づいて予測軌道を生成する。 提案したデュアルスケールコンテキスト融合ネットワークにより、DSPは正確で人間らしいマルチモーダル軌道を生成することができる。 提案手法は, 大規模argoverse motion forecasting benchmarkにおいて提案手法を評価し, 最近の最先端手法を上回って, 有望な結果を得た。

Motion prediction for traffic participants is essential for a safe and robust automated driving system, especially in cluttered urban environments. However, it is highly challenging due to the complex road topology as well as the uncertain intentions of the other agents. In this paper, we present a graph-based trajectory prediction network named the Dual Scale Predictor (DSP), which encodes both the static and dynamical driving context in a hierarchical manner. Different from methods based on a rasterized map or sparse lane graph, we consider the driving context as a graph with two layers, focusing on both geometrical and topological features. Graph neural networks (GNNs) are applied to extract features with different levels of granularity, and features are subsequently aggregated with attention-based inter-layer networks, realizing better local-global feature fusion. Following the recent goal-driven trajectory prediction pipeline, goal candidates with high likelihood for the target agent are extracted, and predicted trajectories are generated conditioned on these goals. Thanks to the proposed dual-scale context fusion network, our DSP is able to generate accurate and human-like multi-modal trajectories. We evaluate the proposed method on the large-scale Argoverse motion forecasting benchmark, and it achieves promising results, outperforming the recent state-of-the-art methods.
翻訳日:2021-11-03 14:42:00 公開日:2021-11-02
# tri-attention fusion 誘導マルチモーダルセグメンテーションネットワーク

A Tri-attention Fusion Guided Multi-modal Segmentation Network ( http://arxiv.org/abs/2111.01623v1 )

ライセンス: Link先を確認
Tongxue Zhou, Su Ruan, Pierre Vera and St\'ephane Canu(参考訳) マルチモーダルセグメンテーションの分野では、セグメンテーション結果を改善するために異なるモダリティ間の相関を考えることができる。 本稿では,異なるMRモード間の相関を考慮し,新しい三点融合によって導かれる多モードセグメンテーションネットワークを提案する。 我々のネットワークは、N個の画像ソースを持つN個のモデル非依存の符号化パス、三つのアテンション融合ブロック、二重アテンション融合ブロック、デコードパスを含む。 モデル独立符号化パスは n 個のモダリティからモダリティ特有の特徴をキャプチャすることができる。 エンコーダから抽出された全ての特徴がセグメンテーションに有用であるわけではないことを考慮し、重み付けに基づく融合を用いて、モダリティと空間パスに沿った特徴を再重み付けし、より少ない情報的特徴を抑え、異なる位置における各モダリティに有用な特徴を強調することを提案する。 異なるモダリティの間には強い相関関係が存在するので, 2重注意融合ブロックに基づいて, 3重接触融合ブロックを形成する相関注意モジュールを提案する。 相関注意モジュールでは、まず相関記述ブロックを使用してモダリティ間の相関を学習し、その後、相関に基づく制約を使用してネットワークを誘導し、セグメント化により関連する潜在相関特徴を学習する。 そして、得られた融合特徴表現をデコーダによって投影してセグメンテーション結果を得る。 実験の結果,BraTS 2018データセットを用いて脳腫瘍セグメント化実験を行い,提案手法の有効性を実証した。

In the field of multimodal segmentation, the correlation between different modalities can be considered for improving the segmentation results. Considering the correlation between different MR modalities, in this paper, we propose a multi-modality segmentation network guided by a novel tri-attention fusion. Our network includes N model-independent encoding paths with N image sources, a tri-attention fusion block, a dual-attention fusion block, and a decoding path. The model independent encoding paths can capture modality-specific features from the N modalities. Considering that not all the features extracted from the encoders are useful for segmentation, we propose to use dual attention based fusion to re-weight the features along the modality and space paths, which can suppress less informative features and emphasize the useful ones for each modality at different positions. Since there exists a strong correlation between different modalities, based on the dual attention fusion block, we propose a correlation attention module to form the tri-attention fusion block. In the correlation attention module, a correlation description block is first used to learn the correlation between modalities and then a constraint based on the correlation is used to guide the network to learn the latent correlated features which are more relevant for segmentation. Finally, the obtained fused feature representation is projected by the decoder to obtain the segmentation results. Our experiment results tested on BraTS 2018 dataset for brain tumor segmentation demonstrate the effectiveness of our proposed method.
翻訳日:2021-11-03 14:41:11 公開日:2021-11-02
# 金融サービスにおける公正で倫理的なAIソリューション開発の現状と課題

On the Current and Emerging Challenges of Developing Fair and Ethical AI Solutions in Financial Services ( http://arxiv.org/abs/2111.01306v1 )

ライセンス: Link先を確認
Eren Kurshan and Jiahao Chen and Victor Storchan and Hongda Shen(参考訳) 人工知能(AI)は金融サービス業界において、より多数の、より重要な応用を見つけ続けており、業界全体の目的として公正で倫理的なAIを生み出している。 近年、多くの倫理的原則やガイドラインが公表されているが、倫理的aiソリューションを構築する際にモデル開発者が直面する深刻な課題に対処するには不足している。 デザインと実装の複雑さからツールの不足、組織構成の欠如に至るまで、モデル開発を取り巻く実践的および包括的課題について調査する。 本稿では,高レベルの原則と具体的でデプロイされたaiアプリケーションとのギャップを実践的考察から明らかにし,ソリューションアプローチに対する業界全体の議論を始めることを目的とする。

Artificial intelligence (AI) continues to find more numerous and more critical applications in the financial services industry, giving rise to fair and ethical AI as an industry-wide objective. While many ethical principles and guidelines have been published in recent years, they fall short of addressing the serious challenges that model developers face when building ethical AI solutions. We survey the practical and overarching issues surrounding model development, from design and implementation complexities, to the shortage of tools, and the lack of organizational constructs. We show how practical considerations reveal the gaps between high-level principles and concrete, deployed AI applications, with the aim of starting industry-wide conversations toward solution approaches.
翻訳日:2021-11-03 14:40:24 公開日:2021-11-02
# iCallee: バイナリのコールグラフの復元

iCallee: Recovering Call Graphs for Binaries ( http://arxiv.org/abs/2111.01415v1 )

ライセンス: Link先を確認
Wenyu Zhu, Zhiyao Feng, Zihan Zhang, Chao Zhang, Zhijian Ou, Min Yang(参考訳) プログラムのコールグラフの復元は、手続き間分析タスクやそれに基づくアプリケーションにとって不可欠である。 主な課題は、間接呼び出し(すなわち間接呼び出し)のターゲットを認識することである。 バイナリの情報が失われるため、ターゲットプログラムがバイナリ形式であれば、より困難になる。 既存のバイナリの間接的な呼び出し元認識ソリューションはいずれも高い偽陽性と陰性を持ち、コールグラフは不正確である。 本稿では,シームズニューラルネットワークに基づく新しい解iCalleeを提案する。 重要な洞察は、ニューラルネットワークが、呼び出し先の関数が間接呼び出しの潜在的なターゲットであるかどうかを、そのコンテキスト、すなわち近くの呼び出し側と呼び出し側の指示を解釈することによって学習できるということだ。 この知見に従い、まずターゲットバイナリを前処理し、呼び出し元と呼び出し元のコンテキストを抽出する。 次に、アセンブリ言語に適用可能なカスタマイズされた自然言語処理(nlp)モデルを構築する。 さらに,大量のcalliteとcalleeのペアを収集し,そのコンテキストをnlpモデルに埋め込み,siameseネットワークと分類器を訓練してcallite-calleeの質問に答える。 我々はiCalleeのプロトタイプを実装し、いくつかのターゲットグループで評価した。 評価の結果, 提案手法は, f1測定値93.7%, 93.8%, 精度93.5%, 精度93.5%, 最先端のソリューションよりはるかに優れていた。 その有用性を示すために、iCalleeをバイナリコードの類似性検出とバイナリプログラムのハードニングという2つの特定のアプリケーションに適用し、最先端のソリューションを大幅に改善できることを発見した。

Recovering programs' call graphs is crucial for inter-procedural analysis tasks and applications based on them. The core challenge is recognizing targets of indirect calls (i.e., indirect callees). It becomes more challenging if target programs are in binary forms, due to information loss in binaries. Existing indirect callee recognition solutions for binaries all have high false positives and negatives, making call graphs inaccurate. In this paper, we propose a new solution iCallee based on the Siamese Neural Network, inspired by the advances in question-answering applications. The key insight is that, neural networks can learn to answer whether a callee function is a potential target of an indirect callsite by comprehending their contexts, i.e., instructions nearby callsites and of callees. Following this insight, we first preprocess target binaries to extract contexts of callsites and callees. Then, we build a customized Natural Language Processing (NLP) model applicable to assembly language. Further, we collect abundant pairs of callsites and callees, and embed their contexts with the NLP model, then train a Siamese network and a classifier to answer the callsite-callee question. We have implemented a prototype of iCallee and evaluated it on several groups of targets. Evaluation results showed that, our solution could match callsites to callees with an F1-Measure of 93.7%, recall of 93.8%, and precision of 93.5%, much better than state-of-the-art solutions. To show its usefulness, we apply iCallee to two specific applications - binary code similarity detection and binary program hardening, and found that it could greatly improve state-of-the-art solutions.
翻訳日:2021-11-03 14:40:11 公開日:2021-11-02
# ArchABM: 構築された環境とのヒューマンインタラクションのエージェントベースのシミュレータ。 室内空気質のCO_2$とウイルス負荷解析

ArchABM: an agent-based simulator of human interaction with the built environment. $CO_2$ and viral load analysis for indoor air quality ( http://arxiv.org/abs/2111.01484v1 )

ライセンス: Link先を確認
I\~nigo Martinez, Jan L. Bruse, Ane M. Florez-Tapia, Elisabeth Viles, Igor G. Olaizola(参考訳) 近年のエビデンスによれば、2020年に世界的なパンデミックを引き起こしたsars-cov-2は、主に屋内環境のエアロゾルを介して感染している。 これは、建物の室内空気質(iaq)を評価し制御する新しい戦略を必要とする。 iaqは一般に換気や人間の建築-相互作用を規制する政策によって制御できる。 しかし、建物内では、収容者は異なる方法で部屋を使用するため、どの測定方法や組み合わせが、建物全体の良いIAQを保証するコストとエネルギー効率のよいソリューションをもたらすかは明らかではない。 そこで本稿では, 複雑な人為的相互作用パターンの結果としてIAQを考慮しつつ, 適切な部屋の大きさ, 換気パラメータを推定し, 政策の効果を検証し, 既存建築物の新規・適応を支援する新しいエージェントベースシミュレータArchABMを紹介する。 最近発表されたエアロゾルモデルでは、各部屋の時間依存二酸化炭素(co_2$)とウイルスクォンタ濃度を計算し、生理反応の指標として1日あたりのco_2$とウイルスクォンタを吸入した。 ArchABMは、エアロゾルモデルと、そのモジュラーアーキテクチャによる建物のレイアウトに関して柔軟であり、部屋やエージェントの数やサイズ、人間と建築の相互作用パターンを反映したアクションのさらなるモデルを実装することができる。 本稿では,本研究センターで採用した実床計画と作業スケジュールに基づくユースケースを提案する。 本研究は,建物全体のiaq改善に高度なシミュレーションツールがいかに寄与し,健全な室内環境を確保できるかを示す。

Recent evidence suggests that SARS-CoV-2, which is the virus causing a global pandemic in 2020, is predominantly transmitted via airborne aerosols in indoor environments. This calls for novel strategies when assessing and controlling a building's indoor air quality (IAQ). IAQ can generally be controlled by ventilation and/or policies to regulate human-building-inter action. However, in a building, occupants use rooms in different ways, and it may not be obvious which measure or combination of measures leads to a cost- and energy-effective solution ensuring good IAQ across the entire building. Therefore, in this article, we introduce a novel agent-based simulator, ArchABM, designed to assist in creating new or adapt existing buildings by estimating adequate room sizes, ventilation parameters and testing the effect of policies while taking into account IAQ as a result of complex human-building interaction patterns. A recently published aerosol model was adapted to calculate time-dependent carbon dioxide ($CO_2$) and virus quanta concentrations in each room and inhaled $CO_2$ and virus quanta for each occupant over a day as a measure of physiological response. ArchABM is flexible regarding the aerosol model and the building layout due to its modular architecture, which allows implementing further models, any number and size of rooms, agents, and actions reflecting human-building interaction patterns. We present a use case based on a real floor plan and working schedules adopted in our research center. This study demonstrates how advanced simulation tools can contribute to improving IAQ across a building, thereby ensuring a healthy indoor environment.
翻訳日:2021-11-03 14:39:41 公開日:2021-11-02
# 戦略的かつ比例的に公平な施設配置

Strategyproof and Proportionally Fair Facility Location ( http://arxiv.org/abs/2111.01566v1 )

ライセンス: Link先を確認
Haris Aziz, Alexander Lam, Barton E. Lee, Toby Walsh(参考訳) 簡単な1次元の集合的決定問題(しばしば施設配置問題と呼ばれる)に焦点を当て、戦略の安全性と比例公正性の問題を探求する。 本報告では, 戦略正当性と比例フェアネスの変動レベルを満たす機構の諸特性について述べる。 また, このメカニズムの1つを, 自然の公平性と単調性特性を満たす任意の機構に対する一意的な平衡結果として特徴づける。 最後に,正当性公理を満たすすべてのメカニズムの中で,ベストな福祉最適近似を提供する戦略的かつ比例的に公正なメカニズムを同定する。

We focus on a simple, one-dimensional collective decision problem (often referred to as the facility location problem) and explore issues of strategyproofness and proportional fairness. We present several characterization results for mechanisms that satisfy strategyproofness and varying levels of proportional fairness. We also characterize one of the mechanisms as the unique equilibrium outcome for any mechanism that satisfies natural fairness and monotonicity properties. Finally, we identify strategyproof and proportionally fair mechanisms that provide the best welfare-optimal approximation among all mechanisms that satisfy the corresponding fairness axiom.
翻訳日:2021-11-03 14:39:13 公開日:2021-11-02
# rela\-tivized common knowledge as a fragment of hol in logikey による公開発表論理のモデル化と自動化

Modeling and Automating Public Announcement Logic with Rela\-tivized Common Knowledge as a Fragment of HOL in LogiKEy ( http://arxiv.org/abs/2111.01654v1 )

ライセンス: Link先を確認
Christoph Benzm\"uller and Sebastian Reiche(参考訳) 関連する共通知識を持つ公開告知論理の浅層意味埋め込みについて述べる。 この埋め込みにより、古典的な高階論理に対するオフ・ザ・シェルフ定理証明を用いて、この論理を初めて自動化することができる。 実証されています (i)このような方法でメタ理論的研究をいかに自動化できるか 二 対象論理(公告論理)における非自明な推論(例えば、賢明なマンパズルのエンコーディングと自動化を得るために必要なもの)を実現することができる。 提示された意味的埋め込みの鍵は、評価領域が明示的にモデル化され、組み込み対象論理の構成要素のエンコーディングにおいて追加のパラメータとして扱われることである;例えば、通常の様相論理の埋め込みにおいて、評価領域はメタ論理と対象論理の間で暗黙的に共有された。 この記事では、論理とそれらの組み合わせ、一般的な知識とドメインの知識、そして具体的なユースケースの両方を同時に実験できる、多元的知識工学方法論である \logikey\ knowledge engineering methodology に重要な追加を加えます。

A shallow semantical embedding for public announcement logic with relativized common knowledge is presented. This embedding enables the first-time automation of this logic with off-the-shelf theorem provers for classical higher-order logic. It is demonstrated (i) how meta-theoretical studies can be automated this way, and (ii) how non-trivial reasoning in the target logic (public announcement logic), required e.g. to obtain a convincing encoding and automation of the wise men puzzle, can be realized. Key to the presented semantical embedding is that evaluation domains are modeled explicitly and treated as an additional parameter in the encodings of the constituents of the embedded target logic; in previous related works, e.g. on the embedding of normal modal logics, evaluation domains were implicitly shared between meta-logic and target logic. The work presented in this article constitutes an important addition to the pluralist \logikey\ knowledge engineering methodology, which enables experimentation with logics and their combinations, with general and domain knowledge, and with concrete use cases -- all at the same time.
翻訳日:2021-11-03 14:39:04 公開日:2021-11-02
# 会員プライバシのための知識クロス蒸留

Knowledge Cross-Distillation for Membership Privacy ( http://arxiv.org/abs/2111.01363v1 )

ライセンス: Link先を確認
Rishav Chourasia, Batnyam Enkhtaivan, Kunihiro Ito, Junki Mori, Isamu Teranishi, Hikaru Tsuchida(参考訳) 会員推測攻撃(MIA)は、機械学習モデルのトレーニングデータにプライバシー上のリスクをもたらす。 MIAでは、攻撃者がターゲットデータがトレーニングデータセットのメンバーかどうかを推測する。 MIAに対する最先端の防衛、会員プライバシ(DMP)の蒸留は、プライベートデータを保護するだけでなく、大量の未公開データを保護する必要がある。 しかし、医療や金融などのプライバシーに敏感な特定のドメインでは、公開データの可用性は明確ではない。 さらに,dmpの著者らが報告したように,生成型逆ネットワークを用いて公開データを生成する簡単な方法は,モデルの精度を著しく低下させる。 この問題を解決するために,公共データを必要としない知識蒸留によるMIA対策を提案する。 我々の研究は、MIA研究、Purchase100、Texas100で使用されるベンチマーク表データセットにおいて、我々の防衛のプライバシ保護と精度はDMPと同等であり、画像データセットCIFAR10に公開データを使うことなく、既存の防衛のプライバシユーティリティトレードオフよりもはるかに優れていることを示している。

A membership inference attack (MIA) poses privacy risks on the training data of a machine learning model. With an MIA, an attacker guesses if the target data are a member of the training dataset. The state-of-the-art defense against MIAs, distillation for membership privacy (DMP), requires not only private data to protect but a large amount of unlabeled public data. However, in certain privacy-sensitive domains, such as medical and financial, the availability of public data is not obvious. Moreover, a trivial method to generate the public data by using generative adversarial networks significantly decreases the model accuracy, as reported by the authors of DMP. To overcome this problem, we propose a novel defense against MIAs using knowledge distillation without requiring public data. Our experiments show that the privacy protection and accuracy of our defense are comparable with those of DMP for the benchmark tabular datasets used in MIA researches, Purchase100 and Texas100, and our defense has much better privacy-utility trade-off than those of the existing defenses without using public data for image dataset CIFAR10.
翻訳日:2021-11-03 14:37:45 公開日:2021-11-02
# FedGraph: インテリジェントサンプリングによるグラフ学習

FedGraph: Federated Graph Learning with Intelligent Sampling ( http://arxiv.org/abs/2111.01370v1 )

ライセンス: Link先を確認
Fahao Chen, Peng Li, Toshiaki Miyazaki, and Celimuge Wu(参考訳) 分散機械学習におけるプライバシ保護のため、連合学習は研究の注目を集めている。 しかし、既存の連合学習は主に畳み込みニューラルネットワーク(cnn)に焦点を当てており、多くのアプリケーションで使われているグラフデータを効率的に処理できない。 グラフ畳み込みネットワーク(GCN)はグラフ学習において最も有望な手法の1つとして提案されているが、そのフェデレートされた設定はめったに検討されていない。 本稿では,複数のコンピュータクライアント間でのフェデレーショングラフ学習のためのフェデレーショングラフを提案する。 FedGraphは2つのユニークな課題に対処することで、クライアント間で強力なグラフ学習機能を提供する。 まず、従来のGCNトレーニングでは、クライアント間での機能的なデータ共有が必要であるため、プライバシリークのリスクが生じる。 FedGraphは、新しいクロスクライアントの畳み込み操作を使用してこの問題を解決する。 第2の課題は,大きなグラフサイズによるGCNトレーニングのオーバーヘッドの増大だ。 本研究では,学習速度と精度のバランスをとる最適サンプリングポリシに自動収束可能な,深層強化学習に基づくインテリジェントグラフサンプリングアルゴリズムを提案する。 PyTorchをベースにFedGraphを実装し、パフォーマンス評価のためにテストベッドにデプロイします。 一般的な4つのデータセットの実験結果から、FedGraphはより高速な収束をより高い精度で実現することで、既存の作業を大幅に上回ることを示した。

Federated learning has attracted much research attention due to its privacy protection in distributed machine learning. However, existing work of federated learning mainly focuses on Convolutional Neural Network (CNN), which cannot efficiently handle graph data that are popular in many applications. Graph Convolutional Network (GCN) has been proposed as one of the most promising techniques for graph learning, but its federated setting has been seldom explored. In this paper, we propose FedGraph for federated graph learning among multiple computing clients, each of which holds a subgraph. FedGraph provides strong graph learning capability across clients by addressing two unique challenges. First, traditional GCN training needs feature data sharing among clients, leading to risk of privacy leakage. FedGraph solves this issue using a novel cross-client convolution operation. The second challenge is high GCN training overhead incurred by large graph size. We propose an intelligent graph sampling algorithm based on deep reinforcement learning, which can automatically converge to the optimal sampling policies that balance training speed and accuracy. We implement FedGraph based on PyTorch and deploy it on a testbed for performance evaluation. The experimental results of four popular datasets demonstrate that FedGraph significantly outperforms existing work by enabling faster convergence to higher accuracy.
翻訳日:2021-11-03 14:37:21 公開日:2021-11-02
# フェデレーションサブモデル学習のための実用的・軽量セキュアアグリゲーション

Practical and Light-weight Secure Aggregation for Federated Submodel Learning ( http://arxiv.org/abs/2111.01432v1 )

ライセンス: Link先を確認
Jamie Cui, Cen Chen, Tiandi Ye, Li Wang(参考訳) 最近、ニウなど。 al.はfederated submodel learning(fsl)と呼ばれる新しい種類のフェデレーション学習(fl)を導入した。 従来のFLとは異なり、各クライアントはプライベートデータに基づいてサブモデルをローカルにトレーニングし(例えばサーバから取得)、その選択したサブモデルをサーバにアップロードする。 その後、すべてのクライアントがサブモデルをすべて集約し、イテレーションを完了します。 必然的に、FSLはプライバシを保存する2つの計算タスク、すなわちPrivate Submodel Retrieval(PSR)とSecure Submodel Aggregation(SSA)を導入している。 既存の作業は損失のないスキームの提供に失敗し、あるいは非現実的な効率性を持つ。 本研究では分散ポイント関数(DPF)とcuckooハッシュを利用して,2サーバ設定で実用的で軽量なセキュアFSLスキームを構築する。 具体的には,特定の実世界のFSLタスクにおけるプロトコルの実用性を保証するため,最適化手法の少ない2つの基本プロトコルを提案する。 提案したプロトコルは,重量が$\leq 2^{15}$のとき1分以内で終了できることを示し,既存の作業との比較や実世界のFSLタスクの処理によるプロトコル効率の実証を行った。

Recently, Niu, et. al. introduced a new variant of Federated Learning (FL), called Federated Submodel Learning (FSL). Different from traditional FL, each client locally trains the submodel (e.g., retrieved from the servers) based on its private data and uploads a submodel at its choice to the servers. Then all clients aggregate all their submodels and finish the iteration. Inevitably, FSL introduces two privacy-preserving computation tasks, i.e., Private Submodel Retrieval (PSR) and Secure Submodel Aggregation (SSA). Existing work fails to provide a loss-less scheme, or has impractical efficiency. In this work, we leverage Distributed Point Function (DPF) and cuckoo hashing to construct a practical and light-weight secure FSL scheme in the two-server setting. More specifically, we propose two basic protocols with few optimisation techniques, which ensures our protocol practicality on specific real-world FSL tasks. Our experiments show that our proposed protocols can finish in less than 1 minute when weight sizes $\leq 2^{15}$, we also demonstrate protocol efficiency by comparing with existing work and by handling a real-world FSL task.
翻訳日:2021-11-03 14:37:01 公開日:2021-11-02
# Riemannian Mat\'ern Kernelsを用いたロボットの幾何学的ベイズ最適化

Geometry-aware Bayesian Optimization in Robotics using Riemannian Mat\'ern Kernels ( http://arxiv.org/abs/2111.01460v1 )

ライセンス: Link先を確認
No\'emie Jaquier, Viacheslav Borovitskiy, Andrei Smolensky, Alexander Terenin, Tamim Asfour, Leonel Rozo(参考訳) ベイズ最適化は、制御パラメータチューニング、パラメトリックポリシー適応、ロボット工学における構造設計に使用できるデータ効率の手法である。 これらの問題の多くは、球面、回転群、あるいは正定値行列の空間のような非ユークリッド領域で定義される函数の最適化を必要とする。 そのためには、利害関係の空間にガウス過程を前もって、あるいは同値にカーネルを定義する必要がある。 効果的なカーネルは通常、定義された空間の幾何学を反映するが、それらを設計することは一般的には自明ではない。 リーマン的偏微分方程式とラプラス・ベルトラミ作用素のスペクトル理論に基づく最近の研究は、そのような幾何学的カーネルを構築するための有望な道を提供する。 本稿では,これらのカーネルをロボット工学に興味のある多様体上に実装するための技術について検討し,それらの性能を人工ベンチマーク関数のセットで実証し,その性能向上を図示しながら,方向制御,マニピュラビリティ最適化,運動計画など,様々なロボット応用のための幾何アウェアベイズ最適化を例示する。

Bayesian optimization is a data-efficient technique which can be used for control parameter tuning, parametric policy adaptation, and structure design in robotics. Many of these problems require optimization of functions defined on non-Euclidean domains like spheres, rotation groups, or spaces of positive-definite matrices. To do so, one must place a Gaussian process prior, or equivalently define a kernel, on the space of interest. Effective kernels typically reflect the geometry of the spaces they are defined on, but designing them is generally non-trivial. Recent work on the Riemannian Mat\'ern kernels, based on stochastic partial differential equations and spectral theory of the Laplace-Beltrami operator, offers promising avenues towards constructing such geometry-aware kernels. In this paper, we study techniques for implementing these kernels on manifolds of interest in robotics, demonstrate their performance on a set of artificial benchmark functions, and illustrate geometry-aware Bayesian optimization for a variety of robotic applications, covering orientation control, manipulability optimization, and motion planning, while showing its improved performance.
翻訳日:2021-11-03 14:36:41 公開日:2021-11-02
# multiplexnet:ニューラルネットワークにおける論理制約の完全充足に向けて

MultiplexNet: Towards Fully Satisfied Logical Constraints in Neural Networks ( http://arxiv.org/abs/2111.01564v1 )

ライセンス: Link先を確認
Nicholas Hoernle, Rafael Michael Karampatsis, Vaishak Belle, Kobi Gal(参考訳) 本稿では,ディープニューラルネットワークの学習に専門家の知識を組み込む新しい手法を提案する。 多くのアプローチはドメインの制約を直接ネットワークアーキテクチャにエンコードし、非自明またはドメイン固有のエンジニアリングを必要とします。 対照的に、multiplexnetと呼ばれるこのアプローチは、ドメイン知識を、エンコードし易く、人間の専門家から導出できる、分離正規形(dnf)の論理式として表現する。 それは、ネットワークのエラー関数を最適化する制約項を選択することを学び、既存の学習アルゴリズムの出力に直接制約をコンパイルする。 本手法は,事前知識を論理的な制約として表現した教師付きおよび教師なし環境における密度推定や分類など,いくつかの古典的深層学習タスクにおいて実証的に有効性を示す。 以上の結果から,multiplexnetアプローチは未知分布をよく近似することを学び,代替手法よりも少ないデータサンプルを必要とすることが多い。 場合によっては、MultiformxNetはベースラインよりも優れたソリューションや、代替アプローチでは達成できないソリューションを見つけます。 我々の貢献は、効率的かつ一般的な推論を容易にする方法でドメイン知識を符号化することであり、そして、重要なことに、我々のアプローチは、ネットワークの出力における100%の制約満足度を保証する。

We propose a novel way to incorporate expert knowledge into the training of deep neural networks. Many approaches encode domain constraints directly into the network architecture, requiring non-trivial or domain-specific engineering. In contrast, our approach, called MultiplexNet, represents domain knowledge as a logical formula in disjunctive normal form (DNF) which is easy to encode and to elicit from human experts. It introduces a Categorical latent variable that learns to choose which constraint term optimizes the error function of the network and it compiles the constraints directly into the output of existing learning algorithms. We demonstrate the efficacy of this approach empirically on several classical deep learning tasks, such as density estimation and classification in both supervised and unsupervised settings where prior knowledge about the domains was expressed as logical constraints. Our results show that the MultiplexNet approach learned to approximate unknown distributions well, often requiring fewer data samples than the alternative approaches. In some cases, MultiplexNet finds better solutions than the baselines; or solutions that could not be achieved with the alternative approaches. Our contribution is in encoding domain knowledge in a way that facilitates inference that is shown to be both efficient and general; and critically, our approach guarantees 100% constraint satisfaction in a network's output.
翻訳日:2021-11-03 14:34:41 公開日:2021-11-02
# OnSlicing: 強化学習によるオンラインエンドツーエンドネットワークスライシング

OnSlicing: Online End-to-End Network Slicing with Reinforcement Learning ( http://arxiv.org/abs/2111.01616v1 )

ライセンス: Link先を確認
Qiang Liu and Nakjung Choi and Tao Han(参考訳) ネットワークスライシングにより、モバイルネットワークオペレータはインフラストラクチャを仮想化し、異質な要件を持つさまざまなユースケースをサポートするためにカスタマイズされたスライスを提供することができる。 オンライン深層学習(DRL)は,ネットワーク問題を解く上で有望な可能性を秘めている。 しかし、オンラインDRLによるドメイン横断リソースの最適化は、DRLのランダムな探索がスライスとインフラストラクチャのリソース制約のサービスレベル合意(SLA)に違反しているため、難しい。 本稿では,オンラインのエンド・ツー・エンドのネットワークスライシングシステムであるOnSlicingを提案する。 OnSlicingはスライス毎に個別に学習し、新しい制約対応ポリシー更新方法とアクティブベースライン切替機構を用いてSLAを維持する。 オンスライスは、スライスにおけるアクション修正のユニークな設計と、インフラストラクチャにおけるパラメータコーディネーションを使用することで、インフラストラクチャのリソース制約に対応する。 OnSlicingは、ルールベースのソリューションをオフラインで模倣することで、早期学習のオンライン学習のパフォーマンスの低下をさらに軽減します。 さらに, 無線アクセス, 転送, コア, エッジネットワークにおける動的リソース構成を可能にする4つの新しいドメインマネージャを, 秒単位の時間スケールで設計する。 4G LTEと5G NR、OpenDayLight SDNプラットフォーム、OpenAir-CNコアネットワークでOpenAirInterfaceをベースとしたエンドツーエンドスライシングテストベッド上でOnSlicingを実装した。 実験の結果、OnSlicingはルールベースのソリューションと比較して61.3%の使用削減を実現し、オンライン学習フェーズを通してほぼゼロ違反(0.06%)を維持していることがわかった。 オンライン学習が収束するにつれ、onslicingは最先端のオンラインdrlソリューションに比べて、12.5%の使用率を損なうことなく削減する。

Network slicing allows mobile network operators to virtualize infrastructures and provide customized slices for supporting various use cases with heterogeneous requirements. Online deep reinforcement learning (DRL) has shown promising potential in solving network problems and eliminating the simulation-to-realit y discrepancy. Optimizing cross-domain resources with online DRL is, however, challenging, as the random exploration of DRL violates the service level agreement (SLA) of slices and resource constraints of infrastructures. In this paper, we propose OnSlicing, an online end-to-end network slicing system, to achieve minimal resource usage while satisfying slices' SLA. OnSlicing allows individualized learning for each slice and maintains its SLA by using a novel constraint-aware policy update method and proactive baseline switching mechanism. OnSlicing complies with resource constraints of infrastructures by using a unique design of action modification in slices and parameter coordination in infrastructures. OnSlicing further mitigates the poor performance of online learning during the early learning stage by offline imitating a rule-based solution. Besides, we design four new domain managers to enable dynamic resource configuration in radio access, transport, core, and edge networks, respectively, at a timescale of subseconds. We implement OnSlicing on an end-to-end slicing testbed designed based on OpenAirInterface with both 4G LTE and 5G NR, OpenDayLight SDN platform, and OpenAir-CN core network. The experimental results show that OnSlicing achieves 61.3% usage reduction as compared to the rule-based solution and maintains nearly zero violation (0.06%) throughout the online learning phase. As online learning is converged, OnSlicing reduces 12.5% usage without any violations as compared to the state-of-the-art online DRL solution.
翻訳日:2021-11-03 14:34:18 公開日:2021-11-02
# UnProjection:高次元データのビジュアル分析に逆投影を活用する

UnProjection: Leveraging Inverse-Projections for Visual Analytics of High-Dimensional Data ( http://arxiv.org/abs/2111.01744v1 )

ライセンス: Link先を確認
Mateus Espadoto, Gabriel Appleby, Ashley Suh, Dylan Cashman, Mingwei Li, Carlos Scheidegger, Erik W Anderson, Remco Chang, Alexandru C Telea(参考訳) 投影技術は高次元データを視覚化するためによく使われ、2次元画面上の多次元空間の全体構造をよりよく理解することができる。 そのような方法の多くは存在するが、逆射影の一般化可能な方法 -- 射影点を元の高次元空間に戻す過程 -- について、比較できる限りほとんど研究されていない。 本稿では,任意の投影や写像の逆を近似する深層学習手法であるnninvについて述べる。 NNInvは、2次元投影空間上の任意の点から高次元データを再構成することを学び、ユーザーは視覚分析システムで学習した高次元表現と対話することができる。 NNInvのパラメータ空間の解析を行い、これらのパラメータを選択する際のガイダンスを提供する。 NNInvの有効性の検証を定量的および定性的な分析によって拡張する。 次に,対話型インスタンス補間,分類器合意,勾配可視化という3つの可視化タスクに適用することで,本手法の有用性を実証する。

Projection techniques are often used to visualize high-dimensional data, allowing users to better understand the overall structure of multi-dimensional spaces on a 2D screen. Although many such methods exist, comparably little work has been done on generalizable methods of inverse-projection -- the process of mapping the projected points, or more generally, the projection space back to the original high-dimensional space. In this paper we present NNInv, a deep learning technique with the ability to approximate the inverse of any projection or mapping. NNInv learns to reconstruct high-dimensional data from any arbitrary point on a 2D projection space, giving users the ability to interact with the learned high-dimensional representation in a visual analytics system. We provide an analysis of the parameter space of NNInv, and offer guidance in selecting these parameters. We extend validation of the effectiveness of NNInv through a series of quantitative and qualitative analyses. We then demonstrate the method's utility by applying it to three visualization tasks: interactive instance interpolation, classifier agreement, and gradient visualization.
翻訳日:2021-11-03 14:33:47 公開日:2021-11-02
# (参考訳) 低所得国における助産師の能力向上のための勧告システム [全文訳有]

A Recommendation System to Enhance Midwives' Capacities in Low-Income Countries ( http://arxiv.org/abs/2111.01786v1 )

ライセンス: CC BY 4.0
Anna Guitart, Afsaneh Heydari, Eniola Olaleye, Jelena Ljubicic, Ana Fern\'andez del R\'io, \'Africa Peri\'a\~nez and Lauren Bellhouse(参考訳) 母子死亡は、低所得国と中所得国に不均等に影響を及ぼす公衆衛生問題である。 毎日800人の女性と6700人の新生児が妊娠や出産に関連する合併症で死亡している。 母親が死ぬたびに 約20人の女性が重傷を負っています しかし、これらの死と負の健康結果のほとんどが予防可能である。 助産師はこの状況を復活させる鍵であり、その能力と教育の質を強化することが不可欠である。 これは、医療従事者の知識、信頼性、スキルを高めるためのデジタルジョブ支援および学習ツールであるSafe Delivery Appの目的である。 ここでは,アプリの行動ログを用いて,各助産師に適切な内容を示すレコメンデーションシステムを実装し,専門知識の獲得を継続する。 我々は、クリックスルー率、ユーザーが推奨コンテンツをクリックする確率を予測することに集中する。 4つのディープラーニングモデルを評価し,いずれも高精度な予測結果を示す。

Maternal and child mortality is a public health problem that disproportionately affects low- and middle-income countries. Every day, 800 women and 6,700 newborns die from complications related to pregnancy or childbirth. And for every maternal death, about 20 women suffer serious birth injuries. However, nearly all of these deaths and negative health outcomes are preventable. Midwives are key to revert this situation, and thus it is essential to strengthen their capacities and the quality of their education. This is the aim of the Safe Delivery App, a digital job aid and learning tool to enhance the knowledge, confidence and skills of health practitioners. Here, we use the behavioral logs of the App to implement a recommendation system that presents each midwife with suitable contents to continue gaining expertise. We focus on predicting the click-through rate, the probability that a given user will click on a recommended content. We evaluate four deep learning models and show that all of them produce highly accurate predictions.
翻訳日:2021-11-03 14:30:19 公開日:2021-11-02
# DAGSurv:ディープニューラルネットワークを用いた非循環グラフに基づく生存分析

DAGSurv: Directed Acyclic Graph Based Survival Analysis Using Deep Neural Networks ( http://arxiv.org/abs/2111.01482v1 )

ライセンス: Link先を確認
Ansh Kumar Sharma, Rahul Kukreja, Ranjitha Prasad, Shilpa Rao(参考訳) 観測生存データの因果構造は、共変量と時間と時間の関係に関する重要な情報を提供する。 我々は、情報理論の情報源符号化論から動機付けを導き、適切な情報源エンコーダを用いた場合、有向非巡回グラフ(DAG)の知識を取り入れることが有用であることを示す。 この文脈で可能なソースエンコーダとして、因果的構造的生存予測のための変分推論に基づく条件付き変分自動エンコーダを導出し、これをdagsurvと呼ぶ。 DAGSurvの低次元および高次元の合成データセットと,METABRICやGBSGなどの実世界のデータセットの性能について述べる。 提案手法は,データエンティティ間の因果関係が不明瞭なCox Proportional Hazards,DeepSurv,Dee phitなど,他の生存分析ベースラインよりも優れていることを示す。

Causal structures for observational survival data provide crucial information regarding the relationships between covariates and time-to-event. We derive motivation from the information theoretic source coding argument, and show that incorporating the knowledge of the directed acyclic graph (DAG) can be beneficial if suitable source encoders are employed. As a possible source encoder in this context, we derive a variational inference based conditional variational autoencoder for causal structured survival prediction, which we refer to as DAGSurv. We illustrate the performance of DAGSurv on low and high-dimensional synthetic datasets, and real-world datasets such as METABRIC and GBSG. We demonstrate that the proposed method outperforms other survival analysis baselines such as Cox Proportional Hazards, DeepSurv and Deephit, which are oblivious to the underlying causal relationship between data entities.
翻訳日:2021-11-03 14:23:17 公開日:2021-11-02
# 未知ダイナミクスをもつ状態空間モデルにおける確率自由推論

Likelihood-Free Inference in State-Space Models with Unknown Dynamics ( http://arxiv.org/abs/2111.01555v1 )

ライセンス: Link先を確認
Alexander Aushev, Thong Tran, Henri Pesonen, Andrew Howes, Samuel Kaski(参考訳) 本稿では,観測をシミュレートすることしかできず,遷移ダイナミクスが不明な状態空間モデルにおいて,潜在状態の推測と予測を行う手法を提案する。 この設定では、観測の可能性は得られず、ブラックボックスシミュレータからのみ合成観測が生成される。 本稿では,状態と状態予測の確率自由推論(lfi)を限られた数のシミュレーションで行う方法を提案する。 本手法では,状態推定のための複数出力ガウス過程と,状態予測のための遷移ダイナミクスのモデルとしてベイズニューラルネットワークを用いる。 我々は,既存のLFI手法の改良とともに,遷移力学を正確に学習する。 提案手法は,非定常ユーザモデルを用いた実験で示されるように,計算コストの高いシミュレーションによる動的システムの逆問題のモデル化に必要である。

We introduce a method for inferring and predicting latent states in the important and difficult case of state-space models where observations can only be simulated, and transition dynamics are unknown. In this setting, the likelihood of observations is not available and only synthetic observations can be generated from a black-box simulator. We propose a way of doing likelihood-free inference (LFI) of states and state prediction with a limited number of simulations. Our approach uses a multi-output Gaussian process for state inference, and a Bayesian Neural Network as a model of the transition dynamics for state prediction. We improve upon existing LFI methods for the inference task, while also accurately learning transition dynamics. The proposed method is necessary for modelling inverse problems in dynamical systems with computationally expensive simulations, as demonstrated in experiments with non-stationary user models.
翻訳日:2021-11-03 14:22:59 公開日:2021-11-02
# psd保証付き近似ベイズ推定のためのベイズニュートン法

Bayes-Newton Methods for Approximate Bayesian Inference with PSD Guarantees ( http://arxiv.org/abs/2111.01721v1 )

ライセンス: Link先を確認
William J. Wilkinson, Simo S\"arkk\"a and Arno Solin(参考訳) ベイズ後方分布のパラメータを最適化するためのニュートン法の拡張として,自然勾配変動推定(vi),期待伝播(ep),後続線形化(pl)を定式化した。 この視点は、数値最適化の枠組みの下で推論アルゴリズムを明示的に採用する。 最適化文学におけるニュートン法に対する一般的な近似、すなわちガウスニュートン法と準ニュートン法(例えばbfgs法)は、この「バイエスニュートン」フレームワークの下でも有効であることを示す。 これは、標準の VI や EP とは異なり、正の半定値の共分散行列をもたらすことが保証される新しいアルゴリズムの組につながる。 我々の統一的な視点は、様々な推論スキーム間の関係に関する新たな洞察を提供する。 提示されたすべての方法がガウス的先行性および非共役性を持つ任意のモデルに適用され、これはガウス的過程と状態空間モデルで示される。

We formulate natural gradient variational inference (VI), expectation propagation (EP), and posterior linearisation (PL) as extensions of Newton's method for optimising the parameters of a Bayesian posterior distribution. This viewpoint explicitly casts inference algorithms under the framework of numerical optimisation. We show that common approximations to Newton's method from the optimisation literature, namely Gauss-Newton and quasi-Newton methods (e.g., the BFGS algorithm), are still valid under this `Bayes-Newton' framework. This leads to a suite of novel algorithms which are guaranteed to result in positive semi-definite covariance matrices, unlike standard VI and EP. Our unifying viewpoint provides new insights into the connections between various inference schemes. All the presented methods apply to any model with a Gaussian prior and non-conjugate likelihood, which we demonstrate with (sparse) Gaussian processes and state space models.
翻訳日:2021-11-03 14:22:26 公開日:2021-11-02
# 時空間変動ガウス過程

Spatio-Temporal Variational Gaussian Processes ( http://arxiv.org/abs/2111.01732v1 )

ライセンス: Link先を確認
Oliver Hamelijnck, William J. Wilkinson, Niki A. Loppi, Arno Solin, Theodoros Damoulas(参考訳) 本稿では,時空間フィルタと自然勾配変動推定を組み合わせたガウス過程推論への拡張性を導入し,時間に関して線形にスケールする多変量データの非共役GP法を提案する。 我々の自然勾配法は並列フィルタリングと平滑化を可能とし、時間ステップ数で対数的に時間スパンの複雑性を減少させる。 空間的誘導点の縮小集合上の状態空間モデルを構成するスパース近似を導出し、分離可能なマルコフ核に対して、完全かつスパースケースが標準変分gpを正確に復元し、好ましい計算特性を示すことを示す。 空間スケールをさらに改善するために,空間的位置間の独立性の平均場仮定を提案し,スパーシティと並列化を組み合わせることで,時空間問題に対する効率的かつ正確な手法を提案する。

We introduce a scalable approach to Gaussian process inference that combines spatio-temporal filtering with natural gradient variational inference, resulting in a non-conjugate GP method for multivariate data that scales linearly with respect to time. Our natural gradient approach enables application of parallel filtering and smoothing, further reducing the temporal span complexity to be logarithmic in the number of time steps. We derive a sparse approximation that constructs a state-space model over a reduced set of spatial inducing points, and show that for separable Markov kernels the full and sparse cases exactly recover the standard variational GP, whilst exhibiting favourable computational properties. To further improve the spatial scaling we propose a mean-field assumption of independence between spatial locations which, when coupled with sparsity and parallelisation, leads to an efficient and accurate method for large spatio-temporal problems.
翻訳日:2021-11-03 14:22:10 公開日:2021-11-02
# 独立に解釈可能な機械学習モデルの設計

Designing Inherently Interpretable Machine Learning Models ( http://arxiv.org/abs/2111.01743v1 )

ライセンス: Link先を確認
Agus Sudjianto and Aijun Zhang(参考訳) インタプリタブル・機械学習(iml)は、健康と安全に関する高度に規制された産業分野や人間の基本的権利においてますます重要になっている。 一般に、本質的にimlモデルは透明性と説明可能性のために採用されるべきであるが、モデルに依存しないブラックボックスモデルは規制の精査の下では防御がより困難である。 機械学習モデル固有の解釈可能性を評価するために,特徴効果とモデルアーキテクチャ制約に基づく定性テンプレートを提案する。 exnn, gami-net, simtree, aletheia toolkit for local linear interpretability of deep relu networksの最近の研究をレビューした例とともに, 高性能imlモデル開発のための設計原則を提供する。 さらに,住宅貸付における信用不履行の予測を実例で検討し,概念的健全性を評価することで,解釈可能なrelu dnnモデルの設計方法を示す。 本研究は、銀行業界や他のセクターにおいて、リスクの高いアプリケーションに固有のMLモデルを開発するための実践的なガイドを提供することを期待している。

Interpretable machine learning (IML) becomes increasingly important in highly regulated industry sectors related to the health and safety or fundamental rights of human beings. In general, the inherently IML models should be adopted because of their transparency and explainability, while black-box models with model-agnostic explainability can be more difficult to defend under regulatory scrutiny. For assessing inherent interpretability of a machine learning model, we propose a qualitative template based on feature effects and model architecture constraints. It provides the design principles for high-performance IML model development, with examples given by reviewing our recent works on ExNN, GAMI-Net, SIMTree, and the Aletheia toolkit for local linear interpretability of deep ReLU networks. We further demonstrate how to design an interpretable ReLU DNN model with evaluation of conceptual soundness for a real case study of predicting credit default in home lending. We hope that this work will provide a practical guide of developing inherently IML models in high risk applications in banking industry, as well as other sectors.
翻訳日:2021-11-03 14:21:52 公開日:2021-11-02
# ビジョントランスフォーマーは進化できるのか?

Can Vision Transformers Perform Convolution? ( http://arxiv.org/abs/2111.01353v1 )

ライセンス: Link先を確認
Shanda Li, Xiangning Chen, Di He, Cho-Jui Hsieh(参考訳) 近年の研究では、ViT(Vision Transformer)のような注目ベースのネットワークが、畳み込み層を使わずに複数のコンピュータビジョンタスクにおいて畳み込みニューラルネットワーク(CNN)より優れていることが示されている。 ViTの自己保持層は、何らかの畳み込み操作を表現できますか? 本研究では,画像パッチを入力とする単一のViT層が,マルチヘッドアテンション機構と相対位置エンコーディングが重要な役割を果たすようなコンボリューション操作を構成的に実行可能であることを実証する。 さらに、CNNを表現するための視覚変換器のヘッド数を低くする。 実験結果から,提案手法はトランスフォーマーに畳み込みバイアスを注入し,低データ状態下でのViTの性能向上に有効であることが示された。

Several recent studies have demonstrated that attention-based networks, such as Vision Transformer (ViT), can outperform Convolutional Neural Networks (CNNs) on several computer vision tasks without using convolutional layers. This naturally leads to the following questions: Can a self-attention layer of ViT express any convolution operation? In this work, we prove that a single ViT layer with image patches as the input can perform any convolution operation constructively, where the multi-head attention mechanism and the relative positional encoding play essential roles. We further provide a lower bound on the number of heads for Vision Transformers to express CNNs. Corresponding with our analysis, experimental results show that the construction in our proof can help inject convolutional bias into Transformers and significantly improve the performance of ViT in low data regimes.
翻訳日:2021-11-03 14:21:16 公開日:2021-11-02
# すべての取引のスタイルガン:プリトレーニングされたスタイルガンのみによる画像操作

StyleGAN of All Trades: Image Manipulation with Only Pretrained StyleGAN ( http://arxiv.org/abs/2111.01619v1 )

ライセンス: Link先を確認
Min Jin Chong, Hsin-Ying Lee, David Forsyth(参考訳) 近年、styleganは高品質な生成と不連続な潜在空間のおかげで、様々な画像操作や編集タスクを可能にしている。 しかし、追加のアーキテクチャやタスク固有のトレーニングパラダイムは、通常、異なるタスクのために必要です。 本研究では,StyleGANの空間特性についてより深く考察する。 事前訓練されたStyleGANといくつかの操作を併用することで,画像ブレンディング,パノラマ生成,単一画像からの生成,制御可能で局所的なマルチモーダル画像から画像翻訳,属性転送など,さまざまなタスクにおける最先端の手法と互換性を持たせることができることを示す。 提案手法は単純で効率的であり,既存のStyleGANモデルにも適用可能である。

Recently, StyleGAN has enabled various image manipulation and editing tasks thanks to the high-quality generation and the disentangled latent space. However, additional architectures or task-specific training paradigms are usually required for different tasks. In this work, we take a deeper look at the spatial properties of StyleGAN. We show that with a pretrained StyleGAN along with some operations, without any additional architecture, we can perform comparably to the state-of-the-art methods on various tasks, including image blending, panorama generation, generation from a single image, controllable and local multimodal image to image translation, and attributes transfer. The proposed method is simple, effective, efficient, and applicable to any existing pretrained StyleGAN model.
翻訳日:2021-11-03 14:20:05 公開日:2021-11-02
# タスク非依存トレーニングを用いたCOVID-19CXR診断用フェデレートスプリットビジョントランス

Federated Split Vision Transformer for COVID-19CXR Diagnosis using Task-Agnostic Training ( http://arxiv.org/abs/2111.01338v1 )

ライセンス: Link先を確認
Sangjoon Park, Gwanghyun Kim, Jeongsol Kim, Boah Kim, Jong Chul Ye(参考訳) 顧客間でニューラルネットワークの重みを共有するfederated learningは、データプライバシを維持しながら、大規模な分散データコーパスのトレーニングを可能にすることで、医療分野で注目を集めている。 例えば、複数の病院で患者のCXRデータを収集することなく、胸部X線(CXR)画像上の新型コロナウイルス診断のためのニューラルネットワークトレーニングが可能になる。 残念ながら、高度に表現力のあるネットワークアーキテクチャを採用すると、重みの交換はネットワーク帯域を素早く消費する。 いわゆる分割学習は、ニューラルネットワークをクライアントとサーバに分割することで、この問題を部分的に解決する。 しかし、ネットワーク全体の性能を犠牲にすることなく最適な分割を見つける方法は不明である。 そこで本研究では,直感的に分解可能な構成の深層学習アーキテクチャであるVision Transformerが,性能を犠牲にすることなく分割学習に最適であることを示す。 複数のソースからのCXRデータセットを使用して病院間の実際のコラボレーションをエミュレートする非独立で同一の分散データ分布であっても、提案したフレームワークは、データ分散トレーニングに匹敵するパフォーマンスを実現することができた。 さらに,ヘテロジニアスなマルチタスククライアントとともに,covid-19の診断を含む個々のタスクパフォーマンスも向上し,大きな重みを数えられるパラメータで共有する必要がなくなる。 本研究は,医療画像における協調学習におけるトランスフォーマーの適合性を検証し,将来的な実世界実装への道を開く。

Federated learning, which shares the weights of the neural network across clients, is gaining attention in the healthcare sector as it enables training on a large corpus of decentralized data while maintaining data privacy. For example, this enables neural network training for COVID-19 diagnosis on chest X-ray (CXR) images without collecting patient CXR data across multiple hospitals. Unfortunately, the exchange of the weights quickly consumes the network bandwidth if highly expressive network architecture is employed. So-called split learning partially solves this problem by dividing a neural network into a client and a server part, so that the client part of the network takes up less extensive computation resources and bandwidth. However, it is not clear how to find the optimal split without sacrificing the overall network performance. To amalgamate these methods and thereby maximize their distinct strengths, here we show that the Vision Transformer, a recently developed deep learning architecture with straightforward decomposable configuration, is ideally suitable for split learning without sacrificing performance. Even under the non-independent and identically distributed data distribution which emulates a real collaboration between hospitals using CXR datasets from multiple sources, the proposed framework was able to attain performance comparable to data-centralized training. In addition, the proposed framework along with heterogeneous multi-task clients also improves individual task performances including the diagnosis of COVID-19, eliminating the need for sharing large weights with innumerable parameters. Our results affirm the suitability of Transformer for collaborative learning in medical imaging and pave the way forward for future real-world implementations.
翻訳日:2021-11-03 14:19:51 公開日:2021-11-02
# 物理インフォームドニューラルネットワークに基づく点源による部分微分方程式の解法

Solving Partial Differential Equations with Point Source Based on Physics-Informed Neural Networks ( http://arxiv.org/abs/2111.01394v1 )

ライセンス: Link先を確認
Xiang Huang, Hongsheng Liu, Beiji Shi, Zidong Wang, Kang Yang, Yang Li, Bingya Weng, Min Wang, Haotian Chu, Jing Zhou, Fan Yu, Bei Hua, Lei Chen, Bin Dong(参考訳) 近年、ディープラーニング技術は偏微分方程式(PDE)の解法として用いられており、物理インフォームドニューラルネットワーク(PINN)が前方および逆PDE問題の解法として期待できる方法となっている。 支配方程式におけるディラックデルタ関数として表される点源を持つPDEは、多くの物理過程の数学的モデルである。 しかし、ディラックデルタ関数によってもたらされる特異性のため、従来のピンズ法では直接解くことはできない。 3つの新しい手法を用いてこの問題に取り組むための普遍的な解決法を提案する。 まず、ディラックデルタ関数を特異性を排除するための連続確率密度関数としてモデル化し、第2に、点源領域と他の領域とのPINN損失のバランスをとるための下界拘束不確実性重み付けアルゴリズムを提案し、第3に、周期的アクティベーション関数を持つマルチスケールディープニューラルネットワークを用いて、PINNs法の精度と収束速度を改善する。 提案手法を3つの代表的PDEを用いて評価し,提案手法が既存の深層学習手法よりも精度,効率,汎用性に優れていたことを示す。

In recent years, deep learning technology has been used to solve partial differential equations (PDEs), among which the physics-informed neural networks (PINNs) emerges to be a promising method for solving both forward and inverse PDE problems. PDEs with a point source that is expressed as a Dirac delta function in the governing equations are mathematical models of many physical processes. However, they cannot be solved directly by conventional PINNs method due to the singularity brought by the Dirac delta function. We propose a universal solution to tackle this problem with three novel techniques. Firstly the Dirac delta function is modeled as a continuous probability density function to eliminate the singularity; secondly a lower bound constrained uncertainty weighting algorithm is proposed to balance the PINNs losses between point source area and other areas; and thirdly a multi-scale deep neural network with periodic activation function is used to improve the accuracy and convergence speed of the PINNs method. We evaluate the proposed method with three representative PDEs, and the experimental results show that our method outperforms existing deep learning-based methods with respect to the accuracy, the efficiency and the versatility.
翻訳日:2021-11-03 14:19:03 公開日:2021-11-02
# WaveSense: キーワードスポッティングのためのスパイクニューラルネットワークによる効率的な時間的畳み込み

WaveSense: Efficient Temporal Convolutions with Spiking Neural Networks for Keyword Spotting ( http://arxiv.org/abs/2111.01456v1 )

ライセンス: Link先を確認
Philipp Weidel, Sadique Sheik(参考訳) 超低消費電力ローカル信号処理は、常時オンデバイス上のエッジアプリケーションにとって重要な側面である。 スパイクニューラルネットワークをエミュレートするニューロモルフィックプロセッサは、この領域で必要とされる限られた電力予算を満たしながら、大きな計算能力を示す。 本研究では、拡張時間畳み込みの自然な代替として、スパイキングニューラルダイナミクスを提案する。 このアイデアをWaveNetアーキテクチャにインスパイアされたスパイクニューラルネットワークであるWaveSenseに拡張します。 wavesenseは単純な神経動力学、固定時間定数、単純なフィードフォワードアーキテクチャを使用しており、神経形態的実装に特に適している。 キーワードスポッティングのためのいくつかのデータセット上で、このモデルの機能をテストします。 その結果,提案したネットワークは,他のスパイクニューラルネットワークの技術を破り,CNNやLSTMといった人工ニューラルネットワークの最先端性能に近づいた。

Ultra-low power local signal processing is a crucial aspect for edge applications on always-on devices. Neuromorphic processors emulating spiking neural networks show great computational power while fulfilling the limited power budget as needed in this domain. In this work we propose spiking neural dynamics as a natural alternative to dilated temporal convolutions. We extend this idea to WaveSense, a spiking neural network inspired by the WaveNet architecture. WaveSense uses simple neural dynamics, fixed time-constants and a simple feed-forward architecture and hence is particularly well suited for a neuromorphic implementation. We test the capabilities of this model on several datasets for keyword-spotting. The results show that the proposed network beats the state of the art of other spiking neural networks and reaches near state-of-the-art performance of artificial neural networks such as CNNs and LSTMs.
翻訳日:2021-11-03 14:18:42 公開日:2021-11-02
# 固定信頼度線形トップm同定におけるミス種別対応

Dealing With Misspecification In Fixed-Confidence Linear Top-m Identification ( http://arxiv.org/abs/2111.01479v1 )

ライセンス: Link先を確認
Cl\'emence R\'eda (UP, INSERM), Andrea Tirinzoni (Scool, CNRS), R\'emy Degenne (Scool, CNRS)(参考訳) 我々は,不特定な線形バンディットモデルに対する固定誤差率$\delta$ (fixed-confidence top-m identification) の下で,最大の手段を持つmアームの同定の問題について検討した。 この問題は、特に医学やレコメンデーションシステムにおいて、その単純さと効率的なアルゴリズムの存在によって線形モデルが人気であるが、データが必然的に線形性から逸脱することによる。 本研究ではまず,一般的なTop-m識別問題に対する$\delta$-correctアルゴリズムのサンプリング複雑性に基づいて,トラクタブルな下界を導出する。 線形性からの逸脱の大きさを知ることは問題の構造を生かすために必要であることを示す。 次に,本設定における第1のアルゴリズムについて述べる。これは実用的であり,誤特定量に適応する。 この適応性を確認し、$\delta$$\rightarrow $ 0 のときの下位境界と一致するようなサンプル複雑性の上限を導出する。 最後に,本アルゴリズムを合成データと実世界データの両方で評価し,既存のベースラインに対する競合性能を示す。

We study the problem of the identification of m arms with largest means under a fixed error rate $\delta$ (fixed-confidence Top-m identification), for misspecified linear bandit models. This problem is motivated by practical applications, especially in medicine and recommendation systems, where linear models are popular due to their simplicity and the existence of efficient algorithms, but in which data inevitably deviates from linearity. In this work, we first derive a tractable lower bound on the sample complexity of any $\delta$-correct algorithm for the general Top-m identification problem. We show that knowing the scale of the deviation from linearity is necessary to exploit the structure of the problem. We then describe the first algorithm for this setting, which is both practical and adapts to the amount of misspecification. We derive an upper bound to its sample complexity which confirms this adaptivity and that matches the lower bound when $\delta$ $\rightarrow$ 0. Finally, we evaluate our algorithm on both synthetic and real-world data, showing competitive performance with respect to existing baselines.
翻訳日:2021-11-03 14:17:36 公開日:2021-11-02
# OpenStreetMapデータによる自転車共有ステーションの位置推定

Predicting the Location of Bicycle-sharing Stations using OpenStreetMap Data ( http://arxiv.org/abs/2111.01722v1 )

ライセンス: Link先を確認
Kamil Raczycki(参考訳) 自転車共有局の配置は、特に自転車共有システムが実装されている都市では複雑なプロセスである。 都市計画者は、公的に利用可能なデータと行政から私的に提供されたデータの両方に基づいて多くの見積もりをし、現場で人気のあるロケーション・アロケーション・モデルを使う必要がある。 小さな都市の多くの自治体は、そのような計画を実行するために専門家を雇うのが難しい可能性がある。 本論文は,空間埋め込み手法を用いて,計画の合理化とプロセスを容易にする新しい手法を提案する。 openstreetmapの公開データとヨーロッパの34都市からの駅配置のみに基づいて、uber h3離散グローバルグリッドシステムを使用して都市をマイクロリージョンに分割し、トランスファーラーニングを使用して、異なる都市の既存のシステムに基づいて駅を配置する価値のある地域を示す方法が開発されている。 この作業の結果は、駅レイアウトを基準都市の選択で計画する際の意思決定においてプランナーを支援するメカニズムである。

Planning the layout of bicycle-sharing stations is a complex process, especially in cities where bicycle sharing systems are just being implemented. Urban planners often have to make a lot of estimates based on both publicly available data and privately provided data from the administration and then use the Location-Allocation model popular in the field. Many municipalities in smaller cities may have difficulty hiring specialists to carry out such planning. This thesis proposes a new solution to streamline and facilitate the process of such planning by using spatial embedding methods. Based only on publicly available data from OpenStreetMap, and station layouts from 34 cities in Europe, a method has been developed to divide cities into micro-regions using the Uber H3 discrete global grid system and to indicate regions where it is worth placing a station based on existing systems in different cities using transfer learning. The result of the work is a mechanism to support planners in their decision making when planning a station layout with a choice of reference cities.
翻訳日:2021-11-03 14:17:19 公開日:2021-11-02
# 効率的な局所リプシッツ境界を用いたニューラルネットワークの学習

Training Certifiably Robust Neural Networks with Efficient Local Lipschitz Bounds ( http://arxiv.org/abs/2111.01395v1 )

ライセンス: Link先を確認
Yujia Huang, Huan Zhang, Yuanyuan Shi, J Zico Kolter, Anima Anandkumar(参考訳) 認証された堅牢性は、安全クリティカルなアプリケーションにおけるディープニューラルネットワークの望ましい特性であり、人気のあるトレーニングアルゴリズムは、リプシッツ定数のグローバルバウンドを計算することによって、ニューラルネットワークの堅牢性を証明することができる。 しかし、そのような境界はしばしば緩く、ニューラルネットワークを過度に調整し、その自然な精度を低下させる傾向がある。 より厳密なリプシッツ境界は、自然と証明された精度のトレードオフをもたらすが、一般にネットワークの非凸性のために正確に計算することは困難である。 本研究では,活性化関数(例えばReLU)と重み行列の相互作用を考慮し,効率的かつ訓練可能なLipschitz上界を提案する。 具体的には、重み行列の誘導ノルムを計算する際に、活性化関数が与えられた各データポイントの近傍で定数であることが保証された対応する行や列を排除し、ニューラルネットワークのグローバルリプシッツ定数よりも確実に厳しい拘束力を与える。 本手法は,多くの認定トレーニングアルゴリズムにおいて,Lipschitz境界を厳格化するためのプラグインモジュールとして利用できる。 さらに,学習可能な上限値とスパーシティ損失を有するアクティベーション関数(例えば,relu,maxmin)をクリップし,ネットワークのより厳密な局所リプシッツ結合を実現するための支援を行う。 提案手法は,MNIST, CIFAR-10, TinyImageNetの各種ネットワークアーキテクチャを用いて, 精度, 精度, 精度, 精度の両面において一貫した性能を有することを示す。

Certified robustness is a desirable property for deep neural networks in safety-critical applications, and popular training algorithms can certify robustness of a neural network by computing a global bound on its Lipschitz constant. However, such a bound is often loose: it tends to over-regularize the neural network and degrade its natural accuracy. A tighter Lipschitz bound may provide a better tradeoff between natural and certified accuracy, but is generally hard to compute exactly due to non-convexity of the network. In this work, we propose an efficient and trainable \emph{local} Lipschitz upper bound by considering the interactions between activation functions (e.g. ReLU) and weight matrices. Specifically, when computing the induced norm of a weight matrix, we eliminate the corresponding rows and columns where the activation function is guaranteed to be a constant in the neighborhood of each given data point, which provides a provably tighter bound than the global Lipschitz constant of the neural network. Our method can be used as a plug-in module to tighten the Lipschitz bound in many certifiable training algorithms. Furthermore, we propose to clip activation functions (e.g., ReLU and MaxMin) with a learnable upper threshold and a sparsity loss to assist the network to achieve an even tighter local Lipschitz bound. Experimentally, we show that our method consistently outperforms state-of-the-art methods in both clean and certified accuracy on MNIST, CIFAR-10 and TinyImageNet datasets with various network architectures.
翻訳日:2021-11-03 14:16:44 公開日:2021-11-02
# gibbsアルゴリズムによる転送学習の一般化誤りの特徴化と理解

Characterizing and Understanding the Generalization Error of Transfer Learning with Gibbs Algorithm ( http://arxiv.org/abs/2111.01635v1 )

ライセンス: Link先を確認
Yuheng Bu, Gholamali Aminian, Laura Toni, Miguel Rodrigues and Gregory Wornell(参考訳) 本稿では、Gibsに基づく転送学習アルゴリズムの一般化能力に関する情報理論解析を行い、2つの一般的な転送学習アプローチである$\alpha$-weighted-ER Mと2段階ERMに着目した。 我々の重要な結果は、出力仮説と対象訓練サンプルとの条件付き対称性kl情報を用いた一般化行動の正確な特徴付けである。 また,これら2つのgibbsアルゴリズムに対して,新しい分布自由汎化誤差上限を与えることができる。 我々のアプローチは多様であり、これら2つのギブスアルゴリズムの漸近的状態における一般化誤差と過剰リスクを特徴付け、それぞれ$\alpha$-weighted-ER M と 2-stage-ERM に収束する。 理論的結果から, 伝達学習の利点は, ソース分布に起因したバイアスと, 対象サンプルの欠如によって引き起こされるばらつきにより, バイアス分散トレードオフと見なせることを示す。 我々は、この視点が実際に移行学習アルゴリズムの選択を導くことができると考えている。

We provide an information-theoreti c analysis of the generalization ability of Gibbs-based transfer learning algorithms by focusing on two popular transfer learning approaches, $\alpha$-weighted-ER M and two-stage-ERM. Our key result is an exact characterization of the generalization behaviour using the conditional symmetrized KL information between the output hypothesis and the target training samples given the source samples. Our results can also be applied to provide novel distribution-free generalization error upper bounds on these two aforementioned Gibbs algorithms. Our approach is versatile, as it also characterizes the generalization errors and excess risks of these two Gibbs algorithms in the asymptotic regime, where they converge to the $\alpha$-weighted-ER M and two-stage-ERM, respectively. Based on our theoretical results, we show that the benefits of transfer learning can be viewed as a bias-variance trade-off, with the bias induced by the source distribution and the variance induced by the lack of target samples. We believe this viewpoint can guide the choice of transfer learning algorithms in practice.
翻訳日:2021-11-03 14:16:15 公開日:2021-11-02
# 順列群における指数族優先によるシャッフルデータ問題の正規化

Regularization for Shuffled Data Problems via Exponential Family Priors on the Permutation Group ( http://arxiv.org/abs/2111.01767v1 )

ライセンス: Link先を確認
Zhenbang Wang, Emanuel Ben-David, Martin Slawski(参考訳) X, Y)-ペアからなるデータセットの分析では、各ペアが同じ観測単位に対応するという暗黙の仮定がある。 しかし、そのようなペアが2つのファイルのレコードリンクによって得られる場合、例えば2つのファイルに信頼できる識別子が欠如している場合、この仮定はミスマッチエラーのルート化の結果違反する可能性がある。 近年、(X, Y)-ペアの基底となる正しいペアリングが未知の指数置換によって表現される「シャッフルデータ」という用語の下で、この設定への関心が高まっている。 置換の明示的なモデリングは、かなり過度なオーバーフィッティングと関連付けられ、正規化の適切な方法の必要性が生じる。 本稿では,置換群に先立つ柔軟な指数関数族を提案し,スパースや局所制約付きシャッフルといった様々な構造を統合することを可能にする。 このことは、固定置換の確率条件を対応する(X,Y)ペア上で積として表現できる正準シャッフルデータ問題に対する共役であることが判明した。 推論は、抽出可能なEステップをFisher-Yatesアルゴリズムによって近似するEMアルゴリズムに基づいている。 M-ステップは、(X,Y)-ペアの確率が一般化線形モデルの場合のように指数関数的な族形式を持つ場合、$n^2$から$n$ termsへの顕著な還元が認められる。 合成データと実データの比較は,提案手法が競合手法と良好に比較できることを示している。

In the analysis of data sets consisting of (X, Y)-pairs, a tacit assumption is that each pair corresponds to the same observation unit. If, however, such pairs are obtained via record linkage of two files, this assumption can be violated as a result of mismatch error rooting, for example, in the lack of reliable identifiers in the two files. Recently, there has been a surge of interest in this setting under the term "Shuffled data" in which the underlying correct pairing of (X, Y)-pairs is represented via an unknown index permutation. Explicit modeling of the permutation tends to be associated with substantial overfitting, prompting the need for suitable methods of regularization. In this paper, we propose a flexible exponential family prior on the permutation group for this purpose that can be used to integrate various structures such as sparse and locally constrained shuffling. This prior turns out to be conjugate for canonical shuffled data problems in which the likelihood conditional on a fixed permutation can be expressed as product over the corresponding (X,Y)-pairs. Inference is based on the EM algorithm in which the intractable E-step is approximated by the Fisher-Yates algorithm. The M-step is shown to admit a significant reduction from $n^2$ to $n$ terms if the likelihood of (X,Y)-pairs has exponential family form as in the case of generalized linear models. Comparisons on synthetic and real data show that the proposed approach compares favorably to competing methods.
翻訳日:2021-11-03 14:15:58 公開日:2021-11-02
# ロングテールへの適応:言語理解課題における転帰学習研究のメタ分析

Adapting to the Long Tail: A Meta-Analysis of Transfer Learning Research for Language Understanding Tasks ( http://arxiv.org/abs/2111.01340v1 )

ライセンス: Link先を確認
Aakanksha Naik, Jill Lehman, Carolyn Rose(参考訳) 自然言語理解(NLU)は大きなベンチマークによって大きく進歩し、伝達学習の研究と組み合わせてその影響を広げている。 ベンチマークは、頻繁な現象の小さなセットに支配されており、頻繁な現象の長い尾が表現されていない。 本研究は, ロングテールにおけるベンチマーク学習モデルの性能について, 伝達学習手法は十分に対処されているか? ベンチマークは包含/除いた事象をリストアップしないので、未表現のジャンルやトピックなどのマクロ次元を用いてロングテールを概念化する。 転校学習研究の潮流を,nluの転校学習に関する代表100論文の質的メタ分析を通じて評価する。 分析には3つの質問があります (i)転校学習はどのロングテールディメンジョンを対象としますか。 (ii)ロングテールの性能を改善するためにどのような特性が役立つか。 (iii)ロングテール性能に最も悪影響を及ぼす方法論的ギャップは何か? これらの質問に対する私たちの回答は、長期にわたるトランスファーラーニングにおける今後の研究の道のりを浮き彫りにしている。 最後に, 臨床物語における様々な適応法の性能を比較検討し, 系統的に実施したメタ実験が, 今後の展開にどのように影響を与えるかを示す。

Natural language understanding (NLU) has made massive progress driven by large benchmarks, paired with research on transfer learning to broaden its impact. Benchmarks are dominated by a small set of frequent phenomena, leaving a long tail of infrequent phenomena underrepresented. In this work, we reflect on the question: have transfer learning methods sufficiently addressed performance of benchmark-trained models on the long tail? Since benchmarks do not list included/excluded phenomena, we conceptualize the long tail using macro-level dimensions such as underrepresented genres, topics, etc. We assess trends in transfer learning research through a qualitative meta-analysis of 100 representative papers on transfer learning for NLU. Our analysis asks three questions: (i) Which long tail dimensions do transfer learning studies target? (ii) Which properties help adaptation methods improve performance on the long tail? (iii) Which methodological gaps have greatest negative impact on long tail performance? Our answers to these questions highlight major avenues for future research in transfer learning for the long tail. Lastly, we present a case study comparing the performance of various adaptation methods on clinical narratives to show how systematically conducted meta-experiments can provide insights that enable us to make progress along these future avenues.
翻訳日:2021-11-03 14:12:17 公開日:2021-11-02
# 整数計画に基づく文法的誤り訂正のためのシステム組み合わせ

System Combination for Grammatical Error Correction Based on Integer Programming ( http://arxiv.org/abs/2111.01465v1 )

ライセンス: Link先を確認
Ruixi Lin and Hwee Tou Ng(参考訳) 本稿では,非線形整数計画法(IP)に基づく文法的誤り訂正(GEC)システムの組み合わせ手法を提案する。 提案手法は,誤差型に基づく新しいFスコア目標を最適化し,複数のエンドツーエンドGECシステムを組み合わせる。 提案手法は,データに含まれる各文法的エラータイプに対して,単一のベストシステムの選択を最適化する。 最先端のスタンドアロンgecシステムを結合するipアプローチの実験は、結合システムが全てのスタンドアロンシステムを上回ることを示している。 F0.5スコアを3.61%改善し、BEA 2019共有タスクで最高の2つのシステムを組み合わせてF0.5スコアを73.08%達成する。 我々はまた、我々のIPアプローチとGECのための別の最先端システム組み合わせ法を比較する実験を行い、IPの競合的組み合わせ能力を示す。

In this paper, we propose a system combination method for grammatical error correction (GEC), based on nonlinear integer programming (IP). Our method optimizes a novel F score objective based on error types, and combines multiple end-to-end GEC systems. The proposed IP approach optimizes the selection of a single best system for each grammatical error type present in the data. Experiments of the IP approach on combining state-of-the-art standalone GEC systems show that the combined system outperforms all standalone systems. It improves F0.5 score by 3.61% when combining the two best participating systems in the BEA 2019 shared task, and achieves F0.5 score of 73.08%. We also perform experiments to compare our IP approach with another state-of-the-art system combination method for GEC, demonstrating IP's competitive combination capability.
翻訳日:2021-11-03 14:12:00 公開日:2021-11-02
# 深部モデルを用いたBERTとヘイトスピーチ単語を用いたヘイトスピーチの検出

Detection of Hate Speech using BERT and Hate Speech Word Embedding with Deep Model ( http://arxiv.org/abs/2111.01515v1 )

ライセンス: Link先を確認
Hind Saleh, Areej Alhothali, Kawthar Moria(参考訳) ウェブやソーシャルメディアで大量のデータが生成され、オンラインヘイトスピーチ検出の需要が高まっている。 ヘイトスピーチの検出は、そのネガティブな影響と他人への影響を減少させる。 自然言語処理(NLP)分野における多くの取り組みは、一般的にヘイトスピーチを検出したり、宗教、人種、性別、性的指向といった特定のヘイトスピーチを検出することを目的としている。 ヘイト・コミュニティは、誤字、意図的な綴りミス、コード化された単語をコミュニケーションに用いて検出を回避し、音声検出タスクを嫌う問題を増やす傾向にある。 したがって、言葉表現はヘイトスピーチの検出において、ますます重要な役割を果たす。 本稿では,双方向LSTMに基づくディープモデルにドメイン固有の単語を埋め込み,ヘイトスピーチを自動的に検出・分類する可能性について検討する。 さらに,ヘイトスピーチ問題に対する伝達学習言語モデル (BERT) の使用を二項分類タスクとして検討した。 実験により、双方向lstmベースのディープモデルによるドメイン固有単語埋め込みは93%のf1-scoreを達成し、bertは利用可能なヘイトスピーチデータセットから合計96%のf1-scoreを達成した。

The enormous amount of data being generated on the web and social media has increased the demand for detecting online hate speech. Detecting hate speech will reduce their negative impact and influence on others. A lot of effort in the Natural Language Processing (NLP) domain aimed to detect hate speech in general or detect specific hate speech such as religion, race, gender, or sexual orientation. Hate communities tend to use abbreviations, intentional spelling mistakes, and coded words in their communication to evade detection, adding more challenges to hate speech detection tasks. Thus, word representation will play an increasingly pivotal role in detecting hate speech. This paper investigates the feasibility of leveraging domain-specific word embedding in Bidirectional LSTM based deep model to automatically detect/classify hate speech. Furthermore, we investigate the use of the transfer learning language model (BERT) on hate speech problem as a binary classification task. The experiments showed that domainspecific word embedding with the Bidirectional LSTM based deep model achieved a 93% f1-score while BERT achieved up to 96% f1-score on a combined balanced dataset from available hate speech datasets.
翻訳日:2021-11-03 14:11:48 公開日:2021-11-02
# 高レベルオプションの強化による探索の学習

Learning to Explore by Reinforcement over High-Level Options ( http://arxiv.org/abs/2111.01364v1 )

ライセンス: Link先を確認
Liu Juncheng, McCane Brendan, Mills Steven(参考訳) 自律的な3D環境探索はナビゲーションなどの様々なアプリケーションにとって基本的な課題である。 調査の目的は、新しい環境を調査し、その占有マップを効率的に構築することである。 本稿では,エージェントに「見回し」と「最前線のナビゲーション」の2つの行動選択を付与する新しい手法を提案する。 これはoption-critic architectureによって実装され、強化学習アルゴリズムによってトレーニングされる。 各タイムステップにおいて、エージェントはポリシーに従ってオプションと対応するアクションを生成する。 また,学習効率を向上させるために古典的な経路計画手法を取り入れたマクロアクションも活用する。 提案手法の有効性を2つの公開3次元環境データセットに示すとともに,提案手法が効率良く競合技術よりも高いカバレッジを実現することを示す。

Autonomous 3D environment exploration is a fundamental task for various applications such as navigation. The goal of exploration is to investigate a new environment and build its occupancy map efficiently. In this paper, we propose a new method which grants an agent two intertwined options of behaviors: "look-around" and "frontier navigation". This is implemented by an option-critic architecture and trained by reinforcement learning algorithms. In each timestep, an agent produces an option and a corresponding action according to the policy. We also take advantage of macro-actions by incorporating classic path-planning techniques to increase training efficiency. We demonstrate the effectiveness of the proposed method on two publicly available 3D environment datasets and the results show our method achieves higher coverage than competing techniques with better efficiency.
翻訳日:2021-11-03 14:10:51 公開日:2021-11-02
# 多層ファジィC平均クラスタリングと最小層間誤差に基づくエンベロープ不均衡学習アルゴリズム

Envelope Imbalance Learning Algorithm based on Multilayer Fuzzy C-means Clustering and Minimum Interlayer discrepancy ( http://arxiv.org/abs/2111.01371v1 )

ライセンス: Link先を確認
Fan Li, Xiaoheng Zhang, Pin Wang, Yongming Li(参考訳) 不均衡なデータセットの分類の問題が機械学習やデータマイニングの分野に広まっているため、不均衡な学習は重要かつ困難である。 この問題を解決するためにサンプリングアプローチが提案されており、クラスタベースのオーバーサンプリング手法はクラス間およびクラス内不均衡問題を同時に取り組もうとしているため、大きな可能性を秘めている。 しかしながら、既存のクラスタリングメソッドはすべて、ワンタイムアプローチに基づいている。 事前知識の欠如により、クラスタ数の不適切な設定がしばしば発生し、クラスタのパフォーマンスが低下する。 さらに、既存のメソッドは騒がしいインスタンスを生成する可能性が高い。 そこで本研究では,多層ファジィc-means (mlfcm) を用いたディープインスタンス包絡ネットワークに基づく不均衡学習アルゴリズムと,最大平均偏差 (midmd) に基づく最小層間不一致機構を提案する。 このアルゴリズムは、事前の知識がなければ、ディープインスタンスエンベロープネットワークを使用して、高品質なバランスの取れたインスタンスを保証できる。 実験セクションでは、検証には33の人気のある公開データセットが使用され、比較には10以上の代表アルゴリズムが使用される。 実験の結果,提案手法が他の一般的な手法を大きく上回っていることがわかった。

Imbalanced learning is important and challenging since the problem of the classification of imbalanced datasets is prevalent in machine learning and data mining fields. Sampling approaches are proposed to address this issue, and cluster-based oversampling methods have shown great potential as they aim to simultaneously tackle between-class and within-class imbalance issues. However, all existing clustering methods are based on a one-time approach. Due to the lack of a priori knowledge, improper setting of the number of clusters often exists, which leads to poor clustering performance. Besides, the existing methods are likely to generate noisy instances. To solve these problems, this paper proposes a deep instance envelope network-based imbalanced learning algorithm with the multilayer fuzzy c-means (MlFCM) and a minimum interlayer discrepancy mechanism based on the maximum mean discrepancy (MIDMD). This algorithm can guarantee high quality balanced instances using a deep instance envelope network in the absence of prior knowledge. In the experimental section, thirty-three popular public datasets are used for verification, and over ten representative algorithms are used for comparison. The experimental results show that the proposed approach significantly outperforms other popular methods.
翻訳日:2021-11-03 14:10:39 公開日:2021-11-02
# グラフ・ツリー・デダクティブ・ネットワーク

Graph Tree Deductive Networks ( http://arxiv.org/abs/2111.01431v1 )

ライセンス: Link先を確認
Seokjun Kim, Jaeeun Jang, Hyeoncheol Kim(参考訳) 本稿では,帰納的推論を行うネットワークであるGraph Tree Deductive Networksを紹介する。 様々な公理を組み合わせ、結果を別の公理に戻す高次元思考は、新たな関係や結果を生み出すために必要である。 例えば、"Socrates is a man"と"All men are mortals"という2つの命題が与えられ、新しい命題である"Therefore Socrates is mortal"を推測するために2つの命題が用いられる。 評価のために,手書きの数値画像データセットであるMNIST Datasetを用いて群理論に適用し,帰納学習の結果を示した。

In this paper, we introduce Graph Tree Deductive Networks, a network that performs deductive reasoning. To have high-dimensional thinking, combining various axioms and putting the results back into another axiom is necessary to produce new relationships and results. For example, it would be given two propositions: "Socrates is a man." and "All men are mortals." and two propositions could be used to infer the new proposition, "Therefore Socrates is mortal.". To evaluate, we used MNIST Dataset, a handwritten numerical image dataset, to apply it to the group theory and show the results of performing deductive learning.
翻訳日:2021-11-03 14:10:20 公開日:2021-11-02
# 精密物体検出のための境界分布推定

Boundary Distribution Estimation to Precise Object Detection ( http://arxiv.org/abs/2111.01396v1 )

ライセンス: Link先を確認
Haoran Zhou, Hang Huang, Rui Zhao, Wei Wang, and Qingguo Zhou(参考訳) 現代の主検出器では、オブジェクトローカライゼーションのタスクは、バウンディングボックスレグレッションに集中するボックスサブネットによって実装される。 ボックスサブネットは、ボックス中心位置とスケーリング要因を後退させることで、通常、オブジェクトの位置を予測する。 このアプローチは頻繁に採用されているが, 局所化の結果は依然として不良であり, 検出器の性能は不満足である。 本稿では,先行手法の欠陥を理論的解析と実験的検証により証明し,物体を高精度に検出する新しい解を提案する。 本手法は, 対象物の境界における分布を推定することにより, 従来の局所化結果に基づいて, 境界ボックスのエッジを改良する。 実験の結果,提案手法の可能性と一般化が示された。

In principal modern detectors, the task of object localization is implemented by the box subnet which concentrates on bounding box regression. The box subnet customarily predicts the position of the object by regressing box center position and scaling factors. Although this approach is frequently adopted, we observe that the result of localization remains defective, which makes the performance of the detector unsatisfactory. In this paper, we prove the flaws in the previous method through theoretical analysis and experimental verification and propose a novel solution to detect objects precisely. Rather than plainly focusing on center and size, our approach refines the edges of the bounding box on previous localization results by estimating the distribution at the boundary of the object. Experimental results have shown the potentiality and generalization of our proposed method.
翻訳日:2021-11-03 14:07:41 公開日:2021-11-02
# HHP-Net:不確実性を考慮した頭部電位推定のための光ヘテロセダスティックニューラルネットワーク

HHP-Net: A light Heteroscedastic neural network for Head Pose estimation with uncertainty ( http://arxiv.org/abs/2111.01440v1 )

ライセンス: Link先を確認
Giorgio Cantarini, Federico Figari Tomenotti, Nicoletta Noceti, Francesca Odone(参考訳) 本稿では,頭部キーポイントの小さな集合から単眼画像中の人物の頭部姿勢を推定する新しい手法を提案する。 そこで本研究では,2次元ポーズ推定アルゴリズムで計算されたキーポイントを活用し,ヨー,ピッチ,ロールで表される頭部ポーズを出力する回帰モデルを提案する。 私たちのモデルは、技術の現状に関して、実装が簡単で、より効率的です -- 推論が高速で、メモリ占有率の面ではより小さく、同等の精度で。 また, 3つの角度に関する不確かさを, 適切に設計した損失関数を用いて測定し, 誤差と不確実性値の間に相関性があることを示し, この余分な情報源を計算ステップで用いることができることを示した。 画像中の社会的相互作用分析を例として, 頭部のポーズや相互位置の推論から, 人物間の相互作用のレベルを定量的に推定するアルゴリズムを提案する。 コードはhttps://github.com/c antarinigiorgio/hhp- netで入手できる。

In this paper we introduce a novel method to estimate the head pose of people in single images starting from a small set of head keypoints. To this purpose, we propose a regression model that exploits keypoints computed automatically by 2D pose estimation algorithms and outputs the head pose represented by yaw, pitch, and roll. Our model is simple to implement and more efficient with respect to the state of the art -- faster in inference and smaller in terms of memory occupancy -- with comparable accuracy. Our method also provides a measure of the heteroscedastic uncertainties associated with the three angles, through an appropriately designed loss function; we show there is a correlation between error and uncertainty values, thus this extra source of information may be used in subsequent computational steps. As an example application, we address social interaction analysis in images: we propose an algorithm for a quantitative estimation of the level of interaction between people, starting from their head poses and reasoning on their mutual positions. The code is available at https://github.com/c antarinigiorgio/HHP- Net.
翻訳日:2021-11-03 14:07:29 公開日:2021-11-02
# インターネットビデオによる物体間相互作用の3次元運動と力の推定

Estimating 3D Motion and Forces of Human-Object Interactions from Internet Videos ( http://arxiv.org/abs/2111.01591v1 )

ライセンス: Link先を確認
Zongmian Li, Jiri Sedlar, Justin Carpentier, Ivan Laptev, Nicolas Mansard, Josef Sivic(参考訳) 本稿では,1枚のRGBビデオからオブジェクトと対話する人の3D動作を自動的に再構築する手法を提案する。 本手法は,物体の姿勢,接触位置,人体に作用する接触力と合わせて,人物の3dポーズを推定する。 この作品の主な貢献は3倍である。 まず,接点と相互作用のダイナミクスをモデル化し,操作対象上での動作と動作力を共同で推定する手法を提案する。 これは大規模な軌道最適化問題として考えられている。 次に,入力映像から物体や地盤との接触の2次元位置とタイミングを自動的に認識する手法を開発し,最適化の複雑さを大幅に単純化する。 第3に、典型的なパークアアクションをキャプチャする最近のビデオ+モキャップデータセットにおける我々のアプローチを検証するとともに、制約のない環境でさまざまなツールを操作する人々が示す、インターネットビデオの新しいデータセットでそのパフォーマンスを実証する。

In this paper, we introduce a method to automatically reconstruct the 3D motion of a person interacting with an object from a single RGB video. Our method estimates the 3D poses of the person together with the object pose, the contact positions and the contact forces exerted on the human body. The main contributions of this work are three-fold. First, we introduce an approach to jointly estimate the motion and the actuation forces of the person on the manipulated object by modeling contacts and the dynamics of the interactions. This is cast as a large-scale trajectory optimization problem. Second, we develop a method to automatically recognize from the input video the 2D position and timing of contacts between the person and the object or the ground, thereby significantly simplifying the complexity of the optimization. Third, we validate our approach on a recent video+MoCap dataset capturing typical parkour actions, and demonstrate its performance on a new dataset of Internet videos showing people manipulating a variety of tools in unconstrained environments.
翻訳日:2021-11-03 14:07:11 公開日:2021-11-02
# 最近の深層学習に基づく半スーパービジョンビデオ異常検出法に関する批判的研究

A Critical Study on the Recent Deep Learning Based Semi-Supervised Video Anomaly Detection Methods ( http://arxiv.org/abs/2111.01604v1 )

ライセンス: Link先を確認
Mohammad Baradaran, Robert Bergevin(参考訳) ビデオ異常検出はコンピュータビジョンにおけるホットな研究の1つであり、異常事象には大量の情報が含まれている。 異常は通常、リアルタイムアクションを必要とする監視システムの主要な検出対象の1つである。 トレーニング用ラベル付きデータ(すなわち異常のためのラベル付きデータが十分でない)の可用性については、半教師付き異常検出アプローチが近年注目されている。 本稿では,この分野の研究者を新たな視点に紹介し,近年のディープラーニングに基づく半教師付きビデオ異常検出手法を,異常検出に共通戦略に基づいてレビューする。 私たちの目標は、より効果的なビデオ異常検出方法の開発を支援することです。 このタスクのいくつかの部分には、右のDeep Neural Networkの選択が重要な役割を果たすため、DNNに関する簡単な比較レビューが最初に準備されている。 従来の調査とは異なり、DNNは時空間の特徴抽出の観点からレビューされ、ビデオ異常検出用にカスタマイズされる。 このレビューのこの部分は、この分野の研究者がそれぞれの方法の異なる部分に適したネットワークを選択するのに役立つ。 さらに,その検出戦略に基づく最先端の異常検出手法のいくつかを批判的に調査した。 レビューでは、既存のメソッドを新しく深く見ていくとともに、これらのアプローチの欠点が述べられ、今後の作業へのヒントとなる可能性がある。

Video anomaly detection is one of the hot research topics in computer vision nowadays, as abnormal events contain a high amount of information. Anomalies are one of the main detection targets in surveillance systems, usually needing real-time actions. Regarding the availability of labeled data for training (i.e., there is not enough labeled data for abnormalities), semi-supervised anomaly detection approaches have gained interest recently. This paper introduces the researchers of the field to a new perspective and reviews the recent deep-learning based semi-supervised video anomaly detection approaches, based on a common strategy they use for anomaly detection. Our goal is to help researchers develop more effective video anomaly detection methods. As the selection of a right Deep Neural Network plays an important role for several parts of this task, a quick comparative review on DNNs is prepared first. Unlike previous surveys, DNNs are reviewed from a spatiotemporal feature extraction viewpoint, customized for video anomaly detection. This part of the review can help researchers in this field select suitable networks for different parts of their methods. Moreover, some of the state-of-the-art anomaly detection methods, based on their detection strategy, are critically surveyed. The review provides a novel and deep look at existing methods and results in stating the shortcomings of these approaches, which can be a hint for future works.
翻訳日:2021-11-03 14:06:55 公開日:2021-11-02
# polytrack:バウンディングポリゴンによるトラッキング

PolyTrack: Tracking with Bounding Polygons ( http://arxiv.org/abs/2111.01606v1 )

ライセンス: Link先を確認
Gaspar Faure and Hughes Perreault and Guillaume-Alexandre Bilodeau and Nicolas Saunier(参考訳) 本稿では,有界多角形を用いた高速多対象追跡とセグメンテーションのためのPolyTrackという手法を提案する。 Polytrackは、中心キーポイントのヒートマップを生成してオブジェクトを検出する。 それぞれに対して、大まかなセグメンテーションは、従来のバウンディングボックスではなく、各インスタンス上のバウンディングポリゴンを計算することによって行われる。 トラッキングは、2つの連続したフレームを入力とし、第1のフレームで検出された各オブジェクトのセンターオフセットを演算して第2のフレームの位置を予測する。 カルマンフィルタはIDスイッチ数を減らすためにも用いられる。 対象とするアプリケーションは自動運転システムであるため,本手法を都市環境ビデオに適用する。 我々はMOTSおよびKITTIMOTSデータセット上でPolyTrackを訓練・評価した。 その結果、多角形追跡は境界ボックスやマスク追跡に代わる良い方法であることがわかった。 polytrackのコードはhttps://github.com/g afaua/polytrackで入手できる。

In this paper, we present a novel method called PolyTrack for fast multi-object tracking and segmentation using bounding polygons. Polytrack detects objects by producing heatmaps of their center keypoint. For each of them, a rough segmentation is done by computing a bounding polygon over each instance instead of the traditional bounding box. Tracking is done by taking two consecutive frames as input and computing a center offset for each object detected in the first frame to predict its location in the second frame. A Kalman filter is also applied to reduce the number of ID switches. Since our target application is automated driving systems, we apply our method on urban environment videos. We trained and evaluated PolyTrack on the MOTS and KITTIMOTS datasets. Results show that tracking polygons can be a good alternative to bounding box and mask tracking. The code of PolyTrack is available at https://github.com/g afaua/PolyTrack.
翻訳日:2021-11-03 14:06:34 公開日:2021-11-02
# きめ細かい分類における人間の注意

Human Attention in Fine-grained Classification ( http://arxiv.org/abs/2111.01628v1 )

ライセンス: Link先を確認
Yao Rong, Wenjia Xu, Zeynep Akata, Enkelejda Kasneci(参考訳) 人間が特定のイメージに出席し、処理し、分類する方法は、ディープラーニングモデルのパフォーマンスに多大な利益をもたらす可能性がある。 人間が焦点を合わせている展開は、正しい決定のために不可欠な特徴から逸脱しているときにモデルを修正できる。 人間の注意が細粒度分類などの意思決定プロセスに有用な情報を含んでいることを検証するため,重要な特徴の発見において,人間の注意とモデル説明を比較した。 この目標に向けて,詳細な分類データセットCUBの人間の視線データを収集し,CUB-GHA(Gaze-based Human Attention)というデータセットを構築する。 さらに,人間の視線知識を分類モデルに統合するためのGAT(Gaze Augmentation Training)とKFN(Knowledge Fusion Network)を提案する。 我々はCUB-GHAと最近リリースされた胸部X線画像の医療データセットCXR-Eyeに,放射線医が収集した視線データを含む提案を実装した。 この結果から,CXRのベースラインを4.38%向上させるなど,人間の注意力知識の統合が効果的に分類できることがわかった。 したがって、我々の研究は人間の注意をきめ細かい分類で理解する上で貴重な洞察を提供するだけでなく、人間の視線とコンピュータビジョンのタスクを統合するための将来の研究にも貢献する。 CUB-GHAとコードはhttps://github.com/y aorong0921/CUB-GHAで入手できる。

The way humans attend to, process and classify a given image has the potential to vastly benefit the performance of deep learning models. Exploiting where humans are focusing can rectify models when they are deviating from essential features for correct decisions. To validate that human attention contains valuable information for decision-making processes such as fine-grained classification, we compare human attention and model explanations in discovering important features. Towards this goal, we collect human gaze data for the fine-grained classification dataset CUB and build a dataset named CUB-GHA (Gaze-based Human Attention). Furthermore, we propose the Gaze Augmentation Training (GAT) and Knowledge Fusion Network (KFN) to integrate human gaze knowledge into classification models. We implement our proposals in CUB-GHA and the recently released medical dataset CXR-Eye of chest X-ray images, which includes gaze data collected from a radiologist. Our result reveals that integrating human attention knowledge benefits classification effectively, e.g. improving the baseline by 4.38% on CXR. Hence, our work provides not only valuable insights into understanding human attention in fine-grained classification, but also contributes to future research in integrating human gaze with computer vision tasks. CUB-GHA and code are available at https://github.com/y aorong0921/CUB-GHA.
翻訳日:2021-11-03 14:06:21 公開日:2021-11-02
# リレーショナル・セルフ・アテンション:ビデオ理解における注意の欠如

Relational Self-Attention: What's Missing in Attention for Video Understanding ( http://arxiv.org/abs/2111.01673v1 )

ライセンス: Link先を確認
Manjin Kim, Heeseung Kwon, Chunyu Wang, Suha Kwak, Minsu Cho(参考訳) 畳み込みは現代のニューラルネットワークにとって最も重要な機能変換であり、ディープラーニングの進歩につながった。 畳み込み層を自己アテンションブロックに置き換えるTransformerネットワークの近年の出現は、静止畳み込みカーネルの限界を明らかにし、動的特徴変換の時代への扉を開いた。 しかし、自己注意を含む既存の動的変換は、時間と空間の対応関係、つまり運動情報が効果的な表現に不可欠であるビデオ理解に限られている。 本研究では、リレーショナルカーネルを動的に生成し、リレーショナルコンテキストを集約することにより、ビデオ内の時空間関係の豊富な構造を利用するリレーショナル自己注意変換(RSA)を導入する。 実験とアブレーション実験により,rsaネットワークは畳み込みやセルフアテンションを実質的に上回っており,thing-something-v1 & v2, dive48, finegymなどのビデオ動作認識のための標準モーションセントリックベンチマークにおいて,最先端の技術が達成されていることが示された。

Convolution has been arguably the most important feature transform for modern neural networks, leading to the advance of deep learning. Recent emergence of Transformer networks, which replace convolution layers with self-attention blocks, has revealed the limitation of stationary convolution kernels and opened the door to the era of dynamic feature transforms. The existing dynamic transforms, including self-attention, however, are all limited for video understanding where correspondence relations in space and time, i.e., motion information, are crucial for effective representation. In this work, we introduce a relational feature transform, dubbed the relational self-attention (RSA), that leverages rich structures of spatio-temporal relations in videos by dynamically generating relational kernels and aggregating relational contexts. Our experiments and ablation studies show that the RSA network substantially outperforms convolution and self-attention counterparts, achieving the state of the art on the standard motion-centric benchmarks for video action recognition, such as Something-Something- V1 & V2, Diving48, and FineGym.
翻訳日:2021-11-03 14:05:59 公開日:2021-11-02
# MixFace: きめ細かい条件に着目した顔認証の改善

MixFace: Improving Face Verification Focusing on Fine-grained Conditions ( http://arxiv.org/abs/2111.01717v1 )

ライセンス: Link先を確認
Junuk Jung, Sungbin Son, Joochan Park, Yongjun Park, Seonhoon Lee, Heung-Seon Oh(参考訳) CNNの急速な進歩により、LFW、CFP-FP、AgeDBなどの公開ベンチマークデータセットでは、顔認識のパフォーマンスが飽和している。 しかし、これらのデータセットが存在しないため、さまざまな微粒な条件の顔がFRモデルに与える影響は研究されていない。 K-FACE(K-FACE, FRデータセット)を用いて, 異なる条件と損失関数を用いてそれらの効果を解析する。 本研究では,分類と計量損失を組み合わせた新しい損失関数mixfaceを提案する。 MixFaceの有効性と堅牢性は、様々なベンチマークデータセットで実験的に実証されている。

The performance of face recognition has become saturated for public benchmark datasets such as LFW, CFP-FP, and AgeDB, owing to the rapid advances in CNNs. However, the effects of faces with various fine-grained conditions on FR models have not been investigated because of the absence of such datasets. This paper analyzes their effects in terms of different conditions and loss functions using K-FACE, a recently introduced FR dataset with fine-grained conditions. We propose a novel loss function, MixFace, that combines classification and metric losses. The superiority of MixFace in terms of effectiveness and robustness is demonstrated experimentally on various benchmark datasets.
翻訳日:2021-11-03 14:04:52 公開日:2021-11-02
# HydraText: 逆テキスト攻撃に対する多目的最適化

HydraText: Multi-objective Optimization for Adversarial Textual Attack ( http://arxiv.org/abs/2111.01528v1 )

ライセンス: Link先を確認
Shengcai Liu, Ning Lu, Cheng Chen, Chao Qian, Ke Tang(参考訳) 敵のテキスト攻撃の分野は近年大きく成長しており、一般的に見なされる目的は、ターゲットモデルをうまく騙すことができる敵の例を作ることである。 しかし、本質的な目的である攻撃の不可避性は、しばしば先行研究から除外される。 そこで本研究では,両目的を同時に考慮し,高いインプセプティビリティで攻撃を成功させるための性能保証を実現した,新たなマルチ最適化手法(dubed hydratext)を提案する。 我々は5つのベンチマークデータセットにまたがる5つの最新のNLPモデルを含むスコアベースおよび決定ベース設定の広範な実験を通じて、HydraTextの有効性を実証する。 既存の最先端攻撃と比較して、hydratextは一貫して高い成功率、低い修正率、そして元のテキストとのセマンティックな類似性を同時に達成している。 人的評価実験により,HydraTextが作成した逆数例は妥当性と自然性を良好に維持していることが示された。 最後に、これらの例は良好な伝達性を示し、敵の訓練によってターゲットモデルに顕著な堅牢性をもたらす。

The field of adversarial textual attack has significantly grown over the last years, where the commonly considered objective is to craft adversarial examples that can successfully fool the target models. However, the imperceptibility of attacks, which is also an essential objective, is often left out by previous studies. In this work, we advocate considering both objectives at the same time, and propose a novel multi-optimization approach (dubbed HydraText) with provable performance guarantee to achieve successful attacks with high imperceptibility. We demonstrate the efficacy of HydraText through extensive experiments under both score-based and decision-based settings, involving five modern NLP models across five benchmark datasets. In comparison to existing state-of-the-art attacks, HydraText consistently achieves simultaneously higher success rates, lower modification rates, and higher semantic similarity to the original texts. A human evaluation study shows that the adversarial examples crafted by HydraText maintain validity and naturality well. Finally, these examples also exhibit good transferability and can bring notable robustness improvement to the target models by adversarial training.
翻訳日:2021-11-03 14:04:43 公開日:2021-11-02
# lmdiff: 言語モデルを比較するためのビジュアルdiffツール

LMdiff: A Visual Diff Tool to Compare Language Models ( http://arxiv.org/abs/2111.01582v1 )

ライセンス: Link先を確認
Hendrik Strobelt, Benjamin Hoover, Arvind Satyanarayan, Sebastian Gehrmann(参考訳) 異なる言語モデルはNLPにおいてユビキタスであるが、出力を対比し、どの文脈が他の言語よりもうまく扱えるかを特定することは困難である。 この問題に対処するために,我々は,微調整や蒸留,あるいは単に異なるパラメータサイズでのトレーニングを通じて,異なる2つのモデルの確率分布を視覚的に比較するツールであるlmdiffを紹介する。 LMdiffは、トークンによるテキストインスタンストークンの調査によるモデル行動に関する仮説の生成を可能にし、大きなコーパスから最も興味深いフレーズを識別することで、これらの興味深いテキストインスタンスの選択を支援する。 複数のケーススタディにまたがって仮説生成におけるLMdiffの適用性を示す。 デモはhttp://lmdiff.net.co m/で見ることができる。

While different language models are ubiquitous in NLP, it is hard to contrast their outputs and identify which contexts one can handle better than the other. To address this question, we introduce LMdiff, a tool that visually compares probability distributions of two models that differ, e.g., through finetuning, distillation, or simply training with different parameter sizes. LMdiff allows the generation of hypotheses about model behavior by investigating text instances token by token and further assists in choosing these interesting text instances by identifying the most interesting phrases from large corpora. We showcase the applicability of LMdiff for hypothesis generation across multiple case studies. A demo is available at http://lmdiff.net .
翻訳日:2021-11-03 14:04:26 公開日:2021-11-02
# Koopman Q-learning: ダイナミクスの対称性によるオフライン強化学習

Koopman Q-learning: Offline Reinforcement Learning via Symmetries of Dynamics ( http://arxiv.org/abs/2111.01365v1 )

ライセンス: Link先を確認
Matthias Weissenbacher, Samarth Sinha, Animesh Garg, Yoshinobu Kawahara(参考訳) オフライン強化学習は、大規模なデータセットを活用して、環境とのインタラクションなしにポリシーをトレーニングする。 学習したポリシーは、対話が高価か危険である現実世界に展開される。 現在のアルゴリズムは、トレーニングデータセットに過度に適合し、結果として、環境の分散の一般化にデプロイする場合、パフォーマンスが低下する。 我々は、システムの基盤となるダイナミクスの対称性を推測できるkoopmanの潜在表現を学習することで、これらの制限に対処することを目指している。 後者はトレーニング中に静的なオフラインデータセットを拡張するために使用される。これはシステムのダイナミックさを反映し、環境フェーズ空間の探索として解釈される新しいデータ拡張フレームワークを構成する。 対称性を得るためには、非線形力学を系の計測関数の空間に作用する線形作用素の項で表現し、従って力学の対称性を直接推測することができるkoopman理論を用いる。 強化学習の設定などの制御系に関連する対称性の存在と性質に関する新しい理論的結果を提供する。 さらに,d4rl,metaworld,robo suiteを含むいくつかのベンチマークオフライン強化学習タスクとデータセットにおいて,本手法を実証的に評価し,q-learning手法の最先端を一貫して改善することを見出した。

Offline reinforcement learning leverages large datasets to train policies without interactions with the environment. The learned policies may then be deployed in real-world settings where interactions are costly or dangerous. Current algorithms over-fit to the training dataset and as a consequence perform poorly when deployed to out-of-distribution generalizations of the environment. We aim to address these limitations by learning a Koopman latent representation which allows us to infer symmetries of the system's underlying dynamic. The latter is then utilized to extend the otherwise static offline dataset during training; this constitutes a novel data augmentation framework which reflects the system's dynamic and is thus to be interpreted as an exploration of the environments phase space. To obtain the symmetries we employ Koopman theory in which nonlinear dynamics are represented in terms of a linear operator acting on the space of measurement functions of the system and thus symmetries of the dynamics may be inferred directly. We provide novel theoretical results on the existence and nature of symmetries relevant for control systems such as reinforcement learning settings. Moreover, we empirically evaluate our method on several benchmark offline reinforcement learning tasks and datasets including D4RL, Metaworld and Robosuite and find that by using our framework we consistently improve the state-of-the-art for Q-learning methods.
翻訳日:2021-11-03 14:01:46 公開日:2021-11-02
# 力学系をシミュレートするニューラルネットワークモデルの構築

Constructing Neural Network-Based Models for Simulating Dynamical Systems ( http://arxiv.org/abs/2111.01495v1 )

ライセンス: Link先を確認
Christian M{\o}ldrup Legaard, Thomas Schranz, Gerald Schweiger, J\'an Drgo\v{n}a, Basak Falay, Cl\'audio Gomes, Alexandros Iosifidis, Mahdi Abkar, Peter Gorm Larsen(参考訳) 力学系は、物理、生物学、化学などの自然科学や、回路解析、計算流体力学、制御といった工学分野に広く用いられている。 単純な系の場合、微分方程式は基本的な物理法則を適用することで導出することができる。 しかし、より複雑なシステムでは、このアプローチは非常に困難になる。 データ駆動モデリングは、真のシステムの観察を用いてシステムのダイナミクスの近似を学ぶための別のパラダイムである。 近年、データ駆動モデリング技術への関心が高まっており、特にニューラルネットワークは幅広いタスクを解決するための効果的なフレームワークを提供することが証明されている。 本稿では,ニューラルネットワークを用いた動的システムのモデル構築方法について検討する。 基礎的な概観に加えて,関連する文献を概観し,このモデリングパラダイムが克服すべき数値シミュレーションの最も重要な課題を概説する。 レビューした文献と特定課題に基づき,有望な研究分野に関する議論を行う。

Dynamical systems see widespread use in natural sciences like physics, biology, chemistry, as well as engineering disciplines such as circuit analysis, computational fluid dynamics, and control. For simple systems, the differential equations governing the dynamics can be derived by applying fundamental physical laws. However, for more complex systems, this approach becomes exceedingly difficult. Data-driven modeling is an alternative paradigm that seeks to learn an approximation of the dynamics of a system using observations of the true system. In recent years, there has been an increased interest in data-driven modeling techniques, in particular neural networks have proven to provide an effective framework for solving a wide range of tasks. This paper provides a survey of the different ways to construct models of dynamical systems using neural networks. In addition to the basic overview, we review the related literature and outline the most significant challenges from numerical simulations that this modeling paradigm must overcome. Based on the reviewed literature and identified challenges, we provide a discussion on promising research areas.
翻訳日:2021-11-03 14:01:26 公開日:2021-11-02
# 確率的オンライン線形回帰:リッジを置き換えたフォワードアルゴリズム

Stochastic Online Linear Regression: the Forward Algorithm to Replace Ridge ( http://arxiv.org/abs/2111.01602v1 )

ライセンス: Link先を確認
Reda Ouhamma, Odalric Maillard, Vianney Perchet(参考訳) 確率的設定におけるオンライン線形回帰の問題を考える。 オンラインリッジ回帰とフォワードアルゴリズムに対して高い確率的後悔境界を導出する。 これにより、オンライン回帰アルゴリズムをより正確に比較し、有界な観測と予測の仮定を排除できる。 本研究では,境界の強化と正規化パラメータへの頑健性から,リッジの代わりにフォワードアルゴリズムを用いることを提唱する。 さらに,線形関数近似を含むアルゴリズムに統合し,理論境界を損なうことなく有界性仮定を取り除く方法について述べる。 この修正をリニアなバンディット設定で紹介し,後悔の限界を改善した。 最後に,結果を説明するために数値実験を行い,直観を裏付ける。

We consider the problem of online linear regression in the stochastic setting. We derive high probability regret bounds for online ridge regression and the forward algorithm. This enables us to compare online regression algorithms more accurately and eliminate assumptions of bounded observations and predictions. Our study advocates for the use of the forward algorithm in lieu of ridge due to its enhanced bounds and robustness to the regularization parameter. Moreover, we explain how to integrate it in algorithms involving linear function approximation to remove a boundedness assumption without deteriorating theoretical bounds. We showcase this modification in linear bandit settings where it yields improved regret bounds. Last, we provide numerical experiments to illustrate our results and endorse our intuitions.
翻訳日:2021-11-03 14:01:13 公開日:2021-11-02
# LogLAB: 弱スーパービジョンによるログデータ異常の注意に基づくラベル付け

LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak Supervision ( http://arxiv.org/abs/2111.01657v1 )

ライセンス: Link先を確認
Thorsten Wittkopp and Philipp Wiesner and Dominik Scheinert and Alexander Acker(参考訳) クラウド運用の規模と複雑さの増大により、ログなどのデータ監視における異常の自動検出は、将来のITインフラストラクチャを管理する上で不可欠な部分となるでしょう。 しかし、教師付きディープラーニングモデルのような人工知能に基づく多くの手法は、うまく機能するために大量のラベル付きトレーニングデータを必要とする。 実際、ログデータのラベリングは高価で時間がかかり、基礎となるシステムを深く理解する必要があるため、このデータはめったに利用できない。 専門家の手作業を必要としないログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。 本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを生成する。 注意機構に基づいており、不均衡なデータを考慮に入れた弱監視深層学習技術にカスタム目的関数を使用する。 我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。

With increasing scale and complexity of cloud operations, automated detection of anomalies in monitoring data such as logs will be an essential part of managing future IT infrastructures. However, many methods based on artificial intelligence, such as supervised deep learning models, require large amounts of labeled training data to perform well. In practice, this data is rarely available because labeling log data is expensive, time-consuming, and requires a deep understanding of the underlying system. We present LogLAB, a novel modeling approach for automated labeling of log messages without requiring manual work by experts. Our method relies on estimated failure time windows provided by monitoring systems to produce precise labeled datasets in retrospect. It is based on the attention mechanism and uses a custom objective function for weak supervision deep learning techniques that accounts for imbalanced data. Our evaluation shows that LogLAB consistently outperforms nine benchmark approaches across three different datasets and maintains an F1-score of more than 0.98 even at large failure time windows.
翻訳日:2021-11-03 14:01:05 公開日:2021-11-02
# (参考訳) エンドツーエンド音声認識の最近の進歩 [全文訳有]

Recent Advances in End-to-End Automatic Speech Recognition ( http://arxiv.org/abs/2111.01690v1 )

ライセンス: CC BY 4.0
Jinyu Li(参考訳) 近年、音声コミュニティでは、ディープニューラルネットワークに基づくハイブリッドモデリングから、自動音声認識(asr)のためのエンドツーエンド(e2e)モデリングへの移行が大きなトレンドとなっている。 e2eモデルはasrの精度でほとんどのベンチマークで最先端の結果を達成しているが、ハイブリッドモデルは現在でも多くの商用asrシステムで使用されている。 運用モデルデプロイメントの決定に影響を及ぼす現実的な要因はたくさんあります。 従来のハイブリッドモデルは、何十年にもわたって生産に最適化されている。 これらすべての要因に対して優れたソリューションを提供していないため、E2Eモデルが広く商業化されることは困難である。 本稿では、E2Eモデルの最近の進歩を概観し、業界の観点からこれらの課題に対処する技術に焦点をあてる。

Recently, the speech community is seeing a significant trend of moving from deep neural network based hybrid modeling to end-to-end (E2E) modeling for automatic speech recognition (ASR). While E2E models achieve the state-of-the-art results in most benchmarks in terms of ASR accuracy, hybrid models are still used in a large proportion of commercial ASR systems at the current time. There are lots of practical factors that affect the production model deployment decision. Traditional hybrid models, being optimized for production for decades, are usually good at these factors. Without providing excellent solutions to all these factors, it is hard for E2E models to be widely commercialized. In this paper, we will overview the recent advances in E2E models, focusing on technologies addressing those challenges from the industry's perspective.
翻訳日:2021-11-03 13:58:44 公開日:2021-11-02
# 不確実性を考慮したロバスト学習による雑音データの解明

Elucidating Noisy Data via Uncertainty-Aware Robust Learning ( http://arxiv.org/abs/2111.01632v1 )

ライセンス: Link先を確認
Jeongeun Park, Seungyoun Shin, Sangheum Hwang, Sungjoon Choi(参考訳) ロバストな学習方法は、特定の汚いパターンが優先される場合、ノイズや破損したトレーニングデータからクリーンな目標分布を学習することを目的としている。 提案手法は,汚れたデータセットからクリーンなターゲット分布を学習するだけでなく,基礎となるノイズパターンを推定できる。 この目的のために、我々は2種類の予測不確実性、アレタリックおよびエピステマティック不確実性を区別できる試験混合モデルを利用する。 これら2つの目的が密接に絡み合っているため,不確実性を推定する能力は,汚職パターンの解明に重要な役割を果たすことを示す。 また,汚損パターン推定の性能を評価するための新しい検証手法を提案する。 提案手法は,コンピュータビジョンや自然言語処理を含む多くの領域において,ロバスト性および汚いパターン推定の両面から広く評価されている。

Robust learning methods aim to learn a clean target distribution from noisy and corrupted training data where a specific corruption pattern is often assumed a priori. Our proposed method can not only successfully learn the clean target distribution from a dirty dataset but also can estimate the underlying noise pattern. To this end, we leverage a mixture-of-experts model that can distinguish two different types of predictive uncertainty, aleatoric and epistemic uncertainty. We show that the ability to estimate the uncertainty plays a significant role in elucidating the corruption patterns as these two objectives are tightly intertwined. We also present a novel validation scheme for evaluating the performance of the corruption pattern estimation. Our proposed method is extensively assessed in terms of both robustness and corruption pattern estimation through a number of domains, including computer vision and natural language processing.
翻訳日:2021-11-03 12:48:24 公開日:2021-11-02
# 外乱最適輸送 : 双対性, 構造, 統計的応用

Outlier-Robust Optimal Transport: Duality, Structure, and Statistical Applications ( http://arxiv.org/abs/2111.01361v1 )

ライセンス: Link先を確認
Sloan Nietert, Rachel Cummings, Ziv Goldfeld(参考訳) ワッサーシュタイン距離は最適輸送(OT)理論に根ざしたもので、確率分布と統計学や機械学習への様々な応用の相違点として人気がある。 リッチな構造と実用性を示したにもかかわらず、ワッサーシュタイン距離は検討された分布の外れ値に敏感であり、実際には適用性を妨げる。 ハマー汚染モデルにインスパイアされ、汚染された各分布から$\varepsilon$outlier massを除去できる新しいoutlier-robust Wasserstein distance $\mathsf{W}_p^\varepsilon$を提案する。 我々の定式化は、以前検討されたフレームワークと比較して分析に有利な非常に定期的な最適化問題である。 これを利用して, 最適摂動, 正則性, 双対性, 統計的推定とロバスト性結果のキャラクタリゼーションを包含して, $\mathsf{w}_p^\varepsilon$ の詳細な理論的研究を行った。 特に、最適化変数をデカップリングすることで、標準的な双対性に基づくOTソルバの基本的な修正によって実装できる$\mathsf{W}_p^\varepsilon$の単純な双対形式に到達する。 汚染されたデータセットを用いた生成モデリングへの応用を通して、我々のフレームワークの利点を説明する。

The Wasserstein distance, rooted in optimal transport (OT) theory, is a popular discrepancy measure between probability distributions with various applications to statistics and machine learning. Despite their rich structure and demonstrated utility, Wasserstein distances are sensitive to outliers in the considered distributions, which hinders applicability in practice. Inspired by the Huber contamination model, we propose a new outlier-robust Wasserstein distance $\mathsf{W}_p^\varepsilon$ which allows for $\varepsilon$ outlier mass to be removed from each contaminated distribution. Our formulation amounts to a highly regular optimization problem that lends itself better for analysis compared to previously considered frameworks. Leveraging this, we conduct a thorough theoretical study of $\mathsf{W}_p^\varepsilon$, encompassing characterization of optimal perturbations, regularity, duality, and statistical estimation and robustness results. In particular, by decoupling the optimization variables, we arrive at a simple dual form for $\mathsf{W}_p^\varepsilon$ that can be implemented via an elementary modification to standard, duality-based OT solvers. We illustrate the benefits of our framework via applications to generative modeling with contaminated datasets.
翻訳日:2021-11-03 12:48:09 公開日:2021-11-02
# GANにおけるエントロピー規則化の理解

Understanding Entropic Regularization in GANs ( http://arxiv.org/abs/2111.01387v1 )

ライセンス: Link先を確認
Daria Reshetova, Yikun Bai, Xiugang Wu, Ayfer Ozgur(参考訳) Generative Adversarial Networksは、対象の分布を既知の分布の関数としてモデル化することで、データから分布を学習する一般的な方法である。 ジェネレータと呼ばれるこの関数は、生成された分布と目標分布の間の選択された距離測度を最小化するために最適化される。 この目的のためによく使われる測度の一つがワッサーシュタイン距離である。 しかし、wasserstein距離の計算と最適化は困難であり、実際にはエントロピー正規化技術は数値収束を改善するために用いられる。 しかし、学習した解に対する正規化の影響はよく理解されていない。 本稿では, ワッサーシュタイン距離の一般的なエントロピー正規化が, ジェネレータが線形であり, ターゲット分布が高次元ガウス的な単純なベンチマーク設定において, どのように解に影響を及ぼすかを検討する。 エントロピー正則化は解のスパース化を促進するが、ワッサーシュタイン距離をシンクホルン発散に置き換えると、非正規化解が回復する。 どちらの正規化技術も、ワッサーシュタイン距離に苦しむ次元の呪いを取り除く。 最適生成器は目標分布から$O(1/\epsilon^2)のサンプルで$\epsilon$を精度良く学習できることを示す。 その結果,これらの正規化手法は,多種多様な分布に対する経験的データから学習した生成器の品質を向上させることができることがわかった。

Generative Adversarial Networks are a popular method for learning distributions from data by modeling the target distribution as a function of a known distribution. The function, often referred to as the generator, is optimized to minimize a chosen distance measure between the generated and target distributions. One commonly used measure for this purpose is the Wasserstein distance. However, Wasserstein distance is hard to compute and optimize, and in practice entropic regularization techniques are used to improve numerical convergence. The influence of regularization on the learned solution, however, remains not well-understood. In this paper, we study how several popular entropic regularizations of Wasserstein distance impact the solution in a simple benchmark setting where the generator is linear and the target distribution is high-dimensional Gaussian. We show that entropy regularization promotes the solution sparsification, while replacing the Wasserstein distance with the Sinkhorn divergence recovers the unregularized solution. Both regularization techniques remove the curse of dimensionality suffered by Wasserstein distance. We show that the optimal generator can be learned to accuracy $\epsilon$ with $O(1/\epsilon^2)$ samples from the target distribution. We thus conclude that these regularization techniques can improve the quality of the generator learned from empirical data for a large class of distributions.
翻訳日:2021-11-03 12:47:41 公開日:2021-11-02
# 粒子フィルタにおける微分型再サンプリングを用いた非線形モデルのパラメータの効率的な学習

Efficient Learning of the Parameters of Non-Linear Models using Differentiable Resampling in Particle Filters ( http://arxiv.org/abs/2111.01409v1 )

ライセンス: Link先を確認
Conor Rosato, Paul Horridge, Thomas B. Sch\"on, Simon Maskell(参考訳) 粒子フィルタのサンプリングと再サンプリングのステップは区別できないことが広く記録されている。 サンプリングステップを微分可能関数に再構成可能にするために「itshape reparameterization trick」が導入された。 本稿では, この段階以降の勾配計算における不連続性を制限するために, 確率的入力を含むように拡張する。 事前および可能性の勾配を知ることで、パラメータを推定する際に、粒子Markov Chain Monte Carlo (p-MCMC) を実行し、No-U-Turn Sampler (NUTS) を用いることができる。 我々は、メトロポリス調整ランゲヴィンアルゴリズム(MALA)、ハミルトンモンテカルロと異なるステップ数とNUTSを比較した。 2つの状態空間モデルを検討し、NUTSがマルコフ連鎖の混合を改善し、計算時間の短縮でより正確な結果が得られることを示す。

It has been widely documented that the sampling and resampling steps in particle filters cannot be differentiated. The {\itshape reparameterisation trick} was introduced to allow the sampling step to be reformulated into a differentiable function. We extend the {\itshape reparameterisation trick} to include the stochastic input to resampling therefore limiting the discontinuities in the gradient calculation after this step. Knowing the gradients of the prior and likelihood allows us to run particle Markov Chain Monte Carlo (p-MCMC) and use the No-U-Turn Sampler (NUTS) as the proposal when estimating parameters. We compare the Metropolis-adjusted Langevin algorithm (MALA), Hamiltonian Monte Carlo with different number of steps and NUTS. We consider two state-space models and show that NUTS improves the mixing of the Markov chain and can produce more accurate results in less computational time.
翻訳日:2021-11-03 12:47:21 公開日:2021-11-02
# (参考訳) LogAvgExpが基本的でパフォーマンスのよいグローバルプール演算子を提供

LogAvgExp Provides a Principled and Performant Global Pooling Operator ( http://arxiv.org/abs/2111.01742v1 )

ライセンス: CC BY-SA 4.0
Scott C. Lowe and Thomas Trappenberg and Sageev Oore(参考訳) 我々は、より理論的に正当化された演算子を適用することによって、ニューラルネットワークのプール操作を改善することを目指す。 LogSumExpがロジットに自然なOR演算子を提供することを示す。 プール演算子内の要素数を補正すると、$\text{logavgexp} := \log(\text{mean}(\exp(x)))$となる。 単一温度パラメータを導入することにより、LogAvgExpはオペランドの最大値から平均値に滑らかに遷移する(制限の場合$t \to 0^+$と$t \to +\infty$)。 コンピュータビジョンのための様々なディープニューラルネットワークアーキテクチャにおいて、学習可能な温度パラメータと非学習可能な温度パラメータの両方でLogAvgExpを実験的にテストした。

We seek to improve the pooling operation in neural networks, by applying a more theoretically justified operator. We demonstrate that LogSumExp provides a natural OR operator for logits. When one corrects for the number of elements inside the pooling operator, this becomes $\text{LogAvgExp} := \log(\text{mean}(\exp(x)))$. By introducing a single temperature parameter, LogAvgExp smoothly transitions from the max of its operands to the mean (found at the limiting cases $t \to 0^+$ and $t \to +\infty$). We experimentally tested LogAvgExp, both with and without a learnable temperature parameter, in a variety of deep neural network architectures for computer vision.
翻訳日:2021-11-03 12:45:59 公開日:2021-11-02
# 適合性ランドスケープフットプリント:ニューラルネットワークの検索問題を比較するフレームワーク

Fitness Landscape Footprint: A Framework to Compare Neural Architecture Search Problems ( http://arxiv.org/abs/2111.01584v1 )

ライセンス: Link先を確認
Kalifou Ren\'e Traor\'e, Andr\'es Camero and Xiao Xiang Zhu(参考訳) ニューラルアーキテクチャサーチは、ニューラルネットワークモデルの設計を自動化する研究分野として有望である。 この分野は急速に成長しており、ベイズ最適化、ニューロエボリューション、微分可能な探索、様々な文脈での応用など様々な手法が普及している。 しかし、大きな進歩にもかかわらず、問題自体の難しさに関する洞察を提示する研究はほとんどなく、これらの方法論の成功(あるいは失敗)はいまだに説明されていない。 この意味で、最適化の分野は最適化問題を記述するための重要な側面を強調する手法を開発した。 フィットネスのランドスケープ分析は、信頼性と定量的な検索アルゴリズムの特徴として際立っている。 本稿では、フィットネスランドスケープ分析を用いてニューラルアーキテクチャ探索問題を研究することを提案する。 特に、アーキテクチャ探索問題の景観を合成するために、8(8)の一般目的メトリクスを集約したフィットネスランドスケープフットプリントを導入する。 従来の画像分類ベンチマーク cifar-10 とリモートセンシング問題 so2sat lcz42 について検討した。 その結果,問題の定量的評価を行い,厳密性や永続性などの相対的難易度や特徴を特徴付けることにより,問題の探索戦略の調整に役立てることができた。 また、フットプリントは複数の問題の比較を可能にするツールである。

Neural architecture search is a promising area of research dedicated to automating the design of neural network models. This field is rapidly growing, with a surge of methodologies ranging from Bayesian optimization,neuroev oltion, to differentiable search, and applications in various contexts. However, despite all great advances, few studies have presented insights on the difficulty of the problem itself, thus the success (or fail) of these methodologies remains unexplained. In this sense, the field of optimization has developed methods that highlight key aspects to describe optimization problems. The fitness landscape analysis stands out when it comes to characterize reliably and quantitatively search algorithms. In this paper, we propose to use fitness landscape analysis to study a neural architecture search problem. Particularly, we introduce the fitness landscape footprint, an aggregation of eight (8)general-purpose metrics to synthesize the landscape of an architecture search problem. We studied two problems, the classical image classification benchmark CIFAR-10, and the Remote-Sensing problem So2Sat LCZ42. The results present a quantitative appraisal of the problems, allowing to characterize the relative difficulty and other characteristics, such as the ruggedness or the persistence, that helps to tailor a search strategy to the problem. Also, the footprint is a tool that enables the comparison of multiple problems.
翻訳日:2021-11-03 12:42:55 公開日:2021-11-02
# ブラックボックスランダム検索に基づく逆攻撃の探索分布のメタラーニング

Meta-Learning the Search Distribution of Black-Box Random Search Based Adversarial Attacks ( http://arxiv.org/abs/2111.01714v1 )

ライセンス: Link先を確認
Maksym Yatsura, Jan Hendrik Metzen, Matthias Hein(参考訳) ランダム化探索方式に基づく敵攻撃は,最近,ブラックボックスのロバスト性評価において最先端の結果を得た。 しかし、本研究で示すように、異なるクエリ予算方式における効率性は、基礎となる提案分布のマニュアル設計とヒューリスティックチューニングに依存する。 本研究では,攻撃時に得られた情報に基づいて提案分布をオンラインに適応させることにより,この問題に対処する方法について検討する。 現状のスコアベースのブラックボックス攻撃であるスクエアアタックについて検討し、攻撃中に提案分布のパラメータをオンラインで調整する学習コントローラにより、その性能をいかに改善できるかを示す。 我々は、ホワイトボックスアクセスを持つCIFAR10モデル上で、勾配に基づくエンドツーエンドトレーニングを用いてコントローラを訓練する。 我々は、学習したコントローラを攻撃に接続することで、ブラックボックスアクセスを持つさまざまなモデルに対して、異なるクエリレシシでブラックボックスロバストネスの推定を最大20%改善できることを実証した。 さらに,学習した適応原則がcifar100やimagenetなどの他のデータディストリビューションやターゲット攻撃設定によく変換されることを示す。

Adversarial attacks based on randomized search schemes have obtained state-of-the-art results in black-box robustness evaluation recently. However, as we demonstrate in this work, their efficiency in different query budget regimes depends on manual design and heuristic tuning of the underlying proposal distributions. We study how this issue can be addressed by adapting the proposal distribution online based on the information obtained during the attack. We consider Square Attack, which is a state-of-the-art score-based black-box attack, and demonstrate how its performance can be improved by a learned controller that adjusts the parameters of the proposal distribution online during the attack. We train the controller using gradient-based end-to-end training on a CIFAR10 model with white box access. We demonstrate that plugging the learned controller into the attack consistently improves its black-box robustness estimate in different query regimes by up to 20% for a wide range of different models with black-box access. We further show that the learned adaptation principle transfers well to the other data distributions such as CIFAR100 or ImageNet and to the targeted attack setting.
翻訳日:2021-11-03 12:42:37 公開日:2021-11-02
# 神経画像における時空間回帰モデルの効率的な階層ベイズ推定

Efficient hierarchical Bayesian inference for spatio-temporal regression models in neuroimaging ( http://arxiv.org/abs/2111.01692v1 )

ライセンス: Link先を確認
Ali Hashemi, Yijing Gao, Chang Cai, Sanjay Ghosh, Klaus-Robert M\"uller, Srikantan S. Nagarajan, Stefan Haufe(参考訳) ニューロイメージングにおけるいくつかの問題は、マルチタスクスパース階層回帰モデルのパラメータの推論を必要とする。 例えば、M/EEG逆問題、タスクベースのfMRI分析のためのニューラルエンコーディングモデル、気候やCPU、GPUの温度モニタリングなどがある。 これらの領域では、推定されるモデルパラメータと測定ノイズの両方が複雑な時空間構造を示す。 既存の作業は時間構造を無視したり、計算上要求される推論スキームに繋がる。 これらの限界を克服し,モデルパラメータと雑音の時空間ダイナミクスをクロネッカー積共分散構造にモデル化した,新しいフレキシブル階層ベイズフレームワークを考案する。 フレームワーク内の推論は、最大化最小化最適化に基づいており、収束特性を保証している。 我々のアルゴリズムは時間的自己共分散行列の固有リーマン幾何学を利用する。 Toeplitz行列によって記述された定常力学では、循環埋め込みの理論が用いられる。 我々は凸境界特性を証明し,結果のアルゴリズムの更新規則を導出する。 M/EEGの合成と実のニューラルデータに基づいて,本手法が性能改善につながることを示す。

Several problems in neuroimaging and beyond require inference on the parameters of multi-task sparse hierarchical regression models. Examples include M/EEG inverse problems, neural encoding models for task-based fMRI analyses, and temperature monitoring of climate or CPU and GPU. In these domains, both the model parameters to be inferred and the measurement noise may exhibit a complex spatio-temporal structure. Existing work either neglects the temporal structure or leads to computationally demanding inference schemes. Overcoming these limitations, we devise a novel flexible hierarchical Bayesian framework within which the spatio-temporal dynamics of model parameters and noise are modeled to have Kronecker product covariance structure. Inference in our framework is based on majorization-minimiz ation optimization and has guaranteed convergence properties. Our highly efficient algorithms exploit the intrinsic Riemannian geometry of temporal autocovariance matrices. For stationary dynamics described by Toeplitz matrices, the theory of circulant embeddings is employed. We prove convex bounding properties and derive update rules of the resulting algorithms. On both synthetic and real neural data from M/EEG, we demonstrate that our methods lead to improved performance.
翻訳日:2021-11-03 12:42:17 公開日:2021-11-02
# 対話政策学習のための事前学習言語モデルの統合

Integrating Pretrained Language Model for Dialogue Policy Learning ( http://arxiv.org/abs/2111.01398v1 )

ライセンス: Link先を確認
Hongru Wang, Huimin Wang, Zezhong Wang, Kam-Fai Wong(参考訳) 強化学習(rl)は、ユーザーからの報酬の蓄積を最大化するために対話政策エージェントを訓練する可能性を持っている。 しかし、その報酬は、通常、ダイアログセッションの終わりにのみ提供されるため、受け入れられるダイアログエージェントに対する望ましくないインタラクション要求を引き起こすため、非常にスパースである。 政策の最適化や報酬の回収に費やした多くの努力と違い、局所的な視認性やモデル崩壊に苦しむ代わりに、敵対的なトレーニングを2つのステップに分解する。 1) 事前学習された言語モデルを判別器として統合し, 現行のシステム動作が最後のユーザ動作に十分であるかどうかを判断する(すなわち, \textit{next action prediction})。 2 差別者は、エージェントの探索を指導するために、余分な局地的な報酬を与える。 実験の結果,本手法は対話システムの完全率 (~4.4\%) と成功率 (~8.0\%) を有意に改善することが示された。

Reinforcement Learning (RL) has been witnessed its potential for training a dialogue policy agent towards maximizing the accumulated rewards given from users. However, the reward can be very sparse for it is usually only provided at the end of a dialog session, which causes unaffordable interaction requirements for an acceptable dialog agent. Distinguished from many efforts dedicated to optimizing the policy and recovering the reward alternatively which suffers from easily getting stuck in local optima and model collapse, we decompose the adversarial training into two steps: 1) we integrate a pre-trained language model as a discriminator to judge whether the current system action is good enough for the last user action (i.e., \textit{next action prediction}); 2) the discriminator gives and extra local dense reward to guide the agent's exploration. The experimental result demonstrates that our method significantly improves the complete rate (~4.4\%) and success rate (~8.0\%) of the dialogue system.
翻訳日:2021-11-03 12:42:02 公開日:2021-11-02
# ALS患者に対するPersonalized One-Shot Lipreading

Personalized One-Shot Lipreading for an ALS Patient ( http://arxiv.org/abs/2111.01740v1 )

ライセンス: Link先を確認
Bipasha Sen, Aditya Agarwal, Rudrabha Mukhopadhyay, Vinay Namboodiri, C V Jawahar(参考訳) 話者の口の動きから音声を読み取る、あるいは視覚的に認識することは、挑戦的で精神的に課税するタスクである。 残念なことに、複数の医療条件により、人々は日々の生活の中でこのスキルに頼らざるを得ない。 筋萎縮性側索硬化症(ALS)に苦しむ患者は、しばしば筋肉のコントロールを失い、その結果、発声能力と唇の動きによるコミュニケーション能力を失う。 既存の大規模データセットは、医療患者に焦点を当てたり、個人に関連するパーソナライズされた語彙をキュレーションしたりしない。 しかし、mod-ernデータ格納型ディープラーニングモデルのトレーニングに必要な、患者の大規模なデータセットの収集は、非常に難しい。 本研究では,単発例のみを用いてALS患者をリップレッドするパーソナライズされたネットワークを提案する。 合成唇の動きに頼ってワンショットシナリオを増強した。 変分エンコーダに基づくドメイン適応手法は、実合成領域ギャップを橋渡しするために用いられる。 本手法は, 患者に対する62.6%と比較して, 高いトップ5精度を83.2%精度で達成する。 また, ALS患者に対するアプローチの評価とは別に, 口唇運動に大きく依存する難聴者にも適用した。

Lipreading or visually recognizing speech from the mouth movements of a speaker is a challenging and mentally taxing task. Unfortunately, multiple medical conditions force people to depend on this skill in their day-to-day lives for essential communication. Patients suffering from Amyotrophic Lateral Sclerosis (ALS) often lose muscle control, consequently their ability to generate speech and communicate via lip movements. Existing large datasets do not focus on medical patients or curate personalized vocabulary relevant to an individual. Collecting a large-scale dataset of a patient, needed to train mod-ern data-hungry deep learning models is, however, extremely challenging. In this work, we propose a personalized network to lipread an ALS patient using only one-shot examples. We depend on synthetically generated lip movements to augment the one-shot scenario. A Variational Encoder based domain adaptation technique is used to bridge the real-synthetic domain gap. Our approach significantly improves and achieves high top-5accuracy with 83.2% accuracy compared to 62.6% achieved by comparable methods for the patient. Apart from evaluating our approach on the ALS patient, we also extend it to people with hearing impairment relying extensively on lip movements to communicate.
翻訳日:2021-11-03 12:41:18 公開日:2021-11-02
# 特徴密度検出のための分類器訓練効率の向上

Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density ( http://arxiv.org/abs/2111.01689v1 )

ライセンス: Link先を確認
Juuso Eronen, Michal Ptaszynski, Fumito Masui, Aleksander Pohl, Gniewosz Leliwa, Michal Wroczynski(参考訳) 学習前の機械学習(ml)分類器の潜在的な性能を比較評価するために,異なる言語的特徴前処理手法を用いた特徴密度(fd)の有効性について検討した。 データセットの複雑さを推定することで、必要な実験回数を減らすことができると仮定する。 これにより、利用可能なデータセットサイズの増加と、Deep Neural Networks(DNN)に基づいたモデルの人気の高まりにより、MLモデルのリソース集約的なトレーニングを最適化できます。 より強力な計算資源の需要が常に増大する問題は、大規模MLモデルのトレーニングによるCO2排出量の増加によって環境にも影響を与えている。 この調査は、一般的な感情分析モデルのトレーニングに使用されるyelp business reviewデータセットや、サイバーいじめの問題に対処しようとする最近のデータセットなど、一般的なデータセットを含む複数のデータセットで実施された。 我々は、複数の言語、すなわち英語、日本語、ポーランド語で収集されたサイバーいじめデータセットを使用する。 データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性についても議論できる。

We study the effectiveness of Feature Density (FD) using different linguistically-backe d feature preprocessing methods in order to estimate dataset complexity, which in turn is used to comparatively estimate the potential performance of machine learning (ML) classifiers prior to any training. We hypothesise that estimating dataset complexity allows for the reduction of the number of required experiments iterations. This way we can optimize the resource-intensive training of ML models which is becoming a serious issue due to the increases in available dataset sizes and the ever rising popularity of models based on Deep Neural Networks (DNN). The problem of constantly increasing needs for more powerful computational resources is also affecting the environment due to alarmingly-growing amount of CO2 emissions caused by training of large-scale ML models. The research was conducted on multiple datasets, including popular datasets, such as Yelp business review dataset used for training typical sentiment analysis models, as well as more recent datasets trying to tackle the problem of cyberbullying, which, being a serious social problem, is also a much more sophisticated problem form the point of view of linguistic representation. We use cyberbullying datasets collected for multiple languages, namely English, Japanese and Polish. The difference in linguistic complexity of datasets allows us to additionally discuss the efficacy of linguistically-backe d word preprocessing.
翻訳日:2021-11-03 12:40:50 公開日:2021-11-02
# 自動ファクトチェックのためのラベルなしデータにおける内部信号を用いたクレーム識別の有効性評価

Assessing Effectiveness of Using Internal Signals for Check-Worthy Claim Identification in Unlabeled Data for Automated Fact-Checking ( http://arxiv.org/abs/2111.01706v1 )

ライセンス: Link先を確認
Archita Pathak and Rohini K. Srihari(参考訳) ファクトチェックの自動化に関する最近の研究は、クレームのリストが容易に入手できるクレームの検証と説明に重点を置いているが、テキストからチェックに値するクレーム文の識別は依然として困難である。 現在のクレーム識別モデルはテキストの各文のマニュアルアノテーションに依存しており、これは高価なタスクであり、複数のドメインにまたがる頻繁な実行を困難にしている。 本稿では,ドメインによらず,明示的な文レベルのアノテーションを使わずに,偽ニュース記事からチェック価値のあるクレーム文を特定する手法を検討する。 我々は2つの内部監督信号(見出しと抽象的な要約)を活用し、意味的類似性に基づいて文章をランク付けする。 このランキングは文のチェック性に直接関係していると仮定する。 この仮説の有効性を評価するために,見出しと抽象的要約に基づいて文のランク付けを利用するパイプラインを構築した。 上位ランクの文は、証拠検索の下流の事実チェックタスクと、パイプラインによる記事の正確性予測に使用される。 以上の結果から,上位3項目は偽ニュース記事の事実チェックに十分な情報を含んでいることが示唆された。 また、見出しはファクトチェックのウェブサイトがクレームを記述する方法と似ているが、要約ベースのパイプラインはエンドツーエンドのファクトチェックシステムにとって最も有望であることを示す。

While recent work on automated fact-checking has focused mainly on verifying and explaining claims, for which the list of claims is readily available, identifying check-worthy claim sentences from a text remains challenging. Current claim identification models rely on manual annotations for each sentence in the text, which is an expensive task and challenging to conduct on a frequent basis across multiple domains. This paper explores methodology to identify check-worthy claim sentences from fake news articles, irrespective of domain, without explicit sentence-level annotations. We leverage two internal supervisory signals - headline and the abstractive summary - to rank the sentences based on semantic similarity. We hypothesize that this ranking directly correlates to the check-worthiness of the sentences. To assess the effectiveness of this hypothesis, we build pipelines that leverage the ranking of sentences based on either the headline or the abstractive summary. The top-ranked sentences are used for the downstream fact-checking tasks of evidence retrieval and the article's veracity prediction by the pipeline. Our findings suggest that the top 3 ranked sentences contain enough information for evidence-based fact-checking of a fake news article. We also show that while the headline has more gisting similarity with how a fact-checking website writes a claim, the summary-based pipeline is the most promising for an end-to-end fact-checking system.
翻訳日:2021-11-03 12:40:33 公開日:2021-11-02
# (参考訳) AdaPool: 情報保持ダウンサンプリングのための指数適応型プール [全文訳有]

AdaPool: Exponential Adaptive Pooling for Information-Retainin g Downsampling ( http://arxiv.org/abs/2111.00772v2 )

ライセンス: CC BY 4.0
Alexandros Stergiou and Ronald Poppe(参考訳) プール層は畳み込みニューラルネットワーク(cnns)の重要な構成要素であり、計算オーバーヘッドを削減し、畳み込み操作の受容野を増加させる。 彼らは入力ボリュームによく似たサンプル化されたボリュームを作成し、理想的には計算とメモリ効率の両立を目指している。 両方の要件を共同で満たすことは困難である。 この目的のために,適応的かつ指数関数的に重みづけられたプーリング法 adapool を提案する。 提案手法では,dice-sorensen係数の指数値と指数最大値に基づく2組のプーリングカーネルのパラメータ化融合を用いる。 adaPoolの重要な性質は、その双方向性である。 一般的なプーリング法とは対照的に、ウェイトはダウンサンプリングされたアクティベーションマップをアップサンプルするために使うことができる。 これを adaUnPool と呼ぶ。 adaPoolは画像やビデオの分類やオブジェクト検出など,さまざまなタスクを通じて,ディテールの保存性の向上を実証する。 次に,画像および映像フレームの超解像とフレーム補間タスクにおけるadaunpoolの評価を行う。 ベンチマークでは,新しい高品質・高フレームレートビデオデータセットであるinter4kを導入する。 組み合わせた実験により、adaPoolはタスクやバックボーンアーキテクチャにまたがる優れた結果を体系的に達成し、微妙な計算とメモリオーバーヘッドを発生させることを示した。

Pooling layers are essential building blocks of Convolutional Neural Networks (CNNs) that reduce computational overhead and increase the receptive fields of proceeding convolutional operations. They aim to produce downsampled volumes that closely resemble the input volume while, ideally, also being computationally and memory efficient. It is a challenge to meet both requirements jointly. To this end, we propose an adaptive and exponentially weighted pooling method named adaPool. Our proposed method uses a parameterized fusion of two sets of pooling kernels that are based on the exponent of the Dice-Sorensen coefficient and the exponential maximum, respectively. A key property of adaPool is its bidirectional nature. In contrast to common pooling methods, weights can be used to upsample a downsampled activation map. We term this method adaUnPool. We demonstrate how adaPool improves the preservation of detail through a range of tasks including image and video classification and object detection. We then evaluate adaUnPool on image and video frame super-resolution and frame interpolation tasks. For benchmarking, we introduce Inter4K, a novel high-quality, high frame-rate video dataset. Our combined experiments demonstrate that adaPool systematically achieves better results across tasks and backbone architectures, while introducing a minor additional computational and memory overhead.
翻訳日:2021-11-03 12:38:06 公開日:2021-11-02
# (参考訳) 再現性レンズによる人工知能の公正性・説明責任・信頼度・透明性の教育 [全文訳有]

Teaching Fairness, Accountability, Confidentiality, and Transparency in Artificial Intelligence through the Lens of Reproducibility ( http://arxiv.org/abs/2111.00826v2 )

ライセンス: CC BY 4.0
Ana Lucic, Maurits Bleeker, Sami Jullien, Samarth Bhargav, Maarten de Rijke(参考訳) 本研究は,アムステルダム大学の公正性,説明可能性,信頼性,透明性に関する技術的・大学院レベルのコース(FACT-AI)について,再現性のレンズを通してFACT-AIの概念を教える。 コースの焦点は、トップAIカンファレンスから既存のFACT-AIアルゴリズムを再現し、彼らの経験に関するレポートを書くことに基づくグループプロジェクトである。 コースの最初のイテレーションで、私たちはグループプロジェクトのコード実装を備えたオープンソースリポジトリを作成しました。 第2イテレーションでは、学生に対して、機械学習再現性チャレンジにグループプロジェクトを提出するように勧めました。 我々は、1年が世界的なパンデミックと一致した2年間の授業を指導した経験を振り返り、大学院レベルのaiプログラムで再現性を通じてファクトaiを教えるためのガイドラインを提案する。 将来、教員が大学に同様のコースを開設する上で有用なリソースになることを願っている。

In this work we explain the setup for a technical, graduate-level course on Fairness, Accountability, Confidentiality and Transparency in Artificial Intelligence (FACT-AI) at the University of Amsterdam, which teaches FACT-AI concepts through the lens of reproducibility. The focal point of the course is a group project based on reproducing existing FACT-AI algorithms from top AI conferences, and writing a report about their experiences. In the first iteration of the course, we created an open source repository with the code implementations from the group projects. In the second iteration, we encouraged students to submit their group projects to the Machine Learning Reproducibility Challenge, which resulted in 9 reports from our course being accepted to the challenge. We reflect on our experience teaching the course over two academic years, where one year coincided with a global pandemic, and propose guidelines for teaching FACT-AI through reproducibility in graduate-level AI programs. We hope this can be a useful resource for instructors to set up similar courses at their universities in the future.
翻訳日:2021-11-03 12:13:41 公開日:2021-11-02
# (参考訳) 大規模ディープラーニング最適化: 総合的な調査

Large-Scale Deep Learning Optimizations: A Comprehensive Survey ( http://arxiv.org/abs/2111.00856v2 )

ライセンス: CC BY 4.0
Xiaoxin He, Fuzhao Xue, Xiaozhe Ren, Yang You(参考訳) ディープラーニングは、幅広いAIアプリケーションで有望な結果を得た。 より大きなデータセットとモデルにより、継続的にパフォーマンスが向上する。 しかし、私たちは一般的に、より多くの計算と通信に長いトレーニング時間を費やしています。 本研究では,モデル精度とモデル効率に関して,大規模深層学習の最適化に関する明確なスケッチを提供する。 我々は,大規模バッチ学習で発生する一般化ギャップの解答的トピックを最適化するために最もよく用いられるアルゴリズムについて検討し,通信オーバヘッドに対処し,メモリフットプリントを削減するためのSOTA戦略を概観する。

Deep learning have achieved promising results on a wide spectrum of AI applications. Larger datasets and models consistently yield better performance. However, we generally spend longer training time on more computation and communication. In this survey, we aim to provide a clear sketch about the optimizations for large-scale deep learning with regard to the model accuracy and model efficiency. We investigate algorithms that are most commonly used for optimizing, elaborate the debatable topic of generalization gap arises in large-batch training, and review the SOTA strategies in addressing the communication overhead and reducing the memory footprints.
翻訳日:2021-11-03 11:57:27 公開日:2021-11-02
# (参考訳) あらゆる境界:双方向境界を持つエネルギーベースモデルのトレーニング [全文訳有]

Bounds all around: training energy-based models with bidirectional bounds ( http://arxiv.org/abs/2111.00929v2 )

ライセンス: CC BY 4.0
Cong Geng, Jia Wang, Zhiyong Gao, Jes Frellsen, S{\o}ren Hauberg(参考訳) エネルギーベースモデル(EBM)は密度推定のためのエレガントなフレームワークを提供するが、それらは訓練が難しいことで知られている。 近年の研究では、変動値関数を持つミニマックスゲームを通じてebmを訓練する生成的敵ネットワークとの関連が確立されている。 本稿では,ebmログライクな双方向バウンドを提案し,低バウンドを最大化し,ミニマックスゲームを解く際の上限を最小化する。 我々は、トレーニングを安定させる勾配ペナルティに縛り付けられたペナルティをリンクし、最高のエンジニアリングプラクティスの基盤を提供します。 境界を評価するために、ebm生成器のヤコビ決定式の新規かつ効率的な推定器を開発した。 これらの開発はトレーニングを著しく安定させ,高品質な密度推定とサンプル生成を実現している。

Energy-based models (EBMs) provide an elegant framework for density estimation, but they are notoriously difficult to train. Recent work has established links to generative adversarial networks, where the EBM is trained through a minimax game with a variational value function. We propose a bidirectional bound on the EBM log-likelihood, such that we maximize a lower bound and minimize an upper bound when solving the minimax game. We link one bound to a gradient penalty that stabilizes training, thereby providing grounding for best engineering practice. To evaluate the bounds we develop a new and efficient estimator of the Jacobi-determinant of the EBM generator. We demonstrate that these developments significantly stabilize training and yield high-quality density estimation and sample generation.
翻訳日:2021-11-03 11:56:36 公開日:2021-11-02
# (参考訳) 注意機構を用いたNested Multiple Instance Learning [全文訳有]

Nested Multiple Instance Learning with Attention Mechanisms ( http://arxiv.org/abs/2111.00947v2 )

ライセンス: CC BY 4.0
Saul Fuster, Trygve Eftest{\o}l, Kjersti Engan(参考訳) 多重インスタンス学習(MIL)は、未知のラベルを持つデータの複数のインスタンスをバッグに分類する弱い教師付き学習の一種である。 個々のインスタンスに関する知識は不完全であるため、ラベルはインスタンスを含むバッグに割り当てられる。 この方法はラベル付きデータに適合するが、画像への関心領域の発見や時系列信号の集合におけるイベントの検出など、インスタンスの集合間の関連性が必要な、より複雑なシナリオを解決するための深さが欠けている。 Nested MILは、最外側のバッグだけがラベル付けされ、インナーバッグとインスタンスが潜在ラベルとして表現されるバッグ内のラベル付きバッグについて検討している。 さらに,各インスタンスが弱いバッグラベルに与える影響を認識できるように,アテンション機構を用いて解釈可能性を高めることを提案する。 古典的画像データセットにおける実験により,提案モデルが画像領域の関連インスタンスの発見だけでなく,高精度な性能を提供することが示された。

Multiple instance learning (MIL) is a type of weakly supervised learning where multiple instances of data with unknown labels are sorted into bags. Since knowledge about the individual instances is incomplete, labels are assigned to the bags containing the instances. While this method fits diverse applications were labelled data is scarce, it lacks depth for solving more complex scenarios where associations between sets of instances have to be made, like finding relevant regions of interest in an image or detecting events in a set of time-series signals. Nested MIL considers labelled bags within bags, where only the outermost bag is labelled and inner-bags and instances are represented as latent labels. In addition, we propose using an attention mechanism to add interpretability, providing awareness into the impact of each instance to the weak bag label. Experiments in classical image datasets show that our proposed model provides high accuracy performance as well as spotting relevant instances on image regions.
翻訳日:2021-11-03 11:33:44 公開日:2021-11-02
# (参考訳) 天文学における深層学習アルゴリズムのロバスト性-銀河形態学的研究 [全文訳有]

Robustness of deep learning algorithms in astronomy -- galaxy morphology studies ( http://arxiv.org/abs/2111.00961v2 )

ライセンス: CC BY 4.0
A. \'Ciprijanovi\'c, D. Kafkes, G. N. Perdue, K. Pedro, G. Snyder, F. J. S\'anchez, S. Madireddy, S. M. Wild, B. Nord(参考訳) ディープラーニングモデルは、特に科学データの高次元とボリュームを扱うために、幅広い科学領域で広く採用されている。 しかし、これらのモデルは複雑さと過小パラメータ化のために不安定になりがちであり、特に、実際の科学データでよく見られる圧縮やぼやけといった一般的な画像処理によって現れる不注意な逆向きの摂動が原因である。 この不安定さを理解し、これらの敵対的摂動に対して堅牢なモデルを開発することが重要である。 本研究では、露光時間からの観測ノイズの影響と、LSSTモックデータにおける異なる形態の銀河の識別を訓練したResNet18の性能に対する圧縮や望遠鏡誤差のプロキシとしての1ピクセル攻撃の最悪のシナリオについて検討する。 我々はまた、このタイプの自然発生攻撃の場合に、ドメイン適応技術がモデルのロバスト性を改善するのにどのように役立つかを検討し、科学者がより信頼できる安定したモデルを構築するのを助ける。

Deep learning models are being increasingly adopted in wide array of scientific domains, especially to handle high-dimensionality and volume of the scientific data. However, these models tend to be brittle due to their complexity and overparametrization, especially to the inadvertent adversarial perturbations that can appear due to common image processing such as compression or blurring that are often seen with real scientific data. It is crucial to understand this brittleness and develop models robust to these adversarial perturbations. To this end, we study the effect of observational noise from the exposure time, as well as the worst case scenario of a one-pixel attack as a proxy for compression or telescope errors on performance of ResNet18 trained to distinguish between galaxies of different morphologies in LSST mock data. We also explore how domain adaptation techniques can help improve model robustness in case of this type of naturally occurring attacks and help scientists build more trustworthy and stable models.
翻訳日:2021-11-03 11:23:15 公開日:2021-11-02
# (参考訳) 手話理解のための手話理解モデル--ナイジェリア手話言語を事例として [全文訳有]

Sign-to-Speech Model for Sign Language Understanding: A Case Study of Nigerian Sign Language ( http://arxiv.org/abs/2111.00995v2 )

ライセンス: CC BY 4.0
Steven Kolawole, Opeyemi Osakuade, Nayan Saxena, Babatunde Kazeem Olorisade(参考訳) 本稿では,ナイジェリアを事例として,アフリカのサハラ以南地域において,手話に精通していない一般社会と難聴者のコミュニケーション障壁を低減し,難聴症例が最も多い地域社会のコミュニケーション障壁を緩和することを目的とした。 このデータセットはナイジェリア手話言語の先駆的なデータセットであり、関連する利害関係者と共同で作成された。 2つの異なるオブジェクト検出モデルと分類モデルに対する準備状態のデータを前処理し,手話からテキストへの変換タスクにおけるモデル性能を測定するために多様な評価指標を用いた。 最後に、予測した手話テキストを音声に変換し、リアルタイムに動作し、手話/フレーズをテキストに変換し、次に音声に変換する印象的な結果を達成する軽量アプリケーションにおいて、最高のパフォーマンスモデルを展開する。

Through this paper, we seek to reduce the communication barrier between the hearing-impaired community and the larger society who are usually not familiar with sign language in the sub-Saharan region of Africa with the largest occurrences of hearing disability cases, while using Nigeria as a case study. The dataset is a pioneer dataset for the Nigerian Sign Language and was created in collaboration with relevant stakeholders. We pre-processed the data in readiness for two different object detection models and a classification model and employed diverse evaluation metrics to gauge model performance on sign-language to text conversion tasks. Finally, we convert the predicted sign texts to speech and deploy the best performing model in a lightweight application that works in real-time and achieves impressive results converting sign words/phrases to text and subsequently, into speech.
翻訳日:2021-11-03 11:13:36 公開日:2021-11-02
# 生成逆数ネットワークの潜在トラバースによる畳み込みニューラルネットワークの視覚的説明

Visual Explanations for Convolutional Neural Networks via Latent Traversal of Generative Adversarial Networks ( http://arxiv.org/abs/2111.00116v2 )

ライセンス: Link先を確認
Amil Dravid, Aggelos K. Katsaggelos(参考訳) 人工知能、特にディープニューラルネットワークにおける説明可能性の欠如は、実際にモデルを実装する上でのボトルネックである。 Grad-CAM(Grad-Headed Class Activation Mapping)のような一般的なテクニックは、画像内の健全な特徴の粗いマップを提供し、畳み込みニューラルネットワーク(CNN)が学んだことの全体を伝えることはめったにない。 新型コロナウイルスの胸部X線を用いて,GAN(Generative Adversarial Networks)を用いてCNNが学んだことを解釈する手法を提案する。 我々のganフレームワークは、covid-19の特徴から肺構造を分離する。 このGANを用いて、GANの潜伏空間に補間することにより、胸部X線写真中の一対の陰性肺からCOVID陽性肺への移行を可視化し、CNNが肺内の様々な特徴にどのように反応するかを詳細に可視化する。

Lack of explainability in artificial intelligence, specifically deep neural networks, remains a bottleneck for implementing models in practice. Popular techniques such as Gradient-weighted Class Activation Mapping (Grad-CAM) provide a coarse map of salient features in an image, which rarely tells the whole story of what a convolutional neural network (CNN) learned. Using COVID-19 chest X-rays, we present a method for interpreting what a CNN has learned by utilizing Generative Adversarial Networks (GANs). Our GAN framework disentangles lung structure from COVID-19 features. Using this GAN, we can visualize the transition of a pair of COVID negative lungs in a chest radiograph to a COVID positive pair by interpolating in the latent space of the GAN, which provides fine-grained visualization of how the CNN responds to varying features within the lungs.
翻訳日:2021-11-03 11:07:25 公開日:2021-11-02
# トランスを用いた家畜のモニタリング

Livestock Monitoring with Transformer ( http://arxiv.org/abs/2111.00801v2 )

ライセンス: Link先を確認
Bhavesh Tangirala, Ishan Bhandari, Daniel Laszlo, Deepak K. Gupta, Rajat M. Thomas, Devanshu Arya(参考訳) 家畜の行動の追跡は、現代の家畜農場における早期発見と伝染病の予防を可能にする。 経済的利益とは別に、これは家畜農場で使用される抗生物質の量を減らし、それ以外はヒトの食生活に入り、抗生物質耐性の流行を緩和する。 標準的なビデオカメラは、ほとんどの現代農場で利用でき、家畜をモニターできる。 しかし、ほとんどのコンピュータビジョンアルゴリズムは、主に、このタスクで性能が悪い。 一 農場で飼育されている動物と同一の外観で、明らかな空間的特徴がないもの (二)既存のトラッカーのいずれも長期間の堅牢性がなく、 (iii)照明の変化、頻繁な閉塞、カメラアングルの変化、動物のサイズなど実世界の状況は、モデルが一般化することを困難にしている。 これらの課題を踏まえて,グループ内豚を対象としたエンド・ツー・エンド行動監視システムを開発し,インスタンスレベルのセグメンテーション,トラッキング,アクション認識,再識別(star)タスクを同時に行う。 本稿では, トランスフォーマーアーキテクチャを用いて, グループ豚のインスタンスレベルの埋め込みを学習する, エンドツーエンド多目的家畜監視フレームワークであるStarformerを紹介する。 実屋内養豚環境における豚の行動分類, セグメンテーション, セグメンテーション, 追跡, 行動分類を含むビデオシーケンスからなる, 慎重に整理されたデータセットであるPigtraceを提案する。 STARタスクを同時に最適化することで、スターフォーマーは個々のタスクでトレーニングされた一般的なベースラインモデルより優れていることを示す。

Tracking the behaviour of livestock enables early detection and thus prevention of contagious diseases in modern animal farms. Apart from economic gains, this would reduce the amount of antibiotics used in livestock farming which otherwise enters the human diet exasperating the epidemic of antibiotic resistance - a leading cause of death. We could use standard video cameras, available in most modern farms, to monitor livestock. However, most computer vision algorithms perform poorly on this task, primarily because, (i) animals bred in farms look identical, lacking any obvious spatial signature, (ii) none of the existing trackers are robust for long duration, and (iii) real-world conditions such as changing illumination, frequent occlusion, varying camera angles, and sizes of the animals make it hard for models to generalize. Given these challenges, we develop an end-to-end behaviour monitoring system for group-housed pigs to perform simultaneous instance level segmentation, tracking, action recognition and re-identification (STAR) tasks. We present starformer, the first end-to-end multiple-object livestock monitoring framework that learns instance-level embeddings for grouped pigs through the use of transformer architecture. For benchmarking, we present Pigtrace, a carefully curated dataset comprising video sequences with instance level bounding box, segmentation, tracking and activity classification of pigs in real indoor farming environment. Using simultaneous optimization on STAR tasks we show that starformer outperforms popular baseline models trained for individual tasks.
翻訳日:2021-11-03 11:07:09 公開日:2021-11-02
# 野生家族認識(rfiw):第5版

Recognizing Families In the Wild (RFIW): The 5th Edition ( http://arxiv.org/abs/2111.00598v2 )

ライセンス: Link先を確認
Joseph P. Robinson, Can Qin, Ming Shao, Matthew A. Turk, Rama Chellappa, and Yun Fu(参考訳) 第16回IEEE International Conference on Automatic Face and Gesture Recognition (FG)と共同で開催されているRFIW(Recognizing Families In the Wild)は、大規模かつ多トラックの視覚的親和性評価である。 RFIWの5回目の版で、学者を惹きつけ、専門家を集め、新しい作品を出版し、今後の展望を議論する努力を継続します。 本稿では,今年のrfiwにおける3つの課題に対する提案を要約する。具体的には,キンシップ検証,3つのサブジェクト検証,家族メンバーの検索と検索の結果について検討する。 我々は、RFIWの問題を考察するとともに、現在の取り組みを共有し、将来有望な方向性を推奨する。

Recognizing Families In the Wild (RFIW), held as a data challenge in conjunction with the 16th IEEE International Conference on Automatic Face and Gesture Recognition (FG), is a large-scale, multi-track visual kinship recognition evaluation. This is our fifth edition of RFIW, for which we continue the effort to attract scholars, bring together professionals, publish new work, and discuss prospects. In this paper, we summarize submissions for the three tasks of this year's RFIW: specifically, we review the results for kinship verification, tri-subject verification, and family member search and retrieval. We take a look at the RFIW problem, as well as share current efforts and make recommendations for promising future directions.
翻訳日:2021-11-03 11:06:47 公開日:2021-11-02
# 有効画像復元装置 : 低光子数イメージングのためのデノイジングと輝度調整

An Effective Image Restorer: Denoising and Luminance Adjustment for Low-photon-count Imaging ( http://arxiv.org/abs/2110.15715v2 )

ライセンス: Link先を確認
Shansi Zhang and Edmund Y. Lam(参考訳) 光子硬化の状況下での撮像は、撮像された画像が信号対雑音比が低く、輝度が低いため、多くの応用に課題をもたらす。 本稿では,quantaイメージセンサ(qis)の撮像をシミュレーションし,低光子数条件下での生画像復元について検討する。 我々は,多層ピラミッド遮音ネットワーク (MPDNet) と輝度調整モジュール (LA) から構成される軽量なフレームワークを開発し,個別の遮音・照度向上を実現する。 本フレームワークの主なコンポーネントはマルチスキップアテンション残差ブロック(MARB)であり,マルチスケール機能融合とアテンション機構を統合して特徴表現を改善する。 我々のMPDNetは、ラプラシアンピラミッドの概念を採用して、様々なレベルの小型ノイズマップと大規模高周波の詳細を学習し、よりリッチな文脈情報をエンコードするマルチスケール入力画像に特徴抽出を行う。 我々のLAモジュールは、その照明を推定することで、偏光画像の輝度を向上し、色歪みを回避できる。 広汎な実験結果から,ノイズを抑え,輝度や色を効果的に回復することにより,劣化した画像に対して様々な光子レベルで優れた性能が得られることが示された。

Imaging under photon-scarce situations introduces challenges to many applications as the captured images are with low signal-to-noise ratio and poor luminance. In this paper, we investigate the raw image restoration under low-photon-count conditions by simulating the imaging of quanta image sensor (QIS). We develop a lightweight framework, which consists of a multi-level pyramid denoising network (MPDNet) and a luminance adjustment (LA) module to achieve separate denoising and luminance enhancement. The main component of our framework is the multi-skip attention residual block (MARB), which integrates multi-scale feature fusion and attention mechanism for better feature representation. Our MPDNet adopts the idea of Laplacian pyramid to learn the small-scale noise map and larger-scale high-frequency details at different levels, and feature extractions are conducted on the multi-scale input images to encode richer contextual information. Our LA module enhances the luminance of the denoised image by estimating its illumination, which can better avoid color distortion. Extensive experimental results have demonstrated that our image restorer can achieve superior performance on the degraded images with various photon levels by suppressing noise and recovering luminance and color effectively.
翻訳日:2021-11-03 11:04:28 公開日:2021-11-02
# refinegan: 精度の高いピッチと強度応答を持つグラウンド真理よりも優れた波形を普遍的に生成する

RefineGAN: Universally Generating Waveform Better than Ground Truth with Highly Accurate Pitch and Intensity Responses ( http://arxiv.org/abs/2111.00962v2 )

ライセンス: Link先を確認
Shengyuan Xu, Wenxiao Zhao, Jing Guo(参考訳) GAN(Generative Adversarial Network)に基づく高忠実度波形生成へのアプローチの多くは、その性能向上のために識別器に大きく依存している。 しかし、このGAN法の過剰使用は、生成過程に大きな不確実性をもたらし、しばしばピッチと強度のミスマッチを引き起こし、歌声合成(SVS)のような敏感なケースでは致命的である。 この問題に対処するため,高速な実時間生成機能を備えた高忠実なニューラルボコーダであるRefineGANを提案し,ロバスト性,ピッチと強度の精度,フルバンドオーディオ生成に着目した。 学習過程の安定化と神経ボコーダのロバスト性を維持するために,マルチスケールのスペクトログラムに基づく損失関数を用いたピッチ誘導型洗練アーキテクチャを用いた。 この方法で生成された音声は、地中音と比較した場合、主観的テストにおいて優れた性能を示す。 この結果から, スピーカが生み出す欠陥や記録処理を除去することにより, 波形再構成時の忠実度も向上した。 さらに、ある特定の種類のデータに基づいて訓練されたモデルが、全く見えない言語と目に見えない話者で同じように機能することを示した。 生成されたサンプルペアはhttps://timedomain-t ech.github.io/refine gan/で提供される。

Most GAN(Generative Adversarial Network)-based approaches towards high-fidelity waveform generation heavily rely on discriminators to improve their performance. However, the over-use of this GAN method introduces much uncertainty into the generation process and often result in mismatches of pitch and intensity, which is fatal when it comes to sensitive using cases such as singing voice synthesis(SVS). To address this problem, we propose RefineGAN, a high-fidelity neural vocoder with faster-than-real-tim e generation capability, and focused on the robustness, pitch and intensity accuracy, and full-band audio generation. We employed a pitch-guided refine architecture with a multi-scale spectrogram-based loss function to help stabilize the training process and maintain the robustness of the neural vocoder while using the GAN-based training method. Audio generated using this method shows a better performance in subjective tests when compared with the ground-truth audio. This result shows that the fidelity is even improved during the waveform reconstruction by eliminating defects produced by the speaker and the recording procedure. Moreover, a further study shows that models trained on a specified type of data can perform on totally unseen language and unseen speaker identically well. Generated sample pairs are provided on https://timedomain-t ech.github.io/refine gan/.
翻訳日:2021-11-03 11:04:05 公開日:2021-11-02