このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220210となっている論文です。

PDF登録状況(公開日: 20220210)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 新規探索に基づく粒子群最適化 [全文訳有]

Particle Swarm Optimization based on Novelty Search ( http://arxiv.org/abs/2203.05674v1 )

ライセンス: CC0 1.0
Mr.Rajesh Misra and Dr. Kumar S Ray(参考訳) 本稿では,ノベルティ探索と組み合わせた粒子群最適化アルゴリズムを提案する。 Novelty Searchは、検索ドメインで検索する新しい場所を見つけ、次にParticle Swarm Optimizationはその領域を厳格に検索して、グローバルな最適解を求める。 この方法は、客観的な自由であるノベルティサーチによって制御されるため、ローカルオプティマではブロックされない。 より局所的な最適値と第二大域的最適値がより多く存在する関数に対して、本手法はうまく機能する。 現在のアルゴリズムは、検索エリア全体を検索するまで停止しない。 一連の実験により、複素最適化テスト関数に対する現在のアルゴリズムの堅牢性と有効性が証明された。

In this paper we propose a Particle Swarm Optimization algorithm combined with Novelty Search. Novelty Search finds novel place to search in the search domain and then Particle Swarm Optimization rigorously searches that area for global optimum solution. This method is never blocked in local optima because it is controlled by Novelty Search which is objective free. For those functions where there are many more local optima and second global optimum is far from true optimum, the present method works successfully. The present algorithm never stops until it searches entire search area. A series of experimental trials prove the robustness and effectiveness of the present algorithm on complex optimization test functions.
翻訳日:2022-03-21 01:16:42 公開日:2022-02-10
# ナビゲーション情報を用いた視覚表現学習

Using Navigational Information to Learn Visual Representations ( http://arxiv.org/abs/2202.08114v1 )

ライセンス: Link先を確認
Lizhen Zhu, Brad Wyble, James Z. Wang(参考訳) 子どもたちは、教師なしの探索から世界の視覚的表現を構築することを学び、この学習能力の重要な部分は、自己生成したナビゲーション情報を類似性ラベルとして使用することで、自己教師なし学習の学習目標を駆動する、と仮定する。 この研究の目的は、視覚環境におけるナビゲーション情報を利用して、最先端の自己監督訓練を超えるトレーニングのパフォーマンスを提供することである。 本稿では,コントラスト学習の事前学習段階における空間的および時間的情報の利用により,同一画像の2つの変更と2つの異なる画像の区別にインスタンス識別を用いる従来のコントラスト学習手法と比較して,下流分類の性能を向上させることができることを示す。 3dworld(photorealist ic ray-tracing environment)からエゴセントリックな画像を生成し,関連するナビゲーション情報を記録するためのパイプラインを設計した。 運動量コントラスト(moco)モデルの改良により,前訓練段階における2つの視点の類似性を評価するために,空間的および時間的情報を導入した。 本研究は,表現学習を改善するための文脈情報の有効性と効率を明らかにする。 この研究は、子供たちが外部の監督なしで世界を見ることを学ぶ方法の理解に役立ちます。

Children learn to build a visual representation of the world from unsupervised exploration and we hypothesize that a key part of this learning ability is the use of self-generated navigational information as a similarity label to drive a learning objective for self-supervised learning. The goal of this work is to exploit navigational information in a visual environment to provide performance in training that exceeds the state-of-the-art self-supervised training. Here, we show that using spatial and temporal information in the pretraining stage of contrastive learning can improve the performance of downstream classification relative to conventional contrastive learning approaches that use instance discrimination to discriminate between two alterations of the same image or two different images. We designed a pipeline to generate egocentric-vision images from a photorealistic ray-tracing environment (ThreeDWorld) and record relevant navigational information for each image. Modifying the Momentum Contrast (MoCo) model, we introduced spatial and temporal information to evaluate the similarity of two views in the pretraining stage instead of instance discrimination. This work reveals the effectiveness and efficiency of contextual information for improving representation learning. The work informs our understanding of the means by which children might learn to see the world without external supervision.
翻訳日:2022-02-20 16:23:11 公開日:2022-02-10
# (参考訳) ディープニューラルネットワークにおける情報フロー

Information Flow in Deep Neural Networks ( http://arxiv.org/abs/2202.06749v1 )

ライセンス: CC BY 4.0
Ravid Shwartz-Ziv(参考訳) ディープニューラルネットワークは非常に成功したが、その動作方法や構造に関する包括的な理論的理解は存在しない。 その結果、深層ネットワークは解釈や信頼性が不明なブラックボックスと見なされることが多い。 ディープニューラルネットワークのパフォーマンスを理解することは、最大の科学的課題の1つです。 この研究の目的は、情報理論からディープラーニングモデルへの原則と技術を適用し、理論的な理解を高め、より良いアルゴリズムを設計することである。 まず,深層学習に対する情報理論的アプローチについて述べる。 そこで我々は,深層学習システムを説明するために,Information Bottleneck(IB)理論を提案する。 ネットワークを解析するための新しいパラダイムは、階層構造、一般化能力、学習力学に光を当てる。 深層ニューラルネットワークにibを適用する際の最も難しい問題の一つとして,相互情報の推定について論じる。 ニューラルネットワークカーネル(NTK)フレームワークなどの最近の理論的発展は、一般化信号の研究に利用されている。 本研究では,無限大ニューラルネットワークの無限大アンサンブルに対する情報理論量とその境界の扱いやすい計算を行った。 これらの導出により、圧縮、一般化、サンプルサイズがネットワークとどのように関連しているかを決定できる。 最後に2つのInformation Bottleneck (dualIB)を提示する。 この新たな情報理論フレームワークは、歪み関数の項を単に切り替えることによって、IBの欠点のいくつかを解決する。 dualIBは、既知のデータ機能を説明して、見当たらない例よりも優れた予測を行うために使用することができる。 基礎となる構造と最適な表現は分析フレームワークを通じて発見され、ディープニューラルネットワークを用いた変動フレームワークが最適化されている。

Although deep neural networks have been immensely successful, there is no comprehensive theoretical understanding of how they work or are structured. As a result, deep networks are often seen as black boxes with unclear interpretations and reliability. Understanding the performance of deep neural networks is one of the greatest scientific challenges. This work aims to apply principles and techniques from information theory to deep learning models to increase our theoretical understanding and design better algorithms. We first describe our information-theoreti c approach to deep learning. Then, we propose using the Information Bottleneck (IB) theory to explain deep learning systems. The novel paradigm for analyzing networks sheds light on their layered structure, generalization abilities, and learning dynamics. We later discuss one of the most challenging problems of applying the IB to deep neural networks - estimating mutual information. Recent theoretical developments, such as the neural tangent kernel (NTK) framework, are used to investigate generalization signals. In our study, we obtained tractable computations of many information-theoreti c quantities and their bounds for infinite ensembles of infinitely wide neural networks. With these derivations, we can determine how compression, generalization, and sample size pertain to the network and how they are related. At the end, we present the dual Information Bottleneck (dualIB). This new information-theoreti c framework resolves some of the IB's shortcomings by merely switching terms in the distortion function. The dualIB can account for known data features and use them to make better predictions over unseen examples. The underlying structure and the optimal representations are uncovered through an analytical framework, and a variational framework using deep neural networks optimizes has been used.
翻訳日:2022-02-19 09:12:24 公開日:2022-02-10
# (参考訳) 深層強化学習のための抽象化 [全文訳有]

Abstraction for Deep Reinforcement Learning ( http://arxiv.org/abs/2202.05839v1 )

ライセンス: CC BY 4.0
Murray Shanahan and Melanie Mitchell(参考訳) 我々は、深層強化学習の文脈で抽象的な問題を特徴づける。 類似の推論と連想記憶に対する様々な確立されたアプローチがこの問題に当てはまるかもしれないが、それらはエンドツーエンドの微分可能性の必要性から困難を呈している。 採用を促進するAIと機械学習の開発についてレビューする。

We characterise the problem of abstraction in the context of deep reinforcement learning. Various well established approaches to analogical reasoning and associative memory might be brought to bear on this issue, but they present difficulties because of the need for end-to-end differentiability. We review developments in AI and machine learning that could facilitate their adoption.
翻訳日:2022-02-19 09:10:44 公開日:2022-02-10
# Graph-GAN:都市交通システムにおける短時間の乗客フロー予測のための時空間ニューラルネットワーク

Graph-GAN: A spatial-temporal neural network for short-term passenger flow prediction in urban rail transit systems ( http://arxiv.org/abs/2202.06727v1 )

ライセンス: Link先を確認
Hua Li, Jinlei Zhang, Lixing Yang, Jianguo Qi, Ziyou Gao(参考訳) 都市交通システム (URT) の整備において, 短期旅客輸送予測が重要な役割を担っている。 新たなディープラーニングモデルは、短期的な予測精度を改善するための優れた洞察を提供する。 しかし、既存の予測モデルの多くは、様々なニューラルネットワーク層を組み合わせて精度を向上し、それらのモデル構造を極めて複雑にし、現実世界に適用することは困難である。 したがって、実世界のアプリケーションの観点から、モデルの複雑さと予測性能のトレードオフが必要である。 そこで本研究では,urtネットワークの短期利用フローを予測するために,構造が単純で高い予測精度を有する深層学習型グラフganモデルを提案する。 グラフganは、(1)ネットワークトポロジ情報を抽出するために使用されるグラフ畳み込みネットワーク(gcn)の単純化された静的バージョン、(2)乗客の流れを予測するために使用される生成的逆ネットワーク(gan)、および単純な完全連結ニューラルネットワークからなるganのジェネレータと判別器の2つの主要な部分から構成されている。 Graph-GANは北京地下鉄の2つの大規模な実世界のデータセットでテストされている。 graph-ganの予測性能と最先端モデルとの比較は、その優位性と堅牢性を示している。 本研究は、特に現実の応用の観点から、短期の乗客フロー予測を行う上で重要な経験を提供することができる。

Short-term passenger flow prediction plays an important role in better managing the urban rail transit (URT) systems. Emerging deep learning models provide good insights to improve short-term prediction accuracy. However, a large number of existing prediction models combine diverse neural network layers to improve accuracy, making their model structures extremely complex and difficult to be applied to the real world. Therefore, it is necessary to trade off between the model complexity and prediction performance from the perspective of real-world applications. To this end, we propose a deep learning-based Graph-GAN model with a simple structure and high prediction accuracy to predict short-term passenger flows of the URT network. The Graph-GAN consists of two major parts: (1) a simplified and static version of the graph convolution network (GCN) used to extract network topological information; (2) a generative adversarial network (GAN) used to predict passenger flows, with generators and discriminators in GAN just composed of simple fully connected neural networks. The Graph-GAN is tested on two large-scale real-world datasets from Beijing Subway. A comparison of the prediction performance of Graph-GAN with those of several state-of-the-art models illustrates its superiority and robustness. This study can provide critical experience in conducting short-term passenger flow predictions, especially from the perspective of real-world applications.
翻訳日:2022-02-15 18:17:38 公開日:2022-02-10
# データセンタワークロードからのコンパイラの分岐確率の学習

Learning Branch Probabilities in Compiler from Datacenter Workloads ( http://arxiv.org/abs/2202.06728v1 )

ライセンス: Link先を確認
Easwaran Raman, Xinliang David Li(参考訳) 条件分岐命令が実行される確率を推定することは、現代のコンパイラで多くの最適化を可能にする重要な分析である。 プロファイル誘導最適化(pgo)を使用する場合、コンパイラは分岐確率を適切に推定することができる。 プロファイル情報がない場合、コンパイラはこの目的のためにヒューリスティックを使用する。 本研究では,データセンターのワークロードから得られた大量のデータから分岐確率を学習する手法を提案する。 また,Root Mean Squared Error,Mean Absolute Error,cross-entropyなどのメトリクスを用いて,機械学習モデルにより,コンパイラヒューリスティックスと比較して分岐確率推定が18~50%向上することを示す。 これは40のベンチマークスイートのうち、最大8.1%がパフォーマンス改善であり、1%がジオ平均改善であることを意味する。 これにより、重要な検索アプリケーションのパフォーマンスが1.2%以上向上する。

Estimating the probability with which a conditional branch instruction is taken is an important analysis that enables many optimizations in modern compilers. When using Profile Guided Optimizations (PGO), compilers are able to make a good estimation of the branch probabilities. In the absence of profile information, compilers resort to using heuristics for this purpose. In this work, we propose learning branch probabilities from a large corpus of data obtained from datacenter workloads. Using metrics including Root Mean Squared Error, Mean Absolute Error and cross-entropy, we show that the machine learning model improves branch probability estimation by 18-50% in comparison to compiler heuristics. This translates to performance improvement of up to 8.1% on 24 out of a suite of 40 benchmarks with a 1% geomean improvement on the suite. This also results in greater than 1.2% performance improvement in an important search application.
翻訳日:2022-02-15 18:08:57 公開日:2022-02-10
# 格子量子場理論への機械学習の適用

Applications of Machine Learning to Lattice Quantum Field Theory ( http://arxiv.org/abs/2202.05838v1 )

ライセンス: Link先を確認
Denis Boyda, Salvatore Cal\`i, Sam Foreman, Lena Funcke, Daniel C. Hackett, Yin Lin, Gert Aarts, Andrei Alexandru, Xiao-Yong Jin, Biagio Lucini, Phiala E. Shanahan(参考訳) 数値格子量子場理論の分野に機械学習を適用する可能性は非常に高いが、そのポテンシャルの完全な活用には新たな戦略が必要だ。 本稿では,Snowmassコミュニティプランニングプロセスの白書として,格子量子場理論研究における機械学習のユニークな要件について論じ,今後のアプローチの探索と展開に何が必要なのかを概説する。

There is great potential to apply machine learning in the area of numerical lattice quantum field theory, but full exploitation of that potential will require new strategies. In this white paper for the Snowmass community planning process, we discuss the unique requirements of machine learning for lattice quantum field theory research and outline what is needed to enable exploration and deployment of this approach in the future.
翻訳日:2022-02-15 18:06:21 公開日:2022-02-10
# カリキュラム学習におけるスコアリング機能の開発と比較

Development and Comparison of Scoring Functions in Curriculum Learning ( http://arxiv.org/abs/2202.06823v1 )

ライセンス: Link先を確認
H. Toprak Kesgin, M. Fatih Amasyali(参考訳) カリキュラム学習とは、ランダムな順序ではなく、意味のある順序で機械学習モデルにサンプルを提示することである。 カリキュラム学習の主な課題は、これらのサンプルのランク付け方法を決定することである。 サンプルのランキングはスコアリング関数によって表される。 本研究では,評価関数をデータセットの特徴を用いて比較し,モデルを訓練し,他のモデルとアンサンブルバージョンを用いて比較した。 4つの画像と4つのテキストデータセットの実験を行った。 テキストデータセットのスコアリング関数には有意な差は認められなかったが,従来のモデルトレーニングや画像データセットのスコアリング関数と比較して,転送学習を用いて作成したスコアリング関数に顕著な改善が得られた。 これは、テキスト分類タスクで異なるスコアリング関数が見つかるのを待っていることを示している。

Curriculum Learning is the presentation of samples to the machine learning model in a meaningful order instead of a random order. The main challenge of Curriculum Learning is determining how to rank these samples. The ranking of the samples is expressed by the scoring function. In this study, scoring functions were compared using data set features, using the model to be trained, and using another model and their ensemble versions. Experiments were performed for 4 images and 4 text datasets. No significant differences were found between scoring functions for text datasets, but significant improvements were obtained in scoring functions created using transfer learning compared to classical model training and other scoring functions for image datasets. It shows that different new scoring functions are waiting to be found for text classification tasks.
翻訳日:2022-02-15 14:47:46 公開日:2022-02-10
# (参考訳) 高勾配RF空洞における破壊予測のための説明可能な機械学習 [全文訳有]

Explainable Machine Learning for Breakdown Prediction in High Gradient RF Cavities ( http://arxiv.org/abs/2202.05610v1 )

ライセンス: CC BY 4.0
Christoph Obermair, Thomas Cartier-Michaud, Andrea Apollonio, William Millar, Lukas Felsberger, Lorenz Fischl, Holger Severin Bovbjerg, Daniel Wollmann, Walter Wuensch, Nuria Catalan-Lasheras, Mar\c{c}\`a Boronat, Franz Pernkopf, Graeme Burt(参考訳) 高周波破壊は粒子加速器のrfキャビティにおける最も一般的な制限因子の1つである。 破壊の間、キャビティ表面の小さな変形に伴う電界の強化は電気アークを生じさせる。 このようなアークはビームの停止を招き、機械の可用性を低下させ、RFキャビティ表面に不可分な損傷を与える。 本稿では,CERNのコンパクト線形衝突器(CLIC)加速構造における破壊前駆体を発見する機械学習手法を提案する。 説明可能な人工知能(ai)を用いて学習モデルのパラメータを解釈することにより、高速で信頼性が高く、単純なルールベースモデルを引き出すための物理特性をリバースエンジニアリングする。 6ヶ月の過去のデータと専用の実験に基づいて,モデルでは,故障の発生に強い影響を持つデータの割合を示す。 具体的には、現在のインターロックセンサで故障が検出される前に真空圧の上昇が観測されることが多い。

Radio Frequency (RF) breakdowns are one of the most prevalent limiting factors in RF cavities for particle accelerators. During a breakdown, field enhancement associated with small deformations on the cavity surface results in electrical arcs. Such arcs lead to beam aborts, reduce machine availability and can cause irreparable damage on the RF cavity surface. In this paper, we propose a machine learning strategy to discover breakdown precursors in CERN's Compact Linear Collider (CLIC) accelerating structures. By interpreting the parameters of the learned models with explainable Artificial Intelligence (AI), we reverse-engineer physical properties for deriving fast, reliable, and simple rule based models. Based on 6 months of historical data and dedicated experiments, our models show fractions of data with high influence on the occurrence of breakdowns. Specifically, it is shown that in many cases a rise of the vacuum pressure is observed before a breakdown is detected with the current interlock sensors.
翻訳日:2022-02-15 10:24:03 公開日:2022-02-10
# (参考訳) レンチキュラーフィルムのディジタル色再構成のための深層学習手法 [全文訳有]

A Deep Learning Approach for Digital ColorReconstruction of Lenticular Films ( http://arxiv.org/abs/2202.05270v1 )

ライセンス: CC BY 4.0
Stefano D'Aronco, Giorgio Trumpy, David Pfluger, Jan Dirk Wegner(参考訳) 人工物に頑健な歴史的レンチキュラーフィルムの正確なデジタル化と色復元プロセスを提案する。 レンチキュラー映画は1920年代に登場し、フルカラー情報をモーションで撮影できる最初の技術の一つとなった。 この技術は、フィルム表面に具現化されたrgbフィルタと円筒状のレンズを利用して、画像の水平空間次元の色をエンコードする。 画像を投影するために、適切なアナログ装置を用いて符号化プロセスを反転させた。 本研究では,レンチラーフィルムの走査処理とカラー化を行うための,自動化された全デジタルパイプラインを導入する。 本手法は,再現されたカラー画像が符号化されたカラー情報と真に一致することを確認しながら,性能を最大化するために,ディープラーニングとモデルに基づくアプローチを融合する。 我々のモデルは、特に効果的な色再現を実現するために異なる戦略を採用している。 (i)ロバストなレンズセグメンテーションネットワークを作成するためにデータ拡張を利用する。 (ii)レンチクルラスター予測に適合し、正確なベクトル状レンチクル局在を得る。 3) 真正な色付けを得るために, 補間係数を予測するカラー化ネットワークを訓練する。 提案手法をレンチキュラーフィルムデータセット上で検証し,他の手法と比較した。 カラーグラウンドトルースは参照できないため,本手法を主観的に検証するためのユーザスタディを実施している。 その結果,提案手法は他の既存法やベースライン法に比べて概ね好まれることがわかった。

We propose the first accurate digitization and color reconstruction process for historical lenticular film that is robust to artifacts. Lenticular films emerged in the 1920s and were one of the first technologies that permitted to capture full color information in motion. The technology leverages an RGB filter and cylindrical lenticules embossed on the film surface to encode the color in the horizontal spatial dimension of the image. To project the pictures the encoding process was reversed using an appropriate analog device. In this work, we introduce an automated, fully digital pipeline to process the scan of lenticular films and colorize the image. Our method merges deep learning with a model-based approach in order to maximize the performance while making sure that the reconstructed colored images truthfully match the encoded color information. Our model employs different strategies to achieve an effective color reconstruction, in particular (i) we use data augmentation to create a robust lenticule segmentation network, (ii) we fit the lenticules raster prediction to obtain a precise vectorial lenticule localization, and (iii) we train a colorization network that predicts interpolation coefficients in order to obtain a truthful colorization. We validate the proposed method on a lenticular film dataset and compare it to other approaches. Since no colored groundtruth is available as reference, we conduct a user study to validate our method in a subjective manner. The results of the study show that the proposed method is largely preferred with respect to other existing and baseline methods.
翻訳日:2022-02-15 09:52:22 公開日:2022-02-10
# (参考訳) テスト時にニューラルネットワークを適用するための専門家の分野 [全文訳有]

A Field of Experts Prior for Adapting Neural Networks at Test Time ( http://arxiv.org/abs/2202.05271v1 )

ライセンス: CC BY 4.0
Neerav Karani, Georg Brunner, Ertunc Erdil, Simin Fei, Kerem Tezcan, Krishna Chaitanya, Ender Konukoglu(参考訳) 画像解析タスクにおける畳み込みニューラルネットワーク(CNN)の性能は、しばしば、トレーニングとテストイメージの間の取得関連分布シフトの存在によって損なわれる。 近年,テスト画像ごとに訓練済みのCNNを微調整することで,この問題に対処することが提案されている。 このようなテストタイム適応(TTA)は、組織間でのデータ共有や付加的なデータアノテーションを必要としないため、分散シフトに対する堅牢性を改善するための有望かつ実践的な戦略である。 従来のTTA手法では、テスト画像から抽出した出力と/または特徴とトレーニング画像との類似性を高めるためにヘルパーモデルを用いていた。 このようなヘルパーは一般的にCNNを使ってモデル化されるが、タスク固有であり、入力の分散シフトに対して脆弱である。 これらの問題を解決するため,テスト画像とトレーニング画像の特徴分布をFoE(フィールド・オブ・エキスパート)でモデル化したTTAの実行を提案する。 foesモデル 複雑な確率分布を、より単純な専門家分布の積として扱う。 訓練されたタスクCNNの特徴をFoEモデルの専門家として1次元辺縁分布を用いる。 さらに,タスクCNNの特徴のパッチの主成分を計算し,PCA負荷の分布を新たな専門家として検討する。 5つのMRIセグメンテーションタスク(4つの解剖学的領域の健康組織と1つの解剖学的病変)、17の診療所のデータ、および3の診療所のデータを用いたMRI登録タスクについて検証を行った。 提案したFoEベースのTTAは,複数のタスクに汎用的に適用可能であることが判明した。 健全な組織セグメンテーションのために、提案手法は他のタスクに依存しない手法よりも優れているが、セグメンテーション用に特別に設計された以前のTTA法は、テストされたほとんどのデータセットで最良である。 私たちのコードは公開されています。

Performance of convolutional neural networks (CNNs) in image analysis tasks is often marred in the presence of acquisition-related distribution shifts between training and test images. Recently, it has been proposed to tackle this problem by fine-tuning trained CNNs for each test image. Such test-time-adaptation (TTA) is a promising and practical strategy for improving robustness to distribution shifts as it requires neither data sharing between institutions nor annotating additional data. Previous TTA methods use a helper model to increase similarity between outputs and/or features extracted from a test image with those of the training images. Such helpers, which are typically modeled using CNNs, can be task-specific and themselves vulnerable to distribution shifts in their inputs. To overcome these problems, we propose to carry out TTA by matching the feature distributions of test and training images, as modelled by a field-of-experts (FoE) prior. FoEs model complicated probability distributions as products of many simpler expert distributions. We use 1D marginal distributions of a trained task CNN's features as experts in the FoE model. Further, we compute principal components of patches of the task CNN's features, and consider the distributions of PCA loadings as additional experts. We validate the method on 5 MRI segmentation tasks (healthy tissues in 4 anatomical regions and lesions in 1 one anatomy), using data from 17 clinics, and on a MRI registration task, using data from 3 clinics. We find that the proposed FoE-based TTA is generically applicable in multiple tasks, and outperforms all previous TTA methods for lesion segmentation. For healthy tissue segmentation, the proposed method outperforms other task-agnostic methods, but a previous TTA method which is specifically designed for segmentation performs the best for most of the tested datasets. Our code is publicly available.
翻訳日:2022-02-15 09:35:30 公開日:2022-02-10
# (参考訳) 1ビット量子化について [全文訳有]

On One-Bit Quantization ( http://arxiv.org/abs/2202.05292v1 )

ライセンス: CC BY 4.0
Sourbh Bhadane and Aaron B. Wagner(参考訳) 実ヒルベルト空間に存在するソースの平均二乗誤差を最小化する1ビット量子化器を考える。 最適量子化器は、投射に続いてしきい値演算を行い、投射する最適な方向を特定する方法を提供する。 本手法の適用例として,低次元構造を示す連続時間ランダムプロセスに対する最適1ビット量子化器を特徴付ける。 この最適量子化器は,確率勾配降下法により訓練されたニューラルネットワークベースの圧縮機によって検出される。

We consider the one-bit quantizer that minimizes the mean squared error for a source living in a real Hilbert space. The optimal quantizer is a projection followed by a thresholding operation, and we provide methods for identifying the optimal direction along which to project. As an application of our methods, we characterize the optimal one-bit quantizer for a continuous-time random process that exhibits low-dimensional structure. We numerically show that this optimal quantizer is found by a neural-network-based compressor trained via stochastic gradient descent.
翻訳日:2022-02-15 09:03:40 公開日:2022-02-10
# (参考訳) aiへの信頼: 解釈性は必要でも十分でもないが、ブラックボックスインタラクションは必要で十分である [全文訳有]

Trust in AI: Interpretability is not necessary or sufficient, while black-box interaction is necessary and sufficient ( http://arxiv.org/abs/2202.05302v1 )

ライセンス: CC BY 4.0
Max W. Shen(参考訳) 人工知能に対する人間の信頼の問題は、応用機械学習における最も基本的な問題の1つである。 AIの信頼性を評価するプロセスは、MLが科学、健康、人類に与える影響に大きく影響しますが、混乱は基本的な概念を取り囲んでいます。 AIを信頼することの意味と、AIの信頼性を人間がどのように評価するか? 信頼できるAIを構築するためのメカニズムは何か? そして、信頼における解釈可能なMLの役割は何か? 本稿では,人間-AI信頼と人間-AI信頼を区別するAI-as-toolフレームワークを動機付けるために,人間-自動信頼に関する統計的学習理論と社会学的レンズから抽出する。 aiの契約的信頼度の評価は、モデルアーキテクチャと振る舞いを結びつける理論的証明を含む、さまざまなソースから行動証拠を集約する行動証明書(bcs)を使用して、将来のモデル行動を予測することを含む。 モデルアクセスのはしごによる信頼における解釈可能性の役割を明らかにする。 解釈可能性(レベル3)は信頼のために必要でも十分でもないが、ブラックボックスモデルを実行する能力(レベル2)は必要で十分である。 解釈性は信頼に利益をもたらすが、コストがかかることもある。 我々は,信頼度が信頼に寄与する可能性を明らかにするとともに,信頼度の中心性を疑問視する。 信頼を評価するツールを人々に与えるにはどうすればよいのか? モデルがどのように機能するかを理解するのではなく、モデルがどのように振る舞うかを理解するために議論します。 ブラックボックスを開く代わりに、より正確で関連性があり、理解しやすい行動証明書を作成するべきです。 我々は、信頼できる信頼できるAIを構築する方法について議論する。

The problem of human trust in artificial intelligence is one of the most fundamental problems in applied machine learning. Our processes for evaluating AI trustworthiness have substantial ramifications for ML's impact on science, health, and humanity, yet confusion surrounds foundational concepts. What does it mean to trust an AI, and how do humans assess AI trustworthiness? What are the mechanisms for building trustworthy AI? And what is the role of interpretable ML in trust? Here, we draw from statistical learning theory and sociological lenses on human-automation trust to motivate an AI-as-tool framework, which distinguishes human-AI trust from human-AI-human trust. Evaluating an AI's contractual trustworthiness involves predicting future model behavior using behavior certificates (BCs) that aggregate behavioral evidence from diverse sources including empirical out-of-distribution and out-of-task evaluation and theoretical proofs linking model architecture to behavior. We clarify the role of interpretability in trust with a ladder of model access. Interpretability (level 3) is not necessary or even sufficient for trust, while the ability to run a black-box model at-will (level 2) is necessary and sufficient. While interpretability can offer benefits for trust, it can also incur costs. We clarify ways interpretability can contribute to trust, while questioning the perceived centrality of interpretability to trust in popular discourse. How can we empower people with tools to evaluate trust? Instead of trying to understand how a model works, we argue for understanding how a model behaves. Instead of opening up black boxes, we should create more behavior certificates that are more correct, relevant, and understandable. We discuss how to build trusted and trustworthy AI responsibly.
翻訳日:2022-02-15 08:22:42 公開日:2022-02-10
# (参考訳) 生成ニューラルネットワークによる動的背景減算 [全文訳有]

Dynamic Background Subtraction by Generative Neural Networks ( http://arxiv.org/abs/2202.05336v1 )

ライセンス: CC BY 4.0
Fateme Bahri and Nilanjan Ray(参考訳) 背景減算はコンピュータビジョンにおいて重要なタスクであり、多くの現実世界のアプリケーションにとって不可欠なステップである。 バックグラウンドサブトラクション手法の課題の1つは動的背景であり、背景の一部で確率的な動きを構成する。 本稿では,動的運動除去のための2つの生成ニューラルネットワークと,背景生成のための2つのニューラルネットワークを用いた,新しい背景減算法dbsgenを提案する。 最後に、ダイナミックエントロピーマップに基づいて、画素幅距離閾値で前景移動物体を得る。 提案手法は、エンドツーエンドかつ教師なしの方法で最適化可能な統一フレームワークを備えている。 この手法の性能は動的背景シーケンス上で評価され、最先端手法のほとんどを上回っている。 私たちのコードはhttps://github.com/F atemeBahri/DBSGenで公開されています。

Background subtraction is a significant task in computer vision and an essential step for many real world applications. One of the challenges for background subtraction methods is dynamic background, which constitute stochastic movements in some parts of the background. In this paper, we have proposed a new background subtraction method, called DBSGen, which uses two generative neural networks, one for dynamic motion removal and another for background generation. At the end, the foreground moving objects are obtained by a pixel-wise distance threshold based on a dynamic entropy map. The proposed method has a unified framework that can be optimized in an end-to-end and unsupervised fashion. The performance of the method is evaluated over dynamic background sequences and it outperforms most of state-of-the-art methods. Our code is publicly available at https://github.com/F atemeBahri/DBSGen.
翻訳日:2022-02-15 07:57:40 公開日:2022-02-10
# (参考訳) アルゴリズム社会における説明責任:機械学習における関係性、責任性、ロバスト性 [全文訳有]

Accountability in an Algorithmic Society: Relationality, Responsibility, and Robustness in Machine Learning ( http://arxiv.org/abs/2202.05338v1 )

ライセンス: CC BY 4.0
A. Feder Cooper and Benjamin Laufer and Emanuel Moss and Helen Nissenbaum(参考訳) 1996年、哲学者ヘレン・ニッセンバウム (Helen Nissenbaum) は、コンピュータシステムへの連続関数のユビキタスな委任による社会における説明責任の侵食に関する宣言を発した。 倫理的非難の概念的枠組みを用いて、ニッセンバウムはコンピュータ化が提示する説明責任に対する4種類の障壁について説明した。 1)「多くの手」は、多くのモラル俳優の成果に道徳的責任をもたらす問題である。 2) "バグ" – ソフトウェアのエラーは避けられない,という提案によって,ソフトウェア開発者の責任を削ぐ方法。 3)「スケープゴートとしてのコンピュータ」、モラルアクターであるかのようにコンピュータシステムに非難を移す 4)「責任のない所有者」は、生産するソフトウェアに対する責任を否定するテク業界への無料パスである。 データ駆動型アルゴリズムシステム - 機械学習(ML)や人工知能(AI)の指導の下でしばしば折り畳まれる技術 - の最近の進歩に関連して、これらの4つの障壁を再考し、これらのシステムが持つ説明責任に関する新たな課題を明らかにする。 次に、責任ある当事者を保持するための道徳的、関係性のあるフレームワークの構築と正当化について検討し、facctコミュニティが4つの障壁を弱めるようなフレームワークを開発するために一意に適していると論じる。

In 1996, philosopher Helen Nissenbaum issued a clarion call concerning the erosion of accountability in society due to the ubiquitous delegation of consequential functions to computerized systems. Using the conceptual framing of moral blame, Nissenbaum described four types of barriers to accountability that computerization presented: 1) "many hands," the problem of attributing moral responsibility for outcomes caused by many moral actors; 2) "bugs," a way software developers might shrug off responsibility by suggesting software errors are unavoidable; 3) "computer as scapegoat," shifting blame to computer systems as if they were moral actors; and 4) "ownership without liability," a free pass to the tech industry to deny responsibility for the software they produce. We revisit these four barriers in relation to the recent ascendance of data-driven algorithmic systems--technology often folded under the heading of machine learning (ML) or artificial intelligence (AI)--to uncover the new challenges for accountability that these systems present. We then look ahead to how one might construct and justify a moral, relational framework for holding responsible parties accountable, and argue that the FAccT community is uniquely well-positioned to develop such a framework to weaken the four barriers.
翻訳日:2022-02-15 07:39:50 公開日:2022-02-10
# (参考訳) MeLa BitChuteデータセット [全文訳有]

The MeLa BitChute Dataset ( http://arxiv.org/abs/2202.05364v1 )

ライセンス: CC BY 4.0
Milo Trujillo, Maur\'icio Gruppi, Cody Buntain, Benjamin D. Horne(参考訳) 本稿では, ソーシャルビデオホスティングプラットフォームのBitChuteから, 2.5年間(2019年6月から2021年12月まで)に, 61Kチャンネルからの3Mビデオのほぼ完全なデータセットを提示する。 さらに、コメント、チャンネル記述、各ビデオのビューなど、さまざまなビデオレベルのメタデータも含んでいます。 MeLa-BitChuteデータセットは、https://dataverse.ha rvard.edu/dataset.xh tml? persistenceid=doi:10.7910/dvn/krd1 vs。

In this paper we present a near-complete dataset of over 3M videos from 61K channels over 2.5 years (June 2019 to December 2021) from the social video hosting platform BitChute, a commonly used alternative to YouTube. Additionally, we include a variety of video-level metadata, including comments, channel descriptions, and views for each video. The MeLa-BitChute dataset can be found at: https://dataverse.ha rvard.edu/dataset.xh tml?persistentId=doi:10.7910/DVN/KRD1 VS.
翻訳日:2022-02-15 07:07:49 公開日:2022-02-10
# MRI誘導放射線治療のためのニューラルネットワークを用いたリアルタイム画像再構成について

On Real-time Image Reconstruction with Neural Networks for MRI-guided Radiotherapy ( http://arxiv.org/abs/2202.05267v1 )

ライセンス: Link先を確認
David E. J. Waddington, Nicholas Hindley, Neha Koonjoo, Christopher Chiu, Tess Reynolds, Paul Z. Y. Liu, Bo Zhu, Danyal Bhutto, Chiara Paganelli, Paul J. Keall, Matthew S. Rosen(参考訳) リアルタイムに腫瘍の動きを追尾するために放射線ビームを動的に適応するMRI誘導技術は、より正確ながん治療と、両側の健康組織損傷を減少させる。 アンダーサンプされたMRデータの再構成のための金標準は圧縮センシング(CS)であり、計算速度が遅く、リアルタイム適応に画像が利用できる速度が制限される。 本稿では,対象画像領域に生MR信号をマッピングする一般化されたフレームワークであるAUTOMAPを用いて,アンサンプされた放射状k空間データから画像の高速再構成を行う。 automapニューラルネットワークは、golden-angle radial acquisition、モーションセンシティブイメージングのベンチマーク、肺癌患者データ、imagenetのジェネリックイメージから画像を再構築するために訓練された。 モデルトレーニングはその後、モーションロバストな再構築を促進するために、YouTube-8Mデータセットの動画から得られた動き符号化されたk空間データで強化された。 AUTOMAP-reconstructe d radial k-spaceはCSと同等の精度であるが,後天性肺癌患者データに対する初回微調整後処理時間が短縮された。 仮想肺腫瘍ファントムを用いた運動訓練モデルの検証により,youtubeから得られた運動特性が目標追跡精度の向上に繋がることが示された。 我々の研究は、AUTOMAPが放射状データのリアルタイムかつ正確な再構成を実現できることを示す。 これらの結果は、ニューラルネットワークに基づく再構築が、リアルタイム画像誘導アプリケーションに対する既存のアプローチよりも優れている可能性を示唆している。

MRI-guidance techniques that dynamically adapt radiation beams to follow tumor motion in real-time will lead to more accurate cancer treatments and reduced collateral healthy tissue damage. The gold-standard for reconstruction of undersampled MR data is compressed sensing (CS) which is computationally slow and limits the rate that images can be available for real-time adaptation. Here, we demonstrate the use of automated transform by manifold approximation (AUTOMAP), a generalized framework that maps raw MR signal to the target image domain, to rapidly reconstruct images from undersampled radial k-space data. The AUTOMAP neural network was trained to reconstruct images from a golden-angle radial acquisition, a benchmark for motion-sensitive imaging, on lung cancer patient data and generic images from ImageNet. Model training was subsequently augmented with motion-encoded k-space data derived from videos in the YouTube-8M dataset to encourage motion robust reconstruction. We find that AUTOMAP-reconstructe d radial k-space has equivalent accuracy to CS but with much shorter processing times after initial fine-tuning on retrospectively acquired lung cancer patient data. Validation of motion-trained models with a virtual dynamic lung tumor phantom showed that the generalized motion properties learned from YouTube lead to improved target tracking accuracy. Our work shows that AUTOMAP can achieve real-time, accurate reconstruction of radial data. These findings imply that neural-network-based reconstruction is potentially superior to existing approaches for real-time image guidance applications.
翻訳日:2022-02-14 16:37:41 公開日:2022-02-10
# 超高分解能の天体画像への最適輸送

Optimal Transport for Super Resolution Applied to Astronomy Imaging ( http://arxiv.org/abs/2202.05354v1 )

ライセンス: Link先を確認
Michael Rawson, Jakob Hultgren(参考訳) 超解像は光学、特に星間スケールにおいて、物理法則が画像解像度を制限しているため、重要なツールである。 超高分解能アプリケーションに最適なトランスポートとエントロピーを提案する。 空間的ノイズや歪みが十分小さい場合には,再現が正確であることが証明された。 我々は、オプティマイザが雑音や摂動に対して安定かつロバストであることを証明する。 本手法を畳み込みニューラルネットワークの状況と比較し,計算コストの低減と方法論的柔軟性の向上のために同様の結果を得た。

Super resolution is an essential tool in optics, especially on interstellar scales, due to physical laws restricting possible imaging resolution. We propose using optimal transport and entropy for super resolution applications. We prove that the reconstruction is accurate when sparsity is known and noise or distortion is small enough. We prove that the optimizer is stable and robust to noise and perturbations. We compare this method to a state of the art convolutional neural network and get similar results for much less computational cost and greater methodological flexibility.
翻訳日:2022-02-14 16:37:14 公開日:2022-02-10
# フェルミオンニューラルネットワークによる量子相転移の発見

Discovering Quantum Phase Transitions with Fermionic Neural Networks ( http://arxiv.org/abs/2202.05183v1 )

ライセンス: Link先を確認
G. Cassella, H. Sutterud, S. Azadi, N. D. Drummond, D. Pfau, J. S. Spencer, W. M. C. Foulkes(参考訳) ディープニューラルネットワークは分子基底状態の変動モンテカルロ計算のための高精度波動関数 ans\atze として非常に成功した。 我々は、周期的ハミルトニアンの基底状態の計算にそのようなアンザッツであるフェルミネットを拡張し、同質電子ガスの研究を行う。 小さな電子ガス系の基底状態エネルギーのフェルミネット計算は、以前の開始子フル構成相互作用量子モンテカルロ計算と拡散モンテカルロ計算とよく一致している。 スピン偏極同質電子ガスについて検討し、同じニューラルネットワークアーキテクチャが非局在フェルミ液体状態と局在ウィグナー結晶状態の両方を正確に表現できることを示した。 このネットワークは、位相遷移が存在するという知識は与えられていないが、高密度で並進不変な基底状態上に収束し、自発的に対称性を破って低密度で結晶基底状態を生成する。

Deep neural networks have been extremely successful as highly accurate wave function ans\"atze for variational Monte Carlo calculations of molecular ground states. We present an extension of one such ansatz, FermiNet, to calculations of the ground states of periodic Hamiltonians, and study the homogeneous electron gas. FermiNet calculations of the ground-state energies of small electron gas systems are in excellent agreement with previous initiator full configuration interaction quantum Monte Carlo and diffusion Monte Carlo calculations. We investigate the spin-polarized homogeneous electron gas and demonstrate that the same neural network architecture is capable of accurately representing both the delocalized Fermi liquid state and the localized Wigner crystal state. The network is given no \emph{a priori} knowledge that a phase transition exists, but converges on the translationally invariant ground state at high density and spontaneously breaks the symmetry to produce the crystalline ground state at low density.
翻訳日:2022-02-14 16:36:36 公開日:2022-02-10
# DDoS-UNet:ダイナミックデュアルチャネルUNetを用いた時間情報の導入によるダイナミックMRIの超解像化

DDoS-UNet: Incorporating temporal information using Dynamic Dual-channel UNet for enhancing super-resolution of dynamic MRI ( http://arxiv.org/abs/2202.05355v1 )

ライセンス: Link先を確認
Soumick Chatterjee, Chompunuch Sarasaen, Georg Rose, Andreas N\"urnberger and Oliver Speck(参考訳) 磁気共鳴イメージング(MRI)は、有害な電離放射線を使わずに高い空間分解能と優れた軟質コントラストを提供する。 ダイナミックMRIは、対象臓器の動きや変化を可視化するための介入に不可欠なツールである。 しかし、高時間分解能のMRI取得は、ダイナミックMRIの時空間トレードオフとしても知られる、限られた空間分解能に悩まされる。 ディープラーニングに基づく超解像アプローチを含むいくつかのアプローチが、このトレードオフを軽減するために提案されている。 しかしながら、このようなアプローチは一般的に各時点を個別に超解き、個々の巻として扱うことを目的としている。 本研究は,空間的関係と時間的関係の両方を学習しようとする深層学習モデルを作成することで,この問題に対処する。 修正された3D UNetモデルであるDDoS-UNetが提案されている。 まず、ネットワークには、初期画像として静的高分解能計画スキャンと、第1のタイムポイントを超解く低分解能入力が供給される。 そして、次の時間点を超解きながら、超解き時間点を先行画像として使用することにより、ステップワイズを継続する。 モデルの性能は、異なる面内レベルにサンプリングされた3d動的データでテストされた。 提案したネットワークは, 平均SSIM値0.951$\pm$0.017を達成し, 最低分解能データ(k空間取得率の4.5%)を再構成し, 理論加速度係数25。 提案手法は,高い空間分解能を実現しつつ,必要なスキャン時間を削減することができる。

Magnetic resonance imaging (MRI) provides high spatial resolution and excellent soft-tissue contrast without using harmful ionising radiation. Dynamic MRI is an essential tool for interventions to visualise movements or changes of the target organ. However, such MRI acquisition with high temporal resolution suffers from limited spatial resolution - also known as the spatio-temporal trade-off of dynamic MRI. Several approaches, including deep learning based super-resolution approaches, have been proposed to mitigate this trade-off. Nevertheless, such an approach typically aims to super-resolve each time-point separately, treating them as individual volumes. This research addresses the problem by creating a deep learning model which attempts to learn both spatial and temporal relationships. A modified 3D UNet model, DDoS-UNet, is proposed - which takes the low-resolution volume of the current time-point along with a prior image volume. Initially, the network is supplied with a static high-resolution planning scan as the prior image along with the low-resolution input to super-resolve the first time-point. Then it continues step-wise by using the super-resolved time-points as the prior image while super-resolving the subsequent time-points. The model performance was tested with 3D dynamic data that was undersampled to different in-plane levels. The proposed network achieved an average SSIM value of 0.951$\pm$0.017 while reconstructing the lowest resolution data (i.e. only 4\% of the k-space acquired) - which could result in a theoretical acceleration factor of 25. The proposed approach can be used to reduce the required scan-time while achieving high spatial resolution.
翻訳日:2022-02-14 16:35:50 公開日:2022-02-10
# マルチモーダルmr画像を用いた脳腫瘍分割のためのhnf-netv2

HNF-Netv2 for Brain Tumor Segmentation using multi-modal MR Imaging ( http://arxiv.org/abs/2202.05268v1 )

ライセンス: Link先を確認
Haozhe Jia, Chao Bai, Weidong Cai, Heng Huang, and Yong Xia(参考訳) 前回の研究では,HNF-Net,高分解能特徴表現,軽度非局所自己アテンション機構をマルチモーダルMR画像を用いた脳腫瘍セグメンテーションに活用した。 本稿では,hnf-net を hnf-netv2 に拡張し,hnf-netv2 と hnf-netv2 間の意味的識別拡張ブロックを追加して,得られた高分解能特徴に対するグローバル意味的識別をさらに活用する。 hnf-netv2をbrats(multi-modal brain tumor segmentation challenge)2021データセットでトレーニングし,評価した。 その結果, hnf-netv2は0.878514点, 0.872985点, 0.924919点, ハウスドルフ距離8.9184点, 16.2530点, 4.4895点をそれぞれ腫瘍, 腫瘍コア, 腫瘍全体に対してそれぞれ達成した。 脳腫瘍AIチャレンジ賞(Segmentation Task, RSNA 2021 Brain tumor AI Challenge Prize)は、1250件の検査結果のうち8位にランクインした。

In our previous work, $i.e.$, HNF-Net, high-resolution feature representation and light-weight non-local self-attention mechanism are exploited for brain tumor segmentation using multi-modal MR imaging. In this paper, we extend our HNF-Net to HNF-Netv2 by adding inter-scale and intra-scale semantic discrimination enhancing blocks to further exploit global semantic discrimination for the obtained high-resolution features. We trained and evaluated our HNF-Netv2 on the multi-modal Brain Tumor Segmentation Challenge (BraTS) 2021 dataset. The result on the test set shows that our HNF-Netv2 achieved the average Dice scores of 0.878514, 0.872985, and 0.924919, as well as the Hausdorff distances ($95\%$) of 8.9184, 16.2530, and 4.4895 for the enhancing tumor, tumor core, and whole tumor, respectively. Our method won the RSNA 2021 Brain Tumor AI Challenge Prize (Segmentation Task), which ranks 8th out of all 1250 submitted results.
翻訳日:2022-02-14 16:09:45 公開日:2022-02-10
# マルチパラメトリック定量MRIへのプラグイン・アンド・プレイアプローチ:事前訓練深度Denoiserを用いた画像再構成

A Plug-and-Play Approach to Multiparametric Quantitative MRI: Image Reconstruction using Pre-Trained Deep Denoisers ( http://arxiv.org/abs/2202.05269v1 )

ライセンス: Link先を確認
Ketan Fatania, Carolin M. Pirkl, Marion I. Menzel, Peter Hall and Mohammad Golbabaee(参考訳) 磁気共鳴フィンガープリンティング(mrf)に対する現在の時空間ディープラーニングアプローチは、高速(圧縮)取得に使用される特定のk空間サブサンプリングパターンに合わせてカスタマイズされたアーティファクト除去モデルを構築する。 これは、ディープラーニングモデルのトレーニング中に獲得プロセスが未知である場合や、テスト時間中に変化がある場合、役に立たないかもしれない。 本稿では,先進的獲得プロセスに適応したMDFに対する反復的深層学習プラグアンドプレイ再構成手法を提案する。 時空間画像は、データから一般的な白色ガウスノイズ(特定のサブサンプリングアーチファクトではない)を取り除くために訓練された畳み込みニューラルネットワーク(CNN)というイメージデノイザによって学習される。 このCNNデノイザは、反復再構成アルゴリズムにおいてデータ駆動収縮演算子として使用される。 同じデノイザモデルを持つこのアルゴリズムは、異なるサブサンプリングパターンを持つ2つの模擬取得プロセスでテストされる。 以上の結果から, 買収方式と組織量的バイオプロパティの正確なマッピングに一貫したデエイリアス性能を示した。 ソフトウェア:https://github.com/ ketanfatania/QMRI-Pn P-Recon-POC

Current spatiotemporal deep learning approaches to Magnetic Resonance Fingerprinting (MRF) build artefact-removal models customised to a particular k-space subsampling pattern which is used for fast (compressed) acquisition. This may not be useful when the acquisition process is unknown during training of the deep learning model and/or changes during testing time. This paper proposes an iterative deep learning plug-and-play reconstruction approach to MRF which is adaptive to the forward acquisition process. Spatiotemporal image priors are learned by an image denoiser i.e. a Convolutional Neural Network (CNN), trained to remove generic white gaussian noise (not a particular subsampling artefact) from data. This CNN denoiser is then used as a data-driven shrinkage operator within the iterative reconstruction algorithm. This algorithm with the same denoiser model is then tested on two simulated acquisition processes with distinct subsampling patterns. The results show consistent de-aliasing performance against both acquisition schemes and accurate mapping of tissues' quantitative bio-properties. Software available: https://github.com/k etanfatania/QMRI-PnP -Recon-POC
翻訳日:2022-02-14 16:09:21 公開日:2022-02-10
# 運動プラグ:身体部分による任意運動スタイルの移動

Motion Puzzle: Arbitrary Motion Style Transfer by Body Part ( http://arxiv.org/abs/2202.05274v1 )

ライセンス: Link先を確認
Deok-Kyeong Jang, Soomin Park, Sung-Hee Lee(参考訳) 本稿では,いくつかの重要な点において最先端のモーショントランスファーネットワークであるモーションパズルについて述べる。 Motion Puzzleは、個々の身体部分の動作スタイルを制御し、局所的なスタイルの編集を可能にし、スタイリングされた動きの範囲を大幅に拡大する最初の製品である。 ヒトの運動構造を維持するために設計された本フレームワークは、異なる身体部位に対する複数のスタイル運動からスタイル特徴を抽出し、対象身体部位に局所的に伝達する。 もう1つの大きな利点は、適応インスタンス正規化とアテンションモジュールをスケルトントポロジを維持しながら統合することで、運動スタイルのグローバルおよびローカル特性の両方を転送できることである。 これにより、フラップやスタッガーなどのダイナミックな動きで表されるスタイルを、以前の作品よりもかなりうまく捉えることができる。 さらに,このフレームワークでは,スタイルラベリングやモーションペアリングを伴うデータセットを必要とせず,任意のモーションスタイル転送を可能にする。 我々のフレームワークはモーション生成フレームワークと簡単に統合でき、リアルタイムモーション転送など多くのアプリケーションを作成することができる。 フレームワークの利点を、いくつかの例と以前の作業との比較で示しています。

This paper presents Motion Puzzle, a novel motion style transfer network that advances the state-of-the-art in several important respects. The Motion Puzzle is the first that can control the motion style of individual body parts, allowing for local style editing and significantly increasing the range of stylized motions. Designed to keep the human's kinematic structure, our framework extracts style features from multiple style motions for different body parts and transfers them locally to the target body parts. Another major advantage is that it can transfer both global and local traits of motion style by integrating the adaptive instance normalization and attention modules while keeping the skeleton topology. Thus, it can capture styles exhibited by dynamic movements, such as flapping and staggering, significantly better than previous work. In addition, our framework allows for arbitrary motion style transfer without datasets with style labeling or motion pairing, making many publicly available motion datasets available for training. Our framework can be easily integrated with motion generation frameworks to create many applications, such as real-time motion transfer. We demonstrate the advantages of our framework with a number of examples and comparisons with previous work.
翻訳日:2022-02-14 16:09:03 公開日:2022-02-10
# 断層撮影問題に対する多重データ一貫性解に対する深部生成モデルの多様体のマイニング

Mining the manifolds of deep generative models for multiple data-consistent solutions of ill-posed tomographic imaging problems ( http://arxiv.org/abs/2202.05311v1 )

ライセンス: Link先を確認
Sayantan Bhadra, Umberto Villa and Mark A. Anastasio(参考訳) 断層撮影は一般的に逆問題である。 通常、トモグラフィー測定により、追従対象の単一正規化画像推定値を得る。 しかし、同じ測定データと全て一致する複数のオブジェクトが存在するかもしれない。 このような代替ソリューションを生成する能力は、イメージングシステムの新たな評価を可能にするため重要である。 原則として、これは後続サンプリング法によって達成できる。 近年では、深層ニューラルネットワークが後部サンプリングに使われており、将来性がある。 しかし、このような方法は大規模な断層撮影にはまだ使われていない。 一方, 大規模撮像システムでは実験的サンプリング法が計算可能であり, 実用上不確実性定量化が可能である。 経験的サンプリングは、確率的最適化フレームワーク内で正規化された逆問題を解くことで、代替データ一貫性のソリューションを得る。 そこで本研究では, 同一測定データと整合した断層逆問題の複数解を計算する新しい経験的サンプリング法を提案する。 この方法は、スタイルベース生成逆数ネットワーク(StyleGAN)の潜時空間における最適化問題を繰り返し解決し、超分解能タスクのために開発されたLatent Space Exploration(PULSE)法によるPhoto Upsamplingにインスパイアされた。 提案手法は2つのスタイリングトモグラフィー画像モダリティを含む数値的研究により実証および解析を行った。 これらの研究は、効率的な経験的サンプリングと不確実性定量化を行う方法の能力を確立する。

Tomographic imaging is in general an ill-posed inverse problem. Typically, a single regularized image estimate of the sought-after object is obtained from tomographic measurements. However, there may be multiple objects that are all consistent with the same measurement data. The ability to generate such alternate solutions is important because it may enable new assessments of imaging systems. In principle, this can be achieved by means of posterior sampling methods. In recent years, deep neural networks have been employed for posterior sampling with promising results. However, such methods are not yet for use with large-scale tomographic imaging applications. On the other hand, empirical sampling methods may be computationally feasible for large-scale imaging systems and enable uncertainty quantification for practical applications. Empirical sampling involves solving a regularized inverse problem within a stochastic optimization framework in order to obtain alternate data-consistent solutions. In this work, we propose a new empirical sampling method that computes multiple solutions of a tomographic inverse problem that are consistent with the same acquired measurement data. The method operates by repeatedly solving an optimization problem in the latent space of a style-based generative adversarial network (StyleGAN), and was inspired by the Photo Upsampling via Latent Space Exploration (PULSE) method that was developed for super-resolution tasks. The proposed method is demonstrated and analyzed via numerical studies that involve two stylized tomographic imaging modalities. These studies establish the ability of the method to perform efficient empirical sampling and uncertainty quantification.
翻訳日:2022-02-14 16:08:42 公開日:2022-02-10
# 最適宇宙解析のための翻訳・回転等変正規化流(TRENF)

Translation and Rotation Equivariant Normalizing Flow (TRENF) for Optimal Cosmological Analysis ( http://arxiv.org/abs/2202.05282v1 )

ライセンス: Link先を確認
Biwei Dai and Uros Seljak(参考訳) 我々の宇宙は均質で等方的であり、その摂動は翻訳と回転対称性に従う。 本研究では,これらの対称性を明示的に取り入れた生成正規化フロー(nf)モデルであるtrenf(translation and rotation equivariant normalizing flow)を開発し,フーリエ空間に基づく畳み込みと画素単位の非線形変換によるデータ可能性を定義する。 TRENF は、宇宙パラメータのようなラベル y の関数として高次元データの可能性 p(x|y) に直接アクセスする。 要約統計に基づく従来の分析とは対照的に、NFアプローチはデータの全次元性を保っているため、情報の損失はない。 ガウス確率場において、TRENF は解析式とよく一致し、ラベル y 内のフィッシャー情報の内容が飽和する。 N体シミュレーションによる非線形宇宙論的超密度場において、TRENFは標準パワースペクトル要約統計量よりも制約パワーが大幅に向上する。 また、TRENFはデータの生成モデルであり、TRENFサンプルはトレーニングしたN-bodyシミュレーションとよく一致し、データ逆マッピングは、視覚的にも様々な要約統計に基づいても、ガウスホワイトノイズとよく一致している。 最後に,このモデルを用いて,調査マスクなどのデータ対称性を損なう影響を扱えるように一般化し,周期的境界のないデータに対する可能性分析を可能にする。

Our universe is homogeneous and isotropic, and its perturbations obey translation and rotation symmetry. In this work we develop Translation and Rotation Equivariant Normalizing Flow (TRENF), a generative Normalizing Flow (NF) model which explicitly incorporates these symmetries, defining the data likelihood via a sequence of Fourier space-based convolutions and pixel-wise nonlinear transforms. TRENF gives direct access to the high dimensional data likelihood p(x|y) as a function of the labels y, such as cosmological parameters. In contrast to traditional analyses based on summary statistics, the NF approach has no loss of information since it preserves the full dimensionality of the data. On Gaussian random fields, the TRENF likelihood agrees well with the analytical expression and saturates the Fisher information content in the labels y. On nonlinear cosmological overdensity fields from N-body simulations, TRENF leads to significant improvements in constraining power over the standard power spectrum summary statistic. TRENF is also a generative model of the data, and we show that TRENF samples agree well with the N-body simulations it trained on, and that the inverse mapping of the data agrees well with a Gaussian white noise both visually and on various summary statistics: when this is perfectly achieved the resulting p(x|y) likelihood analysis becomes optimal. Finally, we develop a generalization of this model that can handle effects that break the symmetry of the data, such as the survey mask, which enables likelihood analysis on data without periodic boundaries.
翻訳日:2022-02-14 16:06:27 公開日:2022-02-10
# ロボット操作におけるゼロショット一般化のための因子世界モデル

Factored World Models for Zero-Shot Generalization in Robotic Manipulation ( http://arxiv.org/abs/2202.05333v1 )

ライセンス: Link先を確認
Ondrej Biza, Thomas Kipf, David Klee, Robert Platt, Jan-Willem van de Meent and Lawson L. S. Wong(参考訳) 多くの物体を持つ環境のワールドモデルでは、オブジェクトの数が増加するにつれて、考えられるアレンジの数は指数関数的に増加する。 本稿では,オブジェクトの置換に同値であることを保証し,組み合わせの爆発と戦う,オブジェクト指向世界モデルを用いたロボットピック・アンド・プレイス・タスクの一般化を学習する。 従来のオブジェクト指向モデルは、アクションをモデル化できないか、複雑な操作タスクを計画できないかによって制限されていた。 本研究では,ロボットの動作を連続的にモデル化し,ロボットのピック・アンド・プレイスの物理を正確に予測する。 そのため、ノードとエッジの両方のニューラルネットワークにおいて、アクション情報を複数のレベルで受信するグラフニューラルネットワークの残差スタックを使用する。 重要なのは、学習したモデルがトレーニングデータに表されないタスクを予測できることです。 すなわち,新規タスクに対するゼロショット一般化を成功させたが,モデル性能はわずかに低下しただけだった。 さらに,最大12個のピック・アンド・プレイス・アクションを含むタスクをヒューリスティック・サーチを用いて計画するために,我々のモデルのアンサンブルを使用できることを示す。 また,ロボットへの移動を実演する。

World models for environments with many objects face a combinatorial explosion of states: as the number of objects increases, the number of possible arrangements grows exponentially. In this paper, we learn to generalize over robotic pick-and-place tasks using object-factored world models, which combat the combinatorial explosion by ensuring that predictions are equivariant to permutations of objects. Previous object-factored models were limited either by their inability to model actions, or by their inability to plan for complex manipulation tasks. We build on recent contrastive methods for training object-factored world models, which we extend to model continuous robot actions and to accurately predict the physics of robotic pick-and-place. To do so, we use a residual stack of graph neural networks that receive action information at multiple levels in both their node and edge neural networks. Crucially, our learned model can make predictions about tasks not represented in the training data. That is, we demonstrate successful zero-shot generalization to novel tasks, with only a minor decrease in model performance. Moreover, we show that an ensemble of our models can be used to plan for tasks involving up to 12 pick and place actions using heuristic search. We also demonstrate transfer to a physical robot.
翻訳日:2022-02-14 16:06:00 公開日:2022-02-10
# データ駆動型AI/MLコンポーネントの安全性確保のための保証事例におけるテストと運用関連定量的証拠の統合

Integrating Testing and Operation-related Quantitative Evidences in Assurance Cases to Argue Safety of Data-Driven AI/ML Components ( http://arxiv.org/abs/2202.05313v1 )

ライセンス: Link先を確認
Michael Kl\"as, Lisa J\"ockel, Rasmus Adler, Jan Reich(参考訳) 将来的には、AIは人間の身体に害を与える可能性のあるシステムに、ますます浸透していくだろう。 このような安全クリティカルなシステムでは、その残留リスクが許容範囲を超えないことを示す必要がある。 これには、特に、そのようなシステムの安全関連機能の一部であるAIコンポーネントが含まれる。 保証ケースは、システムの安全性を示すために、健全で包括的な安全引数を指定するための、今日では議論の的になっている選択肢である。 これまでの研究では、2つの相補的なリスク受け入れ基準に基づいて保証ケースを構造化することで、AIコンポーネントの安全性を議論することが提案されている。 これらの基準の1つは、AIに関する定量的な目標を導出するために使用される。 このような量的目標の達成を示すために提案される議論構造は、統計検査による失敗率に重点を置いている。 さらに重要な側面は、定性的な方法でのみ考慮される。 これとは対照的に,本論文では,テスト結果を実行時と統合する構造と,スコープコンプライアンスとテストデータ品質の影響を定量的に比較した,より包括的な議論構造を提案する。 我々は、様々な議論オプションを詳述し、基礎となる数学的考察を提示し、それらの実践的応用に影響を及ぼす結果について論じる。 提案する議論構造を用いることで保証事例の完全性が向上するだけでなく、正当化できない量的対象に対する主張も可能となる。

In the future, AI will increasingly find its way into systems that can potentially cause physical harm to humans. For such safety-critical systems, it must be demonstrated that their residual risk does not exceed what is acceptable. This includes, in particular, the AI components that are part of such systems' safety-related functions. Assurance cases are an intensively discussed option today for specifying a sound and comprehensive safety argument to demonstrate a system's safety. In previous work, it has been suggested to argue safety for AI components by structuring assurance cases based on two complementary risk acceptance criteria. One of these criteria is used to derive quantitative targets regarding the AI. The argumentation structures commonly proposed to show the achievement of such quantitative targets, however, focus on failure rates from statistical testing. Further important aspects are only considered in a qualitative manner -- if at all. In contrast, this paper proposes a more holistic argumentation structure for having achieved the target, namely a structure that integrates test results with runtime aspects and the impact of scope compliance and test data quality in a quantitative manner. We elaborate different argumentation options, present the underlying mathematical considerations, and discuss resulting implications for their practical application. Using the proposed argumentation structure might not only increase the integrity of assurance cases but may also allow claims on quantitative targets that would not be justifiable otherwise.
翻訳日:2022-02-14 15:36:23 公開日:2022-02-10
# クロージャ演算子:複雑さと分類と意思決定への応用

Closure operators: Complexity and applications to classification and decision-making ( http://arxiv.org/abs/2202.05339v1 )

ライセンス: Link先を確認
Hamed Hamze Bajgiran and Federico Echenique(参考訳) 閉包演算子の複雑性と機械学習と決定理論への応用について検討する。 機械学習では、クロージャ演算子はデータ分類とクラスタリングにおいて自然に現れる。 意思決定理論では、選択メニューの等価性をモデル化できるため、柔軟性が優先される。 我々の貢献は閉包作用素の複雑性の概念を定式化することであり、これはMLにおける分類器の複雑さや決定論における実用関数の複雑さに変換される。

We study the complexity of closure operators, with applications to machine learning and decision theory. In machine learning, closure operators emerge naturally in data classification and clustering. In decision theory, they can model equivalence of choice menus, and therefore situations with a preference for flexibility. Our contribution is to formulate a notion of complexity of closure operators, which translate into the complexity of a classifier in ML, or of a utility function in decision theory.
翻訳日:2022-02-14 15:36:00 公開日:2022-02-10
# 医用画像セグメンテーションにおける評価基準の策定に向けて

Towards a Guideline for Evaluation Metrics in Medical Image Segmentation ( http://arxiv.org/abs/2202.05273v1 )

ライセンス: Link先を確認
Dominik M\"uller, I\~naki Soto-Rey and Frank Kramer(参考訳) 過去10年間、人工知能の研究は、特に医療画像セグメンテーションの分野で、ディープラーニングモデルによって急速に成長してきた。 様々な研究により、これらのモデルには強力な予測能力があり、臨床医と同様の結果が得られた。 しかし,近年の研究では,画像分割による評価は信頼性の高いモデル性能評価を欠き,不正確な測定や使用による統計的バイアスがみられた。 そこで本研究では,2進法および多クラス問題として,Dice similarity coefficient, Jaccard, Sensitivity, Specificity, Rand Indexs, ROC curves, Cohen's Kappa, Hausdorff distance の医療画像セグメンテーション評価指標の概要と解釈ガイドを提供する。 そこで,本稿では,標準化された医用画像セグメンテーション評価のためのガイドラインを提案し,評価品質,再現性,コンパラビリティを向上させる。

In the last decade, research on artificial intelligence has seen rapid growth with deep learning models, especially in the field of medical image segmentation. Various studies demonstrated that these models have powerful prediction capabilities and achieved similar results as clinicians. However, recent studies revealed that the evaluation in image segmentation studies lacks reliable model performance assessment and showed statistical bias by incorrect metric implementation or usage. Thus, this work provides an overview and interpretation guide on the following metrics for medical image segmentation evaluation in binary as well as multi-class problems: Dice similarity coefficient, Jaccard, Sensitivity, Specificity, Rand index, ROC curves, Cohen's Kappa, and Hausdorff distance. As a summary, we propose a guideline for standardized medical image segmentation evaluation to improve evaluation quality, reproducibility, and comparability in the research field.
翻訳日:2022-02-14 15:20:42 公開日:2022-02-10
# ドメイン・アドバイザリ・トレーニング:ゲーム・パースペクティブ

Domain Adversarial Training: A Game Perspective ( http://arxiv.org/abs/2202.05352v1 )

ライセンス: Link先を確認
David Acuna, Marc T Law, Guojun Zhang, Sanja Fidler(参考訳) ドメイン適応における支配的な作業は、ドメイン-敵のトレーニングを使って不変表現を学習することに焦点を当てている。 本稿では,ゲーム理論の観点から,このアプローチを解釈する。 局所的なナッシュ均衡としてのドメイン対逆トレーニングにおける最適解を定義することで、ドメイン対逆トレーニングにおける勾配勾配は、最適化器の漸近収束保証に違反し、しばしば転送性能を妨げていることを示す。 解析により勾配降下を高階ODEソルバ(すなわちルンゲ・クッタ)に置き換え、漸近収束保証を導出する。 このオプティマイザのファミリーは、はるかに安定しており、より積極的な学習率を可能にし、標準オプティマイザよりもドロップイン代替として使用される場合、高いパフォーマンス向上につながる。 実験の結果,最先端のドメイン攻撃手法と組み合わせることで,半数以下のトレーニングイテレーションで最大3.5%の改善が達成できることがわかった。 私たちのオプティマイザは実装が容易で、追加のパラメータは不要です。

The dominant line of work in domain adaptation has focused on learning invariant representations using domain-adversarial training. In this paper, we interpret this approach from a game theoretical perspective. Defining optimal solutions in domain-adversarial training as a local Nash equilibrium, we show that gradient descent in domain-adversarial training can violate the asymptotic convergence guarantees of the optimizer, oftentimes hindering the transfer performance. Our analysis leads us to replace gradient descent with high-order ODE solvers (i.e., Runge-Kutta), for which we derive asymptotic convergence guarantees. This family of optimizers is significantly more stable and allows more aggressive learning rates, leading to high performance gains when used as a drop-in replacement over standard optimizers. Our experiments show that in conjunction with state-of-the-art domain-adversarial methods, we achieve up to 3.5% improvement with less than of half training iterations. Our optimizers are easy to implement, free of additional parameters, and can be plugged into any domain-adversarial framework.
翻訳日:2022-02-14 15:20:23 公開日:2022-02-10
# 適応的目標追跡のためのユニバーサルラーニング波形選択戦略

Universal Learning Waveform Selection Strategies for Adaptive Target Tracking ( http://arxiv.org/abs/2202.05294v1 )

ライセンス: Link先を確認
Charles E. Thornton, R. Michael Buehrer, Harpreet S. Dhillon, Anthony F. Martone(参考訳) アクティブセンサーを用いた目標追跡のための最適波形のオンライン選択は、長年の関心事であった。 多くの従来の解法では、各追従ステップの最適な波形を選択するために、測定誤差の波形固有のクレージュ'{e}r-rao下限を用いる推定理論的解釈を用いる。 しかし、このアプローチは高いSNR体制においてのみ有効であり、目標運動と測定モデルに関する仮定のかなり限定的なセットを必要とする。 さらに、計算上の懸念から、レーダーシーンが強い時間的相関を示すにもかかわらず、多くの伝統的なアプローチは短期的、あるいは近視的最適化に限定されている。 近年, 波形選択のための強化学習が提案されており, 問題はマルコフ決定過程 (mdp) としてフレーム化され, 長期計画が可能となっている。 しかし、強化学習の大きな制限は、ベースとなるマルコフプロセスのメモリ長が現実のターゲットやチャネルのダイナミクスでは未知であり、より一般的なフレームワークが望ましいことである。 この研究は、有限だが未知の整数$U$に対して$U^{\text{th}}$ Order Markovプロセスとしてモデル化できる任意のレーダシーンにおいて、ベルマン最適性を漸近的に達成する普遍的なシーケンシャル波形選択スキームを開発する。 本手法は,シーンの振る舞いの確率論的モデルとして使用されるコンテキストツリーを構築するために,静止したソースを可変長のフレーズに解析する,ユニバーサル・ソース・コーディングの分野で確立されたツールに基づいている。 本研究では,CTW(Context-Tree Weighting)手法のマルチアルファ版に基づくアルゴリズムを用いて,環境の挙動を最小限に抑えつつ,広範囲な波形の追跡問題を最適に解くことができることを示す。

Online selection of optimal waveforms for target tracking with active sensors has long been a problem of interest. Many conventional solutions utilize an estimation-theoretic interpretation, in which a waveform-specific Cram\'{e}r-Rao lower bound on measurement error is used to select the optimal waveform for each tracking step. However, this approach is only valid in the high SNR regime, and requires a rather restrictive set of assumptions regarding the target motion and measurement models. Further, due to computational concerns, many traditional approaches are limited to near-term, or myopic, optimization, even though radar scenes exhibit strong temporal correlation. More recently, reinforcement learning has been proposed for waveform selection, in which the problem is framed as a Markov decision process (MDP), allowing for long-term planning. However, a major limitation of reinforcement learning is that the memory length of the underlying Markov process is often unknown for realistic target and channel dynamics, and a more general framework is desirable. This work develops a universal sequential waveform selection scheme which asymptotically achieves Bellman optimality in any radar scene which can be modeled as a $U^{\text{th}}$ order Markov process for a finite, but unknown, integer $U$. Our approach is based on well-established tools from the field of universal source coding, where a stationary source is parsed into variable length phrases in order to build a context-tree, which is used as a probabalistic model for the scene's behavior. We show that an algorithm based on a multi-alphabet version of the Context-Tree Weighting (CTW) method can be used to optimally solve a broad class of waveform-agile tracking problems while making minimal assumptions about the environment's behavior.
翻訳日:2022-02-14 15:19:51 公開日:2022-02-10
# 墨の下の顔-合成データとタトゥー除去と顔認識への応用-

Face Beneath the Ink: Synthetic Data and Tattoo Removal with Application to Face Recognition ( http://arxiv.org/abs/2202.05297v1 )

ライセンス: Link先を確認
Mathias Ibsen, Christian Rathgeb, Pawel Drozdowski, Christoph Busch(参考訳) 顔を分析するシステムは近年大きく改善され、現在では多くのアプリケーションシナリオで使われている。 しかし、これらのシステムはタトゥーなどの顔の変化によって悪影響を受けることが判明している。 顔分析システムにおける顔タトゥーの効果をよりよく理解し緩和するためには、入れ墨のない個人の画像の大きなデータセットが必要である。 そこで本研究では,顔画像にリアルなタトゥーを自動付加するジェネレータを提案する。 さらに,顔画像からタトゥーを除去するための深層学習モデルを用いて,その生成可能性を示す。 実験の結果,画像の品質を劣化させることなく,実際の画像から顔タトゥーを除去できることが示唆された。 また,顔の特徴を抽出・比較する前に,深層学習に基づくタトゥー除去により,顔認識精度の向上が期待できることを示す。

Systems that analyse faces have seen significant improvements in recent years and are today used in numerous application scenarios. However, these systems have been found to be negatively affected by facial alterations such as tattoos. To better understand and mitigate the effect of facial tattoos in facial analysis systems, large datasets of images of individuals with and without tattoos are needed. To this end, we propose a generator for automatically adding realistic tattoos to facial images. Moreover, we demonstrate the feasibility of the generation by training a deep learning-based model for removing tattoos from face images. The experimental results show that it is possible to remove facial tattoos from real images without degrading the quality of the image. Additionally, we show that it is possible to improve face recognition accuracy by using the proposed deep learning-based tattoo removal before extracting and comparing facial features.
翻訳日:2022-02-14 15:16:57 公開日:2022-02-10
# La Rance Tidal BarrageのためのAI駆動モデルの開発と検証:一般的なケーススタディ

Development and Validation of an AI-Driven Model for the La Rance Tidal Barrage: A Generalisable Case Study ( http://arxiv.org/abs/2202.05347v1 )

ライセンス: Link先を確認
T\'ulio Marcondes Moreira, Jackson Geraldo de Faria Jr, Pedro O.S. Vaz-de-Melo and Gilberto Medeiros-Ribeiro(参考訳) 本研究では,新しいパラメトリゼーションと深層強化学習(DRL)技術を用いて,ラ・ランス潮流のAI駆動モデル表現を開発した。 モデル実験の結果を実験により検証し, 構築した干潟群に対して第1の干潟域構造(TRS)モデルを作成し, 研究者に利用可能とした。 La Ranceを適切なモデルにするため、シミュレーションのためのパラメトリゼーション手法を開発した。 (i)タービン(ポンプ及び発電モード) (ii)遷移ランプ機能(水理構造物の開閉用)及び (三)ラグーン湿地に相当する。 さらに,La Ranceを構成する油圧構造物の運転を最適化するために,更新DRL法を実装した。 この研究の成果は、AI駆動型TRSモデルが適切に予測する能力を検証することである。 (i)タービン動力及び (II)ラグーン水位の変化。 さらに、観測された運用戦略とAI駆動モデルの年次エネルギー出力は、La Ranceの干ばつ被害の報告と同等であるように見えた。 この研究の結果(開発方法論とDRLの実装)は一般化可能であり、他のTRSプロジェクトに応用できる。 さらにこの研究は、私たちのAI駆動モデルによって実現された、より現実的なTLS操作シミュレーションを可能にする洞察を提供する。

In this work, an AI-Driven (autonomous) model representation of the La Rance tidal barrage was developed using novel parametrisation and Deep Reinforcement Learning (DRL) techniques. Our model results were validated with experimental measurements, yielding the first Tidal Range Structure (TRS) model validated against a constructed tidal barrage and made available to academics. In order to proper model La Rance, parametrisation methodologies were developed for simulating (i) turbines (in pumping and power generation modes), (ii) transition ramp functions (for opening and closing hydraulic structures) and (iii) equivalent lagoon wetted area. Furthermore, an updated DRL method was implemented for optimising the operation of the hydraulic structures that compose La Rance. The achieved objective of this work was to verify the capabilities of an AI-Driven TRS model to appropriately predict (i) turbine power and (ii) lagoon water level variations. In addition, the observed operational strategy and yearly energy output of our AI-Driven model appeared to be comparable with those reported for the La Rance tidal barrage. The outcomes of this work (developed methodologies and DRL implementations) are generalisable and can be applied to other TRS projects. Furthermore, this work provided insights which allow for more realistic simulation of TRS operation, enabled through our AI-Driven model.
翻訳日:2022-02-14 15:13:31 公開日:2022-02-10
# フェデレート最適化におけるパーソナライゼーションによるプライバシ-精度トレードオフの改善

Personalization Improves Privacy-Accuracy Tradeoffs in Federated Optimization ( http://arxiv.org/abs/2202.05318v1 )

ライセンス: Link先を確認
Alberto Bietti, Chen-Yu Wei, Miroslav Dudik, John Langford, Zhiwei Steven Wu(参考訳) 大規模な機械学習システムは、しばしばユーザーの集合に分散したデータを含む。 フェデレーション最適化アルゴリズムは、データセット全体ではなく、モデル更新を中央サーバに通信することで、この構造を活用する。 本稿では,ユーザレベルの差分プライバシーを受けるローカルモデルとグローバルモデルを含む,パーソナライズされたフェデレーション学習環境に対する確率的最適化アルゴリズムについて検討する。 プライベートなグローバルモデルを学ぶことはプライバシーのコストを引き起こすが、ローカル学習は完全にプライベートである。 ローカル学習とプライベートな集中学習を連携させることで,正確性とプライバシのトレードオフを汎用的に改善できることを示す。 合成および実世界のデータセットに関する実験により理論的結果を示す。

Large-scale machine learning systems often involve data distributed across a collection of users. Federated optimization algorithms leverage this structure by communicating model updates to a central server, rather than entire datasets. In this paper, we study stochastic optimization algorithms for a personalized federated learning setting involving local and global models subject to user-level (joint) differential privacy. While learning a private global model induces a cost of privacy, local learning is perfectly private. We show that coordinating local learning with private centralized learning yields a generically useful and improved tradeoff between accuracy and privacy. We illustrate our theoretical results with experiments on synthetic and real-world datasets.
翻訳日:2022-02-14 14:51:40 公開日:2022-02-10
# マルチモーダル深層ニューラルネットワークにおける学習の欲望特性の特徴化と克服

Characterizing and overcoming the greedy nature of learning in multi-modal deep neural networks ( http://arxiv.org/abs/2202.05306v1 )

ライセンス: Link先を確認
Nan Wu, Stanis{\l}aw Jastrz\k{e}bski, Kyunghyun Cho, Krzysztof J. Geras(参考訳) 我々は、マルチモーダル深層ニューラルネットワークにおける学習の欲深い性質から、これらのモデルは、他のモダリティを過小評価しながら、1つのモダリティのみに依存する傾向があると仮定する。 このような振る舞いは直感に反し、経験的に観察することでモデルの一般化を損なう。 各モダリティに対するモデルの依存度を推定するために、他のモダリティに加えてモデルがそれにアクセスする場合の精度の利得を計算する。 この利得を条件付き利用率と呼ぶ。 実験では,複数のタスクやアーキテクチャにまたがる条件付き利用率の不均衡を常に観察する。 条件付き利用率を学習中に効率的に計算することはできないため,条件付き学習速度と呼ぶ各モダリティからモデルが学習するペースに基づいて,条件付き利用率をプロキシとして導入する。 本稿では,学習中のモーダル間の条件付き学習速度のバランスをとるアルゴリズムを提案し,グリージー学習の問題に対処できることを実証する。 提案アルゴリズムは、色付きMNIST、プリンストンモデルNet40、NVIDIA Dynamic Hand Gestureの3つのデータセットにおけるモデルの一般化を改善する。

We hypothesize that due to the greedy nature of learning in multi-modal deep neural networks, these models tend to rely on just one modality while under-fitting the other modalities. Such behavior is counter-intuitive and hurts the models' generalization, as we observe empirically. To estimate the model's dependence on each modality, we compute the gain on the accuracy when the model has access to it in addition to another modality. We refer to this gain as the conditional utilization rate. In the experiments, we consistently observe an imbalance in conditional utilization rates between modalities, across multiple tasks and architectures. Since conditional utilization rate cannot be computed efficiently during training, we introduce a proxy for it based on the pace at which the model learns from each modality, which we refer to as the conditional learning speed. We propose an algorithm to balance the conditional learning speeds between modalities during training and demonstrate that it indeed addresses the issue of greedy learning. The proposed algorithm improves the model's generalization on three datasets: Colored MNIST, Princeton ModelNet40, and NVIDIA Dynamic Hand Gesture.
翻訳日:2022-02-14 14:46:03 公開日:2022-02-10
# Coded ResNeXt: 絡み合った情報経路を設計するためのネットワーク

Coded ResNeXt: a network for designing disentangled information paths ( http://arxiv.org/abs/2202.05343v1 )

ライセンス: Link先を確認
Apostolos Avranas and Marios Kountouris(参考訳) ニューラルネットワークを非常に複雑なブラックボックスとして扱うことを避けるため、ディープラーニング研究コミュニティは、人間がモデルによってなされる決定を理解するための解釈可能なモデルを構築しようとした。 残念ながら、主に最終レイヤに関連する非常に高いレベルの機能のみを操作することに焦点を当てています。 本研究では、より一般的な方法で分類のためのニューラルネットワークアーキテクチャを考察し、クラスごとの情報の流れを学習する前に定義するアルゴリズムを導入する。 本アルゴリズムでは,そのクラスに予め定義された情報パスに含まれていないパラメータを除去することにより,より軽量な単一目的バイナリ分類器を抽出できることが示される。 特に、符号化理論を利用して情報経路を設計することで、完全なネットワークを評価することなく、中間層を用いて早期予測を行うことができる。 本稿では,アルゴリズムを用いて学習したResNeXtモデルを用いて,CIFAR-10/100とImageNetの分類精度を元のResNeXtよりも高めることができることを示す。

To avoid treating neural networks as highly complex black boxes, the deep learning research community has tried to build interpretable models allowing humans to understand the decisions taken by the model. Unfortunately, the focus is mostly on manipulating only the very high-level features associated with the last layers. In this work, we look at neural network architectures for classification in a more general way and introduce an algorithm which defines before the training the paths of the network through which the per-class information flows. We show that using our algorithm we can extract a lighter single-purpose binary classifier for a particular class by removing the parameters that do not participate in the predefined information path of that class, which is approximately 60% of the total parameters. Notably, leveraging coding theory to design the information paths enables us to use intermediate network layers for making early predictions without having to evaluate the full network. We demonstrate that a slightly modified ResNeXt model, trained with our algorithm, can achieve higher classification accuracy on CIFAR-10/100 and ImageNet than the original ResNeXt, while having all the aforementioned properties.
翻訳日:2022-02-14 14:45:44 公開日:2022-02-10
# 歩行者軌跡予測のための歩行者車間相互作用の学習

Learning the Pedestrian-Vehicle Interaction for Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2202.05334v1 )

ライセンス: Link先を確認
Chi Zhang (1), Christian Berger (1) ((1) Department of Computer Science and Engineering, University of Gothenburg, Gothenburg, Sweden)(参考訳) 本稿では,歩行者と車両のインタラクションについて検討し,歩行者と車両のインタラクションを学習するためのPVIと呼ばれるニューラルネットワーク構造を提案する。 提案するpvi抽出器は,逐次的アプローチ(long short-term memory (lstm)モデル)と非逐次的アプローチ(convolutional model)の両方に実装する。 Waymo Open Datasetは、実際の都市交通シーンを歩行者と車両の両方のアノテーションで表現しています。 LSTMモデルでは,提案モデルとSocial-LSTMとSocial-GANを比較し,PVI抽出器を用いて平均変位誤差(ADE)と最終変位誤差(FDE)をそれぞれ7.46%と5.24%削減する。 畳み込みモデルでは,提案モデルとSocial-STGCNNとSocial-IWSTCNNを比較し,PVI抽出器を用いてADEとFDEをそれぞれ2.10%,FDEを1.27%削減する。 その結果, 歩行者と車両の相互作用は歩行者の行動に影響を与え, 提案するpvi抽出器を用いたモデルでは歩行者と車両の相互作用を捉えることができ, 比較手法よりも優れることがわかった。

In this paper, we study the interaction between pedestrians and vehicles and propose a novel neural network structure called the Pedestrian-Vehicle Interaction (PVI) extractor for learning the pedestrian-vehicle interaction. We implement the proposed PVI extractor on both sequential approaches (long short-term memory (LSTM) models) and non-sequential approaches (convolutional models). We use the Waymo Open Dataset that contains real-world urban traffic scenes with both pedestrian and vehicle annotations. For the LSTM-based models, our proposed model is compared with Social-LSTM and Social-GAN, and using our proposed PVI extractor reduces the average displacement error (ADE) and the final displacement error (FDE) by 7.46% and 5.24%, respectively. For the convolutional-based models, our proposed model is compared with Social-STGCNN and Social-IWSTCNN, and using our proposed PVI extractor reduces the ADE and FDE by 2.10% and 1.27%, respectively. The results show that the pedestrian-vehicle interaction influences pedestrian behavior, and the models using the proposed PVI extractor can capture the interaction between pedestrians and vehicles, and thereby outperform the compared methods.
翻訳日:2022-02-14 14:44:58 公開日:2022-02-10
# 視覚障害者の認知的・視覚的詳細に焦点を当てた画像記述:包括的段落生成へのアプローチ

Describing image focused in cognitive and visual details for visually impaired people: An approach to generating inclusive paragraphs ( http://arxiv.org/abs/2202.05331v1 )

ライセンス: Link先を確認
Daniel Louzada Fernandes, Marcos Henrique Fonseca Ribeiro, Fabio Ribeiro Cerqueira, Michel Melo Silva(参考訳) 視覚障害者のためのいくつかのサービスが最近、Assistive TechnologiesとAIの分野での成果により登場した。 補助システムの可用性が向上しているにもかかわらず、例えばウェビナーのようなオンラインコンテンツに表示される画像コンテキストを理解するなど、特定のタスクをサポートするサービスが不足している。 画像キャプション技術とその変種は、特定の記述を生成する際に視覚障害者のニーズに合致しないため、補助技術として制限される。 本稿では,webinar画像のコンテキストを生成する手法として,単語のキャプションとフィルタのセットを併用し,そのキャプションをドメイン内に適合させる手法と,抽象要約タスクのための言語モデルを提案する。 その結果,画像解析手法とニューラル言語モデルを組み合わせることで,高い解釈性を持つ記述を生成でき,その集団の関連情報に焦点を合わせることができた。

Several services for people with visual disabilities have emerged recently due to achievements in Assistive Technologies and Artificial Intelligence areas. Despite the growth in assistive systems availability, there is a lack of services that support specific tasks, such as understanding the image context presented in online content, e.g., webinars. Image captioning techniques and their variants are limited as Assistive Technologies as they do not match the needs of visually impaired people when generating specific descriptions. We propose an approach for generating context of webinar images combining a dense captioning technique with a set of filters, to fit the captions in our domain, and a language model for the abstractive summary task. The results demonstrated that we can produce descriptions with higher interpretability and focused on the relevant information for that group of people by combining image analysis methods and neural language models.
翻訳日:2022-02-14 14:00:29 公開日:2022-02-10
# (参考訳) ABG:プライバシー保護協調学習のための多人数混合プロトコルフレームワーク

ABG: A Multi-Party Mixed Protocol Framework for Privacy-Preserving Cooperative Learning ( http://arxiv.org/abs/2202.02928v2 )

ライセンス: CC BY 4.0
Hao Wang, Zhi Li, Chunpeng Ge, Willy Susilo(参考訳) 2人以上のデータ所有者が共同でモデルをトレーニングできる協調学習は、機械学習における不十分なトレーニングデータの問題を解決するために広く採用されている。 今日では、互いにデータをプライベートに保ちながら協力的にモデルを訓練する機関や組織が緊急に必要となっている。 協調学習におけるプライバシ保護の問題に対処するために,セキュアなアウトソース計算と連合学習が典型的な方法である。 それにもかかわらず、これら2つの方法が協調学習で活用される場合、多くの欠点がある。 セキュアなアウトソース計算のためには、半正直なサーバを導入する必要がある。 アウトソースされたサーバが他のアクティブアタックを実行した場合、データのプライバシが開示される。 フェデレーション学習では,垂直分割されたデータを複数のパーティに分散するシナリオに適用することは困難である。 本研究では,多人数混合プロトコルフレームワーク abg$^n$ を提案する。これは計算共有 (a) ,ブール共有 (b) およびgarbled-circuits sharing (g) 間の任意の変換を,n$ パーティシナリオに対して効果的に実装するものである。 ABG$^n$に基づいて、さまざまなデータ所有者がデータセキュリティとプライバシ保護の観点から機械学習に協力できる、プライバシ保護型多人数協調学習システムを設計する。 さらに,ロジスティック回帰やニューラルネットワークなどの一般的な機械学習手法に対して,プライバシ保存型計算プロトコルを設計する。 従来の手法と比較して,提案手法はアプリケーションの範囲が広く,サーバの追加に頼る必要はない。 最後に,ローカル設定およびパブリッククラウド設定におけるABG$^n$の性能を評価する。 実験によると、abg$^n$は特に低レイテンシのネットワーク環境において優れた性能を示す。

Cooperative learning, that enables two or more data owners to jointly train a model, has been widely adopted to solve the problem of insufficient training data in machine learning. Nowadays, there is an urgent need for institutions and organizations to train a model cooperatively while keeping each other's data privately. To address the issue of privacy-preserving in collaborative learning, secure outsourced computation and federated learning are two typical methods. Nevertheless, there are many drawbacks for these two methods when they are leveraged in cooperative learning. For secure outsourced computation, semi-honest servers need to be introduced. Once the outsourced servers collude or perform other active attacks, the privacy of data will be disclosed. For federated learning, it is difficult to apply to the scenarios where vertically partitioned data are distributed over multiple parties. In this work, we propose a multi-party mixed protocol framework, ABG$^n$, which effectively implements arbitrary conversion between Arithmetic sharing (A), Boolean sharing (B) and Garbled-Circuits sharing (G) for $n$-party scenarios. Based on ABG$^n$, we design a privacy-preserving multi-party cooperative learning system, which allows different data owners to cooperate in machine learning in terms of data security and privacy-preserving. Additionally, we design specific privacy-preserving computation protocols for some typical machine learning methods such as logistic regression and neural networks. Compared with previous work, the proposed method has a wider scope of application and does not need to rely on additional servers. Finally, we evaluate the performance of ABG$^n$ on the local setting and on the public cloud setting. The experiments indicate that ABG$^n$ has excellent performance, especially in the network environment with low latency.
翻訳日:2022-02-13 14:26:04 公開日:2022-02-10
# (参考訳) 効率的なクロスビュービデオ検索のためのハイブリッドコントラスト量子化 [全文訳有]

Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval ( http://arxiv.org/abs/2202.03384v2 )

ライセンス: CC BY 4.0
Jinpeng Wang, Bin Chen, Dongliang Liao, Ziyun Zeng, Gongfu Li, Shu-Tao Xia, Jin Xu(参考訳) 近年の動画ベースのソーシャルプラットフォーム(YouTubeやTikTokなど)のブームにより、文問合せによるビデオ検索が重要な需要となり、研究の注目を集めている。 優れた性能にもかかわらず、視覚と言語コミュニティにおける既存のテキストビデオ検索モデルは、大規模なWeb検索には実用的ではない。 効率を向上させるため、web検索エンジンは学習した埋め込みの処理にベクトル圧縮ライブラリ(例えばfaiss)を広く適用している。 残念ながら、特徴符号化とは別の圧縮は表現の堅牢性を低下させ、性能低下を引き起こす。 性能と効率のバランスを改善するために,クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization (HCQ)を提案する。 具体的には、hcqは、テキストやビデオの補完的な理解を提供し、包括的な意味情報を保存するトランスフォーマーで粗粒度と細粒度の両方を学習する。 AQ-CL(Asymmetric-Qua ntized Contrastive Learning)をビュー全体にわたって実行することにより、HCQはテキストとビデオを粗い粒度と複数のきめ細かいレベルで調整する。 このハイブリッドな粒度の学習戦略は、異なるレベルのコントラスト学習を相互に促進できるクロスビュービデオ量子化モデルに強い監督を与える。 3つのWebビデオベンチマークデータセットの大規模な実験により、HCQは最先端の非圧縮検索手法と競合し、ストレージと計算の効率が高いことを示す。 コードと構成はhttps://github.com/g impong/www22-hcqで確認できる。

With the recent boom of video-based social platforms (e.g., YouTube and TikTok), video retrieval using sentence queries has become an important demand and attracts increasing research attention. Despite the decent performance, existing text-video retrieval models in vision and language communities are impractical for large-scale Web search because they adopt brute-force search based on high-dimensional embeddings. To improve efficiency, Web search engines widely apply vector compression libraries (e.g., FAISS) to post-process the learned embeddings. Unfortunately, separate compression from feature encoding degrades the robustness of representations and incurs performance decay. To pursue a better balance between performance and efficiency, we propose the first quantized representation learning method for cross-view video retrieval, namely Hybrid Contrastive Quantization (HCQ). Specifically, HCQ learns both coarse-grained and fine-grained quantizations with transformers, which provide complementary understandings for texts and videos and preserve comprehensive semantic information. By performing Asymmetric-Quantized Contrastive Learning (AQ-CL) across views, HCQ aligns texts and videos at coarse-grained and multiple fine-grained levels. This hybrid-grained learning strategy serves as strong supervision on the cross-view video quantization model, where contrastive learning at different levels can be mutually promoted. Extensive experiments on three Web video benchmark datasets demonstrate that HCQ achieves competitive performance with state-of-the-art non-compressed retrieval methods while showing high efficiency in storage and computation. Code and configurations are available at https://github.com/g impong/WWW22-HCQ.
翻訳日:2022-02-13 14:21:17 公開日:2022-02-10
# (参考訳) 関数値に先行したニューラルネットワークの強化 [全文訳有]

Augmenting Neural Networks with Priors on Function Values ( http://arxiv.org/abs/2202.04798v1 )

ライセンス: CC BY 4.0
Hunter Nisonoff, Yixin Wang, Jennifer Listgarten(参考訳) ラベル制限設定における関数推定の必要性は、自然科学において一般的である。 同時に、関数値に関する事前の知識は、これらの領域でしばしば利用できる。 例えば、データフリーの生物物理学に基づくモデルはタンパク質の性質に、量子ベースの計算は小さな分子の性質に情報を与えることができる。 入力空間のいくつかの領域(典型的にはトレーニングデータに近い)で非常に正確なニューラルネットワークモデルを改善するために、そのような先行知識をどうやってコヒーレントに活用すればよいのか? ベイズニューラルネットワーク(BNN)では、関数値を直接ではなく、ニューラルネットワークの重みについてのみ事前情報を指定することができる。 さらに、一般にこれらの間の明確なマッピングは存在しない。 本稿では,関数値自身に関する事前情報を用いてbnnを補完する手法を開発し,この問題に取り組む。 我々の確率論的アプローチは、先天的な不確実性が大きい場合の事前情報に強く依存する予測と、先天的な不確実性が少ない場合のニューラルネットワークに強く依存する予測をもたらす。

The need for function estimation in label-limited settings is common in the natural sciences. At the same time, prior knowledge of function values is often available in these domains. For example, data-free biophysics-based models can be informative on protein properties, while quantum-based computations can be informative on small molecule properties. How can we coherently leverage such prior knowledge to help improve a neural network model that is quite accurate in some regions of input space -- typically near the training data -- but wildly wrong in other regions? Bayesian neural networks (BNN) enable the user to specify prior information only on the neural network weights, not directly on the function values. Moreover, there is in general no clear mapping between these. Herein, we tackle this problem by developing an approach to augment BNNs with prior information on the function values themselves. Our probabilistic approach yields predictions that rely more heavily on the prior information when the epistemic uncertainty is large, and more heavily on the neural network when the epistemic uncertainty is small.
翻訳日:2022-02-12 06:00:14 公開日:2022-02-10
# (参考訳) オーディナルへの跳躍 : 人工知能を用いた外傷性脳損傷後の機能予後

The leap to ordinal: functional prognosis after traumatic brain injury using artificial intelligence ( http://arxiv.org/abs/2202.04801v1 )

ライセンス: CC BY 4.0
Shubhayu Bhattacharyay, Ioan Milosevic, Lindsay Wilson, David K. Menon, Robert D. Stevens, Ewout W. Steyerberg, David W. Nelson, Ari Ercole and the CENTER-TBI investigators and participants(参考訳) 外傷性脳損傷(tbi)後に集中治療室(icu)に入院した場合、基礎的リスク調整と意思決定の共有には早期の予後が不可欠である。 tbiの結果はglasgow outcome scale-extended (gose) によって一般的に8に分類され、損傷後6ヶ月で機能回復が整った。 既存のICU予測モデルは、GOSEの一定の閾値でバイナリ結果を予測する(例えば、生存予測[GOSE>1]または機能独立予測(GOSE>4])。 各goseスコアの確率を同時予測する順序予測モデルの開発を目標とした。 tbi(center-tbi)患者データセットにおける欧州神経路効果研究の共同研究のicu層内の有望なコホート(n=1,550,65センター)から、icu入所24時間以内のすべての臨床情報(1,151名)と6ヶ月のgoseスコアを抽出した。 1)検証された10個の予測器の簡潔なセットから,可能なすべての予測器のトークン埋め込み表現まで,(2)順序ロジスティック回帰から多項ディープラーニングまでのモデリング戦略,の2つの設計要素が順序モデル性能に及ぼす影響を分析した。 k-foldクロスバリデーションを繰り返した結果,ベースライン予測器セットの拡張により順序予測性能が大幅に向上したが,解析の複雑さが増すことはなかった。 これらの利得の半数は、簡潔なセットに8つの高影響予測因子(人口統計変数、2つのタンパク質バイオマーカー、2つの重症度評価)を追加することで達成できる。 概ね、順序モデルは 0.76 (95% ci: 0.74-0.77) の順序識別能力 (ordinal c-index) と 57% (95% ci: 54%-60%) を達成し、6ヶ月のゴス (somers' d) の順序変化の説明を行った。 以上の結果から,より高次なgoseのインフォメーション予測器の探索と,順序動的予測モデルの開発が動機となった。

When a patient is admitted to the intensive care unit (ICU) after a traumatic brain injury (TBI), an early prognosis is essential for baseline risk adjustment and shared decision making. TBI outcomes are commonly categorised by the Glasgow Outcome Scale-Extended (GOSE) into 8, ordered levels of functional recovery at 6 months after injury. Existing ICU prognostic models predict binary outcomes at a certain threshold of GOSE (e.g., prediction of survival [GOSE>1] or functional independence [GOSE>4]). We aimed to develop ordinal prediction models that concurrently predict probabilities of each GOSE score. From a prospective cohort (n=1,550, 65 centres) in the ICU stratum of the Collaborative European NeuroTrauma Effectiveness Research in TBI (CENTER-TBI) patient dataset, we extracted all clinical information within 24 hours of ICU admission (1,151 predictors) and 6-month GOSE scores. We analysed the effect of 2 design elements on ordinal model performance: (1) the baseline predictor set, ranging from a concise set of 10 validated predictors to a token-embedded representation of all possible predictors, and (2) the modelling strategy, from ordinal logistic regression to multinomial deep learning. With repeated k-fold cross-validation, we found that expanding the baseline predictor set significantly improved ordinal prediction performance while increasing analytical complexity did not. Half of these gains could be achieved with the addition of 8 high-impact predictors (2 demographic variables, 4 protein biomarkers, and 2 severity assessments) to the concise set. At best, ordinal models achieved 0.76 (95% CI: 0.74-0.77) ordinal discrimination ability (ordinal c-index) and 57% (95% CI: 54%-60%) explanation of ordinal variation in 6-month GOSE (Somers' D). Our results motivate the search for informative predictors for higher GOSE and the development of ordinal dynamic prediction models.
翻訳日:2022-02-12 05:39:27 公開日:2022-02-10
# (参考訳) 視覚単語学習とハイブリッドポーリングによる弱教師付きセマンティックセグメンテーション [全文訳有]

Weakly-Supervised Semantic Segmentation with Visual Words Learning and Hybrid Pooling ( http://arxiv.org/abs/2202.04812v1 )

ライセンス: CC BY 4.0
Lixiang Ru and Bo Du and Yibing Zhan and Chen Wu(参考訳) 画像レベルのラベルを持つWSSS(Weakly Supervised Semantic Segmentation)手法は、一般的に分類ネットワークをトレーニングし、初期粗いセグメンテーションラベルとしてクラスアクティベーションマップ(CAM)を生成する。 しかし、現在の WSSS メソッドは CAM が採用されているため、まだ十分ではない。 1) 典型的には部分的識別対象領域に焦点をあてる 2) 通常は無用な背景領域を含む。 これら2つの問題は、分類ネットワークのトレーニングにおいて、画像レベルの監督とグローバル情報の集約のみに起因する。 本研究では,視覚単語学習モジュールとハイブリッドプーリング手法を提案し,これらを分類ネットワークに組み込んで上記の問題を緩和する。 視覚単語学習モジュールでは,分類ネットワークを強制して細粒度の視覚単語ラベルを学習し,さらに多くのオブジェクト範囲を発見できるようにすることで,第1の問題を解決する。 具体的には、ビジュアルワードはコードブックで学習され、学習ベースの戦略とメモリバンク戦略という2つの戦略によって更新される。 CAMの第二の欠点は、グローバル平均および局所判別情報を組み込んだハイブリッドプーリングによって軽減され、オブジェクトの完全性と背景領域の低減が図られる。 PASCAL VOC 2012 と MS COCO 2014 データセットを用いて評価を行った。 提案手法では,それぞれ$val$と$test$のPASCAL VOCデータセットのセットに対して70.6%と70.7%のmIoUを達成し,MS COCOデータセットの$val$セットに対して36.2%のmIoUを達成した。

Weakly-Supervised Semantic Segmentation (WSSS) methods with image-level labels generally train a classification network to generate the Class Activation Maps (CAMs) as the initial coarse segmentation labels. However, current WSSS methods still perform far from satisfactorily because their adopted CAMs 1) typically focus on partial discriminative object regions and 2) usually contain useless background regions. These two problems are attributed to the sole image-level supervision and aggregation of global information when training the classification networks. In this work, we propose the visual words learning module and hybrid pooling approach, and incorporate them in the classification network to mitigate the above problems. In the visual words learning module, we counter the first problem by enforcing the classification network to learn fine-grained visual word labels so that more object extents could be discovered. Specifically, the visual words are learned with a codebook, which could be updated via two proposed strategies, i.e. learning-based strategy and memory-bank strategy. The second drawback of CAMs is alleviated with the proposed hybrid pooling, which incorporates the global average and local discriminative information to simultaneously ensure object completeness and reduce background regions. We evaluated our methods on PASCAL VOC 2012 and MS COCO 2014 datasets. Without any extra saliency prior, our method achieved 70.6% and 70.7% mIoU on the $val$ and $test$ set of PASCAL VOC dataset, respectively, and 36.2% mIoU on the $val$ set of MS COCO dataset, which significantly surpassed the performance of state-of-the-art WSSS methods.
翻訳日:2022-02-12 05:37:48 公開日:2022-02-10
# (参考訳) 異角形生成時空間表現の測定 [全文訳有]

Measuring disentangled generative spatio-temporal representation ( http://arxiv.org/abs/2202.04821v1 )

ライセンス: CC BY-SA 4.0
Sichen Zhao, Wei Shao, Jeffrey Chan, Flora D. Salim(参考訳) disentangled representation learningは、現代ディープラーニングのアプローチに不可欠な次元縮小や解釈可能性といった有用な特性を提供する。 深層学習技術は時空間データマイニングに広く応用されてきたが,潜在的な特徴の分離やモデル性能への貢献,特に相互情報と特徴間の相関性を理解することにはほとんど注意が払われていない。 本研究では,2つの最先端不整合表現学習手法を採用し,これらを3つの大規模公開時空間データセットに適用する。 その性能を評価するために、学習した表現の潜在変数間の相関度と下流タスクの予測性能に着目した内部評価指標を提案する。 実験結果から,提案手法は時空間列予測問題において,既存のST深層学習法と同等の性能を達成できる不整合表現を学習できることが示唆された。 さらに,本手法を用いて実世界の空間的意味論を発見し,学習した表現の変数を記述する。

Disentangled representation learning offers useful properties such as dimension reduction and interpretability, which are essential to modern deep learning approaches. Although deep learning techniques have been widely applied to spatio-temporal data mining, there has been little attention to further disentangle the latent features and understanding their contribution to the model performance, particularly their mutual information and correlation across features. In this study, we adopt two state-of-the-art disentangled representation learning methods and apply them to three large-scale public spatio-temporal datasets. To evaluate their performance, we propose an internal evaluation metric focusing on the degree of correlations among latent variables of the learned representations and the prediction performance of the downstream tasks. Empirical results show that our modified method can learn disentangled representations that achieve the same level of performance as existing state-of-the-art ST deep learning methods in a spatio-temporal sequence forecasting problem. Additionally, we find that our methods can be used to discover real-world spatial-temporal semantics to describe the variables in the learned representation.
翻訳日:2022-02-12 05:12:22 公開日:2022-02-10
# (参考訳) Pairwise Comparisons with Human-in-the-Loop Sorting : 医用画像アーティファクトレーティングへの応用 [全文訳有]

Decreasing Annotation Burden of Pairwise Comparisons with Human-in-the-Loop Sorting: Application in Medical Image Artifact Rating ( http://arxiv.org/abs/2202.04823v1 )

ライセンス: CC BY 4.0
Ikbeom Jang, Garrison Danley, Ken Chang, Jayashree Kalpathy-Cramer(参考訳) 対数比較によるランキングでは、順序分類よりも信頼性が向上している。 しかし、ペア比較のアノテーションは2次的にスケールするので、データセットが大きいと実用的ではない。 本研究では, 定量的指標によるランク付けに必要な対数比較の回数を減らす手法を提案し, 画像品質による医用画像のランク付けにおけるアプローチの有効性を実証する。 開発した医用画像アノテーションソフトウェアを用いて、ループ内のヒトのレーダとソートアルゴリズムを用いて、ペアワイズ比較を積極的にサブサンプリングする。 本手法は,並べ替えを伴わないペアワイズ比較と比較した場合,レータ間の信頼性を損なうことなく,全順序付けに要する比較回数を大幅に削減する。

Ranking by pairwise comparisons has shown improved reliability over ordinal classification. However, as the annotations of pairwise comparisons scale quadratically, this becomes less practical when the dataset is large. We propose a method for reducing the number of pairwise comparisons required to rank by a quantitative metric, demonstrating the effectiveness of the approach in ranking medical images by image quality in this proof of concept study. Using the medical image annotation software that we developed, we actively subsample pairwise comparisons using a sorting algorithm with a human rater in the loop. We find that this method substantially reduces the number of comparisons required for a full ordinal ranking without compromising inter-rater reliability when compared to pairwise comparisons without sorting.
翻訳日:2022-02-12 04:59:43 公開日:2022-02-10
# (参考訳) AdaPrompt: PromptベースのNLPのための適応モデルトレーニング [全文訳有]

AdaPrompt: Adaptive Model Training for Prompt-based NLP ( http://arxiv.org/abs/2202.04824v1 )

ライセンス: CC BY 4.0
Yulong Chen, Yang Liu, Li Dong, Shuohang Wang, Chenguang Zhu, Michael Zeng and Yue Zhang(参考訳) ゼロショットや少数ショットのNLPタスクに対処できるプロンプトベースの学習は、コミュニティで注目を集めている。 主なアイデアは、これらのタスクを自然言語プロンプトにマッピングすることで、NLPダウンストリームタスクと言語モデリング(LM)のギャップを埋めることである。 しかし、素早い学習には、NLPタスクと事前学習の間にはまだ2つの相応しいギャップがある。 第一に、LM事前訓練中に即時情報が存在するとは限らない。 第二に、タスク固有のデータは事前トレーニング中に必ずしも適切に表現されない。 AdaPromptを提案することにより、これらの2つの課題に対処し、PLMの継続事前学習のための外部データを取得する。 また,自然言語推論モデルにおいて,適応型動詞の導出に知識を利用する。 5つのNLPベンチマークの実験結果から、AdaPromptは数ショット設定で標準PLMよりも改善可能であることが示された。 さらに、ゼロショット設定では、標準プロンプトベースのメソッドを最大26.35\%のエラー低減で上回る。

Prompt-based learning, with its capability to tackle zero-shot and few-shot NLP tasks, has gained much attention in community. The main idea is to bridge the gap between NLP downstream tasks and language modeling (LM), by mapping these tasks into natural language prompts, which are then filled by pre-trained language models (PLMs). However, for prompt learning, there are still two salient gaps between NLP tasks and pretraining. First, prompt information is not necessarily sufficiently present during LM pretraining. Second, task-specific data are not necessarily well represented during pretraining. We address these two issues by proposing AdaPrompt, adaptively retrieving external data for continual pretraining of PLMs by making use of both task and prompt characteristics. In addition, we make use of knowledge in Natural Language Inference models for deriving adaptive verbalizers. Experimental results on five NLP benchmarks show that AdaPrompt can improve over standard PLMs in few-shot settings. In addition, in zero-shot settings, our method outperforms standard prompt-based methods by up to 26.35\% relative error reduction.
翻訳日:2022-02-12 04:54:22 公開日:2022-02-10
# (参考訳) 値提案を用いた混合可変入力に対するベイズ最適化 [全文訳有]

Bayesian Optimisation for Mixed-Variable Inputs using Value Proposals ( http://arxiv.org/abs/2202.04832v1 )

ライセンス: CC BY 4.0
Yan Zuo, Amir Dezfouli, Iadine Chades, David Alexander, Benjamin Ward Muir(参考訳) 多くの実世界の最適化問題はカテゴリー変数と連続変数の両方で定義されるが、ベイジアン最適化(BO)のような効率的な最適化手法はそのような混合変数探索空間を扱うように設計されていない。 この問題に対する最近のアプローチでは、連続変数を最適化するboコンポーネントと独立に動作するバンディット問題としてカテゴリ変数の選択が挙げられている。 本稿では,包括的視点を採用し,単一の獲得計量の下でカテゴリ空間と連続部分空間の最適化を一体化することを目的とする。 我々は、価値提案と呼ぶ期待改善基準から候補を導出し、これらの提案を用いて入力のカテゴリー的および連続的な要素の両方で選択を行う。 この統一的なアプローチは、複数の混合変数のブラックボックス最適化タスクにおいて、既存の混合変数最適化アプローチを大きく上回っている。

Many real-world optimisation problems are defined over both categorical and continuous variables, yet efficient optimisation methods such asBayesian Optimisation (BO) are not designed tohandle such mixed-variable search spaces. Re-cent approaches to this problem cast the selection of the categorical variables as a bandit problem, operating independently alongside a BO component which optimises the continuous variables. In this paper, we adopt a holistic view and aim to consolidate optimisation of the categorical and continuous sub-spaces under a single acquisition metric. We derive candidates from the ExpectedImprovement criterion, which we call value proposals, and use these proposals to make selections on both the categorical and continuous components of the input. We show that this unified approach significantly outperforms existing mixed-variable optimisation approaches across several mixed-variable black-box optimisation tasks.
翻訳日:2022-02-12 04:35:04 公開日:2022-02-10
# (参考訳) ハミルトンニューラルネットワークの帰納的バイアスを分解する [全文訳有]

Deconstructing The Inductive Biases Of Hamiltonian Neural Networks ( http://arxiv.org/abs/2202.04836v1 )

ライセンス: CC BY 4.0
Nate Gruver, Marc Finzi, Samuel Stanton, Andrew Gordon Wilson(参考訳) 物理学に触発されたニューラルネットワーク(nns)は、ハミルトンやラグランジュのnnsのように、強い帰納的バイアスを利用して、他の学習力学モデルを大きく上回る。 しかし、これらのモデルは、エネルギーを保存せず、接触も含まない、ロボット工学や強化学習の一般的な設定など、多くの現実世界システムに適用することは困難である。 本稿では,物理に触発されたモデルを実際に成功させる誘導バイアスについて検討する。 従来の知恵とは対照的に,HNNの一般化は加速を直接モデル化し,シンプレクティック構造やエネルギー保存ではなく,座標系から人工的な複雑さを避ける結果である。 これらのモデルの帰納バイアスを緩和することにより、エネルギー保存システムの性能に適合または超えることができ、実用的な非保守システムの性能を劇的に向上させることができることを示す。 このアプローチを一般的なMujoco環境の遷移モデル構築に拡張し、モデルベースの制御に必要な柔軟性と帰納バイアスを適切にバランスさせることができることを示す。

Physics-inspired neural networks (NNs), such as Hamiltonian or Lagrangian NNs, dramatically outperform other learned dynamics models by leveraging strong inductive biases. These models, however, are challenging to apply to many real world systems, such as those that don't conserve energy or contain contacts, a common setting for robotics and reinforcement learning. In this paper, we examine the inductive biases that make physics-inspired models successful in practice. We show that, contrary to conventional wisdom, the improved generalization of HNNs is the result of modeling acceleration directly and avoiding artificial complexity from the coordinate system, rather than symplectic structure or energy conservation. We show that by relaxing the inductive biases of these models, we can match or exceed performance on energy-conserving systems while dramatically improving performance on practical, non-conservative systems. We extend this approach to constructing transition models for common Mujoco environments, showing that our model can appropriately balance inductive biases with the flexibility required for model-based control.
翻訳日:2022-02-12 04:14:30 公開日:2022-02-10
# (参考訳) 言語革新の拡散におけるネットワークとアイデンティティドライブの地理的特性

Networks and Identity Drive Geographic Properties of the Diffusion of Linguistic Innovation ( http://arxiv.org/abs/2202.04842v1 )

ライセンス: CC0 1.0
Aparna Ananthasubramaniam and David Jurgens and Daniel M. Romero(参考訳) 文化的革新(音楽、信仰、言語など)の採用は地理的に相関することが多く、採用者は比較的研究の少ない、社会的に重要な領域の領域に大半を占める。 これらの文化圏は、しばしばいずれの結果であろうと仮定される。 (i)文化革新の導入を推進するアイデンティティ・パフォーマンス、又は (ii)拡散の根底にあるネットワークにおけるホモフィリー。 本研究では,人口密度とネットワークトポロジが,空間特性の生成において相補的な役割を担いながら,イノベーションの拡散をモデル化するために必要であることを示す。 我々は,twitter の10% のサンプルから識別した革新的な単語の新たなデータセットに対して,エージェントベースの文化的普及モデルを開発し,モデル内の伝達の地理的パターンを検証する。 このモデルを用いて、拡散のネットワーク+アイデンティティモデルとシミュレーションされたネットワークのみおよびアイデンティティのみの偽物モデルを直接比較することが可能であり、ネットワークとアイデンティティの分離および組み合わせの役割をテストできる。 社会科学者はしばしばネットワークやアイデンティティを文化の変化をモデル化する上での核となる社会構造として扱うが、拡散の重要な地理的特性は、それぞれが拡散の異なるメカニズムに影響を与えるため、両方の要因に依存することが示されている。 特に、このネットワークは弱いティー拡散を通じて都市郡間の拡散を推進し、一方、アイデンティティは強いティー拡散を通じて農村郡間の伝達において不均等な役割を担っている。 全国的に拡散するイノベーションの重要な要素である都市と農村の拡散は、ネットワークとアイデンティティの両方を必要とする。 私たちの研究は、モデルがイノベーションの採用を理解し、再現するために両方の要素を統合する必要があることを示唆している。

Adoption of cultural innovation (e.g., music, beliefs, language) is often geographically correlated, with adopters largely residing within the boundaries of relatively few well-studied, socially significant areas. These cultural regions are often hypothesized to be the result of either (i) identity performance driving the adoption of cultural innovation, or (ii) homophily in the networks underlying diffusion. In this study, we show that demographic identity and network topology are both required to model the diffusion of innovation, as they play complementary roles in producing its spatial properties. We develop an agent-based model of cultural adoption, and validate geographic patterns of transmission in our model against a novel dataset of innovative words that we identify from a 10% sample of Twitter. Using our model, we are able to directly compare a combined network + identity model of diffusion to simulated network-only and identity-only counterfactuals -- allowing us to test the separate and combined roles of network and identity. While social scientists often treat either network or identity as the core social structure in modeling culture change, we show that key geographic properties of diffusion actually depend on both factors as each one influences different mechanisms of diffusion. Specifically, the network principally drives spread among urban counties via weak-tie diffusion, while identity plays a disproportionate role in transmission among rural counties via strong-tie diffusion. Diffusion between urban and rural areas, a key component in innovation diffusing nationally, requires both network and identity. Our work suggests that models must integrate both factors in order to understand and reproduce the adoption of innovation.
翻訳日:2022-02-12 03:56:54 公開日:2022-02-10
# (参考訳) ソースコードのための人工知能に関する調査:対話システムの観点から

A Survey on Artificial Intelligence for Source Code: A Dialogue Systems Perspective ( http://arxiv.org/abs/2202.04847v1 )

ライセンス: CC BY 4.0
Erfan Al-Hossami and Samira Shaikh(参考訳) 本稿では,過去35年間の自然言語処理(nlp)とソースコードに使用される主要なディープラーニング手法について概説する。 次に、コードインテリジェンス(CI)およびプログラミング言語処理(PLP)として知られるソースコードに対する人工知能(AI)の適用状況について調査する。 287以上の出版物を調査し、それぞれの作品を1つのカテゴリに配置し、ソフトウェア開発サイクルをいかに支援するかを説明している。 次に,対話型アシスタントの分野とそのソフトウェア工学・教育への応用について概観する。 最後に、コードと会話アシスタントのためのAIの交差点における研究機会を強調し、CI機能を備えた会話アシスタントを研究するための今後の方向性を提供する。

In this survey paper, we overview major deep learning methods used in Natural Language Processing (NLP) and source code over the last 35 years. Next, we present a survey of the applications of Artificial Intelligence (AI) for source code, also known as Code Intelligence (CI) and Programming Language Processing (PLP). We survey over 287 publications and present a software-engineering centered taxonomy for CI placing each of the works into one category describing how it best assists the software development cycle. Then, we overview the field of conversational assistants and their applications in software engineering and education. Lastly, we highlight research opportunities at the intersection of AI for code and conversational assistants and provide future directions for researching conversational assistants with CI capabilities.
翻訳日:2022-02-12 03:53:10 公開日:2022-02-10
# (参考訳) Deep Cooperative Multi-Agent Reinforcement Learningにおける値分解アルゴリズムの理解

Understanding Value Decomposition Algorithms in Deep Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2202.04868v1 )

ライセンス: CC0 1.0
Zehao Dou, Jakub Grudzien Kuba, Yaodong Yang(参考訳) 協調ゲームにおけるマルチエージェント強化学習(MARL)のスケールアップにおいて,値関数の分解が親指の一般的な規則になりつつある。 このような分解規則を成立させるためには、個々のグローバルmax(igm)原理の仮定、すなわち各エージェント毎の分解値関数の局所最大値はジョイント値関数のグローバル最大値に相当しなければならない。 しかし、この原則は一般には成立しない。 その結果、値分解アルゴリズムの適用性は隠蔽され、対応する収束特性は未知のままである。 本稿では,これらの質問に答える最初の試みを行う。 具体的には、値分解手法が妥当性を見出すような協調ゲーム群を紹介し、これを分解可能なゲームと呼ぶ。 分解可能なゲームでは、マルチエージェント適合Q-Iterationアルゴリズム (MA-FQI) を適用すると最適なQ-函数が得られることを理論的に証明する。 非可逆ゲームでは、ma-fqiによる推定q関数は、q関数が各イテレーションで可逆関数空間に射影する必要がある状況下でも最適に収束することができる。 どちらの設定でも、実用的な深層ニューラルネットワークによる値関数表現を検討し、対応する収束率を導出する。 まとめると、我々の結果は初めて、値分解アルゴリズムがいつ収束するか、なぜうまく機能するのかという観点から、MARL実践者に理論的洞察を提供する。

Value function decomposition is becoming a popular rule of thumb for scaling up multi-agent reinforcement learning (MARL) in cooperative games. For such a decomposition rule to hold, the assumption of the individual-global max (IGM) principle must be made; that is, the local maxima on the decomposed value function per every agent must amount to the global maximum on the joint value function. This principle, however, does not have to hold in general. As a result, the applicability of value decomposition algorithms is concealed and their corresponding convergence properties remain unknown. In this paper, we make the first effort to answer these questions. Specifically, we introduce the set of cooperative games in which the value decomposition methods find their validity, which is referred as decomposable games. In decomposable games, we theoretically prove that applying the multi-agent fitted Q-Iteration algorithm (MA-FQI) will lead to an optimal Q-function. In non-decomposable games, the estimated Q-function by MA-FQI can still converge to the optimum under the circumstance that the Q-function needs projecting into the decomposable function space at each iteration. In both settings, we consider value function representations by practical deep neural networks and derive their corresponding convergence rates. To summarize, our results, for the first time, offer theoretical insights for MARL practitioners in terms of when value decomposition algorithms converge and why they perform well.
翻訳日:2022-02-12 03:52:18 公開日:2022-02-10
# (参考訳) 言語モデルからのハイパーネミー関係の蒸留:ゼロショット分類誘導の有効性について [全文訳有]

Distilling Hypernymy Relations from Language Models: On the Effectiveness of Zero-Shot Taxonomy Induction ( http://arxiv.org/abs/2202.04876v1 )

ライセンス: CC BY 4.0
Devansh Jain, Luis Espinosa Anke(参考訳) 本稿では,言語モデルから知識を抽出したゼロショット分類学習手法を,プロンプトと文のスコアリングによって分析する。 単純さにもかかわらず、これらの手法は教師付き戦略よりも優れており、適切な条件下で現在の最先端技術と競合していることを示す。 また,プロンプトの統計的・言語的特性が下流のパフォーマンスを左右することを示した。

In this paper, we analyze zero-shot taxonomy learning methods which are based on distilling knowledge from language models via prompting and sentence scoring. We show that, despite their simplicity, these methods outperform some supervised strategies and are competitive with the current state-of-the-art under adequate conditions. We also show that statistical and linguistic properties of prompts dictate downstream performance.
翻訳日:2022-02-12 03:51:07 公開日:2022-02-10
# (参考訳) PVSeRF:単一画像新規ビュー合成のための画素・ボクセル・表面配向放射場 [全文訳有]

PVSeRF: Joint Pixel-, Voxel- and Surface-Aligned Radiance Field for Single-Image Novel View Synthesis ( http://arxiv.org/abs/2202.04879v1 )

ライセンス: CC BY 4.0
Xianggang Yu, Jiapeng Tang, Yipeng Qin, Chenghong Li, Linchao Bao, Xiaoguang Han, Shuguang Cui(参考訳) 本稿では,一視点RGB画像からニューラル放射場を再構成する学習フレームワークPVSeRFについて述べる。 ピクセルNeRFのような以前のソリューションは、ピクセル整列機能のみに依存しており、機能の曖昧さに悩まされている。 結果として、彼らは幾何学と外見の絡み合いに苦慮し、不可解な測地線とぼやけた結果をもたらす。 この課題に対処するために, 明示的な幾何学的推論を取り入れ, 輝度場予測のための画素整合特徴を組み合わせることを提案する。 具体的には,画素整合機能に加えて,輝度場学習の条件付けをさらに制約する。 一 粗い容積格子から学んだボクセル配列の特徴及び 二 後退点雲から抽出した細かな表面配列の特徴 そこで,このような幾何学的特徴の導入は,外観と幾何学のより密接な関係,すなわちより正確なジオメトリの復元や,新しい視点の高画質画像の合成に寄与することを示す。 shapenetベンチマークにおける最先端手法に対する広範囲な実験は、単一画像の新規なビュー合成に対するアプローチの優位性を示している。

We present PVSeRF, a learning framework that reconstructs neural radiance fields from single-view RGB images, for novel view synthesis. Previous solutions, such as pixelNeRF, rely only on pixel-aligned features and suffer from feature ambiguity issues. As a result, they struggle with the disentanglement of geometry and appearance, leading to implausible geometries and blurry results. To address this challenge, we propose to incorporate explicit geometry reasoning and combine it with pixel-aligned features for radiance field prediction. Specifically, in addition to pixel-aligned features, we further constrain the radiance field learning to be conditioned on i) voxel-aligned features learned from a coarse volumetric grid and ii) fine surface-aligned features extracted from a regressed point cloud. We show that the introduction of such geometry-aware features helps to achieve a better disentanglement between appearance and geometry, i.e. recovering more accurate geometries and synthesizing higher quality images of novel views. Extensive experiments against state-of-the-art methods on ShapeNet benchmarks demonstrate the superiority of our approach for single-image novel view synthesis.
翻訳日:2022-02-12 03:41:28 公開日:2022-02-10
# (参考訳) シナリオベース設計によるコード生成AIの説明可能性の検討 [全文訳有]

Investigating Explainability of Generative AI for Code through Scenario-based Design ( http://arxiv.org/abs/2202.04903v1 )

ライセンス: CC BY 4.0
Jiao Sun, Q. Vera Liao, Michael Muller, Mayank Agarwal, Stephanie Houde, Kartik Talamadupula, Justin D. Weisz(参考訳) 生成可能なAIモデルを説明する意味は何でしょうか? 説明可能なAI(XAI)の創発的な規律は、人々が差別的モデルを理解するのを助けるために大きな進歩を遂げてきた。 意思決定よりも成果物を生成する生成モデルにはあまり注意が払われていない。 一方、生成AI(GenAI)技術は成熟し、ソフトウェア工学のようなアプリケーション領域に適用されています。 シナリオベースの設計と質問駆動型XAI設計アプローチを用いて、自然言語からコードへの変換、コードの自動補完という3つのソフトウェアエンジニアリングユースケースにおいて、GenAIのユーザによる説明可能性の必要性を探求する。 43人のソフトウェアエンジニアと9つのワークショップを実施し,最新の生成型aiモデルの実例を用いて,ユーザの説明可能性のニーズを導き出した。 事前の作業から、コードのためのGenAI用の4種類のXAI機能を提案し、参加者から新たなデザインアイデアを収集する。 我々の研究は、GenAIのコードに対する説明可能性の必要性を探求し、新しいドメインにおけるXAIの技術開発を人間中心のアプローチがいかに促進するかを示した。

What does it mean for a generative AI model to be explainable? The emergent discipline of explainable AI (XAI) has made great strides in helping people understand discriminative models. Less attention has been paid to generative models that produce artifacts, rather than decisions, as output. Meanwhile, generative AI (GenAI) technologies are maturing and being applied to application domains such as software engineering. Using scenario-based design and question-driven XAI design approaches, we explore users' explainability needs for GenAI in three software engineering use cases: natural language to code, code translation, and code auto-completion. We conducted 9 workshops with 43 software engineers in which real examples from state-of-the-art generative AI models were used to elicit users' explainability needs. Drawing from prior work, we also propose 4 types of XAI features for GenAI for code and gathered additional design ideas from participants. Our work explores explainability needs for GenAI for code and demonstrates how human-centered approaches can drive the technical development of XAI in novel domains.
翻訳日:2022-02-12 03:25:15 公開日:2022-02-10
# (参考訳) グラフニューラルネットワークを用いたインスタンスワイズアルゴリズムの構成 [全文訳有]

Instance-wise algorithm configuration with graph neural networks ( http://arxiv.org/abs/2202.04910v1 )

ライセンス: CC BY 4.0
Romeo Valentin, Claudio Ferrari, J\'er\'emy Scheurer, Andisheh Amrollahi, Chris Wendler, Max B. Paulus(参考訳) 本稿では,ML4CO(Machine Learning for Combinatorial Optimization)のNeurIPS 2021コンペティションの構成タスクについて紹介する。 構成課題は、オープンソースの解決器SCIPの優れた構成を予測し、混合整数線形プログラム(MILP)を効率的に解くことである。 まず、様々な構成や提供されたMILPインスタンスに対して、ソルバ性能の大規模なデータセットをコンパイルする。 次に、このデータを使用して、特定のインスタンスに適した構成を予測するために学習するグラフニューラルネットワークをトレーニングします。 提案は、競合の3つの問題ベンチマークでテストされ、デフォルトよりも12%、隠れテストインスタンスに対して35%、8%改善された。 私たちは世界リーダーボードで15位にランクインし、学生リーダーボードで優勝しました。 コードは \url{https://github.com/r omeov/ml4co-competit ion} で公開しています。

We present our submission for the configuration task of the Machine Learning for Combinatorial Optimization (ML4CO) NeurIPS 2021 competition. The configuration task is to predict a good configuration of the open-source solver SCIP to solve a mixed integer linear program (MILP) efficiently. We pose this task as a supervised learning problem: First, we compile a large dataset of the solver performance for various configurations and all provided MILP instances. Second, we use this data to train a graph neural network that learns to predict a good configuration for a specific instance. The submission was tested on the three problem benchmarks of the competition and improved solver performance over the default by 12% and 35% and 8% across the hidden test instances. We ranked 3rd out of 15 on the global leaderboard and won the student leaderboard. We make our code publicly available at \url{https://github.com/R omeoV/ml4co-competit ion} .
翻訳日:2022-02-12 02:52:39 公開日:2022-02-10
# (参考訳) レビューベース非オーバーラップクロスドメイン推薦のための属性アライメントによる協調フィルタリング [全文訳有]

Collaborative Filtering with Attribution Alignment for Review-based Non-overlapped Cross Domain Recommendation ( http://arxiv.org/abs/2202.04920v1 )

ライセンス: CC BY 4.0
Weiming Liu, Xiaolin Zheng, Mengling Hu, Chaochao Chen(参考訳) CDR(Cross-Domain Recommendation)は、様々なドメイン知識を活用して、レコメンデータシステムにおけるデータスパーシリティとコールドスタート問題を解決するために広く研究されている。 本稿では,Review-based Non-overlapped Recommendation (RNCDR)問題に焦点を当てる。 この問題は2つの主要な側面、すなわち、対象ドメインに肯定的なユーザイテム格付けしか存在せず、異なるドメインにまたがって重複するユーザが存在しないため、一般的に存在する。 従来のCDRアプローチでは,(1)他の情報(IDやレーティングなど)とレビューを効果的に組み合わせて表現力のあるユーザやアイテムの埋め込みを得ることができず,(2)ユーザやアイテムに対するドメインの不一致を低減できない。 このギャップを埋めるために,rncdr問題に対するクロスドメインレコメンデーションフレームワークであるアトリビューションアライメントモデル(cfaa)を用いた協調フィルタリングを提案する。 CFAAは2つの主要なモジュール、すなわちレーティング予測モジュールと埋め込み属性アライメントモジュールを含んでいる。 前者は、レビュー、ワンホットID、マルチホット履歴評価を共同で検討し、表現力のあるユーザとアイテムの埋め込みを生成することを目的としている。 後者は垂直帰属アライメントと水平帰属アライメントを含み、複数の視点に基づく不一致を減らす傾向がある。 DoubanとAmazonのデータセットに関する実証研究は、CFAAがRCCDR設定下で最先端のモデルを大幅に上回っていることを示している。

Cross-Domain Recommendation (CDR) has been popularly studied to utilize different domain knowledge to solve the data sparsity and cold-start problem in recommender systems. In this paper, we focus on the Review-based Non-overlapped Recommendation (RNCDR) problem. The problem is commonly-existed and challenging due to two main aspects, i.e, there are only positive user-item ratings on the target domain and there is no overlapped user across different domains. Most previous CDR approaches cannot solve the RNCDR problem well, since (1) they cannot effectively combine review with other information (e.g., ID or ratings) to obtain expressive user or item embedding, (2) they cannot reduce the domain discrepancy on users and items. To fill this gap, we propose Collaborative Filtering with Attribution Alignment model (CFAA), a cross-domain recommendation framework for the RNCDR problem. CFAA includes two main modules, i.e., rating prediction module and embedding attribution alignment module. The former aims to jointly mine review, one-hot ID, and multi-hot historical ratings to generate expressive user and item embeddings. The later includes vertical attribution alignment and horizontal attribution alignment, tending to reduce the discrepancy based on multiple perspectives. Our empirical study on Douban and Amazon datasets demonstrates that CFAA significantly outperforms the state-of-the-art models under the RNCDR setting.
翻訳日:2022-02-12 02:45:01 公開日:2022-02-10
# (参考訳) エネルギーに基づく視覚表現のコントラスト学習 [全文訳有]

Energy-Based Contrastive Learning of Visual Representations ( http://arxiv.org/abs/2202.04933v1 )

ライセンス: CC BY 4.0
Beomsu Kim and Jong Chul Ye(参考訳) コントラスト学習(Contrastive Learning)とは、ディープニューラルネットワーク(DNN)を訓練して視覚表現を学ぶ方法であり、正の対の表現間の類似性を高め、負の対の表現間の類似性を減らす。 しかし、対照的な手法は通常、ダウンストリームタスクで妥当なパフォーマンスを達成するために、イテレーション毎にかなりの数の負のペアを持つ大きなデータセットを必要とする。 本稿では,エネルギーベースモデル(EBM)と対比学習を組み合わせたエネルギーベースコントラスト学習(EBCLR)を提案する。 EBCLRの学習を高速化するために,SGLD(Stochastic Gradient Langevin Dynamics)の新たな変種を用いて,EBCLRは従来の自己教師型学習法よりもはるかにサンプリング効率が高いことを示した。 特に ebclr は x4 から x20 までの加速度を simclr や moco v2 と比較し、トレーニング時代の経過を示す。 さらに、SimCLRとは対照的に、EBCLRは254対の負対(バッチサイズ128)と30対の負対(バッチサイズ16)でほぼ同じ性能を達成し、少数の負対に対するEBCLRの堅牢性を示す。

Contrastive learning is a method of learning visual representations by training Deep Neural Networks (DNNs) to increase the similarity between representations of positive pairs and reduce the similarity between representations of negative pairs. However, contrastive methods usually require large datasets with significant number of negative pairs per iteration to achieve reasonable performance on downstream tasks. To address this problem, here we propose Energy-Based Contrastive Learning (EBCLR) that combines contrastive learning with Energy-Based Models (EBMs) and can be theoretically interpreted as learning the joint distribution of positive pairs. Using a novel variant of Stochastic Gradient Langevin Dynamics (SGLD) to accelerate the training of EBCLR, we show that EBCLR is far more sample-efficient than previous self-supervised learning methods. Specifically, EBCLR shows from X4 up to X20 acceleration compared to SimCLR and MoCo v2 in terms of training epochs. Furthermore, in contrast to SimCLR, EBCLR achieves nearly the same performance with 254 negative pairs (batch size 128) and 30 negative pairs (batch size 16) per positive pair, demonstrating the robustness of EBCLR to small number of negative pairs.
翻訳日:2022-02-12 02:25:02 公開日:2022-02-10
# (参考訳) 局所破壊回復のためのグラフニューラルネットワーク [全文訳有]

Graph Neural Network for Local Corruption Recovery ( http://arxiv.org/abs/2202.04936v1 )

ライセンス: CC BY 4.0
Bingxin Zhou, Yuanhong Jiang, Yu Guang Wang, Jingwei Liang, Junbin Gao, Shirui Pan, Xiaoqun Zhang(参考訳) グラフニューラルネットワーク(GNN)は、入力グラフのリレーショナル情報を利用するための開発が急増している。 それでもグラフを通して伝播するメッセージは、解釈可能なパターンと小さな摂動の両方を含んでいる。 グローバルノイズはグラフデータ全体に分散することができるが、GNNの学習と予測性能に重要な影響を与えながら、汚職がよく認識され、単に地方を汚染しているように見えることは珍しくない。 本研究はロバスト性表現学習による局所毒素からのグラフ回復問題に取り組む。 開発した手法は,地域グラフの摂動を識別し,GNNの頑健な隠蔽特徴表現を定式化する。 マスク機能は事前の知識なしに異常を特定でき、$\ell_{p,q}$レギュラライザーは観察と新たな表現との条件的近さを維持しつつ、フレームレットドメインのスパーシティを追求することで局所的な中毒を防御する。 提案するロバストな計算ユニットは、乗算器の慣性交互方向法を緩和し、効率的な解を得る。 広範な実験により,新しいモデルでは汚染からグラフ表現を復元し,優れた性能を得ることができた。

Graph neural networks (GNNs) have seen a surge of development for exploiting the relational information of input graphs. Nevertheless, messages propagating through a graph contain both interpretable patterns and small perturbations. Despite global noise could be distributed over the entire graph data, it is not uncommon that corruptions appear well-concealed and merely pollute local regions while still having a vital influence on the GNN learning and prediction performance. This work tackles the graph recovery problem from local poisons by a robustness representation learning. Our developed strategy identifies regional graph perturbations and formulates a robust hidden feature representation for GNNs. A mask function pinpointed the anomalies without prior knowledge, and an $\ell_{p,q}$ regularizer defends local poisonings through pursuing sparsity in the framelet domain while maintaining a conditional closeness between the observation and new representation. The proposed robust computational unit alleviates the inertial alternating direction method of multipliers to achieve an efficient solution. Extensive experiments show that our new model recovers graph representations from local pollution and achieves excellent performance.
翻訳日:2022-02-12 02:09:19 公開日:2022-02-10
# (参考訳) 球形変圧器 [全文訳有]

Spherical Transformer ( http://arxiv.org/abs/2202.04942v1 )

ライセンス: CC BY 4.0
Sungmin Cho, Raehyuk Jung, Junseok Kwon(参考訳) 畳み込みニューラルネットワークを360度画像に使用すると、平面投影による歪みによる副最適性能が引き起こされる。 回転を360度画像に適用すると歪みが劣化する。 このように、畳み込みに基づく多くの研究は、正確な表現を学ぶために歪みを減らすことを試みる。 対照的に、トランスフォーマーアーキテクチャを利用して360度画像の画像分類問題を解決する。 提案するトランスフォーマーを360度画像に使用すると2つの利点がある。 まず, 球面からの画素をサンプリングすることにより, 誤った平面投影処理を必要としない。 第2に、正多面体に基づくサンプリング法は、特定の回転を顔の置換に還元できるため、低回転同分散誤差となる。 実験では、以下の2つの側面でネットワークを検証した。 まず, 均一なサンプリング手法を持つ変圧器を用いることにより, 歪みを低減できることを示す。 第2に, 変圧器アーキテクチャが特定の回転の回転同値を達成できることを実証する。 我々は,SPH-MNIST,SPH-CIFAR ,SUN360データセットを用いた他の最先端アルゴリズムと比較し,本手法が他の手法と競合することを示す。

Using convolutional neural networks for 360images can induce sub-optimal performance due to distortions entailed by a planar projection. The distortion gets deteriorated when a rotation is applied to the 360image. Thus, many researches based on convolutions attempt to reduce the distortions to learn accurate representation. In contrast, we leverage the transformer architecture to solve image classification problems for 360images. Using the proposed transformer for 360images has two advantages. First, our method does not require the erroneous planar projection process by sampling pixels from the sphere surface. Second, our sampling method based on regular polyhedrons makes low rotation equivariance errors, because specific rotations can be reduced to permutations of faces. In experiments, we validate our network on two aspects, as follows. First, we show that using a transformer with highly uniform sampling methods can help reduce the distortion. Second, we demonstrate that the transformer architecture can achieve rotation equivariance on specific rotations. We compare our method to other state-of-the-art algorithms using the SPH-MNIST, SPH-CIFAR, and SUN360 datasets and show that our method is competitive with other methods.
翻訳日:2022-02-12 01:45:00 公開日:2022-02-10
# (参考訳) OWL (Observe, Watch, Listen): 聴覚的テンポラルコンテキストによるエゴセントリックビデオにおけるアクションの局在化 [全文訳有]

OWL (Observe, Watch, Listen): Localizing Actions in Egocentric Video via Audiovisual Temporal Context ( http://arxiv.org/abs/2202.04947v1 )

ライセンス: CC BY 4.0
Merey Ramazanova, Victor Escorcia, Fabian Caba Heilbron, Chen Zhao, Bernard Ghanem(参考訳) 近年の3人称ビデオにおいて,時間的行動ローカライゼーション(TAL)は重要な課題である。 近年,個人ビデオの微粒な時間的ローカライゼーションが試みられている。 しかし、現在のtal法は視覚信号のみを使用し、ほとんどのビデオに存在するオーディオモダリティを無視し、エゴセントリックなビデオで意味のあるアクション情報を表示する。 本研究では,エゴセントリックビデオにおける行動検出における音声の有効性を深く検討し,エゴセントリックTALの視覚情報とコンテキストを活用するために,オブザービング,ウォッチング,リスニング(OWL)を通じて,単純なyet- Effectiveアプローチを導入する。 そのために、私たちは: 1) 2つのモダリティをどう融合するかの異なる戦略を比較し,研究する。 2) 時間的音声視覚コンテキストを組み込むトランスフォーマーモデルを提案する。 実験の結果,EPIC-KITCHENS-100の最先端性能が得られた。

Temporal action localization (TAL) is an important task extensively explored and improved for third-person videos in recent years. Recent efforts have been made to perform fine-grained temporal localization on first-person videos. However, current TAL methods only use visual signals, neglecting the audio modality that exists in most videos and that shows meaningful action information in egocentric videos. In this work, we take a deep look into the effectiveness of audio in detecting actions in egocentric videos and introduce a simple-yet-effective approach via Observing, Watching, and Listening (OWL) to leverage audio-visual information and context for egocentric TAL. For doing that, we: 1) compare and study different strategies for where and how to fuse the two modalities; 2) propose a transformer-based model to incorporate temporal audio-visual context. Our experiments show that our approach achieves state-of-the-art performance on EPIC-KITCHENS-100.
翻訳日:2022-02-12 01:33:44 公開日:2022-02-10
# (参考訳) 変形可能な畳み込みニューラルネットワークとグローバル時空間気候データを用いた大規模循環状態の予測 [全文訳有]

Forecasting large-scale circulation regimes using deformable convolutional neural networks and global spatiotemporal climate data ( http://arxiv.org/abs/2202.04964v1 )

ライセンス: CC BY 4.0
Andreas Holm Nielsen, Alexandros Iosifidis, Henrik Karstoft(参考訳) 大気の状態を少数の大規模循環体制に分類することは、遠隔接続、厳しい気象事象の予測可能性、気候変動を調査する一般的な方法である。 本稿では,変形可能な畳み込みニューラルネットワーク(deCNN)に基づく教師あり機械学習手法について検討し,今後1~15日間の越冬期間に北大西洋-欧州の気象状況を予測する。 我々は、機械学習文献から最先端の解釈技術を適用し、特定の気象クラスター予測や状態遷移に関連する特定の関心領域や潜在的な遠隔通信を属性とする。 いくつかの古典的気象指標に対して,ロジスティック回帰やランダム森林に比べて優れた予測性能を示す。 より広い視野で見れば、通常の畳み込みニューラルネットワークよりも5~6日を超えるリードタイムでかなり優れた性能を発揮することが分かる。 最後に、過去のデータ駆動型大気予測研究と同様、転送学習が最重要となる。

Classifying the state of the atmosphere into a finite number of large-scale circulation regimes is a popular way of investigating teleconnections, the predictability of severe weather events, and climate change. Here, we investigate a supervised machine learning approach based on deformable convolutional neural networks (deCNNs) and transfer learning to forecast the North Atlantic-European weather regimes during extended boreal winter for 1 to 15 days into the future. We apply state-of-the-art interpretation techniques from the machine learning literature to attribute particular regions of interest or potential teleconnections relevant for any given weather cluster prediction or regime transition. We demonstrate superior forecasting performance relative to several classical meteorological benchmarks, as well as logistic regression and random forests. Due to its wider field of view, we also observe deCNN achieving considerably better performance than regular convolutional neural networks at lead times beyond 5-6 days. Finally, we find transfer learning to be of paramount importance, similar to previous data-driven atmospheric forecasting studies.
翻訳日:2022-02-12 01:22:46 公開日:2022-02-10
# (参考訳) 微分可能関数近似器を用いたオフポリシー適合q評価:z推定と推論理論

Off-Policy Fitted Q-Evaluation with Differentiable Function Approximators: Z-Estimation and Inference Theory ( http://arxiv.org/abs/2202.04970v1 )

ライセンス: CC BY 4.0
Ruiqi Zhang, Xuezhou Zhang, Chengzhuo Ni, and Mengdi Wang(参考訳) off-policy evaluation (ope) は強化学習(rl)の基盤の一つである。 様々な機能近似器、特にディープニューラルネットワークを用いた適合Q評価(FQE)が実用化されている。 統計的解析により、FQEはタブ状、線形、および複数の非パラメトリック関数族を持つ極小最適であることが証明されているが、より一般的な関数近似器による実用性能は理論的には理解されていない。 我々は,一般微分可能関数近似子を用いたfqeに着目し,この理論を神経関数近似に適用する。 We approach this problem using the Z-estimation theory and establish the following results: The FQE estimation error is asymptotically normal with explicit variance determined jointly by the tangent space of the function class at the ground truth, the reward structure, and the distribution shift due to off-policy learning; The finite-sample FQE error bound is dominated by the same variance term, and it can also be bounded by function class-dependent divergence, which measures how the off-policy distribution shift intertwines with the function approximator. さらに,誤差分布推定のためのfqe推定器のブートストラップを行い,信頼区間の推定を行った。 Z推定解析は、RLにおける非政治推定を研究するための一般化可能な理論フレームワークを提供し、微分関数近似器を用いたFQEの鋭い統計理論を提供する。

Off-Policy Evaluation (OPE) serves as one of the cornerstones in Reinforcement Learning (RL). Fitted Q Evaluation (FQE) with various function approximators, especially deep neural networks, has gained practical success. While statistical analysis has proved FQE to be minimax-optimal with tabular, linear and several nonparametric function families, its practical performance with more general function approximator is less theoretically understood. We focus on FQE with general differentiable function approximators, making our theory applicable to neural function approximations. We approach this problem using the Z-estimation theory and establish the following results: The FQE estimation error is asymptotically normal with explicit variance determined jointly by the tangent space of the function class at the ground truth, the reward structure, and the distribution shift due to off-policy learning; The finite-sample FQE error bound is dominated by the same variance term, and it can also be bounded by function class-dependent divergence, which measures how the off-policy distribution shift intertwines with the function approximator. In addition, we study bootstrapping FQE estimators for error distribution inference and estimating confidence intervals, accompanied by a Cramer-Rao lower bound that matches our upper bounds. The Z-estimation analysis provides a generalizable theoretical framework for studying off-policy estimation in RL and provides sharp statistical theory for FQE with differentiable function approximators.
翻訳日:2022-02-12 01:07:26 公開日:2022-02-10
# (参考訳) ニーズを認識できる人工知能:「人間のニーズを満たす」ai [全文訳有]

Needs-aware Artificial Intelligence: AI that 'serves [human] needs' ( http://arxiv.org/abs/2202.04977v1 )

ライセンス: CC BY 4.0
Ryan Watkins and Soheil Human(参考訳) 多くの境界は、人工知能(ai)の未来を形作るものであり、今後も続くだろう。 前進するためにこれらのバウンダリを推し進めるが、それらは信頼性と弾力性の両方で、AIが達成できる(あるいはすべき)ことの新たなバウンダリを作り出す。 その中には、技術的境界(処理能力など)、心理的境界(AIシステムに対する人間の信頼など)、倫理的境界(AI兵器など)、概念的境界(AI人々が想像できるようなもの)などがある。 ニーズの構成と、現在のニーズの概念が将来のaiに当てはまる制限を見つけることは、他のすべての境界において基本的な役割を果たすことができる一方で、この最終カテゴリ内にあります。

Many boundaries are, and will continue to, shape the future of Artificial Intelligence (AI). We push on these boundaries in order to make progress, but they are both pliable and resilient--always creating new boundaries of what AI can (or should) achieve. Among these are technical boundaries (such as processing capacity), psychological boundaries (such as human trust in AI systems), ethical boundaries (such as with AI weapons), and conceptual boundaries (such as the AI people can imagine). It is within this final category while it can play a fundamental role in all other boundaries} that we find the construct of needs and the limitations that our current concept of need places on the future AI.
翻訳日:2022-02-12 01:06:10 公開日:2022-02-10
# (参考訳) 顔認識における意味的ロバスト性の評価と特徴付け [全文訳有]

Towards Assessing and Characterizing the Semantic Robustness of Face Recognition ( http://arxiv.org/abs/2202.04978v1 )

ライセンス: CC BY 4.0
Juan C. P\'erez, Motasem Alfarra, Ali Thabet, Pablo Arbel\'aez, Bernard Ghanem(参考訳) ディープニューラルネットワーク(dnn)は、入力に対する知覚不能な摂動に対する堅牢性に欠ける。 DNNに基づく顔認識モデル(FRM)がこの脆弱性を継承する。 本研究では,入力に対する意味摂動に対するFRMの頑健性を評価し,評価する手法を提案する。 本手法は,顔に対する個人認証の修正を探索する敵攻撃を設計することにより,FRMの誤動作を引き起こす。 特に、顔が与えられた場合、攻撃は顔のアイデンティティ保存型を見つけ、同一のアイデンティティに属する画像をfrmが認識できないようにする。 そこで我々は,StyleGANの潜在空間における方向と等級に制約された摂動を通して,これらのアイデンティティを保存する意味的修飾をモデル化する。 さらに、FRMの故障を誘発する摂動を統計的に記述することにより、FRMの意味的ロバスト性を特徴付けることを提案する。 最後に、私たちの方法論と認定技術を組み合わせることで、提供します。 (i)frmの性能に関する理論的保証、及び (二)FRMが顔の同一性の概念をどうモデル化するかの正式な記述。

Deep Neural Networks (DNNs) lack robustness against imperceptible perturbations to their input. Face Recognition Models (FRMs) based on DNNs inherit this vulnerability. We propose a methodology for assessing and characterizing the robustness of FRMs against semantic perturbations to their input. Our methodology causes FRMs to malfunction by designing adversarial attacks that search for identity-preserving modifications to faces. In particular, given a face, our attacks find identity-preserving variants of the face such that an FRM fails to recognize the images belonging to the same identity. We model these identity-preserving semantic modifications via direction- and magnitude-constraine d perturbations in the latent space of StyleGAN. We further propose to characterize the semantic robustness of an FRM by statistically describing the perturbations that induce the FRM to malfunction. Finally, we combine our methodology with a certification technique, thus providing (i) theoretical guarantees on the performance of an FRM, and (ii) a formal description of how an FRM may model the notion of face identity.
翻訳日:2022-02-12 01:01:45 公開日:2022-02-10
# (参考訳) 音楽構造解析のためのBarwise Compression Schemes [全文訳有]

Barwise Compression Schemes for Audio-Based Music Structure Analysis ( http://arxiv.org/abs/2202.04981v1 )

ライセンス: CC BY 4.0
Axel Marmoret, J\'er\'emy E. Cohen, Fr\'ed\'eric Bimbot(参考訳) 音楽構造解析 (MSA) は、楽曲を複数の異なるセクションに分割する。 圧縮フレームワーク内でmsaにアプローチし,楽曲のオリジナルコンテンツの簡易表現によって構造がより容易に明らかにされるという仮説のもとに,msaにアプローチする。 より具体的には、MSAがバースケールで発生する類似性と相関しているという仮説の下で、線形および非線形圧縮スキームをバーワイズ音声信号に適用することができる。 圧縮された表現は、曲中の様々なバーの最も顕著な要素をキャプチャし、動的プログラミングアルゴリズムを用いて曲の構造を推測するために使用される。 本研究は,主成分分析や非負行列因子化などの低ランク近似モデルと,特定の歌に特有の潜在表現を学習することを目的とした自動符号化ニューラルネットワークについて検討する。 このようなアプローチは、MSAの記述の収集が面倒で、おそらく曖昧であることで知られる監視やアノテーションに依存しない。 実験では,RWC-Popデータセット上での最先端の教師付き手法(3s寛容法)に匹敵する性能を達成し,MSAのバーワイズ圧縮処理の重要性を示した。

Music Structure Analysis (MSA) consists in segmenting a music piece in several distinct sections. We approach MSA within a compression framework, under the hypothesis that the structure is more easily revealed by a simplified representation of the original content of the song. More specifically, under the hypothesis that MSA is correlated with similarities occurring at the bar scale, linear and non-linear compression schemes can be applied to barwise audio signals. Compressed representations capture the most salient components of the different bars in the song and are then used to infer the song structure using a dynamic programming algorithm. This work explores both low-rank approximation models such as Principal Component Analysis or Nonnegative Matrix Factorization and "piece-specific" Auto-Encoding Neural Networks, with the objective to learn latent representations specific to a given song. Such approaches do not rely on supervision nor annotations, which are well-known to be tedious to collect and possibly ambiguous in MSA description. In our experiments, several unsupervised compression schemes achieve a level of performance comparable to that of state-of-the-art supervised methods (for 3s tolerance) on the RWC-Pop dataset, showcasing the importance of the barwise compression processing for MSA.
翻訳日:2022-02-12 00:33:01 公開日:2022-02-10
# (参考訳) 半監督型コンバーチブNMFによる音楽自動転写 [全文訳有]

Semi-Supervised Convolutive NMF for Automatic Music Transcription ( http://arxiv.org/abs/2202.04989v1 )

ライセンス: CC BY 4.0
Haoran Wu, Axel Marmoret, J\'er\'emy E. Cohen(参考訳) 音楽演奏の音声録音をシンボリックな形式に変換することからなる自動音楽転写は、依然として難しい音楽情報検索課題である。 本研究では,低ランク行列分解,特に畳み込み非負行列分解を用いた半教師付き手法を提案する。 半教師付き設定では、個々の音符の1つの記録のみが必要である。 本稿では,提案する半教師付きcnmf法が最先端の低ランク因子分解技術よりも優れており,一般化に苦しむ一方で,教師付き深層学習法よりも若干劣っていることをmapsデータセットに示す。

Automatic Music Transcription, which consists in transforming an audio recording of a musical performance into symbolic format, remains a difficult Music Information Retrieval task. In this work, we propose a semi-supervised approach using low-rank matrix factorization techniques, in particular Convolutive Nonnegative Matrix Factorization. In the semi-supervised setting, only a single recording of each individual notes is required. We show on the MAPS dataset that the proposed semi-supervised CNMF method performs better than state-of-the-art low-rank factorization techniques and a little worse than supervised deep learning state-of-the-art methods, while however suffering from generalization issues.
翻訳日:2022-02-12 00:17:19 公開日:2022-02-10
# (参考訳) Mixture-of-Rookies:R eLU出力予測によるDNN計算の削減 [全文訳有]

Mixture-of-Rookies: Saving DNN Computations by Predicting ReLU Outputs ( http://arxiv.org/abs/2202.04990v1 )

ライセンス: CC BY 4.0
Dennis Pinto, Jose-Mar\'ia Arnau, Antonio Gonz\'alez(参考訳) ディープニューラルネットワーク(DNN)は多くのアプリケーションドメインで広く使われている。 しかし、優れた精度を実現するには大量の計算とメモリアクセスが必要である。 本稿では,各ReLu活性化ニューロンの出力が0か正の値になるかどうかを予測し,0を出力するニューロンの計算を省略する手法を提案する。 私たちの予測器はMixture-of-Rookiesと呼ばれ、2つの安価なコンポーネントを組み合わせています。 第1の成分は双対化(1ビット)と全精度(8ビット)のドット積の間の高い線形相関を利用しており、第2の成分は同時にゼロを出力する傾向にあるニューロンをクラスタリングする。 2つのベクトルの点積の符号はそれらの間の角度のコサインに依存するため、角度の解析に基づく新しいクラスタリングスキームを提案する。 我々は最先端のDNNアクセラレータ上にハイブリッドゼロ出力予測器を実装した。 実験結果から,本方式では, 1.2倍の高速化を実現し, 様々なDNNに対して平均16.5%の省エネルギー化を実現しつつ, 面積オーバーヘッドが5.3%に抑えられた。

Deep Neural Networks (DNNs) are widely used in many applications domains. However, they require a vast amount of computations and memory accesses to deliver outstanding accuracy. In this paper, we propose a scheme to predict whether the output of each ReLu activated neuron will be a zero or a positive number in order to skip the computation of those neurons that will likely output a zero. Our predictor, named Mixture-of-Rookies, combines two inexpensive components. The first one exploits the high linear correlation between binarized (1-bit) and full-precision (8-bit) dot products, whereas the second component clusters together neurons that tend to output zero at the same time. We propose a novel clustering scheme based on the analysis of angles, as the sign of the dot product of two vectors depends on the cosine of the angle between them. We implement our hybrid zero output predictor on top of a state-of-the-art DNN accelerator. Experimental results show that our scheme introduces a small area overhead of 5.3% while achieving a speedup of 1.2x and reducing energy consumption by 16.5% on average for a set of diverse DNNs.
翻訳日:2022-02-12 00:04:39 公開日:2022-02-10
# (参考訳) Slovene SuperGLUEベンチマーク: 翻訳と評価 [全文訳有]

Slovene SuperGLUE Benchmark: Translation and Evaluation ( http://arxiv.org/abs/2202.04994v1 )

ライセンス: CC BY 4.0
Ale\v{s} \v{Z}agar, Marko Robnik-\v{S}ikonja(参考訳) 我々は,スロヴェニアの機械と人間を併用したSuperGLUEベンチマークを提案する。 本稿では,形態と文法の違いによる翻訳過程と問題点について述べる。 機械翻訳訓練セットと人間の翻訳訓練セットの違いを考慮に入れて,単言語,クロス言語,多言語などいくつかのモードにおける翻訳データセットの評価を行った。 その結果,単言語性スロベニア語slobertaモデルは,多言語性および三言語型bertモデルよりも優れていることが示された。 スロベニアのモデルのパフォーマンスは、まだ最高のイギリスモデルより遅れている。

We present a Slovene combined machine-human translated SuperGLUE benchmark. We describe the translation process and problems arising due to differences in morphology and grammar. We evaluate the translated datasets in several modes: monolingual, cross-lingual, and multilingual, taking into account differences between machine and human translated training sets. The results show that the monolingual Slovene SloBERTa model is superior to massively multilingual and trilingual BERT models, but these also show a good cross-lingual performance on certain tasks. The performance of Slovene models still lags behind the best English models.
翻訳日:2022-02-11 23:37:00 公開日:2022-02-10
# (参考訳) AA-TransUNet: Nowcastingタスク用TransUNetの拡張 [全文訳有]

AA-TransUNet: Attention Augmented TransUNet For Nowcasting Tasks ( http://arxiv.org/abs/2202.04996v1 )

ライセンス: CC BY-SA 4.0
Yimin Yang and Siamak Mehrkanoon(参考訳) データ駆動モデリングに基づくアプローチは最近、気象要素予測を含む多くの困難な気象アプリケーションで多くの注目を集めている。 本稿では,transunetに基づく降水ナキャスティングタスクに基づく新しいデータ駆動予測モデルを提案する。 TransformerモデルとU-Netモデルを組み合わせたTransUNetモデルは、これまで医療セグメンテーションタスクにうまく適用されてきた。 ここで、TransUNetはコアモデルとして使われ、さらにCBAM(Convolutional Block Attention Modules)とDSC(Depthwise-Separa ble Convolution)を備えている。 提案したAttention Augmented TransUNet(AA-TransUN et)モデルは、オランダの降水マップデータセットとフランスのクラウドカバーデータセットの2つの異なるデータセットで評価されている。 以上の結果から,提案モデルは他の試験モデルよりも優れていることがわかった。 さらに,提案したAA-TransUNetの不確実性の解析を行い,その予測についてさらなる知見を与える。

Data driven modeling based approaches have recently gained a lot of attention in many challenging meteorological applications including weather element forecasting. This paper introduces a novel data-driven predictive model based on TransUNet for precipitation nowcasting task. The TransUNet model which combines the Transformer and U-Net models has been previously successfully applied in medical segmentation tasks. Here, TransUNet is used as a core model and is further equipped with Convolutional Block Attention Modules (CBAM) and Depthwise-separable Convolution (DSC). The proposed Attention Augmented TransUNet (AA-TransUNet) model is evaluated on two distinct datasets: the Dutch precipitation map dataset and the French cloud cover dataset. The obtained results show that the proposed model outperforms other examined models on both tested datasets. Furthermore, the uncertainty analysis of the proposed AA-TransUNet is provided to give additional insights on its predictions.
翻訳日:2022-02-11 23:26:02 公開日:2022-02-10
# (参考訳) トレーニング時に公正、デプロイ時に不公平: 予測設定において観測可能な公正度対策は不安定である [全文訳有]

Fair When Trained, Unfair When Deployed: Observable Fairness Measures are Unstable in Performative Prediction Settings ( http://arxiv.org/abs/2202.05049v1 )

ライセンス: CC BY 4.0
Alan Mishler, Niccol\`o Dalmasso(参考訳) 多くの一般的なアルゴリズム的公平性尺度は、予測、結果、人種や性別のような繊細な特徴の同時分布に依存する。 これらの尺度は分布シフトに敏感であり、分布が変化すれば公平性の定義の1つを満たすように訓練された予測器が不公平になる可能性がある。 しかし、性能予測設定では、予測器は正確に分布シフトを誘導することを意図している。 例えば、刑事司法、医療、消費者金融における多くの応用において、予測器を構築する目的は、返済、入院、ローンのデフォルトといった悪結果の率を下げることである。 このような予測器の効果を概念シフト(特定の分布シフト)のタイプとして定式化し,理論上およびシミュレーション例を通じて,展開時に不公平になるように訓練された場合の予測器の公平性を示す。 さらに,観察可能な結果よりも偽りに依存した公平性定義を用いることで,これらの問題の何件を回避できるかを示す。

Many popular algorithmic fairness measures depend on the joint distribution of predictions, outcomes, and a sensitive feature like race or gender. These measures are sensitive to distribution shift: a predictor which is trained to satisfy one of these fairness definitions may become unfair if the distribution changes. In performative prediction settings, however, predictors are precisely intended to induce distribution shift. For example, in many applications in criminal justice, healthcare, and consumer finance, the purpose of building a predictor is to reduce the rate of adverse outcomes such as recidivism, hospitalization, or default on a loan. We formalize the effect of such predictors as a type of concept shift-a particular variety of distribution shift-and show both theoretically and via simulated examples how this causes predictors which are fair when they are trained to become unfair when they are deployed. We further show how many of these issues can be avoided by using fairness definitions that depend on counterfactual rather than observable outcomes.
翻訳日:2022-02-11 23:11:19 公開日:2022-02-10
# (参考訳) 構造推論に必要な自然言語 -統合的考察- [全文訳有]

Natural Language in Requirements Engineering for Structure Inference -- An Integrative Review ( http://arxiv.org/abs/2202.05065v1 )

ライセンス: CC BY 4.0
Maximilian Vierlboeck, Carlo Lipizzi, Roshanak Nilchiani(参考訳) テキストからの構造の自動抽出は機械にとって困難である。 しかし、この情報の活用は様々なアプリケーションに多くの利益と機会をもたらすことができる。 要求工学の分野でも利益が特定されている。 この論文は、要求工学のための自然言語処理(NLP)ツールに関する統合的なレビューを提供する。 この評価は、将来の研究の基盤を提供するとともに、統計から洞察を導き出すために行われた。 本レビューでは,要求工学とNLPの歴史と136以上のNLPツールの評価について述べる。 これらのツールを評価するために、一連の基準を定義した。 その結果,情報構造の直接的/一次的抽出が可能なオープンソースアプローチは存在せず,クローズドソースソリューションにおいても,監視や入力制限などの制限が示されており,完全自動およびユニバーサルアプリケーションの可能性は排除されている。 その結果、著者らは現在のアプローチは適用不可能であり、異なる方法論が必要であると推測した。 アルゴリズム、知識ベース、テキストコーパスの個別管理を可能にするアプローチが追求されている。

The automatic extraction of structure from text can be difficult for machines. Yet, the elicitation of this information can provide many benefits and opportunities for various applications. Benefits have also been identified for the area of Requirements Engineering. To evaluate what work has been done and is currently available, the paper at hand provides an integrative review regarding Natural Language Processing (NLP) tools for Requirements Engineering. This assessment was conducted to provide a foundation for future work as well as deduce insights from the stats quo. To conduct the review, the history of Requirements Engineering and NLP are described as well as an evaluation of over 136 NLP tools. To assess these tools, a set of criteria was defined. The results are that currently no open source approach exists that allows for the direct/primary extraction of information structure and even closed source solutions show limitations such as supervision or input limitations, which eliminates the possibility for fully automatic and universal application. As a results, the authors deduce that the current approaches are not applicable and a different methodology is necessary. An approach that allows for individual management of the algorithm, knowledge base, and text corpus is a possibility being pursued.
翻訳日:2022-02-11 22:56:43 公開日:2022-02-10
# (参考訳) 入力次元の異なるデータセット間でのトランスファーラーニング--線形回帰のアルゴリズムと解析 [全文訳有]

Transfer-Learning Across Datasets with Different Input Dimensions: An Algorithm and Analysis for the Linear Regression Case ( http://arxiv.org/abs/2202.05069v1 )

ライセンス: CC BY 4.0
Luis Pedro Silvestrin, Harry van Zanten, Mark Hoogendoorn, Ger Koole(参考訳) 新しいセンサーと監視デバイスの開発により、より多くのデータソースが機械学習モデルの入力として利用できるようになる。 これらは一方、モデルの精度を向上させるのに役立ちます。 しかし、これらの新たな入力と過去のデータを組み合わせることは、まだ十分に詳細に研究されていない課題である。 本研究では,新しいデータと履歴データを組み合わせた転送学習アルゴリズムを提案する。 我々は、線形回帰の場合に焦点をあて、アプローチの利点に関する厳密な理論的研究を行うことができる。 提案手法は負の伝達学習に対して堅牢であることを示し,実データとシミュレーションデータとを実証的に検証する。

With the development of new sensors and monitoring devices, more sources of data become available to be used as inputs for machine learning models. These can on the one hand help to improve the accuracy of a model. On the other hand however, combining these new inputs with historical data remains a challenge that has not yet been studied in enough detail. In this work, we propose a transfer-learning algorithm that combines the new and the historical data, that is especially beneficial when the new data is scarce. We focus the approach on the linear regression case, which allows us to conduct a rigorous theoretical study on the benefits of the approach. We show that our approach is robust against negative transfer-learning, and we confirm this result empirically with real and simulated data.
翻訳日:2022-02-11 22:23:09 公開日:2022-02-10
# (参考訳) 不均一時系列データによる2段階深部異常検出 [全文訳有]

Two-Stage Deep Anomaly Detection with Heterogeneous Time Series Data ( http://arxiv.org/abs/2202.05093v1 )

ライセンス: CC BY 4.0
Kyeong-Joong Jeong, Jin-Duk Park, Kyusoon Hwang, Seong-Lyun Kim, Won-Yong Shin(参考訳) 本稿では,工場組立ラインから収集した製造データセットを用いたデータ駆動異常検出フレームワークを提案する。 動作周期信号とセンサ信号からなる不均質な時系列データから,異常事象の発見を目指す。 従来の単段ベンチマーク手法では十分な性能を発揮できないという経験的知見に動機づけられ,信号の種類に応じて2つの異なる教師なし学習モデルを採用するtdad(deep anomaly detection)フレームワークを提案する。 ステージIでは,動作周期信号で訓練されたモデルを用いて異常候補を選択するが,ステージIIでは,センサ信号で訓練された時間的連続性を活かした別のモデルを用いて候補から異常事象を検出する。 我々のフレームワークの特長は、動作サイクル信号がまず異常点を見つけるために利用されるのに対し、センサ信号は異常点を除去するために活用される点である。 実験では,単段ベンチマーク法,モデル非依存性,困難な状況に対するロバスト性について総合的に検証した。

We introduce a data-driven anomaly detection framework using a manufacturing dataset collected from a factory assembly line. Given heterogeneous time series data consisting of operation cycle signals and sensor signals, we aim at discovering abnormal events. Motivated by our empirical findings that conventional single-stage benchmark approaches may not exhibit satisfactory performance under our challenging circumstances, we propose a two-stage deep anomaly detection (TDAD) framework in which two different unsupervised learning models are adopted depending on types of signals. In Stage I, we select anomaly candidates by using a model trained by operation cycle signals; in Stage II, we finally detect abnormal events out of the candidates by using another model, which is suitable for taking advantage of temporal continuity, trained by sensor signals. A distinguishable feature of our framework is that operation cycle signals are exploited first to find likely anomalous points, whereas sensor signals are leveraged to filter out unlikely anomalous points afterward. Our experiments comprehensively demonstrate the superiority over single-stage benchmark approaches, the model-agnostic property, and the robustness to difficult situations.
翻訳日:2022-02-11 22:04:24 公開日:2022-02-10
# (参考訳) ガウス辺数をもつ半空間の無知学習交叉に対する近似最適統計クエリ下限 [全文訳有]

Near-Optimal Statistical Query Lower Bounds for Agnostically Learning Intersections of Halfspaces with Gaussian Marginals ( http://arxiv.org/abs/2202.05096v1 )

ライセンス: CC BY 4.0
Daniel Hsu, Clayton Sanford, Rocco Servedio, Emmanouil-Vasileios Vlatakis-Gkaragkouni s(参考訳) ガウス分布下でのハーフ空間の交叉学習に関するよく研究された問題を,挑戦的な「emph{agnostic learning}」モデルで考察する。 diakonikolas et al. (2021) の最近の研究は、任意の統計クエリ (sq) アルゴリズムが、$\mathbb{r}^n$ から一定の過大なエラーに対して$k$ 半空間の交点のクラスを無知に学習するためには、最大$n^{-\tilde{\omega}(\sqrt{\log k})}$ または$$$2^{n^{\omega(1)}} の許容性クエリをしなければならないことを示している。 この結果は、寛容要件を$n^{-\tilde{\Omega}(\log k)}$に改善することで強化される。 この下限は、klivans et al. (2008) の sq アルゴリズムが $n^{o(\log k)}$ query of tolerance $n^{-o(\log k)}$ を使ってこのクラスを常に過大なエラーに無意識的に学習するため、本質的に最良である。 我々は,Dachman-Soled et al. (2014) によるブール設定に対する,Diakonikolas et al. (2021) の成分と (拡張) 以前のSQ下界に対する異なるアプローチを組み合わせた下界の2つの変種を証明した。 このアプローチはまた、「凸部分空間(convex subspace juntas)」のクラス(Vempala, 2010)と有界ガウス曲面を持つ集合のクラス(これらすべての下界は、Klivans et al. (2008) の既知の上界と本質的に一致するため、ほぼ最適である。

We consider the well-studied problem of learning intersections of halfspaces under the Gaussian distribution in the challenging \emph{agnostic learning} model. Recent work of Diakonikolas et al. (2021) shows that any Statistical Query (SQ) algorithm for agnostically learning the class of intersections of $k$ halfspaces over $\mathbb{R}^n$ to constant excess error either must make queries of tolerance at most $n^{-\tilde{\Omega}(\sqrt{\log k})}$ or must make $2^{n^{\Omega(1)}}$ queries. We strengthen this result by improving the tolerance requirement to $n^{-\tilde{\Omega}(\log k)}$. This lower bound is essentially best possible since an SQ algorithm of Klivans et al. (2008) agnostically learns this class to any constant excess error using $n^{O(\log k)}$ queries of tolerance $n^{-O(\log k)}$. We prove two variants of our lower bound, each of which combines ingredients from Diakonikolas et al. (2021) with (an extension of) a different earlier approach for agnostic SQ lower bounds for the Boolean setting due to Dachman-Soled et al. (2014). Our approach also yields lower bounds for agnostically SQ learning the class of "convex subspace juntas" (studied by Vempala, 2010) and the class of sets with bounded Gaussian surface area; all of these lower bounds are nearly optimal since they essentially match known upper bounds from Klivans et al. (2008).
翻訳日:2022-02-11 21:41:58 公開日:2022-02-10
# (参考訳) AD-NEGF:感度解析と逆問題のためのエンド・ツー・エンド微分量子輸送シミュレータ [全文訳有]

AD-NEGF: An End-to-End Differentiable Quantum Transport Simulator for Sensitivity Analysis and Inverse Problems ( http://arxiv.org/abs/2202.05098v1 )

ライセンス: CC BY 4.0
Yingzhanghao Zhou, Xiang Chen, Peng Zhang, Jun Wang, Lei Wang, Hong Guo(参考訳) 70年代に提案されて以来、非平衡グリーン関数(NEGF)法は量子輸送シミュレーションの標準的なアプローチとして認識されてきた。 シミュレーション精度は優れているが、計算コストが非常に高いので、感度解析や逆設計などの高スループットシミュレーションタスクには耐え難い。 本研究では、量子輸送シミュレーションのための最初のエンドツーエンド微分可能なNEGFモデルとして、AD-NEGFを提案する。 我々は,pytorch で計算プロセス全体を実装し,暗黙のレイヤ技術を用いて後方通行をカスタマイズし,前方シミュレーションの正確性を保証しつつ,手頃なコストで勾配情報を提供する。 提案モデルは, 微分物理量, 実験パラメータフィッティング, ドーピング最適化の計算に応用され, 勾配に基づくパラメータ最適化を行い, 材料設計プロセスを加速する能力を示す。

Since proposed in the 70s, the Non-Equilibrium Green Function (NEGF) method has been recognized as a standard approach to quantum transport simulations. Although it achieves superiority in simulation accuracy, the tremendous computational cost makes it unbearable for high-throughput simulation tasks such as sensitivity analysis, inverse design, etc. In this work, we propose AD-NEGF, to our best knowledge the first end-to-end differentiable NEGF model for quantum transport simulations. We implement the entire numerical process in PyTorch, and design customized backward pass with implicit layer techniques, which provides gradient information at an affordable cost while guaranteeing the correctness of the forward simulation. The proposed model is validated with applications in calculating differential physical quantities, empirical parameter fitting, and doping optimization, which demonstrates its capacity to accelerate the material design process by conducting gradient-based parameter optimization.
翻訳日:2022-02-11 21:02:29 公開日:2022-02-10
# (参考訳) 暗黙的制約下におけるkullback-leibler発散に基づく不確実性境界値問題の確率論的学習 [全文訳有]

Probabilistic learning inference of boundary value problem with uncertainties based on Kullback-Leibler divergence under implicit constraints ( http://arxiv.org/abs/2202.05112v1 )

ライセンス: CC BY 4.0
Christian Soize(参考訳) まず,確率論的境界値問題に対する後続確率モデルを事前確率モデルから推定できる確率論的学習推論の一般的な方法論の数学的解析を行う。 与えられたターゲットは、基礎となる実現ができない統計モーメントである。 これらの条件下では、後方確率測度の推定にはkullback-leibler divergence minimum principleが用いられる。 制約を表す暗黙的写像の統計的代理モデルが導入された。 並列コンピューティングフレームワークにおける方法論の実装を容易にするため、MCMCジェネレータと必要な数値要素が提供される。 第2部では、提案した理論を説明するためにアプリケーションを提示し、マイクロスケールとマクロスケールの非分離の場合における不均一な線形弾性媒体の3次元確率的均質化への寄与も示している。 確率的学習推論を用いた後確率測度の構成には、確率的有効弾性テンソルの与えられた統計モーメントによって定義される制約に加えて、確率的偏微分方程式のランダム正規化残差の2次モーメントが制約として加えられている。 この制約は、アルゴリズムが小さな残余を保ちながら統計モーメントを目標に近づけることを保証している。

In a first part, we present a mathematical analysis of a general methodology of a probabilistic learning inference that allows for estimating a posterior probability model for a stochastic boundary value problem from a prior probability model. The given targets are statistical moments for which the underlying realizations are not available. Under these conditions, the Kullback-Leibler divergence minimum principle is used for estimating the posterior probability measure. A statistical surrogate model of the implicit mapping, which represents the constraints, is introduced. The MCMC generator and the necessary numerical elements are given to facilitate the implementation of the methodology in a parallel computing framework. In a second part, an application is presented to illustrate the proposed theory and is also, as such, a contribution to the three-dimensional stochastic homogenization of heterogeneous linear elastic media in the case of a non-separation of the microscale and macroscale. For the construction of the posterior probability measure by using the probabilistic learning inference, in addition to the constraints defined by given statistical moments of the random effective elasticity tensor, the second-order moment of the random normalized residue of the stochastic partial differential equation has been added as a constraint. This constraint guarantees that the algorithm seeks to bring the statistical moments closer to their targets while preserving a small residue.
翻訳日:2022-02-11 20:44:51 公開日:2022-02-10
# (参考訳) 1/\epsilon^{1/3}$行列ベクトル積による低位近似

Low-Rank Approximation with $1/\epsilon^{1/3}$ Matrix-Vector Products ( http://arxiv.org/abs/2202.05120v1 )

ライセンス: CC BY 4.0
Ainesh Bakshi, Kenneth L. Clarkson, David P. Woodruff(参考訳) 任意のシャッテン=p$ノルムの下で低ランク近似のためのクリロフ部分空間に基づく反復的手法について検討する。 ここで、行列 $A$ が行列ベクトル積を通してアクセスされ、精度パラメータ $\epsilon$ とターゲットランク $k$ が与えられると、ゴールは、$\| A(I - ZZ^\top)\|_{S_p} \leq (1+\epsilon)\min_{U^\top U = I_k} \|A(I - U U U^\top)\|_{S_p}$ であるような正則列を持つランク-$k$ 行列 $Z$ を見つけることである。 p=2$ (frobenius norm) と $p = \infty$ (spectral norm) の特別な場合に対し、musco と musco (neurips 2015) は $\tilde{o}(k/\sqrt{\epsilon})$ matrix-vector 製品を使ったクライロフ法に基づくアルゴリズムを取得し、na\"ive $\tilde{o}(k/\epsilon)$ をパワー法で取得可能とし、$\tilde{o}$ は poly$(\log(dk/\epsil on))$ 因子を抑圧する。 主な結果は、$\tilde{o}(kp^{1/6}/\epsilon^{1/3})$ matrix-vector積のみを使用し、すべての$p \geq 1$で動作するアルゴリズムである。 p = 2$ であれば、以前の$\tilde{o}(k/\epsilon^{1/2})$ を$\tilde{o}(k/\epsilon^{1/3})$ に改良する。 schatten-$p$ と schatten-$\infty$ のノルムは、$p \geq (\log d)/\epsilon$ のとき 1 + \epsilon$ となるので、我々のバウンドは、musco と musco の結果を$p = \infty$ で回復する。 さらに、任意の固定定数$p \geq 1$に対して$\Omega(1/\epsilon^{1/3})$の行列ベクトルクエリローバウンドを証明し、驚くほど$\tilde{\Theta}(1/\epsilon^{1/3})$が定数~$k$の最適複雑性であることを示す。 本研究では,複数のkrylov部分空間を同時に最適化し,分割作用素に対する不等式をピンチする手法を提案する。 p \in [1,2]$ に対する下限はアラキ-lieb-thirring トレース不等式を用いるが、$p>2$ の場合、整列分割作用素に対するノルム圧縮不等式に訴える。

We study iterative methods based on Krylov subspaces for low-rank approximation under any Schatten-$p$ norm. Here, given access to a matrix $A$ through matrix-vector products, an accuracy parameter $\epsilon$, and a target rank $k$, the goal is to find a rank-$k$ matrix $Z$ with orthonormal columns such that $\| A(I -ZZ^\top)\|_{S_p} \leq (1+\epsilon)\min_{U^\top U = I_k} \|A(I - U U^\top)\|_{S_p}$, where $\|M\|_{S_p}$ denotes the $\ell_p$ norm of the the singular values of $M$. For the special cases of $p=2$ (Frobenius norm) and $p = \infty$ (Spectral norm), Musco and Musco (NeurIPS 2015) obtained an algorithm based on Krylov methods that uses $\tilde{O}(k/\sqrt{\epsilon})$ matrix-vector products, improving on the na\"ive $\tilde{O}(k/\epsilon)$ dependence obtainable by the power method, where $\tilde{O}$ suppresses poly$(\log(dk/\epsil on))$ factors. Our main result is an algorithm that uses only $\tilde{O}(kp^{1/6}/\epsilon^{1/3})$ matrix-vector products, and works for all $p \geq 1$. For $p = 2$ our bound improves the previous $\tilde{O}(k/\epsilon^{1/2})$ bound to $\tilde{O}(k/\epsilon^{1/3})$. Since the Schatten-$p$ and Schatten-$\infty$ norms are the same up to a $1+ \epsilon$ factor when $p \geq (\log d)/\epsilon$, our bound recovers the result of Musco and Musco for $p = \infty$. Further, we prove a matrix-vector query lower bound of $\Omega(1/\epsilon^{1/3})$ for any fixed constant $p \geq 1$, showing that surprisingly $\tilde{\Theta}(1/\epsilon^{1/3})$ is the optimal complexity for constant~$k$. To obtain our results, we introduce several new techniques, including optimizing over multiple Krylov subspaces simultaneously, and pinching inequalities for partitioned operators. Our lower bound for $p \in [1,2]$ uses the Araki-Lieb-Thirring trace inequality, whereas for $p>2$, we appeal to a norm-compression inequality for aligned partitioned operators.
翻訳日:2022-02-11 19:42:19 公開日:2022-02-10
# (参考訳) グラフベースの自動エージェントのための最小限のソーシャルインターベンション [全文訳有]

Help Me Explore: Minimal Social Interventions for Graph-Based Autotelic Agents ( http://arxiv.org/abs/2202.05129v1 )

ライセンス: CC BY 4.0
Ahmed Akakzia, Olivier Serris, Olivier Sigaud, C\'edric Colas(参考訳) オープンエンドのスキルのレパートリーを学ぶ自律エージェントの探求において、ほとんどの研究はピアゲティア的な視点を採っている: 学習軌跡は発達エージェントと身体環境の間の相互作用の結果である。 一方、ヴィゴツキーの視点は、社会文化的環境の中心性を強調しており、高い認知機能はエージェントによって内部化された社会文化的プロセスの伝達から生まれる。 本稿では,双方の視点が,自己複製エージェントの学習に組み合わされ,スキル獲得が促進されることを論じる。 この目的のために2つの貢献をします 1)ヘルプ・ミー・エクスプロレーション(ヘルプ・ミー・エクスプロレーション、hme)と呼ばれる新しいソーシャル・インタラクション・プロトコルは、個人的および社会的に誘導された探索の恩恵を受けることができる。 ソーシャルエピソードでは、ソーシャルパートナーが学習エージェント知識のフロンティアにおける目標を提案する。 オートテリックエピソードでは、エージェントは自分たちで発見した目標をマスターするか、失敗した社会的目標を自律的にリハーサルするかを学ぶことができる。 2)GANGSTRは,目標を中間ゴールのシーケンスに分解可能なドメインを操作するためのグラフベースのオートテリックエージェントである。 GANGSTRは,HME内での学習において,社会的介入が少なく,最も複雑な構成(例えば5ブロックのスタック)を習得することで,個々の学習限界を克服することを示した。

In the quest for autonomous agents learning open-ended repertoires of skills, most works take a Piagetian perspective: learning trajectories are the results of interactions between developmental agents and their physical environment. The Vygotskian perspective, on the other hand, emphasizes the centrality of the socio-cultural environment: higher cognitive functions emerge from transmissions of socio-cultural processes internalized by the agent. This paper argues that both perspectives could be coupled within the learning of autotelic agents to foster their skill acquisition. To this end, we make two contributions: 1) a novel social interaction protocol called Help Me Explore (HME), where autotelic agents can benefit from both individual and socially guided exploration. In social episodes, a social partner suggests goals at the frontier of the learning agent knowledge. In autotelic episodes, agents can either learn to master their own discovered goals or autonomously rehearse failed social goals; 2) GANGSTR, a graph-based autotelic agent for manipulation domains capable of decomposing goals into sequences of intermediate sub-goals. We show that when learning within HME, GANGSTR overcomes its individual learning limits by mastering the most complex configurations (e.g. stacks of 5 blocks) with only few social interventions.
翻訳日:2022-02-11 19:40:18 公開日:2022-02-10
# (参考訳) game of privacy: プライバシー制限下での連合プラットフォームコラボレーションを改善する [全文訳有]

Game of Privacy: Towards Better Federated Platform Collaboration under Privacy Restriction ( http://arxiv.org/abs/2202.05139v1 )

ライセンス: CC BY 4.0
Chuhan Wu, Fangzhao Wu, Tao Qi, Yanlin Wang, Yongfeng Huang, Xing Xie(参考訳) Vertical Federated Learning (VFL)は、異なるプラットフォームに格納された異なる機能空間を持つクロスサイロデータからモデルをトレーニングすることを目的としている。 既存のVFLメソッドは通常、各プラットフォーム上のすべてのデータをモデルトレーニングに使用できると仮定する。 しかし、フェデレーション学習の固有のプライバシーリスクのため、関連するデータの総量は制限される可能性がある。 加えて、既存のVFL研究は通常、ひとつのプラットフォームにタスクラベルがあると仮定し、コラボレーションの恩恵を受けることができるため、他のプラットフォームが協調学習に参加することは困難である。 本稿では,プライバシー制約下でのVFLにおけるプラットフォーム協調問題について検討する。 我々は,VFLフレームワークのマルチプラットフォーム情報を活用して,各プラットフォームを相互に連携させることによって,異なるプラットフォームをインセンティブにすることを提案する。 プライバシーの予算が限られているため、各プラットフォームは他のプラットフォームとのコラボレーションのためにデータクォータを適切に割り当てる必要がある。 これにより、自然界の多人数ゲームとなる。 このゲームには、ゲーム報酬を計算するために他のプラットフォームのデータ価値を評価する方法と、ゲームを解決するためのポリシーを最適化する方法の2つの問題がある。 他のプラットフォームのデータの貢献を評価するために、各プラットフォームは、vflに参加するために少量の"デポジット"データを提供する。 プラットフォーム間データの量の組み合わせが異なる場合に,予測モデルの性能を予測する性能推定法を提案する。 そこで本研究では,プラットフォーム間の交渉をシミュレートし,勾配降下による政策を局所的に最適化するプラットフォームネゴシエーション手法を提案する。 2つの実世界のデータセットに関する広範囲な実験は、プライバシ制限下でのvflにおけるマルチプラットフォームデータの協調的利用を効果的に促進できることを示した。

Vertical federated learning (VFL) aims to train models from cross-silo data with different feature spaces stored on different platforms. Existing VFL methods usually assume all data on each platform can be used for model training. However, due to the intrinsic privacy risks of federated learning, the total amount of involved data may be constrained. In addition, existing VFL studies usually assume only one platform has task labels and can benefit from the collaboration, making it difficult to attract other platforms to join in the collaborative learning. In this paper, we study the platform collaboration problem in VFL under privacy constraint. We propose to incent different platforms through a reciprocal collaboration, where all platforms can exploit multi-platform information in the VFL framework to benefit their own tasks. With limited privacy budgets, each platform needs to wisely allocate its data quotas for collaboration with other platforms. Thereby, they naturally form a multi-party game. There are two core problems in this game, i.e., how to appraise other platforms' data value to compute game rewards and how to optimize policies to solve the game. To evaluate the contributions of other platforms' data, each platform offers a small amount of "deposit" data to participate in the VFL. We propose a performance estimation method to predict the expected model performance when involving different amount combinations of inter-platform data. To solve the game, we propose a platform negotiation method that simulates the bargaining among platforms and locally optimizes their policies via gradient descent. Extensive experiments on two real-world datasets show that our approach can effectively facilitate the collaborative exploitation of multi-platform data in VFL under privacy restrictions.
翻訳日:2022-02-11 19:16:29 公開日:2022-02-10
# (参考訳) InPars: 大規模言語モデルを用いた情報検索のためのデータ拡張 [全文訳有]

InPars: Data Augmentation for Information Retrieval using Large Language Models ( http://arxiv.org/abs/2202.05144v1 )

ライセンス: CC BY 4.0
Luiz Bonifacio, Hugo Abonizio, Marzieh Fadaee, Rodrigo Nogueira(参考訳) 情報検索コミュニティは最近、大きな事前訓練されたトランスフォーマーモデルのために革命を目撃した。 この革命のもう一つの重要な要素はMS MARCOデータセットであり、そのスケールと多様性により、様々なタスクへのゼロショット転送学習が可能になった。 しかし、すべてのIRタスクやドメインが1つのデータセットから平等に恩恵を受けるわけではない。 様々なNLPタスクの広範な研究により、汎用的なデータとは対照的に、ドメイン固有のトレーニングデータを使用することで、ニューラルモデルの性能が向上することが示されている。 本研究では、IRタスクのための合成データジェネレータとして、大規模事前学習言語モデルの少数ショット機能を利用する。 我々は、教師なしデータセットのみに微調整されたモデルが、BM25のような強力なベースラインよりも優れていることを示す。 さらに,教師データと合成データの両方に微調整されたレトリバーは,教師データのみに微調整されたモデルよりも良好なゼロショット転送を実現する。 コード、モデル、データはhttps://github.com/z etaalphavector/inpar sで入手できる。

The information retrieval community has recently witnessed a revolution due to large pretrained transformer models. Another key ingredient for this revolution was the MS MARCO dataset, whose scale and diversity has enabled zero-shot transfer learning to various tasks. However, not all IR tasks and domains can benefit from one single dataset equally. Extensive research in various NLP tasks has shown that using domain-specific training data, as opposed to a general-purpose one, improves the performance of neural models. In this work, we harness the few-shot capabilities of large pretrained language models as synthetic data generators for IR tasks. We show that models finetuned solely on our unsupervised dataset outperform strong baselines such as BM25 as well as recently proposed self-supervised dense retrieval methods. Furthermore, retrievers finetuned on both supervised and our synthetic data achieve better zero-shot transfer than models finetuned only on supervised data. Code, models, and data are available at https://github.com/z etaalphavector/inpar s .
翻訳日:2022-02-11 19:02:43 公開日:2022-02-10
# (参考訳) 超音波画像における人中心型機械学習による筋腱接合追跡 [全文訳有]

A Human-Centered Machine-Learning Approach for Muscle-Tendon Junction Tracking in Ultrasound Images ( http://arxiv.org/abs/2202.05199v1 )

ライセンス: CC BY 4.0
Christoph Leitner, Robert Jarolim, Bernhard Englmair, Annika Kruse, Karen Andrea Lara Hernandez, Andreas Konrad, Eric Su, J\"org Schr\"ottner, Luke A. Kelly, Glen A. Lichtwark, Markus Tilp and Christian Baumgartner(参考訳) 生体力学的および臨床歩行研究は、手足の筋肉や腱を観察し、その機能や行動を研究する。 したがって、筋肉-腱接合などの異なる解剖学的ランドマークの動きを頻繁に測定する。 超音波ビデオにおけるこれらの接合点の追跡と歩行解析における臨床バイオメカニクスを支援するための信頼性と時間効率のよい機械学習手法を提案する。 このプロセスを容易にするために,ディープラーニングに基づく手法が導入された。 3種類の超音波システムを有する健常者123名, 健常者38名を対象に, 機能運動3名, 筋2名を対象に, 広範なデータセットを収集し, ネットワークトレーニングにおいて66864個の注釈超音波画像を提供した。 さらに,独立した研究室にまたがって収集したデータを用いて,さまざまなレベルの経験を持つ研究者によるキュレーションを行った。 提案手法の評価には、4人の専門家が独立に検証する多種多様なテストセットが選択された。 本モデルでは,筋腱接合位置の同定において,人間の4人の専門家と類似のパフォーマンススコアが得られた。 本手法は筋腱接合部を時間効率で追跡し,1フレームあたり0.078秒の予測時間(手動ラベリングの約100倍)を提供する。 私たちのコード、トレーニングされたモデル、テストセットはすべて公開されており、私たちのモデルはhttps://deepmtj.org/ .com/で無償のオンラインサービスとして提供されています。

Biomechanical and clinical gait research observes muscles and tendons in limbs to study their functions and behaviour. Therefore, movements of distinct anatomical landmarks, such as muscle-tendon junctions, are frequently measured. We propose a reliable and time efficient machine-learning approach to track these junctions in ultrasound videos and support clinical biomechanists in gait analysis. In order to facilitate this process, a method based on deep-learning was introduced. We gathered an extensive dataset, covering 3 functional movements, 2 muscles, collected on 123 healthy and 38 impaired subjects with 3 different ultrasound systems, and providing a total of 66864 annotated ultrasound images in our network training. Furthermore, we used data collected across independent laboratories and curated by researchers with varying levels of experience. For the evaluation of our method a diverse test-set was selected that is independently verified by four specialists. We show that our model achieves similar performance scores to the four human specialists in identifying the muscle-tendon junction position. Our method provides time-efficient tracking of muscle-tendon junctions, with prediction times of up to 0.078 seconds per frame (approx. 100 times faster than manual labeling). All our codes, trained models and test-set were made publicly available and our model is provided as a free-to-use online service on https://deepmtj.org/ .
翻訳日:2022-02-11 18:41:09 公開日:2022-02-10
# (参考訳) 耐久設計における建物エネルギー利用予測のためのゼロショット学習 [全文訳有]

Zero Shot Learning for Predicting Energy Usage of Buildings in Sustainable Design ( http://arxiv.org/abs/2202.05206v1 )

ライセンス: CC BY 4.0
Arun Zachariah, Praveen Rao, Brian Corn, Dominique Davison(参考訳) 2030年の挑戦は、2030年までに新しい建物と大きな改修をカーボン中立にすることを目的としている。 この課題を満たす潜在的な解決策の1つは、革新的な持続可能な設計戦略である。 このような戦略を開発するためには,建築のエネルギー利用に様々な要因がどう貢献するかを理解することが重要である。 近年の人工知能(AI)の成長は、利用可能なデータから構築要素間の複雑な関係を学習することで、持続可能な設計を進める前例のない機会を提供する。 しかし、予測精度を向上させるためにAIベースのソリューションには、豊富なトレーニングデータセットが必要である。 残念ながら、多くの現実世界のアプリケーションでは、トレーニングデータセットを取得するのに時間がかかり、コストがかかる。 これらの理由により、新しい建築タイプや未知の建築タイプ、すなわち、トレーニングデータを持たない建築タイプのエネルギー使用量を正確に予測する問題に対処する。 本稿では,ゼロショット学習(ZSL)に基づく新しい手法を提案する。 提案手法では, エネルギーモデルの専門家によるサイド情報を用いて, ビルタイプに最も近い建物タイプを推定する。 学習中に学習したモデルを用いてk-クローズドビルのエネルギー使用量を予測し,重み付き平均関数を用いて予測値を合成する。 エネルギーモデリングのための一般的なプラットフォームであるBuildSimHubを用いて,5つのビルディングタイプを含むデータセットに対するアプローチを評価した。 我々の手法は、既知のビルディングタイプのデータセット全体に基づいてトレーニングされた回帰モデル(XGBoostに基づく)よりも平均精度が向上した。

The 2030 Challenge is aimed at making all new buildings and major renovations carbon neutral by 2030. One of the potential solutions to meet this challenge is through innovative sustainable design strategies. For developing such strategies it is important to understand how the various building factors contribute to energy usage of a building, right at design time. The growth of artificial intelligence (AI) in recent years provides an unprecedented opportunity to advance sustainable design by learning complex relationships between building factors from available data. However, rich training datasets are needed for AI-based solutions to achieve good prediction accuracy. Unfortunately, obtaining training datasets are time consuming and expensive in many real-world applications. Motivated by these reasons, we address the problem of accurately predicting the energy usage of new or unknown building types, i.e., those building types that do not have any training data. We propose a novel approach based on zero-shot learning (ZSL) to solve this problem. Our approach uses side information from building energy modeling experts to predict the closest building types for a given new/unknown building type. We then obtain the predicted energy usage for the k-closest building types using the models learned during training and combine the predicted values using a weighted averaging function. We evaluated our approach on a dataset containing five building types generated using BuildSimHub, a popular platform for building energy modeling. Our approach achieved better average accuracy than a regression model (based on XGBoost) trained on the entire dataset of known building types.
翻訳日:2022-02-11 18:22:03 公開日:2022-02-10
# (参考訳) vehicle: 対話型定理プロバーを用いたニューラルネットワーク検証器 [全文訳有]

Vehicle: Interfacing Neural Network Verifiers with Interactive Theorem Provers ( http://arxiv.org/abs/2202.05207v1 )

ライセンス: CC BY 4.0
Matthew L. Daggitt, Wen Kokke, Robert Atkey, Luca Arnaboldi, Ekaterina Komendantskya(参考訳) ニューラルネットワークの検証は現在、自動定理証明のホットトピックである。 進歩は急速に進み、数十万のノードを持つネットワークの特性を検証できる幅広いツールが利用可能になった。 理論的には、これはニューラルネットワークコンポーネントを使用するより大きな制御システムの検証への扉を開く。 しかしながら、これらの検証器の結果を個々のシステムのより大きな性質を証明するためにうまく組み入れてきたが、現在では検証器と対話的定理証明器(ITP)のギャップを埋めるための一般的な方法論はない。 本稿では,この問題に対する我々の解決策である車両について述べる。 車両は、検証者およびIPPの両方にコンパイル可能なニューラルネットワーク仕様を記述するための表現力豊かなドメイン固有言語を備えている。 ネットワークの単一標準表現として標準のNNXファイルを使用することで、同様のIPP形式における保守性とスケーラビリティに関する過去の問題を克服する。 ニューラルネットワーク検証器であるmarabouをagdaに接続し、予測不能なクロスウインドと不完全なセンサーに直面しても、ニューラルネットワークが操縦する車が道路を離れないことを正式に検証することで、その有用性を実証する。 ネットワークには20,000以上のノードがあり、この証明はIPPのニューラルネットワーク強化システムに関する以前の証明よりも3桁の精度向上を示している。

Verification of neural networks is currently a hot topic in automated theorem proving. Progress has been rapid and there are now a wide range of tools available that can verify properties of networks with hundreds of thousands of nodes. In theory this opens the door to the verification of larger control systems that make use of neural network components. However, although work has managed to incorporate the results of these verifiers to prove larger properties of individual systems, there is currently no general methodology for bridging the gap between verifiers and interactive theorem provers (ITPs). In this paper we present Vehicle, our solution to this problem. Vehicle is equipped with an expressive domain specific language for stating neural network specifications which can be compiled to both verifiers and ITPs. It overcomes previous issues with maintainability and scalability in similar ITP formalisations by using a standard ONNX file as the single canonical representation of the network. We demonstrate its utility by using it to connect the neural network verifier Marabou to Agda and then formally verifying that a car steered by a neural network never leaves the road, even in the face of an unpredictable cross wind and imperfect sensors. The network has over 20,000 nodes, and therefore this proof represents an improvement of 3 orders of magnitude over prior proofs about neural network enhanced systems in ITPs.
翻訳日:2022-02-11 18:15:33 公開日:2022-02-10
# (参考訳) 非対数サンプリングの理論に向けて:ランゲヴィン・モンテカルロの第一次定常保証 [全文訳有]

Towards a Theory of Non-Log-Concave Sampling: First-Order Stationarity Guarantees for Langevin Monte Carlo ( http://arxiv.org/abs/2202.05214v1 )

ライセンス: CC BY 4.0
Krishnakumar Balasubramanian, Sinho Chewi, Murat A. Erdogdu, Adil Salim, Matthew Zhang(参考訳) 密度$\pi \propto \exp(-V)$ on $\mathbb{R}^d$, where $V$ is not-convex but $L$-gradient Lipschitz からサンプリングするタスクに対して、平均的なランジェヴィン・モンテ・カルロは、$O(L^2 d^2/\varepsilon^2)$反復の後、$\varepsilon$-relati ve Fisher情報を出力することを示した。 これは、非凸最適化における$\varepsilon$-approx imate 1次定常点を求める複雑性境界のサンプリングアナログであり、したがって非対数サンプリングの一般理論への第一歩となる。 本研究では,ポインカル・ジャイの不等式を満たす分布からサンプリングする新たな最先端保証が得られることを示す。

For the task of sampling from a density $\pi \propto \exp(-V)$ on $\mathbb{R}^d$, where $V$ is possibly non-convex but $L$-gradient Lipschitz, we prove that averaged Langevin Monte Carlo outputs a sample with $\varepsilon$-relati ve Fisher information after $O( L^2 d^2/\varepsilon^2)$ iterations. This is the sampling analogue of complexity bounds for finding an $\varepsilon$-approx imate first-order stationary points in non-convex optimization and therefore constitutes a first step towards the general theory of non-log-concave sampling. We discuss numerous extensions and applications of our result; in particular, it yields a new state-of-the-art guarantee for sampling from distributions which satisfy a Poincar\'e inequality.
翻訳日:2022-02-11 17:59:47 公開日:2022-02-10
# (参考訳) ロバスト話者検証のための学習可能な非線形圧縮 [全文訳有]

Learnable Nonlinear Compression for Robust Speaker Verification ( http://arxiv.org/abs/2202.05236v1 )

ライセンス: CC BY 4.0
Xuechen Liu, Md Sahidullah, Tomi Kinnunen(参考訳) 本研究では,ディープニューラルネットワークに基づく話者照合のためのスペクトル特徴の非線形圧縮法に着目した。 データ駆動方式で最適化された異なる種類のチャネル依存(CD)非線形圧縮手法を検討する。 本手法は電力非線形性と動的範囲圧縮(DRC)に基づく。 また、ロバスト性を改善するために、非線形性に基づくマルチレジーム(MR)設計を提案する。 voxceleb1とvoxmoviesのデータの結果は、一般的な対数法と静的対数法の両方、特にパワー関数に基づく圧縮法によってもたらされる改善を示している。 CDの一般化によりVoxCeleb1の性能が向上する一方、MRはVoxMoviesよりもロバスト性が高く、対等なエラー率を最大21.6%削減する。

In this study, we focus on nonlinear compression methods in spectral features for speaker verification based on deep neural network. We consider different kinds of channel-dependent (CD) nonlinear compression methods optimized in a data-driven manner. Our methods are based on power nonlinearities and dynamic range compression (DRC). We also propose multi-regime (MR) design on the nonlinearities, at improving robustness. Results on VoxCeleb1 and VoxMovies data demonstrate improvements brought by proposed compression methods over both the commonly-used logarithm and their static counterparts, especially for ones based on power function. While CD generalization improves performance on VoxCeleb1, MR provides more robustness on VoxMovies, with a maximum relative equal error rate reduction of 21.6%.
翻訳日:2022-02-11 17:25:52 公開日:2022-02-10
# (参考訳) トポジティ:トポジティクス材料発見のための機械学習型化学規則 [全文訳有]

Topogivity: A Machine-Learned Chemical Rule for Discovering Topological Materials ( http://arxiv.org/abs/2202.05255v1 )

ライセンス: CC BY 4.0
Andrew Ma, Yang Zhang, Thomas Christensen, Hoi Chun Po, Li Jing, Liang Fu, Marin Solja\v{c}i\'c(参考訳) トポロジカルな材料は、基礎科学と次世代の技術応用の両方に魅力を与える非伝統的な電子特性を示す。 現在知られているトポロジカル材料の大部分は、量子波動関数の対称性に基づく解析を含む手法を用いて発見されている。 ここでは機械学習を用いて,材料が化学式のみを用いてトポロジカルであるか否かを高精度に診断する,簡便なヒューリスティックな化学規則を開発する。 このヒューリスティックなルールは、トポゴジティ(topogivity)、すなわち、トポロジカルな材料を形成する傾向を緩やかに捉えた各要素に対して機械が学習した数値をいう概念に基づいている。 次に,ヒューリスティックなトポジティビティルール予測に基づくトポロジカルな材料発見のための高スループット戦略を実装した。 このようにして、対称性指標を用いて診断できない新しいトポロジカル材料が発見され、その中には実験観測に期待できるものもある。

Topological materials present unconventional electronic properties that make them attractive for both basic science and next-generation technological applications. The majority of currently-known topological materials have been discovered using methods that involve symmetry-based analysis of the quantum wavefunction. Here we use machine learning to develop a simple-to-use heuristic chemical rule that diagnoses with a high accuracy whether a material is topological using only its chemical formula. This heuristic rule is based on a notion that we term topogivity, a machine-learned numerical value for each element that loosely captures its tendency to form topological materials. We next implement a high-throughput strategy for discovering topological materials based on the heuristic topogivity-rule prediction followed by ab initio validation. This way, we discover new topological materials that are not diagnosable using symmetry indicators, including several that may be promising for experimental observation.
翻訳日:2022-02-11 17:16:44 公開日:2022-02-10
# キネマティック表現による超音波画像からの微細指運動の予測

Towards Predicting Fine Finger Motions from Ultrasound Images via Kinematic Representation ( http://arxiv.org/abs/2202.05204v1 )

ライセンス: Link先を確認
Dean Zadok, Oren Salzman, Alon Wolf and Alex M. Bronstein(参考訳) ロボット義肢構築における中心的な課題は、下肢から生理的信号を読み取り、様々なタスクを実行するようロボットに指示できるセンサーベースのシステムを作ることである。 既存のシステムは、筋の状態を解析するために筋電図(EMG)や超音波(US)技術を用いて、指差や握りなどの離散的なジェスチャーを行うのが一般的である。 そこで本研究では,キーボードタイピングやピアノ演奏などの巧妙なタスクを行う際に,us画像のシーケンスから特定の指のアクティベーションを識別する推論問題について検討する。 指のジェスチャーの推定は目立ったジェスチャーの検出によって過去に行われてきたが、時間とともに進化する微妙な動きの文脈で行われる分類に興味を持っている。 本研究は, ロボット補綴器の装着率向上に向けた重要なステップとして, 日常作業における機能向上の可能性を秘めている。 この研究のモチベーションは、ロボットマニピュレータとして手をモデリングすることで、米国内の画像がそれらの構成にマッピングされる中間表現をエンコードできることです。 このような学習された構成のシーケンスと、時間的コヒーレンスを利用するニューラルネットワークアーキテクチャを組み合わせることで、指の細かい動きを推測することができる。 被験者のグループからデータを収集し,演奏やテキスト入力の再生に我々のフレームワークをどのように利用できるかを示す。 私たちの知る限りでは、エンドツーエンドシステム内でこれらの下流タスクを実証する最初の研究です。

A central challenge in building robotic prostheses is the creation of a sensor-based system able to read physiological signals from the lower limb and instruct a robotic hand to perform various tasks. Existing systems typically perform discrete gestures such as pointing or grasping, by employing electromyography (EMG) or ultrasound (US) technologies to analyze the state of the muscles. In this work, we study the inference problem of identifying the activation of specific fingers from a sequence of US images when performing dexterous tasks such as keyboard typing or playing the piano. While estimating finger gestures has been done in the past by detecting prominent gestures, we are interested in classification done in the context of fine motions that evolve over time. We consider this task as an important step towards higher adoption rates of robotic prostheses among arm amputees, as it has the potential to dramatically increase functionality in performing daily tasks. Our key observation, motivating this work, is that modeling the hand as a robotic manipulator allows to encode an intermediate representation wherein US images are mapped to said configurations. Given a sequence of such learned configurations, coupled with a neural-network architecture that exploits temporal coherence, we are able to infer fine finger motions. We evaluated our method by collecting data from a group of subjects and demonstrating how our framework can be used to replay music played or text typed. To the best of our knowledge, this is the first study demonstrating these downstream tasks within an end-to-end system.
翻訳日:2022-02-11 17:05:34 公開日:2022-02-10
# Block-NeRF:スケーラブル大シーンニューラルビュー合成

Block-NeRF: Scalable Large Scene Neural View Synthesis ( http://arxiv.org/abs/2202.05263v1 )

ライセンス: Link先を確認
Matthew Tancik, Vincent Casser, Xinchen Yan, Sabeek Pradhan, Ben Mildenhall, Pratul P. Srinivasan, Jonathan T. Barron, Henrik Kretzschmar(参考訳) 大規模環境を表現可能なニューラルレージアンスフィールドの変種であるBlock-NeRFを提案する。 具体的には、複数のブロックにまたがる都市規模のシーンをレンダリングするためにNeRFをスケールする場合、シーンを個別に訓練されたNeRFに分解することが不可欠であることを示す。 この分解はレンダリング時間をシーンサイズから切り離し、レンダリングを任意の規模の環境に拡大し、ブロックごとの環境更新を可能にする。 我々は、異なる環境条件下で数ヶ月にわたって取得したデータに対して、NeRFを堅牢にするために、いくつかのアーキテクチャ変更を採用する。 我々は,個々のNeRFに対して外観埋め込み,ポーズ改善,制御可能な露出を追加し,隣接するNeRF間の外観整合をシームレスに組み合わせるための手順を導入する。 我々は、280万の画像からBlock-NeRFのグリッドを構築し、これまでで最大のニューラルシーン表現を作成し、サンフランシスコの近所全体をレンダリングします。

We present Block-NeRF, a variant of Neural Radiance Fields that can represent large-scale environments. Specifically, we demonstrate that when scaling NeRF to render city-scale scenes spanning multiple blocks, it is vital to decompose the scene into individually trained NeRFs. This decomposition decouples rendering time from scene size, enables rendering to scale to arbitrarily large environments, and allows per-block updates of the environment. We adopt several architectural changes to make NeRF robust to data captured over months under different environmental conditions. We add appearance embeddings, learned pose refinement, and controllable exposure to each individual NeRF, and introduce a procedure for aligning appearance between adjacent NeRFs so that they can be seamlessly combined. We build a grid of Block-NeRFs from 2.8 million images to create the largest neural scene representation to date, capable of rendering an entire neighborhood of San Francisco.
翻訳日:2022-02-11 17:05:10 公開日:2022-02-10
# ICASSP 2022多チャンネル多人数会議記述チャレンジのためのRoyalflush Speaker Diarizationシステム

Royalflush Speaker Diarization System for ICASSP 2022 Multi-channel Multi-party Meeting Transcription Challenge ( http://arxiv.org/abs/2202.04814v1 )

ライセンス: Link先を確認
Jingguang Tian, Xinhui Hu, Xinkang Xu(参考訳) 本稿では,マルチチャネル多人数会議記述チャレンジに提出されたRoyalflush話者ダイアリゼーションシステムについて述べる。 本システムでは,音声強調,重複音声認識,話者埋め込み抽出,話者クラスタリング,音声分離,システム融合を含む。 このシステムでは、私たちは3つの貢献をした。 まず,マルチチャネルモデルとu-netモデルを組み合わせて,これら2つの個別アーキテクチャの利点を活用し,遠距離重複音声検出を実現するアーキテクチャを提案する。 第2に,話者ダイアリゼーションを支援するために重畳音声検出モデルを用いることで,話者検証技術がさらに適用された話者分離に基づく重畳音声処理手法を提案する。 第3に,CNCeleb-Eテストセットにおける3つの話者埋め込み手法を探索し,最先端の性能を得た。 これらの提案により、最良の個人システムはDERを15.25%から6.40%に大幅に削減し、4つのシステムの融合は最終的に遠距離場平均化評価セットのDERを6.30%達成する。

This paper describes the Royalflush speaker diarization system submitted to the Multi-channel Multi-party Meeting Transcription Challenge. Our system comprises speech enhancement, overlapped speech detection, speaker embedding extraction, speaker clustering, speech separation and system fusion. In this system, we made three contributions. First, we propose an architecture of combining the multi-channel and U-Net-based models, aiming at utilizing the benefits of these two individual architectures, for far-field overlapped speech detection. Second, in order to use overlapped speech detection model to help speaker diarization, a speech separation based overlapped speech handling approach, in which the speaker verification technique is further applied, is proposed. Third, we explore three speaker embedding methods, and obtained the state-of-the-art performance on the CNCeleb-E test set. With these proposals, our best individual system significantly reduces DER from 15.25% to 6.40%, and the fusion of four systems finally achieves a DER of 6.30% on the far-field Alimeeting evaluation set.
翻訳日:2022-02-11 17:04:54 公開日:2022-02-10
# 動的スタックルバーグゲームにおける非回帰学習

No-Regret Learning in Dynamic Stackelberg Games ( http://arxiv.org/abs/2202.04786v1 )

ライセンス: Link先を確認
Niklas Lauffer, Mahsa Ghasemi, Abolfazl Hashemi, Yagiz Savas, and Ufuk Topcu(参考訳) Stackelbergゲームでは、リーダーがランダム化された戦略にコミットし、フォロワーがレスポンスでベスト戦略を選択する。 我々は、離散時間動的スタックルバーグゲームと呼ばれる標準的なスタックルバーグゲームの拡張を考える。これは、リーダーの報酬と利用可能な戦略に影響を与える基礎的な状態空間を持ち、リーダーと従者の選択した戦略の両方に応じてマルコフ的手法で進化する。 標準的なstackelbergゲームはセキュリティドメインのスケジューリングを改善するために利用されてきたが、その配置は、従者のユーティリティ機能の完全な情報を必要とすることで制限されることが多い。 対照的に、従者の効用関数がリーダーに知られていないシナリオを考えるが、線形にパラメータ化できる。 本研究の目的は, ゲームの各ステップにおいて, 従者が前ステップでどう反応するかの観察に基づいて, ランダム化戦略をリーダーに規定するアルゴリズムを提供することである。 高確率で、時間ステップ数でサブ線形である後悔境界(後述の最良のポリシーと比較した場合)を達成できる非回帰学習アルゴリズムを設計し、そのサブ線形性の度合いは、フォロワーの効用関数を表す特徴数に依存する。 提案された学習アルゴリズムの後悔は、ゲームの他のパラメータにおける状態空間と多項式の大きさに依存しない。 提案した学習アルゴリズムは,既存のモデルレス強化学習手法よりも優れていることを示す。

In a Stackelberg game, a leader commits to a randomized strategy, and a follower chooses their best strategy in response. We consider an extension of a standard Stackelberg game, called a discrete-time dynamic Stackelberg game, that has an underlying state space that affects the leader's rewards and available strategies and evolves in a Markovian manner depending on both the leader and follower's selected strategies. Although standard Stackelberg games have been utilized to improve scheduling in security domains, their deployment is often limited by requiring complete information of the follower's utility function. In contrast, we consider scenarios where the follower's utility function is unknown to the leader; however, it can be linearly parameterized. Our objective then is to provide an algorithm that prescribes a randomized strategy to the leader at each step of the game based on observations of how the follower responded in previous steps. We design a no-regret learning algorithm that, with high probability, achieves a regret bound (when compared to the best policy in hindsight) which is sublinear in the number of time steps; the degree of sublinearity depends on the number of features representing the follower's utility function. The regret of the proposed learning algorithm is independent of the size of the state space and polynomial in the rest of the parameters of the game. We show that the proposed learning algorithm outperforms existing model-free reinforcement learning approaches.
翻訳日:2022-02-11 17:01:45 公開日:2022-02-10
# 野生における強化学習: ライダーマーケットプレースに展開されたスケーラブルなRL分散アルゴリズム

Reinforcement Learning in the Wild: Scalable RL Dispatching Algorithm Deployed in Ridehailing Marketplace ( http://arxiv.org/abs/2202.05118v1 )

ライセンス: Link先を確認
Soheil Sadeghi Eshkevari, Xiaocheng Tang, Zhiwei Qin, Jinhan Mei, Cheng Zhang, Qianying Meng, Jia Xu(参考訳) 本研究では,強化学習に基づくリアルタイム派遣アルゴリズムを初めて提案し,大規模に展開する。 現在の配車プラットフォームにおけるディスパッチ方式は、ミオピックや規則に基づく非ミオピックアプローチが主流である。 強化学習は、履歴データにインフォメーションされたポリシーをディスパッチし、学習情報を活用し、将来の予測軌道のリターンを最適化することができる。 この分野での以前の研究は有望な結果をもたらしたが、パフォーマンス向上、自己依存性、転送可能性、スケーラブルなデプロイメントメカニズムに関してさらなる改善の余地は残されている。 本研究は,大規模展開に適応しつつ,堅牢で効率的なオンポリシー学習と推論を実現するための複数のメカニズムを備えた,スタンドアロンのrlベースのディスパッチソリューションを提案する。 問題の本質的不確実性に適応した,時間的差異に基づく新たな値更新手法を提案する。 ドライバーの注文代入には、市場統計に基づいて調整すると、顕著な性能向上と解釈可能性をもたらす、カスタマイズされたユーティリティ関数が提案される。 また、ドライバの割り当て後のキャンセルのリスクを低減するため、マルチアームバンディット問題に基づく適応的なグラフプルーニング戦略を導入する。 本手法は実データを用いたオフラインシミュレーションを用いて評価し,顕著な性能向上をもたらす。 さらに、このアルゴリズムはdidiのa/bテスト運用下で複数の都市に展開され、主要な国際市場の一つで主要なディスパッチモードとしてローンチされている。 デプロイされたアルゴリズムは、A/Bテストによるドライバーの総収入を1.3%以上改善している。 さらに、因果推論分析により、大規模展開後の主要なパフォーマンス指標の5.3%の改善が検出される。

In this study, a real-time dispatching algorithm based on reinforcement learning is proposed and for the first time, is deployed in large scale. Current dispatching methods in ridehailing platforms are dominantly based on myopic or rule-based non-myopic approaches. Reinforcement learning enables dispatching policies that are informed of historical data and able to employ the learned information to optimize returns of expected future trajectories. Previous studies in this field yielded promising results, yet have left room for further improvements in terms of performance gain, self-dependency, transferability, and scalable deployment mechanisms. The present study proposes a standalone RL-based dispatching solution that is equipped with multiple mechanisms to ensure robust and efficient on-policy learning and inference while being adaptable for full-scale deployment. A new form of value updating based on temporal difference is proposed that is more adapted to the inherent uncertainty of the problem. For the driver-order assignment, a customized utility function is proposed that when tuned based on the statistics of the market, results in remarkable performance improvement and interpretability. In addition, for reducing the risk of cancellation after drivers' assignment, an adaptive graph pruning strategy based on the multi-arm bandit problem is introduced. The method is evaluated using offline simulation with real data and yields notable performance improvement. In addition, the algorithm is deployed online in multiple cities under DiDi's operation for A/B testing and is launched in one of the major international markets as the primary mode of dispatch. The deployed algorithm shows over 1.3% improvement in total driver income from A/B testing. In addition, by causal inference analysis, as much as 5.3% improvement in major performance metrics is detected after full-scale deployment.
翻訳日:2022-02-11 17:01:23 公開日:2022-02-10
# P-スプリット定式化: 共役制約に対するビッグMと凸殻の間の中間定式化のクラス

P-split formulations: A class of intermediate formulations between big-M and convex hull for disjunctive constraints ( http://arxiv.org/abs/2202.05198v1 )

ライセンス: Link先を確認
Jan Kronqvist and Ruth Misener and Calvin Tsay(参考訳) 我々は,big-m と凸包式に中間の分離制約のための混合整数式を緩和強度で開発する。 主なアイデアは、big-m と convex hull の両方の定式化をうまく捉えることである: 密な緩和を伴う計算的に軽い定式化である。 p$-split" の定式化は、凸を付加的に分離可能な制約を $p$ 分割に分割し、線型化および分割された連結の凸包を形成するリフト変換に基づいている。 我々は、$P$-splitの定式化の連続的な緩和を解析し、ある仮定の下で、定式化がビッグM同値から凸包へ収束する階層を形成することを示す。 P$-splitの定式化の目標は、計算的に単純な定式化によって凸殻の強い近似を形成することである。 320のテストインスタンスの big-m および convex hull 式に対する $p$-split 式を比較した。 テスト問題には、k平均クラスタリング、p_ball問題、トレーニングされたreluニューラルネットワークの最適化が含まれる。 計算結果は、$P$-splitの定式化の有望な可能性を示している。 多くのテスト問題に対して、$P$-splitの定式化は凸船体定式化と同様の数の探索ノードで解決されるが、解時間を桁違いに減らし、探索ノードの時間と数の両方でビッグMを上回っている。

We develop a class of mixed-integer formulations for disjunctive constraints intermediate to the big-M and convex hull formulations in terms of relaxation strength. The main idea is to capture the best of both the big-M and convex hull formulations: a computationally light formulation with a tight relaxation. The "$P$-split" formulations are based on a lifted transformation that splits convex additively separable constraints into $P$ partitions and forms the convex hull of the linearized and partitioned disjunction. We analyze the continuous relaxation of the $P$-split formulations and show that, under certain assumptions, the formulations form a hierarchy starting from a big-M equivalent and converging to the convex hull. The goal of the $P$-split formulations is to form a strong approximation of the convex hull through a computationally simpler formulation. We computationally compare the $P$-split formulations against big-M and convex hull formulations on 320 test instances. The test problems include K-means clustering, P_ball problems, and optimization over trained ReLU neural networks. The computational results show promising potential of the $P$-split formulations. For many of the test problems, $P$-split formulations are solved with a similar number of explored nodes as the convex hull formulation, while reducing the solution time by an order of magnitude and outperforming big-M both in time and number of explored nodes.
翻訳日:2022-02-11 17:00:01 公開日:2022-02-10
# 並列シングルパス学習のための超次元計算の理解

Understanding Hyperdimensional Computing for Parallel Single-Pass Learning ( http://arxiv.org/abs/2202.04805v1 )

ライセンス: Link先を確認
Tao Yu, Yichi Zhang, Zhiru Zhang, Christopher De Sa(参考訳) 超次元コンピューティング(hyperdimensional computing, hdc)は、高次元バイナリベクトルで計算する新しい学習パラダイムである。 エネルギー効率と低レイテンシのため、特に新興ハードウェアでは魅力的だが、HDCは低モデルの精度に悩まされており、パフォーマンスの制限について理論的にはほとんど理解されていない。 本稿では,2進ベクトルによる類似度行列の「表現」を考慮し,HDCの限界に関する新たな理論的解析を提案し,その限界をランダムなフーリエ特徴(RFF)を用いてアプローチする方法を示す。 我々は解析をベクトル記号アーキテクチャ(VSA)のより一般的なクラスに拡張し、必ずしもバイナリではない高次元ベクトル(ハイパーベクトル)で計算する。 我々は,hdc の限界を超える新たなクラスである有限群 vsas を提案する。 表現論を用いて、有限群 VSA ハイパーベクトルによってどの類似行列を「表現」できるかを特徴づけ、これらの VSA をどのように構成するかを示す。 実験の結果, RFF法とグループVSAは, ハードウェア効率を保ちながら, 最先端HDCモデルより最大7.6倍高い性能が得られることがわかった。

Hyperdimensional computing (HDC) is an emerging learning paradigm that computes with high dimensional binary vectors. It is attractive because of its energy efficiency and low latency, especially on emerging hardware -- but HDC suffers from low model accuracy, with little theoretical understanding of what limits its performance. We propose a new theoretical analysis of the limits of HDC via a consideration of what similarity matrices can be "expressed" by binary vectors, and we show how the limits of HDC can be approached using random Fourier features (RFF). We extend our analysis to the more general class of vector symbolic architectures (VSA), which compute with high-dimensional vectors (hypervectors) that are not necessarily binary. We propose a new class of VSAs, finite group VSAs, which surpass the limits of HDC. Using representation theory, we characterize which similarity matrices can be "expressed" by finite group VSA hypervectors, and we show how these VSAs can be constructed. Experimental results show that our RFF method and group VSA can both outperform the state-of-the-art HDC model by up to 7.6\% while maintaining hardware efficiency.
翻訳日:2022-02-11 16:58:46 公開日:2022-02-10
# ディープニューラルネットワーク分類器による低推力軌道同定の可能性

Feasible Low-thrust Trajectory Identification via a Deep Neural Network Classifier ( http://arxiv.org/abs/2202.04962v1 )

ライセンス: Link先を確認
Ruida Xie, Andrew G. Dempster(参考訳) 近年,深層学習技術が軌道最適化の分野に導入され,収束と速度が向上している。 このようなモデルのトレーニングには、大きな軌道データセットが必要です。 しかし、最適化プロセスが終わる前に低推力(LT)最適化の収束は予測できない。 ランダムに初期化した低推力データ生成では、計算能力の大部分が非効率な低推力転送の最適化に費やされ、非効率なデータ生成プロセスに繋がる。 本研究は、最適化プロセスに先立って、実現可能なLT転送を正確に識別するディープニューラルネットワーク(DNN)分類器を提案する。 DNN分類器の全体的な精度は97.9%であり、テストアルゴリズムの中では最高の性能である。 正確な低推力軌道実現可能性同定は、望ましくないサンプルの最適化を避けることができ、最適化されたサンプルの大部分は、収束するLT軌道である。 この技術は、異なる宇宙船構成で異なるミッションシナリオに対して効率的なデータセット生成を可能にする。

In recent years, deep learning techniques have been introduced into the field of trajectory optimization to improve convergence and speed. Training such models requires large trajectory datasets. However, the convergence of low thrust (LT) optimizations is unpredictable before the optimization process ends. For randomly initialized low thrust transfer data generation, most of the computation power will be wasted on optimizing infeasible low thrust transfers, which leads to an inefficient data generation process. This work proposes a deep neural network (DNN) classifier to accurately identify feasible LT transfer prior to the optimization process. The DNN-classifier achieves an overall accuracy of 97.9%, which has the best performance among the tested algorithms. The accurate low-thrust trajectory feasibility identification can avoid optimization on undesired samples, so that the majority of the optimized samples are LT trajectories that converge. This technique enables efficient dataset generation for different mission scenarios with different spacecraft configurations.
翻訳日:2022-02-11 16:58:25 公開日:2022-02-10
# リモートコンテキストバンド

Remote Contextual Bandits ( http://arxiv.org/abs/2202.05182v1 )

ライセンス: Link先を確認
Francesco Pase, Deniz Gunduz, Michele Zorzi(参考訳) 我々は、意思決定者が文脈と報酬を観察するリモート・コンテクスト・マルチアーム・バンディット(CMAB)問題を考えるが、レート制限通信チャネルを介してエージェントが取るべき行動を伝える必要がある。 これは、例えばパーソナライズされた広告配置アプリケーションで、コンテンツ所有者が個々の訪問者をウェブサイトに観察し、それゆえコンテキスト情報を持っているが、各訪問者に示さなければならない広告を、マーケティングコンテンツを管理する別のエンティティに伝達しなければならない。 この遠隔CMAB(R-CMAB)問題において、意思決定者とエージェント間の通信速度の制約は、エージェント毎に送信されるビット数と取得された平均報酬との間のトレードオフを課す。 私たちは特に、サブ線形後悔を達成するのに必要な率を特徴づけることに興味があります。 したがって、このことは、学習目標によって歪み計量が誘導される政策圧縮問題とみなすことができる。 まず, エージェント数の無限大化を図り, トンプソンサンプリング戦略を採用する際に達成した後悔について検討する。 特に,線形および準線形後悔行動をもたらす2つの異なる速度領域を同定した。 そして、意思決定者が歪みなく確実に方針を伝達できる場合に、達成可能な後悔の上限を与える。

We consider a remote contextual multi-armed bandit (CMAB) problem, in which the decision-maker observes the context and the reward, but must communicate the actions to be taken by the agents over a rate-limited communication channel. This can model, for example, a personalized ad placement application, where the content owner observes the individual visitors to its website, and hence has the context information, but must convey the ads that must be shown to each visitor to a separate entity that manages the marketing content. In this remote CMAB (R-CMAB) problem, the constraint on the communication rate between the decision-maker and the agents imposes a trade-off between the number of bits sent per agent and the acquired average reward. We are particularly interested in characterizing the rate required to achieve sub-linear regret. Consequently, this can be considered as a policy compression problem, where the distortion metric is induced by the learning objectives. We first study the fundamental information theoretic limits of this problem by letting the number of agents go to infinity, and study the regret achieved when Thompson sampling strategy is adopted. In particular, we identify two distinct rate regions resulting in linear and sub-linear regret behavior, respectively. Then, we provide upper bounds on the achievable regret when the decision-maker can reliably transmit the policy without distortion.
翻訳日:2022-02-11 16:54:22 公開日:2022-02-10
# 音声強調のための条件拡散確率モデル

Conditional Diffusion Probabilistic Model for Speech Enhancement ( http://arxiv.org/abs/2202.05256v1 )

ライセンス: Link先を確認
Yen-Ju Lu, Zhong-Qiu Wang, Shinji Watanabe, Alexander Richard, Cheng Yu, Yu Tsao(参考訳) 音声強調は、多くのユーザ指向オーディオアプリケーションにおいて重要な要素であるが、現在のシステムは歪みや不自然な出力に悩まされている。 生成モデルは音声合成において強い可能性を示しているが、音声強調では依然として遅れている。 本研究は拡散確率モデルにおける最近の進歩を活かし、観測された雑音音声信号の特性を拡散・反転プロセスに組み込む新しい音声強調アルゴリズムを提案する。 具体的には、その逆過程において、推定音声信号の非ガウス的実雑音に適応できる条件拡散確率モデルという拡散確率モデルの一般化された定式化を提案する。 本実験では,提案手法を代表生成モデルと比較し,学習中の雑音特性が見られない他のデータセットに対するモデルの一般化能力について検討した。

Speech enhancement is a critical component of many user-oriented audio applications, yet current systems still suffer from distorted and unnatural outputs. While generative models have shown strong potential in speech synthesis, they are still lagging behind in speech enhancement. This work leverages recent advances in diffusion probabilistic models, and proposes a novel speech enhancement algorithm that incorporates characteristics of the observed noisy speech signal into the diffusion and reverse processes. More specifically, we propose a generalized formulation of the diffusion probabilistic model named conditional diffusion probabilistic model that, in its reverse process, can adapt to non-Gaussian real noises in the estimated speech signal. In our experiments, we demonstrate strong performance of the proposed approach compared to representative generative models, and investigate the generalization capability of our models to other datasets with noise characteristics unseen during training.
翻訳日:2022-02-11 16:53:59 公開日:2022-02-10
# オンライン禁止回避の特徴付け, 検出, 予測

Characterizing, Detecting, and Predicting Online Ban Evasion ( http://arxiv.org/abs/2202.05257v1 )

ライセンス: Link先を確認
Manoj Niverthi, Gaurav Verma, Srijan Kumar(参考訳) モデレーターと自動メソッドは、破壊的な行動に携わる悪意のあるユーザーを禁止する。 しかし、悪意のあるユーザーはこうした禁止を回避するために新しいアカウントを簡単に作成できる。 これまでの研究では、同一エンティティによる複数のアカウントの同時操作(sockpuppetry)、他の個人への偽装、個人やコミュニティの非プラットフォーム化の効果の研究など、他の形式のオンラインデセプションに重点を置いてきた。 ここでは,オンラインプラットフォーム上での禁止を回避し,時間的にアカウントの操作を同一ユーザから切り離すという,禁忌回避に関する最初のデータ駆動研究を行う。 我々は,wikipedia上で識別された8,551個の回避ペア(親子)のデータセットを収集し,その動作を良質なユーザと非悪質なユーザと対比した。 回避子アカウントは、ユーザ名や編集ページの類似性から、プラットフォームに追加されたコンテンツと精神言語的属性の類似性まで、いくつかの行動軸上で禁止された親アカウントと類似性を示す。 禁止を回避しそうなアカウントの、重要な行動特性を明らかにします。 分析から得られた知見に基づき,ロジスティック回帰分類器を訓練し,禁止回避ライフサイクルの3つの異なる地点で禁止回避を検知し,予測する。 その結果、将来の回避者予測(auc = 0.78)、早期回避(auc = 0.85)、児童アカウントと親アカウントとのマッチング(mrr = 0.97)における効果が示された。 我々の研究は、現在のマニュアルやヒューリスティックなアプローチよりも、ワークロードを削減し、回避ペアを迅速かつ効率的に特定することで、モデレーターを支援します。 datasetは$\href{https://github.com/s rijankr/ban_evasion}{\text{here}}$である。

Moderators and automated methods enforce bans on malicious users who engage in disruptive behavior. However, malicious users can easily create a new account to evade such bans. Previous research has focused on other forms of online deception, like the simultaneous operation of multiple accounts by the same entities (sockpuppetry), impersonation of other individuals, and studying the effects of de-platforming individuals and communities. Here we conduct the first data-driven study of ban evasion, i.e., the act of circumventing bans on an online platform, leading to temporally disjoint operation of accounts by the same user. We curate a novel dataset of 8,551 ban evasion pairs (parent, child) identified on Wikipedia and contrast their behavior with benign users and non-evading malicious users. We find that evasion child accounts demonstrate similarities with respect to their banned parent accounts on several behavioral axes - from similarity in usernames and edited pages to similarity in content added to the platform and its psycholinguistic attributes. We reveal key behavioral attributes of accounts that are likely to evade bans. Based on the insights from the analyses, we train logistic regression classifiers to detect and predict ban evasion at three different points in the ban evasion lifecycle. Results demonstrate the effectiveness of our methods in predicting future evaders (AUC = 0.78), early detection of ban evasion (AUC = 0.85), and matching child accounts with parent accounts (MRR = 0.97). Our work can aid moderators by reducing their workload and identifying evasion pairs faster and more efficiently than current manual and heuristic-based approaches. Dataset is available $\href{https://github.com/s rijankr/ban_evasion}{\text{here}}$.
翻訳日:2022-02-11 16:53:45 公開日:2022-02-10
# SUPA:粒子物理学における機械学習のための軽量診断シミュレータ

SUPA: A Lightweight Diagnostic Simulator for Machine Learning in Particle Physics ( http://arxiv.org/abs/2202.05012v1 )

ライセンス: Link先を確認
Atul Kumar Sinha, Daniele Paliotta, B\'alint M\'at\'e, Sebastian Pina-Otey, John A. Raine, Tobias Golling, Fran\c{c}ois Fleuret(参考訳) 深層学習法は、検出器内の粒子シャワーの高速モデリングのために高エネルギー物理学で人気を集めている。 金標準のGeant4のような詳細なシミュレーションフレームワークは計算集約的であり、現在の深層生成アーキテクチャは詳細なシミュレーションの離散化された低解像度バージョンに取り組んでいる。 空間分解能の高いモデルの開発は、現在、完全なシミュレーションデータの複雑さと、より単純で解釈可能なベンチマークの欠如によって妨げられている。 我々の貢献はSUPA, SUrrogate PArticle 伝搬シミュレータ, 簡易な粒子伝搬, 散乱, シャワー発生をシミュレーションしてデータを生成するアルゴリズムおよびソフトウェアパッケージである。 生成はGeant4と比べて非常に高速で使いやすいが、詳細なシミュレーションの重要な特徴と課題がまだ示されている。 我々は,geant4で生成されたデータセットの性能を反映したシミュレーションデータによる生成モデルの性能を示すことにより,この主張を実験的に支持する。 提案するシミュレータは,デスクトップマシン上で毎秒数千個の粒子シャワーを生成し,geant4よりも最大6桁の速度で,シャワー伝播に関する詳細な幾何学情報を格納する。 supaは初期条件の設定とモデル開発のための複数のベンチマークを定義する上で、はるかに大きな柔軟性を提供します。 さらに、粒子シャワーを点雲として解釈すると、幾何学的機械学習への接続が生じ、フィールドのための挑戦的で基本的な新しいデータセットが提供される。 SUPAのコードはhttps://github.com/i tsdaniele/SUPA.comで公開されている。

Deep learning methods have gained popularity in high energy physics for fast modeling of particle showers in detectors. Detailed simulation frameworks such as the gold standard Geant4 are computationally intensive, and current deep generative architectures work on discretized, lower resolution versions of the detailed simulation. The development of models that work at higher spatial resolutions is currently hindered by the complexity of the full simulation data, and by the lack of simpler, more interpretable benchmarks. Our contribution is SUPA, the SUrrogate PArticle propagation simulator, an algorithm and software package for generating data by simulating simplified particle propagation, scattering and shower development in matter. The generation is extremely fast and easy to use compared to Geant4, but still exhibits the key characteristics and challenges of the detailed simulation. We support this claim experimentally by showing that performance of generative models on data from our simulator reflects the performance on a dataset generated with Geant4. The proposed simulator generates thousands of particle showers per second on a desktop machine, a speed up of up to 6 orders of magnitudes over Geant4, and stores detailed geometric information about the shower propagation. SUPA provides much greater flexibility for setting initial conditions and defining multiple benchmarks for the development of models. Moreover, interpreting particle showers as point clouds creates a connection to geometric machine learning and provides challenging and fundamentally new datasets for the field. The code for SUPA is available at https://github.com/i tsdaniele/SUPA.
翻訳日:2022-02-11 16:53:13 公開日:2022-02-10
# (参考訳) 移動学習と言語モデル復号による非ネイティブ英語の自動音声認識の改善 [全文訳有]

Improving Automatic Speech Recognition for Non-Native English with Transfer Learning and Language Model Decoding ( http://arxiv.org/abs/2202.05209v1 )

ライセンス: CC BY 4.0
Peter Sullivan, Toshiko Shibano, Muhammad Abdul-Mageed(参考訳) ネイティブ・イングリッシュ(L1)用に設計されたASRシステムは、通常、非ネイティブ・イングリッシュ(L2)で性能が劣る。 このパフォーマンスギャップに対処するために、 \textbf{ i) 事前訓練したwav2vec 2.0モデル \cite{baevski 2020wav2vec,xu2021se lf} のL1およびL2訓練条件下での微調整について検討する。 さらに、textbf{ です。 (II) 言語モデルの復号化をASRシステムに組み込むとともに, 微調整手法を取り入れた。 これら2つのアプローチのそれぞれから得られたゲインの定量化とエラー解析により、モデル内の異なる改善源を特定することができる。 大規模自己学習されたwav2vec 2.0は、クリーンl1音声の十分な復号知識を内部化している可能性があるが、これはl2音声には当てはまらない。

ASR systems designed for native English (L1) usually underperform on non-native English (L2). To address this performance gap, \textbf{(i)} we extend our previous work to investigate fine-tuning of a pre-trained wav2vec 2.0 model \cite{baevski2020wav2vec,x u2021self} under a rich set of L1 and L2 training conditions. We further \textbf{(ii)} incorporate language model decoding in the ASR system, along with the fine-tuning method. Quantifying gains acquired from each of these two approaches separately and an error analysis allows us to identify different sources of improvement within our models. We find that while the large self-trained wav2vec 2.0 may be internalizing sufficient decoding knowledge for clean L1 speech \cite{xu2021self}, this does not hold for L2 speech and accounts for the utility of employing language model decoding on L2 data.
翻訳日:2022-02-11 16:51:24 公開日:2022-02-10
# 計算可能学習者による学習性の評価について

On characterizations of learnability with computable learners ( http://arxiv.org/abs/2202.05041v1 )

ライセンス: Link先を確認
Tom F. Sterkenburg(参考訳) Agarwal et al. (2020) が導入した計算可能PAC学習について検討した。 まず、適切な、不適切なCPAC学習の特徴を見出すための主要なオープンな問題を考える。 Agarwal et al. (2021) によるオープンな問題に対する否定的な答えとして, 決定可能なPAC学習クラスが不適切にCPAC学習可能かどうかを述べる。 第2に,pac学習能力の非決定性について考察する。 このような不決定性を示すための単純で一般的な議論を行い、学習可能性の算術的複雑さの研究を開始する。 Agarwal et al の業績を動機づけた Ben-David et al. (2019) の未決定結果との関連について, 簡潔に論じる。

We study computable PAC (CPAC) learning as introduced by Agarwal et al. (2020). First, we consider the main open question of finding characterizations of proper and improper CPAC learning. We give a characterization of a closely related notion of strong CPAC learning, and we provide a negative answer to the open problem posed by Agarwal et al. (2021) whether all decidable PAC learnable classes are improperly CPAC learnable. Second, we consider undecidability of (computable) PAC learnability. We give a simple and general argument to exhibit such undecidability, and we initiate a study of the arithmetical complexity of learnability. We briefly discuss the relation to the undecidability result of Ben-David et al. (2019), that motivated the work of Agarwal et al.
翻訳日:2022-02-11 16:28:26 公開日:2022-02-10
# Quantune: 高速展開のための極勾配ブーストを用いた畳み込みニューラルネットワークのトレーニング後の量子化

Quantune: Post-training Quantization of Convolutional Neural Networks using Extreme Gradient Boosting for Fast Deployment ( http://arxiv.org/abs/2202.05048v1 )

ライセンス: Link先を確認
Jemin Lee, Misun Yu, Yongin Kwon, Teaho Kim(参考訳) 資源制約対象の範囲に畳み込みニューラルネットワーク(cnn)を採用するには、量子化を行うことでcnnモデルを圧縮し、精度表現を低ビット表現に変換する必要がある。 トレーニングデータセットの感度、高い計算要求、そして大きな時間消費といった問題を克服するために、再トレーニングを必要としないトレーニング後の量子化手法が提案されている。 さらに, 再トレーニングを伴わない精度低下を補うために, キャリブレーション, スキーム, クリッピング, 粒度, 混合精度の2つの相補的手法が提案されている。 最小誤差で量子化モデルを生成するためには,それぞれが相補的であり,CNNモデルが異なる特性を持つため,メソッドの可能な組み合わせについて検討する必要がある。 しかし、徹底的な検索やヒューリスティック検索は時間がかかりすぎるか、最適ではない。 この課題を克服するために, 傾斜木ブースティングモデルを構築し, 量子化構成の探索を高速化し, 量子化誤差を低減させる, quantune と呼ばれる自動チューナーを提案する。 我々はQuantuneをランダム、グリッド、遺伝的アルゴリズムと比較した。 実験の結果、量子化の探索時間を約36.5倍に短縮し、6つのcnnモデル (mobilenet, squeezenet, shufflenet) において0.07~0.65%の精度損失を示した。 複数のターゲットをサポートし、継続的に進化する量子化作業を採用するために、Quantuneは、オープンソースのプロジェクトとしてディープラーニングのための本格的なコンパイラに実装されている。

To adopt convolutional neural networks (CNN) for a range of resource-constrained targets, it is necessary to compress the CNN models by performing quantization, whereby precision representation is converted to a lower bit representation. To overcome problems such as sensitivity of the training dataset, high computational requirements, and large time consumption, post-training quantization methods that do not require retraining have been proposed. In addition, to compensate for the accuracy drop without retraining, previous studies on post-training quantization have proposed several complementary methods: calibration, schemes, clipping, granularity, and mixed-precision. To generate a quantized model with minimal error, it is necessary to study all possible combinations of the methods because each of them is complementary and the CNN models have different characteristics. However, an exhaustive or a heuristic search is either too time-consuming or suboptimal. To overcome this challenge, we propose an auto-tuner known as Quantune, which builds a gradient tree boosting model to accelerate the search for the configurations of quantization and reduce the quantization error. We evaluate and compare Quantune with the random, grid, and genetic algorithms. The experimental results show that Quantune reduces the search time for quantization by approximately 36.5x with an accuracy loss of 0.07 ~ 0.65% across six CNN models, including the fragile ones (MobileNet, SqueezeNet, and ShuffleNet). To support multiple targets and adopt continuously evolving quantization works, Quantune is implemented on a full-fledged compiler for deep learning as an open-sourced project.
翻訳日:2022-02-11 16:28:11 公開日:2022-02-10
# 複雑性とリプシッツ定数の制御は多項式ネットを改善する

Controlling the Complexity and Lipschitz Constant improves polynomial nets ( http://arxiv.org/abs/2202.05068v1 )

ライセンス: Link先を確認
Zhenyu Zhu, Fabian Latorre, Grigorios G Chrysos, Volkan Cevher(参考訳) Polynomial Netsのクラスは、ニューラルネットワーク(NN)に匹敵する性能を示しているが、理論上の一般化特性や堅牢性保証は持っていない。 この目的のために、我々は、$\ell_\infty$-operat or-norm と $\ell_2$-operator norm の観点から、ポリノミアルネットの結合CP-分解(CCP)とNested Coupled CP-分解(NCP)モデルに対する新しい複雑性境界を導出する。 さらに、両方のモデルに対するリプシッツ定数のバウンダリを導出し、その堅牢性の理論的証明を確立する。 理論的には、6つのデータセットで実験的に評価し、モデルの頑健さと逆摂動に対するモデルのロバスト性を示す原理的正規化スキームを提案することができる。 この正規化と敵のトレーニングを組み合わせることで、さらなる改善が得られます。

While the class of Polynomial Nets demonstrates comparable performance to neural networks (NN), it currently has neither theoretical generalization characterization nor robustness guarantees. To this end, we derive new complexity bounds for the set of Coupled CP-Decomposition (CCP) and Nested Coupled CP-decomposition (NCP) models of Polynomial Nets in terms of the $\ell_\infty$-operat or-norm and the $\ell_2$-operator norm. In addition, we derive bounds on the Lipschitz constant for both models to establish a theoretical certificate for their robustness. The theoretical results enable us to propose a principled regularization scheme that we also evaluate experimentally in six datasets and show that it improves the accuracy as well as the robustness of the models to adversarial perturbations. We showcase how this regularization can be combined with adversarial training, resulting in further improvements.
翻訳日:2022-02-11 16:27:42 公開日:2022-02-10
# 差分プライバシーを用いたディープラーニングのためのバックプロパゲーションクリッピング

Backpropagation Clipping for Deep Learning with Differential Privacy ( http://arxiv.org/abs/2202.05089v1 )

ライセンス: Link先を確認
Timothy Stevens, Ivoline C. Ngong, David Darais, Calvin Hirsch, David Slater, Joseph P. Near(参考訳) プライバシー保護型深層学習のためのDP-SGDの新たな変種であるバックプロパゲーション・クリッピングを提案する。 提案手法では, トレーニング可能な各層の入力(前方通過時)と上流勾配(後方通過時)をクリップし, 既存のDP-SGD変種における勾配クリッピングのステップを置き換える。 私たちのアプローチは、既存のディープラーニングフレームワークの実装が簡単です。 実証評価の結果, バックプロパゲーション・クリッピングは, プライバシパラメータ$\epsilon$の低い値で, 従来よりも高い精度が得られることが示された。 mnistは$\epsilon = 0.07$、cifar-10は$\epsilon = 3.64$で98.7%、精度は74%である。

We present backpropagation clipping, a novel variant of differentially private stochastic gradient descent (DP-SGD) for privacy-preserving deep learning. Our approach clips each trainable layer's inputs (during the forward pass) and its upstream gradients (during the backward pass) to ensure bounded global sensitivity for the layer's gradient; this combination replaces the gradient clipping step in existing DP-SGD variants. Our approach is simple to implement in existing deep learning frameworks. The results of our empirical evaluation demonstrate that backpropagation clipping provides higher accuracy at lower values for the privacy parameter $\epsilon$ compared to previous work. We achieve 98.7% accuracy for MNIST with $\epsilon = 0.07$ and 74% accuracy for CIFAR-10 with $\epsilon = 3.64$.
翻訳日:2022-02-11 16:27:23 公開日:2022-02-10
# DDA3C:グループエージェントシステムにおける協調分散深層強化学習

DDA3C: Cooperative Distributed Deep Reinforcement Learning in A Group-Agent System ( http://arxiv.org/abs/2202.05135v1 )

ライセンス: Link先を確認
Kaiyue Wu, Xiao-Jun Zeng(参考訳) 複数のエージェントが個別の強化学習タスクを協調して実行する場合、各エージェントの強化学習プロセスに大きなメリットがある。 これらのタスクは必ずしも同じではないが、タスクの類似性からエージェント間の通信行動の恩恵を受ける。 実際、この学習シナリオはまだよく理解されておらず、十分に定式化されていない。 まず,本シナリオに関する詳細な議論を行い,本シナリオにおける強化学習問題の定式化としてグループエージェント強化学習と,シングルエージェントとマルチエージェント強化学習に関する第3のタイプの強化学習問題を提案する。 グループエージェント強化学習のための最初のフレームワークであるDDA3C (Decentralized Distributed Asynchronous Advantage Actor-Critic) と呼ばれる分散強化学習アルゴリズムを提案する。 我々はDDA3Cが望ましい性能を達成し、スケーラビリティに優れたCartPole-v0ゲーム環境での実験を通して示す。

It can largely benefit the reinforcement learning process of each agent if multiple agents perform their separate reinforcement learning tasks cooperatively. These tasks can be not exactly the same but still benefit from the communication behaviour between agents due to task similarities. In fact, this learning scenario is not well understood yet and not well formulated. As the first effort, we provide a detailed discussion of this scenario, and propose group-agent reinforcement learning as a formulation of the reinforcement learning problem under this scenario and a third type of reinforcement learning problem with respect to single-agent and multi-agent reinforcement learning. We propose that it can be solved with the help of modern deep reinforcement learning techniques and provide a distributed deep reinforcement learning algorithm called DDA3C (Decentralised Distributed Asynchronous Advantage Actor-Critic) that is the first framework designed for group-agent reinforcement learning. We show through experiments in the CartPole-v0 game environment that DDA3C achieved desirable performance and has good scalability.
翻訳日:2022-02-11 16:27:05 公開日:2022-02-10
# 層入力中の量子化は物質である

Quantization in Layer's Input is Matter ( http://arxiv.org/abs/2202.05137v1 )

ライセンス: Link先を確認
Daning Cheng, WenGuang Chen(参考訳) 本稿では、損失関数に対するパラメータの量子化よりも、層の入力における量子化が重要であることを示す。 また,入力量子化誤差に基づくアルゴリズムはヘッセン系混合精度レイアウトアルゴリズムよりも優れている。

In this paper, we will show that the quantization in layer's input is more important than parameters' quantization for loss function. And the algorithm which is based on the layer's input quantization error is better than hessian-based mixed precision layout algorithm.
翻訳日:2022-02-11 16:26:50 公開日:2022-02-10
# Deadwooding: ディープニューラルネットワークのためのロバストなグローバルプルーニング

Deadwooding: Robust Global Pruning for Deep Neural Networks ( http://arxiv.org/abs/2202.05226v1 )

ライセンス: Link先を確認
Sawinder Kaur, Ferdinando Fioretto, Asif Salekin (Syracuse University, USA)(参考訳) ディープニューラルネットワークが高度に複雑な関数を近似する能力は、その成功の鍵である。 しかし、この利点は、リソース制約のある環境でのデプロイメントに挑戦する大きなモデルサイズのコストにしばしば伴う。 この問題を抑えるため、プルーニング技術はモデルにスパーシリティをもたらすが、精度と対向ロバスト性を犠牲にすることができる。 本稿では,これらの問題に対処し,ラグランジュ双対法を応用し,精度を維持しつつ頑健性を確保する新しい刈り取り手法であるdeadwoodingを紹介する。 得られたモデルは、ロバスト性および精度の測定における最先端の研究を著しく上回ることを示す。

The ability of Deep Neural Networks to approximate highly complex functions is the key to their success. This benefit, however, often comes at the cost of a large model size, which challenges their deployment in resource-constrained environments. To limit this issue, pruning techniques can introduce sparsity in the models, but at the cost of accuracy and adversarial robustness. This paper addresses these critical issues and introduces Deadwooding, a novel pruning technique that exploits a Lagrangian Dual method to encourage model sparsity while retaining accuracy and ensuring robustness. The resulting model is shown to significantly outperform the state-of-the-art studies in measures of robustness and accuracy.
翻訳日:2022-02-11 16:25:08 公開日:2022-02-10
# ランダムニューラルネットワークにおける深層学習:ニューラルタンジェントカーネルによる数値実験

Deep Learning in Random Neural Fields: Numerical Experiments via Neural Tangent Kernel ( http://arxiv.org/abs/2202.05254v1 )

ライセンス: Link先を確認
Kaito Watanabe, Kotaro Sakamoto, Ryo Karakida, Sho Sonoda, Shun-ichi Amari(参考訳) 大脳皮質の生物学的ニューラルネットワークは神経野を形成する。 フィールド内のニューロンは、それぞれの受容野を持ち、2つのニューロン間の結合重みはランダムであるが、受容野に近接すると高い相関性を持つ。 本稿では,多層構造におけるそのようなニューラルネットワークについて検討し,その教師付き学習について検討する。 フィールドモデルとランダムに接続されたディープネットワークの性能を実証的に比較する。 ランダムに接続されたネットワークの挙動は、過パラメータネットワークの機械学習理論における最近の発展であるニューラル・タンジェント・カーネル・レジーム(neural tangent kernel regime)の鍵となる考え方に基づいて研究され、ほとんどのランダムに接続されたニューラルネットワークにおいて、大域的ミニマは常にその小さな近傍に存在することが示されている。 我々は、この主張が我々の神経場にも当てはまることを数値的に示す。 より詳しくは、私たちのモデルには2つの構造があります。 一 フィールド内の各ニューロンは、連続的に分布する受容野を有し、 二 初期接続重みは、ランダムであるが独立性がなく、各層にニューロンの位置が近いとき、相関関係を有する。 このような多層ニューラルネットワークは, 入力パターンが雑音外乱により変形する場合, 従来のモデルよりも頑健であることを示す。 さらに、その一般化能力は従来のモデルよりもわずかに優れている。

A biological neural network in the cortex forms a neural field. Neurons in the field have their own receptive fields, and connection weights between two neurons are random but highly correlated when they are in close proximity in receptive fields. In this paper, we investigate such neural fields in a multilayer architecture to investigate the supervised learning of the fields. We empirically compare the performances of our field model with those of randomly connected deep networks. The behavior of a randomly connected network is investigated on the basis of the key idea of the neural tangent kernel regime, a recent development in the machine learning theory of over-parameterized networks; for most randomly connected neural networks, it is shown that global minima always exist in their small neighborhoods. We numerically show that this claim also holds for our neural fields. In more detail, our model has two structures: i) each neuron in a field has a continuously distributed receptive field, and ii) the initial connection weights are random but not independent, having correlations when the positions of neurons are close in each layer. We show that such a multilayer neural field is more robust than conventional models when input patterns are deformed by noise disturbances. Moreover, its generalization ability can be slightly superior to that of conventional models.
翻訳日:2022-02-11 16:24:52 公開日:2022-02-10
# warded datalog+における算術の複雑さ

Complexity of Arithmetic in Warded Datalog+- ( http://arxiv.org/abs/2202.05086v1 )

ライセンス: Link先を確認
Lucas Berent, Markus Nissl, Emanuel Sallinger(参考訳) warded datalog+- 論理ベースの言語datalogをルールヘッドに存在量化子で拡張する。 存在規則は、例えば存在論的推論のような高度な推論タスクのために必要である。 warded datalog+-の理論的効率保証は、算術のようなデータ分析に不可欠な拡張はカバーしない。 さらに、一般的なデータ分析シナリオにおける算術の重要性にもかかわらず、算術によって拡張されたdatalog+-言語の決定可能な断片は特定されていない。 我々はWarded Datalog+を算術で拡張し、P完全性を証明する新しい言語を定義することで、このギャップを埋める。 さらに,新たに定義された言語に対する効率的な推論アルゴリズムを提案し,最近導入された整数演算によるデータログフラグメントの記述的複雑性を証明し,オープン質問を閉じる。 我々は、知識グラフのような現代のAIシステムにおけるアプリケーションに対する効率的な推論アルゴリズムを保証しながら、高度な再帰規則と算術の力を組み合わせた、高度に表現力のあるDatalog+言語の理論基盤を定めている。

Warded Datalog+- extends the logic-based language Datalog with existential quantifiers in rule heads. Existential rules are needed for advanced reasoning tasks, e.g., ontological reasoning. The theoretical efficiency guarantees of Warded Datalog+- do not cover extensions crucial for data analytics, such as arithmetic. Moreover, despite the significance of arithmetic for common data analytic scenarios, no decidable fragment of any Datalog+- language extended with arithmetic has been identified. We close this gap by defining a new language that extends Warded Datalog+- with arithmetic and prove its P-completeness. Furthermore, we present an efficient reasoning algorithm for our newly defined language and prove descriptive complexity results for a recently introduced Datalog fragment with integer arithmetic, thereby closing an open question. We lay the theoretical foundation for highly expressive Datalog+- languages that combine the power of advanced recursive rules and arithmetic while guaranteeing efficient reasoning algorithms for applications in modern AI systems, such as Knowledge Graphs.
翻訳日:2022-02-11 16:24:32 公開日:2022-02-10
# 移動可能かつ適応可能な運転行動予測

Transferable and Adaptable Driving Behavior Prediction ( http://arxiv.org/abs/2202.05140v1 )

ライセンス: Link先を確認
Letian Wang, Yeping Hu, Liting Sun, Wei Zhan, Masayoshi Tomizuka, Changliu Liu(参考訳) 自動運転車はいまだに路上運転の難題を解決するのに苦労しているが、人間は効率的で、移動可能で、適応可能な運転能力を持つ運転の本質を長年マスターしてきた。 運転中の人間の認知モデルと意味理解を模倣することにより,マルチエージェントの密集した交通環境における運転行動に対する高品質,転送可能,適応可能な予測を生成する階層的フレームワーク hatn を提案する。 我々の階層的手法は、高レベルの意図識別ポリシーと低レベルの軌道生成ポリシーからなる。 各サブタスクに対して,新しい意味的サブタスク定義と汎用状態表現を導入する。 これらのテクニックにより、階層的フレームワークはさまざまな駆動シナリオにまたがって転送可能である。 さらに,オンライン適応モジュールによって,個人とシナリオ間の運転行動の変動を捉えることが可能である。 対話データセットからの交差点・ラウンドアバウトにおける実交通データの軌道予測タスクにおいて,提案アルゴリズムを実演する。 本手法は, 予測精度, 伝達性, 適応性において, 他の手法よりも優れていたことが明らかとなった。 最先端のパフォーマンスをかなりの差で推し進めることで、このような改善の背後にある運転行動を理解するための認知的視点も提供します。 将来的には、より多くの研究の注意と努力が、転送性と適応性にふさわしいことを強調する。 予測と計画アルゴリズムのパフォーマンス向上が期待できるだけでなく、より基本的なのは、自動運転車のスケーラブルで一般的な展開に欠かせないことだ。

While autonomous vehicles still struggle to solve challenging situations during on-road driving, humans have long mastered the essence of driving with efficient, transferable, and adaptable driving capability. By mimicking humans' cognition model and semantic understanding during driving, we propose HATN, a hierarchical framework to generate high-quality, transferable, and adaptable predictions for driving behaviors in multi-agent dense-traffic environments. Our hierarchical method consists of a high-level intention identification policy and a low-level trajectory generation policy. We introduce a novel semantic sub-task definition and generic state representation for each sub-task. With these techniques, the hierarchical framework is transferable across different driving scenarios. Besides, our model is able to capture variations of driving behaviors among individuals and scenarios by an online adaptation module. We demonstrate our algorithms in the task of trajectory prediction for real traffic data at intersections and roundabouts from the INTERACTION dataset. Through extensive numerical studies, it is evident that our method significantly outperformed other methods in terms of prediction accuracy, transferability, and adaptability. Pushing the state-of-the-art performance by a considerable margin, we also provide a cognitive view of understanding the driving behavior behind such improvement. We highlight that in the future, more research attention and effort are deserved for transferability and adaptability. It is not only due to the promising performance elevation of prediction and planning algorithms, but more fundamentally, they are crucial for the scalable and general deployment of autonomous vehicles.
翻訳日:2022-02-11 16:24:15 公開日:2022-02-10
# 変分量子深部Qネットワークにおける不安定性の解明

Uncovering Instabilities in Variational-Quantum Deep Q-Networks ( http://arxiv.org/abs/2202.05195v1 )

ライセンス: Link先を確認
Maja Franz (1), Lucas Wolf (1), Maniraman Periyasamy (2), Christian Ufrecht (2), Daniel D. Scherer (2), Axel Plinge (2), Christopher Mutschler (2), Wolfgang Mauerer (1,3) ((1) Technical University of Applied Sciences, Regensburg, Germany, (2) Fraunhofer-IIS, Fraunhofer Institute for Integrated Circuits IIS, Division Positioning and Networks, Nuremberg, Germany, (3) Siemens AG, Corporate Research, Munich, Germany)(参考訳) 深層強化学習(rl)は過去10年間でかなり進歩してきた。 同時に、最先端のRLアルゴリズムは、収束するトレーニング時間の観点から大きな計算予算を必要とする。 最近の研究は量子コンピューティングのレンズを通じてこの問題にアプローチし始めており、これは伝統的に難しいタスクの理論的スピードアップを約束している。 本研究では,変分量子深層q-networks (vq-dqn) と呼ぶハイブリッド量子古典型rlアルゴリズムのクラスについて検討する。 本研究は,vq-dqnの手法が,学習方針のばらつきを引き起こす不安定性,古典的シミュレーションに基づく確立された結果の再現性に苦しむ程度,観察された不安定性に対する潜在的な説明を同定するための系統的実験を行うものであることを示す。 さらに、量子強化学習に関するほとんどの研究とは対照的に、実際の量子処理ユニット(ibm量子デバイス)上でrlアルゴリズムを実行し、実装の欠陥に苦しむシミュレーション量子システムと物理量子システムの動作の違いを調査した。 我々の実験は、文献の反対の主張とは対照的に、既知の量子アプローチが物理的不完全性のないシミュレートされたとしても、古典的なアプローチに比べて有利であるかどうかを決定的に決定できないことを示した。 最後に、VQ-DQNの堅牢で普遍的で十分に検証された実装を、将来の実験のための再現可能なテストベッドとして提供する。

Deep Reinforcement Learning (RL) has considerably advanced over the past decade. At the same time, state-of-the-art RL algorithms require a large computational budget in terms of training time to converge. Recent work has started to approach this problem through the lens of quantum computing, which promises theoretical speed-ups for several traditionally hard tasks. In this work, we examine a class of hybrid quantumclassical RL algorithms that we collectively refer to as variational quantum deep Q-networks (VQ-DQN). We show that VQ-DQN approaches are subject to instabilities that cause the learned policy to diverge, study the extent to which this afflicts reproduciblity of established results based on classical simulation, and perform systematic experiments to identify potential explanations for the observed instabilities. Additionally, and in contrast to most existing work on quantum reinforcement learning, we execute RL algorithms on an actual quantum processing unit (an IBM Quantum Device) and investigate differences in behaviour between simulated and physical quantum systems that suffer from implementation deficiencies. Our experiments show that, contrary to opposite claims in the literature, it cannot be conclusively decided if known quantum approaches, even if simulated without physical imperfections, can provide an advantage as compared to classical approaches. Finally, we provide a robust, universal and well-tested implementation of VQ-DQN as a reproducible testbed for future experiments.
翻訳日:2022-02-11 16:23:51 公開日:2022-02-10
# 相関関数のマッピングとしてのニューラルネットワークの分解

Decomposing neural networks as mappings of correlation functions ( http://arxiv.org/abs/2202.04925v1 )

ライセンス: Link先を確認
Kirsten Fischer, Alexandre Ren\'e, Christian Keup, Moritz Layer, David Dahmen, Moritz Helias(参考訳) 深層ニューラルネットワークにおける情報処理の機能原理を理解することは、特にトレーニング済みで非ランダムな重みを持つネットワークにとって、依然として課題である。 そこで本研究では,ディープフィードフォワードネットワークによって実現される確率分布のマッピングについて検討する。 この写像を、各層内の非線形性が相関関数の異なる次数の間で情報を伝達する分布の反復変換として特徴づける。 これにより、データの本質的な統計や、ニューラルネットワークで使用できるさまざまな情報表現を識別することができます。 XOR タスクと MNIST に適用すると,2階までの相関関係が内部層における情報処理を主に捉えているのに対し,入力層はデータから高次相関関係を抽出する。 この分析は分類に関する定量的かつ説明可能な視点を提供する。

Understanding the functional principles of information processing in deep neural networks continues to be a challenge, in particular for networks with trained and thus non-random weights. To address this issue, we study the mapping between probability distributions implemented by a deep feed-forward network. We characterize this mapping as an iterated transformation of distributions, where the non-linearity in each layer transfers information between different orders of correlation functions. This allows us to identify essential statistics in the data, as well as different information representations that can be used by neural networks. Applied to an XOR task and to MNIST, we show that correlations up to second order predominantly capture the information processing in the internal layers, while the input layer also extracts higher-order correlations from the data. This analysis provides a quantitative and explainable perspective on classification.
翻訳日:2022-02-11 16:23:28 公開日:2022-02-10
# ICASSP 2022多チャンネル会議転写(M2MeT)のためのUSTC-Ximalayaシステム

The USTC-Ximalaya system for the ICASSP 2022 multi-channel multi-party meeting transcription (M2MeT) challenge ( http://arxiv.org/abs/2202.04855v1 )

ライセンス: Link先を確認
Maokui He and Xiang Lv and Weilin Zhou and JingJing Yin and Xiaoqi Zhang and Yuxuan Wang and Shutong Niu and Yuhang Cao and Heng Lu and Jun Du and Chin-Hui Lee(参考訳) 我々は,2022年にM2MeT(Multi-Channel Multi-Party Meeting Transcription)に提案された話者ダイアリゼーションシステムの中核となるターゲットスピーカ音声活動検出(TS-VAD)の2つの改良点を提案する。 これらの手法は,高話者オーバラップ比,高残響・雑音条件下での実世界会議シナリオにおける多話者会話を処理するように設計されている。 まず、TS-VADモデルのトレーニングにおけるデータ準備と強化のために、実際の会議と模擬屋内会話の両方を含む音声データを用いる。 第2に,ts-vadに基づく復号後の精錬結果において,ダイアリゼーションエラー率(ders)低減に必要なvad結果を改善するために,一連の後処理を行う。 M2MeTで新たにリリースされたマンダリン会議データセットであるALIMEEING corpusを用いて,従来のクラスタリングによるEval/Testセットのダイアリゼーションと比較した場合,提案システムによりDERを66.55/60.59%削減できることを示す。

We propose two improvements to target-speaker voice activity detection (TS-VAD), the core component in our proposed speaker diarization system that was submitted to the 2022 Multi-Channel Multi-Party Meeting Transcription (M2MeT) challenge. These techniques are designed to handle multi-speaker conversations in real-world meeting scenarios with high speaker-overlap ratios and under heavy reverberant and noisy condition. First, for data preparation and augmentation in training TS-VAD models, speech data containing both real meetings and simulated indoor conversations are used. Second, in refining results obtained after TS-VAD based decoding, we perform a series of post-processing steps to improve the VAD results needed to reduce diarization error rates (DERs). Tested on the ALIMEETING corpus, the newly released Mandarin meeting dataset used in M2MeT, we demonstrate that our proposed system can decrease the DER by up to 66.55/60.59% relatively when compared with classical clustering based diarization on the Eval/Test set.
翻訳日:2022-02-11 16:21:29 公開日:2022-02-10
# カーネル密度推定とスケール空間表現を用いたマルチクラスヒストグラムによる閾値決定

Multiclass histogram-based thresholding using kernel density estimation and scale-space representations ( http://arxiv.org/abs/2202.04785v1 )

ライセンス: Link先を確認
S. Korneev, J. Gilles, I. Battiato(参考訳) 本稿では,非パラメトリックカーネル密度(KD)推定に基づくヒストグラムのマルチクラスしきい値化手法を提案する。 提案手法は,KD推定値から抽出した最小値の数と要求クラスタ数とを比較した。 これらの数値が一致する場合、アルゴリズムはしきい値としてミニマの位置を返し、そうでなければ、数値が一致するまで徐々にカーネル帯域幅を減少/増加させる。 本手法は,合成ヒストグラムとしきい値の既知値を用いて,実X線CT画像のヒストグラムを用いて検証する。 実際のヒストグラムのしきい値化後,試料の気孔率を推定し,直接測定値と比較した。 比較は閾値の有意性を示している。

We present a new method for multiclass thresholding of a histogram which is based on the nonparametric Kernel Density (KD) estimation, where the unknown parameters of the KD estimate are defined using the Expectation-Maximiza tion (EM) iterations. The method compares the number of extracted minima of the KD estimate with the number of the requested clusters minus one. If these numbers match, the algorithm returns positions of the minima as the threshold values, otherwise, the method gradually decreases/increases the kernel bandwidth until the numbers match. We verify the method using synthetic histograms with known threshold values and using the histogram of real X-ray computed tomography images. After thresholding of the real histogram, we estimated the porosity of the sample and compare it with the direct experimental measurements. The comparison shows the meaningfulness of the thresholding.
翻訳日:2022-02-11 16:21:06 公開日:2022-02-10
# 歴史地図からの道路網の大規模自動再構築に向けて

Towards the automated large-scale reconstruction of past road networks from historical maps ( http://arxiv.org/abs/2202.04883v1 )

ライセンス: Link先を確認
Johannes H. Uhl, Stefan Leyk, Yao-Yi Chiang, and Craig A. Knoblock(参考訳) 道路や鉄道網などの交通インフラは、我々の文明の基本的な構成要素である。 持続可能な計画と意思決定には,道路網などの交通インフラの長期的発展の理解が不可欠である。 しかし,2000年代以前の空間的範囲を網羅する空間的明示的多時的道路網データはほとんど得られなかった。 そこで本研究では,従来の道路網を再構築する上で,地図から抽出した道路網データとカラー情報を統合することで,スキャンやジオレファレンスによる歴史地図シリーズを利用できるフレームワークを提案する。 具体的には,現代の道路セグメントを分析単位として,画像処理とクラスタリング技術に基づき,歴史地図シリーズにおけるその存在を推定し,歴史的道路を抽出する。 1890年から1950年までの53の歴史的地形図表を網羅する3つの研究領域にまたがって,米国内の道路網の5万km以上を表す30,000以上の道路セグメントで実験を行った。 提案手法を,他の過去のデータセットと比較し,手作業による参照データと比較して評価し,F-1スコアを最大0.95まで達成し,抽出した道路網の統計値が時間とともに高い確率,すなわち全般的な成長パターンに従うことを示した。 歴史的地図シリーズから抽出した情報と統合された現代地理空間データが,遠隔操作型リモートセンシングやデジタルカルトグラフィー以上の長期都市化過程と景観変化を定量的に分析するための新たな道を開くことを実証した。

Transportation infrastructure, such as road or railroad networks, represent a fundamental component of our civilization. For sustainable planning and informed decision making, a thorough understanding of the long-term evolution of transportation infrastructure such as road networks is crucial. However, spatially explicit, multi-temporal road network data covering large spatial extents are scarce and rarely available prior to the 2000s. Herein, we propose a framework that employs increasingly available scanned and georeferenced historical map series to reconstruct past road networks, by integrating abundant, contemporary road network data and color information extracted from historical maps. Specifically, our method uses contemporary road segments as analytical units and extracts historical roads by inferring their existence in historical map series based on image processing and clustering techniques. We tested our method on over 300,000 road segments representing more than 50,000 km of the road network in the United States, extending across three study areas that cover 53 historical topographic map sheets dated between 1890 and 1950. We evaluated our approach by comparison to other historical datasets and against manually created reference data, achieving F-1 scores of up to 0.95, and showed that the extracted road network statistics are highly plausible over time, i.e., following general growth patterns. We demonstrated that contemporary geospatial data integrated with information extracted from historical map series open up new avenues for the quantitative analysis of long-term urbanization processes and landscape changes far beyond the era of operational remote sensing and digital cartography.
翻訳日:2022-02-11 16:20:51 公開日:2022-02-10
# 単調に収束する正規化

Monotonically Convergent Regularization by Denoising ( http://arxiv.org/abs/2202.04961v1 )

ライセンス: Link先を確認
Yuyang Hu, Jiaming Liu, Xiaojian Xu, and Ulugbek S. Kamilov(参考訳) デノイジングによる正規化(red)は、画像デノワザを画像優先として利用することで逆問題を解くために広く使われているフレームワークである。 最近の研究は、事前訓練されたディープニューラルネットをデノイザーとして使用した多くのイメージングアプリケーションにおいてREDの最先端性能を報告している。 近年の進歩にもかかわらず、REDアルゴリズムの安定収束は未解決の問題である。 既存のレッド理論は、凸データ忠実性項と非拡張デノイザーの安定性のみを保証する。 この研究は、ディープ・デノゲーションの非拡張性を必要としない新しいモノトーンRED(MRED)アルゴリズムを開発することでこの問題に対処する。 ランダム行列からの画像劣化と圧縮センシング回復のシミュレーションは、従来のREDアルゴリズムが分岐しても、MREDの安定性を示す。

Regularization by denoising (RED) is a widely-used framework for solving inverse problems by leveraging image denoisers as image priors. Recent work has reported the state-of-the-art performance of RED in a number of imaging applications using pre-trained deep neural nets as denoisers. Despite the recent progress, the stable convergence of RED algorithms remains an open problem. The existing RED theory only guarantees stability for convex data-fidelity terms and nonexpansive denoisers. This work addresses this issue by developing a new monotone RED (MRED) algorithm, whose convergence does not require nonexpansiveness of the deep denoising prior. Simulations on image deblurring and compressive sensing recovery from random matrices show the stability of MRED even when the traditional RED algorithm diverges.
翻訳日:2022-02-11 16:20:28 公開日:2022-02-10
# コントラスト学習による顔の感情認識における大人の強化

Adults as Augmentations for Children in Facial Emotion Recognition with Contrastive Learning ( http://arxiv.org/abs/2202.05187v1 )

ライセンス: Link先を確認
Marco Virgolin, Andrea De Lorenzo, Tanja Alderliesten, Peter A. N. Bosman(参考訳) 子どもの感情認識は、がん治療のようなストレスの多い状況で生じる心理的合併症の早期発見、および介入に役立つ。 深層学習モデルが採用されつつあるが、小児医学におけるデータ不足は、小児の表情認識など、しばしば問題となっている。 本稿では,子どもの表情認識におけるデータ不足を克服するためのデータ強化型コントラスト学習の応用について検討する。 小児データに豊富な成人データを追加することで、世代間ギャップを無視する考え方を探求し、より良い表現を学習する。 本研究では,成人の表情画像と小児の表情画像の併用方法について検討する。 特に,子ども向けの拡張として,各ミニバッチアダルト画像に明示的に組み込むことを提案する。 840ドルの学習アプローチとトレーニングセットのサイズの組み合わせのうち、提案するトレーニングスキームとの教師ありコントラスト学習は、一般的に2番目に優れたアプローチの1つを2%から3%上回るテスト精度に達する。 以上の結果から,成人データは小児の感情的表情認識のための小児データの有意義な増補であり,小児と成人のデータを補完することにより,コントラスト学習の他の応用が小児のケアを改善する可能性が示唆された。

Emotion recognition in children can help the early identification of, and intervention on, psychological complications that arise in stressful situations such as cancer treatment. Though deep learning models are increasingly being adopted, data scarcity is often an issue in pediatric medicine, including for facial emotion recognition in children. In this paper, we study the application of data augmentation-based contrastive learning to overcome data scarcity in facial emotion recognition for children. We explore the idea of ignoring generational gaps, by adding abundantly available adult data to pediatric data, to learn better representations. We investigate different ways by which adult facial expression images can be used alongside those of children. In particular, we propose to explicitly incorporate within each mini-batch adult images as augmentations for children's. Out of $84$ combinations of learning approaches and training set sizes, we find that supervised contrastive learning with the proposed training scheme performs best, reaching a test accuracy that typically surpasses the one of the second-best approach by 2% to 3%. Our results indicate that adult data can be considered to be a meaningful augmentation of pediatric data for the recognition of emotional facial expression in children, and open up the possibility for other applications of contrastive learning to improve pediatric care by complementing data of children with that of adults.
翻訳日:2022-02-11 16:20:17 公開日:2022-02-10
# (参考訳) 最小ベイズリスク復号による機械翻訳メトリクスの弱さの同定:COMETを事例として [全文訳有]

Identifying Weaknesses in Machine Translation Metrics Through Minimum Bayes Risk Decoding: A Case Study for COMET ( http://arxiv.org/abs/2202.05148v1 )

ライセンス: CC BY 4.0
Chantal Amrhein and Rico Sennrich(参考訳) ニューラルメトリックスは、機械翻訳システムの評価において人間の判断と印象的な相関を実現したが、そのようなメトリクスを安全に最適化する前に、スコアの高い悪い翻訳に対して(理想的には)バイアスがあることを認識すべきである。 実験の結果,サンプルに基づく最小ベイズリスク復号法を用いて,そのような弱点を探索・定量化できることがわかった。 en-de と de-en の COMET にこの戦略を適用すると、COMET モデルは数値や名前の一致に十分敏感でないことが分かる。 さらに、これらのバイアスは、追加の合成データをトレーニングすることで完全に除去できないことを示す。

Neural metrics have achieved impressive correlation with human judgements in the evaluation of machine translation systems, but before we can safely optimise towards such metrics, we should be aware of (and ideally eliminate) biases towards bad translations that receive high scores. Our experiments show that sample-based Minimum Bayes Risk decoding can be used to explore and quantify such weaknesses. When applying this strategy to COMET for en-de and de-en, we find that COMET models are not sensitive enough to discrepancies in numbers and named entities. We further show that these biases cannot be fully removed by simply training on additional synthetic data.
翻訳日:2022-02-11 16:18:00 公開日:2022-02-10
# ロバスト人工知能システム保証(RAISA)ワークショップ2022の成果

Proceedings of the Robust Artificial Intelligence System Assurance (RAISA) Workshop 2022 ( http://arxiv.org/abs/2202.04787v1 )

ライセンス: Link先を確認
Olivia Brown, Brad Dillman(参考訳) robust artificial intelligence system assurance (raisa) workshopは、ロバストな人工知能(ai)と機械学習(ml)システムの研究、開発、応用に焦点を当てる。 私たちのアプローチは、特定のmlアルゴリズムに関して堅牢性を研究するのではなく、システムアーキテクチャレベルで、開発とデプロイメントの両方、そしてヒューマンマシン・チーム・コンテキスト内で堅牢性を保証することにあります。 研究コミュニティは特定のシナリオにおける個々のAIモデルに対するロバストなソリューションを集約しているが、AIシステムのライフサイクル全体にわたるロバスト性の評価と保証の問題は、はるかに複雑である。 さらに、AIシステムがデプロイされる運用コンテキストは、堅牢性とその公正性、プライバシ、説明可能性の原則との関係を考慮する必要がある。

The Robust Artificial Intelligence System Assurance (RAISA) workshop will focus on research, development and application of robust artificial intelligence (AI) and machine learning (ML) systems. Rather than studying robustness with respect to particular ML algorithms, our approach will be to explore robustness assurance at the system architecture level, during both development and deployment, and within the human-machine teaming context. While the research community is converging on robust solutions for individual AI models in specific scenarios, the problem of evaluating and assuring the robustness of an AI system across its entire life cycle is much more complex. Moreover, the operational context in which AI systems are deployed necessitates consideration of robustness and its relation to principles of fairness, privacy, and explainability.
翻訳日:2022-02-11 15:59:36 公開日:2022-02-10
# D2A-BSP: 予算制約下における性能保証を伴う蒸留データアソシエーションの空間計画

D2A-BSP: Distilled Data Association Belief Space Planning with Performance Guarantees Under Budget Constraints ( http://arxiv.org/abs/2202.04954v1 )

ライセンス: Link先を確認
Moshe Shienman and Vadim Indelman(参考訳) 曖昧で知覚に富んだ環境における未解決のデータアソシエーションは、ロボットと環境状態の両方にマルチモーダルな仮説をもたらす。 破滅的な結果を避けるため、あいまいな環境での運用においては、BSP(Belief Space Planning)内のデータ関連性について考えることが不可欠である。 しかし、すべての可能なデータ関連を明示的に考慮すると、仮説の数は計画の地平線と共に指数関数的に増加し、最適なアクションシーケンスの決定はすぐに難解になる。 さらに、無視できない仮説を定めなければならない厳しい予算制約がある場合、性能保証を達成することが不可欠である。 本研究では,BSP問題の解法として,蒸留された仮説のサブセットのみを利用する計算効率の良い新しい手法を提案する。 さらに,性能保証を実現するため,最適解に対する誤差境界を導出する。 そこで我々は,ソリューションの品質を損なうことなく,計算時間を大幅に削減する手法を提案する。

Unresolved data association in ambiguous and perceptually aliased environments leads to multi-modal hypotheses on both the robot's and the environment state. To avoid catastrophic results, when operating in such ambiguous environments, it is crucial to reason about data association within Belief Space Planning (BSP). However, explicitly considering all possible data associations, the number of hypotheses grows exponentially with the planning horizon and determining the optimal action sequence quickly becomes intractable. Moreover, with hard budget constraints where some non-negligible hypotheses must be pruned, achieving performance guarantees is crucial. In this work we present a computationally efficient novel approach that utilizes only a distilled subset of hypotheses to solve BSP problems while reasoning about data association. Furthermore, to provide performance guarantees, we derive error bounds with respect to the optimal solution. We then demonstrate our approach in an extremely aliased environment, where we manage to significantly reduce computation time without compromising on the quality of the solution.
翻訳日:2022-02-11 15:59:21 公開日:2022-02-10
# 拡散ブリッジベクトル量子化変分オートエンコーダ

Diffusion bridges vector quantized Variational AutoEncoders ( http://arxiv.org/abs/2202.04895v1 )

ライセンス: Link先を確認
Max Cohen (TSP, IP Paris, SAMOVAR), Guillaume Quispe (CMAP, IP Paris), Sylvain Le Corff (TSP, IP Paris, SAMOVAR), Charles Ollion (CMAP, IP Paris), Eric Moulines (CMAP, IP Paris)(参考訳) ベクトル量子化変分オートエンコーダ(vector quantized-variationa l autoencoder, vq-vae)はデータの離散的潜在表現に基づく生成モデルであり、入力は有限個の学習埋め込みにマッピングされる。 この前処理は概して非常に複雑であり、生成が遅くなる。 本研究では,プリエントとエンコーダ/デコーダネットワークを同時にトレーニングする新しいモデルを提案する。 連続符号化ベクトルと非インフォーマティブ事前分布との間の拡散ブリッジを構築する。 潜在離散状態は、これらの連続ベクトルのランダム関数として与えられる。 我々のモデルは,ミニイメージネットデータセットに先行する自己回帰と競合し,最適化とサンプリングの両面で非常に効率的であることを示す。 我々のフレームワークは標準VQ-VAEを拡張し、エンドツーエンドのトレーニングを可能にします。

Vector Quantised-Variationa l AutoEncoders (VQ-VAE) are generative models based on discrete latent representations of the data, where inputs are mapped to a finite set of learned embeddings.To generate new samples, an autoregressive prior distribution over the discrete states must be trained separately. This prior is generally very complex and leads to very slow generation. In this work, we propose a new model to train the prior and the encoder/decoder networks simultaneously. We build a diffusion bridge between a continuous coded vector and a non-informative prior distribution. The latent discrete states are then given as random functions of these continuous vectors. We show that our model is competitive with the autoregressive prior on the mini-Imagenet dataset and is very efficient in both optimization and sampling. Our framework also extends the standard VQ-VAE and enables end-to-end training.
翻訳日:2022-02-11 15:59:04 公開日:2022-02-10
# 自律走行シナリオにおけるYOLO検出器の逆攻撃と防御

Adversarial Attack and Defense of YOLO Detectors in Autonomous Driving Scenarios ( http://arxiv.org/abs/2202.04781v1 )

ライセンス: Link先を確認
Jung Im Choi, Qing Tian(参考訳) 視覚検出は自動運転における重要なタスクであり、自動運転計画と制御の基盤となっている。 ディープニューラルネットワークは様々なコンピュータビジョンタスクにおいて有望な結果を得たが、敵の攻撃に弱いことが知られている。 深い視覚検出器の脆弱性を包括的に理解するためには、ロバスト性を改善する必要がある。 しかし、対物検出に焦点を絞った敵対的な攻撃/防御活動はごくわずかであり、そのほとんどは、対象性面を無視して、分類および/または局所化の損失のみを採用した。 本稿では、YOLO検出器の真剣な対向性関連脆弱性を特定し、自律走行車における視覚的検出の客観性に着目した効果的な攻撃戦略を提案する。 さらに,このような脆弱性に対処するため,視覚的検出のための新たな対人学習手法を提案する。 実験の結果、対象のアスペクトをターゲットにした攻撃は、KITTIとCOCO_trafficデータセットの分類および/またはローカライゼーション損失から生成された攻撃よりも45.17%、43.50%有効であることが示されている。 また,提案手法は,KITTIおよびCOCO_traffic上で,最大21%と12%のmAPで対物攻撃に対する検出器の堅牢性を向上させることができる。

Visual detection is a key task in autonomous driving, and it serves as one foundation for self-driving planning and control. Deep neural networks have achieved promising results in various computer vision tasks, but they are known to be vulnerable to adversarial attacks. A comprehensive understanding of deep visual detectors' vulnerability is required before people can improve their robustness. However, only a few adversarial attack/defense works have focused on object detection, and most of them employed only classification and/or localization losses, ignoring the objectness aspect. In this paper, we identify a serious objectness-related adversarial vulnerability in YOLO detectors and present an effective attack strategy aiming the objectness aspect of visual detection in autonomous vehicles. Furthermore, to address such vulnerability, we propose a new objectness-aware adversarial training approach for visual detection. Experiments show that the proposed attack targeting the objectness aspect is 45.17% and 43.50% more effective than those generated from classification and/or localization losses on the KITTI and COCO_traffic datasets, respectively. Also, the proposed adversarial defense approach can improve the detectors' robustness against objectness-oriented attacks by up to 21% and 12% mAP on KITTI and COCO_traffic, respectively.
翻訳日:2022-02-11 15:57:46 公開日:2022-02-10
# 産業施設の幾何学的デジタル双晶:産業形状の検索

Geometric Digital Twinning of Industrial Facilities: Retrieval of Industrial Shapes ( http://arxiv.org/abs/2202.04834v1 )

ライセンス: Link先を確認
Eva Agapaki, Ioannis Brilakis(参考訳) 本稿では,既存の産業施設の個々のラベル付きポイントクラスタ(インスタンス)をCADモデルで正確にマッチングできる新しい形状検索手法を考案し,実装し,ベンチマークする。 画像とポイントクラウドのディープラーニングネットワークを組み合わせて、インスタンスを幾何学的に類似したCADモデルに分類し、マッチングする。 これは、ポイントクラウドデータから幾何学的デジタルツイン生成に関するこれまでの研究を拡張しています。 共同ネットワークを用いた実験により,CADモデルを85.2\%の精度で確実に検索できることが判明した。 提案された研究は、gemetry digital twin(gdt)パイプラインを可能にし、実際の幾何配置をデジタルツインに組み込む基本的な枠組みである。

This paper devises, implements and benchmarks a novel shape retrieval method that can accurately match individual labelled point clusters (instances) of existing industrial facilities with their respective CAD models. It employs a combination of image and point cloud deep learning networks to classify and match instances to their geometrically similar CAD model. It extends our previous research on geometric digital twin generation from point cloud data, which currently is a tedious, manual process. Experiments with our joint network reveal that it can reliably retrieve CAD models at 85.2\% accuracy. The proposed research is a fundamental framework to enable the geometric Digital Twin (gDT) pipeline and incorporate the real geometric configuration into the Digital Twin.
翻訳日:2022-02-11 15:56:21 公開日:2022-02-10
# 一貫性と多様性によるヒト運動分節化

Consistency and Diversity induced Human Motion Segmentation ( http://arxiv.org/abs/2202.04861v1 )

ライセンス: Link先を確認
Tao Zhou, Huazhu Fu, Chen Gong, Ling Shao, Fatih Porikli, Haibin Ling, Jianbing Shen(参考訳) サブスペースクラスタリングは、人間の動きのセグメンテーションやその他の関連するタスクに広く使われている古典的なテクニックである。 しかし、既存のセグメンテーション手法は、しばしば事前の知識からガイダンスなしでデータをクラスタリングし、不満足なセグメンテーション結果をもたらす。 そこで本研究では,CDMS(Consistency and Diversity induced Human Motion Segmentation)アルゴリズムを提案する。 具体的には,データソースとターゲットデータを異なる多層特徴空間に分解し,異なるレイヤ上でトランスファーサブスペース学習を行い,多層情報を取得する。 ソースデータとターゲットデータの間の領域ギャップを低減するために、マルチミューチュアル整合学習戦略を実行する。 このようにして、ドメイン固有知識とドメイン不変性は同時に探索できる。 さらに、ヒルベルト・シュミット独立基準(hsic)に基づく新しい制約を導入し、多レベル部分空間表現の多様性を確保し、多レベル表現の相補性を探求し、転置学習性能を向上させる。 さらに、時間的相関を維持するために、学習した表現係数とソースデータのマルチレベル表現に強化グラフ正規化器を課す。 提案手法は,ALMM(Alternating Direction Method of Multipliers)アルゴリズムを用いて効率よく解ける。 人体運動データセットの大規模な実験結果から,提案手法の有効性が示された。

Subspace clustering is a classical technique that has been widely used for human motion segmentation and other related tasks. However, existing segmentation methods often cluster data without guidance from prior knowledge, resulting in unsatisfactory segmentation results. To this end, we propose a novel Consistency and Diversity induced human Motion Segmentation (CDMS) algorithm. Specifically, our model factorizes the source and target data into distinct multi-layer feature spaces, in which transfer subspace learning is conducted on different layers to capture multi-level information. A multi-mutual consistency learning strategy is carried out to reduce the domain gap between the source and target data. In this way, the domain-specific knowledge and domain-invariant properties can be explored simultaneously. Besides, a novel constraint based on the Hilbert Schmidt Independence Criterion (HSIC) is introduced to ensure the diversity of multi-level subspace representations, which enables the complementarity of multi-level representations to be explored to boost the transfer learning performance. Moreover, to preserve the temporal correlations, an enhanced graph regularizer is imposed on the learned representation coefficients and the multi-level representations of the source data. The proposed model can be efficiently solved using the Alternating Direction Method of Multipliers (ADMM) algorithm. Extensive experimental results on public human motion datasets demonstrate the effectiveness of our method against several state-of-the-art approaches.
翻訳日:2022-02-11 15:56:07 公開日:2022-02-10
# FILM:大きな動きのためのフレーム補間

FILM: Frame Interpolation for Large Motion ( http://arxiv.org/abs/2202.04901v1 )

ライセンス: Link先を確認
Fitsum Reda, Janne Kontkanen, Eric Tabellion, Deqing Sun, Caroline Pantofaru, Brian Curless(参考訳) 本稿では,2つの入力画像から複数の中間フレームを合成するフレーム補間アルゴリズムを提案する。 最近の手法では、複数のネットワークを用いて光学的流れや深度を推定し、フレーム合成に特化したネットワークを分離している。 これはしばしば複雑で、光学的流れや深さの地中真実を欠く必要がある。 本稿では,すべてのスケールで重みを共有し,フレームのみから学習可能なマルチスケール特徴抽出器を用いて,単一の統一ネットワークを提案する。 明快なフレームを合成するために,特徴地図間の相関差を測定するグラム行列損失を用いたネットワークの最適化を提案する。 提案手法はXiph大運動ベンチマークの最先端手法より優れている。 また,知覚的損失を用いた手法と比較して,Vimeo-90K,Middlebur y,UCF101のスコアも高い。 本研究では,重量共有と運動範囲増加データセットを用いたトレーニングの効果について検討した。 最後に,本モデルの有効性を実証し,高画質映像と時間的コヒーレント映像を,難解な近重複写真データセット上で合成する。 コードと事前学習されたモデルはhttps://github.com/g oogle-research/frame -interpolationで入手できる。

We present a frame interpolation algorithm that synthesizes multiple intermediate frames from two input images with large in-between motion. Recent methods use multiple networks to estimate optical flow or depth and a separate network dedicated to frame synthesis. This is often complex and requires scarce optical flow or depth ground-truth. In this work, we present a single unified network, distinguished by a multi-scale feature extractor that shares weights at all scales, and is trainable from frames alone. To synthesize crisp and pleasing frames, we propose to optimize our network with the Gram matrix loss that measures the correlation difference between feature maps. Our approach outperforms state-of-the-art methods on the Xiph large motion benchmark. We also achieve higher scores on Vimeo-90K, Middlebury and UCF101, when comparing to methods that use perceptual losses. We study the effect of weight sharing and of training with datasets of increasing motion range. Finally, we demonstrate our model's effectiveness in synthesizing high quality and temporally coherent videos on a challenging near-duplicate photos dataset. Codes and pre-trained models are available at https://github.com/g oogle-research/frame -interpolation.
翻訳日:2022-02-11 15:55:44 公開日:2022-02-10
# 拡張提案によるリアルタイムシームズ多目的トラッカー

Real-Time Siamese Multiple Object Tracker with Enhanced Proposals ( http://arxiv.org/abs/2202.04966v1 )

ライセンス: Link先を確認
Lorenzo Vaquero, V\'ictor M. Brea, Manuel Mucientes(参考訳) リアルタイムビデオで複数のオブジェクトのアイデンティティを維持することは難しい作業であり、すべてのフレームで検出器を実行することは必ずしも不可能である。 したがって、ターゲット数に比例してスケールしない、あるいは意味情報に制限のある特徴を生み出す、動作推定システムが採用されることが多い。 上記の課題を解決し、多数の任意のオブジェクトをリアルタイムで追跡できるようにするため、SiamMOTIONを提案する。 SiamMOTIONは、アテンション機構と、慣性モジュールによって供給され、特徴ピラミッドネットワークによって駆動される関心領域抽出器によって品質特性を生成する新しい提案エンジンを含む。 最後に、抽出されたテンソルは、比較ヘッドに入力され、例示と探索領域のペアを効率的にマッチングし、ペアワイズ深さ領域提案ネットワークおよび多目的ペナリゼーションモジュールを介して品質予測を生成する。 SiamMOTIONは5つの公開ベンチマークで検証され、現在の最先端トラッカーに対して主要なパフォーマンスを達成した。

Maintaining the identity of multiple objects in real-time video is a challenging task, as it is not always possible to run a detector on every frame. Thus, motion estimation systems are often employed, which either do not scale well with the number of targets or produce features with limited semantic information. To solve the aforementioned problems and allow the tracking of dozens of arbitrary objects in real-time, we propose SiamMOTION. SiamMOTION includes a novel proposal engine that produces quality features through an attention mechanism and a region-of-interest extractor fed by an inertia module and powered by a feature pyramid network. Finally, the extracted tensors enter a comparison head that efficiently matches pairs of exemplars and search areas, generating quality predictions via a pairwise depthwise region proposal network and a multi-object penalization module. SiamMOTION has been validated on five public benchmarks, achieving leading performance against current state-of-the-art trackers.
翻訳日:2022-02-11 15:55:25 公開日:2022-02-10
# N\ "UWA-LIP": 欠陥のないVQGANによる言語ガイド画像の塗布

N\"UWA-LIP: Language Guided Image Inpainting with Defect-free VQGAN ( http://arxiv.org/abs/2202.05009v1 )

ライセンス: Link先を確認
Minheng Ni, Chenfei Wu, Haoyang Huang, Daxin Jiang, Wangmeng Zuo, Nan Duan(参考訳) 言語ガイド画像の塗装は、非欠陥領域を一定に保ちながら、テキストの指導の下で画像の欠陥領域を埋めることを目的としている。 しかし、既存のモデルの符号化プロセスは、欠陥領域の受容的拡散または非欠陥領域の情報損失のいずれかに悩まされ、視覚的に不適合な塗装結果をもたらす。 本稿では,欠陥のないVQGAN (DF-VQGAN) とマルチパースペクティブシーケンス (MP-S2S) を組み合わせたN\"UWA-LIPを提案する。 特に、DF-VQGANは、受容拡散を制御する相対推定を導入し、情報を保護するために対称接続を採用する。 MP-S2Sは、低レベル画素と高レベルトークンの両方を含む相補的な視点から視覚情報を強化する。 実験により、DF-VQGANはVQGANよりも頑丈であることが示された。 モデルの性能を評価するために,N\"UWA-LIPは最近の強力なベースラインよりも優れている3つのオープンベンチマークを構築した。

Language guided image inpainting aims to fill in the defective regions of an image under the guidance of text while keeping non-defective regions unchanged. However, the encoding process of existing models suffers from either receptive spreading of defective regions or information loss of non-defective regions, giving rise to visually unappealing inpainting results. To address the above issues, this paper proposes N\"UWA-LIP by incorporating defect-free VQGAN (DF-VQGAN) with multi-perspective sequence to sequence (MP-S2S). In particular, DF-VQGAN introduces relative estimation to control receptive spreading and adopts symmetrical connections to protect information. MP-S2S further enhances visual information from complementary perspectives, including both low-level pixels and high-level tokens. Experiments show that DF-VQGAN performs more robustness than VQGAN. To evaluate the inpainting performance of our model, we built up 3 open-domain benchmarks, where N\"UWA-LIP is also superior to recent strong baselines.
翻訳日:2022-02-11 15:55:07 公開日:2022-02-10
# 視覚トランスフォーマーを用いたイベントカメラにおける空間スパーシティの活用

Exploiting Spatial Sparsity for Event Cameras with Visual Transformers ( http://arxiv.org/abs/2202.05054v1 )

ライセンス: Link先を確認
Zuowen Wang, Yuhuang Hu, Shih-Chii Liu(参考訳) イベントカメラは、出力イベントの非同期ストリームを通じて、輝度の局所的な変化を報告します。 イベントは、明るさの変化が少ないピクセル位置で空間的にスパースである。 可変長入力の処理能力を活用するために視覚変換器(ViT)アーキテクチャを提案する。 vitへの入力は、タイムビンに蓄積されたイベントからなり、パッチと呼ばれる重複しないサブリージョンに空間的に分離される。 サブリージョン内の非ゼロ画素位置の数が閾値を超えると、パッチが選択される。 選択したアクティブパッチのViTモデルを微調整することにより,N-Caltech101データセットの分類精度をわずかに低下させる(0.34%)だけで,推論中にバックボーンに供給されるパッチの平均数を50%削減できることを示す。 この削減により、Multiply-Accumulate (MAC) 操作では51%が減少し、サーバCPUを使用した推論速度では46%が向上する。

Event cameras report local changes of brightness through an asynchronous stream of output events. Events are spatially sparse at pixel locations with little brightness variation. We propose using a visual transformer (ViT) architecture to leverage its ability to process a variable-length input. The input to the ViT consists of events that are accumulated into time bins and spatially separated into non-overlapping sub-regions called patches. Patches are selected when the number of nonzero pixel locations within a sub-region is above a threshold. We show that by fine-tuning a ViT model on the selected active patches, we can reduce the average number of patches fed into the backbone during the inference by at least 50% with only a minor drop (0.34%) of the classification accuracy on the N-Caltech101 dataset. This reduction translates into a decrease of 51% in Multiply-Accumulate (MAC) operations and an increase of 46% in the inference speed using a server CPU.
翻訳日:2022-02-11 15:54:46 公開日:2022-02-10
# マルチラベルテキスト分類のためのマルチリレーションメッセージパッシング

Multi-relation Message Passing for Multi-label Text Classification ( http://arxiv.org/abs/2202.04844v1 )

ライセンス: Link先を確認
Muberra Ozmen, Hao Zhang, Pengyun Wang, Mark Coates(参考訳) マルチラベル分類問題に関連するよく知られた課題は、ラベル間の依存関係のモデリングである。 ラベル依存をモデリングしようとするほとんどの試みは共起に焦点を合わせ、稀に発生するラベルサブセットを検出することで抽出できる貴重な情報を無視している。 例えば、顧客製品レビューを考えてみると、製品には"推奨"(レビュアーが満足して製品を推奨する)と"エージェント"(つまり、レビューは不満足な経験を直すための即時行動を提案する)の両方が同時にタグ付けされないでしょう。 正と負の依存関係を考慮すれば、関係の方向性も考慮すべきである。 マルチラベル画像分類問題では、"ship" と "sea" ラベルは明らかに依存しているが、前者の存在は後者が他の方法よりもはるかに強いことを意味する。 これらの例はラベル間の複数種類の双方向関係のモデル化を動機付けている。 本稿では,マルチラベル分類問題に対するMrMP(Multi-relation Message Passing)という新しい手法を提案する。 ベンチマークマルチラベルテキスト分類データセットの実験により、MrMPモジュールは最先端の手法と比較して類似または優れた性能が得られることが示された。 このアプローチは計算とメモリのオーバーヘッドをわずかに増やすだけである。

A well-known challenge associated with the multi-label classification problem is modelling dependencies between labels. Most attempts at modelling label dependencies focus on co-occurrences, ignoring the valuable information that can be extracted by detecting label subsets that rarely occur together. For example, consider customer product reviews; a product probably would not simultaneously be tagged by both "recommended" (i.e., reviewer is happy and recommends the product) and "urgent" (i.e., the review suggests immediate action to remedy an unsatisfactory experience). Aside from the consideration of positive and negative dependencies, the direction of a relationship should also be considered. For a multi-label image classification problem, the "ship" and "sea" labels have an obvious dependency, but the presence of the former implies the latter much more strongly than the other way around. These examples motivate the modelling of multiple types of bi-directional relationships between labels. In this paper, we propose a novel method, entitled Multi-relation Message Passing (MrMP), for the multi-label classification problem. Experiments on benchmark multi-label text classification datasets show that the MrMP module yields similar or superior performance compared to state-of-the-art methods. The approach imposes only minor additional computational and memory overheads.
翻訳日:2022-02-11 15:53:25 公開日:2022-02-10
# SAFER: スキル獲得によるデータ効率と安全強化学習

SAFER: Data-Efficient and Safe Reinforcement Learning via Skill Acquisition ( http://arxiv.org/abs/2202.04849v1 )

ライセンス: Link先を確認
Dylan Slack, Yinlam Chow, Bo Dai, and Nevan Wichers(参考訳) 多くの強化学習(rl)問題には、安全上の制約や報酬が不十分な設定での学習方針が伴うが、現在の手法では、成功し安全なポリシーを得るのに苦労している。 生成モデリングを使ってオフラインデータセットから有用なポリシープリミティブを抽出する手法は、より複雑な設定でrlを加速する可能性を最近示した。 しかし,現在のプリミティブ・ラーニング手法は,安全な政策学習には適さない可能性があり,望ましくない行動からデータを無視する傾向があるため,安全でない行動を促す可能性がある。 これらの問題を克服するために,安全制約下での複雑な制御タスクのポリシー学習を高速化するアルゴリズムSAFEty skill pRiors (SAFER)を提案する。 オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。 推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み立てることを学ぶ。 我々は,SAFERが安全な政策学習を実施できる理由を理論的に特徴付け,ゲーム操作に触発された複雑な安全クリティカルなロボット把握タスクにおいて,SAFERが成功政策の学習や安全の実施において基本的手法より優れていることを示す。

Though many reinforcement learning (RL) problems involve learning policies in settings with difficult-to-specify safety constraints and sparse rewards, current methods struggle to acquire successful and safe policies. Methods that extract useful policy primitives from offline datasets using generative modeling have recently shown promise at accelerating RL in these more complex settings. However, we discover that current primitive-learning methods may not be well-equipped for safe policy learning and may promote unsafe behavior due to their tendency to ignore data from undesirable behaviors. To overcome these issues, we propose SAFEty skill pRiors (SAFER), an algorithm that accelerates policy learning on complex control tasks under safety constraints. Through principled training on an offline dataset, SAFER learns to extract safe primitive skills. In the inference stage, policies trained with SAFER learn to compose safe skills into successful policies. We theoretically characterize why SAFER can enforce safe policy learning and demonstrate its effectiveness on several complex safety-critical robotic grasping tasks inspired by the game Operation, in which SAFER outperforms baseline methods in learning successful policies and enforcing safety.
翻訳日:2022-02-11 15:53:03 公開日:2022-02-10
# ppa:連合学習に対する選好プロファイリング攻撃

PPA: Preference Profiling Attack Against Federated Learning ( http://arxiv.org/abs/2202.04856v1 )

ライセンス: Link先を確認
Chunyi Zhou, Yansong Gao, Anmin Fu, Kai Chen, Zhiyang Dai, Zhi Zhang, Minhui Xue, Yuqing Zhang(参考訳) フェデレーション学習(federated learning, fl)は、複数の分散参加者に対して、それぞれがローカルデータセットを持つグローバルモデルをトレーニングする。 従来の集中型学習と比較して、FLはローカルデータセットに直接アクセスする必要がなく、データセキュリティとプライバシの懸念を軽減する。 しかしながら、flのデータプライバシに関する懸念は、既知のメンバシップ推論、プロパティ推論、データインバージョンなど、推論攻撃によるものである。 本研究では,PPA(Preference Profiling Attack)と呼ばれる新たなタイプのプライバシ推論攻撃を明らかにし,ローカルユーザのプライベートな嗜好を正確にプロファイルする。 一般に、PPAは、特にトップ1の場合、ローカルユーザーの特性に即した好みをプロファイルできる。 我々の重要な洞察は、局所的なユーザのモデルの勾配変化は、与えられたクラスのサンプル比率、特に多数/マイノリティクラスに対して区別可能な感度を持つということである。 クラスに対するユーザモデルの勾配感度を観察することにより、PPAは、ユーザのローカルデータセット内のクラスのサンプル比率をプロファイリングできるため、クラスのユーザの嗜好が露呈される。 FLの固有の統計的不均一性は、さらにPPAを促進する。 MNIST, CIFAR10, Products-10K, RAF-DBの画像領域の4つのデータセットを用いて, PPAの有効性を広く評価した。 その結果, PPA は MNIST と CIFAR10 に対して 90% と 98% の攻撃精度を達成できた。 さらに重要なのは、実際のショッピング(Products-10Kなど)とソーシャルネットワーク(RAF-DBなど)の商業シナリオにおいて、PPAは、最も注文されたアイテムを推測するために前者のケースで78%、後者のケースでは88%の攻撃精度で被害者の感情を推測する。 ドロップアウトや差分プライバシー保護といった既存の対策は、PPAの精度をある程度低下させる可能性があるが、必然的に顕著なグローバルモデル劣化を引き起こす。

Federated learning (FL) trains a global model across a number of decentralized participants, each with a local dataset. Compared to traditional centralized learning, FL does not require direct local datasets access and thus mitigates data security and privacy concerns. However, data privacy concerns for FL still exist due to inference attacks, including known membership inference, property inference, and data inversion. In this work, we reveal a new type of privacy inference attack, coined Preference Profiling Attack (PPA), that accurately profiles private preferences of a local user. In general, the PPA can profile top-k, especially for top-1, preferences contingent on the local user's characteristics. Our key insight is that the gradient variation of a local user's model has a distinguishable sensitivity to the sample proportion of a given class, especially the majority/minority class. By observing a user model's gradient sensitivity to a class, the PPA can profile the sample proportion of the class in the user's local dataset and thus the user's preference of the class is exposed. The inherent statistical heterogeneity of FL further facilitates the PPA. We have extensively evaluated the PPA's effectiveness using four datasets from the image domains of MNIST, CIFAR10, Products-10K and RAF-DB. Our results show that the PPA achieves 90% and 98% top-1 attack accuracy to the MNIST and CIFAR10, respectively. More importantly, in the real-world commercial scenarios of shopping (i.e., Products-10K) and the social network (i.e., RAF-DB), the PPA gains a top-1 attack accuracy of 78% in the former case to infer the most ordered items, and 88% in the latter case to infer a victim user's emotions. Although existing countermeasures such as dropout and differential privacy protection can lower the PPA's accuracy to some extent, they unavoidably incur notable global model deterioration.
翻訳日:2022-02-11 15:52:41 公開日:2022-02-10
# Min Sum Set Cover と Pandora の Box のオンライン学習

Online Learning for Min Sum Set Cover and Pandora's Box ( http://arxiv.org/abs/2202.04870v1 )

ライセンス: Link先を確認
Evangelia Gergatsouli, Christos Tzamos(参考訳) 確率最適化の主な問題は、Min Sum Set CoverとPandoraのBoxである。 pandoraのボックスにはn個のボックスがあり、それぞれに未知の値が含まれており、検索コストと最小の値の合計を最小化するために箱を開けることを目標としている。 値ベクトルの分布が与えられた場合、ほぼ最適探索順序を特定するよう依頼する。 Min Sum Set Cover は、値が 0 または infinity である場合に対応する。 本研究では,分布から値ベクトルが引き出されるのではなく,学習者にオンライン的に提示される場合について検討する。 最適探索順序のコストに対して一定の競合性を持つ計算効率のよいアルゴリズムを提案する。 各ラウンドの後に開き箱の値のみを学習者に公開するバンディット設定に結果を拡張します。 また、この結果は、マトロイド制約を受ける1つ以上の値を選択することを含むPandoraのBoxとMin Sum Set Coverの他のよく研究されている変種にも一般化する。

Two central problems in Stochastic Optimization are Min Sum Set Cover and Pandora's Box. In Pandora's Box, we are presented with n boxes, each containing an unknown value and the goal is to open the boxes in some order to minimize the sum of the search cost and the smallest value found. Given a distribution of value vectors, we are asked to identify a near-optimal search order. Min Sum Set Cover corresponds to the case where values are either 0 or infinity. In this work, we study the case where the value vectors are not drawn from a distribution but are presented to a learner in an online fashion. We present a computationally efficient algorithm that is constant-competitive against the cost of the optimal search order. We extend our results to a bandit setting where only the values of the boxes opened are revealed to the learner after every round. We also generalize our results to other commonly studied variants of Pandora's Box and Min Sum Set Cover that involve selecting more than a single value subject to a matroid constraint.
翻訳日:2022-02-11 15:52:02 公開日:2022-02-10
# プライバシー保護型クロスドメインレコメンデーションのための差分プライベート知識転送

Differential Private Knowledge Transfer for Privacy-Preserving Cross-Domain Recommendation ( http://arxiv.org/abs/2202.04893v1 )

ライセンス: Link先を確認
Chaochao Chen, Huiwen Wu, Jiajie Su, Lingjuan Lyu, Xiaolin Zheng and Li Wang(参考訳) CDR(Cross Domain Recommendation)は、推奨システムによく見られるコールドスタートとデータ空間の問題を軽減するために広く研究されている。 CDRモデルは、他のソースドメインのデータを活用することで、ターゲットドメインのレコメンデーションパフォーマンスを改善することができる。 しかし、既存のほとんどのCDRモデルは、情報が直接「橋を渡る」ことができると仮定し、プライバシーの問題を無視している。 本稿では,CDRにおけるプライバシの懸念を解決するために,新しい2段階ベースのプライバシ保護型CDRフレームワーク(PriCDR)を提案する。 第1段階では、johnson-lindenstraus s変換(jlt)とsparse-awarejlt(sjlt )の2つの手法を提案し、差分プライバシーを用いてソースドメインの格付け行列を公開する。 提案する差分プライバシーに基づく評価出版手法のプライバシーと実用性を理論的に分析する。 第2段階では,Deep Auto-EncoderとDeep Neural Networkを用いた新たな異種CDRモデル(HeteroCDR)を提案する。 この目的のために、PriCDRはソースドメインのデータプライバシを保護するだけでなく、ソースドメインのデータスパーシ性を軽減することができる。 2つのベンチマークデータセットで実験を行い、提案したPriCDRとHeteroCDRの有効性を実証した。

Cross Domain Recommendation (CDR) has been popularly studied to alleviate the cold-start and data sparsity problem commonly existed in recommender systems. CDR models can improve the recommendation performance of a target domain by leveraging the data of other source domains. However, most existing CDR models assume information can directly 'transfer across the bridge', ignoring the privacy issues. To solve the privacy concern in CDR, in this paper, we propose a novel two stage based privacy-preserving CDR framework (PriCDR). In the first stage, we propose two methods, i.e., Johnson-Lindenstraus s Transform (JLT) based and Sparse-awareJLT (SJLT) based, to publish the rating matrix of the source domain using differential privacy. We theoretically analyze the privacy and utility of our proposed differential privacy based rating publishing methods. In the second stage, we propose a novel heterogeneous CDR model (HeteroCDR), which uses deep auto-encoder and deep neural network to model the published source rating matrix and target rating matrix respectively. To this end, PriCDR can not only protect the data privacy of the source domain, but also alleviate the data sparsity of the source domain. We conduct experiments on two benchmark datasets and the results demonstrate the effectiveness of our proposed PriCDR and HeteroCDR.
翻訳日:2022-02-11 15:51:45 公開日:2022-02-10
# 損失誘導安定性選択

Loss-guided Stability Selection ( http://arxiv.org/abs/2202.04956v1 )

ライセンス: Link先を確認
Tino Werner(参考訳) 現代のデータ分析では、予測変数の数が非常に多いとスパースモデル選択は避けられなくなる。 LassoやBoostingのようなモデル選択手順は、実際のデータにオーバーフィットする傾向があることはよく知られている。 有望な安定選択は、トレーニングデータのサブサンプルに基づいてモデルを集約することでこれらの弱点を克服し、続いて、通常、原モデルの予測セットよりもはるかに小さい安定した予測セットを選択する。 標準的な安定性の選択は、グローバルな基準、すなわち家族ごとのエラー率に基づいており、同時にハイパーパラメータを適切に構成するために専門家の知識を必要とする。 モデル選択は損失関数に依存するため、例えば、選択した w.r.t と選択した w.r.t とが異なる特定の損失関数を推定する。 我々の安定選択型は広く適用可能で、ユーザフレンドリです。 さらに, ノイズの多い高次元データに対して, 元の安定度選択に影響を及ぼす重度不適合の問題を回避できるため, あらゆるコストで偽陽性を回避できるだけでなく, 予測できる疎度な安定モデルを実現することが最優先課題である。 回帰と二分分類の両方を考慮し、モデル選択アルゴリズムとしてBoostingを使用する実験は、元の安定選択のどの問題にも悩まされずに、生のBoostingモデルと比較して大幅に精度が向上したことを示す。

In modern data analysis, sparse model selection becomes inevitable once the number of predictors variables is very high. It is well-known that model selection procedures like the Lasso or Boosting tend to overfit on real data. The celebrated Stability Selection overcomes these weaknesses by aggregating models, based on subsamples of the training data, followed by choosing a stable predictor set which is usually much sparser than the predictor sets from the raw models. The standard Stability Selection is based on a global criterion, namely the per-family error rate, while additionally requiring expert knowledge to suitably configure the hyperparameters. Since model selection depends on the loss function, i.e., predictor sets selected w.r.t. some particular loss function differ from those selected w.r.t. some other loss function, we propose a Stability Selection variant which respects the chosen loss function via an additional validation step based on out-of-sample validation data, optionally enhanced with an exhaustive search strategy. Our Stability Selection variants are widely applicable and user-friendly. Moreover, our Stability Selection variants can avoid the issue of severe underfitting which affects the original Stability Selection for noisy high-dimensional data, so our priority is not to avoid false positives at all costs but to result in a sparse stable model with which one can make predictions. Experiments where we consider both regression and binary classification and where we use Boosting as model selection algorithm reveal a significant precision improvement compared to raw Boosting models while not suffering from any of the mentioned issues of the original Stability Selection.
翻訳日:2022-02-11 15:51:18 公開日:2022-02-10
# (参考訳) F8Net: ネットワーク量子化のための固定点8ビットのみの乗算 [全文訳有]

F8Net: Fixed-Point 8-bit Only Multiplication for Network Quantization ( http://arxiv.org/abs/2202.05239v1 )

ライセンス: CC BY 4.0
Qing Jin, Jian Ren, Richard Zhuang, Sumant Hanumante, Zhengang Li, Zhiyu Chen, Yanzhi Wang, Kaiyuan Yang, Sergey Tulyakov(参考訳) ニューラルネットワーク量子化(neural network quantization)は、メモリフットプリントを削減し、エネルギー消費を節約するための、有望な圧縮技術である。 しかし、量子化モデルと完全精度モデルの間には性能差がある。 これを減らすために、既存の量子化アプローチでは、スケーリングやデクエント化の推論中に、高精度のINT32または完全精度の乗算が必要となる。 これはメモリ、速度、必要なエネルギーという観点で明らかなコストをもたらす。 そこで我々は,固定点8ビット乗算のみからなる新しい量子化フレームワークf8netを提案する。 まず,固定点数の異なる形式による固定点乗算の利点を考察し,関連する固定点数の統計的挙動について検討する。 第2に、統計的およびアルゴリズム解析に基づいて、異なるレイヤの重みとアクティベーションに対して異なる固定点形式を適用する。 トレーニング中の各レイヤの正しいフォーマットを自動的に決定する新しいアルゴリズムを提案する。 第3に,従来の量子化アルゴリズムであるパラメータ化クリッピングアクティベーション(pact)を分析し,固定点演算を用いて再構成する。 最後に,最近提案された量子化微調整法と固定点法を統一し,本手法の可能性を示す。 我々は、MobileNet V1/V2とResNet18/50用のImageNet上のF8Netを検証する。 提案手法は、INT32乗算や浮動小数点演算による既存の量子化技術と同等かつ優れた性能を達成し、また、最先端の性能を達成している。

Neural network quantization is a promising compression technique to reduce memory footprint and save energy consumption, potentially leading to real-time inference. However, there is a performance gap between quantized and full-precision models. To reduce it, existing quantization approaches require high-precision INT32 or full-precision multiplication during inference for scaling or dequantization. This introduces a noticeable cost in terms of memory, speed, and required energy. To tackle these issues, we present F8Net, a novel quantization framework consisting of only fixed-point 8-bit multiplication. To derive our method, we first discuss the advantages of fixed-point multiplication with different formats of fixed-point numbers and study the statistical behavior of the associated fixed-point numbers. Second, based on the statistical and algorithmic analysis, we apply different fixed-point formats for weights and activations of different layers. We introduce a novel algorithm to automatically determine the right format for each layer during training. Third, we analyze a previous quantization algorithm -- parameterized clipping activation (PACT) -- and reformulate it using fixed-point arithmetic. Finally, we unify the recently proposed method for quantization fine-tuning and our fixed-point approach to show the potential of our method. We verify F8Net on ImageNet for MobileNet V1/V2 and ResNet18/50. Our approach achieves comparable and better performance, when compared not only to existing quantization techniques with INT32 multiplication or floating-point arithmetic, but also to the full-precision counterparts, achieving state-of-the-art performance.
翻訳日:2022-02-11 15:48:36 公開日:2022-02-10
# 因果バンディットを用いた適応型d-セパレータ

Adaptively Exploiting d-Separators with Causal Bandits ( http://arxiv.org/abs/2202.05100v1 )

ライセンス: Link先を確認
Blair Bilodeau, Linbo Wang, Daniel M. Roy(参考訳) マルチアームバンディット問題(英語版)は、反復実験の連続に対する最適な介入を特定するための枠組みを提供する。 追加の仮定がなければ、最小限の最適性能(累積的後悔によって測定される)はよく理解される。 結果からの介入をd-分離する追加の観測変数(d-セパレータ)へのアクセスにより、最近の因果バンディットアルゴリズムは明らかに後悔を少なくする。 しかし、実際には観測変数が d-分離子であるかどうかによらないことが望ましい。 理想的には、アルゴリズムは適応的であり、つまり、d-分離子の有無に関するオラクルの知識を持つアルゴリズムとほぼ同等の性能を発揮するべきである。 本研究では、適応性の概念を形式化し、研究し、同時に達成する新しいアルゴリズムを提供する。 (a)d-セパレータが観測されたときの最適後悔、古典的ミニマックスアルゴリズムの改善、 (b) 観察変数がd-セパレータでない場合, 最近の因果バンディットアルゴリズムに比べ有意に少ない。 重要なことは、我々のアルゴリズムは、d-セパレータが観測されているかどうかについてのオラクルの知識を必要としない。 また,この適応性をフロントドア基準など他の条件にも一般化する。

Multi-armed bandit problems provide a framework to identify the optimal intervention over a sequence of repeated experiments. Without additional assumptions, minimax optimal performance (measured by cumulative regret) is well-understood. With access to additional observed variables that d-separate the intervention from the outcome (i.e., they are a d-separator), recent causal bandit algorithms provably incur less regret. However, in practice it is desirable to be agnostic to whether observed variables are a d-separator. Ideally, an algorithm should be adaptive; that is, perform nearly as well as an algorithm with oracle knowledge of the presence or absence of a d-separator. In this work, we formalize and study this notion of adaptivity, and provide a novel algorithm that simultaneously achieves (a) optimal regret when a d-separator is observed, improving on classical minimax algorithms, and (b) significantly smaller regret than recent causal bandit algorithms when the observed variables are not a d-separator. Crucially, our algorithm does not require any oracle knowledge of whether a d-separator is observed. We also generalize this adaptivity to other conditions, such as the front-door criterion.
翻訳日:2022-02-11 15:21:29 公開日:2022-02-10
# ニューラルネットワークにおける希少相関の理解

Understanding Rare Spurious Correlations in Neural Networks ( http://arxiv.org/abs/2202.05189v1 )

ライセンス: Link先を確認
Yao-Yuan Yang and Kamalika Chaudhuri(参考訳) ニューラルネットワークは、分類にスプリアス相関を用いることが知られており、例えば、オブジェクトを分類するために背景情報を使用する。 しかし、ネットワークがこれらの相関を拾うのにどのくらいの例が必要か? これは私たちがこの研究で経験的に調査する質問です。 特定のクラスに相関したスプリアスパターンをいくつかの例に導入し,ネットワークがスプリアス相関を拾うのに,そのような例はごくわずかであることを確認した。 Through extensive experiments, we show that (1) spurious patterns with a larger $\ell_2$ norm are learnt to correlate with the specified class more easily; (2) network architectures that are more sensitive to the input are more susceptible to learning these rare spurious correlations; (3) standard data deletion methods, including incremental retraining and influence functions, are unable to forget these rare spurious correlations through deleting the examples that cause these spurious correlations to be learnt. コードはhttps://github.com/y angarbiter/rare-spur ious-correlationで入手できる。

Neural networks are known to use spurious correlations for classification; for example, they commonly use background information to classify objects. But how many examples does it take for a network to pick up these correlations? This is the question that we empirically investigate in this work. We introduce spurious patterns correlated with a specific class to a few examples and find that it takes only a handful of such examples for the network to pick up on the spurious correlation. Through extensive experiments, we show that (1) spurious patterns with a larger $\ell_2$ norm are learnt to correlate with the specified class more easily; (2) network architectures that are more sensitive to the input are more susceptible to learning these rare spurious correlations; (3) standard data deletion methods, including incremental retraining and influence functions, are unable to forget these rare spurious correlations through deleting the examples that cause these spurious correlations to be learnt. Code available at https://github.com/y angarbiter/rare-spur ious-correlation.
翻訳日:2022-02-11 15:21:09 公開日:2022-02-10
# 稀な事象予測のための事例ベース推論

Case-based reasoning for rare events prediction on strategic sites ( http://arxiv.org/abs/2202.04891v1 )

ライセンス: Link先を確認
Vincent Vidal, Marie-Caroline Corbineau, Tugdual Ceillier(参考訳) 衛星画像は現在、防衛部門で関心のある場所の監視に広く使われている。 データの量が増加するとパターンの識別や予測が可能となるが、このタスクを手動で行うことはほとんど不可能である。 本稿では,戦略サイトにおけるレアイベントの自動予測のためのcasedに基づく推論手法を提案する。 この方法は専門家の知識を直接組み込むことができ、不規則な時系列や小さなデータセットに適用できる。 実験は、実際の衛星画像を用いて2つのユースケースで行われ、潜水艦の到着と海軍基地からの出発の予測と、2つの宇宙基地での即時ロケット発射の予測である。 提案手法は,これらの課題に対する参照事例のランダムな選択よりも優れており,その可能性も高い。

Satellite imagery is now widely used in the defense sector for monitoring locations of interest. Although the increasing amount of data enables pattern identification and therefore prediction, carrying this task manually is hardly feasible. We hereby propose a cased-based reasoning approach for automatic prediction of rare events on strategic sites. This method allows direct incorporation of expert knowledge, and is adapted to irregular time series and small-size datasets. Experiments are carried out on two use-cases using real satellite images: the prediction of submarines arrivals and departures from a naval base, and the forecasting of imminent rocket launches on two space bases. The proposed method significantly outperforms a random selection of reference cases on these challenging applications, showing its strong potential.
翻訳日:2022-02-11 15:20:50 公開日:2022-02-10
# アフィン変換に対するディープニューラルネットワークの堅牢性向上のための特徴レベル拡張

Feature-level augmentation to improve robustness of deep neural networks to affine transformations ( http://arxiv.org/abs/2202.05152v1 )

ライセンス: Link先を確認
Adrian Sandru, Mariana-Iuliana Georgescu, Radu Tudor Ionescu(参考訳) 最近の研究では、畳み込みニューラルネットワークは、例えば数度回転や数ピクセルの変換など、小さな画像変換にうまく一般化しないことが示されている。 このような変換に対するロバスト性を改善するため,入力画像に適用される共通データ拡張に加えて,ニューラルアーキテクチャの中間層にデータ拡張を導入することを提案する。 様々なレベルの活性化マップ(機能)に小さな摂動を導入することで、そのような変換に対処するニューラルネットワークの能力を開発する。 我々は,2つの異なる畳み込みアーキテクチャ(ResNet-18とDenseNet-121)を考慮して,Tiny ImageNet,Caltech-256 ,Food-101の3つの画像分類ベンチマーク実験を行った。 2つの最先端手法と比較すると,提案手法は精度と平均フリップ率の最良のトレードオフを常に達成できることを示す。

Recent studies revealed that convolutional neural networks do not generalize well to small image transformations, e.g. rotations by a few degrees or translations of a few pixels. To improve the robustness to such transformations, we propose to introduce data augmentation at intermediate layers of the neural architecture, in addition to the common data augmentation applied on the input images. By introducing small perturbations to activation maps (features) at various levels, we develop the capacity of the neural network to cope with such transformations. We conduct experiments on three image classification benchmarks (Tiny ImageNet, Caltech-256 and Food-101), considering two different convolutional architectures (ResNet-18 and DenseNet-121). When compared with two state-of-the-art methods, the empirical results show that our approach consistently attains the best trade-off between accuracy and mean flip rate.
翻訳日:2022-02-11 15:20:20 公開日:2022-02-10
# ロボット操作のための深い模倣学習における記憶に基づく視線予測

Memory-based gaze prediction in deep imitation learning for robot manipulation ( http://arxiv.org/abs/2202.04877v1 )

ライセンス: Link先を確認
Heecheol Kim, Yoshiyuki Ohmura, Yasuo Kuniyoshi(参考訳) 深層模倣学習は、自律ロボット操作においてハードコード制御ルールを必要としない、有望なアプローチである。 ロボット操作に対する深い模倣学習の現在の応用は、現在の段階における状態に基づく反応性制御に限られている。 しかし、将来のロボットは、複雑な環境での経験から得られるメモリを利用してタスクを解く必要がある(例えば、ロボットが棚に以前使用されていた物体を見つけるように要求された場合)。 このような状況では、複雑な環境が原因で、単純な深層模倣学習が失敗する可能性がある。 逐次的な視覚入力からの視線予測により,ロボットは記憶を必要とする操作タスクを実行することができる。 提案アルゴリズムは、逐次データに基づく視線推定にTransformerベースの自己アテンションアーキテクチャを用いてメモリを実装する。 提案手法は,従来の状態の記憶を必要とする実ロボットマルチオブジェクト操作タスクを用いて評価した。

Deep imitation learning is a promising approach that does not require hard-coded control rules in autonomous robot manipulation. The current applications of deep imitation learning to robot manipulation have been limited to reactive control based on the states at the current time step. However, future robots will also be required to solve tasks utilizing their memory obtained by experience in complicated environments (e.g., when the robot is asked to find a previously used object on a shelf). In such a situation, simple deep imitation learning may fail because of distractions caused by complicated environments. We propose that gaze prediction from sequential visual input enables the robot to perform a manipulation task that requires memory. The proposed algorithm uses a Transformer-based self-attention architecture for the gaze estimation based on sequential data to implement memory. The proposed method was evaluated with a real robot multi-object manipulation task that requires memory of the previous states.
翻訳日:2022-02-11 15:20:04 公開日:2022-02-10
# ラベル付け作業を制限した衛星画像における航空機検出の性能向上:ハイブリッド能動学習

Improving performance of aircraft detection in satellite imagery while limiting the labelling effort: Hybrid active learning ( http://arxiv.org/abs/2202.04890v1 )

ライセンス: Link先を確認
Julie Imbert, Gohar Dashyan, Alex Goupilleau, Tugdual Ceillier, Marie-Caroline Corbineau(参考訳) 地球観測産業は、高解像度で短い再訪時間で衛星画像を提供する。 これらの画像の効率的な運用を実現するためには、タスクの自動化が必要である。 防衛分野では、衛星画像による航空機検出はアナリストにとって貴重なツールである。 このようなタスク上で高性能な検出を行うには、ディープラーニングを活用して大量のラベル付きデータを利用すればよい。 十分な品質のラベルを得るには,軍事専門家の知識が必要である。我々は,最も関連するラベルデータを選択するためのハイブリッドクラスタリングアクティブラーニング手法を提案し,必要なデータ量を制限し,さらに性能を向上させる。 多様性と不確実性に基づくアクティブラーニング選択手法を組み合わせる。 航空機のセグメンテーションによる検出において,本手法は他のアクティブラーニング手法よりも優れた,あるいは競争的な結果が得られることを示す。

The earth observation industry provides satellite imagery with high spatial resolution and short revisit time. To allow efficient operational employment of these images, automating certain tasks has become necessary. In the defense domain, aircraft detection on satellite imagery is a valuable tool for analysts. Obtaining high performance detectors on such a task can only be achieved by leveraging deep learning and thus us-ing a large amount of labeled data. To obtain labels of a high enough quality, the knowledge of military experts is needed.We propose a hybrid clustering active learning method to select the most relevant data to label, thus limiting the amount of data required and further improving the performances. It combines diversity- and uncertainty-based active learning selection methods. For aircraft detection by segmentation, we show that this method can provide better or competitive results compared to other active learning methods.
翻訳日:2022-02-11 15:19:52 公開日:2022-02-10
# データ拡張を用いたテキスト音声のクロススピーカースタイル転送

Cross-speaker style transfer for text-to-speech using data augmentation ( http://arxiv.org/abs/2202.05083v1 )

ライセンス: Link先を確認
Manuel Sam Ribeiro, Julian Roth, Giulia Comini, Goeric Huybrechts, Adam Gabrys, Jaime Lorenzo-Trueba(参考訳) 音声変換によるデータ拡張を用いた音声合成(TTS)における話者間通信の問題点に対処する。 対象話者から中性非表現データのコーパスを持ち、異なる話者からの会話表現データをサポートすると仮定する。 我々の目標は、ターゲット話者のアイデンティティを維持しつつ、表現力のあるTSシステムを構築することです。 提案手法は,まず音声変換を用いて,表現力の高い話者群から高品質なデータを生成する。 音声変換されたデータは、ターゲットスピーカーからの自然なデータでプールされ、単一スピーカのマルチスタイルTSシステムのトレーニングに使用される。 このアプローチが効率的で柔軟性があり、スケーラブルであることの証拠を提供します。 この方法は、1つ以上の支持話者と、様々な支持データの量を用いて評価される。 さらに,複数の支援話者を用いた場合,このアプローチが発話スタイルをある程度制御可能であることを示す。 最後に、提案する技術を7つの言語にまたがって14人の話者に拡大する。 その結果,本技術はターゲット話者の身元を保ちながら,スタイルの類似性の観点から一貫して合成サンプルを改良していることがわかった。

We address the problem of cross-speaker style transfer for text-to-speech (TTS) using data augmentation via voice conversion. We assume to have a corpus of neutral non-expressive data from a target speaker and supporting conversational expressive data from different speakers. Our goal is to build a TTS system that is expressive, while retaining the target speaker's identity. The proposed approach relies on voice conversion to first generate high-quality data from the set of supporting expressive speakers. The voice converted data is then pooled with natural data from the target speaker and used to train a single-speaker multi-style TTS system. We provide evidence that this approach is efficient, flexible, and scalable. The method is evaluated using one or more supporting speakers, as well as a variable amount of supporting data. We further provide evidence that this approach allows some controllability of speaking style, when using multiple supporting speakers. We conclude by scaling our proposed technology to a set of 14 speakers across 7 languages. Results indicate that our technology consistently improves synthetic samples in terms of style similarity, while retaining the target speaker's identity.
翻訳日:2022-02-11 15:18:47 公開日:2022-02-10
# 不整合だが安全-不整合2次元物体検出のための形式的補償性能限界

Unaligned but Safe -- Formally Compensating Performance Limitations for Imprecise 2D Object Detection ( http://arxiv.org/abs/2202.05123v1 )

ライセンス: Link先を確認
Tobias Schuster, Emmanouil Seferis, Simon Burton, Chih-Hong Cheng(参考訳) 本稿では,機械学習による2次元物体検出における欠陥とその安全性への影響について考察する。 予測境界ボックスは、基底的真理と完全に一致しないが、計算されたインターセクション・オーバー・ユニオン計量は、常に与えられたしきい値よりも大きい。 このような性能制限の下では、基礎的真理をカバーするのに必要な最小境界ボックス拡大係数を正式に証明する。 次に,運動プランナーが決定を行う際に固定長バッファを取ることで,係数をより小さな値に数学的に調整できることを示す。 最後に,実験的に測定した拡大係数と公式に導出された最悪の拡大係数の差を観察することで,定量的な証拠(統計による実証)と定性的な証拠(最悪のケース分析による実証)との間に興味深い関連性が得られた。

In this paper, we consider the imperfection within machine learning-based 2D object detection and its impact on safety. We address a special sub-type of performance limitations: the prediction bounding box cannot be perfectly aligned with the ground truth, but the computed Intersection-over-Un ion metric is always larger than a given threshold. Under such type of performance limitation, we formally prove the minimum required bounding box enlargement factor to cover the ground truth. We then demonstrate that the factor can be mathematically adjusted to a smaller value, provided that the motion planner takes a fixed-length buffer in making its decisions. Finally, observing the difference between an empirically measured enlargement factor and our formally derived worst-case enlargement factor offers an interesting connection between the quantitative evidence (demonstrated by statistics) and the qualitative evidence (demonstrated by worst-case analysis).
翻訳日:2022-02-11 15:18:31 公開日:2022-02-10
# RevolveR:ロボットとロボットのポリシー伝達のための継続的進化モデル

REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy Transfer ( http://arxiv.org/abs/2202.05244v1 )

ライセンス: Link先を確認
Xingyu Liu, Deepak Pathak, Kris M. Kitani(参考訳) ロボット学習における一般的なパラダイムは、新しいロボットのすべてに対して、スクラッチからポリシーをトレーニングすることだ。 これは非効率なだけでなく、複雑なロボットには実用的ではない。 本研究では,運動学や形態学などのパラメータが著しく異なる2つの異なるロボット間で方針を伝達する問題を考える。 模倣学習法を含む動作または状態遷移分布をマッチングして新しいポリシーを訓練する既存のアプローチは、異なるロボットでミスマッチしている最適なアクションおよび/または状態分布のために失敗する。 本稿では,物理シミュレータに実装したロボット政策伝達のための連続進化モデルを用いた$revolver$という新しい手法を提案する。 対象ロボットと対象ロボットを相互に補間し,ロボットパラメータの連続的な進化変化を求める。 ソースロボットに関する専門家ポリシーは、ターゲットロボットへと徐々に進化する一連の中間ロボットの訓練を通じて伝達される。 実験により,提案する連続進化モデルは,ロボット間で効率的に方針を伝達し,物理シミュレータを用いて新しいロボットのサンプル効率を向上できることが示されている。 提案手法は,探索を著しく削減できるスパース報酬設定において特に有利である。

A popular paradigm in robotic learning is to train a policy from scratch for every new robot. This is not only inefficient but also often impractical for complex robots. In this work, we consider the problem of transferring a policy across two different robots with significantly different parameters such as kinematics and morphology. Existing approaches that train a new policy by matching the action or state transition distribution, including imitation learning methods, fail due to optimal action and/or state distribution being mismatched in different robots. In this paper, we propose a novel method named $REvolveR$ of using continuous evolutionary models for robotic policy transfer implemented in a physics simulator. We interpolate between the source robot and the target robot by finding a continuous evolutionary change of robot parameters. An expert policy on the source robot is transferred through training on a sequence of intermediate robots that gradually evolve into the target robot. Experiments show that the proposed continuous evolutionary model can effectively transfer the policy across robots and achieve superior sample efficiency on new robots using a physics simulator. The proposed method is especially advantageous in sparse reward settings where exploration can be significantly reduced.
翻訳日:2022-02-11 15:18:15 公開日:2022-02-10
# L0Learn: L0正規化を用いたスパース学習用スケーラブルパッケージ

L0Learn: A Scalable Package for Sparse Learning using L0 Regularization ( http://arxiv.org/abs/2202.04820v1 )

ライセンス: Link先を確認
Hussein Hazimeh, Rahul Mazumder, Tim Nonet(参考訳) L0正規化を用いたスパース回帰と分類のためのオープンソースパッケージであるL0Learnを紹介する。 l0learnは座標降下と局所組合せ最適化に基づくスケーラブルな近似アルゴリズムを実装している。 パッケージはC++を使って構築されており、ユーザフレンドリーなRインターフェースを備えている。 実験の結果、L0Learnは何百万もの機能で問題にスケールでき、最先端のスパース学習パッケージと競合する実行時間を達成できることがわかった。 L0LearnはCRANとGitHubの両方で利用できる。

We introduce L0Learn: an open-source package for sparse regression and classification using L0 regularization. L0Learn implements scalable, approximate algorithms, based on coordinate descent and local combinatorial optimization. The package is built using C++ and has a user-friendly R interface. Our experiments indicate that L0Learn can scale to problems with millions of features, achieving competitive run times with state-of-the-art sparse learning packages. L0Learn is available on both CRAN and GitHub.
翻訳日:2022-02-11 15:15:37 公開日:2022-02-10
# ベイズ最適アルゴリズムは周波数的ベストアーム同定において最適である

Bayes Optimal Algorithm is Suboptimal in Frequentist Best Arm Identification ( http://arxiv.org/abs/2202.05193v1 )

ライセンス: Link先を確認
Junpei Komiyama(参考訳) 正規報酬を用いた固定予算ベストアーム識別問題を考察する。 この問題では、予測者は$k$ arms (treatments)と$t$ time stepを与えられる。 予測器はアルゴリズムを用いて行った適応実験により、最大の平均の観点で最適なアームを見つけようとする。 アルゴリズムの性能は、単純な後悔または推定されたベストアームの品質によって測定される。 頻繁な単純後悔は任意の固定パラメータに対して指数関数的に$T$に小さいことが知られているが、ベイズ的単純後悔は連続した事前分布に対して$\Theta(T^{-1})$である。 本稿では,ベイズ単純後悔を最小化するベイズ最適アルゴリズムが,いくつかのパラメータに対して指数関数的単純後悔を持たないことを示す。 この発見は、固定サンプリングレジームにおけるベイズアルゴリズムと頻繁アルゴリズムの漸近同値を示す多くの結果とは対照的である。 ベイズ最適アルゴリズムは、正確に計算することが事実上不可能な再帰方程式という観点から記述されるが、我々はベルマン改善と呼ばれる重要な量を導入することによって、分析への道を開く。

We consider the fixed-budget best arm identification problem with Normal rewards. In this problem, the forecaster is given $K$ arms (treatments) and $T$ time steps. The forecaster attempts to find the best arm in terms of the largest mean via an adaptive experiment conducted with an algorithm. The performance of the algorithm is measured by the simple regret, or the quality of the estimated best arm. It is known that the frequentist simple regret can be exponentially small to $T$ for any fixed parameters, whereas the Bayesian simple regret is $\Theta(T^{-1})$ over a continuous prior distribution. This paper shows that Bayes optimal algorithm, which minimizes the Bayesian simple regret, does not have an exponential simple regret for some parameters. This finding contrasts with the many results indicating the asymptotic equivalence of Bayesian and frequentist algorithms in fixed sampling regimes. While the Bayes optimal algorithm is described in terms of a recursive equation that is virtually impossible to compute exactly, we pave the way to an analysis by introducing a key quantity that we call the expected Bellman improvement.
翻訳日:2022-02-11 15:15:28 公開日:2022-02-10
# 二層ニューラルネットワークにおけるノイズフリー学習の難易度

Hardness of Noise-Free Learning for Two-Hidden-Layer Neural Networks ( http://arxiv.org/abs/2202.05258v1 )

ライセンス: Link先を確認
Sitan Chen, Aravind Gollakota, Adam R. Klivans, Raghu Meka(参考訳) 標準(ノイズフリー)モデルにおけるガウス入力に対する2層ReLUネットワークを学習するために,指数統計クエリ(SQ)の下界を与える。 従来のSQ下位境界は、逆ノイズモデル(認識学習)や相関SQのような制限されたモデルにのみ保持されていた。 Vempala と Wilmes は、一般的な SQ の下限は、単純な非退化条件を満たす任意の実数値関数族には適用できないことを示した。 これらの結果を回避するために,Daniely と Vardi による昇降手順を改良し,ブールPAC学習問題をガウス学習に還元する。 この手法を他の学習モデルに拡張する方法を示し、多くのよく研究されたケースにおいて、より効率的な削減を得る方法を示す。 そこで我々は,PAC学習用2層ReLUネットワークに対する新しい暗号化難易度結果と,定数深度ReLUネットワークをメンバシップクエリから学習するための新しい下位境界を証明した。

We give exponential statistical query (SQ) lower bounds for learning two-hidden-layer ReLU networks with respect to Gaussian inputs in the standard (noise-free) model. No general SQ lower bounds were known for learning ReLU networks of any depth in this setting: previous SQ lower bounds held only for adversarial noise models (agnostic learning) or restricted models such as correlational SQ. Prior work hinted at the impossibility of our result: Vempala and Wilmes showed that general SQ lower bounds cannot apply to any real-valued family of functions that satisfies a simple non-degeneracy condition. To circumvent their result, we refine a lifting procedure due to Daniely and Vardi that reduces Boolean PAC learning problems to Gaussian ones. We show how to extend their technique to other learning models and, in many well-studied cases, obtain a more efficient reduction. As such, we also prove new cryptographic hardness results for PAC learning two-hidden-layer ReLU networks, as well as new lower bounds for learning constant-depth ReLU networks from membership queries.
翻訳日:2022-02-11 15:15:11 公開日:2022-02-10
# 画像再構成のための等分散正規化

Equivariance Regularization for Image Reconstruction ( http://arxiv.org/abs/2202.05062v1 )

ライセンス: Link先を確認
Junqi Tang(参考訳) 本研究では,不完全測定条件下での画像逆問題に対する新しい構造適応正規化手法であるRegularization-by-Eq uivariance (REV)を提案する。 我々の正則化スキームは、計測の物理における同変構造(トモグラフィ画像再構成のような多くの逆問題でよく見られる)を利用して、逆問題の不当な位置を緩和する。 提案手法は,高速化勾配降下/fistaなどの従来の一階最適化アルゴリズムと並行して,プラグ・アンド・プレイ方式で適用できる。 スパースビューX線CT画像再構成タスクにおける数値実験により,本手法の有効性が示された。

In this work, we propose Regularization-by-Eq uivariance (REV), a novel structure-adaptive regularization scheme for solving imaging inverse problems under incomplete measurements. Our regularization scheme utilizes the equivariant structure in the physics of the measurements -- which is prevalent in many inverse problems such as tomographic image reconstruction -- to mitigate the ill-poseness of the inverse problem. Our proposed scheme can be applied in a plug-and-play manner alongside with any classic first-order optimization algorithm such as the accelerated gradient descent/FISTA for simplicity and fast convergence. Our numerical experiments in sparse-view X-ray CT image reconstruction tasks demonstrate the effectiveness of our approach.
翻訳日:2022-02-11 15:14:35 公開日:2022-02-10
# 計算細胞学のための深層学習 : サーベイ

Deep Learning for Computational Cytology: A Survey ( http://arxiv.org/abs/2202.05126v1 )

ライセンス: Link先を確認
Hao Jiang, Yanning Zhou, Yi Lin, Ronald CK Chan, Jiang Liu, Hao Chen(参考訳) 計算細胞学は、がん検診のためのコンピュータ支援技術により、デジタル化された細胞診画像を解析する医療画像コンピューティングの分野において、批判的で、急速に発展するが、難しいトピックである。 近年, 深層学習(DL)アルゴリズムは医療画像解析において大きな進歩を遂げており, 細胞学的研究の出版が活発化している。 本論文では, DLに基づく細胞診画像解析の高度化と包括的応用を検討するため, 120件以上の出版物について調査する。 まず,教師付き,弱教師付き,教師なし,伝達学習など,さまざまな深層学習手法を紹介する。 次に,公開データセット,評価指標,多彩なサイトロジー画像解析アプリケーション,分類,検出,セグメンテーション,その他の関連するタスクを体系的に要約する。 最後に,計算細胞学の現在の課題と今後の研究方向性について論じる。

Computational cytology is a critical, rapid-developing, yet challenging topic in the field of medical image computing which analyzes the digitized cytology image by computer-aided technologies for cancer screening. Recently, an increasing number of deep learning (DL) algorithms have made significant progress in medical image analysis, leading to the boosting publications of cytological studies. To investigate the advanced methods and comprehensive applications, we survey more than 120 publications of DL-based cytology image analysis in this article. We first introduce various deep learning methods, including fully supervised, weakly supervised, unsupervised, and transfer learning. Then, we systematically summarize the public datasets, evaluation metrics, versatile cytology image analysis applications including classification, detection, segmentation, and other related tasks. Finally, we discuss current challenges and potential research directions of computational cytology.
翻訳日:2022-02-11 15:14:23 公開日:2022-02-10
# 線形回帰による条件平均治療効果予測における良性オーバーフィット

Benign-Overfitting in Conditional Average Treatment Effect Prediction with Linear Regression ( http://arxiv.org/abs/2202.05245v1 )

ライセンス: Link先を確認
Masahiro Kato and Masaaki Imaizumi(参考訳) 線形回帰モデルを用いて条件平均処理効果(CATE)の予測における良性過剰適合理論について検討した。 因果推論のための機械学習の開発が進むにつれ、さまざまな因果関係の大規模モデルが注目されている。 1つの問題は、大規模なモデルがサンプル選択による観測に過度に適合しやすいという疑念が持ち上がっているため、大きなモデルが因果予測に適さない可能性があることである。 本研究では,近年の良性過剰適合理論を適用して,過パラメータ化モデルに対する因果推論手法の有効性について検討する(Bartlett et al., 2020)。 具体的には、割り当て規則によって分布が切り替わるサンプルについて検討し、次元が無限大に分岐する線形モデルを用いてCATEの予測について検討する。 本稿では, 各治療群と個別に構築した推定器の違いに基づくTラーナーと, 相対性スコアによって近似された別の回帰問題を解く逆確率重み(IPW)ラーナーの2つの方法に焦点をあてる。 どちらの方法でも、推定器はサンプルに完全に適合する補間器で構成されている。 その結果,Tラーナーはランダムな割り当て以外の整合性を達成することができず,IPWラーナーは確率スコアが分かっていれば0に収束することを示した。 この違いは、t-リーナーが共変性の固有空間を保存することができないことに起因する。 その結果,過剰パラメータ設定,特に2倍ロバストな推定器における因果推論法の利用に関する新たな知見が得られた。

We study the benign overfitting theory in the prediction of the conditional average treatment effect (CATE), with linear regression models. As the development of machine learning for causal inference, a wide range of large-scale models for causality are gaining attention. One problem is that suspicions have been raised that the large-scale models are prone to overfitting to observations with sample selection, hence the large models may not be suitable for causal prediction. In this study, to resolve the suspicious, we investigate on the validity of causal inference methods for overparameterized models, by applying the recent theory of benign overfitting (Bartlett et al., 2020). Specifically, we consider samples whose distribution switches depending on an assignment rule, and study the prediction of CATE with linear models whose dimension diverges to infinity. We focus on two methods: the T-learner, which based on a difference between separately constructed estimators with each treatment group, and the inverse probability weight (IPW)-learner, which solves another regression problem approximated by a propensity score. In both methods, the estimator consists of interpolators that fit the samples perfectly. As a result, we show that the T-learner fails to achieve the consistency except the random assignment, while the IPW-learner converges the risk to zero if the propensity score is known. This difference stems from that the T-learner is unable to preserve eigenspaces of the covariances, which is necessary for benign overfitting in the overparameterized setting. Our result provides new insights into the usage of causal inference methods in the overparameterizated setting, in particular, doubly robust estimators.
翻訳日:2022-02-11 15:14:07 公開日:2022-02-10
# 適応的・ロバストなマルチタスク学習

Adaptive and Robust Multi-task Learning ( http://arxiv.org/abs/2202.05250v1 )

ライセンス: Link先を確認
Yaqi Duan, Kaizheng Wang(参考訳) 本研究では,異なるソースから収集した複数のデータセットを同時に解析し,それぞれに1つのモデルを学習することを目的としたマルチタスク学習問題について検討する。 本稿では,これらのタスク間の類似点を自動的に活用し,その相違点を慎重に処理する適応手法のファミリーを提案する。 鋭い統計的保証を導出し,外れたタスクに対するロバスト性を証明する。 合成データと実データに関する数値実験により,新しい手法の有効性が示された。

We study the multi-task learning problem that aims to simultaneously analyze multiple datasets collected from different sources and learn one model for each of them. We propose a family of adaptive methods that automatically utilize possible similarities among those tasks while carefully handling their differences. We derive sharp statistical guarantees for the methods and prove their robustness against outlier tasks. Numerical experiments on synthetic and real datasets demonstrate the efficacy of our new methods.
翻訳日:2022-02-11 15:12:38 公開日:2022-02-10
# モノトーン学習

Monotone Learning ( http://arxiv.org/abs/2202.05246v1 )

ライセンス: Link先を確認
Olivier Bousquet and Amit Daniely and Haim Kaplan and Yishay Mansour and Shay Moran and Uri Stemmer(参考訳) 学習データの量は,学習アルゴリズムの一般化能力を決定する重要な要因の1つである。 直感的には、トレーニングデータの増加に伴ってエラー率が低下すると予想する。 おそらく意外なことに、この直観を形式化しようとする自然な試みは、興味深く挑戦的な数学的問題を引き起こす。 例えば、パターン認識に関する古典的な本では、devroye, gyorfi, lugosi (1996) が {monotone} bayes- consistent algorithm が存在するかどうかを問うている。 この問題はペストフ(2021年)が単調ベイズ整合アルゴリズムの複雑な構成を用いて二進分類を解くまで、25年以上にわたって解き放たれていた。 各学習アルゴリズムAは、類似した性能を持つ単調な学習アルゴリズムAに変換可能であることを示す。 これにより、Devroye et al (1996), Viering, Mey, and Loog (2019), Viering and Loog (2021), Mhammedi (2021), の質問に答えることができる。 この変換は、様々な文脈で単調学習者を意味する:例えば、ペストフの結果を任意の数のラベルで分類するタスクへと拡張する。 これは二分分類に合わせたペストフの仕事とは対照的である。 さらに,モノトーンアルゴリズムの誤差について一様境界を与える。 これにより、我々の変換は分散のない設定に適用できる。 例えば、pac学習では、すべての学習可能なクラスが単調pac学習者を受け入れることを意味する。 これは、Viering, Mey, and Loog (2019)、Viering and Loog (2021)、Mhammedi (2021)によって解決される。

The amount of training-data is one of the key factors which determines the generalization capacity of learning algorithms. Intuitively, one expects the error rate to decrease as the amount of training-data increases. Perhaps surprisingly, natural attempts to formalize this intuition give rise to interesting and challenging mathematical questions. For example, in their classical book on pattern recognition, Devroye, Gyorfi, and Lugosi (1996) ask whether there exists a {monotone} Bayes-consistent algorithm. This question remained open for over 25 years, until recently Pestov (2021) resolved it for binary classification, using an intricate construction of a monotone Bayes-consistent algorithm. We derive a general result in multiclass classification, showing that every learning algorithm A can be transformed to a monotone one with similar performance. Further, the transformation is efficient and only uses a black-box oracle access to A. This demonstrates that one can provably avoid non-monotonic behaviour without compromising performance, thus answering questions asked by Devroye et al (1996), Viering, Mey, and Loog (2019), Viering and Loog (2021), and by Mhammedi (2021). Our transformation readily implies monotone learners in a variety of contexts: for example it extends Pestov's result to classification tasks with an arbitrary number of labels. This is in contrast with Pestov's work which is tailored to binary classification. In addition, we provide uniform bounds on the error of the monotone algorithm. This makes our transformation applicable in distribution-free settings. For example, in PAC learning it implies that every learnable class admits a monotone PAC learner. This resolves questions by Viering, Mey, and Loog (2019); Viering and Loog (2021); Mhammedi (2021).
翻訳日:2022-02-11 15:12:31 公開日:2022-02-10
# InterHT:頭と足のエンティティ間の相互作用による知識グラフ埋め込み

InterHT: Knowledge Graph Embeddings by Interaction between Head and Tail Entities ( http://arxiv.org/abs/2202.04897v1 )

ライセンス: Link先を確認
Baoxin Wang, Qingye Meng, Ziyue Wang, Dayong Wu, Wanxiang Che, Shijin Wang, Zhigang Chen, Cong Liu(参考訳) 知識グラフ埋め込み(KGE)モデルは知識グラフにおける実体と関係の表現を学ぶ。 距離に基づく手法は、2つの実体表現間の距離によって結果を予測するリンク予測タスクにおいて有望な性能を示す。 しかしながら、これらのメソッドのほとんどは、モデルキャパシティを制限するヘッドエンティティとテールエンティティを別々に表現している。 我々は,頭と尾のエンティティがよりよく相互作用し,より優れたエンティティ表現を得ることを可能にする,InterHTという新しい距離ベース手法を提案する。 実験の結果,提案手法はogbl-wikikg2データセットにおいて最良の結果を得た。

Knowledge graph embedding (KGE) models learn the representation of entities and relations in knowledge graphs. Distance-based methods show promising performance on link prediction task, which predicts the result by the distance between two entity representations. However, most of these methods represent the head entity and tail entity separately, which limits the model capacity. We propose a novel distance-based method named InterHT that allows the head and tail entities to interact better and get better entity representation. Experimental results show that our proposed method achieves the best results on ogbl-wikikg2 dataset.
翻訳日:2022-02-11 15:12:01 公開日:2022-02-10
# (参考訳) chemicalx: ドラッグペアスコアリングのためのディープラーニングライブラリ [全文訳有]

ChemicalX: A Deep Learning Library for Drug Pair Scoring ( http://arxiv.org/abs/2202.05240v1 )

ライセンス: CC BY 4.0
Benedek Rozemberczki, Charles Tapley Hoyt, Anna Gogleva, Piotr Grabowski, Klas Karis, Andrej Lamov, Andriy Nikolov, Sebastian Nilsson, Michael Ughetto, Yu Wang, Tyler Derr, Benjamin M Gyori(参考訳) 本稿では,PyTorchをベースとした深層学習ライブラリであるChemicalXを紹介する。 このライブラリの主な目的は、既存のハイレベルモデルトレーニングユーティリティ、幾何学的ディープラーニング、pytorchエコシステムからのディープケミカルレイヤを再利用し、機械学習の研究者や実践者にとって、ディープドラッグペアスコアリングモデルを合理的なフレームワークでアクセスできるようにすることである。 本システムでは,ニューラルネットワークレイヤ,カスタムペアスコアリングアーキテクチャ,データローダ,バッチイテレータをエンドユーザに提供する。 我々はこれらの特徴をサンプルコードスニペットとケーススタディで紹介し、ChemicalXの特徴を強調した。 実世界の薬物・薬物相互作用、多剤副作用、組合せ相乗効果予測タスクに関する実験は、ケミカルXで利用可能なモデルがペアスコアリングタスクの解決に有効であることを示す。 最後に,商品ハードウェア上で数十万の化合物を含む大規模薬物ペアデータセット上で,機械学習モデルをトレーニングし,スコア付けするために chemicalx が使用できることを示した。

In this paper, we introduce ChemicalX, a PyTorch-based deep learning library designed for providing a range of state of the art models to solve the drug pair scoring task. The primary objective of the library is to make deep drug pair scoring models accessible to machine learning researchers and practitioners in a streamlined framework.The design of ChemicalX reuses existing high level model training utilities, geometric deep learning, and deep chemistry layers from the PyTorch ecosystem. Our system provides neural network layers, custom pair scoring architectures, data loaders, and batch iterators for end users. We showcase these features with example code snippets and case studies to highlight the characteristics of ChemicalX. A range of experiments on real world drug-drug interaction, polypharmacy side effect, and combination synergy prediction tasks demonstrate that the models available in ChemicalX are effective at solving the pair scoring task. Finally, we show that ChemicalX could be used to train and score machine learning models on large drug pair datasets with hundreds of thousands of compounds on commodity hardware.
翻訳日:2022-02-11 15:10:19 公開日:2022-02-10
# 潜在因果ダイナミクスの学習

Learning Latent Causal Dynamics ( http://arxiv.org/abs/2202.04828v1 )

ライセンス: Link先を確認
Weiran Yao, Guangyi Chen and Kun Zhang(参考訳) 時系列モデリングの1つの重要な課題は、未知の分布シフトの下でモデルを学習し、迅速に修正する方法である。 そこで本研究では,まず時間遅延因果変数を復元し,分布シフトの異なる時間データからそれらの関係を同定する,lilyと呼ばれる原理的枠組みを提案する。 補正ステップは、識別された因果構造を利用して、新しい環境からいくつかのサンプルで低次元の変化因子を学習するものとして定式化される。 特に、このフレームワークは未知の分布変化を、固定力学と時間変化の潜伏因果関係による遷移分布変化と、観察のグローバルな変化に分解する。 我々は, 非線形混合系の非パラメトリック潜時因果ダイナミクスの同定可能性理論を固定力学および変化下で確立する。 実験により, 分布変化の異なる観測変数から, 時間遅延潜在因果影響が確実に同定できることを示した。 このモジュラー表現を利用して、未知の分布シフトの下でモデルの修正を、少数のサンプルで効率的に行うことができる。

One critical challenge of time-series modeling is how to learn and quickly correct the model under unknown distribution shifts. In this work, we propose a principled framework, called LiLY, to first recover time-delayed latent causal variables and identify their relations from measured temporal data under different distribution shifts. The correction step is then formulated as learning the low-dimensional change factors with a few samples from the new environment, leveraging the identified causal structure. Specifically, the framework factorizes unknown distribution shifts into transition distribution changes caused by fixed dynamics and time-varying latent causal relations, and by global changes in observation. We establish the identifiability theories of nonparametric latent causal dynamics from their nonlinear mixtures under fixed dynamics and under changes. Through experiments, we show that time-delayed latent causal influences are reliably identified from observed variables under different distribution changes. By exploiting this modular representation of changes, we can efficiently learn to correct the model under unknown distribution shifts with only a few samples.
翻訳日:2022-02-11 14:49:19 公開日:2022-02-10
# 分散オフライン強化学習におけるコミュニケーションの複雑さの解消

Settling the Communication Complexity for Distributed Offline Reinforcement Learning ( http://arxiv.org/abs/2202.04862v1 )

ライセンス: Link先を確認
Juliusz Krysztof Ziomek, Jun Wang, Yaodong Yang(参考訳) 本研究では,複数の分散マシンが協調して問題解決を行うオフライン強化学習(rl)において,1ラウンドの通信のみを許可し,各マシンが送信可能な情報の総数(ビット単位)に予算制約を設ける新しい設定について検討する。 文脈的帯域における値関数の予測と、エピソディックおよび非エピソディックMDPの双方に対して、分散統計推定器のミニマックスリスクに関する情報理論の下限を確立し、任意のオフラインRLアルゴリズムで必要となる最小の通信量を明らかにする。 具体的には、コンテキスト・バンディットに対して、ビット数を最小化されたminimaxの最適レートに合わせるために少なくとも$\omega(ac)$でスケールしなければならないことを示し、ここで$a$はアクション数、$c$はコンテキスト次元である。 さらに,最小二乗推定とモンテカルロ回帰推定に基づく学習アルゴリズムを開発し,対数要因による最適リスクを達成することができることを示す鋭利な分析を行う。 また,本手法の初期バイアスにより,単一ラウンド通信環境下で利用可能なすべてのデバイスからの情報の有効利用が不可能であることを示す。 本稿では,分散オフラインRL問題に対する最初のミニマックス低境界について述べる。

We study a novel setting in offline reinforcement learning (RL) where a number of distributed machines jointly cooperate to solve the problem but only one single round of communication is allowed and there is a budget constraint on the total number of information (in terms of bits) that each machine can send out. For value function prediction in contextual bandits, and both episodic and non-episodic MDPs, we establish information-theoreti c lower bounds on the minimax risk for distributed statistical estimators; this reveals the minimum amount of communication required by any offline RL algorithms. Specifically, for contextual bandits, we show that the number of bits must scale at least as $\Omega(AC)$ to match the centralised minimax optimal rate, where $A$ is the number of actions and $C$ is the context dimension; meanwhile, we reach similar results in the MDP settings. Furthermore, we develop learning algorithms based on least-squares estimates and Monte-Carlo return estimates and provide a sharp analysis showing that they can achieve optimal risk up to logarithmic factors. Additionally, we also show that temporal difference is unable to efficiently utilise information from all available devices under the single-round communication setting due to the initial bias of this method. To our best knowledge, this paper presents the first minimax lower bounds for distributed offline RL problems.
翻訳日:2022-02-11 14:49:01 公開日:2022-02-10
# 構造化環境におけるソフトコンティニュムアームの姿勢制御のためのビジュアルサーボ

Visual Servoing for Pose Control of Soft Continuum Arm in a Structured Environment ( http://arxiv.org/abs/2202.05200v1 )

ライセンス: Link先を確認
Shivani Kamtikar, Samhita Marri, Benjamin Walt, Naveen Kumar Uppalapati, Girish Krishnan, Girish Chowdhary(参考訳) 柔らかい連続腕では、視覚サーボは制御ループを閉じるために視覚フィードバックに依存する一般的な制御戦略である。 しかし、堅牢な視覚サーボは、画像から信頼できる特徴抽出、正確な制御モデルとセンサーが腕の形を知覚するために必要であり、どちらもソフトロボットでは実装が難しいため、難しい。 この手紙は、腕の先端にカメラを設置した視覚サーボにより、ソフトアームに滑らかで堅牢な3D位置決めタスクを実行するディープニューラルネットワークベースの方法を提案することによって、これらの課題を回避する。 畳み込みニューラルネットワークは、構造化環境で所望のポーズを達成するために必要な動作を予測するために訓練される。 画像からアクチュエータを推定するための統合的およびモジュール的アプローチを提案し,実験的に比較した。 カメラが見る所望画像と現在画像との誤差を低減するために比例制御法を施行する。 このモデルと比例フィードバック制御は、新しいターゲット、照明、荷重、ソフトアームの縮小など、いくつかのバリエーションに対して堅牢なアプローチを与える。 さらに、モデルは最小限の労力で新しい環境に移されるようにもなっている。

For soft continuum arms, visual servoing is a popular control strategy that relies on visual feedback to close the control loop. However, robust visual servoing is challenging as it requires reliable feature extraction from the image, accurate control models and sensors to perceive the shape of the arm, both of which can be hard to implement in a soft robot. This letter circumvents these challenges by presenting a deep neural network-based method to perform smooth and robust 3D positioning tasks on a soft arm by visual servoing using a camera mounted at the distal end of the arm. A convolutional neural network is trained to predict the actuations required to achieve the desired pose in a structured environment. Integrated and modular approaches for estimating the actuations from the image are proposed and are experimentally compared. A proportional control law is implemented to reduce the error between the desired and current image as seen by the camera. The model together with the proportional feedback control makes the described approach robust to several variations such as new targets, lighting, loads, and diminution of the soft arm. Furthermore, the model lends itself to be transferred to a new environment with minimal effort.
翻訳日:2022-02-11 14:47:47 公開日:2022-02-10
# 分布不確実性定量化による画像間回帰とイメージングへの応用

Image-to-Image Regression with Distribution-Free Uncertainty Quantification and Applications in Imaging ( http://arxiv.org/abs/2202.05265v1 )

ライセンス: Link先を確認
Anastasios N Angelopoulos, Amit P Kohli, Stephen Bates, Michael I Jordan, Jitendra Malik, Thayer Alshaabi, Srigokul Upadhyayula, and Yaniv Romano(参考訳) 画像から画像への回帰は重要な学習課題であり、生物イメージングで頻繁に用いられる。 しかし、現在のアルゴリズムは一般にモデルの誤りや幻覚から保護される統計的な保証を提供していない。 そこで我々は,画像から画像への回帰問題に対する厳密な統計的保証を伴う不確実な定量化手法を開発した。 特に、ユーザが特定した信頼確率を持つ真の値を含むことが保証される各画素周辺の不確実性間隔を導出する方法を示す。 私たちのメソッドは、ニューラルネットワークなどのベース機械学習モデルと連携して動作し、真の未知のデータ分布やモデルの選択に関わらず、形式的な数学的保証を付与します。 さらに、実装が簡単で、計算コストも安い。 我々は, 定量的位相顕微鏡, 加速磁気共鳴イメージング, およびショウジョウバエ脳の超高分解能透過電子顕微鏡の3つの画像-画像回帰タスクについて検討した。

Image-to-image regression is an important learning task, used frequently in biological imaging. Current algorithms, however, do not generally offer statistical guarantees that protect against a model's mistakes and hallucinations. To address this, we develop uncertainty quantification techniques with rigorous statistical guarantees for image-to-image regression problems. In particular, we show how to derive uncertainty intervals around each pixel that are guaranteed to contain the true value with a user-specified confidence probability. Our methods work in conjunction with any base machine learning model, such as a neural network, and endow it with formal mathematical guarantees -- regardless of the true unknown data distribution or choice of model. Furthermore, they are simple to implement and computationally inexpensive. We evaluate our procedure on three image-to-image regression tasks: quantitative phase microscopy, accelerated magnetic resonance imaging, and super-resolution transmission electron microscopy of a Drosophila melanogaster brain.
翻訳日:2022-02-11 14:45:15 公開日:2022-02-10
# シャーロック・ホームズの廃止:視覚的帰納的推論のためのデータセット

The Abduction of Sherlock Holmes: A Dataset for Visual Abductive Reasoning ( http://arxiv.org/abs/2202.04800v1 )

ライセンス: Link先を確認
Jack Hessel and Jena D. Hwang and Jae Sung Park and Rowan Zellers and Chandra Bhagavatula and Anna Rohrbach and Kate Saenko and Yejin Choi(参考訳) 人間は、画像のリテラルの内容を超えるものについて、誘惑的に推論し仮説を立てる能力がある。 シーン全体に散らばっている具体的な視覚的手がかりを特定することで、私たちの日々の経験や世界に関する知識に基づいて、リテラルシーンを超えて推測するのはほとんど役に立たない。 例えば、道路の脇に「時速20マイル」の標識があるなら、その通りが住宅地(高速道路ではなく)にあると仮定できる。 機械は類似の視覚的推論を実行できるか? 本稿では,103K画像の注釈付きコーパスであるSherlockについて述べる。 参加者はまず、画像内の健全な手がかり(例えば、オブジェクト、アクション)を観察し、次に、その手がかりを考慮すれば、そのシーンに関する妥当な推論を提供する。 合計すると、363kペア(clue, inference)を収集し、最初のitsの帰納的推論データセットを形成します。 コーパスを用いて3つの相補的な推論軸をテストした。 モデルの能力を評価します 一 大きな候補コーパスから関連推論を取得すること。 二 結束箱による推論の証拠の局所化、及び 三 可算推論を比較して、新たに収集した19KLikert尺度の診断コーパスに人的判断を適合させる。 マルチタスクを目標とする微調整CLIP-RN50x64は,強いベースラインよりも優れているが,モデル性能と人的合意との間には顕著なヘッドルームが存在する。 我々は将来の仕事に向けて分析を行う。

Humans have remarkable capacity to reason abductively and hypothesize about what lies beyond the literal content of an image. By identifying concrete visual clues scattered throughout a scene, we almost can't help but draw probable inferences beyond the literal scene based on our everyday experience and knowledge about the world. For example, if we see a "20 mph" sign alongside a road, we might assume the street sits in a residential area (rather than on a highway), even if no houses are pictured. Can machines perform similar visual reasoning? We present Sherlock, an annotated corpus of 103K images for testing machine capacity for abductive reasoning beyond literal image contents. We adopt a free-viewing paradigm: participants first observe and identify salient clues within images (e.g., objects, actions) and then provide a plausible inference about the scene, given the clue. In total, we collect 363K (clue, inference) pairs, which form a first-of-its-kind abductive visual reasoning dataset. Using our corpus, we test three complementary axes of abductive reasoning. We evaluate the capacity of models to: i) retrieve relevant inferences from a large candidate corpus; ii) localize evidence for inferences via bounding boxes, and iii) compare plausible inferences to match human judgments on a newly-collected diagnostic corpus of 19K Likert-scale judgments. While we find that fine-tuning CLIP-RN50x64 with a multitask objective outperforms strong baselines, significant headroom exists between model performance and human agreement. We provide analysis that points towards future work.
翻訳日:2022-02-11 14:44:59 公開日:2022-02-10
# 任意のショット学習のためのバイアス除去セマンティックリファインメント

Bias-Eliminated Semantic Refinement for Any-Shot Learning ( http://arxiv.org/abs/2202.04827v1 )

ライセンス: Link先を確認
Liangjun Feng, Chunhui Zhao, and Xi Li(参考訳) トレーニングサンプルが不足している場合には、クラスラベルを属性で記述するセマンティックな埋め込みテクニックであるieが、目に見えないオブジェクトから知識を移すことで、見えないオブジェクトの視覚的特徴を生成する条件を提供する。 しかしながら、セマンティックな記述は通常、手動の注釈のような外部のパラダイムで得られ、記述と視覚的特徴の間に弱い一貫性をもたらす。 本稿では,任意のショット学習タスク,ie,ゼロショット学習(zsl),一般化ゼロショット学習(gzsl),少数ショット学習(fsl)について,粒度の粗い意味記述を洗練する。 新しいモデル、すなわち意味改善ワッサースタイン生成逆数ネットワーク(SRWGAN)モデルは、提案したマルチヘッド表現と階層的アライメント技術を用いて設計されている。 従来の方法とは異なり、セマンティクスの精細化は非結合型特徴生成のためのバイアス除去条件を識別することを目的として行われ、帰納的およびトランスダクティブな設定の両方に適用できる。 例えば、Caltech UCSD Birds(CUB)データセットでは70.2%、標準GZSL設定ではOxford Flowers(FLO)データセットでは82.2%の高調波精度が得られる。 SRWGANのバイアス除去生成を示す様々な可視化も提供される。 私たちのコードは利用可能です。

When training samples are scarce, the semantic embedding technique, ie, describing class labels with attributes, provides a condition to generate visual features for unseen objects by transferring the knowledge from seen objects. However, semantic descriptions are usually obtained in an external paradigm, such as manual annotation, resulting in weak consistency between descriptions and visual features. In this paper, we refine the coarse-grained semantic description for any-shot learning tasks, ie, zero-shot learning (ZSL), generalized zero-shot learning (GZSL), and few-shot learning (FSL). A new model, namely, the semantic refinement Wasserstein generative adversarial network (SRWGAN) model, is designed with the proposed multihead representation and hierarchical alignment techniques. Unlike conventional methods, semantic refinement is performed with the aim of identifying a bias-eliminated condition for disjoint-class feature generation and is applicable in both inductive and transductive settings. We extensively evaluate model performance on six benchmark datasets and observe state-of-the-art results for any-shot learning; eg, we obtain 70.2% harmonic accuracy for the Caltech UCSD Birds (CUB) dataset and 82.2% harmonic accuracy for the Oxford Flowers (FLO) dataset in the standard GZSL setting. Various visualizations are also provided to show the bias-eliminated generation of SRWGAN. Our code is available.
翻訳日:2022-02-11 14:44:03 公開日:2022-02-10
# GPTにおけるファクチュアル知識の配置と編集

Locating and Editing Factual Knowledge in GPT ( http://arxiv.org/abs/2202.05262v1 )

ライセンス: Link先を確認
Kevin Meng, David Bau, Alex Andonian, Yonatan Belinkov(参考訳) 自己回帰変換言語モデルにおける事実的知識リコールのメカニズムについて検討する。 まず,モデルの事実予測を変更可能なニューロン活性化を同定するための因果的介入を開発する。 大きなGPTスタイルのモデルでは、我々はそれぞれ抽象的な事実を知ることと具体的な言葉を言っていることを仮定する2つの異なるニューロンの集合を明らかにする。 この洞察は、モデル重みに格納された事実を編集する新しい方法であるROMEの開発を刺激する。 評価のために,2万以上の反事実とツールのデータセットであるCounterFactを組み立て,知識編集の感度測定を容易にする。 CounterFact を用いて、ニューロンの発音と認識の区別を確認し、ROME が知識編集において他の方法と比較して最先端の性能を達成できることを見出した。 インタラクティブなデモノートブック、完全なコード実装、データセットはhttps://rome.baulab. info/で入手できる。

We investigate the mechanisms underlying factual knowledge recall in autoregressive transformer language models. First, we develop a causal intervention for identifying neuron activations capable of altering a model's factual predictions. Within large GPT-style models, this reveals two distinct sets of neurons that we hypothesize correspond to knowing an abstract fact and saying a concrete word, respectively. This insight inspires the development of ROME, a novel method for editing facts stored in model weights. For evaluation, we assemble CounterFact, a dataset of over twenty thousand counterfactuals and tools to facilitate sensitive measurements of knowledge editing. Using CounterFact, we confirm the distinction between saying and knowing neurons, and we find that ROME achieves state-of-the-art performance in knowledge editing compared to other methods. An interactive demo notebook, full code implementation, and the dataset are available at https://rome.baulab. info/.
翻訳日:2022-02-11 14:43:37 公開日:2022-02-10
# taxoenrich: 構造論的表現による自己教師付き分類体系の完成

TaxoEnrich: Self-Supervised Taxonomy Completion via Structure-Semantic Representations ( http://arxiv.org/abs/2202.04887v1 )

ライセンス: Link先を確認
Minhao Jiang, Xiangchen Song, Jieyu Zhang, Jiawei Han(参考訳) 分類学は様々な領域における多くの現実世界の応用に基本的であり、知識の構造的表現として機能する。 分類学として組織化されるために必要な新しい概念の量を増やすために、研究者は既存の分類学を新しい概念で自動的に完成させる。 本稿では,既存の分類学における意味的特徴と構造的情報の両方を効果的に活用し,分類学完成度を高めるための候補位置のより良い表現を提供する新しい分類学完成フレームワークであるTaxoEnrichを提案する。 Specifically, TaxoEnrich consists of four components: (1) taxonomy-contextuali zed embedding which incorporates both semantic meanings of concept and taxonomic relations based on powerful pretrained language models; (2) a taxonomy-aware sequential encoder which learns candidate position representations by encoding the structural information of taxonomy; (3) a query-aware sibling encoder which adaptively aggregates candidate siblings to augment candidate position representations based on their importance to the query-position matching; (4) a query-position matching model which extends existing work with our new candidate position representations. 異なるドメインからの4つの大規模な実世界のデータセットに対する大規模な実験により、 \TaxoEnrich はすべての評価指標の中で最高のパフォーマンスを達成し、従来の最先端の手法を大きなマージンで上回ることを示した。

Taxonomies are fundamental to many real-world applications in various domains, serving as structural representations of knowledge. To deal with the increasing volume of new concepts needed to be organized as taxonomies, researchers turn to automatically completion of an existing taxonomy with new concepts. In this paper, we propose TaxoEnrich, a new taxonomy completion framework, which effectively leverages both semantic features and structural information in the existing taxonomy and offers a better representation of candidate position to boost the performance of taxonomy completion. Specifically, TaxoEnrich consists of four components: (1) taxonomy-contextuali zed embedding which incorporates both semantic meanings of concept and taxonomic relations based on powerful pretrained language models; (2) a taxonomy-aware sequential encoder which learns candidate position representations by encoding the structural information of taxonomy; (3) a query-aware sibling encoder which adaptively aggregates candidate siblings to augment candidate position representations based on their importance to the query-position matching; (4) a query-position matching model which extends existing work with our new candidate position representations. Extensive experiments on four large real-world datasets from different domains show that \TaxoEnrich achieves the best performance among all evaluation metrics and outperforms previous state-of-the-art methods by a large margin.
翻訳日:2022-02-11 14:43:22 公開日:2022-02-10
# グラフニューラルネットワーク加速に関するサーベイ:アルゴリズムの視点から

Survey on Graph Neural Network Acceleration: An Algorithmic Perspective ( http://arxiv.org/abs/2202.04822v1 )

ライセンス: Link先を確認
Xin Liu, Mingyu Yan, Lei Deng, Guoqi Li, Xiaochun Ye, Dongrui Fan, Shirui Pan, Yuan Xie(参考訳) グラフニューラルネットワーク(GNN)は最近の研究のホットスポットであり、多様なアプリケーションで広く利用されている。 しかし、巨大なデータとより深いモデルを使用することで、より効率的な実行のためにGNNを加速するために急激な需要が生まれている。 本稿では,アルゴリズムの観点から,GNNの高速化手法に関する包括的調査を行う。 まず、既存の加速法を5つのカテゴリに分類する新しい分類法を提案する。 分類に基づいて,これらの手法を体系的に議論し,それらの相関関係を強調する。 次に,これらの手法の効率性と特性について比較を行った。 最後に,今後の研究の展望について提案する。

Graph neural networks (GNNs) have been a hot spot of recent research and are widely utilized in diverse applications. However, with the use of huger data and deeper models, an urgent demand is unsurprisingly made to accelerate GNNs for more efficient execution. In this paper, we provide a comprehensive survey on acceleration methods for GNNs from an algorithmic perspective. We first present a new taxonomy to classify existing acceleration methods into five categories. Based on the classification, we systematically discuss these methods and highlight their correlations. Next, we provide comparisons from aspects of the efficiency and characteristics of these methods. Finally, we suggest some promising prospects for future research.
翻訳日:2022-02-11 14:40:26 公開日:2022-02-10
# 標的認識分子グラフ生成

Target-aware Molecular Graph Generation ( http://arxiv.org/abs/2202.04829v1 )

ライセンス: Link先を確認
Cheng Tan, Zhangyang Gao, Stan Z. Li(参考訳) 望ましい生物学的活性を持つ分子の生成は、薬物発見において注目を集めている。 従来の分子生成モデルは、薬物と標的の相互作用をほとんど考慮しない化学中心的な方法として設計されており、その実用性は制限されている。 本稿では,生物活性と分子設計を橋渡しする標的に配慮した分子ドラッグの創製を目指す。 この問題を解決するため、いくつかの公開データセットからベンチマークデータセットをコンパイルし、統一フレームワークでベースラインを構築します。 流れに基づく分子生成モデルの最近の利点に基づいて, 潜在空間における対象配列埋め込みの分布に流れを適合させるsiamflowを提案する。 具体的には,アライメントロスと一様損失を用いて,目標配列埋め込みと薬物グラフ埋め込みを合意に導入し,崩壊を回避する。 さらに,対象シーケンス埋め込みの学習空間を学習することにより,アライメントを一対多の問題に定式化する。 実験により,提案手法は分子グラフ生成を目標とする潜在空間で有意義な表現を学習することを示し,薬物発見における生物学と化学の橋渡しに代替的なアプローチを提供する。

Generating molecules with desired biological activities has attracted growing attention in drug discovery. Previous molecular generation models are designed as chemocentric methods that hardly consider the drug-target interaction, limiting their practical applications. In this paper, we aim to generate molecular drugs in a target-aware manner that bridges biological activity and molecular design. To solve this problem, we compile a benchmark dataset from several publicly available datasets and build baselines in a unified framework. Building on the recent advantages of flow-based molecular generation models, we propose SiamFlow, which forces the flow to fit the distribution of target sequence embeddings in latent space. Specifically, we employ an alignment loss and a uniform loss to bring target sequence embeddings and drug graph embeddings into agreements while avoiding collapse. Furthermore, we formulate the alignment into a one-to-many problem by learning spaces of target sequence embeddings. Experiments quantitatively show that our proposed method learns meaningful representations in the latent space toward the target-aware molecular graph generation and provides an alternative approach to bridge biology and chemistry in drug discovery.
翻訳日:2022-02-11 14:40:18 公開日:2022-02-10
# 視覚入力を伴うRLタスクのための進化的最適化モジュールを用いた解釈可能なパイプライン

Interpretable pipelines with evolutionarily optimized modules for RL tasks with visual inputs ( http://arxiv.org/abs/2202.04943v1 )

ライセンス: Link先を確認
Leonardo Lucio Custode and Giovanni Iacca(参考訳) AIにおける説明可能性の重要性は、いくつかの説明可能なAI(XAI)アプローチが最近提案されているため、大きな関心事となっている。 しかしながら、利用可能なxai技術のほとんどはポストホックな手法であるが、元のモデルの状態を正確に反映していないため、部分的にしか信頼できない。 したがって、XAIを達成するためのより直接的な方法は、解釈可能な(ガラス箱とも呼ばれる)モデルである。 これらのモデルは、分類や強化学習といった様々なタスクにおけるブラックボックスモデルに対して、同等な(より良い)性能が得られることが示されている。 しかし、特に入力次元が増加し、生入力だけでは意思決定プロセスに関する貴重な洞察を与えられない場合、生データを扱うときに苦労する。 本稿では、進化的アルゴリズムによって最適化された複数の解釈可能なモデルからなるエンドツーエンドパイプラインを用いて、意思決定プロセスを生データから高レベルな特徴を計算し、抽出した高レベルな特徴を推論する2つの部分に分解できるようにする。 我々は,Atariベンチマークの強化学習環境において,確率的フレームスキッピングを伴わない設定で比較結果(ブラックボックスアプローチ)を得るとともに,フレームスキッピング設定では性能が低下することを示す。

The importance of explainability in AI has become a pressing concern, for which several explainable AI (XAI) approaches have been recently proposed. However, most of the available XAI techniques are post-hoc methods, which however may be only partially reliable, as they do not reflect exactly the state of the original models. Thus, a more direct way for achieving XAI is through interpretable (also called glass-box) models. These models have been shown to obtain comparable (and, in some cases, better) performance with respect to black-boxes models in various tasks such as classification and reinforcement learning. However, they struggle when working with raw data, especially when the input dimensionality increases and the raw inputs alone do not give valuable insights on the decision-making process. Here, we propose to use end-to-end pipelines composed of multiple interpretable models co-optimized by means of evolutionary algorithms, that allows us to decompose the decision-making process into two parts: computing high-level features from raw data, and reasoning on the extracted high-level features. We test our approach in reinforcement learning environments from the Atari benchmark, where we obtain comparable results (with respect to black-box approaches) in settings without stochastic frame-skipping, while performance degrades in frame-skipping settings.
翻訳日:2022-02-11 14:39:59 公開日:2022-02-10
# ディープリニアネットワークの厳密解

Exact Solutions of a Deep Linear Network ( http://arxiv.org/abs/2202.04777v1 )

ライセンス: Link先を確認
Liu Ziyin, Botao Li, Xiangming Meng(参考訳) この研究は、ニューラルネットワークのランドスケープを理解する基本的なモデルである、重みの減衰と確率的ニューロンを持つ深い線形ネットワークの厳密な解を見つける。 その結果、重み減衰はモデルアーキテクチャと強く相互作用し、1ドル以上の隠蔽層を持つネットワークでは悪いミニマを生成でき、わずか1ドルで隠蔽層を持つネットワークでは定性的に異なることが示唆された。 応用例として,確率ネットの解析を行い,確率性,幅,深さが無限大になるにつれてその予測分散がゼロに減少することを示した。

This work finds the exact solutions to a deep linear network with weight decay and stochastic neurons, a fundamental model for understanding the landscape of neural networks. Our result implies that weight decay strongly interacts with the model architecture and can create bad minima in a network with more than $1$ hidden layer, qualitatively different for a network with only $1$ hidden layer. As an application, we also analyze stochastic nets and show that their prediction variance vanishes to zero as the stochasticity, the width, or the depth tends to infinity.
翻訳日:2022-02-11 14:37:58 公開日:2022-02-10
# 不均一校正:一般化改善のためのポストホックモデル非依存フレームワーク

Heterogeneous Calibration: A post-hoc model-agnostic framework for improved generalization ( http://arxiv.org/abs/2202.04837v1 )

ライセンス: Link先を確認
David Durfee, Aman Gupta, Kinjal Basu(参考訳) モデル出力にポストホックモデル非依存変換を適用した不均一キャリブレーションの概念を導入し、二項分類タスクにおけるAUC性能を改善する。 我々は、トレーニングとテストデータでパフォーマンスが大幅に向上する過信モデルを検討し、データの中で適度に効果的な単純なパターンを過小評価する理由について直観を与える。 これらの単純なパターンを特徴空間の不均一な分割と呼び、各分割の完全校正がAUCを個別に最適化することを理論的に示す。 これにより、木に基づくアルゴリズムにより特徴空間の不均一な分割を識別し、各分割にポストホックキャリブレーション手法を適用してAUCを改善するポストホック法として、ヘテロジニアスキャリブレーションの一般的なパラダイムを提供する。 このフレームワークの理論的最適性はどんなモデルにも当てはまるが、ディープニューラルネットワーク(DNN)に注目し、このパラダイムの最も単純なインスタンス化をさまざまなオープンソースデータセットでテストする。 実験は、このフレームワークの有効性と、より効果的なキャリブレーション技術とともに高性能なパーティショニングスキームの適用の可能性を示す。

We introduce the notion of heterogeneous calibration that applies a post-hoc model-agnostic transformation to model outputs for improving AUC performance on binary classification tasks. We consider overconfident models, whose performance is significantly better on training vs test data and give intuition onto why they might under-utilize moderately effective simple patterns in the data. We refer to these simple patterns as heterogeneous partitions of the feature space and show theoretically that perfectly calibrating each partition separately optimizes AUC. This gives a general paradigm of heterogeneous calibration as a post-hoc procedure by which heterogeneous partitions of the feature space are identified through tree-based algorithms and post-hoc calibration techniques are applied to each partition to improve AUC. While the theoretical optimality of this framework holds for any model, we focus on deep neural networks (DNNs) and test the simplest instantiation of this paradigm on a variety of open-source datasets. Experiments demonstrate the effectiveness of this framework and the future potential for applying higher-performing partitioning schemes along with more effective calibration techniques.
翻訳日:2022-02-11 14:37:46 公開日:2022-02-10
# 自然林の重み付けによる局所fr\'echet回帰と理論的保証

Random Forests Weighted Local Fr\'echet Regression with Theoretical Guarantee ( http://arxiv.org/abs/2202.04912v1 )

ライセンス: Link先を確認
Rui Qiu, Zhou Yu, Ruoqing Zhu(参考訳) 統計解析は、対称正定値行列値データや確率分布関数のような一般的な計量空間の複素データとますます対立している。 47] と[17] は複素距離空間値応答とユークリッド予測器によるFr'echet回帰の一般パラダイムを確立する。 しかし、Fr'echet回帰手法は非パラメトリックカーネルの平滑化を伴い、次元の呪いに苦しむ。 この問題に対処するため,本稿では,新しいランダム林重み付き局所fr\'echet回帰パラダイムを提案する。 このアプローチの主なメカニズムは、ランダムフォレストによって生成される適応カーネルに依存する。 第1の手法では,これらの重みを局所平均としてfr\'echet平均を解き,第2の手法では局所線形fr\'echet回帰を行い,両手法を局所適応化する。 提案手法は既存のfr\'echet回帰法を大幅に改善する。 無限次U-プロセスの理論と無限次Mmn-推定器に基づいて、ユークリッド応答を持つランダム森林の現在の大規模サンプル理論をカバーするFr'echet回帰推定器を提案するランダム森林の整合性、収束率、漸近正規性を確立する。 確率分布関数, 対称正定値行列, 球面データなど, 一般に遭遇する複数の応答型を持つFr'echet回帰法において, 提案手法の優位性を示す。 また, 本提案の実用的メリットは, 人体死亡率分布データの適用によっても示される。

Statistical analysis is increasingly confronted with complex data from general metric spaces, such as symmetric positive definite matrix-valued data and probability distribution functions. [47] and [17] establish a general paradigm of Fr\'echet regression with complex metric space valued responses and Euclidean predictors. However, their proposed local Fr\'echet regression approach involves nonparametric kernel smoothing and suffers from the curse of dimensionality. To address this issue, we in this paper propose a novel random forests weighted local Fr\'echet regression paradigm. The main mechanism of our approach relies on the adaptive kernels generated by random forests. Our first method utilizes these weights as the local average to solve the Fr\'echet mean, while the second method performs local linear Fr\'echet regression, making both methods locally adaptive. Our proposals significantly improve existing Fr\'echet regression methods. Based on the theory of infinite order U-processes and infinite order Mmn-estimator, we establish the consistency, rate of convergence, and asymptotic normality for our proposed random forests weighted Fr\'echet regression estimator, which covers the current large sample theory of random forests with Euclidean responses as a special case. Numerical studies show the superiority of our proposed two methods for Fr\'echet regression with several commonly encountered types of responses such as probability distribution functions, symmetric positive definite matrices, and sphere data. The practical merits of our proposals are also demonstrated through the application to the human mortality distribution data.
翻訳日:2022-02-11 14:37:28 公開日:2022-02-10
# 凸解析による一般化境界

Generalization Bounds via Convex Analysis ( http://arxiv.org/abs/2202.04985v1 )

ライセンス: Link先を確認
Gergely Neu, G\'abor Lugosi(参考訳) Russo and Zou (2016,2019) と Xu and Raginsky (2017) の有名な業績から、教師付き学習アルゴリズムの一般化誤差は、任意の固定仮説の損失が亜ガウス的尾を持つことを考えると、入力と出力の間の相互情報の観点から有界であることはよく知られている。 本研究では、この結果をシャノンの相互情報の標準選択を超えて一般化し、入力と出力の依存性を測定する。 本研究の主な結果は,相互情報を結合入力出力分布の任意の強凸関数に置き換えることができ,従属測度の幾何をキャプチャする適切に選択されたノルム上のバウンドに置き換えられた損失のサブガウシアン性条件に置き換えることができることを示す。 これにより、完全に新しい、あるいは以前に知られていたような強化された一般化境界を導出することができる。 例えば、$p$-normの発散とワッサーシュタイン2距離の項で表される境界は、それぞれ重み付き損失分布と非常に滑らかな損失関数に適用できる。 本分析は, 依存度と損失関数に関連付けられたポテンシャル関数の成長を追跡することにより, 凸解析から得られる基本ツールに基づく。

Since the celebrated works of Russo and Zou (2016,2019) and Xu and Raginsky (2017), it has been well known that the generalization error of supervised learning algorithms can be bounded in terms of the mutual information between their input and the output, given that the loss of any fixed hypothesis has a subgaussian tail. In this work, we generalize this result beyond the standard choice of Shannon's mutual information to measure the dependence between the input and the output. Our main result shows that it is indeed possible to replace the mutual information by any strongly convex function of the joint input-output distribution, with the subgaussianity condition on the losses replaced by a bound on an appropriately chosen norm capturing the geometry of the dependence measure. This allows us to derive a range of generalization bounds that are either entirely new or strengthen previously known ones. Examples include bounds stated in terms of $p$-norm divergences and the Wasserstein-2 distance, which are respectively applicable for heavy-tailed loss distributions and highly smooth loss functions. Our analysis is entirely based on elementary tools from convex analysis by tracking the growth of a potential function associated with the dependence measure and the loss function.
翻訳日:2022-02-11 14:36:59 公開日:2022-02-10
# PCENet:高次元ディープサロゲートモデリング

PCENet: High Dimensional Deep Surrogate Modeling ( http://arxiv.org/abs/2202.05063v1 )

ライセンス: Link先を確認
Paz Fink Shustin, Shashanka Ubaru, Vasileios Kalantzis, Lior Horesh, Haim Avron(参考訳) 不確実性の下でデータ表現を学ぶことは、多くの機械学習アプリケーションに現れる重要なタスクである。 しかし、不確実性定量化(uq)技術は計算量が多く、高次元データには極めて高価である。 本稿では,中程度から高次元のデータを扱うことを目的とした,表現学習と不確実性定量化のための新しいサロゲートモデルを提案する。 提案モデルは,(潜在的に高次元の)データの次元性低減のためのニューラルネットワークアプローチと,データ分布学習のためのサロゲートモデル手法を組み合わせたものである。 まず、変動オートエンコーダ(VAE)を用いて、データ分布の低次元表現を学習する。 次に,多項式カオス展開(pce)の定式化を用いて,この分布を出力対象にマッピングする。 PCEの係数は、最大平均誤差(MMD)アプローチを用いてトレーニングデータの分布表現から学習する。 私たちのモデルでは (a)データの表現を学ぶ。 b)高次元データシステムにおける不確実性の推定 (c)出力分布の高次モーメントに一致し、データの事前の統計的な仮定を伴わない。 提案手法の性能を示すために, 数値実験を行った。

Learning data representations under uncertainty is an important task that emerges in numerous machine learning applications. However, uncertainty quantification (UQ) techniques are computationally intensive and become prohibitively expensive for high-dimensional data. In this paper, we present a novel surrogate model for representation learning and uncertainty quantification, which aims to deal with data of moderate to high dimensions. The proposed model combines a neural network approach for dimensionality reduction of the (potentially high-dimensional) data, with a surrogate model method for learning the data distribution. We first employ a variational autoencoder (VAE) to learn a low-dimensional representation of the data distribution. We then propose to harness polynomial chaos expansion (PCE) formulation to map this distribution to the output target. The coefficients of PCE are learned from the distribution representation of the training data using a maximum mean discrepancy (MMD) approach. Our model enables us to (a) learn a representation of the data, (b) estimate uncertainty in the high-dimensional data system, and (c) match high order moments of the output distribution; without any prior statistical assumptions on the data. Numerical experimental results are presented to illustrate the performance of the proposed method.
翻訳日:2022-02-11 14:36:37 公開日:2022-02-10
# (参考訳) 最良のシステムは何か? NLPベンチマークの新展開 [全文訳有]

What are the best systems? New perspectives on NLP Benchmarking ( http://arxiv.org/abs/2202.03799v2 )

ライセンス: CC BY 4.0
Pierre Colombo and Nathan Noiry and Ekhine Irurozki and Stephan Clemencon(参考訳) 機械学習において、ベンチマークとは、1つまたは複数のメトリクスに関連するデータセットの集合と、異なるシステムパフォーマンスを集約する方法である。 彼らは楽器です (i)異なる軸に沿っての新しい方法の進展を評価すること、及び (ii)実用上最良のシステムを選択すること。 特にNLPでは、様々なタスクでうまく一般化されるであろう大規模な事前学習モデル(GPT、BERTなど)が開発されている。 コミュニティは、主に新しいデータセットとメトリクスの開発に注力しているが、アグリゲーション手順にはほとんど関心がなく、様々なパフォーマンス指標よりも単純な平均に削減されることが多い。 しかし、メトリクスが異なるスケールにある場合、この手順は問題になりうるため、急激な結論につながる可能性がある。 本稿では,異なるタスクにまたがるシステムの性能をランク付けする新しい手法を提案する。 社会的選択理論に動機づけられ、各タスクによって引き起こされるランキングを集約することで最終的なシステム順序が得られ、理論的に接地される。 合成スコアと実スコア(glue, extrem, seval, tac, flickrなど)の両方で、我々のアプローチの健全性を評価するために、270k以上のスコアで広範な数値実験を行いました。 特に,本手法は,信頼性とロバストさを両立させながら,平均集約法と異なる結果が得られることを示す。

In Machine Learning, a benchmark refers to an ensemble of datasets associated with one or multiple metrics together with a way to aggregate different systems performances. They are instrumental in (i) assessing the progress of new methods along different axes and (ii) selecting the best systems for practical use. This is particularly the case for NLP with the development of large pre-trained models (e.g. GPT, BERT) that are expected to generalize well on a variety of tasks. While the community mainly focused on developing new datasets and metrics, there has been little interest in the aggregation procedure, which is often reduced to a simple average over various performance measures. However, this procedure can be problematic when the metrics are on a different scale, which may lead to spurious conclusions. This paper proposes a new procedure to rank systems based on their performance across different tasks. Motivated by the social choice theory, the final system ordering is obtained through aggregating the rankings induced by each task and is theoretically grounded. We conduct extensive numerical experiments (on over 270k scores) to assess the soundness of our approach both on synthetic and real scores (e.g. GLUE, EXTREM, SEVAL, TAC, FLICKR). In particular, we show that our method yields different conclusions on state-of-the-art systems than the mean-aggregation procedure while being both more reliable and robust.
翻訳日:2022-02-11 14:34:52 公開日:2022-02-10
# (参考訳) bregman divergencesのバイアス分散トレードオフを理解する [全文訳有]

Understanding the bias-variance tradeoff of Bregman divergences ( http://arxiv.org/abs/2202.04167v2 )

ライセンス: CC BY 4.0
Ben Adlam, Neha Gupta, Zelda Mariet, Jamie Smith(参考訳) 本稿では,任意のブレグマン発散損失関数に対するバイアス分散トレードオフを一般化したPfau (2013) の業績に基づく。 Pfau (2013) は、ブレグマンの発散について、バイアスと分散はラベル変数の平均として定義される中央ラベルとより複雑な形式の中央予測に関して定義されることを示した。 ラベルと同様に、中央予測は確率変数の平均として解釈され、平均は損失関数自身によって定義される双対空間で作用する。 双対空間で取られた操作を通してバイアス分散のトレードオフを観察すると、いくつかの利害関係の結果が導かれる。 特に a) 分散項は,全分散の一般化された法則を満たす。 b) ランダム性の源が制御できない場合,バイアス及び分散への寄与は,閉じた形式を有する。 (c)ラベル空間と予測空間には、ばらつきを低減しバイアスに影響を与えない自然なセンスリング演算が存在する。

This paper builds upon the work of Pfau (2013), which generalized the bias variance tradeoff to any Bregman divergence loss function. Pfau (2013) showed that for Bregman divergences, the bias and variances are defined with respect to a central label, defined as the mean of the label variable, and a central prediction, of a more complex form. We show that, similarly to the label, the central prediction can be interpreted as the mean of a random variable, where the mean operates in a dual space defined by the loss function itself. Viewing the bias-variance tradeoff through operations taken in dual space, we subsequently derive several results of interest. In particular, (a) the variance terms satisfy a generalized law of total variance; (b) if a source of randomness cannot be controlled, its contribution to the bias and variance has a closed form; (c) there exist natural ensembling operations in the label and prediction spaces which reduce the variance and do not affect the bias.
翻訳日:2022-02-11 14:04:34 公開日:2022-02-10
# (参考訳) 因果推論手法の評価 [全文訳有]

Evaluating Causal Inference Methods ( http://arxiv.org/abs/2202.04208v2 )

ライセンス: CC BY 4.0
Harsh Parikh, Carlos Varjao, Louise Xu, Eric Tchetgen Tchetgen(参考訳) 因果推論を描く基本的な課題は、反事実的結果がいかなる単位に対しても完全には観察されないことである。 さらに、観察研究では、治療の割り当てが合理化されそうである。 確率スコア法、確率スコア法、二重頑健な方法など、前処理の共変量による未定条件下での因果推論のための統計手法が数多く出現している。 応用研究者にとって残念なことに、最適に普遍的に実行できる‘one-size-fits-all’因果法は存在しない。 実際、因果的手法は主に手作りシミュレーションデータに基づいて定量的に評価される。 このようなデータ生成手順は、通常、現実のスタイル化されたモデルであるため、限られた価値しか持たない。 それらはトラクタビリティをシンプルにし、現実世界のデータの複雑さを欠いている。 応用研究者にとって、手元のデータに対してどのようにメソッドが機能するかを理解することは重要である。 本研究は,因果推論手法を検証するために,深い生成モデルに基づくフレームワークであるcredenceを導入する。 フレームワークの新規性は、観測されたサンプルの実験的分布に固定された合成データを生成する能力に由来するため、後者とは事実上区別できない。 このアプローチにより、ユーザーは因果効果の形式と大きさの基底真理とバイアスを共変量の関数として定義することができる。 そこで, シミュレーションデータセットを用いて, 観測試料と類似したデータに適用した場合に, 種々の因果推定手法の有効性を評価する。 本研究では,Credenceの因果推定手法の相対的性能を,広範囲なシミュレーション研究と,LalondeとProject STARによる2つの実世界のデータ応用で正確に評価する能力を示す。

The fundamental challenge of drawing causal inference is that counterfactual outcomes are not fully observed for any unit. Furthermore, in observational studies, treatment assignment is likely to be confounded. Many statistical methods have emerged for causal inference under unconfoundedness conditions given pre-treatment covariates, including propensity score-based methods, prognostic score-based methods, and doubly robust methods. Unfortunately for applied researchers, there is no `one-size-fits-all&#x 27; causal method that can perform optimally universally. In practice, causal methods are primarily evaluated quantitatively on handcrafted simulated data. Such data-generative procedures can be of limited value because they are typically stylized models of reality. They are simplified for tractability and lack the complexities of real-world data. For applied researchers, it is critical to understand how well a method performs for the data at hand. Our work introduces a deep generative model-based framework, Credence, to validate causal inference methods. The framework's novelty stems from its ability to generate synthetic data anchored at the empirical distribution for the observed sample, and therefore virtually indistinguishable from the latter. The approach allows the user to specify ground truth for the form and magnitude of causal effects and confounding bias as functions of covariates. Thus simulated data sets are used to evaluate the potential performance of various causal estimation methods when applied to data similar to the observed sample. We demonstrate Credence's ability to accurately assess the relative performance of causal estimation techniques in an extensive simulation study and two real-world data applications from Lalonde and Project STAR studies.
翻訳日:2022-02-11 13:44:37 公開日:2022-02-10
# (参考訳) icassp 2022多チャンネル多人数会議転写チャレンジのためのvolcspeechシステム [全文訳有]

The Volcspeech system for the ICASSP 2022 multi-channel multi-party meeting transcription challenge ( http://arxiv.org/abs/2202.04261v2 )

ライセンス: CC BY 4.0
Chen Shen, Yi Liu, Wenzhi Fan, Bin Wang, Shixue Wen, Yao Tian, Jun Zhang, Jingsheng Yang, Zejun Ma(参考訳) 本稿ではICASSP 2022 Multi-channel Multi-party Meeting Transcription (M2MeT) Challengeについて述べる。 トラック1では,クラスタリングに基づく話者ダイアリゼーションシステムに重なり合う音声を扱うためのいくつかのアプローチを提案する。 話者ダイアリゼーションの精度を向上させるために、フロントエンドのデバーベレーションとDOA推定を用いる。 複数チャネルの組み合わせと重複検出を適用し、話者誤りを低減させる。 異なるシステムの結果を融合させるために、修正されたDOVER-Lapも提案されている。 Evalセットで5.79%、Testセットで7.23%の最終DERを達成しました。 トラック2では,コンバータモデルを用いた共同CTCアテンションアーキテクチャを用いたシステムを開発した。 複数話者重複音声認識には直列化出力訓練が適用される。 本稿では,マルチチャネル音声をモデル化し,モデルエンドツーエンドをトレーニングするためのニューラルネットワークフロントエンドモジュールを提案する。 マルチチャネルマルチスピーカE2Eシステムにおけるオーバーフィッティングを軽減するために,様々なデータ拡張手法が用いられている。 トランスフォーマー言語モデル融合は、よりよい性能を達成するために開発されている。 最後のCERはEvalセットで19.2%、Testセットで20.8%である。

This paper describes our submission to ICASSP 2022 Multi-channel Multi-party Meeting Transcription (M2MeT) Challenge. For Track 1, we propose several approaches to empower the clustering-based speaker diarization system to handle overlapped speech. Front-end dereverberation and the direction-of-arrival (DOA) estimation are used to improve the accuracy of speaker diarization. Multi-channel combination and overlap detection are applied to reduce the missed speaker error. A modified DOVER-Lap is also proposed to fuse the results of different systems. We achieve the final DER of 5.79% on the Eval set and 7.23% on the Test set. For Track 2, we develop our system using the Conformer model in a joint CTC-attention architecture. Serialized output training is adopted to multi-speaker overlapped speech recognition. We propose a neural front-end module to model multi-channel audio and train the model end-to-end. Various data augmentation methods are utilized to mitigate over-fitting in the multi-channel multi-speaker E2E system. Transformer language model fusion is developed to achieve better performance. The final CER is 19.2% on the Eval set and 20.8% on the Test set.
翻訳日:2022-02-11 13:25:34 公開日:2022-02-10
# (参考訳) 一般化田口法と対象ベクトルノルムによる多目的ロバストCNNシステムの最適過パラメータと構造設定 [全文訳有]

Optimal Hyperparameters and Structure Setting of Multi-Objective Robust CNN Systems via Generalized Taguchi Method and Objective Vector Norm ( http://arxiv.org/abs/2202.04567v2 )

ライセンス: CC BY 4.0
Sheng-Guo Wang and Shanshan Jiang (The University of North Carolina at Charlotte)(参考訳) 近年、機械学習(ml)、人工知能(ai)、畳み込みニューラルネットワーク(cnn)は、深層学習構造とcnnとaiシステムの品質と性能を決定する多数のハイパーパラメータを持つ幅広いアプリケーションで大きな進歩を遂げている。 これらのシステムには、多目的MLとAIパフォーマンスのニーズがある。 多目的ロバストな最適cnnシステムのための最適なハイパーパラメータと構造を見つけるための重要な要件がある。 本稿では,多目的頑健なCNNシステムの最適パラメータと構造を目的性能ベクトルノルムを用いて効果的に決定する汎用田口手法を提案する。 提案手法は,CIFAR-10データセットに対する元のResNetを用いたCNN分類システムに適用され,提案手法はCIFAR-10における元のResNetの最適精度を達成するのに極めて有効であることを示す。

Recently, Machine Learning (ML), Artificial Intelligence (AI), and Convolutional Neural Network (CNN) have made huge progress with broad applications, where their systems have deep learning structures and a large number of hyperparameters that determine the quality and performance of the CNNs and AI systems. These systems may have multi-objective ML and AI performance needs. There is a key requirement to find the optimal hyperparameters and structures for multi-objective robust optimal CNN systems. This paper proposes a generalized Taguchi approach to effectively determine the optimal hyperparameters and structure for the multi-objective robust optimal CNN systems via their objective performance vector norm. The proposed approach and methods are applied to a CNN classification system with the original ResNet for CIFAR-10 dataset as a demonstration and validation, which shows the proposed methods are highly effective to achieve an optimal accuracy rate of the original ResNet on CIFAR-10.
翻訳日:2022-02-11 13:13:43 公開日:2022-02-10
# 2次情報を用いた統計モデルの計算複雑性の向上

Improving Computational Complexity in Statistical Models with Second-Order Information ( http://arxiv.org/abs/2202.04219v2 )

ライセンス: Link先を確認
Tongzheng Ren and Jiacheng Zhuo and Sujay Sanghavi and Nhat Ho(参考訳) 統計モデルが特異である場合、すなわち、真のパラメータのフィッシャー情報行列が縮退すると、固定されたステップサイズ勾配降下アルゴリズムは、実パラメータの周りの最終的な統計半径に収束するために、サンプルサイズ$n$の項で多項式数のステップを取る。 計算複雑性をさらに改善するため,最適化アルゴリズムの設計における2次情報の利用を検討する。 具体的には,統計モデルの経験的損失関数のヘッセン行列の最大固有値を用いて,ステップサイズをスケールした勾配降下アルゴリズムの変種であるパラメトリック統計モデルのパラメータ推定のための正規化勾配降下(NormGD)アルゴリズムについて検討する。 集団損失関数、すなわち$n$が無限大になるときの経験的損失関数の極限がすべての方向に均質であるとき、NormGD の反復は$n$の対数的な反復数の後、真のパラメータの周りの最終的な統計的半径に達することを示した。 したがって、固定次元$d$の場合、ノルムGDアルゴリズムは最終的な統計半径に達するために最適な計算複雑性$\mathcal{O}(n)$を達成する。 この計算複雑性は、幾らかの$\tau > 1$に対して$\mathcal{O}(n^{\tau})$の次数である固定ステップサイズ勾配勾配アルゴリズムよりも低く、同じ統計半径に達する。 一般化線形モデルと混合モデルという2つの統計モデルの下での一般理論を示し, 一般理論による予測を実験的に支持する。

It is known that when the statistical models are singular, i.e., the Fisher information matrix at the true parameter is degenerate, the fixed step-size gradient descent algorithm takes polynomial number of steps in terms of the sample size $n$ to converge to a final statistical radius around the true parameter, which can be unsatisfactory for the application. To further improve that computational complexity, we consider the utilization of the second-order information in the design of optimization algorithms. Specifically, we study the normalized gradient descent (NormGD) algorithm for solving parameter estimation in parametric statistical models, which is a variant of gradient descent algorithm whose step size is scaled by the maximum eigenvalue of the Hessian matrix of the empirical loss function of statistical models. When the population loss function, i.e., the limit of the empirical loss function when $n$ goes to infinity, is homogeneous in all directions, we demonstrate that the NormGD iterates reach a final statistical radius around the true parameter after a logarithmic number of iterations in terms of $n$. Therefore, for fixed dimension $d$, the NormGD algorithm achieves the optimal overall computational complexity $\mathcal{O}(n)$ to reach the final statistical radius. This computational complexity is cheaper than that of the fixed step-size gradient descent algorithm, which is of the order $\mathcal{O}(n^{\tau})$ for some $\tau > 1$, to reach the same statistical radius. We illustrate our general theory under two statistical models: generalized linear models and mixture models, and experimental results support our prediction with general theory.
翻訳日:2022-02-11 13:02:38 公開日:2022-02-10
# crat-pred: クリスタルグラフ畳み込みニューラルネットワークとマルチヘッドセルフアテンションによる車両軌道予測

CRAT-Pred: Vehicle Trajectory Prediction with Crystal Graph Convolutional Neural Networks and Multi-Head Self-Attention ( http://arxiv.org/abs/2202.04488v2 )

ライセンス: Link先を確認
Julian Schmidt, Julian Jordan, Franz Gritschneder, Klaus Dietmayer(参考訳) 周囲の車両の動きを予測することは、自律走行車にとって不可欠である。 現状の自動車予測モデルは地図情報に大きく依存している。 しかし実際には、この情報は必ずしも利用できない。 そこで我々は,地図情報に頼らずに,車両間の社会的相互作用を効果的にモデル化することを目的としたマルチモーダル・非ラスタライズ型軌道予測モデルcrat-predを提案する。 CRAT-Predは、物質科学の分野から生まれたグラフ畳み込み法を車両の予測に適用し、エッジの特徴を効率的に活用し、マルチヘッドの自己認識と組み合わせることができる。 他のマップフリーアプローチと比較して、モデルパラメータが著しく少ない状態で最先端のパフォーマンスを達成する。 それに加えて, 自己着脱機構が, 計測可能な相互作用スコアを表す重みを用いて, 車両間の社会的相互作用を学習できることを定量的に示す。 ソースコードは公開されている。

Predicting the motion of surrounding vehicles is essential for autonomous vehicles, as it governs their own motion plan. Current state-of-the-art vehicle prediction models heavily rely on map information. In reality, however, this information is not always available. We therefore propose CRAT-Pred, a multi-modal and non-rasterization-ba sed trajectory prediction model, specifically designed to effectively model social interactions between vehicles, without relying on map information. CRAT-Pred applies a graph convolution method originating from the field of material science to vehicle prediction, allowing to efficiently leverage edge features, and combines it with multi-head self-attention. Compared to other map-free approaches, the model achieves state-of-the-art performance with a significantly lower number of model parameters. In addition to that, we quantitatively show that the self-attention mechanism is able to learn social interactions between vehicles, with the weights representing a measurable interaction score. The source code is publicly available.
翻訳日:2022-02-11 13:02:07 公開日:2022-02-10
# ニューラル画像圧縮における構造空間の探索

Exploring Structural Sparsity in Neural Image Compression ( http://arxiv.org/abs/2202.04595v2 )

ライセンス: Link先を確認
Shanzhi Yin, Fanyang Meng, Wen Tan, Chao Li, Youneng Bao, Yongsheng Liang, Wei Liu(参考訳) ニューラル画像圧縮は従来の手法(JPEG、BPG、WebPなど)に到達または性能が向上した。 しかし、カスケード畳み込み層を持つ洗練されたネットワーク構造は、実用的な配置に大量の計算負荷をもたらす。 本稿では,ニューラル画像圧縮ネットワークにおける構造的空間性について検討し,ハードウェア設計やアルゴリズムを使わずにリアルタイムな高速化を実現する。 本稿では,各畳み込みチャネルの重要性を判断し,訓練中にスパーシティを導入するための,簡易なプラグイン適応バイナリチャネルマスキング(abcm)を提案する。 推論の間、重要でないチャネルは、よりスリムなネットワークと少ない計算を得るために刈り取られる。 提案手法を,異なるエントロピーモデルを持つ3つのニューラル画像圧縮ネットワークに実装し,その有効性と一般化性を検証する。

Neural image compression have reached or out-performed traditional methods (such as JPEG, BPG, WebP). However,their sophisticated network structures with cascaded convolution layers bring heavy computational burden for practical deployment. In this paper, we explore the structural sparsity in neural image compression network to obtain real-time acceleration without any specialized hardware design or algorithm. We propose a simple plug-in adaptive binary channel masking(ABCM) to judge the importance of each convolution channel and introduce sparsity during training. During inference, the unimportant channels are pruned to obtain slimmer network and less computation. We implement our method into three neural image compression networks with different entropy models to verify its effectiveness and generalization, the experiment results show that up to 7x computation reduction and 3x acceleration can be achieved with negligible performance drop.
翻訳日:2022-02-11 13:01:50 公開日:2022-02-10
# 抽象要約に基づく微分可能なN-gram

Differentiable N-gram Objective on Abstractive Summarization ( http://arxiv.org/abs/2202.04003v3 )

ライセンス: Link先を確認
Yunqi Zhu and Wensheng Zhang and Mingjin Zhu(参考訳) ROUGEは、シーケンス・ツー・シーケンスタスクのn-gramに基づく標準的な自動評価指標であり、クロスエントロピー損失は、ユニグラムレベルで最適化されるニューラルネットワーク言語モデルの重要な目的である。 そこで我々は,n-gramの目標を微分可能とし,訓練基準と評価基準との相違を緩和する。 この目的は一致したサブシーケンスの確率的重みを最大化し、我々の研究の新規性は一致したサブシーケンスの目的重みを等しく保ち、基準系列におけるn-グラムの基底真理数によって一致したサブシーケンスの数を減少させない。 クロスエントロピー損失と提案する目標を共同で最適化し,抽象要約データセットcnn/dmとxsumに対して,適切なルージュスコアの強化を行い,代替n-gram目標を上回った。

ROUGE is a standard automatic evaluation metric based on n-grams for sequence-to-sequence tasks, while cross-entropy loss is an essential objective of neural network language model that optimizes at a unigram level. We present differentiable n-gram objectives, attempting to alleviate the discrepancy between training criterion and evaluating criterion. The objective maximizes the probabilistic weight of matched sub-sequences, and the novelty of our work is the objective weights the matched sub-sequences equally and does not ceil the number of matched sub-sequences by the ground truth count of n-grams in reference sequence. We jointly optimize cross-entropy loss and the proposed objective, providing decent ROUGE score enhancement over abstractive summarization dataset CNN/DM and XSum, outperforming alternative n-gram objectives.
翻訳日:2022-02-11 13:00:58 公開日:2022-02-10
# 身元確認用モーションアウェア変圧器

Motion-Aware Transformer For Occluded Person Re-identification ( http://arxiv.org/abs/2202.04243v2 )

ライセンス: Link先を確認
Mi Zhou, Hongye Liu, Zhekun Lv, Wei Hong, Xiai Chen(参考訳) 近年, 人身認証(Re-ID)は, 特に群集状況において, 人や障害物によってしばしば不明瞭化される, 困難な課題である。 本稿では,隠蔽者Re-IDを用いた自己教師型深層学習手法を提案する。 従来の研究とは異なり、さまざまな姿勢の写真から得られる動き情報は、主要な人間の身体成分を識別するのに役立ちます。 まず, 動き認識型トランスフォーマーエンコーダ・デコーダアーキテクチャを用いて, キーポイントのヒートマップと部分分割マップを得る。 次に、アフィン変換モジュールを使用して、キーポイント検出ブランチから動き情報を取得する。 すると、動作情報はセグメンテーションブランチをサポートし、洗練された人間の部分セグメンテーションマップを達成し、人体を合理的なグループに効果的に分割する。 最後に, 背景や咬合障害を回避し, 人体の異なる代表部位を識別する上で, 提案モデルの有効性を示す例もいくつかある。 本手法はoccluded, partial, holisticなど,いくつかの一般的なデータセットにおいて,最先端の結果を一貫して達成する。

Recently, occluded person re-identification(Re -ID) remains a challenging task that people are frequently obscured by other people or obstacles, especially in a crowd massing situation. In this paper, we propose a self-supervised deep learning method to improve the location performance for human parts through occluded person Re-ID. Unlike previous works, we find that motion information derived from the photos of various human postures can help identify major human body components. Firstly, a motion-aware transformer encoder-decoder architecture is designed to obtain keypoints heatmaps and part-segmentation maps. Secondly, an affine transformation module is utilized to acquire motion information from the keypoint detection branch. Then the motion information will support the segmentation branch to achieve refined human part segmentation maps, and effectively divide the human body into reasonable groups. Finally, several cases demonstrate the efficiency of the proposed model in distinguishing different representative parts of the human body, which can avoid the background and occlusion disturbs. Our method consistently achieves state-of-the-art results on several popular datasets, including occluded, partial, and holistic.
翻訳日:2022-02-11 13:00:40 公開日:2022-02-10
# 教師付き変化点検出のためのシンクホーンダイバージェンス学習

Learning Sinkhorn divergences for supervised change point detection ( http://arxiv.org/abs/2202.04000v3 )

ライセンス: Link先を確認
Nauman Ahad, Eva L. Dyer, Keith B. Hengen, Yao Xie, Mark A. Davenport(参考訳) 現代の多くのアプリケーションは、複雑なシーケンシャルデータの変化点を検出する必要がある。 変更点検出のための既存のほとんどのメソッドは教師なしであり、結果として、どのような変更を検出したいか、あるいは何らかの変更が無視されるかどうかに関する情報がない。 これにより、しばしば変更検出性能が低下する。 そこで本研究では,スライディングウインドウにおける2つのサンプルテストにおいて,シンクホーンダイバージェンスを用いてオンライン的に変化点を検出できるように,基底距離の学習にtrue change pointインスタンスを用いた新しい変化点検出フレームワークを提案する。 本手法は,高次元変化点検出設定における特徴選択と解釈の両方に有用なスパースメトリックの学習に使用できる。 その結果,提案手法はラベル付き変更点インスタンス数が少ないだけで,既存の教師なし変更点検出手法よりも大幅に変更点検出性能を向上させることができることがわかった。

Many modern applications require detecting change points in complex sequential data. Most existing methods for change point detection are unsupervised and, as a consequence, lack any information regarding what kind of changes we want to detect or if some kinds of changes are safe to ignore. This often results in poor change detection performance. We present a novel change point detection framework that uses true change point instances as supervision for learning a ground metric such that Sinkhorn divergences can be then used in two-sample tests on sliding windows to detect change points in an online manner. Our method can be used to learn a sparse metric which can be useful for both feature selection and interpretation in high-dimensional change point detection settings. Experiments on simulated as well as real world sequences show that our proposed method can substantially improve change point detection performance over existing unsupervised change point detection methods using only few labeled change point instances.
翻訳日:2022-02-11 13:00:19 公開日:2022-02-10
# 設計問題に対する共形予測

Conformal prediction for the design problem ( http://arxiv.org/abs/2202.03613v2 )

ライセンス: Link先を確認
Clara Fannjiang, Stephen Bates, Anastasios Angelopoulos, Jennifer Listgarten, Michael I. Jordan(参考訳) 機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。 例えば、タンパク質設計問題において、タンパク質配列の実際の値特性を予測する回帰モデルがあり、トレーニングデータで観測されるよりも高い特性値を示すと考えられる新しい配列を提案する。 ウェットラボにおける設計シーケンスの検証は一般的にコストがかかるため、モデルの予測をどれだけ信頼できるかを知ることが重要である。 しかし、そのような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある:トレーニングデータとテストデータが統計的に依存している場合、後者が前者に基づいて選択される。 したがって、テストデータ(すなわち、設計されたシーケンス)におけるモデルのエラーは、トレーニングデータに対するエラーと非自明な関係を持つ。 そこで本研究では,予測の不確かさを定量化する手法を提案する。 我々は、トレーニングデータとテストデータ間の依存性を考慮した予測のための信頼セットを構築する。 我々の構成する信頼度集合は、訓練されたモデルがテスト時間入力分布を選択した場合でも、任意の予測アルゴリズムを保持できる有限サンプル保証を持つ。 モチベーション・ユース・ケースとして,本手法が実際のデータセットを用いて設計したタンパク質の適合性を予測する方法を示す。

In many real-world deployments of machine learning, we use a prediction algorithm to choose what data to test next. For example, in the protein design problem, we have a regression model that predicts some real-valued property of a protein sequence, which we use to propose new sequences believed to exhibit higher property values than observed in the training data. Since validating designed sequences in the wet lab is typically costly, it is important to know how much we can trust the model's predictions. In such settings, however, there is a distinct type of distribution shift between the training and test data: one where the training and test data are statistically dependent, as the latter is chosen based on the former. Consequently, the model's error on the test data -- that is, the designed sequences -- has some non-trivial relationship with its error on the training data. Herein, we introduce a method to quantify predictive uncertainty in such settings. We do so by constructing confidence sets for predictions that account for the dependence between the training and test data. The confidence sets we construct have finite-sample guarantees that hold for any prediction algorithm, even when a trained model chooses the test-time input distribution. As a motivating use case, we demonstrate how our method quantifies uncertainty for the predicted fitness of designed protein using real data sets.
翻訳日:2022-02-11 12:58:58 公開日:2022-02-10
# 優先型コミュニケーション学習によるマルチエージェントパス探索

Multi-Agent Path Finding with Prioritized Communication Learning ( http://arxiv.org/abs/2202.03634v2 )

ライセンス: Link先を確認
Wenhao Li, Hongjun Chen, Bo Jin, Wenzhe Tan, Hongyuan Zha, Xiangfeng Wang(参考訳) マルチエージェントパスフィンディング(MAPF)は、自動化倉庫などの大規模な現実世界の問題を解決するために広く用いられている。 学習ベースで完全に分散化されたフレームワークは、リアルタイム問題を緩和し、同時に最適な計画方針を追求するために導入された。 しかし、既存の手法は頂点衝突(または衝突)をかなり多く発生させる可能性があり、成功率が低いか、それ以上のものとなる。 本稿では,分散型マルチエージェント強化学習フレームワークにおける通信トポロジーに,<textit{implicit}プランニングプライオリティを組み込んだ優先順位付きコミュニケーション学習手法(pico)を提案する。 古典的な結合プランナーと組み合わせることで、暗黙の優先学習モジュールを使用して動的通信トポロジを形成し、効果的な衝突回避機構を構築することができる。 PICOは、最先端の学習ベースプランナよりも、成功率や衝突率において、大規模なMAPFタスクにおいて、大幅に改善されている。

Multi-agent pathfinding (MAPF) has been widely used to solve large-scale real-world problems, e.g., automation warehouses. The learning-based, fully decentralized framework has been introduced to alleviate real-time problems and simultaneously pursue optimal planning policy. However, existing methods might generate significantly more vertex conflicts (or collisions), which lead to a low success rate or more makespan. In this paper, we propose a PrIoritized COmmunication learning method (PICO), which incorporates the \textit{implicit} planning priorities into the communication topology within the decentralized multi-agent reinforcement learning framework. Assembling with the classic coupled planners, the implicit priority learning module can be utilized to form the dynamic communication topology, which also builds an effective collision-avoiding mechanism. PICO performs significantly better in large-scale MAPF tasks in success rates and collision rates than state-of-the-art learning-based planners.
翻訳日:2022-02-11 12:58:37 公開日:2022-02-10
# 深部フィードフォワードニューラルネットワークにおける特徴抽出の局所幾何学的解釈

A Local Geometric Interpretation of Feature Extraction in Deep Feedforward Neural Networks ( http://arxiv.org/abs/2202.04632v2 )

ライセンス: Link先を確認
Md Kamran Chowdhury Shisher, Tasmeen Zaman Ornee, and Yin Sun(参考訳) 本稿では,高次元データからディープフィードフォワードニューラルネットワークがどのように低次元特徴を抽出するかを解釈するための局所幾何解析を提案する。 本研究では, 局所幾何学領域において, ニューラルネットワークの一層における最適重みと前層の最適特徴が, この層のベイズ作用によって決定される行列の低ランク近似を構成することを示す。 この結果は (i)ニューラルネットワークの出力層と隠れ層の両方を分析すること、及び (ii) 非消滅勾配のニューロン活性化機能について。 ニューラルネットワークに基づく最大確率分類(ソフトマックス回帰)とニューラルネットワークに基づく最小平均二乗推定という2つの教師付き学習問題を用いて結果を説明する。 これらの理論結果の実験的検証を今後の研究で実施する。

In this paper, we present a local geometric analysis to interpret how deep feedforward neural networks extract low-dimensional features from high-dimensional data. Our study shows that, in a local geometric region, the optimal weight in one layer of the neural network and the optimal feature generated by the previous layer comprise a low-rank approximation of a matrix that is determined by the Bayes action of this layer. This result holds (i) for analyzing both the output layer and the hidden layers of the neural network, and (ii) for neuron activation functions with non-vanishing gradients. We use two supervised learning problems to illustrate our results: neural network based maximum likelihood classification (i.e., softmax regression) and neural network based minimum mean square estimation. Experimental validation of these theoretical results will be conducted in our future work.
翻訳日:2022-02-11 12:58:20 公開日:2022-02-10