このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220517となっている論文です。

PDF登録状況(公開日: 20220517)

TitleAuthorsAbstract論文公表日・翻訳日
# kerasを用いた深層ニューラルネットワークの応用

Applications of Deep Neural Networks with Keras ( http://arxiv.org/abs/2009.05673v5 )

ライセンス: Link先を確認
Jeff Heaton(参考訳) ディープラーニングは、ニューラルネットワークのためのエキサイティングな新技術のグループだ。 高度なトレーニング技術とニューラルネットワークアーキテクチャコンポーネントを組み合わせることで、入力と出力の両方として表データ、画像、テキスト、オーディオを処理するニューラルネットワークを作成できるようになった。 深層学習は、ニューラルネットワークが人間の脳の機能のような方法で情報の階層を学習することを可能にする。 このコースでは、古典的なニューラルネットワーク構造、畳み込みニューラルネットワーク(CNN)、Long Short-Term Memory(LSTM)、Gated Recurrent Neural Networks(GRU)、General Adversarial Networks(GAN)、強化学習を紹介する。 これらのアーキテクチャをコンピュータビジョン、時系列、セキュリティ、自然言語処理(NLP)、データ生成に適用する。 ハイパフォーマンスコンピューティング(HPC)の側面は、グラフィカル処理ユニット(GPU)とグリッドの両方でディープラーニングをどのように活用できるかを示す。 主に問題へのディープラーニングの適用に焦点が当てられ、数学的基礎が導入された。 読者はPythonプログラミング言語を使用して、Google TensorFlowとKerasを使ってディープラーニングを実装する。 この本に先立ってPythonを知る必要はないが、少なくとも1つのプログラミング言語に精通していると仮定される。

Deep learning is a group of exciting new technologies for neural networks. Through a combination of advanced training techniques and neural network architectural components, it is now possible to create neural networks that can handle tabular data, images, text, and audio as both input and output. Deep learning allows a neural network to learn hierarchies of information in a way that is like the function of the human brain. This course will introduce the student to classic neural network structures, Convolution Neural Networks (CNN), Long Short-Term Memory (LSTM), Gated Recurrent Neural Networks (GRU), General Adversarial Networks (GAN), and reinforcement learning. Application of these architectures to computer vision, time series, security, natural language processing (NLP), and data generation will be covered. High-Performance Computing (HPC) aspects will demonstrate how deep learning can be leveraged both on graphical processing units (GPUs), as well as grids. Focus is primarily upon the application of deep learning to problems, with some introduction to mathematical foundations. Readers will use the Python programming language to implement deep learning using Google TensorFlow and Keras. It is not necessary to know Python prior to this book; however, familiarity with at least one programming language is assumed.
翻訳日:2022-10-19 20:59:51 公開日:2022-05-17
# 一層スパークネットワークの景観とそれを超えて

On the Landscape of One-hidden-layer Sparse Networks and Beyond ( http://arxiv.org/abs/2009.07439v4 )

ライセンス: Link先を確認
Dachao Lin, Ruoyu Sun, Zhihua Zhang(参考訳) 疎いニューラルネットワークは、密度の高いネットワークに比べて小さなサイズのため、関心が増している。 それでも、ニューラルネットワーク理論に関する既存の研究のほとんどは、高密度ニューラルネットワークに焦点を当てており、スパースネットワークの理解は非常に限られている。 本稿では,単層分散ネットワークの損失景観について検討する。 まず、密度の高い最終層を持つスパースネットワークを考える。 線形ネットワークは,特別なスパース構造下ではスプリアス谷を有しず,非線形ネットワークは広い最終層下のスプリアス谷も認めないことを示した。 第2に, 粗い最終層を有する広い疎ネットワークに対して, 急激な谷と急激なミニマが存在することを発見した。 これは、緩やかな仮定の下で急な谷を持たない広い密度のネットワークとは異なる。

Sparse neural networks have received increasing interest due to their small size compared to dense networks. Nevertheless, most existing works on neural network theory have focused on dense neural networks, and the understanding of sparse networks is very limited. In this paper, we study the loss landscape of one-hidden-layer sparse networks. First, we consider sparse networks with a dense final layer. We show that linear networks can have no spurious valleys under special sparse structures, and non-linear networks could also admit no spurious valleys under a wide final layer. Second, we discover that spurious valleys and spurious minima can exist for wide sparse networks with a sparse final layer. This is different from wide dense networks which do not have spurious valleys under mild assumptions.
翻訳日:2022-10-17 23:10:38 公開日:2022-05-17
# メディエーション分析を用いた因果変数の強化学習

Reinforcement Learning of Causal Variables Using Mediation Analysis ( http://arxiv.org/abs/2010.15745v2 )

ライセンス: Link先を確認
Tue Herlau, Rasmus Larsen(参考訳) 機械学習における多くのオープン問題は本質的に因果関係に関連しているが、機械学習における因果分析の使用はまだ初期段階にある。 一般的な強化学習環境の中では,環境の因果グラフ構築に経験を用いた総合強化学習エージェントを構築することの問題点を考察し,このグラフを用いてその方針を報告する。 まず、変数が複数のインスタンスで状態を反映し、個々のアクションではなくポリシーのレベルで介入が行われる単純な粗粒度の因果グラフを学びます。 次に,メディア分析を用いて最適化対象を得る。 この目標を最小化することで、因果変数を定義する。 第3に,本手法は強化学習からの期待値よりも条件付き期待値の推定に依存しているため,ベルマン方程式の一般化を適用する。 提案手法は,グリッド・ワールド環境において妥当な因果グラフを学習でき,エージェントは因果的インフォームド・ポリシーを用いた場合のパフォーマンス向上が得られることを示す。 我々の知る限りでは、国家数に厳しい制限を加えることなく強化学習環境で因果解析を適用する試みは、これが初めてである。 調停分析は,因果獲得の問題をコスト関数最小化の1つに転換する有望な手段を提供するが,条件付き期待値を推定することが重要である。 これは新たな課題であり、このような条件付き予測のオンライン評価に適した開発手法が因果強化学習にかかわると考えられる。 最後に、我々のアプローチの利点は、人間の因果的理解のより自然なモデルである非常に単純な因果的モデルを使用することである。

Many open problems in machine learning are intrinsically related to causality, however, the use of causal analysis in machine learning is still in its early stage. Within a general reinforcement learning setting, we consider the problem of building a general reinforcement learning agent which uses experience to construct a causal graph of the environment, and use this graph to inform its policy. Our approach has three characteristics: First, we learn a simple, coarse-grained causal graph, in which the variables reflect states at many time instances, and the interventions happen at the level of policies, rather than individual actions. Secondly, we use mediation analysis to obtain an optimization target. By minimizing this target, we define the causal variables. Thirdly, our approach relies on estimating conditional expectations rather the familiar expected return from reinforcement learning, and we therefore apply a generalization of Bellman's equations. We show the method can learn a plausible causal graph in a grid-world environment, and the agent obtains an improvement in performance when using the causally informed policy. To our knowledge, this is the first attempt to apply causal analysis in a reinforcement learning setting without strict restrictions on the number of states. We have observed that mediation analysis provides a promising avenue for transforming the problem of causal acquisition into one of cost-function minimization, but importantly one which involves estimating conditional expectations. This is a new challenge, and we think that causal reinforcement learning will involve development methods suited for online estimation of such conditional expectations. Finally, a benefit of our approach is the use of very simple causal models, which are arguably a more natural model of human causal understanding.
翻訳日:2022-10-01 23:30:27 公開日:2022-05-17
# (参考訳) 楽観主義者たち:なぜゲームaiを研究するのか? (拡張版)

Optimists at Heart: Why Do We Research Game AI? (Extended Version) ( http://arxiv.org/abs/2206.03261v1 )

ライセンス: CC BY 4.0
Michael Cook(参考訳) 本稿では,現代のゲームAI研究の背景にあるモチベーションを,個々の出版物や研究者自身,それに影響を及ぼす機関を分析して調査する。 その際、外部の力と、見過ごされやすい制度化された行動の両方によって引き起こされる、我々のフィールドに対するいくつかのネガティブな影響を識別する。 我々は、コミュニティとしてこれらの問題にどのように対処し始めるかを提案し、この分野の背後にある主要な推進力として自分自身を再主張する。

In this paper we survey the motivations behind contemporary game AI research by analysing individual publications, the researchers themselves, and the institutions that influence them. In doing so, we identify some negative effects on our field, caused both by external forces outside of our control as well as institutionalised behaviours that are easily overlooked. We suggest how we might begin to address some of these issues as a community, and reassert ourselves as the primary driving force behind the field.
翻訳日:2022-06-12 23:26:48 公開日:2022-05-17
# nlpに基づくテキスト表現手法を用いた要求工学的タスク支援--システマティック・マッピング・レビュー

The Use of NLP-Based Text Representation Techniques to Support Requirement Engineering Tasks: A Systematic Mapping Review ( http://arxiv.org/abs/2206.00421v1 )

ライセンス: Link先を確認
Riad Sonbol, Ghaida Rebdawi, Nada Ghneim(参考訳) 自然言語処理(NLP)は、様々な要求工学(RE)タスクの自動化をサポートするために広く使われている。 提案手法のほとんどは、要求文を分析し、言語情報を抽出し、特徴のリストや埋め込みに基づくベクトル表現などの簡単なプロセス表現に変換する様々なNLPステップから始まる。 これらのnlpベースの表現は通常、機械学習技術やルールベースの手法の入力として後段で使用される。 したがって、要求表現は異なるアプローチの正確さを決定する上で重要な役割を果たす。 本稿では,系統的な文献分類(分類)の形で,(1)REタスク文学における表現とは何か,(2)これらの研究の主な焦点は何か,(3)本領域における研究の方向性は何か,(4)そのギャップと将来的な方向性は何かを明らかにするために調査を行った。 2,227紙の初期プールをコンパイルし,包括的・排他的基準を適用した結果,104紙を含む最終プールが得られた。 研究の方向性は,語彙的・構文的特徴の使用から,特に過去2年間における先進的な組込み技術の利用に変化した。 高度な埋め込み表現を使用することで、ほとんどのREタスク(要求分析、レビューやフォーラムからの要求抽出、セマンティックレベルの品質タスクなど)でその効果が証明されている。 しかしながら、語彙的および構文的特徴に基づく表現は、これらのタスクを扱う際に使われる規則や正規表現に必要な情報を提供するので、他のREタスク(モデリングや構文レベルの品質タスクなど)にはまだ適しています。 さらに、既存の文献の4つのギャップ、なぜそれが重要なのか、今後の研究がどう対処し始めるかを特定する。

Natural Language Processing (NLP) is widely used to support the automation of different Requirements Engineering (RE) tasks. Most of the proposed approaches start with various NLP steps that analyze requirements statements, extract their linguistic information, and convert them to easy-to-process representations, such as lists of features or embedding-based vector representations. These NLP-based representations are usually used at a later stage as inputs for machine learning techniques or rule-based methods. Thus, requirements representations play a major role in determining the accuracy of different approaches. In this paper, we conducted a survey in the form of a systematic literature mapping (classification) to find out (1) what are the representations used in RE tasks literature, (2) what is the main focus of these works, (3) what are the main research directions in this domain, and (4) what are the gaps and potential future directions. After compiling an initial pool of 2,227 papers, and applying a set of inclusion/exclusion criteria, we obtained a final pool containing 104 relevant papers. Our survey shows that the research direction has changed from the use of lexical and syntactic features to the use of advanced embedding techniques, especially in the last two years. Using advanced embedding representations has proved its effectiveness in most RE tasks (such as requirement analysis, extracting requirements from reviews and forums, and semantic-level quality tasks). However, representations that are based on lexical and syntactic features are still more appropriate for other RE tasks (such as modeling and syntax-level quality tasks) since they provide the required information for the rules and regular expressions used when handling these tasks. In addition, we identify four gaps in the existing literature, why they matter, and how future research can begin to address them.
翻訳日:2022-06-12 09:31:32 公開日:2022-05-17
# (参考訳) 模擬精神科領域における暴力事件予測のための連合学習

Federated learning for violence incident prediction in a simulated cross-institutional psychiatric setting ( http://arxiv.org/abs/2205.10234v1 )

ライセンス: CC BY 4.0
Thomas Borger, Pablo Mosteiro, Heysem Kaya, Emil Rijcken, Albert Ali Salah, Floortje Scheepers, Marco Spruit(参考訳) 入院中の暴力は精神医学において一般的かつ深刻な問題である。 誰が暴力的になるかを知ることは、スタッフのレベルに影響し、重大さを軽減できる。 予測機械学習モデルは、臨床ノートに基づいて各患者の暴力行為の可能性を評価することができる。 しかし、機械学習モデルはより多くのデータを持つことで恩恵を受けるが、病院はプライバシ保護のためにデータを共有しないため、データの可用性は制限される。 フェデレートラーニング(FL)は、コラボレータ間でデータを開示することなく、分散的にトレーニングモデルによってデータ制限の問題を克服することができる。 しかし、いくつかのFLアプローチが存在するが、いずれも臨床ノートに自然言語処理モデルを訓練するものではない。 本研究では, 臨床自然言語処理へのフェデレートラーニングの適用について検討し, 施設間精神状態のシミュレーションによる暴力リスク評価の課題に適用した。 2つのローカルモデル、フェデレーションモデル、データ分散モデルという4つのモデルをトレーニングし比較する。 本結果は,フェデレーションモデルが局所モデルより優れ,データ集中モデルと類似した性能を有することを示す。 これらの結果から,フェデレートラーニングは制度横断的に有効に活用できることが示唆され,臨床ノートに基づくフェデレーションラーニングの新たな応用に向けての一歩となる。

Inpatient violence is a common and severe problem within psychiatry. Knowing who might become violent can influence staffing levels and mitigate severity. Predictive machine learning models can assess each patient's likelihood of becoming violent based on clinical notes. Yet, while machine learning models benefit from having more data, data availability is limited as hospitals typically do not share their data for privacy preservation. Federated Learning (FL) can overcome the problem of data limitation by training models in a decentralised manner, without disclosing data between collaborators. However, although several FL approaches exist, none of these train Natural Language Processing models on clinical notes. In this work, we investigate the application of Federated Learning to clinical Natural Language Processing, applied to the task of Violence Risk Assessment by simulating a cross-institutional psychiatric setting. We train and compare four models: two local models, a federated model and a data-centralised model. Our results indicate that the federated model outperforms the local models and has similar performance as the data-centralised model. These findings suggest that Federated Learning can be used successfully in a cross-institutional setting and is a step towards new applications of Federated Learning based on clinical notes
翻訳日:2022-06-06 06:55:11 公開日:2022-05-17
# (参考訳) 説明可能なAIはモデルの複雑さと競合するのか?

Is explainable AI a race against model complexity? ( http://arxiv.org/abs/2205.10119v1 )

ライセンス: CC BY 4.0
Advait Sarkar(参考訳) モデルのサイズと複雑さが大きくなるにつれて、インテリジェントシステムの振る舞いを説明することはますます難しくなるでしょう。 脳スケールモデルによる全ての予測に対する説明を期待できないかもしれないし、客観的または非政治的な説明を期待できないかもしれない。 これらのモデルに対する我々の機能主義的な理解は、想像以上に有利ではない。 モデルは説明に先行し、モデルと説明の両方が正しくない場合でも有用である。 説明可能性 複雑さに対してレースに勝つことは決してないかもしれないが、これは一見して問題ではない。

Explaining the behaviour of intelligent systems will get increasingly and perhaps intractably challenging as models grow in size and complexity. We may not be able to expect an explanation for every prediction made by a brain-scale model, nor can we expect explanations to remain objective or apolitical. Our functionalist understanding of these models is of less advantage than we might assume. Models precede explanations, and can be useful even when both model and explanation are incorrect. Explainability may never win the race against complexity, but this is less problematic than it seems.
翻訳日:2022-06-06 06:54:08 公開日:2022-05-17
# (参考訳) Spiking DeepONetを用いた関数回帰

Function Regression using Spiking DeepONet ( http://arxiv.org/abs/2205.10130v1 )

ライセンス: CC BY 4.0
Adar Kahana, Qian Zhang, Leonard Gleyzer, George Em Karniadakis(参考訳) ディープラーニングの主な応用の1つは、関数回帰である。 しかし、その正確性と堅牢性が実証されたにもかかわらず、現代のニューラルネットワークアーキテクチャは、トレーニングに重い計算リソースを必要とする。 この非効率性を緩和または解決する1つの方法は、脳からさらなるインスピレーションを導き、より生物学的に証明可能な方法で学習プロセスを再構築することであり、近年注目を集めているスパイキングニューラルネットワーク(SNN)として知られるものを開発することである。 本稿では,関数の入力領域と連続出力値をスパイクとして表現することが本質的に困難であることから,回帰を行うsnベースの手法を提案する。 私たちは、スパイクの振る舞いを学ぶために、オペレーターを学習するために設計されたdeeponet(ニューラルネットワーク)を使用します。 次に、この手法を用いて関数回帰を行う。 本研究では,spikingフレームワークでdeeponetを使用する方法をいくつか提案し,ベンチマークの精度とトレーニング時間を提示する。

One of the main broad applications of deep learning is function regression. However, despite their demonstrated accuracy and robustness, modern neural network architectures require heavy computational resources to train. One method to mitigate or even resolve this inefficiency has been to draw further inspiration from the brain and reformulate the learning process in a more biologically-plausible way, developing what are known as Spiking Neural Networks (SNNs), which have been gaining traction in recent years. In this paper we present an SNN-based method to perform regression, which has been a challenge due to the inherent difficulty in representing a function's input domain and continuous output values as spikes. We use a DeepONet - neural network designed to learn operators - to learn the behavior of spikes. Then, we use this approach to do function regression. We propose several methods to use a DeepONet in the spiking framework, and present accuracy and training time for different benchmarks.
翻訳日:2022-06-06 06:39:19 公開日:2022-05-17
# 不均一量子化を用いた畳み込みニューラルネットワーク用シリコンフォトニック加速器

A Silicon Photonic Accelerator for Convolutional Neural Networks with Heterogeneous Quantization ( http://arxiv.org/abs/2205.11244v1 )

ライセンス: Link先を確認
Febin Sunny, Mahdi Nikdast, and Sudeep Pasricha(参考訳) 畳み込みニューラルネットワーク(cnns)におけるパラメータ量子化は、メモリフットプリントと計算複雑性が低い効率的なモデルを生成するのに役立つ。 しかし、均一量子化はCNNモデルの精度を著しく低下させる可能性がある。 対照的に、不均一量子化は、高い推論精度を持つコンパクトな量子化モデルを実現するための有望なアプローチである。 本稿では,均質量子化モデルと不均質量子化モデルの両方を加速できる非コヒーレントシリコンフォトニクスに基づくcnn加速器hqnnaを提案する。 解析の結果、hqnnaは最大73.8倍、スループット・エネルギ効率は159.5倍向上した。

Parameter quantization in convolutional neural networks (CNNs) can help generate efficient models with lower memory footprint and computational complexity. But, homogeneous quantization can result in significant degradation of CNN model accuracy. In contrast, heterogeneous quantization represents a promising approach to realize compact, quantized models with higher inference accuracies. In this paper, we propose HQNNA, a CNN accelerator based on non-coherent silicon photonics that can accelerate both homogeneously quantized and heterogeneously quantized CNN models. Our analyses show that HQNNA achieves up to 73.8x better energy-per-bit and 159.5x better throughput-energy efficiency than state-of-the-art photonic CNN accelerators.
翻訳日:2022-05-29 20:41:41 公開日:2022-05-17
# 深い品質評価:人間の品質評価のためのサロゲートモデルの作成

Deep Quality Estimation: Creating Surrogate Models for Human Quality Ratings ( http://arxiv.org/abs/2205.10355v1 )

ライセンス: Link先を確認
Florian Kofler, Ivan Ezhov, Lucas Fidon, Izabela Horvath, Ezequiel de la Rosa, John LaMaster, Hongwei Li, Tom Finck, Suprosanna Shit, Johannes Paetzold, Spyridon Bakas, Marie Piraud, Jan Kirschke, Tom Vercauteren, Claus Zimmer, Benedikt Wiestler, Bjoern Menze(参考訳) 人間のレーティングはセグメンテーション品質の抽象表現である。 少ない専門家データに基づく人的品質評価を近似するために、代理品質推定モデルを訓練する。 複雑な多クラスセグメンテーション問題,特にBraTSアノテーションプロトコルに従ってグリオーマセグメンテーションを評価する。 トレーニングデータは、コンピュータ生成および手動3Dアノテーションのために、1から6つの星のスケールで15人の神経放射線学者による品質評価を特徴としている。 ネットワークは2d画像上で動作し,訓練データが少ない場合でも,人間のレート内信頼性に匹敵する誤差の範囲内でセグメンテーション品質を推定することができる。 セグメンテーションの品質予測は幅広い応用がある。 セグメンテーション品質の理解は、自動セグメンテーション品質アルゴリズムの臨床的翻訳の成功に不可欠であるが、新しいセグメンテーションモデルの訓練において重要な役割を果たす。 スプリット秒の推論時間のため、フェデレーション学習設定において、損失関数内または完全な自動データセットキュレーションメカニズムとして直接適用することができる。

Human ratings are abstract representations of segmentation quality. To approximate human quality ratings on scarce expert data, we train surrogate quality estimation models. We evaluate on a complex multi-class segmentation problem, specifically glioma segmentation following the BraTS annotation protocol. The training data features quality ratings from 15 expert neuroradiologists on a scale ranging from 1 to 6 stars for various computer-generated and manual 3D annotations. Even though the networks operate on 2D images and with scarce training data, we can approximate segmentation quality within a margin of error comparable to human intra-rater reliability. Segmentation quality prediction has broad applications. While an understanding of segmentation quality is imperative for successful clinical translation of automatic segmentation quality algorithms, it can play an essential role in training new segmentation models. Due to the split-second inference times, it can be directly applied within a loss function or as a fully-automatic dataset curation mechanism in a federated learning setting.
翻訳日:2022-05-29 20:27:04 公開日:2022-05-17
# プライバシー保護画像登録

Privacy Preserving Image Registration ( http://arxiv.org/abs/2205.10120v1 )

ライセンス: Link先を確認
Riccardo Taiello, Melek \"Onen, Olivier Humbert and Marco Lorenzi(参考訳) 画像登録は医療画像の分野で重要な課題であり、共通の空間参照フレームで医療画像を表現することができる。 画像登録に関する現在の文献は、画像が研究者に通常アクセス可能であるという仮定に基づいており、そこから空間変換が推定される。 この一般的な仮定は、現在の応用では満たされないかもしれない。医学画像の繊細な性質は、最終的にプライバシー上の制約の下で分析を必要とし、明確な形で画像の内容を共有することを妨げる。 そこで本研究では,プライバシー保護体制下では画像登録の問題点を定式化し,画像は機密性であり,明快に開示できないと仮定する。 我々は、セキュアなマルチパーティ計算や準同型暗号化など、基礎となるデータを漏らすことなく操作の実行を可能にする高度な暗号ツールを考慮して、古典的な登録パラダイムを拡張して、プライバシ保護イメージ登録フレームワークを導出します。 高い次元における暗号ツールの性能とスケーラビリティの問題を克服するために,まず勾配近似を用いた画像登録操作の最適化を提案する。 さらに、同型暗号の使用を再検討し、大行列の暗号化と乗算をより効率的に行えるようにパッキング法を用いる。 我々は,線形および非線形の登録問題に対するプライバシ保護フレームワークの実証を行い,標準画像登録に関してその精度とスケーラビリティを評価した。 以上の結果から,プライバシ保護画像登録は実現可能であり,センシティブな医用画像アプリケーションに応用可能であることが示された。

Image registration is a key task in medical imaging applications, allowing to represent medical images in a common spatial reference frame. Current literature on image registration is generally based on the assumption that images are usually accessible to the researcher, from which the spatial transformation is subsequently estimated. This common assumption may not be met in current practical applications, since the sensitive nature of medical images may ultimately require their analysis under privacy constraints, preventing to share the image content in clear form. In this work, we formulate the problem of image registration under a privacy preserving regime, where images are assumed to be confidential and cannot be disclosed in clear. We derive our privacy preserving image registration framework by extending classical registration paradigms to account for advanced cryptographic tools, such as secure multi-party computation and homomorphic encryption, that enable the execution of operations without leaking the underlying data. To overcome the problem of performance and scalability of cryptographic tools in high dimensions, we first propose to optimize the underlying image registration operations using gradient approximations. We further revisit the use of homomorphic encryption and use a packing method to allow the encryption and multiplication of large matrices more efficiently. We demonstrate our privacy preserving framework in linear and non-linear registration problems, evaluating its accuracy and scalability with respect to standard image registration. Our results show that privacy preserving image registration is feasible and can be adopted in sensitive medical imaging applications.
翻訳日:2022-05-29 20:26:27 公開日:2022-05-17
# RFセンシングによるユーザ位置推定:LISとmmWaveレーダの性能比較

User Localization using RF Sensing: A Performance comparison between LIS and mmWave Radars ( http://arxiv.org/abs/2205.10321v1 )

ライセンス: Link先を確認
Cristian J. Vaca-Rubio, Dariush Salami, Petar Popovski, Elisabeth de Carvalho, Zheng-Hua Tan, Stephan Sigg(参考訳) 電磁信号が一様であるため、無線周波数(RF)センシングは、ローカライゼーション、スマートホーム、小売、ジェスチャー認識、侵入検知などの応用で、普遍的なセンシングメカニズムとなる可能性がある。 RFセンシングにおける2つの新しい技術、すなわちLarge Intelligent Surfaces (LIS) と mmWave Frequency-Modulated Continuous-Wave (FMCW) レーダーによるセンシングは、幅広い応用に成功している。 本研究では, LIS と mmWave のレーダを用いて実環境とシミュレーション環境の局所化を行う。 我々の実験では、LISは0.56IOUと10cmの誤差を持つのに対し、mmWaveレーダーは0.71IOU(Intersection Over Union)と3cmの誤差を達成した。 レーダは精度でLISより優れているが、LISはセンサーのシナリオに加えて通信にも追加の応用を特徴としている。

Since electromagnetic signals are omnipresent, Radio Frequency (RF)-sensing has the potential to become a universal sensing mechanism with applications in localization, smart-home, retail, gesture recognition, intrusion detection, etc. Two emerging technologies in RF-sensing, namely sensing through Large Intelligent Surfaces (LISs) and mmWave Frequency-Modulated Continuous-Wave (FMCW) radars, have been successfully applied to a wide range of applications. In this work, we compare LIS and mmWave radars for localization in real-world and simulated environments. In our experiments, the mmWave radar achieves 0.71 Intersection Over Union (IOU) and 3cm error for bounding boxes, while LIS has 0.56 IOU and 10cm distance error. Although the radar outperforms the LIS in terms of accuracy, LIS features additional applications in communication in addition to sensing scenarios.
翻訳日:2022-05-29 20:23:52 公開日:2022-05-17
# 情報システムによる不確かさパターン対応のための粗いグラフの構築

Construction of Rough graph to handle uncertain pattern from an Information System ( http://arxiv.org/abs/2205.10127v1 )

ライセンス: Link先を確認
R. Aruna Devi and K. Anitha(参考訳) 粗メンバーシップ関数は、情報システムから条件属性と決定属性の関係を測定する。 本稿では,大まかなメンバシップ関数 $\omega_{G}^F(f)$ を通じて粗グラフを構築する新しい手法を提案する。 粗グラフは不正確で不確実な情報を持つオブジェクト間のパターンを特定する。 粗グラフの構造の様々な段階における操作と性質について検討する。

Rough membership function defines the measurement of relationship between conditional and decision attribute from an Information system. In this paper we propose a new method to construct rough graph through rough membership function $\omega_{G}^F(f)$. Rough graph identifies the pattern between the objects with imprecise and uncertain information. We explore the operations and properties of rough graph in various stages of its structure.
翻訳日:2022-05-29 20:23:35 公開日:2022-05-17
# (参考訳) LiDAR被覆の時空間パッチワークを用いた高分解能景観スケールバイオマスマッピング

High-resolution landscape-scale biomass mapping using a spatiotemporal patchwork of LiDAR coverages ( http://arxiv.org/abs/2205.08530v1 )

ライセンス: CC BY 4.0
Lucas K. Johnson (1), Michael J. Mahoney (1), Eddie Bevilacqua (1), Stephen V. Stehman (1), Grant Domke (2), Colin M. Beier (1) ((1) State University of New York College of Environmental Science and Forestry, (2) USDA Forest Service)(参考訳) 温室効果ガスの推定,モニタリング,温暖化対策の検証などにおいて,微少な空間スケールでの森林土壌バイオマス推定の重要性が高まっている。 空中ライダーは地上のバイオマスを推定するためのリモートセンシングデータの貴重な情報源であり続けている。 しかし、空飛ぶlidarコレクションは、不規則で不連続な足跡をカバーする地域的または地域的なスケールで行われ、異なる時点における異なる景観セグメントの「パッチワーク」となる。 ここでは,トレーニングデータの選定,バイアスと誤差の地域的あるいは範囲的なパターンの検証,地図の一致,モデルに基づく複数のスケールでの精度評価など,一般的な障害に対処した。 3つの機械学習アルゴリズムとアンサンブルモデルを,フィールドインベントリデータ(FIA),空中LiDAR,地形,気候,カダストラルジオデータを用いて訓練した。 厳密な選択基準を用いて、2014-2019年に17本のLiDARカバーのパッチワークから、801個のFIAプロットが抽出された。 我々のアンサンブルモデルでは,予測可能範囲内の30mのagb予測面(lidarカバレッジの98%)を作成し,その結果得られたagb予測をfiaプロットレベルおよびアラル推定と比較した。 我々のモデルは、概ね正確(% rmse 13-33%)であり、非常に低いバイアス(mbe $\pm$5 mg ha$^{-1}$)を有し、ほとんどのフィールド観測された変動(r$^2$ 0.74-0.93)を説明し、fiaの集計総和とほぼ一致した推定値(95% ci 以内の見積もりの86%)と、任意の小領域に集約された場合の精度(ブートストラップ標準誤差 0.37 mg ha$^{-1}$)が得られた(ブートストラップ標準誤差 0.37 mg ha$^{-1}$)。 我々は,バイオマスの予測とマッピングのニーズの増大に対応するために,LiDARの時空間パッチワークを使用する場合の課題に対する実践的な解決策と,炭素会計と生態系のスチュワードシップへの応用を共有している。

Estimating forest aboveground biomass at fine spatial scales has become increasingly important for greenhouse gas estimation, monitoring, and verification efforts to mitigate climate change. Airborne LiDAR continues to be a valuable source of remote sensing data for estimating aboveground biomass. However airborne LiDAR collections may take place at local or regional scales covering irregular, non-contiguous footprints, resulting in a 'patchwork' of different landscape segments at different points in time. Here we addressed common obstacles including selection of training data, the investigation of regional or coverage specific patterns in bias and error, and map agreement, and model-based precision assessments at multiple scales. Three machine learning algorithms and an ensemble model were trained using field inventory data (FIA), airborne LiDAR, and topographic, climatic and cadastral geodata. Using strict selection criteria, 801 FIA plots were selected with co-located point clouds drawn from a patchwork of 17 leaf-off LiDAR coverages 2014-2019). Our ensemble model created 30m AGB prediction surfaces within a predictor-defined area of applicability (98% of LiDAR coverage) and resulting AGB predictions were compared with FIA plot-level and areal estimates at multiple scales of aggregation. Our model was overall accurate (% RMSE 13-33%), had very low bias (MBE $\leq$ $\pm$5 Mg ha$^{-1}$), explained most field-observed variation (R$^2$ 0.74-0.93), produced estimates that were both largely consistent with FIA's aggregate summaries (86% of estimates within 95% CI), as well as precise when aggregated to arbitrary small-areas (mean bootstrap standard error 0.37 Mg ha$^{-1}$). We share practical solutions to challenges faced when using spatiotemporal patchworks of LiDAR to meet growing needs for biomass prediction and mapping, and applications in carbon accounting and ecosystem stewardship.
翻訳日:2022-05-21 14:57:27 公開日:2022-05-17
# (参考訳) 自動車インターネットのためのフェデレーション学習を意識したモビリティ, コミュニケーション, 計算

Mobility, Communication and Computation Aware Federated Learning for Internet of Vehicles ( http://arxiv.org/abs/2205.09529v1 )

ライセンス: CC BY 4.0
Md Ferdous Pervej, Jianlin Guo, Kyeong Jin Kim, Kieran Parsons, Philip Orlik, Stefano Di Cairano, Marcel Menner, Karl Berntorp, Yukimasa Nagai, and Huaiyu Dai(参考訳) プライバシーに関する懸念は、車載連合学習(fl)ソリューションを組み込むために、コネクテッドおよびオートマチックな車両を誘引する一方で、異種計算能力認識学習プラットフォームとあらゆるもの間の統合的な車両間通信は、現実化するために緊急に必要である。 そこで我々は,道路上での車両を学習エージェントとして利用する,移動,通信,計算を意識したオンラインFLプラットフォームを提案する。 最新の車両の高度な機能のおかげで、車載センサーは軌道に沿って走行するときにデータを収集し、車載プロセッサは収集したデータを使って機械学習モデルを訓練することができる。 車両の高移動性を考慮した場合,遅延を学習パラメータとして考慮し,許容しきい値以下に制限する。 このしきい値を満たすため、中央サーバは部分的に訓練されたモデル、分散路面ユニットを受け入れる。 (a)グローバルモデル分布遅延を最小化するためにダウンリンクマルチキャストビームフォーミングを行う。 b) 局部モデルオフロード遅延を最小限に抑えるために最適なアップリンク無線資源を割り当て, 車両エージェントは異種局所モデルトレーニングを行う。 現実世界の車両トレースデータセットを使用して、FLソリューションを検証する。 シミュレーションにより,提案する統合型flプラットフォームはロバストであり,ベースラインモデルよりも優れていることが示された。 合理的な局所訓練エピソードでは、全ての制約を効果的に満たし、ほぼ真実に近いマルチ水平速度と車両固有のパワー予測を提供することができる。

While privacy concerns entice connected and automated vehicles to incorporate on-board federated learning (FL) solutions, an integrated vehicle-to-everything communication with heterogeneous computation power aware learning platform is urgently necessary to make it a reality. Motivated by this, we propose a novel mobility, communication and computation aware online FL platform that uses on-road vehicles as learning agents. Thanks to the advanced features of modern vehicles, the on-board sensors can collect data as vehicles travel along their trajectories, while the on-board processors can train machine learning models using the collected data. To take the high mobility of vehicles into account, we consider the delay as a learning parameter and restrict it to be less than a tolerable threshold. To satisfy this threshold, the central server accepts partially trained models, the distributed roadside units (a) perform downlink multicast beamforming to minimize global model distribution delay and (b) allocate optimal uplink radio resources to minimize local model offloading delay, and the vehicle agents conduct heterogeneous local model training. Using real-world vehicle trace datasets, we validate our FL solutions. Simulation shows that the proposed integrated FL platform is robust and outperforms baseline models. With reasonable local training episodes, it can effectively satisfy all constraints and deliver near ground truth multi-horizon velocity and vehicle-specific power predictions.
翻訳日:2022-05-21 14:55:57 公開日:2022-05-17
# 四元極抽出へのアジュゲート行列アプローチの探索

Exploring the Adjugate Matrix Approach to Quaternion Pose Extraction ( http://arxiv.org/abs/2205.09116v1 )

ライセンス: Link先を確認
Andrew J. Hanson and Sonya M. Hanson(参考訳) 四元数はコンピュータグラフィックス、マシンビジョン、ロボット工学における様々な回転に関する問題にとって重要である。 四元数と回転行列の関係の非自明な幾何学を、関連する固有値問題の特性方程式の随伴行列を利用して研究し、四元数固有ベクトルの空間の多様体を得る。 例えば、機械学習タスクにおいて、対応する回転行列によってパラメータ化された四元数は、単値関数として表現できない:四元数解は、アジュゲート行列で表される複数の単値セクターごとに異なる代数解を持つ多様体として扱われなければならない。 2次元ポイントクラウドマッチング, 2次元ポイントクラウド・ツー・プロジェクションマッチング, 3次元ポイントクラウド・ツー・プロジェクションマッチング, 3次元ポイントクラウド・ツー・プロジェクションマッチング, 3次元視点クラウド・ツー・プロジェクションマッチング。 3次元正方形最小二乗素数抽出問題に対する厳密な解を見いだし,既存の手法を改良した遠近的素数抽出問題にも有効に適用した。

Quaternions are important for a wide variety of rotation-related problems in computer graphics, machine vision, and robotics. We study the nontrivial geometry of the relationship between quaternions and rotation matrices by exploiting the adjugate matrix of the characteristic equation of a related eigenvalue problem to obtain the manifold of the space of a quaternion eigenvector. We argue that quaternions parameterized by their corresponding rotation matrices cannot be expressed, for example, in machine learning tasks, as single-valued functions: the quaternion solution must instead be treated as a manifold, with different algebraic solutions for each of several single-valued sectors represented by the adjugate matrix. We conclude with novel constructions exploiting the quaternion adjugate variables to revisit several classic pose estimation applications: 2D point-cloud matching, 2D point-cloud-to-projection matching, 3D point-cloud matching, 3D orthographic point-cloud-to-projection matching, and 3D perspective point-cloud-to-projection matching. We find an exact solution to the 3D orthographic least squares pose extraction problem, and apply it successfully also to the perspective pose extraction problem with results that improve on existing methods.
翻訳日:2022-05-20 14:33:06 公開日:2022-05-17
# AutoQML:Wi-Fi統合センシングと通信のための量子機械学習

AutoQML: Automated Quantum Machine Learning for Wi-Fi Integrated Sensing and Communications ( http://arxiv.org/abs/2205.09115v1 )

ライセンス: Link先を確認
Toshiaki Koike-Akino, Pu Wang, Ye Wang(参考訳) 商用Wi-Fiデバイスは、データ交換と屋内環境の監視にISAC(Integrated Sensent and Communication)を使用することができる。 本稿では,AutoAnsatzと呼ばれる自動量子機械学習(AutoQML)フレームワークを用いた概念実証手法について検討する。 量子ニューラルネットワーク(QNN)を構成するために量子回路を効率的に設計する方法に対処する。 AutoQMLの有効性は、人間のポーズ認識のための社内実験によって検証され、訓練可能なパラメータが著しく少ない限られたデータサイズに対して80%以上の精度で最先端の性能を達成する。

Commercial Wi-Fi devices can be used for integrated sensing and communications (ISAC) to jointly exchange data and monitor indoor environment. In this paper, we investigate a proof-of-concept approach using automated quantum machine learning (AutoQML) framework called AutoAnsatz to recognize human gesture. We address how to efficiently design quantum circuits to configure quantum neural networks (QNN). The effectiveness of AutoQML is validated by an in-house experiment for human pose recognition, achieving state-of-the-art performance greater than 80% accuracy for a limited data size with a significantly small number of trainable parameters.
翻訳日:2022-05-20 14:32:19 公開日:2022-05-17
# ボース・アインシュタイン凝縮中の暗いソリトン:多体物理学研究のためのデータセット

Dark Solitons in Bose-Einstein Condensates: A Dataset for Many-body Physics Research ( http://arxiv.org/abs/2205.09114v1 )

ライセンス: Link先を確認
Amilson R. Fritsch, Shangjie Guo, Sophia M. Koh, I. B. Spielman, Justyna P. Zwolak(参考訳) 単調な励起を含むボース=アインシュタイン凝縮体の1.6\times10^4$以上の実験画像のデータセットを構築し、多体物理学研究のために機械学習(ML)を可能にする。 このデータセットの約33%は手動でラベルを割り当て、注意深くキュレートしている。 残りはSolDetという物理インフォームドMLデータ分析フレームワークの実装を使用して自動的にラベル付けされる。畳み込みニューラルネットワークベースの分類器とオブジェクト検出器、統計的に動機付けられた物理インフォームド分類器と品質測定器で構成されている。 この技術的注記はデータセットの確定的な参照であり、データサイエンスコミュニティがより洗練された分析ツールを開発し、非線形多体物理学をさらに理解し、冷水原子実験を前進させる機会を提供する。

We establish a dataset of over $1.6\times10^4$ experimental images of Bose-Einstein condensates containing solitonic excitations to enable machine learning (ML) for many-body physics research. About 33 % of this dataset has manually assigned and carefully curated labels. The remainder is automatically labeled using SolDet -- an implementation of a physics-informed ML data analysis framework -- consisting of a convolutional-neural-network-based classifier and object detector as well as a statistically motivated physics-informed classifier and a quality metric. This technical note constitutes the definitive reference of the dataset, providing an opportunity for the data science community to develop more sophisticated analysis tools, to further understand nonlinear many-body physics, and even advance cold atom experiments.
翻訳日:2022-05-20 11:56:36 公開日:2022-05-17
# (参考訳) PoisonedEncoder: コントラスト学習におけるラベルなし事前学習データ

PoisonedEncoder: Poisoning the Unlabeled Pre-training Data in Contrastive Learning ( http://arxiv.org/abs/2205.06401v2 )

ライセンス: CC BY 4.0
Hongbin Liu, Jinyuan Jia, Neil Zhenqiang Gong(参考訳) コントラスト学習は、画像エンコーダが様々な下流タスクの汎用特徴抽出器として使用できるように、大量のラベルのないデータを用いて画像エンコーダを事前学習する。 本研究では, コントラスト学習のためのデータ中毒攻撃であるPoisonedEncoderを提案する。 特に、攻撃者は、複数の目標下流タスクに対して、汚染されたエンコーダに基づいて構築された下流分類器を同時に攻撃者長線、任意のクリーン入力を攻撃者長線、任意のクラスに分類する。 我々は,2段階の最適化問題としてデータ中毒攻撃を定式化し,その解法が毒の入力の集合であることを示す。 複数のデータセットに対する評価の結果,ポゾンデエンコーダは,非攻撃的入力に対して有毒なエンコーダ上に構築された下流分類器のテスト精度を維持しつつ,高い攻撃成功率を達成できた。 また,前処理1回,内処理3回,後処理1回を含む,PoisonedEncoderに対する5つの防御効果を評価した。 以上の結果から,これらの防御は,攻撃成功率を低下させる可能性があるが,エンコーダの有用性を犠牲にしたり,大規模なクリーンな事前トレーニングデータセットが必要となる。

Contrastive learning pre-trains an image encoder using a large amount of unlabeled data such that the image encoder can be used as a general-purpose feature extractor for various downstream tasks. In this work, we propose PoisonedEncoder, a data poisoning attack to contrastive learning. In particular, an attacker injects carefully crafted poisoning inputs into the unlabeled pre-training data, such that the downstream classifiers built based on the poisoned encoder for multiple target downstream tasks simultaneously classify attacker-chosen, arbitrary clean inputs as attacker-chosen, arbitrary classes. We formulate our data poisoning attack as a bilevel optimization problem, whose solution is the set of poisoning inputs; and we propose a contrastive-learning-tailored method to approximately solve it. Our evaluation on multiple datasets shows that PoisonedEncoder achieves high attack success rates while maintaining the testing accuracy of the downstream classifiers built upon the poisoned encoder for non-attacker-chosen inputs. We also evaluate five defenses against PoisonedEncoder, including one pre-processing, three in-processing, and one post-processing defenses. Our results show that these defenses can decrease the attack success rate of PoisonedEncoder, but they also sacrifice the utility of the encoder or require a large clean pre-training dataset.
翻訳日:2022-05-20 05:57:53 公開日:2022-05-17
# (参考訳) 医用画像におけるラベル効率のよい自己監督型フェデレーション学習

Label-Efficient Self-Supervised Federated Learning for Tackling Data Heterogeneity in Medical Imaging ( http://arxiv.org/abs/2205.08576v1 )

ライセンス: CC BY 4.0
Rui Yan, Liangqiong Qu, Qingyue Wei, Shih-Cheng Huang, Liyue Shen, Daniel Rubin, Lei Xing, Yuyin Zhou(参考訳) ディープラーニングモデルのトレーニングに必要な複数の機関からの大規模医療データセットのキュレーションには,プライバシ保護を伴う患者データ共有の困難さが課題となっている。 異なる機関間でプライバシー保護された協調学習を可能にするパラダイムであるフェデレートラーニング(FL)は、この課題に対する有望な解決策である。 しかし、FLは、組織間での不均一なデータ分布と品質ラベル付きデータの欠如により、一般に性能劣化に悩まされる。 本稿では,医療画像解析のためのロバストでラベル効率の高い自己教師付きflフレームワークを提案する。 具体的には,既存のflパイプライン(分散対象タスクデータセット上でモデルを直接事前学習する)に,新たな分散自己教師付き事前学習パラダイムを導入する。 近年の視覚トランスフォーマーの成功を基盤として,自己教師付き事前学習のためのマスク画像符号化タスクを採用し,下流連合モデルへのより効果的な知識伝達を容易にする。 シミュレーションおよび実世界の医療画像フェデレーションデータセットにおける広範囲な実験結果から,自己教師付き事前学習は,様々なデータの不均一性に対するフェデレーションモデルの頑健性に大きく寄与することが示された。 特に, 厳密なデータ均一性の下では, 追加の事前トレーニングデータに頼ることなく, 網膜, 皮膚学, 胸部X線分類における検査精度が5.06%, 1.53%, 4.58%向上した。 さらに,我々の自己教師付きFLアルゴリズムは,限定ラベルのシナリオにおいてより効果的にフェデレーションモデルを学習し,教師付きベースラインを10.36%上回り,半教師付きFL法を8.3%上回る結果を得た。

The curation of large-scale medical datasets from multiple institutions necessary for training deep learning models is challenged by the difficulty in sharing patient data with privacy-preserving. Federated learning (FL), a paradigm that enables privacy-protected collaborative learning among different institutions, is a promising solution to this challenge. However, FL generally suffers from performance deterioration due to heterogeneous data distributions across institutions and the lack of quality labeled data. In this paper, we present a robust and label-efficient self-supervised FL framework for medical image analysis. Specifically, we introduce a novel distributed self-supervised pre-training paradigm into the existing FL pipeline (i.e., pre-training the models directly on the decentralized target task datasets). Built upon the recent success of Vision Transformers, we employ masked image encoding tasks for self-supervised pre-training, to facilitate more effective knowledge transfer to downstream federated models. Extensive empirical results on simulated and real-world medical imaging federated datasets show that self-supervised pre-training largely benefits the robustness of federated models against various degrees of data heterogeneity. Notably, under severe data heterogeneity, our method, without relying on any additional pre-training data, achieves an improvement of 5.06%, 1.53% and 4.58% in test accuracy on retinal, dermatology and chest X-ray classification compared with the supervised baseline with ImageNet pre-training. Moreover, we show that our self-supervised FL algorithm generalizes well to out-of-distribution data and learns federated models more effectively in limited label scenarios, surpassing the supervised baseline by 10.36% and the semi-supervised FL method by 8.3% in test accuracy.
翻訳日:2022-05-20 04:45:17 公開日:2022-05-17
# (参考訳) 再利用のパワー : シンボリック音楽生成における構造動的セグメンテーションのためのマルチスケールトランスフォーマーモデル

The Power of Reuse: A Multi-Scale Transformer Model for Structural Dynamic Segmentation in Symbolic Music Generation ( http://arxiv.org/abs/2205.08579v1 )

ライセンス: CC BY 4.0
Guowei Wu, Shipei Liu, Xiaoya Fan(参考訳) シンボリック音楽の生成は生成モデルの文脈表現能力に依存しており、最も一般的なアプローチはトランスフォーマーモデルである。 それだけでなく、長期的文脈の学習は音楽構造、すなわちイントロ、詩、コーラスの動的セグメンテーションにも関係しており、これは現在研究コミュニティによって見過ごされている。 本稿では,粗いデコーダと細かなデコーダを用いて,グローバルレベルとセクションレベルのコンテキストをそれぞれモデル化するマルチスケールトランスフォーマを提案する。 具体的には,Fragment Scope Localization レイヤを設計し,楽曲をセクションに同期させ,その後,ファインデコーダの事前訓練に利用した。 その後、オリジナルセクションから生成されたセクションにスタイル情報を転送し、音楽スタイルの整合性を実現するための音楽スタイル正規化層を設計した。 生成されたセクションは集約層に結合し、粗いデコーダによって微調整される。 本モデルは2つのオープンMIDIデータセットで評価され,実験により,同時代のシンボリック音楽生成モデルよりも優れた性能を示した。 さらにエキサイティングに、我々のモデルはメロディの再利用に優れており、結果としてよりリアルな音楽が得られることを示す。

Symbolic Music Generation relies on the contextual representation capabilities of the generative model, where the most prevalent approach is the Transformer-based model. Not only that, the learning of long-term context is also related to the dynamic segmentation of musical structures, i.e. intro, verse and chorus, which is currently overlooked by the research community. In this paper, we propose a multi-scale Transformer, which uses coarse-decoder and fine-decoders to model the contexts at the global and section-level, respectively. Concretely, we designed a Fragment Scope Localization layer to syncopate the music into sections, which were later used to pre-train fine-decoders. After that, we designed a Music Style Normalization layer to transfer the style information from the original sections to the generated sections to achieve consistency in music style. The generated sections are combined in the aggregation layer and fine-tuned by the coarse decoder. Our model is evaluated on two open MIDI datasets, and experiments show that our model outperforms the best contemporary symbolic music generative models. More excitingly, visual evaluation shows that our model is superior in melody reuse, resulting in more realistic music.
翻訳日:2022-05-20 04:20:13 公開日:2022-05-17
# (参考訳) ディープラーニングの階層的分布認識テスト

Hierarchical Distribution-Aware Testing of Deep Learning ( http://arxiv.org/abs/2205.08589v1 )

ライセンス: CC BY 4.0
Wei Huang, Xingyu Zhao, Alec Banks, Victoria Cox and Xiaowei Huang(参考訳) 安全性/セキュリティクリティカルなアプリケーションでの利用の増加に伴い、Deep Learning(DL)はその信頼性に関する懸念が高まっている。 特にDLには、堅牢性に欠ける悪名高い問題がある。 近年, 最先端の攻撃・試験手法による攻撃事例(AE)の検出が試みられているが, 通常は, AEの知覚品質を意識せず, あるいは無視している。 その結果、検出されたAEは、アプリケーションコンテキストにおける無関係な入力、あるいは人間によって容易に認識できる非自然的/非現実的入力となる。 これはDLモデルの信頼性向上に限定的な効果をもたらす可能性があり、実際の運用で非常に稀に発生するAEを検出するために、試験予算が無駄になる可能性がある。 本稿では,入力分布と知覚品質の両方を考慮したAE検出のための新しいロバストネステスト手法を提案する。 2つの考慮事項は、新しい階層的なメカニズムによって符号化される。 まず、特徴レベルでは、データ圧縮技術と確率密度推定器により、入力データ分布を抽出し、近似する。 このような定量化特徴量分布は, 試験種子の選択において, 局所ロバスト性に強く相関する指標とともに考慮される。 テストシードが与えられた後、画素レベルで局所的なテストケース生成のための2段階の遺伝的アルゴリズムを開発し、2つの適合関数が検出されたAEの品質を制御するために代わりに機能する。 最後に,特徴量および画素レベルの階層分布を考慮した総合的アプローチは,入力分布を無視したり,単一の(階層的でない)分布のみを考慮したりする最先端技術よりも,検出されたAEの品質だけでなく,試験中のDLモデル全体の堅牢性も向上することを示す。

With its growing use in safety/security-critical applications, Deep Learning (DL) has raised increasing concerns regarding its dependability. In particular, DL has a notorious problem of lacking robustness. Despite recent efforts made in detecting Adversarial Examples (AEs) via state-of-the-art attacking and testing methods, they are normally input distribution agnostic and/or disregard the perception quality of AEs. Consequently, the detected AEs are irrelevant inputs in the application context or unnatural/unrealistic that can be easily noticed by humans. This may lead to a limited effect on improving the DL model's dependability, as the testing budget is likely to be wasted on detecting AEs that are encountered very rarely in its real-life operations. In this paper, we propose a new robustness testing approach for detecting AEs that considers both the input distribution and the perceptual quality of inputs. The two considerations are encoded by a novel hierarchical mechanism. First, at the feature level, the input data distribution is extracted and approximated by data compression techniques and probability density estimators. Such quantified feature level distribution, together with indicators that are highly correlated with local robustness, are considered in selecting test seeds. Given a test seed, we then develop a two-step genetic algorithm for local test case generation at the pixel level, in which two fitness functions work alternatively to control the quality of detected AEs. Finally, extensive experiments confirm that our holistic approach considering hierarchical distributions at feature and pixel levels is superior to state-of-the-arts that either disregard any input distribution or only consider a single (non-hierarchical) distribution, in terms of not only the quality of detected AEs but also improving the overall robustness of the DL model under testing.
翻訳日:2022-05-20 04:06:11 公開日:2022-05-17
# (参考訳) 多次元関数データのためのディープニューラルネットワーク分類器

Deep Neural Network Classifier for Multi-dimensional Functional Data ( http://arxiv.org/abs/2205.08592v1 )

ライセンス: CC BY 4.0
Shuoyang Wang, Guanqun Cao, Zuofeng Shang(参考訳) 我々は,多次元関数型データを分類するFDNN(Functional Deep Neural Network)と呼ばれる新しい手法を提案する。 具体的には、将来のデータ機能のクラスラベルを予測するために使用されるトレーニングデータの原則コンポーネントに基づいて、ディープニューラルネットワークを訓練する。 ガウス的仮定に依存する一般的な汎函数判別分析アプローチとは異なり、提案されたFDNNアプローチは一般のガウス的多次元関数データに適用される。 さらに、ログ密度比が局所連結な関数モジュラ構造を持つ場合、FDNNが極小最適性を達成することを示す。 我々のアプローチの優位性は、シミュレーションと実世界の両方のデータセットを通して示される。

We propose a new approach, called as functional deep neural network (FDNN), for classifying multi-dimensional functional data. Specifically, a deep neural network is trained based on the principle components of the training data which shall be used to predict the class label of a future data function. Unlike the popular functional discriminant analysis approaches which rely on Gaussian assumption, the proposed FDNN approach applies to general non-Gaussian multi-dimensional functional data. Moreover, when the log density ratio possesses a locally connected functional modular structure, we show that FDNN achieves minimax optimality. The superiority of our approach is demonstrated through both simulated and real-world datasets.
翻訳日:2022-05-20 03:38:50 公開日:2022-05-17
# (参考訳) raritynet:rarity誘導感情学習フレームワーク

RARITYNet: Rarity Guided Affective Emotion Learning Framework ( http://arxiv.org/abs/2205.08595v1 )

ライセンス: CC BY 4.0
Monu Verma and Santosh Kumar Vipparthi(参考訳) 表情の特徴を学習し、表情の感情クラスを識別するために、raritynet: rarity guided affective emotion learning frameworkを提案した。 RARITYNetフレームワークは、浅い(RARITY)と深い(AffEmoNet)特徴を組み合わせることで、挑戦的な画像から自然表現、ポーズのバリエーション、民族的変化、照明条件を認識できるように設計されている。 RARITYは、地域における放射間遷移パターンを符号化するために提案されている。 The AffEmoNet: affective emotion learning network is proposed by incorporating three feature streams: high boost edge filtering (HBSEF) stream, to extract the edge information of highly affected facial expressive regions, multi-scale sophisticated edge cumulative (MSSEC) stream is to learns the sophisticated edge information from multi-receptive fields and RARITY uplift complementary context feature (RUCCF) stream refines the RARITY-encoded features and aid the MSSEC stream features to enrich the learning ability of RARITYNet.

Inspired from the assets of handcrafted and deep learning approaches, we proposed a RARITYNet: RARITY guided affective emotion learning framework to learn the appearance features and identify the emotion class of facial expressions. The RARITYNet framework is designed by combining the shallow (RARITY) and deep (AffEmoNet) features to recognize the facial expressions from challenging images as spontaneous expressions, pose variations, ethnicity changes, and illumination conditions. The RARITY is proposed to encode the inter-radial transitional patterns in the local neighbourhood. The AffEmoNet: affective emotion learning network is proposed by incorporating three feature streams: high boost edge filtering (HBSEF) stream, to extract the edge information of highly affected facial expressive regions, multi-scale sophisticated edge cumulative (MSSEC) stream is to learns the sophisticated edge information from multi-receptive fields and RARITY uplift complementary context feature (RUCCF) stream refines the RARITY-encoded features and aid the MSSEC stream features to enrich the learning ability of RARITYNet.
翻訳日:2022-05-20 03:22:09 公開日:2022-05-17
# (参考訳) OneAligner:低リソース文検索のための1つのリッチソース言語ペアによるゼロショットクロスランガルトランスファー

OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource Language Pair for Low-Resource Sentence Retrieval ( http://arxiv.org/abs/2205.08605v1 )

ライセンス: CC BY 4.0
Tong Niu, Kazuma Hashimoto, Yingbo Zhou, Caiming Xiong(参考訳) 多言語コーパスにおける並列文の調整は、機械翻訳などの下流アプリケーションのためのデータのキュレーションに不可欠である。 本稿では,文検索タスク用に特別に設計されたアライメントモデルonealignerを提案する。 このモデルでは、1つの言語ペアのみをトレーニングし、言語間の相互変換で、パフォーマンスが無視できる低リソースの言語ペアに転送することができる。 大規模並列多言語コーパス(opus-100)のすべての言語ペアでトレーニングすると、このモデルはタテオバデータセットの最先端結果を達成し、その並列データの0.6%未満の精度で、等サイズの前モデルよりも8.0ポイント精度で精度が向上する。 1つのリッチリソース言語ペアを微調整した場合、英語中心かどうかに関わらず、我々のモデルは、同じデータ予算の下で全ての言語ペアに微調整されたもののパフォーマンスを2.0ポイント未満の精度で一致させることができる。 さらに、同じセットアップで、リッチリソース言語ペアの数を単調にスケールアップすることで、パフォーマンスが改善され、最低0.4ポイントの精度差が達成され、低リソース並列データの収集が必須になる。 最後に, 文アライメントタスクの性能は, 訓練や評価に使用する言語ペアではなく, 特定の大きさのしきい値まで, 単言語および並列データサイズに主に依存する, という実験結果と分析を行った。

Aligning parallel sentences in multilingual corpora is essential to curating data for downstream applications such as Machine Translation. In this work, we present OneAligner, an alignment model specially designed for sentence retrieval tasks. This model is able to train on only one language pair and transfers, in a cross-lingual fashion, to low-resource language pairs with negligible degradation in performance. When trained with all language pairs of a large-scale parallel multilingual corpus (OPUS-100), this model achieves the state-of-the-art result on the Tateoba dataset, outperforming an equally-sized previous model by 8.0 points in accuracy while using less than 0.6% of their parallel data. When finetuned on a single rich-resource language pair, be it English-centered or not, our model is able to match the performance of the ones finetuned on all language pairs under the same data budget with less than 2.0 points decrease in accuracy. Furthermore, with the same setup, scaling up the number of rich-resource language pairs monotonically improves the performance, reaching a minimum of 0.4 points discrepancy in accuracy, making it less mandatory to collect any low-resource parallel data. Finally, we conclude through empirical results and analyses that the performance of the sentence alignment task depends mostly on the monolingual and parallel data size, up to a certain size threshold, rather than on what language pairs are used for training or evaluation.
翻訳日:2022-05-20 03:10:22 公開日:2022-05-17
# (参考訳) バグ付き多項式回帰とニューラルネットワーク

Bagged Polynomial Regression and Neural Networks ( http://arxiv.org/abs/2205.08609v1 )

ライセンス: CC BY 4.0
Sylvia Klosin and Jaume Vives-i-Bastida(参考訳) 直列回帰と多項式回帰はニューラルネットワークと同じ関数クラスを近似することができる。 しかし、これらの手法は実際にはほとんど使われないが、ニューラルネットワークよりも解釈可能性が高い。 本稿では, 多項式回帰推定器の収束速度が遅いこと, ニューラルネットワークの代替として, タグ付き多項式回帰(BPR)を用いることを提案する。 理論的には、直列推定器に対する新しい有限標本と漸近$L^2$収束率を導出する。 特徴空間を分割し、分割毎に多項式特徴を別々に生成することにより、スムーズな設定で改善できることを示す。 実験により,提案する推定器であるbprは,より多くのパラメータを持つより複雑なモデルと同等の性能を示す。 我々の推定器は、ベンチマークMNIST手書き桁データセットにおいて、最先端の予測手法にも近づいた。

Series and polynomial regression are able to approximate the same function classes as neural networks. However, these methods are rarely used in practice, although they offer more interpretability than neural networks. In this paper, we show that a potential reason for this is the slow convergence rate of polynomial regression estimators and propose the use of bagged polynomial regression (BPR) as an attractive alternative to neural networks. Theoretically, we derive new finite sample and asymptotic $L^2$ convergence rates for series estimators. We show that the rates can be improved in smooth settings by splitting the feature space and generating polynomial features separately for each partition. Empirically, we show that our proposed estimator, the BPR, can perform as well as more complex models with more parameters. Our estimator also performs close to state-of-the-art prediction methods in the benchmark MNIST handwritten digit dataset.
翻訳日:2022-05-20 00:05:45 公開日:2022-05-17
# (参考訳) ロバスト低光画像強調に向けて

Towards Robust Low Light Image Enhancement ( http://arxiv.org/abs/2205.08615v1 )

ライセンス: CC BY 4.0
Sara Aghajanzadeh and David Forsyth(参考訳) 本稿では,野生の暗い画像からより明るい画像を作るという課題について検討する。 薄暗い環境で撮影されるため、画像は暗いです。 量子化やセンサノイズによる色の変化に悩まされる。 このような画像に対する真のカメラ応答関数は分かっておらず、RAWではない。 教師付き学習手法を用いて、画像パイプラインの簡単なシミュレーションを頼りに、トレーニングやテストに使えるデータセットを生成する。 多くの標準データセットにおいて、我々の手法は芸術の状態を定量的に上回る。 質的な比較は、復元精度が大幅に向上したことを示している。

In this paper, we study the problem of making brighter images from dark images found in the wild. The images are dark because they are taken in dim environments. They suffer from color shifts caused by quantization and from sensor noise. We don't know the true camera reponse function for such images and they are not RAW. We use a supervised learning method, relying on a straightforward simulation of an imaging pipeline to generate usable dataset for training and testing. On a number of standard datasets, our approach outperforms the state of the art quantitatively. Qualitative comparisons suggest strong improvements in reconstruction accuracy.
翻訳日:2022-05-19 23:48:22 公開日:2022-05-17
# (参考訳) 地理的距離は新しいハイパーパラメーター : 英語-イシズル機械翻訳のための最適事前学習言語探索を事例として

Geographical Distance Is The New Hyperparameter: A Case Study Of Finding The Optimal Pre-trained Language For English-isiZulu Machine Translation ( http://arxiv.org/abs/2205.08621v1 )

ライセンス: CC BY 4.0
Muhammad Umair Nasir and Innocent Amos Mchechesi(参考訳) isizuluのような低リソース言語のためのデータセットとテキストリソースが限られていることから、トレーニング済みモデルからの知識を活用して低リソース機械翻訳を改善する必要がある。 さらに、形態学的に豊かな言語の複雑さを扱う技術が欠如し、翻訳モデルの不十分さが増し、多くの広く話されているアフリカの言語が残された。 本研究は,英語訳フレームワークにおける翻訳学習の潜在的なメリットについて考察する。 その結果、低リソース翻訳モデルの性能を高めるために、近縁言語からのトランスファー学習の価値が示され、低リソース翻訳のための重要な戦略がもたらされた。 多言語コーパス1つを含む8つの異なる言語コーパスから得られた結果から,isixhosa-isizuluが全言語を上回っており,多言語コーパスの事前学習モデルより2.73倍の8.56点のbleuスコアを示した。 我々はまた,事前学習されたモデルに対する言語選択を容易にする新しい係数である,Nasir's Geographical Distance Coefficient (NGDC) も導出した。 NGDCはまた、isiXhosaが事前訓練されたモデルの言語として選択されるべきであることを示した。

Stemming from the limited availability of datasets and textual resources for low-resource languages such as isiZulu, there is a significant need to be able to harness knowledge from pre-trained models to improve low resource machine translation. Moreover, a lack of techniques to handle the complexities of morphologically rich languages has compounded the unequal development of translation models, with many widely spoken African languages being left behind. This study explores the potential benefits of transfer learning in an English-isiZulu translation framework. The results indicate the value of transfer learning from closely related languages to enhance the performance of low-resource translation models, thus providing a key strategy for low-resource translation going forward. We gathered results from 8 different language corpora, including one multi-lingual corpus, and saw that isiXhosa-isiZulu outperformed all languages, with a BLEU score of 8.56 on the test set which was better from the multi-lingual corpora pre-trained model by 2.73. We also derived a new coefficient, Nasir's Geographical Distance Coefficient (NGDC) which provides an easy selection of languages for the pre-trained models. NGDC also indicated that isiXhosa should be selected as the language for the pre-trained model.
翻訳日:2022-05-19 23:37:54 公開日:2022-05-17
# (参考訳) DPO:ハイブリッド制約の動的プログラミング最適化

DPO: Dynamic-Programming Optimization on Hybrid Constraints ( http://arxiv.org/abs/2205.08632v1 )

ライセンス: CC BY 4.0
Vu H. N. Phan and Moshe Y. Vardi(参考訳) ベイズ推定において、最も可能性の高い説明(MPE)問題は、いくつかの証拠から最も高い確率で変数のインスタンス化を要求する。 ベイジアンネットワークはリテラル重み付き CNF 公式 $\varphi$ としてエンコードできるので、より一般的な問題 Boolean MPE について研究し、モデル $\tau$ of $\varphi$ を最大重みで要求し、そこで $\tau$ はリテラルの重みの積である。 ブール MPE は (部分重み付き) MaxSAT への還元によって解けることが知られている。 近年,プロジェクト・ジョイント・ツリーの構築にグラフ分解技術を活用した動的プログラミングモデルカウンタDPMCが提案されている。 project-join treeは、節を結合して変数を射出する方法を指定する実行計画である。 DPMC上に構築し,動的プログラミングオプティマイザであるDPOを導入し,Boolean MPEを正確に解いた。 代数的決定図(ADD)を用いて擬ブール関数(PB)を表現することにより、DPOはXOR節と同様に可解節を扱うことができる。 (カーディナリティ制約やPB制約もコンパクトにABDで表現できるため、DPOによるハイブリッド入力のサポートをさらに拡張することができる。) DPOの競合性をテストするために、ランダムなXOR-CNF式を生成する。 これらのハイブリッドベンチマークでは、DPOはMaxSATの最先端の正確な解法であるMaxHS、UWrMaxSat、GaussMaxHSを大きく上回っている。

In Bayesian inference, the most probable explanation (MPE) problem requests a variable instantiation with the highest probability given some evidence. Since a Bayesian network can be encoded as a literal-weighted CNF formula $\varphi$, we study Boolean MPE, a more general problem that requests a model $\tau$ of $\varphi$ with the highest weight, where the weight of $\tau$ is the product of weights of literals satisfied by $\tau$. It is known that Boolean MPE can be solved via reduction to (weighted partial) MaxSAT. Recent work proposed DPMC, a dynamic-programming model counter that leverages graph-decomposition techniques to construct project-join trees. A project-join tree is an execution plan that specifies how to conjoin clauses and project out variables. We build on DPMC and introduce DPO, a dynamic-programming optimizer that exactly solves Boolean MPE. By using algebraic decision diagrams (ADDs) to represent pseudo-Boolean (PB) functions, DPO is able to handle disjunctive clauses as well as XOR clauses. (Cardinality constraints and PB constraints may also be compactly represented by ADDs, so one can further extend DPO's support for hybrid inputs.) To test the competitiveness of DPO, we generate random XOR-CNF formulas. On these hybrid benchmarks, DPO significantly outperforms MaxHS, UWrMaxSat, and GaussMaxHS, which are state-of-the-art exact solvers for MaxSAT.
翻訳日:2022-05-19 23:28:57 公開日:2022-05-17
# (参考訳) 方向回復としての分類:スケール不変性による保証の改善

Classification as Direction Recovery: Improved Guarantees via Scale Invariance ( http://arxiv.org/abs/2205.08633v1 )

ライセンス: CC BY 4.0
Suhas Vijaykumar and Claire Lazar Reich(参考訳) 二項分類の現代的なアルゴリズムは、計算的トラクタビリティの中間回帰問題に依存する。 本稿では,これらの2つの設定のリスクをより正確に関連付けることのできる分類と回帰の幾何学的区別を確立する。 特に,分類リスクは回帰器の方向のみに依存し,このスケールの不変性を利用して,中間回帰問題におけるリスクによる分類リスクのバウンドに関する既存の保証を改善することに留意する。 これらの保証に基づいて、我々の分析により、アルゴリズムを互いにより正確に比較することが可能となり、その副産物ではなく、回帰から独自の分類として見ることが提案される。 回帰は位置の条件付き期待関数に収束することを目的としているが、分類は方向を回復することを目的としている。

Modern algorithms for binary classification rely on an intermediate regression problem for computational tractability. In this paper, we establish a geometric distinction between classification and regression that allows risk in these two settings to be more precisely related. In particular, we note that classification risk depends only on the direction of the regressor, and we take advantage of this scale invariance to improve existing guarantees for how classification risk is bounded by the risk in the intermediate regression problem. Building on these guarantees, our analysis makes it possible to compare algorithms more accurately against each other and suggests viewing classification as unique from regression rather than a byproduct of it. While regression aims to converge toward the conditional expectation function in location, we propose that classification should instead aim to recover its direction.
翻訳日:2022-05-19 22:44:15 公開日:2022-05-17
# (参考訳) Frank Wolfe氏がMetric Entropyについて語る

Frank Wolfe Meets Metric Entropy ( http://arxiv.org/abs/2205.08634v1 )

ライセンス: CC BY 4.0
Suhas Vijaykumar(参考訳) フランク=ウルフのアルゴリズムは、機械学習と高次元統計学における制約付き最適化問題を効率的に解く能力により、人気が回復した。 このように、アルゴリズムが「線形」$o(\log(1/\epsilon))$次元フリーの反復複雑性を持つ場合の確立には多くの関心がある。 本稿では,frank-wolfeとその変種に対して,領域の計量エントロピーを用いて,ドメイン固有かつ評価容易な下限を定式化する一般的な手法を提案する。 最も注目すべきは、次元のない線形上界は、最悪の場合だけでなく、 \emph{average case} において失敗することである: $\mathbb{r}^d$ で$\mathrm{poly}(d)$ 頂点を持つガウスあるいは球状ランダムポリトープに対して、frank-wolfe は$o(1/d)$ の誤差境界を達成するために最大$\tilde\omega(d)$ の反復が必要である。 また、核標準球にもこの現象が成立する。 計量エントロピーとのリンクはまた、勾配強化やマッチング追従のような統計学における条件付き勾配アルゴリズムに興味深いポジティブな意味を持つ。 特に、基礎となる最適化手順の分析から直接、過剰なリスクの高速決定上限を抽出することが可能であることを示す。

The Frank-Wolfe algorithm has seen a resurgence in popularity due to its ability to efficiently solve constrained optimization problems in machine learning and high-dimensional statistics. As such, there is much interest in establishing when the algorithm may possess a "linear" $O(\log(1/\epsilon))$ dimension-free iteration complexity comparable to projected gradient descent. In this paper, we provide a general technique for establishing domain specific and easy-to-estimate lower bounds for Frank-Wolfe and its variants using the metric entropy of the domain. Most notably, we show that a dimension-free linear upper bound must fail not only in the worst case, but in the \emph{average case}: for a Gaussian or spherical random polytope in $\mathbb{R}^d$ with $\mathrm{poly}(d)$ vertices, Frank-Wolfe requires up to $\tilde\Omega(d)$ iterations to achieve a $O(1/d)$ error bound, with high probability. We also establish this phenomenon for the nuclear norm ball. The link with metric entropy also has interesting positive implications for conditional gradient algorithms in statistics, such as gradient boosting and matching pursuit. In particular, we show that it is possible to extract fast-decaying upper bounds on the excess risk directly from an analysis of the underlying optimization procedure.
翻訳日:2022-05-19 22:24:14 公開日:2022-05-17
# (参考訳) 必要なのは必要なものだけ:ホメオスタティックニューラルネットワークは概念シフトに適応する

Need is All You Need: Homeostatic Neural Networks Adapt to Concept Shift ( http://arxiv.org/abs/2205.08645v1 )

ライセンス: CC BY 4.0
Kingson Man, Antonio Damasio, Hartmut Neven(参考訳) 生物において、ホメオスタシス(ホメオスタシス)は、生命と相容れない状態を維持することを目的とした内部状態の自然な規制である。 典型的な人工システムは、同等の規制機能を備えていない。 本稿では,ホメオスタティックな特徴を組み込んだ人工ニューラルネットワークを提案する。 独自のコンピューティング基板は、それが計算するオブジェクトと、必要で脆弱な関係にある。 例えば、mnist digits や fashion-mnist articles of clothing の分類を行う人工ニューロンは、興奮的または抑制的な効果を受けることができ、その効果は、数字の知覚と分類の直接の結果として、自分自身の学習率を変化させる。 このシナリオでは、エージェント自体が脆弱な内部状態や機能を制御するための決定を導くため、正確な認識が望ましい。 学習者に対する脆弱性の追加は必ずしもその性能を損なうとは限らない。 逆に、脆弱性に対する自己規制は、特定の条件下での利益をもたらす。 提案するホメオスタティックデザインでは,ラベルとデータの関係が時間とともに変化し,最も高いシフト率で最大のアドバンテージが得られるという,概念シフトによる適応性の向上が期待できる。 これは過去のアソシエーションの急速な未学習と新しいアソシエーションの再学習を必要とする。 また,概念シフトの動的変化を伴う環境におけるホメオスタティック学習者の優れた能力を示す。 我々のホメオスタティックデザインは、人工知能の思考機械を自身の「思考」の結果にさらし、流体知性を改善するために自分自身の「ゲームに皮膚を置く」という利点を浮き彫りにしている。

In living organisms, homeostasis is the natural regulation of internal states aimed at maintaining conditions compatible with life. Typical artificial systems are not equipped with comparable regulatory features. Here, we introduce an artificial neural network that incorporates homeostatic features. Its own computing substrate is placed in a needful and vulnerable relation to the very objects over which it computes. For example, artificial neurons performing classification of MNIST digits or Fashion-MNIST articles of clothing may receive excitatory or inhibitory effects, which alter their own learning rate as a direct result of perceiving and classifying the digits. In this scenario, accurate recognition is desirable to the agent itself because it guides decisions to regulate its vulnerable internal states and functionality. Counterintuitively, the addition of vulnerability to a learner does not necessarily impair its performance. On the contrary, self-regulation in response to vulnerability confers benefits under certain conditions. We show that homeostatic design confers increased adaptability under concept shift, in which the relationships between labels and data change over time, and that the greatest advantages are obtained under the highest rates of shift. This necessitates the rapid un-learning of past associations and the re-learning of new ones. We also demonstrate the superior abilities of homeostatic learners in environments with dynamically changing rates of concept shift. Our homeostatic design exposes the artificial neural network's thinking machinery to the consequences of its own "thoughts", illustrating the advantage of putting one's own "skin in the game" to improve fluid intelligence.
翻訳日:2022-05-19 21:54:11 公開日:2022-05-17
# リアルタイム近似ベイズ推論による直感的で効率的なロボット協調

Intuitive and Efficient Human-robot Collaboration via Real-time Approximate Bayesian Inference ( http://arxiv.org/abs/2205.08657v1 )

ライセンス: Link先を確認
Javier Felip Leon and David Gonzalez-Aguirre and Lama Nachman(参考訳) コラボレーションロボットとエンドツーエンドaiの組み合わせは、工場や倉庫における人間のタスクの柔軟な自動化を約束する。 しかし、そのような約束はいくつかの突破口があるようだ。 その間、人間とコボットは互いに協力し合う。 これらのコラボレーションを効果的かつ安全にするためには、ロボットは応答性のある意思決定プロセスのために人間の意図をモデル化し、予測し、活用する必要がある。 近似ベイズ計算(英: Approximate Bayesian Computation、ABC)は、不確実量の確率的予測を行うための分析・合成手法である。 ABCはプリエントを便利に含み、サンプリングアルゴリズムを推論に利用し、シミュレータなどの複雑なモデルの利点を享受できる。 しかし、ABCは、効率的な人間とロボットの協調作業に必要な対話的なフレームレートで実行するには計算集約的すぎることが知られている。 本稿では,人間の到達意図予測をabc問題として定式化し,インタラクティブレートでの計算を可能にする2つの重要な性能革新について述べる。 協調ロボットによる実世界実験を行い,提案手法の有効性を実証した。 協調作業のパッキングにおける人間の意図予測の利点と価値に関する実験評価 定性的な結果は、人間の到達意図が安全を損なうことなく人間とロボットのコラボレーションをいかに改善するかを示している。 定量的タスクフルエンシメトリクスは、定性的なクレームを確認する。

The combination of collaborative robots and end-to-end AI, promises flexible automation of human tasks in factories and warehouses. However, such promise seems a few breakthroughs away. In the meantime, humans and cobots will collaborate helping each other. For these collaborations to be effective and safe, robots need to model, predict and exploit human's intents for responsive decision making processes. Approximate Bayesian Computation (ABC) is an analysis-by-synthesis approach to perform probabilistic predictions upon uncertain quantities. ABC includes priors conveniently, leverages sampling algorithms for inference and is flexible to benefit from complex models, e.g. via simulators. However, ABC is known to be computationally too intensive to run at interactive frame rates required for effective human-robot collaboration tasks. In this paper, we formulate human reaching intent prediction as an ABC problem and describe two key performance innovations which allow computations at interactive rates. Our real-world experiments with a collaborative robot set-up, demonstrate the viability of our proposed approach. Experimental evaluations convey the advantages and value of human intent prediction for packing cooperative tasks. Qualitative results show how anticipating human's reaching intent improves human-robot collaboration without compromising safety. Quantitative task fluency metrics confirm the qualitative claims.
翻訳日:2022-05-19 14:08:05 公開日:2022-05-17
# ベイズゲームにおける学習者に対する戦略

Strategizing against Learners in Bayesian Games ( http://arxiv.org/abs/2205.08562v1 )

ライセンス: Link先を確認
Yishay Mansour, Mehryar Mohri, Jon Schneider, Balasubramanian Sivan(参考訳) 本研究では,学習者の1人が無反応学習戦略を採用し,もう1人のオプティマイザが合理的効用を最大化する2人のゲームについて検討した。 一般のベイズゲームでは、オプティマイザと学習者の双方の支払いは、一般に知られている分布から引き出された型に依存するが、学習者にはプライベートに開示される。 我々は以下の疑問に答える。 (a)学習者が採用する非回帰学習アルゴリズムに関係なく、最適化者が得ることを保証できる最小値は何でしょうか。 (b)最適化者の支払を最小限に抑える学習アルゴリズムはあるか? (c)これらのアルゴリズムは効率的に実装できますか? このオプティマイザ・ラーナー相互作用の理論を構築する一方で、他の設定に独立した関心を持つポリトープスワップ後悔という、新しい組合せ的後悔の概念を定義する。

We study repeated two-player games where one of the players, the learner, employs a no-regret learning strategy, while the other, the optimizer, is a rational utility maximizer. We consider general Bayesian games, where the payoffs of both the optimizer and the learner could depend on the type, which is drawn from a publicly known distribution, but revealed privately to the learner. We address the following questions: (a) what is the bare minimum that the optimizer can guarantee to obtain regardless of the no-regret learning algorithm employed by the learner? (b) are there learning algorithms that cap the optimizer payoff at this minimum? (c) can these algorithms be implemented efficiently? While building this theory of optimizer-learner interactions, we define a new combinatorial notion of regret called polytope swap regret, that could be of independent interest in other settings.
翻訳日:2022-05-19 14:07:16 公開日:2022-05-17
# 高分子物性予測のための分子アンサンブルのグラフ表現

A graph representation of molecular ensembles for polymer property prediction ( http://arxiv.org/abs/2205.08619v1 )

ライセンス: Link先を確認
Matteo Aldeghi and Connor W. Coley(参考訳) 合成ポリマーは多用途で広く用いられる材料である。 小さな有機分子と同様に、そのような物質の大きな化学空間は仮説上アクセス可能である。 計算特性予測と仮想スクリーニングは、望ましい性質を持つと期待される候補を優先順位付けすることでポリマーの設計を加速することができる。 しかし、有機分子とは対照的に、ポリマーはしばしばよく定義された単一構造ではなく、類似した分子のアンサンブルであり、従来の化学表現や機械学習アプローチに特有の課題をもたらす。 本稿では,分子アンサンブルのグラフ表現と,高分子特性予測に適したグラフニューラルネットワークアーキテクチャを提案する。 本手法は, 鎖状構造, モノマー重合, 重合度などの高分子材料の重要な特性を捉えるとともに, 市販のケミノフォマティクス法よりも精度が高いことを示す。 その間, モノマー組成, ストイチオメトリー, チェーンアーキテクチャの異なる40k以上の高分子の電子親和性とイオン化ポテンシャルのシミュレーションデータセットを構築した。 この研究で提示されたデータセットと機械学習モデルは、高分子情報学のための新しいアルゴリズムのクラスへの道を歩み、より広範に、分子アンサンブルのモデリングのためのフレームワークを導入する。

Synthetic polymers are versatile and widely used materials. Similar to small organic molecules, a large chemical space of such materials is hypothetically accessible. Computational property prediction and virtual screening can accelerate polymer design by prioritizing candidates expected to have favorable properties. However, in contrast to organic molecules, polymers are often not well-defined single structures but an ensemble of similar molecules, which poses unique challenges to traditional chemical representations and machine learning approaches. Here, we introduce a graph representation of molecular ensembles and an associated graph neural network architecture that is tailored to polymer property prediction. We demonstrate that this approach captures critical features of polymeric materials, like chain architecture, monomer stoichiometry, and degree of polymerization, and achieves superior accuracy to off-the-shelf cheminformatics methodologies. While doing so, we built a dataset of simulated electron affinity and ionization potential values for >40k polymers with varying monomer composition, stoichiometry, and chain architecture, which may be used in the development of other tailored machine learning approaches. The dataset and machine learning models presented in this work pave the path toward new classes of algorithms for polymer informatics and, more broadly, introduce a framework for the modeling of molecular ensembles.
翻訳日:2022-05-19 14:06:59 公開日:2022-05-17
# qappa: 量子化認識能力、性能、およびdnn加速器の領域モデリング

QAPPA: Quantization-Aware Power, Performance, and Area Modeling of DNN Accelerators ( http://arxiv.org/abs/2205.08648v1 )

ライセンス: Link先を確認
Ahmet Inci, Siri Garudanagiri Virupaksha, Aman Jain, Venkata Vivek Thallam, Ruizhou Ding, Diana Marculescu(参考訳) 機械学習とシステムコミュニティは、カスタムDNNアクセラレータやモデル圧縮技術を通じて、より高いエネルギー効率を達成するために努力しているため、正確で高速なパワー、パフォーマンス、領域モデルを持ちながら、量子化対応の処理要素をアクセラレータデザイン空間に組み込むデザインスペース探索フレームワークが必要である。 本稿では,DNNアクセラレータのための高パラメータ化量子化対応パワー,性能,領域モデリングフレームワークQAPPAを提案する。 我々のフレームワークは、ビット精度、処理要素タイプ、処理要素のスクラッチパッドサイズ、グローバルバッファサイズ、デバイス帯域幅、設計における全処理要素数、dnnワークロードなど、様々な設計選択のためのdnnアクセラレータの設計スペース探索に関する将来の研究を促進することができる。 その結果,異なるビット精度と処理要素のタイプは,面積とエネルギーあたりの性能に大きな違いをもたらすことがわかった。 特に,提案する軽量処理素子は,INT16による実装と比較して,面積あたり4.9倍の性能向上とエネルギー効率の向上を実現している。

As the machine learning and systems community strives to achieve higher energy-efficiency through custom DNN accelerators and model compression techniques, there is a need for a design space exploration framework that incorporates quantization-aware processing elements into the accelerator design space while having accurate and fast power, performance, and area models. In this work, we present QAPPA, a highly parameterized quantization-aware power, performance, and area modeling framework for DNN accelerators. Our framework can facilitate the future research on design space exploration of DNN accelerators for various design choices such as bit precision, processing element type, scratchpad sizes of processing elements, global buffer size, device bandwidth, number of total processing elements in the the design, and DNN workloads. Our results show that different bit precisions and processing element types lead to significant differences in terms of performance per area and energy. Specifically, our proposed lightweight processing elements achieve up to 4.9x more performance per area and energy improvement when compared to INT16 based implementation.
翻訳日:2022-05-19 14:06:40 公開日:2022-05-17
# カテゴリーデータに対する協調ゲーム理論による教師なし特徴ランク付け

Unsupervised Features Ranking via Coalitional Game Theory for Categorical Data ( http://arxiv.org/abs/2205.09060v1 )

ライセンス: Link先を確認
Chiara Balestra, Florian Huber, Andreas Mayr, Emmanuel M\"uller(参考訳) すべての実世界のデータがラベル付けされているわけではなく、ラベルが入手できない場合、その取得にはコストがかかることが多い。 さらに、多くのアルゴリズムが次元の呪いに悩まされているため、データの特徴を小さなセットに減らすことは、しばしば非常に便利である。 教師なしの機能選択は、しばしば特徴の重要度スコアを使用して、タスクに対する単一機能の関連性を定量化することを目的としている。 これらのスコアは変数の分布とそれらの相互作用の定量化のみに基づくことができる。 以前の文献は、主に異常検出とクラスタを調査していたが、冗長性除去の問題に対処できなかった。 本稿では,データセットの構造説明における単一特徴の寄与を表す特徴重要度を計算するために,特徴間の相関性を評価する。 連立ゲーム理論に基づき,冗長性意識の概念を取り入れ,冗長性のない特徴選択を実現するツールとした。 導出特徴の選択は、データに含まれる情報を最大化しながら冗長率を下げる競合手法よりも優れていることを示す。 また,shapley値の計算の複雑さを低減するため,近似バージョンのアルゴリズムを導入する。

Not all real-world data are labeled, and when labels are not available, it is often costly to obtain them. Moreover, as many algorithms suffer from the curse of dimensionality, reducing the features in the data to a smaller set is often of great utility. Unsupervised feature selection aims to reduce the number of features, often using feature importance scores to quantify the relevancy of single features to the task at hand. These scores can be based only on the distribution of variables and the quantification of their interactions. The previous literature, mainly investigating anomaly detection and clusters, fails to address the redundancy-elimination issue. We propose an evaluation of correlations among features to compute feature importance scores representing the contribution of single features in explaining the dataset's structure. Based on Coalitional Game Theory, our feature importance scores include a notion of redundancy awareness making them a tool to achieve redundancy-free feature selection. We show that the deriving features' selection outperforms competing methods in lowering the redundancy rate while maximizing the information contained in the data. We also introduce an approximated version of the algorithm to reduce the complexity of Shapley values' computations.
翻訳日:2022-05-19 14:03:41 公開日:2022-05-17
# マルチセグメントワイヤの直流電流応力下での多層パーセプトロンによる応力進化解析

Multilayer Perceptron Based Stress Evolution Analysis under DC Current Stressing for Multi-segment Wires ( http://arxiv.org/abs/2205.09065v1 )

ライセンス: Link先を確認
Tianshu Hou and Peining Zhen and Ngai Wong and Quan Chen and Guoyong Shi and Shuqi Wang and Hai-Bao Chen(参考訳) エレクトロマイグレーション(EM)は、連続的な技術のスケーリングによる超大規模統合(VLSI)システムの信頼性解析における主要な関心事の一つである。 集積回路(IC)の時間と障害の正確な予測は、現代のIC設計においてますます重要になっている。 しかし、従来の手法は十分に正確ではないことが多く、特に高度な技術ノードでは望ましくない過設計につながる。 本稿では,多層パーセプトロン (MLP) を用いた空核形成過程における相互接続木間の応力変化の計算手法を提案する。 ニューラルネットワークトレーニングのためのカスタマイズされた試行関数の可用性は、時間的変動温度下で複雑な相互接続木上で動的メッシュフリーなストレス進化を見つけることを約束している。 具体的には,em-induced coupled partial differential equation (pdes) と境界条件 (bcs) と初期条件を考慮し,空間-時空間領域における物理に基づく制約を強制する新しい目的関数を定式化する。 提案モデルは,FEMなどの従来の数値手法と比較して,メッシュ化を回避し,時間的反復を低減する。 数値的な結果は精度と計算性能の利点を裏付けるものである。

Electromigration (EM) is one of the major concerns in the reliability analysis of very large scale integration (VLSI) systems due to the continuous technology scaling. Accurately predicting the time-to-failure of integrated circuits (IC) becomes increasingly important for modern IC design. However, traditional methods are often not sufficiently accurate, leading to undesirable over-design especially in advanced technology nodes. In this paper, we propose an approach using multilayer perceptrons (MLP) to compute stress evolution in the interconnect trees during the void nucleation phase. The availability of a customized trial function for neural network training holds the promise of finding dynamic mesh-free stress evolution on complex interconnect trees under time-varying temperatures. Specifically, we formulate a new objective function considering the EM-induced coupled partial differential equations (PDEs), boundary conditions (BCs), and initial conditions to enforce the physics-based constraints in the spatial-temporal domain. The proposed model avoids meshing and reduces temporal iterations compared with conventional numerical approaches like FEM. Numerical results confirm its advantages on accuracy and computational performance.
翻訳日:2022-05-19 14:01:53 公開日:2022-05-17
# 非破壊空隙トポロジーに基づく深層学習による構造材料の破壊特性の予測

Predicting failure characteristics of structural materials via deep learning based on nondestructive void topology ( http://arxiv.org/abs/2205.09075v1 )

ライセンス: Link先を確認
Leslie Ching Ow Tiong, Gunjick Lee, Seok Su Sohn, Donghun Kim(参考訳) 構造物の故障進行の正確な予測は,事故発生防止に重要である。 力学モデリングに基づくかなりの努力にもかかわらず、予想外の損傷要因と欠陥の進化により、現実の環境では正確な予測が難しい課題である。 本稿では,非破壊的X線CT(X-CT),持続的ホモロジー(PH),深層マルチモーダル学習(DML)を一意に組み合わせた材料破壊特性の予測手法を提案する。 複合方法は、材料検査時の微細構造欠陥状態を入力として活用し、故障関連特性を出力する。 本手法は, フェライト系低合金鋼を代表材料として, 2種類のフラクチャーデータセット(引張および疲労データセット)を用いて有効であることを示す。 引張データセットで局部ひずみを予測する場合の平均絶対誤差(mae)を0.09とし、疲労データセットで破壊進展を予測する場合のmae(mae)を0.14とする。 これらの高い精度は、複雑でノイズの多い3次元x-ct画像を内部空洞サイズ、密度、分布といった重要な位相的特徴を保持するコンパクトな2次元永続図に変換するx-ct画像のph処理に起因する。 3次元X-CTデータのPH処理とDML処理を併用した手法は,空洞トポロジーの進展に基づく材料検査時に信頼性の高い故障予測が可能であり,本手法を様々な非破壊故障試験に拡張して実用化することができる。

Accurate predictions of the failure progression of structural materials is critical for preventing failure-induced accidents. Despite considerable mechanics modeling-based efforts, accurate prediction remains a challenging task in real-world environments due to unexpected damage factors and defect evolutions. Here, we report a novel method for predicting material failure characteristics that uniquely combines nondestructive X-ray computed tomography (X-CT), persistent homology (PH), and deep multimodal learning (DML). The combined method exploits the microstructural defect state at the time of material examination as an input, and outputs the failure-related properties. Our method is demonstrated to be effective using two types of fracture datasets (tensile and fatigue datasets) with ferritic low alloy steel as a representative structural material. The method achieves a mean absolute error (MAE) of 0.09 in predicting the local strain with the tensile dataset and an MAE of 0.14 in predicting the fracture progress with the fatigue dataset. These high accuracies are mainly due to PH processing of the X-CT images, which transforms complex and noisy three-dimensional X-CT images into compact two-dimensional persistence diagrams that preserve key topological features such as the internal void size, density, and distribution. The combined PH and DML processing of 3D X-CT data is our unique approach enabling reliable failure predictions at the time of material examination based on void topology progressions, and the method can be extended to various nondestructive failure tests for practical use.
翻訳日:2022-05-19 14:01:35 公開日:2022-05-17
# Wi-Fiセンシングのための量子転送学習

Quantum Transfer Learning for Wi-Fi Sensing ( http://arxiv.org/abs/2205.08590v1 )

ライセンス: Link先を確認
Toshiaki Koike-Akino, Pu Wang, Ye Wang(参考訳) データ通信以外にも、市販のWi-Fiデバイスは人間の活動を監視し、デバイスの動きを追跡し、環境を感知するために使用することができる。 特に、60GHzのIEEE 802.11ad/ay標準で本質的に利用できる空間ビーム特性は、これらの屋内センシングタスクのオーバーヘッドとチャネル計測の粒度において有効であることが示されている。 本稿では、Wi-Fi設定や環境が時間とともに変化するとき、人間の監視タスクにおけるドメインシフトを軽減するための転送学習について検討する。 概念実証研究として、量子ニューラルネットワーク(QNN)と古典的深層ニューラルネットワーク(DNN)を将来の量子可読社会として検討する。 DNNとQNNの有効性は、人間のポーズ認識のための社内実験によって検証され、データサイズが制限された場合、90%以上の精度が達成される。

Beyond data communications, commercial-off-the-shelf Wi-Fi devices can be used to monitor human activities, track device locomotion, and sense the ambient environment. In particular, spatial beam attributes that are inherently available in the 60-GHz IEEE 802.11ad/ay standards have shown to be effective in terms of overhead and channel measurement granularity for these indoor sensing tasks. In this paper, we investigate transfer learning to mitigate domain shift in human monitoring tasks when Wi-Fi settings and environments change over time. As a proof-of-concept study, we consider quantum neural networks (QNN) as well as classical deep neural networks (DNN) for the future quantum-ready society. The effectiveness of both DNN and QNN is validated by an in-house experiment for human pose recognition, achieving greater than 90% accuracy with a limited data size.
翻訳日:2022-05-19 14:00:07 公開日:2022-05-17
# ランダム行列理論によるディープニューラルネットワーク損失面の普遍的特性

Universal characteristics of deep neural network loss surfaces from random matrix theory ( http://arxiv.org/abs/2205.08601v1 )

ライセンス: Link先を確認
Nicholas P Baskerville, Jonathan P Keating, Francesco Mezzadri, Joseph Najnudel, Diego Granziol(参考訳) 本稿では,ディープニューラルネットワークにおけるランダムマトリクスの普遍性について考察する。 近年の実験研究に動機づけられ,局所統計に関連するランダム行列の普遍的性質を用いて,ヘシアンの現実的なモデルに基づく深層ニューラルネットワークの実用的意義を導出する。 特に、ディープニューラルネットワークのスペクトルにおける外れ値の普遍的側面を導出し、一般的なプレコンディショニング勾配降下アルゴリズムにおけるランダム行列局所法則の重要な役割を実証する。 また,統計物理学とランダム行列理論のツールに基づく非常に一般的な議論から,ディープニューラルネットワーク損失曲面に対する洞察を与える。

This paper considers several aspects of random matrix universality in deep neural networks. Motivated by recent experimental work, we use universal properties of random matrices related to local statistics to derive practical implications for deep neural networks based on a realistic model of their Hessians. In particular we derive universal aspects of outliers in the spectra of deep neural networks and demonstrate the important role of random matrix local laws in popular pre-conditioning gradient descent algorithms. We also present insights into deep neural network loss surfaces from quite general arguments based on tools from statistical physics and random matrix theory.
翻訳日:2022-05-19 13:59:53 公開日:2022-05-17
# グラントフリーデバイスアクセスシステムにおける共同ユーザとチャネル状態獲得のための変分量子圧縮センシング

Variational Quantum Compressed Sensing for Joint User and Channel State Acquisition in Grant-Free Device Access Systems ( http://arxiv.org/abs/2205.08603v1 )

ライセンス: Link先を確認
Bryan Liu, Toshiaki Koike-Akino, Ye Wang, Kieran Parsons(参考訳) 本稿では,2段階圧縮センシング技術を統合した新しい量子コンピューティングフレームワークを提案する。 そこで本研究では,変分量子回路(VQC)を新しい解法として提案する。 デバイスアクティビティの相関関係を有する実用的な補助無し通信システムにおいて、提案するvqcシステムにおけるパウリ回転ゲートの変動量子パラメータを最適化し、非線形推定を容易にする。 数値計算により,VQC法は素子ワイドデノイザを用いた現代の圧縮センシング技術より優れていることが示された。

This paper introduces a new quantum computing framework integrated with a two-step compressed sensing technique, applied to a joint channel estimation and user identification problem. We propose a variational quantum circuit (VQC) design as a new denoising solution. For a practical grant-free communications system having correlated device activities, variational quantum parameters for Pauli rotation gates in the proposed VQC system are optimized to facilitate to the non-linear estimation. Numerical results show that the VQC method can outperform modern compressed sensing techniques using an element-wise denoiser.
翻訳日:2022-05-19 13:59:43 公開日:2022-05-17
# 深層強化学習を用いたマルチビットパケット分類の試み

Multibit Tries Packet Classification with Deep Reinforcement Learning ( http://arxiv.org/abs/2205.08606v1 )

ライセンス: Link先を確認
Hasibul Jamil, Ning Weng(参考訳) 高性能パケット分類はファイアウォール、侵入検知、差別化サービスといったスケーラブルなネットワークアプリケーションをサポートする重要なコンポーネントである。 コアネットワークにおけるラインレートの増大に伴い,手作業によるヒューリスティックスアプローチを用いて,スケーラブルで高性能なパケット分類ソリューションを設計することが大きな課題となる。 本稿では,スケーラブルな学習ベースパケット分類エンジンとその性能評価について述べる。 ルールセットのスパース性を利用して、我々のアルゴリズムはいくつかの有効なビット(EB)を使用して、少数のメモリアクセスで多数の候補ルールを抽出する。 これらの効果的なビットは深層強化学習によって学習され、オンラインシステムのパフォーマンスを改善するためにフルマッチする必要のないルールの大部分をフィルタリングするためにビットマップを作成するために使用される。 さらに、我々のEBs学習に基づく選択法は規則セットとは独立であり、様々な規則セットに適用できる。 当社のマルチビットトライト分類エンジンは,ebsのない従来の決定木と比較して,最悪の場合と平均的な場合の両方でルックアップ時間を55%上回り,メモリフットプリントを削減しています。

High performance packet classification is a key component to support scalable network applications like firewalls, intrusion detection, and differentiated services. With ever increasing in the line-rate in core networks, it becomes a great challenge to design a scalable and high performance packet classification solution using hand-tuned heuristics approaches. In this paper, we present a scalable learning-based packet classification engine and its performance evaluation. By exploiting the sparsity of ruleset, our algorithm uses a few effective bits (EBs) to extract a large number of candidate rules with just a few of memory access. These effective bits are learned with deep reinforcement learning and they are used to create a bitmap to filter out the majority of rules which do not need to be full-matched to improve the online system performance. Moreover, our EBs learning-based selection method is independent of the ruleset, which can be applied to varying rulesets. Our multibit tries classification engine outperforms lookup time both in worst and average case by 55% and reduce memory footprint, compared to traditional decision tree without EBs.
翻訳日:2022-05-19 13:59:32 公開日:2022-05-17
# 非線形光学を用いた全フォトニックニューラルネットワークプロセッサ

All-Photonic Artificial Neural Network Processor Via Non-linear Optics ( http://arxiv.org/abs/2205.08608v1 )

ライセンス: Link先を確認
Jasvith Raj Basani, Mikkel Heuck, Dirk R. Englund, Stefan Krastanov(参考訳) 光学とフォトニクスは近年、従来のデジタル電子アーキテクチャにおけるボトルネックと見なされる線形行列処理を加速するプラットフォームとして関心を集めている。 本稿では,ニューロンとして機能する周波数モードの振幅に情報を符号化する全フォトニック人工ニューラルネットワークプロセッサを提案する。 連結層間の重みはポンプとして働く制御周波数モードの振幅で符号化される。 これらの情報処理モード間の相互作用は非線形光学プロセスによって実現される。 行列乗法と要素単位の活性化関数は、コヒーレントなプロセスを通じて実行され、検出器やデジタルエレクトロニクスを使わずに、負および複素数の直接表現を可能にする。 数値シミュレーションにより,我々の設計は,画像分類ベンチマークにおける現在の最先端計算ネットワークと同等の性能を実現することを示す。 私たちのアーキテクチャは、完全にユニタリで可逆的な計算方法を提供することでユニークです。 さらに、計算速度はポンプのパワーによって増大し、回路が高い光学パワーを維持できる限り、任意に高いレートとなる。

Optics and photonics has recently captured interest as a platform to accelerate linear matrix processing, that has been deemed as a bottleneck in traditional digital electronic architectures. In this paper, we propose an all-photonic artificial neural network processor wherein information is encoded in the amplitudes of frequency modes that act as neurons. The weights among connected layers are encoded in the amplitude of controlled frequency modes that act as pumps. Interaction among these modes for information processing is enabled by non-linear optical processes. Both the matrix multiplication and element-wise activation functions are performed through coherent processes, enabling the direct representation of negative and complex numbers without the use of detectors or digital electronics. Via numerical simulations, we show that our design achieves a performance commensurate with present-day state-of-the-art computational networks on image-classification benchmarks. Our architecture is unique in providing a completely unitary, reversible mode of computation. Additionally, the computational speed increases with the power of the pumps to arbitrarily high rates, as long as the circuitry can sustain the higher optical power.
翻訳日:2022-05-19 13:59:11 公開日:2022-05-17
# 量子ターボ検出を学ぶための学習

Learning to Learn Quantum Turbo Detection ( http://arxiv.org/abs/2205.08611v1 )

ライセンス: Link先を確認
Bryan Liu, Toshiaki Koike-Akino, Ye Wang, Kieran Parsons(参考訳) 本稿では,変分量子回路(VQC)を用いたターボ受信機について検討する。 VQCは量子近似最適化アルゴリズム(QAOA)のアンサッツで構成される。 ターボVQCデコーダの高忠実度軟判定出力を最適化する'ラーニング・トゥ・ラーニング' (L2L) フレームワークを提案する。 提案アルゴリズムの計算複雑性の証明に加えて,L2L VQCターボデコーダはマルチインプットマルチアウトプットシステムにおいて,最適最大値に近い性能が得られることを示す。

This paper investigates a turbo receiver employing a variational quantum circuit (VQC). The VQC is configured with an ansatz of the quantum approximate optimization algorithm (QAOA). We propose a 'learning to learn' (L2L) framework to optimize the turbo VQC decoder such that high fidelity soft-decision output is generated. Besides demonstrating the proposed algorithm's computational complexity, we show that the L2L VQC turbo decoder can achieve an excellent performance close to the optimal maximum-likelihood performance in a multiple-input multiple-output system.
翻訳日:2022-05-19 13:58:35 公開日:2022-05-17
# povit: 多目的設計のための視覚トランスフォーマーとナノフォトニックデバイスのキャラクタリゼーション

POViT: Vision Transformer for Multi-objective Design and Characterization of Nanophotonic Devices ( http://arxiv.org/abs/2205.09045v1 )

ライセンス: Link先を確認
Xinyu Chen, Renjie Li, Yueyao Yu, Yuanwen Shen, Wenye Li, Zhaoyu Zhang, Yin Zhang(参考訳) 我々は,ナノスケールフォトニックデバイスの高速かつ高精度なキャラクタリゼーションという,半導体IC設計の根本的な課題を解決する。 aiとedaの融合と同様に、畳み込みニューラルネットワーク(cnn)のようなdnnを適用し、フォトニック集積回路(pic)やlidarでよく見られる次世代光電子デバイスのプロトタイプと特徴付けに多くの取り組みがなされている。 これらの先行研究は一般的に、例えばフォトニック結晶の品質因子(Q)とモーダル体積(V)を超高精度で予測しようと試みている。 例えば、V(V_{coeff}$ )の相関係数は80%程度しかなく、信頼性と再現性のあるナノフォトニクス設計を生成するのに要するものよりもはるかに低い。 近年,注目型トランスフォーマーモデルが注目され,CVやNLPで広く利用されている。 本研究では,半導体フォトニックデバイスを多目的で効率的に設計し,シミュレーションするための第1世代トランスフォーマーモデル(POViT)を提案する。 標準のビジョン変換器(ViT)とは異なり、データ入力としてフォトニック結晶を供給し、活性化層をGELUから絶対値関数(ABS)に変更した。 実験の結果,povitは過去のモデルで報告された結果を大幅に上回った。 相関係数$V_{coeff}$は12%以上増加し(すなわち92.0%)、Qの予測誤差はいくつかの重要な指標改善の中で桁違いに減少する。 我々の研究は、EDAを完全自動フォトニックデザインに拡張する可能性を秘めている。 完全なデータセットとコードは、物理学とコンピュータ科学の分野における研究を支援するためにリリースされる。

We solve a fundamental challenge in semiconductor IC design: the fast and accurate characterization of nanoscale photonic devices. Much like the fusion between AI and EDA, many efforts have been made to apply DNNs such as convolutional neural networks (CNN) to prototype and characterize next-gen optoelectronic devices commonly found in photonic integrated circuits (PIC) and LiDAR. These prior works generally strive to predict the quality factor (Q) and modal volume (V) of for instance, photonic crystals, with ultra-high accuracy and speed. However, state-of-the-art models are still far from being directly applicable in the real-world: e.g. the correlation coefficient of V ($V_{coeff}$ ) is only about 80%, which is much lower than what it takes to generate reliable and reproducible nanophotonic designs. Recently, attention-based transformer models have attracted extensive interests and been widely used in CV and NLP. In this work, we propose the first-ever Transformer model (POViT) to efficiently design and simulate semiconductor photonic devices with multiple objectives. Unlike the standard Vision Transformer (ViT), we supplied photonic crystals as data input and changed the activation layer from GELU to an absolute-value function (ABS). Our experiments show that POViT exceeds results reported by previous models significantly. The correlation coefficient $V_{coeff}$ increases by over 12% (i.e., to 92.0%) and the prediction errors of Q is reduced by an order of magnitude, among several other key metric improvements. Our work has the potential to drive the expansion of EDA to fully automated photonic design. The complete dataset and code will be released to aid researchers endeavoring in the interdisciplinary field of physics and computer science.
翻訳日:2022-05-19 13:57:55 公開日:2022-05-17
# ベイズ離散条件変換モデル

Bayesian Discrete Conditional Transformation Models ( http://arxiv.org/abs/2205.08594v1 )

ライセンス: Link先を確認
Manuel Carlan and Thomas Kneib(参考訳) 本稿では,応答の条件変換に基づく離散順序数とカウントデータのための新しいベイズモデルフレームワークを提案する。 条件変換関数は、a事前選択された基準分布と連動してデータから推定される。 カウント応答について、結果として得られる変換モデルは、加法変換関数の仕様で余剰零点を加法的に説明できるベイズ完全パラメトリックかつ分布自由なアプローチであるという意味では、新しい。 我々の累積リンク変換モデルでは, カテゴリー特化可能な線形および非線形共変量効果の包含が可能であり, 基準分布の選択に応じて, (非)確率的オッズモデルやハザードモデルなどが得られる。 推論は、多変量ガウス前駆体が函数効果の滑らかさのような特定の性質を強制する、総称モジュラーマルコフ連鎖モンテカルロアルゴリズムによって行われる。 ベイズ離散条件変換モデルの汎用性を説明するために、余剰零点の存在下での特許引用数と離散偏比例オッズモデルにおける森林健康カテゴリの処理への応用について述べる。

We propose a novel Bayesian model framework for discrete ordinal and count data based on conditional transformations of the responses. The conditional transformation function is estimated from the data in conjunction with an a priori chosen reference distribution. For count responses, the resulting transformation model is novel in the sense that it is a Bayesian fully parametric yet distribution-free approach that can additionally account for excess zeros with additive transformation function specifications. For ordinal categoric responses, our cumulative link transformation model allows the inclusion of linear and nonlinear covariate effects that can additionally be made category-specific, resulting in (non-)proportional odds or hazards models and more, depending on the choice of the reference distribution. Inference is conducted by a generic modular Markov chain Monte Carlo algorithm where multivariate Gaussian priors enforce specific properties such as smoothness on the functional effects. To illustrate the versatility of Bayesian discrete conditional transformation models, applications to counts of patent citations in the presence of excess zeros and on treating forest health categories in a discrete partial proportional odds model are presented.
翻訳日:2022-05-19 13:25:09 公開日:2022-05-17
# ハイブリッド自動音声認識のための自己教師あり学習の展開

Deploying self-supervised learning in the wild for hybrid automatic speech recognition ( http://arxiv.org/abs/2205.08598v1 )

ライセンス: Link先を確認
Mostafa Karimi, Changliang Liu, Kenichi Kumatani, Yao Qian, Tianyu Wu, Jian Wu(参考訳) 自己教師付き学習(SSL)法は自動音声認識(ASR)において非常に成功した。 これらの大幅な改善は、非ストリーミングのEnd-to-End ASRモデルのためのLibriSpeechのような高度にキュレートされたデータセットに基づいて報告されている。 しかし、SSLの重要な特徴は、転写されていないオーディオデータに利用できる。 本稿では、データ前処理からストリーミングハイブリッドASRモデルのデプロイに至るまで、SSLの未処理オーディオデータをフルに活用する方法について検討する。 More specifically, we present (1) the effect of Audio Event Detection (AED) model in data pre-processing pipeline (2) analysis on choosing optimizer and learning rate scheduling (3) comparison of recently developed contrastive losses, (4) comparison of various pre-training strategies such as utilization of in-domain versus out-domain pre-training data, monolingual versus multilingual pre-training data, multi-head multilingual SSL versus single-head multilingual SSL and supervised pre-training versus SSL. 実験結果から,内部未処理データによるSSL事前トレーニングは,他のすべてのドメイン事前トレーニング戦略と比較して,パフォーマンスが向上することが示された。

Self-supervised learning (SSL) methods have proven to be very successful in automatic speech recognition (ASR). These great improvements have been reported mostly based on highly curated datasets such as LibriSpeech for non-streaming End-to-End ASR models. However, the pivotal characteristics of SSL is to be utilized for any untranscribed audio data. In this paper, we provide a full exploration on how to utilize uncurated audio data in SSL from data pre-processing to deploying an streaming hybrid ASR model. More specifically, we present (1) the effect of Audio Event Detection (AED) model in data pre-processing pipeline (2) analysis on choosing optimizer and learning rate scheduling (3) comparison of recently developed contrastive losses, (4) comparison of various pre-training strategies such as utilization of in-domain versus out-domain pre-training data, monolingual versus multilingual pre-training data, multi-head multilingual SSL versus single-head multilingual SSL and supervised pre-training versus SSL. The experimental results show that SSL pre-training with in-domain uncurated data can achieve better performance in comparison to all the alternative out-domain pre-training strategies.
翻訳日:2022-05-19 13:24:49 公開日:2022-05-17
# ロボットのローカライゼーションのための野生のテキスト検出と認識

Text Detection & Recognition in the Wild for Robot Localization ( http://arxiv.org/abs/2205.08565v1 )

ライセンス: Link先を確認
Zobeir Raisi and John Zelek(参考訳) サインはどこにでもあり、ロボットは、視覚的位置認識(VPR)やマップのローカライズを支援するために、サインを利用する必要がある。 野生におけるロバストテキストの検出と認識は、ポーズ、不規則テキスト、照明、閉塞などの要因により困難である。 テキスト文字列とバウンディングボックスを同時に出力するエンド・ツー・エンドシーンテキストスポッティングモデルを提案する。 このモデルはVPRに適している。 我々の中心的なコントリビューションは、エンドツーエンドのテキストスポッティングフレームワークを活用して、不規則かつ隠蔽されたテキスト領域を、異なる困難な場所で適切にキャプチャすることである。 提案するVPRの性能を評価するために,SCTP(Self-Collected Text Place)ベンチマークデータセットを用いた実験を行った。 実験結果から,提案手法は精度とリコールの点でSOTA法よりも優れていることがわかった。

Signage is everywhere and a robot should be able to take advantage of signs to help it localize (including Visual Place Recognition (VPR)) and map. Robust text detection & recognition in the wild is challenging due to such factors as pose, irregular text, illumination, and occlusion. We propose an end-to-end scene text spotting model that simultaneously outputs the text string and bounding boxes. This model is more suitable for VPR. Our central contribution is introducing utilizing an end-to-end scene text spotting framework to adequately capture the irregular and occluded text regions in different challenging places. To evaluate our proposed architecture's performance for VPR, we conducted several experiments on the challenging Self-Collected Text Place (SCTP) benchmark dataset. The initial experimental results show that the proposed method outperforms the SOTA methods in terms of precision and recall when tested on this benchmark.
翻訳日:2022-05-19 13:24:09 公開日:2022-05-17
# 逐次的高精度超解法生成逆ネットワーク

Semantically Accurate Super-Resolution Generative Adversarial Networks ( http://arxiv.org/abs/2205.08659v1 )

ライセンス: Link先を確認
Tristan Frizza and Donald G. Dansereau and Nagita Mehr Seresht and Michael Bewley(参考訳) 本研究は,GAN(Generative Adversarial Network)のトレーニングにおける双方のパフォーマンスを共同で検討することで,セマンティックセグメンテーションと画像超解像の問題に対処する。 スーパーレゾリューションを,下流コンピュータビジョンタスク,特にセマンティクスセグメンテーションの性能向上のための前処理ステップとして動作可能にする,新しいアーキテクチャとドメイン特有の機能損失を提案する。 このアプローチは、ピクセル解像度5~7cmの数百の都市部をカバーするnearmapの航空画像データセットを用いて実証する。 提案手法は,最先端のシングルネットワーク手法と比較して,画像品質の向上と,すべての予測クラスにおける定量的セグメンテーション精度の向上を実現し,平均精度は4倍,32倍,11.8%向上した。 本研究は,画像ベースとタスク固有の損失を共同で考慮することで,両者の性能が向上し,意味認識による空中画像の超高解像度化が進むことを実証する。

This work addresses the problems of semantic segmentation and image super-resolution by jointly considering the performance of both in training a Generative Adversarial Network (GAN). We propose a novel architecture and domain-specific feature loss, allowing super-resolution to operate as a pre-processing step to increase the performance of downstream computer vision tasks, specifically semantic segmentation. We demonstrate this approach using Nearmap's aerial imagery dataset which covers hundreds of urban areas at 5-7 cm per pixel resolution. We show the proposed approach improves perceived image quality as well as quantitative segmentation accuracy across all prediction classes, yielding an average accuracy improvement of 11.8% and 108% at 4x and 32x super-resolution, compared with state-of-the art single-network methods. This work demonstrates that jointly considering image-based and task-specific losses can improve the performance of both, and advances the state-of-the-art in semantic-aware super-resolution of aerial imagery.
翻訳日:2022-05-19 13:23:52 公開日:2022-05-17
# ノイズのある古典的通信による量子エンタングルメント蒸留の学習

Learning Quantum Entanglement Distillation with Noisy Classical Communications ( http://arxiv.org/abs/2205.08561v1 )

ライセンス: Link先を確認
Hari Hara Suthan Chittoor, Osvaldo Simeone(参考訳) 量子ネットワークは絡み合いの管理と利用に依存している。 絡み合った量子ビットの実践的な源は不完全であり、理想ベル対に対する忠実度を下げた混合量子状態を生成する。 したがって、量子ネットワークの重要なプリミティブはエンタングルメント蒸留であり、その目的は局所演算と古典的通信(locc)を通じてエンタングル量子ビットの忠実性を高めることである。 既存の蒸留プロトコルは理想的なノイズのない通信チャネルを想定している。 本稿では,雑音の多い二元対称チャネル上で通信を行う場合について検討する。 本稿では,平均忠実度を最大化するために最適化されたパラメータ化量子回路(PQC)による局所処理を実装し,通信エラーを考慮に入れた。 提案手法であるNoss Aware-LOCCNet(NA-LOCCNet)は、ノイズレス通信用に設計された既存のプロトコルに対して大きな利点がある。

Quantum networking relies on the management and exploitation of entanglement. Practical sources of entangled qubits are imperfect, producing mixed quantum state with reduced fidelity with respect to ideal Bell pairs. Therefore, an important primitive for quantum networking is entanglement distillation, whose goal is to enhance the fidelity of entangled qubits through local operations and classical communication (LOCC). Existing distillation protocols assume the availability of ideal, noiseless, communication channels. In this paper, we study the case in which communication takes place over noisy binary symmetric channels. We propose to implement local processing through parameterized quantum circuits (PQCs) that are optimized to maximize the average fidelity, while accounting for communication errors. The introduced approach, Noise Aware-LOCCNet (NA-LOCCNet), is shown to have significant advantages over existing protocols designed for noiseless communications.
翻訳日:2022-05-19 12:47:39 公開日:2022-05-17
# グラフニューラルネットワークにおける関係抽出のためのジェネリック・トレンド対応カリキュラム学習

Generic and Trend-aware Curriculum Learning for Relation Extraction in Graph Neural Networks ( http://arxiv.org/abs/2205.08625v1 )

ライセンス: Link先を確認
Nidhi Vakil and Hadi Amiri(参考訳) グラフニューラルネットワークのための汎用的・トレンド対応カリキュラム学習手法を提案する。 サンプルレベルの損失傾向を取り入れることで既存のアプローチを拡張し、より難しいサンプルと区別し、トレーニングのためにスケジュールする。 本モデルは、テキストグラフにおける関係抽出のためのテキスト情報と構造情報を効果的に統合する。 実験結果から,このモデルはサンプル難易度をロバストに推定し,複数のデータセットにまたがる最先端のアプローチよりも相当な改善が得られた。

We present a generic and trend-aware curriculum learning approach for graph neural networks. It extends existing approaches by incorporating sample-level loss trends to better discriminate easier from harder samples and schedule them for training. The model effectively integrates textual and structural information for relation extraction in text graphs. Experimental results show that the model provides robust estimations of sample difficulty and shows sizable improvement over the state-of-the-art approaches across several datasets.
翻訳日:2022-05-19 12:16:56 公開日:2022-05-17
# (参考訳) インシシット複合カーネルによるニューラルネットワークへの事前知識の導入

Incorporating Prior Knowledge into Neural Networks through an Implicit Composite Kernel ( http://arxiv.org/abs/2205.07384v2 )

ライセンス: CC BY 4.0
Ziyang Jiang, Tongshu Zheng, and David Carlson(参考訳) ニューラルネットワーク(NN)学習を事前知識でガイドすることは困難である。 対照的に、空間的滑らかさや季節性といった多くの既知の性質は、ガウス過程 (GP) において適切なカーネルを選択することでモデル化が簡単である。 多くのディープラーニングアプリケーションは、そのような既知の特性をモデル化することで拡張することができる。 例えば、畳み込みニューラルネットワーク(CNN)は、強い季節的影響を受けるリモートセンシングで頻繁に使用される。 本稿では,ニューラルネットワークによって暗黙的に定義されたカーネルと,既知の特性(季節性など)をモデル化するために選択された第2のカーネル関数を組み合わせることで,ディープラーニングの強みとGPの明確なモデリング能力を組み合わせることを提案する。 次に,Nystrom近似に基づく深層ネットワークと効率的なマッピングを組み合わせることにより,結果GPを近似し,Implicit Composite Kernel (ICK) と呼ぶ。 ICKは柔軟で、多くのアプリケーションでニューラルネットワークに事前情報を含めることができる。 我々は,合成データと実世界のデータセットの両方において,優れた性能と柔軟性を示すことにより,フレームワークの強みを実証する。 コードは、https://anonymous.4open.science/r/ICK_NNGP-17C5/で入手できる。

It is challenging to guide neural network (NN) learning with prior knowledge. In contrast, many known properties, such as spatial smoothness or seasonality, are straightforward to model by choosing an appropriate kernel in a Gaussian process (GP). Many deep learning applications could be enhanced by modeling such known properties. For example, convolutional neural networks (CNNs) are frequently used in remote sensing, which is subject to strong seasonal effects. We propose to blend the strengths of deep learning and the clear modeling capabilities of GPs by using a composite kernel that combines a kernel implicitly defined by a neural network with a second kernel function chosen to model known properties (e.g., seasonality). Then, we approximate the resultant GP by combining a deep network and an efficient mapping based on the Nystrom approximation, which we call Implicit Composite Kernel (ICK). ICK is flexible and can be used to include prior information in neural networks in many applications. We demonstrate the strength of our framework by showing its superior performance and flexibility on both synthetic and real-world data sets. The code is available at: https://anonymous.4open.science/r/ICK_NNGP-17C5/.
翻訳日:2022-05-19 11:30:33 公開日:2022-05-17
# (参考訳) Cliff Diving:強化学習環境におけるリワードサーフェスを探る

Cliff Diving: Exploring Reward Surfaces in Reinforcement Learning Environments ( http://arxiv.org/abs/2205.07015v2 )

ライセンス: CC BY 4.0
Ryan Sullivan, J. K. Terry, Benjamin Black, John P. Dickerson(参考訳) 最適化のランドスケープを視覚化することで、数値最適化に関する基本的な洞察が生まれ、最適化テクニックが新しくなった。 しかし、強化学習が最適化する目的の可視化("reward surface")は、ごく少数の狭い文脈でしか生成されていない。 この研究は、ギムで最も広く使われている強化学習環境27の報酬面と関連する視覚化を初めて提示する。 また,政策勾配方向の報奨面についても検討し,多くの強化学習環境が頻繁な「崖(cliffs)」を持っていることを初めて示した。 a2cはこれらの崖をパラメータ空間の低報酬領域に「分割」することが多いが、ppoはそれを回避し、以前の方法よりもppoの性能が向上したという一般的な直観を確認している。 さらに,将来,これらの視覚化を簡単に生成できる拡張性の高いライブラリも導入する。 本研究は,最新のrl手法の成功と失敗を説明するための新たな直感的考察と,強化学習エージェントのいくつかの障害モードを,新しい方法で具体的に特徴付けるものである。

Visualizing optimization landscapes has led to many fundamental insights in numeric optimization, and novel improvements to optimization techniques. However, visualizations of the objective that reinforcement learning optimizes (the "reward surface") have only ever been generated for a small number of narrow contexts. This work presents reward surfaces and related visualizations of 27 of the most widely used reinforcement learning environments in Gym for the first time. We also explore reward surfaces in the policy gradient direction and show for the first time that many popular reinforcement learning environments have frequent "cliffs" (sudden large drops in expected return). We demonstrate that A2C often "dives off" these cliffs into low reward regions of the parameter space while PPO avoids them, confirming a popular intuition for PPO's improved performance over previous methods. We additionally introduce a highly extensible library that allows researchers to easily generate these visualizations in the future. Our findings provide new intuition to explain the successes and failures of modern RL methods, and our visualizations concretely characterize several failure modes of reinforcement learning agents in novel ways.
翻訳日:2022-05-19 04:34:50 公開日:2022-05-17
# (参考訳) 埋め込みを用いたソーシャルネットワークにおける相互影響の因果推定

Using Embeddings for Causal Estimation of Peer Influence in Social Networks ( http://arxiv.org/abs/2205.08033v1 )

ライセンス: CC BY 4.0
Irina Cristali and Victor Veitch(参考訳) 本稿では,ピア感染効果を推定するために観察データを用いる問題,ネットワーク内の個人に対する治療が隣人の成果に与える影響について考察する。 このような推定に対する大きな課題は、ホモフィリー(homophily) - 伝染性効果の観察できない共同創設者として類似の潜在特性を共有するための連結ユニットの傾向である。 率直に言って、あなたの友人があなたの治療に影響されたからか、そもそもあなたを友達にするような共通の特徴が原因なのかはわかりません。 これらの共通原因は通常直接観察されないため、単純に調整することはできない。 本稿では,ネットワーク自体から学習したノード埋め込みを用いて,必要な調整を行うアプローチについて述べる。 主な目的はこの調整を非パラメトリックに行うことであり、ネットワークを生成するプロセスと処理の割り当てと結果プロセスの両方に機能的な形式を仮定しない。 鍵となる貢献は、非パラメトリックな因果効果をホモフィリを考慮に入れた方法で形式化することであり、埋め込みメソッドがどのようにしてこの効果を識別し推定するかを示すことである。 コードはhttps://github.com/IrinaCristali/Peer-Contagion-on-Networksで公開されている。

We address the problem of using observational data to estimate peer contagion effects, the influence of treatments applied to individuals in a network on the outcomes of their neighbors. A main challenge to such estimation is that homophily - the tendency of connected units to share similar latent traits - acts as an unobserved confounder for contagion effects. Informally, it's hard to tell whether your friends have similar outcomes because they were influenced by your treatment, or whether it's due to some common trait that caused you to be friends in the first place. Because these common causes are not usually directly observed, they cannot be simply adjusted for. We describe an approach to perform the required adjustment using node embeddings learned from the network itself. The main aim is to perform this adjustment nonparametrically, without functional form assumptions on either the process that generated the network or the treatment assignment and outcome processes. The key contributions are to nonparametrically formalize the causal effect in a way that accounts for homophily, and to show how embedding methods can be used to identify and estimate this effect. Code is available at https://github.com/IrinaCristali/Peer-Contagion-on-Networks.
翻訳日:2022-05-18 23:17:38 公開日:2022-05-17
# (参考訳) 「質問はどんなものか?」 タイプ制御型質問生成に関する研究

"What makes a question inquisitive?" A Study on Type-Controlled Inquisitive Question Generation ( http://arxiv.org/abs/2205.08056v1 )

ライセンス: CC BY 4.0
Lingyu Gao, Debanjan Ghosh, Kevin Gimpel(参考訳) 質問生成のためのタイプ制御フレームワークを提案する。 我々は、質問型、訓練質問型分類器、および型制御された質問生成のためのファインチューンモデルを含む質問データセットを注釈付けする。 実験結果から,ソーステキストを描画しながら,特定のタイプに従属するさまざまな質問を生成できることが示された。 また,生成した集合から1つの質問を選択するための戦略についても検討する。 ~質問分類器と、専門家アノテーションの小さなセットから訓練されたペアワイズローダ。 ペアワイズランカを用いた質問選択は,自動的および手作業による評価において強い結果をもたらす。 人間の評価は、生成した質問の複数の側面を評価し、ランク付け者が最高の構文(4.59)、セマンティクス(4.37)、問合せ性(3.92)を1~5の尺度で選択し、人間による質問のパフォーマンスに匹敵する。

We propose a type-controlled framework for inquisitive question generation. We annotate an inquisitive question dataset with question types, train question type classifiers, and finetune models for type-controlled question generation. Empirical results demonstrate that we can generate a variety of questions that adhere to specific types while drawing from the source texts. We also investigate strategies for selecting a single question from a generated set, considering both an informative vs.~inquisitive question classifier and a pairwise ranker trained from a small set of expert annotations. Question selection using the pairwise ranker yields strong results in automatic and manual evaluation. Our human evaluation assesses multiple aspects of the generated questions, finding that the ranker chooses questions with the best syntax (4.59), semantics (4.37), and inquisitiveness (3.92) on a scale of 1-5, even rivaling the performance of human-written questions.
翻訳日:2022-05-18 22:59:47 公開日:2022-05-17
# (参考訳) 凸双対による注意の解き方:視覚変換器の解析と解釈

Unraveling Attention via Convex Duality: Analysis and Interpretations of Vision Transformers ( http://arxiv.org/abs/2205.08078v1 )

ライセンス: CC BY 4.0
Arda Sahiner, Tolga Ergen, Batu Ozturkler, John Pauly, Morteza Mardani, Mert Pilanci(参考訳) セルフ・アテンションまたはその代替案を用いた視覚トランスフォーマーは、多くの画像関連タスクで有望な結果を示している。 しかし、注意の帰納的偏見はよく理解されていない。 この問題に対処するために, 凸双対レンズを用いて注目度を解析する。 MLP-mixer や Fourier Neural Operator (FNO) のような非線形のドット積自己アテンションや代替メカニズムについては、解釈可能で大域的最適性に解決可能な等価な有限次元凸問題を導出する。 凸プログラムは {\it block nuclear-norm regularization} へとつながり、潜在的な特徴とトークン次元の低ランクを促進する。 特に,自己注意ネットワークがトークンを暗黙的にクラスタリングする様子を,その潜在的類似性に基づいて示す。 各種凸アテンションヘッドの微調整によるcifar-100分類のためのプレトレーニングトランスバックボーンの転送実験を行った。 その結果,既存のMLPやリニアヘッドと比較して,注意によるバイアスの利点が示唆された。

Vision transformers using self-attention or its proposed alternatives have demonstrated promising results in many image related tasks. However, the underpinning inductive bias of attention is not well understood. To address this issue, this paper analyzes attention through the lens of convex duality. For the non-linear dot-product self-attention, and alternative mechanisms such as MLP-mixer and Fourier Neural Operator (FNO), we derive equivalent finite-dimensional convex problems that are interpretable and solvable to global optimality. The convex programs lead to {\it block nuclear-norm regularization} that promotes low rank in the latent feature and token dimensions. In particular, we show how self-attention networks implicitly clusters the tokens, based on their latent similarity. We conduct experiments for transferring a pre-trained transformer backbone for CIFAR-100 classification by fine-tuning a variety of convex attention heads. The results indicate the merits of the bias induced by attention compared with the existing MLP or linear heads.
翻訳日:2022-05-18 22:34:55 公開日:2022-05-17
# (参考訳) MATrIX -- 情報eXトラクションのためのModality-Aware Transformer

MATrIX -- Modality-Aware Transformer for Information eXtraction ( http://arxiv.org/abs/2205.08094v1 )

ライセンス: CC BY 4.0
Thomas Delteil, Edouard Belval, Lei Chen, Luis Goncalves and Vijay Mahadevan(参考訳) 視覚文書理解(VDU)領域における情報抽出のためのモダリティ対応変換器MATrIXを提案する。 VDUは、フォーム、請求書、レシート、テーブル、グラフ、プレゼンテーション、広告など、視覚的に豊かなドキュメントから情報を抽出する。 これらにおいて、テキストセマンティクスと視覚情報は相互に補完し、文書のグローバルな理解を提供する。 MATrIXは、マルチモーダル情報(空間、視覚、テキスト)の使用を必要とする特別に設計されたタスクで、教師なしの方法で事前訓練されている。 空間的およびテキスト的モダリティを1つのトークンセットで同時に考慮する。 注意をより柔軟にするために,注意機構において学習したモダリティを認識可能な相対バイアスを用いて,異なるモダリティのトークン間の注意を変調する。 我々は3つの異なるデータセットでMATrIXを評価する。

We present MATrIX - a Modality-Aware Transformer for Information eXtraction in the Visual Document Understanding (VDU) domain. VDU covers information extraction from visually rich documents such as forms, invoices, receipts, tables, graphs, presentations, or advertisements. In these, text semantics and visual information supplement each other to provide a global understanding of the document. MATrIX is pre-trained in an unsupervised way with specifically designed tasks that require the use of multi-modal information (spatial, visual, or textual). We consider the spatial and text modalities all at once in a single token set. To make the attention more flexible, we use a learned modality-aware relative bias in the attention mechanism to modulate the attention between the tokens of different modalities. We evaluate MATrIX on 3 different datasets each with strong baselines.
翻訳日:2022-05-18 22:33:34 公開日:2022-05-17
# (参考訳) フィンランド・オウルにおける一次医療施設における胸部x線検出における人工知能の利用

Using artificial intelligence to detect chest X-rays with no significant findings in a primary health care setting in Oulu, Finland ( http://arxiv.org/abs/2205.08123v1 )

ライセンス: CC BY 4.0
Tommi Keski-Filppula, Marko Nikki, Marianne Haapea, Naglis Ramanauskas, Osmo Tervonen(参考訳) 目的: 胸部X線症例の判定における人工知能ベースのソフトウェアの使用を評価するため, プライマリ・ヘルス・セッティングにおいて有意な発見は得られなかった。 方法: この振り返り調査では,フィンランドのプライマリヘルスケア患者の10万個の胸部X線分析に市販の人工知能(AI)ソフトウェアを使用した。 aiノーマルレポートと元の放射線科医レポートのミスマッチを用いた研究では、2人のボード認定放射線科医によるコンセンサスが最終診断のために行われた。 結果: 調査基準を満たさない症例の排除後, 9579例がAIにより分析された。 このうち, 4451例は, コンセンサス読解後, 4644例は正常であった。 aiによる非有意な症例は1692例(全研究の17.7%、有意な所見のない研究の36.4%)であった。 結果、偽陰性研究は9件確認された。 対象は, 心臓径がやや増大した4例, 肺圧亢進の4例, 片側性胸水を伴う1例であった。 これにより、AIの感度は99.8%(95% CI=99.65-99.92)、特異度は36.4%(95% CI=35.05-37.84)となり、胸部X線上の重要な病理を認識できる。 結論: aiは36.4%の胸部x線を正しく除外でき、一次医療患者には有意な所見はなく、偽陰性は最小であり、患者の安全性に事実上の妥協は生じなかった。 ソフトウェアには重要な発見は見当たらなかった。

Objectives: To assess the use of artificial intelligence-based software in ruling out chest X-ray cases, with no significant findings in a primary health care setting. Methods: In this retrospective study, a commercially available artificial intelligence (AI) software was used to analyse 10 000 chest X-rays of Finnish primary health care patients. In studies with a mismatch between an AI normal report and the original radiologist report, a consensus read by two board-certified radiologists was conducted to make the final diagnosis. Results: After the exclusion of cases not meeting the study criteria, 9579 cases were analysed by AI. Of these cases, 4451 were considered normal in the original radiologist report and 4644 after the consensus reading. The number of cases correctly found nonsignificant by AI was 1692 (17.7% of all studies and 36.4% of studies with no significant findings). After the consensus read, there were nine confirmed false-negative studies. These studies included four cases of slightly enlarged heart size, four cases of slightly increased pulmonary opacification and one case with a small unilateral pleural effusion. This gives the AI a sensitivity of 99.8% (95% CI= 99.65-99.92) and specificity of 36.4 % (95% CI= 35.05-37.84) for recognising significant pathology on a chest X-ray. Conclusions: AI was able to correctly rule out 36.4% of chest X-rays with no significant findings of primary health care patients, with a minimal number of false negatives that would lead to effectively no compromise on patient safety. No critical findings were missed by the software.
翻訳日:2022-05-18 22:23:35 公開日:2022-05-17
# (参考訳) プリトレーニングエンコーダ転送学習におけるマルチタスク学習と中間微調整の併用

When to Use Multi-Task Learning vs Intermediate Fine-Tuning for Pre-Trained Encoder Transfer Learning ( http://arxiv.org/abs/2205.08124v1 )

ライセンス: CC BY 4.0
Orion Weller, Kevin Seppi, Matt Gardner(参考訳) 自然言語処理(NLP)における伝達学習(TL)は,近年関心が高まっている。 ターゲットタスク(STILT)をトレーニングする前に中間タスクでトレーニングする、マルチタスク学習(MTL)を使用して補助タスクとターゲットタスク(ペアワイドMTL)を共同でトレーニングする、あるいは単にMTLを使用して利用可能なすべてのデータセット(MTL-ALL)を共同でトレーニングする、という3つの戦略が、微調整中に複数の教師付きデータセットを使用する方法として登場した。 本研究では,GLUEデータセットスイートの総合解析において,3つのTL手法を比較した。 ペアワイズmtlは、対象タスクがサポートタスクよりもインスタンスが少なく、逆もまた少ない場合、スティルトよりも優れている。 これはglueデータセットで適用可能なケースの92%以上で当てはまることを示し,この仮説をデータセットサイズを変化させた実験で検証する。 このヒューリスティックの単純さと有効性は驚きであり、TLコミュニティによるさらなる探索を保証している。 さらに, MTL-ALLは, ほぼすべての場合において, ペアワイズ法よりも悪いことがわかった。 NLPタスクのTLメソッドを選択する際に、この研究が役に立つことを願っている。

Transfer learning (TL) in natural language processing (NLP) has seen a surge of interest in recent years, as pre-trained models have shown an impressive ability to transfer to novel tasks. Three main strategies have emerged for making use of multiple supervised datasets during fine-tuning: training on an intermediate task before training on the target task (STILTs), using multi-task learning (MTL) to train jointly on a supplementary task and the target task (pairwise MTL), or simply using MTL to train jointly on all available datasets (MTL-ALL). In this work, we compare all three TL methods in a comprehensive analysis on the GLUE dataset suite. We find that there is a simple heuristic for when to use one of these techniques over the other: pairwise MTL is better than STILTs when the target task has fewer instances than the supporting task and vice versa. We show that this holds true in more than 92% of applicable cases on the GLUE dataset and validate this hypothesis with experiments varying dataset size. The simplicity and effectiveness of this heuristic is surprising and warrants additional exploration by the TL community. Furthermore, we find that MTL-ALL is worse than the pairwise methods in almost every case. We hope this study will aid others as they choose between TL methods for NLP tasks.
翻訳日:2022-05-18 22:18:20 公開日:2022-05-17
# (参考訳) 実践計画: 潜在空間におけるゴールの構成による効率的なオンラインファインチューニング

Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in Latent Space ( http://arxiv.org/abs/2205.08129v1 )

ライセンス: CC BY 4.0
Kuan Fang, Patrick Yin, Ashvin Nair, Sergey Levine(参考訳) 汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。 この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクに対して、設定可能な目標に到達可能なポリシーを取得することを目的としている。 しかしながら、このような目標条件付きポリシーは、スクラッチからトレーニングするのが難しく、時間がかかることで悪名高い。 本稿では,多種多様なインタラクションを必要とする長期タスクに対して,目標条件付きポリシーを実践的に訓練する手法であるプランニング・トゥ・プラクティス(PTP)を提案する。 我々のアプローチは2つの重要なアイデアに基づいている。 まず,低レベルモデルフリーポリシーのために,条件付きサブゴール生成器を用いて中間部分ゴールを設定する高レベルプランナを階層的に分解する。 第2に,条件付きサブゴールジェネレータとオフライン強化学習による事前収集データポリシーの両方を事前学習した上で,オンライン探索によるポリシーの微調整を行うハイブリッドアプローチを提案する。 この微調整プロセスは、計画されたサブゴールによって促進され、元の目標タスクを、学習が極めて容易な短期目標達成タスクに分解する。 我々はシミュレーションと実世界の両方で実験を行い、このポリシーは短い原始的行動のデモンストレーションで事前訓練され、オフラインデータには見られない時間的拡張タスクのために微調整される。 実験の結果,PTPは目標タスクを効率的に解決できるようなサブゴールの実行可能なシーケンスを生成できることが示唆された。

General-purpose robots require diverse repertoires of behaviors to complete challenging tasks in real-world unstructured environments. To address this issue, goal-conditioned reinforcement learning aims to acquire policies that can reach configurable goals for a wide range of tasks on command. However, such goal-conditioned policies are notoriously difficult and time-consuming to train from scratch. In this paper, we propose Planning to Practice (PTP), a method that makes it practical to train goal-conditioned policies for long-horizon tasks that require multiple distinct types of interactions to solve. Our approach is based on two key ideas. First, we decompose the goal-reaching problem hierarchically, with a high-level planner that sets intermediate subgoals using conditional subgoal generators in the latent space for a low-level model-free policy. Second, we propose a hybrid approach which first pre-trains both the conditional subgoal generator and the policy on previously collected data through offline reinforcement learning, and then fine-tunes the policy via online exploration. This fine-tuning process is itself facilitated by the planned subgoals, which breaks down the original target task into short-horizon goal-reaching tasks that are significantly easier to learn. We conduct experiments in both the simulation and real world, in which the policy is pre-trained on demonstrations of short primitive behaviors and fine-tuned for temporally extended tasks that are unseen in the offline data. Our experimental results show that PTP can generate feasible sequences of subgoals that enable the policy to efficiently solve the target tasks.
翻訳日:2022-05-18 22:04:25 公開日:2022-05-17
# (参考訳) 不確実性に基づく少数撮影画像分類ネットワーク

Uncertainty-based Network for Few-shot Image Classification ( http://arxiv.org/abs/2205.08157v1 )

ライセンス: CC BY 4.0
Minglei Yuan, Qian Xu, Chunhao Cai, Yin-Dong Zheng, Tao Wang, Tong Lu(参考訳) トランスダクティブ推論は、クエリセットがプロトタイプを更新して改善する、数ショットの学習タスクにおいて効果的なテクニックである。 しかし、これらの手法は、クエリインスタンスの分類スコアのみを信頼度として考慮しながら、これらの分類スコアの不確実性を無視してモデルを最適化する。 本稿では,相互情報を用いて分類結果の不確かさをモデル化する,不確実性に基づくネットワークという新しい手法を提案する。 具体的には,クエリインスタンスの拡張と分類を行い,これらの分類スコアの相互情報を計算する。 そして、分類スコアに重みを割り当てる不確実性として相互情報を使用し、プロトタイプ最適化において、分類スコアと不確実性に基づく反復更新戦略がクエリインスタンスに最適な重みを割り当てる。 4つのベンチマークの結果から,Uncertainty-Based Networkは最先端の手法と比較して,分類精度に匹敵する性能を示した。

The transductive inference is an effective technique in the few-shot learning task, where query sets update prototypes to improve themselves. However, these methods optimize the model by considering only the classification scores of the query instances as confidence while ignoring the uncertainty of these classification scores. In this paper, we propose a novel method called Uncertainty-Based Network, which models the uncertainty of classification results with the help of mutual information. Specifically, we first data augment and classify the query instance and calculate the mutual information of these classification scores. Then, mutual information is used as uncertainty to assign weights to classification scores, and the iterative update strategy based on classification scores and uncertainties assigns the optimal weights to query instances in prototype optimization. Extensive results on four benchmarks show that Uncertainty-Based Network achieves comparable performance in classification accuracy compared to state-of-the-art method.
翻訳日:2022-05-18 21:48:31 公開日:2022-05-17
# (参考訳) SEMI-FND:より高速なフェイクニュース検出のためのスタック型アンサンブルに基づくマルチモーダル推論

SEMI-FND: Stacked Ensemble Based Multimodal Inference For Faster Fake News Detection ( http://arxiv.org/abs/2205.08159v1 )

ライセンス: CC BY 4.0
Prabhav Singh, Ridam Srivastava, K.P.S. Rana, Vineet Kumar(参考訳) フェイクニュース検出 (fnd) は自然言語処理において不可欠な分野であり、ニュース記事における主要な主張の真偽を識別し、チェックすることを目的としている。 FNDは、社会の特定の部分を傷つける可能性のある事実の誤表現によって引き起こされる社会的、政治的、国家的損害を防ぐのにその用途を見出した。 さらに、画像やテキストを含むソーシャルメディア上での偽ニュース拡散の爆発的増加に伴い、偽ニュースを迅速かつ正確に識別することが義務付けられている。 そこで本研究では,新しいマルチモーダル・スタックド・アンサンブル・ベース・アプローチ (semifnd) による偽ニュースの検出法について検討する。 また、少ないパラメータで高速なパフォーマンスを確保することにも焦点が当てられている。 さらに、マルチモーダル性能を改善するために、イメージモダリティに基づいて深い一様解析を行い、タスクの最も適切なモデルとしてNasNet Mobileを識別する。 テキストにはBERTとELECTRAのアンサンブルが使用される。 このアプローチは、Twitter MediaEvalとWeibo Corpusの2つのデータセットで評価された。 提案フレームワークは、それぞれtwitterとweiboのデータセット上で85.80%と86.83%の精度を提供する。 これらの報告された指標は、最近の同様の研究よりも優れている。 さらに,最近の研究と比較して,トレーニングに使用するパラメータの数を減らすことも報告した。 SEMI-FNDは、全パラメータを少なくとも20%削減し、テキストの単調パラメトリックを60%削減する。 そこで,本研究の結果から,積み重ねアンサンブルの適用は他の手法よりもFNDを大幅に改善し,速度も向上することがわかった。

Fake News Detection (FND) is an essential field in natural language processing that aims to identify and check the truthfulness of major claims in a news article to decide the news veracity. FND finds its uses in preventing social, political and national damage caused due to misrepresentation of facts which may harm a certain section of society. Further, with the explosive rise in fake news dissemination over social media, including images and text, it has become imperative to identify fake news faster and more accurately. To solve this problem, this work investigates a novel multimodal stacked ensemble-based approach (SEMIFND) to fake news detection. Focus is also kept on ensuring faster performance with fewer parameters. Moreover, to improve multimodal performance, a deep unimodal analysis is done on the image modality to identify NasNet Mobile as the most appropriate model for the task. For text, an ensemble of BERT and ELECTRA is used. The approach was evaluated on two datasets: Twitter MediaEval and Weibo Corpus. The suggested framework offered accuracies of 85.80% and 86.83% on the Twitter and Weibo datasets respectively. These reported metrics are found to be superior when compared to similar recent works. Further, we also report a reduction in the number of parameters used in training when compared to recent relevant works. SEMI-FND offers an overall parameter reduction of at least 20% with unimodal parametric reduction on text being 60%. Therefore, based on the investigations presented, it is concluded that the application of a stacked ensembling significantly improves FND over other approaches while also improving speed.
翻訳日:2022-05-18 21:36:15 公開日:2022-05-17
# (参考訳) CellTypeGraph:新しい幾何学的コンピュータビジョンベンチマーク

CellTypeGraph: A New Geometric Computer Vision Benchmark ( http://arxiv.org/abs/2205.08166v1 )

ライセンス: CC BY 4.0
Lorenzo Cerrone, Athul Vijayan, Tejasvinee Mody, Kay Schneitz, Fred A. Hamprecht(参考訳) 器官内の全ての細胞を分類することは、植物の発生生物学から問題となる。 ここでは、問題をジオリファレンスグラフのノード分類のための新しいベンチマークに抽象化する。 解決には、対称性を含む臓器の空間配置を学ぶ必要がある。 新しい幾何学的学習手法の便利なテストを可能にするため、シロイヌナズナ卵子のベンチマークをPyTorchデータローダとして利用でき、多くの事前計算機能を備えている。 最後に、最新の8つのグラフニューラルネットワークアーキテクチャをベンチマークし、DeeperGCNがこの問題に最も適していることを発見した。

Classifying all cells in an organ is a relevant and difficult problem from plant developmental biology. We here abstract the problem into a new benchmark for node classification in a geo-referenced graph. Solving it requires learning the spatial layout of the organ including symmetries. To allow the convenient testing of new geometrical learning methods, the benchmark of Arabidopsis thaliana ovules is made available as a PyTorch data loader, along with a large number of precomputed features. Finally, we benchmark eight recent graph neural network architectures, finding that DeeperGCN currently works best on this problem.
翻訳日:2022-05-18 21:14:43 公開日:2022-05-17
# (参考訳) 因果確率木の能動的学習

Active learning of causal probability trees ( http://arxiv.org/abs/2205.08178v1 )

ライセンス: CC BY 4.0
Tue Herlau(参考訳) 過去20年間、因果関係情報(一般的に因果関係グラフを使って表現される)と機械学習モデルを組み合わせることへの関心が高まってきた。 確率木は因果情報の単純かつ強力な代替表現を提供する。 介入と反ファクトの両方の計算を可能にし、コンテキスト依存の因果依存性を許容するため、厳密にはより一般的である。 本稿では,介入データと観測データの組み合わせから確率木を学ぶベイズ法を提案する。 この方法は、介入による期待情報ゲインを定量化し、最大のゲインを有する介入を選択する。 シミュレーションおよび実データに対して,本手法の有効性を示す。 限られた介入予算で確率木を学習する効果的な方法は、適用可能性を大幅に拡大する。

The past two decades have seen a growing interest in combining causal information, commonly represented using causal graphs, with machine learning models. Probability trees provide a simple yet powerful alternative representation of causal information. They enable both computation of intervention and counterfactuals, and are strictly more general, since they allow context-dependent causal dependencies. Here we present a Bayesian method for learning probability trees from a combination of interventional and observational data. The method quantifies the expected information gain from an intervention, and selects the interventions with the largest gain. We demonstrate the efficiency of the method on simulated and real data. An effective method for learning probability trees on a limited interventional budget will greatly expand their applicability.
翻訳日:2022-05-18 21:13:53 公開日:2022-05-17
# (参考訳) SKILL: 大規模言語モデルのための構造化知識注入

SKILL: Structured Knowledge Infusion for Large Language Models ( http://arxiv.org/abs/2205.08184v1 )

ライセンス: CC BY 4.0
Fedor Moiseev, Zhe Dong, Enrique Alfonseca, Martin Jaggi(参考訳) 大規模言語モデル(LLM)は、多岐にわたる自然言語タスクにおいて人間レベルの性能を示す。 しかし、知識グラフやテキストといった構造化データからの知識をよりよく内部化できるかどうかについては、概ね調査されていない。 本研究では,知識グラフ(kgs)の事実三重項上でt5モデルを直接学習することにより,構造化知識をllmに注入する手法を提案する。 Wikidata KGで事前学習したモデルは、FreebaseQAとWikiHopのT5ベースライン、およびTriviaQAとNaturalQuestionsのWikidataが解答可能なサブセットよりも優れていることを示す。 事実三重項で事前訓練されたモデルは、同じ知識を含む自然言語文と競合的に比較される。 小型のKG,WikiMoviesでトレーニングした結果,T5ベースラインに比べてMetaQAタスクの正確なマッチスコアが3倍改善した。 学習データのキュレーションには知識グラフとテキストコーパスのアライメントを必要としないという利点がある。 この手法は,業界規模の知識グラフを扱う場合に特に有用である。

Large language models (LLMs) have demonstrated human-level performance on a vast spectrum of natural language tasks. However, it is largely unexplored whether they can better internalize knowledge from a structured data, such as a knowledge graph, or from text. In this work, we propose a method to infuse structured knowledge into LLMs, by directly training T5 models on factual triples of knowledge graphs (KGs). We show that models pre-trained on Wikidata KG with our method outperform the T5 baselines on FreebaseQA and WikiHop, as well as the Wikidata-answerable subset of TriviaQA and NaturalQuestions. The models pre-trained on factual triples compare competitively with the ones on natural language sentences that contain the same knowledge. Trained on a smaller size KG, WikiMovies, we saw 3x improvement of exact match score on MetaQA task compared to T5 baseline. The proposed method has an advantage that no alignment between the knowledge graph and text corpus is required in curating training data. This makes our method particularly useful when working with industry-scale knowledge graphs.
翻訳日:2022-05-18 21:00:27 公開日:2022-05-17
# (参考訳) 因果関係を用いたモラル強化学習

Moral reinforcement learning using actual causation ( http://arxiv.org/abs/2205.08192v1 )

ライセンス: CC BY 4.0
Tue Herlau(参考訳) 強化学習システムは、人間の幸福に大きな影響を与える決定を下すようになり、それゆえ、これらのシステムは、道徳的に良い行動に対する我々の期待に合致した決定を下すことが不可欠である。 道徳上善とは、行動が実際に特定の結果を引き起こしたかどうか、結果が予想されたかどうかなど、因果関係で定義されることが多い。 本稿では,エージェントが害の原因であるべきではないという制約の下で,ポリシーを学習するオンライン強化学習手法を提案する。 これは、実際の因果理論を用いて原因を定義し、その行動が望ましくない結果の実際の原因である場合、エージェントに責任を割り当てることによって達成される。 我々は,報酬関数の自然な選択が明らかに望ましくない行動をもたらすおもちゃの倫理ジレンマについて実験を行うが,有害な行動の原因にならないよう,我々のアプローチの健全さを実証する政策を学習する。 エージェントが非難などの因果的道徳的区別を観察しながら学習できることは、我々の道徳的判断によく適合する政策を学ぶ可能性を開く。

Reinforcement learning systems will to a greater and greater extent make decisions that significantly impact the well-being of humans, and it is therefore essential that these systems make decisions that conform to our expectations of morally good behavior. The morally good is often defined in causal terms, as in whether one's actions have in fact caused a particular outcome, and whether the outcome could have been anticipated. We propose an online reinforcement learning method that learns a policy under the constraint that the agent should not be the cause of harm. This is accomplished by defining cause using the theory of actual causation and assigning blame to the agent when its actions are the actual cause of an undesirable outcome. We conduct experiments on a toy ethical dilemma in which a natural choice of reward function leads to clearly undesirable behavior, but our method learns a policy that avoids being the cause of harmful behavior, demonstrating the soundness of our approach. Allowing an agent to learn while observing causal moral distinctions such as blame, opens the possibility to learning policies that better conform to our moral judgments.
翻訳日:2022-05-18 20:46:24 公開日:2022-05-17
# (参考訳) 2層ニューラルネットワークの圧縮に関するシャープ漸近

Sharp asymptotics on the compression of two-layer neural networks ( http://arxiv.org/abs/2205.08199v1 )

ライセンス: CC BY 4.0
Mohammad Hossein Amani, Simone Bombari, Marco Mondelli, Rattana Pukdee, Stefano Rini(参考訳) 本稿では,Nノードを対象とする2層ニューラルネットワークを,M<Nノードを対象とする圧縮ネットワークに圧縮する。 より正確には、ターゲットネットワークの重みがi.i.d.サブガウシアンであるような設定を考え、ガウシアン入力の仮定により、ターゲットネットワークの出力と圧縮ネットワークの出力の間の人口l2損失を最小化する。 高次元確率のツールを用いて、ターゲットネットワークが十分に過パラメータ化されている場合、この非凸問題を単純化できることを示し、入力次元とNの関数としてこの近似の誤差率を提供する。 ReLU アクティベーション関数では,重みと ETF の向きのスケーリングは対象ネットワークのパラメータに依存するが,その重みを等角的タイトフレーム (ETF) に当てはめることで,単純化された最適化問題の最適解が得られると推測する。 この予想を支持する数値的な証拠が提供される。

In this paper, we study the compression of a target two-layer neural network with N nodes into a compressed network with M < N nodes. More precisely, we consider the setting in which the weights of the target network are i.i.d. sub-Gaussian, and we minimize the population L2 loss between the outputs of the target and of the compressed network, under the assumption of Gaussian inputs. By using tools from high-dimensional probability, we show that this non-convex problem can be simplified when the target network is sufficiently over-parameterized, and provide the error rate of this approximation as a function of the input dimension and N . For a ReLU activation function, we conjecture that the optimum of the simplified optimization problem is achieved by taking weights on the Equiangular Tight Frame (ETF), while the scaling of the weights and the orientation of the ETF depend on the parameters of the target network. Numerical evidence is provided to support this conjecture.
翻訳日:2022-05-18 20:30:03 公開日:2022-05-17
# (参考訳) Delaytron: 遅延帯域フィードバックを持つマルチクラス分類器の効率的な学習

Delaytron: Efficient Learning of Multiclass Classifiers with Delayed Bandit Feedbacks ( http://arxiv.org/abs/2205.08234v1 )

ライセンス: CC BY 4.0
Naresh Manwani, Mudit Agarwal(参考訳) 本稿では,遅延バンディットフィードバックを用いたマルチクラス分類学習のためのオンラインアルゴリズム「it delaytron」を提案する。 フィードバック遅延の列 $\{d_t\}_{t=1}^t$ はアルゴリズムに未知である。 このアルゴリズムは、$t$-th ラウンドで、例 $\mathbf{x}_t$ を観察し、ラベル $\tilde{y}_t$ を予測し、後でバンドイットフィードバック $\mathbb{I}[\tilde{y}_t=y_t]$ のみ$d_t$ ラウンドを受信する。 $t+d_t>T$の場合、$t$-thラウンドのフィードバックが欠落していると考えています。 提案アルゴリズムは,各欠落サンプルの損失が$L$の上限値である場合に,$\mathcal{O}\left(\sqrt {\frac{2K}{\gamma}\left[\frac{T}{2}+\left(2+\frac{L^2}{R^2\Vert \W\Vert_F^2}\right)\sum_{t=1}^Td_t\right]}\right)を後悔することを示す。 欠失サンプルの損失が上限値になっていない場合、delaytronが達成した後悔は$\mathcal{o}\left(\sqrt{\frac{2 k}{\gamma}\left[\frac{t}{2}+2\sum_{t=1}^td_t+\vert \mathcal{m}\vert t\right]}\right)$である。 これらの境界は一定のステップサイズで達成され、これは$T$と$\sum_{t=1}^Td_t$の知識を必要とする。 T$と$\sum_{t=1}^Td_t$が未知の場合、オンライン学習に2倍のトリックを使用し、Adaptive Delaytronを提案する。 Adaptive Delaytron は $\mathcal{O}\left(\sqrt{T+\sum_{t=1}^Td_t}\right)$ の残差を持つことを示す。 各種データセットを実験し,最先端のアプローチと比較することにより,提案手法の有効性を示す。

In this paper, we present online algorithm called {\it Delaytron} for learning multi class classifiers using delayed bandit feedbacks. The sequence of feedback delays $\{d_t\}_{t=1}^T$ is unknown to the algorithm. At the $t$-th round, the algorithm observes an example $\mathbf{x}_t$ and predicts a label $\tilde{y}_t$ and receives the bandit feedback $\mathbb{I}[\tilde{y}_t=y_t]$ only $d_t$ rounds later. When $t+d_t>T$, we consider that the feedback for the $t$-th round is missing. We show that the proposed algorithm achieves regret of $\mathcal{O}\left(\sqrt{\frac{2 K}{\gamma}\left[\frac{T}{2}+\left(2+\frac{L^2}{R^2\Vert \W\Vert_F^2}\right)\sum_{t=1}^Td_t\right]}\right)$ when the loss for each missing sample is upper bounded by $L$. In the case when the loss for missing samples is not upper bounded, the regret achieved by Delaytron is $\mathcal{O}\left(\sqrt{\frac{2 K}{\gamma}\left[\frac{T}{2}+2\sum_{t=1}^Td_t+\vert \mathcal{M}\vert T\right]}\right)$ where $\mathcal{M}$ is the set of missing samples in $T$ rounds. These bounds were achieved with a constant step size which requires the knowledge of $T$ and $\sum_{t=1}^Td_t$. For the case when $T$ and $\sum_{t=1}^Td_t$ are unknown, we use a doubling trick for online learning and proposed Adaptive Delaytron. We show that Adaptive Delaytron achieves a regret bound of $\mathcal{O}\left(\sqrt{T+\sum_{t=1}^Td_t}\right)$. We show the effectiveness of our approach by experimenting on various datasets and comparing with state-of-the-art approaches.
翻訳日:2022-05-18 20:16:59 公開日:2022-05-17
# (参考訳) CAS-Net:胎児MRIにおける条件付きアトラス生成と脳分割

CAS-Net: Conditional Atlas Generation and Brain Segmentation for Fetal MRI ( http://arxiv.org/abs/2205.08239v1 )

ライセンス: CC0 1.0
Liu Li, Qiang Ma, Matthew Sinclair, Antonios Makropoulos, Joseph Hajnal, A. David Edwards, Bernhard Kainz, Daniel Rueckert, Amir Alansary(参考訳) 胎児磁気共鳴イメージング(Fetal Magnetic Resonance Imaging, MRI)は、出生前診断および早期脳発生の評価に用いられる。 異なる脳組織の正確なセグメンテーションは、皮質表面再構成や組織厚測定など、いくつかの脳分析タスクにおいて重要なステップである。 しかし、胎児MRIスキャンは、手動と自動のセグメンテーション技術の両方の正確性に影響を与える運動人工物に傾向がある。 本稿では,条件付きアトラスを同時に生成し,CAS-Netと呼ばれる脳組織セグメンテーションを予測するネットワーク構造を提案する。 条件付きアトラスは、運動または部分体積効果によって生じる強度値の不均一性にもかかわらず、セグメンテーション接続を制限できる解剖学的先行を与える。 ヒトコネクトームプロジェクト(dhcp)の253名の被験者に対して,提案手法を訓練し,評価した。 提案手法は, シャープな境界と形状のばらつきを有する条件付き年齢別アトラスを生成できることを示す。 また、選抜された9つの組織ラベルに対して、Dice類似度係数(DSC)が85.2\%の胎児MRI用の多カテゴリ脳組織も分離する。

Fetal Magnetic Resonance Imaging (MRI) is used in prenatal diagnosis and to assess early brain development. Accurate segmentation of the different brain tissues is a vital step in several brain analysis tasks, such as cortical surface reconstruction and tissue thickness measurements. Fetal MRI scans, however, are prone to motion artifacts that can affect the correctness of both manual and automatic segmentation techniques. In this paper, we propose a novel network structure that can simultaneously generate conditional atlases and predict brain tissue segmentation, called CAS-Net. The conditional atlases provide anatomical priors that can constrain the segmentation connectivity, despite the heterogeneity of intensity values caused by motion or partial volume effects. The proposed method is trained and evaluated on 253 subjects from the developing Human Connectome Project (dHCP). The results demonstrate that the proposed method can generate conditional age-specific atlas with sharp boundary and shape variance. It also segment multi-category brain tissues for fetal MRI with a high overall Dice similarity coefficient (DSC) of $85.2\%$ for the selected 9 tissue labels.
翻訳日:2022-05-18 19:56:45 公開日:2022-05-17
# (参考訳) 2次情報を用いた適応モーメント型政策グラディエント

Adaptive Momentum-Based Policy Gradient with Second-Order Information ( http://arxiv.org/abs/2205.08253v1 )

ライセンス: CC BY 4.0
Saber Salehkaleybar, Sadegh Khorasani, Negar Kiyavash, Niao He, Patrick Thiran(参考訳) 政策勾配法における分散低減勾配推定器は,近年の強化学習において,推定過程の加速を可能にするため,研究の中心となっている。 本稿では,2次情報を適応学習率のモーメントを用いて確率勾配降下(SGD)に組み込んだ分散化ポリシ勾配法SGDHess-PGを提案する。 SGDHess-PGアルゴリズムは、各繰り返しで$O(1)$のバッチサイズを使用しながら、$\tilde{O}(\epsilon^{-3})$の軌道数で$\epsilon$-approximate 1次定常点を達成することができる。 従来の手法と異なり,提案アルゴリズムでは,分散還元プロセスの利点を損なうような重要サンプリング技術は必要としない。 実験結果から,提案アルゴリズムが様々な制御タスクに対して有効であることを示すとともに,実際の技術状況に対する優位性を示す。

The variance reduced gradient estimators for policy gradient methods has been one of the main focus of research in the reinforcement learning in recent years as they allow acceleration of the estimation process. We propose a variance reduced policy gradient method, called SGDHess-PG, which incorporates second-order information into stochastic gradient descent (SGD) using momentum with an adaptive learning rate. SGDHess-PG algorithm can achieve $\epsilon$-approximate first-order stationary point with $\tilde{O}(\epsilon^{-3})$ number of trajectories, while using a batch size of $O(1)$ at each iteration. Unlike most previous work, our proposed algorithm does not require importance sampling techniques which can compromise the advantage of variance reduction process. Our extensive experimental results show the effectiveness of the proposed algorithm on various control tasks and its advantage over the state of the art in practice.
翻訳日:2022-05-18 19:43:19 公開日:2022-05-17
# (参考訳) androidマルウェア検知器の性能向上のための2段階アプローチ

A two-steps approach to improve the performance of Android malware detectors ( http://arxiv.org/abs/2205.08265v1 )

ライセンス: CC BY 4.0
Nadia Daoudi, Kevin Allix, Tegawend\'e F. Bissyand\'e and Jacques Klein(参考訳) android osの人気は、マルウェアデベロッパーにとって魅力的なターゲットとなった。 MLベースのテクニックを含む検出を回避するため、攻撃者は合法的なアプリによく似たマルウェアの開発に投資する。 本稿では,マルウェア検出器の性能を高める教師付き表現学習手法であるGUIDED RETRAINingを提案する。 まず、データセットを「容易」なサンプルと「難易度」なサンプルに分割し、マルウェア検出装置が生成する予測確率に難易度を関連付ける。 そこで我々は,GUIDED ReTRAINing法を難しいサンプルに適用し,それらの分類を改善する。 簡単な」サンプルのサブセットでは、そのサブセットのエラー率が建設によって低いため、ベースマルウェア検出器が最終的な予測を行うために使用される。 難易度」サンプルのサブセットについては、GUIDED ReTRAINingをベースマルウェア検出装置による正しい予測とエラーを利用して再トレーニングプロセスを導出する。 GUIDED ReTRAINingは、これらのサンプルの新しい埋め込みをSupervised Contrastive Learningを使って学習し、最終的な予測のための補助的な分類器を訓練する。 本手法は,265k以上のマルウェアおよび良性アプリを用いて,最先端の4つのandroidマルウェア検出手法で検証し,マルウェア検出者による予測誤差を最大40.41%削減できることを実証した。 本手法は汎用的であり,二項分類タスクにおける分類性能を向上させるように設計されている。 そのため、Androidマルウェア検出以外の分類問題にも適用することができる。

The popularity of Android OS has made it an appealing target to malware developers. To evade detection, including by ML-based techniques, attackers invest in creating malware that closely resemble legitimate apps. In this paper, we propose GUIDED RETRAINING, a supervised representation learning-based method that boosts the performance of a malware detector. First, the dataset is split into "easy" and "difficult" samples, where difficulty is associated to the prediction probabilities yielded by a malware detector: for difficult samples, the probabilities are such that the classifier is not confident on the predictions, which have high error rates. Then, we apply our GUIDED RETRAINING method on the difficult samples to improve their classification. For the subset of "easy" samples, the base malware detector is used to make the final predictions since the error rate on that subset is low by construction. For the subset of "difficult" samples, we rely on GUIDED RETRAINING, which leverages the correct predictions and the errors made by the base malware detector to guide the retraining process. GUIDED RETRAINING focuses on the difficult samples: it learns new embeddings of these samples using Supervised Contrastive Learning and trains an auxiliary classifier for the final predictions. We validate our method on four state-of-the-art Android malware detection approaches using over 265k malware and benign apps, and we demonstrate that GUIDED RETRAINING can reduce up to 40.41% prediction errors made by the malware detectors. Our method is generic and designed to enhance the classification performance on a binary classification task. Consequently, it can be applied to other classification problems beyond Android malware detection.
翻訳日:2022-05-18 19:15:12 公開日:2022-05-17
# (参考訳) ニューラルseq2seq意味解析器におけるアライメントバイアスの測定

Measuring Alignment Bias in Neural Seq2Seq Semantic Parsers ( http://arxiv.org/abs/2205.08288v1 )

ライセンス: CC BY-SA 4.0
Davide Locatelli and Ariadna Quattoni(参考訳) 深層学習に先立ち、意味解析コミュニティは自然言語文とそれに対応する意味表現の間の単語アライメントの範囲を理解し、モデル化することに興味を持っている。 シーケンス・ツー・シーケンスのモデルは、アテンションメカニズムによって自動的に学習できるため、アライメントを心配する必要がなくなることを示唆する研究環境を変えました。 近年、研究者はそのような前提に疑問を呈し始めた。 本研究では,Seq2seqモデルが単純なアライメントと複雑なアライメントの両方を扱えるかどうかを検討する。 この質問に答えるために、アライメントアノテーションで一般的なジオセマンティクスパースデータセットを拡張し、ジオアライメントを作成する。 次に,単調にアライメント可能な例と,より複雑なアライメントを必要とする例について,標準seq2seqモデルの性能について検討する。 実験により,単調なアライメントよりも性能が有意に優れていることが示された。

Prior to deep learning the semantic parsing community has been interested in understanding and modeling the range of possible word alignments between natural language sentences and their corresponding meaning representations. Sequence-to-sequence models changed the research landscape suggesting that we no longer need to worry about alignments since they can be learned automatically by means of an attention mechanism. More recently, researchers have started to question such premise. In this work we investigate whether seq2seq models can handle both simple and complex alignments. To answer this question we augment the popular Geo semantic parsing dataset with alignment annotations and create Geo-Aligned. We then study the performance of standard seq2seq models on the examples that can be aligned monotonically versus examples that require more complex alignments. Our empirical study shows that performance is significantly better over monotonic alignments.
翻訳日:2022-05-18 18:47:48 公開日:2022-05-17
# (参考訳) リコメンダシステムにおけるユーザ指向フェアネスの一般化に関する実験

Experiments on Generalizability of User-Oriented Fairness in Recommender Systems ( http://arxiv.org/abs/2205.08289v1 )

ライセンス: CC BY 4.0
Hossein A. Rahmani, Mohammadmehdi Naghiaei, Mahdi Dehghan, Mohammad Aliannejadi(参考訳) 近年のレコメンデーションシステムにおける研究は、主にレコメンデーションの品質を測定する重要な側面として、レコメンデーションの公平性に焦点を当てている。 fairness-aware recommenderシステムは、異なるユーザーグループを同じように扱うことを目的としている。 ユーザ指向フェアネスに関する関連研究は、ユーザアクティビティレベルに基づいて定義された特定のユーザグループに対するフェアネスを意識しない推奨アルゴリズムの差別的行動を強調している。 典型的な解決策には、特定のユーザーグループ、すなわち不利なグループに対する不公平な行動を軽減するために、ベースランキングモデルの上にユーザ中心の公平な再ランク付けフレームワークを提案することが含まれる。 本稿では,ユーザ指向フェアネス研究を再現し,提案手法のレコメンデーションドメイン,ベースランキングモデルの性質,ユーザグループ化手法など,様々なフェアネスとレコメンデーションの側面に対する依存性を分析するための広範な実験を行う。 さらに,ユーザ(ndcg,ユーザフェアネスなど)と項目(新規性,アイテムフェアネスなど)の両方から,再ランキングフレームワークによって提供される最終推奨項目を評価する。 我々は、異なる評価指標の観点から、モデルのパフォーマンスの興味深い傾向とトレードオフを見つける。 例えば、有利/不便なユーザグループの定義は、公平性アルゴリズムの有効性と、それが特定のベースランキングモデルの性能に与える影響において重要な役割を果たす。 最後に、この分野で重要なオープンチャレンジと今後の方向性を紹介します。 データ、評価パイプライン、トレーニングされたモデルをhttps://github.com/rahmanidashti/fairrecsysで公開しています。

Recent work in recommender systems mainly focuses on fairness in recommendations as an important aspect of measuring recommendations quality. A fairness-aware recommender system aims to treat different user groups similarly. Relevant work on user-oriented fairness highlights the discriminative behavior of fairness-unaware recommendation algorithms towards a certain user group, defined based on users' activity level. Typical solutions include proposing a user-centered fairness re-ranking framework applied on top of a base ranking model to mitigate its unfair behavior towards a certain user group i.e., disadvantaged group. In this paper, we re-produce a user-oriented fairness study and provide extensive experiments to analyze the dependency of their proposed method on various fairness and recommendation aspects, including the recommendation domain, nature of the base ranking model, and user grouping method. Moreover, we evaluate the final recommendations provided by the re-ranking framework from both user- (e.g., NDCG, user-fairness) and item-side (e.g., novelty, item-fairness) metrics. We discover interesting trends and trade-offs between the model's performance in terms of different evaluation metrics. For instance, we see that the definition of the advantaged/disadvantaged user groups plays a crucial role in the effectiveness of the fairness algorithm and how it improves the performance of specific base ranking models. Finally, we highlight some important open challenges and future directions in this field. We release the data, evaluation pipeline, and the trained models publicly on https://github.com/rahmanidashti/FairRecSys.
翻訳日:2022-05-18 18:37:16 公開日:2022-05-17
# (参考訳) モデル圧縮と表データの分類のための深部オートエンコーダ重みの摂動

Perturbation of Deep Autoencoder Weights for Model Compression and Classification of Tabular Data ( http://arxiv.org/abs/2205.08358v1 )

ライセンス: CC BY-SA 4.0
Manar Samad and Sakib Abrar(参考訳) 完全接続型ディープニューラルネットワーク(dnn)は、しばしば過剰な重みと高いメモリ要求につながる冗長な重みを含む。 さらに、DNNの性能は従来の機械学習モデルによって表データ分類においてしばしば問題視される。 本稿では,dnn重みの周期的摂動(prune and regrow)について,特にディープオートエンコーダの自己教師付き事前学習段階において提案する。 提案する重み摂動戦略は,ダウンストリーム分類タスクにおいて6つの表データのうち4つでドロップアウト学習を上回っている。 重みのL1またはL2正則化は,重みの減少や重みの摂動に比較して,分類性能が劣る結果となった。 ドロップアウト学習とは異なり、提案された重み摂動ルーチンは、深い事前学習されたモデルの圧縮のために、6つの表型データセットで15%から40%のスパーシティを達成する。 実験の結果,DNNが完全に接続されていない場合,事前学習した重みの摂動やドロップアウトを伴うディープオートエンコーダは,表型データ分類において従来の機械学習よりも優れることがわかった。 しかし、従来の機械学習モデルは、表のデータセットが非相関変数を含む場合、どんな深層モデルよりも優れているように見える。 したがって、深層モデルの成功は、実世界のデータセットにおける相関変数の存在が避けられないことに起因している。

Fully connected deep neural networks (DNN) often include redundant weights leading to overfitting and high memory requirements. Additionally, the performance of DNN is often challenged by traditional machine learning models in tabular data classification. In this paper, we propose periodical perturbations (prune and regrow) of DNN weights, especially at the self-supervised pre-training stage of deep autoencoders. The proposed weight perturbation strategy outperforms dropout learning in four out of six tabular data sets in downstream classification tasks. The L1 or L2 regularization of weights at the same pretraining stage results in inferior classification performance compared to dropout or our weight perturbation routine. Unlike dropout learning, the proposed weight perturbation routine additionally achieves 15% to 40% sparsity across six tabular data sets for the compression of deep pretrained models. Our experiments reveal that a pretrained deep autoencoder with weight perturbation or dropout can outperform traditional machine learning in tabular data classification when fully connected DNN fails miserably. However, traditional machine learning models appear superior to any deep models when a tabular data set contains uncorrelated variables. Therefore, the success of deep models can be attributed to the inevitable presence of correlated variables in real-world data sets.
翻訳日:2022-05-18 18:19:32 公開日:2022-05-17
# (参考訳) HoVer-Trans: 超音波画像におけるROIフリー乳癌診断のための解剖学的HoVer-Transformer

HoVer-Trans: Anatomy-aware HoVer-Transformer for ROI-free Breast Cancer Diagnosis in Ultrasound Images ( http://arxiv.org/abs/2205.08390v1 )

ライセンス: CC BY 4.0
Yuhao Mo, Chu Han, Yu Liu, Min Liu, Zhenwei Shi, Jiatai Lin, Bingchao Zhao, Chunwang Huang, Bingjiang Qiu, Yanfen Cui, Lei Wu, Xipeng Pan, Zeyan Xu, Xiaomei Huang, Zaiyi Liu, Ying Wang, Changhong Liang(参考訳) 超音波検査は,非侵襲的,非放射線的,低コストな特徴から,乳癌診断において重要な定期的検査である。 しかし、本質的な制限があるため、乳がんの第一線のスクリーニング試験ではない。 乳房超音波画像(bus)で正確に乳がんを診断できれば、大きな成功を収めるでしょう。 乳がんの診断/再発分類には, 学習に基づくコンピュータ支援診断法が多数提案されている。 しかし、そのほとんどは定義済みのROIを必要とし、ROI内の病変を分類する。 VGG16やResNet50のような従来の分類バックボーンはROIを必要としない有望な分類結果を達成することができる。 しかし、これらのモデルは解釈可能性に欠けており、臨床での使用を制限する。 本研究では,読解可能な特徴表現を有する超音波画像における乳癌診断のための新しいroiフリーモデルを提案する。 我々は悪性腫瘍と良性腫瘍が異なる組織層間で異なる空間的関係を持つという解剖学的先行知識を活用し,この先行知識を定式化するホバートランスフォーマーを提案する。 提案したHoVer-Transブロックは,水平および垂直に層間および層間空間情報を抽出する。 BUSにおける乳癌診断のためのオープンデータセットGDPH&GYFYYを運用・リリースする。 提案モデルは,CNNに基づく4つのモデルと2つの視覚変換器モデルと比較し,3つのデータセットで評価する。 最高のモデル解釈可能性で最先端の分類性能を実現する。

Ultrasonography is an important routine examination for breast cancer diagnosis, due to its non-invasive, radiation-free and low-cost properties. However, it is still not the first-line screening test for breast cancer due to its inherent limitations. It would be a tremendous success if we can precisely diagnose breast cancer by breast ultrasound images (BUS). Many learning-based computer-aided diagnostic methods have been proposed to achieve breast cancer diagnosis/lesion classification. However, most of them require a pre-define ROI and then classify the lesion inside the ROI. Conventional classification backbones, such as VGG16 and ResNet50, can achieve promising classification results with no ROI requirement. But these models lack interpretability, thus restricting their use in clinical practice. In this study, we propose a novel ROI-free model for breast cancer diagnosis in ultrasound images with interpretable feature representations. We leverage the anatomical prior knowledge that malignant and benign tumors have different spatial relationships between different tissue layers, and propose a HoVer-Transformer to formulate this prior knowledge. The proposed HoVer-Trans block extracts the inter- and intra-layer spatial information horizontally and vertically. We conduct and release an open dataset GDPH&GYFYY for breast cancer diagnosis in BUS. The proposed model is evaluated in three datasets by comparing with four CNN-based models and two vision transformer models via a five-fold cross validation. It achieves state-of-the-art classification performance with the best model interpretability.
翻訳日:2022-05-18 18:03:37 公開日:2022-05-17
# (参考訳) 特徴・出力整合性トレーニングによる半監督建築足跡生成

Semi-Supervised Building Footprint Generation with Feature and Output Consistency Training ( http://arxiv.org/abs/2205.08416v1 )

ライセンス: CC BY 4.0
Qingyu Li, Yilei Shi, Xiao Xiang Zhu(参考訳) 正確で信頼性の高い建物の足跡マップは、都市計画とモニタリングに不可欠であり、既存のアプローチのほとんどは、足跡生成のための畳み込みニューラルネットワーク(cnns)にフォールバックする。 しかし、これらの手法の1つの制限は、ネットワーク学習のために大量の注釈付きサンプルから強力な監視情報を必要とすることである。 一貫性トレーニングを備えた最先端の半教師付きセマンティックセグメンテーションネットワークは、大量のラベルのないデータを活用することでこの問題に対処し、データ摂動におけるモデル出力の一貫性を促進する。 機能マップにもリッチな情報がエンコードされていることを考慮し、ラベルなしサンプルのエンドツーエンドネットワークトレーニングに特徴と出力の整合性を統合することを提案する。 事前の半教師付き意味セグメンテーションネットワークは、決定境界が低サンプル密度付近にあるというクラスタ仮定を確立した。 本研究では,建築フットプリント生成において,エンコーダ内の中間特徴表現において,エンコーダの入力や出力よりも低密度領域の方が顕著であることを示す。 そこで本研究では,入力されたリモートセンシング画像の空間分解能と各建物の平均サイズを考慮したエンコーダ内の中間特徴表現に摂動を割り当てる命令を提案する。 提案手法は,planet dataset (3m/pixel), massachusetts dataset (1m/pixel), inria dataset (0.3m/pixel) の3つの解像度のデータセットを用いて評価した。 実験の結果, 提案手法により, より完全な建物構造を抽出でき, 脱落誤差を軽減できることがわかった。

Accurate and reliable building footprint maps are vital to urban planning and monitoring, and most existing approaches fall back on convolutional neural networks (CNNs) for building footprint generation. However, one limitation of these methods is that they require strong supervisory information from massive annotated samples for network learning. State-of-the-art semi-supervised semantic segmentation networks with consistency training can help to deal with this issue by leveraging a large amount of unlabeled data, which encourages the consistency of model output on data perturbation. Considering that rich information is also encoded in feature maps, we propose to integrate the consistency of both features and outputs in the end-to-end network training of unlabeled samples, enabling to impose additional constraints. Prior semi-supervised semantic segmentation networks have established the cluster assumption, in which the decision boundary should lie in the vicinity of low sample density. In this work, we observe that for building footprint generation, the low-density regions are more apparent at the intermediate feature representations within the encoder than the encoder's input or output. Therefore, we propose an instruction to assign the perturbation to the intermediate feature representations within the encoder, which considers the spatial resolution of input remote sensing imagery and the mean size of individual buildings in the study area. The proposed method is evaluated on three datasets with different resolutions: Planet dataset (3 m/pixel), Massachusetts dataset (1 m/pixel), and Inria dataset (0.3 m/pixel). Experimental results show that the proposed approach can well extract more complete building structures and alleviate omission errors.
翻訳日:2022-05-18 17:38:24 公開日:2022-05-17
# (参考訳) あなたはまだ私を見ることができますか。 エンドツーエンド暗号化チャネル上でのロボット操作の再構築

Can You Still See Me?: Reconstructing Robot Operations Over End-to-End Encrypted Channels ( http://arxiv.org/abs/2205.08426v1 )

ライセンス: CC BY 4.0
Ryan Shah, Chuadhry Mujeeb Ahmed, Shishir Nagaraja(参考訳) コネクテッドロボットは産業4.0において重要な役割を担い、多くの産業ワークフローにおいて自動化と高い効率を提供する。 残念ながら、これらのロボットはこれらの操作ワークフローに関する機密情報をリモートの敵にリークすることができる。 このような環境では、エンドツーエンドの暗号化をデータ送信に使用する義務があるが、受動的敵が実行中のワークフロー全体を指紋で再構築し、施設の運用方法の理解を確立することは、完全に可能である。 本稿では,遠隔攻撃者がロボットの動きを正確に検出し,最終的に作業ワークフローを再構築できるかどうかを検討する。 トラヒック解析にニューラルネットワークを用いた場合,実際のネットワーク条件下ではほぼ完全に近い精度で,約 \textasciitilde60\%の精度でtls暗号化された動きを予測できることがわかった。 さらに、攻撃者は同様の成功でウェアハウスワークフローを再構築できる。 結局のところ、最高のサイバーセキュリティプラクティスを採用するだけでは、弱い(パッシブな)敵を止めるには不十分だ。

Connected robots play a key role in Industry 4.0, providing automation and higher efficiency for many industrial workflows. Unfortunately, these robots can leak sensitive information regarding these operational workflows to remote adversaries. While there exists mandates for the use of end-to-end encryption for data transmission in such settings, it is entirely possible for passive adversaries to fingerprint and reconstruct entire workflows being carried out -- establishing an understanding of how facilities operate. In this paper, we investigate whether a remote attacker can accurately fingerprint robot movements and ultimately reconstruct operational workflows. Using a neural network approach to traffic analysis, we find that one can predict TLS-encrypted movements with around \textasciitilde60\% accuracy, increasing to near-perfect accuracy under realistic network conditions. Further, we also find that attackers can reconstruct warehousing workflows with similar success. Ultimately, simply adopting best cybersecurity practices is clearly not enough to stop even weak (passive) adversaries.
翻訳日:2022-05-18 17:07:53 公開日:2022-05-17
# (参考訳) 多変量分布推定法のがん化学療法への応用

An Application of a Multivariate Estimation of Distribution Algorithm to Cancer Chemotherapy ( http://arxiv.org/abs/2205.08438v1 )

ライセンス: CC BY 4.0
Alexander Brownlee, Martin Pelikan, John McCall, and Andrei Petrovski(参考訳) 癌に対する化学療法治療は、多数の相互作用変数と制約を持つ複雑な最適化問題である。 様々な確率的アルゴリズムが様々な成功を収めて適用されている。 本稿では,この問題に分散アルゴリズムの2つの推定を適用して拡張する。 一つはumdaであり、前述したedasと同様の不定確率モデルを使っている。 もう一つはhBOAであり、化学療法問題に適用するための多変量確率モデルを用いた最初のEDAである。 直感によって、より洗練されたアルゴリズムがこのような複雑な問題に対してより良い性能をもたらすと予測できるが、より単純な単変量モデルを用いてアルゴリズムに勝ることを示す。 これは、より洗練されたアルゴリズムが、その解に不要な問題における多数の相互作用によって妨げられることが原因であると仮定する。

Chemotherapy treatment for cancer is a complex optimisation problem with a large number of interacting variables and constraints. A number of different probabilistic algorithms have been applied to it with varying success. In this paper we expand on this by applying two estimation of distribution algorithms to the problem. One is UMDA, which uses a univariate probabilistic model similar to previously applied EDAs. The other is hBOA, the first EDA using a multivariate probabilistic model to be applied to the chemotherapy problem. While instinct would lead us to predict that the more sophisticated algorithm would yield better performance on a complex problem like this, we show that it is outperformed by the algorithms using the simpler univariate model. We hypothesise that this is caused by the more sophisticated algorithm being impeded by the large number of interactions in the problem which are unnecessary for its solution.
翻訳日:2022-05-18 16:45:29 公開日:2022-05-17
# (参考訳) FOLへの翻訳によるELの接続最小アブダクション -- 技術報告

Connection-minimal Abduction in EL via Translation to FOL -- Technical Report ( http://arxiv.org/abs/2205.08449v1 )

ライセンス: CC BY-SA 4.0
Fajar Haifani, Patrick Koopmann, Sophie Tourret and Christoph Weidenbach(参考訳) 記述論理のアブダクションは、知識基盤の拡張を見つけ、それを観察する。 したがって、なぜ観察が従わないのかを説明し、不完全な知識基盤を修復し、予期しない観察の可能な説明を与えるのに使うことができる。 我々は,観察が概念包含であり,背景知識がtbox,すなわち概念包含の集合である軽量記述論理elにおいて,tboxアブダクションを考える。 無駄な答えを避けるために、そのような問題は通常、解空間のさらなる制限と、シャフを穀物から選び分けるのに役立つ最小限の基準が伴う。 既存の最小性の概念は不十分であり、接続最小性を導入する。 この基準はoccamのカミソリに続き、概念包含物が問題とは無関係であるという仮説を拒絶する。 接続最小仮説の特別なクラスを、音で完全な方法で計算する方法を示す。 本手法は一階述語論理への翻訳に基づき,素因果関係に基づく仮説を構成する。 医療領域からのオントロジーに対するアプローチのプロトタイプ実装を評価した。

Abduction in description logics finds extensions of a knowledge base to make it entail an observation. As such, it can be used to explain why the observation does not follow, to repair incomplete knowledge bases, and to provide possible explanations for unexpected observations. We consider TBox abduction in the lightweight description logic EL, where the observation is a concept inclusion and the background knowledge is a TBox, i.e., a set of concept inclusions. To avoid useless answers, such problems usually come with further restrictions on the solution space and/or minimality criteria that help sort the chaff from the grain. We argue that existing minimality notions are insufficient, and introduce connection minimality. This criterion follows Occam's razor by rejecting hypotheses that use concept inclusions unrelated to the problem at hand. We show how to compute a special class of connection-minimal hypotheses in a sound and complete way. Our technique is based on a translation to first-order logic, and constructs hypotheses based on prime implicates. We evaluate a prototype implementation of our approach on ontologies from the medical domain.
翻訳日:2022-05-18 16:36:44 公開日:2022-05-17
# (参考訳) 説明可能性の心理学理論

A psychological theory of explainability ( http://arxiv.org/abs/2205.08452v1 )

ライセンス: CC BY 4.0
Scott Cheng-Hsin Yang, Tomas Folke, Patrick Shafto(参考訳) 説明可能な人工知能(XAI)の目標は、人間の解釈可能な説明を生成することであるが、人間がAIを生成する説明をどのように解釈するかについての計算学的に正確な理論はない。 理論の欠如は、XAIの検証を事例ごとに実証的に行う必要があることを意味しており、XAIの体系的な理論構築を妨げている。 本稿では,xai説明の最も一般的な形式であるサリエンシーマップから人間がどのように結論を導き出すかという心理学的理論を提案し,説明条件に基づく説明者の推論の正確な予測を可能にした。 我々の理論は、人間が欠如している説明は、aiが自分自身に同様の決定を下すことを期待し、彼らが与える説明と比較して説明を解釈することを仮定している。 比較は、認知科学の古典理論である類似性空間におけるシェパードの普遍的一般化法則によって定式化される。 サリエンシーマップによるai画像分類を事前に登録したユーザスタディでは,本理論が参加者のai予測と定量的に一致していることが示されている。

The goal of explainable Artificial Intelligence (XAI) is to generate human-interpretable explanations, but there are no computationally precise theories of how humans interpret AI generated explanations. The lack of theory means that validation of XAI must be done empirically, on a case-by-case basis, which prevents systematic theory-building in XAI. We propose a psychological theory of how humans draw conclusions from saliency maps, the most common form of XAI explanation, which for the first time allows for precise prediction of explainee inference conditioned on explanation. Our theory posits that absent explanation humans expect the AI to make similar decisions to themselves, and that they interpret an explanation by comparison to the explanations they themselves would give. Comparison is formalized via Shepard's universal law of generalization in a similarity space, a classic theory from cognitive science. A pre-registered user study on AI image classifications with saliency map explanations demonstrate that our theory quantitatively matches participants' predictions of the AI.
翻訳日:2022-05-18 16:35:41 公開日:2022-05-17
# (参考訳) 単音節発声のための重み付け重み付き重み付き時間畳み込みネットワーク

Utterance Weighted Multi-Dilation Temporal Convolutional Networks for Monaural Speech Dereverberation ( http://arxiv.org/abs/2205.08455v1 )

ライセンス: CC BY 4.0
William Ravenscroft and Stefan Goetze and Thomas Hain(参考訳) 多くの音声技術の応用において、発声は重要な段階である。 この領域における最近の研究は、ディープニューラルネットワークモデルによって支配されている。 時間畳み込みネットワーク (TCN) は, 音声の除去作業におけるシーケンスモデリングのための深層学習モデルである。 本研究では、tcnモデルにおける標準深度分割畳み込みを置き換えるために、重み付き多重拡張深さ分離畳み込みが提案されている。 提案した畳み込みにより,ネットワーク内の各畳み込みブロックの受容領域において,TNはローカル情報を多かれ少なかれ動的に重視することができる。 この重み付き多重拡散時間畳み込みネットワーク(WD-TCN)は,様々なモデル構成において一貫してTCNより優れており,WD-TCNモデルを用いることで,畳み込みブロックの数を増やすよりもモデルの性能を向上させるためのパラメータ効率の良い手法であることが示されている。 ベースラインTCNに対する最高の性能改善は、0.55dBスケール不変信号-歪み比(SISDR)であり、WD-TCNモデルはWHAMRデータセット上で12.26dB SISDRに達する。

Speech dereverberation is an important stage in many speech technology applications. Recent work in this area has been dominated by deep neural network models. Temporal convolutional networks (TCNs) are deep learning models that have been proposed for sequence modelling in the task of dereverberating speech. In this work a weighted multi-dilation depthwise-separable convolution is proposed to replace standard depthwise-separable convolutions in TCN models. This proposed convolution enables the TCN to dynamically focus on more or less local information in its receptive field at each convolutional block in the network. It is shown that this weighted multi-dilation temporal convolutional network (WD-TCN) consistently outperforms the TCN across various model configurations and using the WD-TCN model is a more parameter efficient method to improve the performance of the model than increasing the number of convolutional blocks. The best performance improvement over the baseline TCN is 0.55 dB scale-invariant signal-to-distortion ratio (SISDR) and the best performing WD-TCN model attains 12.26 dB SISDR on the WHAMR dataset.
翻訳日:2022-05-18 16:14:42 公開日:2022-05-17
# (参考訳) コントラスト埋め込みリプレイによる同意管理のための話者の動的認識

Dynamic Recognition of Speakers for Consent Management by Contrastive Embedding Replay ( http://arxiv.org/abs/2205.08459v1 )

ライセンス: CC BY 4.0
Arash Shahmansoori and Utz Roedig(参考訳) 音声アシスタントは音声を録音し、会話を耳にする。 したがって、ユーザが記録するか否かの希望を表現できるように、同意管理機構が望ましい。 同意管理は話者認識を用いて行うことができ、同意を得られない利用者は音声を入力し、さらにユーザーの録音は処理されない。 話者認識に基づく同意管理の構築は、問題の動的な性質、多数の話者に要求されるスケーラビリティ、高精度な高速話者認識の必要性などにより困難である。 本稿では,上記の課題に対応する話者認識に基づく同意管理システムについて述べる。 完全教師付きバッチコントラスト学習を用いて、録音不一致を通知する話者集合の学習中に基礎となる話者同分散帰納的バイアスを学ぶ。 同意を与えない話者は、継続的に訓練されるバケツにグループ化される。 埋め込みは、トレーニング中にバケツのスピーカーに対して対照的に学習され、後で分類のためのリプレイバッファとして機能する。 訓練中にバケットを段階的に登録し、コントラスト埋め込みリプレイバッファの新たなマルチストレートランダムサンプリングを提案する。 バケットは、各イテレーションでのみいくつかのステップで対照的に訓練され、段階的に分類のために再生され、急速に収束する。 バケット内の話者の高速かつダイナミックな登録と除去のためのアルゴリズムについて述べる。 評価結果から,提案手法は合意管理に望まれる高速でダイナミックな解を提供し,既存の手法よりも収束速度や適応能力,推論時の検証性能に優れることが示された。

Voice assistants record sound and can overhear conversations. Thus, a consent management mechanism is desirable such that users can express their wish to be recorded or not. Consent management can be implemented using speaker recognition; users that do not give consent enrol their voice and all further recordings of these users is subsequently not processed. Building speaker recognition based consent management is challenging due to the dynamic nature of the problem, required scalability for large number of speakers, and need for fast speaker recognition with high accuracy. This paper describes a speaker recognition based consent management system addressing the aforementioned challenges. A fully supervised batch contrastive learning is applied to learn the underlying speaker equivariance inductive bias during the training on the set of speakers noting recording dissent. Speakers that do not provide consent are grouped in buckets which are trained continuously. The embeddings are contrastively learned for speakers in their buckets during training and act later as a replay buffer for classification. The buckets are progressively registered during training and a novel multi-strided random sampling of the contrastive embedding replay buffer is proposed. Buckets are contrastively trained for a few steps only in each iteration and replayed for classification progressively leading to fast convergence. An algorithm for fast and dynamic registration and removal of speakers in buckets is described. The evaluation results show that the proposed approach provides the desired fast and dynamic solution for consent management and outperforms existing approaches in terms of convergence speed and adaptive capabilities as well as verification performance during inference.
翻訳日:2022-05-18 16:03:01 公開日:2022-05-17
# (参考訳) 学習値関数に対するロバスト損失

Robust Losses for Learning Value Functions ( http://arxiv.org/abs/2205.08464v1 )

ライセンス: CC BY 4.0
Andrew Patterson, Victor Liao, Martha White(参考訳) 強化学習におけるほとんどの値関数学習アルゴリズムは平均二乗(投影)ベルマン誤差に基づいている。 しかし、二乗誤差は外れ値に敏感であることが知られ、目的の解を歪め、高次勾配と高分散勾配をもたらす。 これらの高次更新を制御するために、RLの典型的な戦略は、クリッピング勾配、クリッピング報酬、リスケーリング報酬、クリッピングエラーを含む。 これらの戦略は、ハブ損失のような堅牢な損失に関連しているように見えるが、それらは、既知の損失を最小限にしない半段階的な更新ルールに基づいている。 本研究では,二乗ベルマン誤差をサドルポイント最適化問題として再構成する最近の知見に基づいて,フーバーベルマン誤差と絶対ベルマン誤差に対するサドルポイント再構成を提案する。 まず、ロバストな損失の形式化から始まり、オンラインのオフポリシー予測とコントロール設定の両方において、これらの損失を最小限に抑えるために、音勾配に基づくアプローチを導出します。 我々は、ロバストな損失の解を特徴付け、ロバストな損失が平均2乗のベルマン誤差よりも明らかに優れた解を定義する問題設定に関する洞察を与える。 最後に, 勾配に基づくアルゴリズムは, 予測と制御の両方においてより安定であり, メタパラメータに対する感度が低いことを示す。

Most value function learning algorithms in reinforcement learning are based on the mean squared (projected) Bellman error. However, squared errors are known to be sensitive to outliers, both skewing the solution of the objective and resulting in high-magnitude and high-variance gradients. To control these high-magnitude updates, typical strategies in RL involve clipping gradients, clipping rewards, rescaling rewards, or clipping errors. While these strategies appear to be related to robust losses -- like the Huber loss -- they are built on semi-gradient update rules which do not minimize a known loss. In this work, we build on recent insights reformulating squared Bellman errors as a saddlepoint optimization problem and propose a saddlepoint reformulation for a Huber Bellman error and Absolute Bellman error. We start from a formalization of robust losses, then derive sound gradient-based approaches to minimize these losses in both the online off-policy prediction and control settings. We characterize the solutions of the robust losses, providing insight into the problem settings where the robust losses define notably better solutions than the mean squared Bellman error. Finally, we show that the resulting gradient-based algorithms are more stable, for both prediction and control, with less sensitivity to meta-parameters.
翻訳日:2022-05-18 16:01:48 公開日:2022-05-17
# (参考訳) 胃癌の病理組織像分類におけるコンピュータ診断におけるグラフの特徴の応用

Application of Graph Based Features in Computer Aided Diagnosis for Histopathological Image Classification of Gastric Cancer ( http://arxiv.org/abs/2205.08467v1 )

ライセンス: CC BY 4.0
Haiqing Zhang, Chen Li, Shiliang Ai, Haoyuan Chen, Yuchao Zheng, Yixin Li, Xiaoyan Li, Hongzan Sun, Xinyu Huang, Marcin Grzegorzek(参考訳) 胃癌検出のゴールドスタンダードは病理組織学的画像解析であるが、既存の病理組織学的検出と診断には欠点がある。 本稿では,コンピュータ支援診断システムの研究に基づいて,胃癌の病理組織学的画像解析にグラフベースの特徴を適用し,良性細胞から胃癌細胞を分類するために分類器を用いる。 まず、画像セグメンテーションを行い、その領域を見つけた後、k平均法を用いて細胞核を抽出し、最小スパンニングツリー(MST)を描画し、MSTのグラフベースの特徴を抽出する。 グラフベースの機能は分類のための分類器に入れられる。 In this study, different segmentation methods are compared in the tissue segmentation stage, among which are Level-Set, Otsu thresholding, watershed, SegNet, U-Net and Trans-U-Net segmentation; Graph based features, Red, Green, Blue features, Grey-Level Co-occurrence Matrix features, Histograms of Oriented Gradient features and Local Binary Patterns features are compared in the feature extraction stage; Radial Basis Function (RBF) Support Vector Machine (SVM), Linear SVM, Artificial Neural Network, Random Forests, k-NearestNeighbor, VGG16, and Inception-V3 are compared in the classifier stage. U-Netを用いて組織領域を分割し、グラフベースの特徴を抽出し、最終的にRBF SVM分類器を使用することで94.29%の最適結果が得られることがわかった。

The gold standard for gastric cancer detection is gastric histopathological image analysis, but there are certain drawbacks in the existing histopathological detection and diagnosis. In this paper, based on the study of computer aided diagnosis system, graph based features are applied to gastric cancer histopathology microscopic image analysis, and a classifier is used to classify gastric cancer cells from benign cells. Firstly, image segmentation is performed, and after finding the region, cell nuclei are extracted using the k-means method, the minimum spanning tree (MST) is drawn, and graph based features of the MST are extracted. The graph based features are then put into the classifier for classification. In this study, different segmentation methods are compared in the tissue segmentation stage, among which are Level-Set, Otsu thresholding, watershed, SegNet, U-Net and Trans-U-Net segmentation; Graph based features, Red, Green, Blue features, Grey-Level Co-occurrence Matrix features, Histograms of Oriented Gradient features and Local Binary Patterns features are compared in the feature extraction stage; Radial Basis Function (RBF) Support Vector Machine (SVM), Linear SVM, Artificial Neural Network, Random Forests, k-NearestNeighbor, VGG16, and Inception-V3 are compared in the classifier stage. It is found that using U-Net to segment tissue areas, then extracting graph based features, and finally using RBF SVM classifier gives the optimal results with 94.29%.
翻訳日:2022-05-18 15:28:44 公開日:2022-05-17
# (参考訳) 法的文書要約のための評価フレームワーク

An Evaluation Framework for Legal Document Summarization ( http://arxiv.org/abs/2205.08478v1 )

ライセンス: CC BY 4.0
Ankan Mullick, Abhilash Nandy, Manav Nitin Kapadnis, Sohan Patnaik, R Raghav, Roshni Kar(参考訳) 法律実務者は、土地紛争、腐敗など、様々なカテゴリーの実務のために、数多くの長い訴訟手続を経なければならない。 したがって、これらの文書を要約し、事例のカテゴリに合致する意図のある句を要約に含むことが重要である。 私たちの知る限りでは、その意図に基づいて要約を評価する評価指標はありません。 本稿では,人的満足度の観点から,BLEU,ROUGE-Lなどの他の自動指標と比較して,人的評価との整合性が高い自動意図に基づく要約尺度を提案する。 また、法的文書に意図文を注釈付けしてデータセットをキュレートし、このシステムをいかに自動化できるかという概念実証を示す。 さらに、再現可能な結果を生成するすべてのコードとデータは、githubで入手できる。

A law practitioner has to go through numerous lengthy legal case proceedings for their practices of various categories, such as land dispute, corruption, etc. Hence, it is important to summarize these documents, and ensure that summaries contain phrases with intent matching the category of the case. To the best of our knowledge, there is no evaluation metric that evaluates a summary based on its intent. We propose an automated intent-based summarization metric, which shows a better agreement with human evaluation as compared to other automated metrics like BLEU, ROUGE-L etc. in terms of human satisfaction. We also curate a dataset by annotating intent phrases in legal documents, and show a proof of concept as to how this system can be automated. Additionally, all the code and data to generate reproducible results is available on Github.
翻訳日:2022-05-18 15:09:58 公開日:2022-05-17
# (参考訳) CLIP-Hitchhikerによるロングビデオ検索ガイド

A CLIP-Hitchhiker's Guide to Long Video Retrieval ( http://arxiv.org/abs/2205.08508v1 )

ライセンス: CC BY 4.0
Max Bain, Arsha Nagrani, G\"ul Varol, Andrew Zisserman(参考訳) 本稿では,長期ビデオ検索のための画像テキストモデルの適応化を目標とする。 近年の研究では、CLIPを採用することで、映像検索における最先端のパフォーマンスが実証されている。 しかし、フレームごとに抽出された画像レベルの表現をクリップで平均プールする時間集約の学習に成功している。 クエリスコーリングによるフレーム埋め込みの重み付き平均の単純かつ効果的なベースラインは、事前の時間的モデリングの試みや平均プールよりも大幅に改善されていることが分かりました。 そこで我々は,この単純なベースラインの最先端性能を,長いビデオ検索ベンチマークで比較し,実証するために,改良されたベースラインを提供する。

Our goal in this paper is the adaptation of image-text models for long video retrieval. Recent works have demonstrated state-of-the-art performance in video retrieval by adopting CLIP, effectively hitchhiking on the image-text representation for video tasks. However, there has been limited success in learning temporal aggregation that outperform mean-pooling the image-level representations extracted per frame by CLIP. We find that the simple yet effective baseline of weighted-mean of frame embeddings via query-scoring is a significant improvement above all prior temporal modelling attempts and mean-pooling. In doing so, we provide an improved baseline for others to compare to and demonstrate state-of-the-art performance of this simple baseline on a suite of long video retrieval benchmarks.
翻訳日:2022-05-18 15:00:12 公開日:2022-05-17
# 分散機械学習のプライバシについて

On the Privacy of Decentralized Machine Learning ( http://arxiv.org/abs/2205.08443v1 )

ライセンス: Link先を確認
Dario Pasquini, Mathilde Raynal and Carmela Troncoso(参考訳) 本研究では,分散学習の主要な制限を回避することを目的とした協調学習フレームワークである分散学習の,最初の詳細なプライバシー分析を行う。 我々は,ユーザのプライバシに影響を与える分散学習特性を特定し,パッシブおよびアクティブな分散化敵に対する一連の新しい攻撃を提案する。 分散学習の提案者による主張とは対照的に、分散学習は、連合学習のようなより実用的なアプローチに対して、セキュリティ上の利点を提供していないことを実証する。 むしろ、攻撃面を増やすことでユーザのプライバシを低下させ、システムの任意のユーザが勾配インバージョンのような強力なプライバシアタックを実行できるようにし、誠実なユーザのローカルモデルを完全にコントロールする傾向にある。 また、保護技術の現状を踏まえると、分散学習のプライバシー保護設定は、分散化アプローチの目的を完全に損なうため、連邦化よりも可能な優位性を捨てる必要があることも明らかにした。

In this work, we carry out the first, in-depth, privacy analysis of Decentralized Learning -- a collaborative machine learning framework aimed at circumventing the main limitations of federated learning. We identify the decentralized learning properties that affect users' privacy and we introduce a suite of novel attacks for both passive and active decentralized adversaries. We demonstrate that, contrary to what is claimed by decentralized learning proposers, decentralized learning does not offer any security advantages over more practical approaches such as federated learning. Rather, it tends to degrade users' privacy by increasing the attack surface and enabling any user in the system to perform powerful privacy attacks such as gradient inversion, and even gain full control over honest users' local model. We also reveal that, given the state of the art in protections, privacy-preserving configurations of decentralized learning require abandoning any possible advantage over the federated setup, completely defeating the objective of the decentralized approach.
翻訳日:2022-05-18 14:57:13 公開日:2022-05-17
# 変形可能な線形物体の検出と物理的相互作用

Detection and Physical Interaction with Deformable Linear Objects ( http://arxiv.org/abs/2205.08041v1 )

ライセンス: Link先を確認
Azarakhsh Keipour, Mohammadreza Mousaei, Maryam Bandari, Stefan Schaal, Sebastian Scherer(参考訳) 変形可能な線形オブジェクト(ケーブル、ロープ、糸など)は、私たちの日常生活によく現れます。 しかし、これらの物体の知覚とそれらとの物理的相互作用の研究はまだ成長している領域である。 変形可能な線形オブジェクトをモデル化し追跡する手法はすでに成功している。 しかし,非自明な状況における初期条件を自動的に抽出できる手法は限られており,コミュニティに導入されているのはごく最近である。 一方で、これらの物体との物理的相互作用は地上マニピュレータで行われているが、変形可能な線形物体と空中ロボットとの物理的相互作用や操作に関する研究は行われていない。 本ワークショップでは, 既存の手法のセグメント化出力を用いて, 追従手法が必要とする初期化を自動で提供する, 変形可能な線形オブジェクトの検出に関する最近の作業について述べる。 交差で機能し、セグメンテーションのギャップと閉塞を埋め、物理的相互作用やシミュレーションに望ましいモデルを出力することができる。 そこで本研究では,地上および空中ロボットによるルーティングや操作などのタスクにこの手法を用いることについて述べる。 我々は,これらの物体との物理的相互作用を空中操作アプリケーションに拡張する可能性解析について検討する。

Deformable linear objects (e.g., cables, ropes, and threads) commonly appear in our everyday lives. However, perception of these objects and the study of physical interaction with them is still a growing area. There have already been successful methods to model and track deformable linear objects. However, the number of methods that can automatically extract the initial conditions in non-trivial situations for these methods has been limited, and they have been introduced to the community only recently. On the other hand, while physical interaction with these objects has been done with ground manipulators, there have not been any studies on physical interaction and manipulation of the deformable linear object with aerial robots. This workshop describes our recent work on detecting deformable linear objects, which uses the segmentation output of the existing methods to provide the initialization required by the tracking methods automatically. It works with crossings and can fill the gaps and occlusions in the segmentation and output the model desirable for physical interaction and simulation. Then we present our work on using the method for tasks such as routing and manipulation with the ground and aerial robots. We discuss our feasibility analysis on extending the physical interaction with these objects to aerial manipulation applications.
翻訳日:2022-05-18 14:56:56 公開日:2022-05-17
# 自動車サイバー物理システムのためのロバスト知覚アーキテクチャ設計

Robust Perception Architecture Design for Automotive Cyber-Physical Systems ( http://arxiv.org/abs/2205.08067v1 )

ライセンス: Link先を確認
Joydeep Dey, Sudeep Pasricha(参考訳) 新興の自動車サイバー物理システム(CPS)では、安全と性能の目標を達成するために正確な環境認識が重要である。 車両に対する堅牢な認識を実現するには、センサーの選択/配置、オブジェクト検出、センサー融合に関連する複数の複雑な問題を解く必要がある。 現在の手法ではこれらの問題を分離し、非効率な解をもたらす。 深層学習とセンサのグローバルな協調最適化のための新しいフレームワークであるPASTAについて述べる。 Audi-TTとBMW-Minicooperによる実験結果は、PASTAが堅牢で車両固有の知覚アーキテクチャソリューションを見つける方法を示している。

In emerging automotive cyber-physical systems (CPS), accurate environmental perception is critical to achieving safety and performance goals. Enabling robust perception for vehicles requires solving multiple complex problems related to sensor selection/ placement, object detection, and sensor fusion. Current methods address these problems in isolation, which leads to inefficient solutions. We present PASTA, a novel framework for global co-optimization of deep learning and sensing for dependable vehicle perception. Experimental results with the Audi-TT and BMW-Minicooper vehicles show how PASTA can find robust, vehicle-specific perception architecture solutions.
翻訳日:2022-05-18 14:56:11 公開日:2022-05-17
# 都市シナリオにおける自動走行システムの開発とテストのためのシナリオ探索の適用

An Application of Scenario Exploration to Find New Scenarios for the Development and Testing of Automated Driving Systems in Urban Scenarios ( http://arxiv.org/abs/2205.08202v1 )

ライセンス: Link先を確認
Barbara Sch\"utt, Marc Heinrich, Sonja Marahrens, J. Marius Z\"ollner, Eric Sax(参考訳) 検証と検証は、自動運転システムを開発する上で大きな課題である。 自動運転のテストでますます認識されるコンセプトは、シナリオベースのテストである。 しかし、テストにどのようなシナリオが関係し、どのシナリオが関係しないのかという問題を提起している。 この研究はベイズ最適化とガウス過程を利用して、論理シナリオ内で関連する、興味深い、あるいは重要なパラメータ集合を見つけることを目的としている。 パラメータ最適化は、2つの都市交差点シナリオにおける6つの異なるメトリクスの比較と評価によって行われる。 最後に、この研究がもたらすアイデアの一覧を示し、さらに調べるべきである。

Verification and validation are major challenges for developing automated driving systems. A concept that gets more and more recognized for testing in automated driving is scenario-based testing. However, it introduces the problem of what scenarios are relevant for testing and which are not. This work aims to find relevant, interesting, or critical parameter sets within logical scenarios by utilizing Bayes optimization and Gaussian processes. The parameter optimization is done by comparing and evaluating six different metrics in two urban intersection scenarios. Finally, a list of ideas this work leads to and should be investigated further is presented.
翻訳日:2022-05-18 14:56:02 公開日:2022-05-17
# 生体分子シミュレーションのための精密機械学習量子力学的力場

Accurate Machine Learned Quantum-Mechanical Force Fields for Biomolecular Simulations ( http://arxiv.org/abs/2205.08306v1 )

ライセンス: Link先を確認
Oliver T. Unke, Martin St\"ohr, Stefan Ganscha, Thomas Unterthiner, Hartmut Maennel, Sergii Kashubin, Daniel Ahlin, Michael Gastegger, Leonardo Medrano Sandonas, Alexandre Tkatchenko, Klaus-Robert M\"uller(参考訳) 分子動力学(md)シミュレーションは、化学および生物学的過程に対する原子論的洞察を可能にする。 正確なmdシミュレーションには量子力学的計算が必要であり、実質的に短い時間スケールと少数の原子に制限されている。 大規模システムでは、効率的だが信頼性の低い実験力場が使用される。 近年,機械学習力場 (MLFFs) がMDシミュレーションの代替手段として登場し,ab initio法と同じような精度でマグニチュード・オブ・マグニチュード・スピードアップを行った。 これまでmlffは、モデルの構築や大きな分子の信頼できる参照データを得ることが複雑になり、長距離多体効果が重要になるため、小分子や周期材料での短距離相互作用を主に捉えていた。 本研究は,大規模分子シミュレーション(gems)のための正確なmlffを構築するための一般的なアプローチとして,関連する物理化学的相互作用を学習できる大きさの異なる「ボトムアップ」および「トップダウン」分子断片を訓練することを提案する。 GEMSは、水溶液中でのアラニン系ペプチドと46残基タンパク質のクラムビンのダイナミクスの研究に応用され、25k>25kのナノ秒スケールMDシミュレーションを本質的にアブイニチノ品質で行うことができる。 その結果, ペプチドやタンパク質の構造モチーフは従来考えられていたよりも柔軟であり, タンパク質の折り畳み, 薬物結合, アロステリック制御などの動的生体分子過程を理解するためには, 初期精度でのシミュレーションが必要である可能性が示唆された。

Molecular dynamics (MD) simulations allow atomistic insights into chemical and biological processes. Accurate MD simulations require computationally demanding quantum-mechanical calculations, being practically limited to short timescales and few atoms. For larger systems, efficient, but much less reliable empirical force fields are used. Recently, machine learned force fields (MLFFs) emerged as an alternative means to execute MD simulations, offering similar accuracy as ab initio methods at orders-of-magnitude speedup. Until now, MLFFs mainly capture short-range interactions in small molecules or periodic materials, due to the increased complexity of constructing models and obtaining reliable reference data for large molecules, where long-ranged many-body effects become important. This work proposes a general approach to constructing accurate MLFFs for large-scale molecular simulations (GEMS) by training on "bottom-up" and "top-down" molecular fragments of varying size, from which the relevant physicochemical interactions can be learned. GEMS is applied to study the dynamics of alanine-based peptides and the 46-residue protein crambin in aqueous solution, allowing nanosecond-scale MD simulations of >25k atoms at essentially ab initio quality. Our findings suggest that structural motifs in peptides and proteins are more flexible than previously thought, indicating that simulations at ab initio accuracy might be necessary to understand dynamic biomolecular processes such as protein (mis)folding, drug-protein binding, or allosteric regulation.
翻訳日:2022-05-18 14:55:08 公開日:2022-05-17
# 前方・逆問題に対する有限要素法強化ニューラルネットワーク

Finite Element Method-enhanced Neural Network for Forward and Inverse Problems ( http://arxiv.org/abs/2205.08321v1 )

ライセンス: Link先を確認
Rishith Ellath Meethal, Birgit Obst, Mohamed Khalil, Aditya Ghantasala, Anoop Kodakkal, Kai-Uwe Bletzinger, Roland W\"uchner(参考訳) 本稿では,従来の有限要素法(FEM)とニューラルネットワークを組み合わせたハイブリッド手法を提案する。 有限要素法からの残差とニューラルネットワークからのカスタム損失関数をマージしてアルゴリズムを形成する。 finite Element Method-enhanced Neural Network Hybrid Model (FEM-NN hybrid)は、データ効率と物理適合性である。 提案手法は, 実時間シミュレーション, 不確実性定量化, 前方問題における最適化におけるサロゲートモデルに適用できる。 逆問題の場合、モデルを更新するのに使うことができる。 本手法を実例で示すとともに,従来のネットワークトレーニング法と古典的有限要素法とを比較した。 高層建築物における風効果の不確実性定量化のための前方解法の適用を実証した。 逆アルゴリズムは流体軸受の速度依存軸受係数同定において実証される。 この種のハイブリッド手法は、現在使われているシミュレーション手法のパラダイムシフトとして機能する。

We introduce a novel hybrid methodology combining classical finite element methods (FEM) with neural networks to create a well-performing and generalizable surrogate model for forward and inverse problems. The residual from finite element methods and custom loss functions from neural networks are merged to form the algorithm. The Finite Element Method-enhanced Neural Network hybrid model (FEM-NN hybrid) is data-efficient and physics conforming. The proposed methodology can be used for surrogate models in real-time simulation, uncertainty quantification, and optimization in the case of forward problems. It can be used for updating the models in the case of inverse problems. The method is demonstrated with examples, and the accuracy of the results and performance is compared against the conventional way of network training and the classical finite element method. An application of the forward-solving algorithm is demonstrated for the uncertainty quantification of wind effects on a high-rise buildings. The inverse algorithm is demonstrated in the speed-dependent bearing coefficient identification of fluid bearings. The hybrid methodology of this kind will serve as a paradigm shift in the simulation methods currently used.
翻訳日:2022-05-18 14:54:40 公開日:2022-05-17
# ナノフォトニックニューラルネットワークにおける深層学習のためのin situバックプロパゲーション実験

Experimentally realized in situ backpropagation for deep learning in nanophotonic neural networks ( http://arxiv.org/abs/2205.08501v1 )

ライセンス: Link先を確認
Sunil Pai, Zhanghao Sun, Tyler W. Hughes, Taewon Park, Ben Bartlett, Ian A. D. Williamson, Momchil Minkov, Maziyar Milanizadeh, Nathnael Abebe, Francesco Morichetti, Andrea Melloni, Shanhui Fan, Olav Solgaard, David A.B. Miller(参考訳) ニューラルネットワークは、エッジコンピューティングやセンシングからデータセンターでの大規模信号処理に至るまで、多くの科学分野や商業分野にまたがって広く展開されるモデルである。 このようなネットワークをトレーニングする最も効率的で定着した方法は、バックプロパゲーション(英語版)またはリバースモード自動微分である。 人工知能分野におけるエネルギー予算の指数関数的な増加に対抗するため、ニューラルネットワークのアナログ実装、特にアナログバックプロパゲーションの実証が存在しないナノフォトニックニューラルネットワークへの関心が高まっている。 我々は、デジタルに実装された非線形性を持つカスタムデザインの「フォトニックメッシュ」加速器を交互にカスケードする、大量生産可能なシリコンフォトニックニューラルネットワークを設計する。 これらの再構成可能なフォトニックメッシュは、mach-zehnder干渉計ネットワークを介して伝搬する光符号化された入力データの干渉を調整する物理電圧を設定することで、計算集約的な任意の行列乗算をプログラムする。 ここでは,本パッケージのフォトニックチップを用いて,分類課題を初めてin situバックプロパゲーションを行い,アナログ領域の物理デバイス電圧の勾配測定と更新を継続する新しいプロトコルを評価し,過去の理論的な提案を改良した。 本手法は,(1)光学式"グラファイティングタップ"モニタにおける計測,(2)ファイバスイッチにより自動化された双方向光信号伝搬,(3)光振幅と位相の普遍的生成と読み出しという,一般的なフォトニックメッシュに3つの変更を加えることで実現されている。 訓練後,系統的誤りが存在する場合でも,デジタル等価性に類似した精度が得られた。 本研究は,一般的なバックプロパゲーション手法の物理的類似性に基づく,光子加速型人工知能の新しい学習パラダイムを提案する。

Neural networks are widely deployed models across many scientific disciplines and commercial endeavors ranging from edge computing and sensing to large-scale signal processing in data centers. The most efficient and well-entrenched method to train such networks is backpropagation, or reverse-mode automatic differentiation. To counter an exponentially increasing energy budget in the artificial intelligence sector, there has been recent interest in analog implementations of neural networks, specifically nanophotonic neural networks for which no analog backpropagation demonstration exists. We design mass-manufacturable silicon photonic neural networks that alternately cascade our custom designed "photonic mesh" accelerator with digitally implemented nonlinearities. These reconfigurable photonic meshes program computationally intensive arbitrary matrix multiplication by setting physical voltages that tune the interference of optically encoded input data propagating through integrated Mach-Zehnder interferometer networks. Here, using our packaged photonic chip, we demonstrate in situ backpropagation for the first time to solve classification tasks and evaluate a new protocol to keep the entire gradient measurement and update of physical device voltages in the analog domain, improving on past theoretical proposals. Our method is made possible by introducing three changes to typical photonic meshes: (1) measurements at optical "grating tap" monitors, (2) bidirectional optical signal propagation automated by fiber switch, and (3) universal generation and readout of optical amplitude and phase. After training, our classification achieves accuracies similar to digital equivalents even in presence of systematic error. Our findings suggest a new training paradigm for photonics-accelerated artificial intelligence based entirely on a physical analog of the popular backpropagation technique.
翻訳日:2022-05-18 14:54:25 公開日:2022-05-17
# 小重量ニューラルネットワークの代数的構成について

On Algebraic Constructions of Neural Networks with Small Weights ( http://arxiv.org/abs/2205.08032v1 )

ライセンス: Link先を確認
Kordag Mehmet Kilic, Jin Sima and Jehoshua Bruck(参考訳) ニューラルゲートは入力変数の重み付け和に基づいて関数を計算する。 ニューラルゲートの表現力(計算可能な異なる関数の数)は、重みの大きさに依存し、一般に大きな重み(入力数の指数)が必要となる。 重みサイズ、回路サイズ、深さのトレードオフの研究は、回路複雑性理論と神経計算の実践の両方においてよく研究されているトピックである。 本稿では,これらの複雑性のトレードオフを研究するための新しい手法を提案する。 具体的には、任意の係数を持つ1つの線型方程式が与えられたとき、より小さい(一定の)係数を持つ線形方程式系を用いてそれを表現したい。 私たちが開発した手法は、ジーゲルの『Lemma for the bounds, anti-concentration inequality for the existential results and extension of Sylvester-type Hadamard matrices for the constructions』に基づいている。 EQUALITY関数を計算するために、定数ウェイトで最適なサイズ行列を明示的に構築する(二進数で表される2つの整数が等しいかどうかを確認する)。 単一の線形方程式で等式を計算するには指数関数的に大きな重みを必要とする。 さらに、ComparISON関数(バイナリで表される2つの整数間の比較)を計算するために、最もよく知られたウェイトサイズ(線形)行列の存在を証明する。 回路複雑性理論の文脈において,本論文は等式と比較のために最もよく知られた回路サイズの重み付け上の上限を改善した。

Neural gates compute functions based on weighted sums of the input variables. The expressive power of neural gates (number of distinct functions it can compute) depends on the weight sizes and, in general, large weights (exponential in the number of inputs) are required. Studying the trade-offs among the weight sizes, circuit size and depth is a well-studied topic both in circuit complexity theory and the practice of neural computation. We propose a new approach for studying these complexity trade-offs by considering a related algebraic framework. Specifically, given a single linear equation with arbitrary coefficients, we would like to express it using a system of linear equations with smaller (even constant) coefficients. The techniques we developed are based on Siegel's Lemma for the bounds, anti-concentration inequalities for the existential results and extensions of Sylvester-type Hadamard matrices for the constructions. We explicitly construct a constant weight, optimal size matrix to compute the EQUALITY function (checking if two integers expressed in binary are equal). Computing EQUALITY with a single linear equation requires exponentially large weights. In addition, we prove the existence of the best-known weight size (linear) matrices to compute the COMPARISON function (comparing between two integers expressed in binary). In the context of the circuit complexity theory, our results improve the upper bounds on the weight sizes for the best-known circuit sizes for EQUALITY and COMPARISON.
翻訳日:2022-05-18 14:53:56 公開日:2022-05-17
# (参考訳) 言語モデルのフェデレーション学習におけるプライベートテキストの復元

Recovering Private Text in Federated Learning of Language Models ( http://arxiv.org/abs/2205.08514v1 )

ライセンス: CC0 1.0
Samyak Gupta, Yangsibo Huang, Zexuan Zhong, Tianyu Gao, Kai Li, Danqi Chen(参考訳) フェデレーション学習により、分散ユーザは、各ユーザのデータをプライベートに保ちながら、協力的にモデルをトレーニングできる。 近年,eavesdropping攻撃者が,フェデレート学習中に送信された勾配から画像データを効果的に回収できることが実証されている。 しかし,テキストデータの復元にはほとんど進展がなかった。 本稿では,言語モデルのフェデレーション学習のための新しい攻撃法フィルムを提案する。本論文では,最大128文のバッチサイズからテキストを復元する可能性を示す。 勾配に合うように最適化された画像復元法と異なり、まず勾配から単語の集合を識別し、ビーム探索と事前の順序付け戦略に基づいて文を直接再構成する。 我々の攻撃の鍵となる洞察は、事前訓練された言語モデルにおける事前の知識を利用するか、トレーニング中に暗記するかである。 そのシンプルさにもかかわらず、フィルムはいくつかの大規模データセットでうまく動作できることを実証する -- 大規模なバッチサイズであっても高い忠実度を持つ単一文を抽出し、攻撃を反復的に適用すれば、バッチから複数の文を回収することができる。 我々の研究成果は、より強力な攻撃を開発するための今後の取り組みと、フェデレートラーニングにおける言語モデルのトレーニングのための新しい防衛方法の動機となることを願っている。 私たちのコードはhttps://github.com/Princeton-SysML/FILMで公開されています。

Federated learning allows distributed users to collaboratively train a model while keeping each user's data private. Recently, a growing body of work has demonstrated that an eavesdropping attacker can effectively recover image data from gradients transmitted during federated learning. However, little progress has been made in recovering text data. In this paper, we present a novel attack method FILM for federated learning of language models -- for the first time, we show the feasibility of recovering text from large batch sizes of up to 128 sentences. Different from image-recovery methods which are optimized to match gradients, we take a distinct approach that first identifies a set of words from gradients and then directly reconstructs sentences based on beam search and a prior-based reordering strategy. The key insight of our attack is to leverage either prior knowledge in pre-trained language models or memorization during training. Despite its simplicity, we demonstrate that FILM can work well with several large-scale datasets -- it can extract single sentences with high fidelity even for large batch sizes and recover multiple sentences from the batch successfully if the attack is applied iteratively. We hope our results can motivate future work in developing stronger attacks as well as new defense methods for training language models in federated learning. Our code is publicly available at https://github.com/Princeton-SysML/FILM.
翻訳日:2022-05-18 14:51:37 公開日:2022-05-17
# 量子古典型ハイブリッドニューラルネットワークへの自然進化戦略の適用

Natural evolutionary strategies applied to quantum-classical hybrid neural networks ( http://arxiv.org/abs/2205.08059v1 )

ライセンス: Link先を確認
Lucas Friedrich and Jonas Maziero(参考訳) 量子コンピュータの急速な発展に伴い、いくつかの応用が提案されている。 量子シミュレーション、化学反応のシミュレーション、最適化問題の解法、量子ニューラルネットワークなどがその一例である。 しかし、ノイズやキュービット数、回路深度の制限、勾配の消失といった問題は、それらのポテンシャルをフルに活用する前に解決しなければならない。 量子機械学習の分野では、いくつかのモデルが提案されている。 一般に、これらの異なるモデルを訓練するために、モデルパラメータに対するコスト関数の勾配を用いる。 この勾配を得るためには、モデルパラメータに関してこの関数の微分を計算する必要がある。 このためにパラメータシフトルールと呼ばれるメソッドを使うことができる。 この方法は、量子ネットワークの各パラメータに対するコスト関数の評価を2回行う。 本手法の問題点は,パラメータ数で評価回数が線形に増加することである。 本研究では,ブラックボックス最適化アルゴリズムの一群であるNatural Evolutionary Strategies (NES) という代替手法について検討する。 NES法の利点は、それを使用することでコスト関数が評価される回数を制御することができることである。 本手法は,2値分類タスクにnes法を適用し,量子ニューラルネットワークのトレーニングに有効な代替手段であることを示す。

With the rapid development of quantum computers, several applications are being proposed for them. Quantum simulations, simulation of chemical reactions, solution of optimization problems and quantum neural networks are some examples. However, problems such as noise, limited number of qubits and circuit depth, and gradient vanishing must be resolved before we can use them to their full potential. In the field of quantum machine learning, several models have been proposed. In general, in order to train these different models, we use the gradient of a cost function with respect to the model parameters. In order to obtain this gradient, we must compute the derivative of this function with respect to the model parameters. For this we can use the method called parameter-shift rule. This method consists of evaluating the cost function twice for each parameter of the quantum network. A problem with this method is that the number of evaluations grows linearly with the number of parameters. In this work we study an alternative method, called Natural Evolutionary Strategies (NES), which are a family of black box optimization algorithms. An advantage of the NES method is that in using it one can control the number of times the cost function will be evaluated. We apply the NES method to the binary classification task, showing that this method is a viable alternative for training quantum neural networks.
翻訳日:2022-05-18 14:23:58 公開日:2022-05-17
# コミュニケーション技術を用いた安全実現のための人工知能アルゴリズムに関する包括的研究

A Comprehensive Study on Artificial Intelligence Algorithms to Implement Safety Using Communication Technologies ( http://arxiv.org/abs/2205.08404v1 )

ライセンス: Link先を確認
Rafia Inam, Alberto Yukinobu Hata, Vlasjov Prifti and Sara Abbaspour Asadollah(参考訳) 人工知能(AI)の最近の発展は、自動化を達成するために、自動車、医療、空域といった複数の分野にその技術を適用することに対する研究者や実践者の関心を高めている。 これらのアプリケーションと組み合わせることで、安全問題の実行にAI技術を使用する試みは、一時的な進歩的な状態にある。 AI問題はさらに複雑になりつつあるため、安全クリティカルなシステムがリアルタイムの要求を満たすために、大きな処理能力が要求される。 これらの課題はエッジやクラウドコンピューティングによって解決できるため、通信がソリューションの不可欠な部分となる。 本研究の目的は、さまざまなアプリケーションドメインで異なる通信技術を使用するAIベースの安全ソリューションの現状を包括的に把握することである。 これを実現するために、体系的なマッピング研究を行い、565の関連論文を多段階選択プロセスを通じてショートリスト化し、体系的に定義された分類フレームワークに基づいて分析する。 本研究の目的は、この分野における現在の研究ギャップを明らかにすること、複数の分野における細胞通信の利用の増加の可能性を明らかにすること、主に使われているaiアルゴリズムを特定し、そのトピックに関する今後の研究動向をまとめることである。 その結果、自動車分野は安全を実現するために最もaiを適用し、通信を最も活用する分野であり、この領域で最も使われているaiはニューラルネットワーク、クラスタリング、コンピュータビジョンである。

The recent development of artificial intelligence (AI) has increased the interest of researchers and practitioners towards applying its techniques into multiple domains like automotive, health care and air space to achieve automation. Combined to these applications, the attempt to use AI techniques into carrying out safety issues is momentarily at a progressive state. As AI problems are getting even more complex, large processing power is demanded for safety-critical systems to fulfill real-time requirements. These challenges can be solved through edge or cloud computing, which makes the communication an integral part of the solution. This study aims at providing a comprehensive picture of the state of the art AI based safety solutions that uses different communication technologies in diverse application domains. To achieve this, a systematic mapping study is conducted and 565 relevant papers are shortlisted through a multistage selection process, which are then analyzed according to a systematically defined classification framework. The results of the study are based on these main objectives: to clarify current research gaps in the field, to identify the possibility of increased usage of cellular communication in multiple domains, to identify the mostly used AI algorithms and to summarize the emerging future research trends on the topic. The results demonstrate that automotive domain is the one applying AI and communication the most to implement safety and the most used AI in this domain is neural networks, clustering and computer vision; applying cellular communication to automotive domain is highest; the use of non-cellular communication technologies is dominant however a clear trend of a rapid increase in the use of cellular communication is observed specially from 2020 with the roll-out of 5G technology.
翻訳日:2022-05-18 14:23:43 公開日:2022-05-17
# 視覚的質問応答データセットにおける性別と人種バイアス

Gender and Racial Bias in Visual Question Answering Datasets ( http://arxiv.org/abs/2205.08148v1 )

ライセンス: Link先を確認
Yusuke Hirota, Yuta Nakashima, Noa Garcia(参考訳) 視覚と言語によるタスクは、機械学習モデルにおける人間のような推論を評価する手段として、ますます注目を集めている。 この分野で人気のあるタスクは視覚的質問応答(VQA)であり、画像に関する質問に答えることを目的としている。 しかしながら、VQAモデルは、画像の内容を見ることなく、質問と回答の統計的相関を学習することで、言語バイアスを活用することが示されている:例えば、画像中のバナナが緑色であっても、バナナの色に関する質問は黄色で答えられる。 トレーニングデータに社会的バイアス(性差別、人種差別、能力主義など)が存在する場合、この問題はVQAモデルに有害なステレオタイプを学習させる可能性がある。 このため、5つのVQAデータセットの性別と人種的偏見を調査する。 分析の結果,女性と男性に関する質問と,有害なジェンダー・ステレオ・サンプルの存在との間には,回答の分布が極めて異なることがわかった。 同様に、特定の人種関連属性が過小表示されているのに対し、潜在的に差別的なサンプルは分析されたデータセットに現れる。 この結果から,潜在的に有害なステレオタイプを考慮せずに,VQAデータセットを使用する危険性が示唆された。 この論文は、データセット収集プロセスの前後において、問題を緩和するための解決策を提案して結論づける。

Vision-and-language tasks have increasingly drawn more attention as a means to evaluate human-like reasoning in machine learning models. A popular task in the field is visual question answering (VQA), which aims to answer questions about images. However, VQA models have been shown to exploit language bias by learning the statistical correlations between questions and answers without looking into the image content: e.g., questions about the color of a banana are answered with yellow, even if the banana in the image is green. If societal bias (e.g., sexism, racism, ableism, etc.) is present in the training data, this problem may be causing VQA models to learn harmful stereotypes. For this reason, we investigate gender and racial bias in five VQA datasets. In our analysis, we find that the distribution of answers is highly different between questions about women and men, as well as the existence of detrimental gender-stereotypical samples. Likewise, we identify that specific race-related attributes are underrepresented, whereas potentially discriminatory samples appear in the analyzed datasets. Our findings suggest that there are dangers associated to using VQA datasets without considering and dealing with the potentially harmful stereotypes. We conclude the paper by proposing solutions to alleviate the problem before, during, and after the dataset collection process.
翻訳日:2022-05-18 14:21:11 公開日:2022-05-17
# UnPWC-SVDLO:非教師なしライダーオドメトリーのためのPointPWC上のマルチSVD

UnPWC-SVDLO: Multi-SVD on PointPWC for Unsupervised Lidar Odometry ( http://arxiv.org/abs/2205.08150v1 )

ライセンス: Link先を確認
Yiming Tu(参考訳) 高精度ライダーオドメティは自動運転の重要な部分である。 近年,ライダーオドメティタスクにおいて深層学習法が広く用いられているが,現在の手法のほとんどは点雲のグローバルな特徴を抽出したものである。 このようにしてより詳細な点レベルの特徴を得ることはできない。 さらに、ポーズを推定するために完全に連結された層のみを使用する。 完全連結層は分類タスクで明らかな結果を得たが、ポーズの変化は離散的なプロセスではなく連続的なものであり、高精度なポーズ推定は完全連結層だけでは得られない。 我々の方法は上記の問題を避ける。 バックボーンネットワークとしてPointPWCを使用します。 PointPWCはもともと、シーンフロー推定に使われた。 シーンフロー推定タスクは,lidarオドメティと強い相関関係を有する。 traget point cloudは、シーンフローとソースポイントクラウドを追加することで得られる。 svd によって解かれた icp アルゴリズムによって, 直接ポーズが達成でき, 完全連結層はもはや使われない。 pointpwcは、異なるサンプリングレベルを持つポイントクラウドからポイントレベルの機能を抽出する。 我々は,KITTI,Ford Campus Vision,Lidar DataSe,Apollo-SouthBay Datasetで実験を行った。 我々の結果は、最先端の教師なし深層学習手法であるSelfVoxeLOに匹敵する。

High-precision lidar odomety is an essential part of autonomous driving. In recent years, deep learning methods have been widely used in lidar odomety tasks, but most of the current methods only extract the global features of the point clouds. It is impossible to obtain more detailed point-level features in this way. In addition, only the fully connected layer is used to estimate the pose. The fully connected layer has achieved obvious results in the classification task, but the changes in pose are a continuous rather than discrete process, high-precision pose estimation can not be obtained only by using the fully connected layer. Our method avoids problems mentioned above. We use PointPWC as our backbone network. PointPWC is originally used for scene flow estimation. The scene flow estimation task has a strong correlation with lidar odomety. Traget point clouds can be obtained by adding the scene flow and source point clouds. We can achieve the pose directly through ICP algorithm solved by SVD, and the fully connected layer is no longer used. PointPWC extracts point-level features from point clouds with different sampling levels, which solves the problem of too rough feature extraction. We conduct experiments on KITTI, Ford Campus Vision and Lidar DataSe and Apollo-SouthBay Dataset. Our result is comparable with the state-of-the-art unsupervised deep learing method SelfVoxeLO.
翻訳日:2022-05-18 14:20:49 公開日:2022-05-17
# dynpl-svo : 動的シーンにおけるステレオ視覚オドメトリーのための点線特徴を用いた新しい手法

DynPL-SVO: A New Method Using Point and Line Features for Stereo Visual Odometry in Dynamic Scenes ( http://arxiv.org/abs/2205.08207v1 )

ライセンス: Link先を確認
Xiaoguang Ma, Ya Wang, Baosheng Zhang, Hong-Jun Ma and Chunbo Luo(参考訳) ステレオカメラを用いてロボットの位置と方向を追跡するステレオ視覚計測が広く用いられている。 アプローチのほとんどは、ステレオ画像のシーケンスに沿ってポイント特徴のマッチングと追跡に基づいて、移動ロボットの動きを復元した。 しかし、低テクスチャとダイナミックなシーンでは、運動推定に十分な頑健な静的な特徴がなく、以前の多くの作業でロボットの動きを再構築できなかった。 しかし、このような低テクスチャとダイナミックなシーンで線の特徴を検出することができる。 本稿では,DynPL-SVOを提案する。DynPL-SVOは$dynamic$$grid$アルゴリズムと,ライン特徴の垂直情報と水平情報の両方を含むコスト関数である。 点と線の特徴の再投影誤差の最小化によりステレオカメラの動作が得られた。 KITTIとEuRoC MAVデータセットの実験結果から、DynPL-SVOは他の最先端システムと比較して、特に低テクスチャおよびダイナミックなシーンにおいて、より堅牢で正確な動き推定を生成することで、競争力のある性能を示した。

Stereo visual odometry is widely used where a robot tracks its position and orientation using stereo cameras. Most of the approaches recovered mobile robotics motion based on the matching and tracking of point features along a sequence of stereo images. But in low-textured and dynamic scenes, there are no sufficient robust static point features for motion estimation, causing lots of previous work to fail to reconstruct the robotic motion. However, line features can be detected in such low-textured and dynamic scenes. In this paper, we proposed DynPL-SVO, a stereo visual odometry with the $dynamic$ $grid$ algorithm and the cost function containing both vertical and horizontal information of the line features. Stereo camera motion was obtained through Levenberg-Marquard minimization of re-projection error of point and line features. The experimental results on the KITTI and EuRoC MAV datasets showed that the DynPL-SVO had a competitive performance when compared to other state-of-the-art systems by producing more robust and accurate motion estimation, especially in low-textured and dynamic scenes.
翻訳日:2022-05-18 14:20:20 公開日:2022-05-17
# ロボットマニピュレーションのための多目的キーポイントの自己教師付き学習

Self-Supervised Learning of Multi-Object Keypoints for Robotic Manipulation ( http://arxiv.org/abs/2205.08316v1 )

ライセンス: Link先を確認
Jan Ole von Hartz, Eugenio Chisari, Tim Welschehold and Abhinav Valada(参考訳) 近年,強化法と模倣法の両方を用いた政策学習法が大きな進歩を遂げている。 しかし、どちらの手法も計算コストが高く、大量のトレーニングデータを必要とする。 この問題は、現実のロボット操作タスクで特に一般的であり、地上の真実のシーン機能にアクセスできず、代わりに生のカメラの観察からポリシーを学ぶことができる。 本稿では,下流政策学習におけるDense Cor correspondence pretext Taskによる画像キーポイントの学習の有効性を示す。 先行研究を多目的シーンに拡張することで、表現学習における重要な問題、主にスケール不変性や閉塞性を扱うために、我々のモデルを訓練できることが示される。 我々は,多様なロボット操作タスクに対するアプローチを評価し,他の視覚表現学習手法と比較し,その柔軟性と有効性を示した。

In recent years, policy learning methods using either reinforcement or imitation have made significant progress. However, both techniques still suffer from being computationally expensive and requiring large amounts of training data. This problem is especially prevalent in real-world robotic manipulation tasks, where access to ground truth scene features is not available and policies are instead learned from raw camera observations. In this paper, we demonstrate the efficacy of learning image keypoints via the Dense Correspondence pretext task for downstream policy learning. Extending prior work to challenging multi-object scenes, we show that our model can be trained to deal with important problems in representation learning, primarily scale-invariance and occlusion. We evaluate our approach on diverse robot manipulation tasks, compare it to other visual representation learning approaches, and demonstrate its flexibility and effectiveness for sample-efficient policy learning.
翻訳日:2022-05-18 14:19:58 公開日:2022-05-17
# unified interactive image matting (英語)

Unified Interactive Image Matting ( http://arxiv.org/abs/2205.08324v1 )

ライセンス: Link先を確認
Stephen.D.H Yang, Bin Wang, Weijia Li, YiQi Lin, Conghui He(参考訳) 近年,複雑な画像処理タスクを実現するために,trimapフリーあるいはインタラクティブな手法を提案する研究が進められている。 トリマップアノテーションの広範な労力を回避しながらも,既存の手法では,(1)複数のオブジェクトを持つ単一イメージに対して,マッチング対象を決定するための追加のインタラクション情報を提供すること,(2)透明なオブジェクトに対しては,RGB画像からのアルファマットの正確な回帰は,不透明画像に比べてはるかに困難である。 本稿では,この制約を解消し,任意のシナリオを満足するインタラクティブな画像マットリング手法であるuimを提案する。 具体的には、UIMは複数のタイプのユーザインタラクションを活用して、複数のマッチングターゲットの曖昧さを回避し、異なるアノテーションタイプの長所と短所を詳細に比較する。 透明で不透明な物体のマッチング性能を統一するために,画像のマッチングを前景のセグメンテーションと透過予測という2つの段階に分離する。 さらに,境界領域の曖昧さを軽減するため,マルチスケールの減衰核融合モジュールを設計する。 実験の結果,コンポジション1kテストセットと合成統一データセットで uim が最先端の性能を達成できた。 コードとモデルはまもなくリリースされます。

Recent image matting studies are developing towards proposing trimap-free or interactive methods for complete complex image matting tasks. Although avoiding the extensive labors of trimap annotation, existing methods still suffer from two limitations: (1) For the single image with multiple objects, it is essential to provide extra interaction information to help determining the matting target; (2) For transparent objects, the accurate regression of alpha matte from RGB image is much more difficult compared with the opaque ones. In this work, we propose a Unified Interactive image Matting method, named UIM, which solves the limitations and achieves satisfying matting results for any scenario. Specifically, UIM leverages multiple types of user interaction to avoid the ambiguity of multiple matting targets, and we compare the pros and cons of different annotation types in detail. To unify the matting performance for transparent and opaque objects, we decouple image matting into two stages, i.e., foreground segmentation and transparency prediction. Moreover, we design a multi-scale attentive fusion module to alleviate the vagueness in the boundary region. Experimental results demonstrate that UIM achieves state-of-the-art performance on the Composition-1K test set and a synthetic unified dataset. Our code and models will be released soon.
翻訳日:2022-05-18 14:19:44 公開日:2022-05-17
# プライベート推定のための新しい下限と\a一般化フィンガープリンティング補題

New Lower Bounds for Private Estimation and\\a Generalized Fingerprinting Lemma ( http://arxiv.org/abs/2205.08532v1 )

ライセンス: Link先を確認
Gautam Kamath, Argyris Mouzakis and Vikrant Singhal(参考訳) 我々は,$\paren{\eps, \delta}$-differential privacy の制約下で統計量推定タスクの新たな下限を証明した。 まず, ガウス分布のプライベート共分散推定のための厳密な下限を与える。 フロベニウスノルムにおける共分散行列の推定には$Omega\paren{d^2}$サンプルが必要であり、スペクトルノルムでは$Omega\paren{d^{\frac{3}{2}}}$サンプルが必要である。 我々はこれらの境界を主要な技術的貢献によって証明し、指数関数族に対してフィンガープリンティング法 --\cite{bunuv14} を広く一般化した。 さらに, acharya, sun, zhang~\cite{acharyasz21} のプライベートアソアド法を用いて,$\ell_2$- distance における有界共変性分布の平均を$\alpha$-error に推定するために,$\omega\paren{\frac{d}{\alpha^2 \eps}}$ という厳密な値を示す。 これらの問題の既知の下限は、多項式的に弱いか、より厳格な条件である$\paren{\eps,0}$-differential privacyのどちらかであった。

We prove new lower bounds for statistical estimation tasks under the constraint of $\paren{\eps, \delta}$-differential privacy. First, we provide tight lower bounds for private covariance estimation of Gaussian distributions. We show that estimating the covariance matrix in Frobenius norm requires $\Omega\paren{d^2}$ samples, and in spectral norm requires $\Omega\paren{d^{\frac{3}{2}}}$ samples, both matching upper bounds up to logarithmic factors. We prove these bounds via our main technical contribution, a broad generalization of the fingerprinting method~\cite{BunUV14} to exponential families. Additionally, using the private Assouad method of Acharya, Sun, and Zhang~\cite{AcharyaSZ21}, we show a tight $\Omega\paren{\frac{d}{\alpha^2 \eps}}$ lower bound for estimating the mean of a distribution with bounded covariance to $\alpha$-error in $\ell_2$-distance. Prior known lower bounds for all these problems were either polynomially weaker or held under the stricter condition of $\paren{\eps,0}$-differential privacy.
翻訳日:2022-05-18 14:19:01 公開日:2022-05-17
# 地理分散型データセンター管理のための機械学習に関する調査

A Survey on Machine Learning for Geo-Distributed Cloud Data Center Management ( http://arxiv.org/abs/2205.08072v1 )

ライセンス: Link先を確認
Ninad Hogade, Sudeep Pasricha(参考訳) 今日のクラウドワークロードは通常、分散環境で管理され、地理的に分散したデータセンターで処理される。 クラウドサービスプロバイダは、運用コストを削減し、インテリジェントなワークロードとリソース管理戦略を使用することで、サービス品質を改善しながら、データセンタをグローバルに分散してきました。 このような大規模かつ複雑なソフトウェアワークロードとハードウェアリソースのオーケストレーションは、効率的な解決が難しい問題です。 研究者や実践者は、さまざまなクラウド管理テクニックを提案して、この問題に対処しようとしています。 数学的最適化技術は、クラウド管理の問題に対処するために歴史的に使われてきた。 しかし、これらのテクニックは地理的に分散した問題サイズにスケールすることは難しく、動的に異種システム環境での適用性は限られており、クラウドサービスプロバイダはインテリジェントなデータ駆動および機械学習(ml)ベースの代替案を探求せざるを得ない。 近年,ML手法を用いた分散クラウドリソースとワークロードの特性,予測,制御,最適化が注目されている。 本稿では,クラウドデータセンタ管理問題に対する最先端のML技術について概説する。 クラウド管理のためのMLに焦点を当てた現在の研究の課題と課題について検討し、これらの課題に対処するための戦略を探る。 また,近年の文献に紹介されているML技術の長所と短所についても論じ,今後の研究方向性を推奨する。

Cloud workloads today are typically managed in a distributed environment and processed across geographically distributed data centers. Cloud service providers have been distributing data centers globally to reduce operating costs while also improving quality of service by using intelligent workload and resource management strategies. Such large scale and complex orchestration of software workload and hardware resources remains a difficult problem to solve efficiently. Researchers and practitioners have been trying to address this problem by proposing a variety of cloud management techniques. Mathematical optimization techniques have historically been used to address cloud management issues. But these techniques are difficult to scale to geo-distributed problem sizes and have limited applicability in dynamic heterogeneous system environments, forcing cloud service providers to explore intelligent data-driven and Machine Learning (ML) based alternatives. The characterization, prediction, control, and optimization of complex, heterogeneous, and ever-changing distributed cloud resources and workloads employing ML methodologies have received much attention in recent years. In this article, we review the state-of-the-art ML techniques for the cloud data center management problem. We examine the challenges and the issues in current research focused on ML for cloud management and explore strategies for addressing these issues. We also discuss advantages and disadvantages of ML techniques presented in the recent literature and make recommendations for future research directions.
翻訳日:2022-05-18 14:16:29 公開日:2022-05-17
# 非正規化一般化政策ミラー降下における政策の収束について

On the Convergence of Policy in Unregularized Generalized Policy Mirror Descent ( http://arxiv.org/abs/2205.08176v1 )

ライセンス: Link先を確認
Dachao Lin, Zhihua Zhang(参考訳) 本稿では,最近の有名な政策ミラー降下(pmd)における政策の収束分析について述べる。 一般にブレグマンの発散を伴う[11] に続く非正規化集合を主に検討する。 違いは、一般的なブレグマン分岐の下でポリシーの収束率を直接与えることである。 この結果は過去の研究における値関数の収束にインスパイアされ、政策ミラー降下に関する拡張研究である。 すでにいくつかの結果が先行研究に現れているが、我々はさらに多くのブレグマン・ダイバージェンスが古典ユークリッド距離のような最適方針に有限ステップ収束できることを発見している。

In this short note, we give the convergence analysis of the policy in the recent famous policy mirror descent (PMD). We mainly consider the unregularized setting following [11] with generalized Bregman divergence. The difference is that we directly give the convergence rates of policy under generalized Bregman divergence. Our results are inspired by the convergence of value function in previous works and are an extension study of policy mirror descent. Though some results have already appeared in previous work, we further discover a large body of Bregman divergences could give finite-step convergence to an optimal policy, such as the classical Euclidean distance.
翻訳日:2022-05-18 14:16:07 公開日:2022-05-17
# 行動シェーピングとノベルティ探索による多種多様な把持軌跡のレパートリーの自動獲得

Automatic Acquisition of a Repertoire of Diverse Grasping Trajectories through Behavior Shaping and Novelty Search ( http://arxiv.org/abs/2205.08189v1 )

ライセンス: Link先を確認
Aur\'elien Morel, Yakumo Kunimoto, Alex Coninx and St\'ephane Doncieux(参考訳) 特定の物体をつかむには、ロボットのエンドエフェクタに特有の専用の把持動作が必要となる。 ロボットや物体に仮説を立てることなく、これらの動きを生成するジェネリックで自律的な方法は存在しない。 学習法は、関連する把持運動を自律的に発見するのに役立つが、それらは重要な問題に直面している: 把持運動は非常に稀であり、探索に基づく学習方法は、興味深い動きを観察する機会がほとんどないため、ブートストラップ問題が発生する。 この問題を解決するために,多様な把持運動を生成する手法を提案する。 運動は、特定の対象位置に対するシミュレーションで生成される。 私たちは、Baxter、Pepper、Kuka Iiwaといったシミュレーションロボットでテストしました。 生成した動きが実際のバクスターロボットで実際に動作することを示すが、目的は、この手法を使用して大規模なデータセットを作成し、ディープラーニング手法をブートストラップすることである。

Grasping a particular object may require a dedicated grasping movement that may also be specific to the robot end-effector. No generic and autonomous method does exist to generate these movements without making hypotheses on the robot or on the object. Learning methods could help to autonomously discover relevant grasping movements, but they face an important issue: grasping movements are so rare that a learning method based on exploration has little chance to ever observe an interesting movement, thus creating a bootstrap issue. We introduce an approach to generate diverse grasping movements in order to solve this problem. The movements are generated in simulation, for particular object positions. We test it on several simulated robots: Baxter, Pepper and a Kuka Iiwa arm. Although we show that generated movements actually work on a real Baxter robot, the aim is to use this method to create a large dataset to bootstrap deep learning methods.
翻訳日:2022-05-18 14:15:56 公開日:2022-05-17
# ROP開始:2次ランダムスケッチによる信号推定

ROP inception: signal estimation with quadratic random sketching ( http://arxiv.org/abs/2205.08225v1 )

ライセンス: Link先を確認
R\'emi Delogne, Vincent Schellekens, and Laurent Jacques(参考訳) 行列のランクワンプロジェクション(ROP)と信号の2次ランダムスケッチは、位相検索や光学処理ユニットなどの最近の画像アプリケーションと同様に、いくつかのデータ処理と機械学習手法をサポートする。 本稿では,そのような二次スケッチを通して信号推定が,その外部積として得られる「リフト信号」のロップと等価である場合,その信号を明示的に再構成することなく,どのように直接操作できるかを実証する。 我々の分析は、小さな偏りのトリックにより、ROP測定演算子は一般化された符号積埋め込み(SPE)特性を満たすことを示した。 spe は一言で言えば、与えられたパターンのスケッチの「記号」を持つ信号スケッチのスカラー積が、このパターン上のその信号の投影の正方形に近似することを示している。 これにより、ROPスケッチ内のROPモデルの挿入("インセプション")となる。 本手法の有効性をいくつかの合成実験で評価した。

Rank-one projections (ROP) of matrices and quadratic random sketching of signals support several data processing and machine learning methods, as well as recent imaging applications, such as phase retrieval or optical processing units. In this paper, we demonstrate how signal estimation can be operated directly through such quadratic sketches--equivalent to the ROPs of the "lifted signal" obtained as its outer product with itself--without explicitly reconstructing that signal. Our analysis relies on showing that, up to a minor debiasing trick, the ROP measurement operator satisfies a generalised sign product embedding (SPE) property. In a nutshell, the SPE shows that the scalar product of a signal sketch with the "sign" of the sketch of a given pattern approximates the square of the projection of that signal on this pattern. This thus amounts to an insertion (an "inception") of a ROP model inside a ROP sketch. The effectiveness of our approach is evaluated in several synthetic experiments.
翻訳日:2022-05-18 14:15:40 公開日:2022-05-17
# IIsy: 実践的なネットワーク内分類

IIsy: Practical In-Network Classification ( http://arxiv.org/abs/2205.08243v1 )

ライセンス: Link先を確認
Changgang Zheng, Zhaoqi Xiong, Thanh T Bui, Siim Kaupmees, Riyad Bensoussane, Antoine Bernabeu, Shay Vargaftik, Yaniv Ben-Itzhak, Noa Zilberman(参考訳) ユーザ生成データとデータ処理システムの競争は、現在、データによって勝利している。 機械学習の利用が増加すると、処理要求がさらに増加し、データボリュームは増加し続ける。 レースに勝つためには、ネットワークを通過するときにデータに機械学習を適用する必要がある。 ネットワーク内のデータの分類は、サーバの負荷を減らし、応答時間を短縮し、スケーラビリティを向上させる。 本稿では,市販のネットワークデバイスを用いたハイブリッド方式で機械学習分類モデルを実装するIIsyを紹介する。 IIsyは、ネットワーク内分類の3つの主な課題をターゲットにしている。 (i)分類モデルをネットワークデバイスにマッピングする (ii)必要な特徴を抽出すること、及び (iii)リソースと機能の制約に対処する。 IIsyはさまざまな従来型およびアンサンブル機械学習モデルをサポートし、スイッチパイプラインのステージ数とは独立してスケールする。 さらに,スイッチとバックエンドの大規模モデルに小さなモデルを実装し,最適な分類結果に近い結果が得られるとともに,サーバの遅延や負荷を大幅に低減する,ハイブリッド分類におけるIIsyの利用を実証する。

The rat race between user-generated data and data-processing systems is currently won by data. The increased use of machine learning leads to further increase in processing requirements, while data volume keeps growing. To win the race, machine learning needs to be applied to the data as it goes through the network. In-network classification of data can reduce the load on servers, reduce response time and increase scalability. In this paper, we introduce IIsy, implementing machine learning classification models in a hybrid fashion using off-the-shelf network devices. IIsy targets three main challenges of in-network classification: (i) mapping classification models to network devices (ii) extracting the required features and (iii) addressing resource and functionality constraints. IIsy supports a range of traditional and ensemble machine learning models, scaling independently of the number of stages in a switch pipeline. Moreover, we demonstrate the use of IIsy for hybrid classification, where a small model is implemented on a switch and a large model at the backend, achieving near optimal classification results, while significantly reducing latency and load on the servers.
翻訳日:2022-05-18 14:15:23 公開日:2022-05-17
# (参考訳) 言語ペア間の機械翻訳の一貫性評価

Consistent Human Evaluation of Machine Translation across Language Pairs ( http://arxiv.org/abs/2205.08533v1 )

ライセンス: CC0 1.0
Daniel Licht, Cynthia Gao, Janice Lam, Francisco Guzman, Mona Diab, Philipp Koehn(参考訳) 人間の評価による機械翻訳システムにおける意味のある品質スコアを得ることは、言語ペアの翻訳品質に対する主観的な期待から、人間の評価者間の高い多様性を考えると、依然として課題である。 我々は,意味的等価性を重視したXSTSと呼ばれる新しい指標と,より一貫した評価を可能にする言語間キャリブレーション手法を提案する。 本研究は,14の言語ペアを対象とした大規模評価研究において,これらの新たな貢献の有効性を実証する。

Obtaining meaningful quality scores for machine translation systems through human evaluation remains a challenge given the high variability between human evaluators, partly due to subjective expectations for translation quality for different language pairs. We propose a new metric called XSTS that is more focused on semantic equivalence and a cross-lingual calibration method that enables more consistent assessment. We demonstrate the effectiveness of these novel contributions in large scale evaluation studies across up to 14 language pairs, with translation both into and out of English.
翻訳日:2022-05-18 14:14:10 公開日:2022-05-17
# 強化学習を用いた微調整変圧器による高能率教師なし文圧縮

Efficient Unsupervised Sentence Compression by Fine-tuning Transformers with Reinforcement Learning ( http://arxiv.org/abs/2205.08221v1 )

ライセンス: Link先を確認
Demian Gholipour Ghalandari, Chris Hokamp, Georgiana Ifrim(参考訳) 文圧縮は、重要な事実と文法性を維持しながら、不要なコンテンツを取り除くことによって、テキストの長さを減少させる。 教師なしの客観的圧縮法は、学習や推論に使用される目的関数の柔軟性を許容しながら、基礎訓練データを必要としないカスタマイズされたモデルを作成するのに使うことができる。 最近の教師なし文圧縮アプローチでは、個別探索を導くためにカスタム目的を用いるが、推論時にはガイド付き検索は高価である。 本研究では,予測生成時にも高速な効率的な文圧縮モデルを学習するための強化学習の活用について検討する。 特に、単純なポリシー勾配アプローチを用いて、タスクをバイナリシーケンスラベリングと事前トレーニングトランスフォーマを微調整した。 提案手法は他の教師なしモデルより優れている一方で,推論時の効率も優れている。

Sentence compression reduces the length of text by removing non-essential content while preserving important facts and grammaticality. Unsupervised objective driven methods for sentence compression can be used to create customized models without the need for ground-truth training data, while allowing flexibility in the objective function(s) that are used for learning and inference. Recent unsupervised sentence compression approaches use custom objectives to guide discrete search; however, guided search is expensive at inference time. In this work, we explore the use of reinforcement learning to train effective sentence compression models that are also fast when generating predictions. In particular, we cast the task as binary sequence labelling and fine-tune a pre-trained transformer using a simple policy gradient approach. Our approach outperforms other unsupervised models while also being more efficient at inference time.
翻訳日:2022-05-18 14:01:59 公開日:2022-05-17
# 過去の手紙:ダイアクロニック・キャラクタの埋め込みによる歴史的音質変化のモデル化

Letters From the Past: Modeling Historical Sound Change Through Diachronic Character Embeddings ( http://arxiv.org/abs/2205.08256v1 )

ライセンス: Link先を確認
Sidsel Boldsen and Patrizia Paggio(参考訳) 語彙的意味変化検出に対するNLPアプローチに関して、多くの研究が行われてきたが、言語変更の他の側面は、NLPコミュニティからあまり注目されていない。 本稿では,歴史的綴りによる音変化の検出について述べる。 PPMI文字埋め込みを用いて,分布間の時間的距離を比較することで,音質変化を捉えることができることを示す。 この仮説を合成データで検証し、デンマークの史料に記録された文書の貸付の歴史的変遷を追跡する手法の能力を検証した。 モデルが検討中の変更のいくつかを識別し、それらが現れる意味のあるコンテキストを明らかにすることができることを示す。 この方法論は、音の相対時間や地理的分布といったオープンな疑問の研究に寄与する可能性がある。

While a great deal of work has been done on NLP approaches to lexical semantic change detection, other aspects of language change have received less attention from the NLP community. In this paper, we address the detection of sound change through historical spelling. We propose that a sound change can be captured by comparing the relative distance through time between their distributions using PPMI character embeddings. We verify this hypothesis in synthetic data and then test the method's ability to trace the well-known historical change of lenition of plosives in Danish historical sources. We show that the models are able to identify several of the changes under consideration and to uncover meaningful contexts in which they appeared. The methodology has the potential to contribute to the study of open questions such as the relative chronology of sound shifts and their geographical distribution.
翻訳日:2022-05-18 14:01:46 公開日:2022-05-17
# 多言語BERTを用いたゼロショット言語間移動における特徴集約

Feature Aggregation in Zero-Shot Cross-Lingual Transfer Using Multilingual BERT ( http://arxiv.org/abs/2205.08497v1 )

ライセンス: Link先を確認
Beiduo Chen, Wu Guo, Quan Liu, Kun Tao(参考訳) 大規模な多言語コーパスで事前訓練された言語モデルであるMultilingual BERT(mBERT)は、ゼロショットのクロスランガルトランスファー機能を備え、ゼロショットPOSタグと名前付きエンティティ認識(NER)、およびクロスランガルモデルトランスファーに驚くほどよく機能する。 現在、言語間下流タスクを解決する主要な方法は、言語情報の表現として、最後のトランスフォーマー層のmBERT出力を常に用いている。 本研究では,mBERTの最後の変圧器層に対する下層の相補的性質について検討する。 mBERTの異なる層に含まれる情報を融合するために,注目機構に基づく特徴集約モジュールを提案する。 4つのゼロショットクロスリンガル転送データセットについて実験を行い,提案手法は,重要多言語ベンチマークタスク xnli (+1.5 %),paws-x (+2.4 %),ner (+1.2 f1),pos (+1.5 f1) の性能改善を実現する。 実験結果から, mBERTの最終層より前の層が, 言語間下流タスクに有用な情報を提供し, mBERTの解釈可能性について実験的に検証できることを示した。

Multilingual BERT (mBERT), a language model pre-trained on large multilingual corpora, has impressive zero-shot cross-lingual transfer capabilities and performs surprisingly well on zero-shot POS tagging and Named Entity Recognition (NER), as well as on cross-lingual model transfer. At present, the mainstream methods to solve the cross-lingual downstream tasks are always using the last transformer layer's output of mBERT as the representation of linguistic information. In this work, we explore the complementary property of lower layers to the last transformer layer of mBERT. A feature aggregation module based on an attention mechanism is proposed to fuse the information contained in different layers of mBERT. The experiments are conducted on four zero-shot cross-lingual transfer datasets, and the proposed method obtains performance improvements on key multilingual benchmark tasks XNLI (+1.5 %), PAWS-X (+2.4 %), NER (+1.2 F1), and POS (+1.5 F1). Through the analysis of the experimental results, we prove that the layers before the last layer of mBERT can provide extra useful information for cross-lingual downstream tasks and explore the interpretability of mBERT empirically.
翻訳日:2022-05-18 14:01:33 公開日:2022-05-17
# 映像オブジェクトセグメンテーションのための協調注意メモリネットワーク

Collaborative Attention Memory Network for Video Object Segmentation ( http://arxiv.org/abs/2205.08075v1 )

ライセンス: Link先を確認
Zhixing Huang, Junli Zha, Fei Xie, Yuwei Zheng, Yuandong Zhong, Jinpeng Tang(参考訳) 半教師付きビデオオブジェクトセグメンテーションはコンピュータビジョンにおける基本的な課題である。 組込みマッチングに基づくCFBIシリーズネットワークは、フォアグラウンド-バックグラウンド統合アプローチによって有望な結果を得た。 優れた性能にもかかわらず、これらの作品には明らかな欠点があり、特に第1フレームの出現例が少ないことによる誤った予測は、前フレームでも容易に認識できる。 さらに、それらは物体の閉塞とエラードリフトに悩まされる。 この欠点を克服するため,セグメンテーションヘッドを改良した協調型アテンションメモリネットワークを提案する。 対象情報を明示的に拡張するオブジェクトコンテキストスキームを導入し、与えられたピクセルと同じカテゴリに属するピクセルをコンテキストとして収集することだけを目的としている。 また、高レベル出力に対して空間ピラミッド注意構造を行うために、特徴ピラミッド注意(fpa)モジュールを備えたセグメンテーションヘッドを採用する。 さらに,STMネットワークとこれらすべての改良されたCFBIネットワークを組み合わせたアンサンブルネットワークを提案する。 最後に,2021年のYoutube-VOSチャレンジにおいて,総合スコア83.5\%の6位を獲得した。

Semi-supervised video object segmentation is a fundamental yet Challenging task in computer vision. Embedding matching based CFBI series networks have achieved promising results by foreground-background integration approach. Despite its superior performance, these works exhibit distinct shortcomings, especially the false predictions caused by little appearance instances in first frame, even they could easily be recognized by previous frame. Moreover, they suffer from object's occlusion and error drifts. In order to overcome the shortcomings , we propose Collaborative Attention Memory Network with an enhanced segmentation head. We introduce a object context scheme that explicitly enhances the object information, which aims at only gathering the pixels that belong to the same category as a given pixel as its context. Additionally, a segmentation head with Feature Pyramid Attention(FPA) module is adopted to perform spatial pyramid attention structure on high-level output. Furthermore, we propose an ensemble network to combine STM network with all these new refined CFBI network. Finally, we evaluated our approach on the 2021 Youtube-VOS challenge where we obtain 6th place with an overall score of 83.5\%.
翻訳日:2022-05-18 14:00:41 公開日:2022-05-17
# メタチャネルアグリゲーションによるオープンワールド意味セグメンテーションのための領域認識メトリック学習

Region-Aware Metric Learning for Open World Semantic Segmentation via Meta-Channel Aggregation ( http://arxiv.org/abs/2205.08083v1 )

ライセンス: Link先を確認
Hexin Dong, Zifan Chen, Mingze Yuan, Yutong Xie, Jie Zhao, Fei Yu, Bin Dong, Li Zhang(参考訳) 最も困難で実用的なセグメンテーションタスクの1つとして、オープンワールドセグメンテーションでは、画像内の異常領域をセグメンテーションし、特に数発の条件下でOODオブジェクトのセグメンテーションを漸進的に学習する必要がある。 現在の最先端(SOTA)手法であるDeep Metric Learning Network (DMLNet)は、画素レベルのメートル法学習に依存しており、異なる意味を持つ類似領域の識別は困難である。 そこで我々は,まず画像の領域を分離し,さらに距離学習を行う領域認識メトリックラーニング(RAML)という手法を提案する。 RAMLはセグメント化された異常領域の整合性を改善する。 さらに,新たなメタチャネルアグリゲーション(MCA)モジュールを提案し,異常領域をさらに分離し,高品質なサブリージョン候補を生成し,OODオブジェクトのモデル性能を向上させる。 提案したRAMLを評価するために,異常セグメンテーションのためのLost And FoundおよびRoad Anomalyデータセットと,漸進的な数ショット学習のためのCityScapesデータセットについて,広範な実験とアブレーション研究を行った。 提案したRAMLは,オープンワールドセグメンテーションの両段階においてSOTA性能を実現する。 私たちのコードと付録はhttps://github.com/czifan/ramlで閲覧できます。

As one of the most challenging and practical segmentation tasks, open-world semantic segmentation requires the model to segment the anomaly regions in the images and incrementally learn to segment out-of-distribution (OOD) objects, especially under a few-shot condition. The current state-of-the-art (SOTA) method, Deep Metric Learning Network (DMLNet), relies on pixel-level metric learning, with which the identification of similar regions having different semantics is difficult. Therefore, we propose a method called region-aware metric learning (RAML), which first separates the regions of the images and generates region-aware features for further metric learning. RAML improves the integrity of the segmented anomaly regions. Moreover, we propose a novel meta-channel aggregation (MCA) module to further separate anomaly regions, forming high-quality sub-region candidates and thereby improving the model performance for OOD objects. To evaluate the proposed RAML, we have conducted extensive experiments and ablation studies on Lost And Found and Road Anomaly datasets for anomaly segmentation and the CityScapes dataset for incremental few-shot learning. The results show that the proposed RAML achieves SOTA performance in both stages of open world segmentation. Our code and appendix are available at https://github.com/czifan/RAML.
翻訳日:2022-05-18 13:59:01 公開日:2022-05-17
# Pseudo LiDARの効率的なステレオ深さ推定:多入力ResNetエンコーダに基づく自己改善手法

Efficient Stereo Depth Estimation for Pseudo LiDAR: A Self-Supervised Approach Based on Multi-Input ResNet Encoder ( http://arxiv.org/abs/2205.08089v1 )

ライセンス: Link先を確認
Sabir Hossain, Xianke Lin(参考訳) パーセプションとローカライゼーションは、その正確な距離測定能力のために、主に3D LiDARセンサーから推定される自動運転車にとって不可欠である。 本稿では,イメージセンサからレーザセンサの代わりにリアルタイムの擬似点雲を得る方法を提案する。 異なる深さ推定器を用いて,LiDARのような擬似点雲を取得し,より良い性能を得るアプローチを提案する。 さらに、深度推定器のトレーニングおよび検証戦略は、より正確な深度推定と点雲の結果を推定するためにステレオ画像データを用いている。 KITTIベンチマークの深度マップ生成に対する我々のアプローチは,他の手法よりもはるかに高速な点雲が得られる。

Perception and localization are essential for autonomous delivery vehicles, mostly estimated from 3D LiDAR sensors due to their precise distance measurement capability. This paper presents a strategy to obtain the real-time pseudo point cloud instead of the laser sensor from the image sensor. We propose an approach to use different depth estimators to obtain pseudo point clouds like LiDAR to obtain better performance. Moreover, the training and validating strategy of the depth estimator has adopted stereo imagery data to estimate more accurate depth estimation as well as point cloud results. Our approach to generating depth maps outperforms on KITTI benchmark while yielding point clouds significantly faster than other approaches.
翻訳日:2022-05-18 13:58:33 公開日:2022-05-17
# イベントフリッカ除去のための線形コムフィルタ

A Linear Comb Filter for Event Flicker Removal ( http://arxiv.org/abs/2205.08090v1 )

ライセンス: Link先を確認
Ziwei Wang, Dingran Yuan, Yonhon Ng and Robert Mahony(参考訳) イベントカメラはバイオインスパイアされたセンサーで、従来のカメラセンサーが捉えた同期的な絶対強度フレームではなく、ピクセル単位の非同期強度変化を捉える。 このようなカメラは、高時間分解能、高ダイナミックレンジ、低レイテンシを有するため、ロボット工学応用に最適である。 しかし、時間分解能が高いため、イベントカメラは蛍光灯やLEDライトなどのフリックに特に敏感である。 明るいものから暗いものまであらゆるサイクルで、点滅する光源を画像化するピクセルは、ロボットにはほとんど、あるいは全く有用な情報を提供しない多くのイベントを生成し、シーンで有用なデータを洗い流す。 本稿では,イベントストリームから不要なflickerイベントを除去するために,イベントデータを前処理するリニアフィルタを提案する。 提案手法は,蛍光灯からのフレッカの有効除去により,生のイベントストリームと比較して信号対雑音比が4.6倍以上向上した。 したがって、照明光源を点滅させて照明する屋内環境やシーンで動作するロボットアプリケーションに適している。

Event cameras are bio-inspired sensors that capture per-pixel asynchronous intensity change rather than the synchronous absolute intensity frames captured by a classical camera sensor. Such cameras are ideal for robotics applications since they have high temporal resolution, high dynamic range and low latency. However, due to their high temporal resolution, event cameras are particularly sensitive to flicker such as from fluorescent or LED lights. During every cycle from bright to dark, pixels that image a flickering light source generate many events that provide little or no useful information for a robot, swamping the useful data in the scene. In this paper, we propose a novel linear filter to preprocess event data to remove unwanted flicker events from an event stream. The proposed algorithm achieves over 4.6 times relative improvement in the signal-to-noise ratio when compared to the raw event stream due to the effective removal of flicker from fluorescent lighting. Thus, it is ideally suited to robotics applications that operate in indoor settings or scenes illuminated by flickering light sources.
翻訳日:2022-05-18 13:58:22 公開日:2022-05-17
# 映像シーン検出のための学習可能な最適シーケンスグルーピング

Learnable Optimal Sequential Grouping for Video Scene Detection ( http://arxiv.org/abs/2205.08249v1 )

ライセンス: Link先を確認
Daniel Rotman, Yevgeny Yaroker, Elad Amrani, Udi Barzelay, Rami Ben-Ari(参考訳) ビデオシーン検出は、動画を時間意味章に分割するタスクである。 これは異種ビデオコンテンツを分析する前に重要な予備段階である。 近年,映像シーン検出問題の定式化を解決するために,OSG(Optimal Sequential Grouping)が強力な教師なしソリューションとして提案されている。 本研究は,OSGの能力を学習体制に拡張するものである。 例から学び、堅牢な最適化定式化を活用することによって、パフォーマンスを高め、技術の汎用性を高めることができます。 各種構成下での深層学習ニューラルネットワークへのOSGの導入に関する包括的分析を行う。 これらの構成には、直接フォワードで埋め込みを学ぶこと、OSGのソリューションを導くために設計された調整された損失、OSGパイプラインを通じて学習を行う統合モデルが含まれる。 徹底的な評価と分析により, 各種構成の利点と挙動を評価し, 学習可能なOSGアプローチは, 技術状況と比較して望ましい動作を示し, 性能が向上していることを示す。

Video scene detection is the task of dividing videos into temporal semantic chapters. This is an important preliminary step before attempting to analyze heterogeneous video content. Recently, Optimal Sequential Grouping (OSG) was proposed as a powerful unsupervised solution to solve a formulation of the video scene detection problem. In this work, we extend the capabilities of OSG to the learning regime. By giving the capability to both learn from examples and leverage a robust optimization formulation, we can boost performance and enhance the versatility of the technology. We present a comprehensive analysis of incorporating OSG into deep learning neural networks under various configurations. These configurations include learning an embedding in a straight-forward manner, a tailored loss designed to guide the solution of OSG, and an integrated model where the learning is performed through the OSG pipeline. With thorough evaluation and analysis, we assess the benefits and behavior of the various configurations, and show that our learnable OSG approach exhibits desirable behavior and enhanced performance compared to the state of the art.
翻訳日:2022-05-18 13:58:06 公開日:2022-05-17
# ノイズドキュメンテーションにおけるOCR改善のための検出マスク

Detection Masking for Improved OCR on Noisy Documents ( http://arxiv.org/abs/2205.08257v1 )

ライセンス: Link先を確認
Daniel Rotman, Ophir Azulai, Inbar Shapira, Yevgeny Burshtein, Udi Barzelay(参考訳) スキャンされた文書からテキスト情報を抽出する光学文字認識(OCR)は、物理的文書のデジタル化とインデックス化に不可欠で広く使われている技術である。 既存の技術はクリーンなドキュメントではうまく機能するが、文書が視覚的に劣化している場合や、テキスト以外の要素がある場合、OCRの品質に大きな影響を与える可能性がある。 本稿では,文書におけるOCRの品質向上のために,マスキングシステムを用いた検出ネットワークの改良を提案する。 画像から非テキスト要素をフィルタリングすることにより、文書レベルのOCRを使用してコンテキスト情報を組み込んでOCR結果を改善することができる。 本手法の有用性と適用性を示すために,公開データセット上で統一的な評価を行う。 さらに、検出結果を改善するために特別に調整されたユニークなハードネガティブなコンポーネントで、合成データセットを提示し、公開し、その使用から得られる利点を評価します。

Optical Character Recognition (OCR), the task of extracting textual information from scanned documents is a vital and broadly used technology for digitizing and indexing physical documents. Existing technologies perform well for clean documents, but when the document is visually degraded, or when there are non-textual elements, OCR quality can be greatly impacted, specifically due to erroneous detections. In this paper we present an improved detection network with a masking system to improve the quality of OCR performed on documents. By filtering non-textual elements from the image we can utilize document-level OCR to incorporate contextual information to improve OCR results. We perform a unified evaluation on a publicly available dataset demonstrating the usefulness and broad applicability of our method. Additionally, we present and make publicly available our synthetic dataset with a unique hard-negative component specifically tuned to improve detection results, and evaluate the benefits that can be gained from its usage
翻訳日:2022-05-18 13:57:50 公開日:2022-05-17
# MulT: エンドツーエンドのマルチタスク学習トランス

MulT: An End-to-End Multitask Learning Transformer ( http://arxiv.org/abs/2205.08303v1 )

ライセンス: Link先を確認
Deblina Bhattacharjee, Tong Zhang, Sabine S\"usstrunk and Mathieu Salzmann(参考訳) 我々は,深度推定,セマンティックセグメンテーション,リシェーディング,表面正規推定,2次元キーポイント検出,エッジ検出など,複数のハイレベルな視覚タスクを同時に学習する,MulTというエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案する。 Swin 変圧器モデルに基づいて入力画像を共有表現に符号化し,タスク固有の変圧器ベースデコーダヘッドを用いて各視覚タスクの予測を行う。 私たちのアプローチの核心は、タスク間の依存関係をモデリングする共有注意メカニズムです。 我々は,マルチタスク・コンボリューション・ニューラル・ネットワーク・モデルと単一タスク・トランスフォーマー・モデルの両方よりもmultフレームワークの方が優れていることを示すため,マルチタスク・ベンチマークでモデルを評価した。 我々の実験は、すべてのタスクにまたがって注意を共有できることの利点をさらに強調し、我々のMulTモデルが堅牢であり、新しいドメインにうまく一般化されていることを示す。 プロジェクトのWebサイトはhttps://ivrl.github.io/MulT/。

We propose an end-to-end Multitask Learning Transformer framework, named MulT, to simultaneously learn multiple high-level vision tasks, including depth estimation, semantic segmentation, reshading, surface normal estimation, 2D keypoint detection, and edge detection. Based on the Swin transformer model, our framework encodes the input image into a shared representation and makes predictions for each vision task using task-specific transformer-based decoder heads. At the heart of our approach is a shared attention mechanism modeling the dependencies across the tasks. We evaluate our model on several multitask benchmarks, showing that our MulT framework outperforms both the state-of-the art multitask convolutional neural network models and all the respective single task transformer models. Our experiments further highlight the benefits of sharing attention across all the tasks, and demonstrate that our MulT model is robust and generalizes well to new domains. Our project website is at https://ivrl.github.io/MulT/.
翻訳日:2022-05-18 13:57:37 公開日:2022-05-17
# GraphMapper: シーングラフ生成による効率的なビジュアルナビゲーション

GraphMapper: Efficient Visual Navigation by Scene Graph Generation ( http://arxiv.org/abs/2205.08325v1 )

ライセンス: Link先を確認
Zachary Seymour, Niluthpol Chowdhury Mithun, Han-Pang Chiu, Supun Samarasekera, Rakesh Kumar(参考訳) シーン内の物体間の幾何学的関係を理解することは、人間と自律的なエージェントの両方が新しい環境をナビゲートできる中心的な能力である。 シーントポロジーの疎結合な表現により、エージェントは効率的に行動し、環境を移動し、環境状態と他の人と通信し、さまざまな下流タスクの表現を利用することができます。 そこで本研究では,自律エージェントが環境の3次元シーングラフ表現を同時に学習することで,環境の蓄積を学習する手法を提案する。 われわれのアプローチであるGraphMapperは、視覚ベースのシステム単独よりも環境とのインタラクションが少なく、効果的なナビゲーションポリシーの学習を可能にすることを実証する。 さらに,GraphMapperは,既存の学習ベースソリューションと連携して動作するモジュール型シーンエンコーダとして機能し,ナビゲーション効率を向上するだけでなく,他の将来のタスクに有用な中間シーン表現を生成することができることを示す。

Understanding the geometric relationships between objects in a scene is a core capability in enabling both humans and autonomous agents to navigate in new environments. A sparse, unified representation of the scene topology will allow agents to act efficiently to move through their environment, communicate the environment state with others, and utilize the representation for diverse downstream tasks. To this end, we propose a method to train an autonomous agent to learn to accumulate a 3D scene graph representation of its environment by simultaneously learning to navigate through said environment. We demonstrate that our approach, GraphMapper, enables the learning of effective navigation policies through fewer interactions with the environment than vision-based systems alone. Further, we show that GraphMapper can act as a modular scene encoder to operate alongside existing Learning-based solutions to not only increase navigational efficiency but also generate intermediate scene representations that are useful for other future tasks.
翻訳日:2022-05-18 13:57:19 公開日:2022-05-17
# ColonFormer: Colon Polypセグメンテーションのための効率的なトランスフォーマーベースの方法

ColonFormer: An Efficient Transformer based Method for Colon Polyp Segmentation ( http://arxiv.org/abs/2205.08473v1 )

ライセンス: Link先を確認
Nguyen Thanh Duc, Nguyen Thi Oanh, Nguyen Thi Thuy, Tran Minh Triet, Dinh Viet Sang(参考訳) コンピュータ支援臨床支援システムにおける内視鏡画像の自動解析におけるポリープの同定は困難である。 畳み込みネットワーク(CNN)、トランスフォーマー、およびそれらの組み合わせに基づくモデルが提案され、有望な結果とともにポリプを分割する。 しかし、これらのアプローチは、ポリプの局所的な外観のみをモデル化するか、デコーディングプロセスにおける空間依存のマルチレベルな特徴の欠如に制限がある。 本稿では,これらの制約に対処する新しいネットワークであるColonFormerを提案する。 colonformerはエンコーダ/デコーダのアーキテクチャで、エンコーダとデコーダのブランチの両方で長距離の意味情報をモデリングできる。 エンコーダは、グローバルセマンティクス関係をマルチスケールでモデリングするためのトランスフォーマーに基づく軽量アーキテクチャである。 デコーダはマルチレベルの特徴を学習して特徴表現を強化するために設計された階層型ネットワーク構造である。 さらに,グローバルマップにおけるポリプオブジェクトの境界を精密に分割するために,新しいスキップ接続技術により改良モジュールが加えられた。 Kvasir、CVC-Clinic DB、CVCColonDB、EndoScene、ETISなど、Polypセグメンテーションのための5つの一般的なベンチマークデータセットで大規模な実験が行われた。 実験の結果,我々のColonFormerは,すべてのベンチマークデータセットで最先端のパフォーマンスを達成できた。

Identifying polyps is a challenging problem for automatic analysis of endoscopic images in computer-aided clinical support systems. Models based on convolutional networks (CNN), transformers, and combinations of them have been proposed to segment polyps with promising results. However, those approaches have limitations either in modeling the local appearance of the polyps only or lack of multi-level features for spatial dependency in the decoding process. This paper proposes a novel network, namely ColonFormer, to address these limitations. ColonFormer is an encoder-decoder architecture with the capability of modeling long-range semantic information at both encoder and decoder branches. The encoder is a lightweight architecture based on transformers for modeling global semantic relations at multi scales. The decoder is a hierarchical network structure designed for learning multi-level features to enrich feature representation. Besides, a refinement module is added with a new skip connection technique to refine the boundary of polyp objects in the global map for accurate segmentation. Extensive experiments have been conducted on five popular benchmark datasets for polyp segmentation, including Kvasir, CVC-Clinic DB, CVCColonDB, EndoScene, and ETIS. Experimental results show that our ColonFormer achieve state-of-the-art performance on all benchmark datasets.
翻訳日:2022-05-18 13:57:04 公開日:2022-05-17
# 自己教師型ニューラルアーティキュレート形状と外観モデル

Self-supervised Neural Articulated Shape and Appearance Models ( http://arxiv.org/abs/2205.08525v1 )

ライセンス: Link先を確認
Fangyin Wei, Rohan Chabra, Lingni Ma, Christoph Lassner, Michael Zollh\"ofer, Szymon Rusinkiewicz, Chris Sweeney, Richard Newcombe, Mira Slavcheva(参考訳) オブジェクトクラスの幾何学、運動、外観の事前学習は、様々なコンピュータビジョン問題の解法において重要である。 ほとんどのアプローチは静的オブジェクトに焦点を合わせているが、動的オブジェクト、特に制御可能な調音では、あまり探索されていない。 そこで本研究では,一組のカラー画像のみを入力として与えられた明瞭な物体の形状,外観,運動の表現を学習するための新しいアプローチを提案する。 自己監督的な方法で、我々の新しい表現は、これらの意味的次元を独立に制御できる形状、外観、調音符号を学習する。 私たちのモデルは、調音アノテーションを必要とせずにエンドツーエンドでトレーニングされています。 実験により, 関節の変形, 基部関節, 関節の異なる組み合わせなど, 各種の関節タイプに対して良好に機能することが確認された。 直接3次元観察技術を用いて外観を出力しない技術と比較して、より忠実な幾何学と外観を2次元観察からのみ回収する。 さらに,この表現は,少ないショットの再構成,新しい調音の生成,新しい視点合成など,多種多様な応用が可能となる。

Learning geometry, motion, and appearance priors of object classes is important for the solution of a large variety of computer vision problems. While the majority of approaches has focused on static objects, dynamic objects, especially with controllable articulation, are less explored. We propose a novel approach for learning a representation of the geometry, appearance, and motion of a class of articulated objects given only a set of color images as input. In a self-supervised manner, our novel representation learns shape, appearance, and articulation codes that enable independent control of these semantic dimensions. Our model is trained end-to-end without requiring any articulation annotations. Experiments show that our approach performs well for different joint types, such as revolute and prismatic joints, as well as different combinations of these joints. Compared to state of the art that uses direct 3D supervision and does not output appearance, we recover more faithful geometry and appearance from 2D observations only. In addition, our representation enables a large variety of applications, such as few-shot reconstruction, the generation of novel articulations, and novel view-synthesis.
翻訳日:2022-05-18 13:55:56 公開日:2022-05-17
# 密集予測用視覚変圧器アダプタ

Vision Transformer Adapter for Dense Predictions ( http://arxiv.org/abs/2205.08534v1 )

ライセンス: Link先を確認
Zhe Chen, Yuchen Duan, Wenhai Wang, Junjun He, Tong Lu, Jifeng Dai, Yu Qiao(参考訳) 本研究は視覚変換器(ViT)の簡易かつ強力なアダプタについて検討する。 視覚固有の帰納バイアスをアーキテクチャに導入する最近のビジュアルトランスフォーマーとは異なり、ViTは画像の事前情報がないため、高密度な予測タスクでは性能が劣る。 そこで本研究では,vitの欠陥を修正可能な視覚トランスフォーマアダプタ (vit-adapter) を提案する。 具体的には、私たちのフレームワークのバックボーンは、マルチモーダルデータで事前トレーニング可能なバニラ変換器です。 下流タスクを微調整する場合、データとタスクの事前情報をモデルに導入するためにモダリティ固有のアダプタが使用され、これらのタスクに適合する。 我々は、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションを含む複数の下流タスクにおけるViT-Adapterの有効性を検証する。 特にhtc++を使用する場合、vit-adapter-l は coco test-dev 上で 60.1 box ap と 52.1 mask ap となり、swin-l を 1.4 box ap と 1.0 mask ap で上回る。 セマンティックセグメンテーションのために、私たちのViT-Adapter-LはADE20K val上で60.5 mIoUの新たな最先端を確立します。 提案したViT-Adapterが、視覚特異的トランスフォーマーの代替となり、将来の研究を促進することを期待している。

This work investigates a simple yet powerful adapter for Vision Transformer (ViT). Unlike recent visual transformers that introduce vision-specific inductive biases into their architectures, ViT achieves inferior performance on dense prediction tasks due to lacking prior information of images. To solve this issue, we propose a Vision Transformer Adapter (ViT-Adapter), which can remedy the defects of ViT and achieve comparable performance to vision-specific models by introducing inductive biases via an additional architecture. Specifically, the backbone in our framework is a vanilla transformer that can be pre-trained with multi-modal data. When fine-tuning on downstream tasks, a modality-specific adapter is used to introduce the data and tasks' prior information into the model, making it suitable for these tasks. We verify the effectiveness of our ViT-Adapter on multiple downstream tasks, including object detection, instance segmentation, and semantic segmentation. Notably, when using HTC++, our ViT-Adapter-L yields 60.1 box AP and 52.1 mask AP on COCO test-dev, surpassing Swin-L by 1.4 box AP and 1.0 mask AP. For semantic segmentation, our ViT-Adapter-L establishes a new state-of-the-art of 60.5 mIoU on ADE20K val, 0.6 points higher than SwinV2-G. We hope that the proposed ViT-Adapter could serve as an alternative for vision-specific transformers and facilitate future research.
翻訳日:2022-05-18 13:55:41 公開日:2022-05-17
# アバターCLIP:3次元アバターのゼロショットテキスト駆動生成とアニメーション

AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars ( http://arxiv.org/abs/2205.08535v1 )

ライセンス: Link先を確認
Fangzhou Hong, Mingyuan Zhang, Liang Pan, Zhongang Cai, Lei Yang, Ziwei Liu(参考訳) 3Dアバターはデジタル時代において重要な役割を担っている。 しかし、生産プロセス全体が不当に時間がかかり、労働集約的である。 この技術をより多くのオーディエンスに広めるために,我々は3dアバターの生成とアニメーションのためのゼロショットテキスト駆動フレームワークであるavatarclipを提案する。 専門家の知識を必要とするプロのソフトウェアとは異なり、AvatarCLIPは3Dアバターを好みの形状とテクスチャでカスタマイズし、単に自然言語で記述したモーションでアバターを駆動する。 私たちの重要な洞察は、3次元幾何学、テクスチャ、アニメーションの観点から、ニューラルネットワーク生成を監督する強力な視覚言語モデルCLIPを活用することです。 具体的には, 自然言語記述により, 形状VAEネットワークによる3次元人体形状生成を初期化する。 生成した3次元人体形状に基づいてボリュームレンダリングモデルを用いて、さらに幾何学的彫刻とテクスチャ生成を容易にする。 さらに,動きVAEで学習した先行情報を活用することで,生成された3Dアバターのアニメーションに対してCLIP誘導参照ベースモーション合成法を提案する。 広範囲なアバター上でのアバターCLIPの有効性と一般化性を検証する。 注目すべきは、AvatarCLIPは、新しいアニメーションで見えない3Dアバターを生成することができ、優れたゼロショット機能を実現することである。

3D avatar creation plays a crucial role in the digital age. However, the whole production process is prohibitively time-consuming and labor-intensive. To democratize this technology to a larger audience, we propose AvatarCLIP, a zero-shot text-driven framework for 3D avatar generation and animation. Unlike professional software that requires expert knowledge, AvatarCLIP empowers layman users to customize a 3D avatar with the desired shape and texture, and drive the avatar with the described motions using solely natural languages. Our key insight is to take advantage of the powerful vision-language model CLIP for supervising neural human generation, in terms of 3D geometry, texture and animation. Specifically, driven by natural language descriptions, we initialize 3D human geometry generation with a shape VAE network. Based on the generated 3D human shapes, a volume rendering model is utilized to further facilitate geometry sculpting and texture generation. Moreover, by leveraging the priors learned in the motion VAE, a CLIP-guided reference-based motion synthesis method is proposed for the animation of the generated 3D avatar. Extensive qualitative and quantitative experiments validate the effectiveness and generalizability of AvatarCLIP on a wide range of avatars. Remarkably, AvatarCLIP can generate unseen 3D avatars with novel animations, achieving superior zero-shot capability.
翻訳日:2022-05-18 13:55:11 公開日:2022-05-17
# 悪い教えは忘れを誘うか? 無能な教師を用いた深層ネットワークの非学習

Can Bad Teaching Induce Forgetting? Unlearning in Deep Networks using an Incompetent Teacher ( http://arxiv.org/abs/2205.08096v1 )

ライセンス: Link先を確認
Vikram S Chundawat, Ayush K Tarun, Murari Mandal, Mohan Kankanhalli(参考訳) 機械学習(ML)アプリケーションへのデータプライバシ規則と規則の進化に焦点が当てられているため、機械学習は研究の重要分野となっている。 これにより、スクラッチから再トレーニングすることなく、すでにトレーニング済みのMLモデルから特定のセットやクラスのデータを削除する要求が容易になる。 近年,非学習を効果的かつ効率的に行う試みがいくつか行われている。 そこで本研究では,学習者や教師の指導力の欠如を意識した学習手法を提案する。 有能で無能な教師からの知識は、生徒に選択的に伝達され、忘れられたデータに関する情報を一切含まないモデルを得る。 実験により, この手法は十分に一般化し, 高速かつ効果的であることを示した。 さらに,無学習法を評価するために,ゼロリトレインフォーティング(zrf)メトリックを導入する。 既存の未学習のメトリクスとは異なり、ZRFスコアは高価な再学習モデルの可用性に依存しない。 これにより、デプロイ後の未学習モデルの分析にも役立ちます。 実験は、様々なディープネットワークおよび異なるアプリケーションドメイン上で、無作為なサブセット忘れとクラス忘れのための実験である。 また、患者の医療記録に関する情報を忘れるユースケースも紹介する。

Machine unlearning has become an important field of research due to an increasing focus on addressing the evolving data privacy rules and regulations into the machine learning (ML) applications. It facilitates the request for removal of certain set or class of data from the already trained ML model without retraining from scratch. Recently, several efforts have been made to perform unlearning in an effective and efficient manner. We propose a novel machine unlearning method by exploring the utility of competent and incompetent teachers in a student-teacher framework to induce forgetfulness. The knowledge from the competent and incompetent teachers is selectively transferred to the student to obtain a model that doesn't contain any information about the forget data. We experimentally show that this method is well generalized, fast, and effective. Furthermore, we introduce a zero retrain forgetting (ZRF) metric to evaluate the unlearning method. Unlike the existing unlearning metrics, the ZRF score does not depend on the availability of the expensive retrained model. This makes it useful for analysis of the unlearned model after deployment as well. The experiments are conducted for random subset forgetting and class forgetting on various deep networks and across different application domains. A use case of forgetting information about the patients' medical records is also presented.
翻訳日:2022-05-18 13:54:32 公開日:2022-05-17
# グラフ学習におけるgromov-wassersteinの高速収束アルゴリズム

Fast and Provably Convergent Algorithms for Gromov-Wasserstein in Graph Learning ( http://arxiv.org/abs/2205.08115v1 )

ライセンス: Link先を確認
Jiajin Li, Jianheng Tang, Lemin Kong, Huikang Liu, Jia Li, Anthony Man-Cho So, Jose Blanchet(参考訳) 本稿では,大規模グラフ学習タスクに適応したgromov-wasserstein (gw) 距離を計算するための効率的なアルゴリズム群の設計と解析について検討する。 Luo-Tseng 誤差境界条件~\cite{luo 1992error} によって、Bregman Alternating Projected Gradient (BAPG) とハイブリッドBregman Proximal Gradient (hBPG) と呼ばれる2つのアルゴリズムが(ほぼ)収束することが証明されている。 さらに,タスク固有の特性から,最適な方法を選択する方法についての新たな理論的洞察を提供する。 その結果,グラフアライメント,グラフ分割,形状マッチングなど,タスクのホスト上での手法の有効性を検証するための総合的な実験が可能となった。 壁時計時間とモデリング性能の両面で,提案手法は最先端の結果を得る。

In this paper, we study the design and analysis of a class of efficient algorithms for computing the Gromov-Wasserstein (GW) distance tailored to large-scale graph learning tasks. Armed with the Luo-Tseng error bound condition~\cite{luo1992error}, two proposed algorithms, called Bregman Alternating Projected Gradient (BAPG) and hybrid Bregman Proximal Gradient (hBPG) are proven to be (linearly) convergent. Upon task-specific properties, our analysis further provides novel theoretical insights to guide how to select the best fit method. As a result, we are able to provide comprehensive experiments to validate the effectiveness of our methods on a host of tasks, including graph alignment, graph partition, and shape matching. In terms of both wall-clock time and modeling performance, the proposed methods achieve state-of-the-art results.
翻訳日:2022-05-18 13:54:15 公開日:2022-05-17
# 勾配ベースバッチサイズ適応のためのハイパーラーニング

Hyper-Learning for Gradient-Based Batch Size Adaptation ( http://arxiv.org/abs/2205.08231v1 )

ライセンス: Link先を確認
Calum Robert MacLellan and Feng Dong(参考訳) バッチサイズの増加をスケジューリングすることは、ディープニューラルネットワークをトレーニングする際の勾配ノイズを制御する効果的な戦略である。 現在のアプローチでは、最適化手順内の構造を無視するスケジューリングヒューリスティックを実装し、その柔軟性をトレーニングダイナミクスに制限し、一般化に対する適応の影響を識別する。 本稿では,メタ目的関数からの勾配を用いた学習可能なスケジューリングヒューリスティックに対するバッチサイズ適応を行うための新しいハイパーパラメータ最適化アルゴリズムとしてarbiterを導入する。 ハイパーラーニングにより、Arbiterはニューラルネットワークエージェントを定式化し、T内部降下ステップ上の共役反応を観察して適応的ヒューリスティックを学習することで、インナーディープネットワークのための最適なバッチサイズサンプルを生成する。 Arbiterはアンロール最適化を回避し、勾配を緩和するためにハイパーネットワークを必要としないため、合理的に安価で、実装が簡単で、異なるタスクに多用できる。 単回バッチサイズスケジューラとして動作し,固定バッチサイズスケジューラを高い柔軟性で補完し,確率的メタ最適化時の分散低減を促進するという,いくつかの実証実験においてarbiterの有効性を示す。

Scheduling the batch size to increase is an effective strategy to control gradient noise when training deep neural networks. Current approaches implement scheduling heuristics that neglect structure within the optimization procedure, limiting their flexibility to the training dynamics and capacity to discern the impact of their adaptations on generalization. We introduce Arbiter as a new hyperparameter optimization algorithm to perform batch size adaptations for learnable scheduling heuristics using gradients from a meta-objective function, which overcomes previous heuristic constraints by enforcing a novel learning process called hyper-learning. With hyper-learning, Arbiter formulates a neural network agent to generate optimal batch size samples for an inner deep network by learning an adaptive heuristic through observing concomitant responses over T inner descent steps. Arbiter avoids unrolled optimization, and does not require hypernetworks to facilitate gradients, making it reasonably cheap, simple to implement, and versatile to different tasks. We demonstrate Arbiter's effectiveness in several illustrative experiments: to act as a stand-alone batch size scheduler; to complement fixed batch size schedules with greater flexibility; and to promote variance reduction during stochastic meta-optimization of the learning rate.
翻訳日:2022-05-18 13:53:56 公開日:2022-05-17
# 変分オートエンコーダはどのように学習するか? 表現の類似性から学ぶ

How do Variational Autoencoders Learn? Insights from Representational Similarity ( http://arxiv.org/abs/2205.08399v1 )

ライセンス: Link先を確認
Lisa Bonheme and Marek Grzes(参考訳) 変分オートエンコーダ(vaes)が異種表現を学習する能力は、実用的用途に人気を博している。 しかし、その行動はまだ完全には理解されていない。 例えば、不整合表現をいつ提供できるか、あるいは後部崩壊に苦しむのかという疑問は、まだ活発な研究領域である。 しかしながら、VAEが学習した表現を階層的に比較することはできず、これらのモデルをさらに理解することになる。 本稿では,VAEの内部挙動を表現的類似性技術を用いて考察する。 具体的には、CKAとProcrustesの類似性を用いて、エンコーダの表現はデコーダよりもずっと早く学習され、この振る舞いはハイパーパラメータ、学習目的、データセットから独立している。 さらに、平均層と分散層までのエンコーダの表現は、ハイパーパラメータと学習目標にわたって類似している。

The ability of Variational Autoencoders (VAEs) to learn disentangled representations has made them popular for practical applications. However, their behaviour is not yet fully understood. For example, the questions of when they can provide disentangled representations, or suffer from posterior collapse are still areas of active research. Despite this, there are no layerwise comparisons of the representations learned by VAEs, which would further our understanding of these models. In this paper, we thus look into the internal behaviour of VAEs using representational similarity techniques. Specifically, using the CKA and Procrustes similarities, we found that the encoders' representations are learned long before the decoders', and this behaviour is independent of hyperparameters, learning objectives, and datasets. Moreover, the encoders' representations up to the mean and variance layers are similar across hyperparameters and learning objectives.
翻訳日:2022-05-18 13:53:33 公開日:2022-05-17
# DNNR: 隣り合う隣人の違い

DNNR: Differential Nearest Neighbors Regression ( http://arxiv.org/abs/2205.08434v1 )

ライセンス: Link先を確認
Youssef Nader, Leon Sixt, Tim Landgraf(参考訳) K-nearest neighbors (KNN) は機械学習において最も早く確立されたアルゴリズムの1つである。 地区の定義は、非形式的特徴に基づいて隣人が選択される可能性があり、平均化は、関数が局所的にどのように変化するかを考慮しないため、予測性能に不可欠である。 そこで本研究では,DNNRの学習において,局所勾配を推定して特徴を拡張させるDNNR(differial Nearest Neighbors Regression)という手法を提案する。 250以上のデータセットを大規模に評価した結果,dnnrはnnの単純さと透明性を維持しつつ,最先端の勾配強調法とmlpとを両立できることがわかった。 これにより、理論上のエラー境界を導出し、障害を検査できます。 MLモデルの透明性を求める場合、DNNRはパフォーマンスと解釈可能性のバランスが良くなります。

K-nearest neighbors (KNN) is one of the earliest and most established algorithms in machine learning. For regression tasks, KNN averages the targets within a neighborhood which poses a number of challenges: the neighborhood definition is crucial for the predictive performance as neighbors might be selected based on uninformative features, and averaging does not account for how the function changes locally. We propose a novel method called Differential Nearest Neighbors Regression (DNNR) that addresses both issues simultaneously: during training, DNNR estimates local gradients to scale the features; during inference, it performs an n-th order Taylor approximation using estimated gradients. In a large-scale evaluation on over 250 datasets, we find that DNNR performs comparably to state-of-the-art gradient boosting methods and MLPs while maintaining the simplicity and transparency of KNN. This allows us to derive theoretical error bounds and inspect failures. In times that call for transparency of ML models, DNNR provides a good balance between performance and interpretability.
翻訳日:2022-05-18 13:53:18 公開日:2022-05-17
# (参考訳) ニューラルネットワークは多様体を最適に圧縮するか?

Do Neural Networks Compress Manifolds Optimally? ( http://arxiv.org/abs/2205.08518v1 )

ライセンス: CC BY 4.0
Sourbh Bhadane, Aaron B. Wagner, Johannes Ball\'e(参考訳) 人工ニューラルネットワーク(annベース)の損失圧縮機は最近、いくつかのソースで目覚ましい結果を得ている。 それらの成功は、高次元の周囲空間における低次元多様体の構造を識別する能力によるものと考えられる。 実際、以前の研究では、アン系圧縮機がそのようなソースに対して最適なエントロピー・ディストレクション曲線を達成できることが示されている。 対照的に、円形構造を持つ2つの低次元多様体に対する最適エントロピー歪トレードオフを決定し、最先端のANN圧縮機が特に高速でソースを最適に圧縮できないことを示す。

Artificial Neural-Network-based (ANN-based) lossy compressors have recently obtained striking results on several sources. Their success may be ascribed to an ability to identify the structure of low-dimensional manifolds in high-dimensional ambient spaces. Indeed, prior work has shown that ANN-based compressors can achieve the optimal entropy-distortion curve for some such sources. In contrast, we determine the optimal entropy-distortion tradeoffs for two low-dimensional manifolds with circular structure and show that state-of-the-art ANN-based compressors fail to optimally compress the sources, especially at high rates.
翻訳日:2022-05-18 13:52:20 公開日:2022-05-17
# latent variable method demonstrator -- 多変量データ解析アルゴリズムを理解するためのソフトウェア

Latent Variable Method Demonstrator -- Software for Understanding Multivariate Data Analytics Algorithms ( http://arxiv.org/abs/2205.08132v1 )

ライセンス: Link先を確認
Joachim Schaeffer and Richard Braatz(参考訳) 多変量プロセスデータの増加は、熟練したエンジニアがそのようなデータからモデルを分析し、解釈し、構築する必要性を増している。 多変量データ分析は線形代数、最適化、統計に大きく依存しており、ほとんどのカリキュラムが後3つのトピックに強いカバレッジを持っていないため、学生には理解が困難である。 本稿では,潜在変数デモンストレータ(latent variable demonstrator,lavade)による,潜在変数メソッドの指導,学習,理解のためのインタラクティブソフトウェアについて述べる。 本ソフトウェアでは,PLS (Partial Least Squares) やプリンシパルコンポーネント回帰 (Principal Component Regression, PCR) などの潜伏変数メソッドと,Least Absolute Shrinkage and Selection Operator (lasso), Ridge Regression (RR), Elastic Net (EN) などの回帰手法を対話的に比較することができる。 LAVADEは、適切な方法、ハイパーパラメータチューニング、モデル係数解釈の選択に関する直観の構築を支援し、アルゴリズムの違いの概念的理解を促進する。 このソフトウェアは、データ生成方法と3つの化学プロセスデータセットを含み、異なる複雑さのレベルとデータセットの結果を比較することができる。 LAVADEはオープンソースソフトウェアとしてリリースされており、他の人が教育や研究に使用するツールを応用し前進させることができる。

The ever-increasing quantity of multivariate process data is driving a need for skilled engineers to analyze, interpret, and build models from such data. Multivariate data analytics relies heavily on linear algebra, optimization, and statistics and can be challenging for students to understand given that most curricula do not have strong coverage in the latter three topics. This article describes interactive software -- the Latent Variable Demonstrator (LAVADE) -- for teaching, learning, and understanding latent variable methods. In this software, users can interactively compare latent variable methods such as Partial Least Squares (PLS), and Principal Component Regression (PCR) with other regression methods such as Least Absolute Shrinkage and Selection Operator (lasso), Ridge Regression (RR), and Elastic Net (EN). LAVADE helps to build intuition on choosing appropriate methods, hyperparameter tuning, and model coefficient interpretation, fostering a conceptual understanding of the algorithms' differences. The software contains a data generation method and three chemical process datasets, allowing for comparing results of datasets with different levels of complexity. LAVADE is released as open-source software so that others can apply and advance the tool for use in teaching or research.
翻訳日:2022-05-18 13:31:44 公開日:2022-05-17
# 肺塞栓症患者の胸部ct画像からの周期生成逆ネットワークを用いたct肺血管造影画像シミュレーション

Computerized Tomography Pulmonary Angiography Image Simulation using Cycle Generative Adversarial Network from Chest CT imaging in Pulmonary Embolism Patients ( http://arxiv.org/abs/2205.08106v1 )

ライセンス: Link先を確認
Chia-Hung Yang, Yun-Chien Cheng, Chin Kuo(参考訳) 本研究の目的は,肺塞栓症診断のためのCTPA画像を作成するシステムを開発することである。 近年,CTPA画像は肺塞栓症(PE)の症状を判定し,同定するための金の標準コンピュータ化検出法となっているが,CTPAの実行は患者にとって有害であり,費用もかかる。 そこで本研究では,CT画像を用いてPE患者を診断することを目的とする。 このシステムは、PE患者の症状を識別するための深層学習モデルを用いてCTPA画像をシミュレートし、医師にPE患者を判定するための別の基準を提供する。 本研究では,CTPA画像生成システムを用いて,CT画像中の肺血管の特徴を増強し,画像の基準値を強化し,PE患者を判定するための病院の基盤を提供する。 当院におけるCTPA画像とそれに対応するCTPA画像とをCTPA画像シミュレーションの訓練データとして使用し, 2種類の生成対策ネットワークを用いて作成した。 本研究は, 肺塞栓症の臨床診断における新たなアプローチとして, 深層学習ネットワークを用いて複雑なスクリーニングプロセスを支援し, 生成したCTPA画像のレビューを行い, 患者がCTPAの詳細な検査を行う必要があるかどうかを診断し, 肺塞栓症の検出速度を向上し, 未検出患者数を著しく減少させることが期待される。

The purpose of this research is to develop a system that generates simulated computed tomography pulmonary angiography (CTPA) images clinically for pulmonary embolism diagnoses. Nowadays, CTPA images are the gold standard computerized detection method to determine and identify the symptoms of pulmonary embolism (PE), although performing CTPA is harmful for patients and also expensive. Therefore, we aim to detect possible PE patients through CT images. The system will simulate CTPA images with deep learning models for the identification of PE patients' symptoms, providing physicians with another reference for determining PE patients. In this study, the simulated CTPA image generation system uses a generative antagonistic network to enhance the features of pulmonary vessels in the CT images to strengthen the reference value of the images and provide a basis for hospitals to judge PE patients. We used the CT images of 22 patients from National Cheng Kung University Hospital and the corresponding CTPA images as the training data for the task of simulating CTPA images and generated them using two sets of generative countermeasure networks. This study is expected to propose a new approach to the clinical diagnosis of pulmonary embolism, in which a deep learning network is used to assist in the complex screening process and to review the generated simulated CTPA images, allowing physicians to assess whether a patient needs to undergo detailed testing for CTPA, improving the speed of detection of pulmonary embolism and significantly reducing the number of undetected patients.
翻訳日:2022-05-18 13:31:16 公開日:2022-05-17
# 深層学習による腕神経靭帯神経幹分節術 : 医師の手話分節との比較検討

Brachial Plexus Nerve Trunk Segmentation Using Deep Learning: A Comparative Study with Doctors' Manual Segmentation ( http://arxiv.org/abs/2205.08143v1 )

ライセンス: Link先を確認
Yu Wang, Binbin Zhu, Lingsi Kong, Jianlin Wang, Bin Gao, Jianhua Wang, Dingcheng Tian, and Yudong Yao(参考訳) 超音波ガイド下神経ブロック麻酔(英: Ultrasound-Guided nerve block anesthesia, UGNB)は、標的神経とその周囲構造、穿刺針の進行、局所麻酔をリアルタイムで観察できる高次視覚ブロック麻酔法である。 UGNBの鍵は神経の識別である。 深層学習の助けを借りて、神経ブロック麻酔を正確かつ効率的に完了させることで、神経の自動識別や分節化を実現することができる。 本稿では,ブラキアルプレクス(bp)の320個の超音波画像を含む公開データセットを構築した。 3人の経験豊富な医師がBPセグメンテーションの真実と腕神経叢のトランクを共同で生成した。 深層学習に基づく腕神経叢分割システム(BPSegSys)を設計する。 BPSegSysは様々な実験で経験者レベルの神経識別性能を達成する。 我々は,BPSegSysの性能を,セグメンテーション実験でよく用いられる性能指標であるIoUを用いて評価した。 bpsegsys の iou はそれぞれ 0.5238, 0.4715, 0.5029 であり,iou 0.5205, 0.4704, 0.4979 を超える。 さらに, bpsegsysは, iouが最大27%改善し, 臨床応用価値が著しく向上し, より正確に腕神経幹の同定に有用であることが示された。

Ultrasound-guided nerve block anesthesia (UGNB) is a high-tech visual nerve block anesthesia method that can observe the target nerve and its surrounding structures, the puncture needle's advancement, and local anesthetics spread in real-time. The key in UGNB is nerve identification. With the help of deep learning methods, the automatic identification or segmentation of nerves can be realized, assisting doctors in completing nerve block anesthesia accurately and efficiently. Here, we establish a public dataset containing 320 ultrasound images of brachial plexus (BP). Three experienced doctors jointly produce the BP segmentation ground truth and label brachial plexus trunks. We design a brachial plexus segmentation system (BPSegSys) based on deep learning. BPSegSys achieves experienced-doctor-level nerve identification performance in various experiments. We evaluate BPSegSys' performance in terms of intersection-over-union (IoU), a commonly used performance measure for segmentation experiments. Considering three dataset groups in our established public dataset, the IoU of BPSegSys are 0.5238, 0.4715, and 0.5029, respectively, which exceed the IoU 0.5205, 0.4704, and 0.4979 of experienced doctors. In addition, we show that BPSegSys can help doctors identify brachial plexus trunks more accurately, with IoU improvement up to 27%, which has significant clinical application value.
翻訳日:2022-05-18 13:30:50 公開日:2022-05-17
# ブロブ損失: セマンティックセグメンテーションのためのインスタンス不均衡認識損失関数

blob loss: instance imbalance aware loss functions for semantic segmentation ( http://arxiv.org/abs/2205.08209v1 )

ライセンス: Link先を確認
Florian Kofler, Suprosanna Shit, Ivan Ezhov, Lucas Fidon, Rami Al-Maskari, Hongwei Li, Harsharan Bhatia, Timo Loehr, Marie Piraud, Ali Erturk, Jan Kirschke, Jan Peeken, Tom Vercauteren, Claus Zimmer, Benedikt Wiestler, Bjoern Menze(参考訳) 深層畳み込みニューラルネットワークはセマンティックセグメンテーションタスクにおいて極めて効果的であることが証明されている。 一般的な損失関数の多くは、sorensen dice係数のようなボリュームスコアの改善を目標として導入された。 設計上、DSCはクラス不均衡に取り組むことができるが、クラス内のインスタンス不均衡を認識しない。 その結果、大きな前景のインスタンスが小さなインスタンスを支配でき、それでも満足のいくSorensen Dice係数を生成できる。 それでもインスタンスの欠落は検出性能の低下につながる。 これは、病気の進行監視のようなアプリケーションにおいて重要な問題である。 例えば、多発性硬化症患者の経過観察において、小規模病変の発見と監視が不可欠である。 本稿では,f1スコアや感度などのインスタンスレベル検出指標を最大化することを目的とした,blob損失と呼ばれる新しい損失関数群を提案する。 Blob Losは、インスタンスがクラス内の連結コンポーネントであるセグメンテーション問題のために設計されている。 テクスチャとモルフォロジーの観点からインスタンスの不均一性を特徴とする5つの複雑な3次元意味セグメンテーションタスクにおいて,dscに基づくブロブ損失を広範囲に評価した。 軟Dice損失と比較して,MS病変は5%改善し,肝腫瘍は3%改善し,F1スコアを考慮した顕微鏡分割作業は平均2%改善した。

Deep convolutional neural networks have proven to be remarkably effective in semantic segmentation tasks. Most popular loss functions were introduced targeting improved volumetric scores, such as the Sorensen Dice coefficient. By design, DSC can tackle class imbalance; however, it does not recognize instance imbalance within a class. As a result, a large foreground instance can dominate minor instances and still produce a satisfactory Sorensen Dice coefficient. Nevertheless, missing out on instances will lead to poor detection performance. This represents a critical issue in applications such as disease progression monitoring. For example, it is imperative to locate and surveil small-scale lesions in the follow-up of multiple sclerosis patients. We propose a novel family of loss functions, nicknamed blob loss, primarily aimed at maximizing instance-level detection metrics, such as F1 score and sensitivity. Blob loss is designed for semantic segmentation problems in which the instances are the connected components within a class. We extensively evaluate a DSC-based blob loss in five complex 3D semantic segmentation tasks featuring pronounced instance heterogeneity in terms of texture and morphology. Compared to soft Dice loss, we achieve 5 percent improvement for MS lesions, 3 percent improvement for liver tumor, and an average 2 percent improvement for Microscopy segmentation tasks considering F1 score.
翻訳日:2022-05-18 13:30:23 公開日:2022-05-17
# マルチステップタスクのための条件付き視覚サーボ

Conditional Visual Servoing for Multi-Step Tasks ( http://arxiv.org/abs/2205.08441v1 )

ライセンス: Link先を確認
Sergio Izquierdo, Max Argus, Thomas Brox(参考訳) Visual Servoingは、ロボットを特定のターゲット場所に移したり、記録されたデモを追跡するために効果的に使用されている。 手動プログラミングを必要としないが、通常は1つのデモがひとつの環境状態にマップされる設定に限られる。 複数の実演シーケンスを持つシナリオに視覚サーボを拡張するためのモジュラーアプローチを提案する。 この条件サーボは,ロボットの観察を前提とした次の実演を選択することで行う。 個別のデモンストレーションを柔軟に制御ポリシーに組み合わせることができるため、多段階問題に取り組むための魅力的な戦略を示す。 シミュレーションにおいて,異なる選択関数を提案し,形状ソートタスクで比較する。 この選択機能を実ロボットに実装し,提案する条件付きサーボの有効性を示す。 私たちの実験のビデオについては、プロジェクトのページを参照してください。

Visual Servoing has been effectively used to move a robot into specific target locations or to track a recorded demonstration. It does not require manual programming, but it is typically limited to settings where one demonstration maps to one environment state. We propose a modular approach to extend visual servoing to scenarios with multiple demonstration sequences. We call this conditional servoing, as we choose the next demonstration conditioned on the observation of the robot. This method presents an appealing strategy to tackle multi-step problems, as individual demonstrations can be combined flexibly into a control policy. We propose different selection functions and compare them on a shape-sorting task in simulation. With the reprojection error yielding the best overall results, we implement this selection function on a real robot and show the efficacy of the proposed conditional servoing. For videos of our experiments, please check out our project page: https://lmb.informatik.uni-freiburg.de/projects/conditional_servoing/
翻訳日:2022-05-18 13:30:01 公開日:2022-05-17
# 離散共変量による完全スペクトルクラスタリング

Perfect Spectral Clustering with Discrete Covariates ( http://arxiv.org/abs/2205.08047v1 )

ライセンス: Link先を確認
Jonathan Hehir, Xiaoyue Niu, Aleksandra Slavkovic(参考訳) コミュニティ検出手法のうち、スペクトルクラスタリングは、計算効率と一貫性の理論的保証という2つの望ましい特性を享受している。 スペクトルクラスタリングのほとんどの研究は、ネットワークのエッジのみをアルゴリズムの入力と見なしている。 本稿では,ネットワーク構造が潜在ブロックモデル構造と観測された共変量上のホモフィアの組み合わせによって決定される離散ノード共変量の存在下でコミュニティ検出を行う問題を考える。 本研究では,離散共変量を持つ大規模スパースネットワークのクラスにおいて,完全クラスタリングを高い確率で達成し,観測共変量に対して遅延ネットワーク構造をホモフィリーから効果的に分離するスペクトルアルゴリズムを提案する。 我々の知る限り,本手法は,エッジ形成が潜時および観測因子に依存する環境において,スペクトルクラスタリングを用いて一貫した潜時構造回復を保証する最初の方法である。

Among community detection methods, spectral clustering enjoys two desirable properties: computational efficiency and theoretical guarantees of consistency. Most studies of spectral clustering consider only the edges of a network as input to the algorithm. Here we consider the problem of performing community detection in the presence of discrete node covariates, where network structure is determined by a combination of a latent block model structure and homophily on the observed covariates. We propose a spectral algorithm that we prove achieves perfect clustering with high probability on a class of large, sparse networks with discrete covariates, effectively separating latent network structure from homophily on observed covariates. To our knowledge, our method is the first to offer a guarantee of consistent latent structure recovery using spectral clustering in the setting where edge formation is dependent on both latent and observed factors.
翻訳日:2022-05-18 13:27:27 公開日:2022-05-17
# 依存重みを持つディープニューラルネットワーク:ガウス過程混合限界、重尾、空間性と圧縮性

Deep neural networks with dependent weights: Gaussian Process mixture limit, heavy tails, sparsity and compressibility ( http://arxiv.org/abs/2205.08187v1 )

ライセンス: Link先を確認
Hoil Lee, Fadhel Ayed, Paul Jung, Juho Lee, Hongseok Yang and Fran\c{c}ois Caron(参考訳) 本稿では,重みが依存するディープフィードフォワードニューラルネットワークの無限幅極限について検討し,ガウス分布の混合によりモデル化する。 ネットワークの各隠れノードには、そのノードの出力重みの分散を制御する非負の確率変数が割り当てられる。 これらのノードごとの確率変数について最小の仮定をする:それらは iid であり、それらの和は各層において無限幅極限内の有限確率変数に収束する。 このモデルでは、無限幅ニューラルネットワークの各層は、正の実数に対する非負のスカラーパラメータとL''evy測度という2つの単純な量で特徴づけられることを示す。 スカラーパラメータが厳密に正であり、L''evy測度がすべての隠れた層で自明であれば、イド・ガウスウェイトで得られる古典的ガウス過程(GP)極限を回復する。 さらに興味深いことに、少なくとも一つの層のL''evy測度が非自明であれば、大幅極限におけるガウス過程(MoGP)の混合が得られる。 この状態におけるニューラルネットワークの挙動は、GP状態とは大きく異なる。 ガウス分布が非ガウス分布であり、おそらく重い尾を持つ相関出力を得る。 さらに,本方式では,重みは圧縮可能であり,特徴学習も可能であることを示す。 我々は,このアプローチの特別な場合として,多くのスパース性プロモーティングニューラルネットワークモデルを再キャストすることが可能であり,その無限幅限界について考察する。 シミュレーション,MNIST,Fashion MNISTデータセット上での表現学習と圧縮性の観点から,MoGP方式のGP方式に対する利点を述べる。

This article studies the infinite-width limit of deep feedforward neural networks whose weights are dependent, and modelled via a mixture of Gaussian distributions. Each hidden node of the network is assigned a nonnegative random variable that controls the variance of the outgoing weights of that node. We make minimal assumptions on these per-node random variables: they are iid and their sum, in each layer, converges to some finite random variable in the infinite-width limit. Under this model, we show that each layer of the infinite-width neural network can be characterised by two simple quantities: a non-negative scalar parameter and a L\'evy measure on the positive reals. If the scalar parameters are strictly positive and the L\'evy measures are trivial at all hidden layers, then one recovers the classical Gaussian process (GP) limit, obtained with iid Gaussian weights. More interestingly, if the L\'evy measure of at least one layer is non-trivial, we obtain a mixture of Gaussian processes (MoGP) in the large-width limit. The behaviour of the neural network in this regime is very different from the GP regime. One obtains correlated outputs, with non-Gaussian distributions, possibly with heavy tails. Additionally, we show that, in this regime, the weights are compressible, and feature learning is possible. Many sparsity-promoting neural network models can be recast as special cases of our approach, and we discuss their infinite-width limits; we also present an asymptotic analysis of the pruning error. We illustrate some of the benefits of the MoGP regime over the GP regime in terms of representation learning and compressibility on simulated, MNIST and Fashion MNIST datasets.
翻訳日:2022-05-18 13:27:13 公開日:2022-05-17
# (参考訳) シミュレーションに基づく検証におけるカバレッジ指向テスト選択のための教師付き学習

Supervised Learning for Coverage-Directed Test Selection in Simulation-Based Verification ( http://arxiv.org/abs/2205.08524v1 )

ライセンス: CC BY 4.0
Nyasha Masamba, Kerstin Eder, Tim Blackmore(参考訳) 制約付きランダムテスト生成は、シミュレーションに基づく検証のために刺激を生成する最も広く採用されている方法の1つである。 ランダムさはテストの多様性につながるが、テストは同じ設計ロジックを繰り返す傾向がある。 制約は(通常手動で)、ランダムテストから興味深い、難解で、未解決の論理に偏りを付けるように書かれる。 しかし、検証が進むにつれて、ほとんどの制約付きランダムテストは機能カバレッジにはほとんど影響しない。 刺激生成がシミュレーションよりもはるかに少ないリソースを消費する場合、より良いアプローチは多数のテストをランダムに生成し、最も効果的なサブセットを選択し、そのサブセットをシミュレートすることである。 本稿では,制約の自動抽出とテスト選択のための新しい手法を提案する。 本手法は,カバレッジフィードバックからの教師あり学習に基づいて,カバレッジ指向テスト選択と呼ぶ。 提案手法は,機能カバレッジを増加させる確率の高いテストに対する選択をバイアスし,シミュレーションに優先する。 本稿では,手作業による制約記述の低減,効果的なテストの優先順位付け,検証資源の削減,大規模で実生活のハードウェア設計におけるカバレッジ閉鎖の促進について述べる。

Constrained random test generation is one the most widely adopted methods for generating stimuli for simulation-based verification. Randomness leads to test diversity, but tests tend to repeatedly exercise the same design logic. Constraints are written (typically manually) to bias random tests towards interesting, hard-to-reach, and yet-untested logic. However, as verification progresses, most constrained random tests yield little to no effect on functional coverage. If stimuli generation consumes significantly less resources than simulation, then a better approach involves randomly generating a large number tests, selecting the most effective subset, and only simulating that subset. In this paper, we introduce a novel method for automatic constraint extraction and test selection. This method, which we call coverage-directed test selection, is based on supervised learning from coverage feedback. Our method biases selection towards tests that have a high probability of increasing functional coverage, and prioritises them for simulation. We show how coverage-directed test selection can reduce manual constraint writing, prioritise effective tests, reduce verification resource consumption, and accelerate coverage closure on a large, real-life industrial hardware design.
翻訳日:2022-05-18 13:24:44 公開日:2022-05-17
# DeepSim: ROSとGazebo用の強化学習環境ビルドツールキット

DeepSim: A Reinforcement Learning Environment Build Toolkit for ROS and Gazebo ( http://arxiv.org/abs/2205.08034v1 )

ライセンス: Link先を確認
Woong Gyu La, Lingjie Kong, Sunil Muralidhara, Pratik Nichat(参考訳) ROSとGazeboのための強化学習環境構築ツールキットDeepSimを提案する。 機械学習や強化学習の研究者たちがロボットのドメインにアクセスし、ROSやGazeboのシミュレーション環境で複雑で難しいカスタムタスクを作れる。 このツールキットは、衝突検出、振る舞い制御、ドメインのランダム化、発芽器などの高度な機能の構築ブロックを提供する。 deepsimはpythonインターフェースを提供することで、ロボットと機械学習コミュニティの境界を減らすように設計されている。 本稿では,deepsim toolkitのコンポーネントと設計決定について述べる。

We propose DeepSim, a reinforcement learning environment build toolkit for ROS and Gazebo. It allows machine learning or reinforcement learning researchers to access the robotics domain and create complex and challenging custom tasks in ROS and Gazebo simulation environments. This toolkit provides building blocks of advanced features such as collision detection, behaviour control, domain randomization, spawner, and many more. DeepSim is designed to reduce the boundary between robotics and machine learning communities by providing Python interface. In this paper, we discuss the components and design decisions of DeepSim Toolkit.
翻訳日:2022-05-18 13:11:24 公開日:2022-05-17
# スマートホームにおける攻撃検出のための説明可能かつ最適構成ニューラルネットワーク

Explainable and Optimally Configured Artificial Neural Networks for Attack Detection in Smart Homes ( http://arxiv.org/abs/2205.08043v1 )

ライセンス: Link先を確認
Shaleeza Sohail, Zongwen Fan, Xin Gu and Fariza Sabrina(参考訳) 近年、サイバーセキュリティはスマートアプリケーションの適応において大きな関心事となっている。 特に、多数のIoTデバイスがセキュアで信頼性の高いメカニズムで使用されているスマートホームでは、ユーザの安心感が得られます。 サイバー攻撃の正確な検出は重要であるが、システムを保護するための対策を考案する場合、攻撃の種類を正確に特定することは大きな役割を果たす。 Artificial Neural Networks (ANN)は、スマートアプリケーションに対するセキュリティ攻撃を検出するための有望な結果を提供している。 しかしながら、このテクニックに使用するモデルの複雑な性質から、通常のユーザがannベースのセキュリティソリューションを信頼するのは容易ではない。 また、ANNアーキテクチャの正しいハイパーパラメータの選択は、特に攻撃のサブカテゴリを特定する場合に、セキュリティ攻撃の正確な検出において重要な役割を果たす。 本稿では,このアプローチについて,annモデルの説明可能性の問題とハイパーパラメータ選択の問題の両方を考慮し,スマートホームアプリケーションのユーザにより容易に信頼され,適応できるモデルを提案する。 また、ANNアーキテクチャ設計のプロセスのオーバーヘッドを低減するために、ハイパーパラメータの最適選択のためのデータセットのサブセットを検討する。 本稿では,5つのカテゴリ攻撃と9つのサブカテゴリ攻撃を識別するためのANNアーキテクチャの構成,性能,評価に焦点を当てた。 最新のiotデータセットを使用することで、攻撃の2値、カテゴリ、サブカテゴリレベルの分類において、99.9%、99.7%、97.7%の精度で侵入検出に高いパフォーマンスを示しました。

In recent years cybersecurity has become a major concern in adaptation of smart applications. Specially, in smart homes where a large number of IoT devices are used having a secure and trusted mechanisms can provide peace of mind for users. Accurate detection of cyber attacks is crucial, however precise identification of the type of attacks plays a huge role if devising the countermeasure for protecting the system. Artificial Neural Networks (ANN) have provided promising results for detecting any security attacks for smart applications. However, due to complex nature of the model used for this technique it is not easy for normal users to trust ANN based security solutions. Also, selection of right hyperparameters for ANN architecture plays a crucial role in the accurate detection of security attacks, especially when it come to identifying the subcategories of attacks. In this paper, we propose a model that considers both the issues of explainability of ANN model and the hyperparameter selection for this approach to be easily trusted and adapted by users of smart home applications. Also, our approach considers a subset of the dataset for optimal selection of hyperparamters to reduce the overhead of the process of ANN architecture design. Distinctively this paper focuses on configuration, performance and evaluation of ANN architecture for identification of five categorical attacks and nine subcategorical attacks. Using a very recent IoT dataset our approach showed high performance for intrusion detection with 99.9%, 99.7%, and 97.7% accuracy for Binary, Category, and Subcategory level classification of attacks.
翻訳日:2022-05-18 13:11:16 公開日:2022-05-17
# HelixADMET:自己教師型知識伝達を用いた堅牢かつエンドポイント拡張型ADMETシステム

HelixADMET: a robust and endpoint extensible ADMET system incorporating self-supervised knowledge transfer ( http://arxiv.org/abs/2205.08055v1 )

ライセンス: Link先を確認
Shanzhuo Zhang, Zhiyuan Yan, Yueyang Huang, Lihang Liu, Donglong He, Wei Wang, Xiaomin Fang, Xiaonan Zhang, Fan Wang, Hua Wu, Haifeng Wang(参考訳) ADMET (absorption, distribution, metabolism, excretion, and toxicity) の正確な予測は、薬物発見の初期段階において、望ましくない薬物候補を効果的にスクリーニングすることができる。 近年、高度な機械学習モデルを採用する複数の総合的ADMETシステムが開発され、複数のエンドポイントを推定するサービスを提供している。 しかしながら、これらのADMETシステムは通常、弱い外挿能力に悩まされる。 第一に、各エンドポイントにラベル付きデータがないため、典型的な機械学習モデルは、観測されていない足場を持つ分子に対して弱体化を行う。 第二に、ほとんどのシステムは固定された組み込みエンドポイントしか提供せず、様々な研究要件を満たすようにカスタマイズできない。 そこで我々は,HexADMET (H-ADMET) という,堅牢かつエンドポイント拡張可能な ADMET システムを開発した。 H-ADMETは自己教師付き学習の概念を取り入れて、堅牢な事前学習モデルを生成する。 モデルは、ADMETエンドポイント、補助タスク、および自己管理タスク間で知識を伝達するマルチタスクおよびマルチステージフレームワークで微調整される。 以上の結果から,H-ADMETは既存のADMETシステムと比較すると,全体の4%の改善を実現していることがわかった。 さらに、H-ADMETが提供する事前学習モデルは、薬物研究と開発要件の様々な要求を満たす新しいカスタマイズされたADMETエンドポイントを生成するように微調整することができる。

Accurate ADMET (an abbreviation for "absorption, distribution, metabolism, excretion, and toxicity") predictions can efficiently screen out undesirable drug candidates in the early stage of drug discovery. In recent years, multiple comprehensive ADMET systems that adopt advanced machine learning models have been developed, providing services to estimate multiple endpoints. However, those ADMET systems usually suffer from weak extrapolation ability. First, due to the lack of labelled data for each endpoint, typical machine learning models perform frail for the molecules with unobserved scaffolds. Second, most systems only provide fixed built-in endpoints and cannot be customised to satisfy various research requirements. To this end, we develop a robust and endpoint extensible ADMET system, HelixADMET (H-ADMET). H-ADMET incorporates the concept of self-supervised learning to produce a robust pre-trained model. The model is then fine-tuned with a multi-task and multi-stage framework to transfer knowledge between ADMET endpoints, auxiliary tasks, and self-supervised tasks. Our results demonstrate that H-ADMET achieves an overall improvement of 4%, compared with existing ADMET systems on comparable endpoints. Additionally, the pre-trained model provided by H-ADMET can be fine-tuned to generate new and customised ADMET endpoints, meeting various demands of drug research and development requirements.
翻訳日:2022-05-18 13:10:54 公開日:2022-05-17
# 1次元畳み込みニューラルネットワークを用いたCSIを用いた屋内位置推定フレームワーク

A Framework for CSI-Based Indoor Localization with 1D Convolutional Neural Networks ( http://arxiv.org/abs/2205.08068v1 )

ライセンス: Link先を確認
Liping Wang, Sudeep Pasricha(参考訳) 屋内環境におけるGPSの弱さを克服するためには,現代の屋内局地化技術が不可欠である。 近年,Channel State Information (CSI) による信号指紋を用いた屋内局在化が著しく進展している。 しかし,複雑な室内空間を持つ大規模かつ高ダイナミックな屋内空間ではcsi信号のパターンが複雑になるため,csiの応用範囲をより広い室内空間に拡張するには,この問題に対する解決策が緊急に必要となる。 本稿では,データ収集,パターンクラスタリング,デノイング,キャリブレーション,CSIフィンガープリントを用いた軽量な1次元畳み込みニューラルネットワーク(1D CNN)モデルを含むエンドツーエンドソリューションを提案する。 また、コロラド州立大学の複雑な屋内環境にまたがる大量のデータを収集したCSIデータセットのオープンソース化も計画しています。 実験の結果,最大68.5%の性能向上(平均距離誤差)を最小限のパラメータで達成できることがわかった。

Modern indoor localization techniques are essential to overcome the weak GPS coverage in indoor environments. Recently, considerable progress has been made in Channel State Information (CSI) based indoor localization with signal fingerprints. However, CSI signal patterns can be complicated in the large and highly dynamic indoor spaces with complex interiors, thus a solution for solving this issue is urgently needed to expand the applications of CSI to a broader indoor space. In this paper, we propose an end-to-end solution including data collection, pattern clustering, denoising, calibration and a lightweight one-dimensional convolutional neural network (1D CNN) model with CSI fingerprinting to tackle this problem. We have also created and plan to open source a CSI dataset with a large amount of data collected across complex indoor environments at Colorado State University. Experiments indicate that our approach achieves up to 68.5% improved performance (mean distance error) with minimal number of parameters, compared to the best-known deep machine learning and CSI-based indoor localization works.
翻訳日:2022-05-18 13:10:32 公開日:2022-05-17
# スマートフォン不変室内位置推定のためのマルチヘッドアテンションニューラルネットワーク

Multi-Head Attention Neural Network for Smartphone Invariant Indoor Localization ( http://arxiv.org/abs/2205.08069v1 )

ライセンス: Link先を確認
Saideep Tiku, Danish Gufran, Sudeep Pasricha(参考訳) スマートフォンとrssi指紋認証は、低コストで高精度な屋内ローカライズソリューションを提供するための効率的なアプローチである。 しかし、いくつかの重要な課題は、パブリックドメインにおけるこの技術の普及を妨げている。 そのような重要な課題の1つはデバイスの不均一性、すなわち、異なるスマートフォンデバイス間でキャプチャされたRSSI信号特性の変化である。 現実世界では、RSSI指紋をキャプチャするために使われるスマートフォンやIoTデバイスは、一般的に屋内ローカライゼーションサービスのユーザによって異なる。 従来の屋内ローカライズソリューションは、そのローカライズ精度を低下させるデバイスによる変動に対応できない可能性がある。 本稿では,デバイスの不均一性に耐性を持つマルチヘッドアテンションニューラルネットワークを用いた屋内定位フレームワークを提案する。 各種屋内環境におけるフレームワークの詳細な分析により,最先端の屋内局地化技術と比較して35%の精度向上が得られた。

Smartphones together with RSSI fingerprinting serve as an efficient approach for delivering a low-cost and high-accuracy indoor localization solution. However, a few critical challenges have prevented the wide-spread proliferation of this technology in the public domain. One such critical challenge is device heterogeneity, i.e., the variation in the RSSI signal characteristics captured across different smartphone devices. In the real-world, the smartphones or IoT devices used to capture RSSI fingerprints typically vary across users of an indoor localization service. Conventional indoor localization solutions may not be able to cope with device-induced variations which can degrade their localization accuracy. We propose a multi-head attention neural network-based indoor localization framework that is resilient to device heterogeneity. An in-depth analysis of our proposed framework across a variety of indoor environments demonstrates up to 35% accuracy improvement compared to state-of-the-art indoor localization techniques.
翻訳日:2022-05-18 13:10:12 公開日:2022-05-17
# 予測的・補正的保守活動に基づく太陽光発電予測

Forecasting Solar Power Generation on the basis of Predictive and Corrective Maintenance Activities ( http://arxiv.org/abs/2205.08109v1 )

ライセンス: Link先を確認
Soham Vyas, Yuvraj Goyal, Neel Bhatt, Sanskar Bhuwania, Hardik Patel, Shakti Mishra, Brijesh Tripathi(参考訳) 太陽エネルギーの予測は、天候変数の風速や方向、日射量、気温など、気象観測所から収集された過去の時系列によって過去10年間に大幅に伸びている。 太陽光発電プラント全体の管理に役立っている。 しかし、太陽光発電所はエネルギー生産に影響を及ぼす予防的かつ矯正的な保守活動が定期的に必要である。 本稿では, 保守活動, 発電所で観測された問題, 気象データに基づく太陽光発電生産予測に関する新しい研究について述べる。 結果は、2012年から2020年にかけて毎日13コラムのデータセットを作成したPDEU(われわれの大学)の1MWの太陽光発電プラントから得られたデータセットから得られた。 12の構造化カラムと1つの非構造化カラムがあり、異なるメンテナンス活動、観察された問題、日々の気象状況に関するマニュアルテキストが記載されている。 非構造化カラムは、Hash Map、フラグワード、ストップワードを使った新機能カラムベクトルを作成するために使用される。 最終データセットは相関と因果解析に基づく5つの重要な特徴ベクトル列からなる。

Solar energy forecasting has seen tremendous growth in the last decade using historical time series collected from a weather station, such as weather variables wind speed and direction, solar radiance, and temperature. It helps in the overall management of solar power plants. However, the solar power plant regularly requires preventive and corrective maintenance activities that further impact energy production. This paper presents a novel work for forecasting solar power energy production based on maintenance activities, problems observed at a power plant, and weather data. The results accomplished on the datasets obtained from the 1MW solar power plant of PDEU (our university) that has generated data set with 13 columns as daily entries from 2012 to 2020. There are 12 structured columns and one unstructured column with manual text entries about different maintenance activities, problems observed, and weather conditions daily. The unstructured column is used to create a new feature column vector using Hash Map, flag words, and stop words. The final dataset comprises five important feature vector columns based on correlation and causality analysis.
翻訳日:2022-05-18 13:09:48 公開日:2022-05-17
# (参考訳) spelkeオブジェクト推論による実世界画像の教師なしセグメンテーション

Unsupervised Segmentation in Real-World Images via Spelke Object Inference ( http://arxiv.org/abs/2205.08515v1 )

ライセンス: CC BY 4.0
Honglin Chen, Rahul Venkatesh, Yoni Friedman, Jiajun Wu, Joshua B. Tenenbaum, Daniel L. K. Yamins, Daniel M. Bear(参考訳) 自己教師付きカテゴリ非依存な現実世界の画像のオブジェクトへのセグメンテーションは、コンピュータビジョンにおいて難しいオープン問題である。 本稿では,Spelke Objectsの認知科学的概念に基づいて,動きの自己スーパービジョンから静的グルーピングを学習する方法を紹介する。 本稿では,光学フロー推定から学習し,静止シーンのペアワイズアフィニティグラフを抽出する,興奮抑制セグメント抽出ネットワーク(eisen)を提案する。 EISENは、新しいグラフ伝播と競合機構を使用して親和性からセグメントを生成する。 独立動作源(例えばロボットアーム)と移動対象との相関関係は、ブートストラップ訓練プロセスによって別個のセグメントに解決される。 人工的および実世界のロボット画像データセットに対する自己教師ありセグメンテーション技術において,eisenは最先端の成果を上げている。 また,アイゼンアーキテクチャの各要素の重要性を示すアブレーション解析を行った。

Self-supervised category-agnostic segmentation of real-world images into objects is a challenging open problem in computer vision. Here, we show how to learn static grouping priors from motion self-supervision, building on the cognitive science notion of Spelke Objects: groupings of stuff that move together. We introduce Excitatory-Inhibitory Segment Extraction Network (EISEN), which learns from optical flow estimates to extract pairwise affinity graphs for static scenes. EISEN then produces segments from affinities using a novel graph propagation and competition mechanism. Correlations between independent sources of motion (e.g. robot arms) and objects they move are resolved into separate segments through a bootstrapping training process. We show that EISEN achieves a substantial improvement in the state of the art for self-supervised segmentation on challenging synthetic and real-world robotic image datasets. We also present an ablation analysis illustrating the importance of each element of the EISEN architecture.
翻訳日:2022-05-18 13:08:21 公開日:2022-05-17
# LogicSolver: 論理的プロンプト強化学習による解釈可能な数学語問題解決を目指して

LogicSolver: Towards Interpretable Math Word Problem Solving with Logical Prompt-enhanced Learning ( http://arxiv.org/abs/2205.08232v1 )

ライセンス: Link先を確認
Zhicheng Yang, Jinghui Qin, Jiaqi Chen, Liang Lin and Xiaodan Liang(参考訳) 近年,深層学習モデルは解答精度においてMWPの解法において大きな進歩を遂げている。 しかし、それらは主に浅いヒューリスティックに依存し、基礎となる数学論理を理解して推論することなく高いパフォーマンスを達成するため、解釈できない。 そこで我々はまず,11,495個のMWPからなる高品質MWPデータセットを構築し,各解方程式の基底論理として代数的知識に基づく解釈可能な論理式に注釈を付ける。 既存のMWPデータセットとは違って、我々のInterMWPベンチマークでは、解式を出力するだけでなく、対応する論理式を予測することを求める。 さらに論理的プロンプトと解釈を生成する新しい手法であるLogicSolverを提案する。 各MWPに対して、我々のLogicSolverはまず高相関な代数的知識を取得し、その後、MWPのセマンティック表現を改善するプロンプトとしてバックボーンモデルに渡す。 これらの改良された意味表現により、我々のLogicSolverは対応する解式と、生成された解式に従って解釈可能な知識公式を同時に生成する。 実験の結果,論理ソルバはベースラインよりも論理式に基づく解釈性が強く,論理プロンプトの助けを借りて解答精度も高いことがわかった。

Recently, deep learning models have made great progress in MWP solving on answer accuracy. However, they are uninterpretable since they mainly rely on shallow heuristics to achieve high performance without understanding and reasoning the grounded math logic. To address this issue and make a step towards interpretable MWP solving, we first construct a high-quality MWP dataset named InterMWP which consists of 11,495 MWPs and annotates interpretable logical formulas based on algebraic knowledge as the grounded linguistic logic of each solution equation. Different from existing MWP datasets, our InterMWP benchmark asks for a solver to not only output the solution expressions but also predict the corresponding logical formulas. We further propose a novel approach with logical prompt and interpretation generation, called LogicSolver. For each MWP, our LogicSolver first retrieves some highly-correlated algebraic knowledge and then passes them to the backbone model as prompts to improve the semantic representations of MWPs. With these improved semantic representations, our LogicSolver generates corresponding solution expressions and interpretable knowledge formulas in accord with the generated solution expressions, simultaneously. Experimental results show that our LogicSolver has stronger logical formula-based interpretability than baselines while achieving higher answer accuracy with the help of logical prompts, simultaneously.
翻訳日:2022-05-18 13:06:51 公開日:2022-05-17
# きめ細かい抽象化と推論による数学語問題への対処

Tackling Math Word Problems with Fine-to-Coarse Abstracting and Reasoning ( http://arxiv.org/abs/2205.08274v1 )

ライセンス: Link先を確認
Ailisi Li, Xueyao Jiang, Bang Liu, Jiaqing Liang, Yanghua Xiao(参考訳) 数学語問題(MWP)は、数学のテキストに対する理解と推論の能力を必要とする重要な課題である。 既存のアプローチは主に、Seq2SeqまたはSeq2Treeモデルを採用して生成タスクとして形式化し、自然言語の入力数学問題を大域表現としてエンコードし、出力数学式を生成する。 このようなアプローチは浅いヒューリスティックしか学ばず、入力のきめ細かい変化を捉えることができない。 本稿では,局所的なきめ細かな情報と大域的な論理構造の両方を捉えるために,計算語問題を微調整的にモデル化することを提案する。 大域的な特徴から完全な方程式列や式木を生成する代わりに、低レベルのオペランドを反復的に組み合わせて高レベルの演算子を予測し、問題を抽象化し、解演算子を下から上へと推論する。 我々のモデルは自然に局所的な変動に敏感であり、目に見えない問題タイプにもっと一般化することができる。 Math23k および SVAMP データセットの大規模評価により,本手法の精度とロバスト性を示した。

Math Word Problems (MWP) is an important task that requires the ability of understanding and reasoning over mathematical text. Existing approaches mostly formalize it as a generation task by adopting Seq2Seq or Seq2Tree models to encode an input math problem in natural language as a global representation and generate the output mathematical expression. Such approaches only learn shallow heuristics and fail to capture fine-grained variations in inputs. In this paper, we propose to model a math word problem in a fine-to-coarse manner to capture both the local fine-grained information and the global logical structure of it. Instead of generating a complete equation sequence or expression tree from the global features, we iteratively combine low-level operands to predict a higher-level operator, abstracting the problem and reasoning about the solving operators from bottom to up. Our model is naturally more sensitive to local variations and can better generalize to unseen problem types. Extensive evaluations on Math23k and SVAMP datasets demonstrate the accuracy and robustness of our method.
翻訳日:2022-05-18 13:06:28 公開日:2022-05-17
# リモートセンシングシーン分類のためのペアワイズ比較ネットワーク

Pairwise Comparison Network for Remote Sensing Scene Classification ( http://arxiv.org/abs/2205.08147v1 )

ライセンス: Link先を確認
Zhang Yue, Zheng Xiangtao, Lu Xiaoqiang(参考訳) リモートセンシングシーン分類は、リモートセンシングイメージに特定の意味ラベルを割り当てることを目的としている。 近年,畳み込みニューラルネットワークはリモートセンシングシーン分類の性能を大幅に改善している。 しかし、いくつかの混乱した画像は誤分類として容易に認識され、一般に性能が低下する。 イメージペアの違いは、イメージカテゴリの識別に使用することができる。 本稿では,ペアワイズ選択とペアワイズ表現の2つの主ステップを含むペアワイズ比較ネットワークを提案する。 提案したネットワークは、まず類似した画像対を選択し、次にペアワイズ表現で画像対を表す。 自己表現は各画像の情報を強調するために導入され、相互表現は画像ペア間の微妙な違いを捉えるために提案される。 2つの挑戦的データセット(aid, nwpu-resisc45)の包括的な実験結果が提案ネットワークの有効性を示している。 コードはhttps://github.com/spectralpublic/pcnet.gitで提供される。

Remote sensing scene classification aims to assign a specific semantic label to a remote sensing image. Recently, convolutional neural networks have greatly improved the performance of remote sensing scene classification. However, some confused images may be easily recognized as the incorrect category, which generally degrade the performance. The differences between image pairs can be used to distinguish image categories. This paper proposed a pairwise comparison network, which contains two main steps: pairwise selection and pairwise representation. The proposed network first selects similar image pairs, and then represents the image pairs with pairwise representations. The self-representation is introduced to highlight the informative parts of each image itself, while the mutual-representation is proposed to capture the subtle differences between image pairs. Comprehensive experimental results on two challenging datasets (AID, NWPU-RESISC45) demonstrate the effectiveness of the proposed network. The code are provided in https://github.com/spectralpublic/PCNet.git.
翻訳日:2022-05-18 13:05:42 公開日:2022-05-17
# クラスター解析における形状複雑性

Shape complexity in cluster analysis ( http://arxiv.org/abs/2205.08046v1 )

ライセンス: Link先を確認
Eduardo J. Aguilar, Valmir C. Barbosa(参考訳) クラスタ分析の一般的な第一歩は、データをクラスタに分割するためのスケールアップだ。 この目的には長年にわたり多くの異なる技術が導入されてきたが、この前処理フェーズにおけるワークホースは、各次元に沿った標準偏差によってデータを分割することであったと言えるだろう。 標準偏差と同様に、スケーリング技術の大部分は、何らかの統計的なデータに対するルーツを持っていると言える。 本稿では,サンプル間距離を明示的に利用するk-meansなどの手法により,クラスタリング前に使用するためのスケーリング係数を得ることを目的として,データの多次元形状の利用を検討する。 我々は、宇宙論と関連する分野の分野から、最近導入された形状複雑性の概念を借用し、この変種では、比較的単純でデータに依存しない非線形関数を使い、適切なスケーリング係数の決定に役立てることができることを示した。 中間」距離と呼ばれるものに注目して、制約付き非線形プログラミング問題を定式化し、それを使って、専門家の知識を通じて、データのさらなる考察に基づいて、推測されるスケーリング要素セットを生成する。 私たちはいくつかの象徴的なデータセットで結果を示し、新しいアプローチの強みと潜在的な弱さを強調します。 これらの結果は一般的に、使用されるすべてのデータセットで肯定的です。

In cluster analysis, a common first step is to scale the data aiming to better partition them into clusters. Even though many different techniques have throughout many years been introduced to this end, it is probably fair to say that the workhorse in this preprocessing phase has been to divide the data by the standard deviation along each dimension. Like the standard deviation, the great majority of scaling techniques can be said to have roots in some sort of statistical take on the data. Here we explore the use of multidimensional shapes of data, aiming to obtain scaling factors for use prior to clustering by some method, like k-means, that makes explicit use of distances between samples. We borrow from the field of cosmology and related areas the recently introduced notion of shape complexity, which in the variant we use is a relatively simple, data-dependent nonlinear function that we show can be used to help with the determination of appropriate scaling factors. Focusing on what might be called "midrange" distances, we formulate a constrained nonlinear programming problem and use it to produce candidate scaling-factor sets that can be sifted on the basis of further considerations of the data, say via expert knowledge. We give results on a few iconic data sets, highlighting the strengths and potential weaknesses of the new approach. These results are generally positive across all the data sets used.
翻訳日:2022-05-18 13:05:09 公開日:2022-05-17
# ShiftAddNAS: より正確で効率的なニューラルネットワークのためのハードウェアインスパイアされた検索

ShiftAddNAS: Hardware-Inspired Search for More Accurate and Efficient Neural Networks ( http://arxiv.org/abs/2205.08119v1 )

ライセンス: Link先を確認
Haoran You, Baopu Li, Huihong Shi, Yonggan Fu, Yingyan Lin(参考訳) 集約的な乗算(例えば畳み込みやトランスフォーマー)を持つニューラルネットワーク(NN)は、リソース制約されたデバイスへのより広範な展開を妨げるため、まだ電力を消費する能力がある。 そのため、より効率的な演算子(ビットシフトや加算など)でNNをパラメータ化するためのエネルギー効率の良いハードウェア実装において、乗算自由ネットワークが注目されている。 しかし、乗算フリーネットワークは通常、達成された精度でバニラのネットワークを過小評価する。 この目的のために、この研究は、強力でコストのかかる乗算と効率の低い演算子の両方からなるハイブリッドNNを提唱し、より正確で効率的なNNを自動検索できるShiftAddNASを提案する。 ShiftAddNASは2つのイネーブルを強調します。 Specifically, it integrates (1) the first hybrid search space that incorporates both multiplication-based and multiplication-free operators for facilitating the development of both accurate and efficient hybrid NNs; and (2) a novel weight sharing strategy that enables effective weight sharing among different operators that follow heterogeneous distributions (e.g., Gaussian for convolutions vs. Laplacian for add operators) and simultaneously leads to a largely reduced supernet size and much better searched networks. 様々なモデル、データセット、タスクに関する大規模な実験とアブレーション研究は、ShiftAddNASの有効性を一貫して検証し、例えば、最先端NNと比較して最大で7.7%の精度または4.9のBLEUスコアを達成し、それぞれ最大で93%または69%の省エネルギーと遅延を達成している。 コードと事前トレーニングされたモデルはhttps://github.com/rice-eic/shiftaddnasで入手できる。

Neural networks (NNs) with intensive multiplications (e.g., convolutions and transformers) are capable yet power hungry, impeding their more extensive deployment into resource-constrained devices. As such, multiplication-free networks, which follow a common practice in energy-efficient hardware implementation to parameterize NNs with more efficient operators (e.g., bitwise shifts and additions), have gained growing attention. However, multiplication-free networks usually under-perform their vanilla counterparts in terms of the achieved accuracy. To this end, this work advocates hybrid NNs that consist of both powerful yet costly multiplications and efficient yet less powerful operators for marrying the best of both worlds, and proposes ShiftAddNAS, which can automatically search for more accurate and more efficient NNs. Our ShiftAddNAS highlights two enablers. Specifically, it integrates (1) the first hybrid search space that incorporates both multiplication-based and multiplication-free operators for facilitating the development of both accurate and efficient hybrid NNs; and (2) a novel weight sharing strategy that enables effective weight sharing among different operators that follow heterogeneous distributions (e.g., Gaussian for convolutions vs. Laplacian for add operators) and simultaneously leads to a largely reduced supernet size and much better searched networks. Extensive experiments and ablation studies on various models, datasets, and tasks consistently validate the efficacy of ShiftAddNAS, e.g., achieving up to a +7.7% higher accuracy or a +4.9 better BLEU score compared to state-of-the-art NN, while leading to up to 93% or 69% energy and latency savings, respectively. Codes and pretrained models are available at https://github.com/RICE-EIC/ShiftAddNAS.
翻訳日:2022-05-18 13:03:23 公開日:2022-05-17
# 単調性規則化:刑罰の改善と異方性表現学習とロバスト分類への新しい応用

Monotonicity Regularization: Improved Penalties and Novel Applications to Disentangled Representation Learning and Robust Classification ( http://arxiv.org/abs/2205.08247v1 )

ライセンス: Link先を確認
Joao Monteiro, Mohamed Osama Ahmed, Hossein Hajimirsadeghi, Greg Mori(参考訳) グラデーションペナルティをリスク最小化と併用し,モノトニック性の異なる概念を満足する予測子を得ることを目的とした。 具体的には2つのコントリビューションを提示します。 論文の第1部では、異なるペナルティの選択が、プロパティが観察される入力空間の領域を定義することを示している。 このように、以前の方法は、入力空間の少量のボリュームでのみ単調なモデルとなる。 そこで本研究では,訓練インスタンスとランダムポイントを混合して空間を配置し,より広い領域でペナルティを課す手法を提案する。 コントリビューションの2つ目のセットとして、異なる設定で他の単調性の概念を強制する正規化戦略を導入する。 この場合、単調性は厳しい制約ではなく、モデルのいくつかの側面を改善するのに役立つ画像分類や生成モデリングなどの応用を考える。 すなわち,(1)制御可能なデータ生成を可能にすること,(2)異常なデータを検出するための戦略を定義すること,(3)予測のための説明を生成すること,などである。 提案手法は,ベースラインモデルよりも高効率な計算処理を実現する一方で,計算オーバーヘッドを伴わない。

We study settings where gradient penalties are used alongside risk minimization with the goal of obtaining predictors satisfying different notions of monotonicity. Specifically, we present two sets of contributions. In the first part of the paper, we show that different choices of penalties define the regions of the input space where the property is observed. As such, previous methods result in models that are monotonic only in a small volume of the input space. We thus propose an approach that uses mixtures of training instances and random points to populate the space and enforce the penalty in a much larger region. As a second set of contributions, we introduce regularization strategies that enforce other notions of monotonicity in different settings. In this case, we consider applications, such as image classification and generative modeling, where monotonicity is not a hard constraint but can help improve some aspects of the model. Namely, we show that inducing monotonicity can be beneficial in applications such as: (1) allowing for controllable data generation, (2) defining strategies to detect anomalous data, and (3) generating explanations for predictions. Our proposed approaches do not introduce relevant computational overhead while leading to efficient procedures that provide extra benefits over baseline models.
翻訳日:2022-05-18 13:02:52 公開日:2022-05-17
# KGNN: グラフ神経知識表現のための分散フレームワーク

KGNN: Distributed Framework for Graph Neural Knowledge Representation ( http://arxiv.org/abs/2205.08285v1 )

ライセンス: Link先を確認
Binbin Hu, Zhiyang Hu, Zhiqiang Zhang, Jun Zhou, Chuan Shi(参考訳) 知識表現学習は、知識グラフ(KG)を様々なオンラインサービスに組み込むために一般的に採用されている。 既存の知識表現学習法は大幅な性能向上を実現しているが、高次構造や豊富な属性情報を無視し、セマンティクスに富むKGに対して不満足な性能をもたらす。 さらに、インダクティブな方法での予測に失敗し、大規模な産業グラフにスケールできない。 これらの課題に対処するため,分散学習システムにおいて,知識データを利用した表現学習のための新しいフレームワークKGNNを開発した。 KGNN は GNN ベースのエンコーダと知識認識デコーダを備えており、高次構造と属性情報を共に詳細に探索し、KG における関係パターンをそれぞれ保存することを目的としている。 リンク予測とトリプルト分類タスクのための3つのデータセットに関する大規模な実験は、KGNNフレームワークの有効性とスケーラビリティを示している。

Knowledge representation learning has been commonly adopted to incorporate knowledge graph (KG) into various online services. Although existing knowledge representation learning methods have achieved considerable performance improvement, they ignore high-order structure and abundant attribute information, resulting unsatisfactory performance on semantics-rich KGs. Moreover, they fail to make prediction in an inductive manner and cannot scale to large industrial graphs. To address these issues, we develop a novel framework called KGNN to take full advantage of knowledge data for representation learning in the distributed learning system. KGNN is equipped with GNN based encoder and knowledge aware decoder, which aim to jointly explore high-order structure and attribute information together in a fine-grained fashion and preserve the relation patterns in KGs, respectively. Extensive experiments on three datasets for link prediction and triplet classification task demonstrate the effectiveness and scalability of KGNN framework.
翻訳日:2022-05-18 13:02:30 公開日:2022-05-17
# ランダムスタートより良いことはできるのか? データアウトソーシングの力は

Can We Do Better Than Random Start? The Power of Data Outsourcing ( http://arxiv.org/abs/2205.08098v1 )

ライセンス: Link先を確認
Yi Chen, Jing Dong, Xin T. Tong(参考訳) 多くの組織は豊富なデータにアクセスしているが、データの処理には計算能力がない。 彼らは計算タスクを他の施設にアウトソースできるが、共有できるデータの量には様々な制約がある。 このような制約の下でデータアウトソーシングが達成できることを問うのは当然です。 機械学習の観点からこの問題に対処する。 最適化アルゴリズムでモデルをトレーニングする場合、結果の品質はアルゴリズムが初期化される点に大きく依存することが多い。 ランダムスタートは、この問題に取り組むための最も一般的な方法の1つだが、計算コストが高く、計算リソースが不足している組織では実現不可能である。 3つの異なるシナリオに基づいて,少量のアウトソースデータを用いて適切な初期点を求めるシミュレーションに基づくアルゴリズムを提案する。 適切な正規性条件下では、アルゴリズムが高い確率で良い初期点を見つけることができることを示す理論的保証を提供する。 また,我々のアルゴリズムがランダムスタート法よりも著しく優れていることを示す数値実験を行った。

Many organizations have access to abundant data but lack the computational power to process the data. While they can outsource the computational task to other facilities, there are various constraints on the amount of data that can be shared. It is natural to ask what can data outsourcing accomplish under such constraints. We address this question from a machine learning perspective. When training a model with optimization algorithms, the quality of the results often relies heavily on the points where the algorithms are initialized. Random start is one of the most popular methods to tackle this issue, but it can be computationally expensive and not feasible for organizations lacking computing resources. Based on three different scenarios, we propose simulation-based algorithms that can utilize a small amount of outsourced data to find good initial points accordingly. Under suitable regularity conditions, we provide theoretical guarantees showing the algorithms can find good initial points with high probability. We also conduct numerical experiments to demonstrate that our algorithms perform significantly better than the random start approach.
翻訳日:2022-05-18 13:01:18 公開日:2022-05-17
# グラフラプラシアン正則化を伴う半パラメトリック文脈バンディット

Semi-Parametric Contextual Bandits with Graph-Laplacian Regularization ( http://arxiv.org/abs/2205.08295v1 )

ライセンス: Link先を確認
Young-Geun Choi, Gi-Soo Kim, Seunghoon Paik and Myunghee Cho Paik(参考訳) 非定常性は人間の行動においてユビキタスであり、コンテキストバンディットでそれに対処することは困難である。 いくつかの研究は、半パラメトリックな文脈的包帯の調査によってこの問題に対処し、非定常性を無視することはパフォーマンスに悪影響を及ぼすと警告した。 もう一つの一般的な人間の行動は、ソーシャルネットワークやグラフ構造の形で利用できるようになった社会的相互作用である。 その結果、グラフベースのコンテキストバンディットが注目を集めている。 本稿では,グラフに基づく半パラメトリック報酬モデルのための新しい文脈型トンプソンサンプリングアルゴリズムであるSemiGraphTSを提案する。 我々のアルゴリズムはこの設定で最初に提案される。 グラフ構造や半パラメトリックモデルの順序に依存する因子の倍数として表現できる累積的後悔の上限をグラフなしで導出する。 提案手法と既存アルゴリズムをシミュレーションと実データ例を用いて評価する。

Non-stationarity is ubiquitous in human behavior and addressing it in the contextual bandits is challenging. Several works have addressed the problem by investigating semi-parametric contextual bandits and warned that ignoring non-stationarity could harm performances. Another prevalent human behavior is social interaction which has become available in a form of a social network or graph structure. As a result, graph-based contextual bandits have received much attention. In this paper, we propose "SemiGraphTS," a novel contextual Thompson-sampling algorithm for a graph-based semi-parametric reward model. Our algorithm is the first to be proposed in this setting. We derive an upper bound of the cumulative regret that can be expressed as a multiple of a factor depending on the graph structure and the order for the semi-parametric model without a graph. We evaluate the proposed and existing algorithms via simulation and real data example.
翻訳日:2022-05-18 13:01:04 公開日:2022-05-17
# 単調制約下における高次元加法ガウス過程

High-dimensional additive Gaussian processes under monotonicity constraints ( http://arxiv.org/abs/2205.08528v1 )

ライセンス: Link先を確認
Andr\'es F. L\'opez-Lopera and Fran\c{c}ois Bachoc and Olivier Roustant(参考訳) 単調性制約と高次元への拡張性を考慮した付加的なガウスプロセスフレームワークを提案する。 私たちの貢献は3倍です。 まず,我々のフレームワークは入力空間の至るところで制約を満たすことができることを示す。 また,より一般的な成分別線形不等式制約は,成分別凸性など同様に扱うことができることを示した。 次に,逐次次元削減のための加算型maxmodアルゴリズムを提案する。 正方形ノルム基準を順次最大化することで、maxmodはアクティブな入力次元を特定し、最も重要なものを洗練する。 この基準は線形コストで明示的に計算できる。 最後に、フルフレームワーク用のオープンソースコードを提供しています。 本稿では,本手法の性能とスケーラビリティを,実世界のフラッディングアプリケーションと同様に単調性制約下で数百次元の合成例で実証する。

We introduce an additive Gaussian process framework accounting for monotonicity constraints and scalable to high dimensions. Our contributions are threefold. First, we show that our framework enables to satisfy the constraints everywhere in the input space. We also show that more general componentwise linear inequality constraints can be handled similarly, such as componentwise convexity. Second, we propose the additive MaxMod algorithm for sequential dimension reduction. By sequentially maximizing a squared-norm criterion, MaxMod identifies the active input dimensions and refines the most important ones. This criterion can be computed explicitly at a linear cost. Finally, we provide open-source codes for our full framework. We demonstrate the performance and scalability of the methodology in several synthetic examples with hundreds of dimensions under monotonicity constraints as well as on a real-world flood application.
翻訳日:2022-05-18 13:00:13 公開日:2022-05-17
# 属性とオブジェクトに対する視覚的埋め込みの分離

Disentangling Visual Embeddings for Attributes and Objects ( http://arxiv.org/abs/2205.08536v1 )

ライセンス: Link先を確認
Nirat Saini, Khoi Pham, Abhinav Shrivastava(参考訳) オブジェクト属性認識における合成ゼロショット学習の問題について検討する。 以前の作業では、オブジェクト分類のために事前訓練されたバックボーンネットワークで抽出された視覚的特徴を使用しており、属性に関連付けられた微妙な特徴をキャプチャしない。 この課題を克服するために、これらの研究は言語空間からの監督を採用し、事前訓練された単語埋め込みを用いて、属性オブジェクト対をよりよく分離して構成する。 言語的な埋め込み空間は、すでにオブジェクトと属性のユニークで無知な埋め込みを持っているが、私たちは焦点を視覚空間に移し、視覚空間における属性とオブジェクトの特徴を分離できる新しいアーキテクチャを提案する。 我々は視覚的に分解された特徴を利用して、視覚的および新しい構成を表す埋め込みを幻覚させ、モデルの学習をより規則化する。 大規模な実験により、我々の手法は既存の3つのデータセット(MIT-States、UT-Zappos、VAWに基づいた新しいベンチマーク)よりも優れています。 コード、モデル、データセットの分割はhttps://github.com/nirat1606/OADisで公開されている。

We study the problem of compositional zero-shot learning for object-attribute recognition. Prior works use visual features extracted with a backbone network, pre-trained for object classification and thus do not capture the subtly distinct features associated with attributes. To overcome this challenge, these studies employ supervision from the linguistic space, and use pre-trained word embeddings to better separate and compose attribute-object pairs for recognition. Analogous to linguistic embedding space, which already has unique and agnostic embeddings for object and attribute, we shift the focus back to the visual space and propose a novel architecture that can disentangle attribute and object features in the visual space. We use visual decomposed features to hallucinate embeddings that are representative for the seen and novel compositions to better regularize the learning of our model. Extensive experiments show that our method outperforms existing work with significant margin on three datasets: MIT-States, UT-Zappos, and a new benchmark created based on VAW. The code, models, and dataset splits are publicly available at https://github.com/nirat1606/OADis.
翻訳日:2022-05-18 12:59:42 公開日:2022-05-17
# SAMU-XLSR: セマンティックな多モード発話レベルの言語間音声表現

SAMU-XLSR: Semantically-Aligned Multimodal Utterance-level Cross-Lingual Speech Representation ( http://arxiv.org/abs/2205.08180v1 )

ライセンス: Link先を確認
Sameer Khurana and Antoine Laurent and James Glass(参考訳) samu-xlsr: 意味的に整合したマルチモーダル発話レベル言語間表現学習フレームワークを提案する。 音声フレーム(10~20ms)の解像度で多言語的文脈音声埋め込みを学習する従来の音声表現学習とは異なり、本研究は文(5〜10s)の解像度で多モーダル(音声テキスト)多言語音声埋め込みを学習することに焦点を当て、埋め込みベクトル空間が意味的に異なる言語にまたがるようにしている。 我々は、最先端の多言語フレームレベルの音声表現学習モデルXLS-RとLanguage Agnostic BERT Sentence Embedding (LaBSE)モデルを組み合わせて、発話レベルマルチモーダル音声エンコーダSAMU-XLSRを作成する。 我々は多言語転写音声データのみを用いてSAMU-XLSRを訓練するが、言語間音声テキストと音声音声関連は学習された表現空間に現れる。 我々の主張を裏付けるために,SAMU-XLSR音声エンコーダと事前学習したLaBSEテキスト文エンコーダを併用し,SAMU-XLSR単独で言語間音声-音声間翻訳を行う。 複数のデータセットにまたがる言語間テキストと音声翻訳検索タスクを実行することで,これらの応用を強調した。

We propose the SAMU-XLSR: Semantically-Aligned Multimodal Utterance-level Cross-Lingual Speech Representation learning framework. Unlike previous works on speech representation learning, which learns multilingual contextual speech embedding at the resolution of an acoustic frame (10-20ms), this work focuses on learning multimodal (speech-text) multilingual speech embedding at the resolution of a sentence (5-10s) such that the embedding vector space is semantically aligned across different languages. We combine state-of-the-art multilingual acoustic frame-level speech representation learning model XLS-R with the Language Agnostic BERT Sentence Embedding (LaBSE) model to create an utterance-level multimodal multilingual speech encoder SAMU-XLSR. Although we train SAMU-XLSR with only multilingual transcribed speech data, cross-lingual speech-text and speech-speech associations emerge in its learned representation space. To substantiate our claims, we use SAMU-XLSR speech encoder in combination with a pre-trained LaBSE text sentence encoder for cross-lingual speech-to-text translation retrieval, and SAMU-XLSR alone for cross-lingual speech-to-speech translation retrieval. We highlight these applications by performing several cross-lingual text and speech translation retrieval tasks across several datasets.
翻訳日:2022-05-18 12:59:21 公開日:2022-05-17
# (参考訳) データセットシフト診断のための統一フレームワーク

A unified framework for dataset shift diagnostics ( http://arxiv.org/abs/2205.08340v1 )

ライセンス: CC BY 4.0
Felipe Maia Polo, Rafael Izbicki, Evanildo Gomes Lacerda Jr, Juan Pablo Ibieta-Jimenez, Renato Vicente(参考訳) ほとんどの機械学習(ML)手法は、トレーニングフェーズで使用されるデータはターゲット人口の分布に由来すると仮定する。 しかし、実際にはしばしばデータセットシフトに直面し、適切に考慮しなければ、MLモデルの予測性能が低下する可能性がある。 一般に、実践者がどの種類のシフト(例えば共変量シフトやラベルシフト)が起こっているかを知っている場合、より優れた予測を得るために転送学習法を適用することがある。 残念なことに、現在のシフト検出方法は特定のタイプのシフトを検出するためにのみ設計されているか、その存在を正式にテストできない。 我々は,様々な種類のシフトの存在を検知し,その強さを定量化することにより,予測手法を改善するための洞察を与える汎用フレームワークを提案する。 このアプローチは、任意のデータ型(表/画像/テキスト)と分類と回帰タスクの両方に使用できる。 さらに、偽アラームを制御する公式な仮説テストを使用する。 私たちのフレームワークは、人工データセットと実際のデータセットの両方を使って、実際にどのように役立つかを説明します。 データセットシフト検出のパッケージは、https://github.com/felipemaiapolo/detectshift.comで確認できます。

Most machine learning (ML) methods assume that the data used in the training phase comes from the distribution of the target population. However, in practice one often faces dataset shift, which, if not properly taken into account, may decrease the predictive performance of the ML models. In general, if the practitioner knows which type of shift is taking place - e.g., covariate shift or label shift - they may apply transfer learning methods to obtain better predictions. Unfortunately, current methods for detecting shift are only designed to detect specific types of shift or cannot formally test their presence. We introduce a general framework that gives insights on how to improve prediction methods by detecting the presence of different types of shift and quantifying how strong they are. Our approach can be used for any data type (tabular/image/text) and both for classification and regression tasks. Moreover, it uses formal hypotheses tests that controls false alarms. We illustrate how our framework is useful in practice using both artificial and real datasets. Our package for dataset shift detection can be found in https://github.com/felipemaiapolo/detectshift.
翻訳日:2022-05-18 12:56:40 公開日:2022-05-17
# 深部ニューラルネットワークの加工・凍結部による次元低減訓練

Dimensionality Reduced Training by Pruning and Freezing Parts of a Deep Neural Network, a Survey ( http://arxiv.org/abs/2205.08099v1 )

ライセンス: Link先を確認
Paul Wimmer, Jens Mehnert, Alexandru Paul Condurache(参考訳) 最先端のディープラーニングモデルには、数十億に達するパラメータ数がある。 このようなモデルのトレーニング、保存、転送は、エネルギーと時間を要するため、コストがかかる。 これらのコストの大部分は、ネットワークのトレーニングによるものです。 モデル圧縮は、ストレージと転送コストを低減し、前方および後方パスでの計算回数を減少させることで、トレーニングをさらに効率化する。 したがって、高い性能を維持しながらトレーニング時にもネットワークを圧縮することが重要な研究課題である。 本研究は,ディープラーニングモデルにおけるトレーニング中のトレーニング重み数を削減する手法に関する調査である。 導入されたほとんどのメソッドはネットワークパラメータを0に設定し、プルーニングと呼ばれる。 提案プルーニング手法は,初期化時のプルーニング,宝くじ,ダイナミックスパーストレーニングに分類される。 さらに,ネットワークの一部がランダム初期化時に凍結する手法について検討する。 重みを凍結することで、トレーニング可能なパラメータの数を縮小し、勾配計算とモデルの最適化空間の次元を減少させる。 本研究は,まず,訓練中の刈り取りと凍結を対象とする数学的モデルとして,次元性低減トレーニングを提案する。 その後,異なる次元性低減訓練法を提示し,議論する。

State-of-the-art deep learning models have a parameter count that reaches into the billions. Training, storing and transferring such models is energy and time consuming, thus costly. A big part of these costs is caused by training the network. Model compression lowers storage and transfer costs, and can further make training more efficient by decreasing the number of computations in the forward and/or backward pass. Thus, compressing networks also at training time while maintaining a high performance is an important research topic. This work is a survey on methods which reduce the number of trained weights in deep learning models throughout the training. Most of the introduced methods set network parameters to zero which is called pruning. The presented pruning approaches are categorized into pruning at initialization, lottery tickets and dynamic sparse training. Moreover, we discuss methods that freeze parts of a network at its random initialization. By freezing weights, the number of trainable parameters is shrunken which reduces gradient computations and the dimensionality of the model's optimization space. In this survey we first propose dimensionality reduced training as an underlying mathematical model that covers pruning and freezing during training. Afterwards, we present and discuss different dimensionality reduced training methods.
翻訳日:2022-05-18 12:35:33 公開日:2022-05-17
# 偏り解消のための非偏り数学単語問題ベンチマーク

Unbiased Math Word Problems Benchmark for Mitigating Solving Bias ( http://arxiv.org/abs/2205.08108v1 )

ライセンス: Link先を確認
Zhicheng Yang, Jinghui Qin, Jiaqi Chen, and Xiaodan Liang(参考訳) 本稿では,現在のMWP(Math Word Problem)ベンチマークのモデルを評価する際の解のバイアスを再考する。 しかし、現在の問題解決者はバイアス付きデータセットと不適切なトレーニング戦略によるデータバイアスと学習バイアスからなるバイアスを解くことができる。 実験の結果,MWP の解法は,すべての MWP の問題について様々な質問をカバーしないバイアス付き学習データセットに偏りやすく,解法は問題理解のための深い意味論よりも浅いヒューリスティックスしか学べないことがわかった。 さらに、MWPは複数の等価方程式によって自然に解けるが、現在のデータセットは1つの等価方程式を基底真理として取り、ラベル付き基底真理と一致させ、他の等価方程式を無視する。 本稿では、まず、収集したデータに接地表現を変化させ、それに対応する複数の新しい質問を手動で注釈付けすることで構築した、UnbiasedMWPという新しいMWPデータセットを紹介する。 そして、学習バイアスを緩和するために、トレーニング中に可換法則を適用して得られる現在のモデル出力と候補等価方程式との長大なプレフィックスマッチングに基づいて、より適切なターゲット表現を動的に選択する動的ターゲット選択(DTS)戦略を提案する。 その結果,unbiasedmwpは,従来のデータやデータセットに比べてバイアスが有意に少なく,隣人とのマッチングよりも,解答者の推論スキルを十分に評価する有望なベンチマークとなった。 DTSでトレーニングした解法は、複数のMWPベンチマークで高い精度を達成する。 ソースコードはhttps://github.com/yangzhch6/unbiasedmwpで入手できる。

In this paper, we revisit the solving bias when evaluating models on current Math Word Problem (MWP) benchmarks. However, current solvers exist solving bias which consists of data bias and learning bias due to biased dataset and improper training strategy. Our experiments verify MWP solvers are easy to be biased by the biased training datasets which do not cover diverse questions for each problem narrative of all MWPs, thus a solver can only learn shallow heuristics rather than deep semantics for understanding problems. Besides, an MWP can be naturally solved by multiple equivalent equations while current datasets take only one of the equivalent equations as ground truth, forcing the model to match the labeled ground truth and ignoring other equivalent equations. Here, we first introduce a novel MWP dataset named UnbiasedMWP which is constructed by varying the grounded expressions in our collected data and annotating them with corresponding multiple new questions manually. Then, to further mitigate learning bias, we propose a Dynamic Target Selection (DTS) Strategy to dynamically select more suitable target expressions according to the longest prefix match between the current model output and candidate equivalent equations which are obtained by applying commutative law during training. The results show that our UnbiasedMWP has significantly fewer biases than its original data and other datasets, posing a promising benchmark for fairly evaluating the solvers' reasoning skills rather than matching nearest neighbors. And the solvers trained with our DTS achieve higher accuracies on multiple MWP benchmarks. The source code is available at https://github.com/yangzhch6/UnbiasedMWP.
翻訳日:2022-05-18 12:35:18 公開日:2022-05-17
# (参考訳) Heroes, Villains, Victims, GPT-3: トレーニングデータなしのキャラクタロールの自動抽出

Heroes, Villains, and Victims, and GPT-3: Automated Extraction of Character Roles Without Training Data ( http://arxiv.org/abs/2205.07557v2 )

ライセンス: CC BY 4.0
Dominik Stammbach, Maria Antoniak, Elliott Ash(参考訳) 本稿では,事前学習された大規模言語モデルを用いて,物語テキストから文字の役割を訓練データなしで抽出する方法を示す。 ゼロショットの質問回答プロンプトで検索すると、GPT-3は、新聞記事、映画の要約、政治演説など、様々な領域の英雄、悪役、犠牲者を識別できる。

This paper shows how to use large-scale pre-trained language models to extract character roles from narrative texts without training data. Queried with a zero-shot question-answering prompt, GPT-3 can identify the hero, villain, and victim in diverse domains: newspaper articles, movie plot summaries, and political speeches.
翻訳日:2022-05-18 11:24:20 公開日:2022-05-17
# 多階相互作用によるグラフニューラルネットワークの表現基盤の発見

Discovering the Representation Bottleneck of Graph Neural Networks from Multi-order Interactions ( http://arxiv.org/abs/2205.07266v2 )

ライセンス: Link先を確認
Fang Wu, Siyuan Li, Lirong Wu, Stan Z. Li, Dragomir Radev, Qiang Zhang(参考訳) ほとんどのグラフニューラルネットワーク(GNN)は、ノードの特徴を伝達し、インタラクションを構築するためにメッセージパッシングパラダイムに依存している。 最近の研究は、異なるグラフ学習タスクはノード間の相互作用の幅が異なることを指摘している。 その根底にあるメカニズムを調べるため、gnnは複雑度が異なる状況下で、特に生物化学や物理学などの科学分野におけるグラフレベルおよびノードレベルの応用において、ノード間の対的な相互作用を捉えることができる。 ペアワイズ相互作用を定式化する際には、科学領域における2つの共通グラフ構築法、すなわち \emph{K-nearest neighbor} (KNN) グラフと \emph{fully-connected} (FC) グラフを研究する。 さらに、KNNグラフとFCグラフが導入した帰納バイアスは、GNNが最も情報に富む相互作用の順序を知るのを妨げることを示した。 このような現象は、異なるグラフ学習タスクのために複数のgnnによって広く共有され、グローバル最小損失を達成するためにgnnを禁止するので、これを \emph{representation bottleneck} と呼ぶ。 そこで本研究では,各ノードの受信フィールドを動的に調整する,ペアの相互作用強度に基づくグラフ再構成手法を提案する。 分子特性予測と動的システム予測に関する広範な実験により,最先端のgnnベースラインよりも優れた手法が証明された。 より重要なことは、なぜサブグラフがグラフ特性の決定において重要な役割を果たすのかを合理的に説明することである。

Most graph neural networks (GNNs) rely on the message passing paradigm to propagate node features and build interactions. Recent works point out that different graph learning tasks require different ranges of interactions between nodes. To investigate its underlying mechanism, we explore the capacity of GNNs to capture pairwise interactions between nodes under contexts with different complexities, especially for their graph-level and node-level applications in scientific domains like biochemistry and physics. When formulating pairwise interactions, we study two common graph construction methods in scientific domains, i.e., \emph{K-nearest neighbor} (KNN) graphs and \emph{fully-connected} (FC) graphs. Furthermore, we demonstrate that the inductive bias introduced by KNN-graphs and FC-graphs hinders GNNs to learn the most informative order of interactions. {Such a phenomenon is broadly shared by several GNNs for different graph learning tasks and forbids GNNs to achieve the global minimum loss, so we name it a \emph{representation bottleneck}.} To overcome that, we propose a novel graph rewiring approach based on the pairwise interaction strengths to dynamically adjust the reception fields of each node. Extensive experiments in molecular property prediction and dynamic system forecast prove the superiority of our method over state-of-the-art GNN baselines. More importantly, this paper provides a reasonable explanation of why subgraphs play an important role in the determination of graph properties.
翻訳日:2022-05-18 11:07:18 公開日:2022-05-17
# HAP間リンクによるLEO星座のフェデレート学習

Federated learning for LEO constellations via inter-HAP links ( http://arxiv.org/abs/2205.07216v2 )

ライセンス: Link先を確認
Mohamed Elmahallawy, Tony Luo(参考訳) 低地球軌道(LEO)衛星コンステレーションは、ブロードバンドインターネットアクセスを提供し、グローバルなデータ取得と大規模AIアプリケーションを可能にするという特徴があるため、近年急速に展開されている。 このようなアプリケーションに機械学習(ML)を適用するために、画像などの衛星データを地上局(GS)にダウンロードし、集中的にモデルを訓練する従来の方法は、帯域幅の制限、衛星とGS間の断続接続、生データの送信に関するプライバシー上の懸念のため望ましくない。 新たなコミュニケーションおよびコンピューティングパラダイムとしてのフェデレートラーニング(FL)は、この問題に対する潜在的に最高の解決策を提供する。 しかし,既存のflソリューションは,過度の収束遅延や信頼できない無線チャネルなど,大きな課題があるため,そのような leo コンステレーションシナリオには適さないことを示す。 そこで本研究では,分散パラメータサーバ (PS) として高高度プラットフォーム (HAP) を導入し,衛星間協調によるモデルトレーニングを効率的に行うための同期FLアルゴリズムであるFedHAPを提案する。 また,収束を加速するために,fedhapが活用する衛星とhap間の層間通信方式を提案する。 シミュレーションの結果,fedhapは,ベンチマークよりもはるかに少ない通信ラウンドでモデル収束を達成し,トレーニング時間をほぼ数日から数時間に短縮し,精度を同等に向上した。

Low Earth Obit (LEO) satellite constellations have seen a sharp increase of deployment in recent years, due to their distinctive capabilities of providing broadband Internet access and enabling global data acquisition as well as large-scale AI applications. To apply machine learning (ML) in such applications, the traditional way of downloading satellite data such as imagery to a ground station (GS) and then training a model in a centralized manner, is not desirable because of the limited bandwidth, intermittent connectivity between satellites and the GS, and privacy concerns on transmitting raw data. Federated Learning (FL) as an emerging communication and computing paradigm provides a potentially supreme solution to this problem. However, we show that existing FL solutions do not fit well in such LEO constellation scenarios because of significant challenges such as excessive convergence delay and unreliable wireless channels. To this end, we propose to introduce high-altitude platforms (HAPs) as distributed parameter servers (PSs) and propose a synchronous FL algorithm, FedHAP, to accomplish model training in an efficient manner via inter-satellite collaboration. To accelerate convergence, we also propose a layered communication scheme between satellites and HAPs that FedHAP leverages. Our simulations demonstrate that FedHAP attains model convergence in much fewer communication rounds than benchmarks, cutting the training time substantially from several days down to a few hours with the same level of resulting accuracy.
翻訳日:2022-05-18 11:06:51 公開日:2022-05-17
# 勾配次数による楕円式学習におけるソボレフ加速と統計的最適性

Sobolev Acceleration and Statistical Optimality for Learning Elliptic Equations via Gradient Descent ( http://arxiv.org/abs/2205.07331v2 )

ライセンス: Link先を確認
Yiping Lu, Jose Blanchet, Lexing Ying(参考訳) 本稿では,対象関数の一般クラスを用いて,ランダムにサンプリングされた雑音観測から逆問題を解くための勾配降下のソボレフノルムの観点からの統計的限界について検討する。 目的関数のクラスには,核回帰のためのsobolevトレーニング,ディープリッツ法(drm),および楕円偏微分方程式(pdes)を特別に解くための物理インフォームドニューラルネットワーク(pinn)が含まれる。 好適な再生カーネルヒルベルト空間と、カーネル積分作用素の定義による問題硬度連続パラメータ化を用いて、我々のモデルの潜在的無限次元パラメータ化を考える。 この目的関数上の勾配降下は、統計的最適性も達成でき、サンプルサイズに応じてデータに対する最適通過数も増加することが証明される。 本理論に基づき,データサイズとタスクの硬度が増加すると,drmの最適エポック数がピン数よりも大きくなることを仮定して,トレーニングの目的関数としてソボレフノルムを使用することによる暗黙の加速を説明する。

In this paper, we study the statistical limits in terms of Sobolev norms of gradient descent for solving inverse problem from randomly sampled noisy observations using a general class of objective functions. Our class of objective functions includes Sobolev training for kernel regression, Deep Ritz Methods (DRM), and Physics Informed Neural Networks (PINN) for solving elliptic partial differential equations (PDEs) as special cases. We consider a potentially infinite-dimensional parameterization of our model using a suitable Reproducing Kernel Hilbert Space and a continuous parameterization of problem hardness through the definition of kernel integral operators. We prove that gradient descent over this objective function can also achieve statistical optimality and the optimal number of passes over the data increases with sample size. Based on our theory, we explain an implicit acceleration of using a Sobolev norm as the objective function for training, inferring that the optimal number of epochs of DRM becomes larger than the number of PINN when both the data size and the hardness of tasks increase, although both DRM and PINN can achieve statistical optimality.
翻訳日:2022-05-18 11:06:27 公開日:2022-05-17
# CQR-SQL: コンテキスト依存型テキスト-SQLパーサを強化した会話型質問修正

CQR-SQL: Conversational Question Reformulation Enhanced Context-Dependent Text-to-SQL Parsers ( http://arxiv.org/abs/2205.07686v2 )

ライセンス: Link先を確認
Dongling Xiao, Linzheng Chai, Qian-Wen Zhang, Zhao Yan, Zhoujun Li, Yunbo Cao(参考訳) コンテキスト依存のテキスト-to-SQLは、マルチターン質問をデータベース関連のSQLクエリに変換するタスクである。 既存のメソッドは通常、現在のsqlパースのために履歴コンテキストや予測済みのsqlをフルに利用することに集中するが、コリファレンスやellipsis、ユーザフォーカスの変更など、スキーマや会話依存を明確に理解することを無視している。 本稿では,CQR-SQLを提案する。CQR学習を用いて,スキーマを明示的に活用し,文脈依存をSQL解析のために分離する。 具体的には、まずスキーマ拡張再帰的CQR法を提案し、ドメイン関連自己完結型質問を生成する。 次に、CQR-SQLモデルを用いて、スキーマ基底整合タスクとツリー構造SQL解析整合タスクを通じて、マルチターン質問と補助自己完結質問のセマンティクスを同一の潜伏空間にマッピングし、適切なコンテキスト理解によってSQL解析の能力を高める。 執筆時点で、私たちのCQR-SQLは、コンテキスト依存の2つのテキスト-SQLベンチマークSParCとCoSQLで、最先端の結果を新たに達成しています。

Context-dependent text-to-SQL is the task of translating multi-turn questions into database-related SQL queries. Existing methods typically focus on making full use of history context or previously predicted SQL for currently SQL parsing, while neglecting to explicitly comprehend the schema and conversational dependency, such as co-reference, ellipsis and user focus change. In this paper, we propose CQR-SQL, which uses auxiliary Conversational Question Reformulation (CQR) learning to explicitly exploit schema and decouple contextual dependency for SQL parsing. Specifically, we first present a schema enhanced recursive CQR method to produce domain-relevant self-contained questions. Secondly, we train CQR-SQL models to map the semantics of multi-turn questions and auxiliary self-contained questions into the same latent space through schema grounding consistency task and tree-structured SQL parsing consistency task, which enhances the abilities of SQL parsing by adequately contextual understanding. At the time of writing, our CQR-SQL achieves new state-of-the-art results on two context-dependent text-to-SQL benchmarks SParC and CoSQL.
翻訳日:2022-05-18 11:06:07 公開日:2022-05-17
# RSNA脳内出血検出競争に対するトランスフォーマーを用いた有効解法

An Effective Transformer-based Solution for RSNA Intracranial Hemorrhage Detection Competition ( http://arxiv.org/abs/2205.07556v2 )

ライセンス: Link先を確認
Fangxin Shang, Siqi Wang, Yehui Yang(参考訳) 本研究では, RSNA-IHDコンペティション(2019)において, 勝者ソリューションの性能を超える脳内出血検出(IHD)を効果的に行う方法を提案する。 一方、私たちのモデルは、勝者のソリューションと比較して、クォーターパラメータと10%フロップしか取らない。 IHDタスクは、入力された脳CTのスライス毎の出血カテゴリを予測する必要がある。 北米放射線学会(RSNA)が2019年に開催したIHDコンペティションのトップ5ソリューションについてレビューする。 ほとんど全てのトップソリューションは、2次元畳み込みネットワークとシーケンシャルモデル(双方向GRUまたはLSTM)に依存し、それぞれスライス内およびスライス間の特徴を抽出する。 上位のソリューションはすべてモデルアンサンブルを活用することでパフォーマンスを高め、モデル番号は7から31に変化する。 近年,コンピュータビジョンシステム,特にトランスフォーマティブモデルにおいて,多くの進歩が見られたため,ihdタスクのスライス内およびスライス間ビューにおける特徴を抽出するトランスフォーマティブ・ベースの手法を導入する。 さらに、半教師付きメソッドをワークフローに組み込んで、パフォーマンスをさらに改善します。 そのコードは原稿に載っている。

We present an effective method for Intracranial Hemorrhage Detection (IHD) which exceeds the performance of the winner solution in RSNA-IHD competition (2019). Meanwhile, our model only takes quarter parameters and ten percent FLOPs compared to the winner's solution. The IHD task needs to predict the hemorrhage category of each slice for the input brain CT. We review the top-5 solutions for the IHD competition held by the Radiological Society of North America(RSNA) in 2019. Nearly all the top solutions rely on 2D convolutional networks and sequential models (Bidirectional GRU or LSTM) to extract intra-slice and inter-slice features, respectively. All the top solutions enhance the performance by leveraging the model ensemble, and the model number varies from 7 to 31. In the past years, since much progress has been made in the computer vision regime especially Transformer-based models, we introduce the Transformer-based techniques to extract the features in both intra-slice and inter-slice views for IHD tasks. Additionally, a semi-supervised method is embedded into our workflow to further improve the performance. The code is available in the manuscript.
翻訳日:2022-05-18 11:05:46 公開日:2022-05-17
# 構音障害と高齢者音声認識のためのパーソナライズされたadversarial data augmentation

Personalized Adversarial Data Augmentation for Dysarthric and Elderly Speech Recognition ( http://arxiv.org/abs/2205.06445v2 )

ライセンス: Link先を確認
Zengrui Jin, Mengzhe Geng, Jiajun Deng, Tianzi Wang, Shujie Hu, Guinan Li, Xunying Liu(参考訳) 通常の音声を対象とする自動音声認識(ASR)技術の急速な進歩にもかかわらず、外科的・高齢者的音声の正確な認識はいまだに非常に難しい課題である。 これらのユーザの間で頻繁に見られるモビリティの問題から,ASRシステム開発のための大量のデータ収集は困難である。 この目的のために、データ拡張技術は重要な役割を果たす。 従来のスペクトル輪郭の発話速度や全体形状のみを変化させる既存のデータ拡張技術とは対照的に、新しい話者依存型(sd)生成逆ネットワーク(gan)に基づくデータ拡張アプローチを用いて、老年者および正常者間の精細な分光時間差をモデル化する。 これらは両方を柔軟に許容します a) 平行音声データが利用可能である場合、時間的又は速度的に乱される正常音声スペクトルを、障害のある話者のそれに近いものに修正すること。 b)非並列データの場合,SVDは対象の高齢者話者の音声スペクトルベースの特徴を分解し,時間的ベースと再分解し,最先端のTDNNとコンフォーマーASRシステムトレーニングのための拡張データを生成する。 英語uaspeechとtorgo dysarthric speech corpora、英語認知症バンクpitとカントン語jccocc mocaの高齢者音声データセットの4つのタスクについて実験を行った。 提案したGANベースのデータ拡張アプローチは、TORGOとDementiaBankのデータに対するWER削減をそれぞれ0.91%と3.0%(9.61%と6.4%)まで改善する。 LHUCベースの話者適応を適用した後、一貫性のある性能改善が維持される。

Despite the rapid progress of automatic speech recognition (ASR) technologies targeting normal speech, accurate recognition of dysarthric and elderly speech remains highly challenging tasks to date. It is difficult to collect large quantities of such data for ASR system development due to the mobility issues often found among these users. To this end, data augmentation techniques play a vital role. In contrast to existing data augmentation techniques only modifying the speaking rate or overall shape of spectral contour, fine-grained spectro-temporal differences between dysarthric, elderly and normal speech are modelled using a novel set of speaker dependent (SD) generative adversarial networks (GAN) based data augmentation approaches in this paper. These flexibly allow both: a) temporal or speed perturbed normal speech spectra to be modified and closer to those of an impaired speaker when parallel speech data is available; and b) for non-parallel data, the SVD decomposed normal speech spectral basis features to be transformed into those of a target elderly speaker before being re-composed with the temporal bases to produce the augmented data for state-of-the-art TDNN and Conformer ASR system training. Experiments are conducted on four tasks: the English UASpeech and TORGO dysarthric speech corpora; the English DementiaBank Pitt and Cantonese JCCOCC MoCA elderly speech datasets. The proposed GAN based data augmentation approaches consistently outperform the baseline speed perturbation method by up to 0.91% and 3.0% absolute (9.61% and 6.4% relative) WER reduction on the TORGO and DementiaBank data respectively. Consistent performance improvements are retained after applying LHUC based speaker adaptation.
翻訳日:2022-05-18 11:05:25 公開日:2022-05-17
# 分散データストリーム上のフェデレーション異常検出

Federated Anomaly Detection over Distributed Data Streams ( http://arxiv.org/abs/2205.07829v2 )

ライセンス: Link先を確認
Paula Raissa Silva, Jo\~ao Vinagre, Jo\~ao Gama(参考訳) 通信ネットワークデータの共有は、例えば、ハイアグリゲーションレベルであっても、プライバシー法や規制、その他の重要な倫理上の懸念により、現在非常に制限されている。 これにより、組織、地域、州にまたがるデータを散乱させ、大規模にデータを利用するAIメソッドの使用を阻害する。 このようなデータを管理し、モデルを構築し、計算を行うプラットフォームを構築する必要がある。 本研究では,異常検出,フェデレーション学習,データストリーム間のブリッジ構築手法を提案する。 作業の包括的な目標は、分散データストリーム上でのフェデレーション環境での異常を検出することだ。 この研究は、異常検出のための連合学習環境にデータストリームアルゴリズムを適用し、堅牢なフレームワークを提供し、実世界の分散デプロイメントシナリオで実用性を示すことで、最先端のアルゴリズムを補完する。

Sharing of telecommunication network data, for example, even at high aggregation levels, is nowadays highly restricted due to privacy legislation and regulations and other important ethical concerns. It leads to scattering data across institutions, regions, and states, inhibiting the usage of AI methods that could otherwise take advantage of data at scale. It creates the need to build a platform to control such data, build models or perform calculations. In this work, we propose an approach to building the bridge among anomaly detection, federated learning, and data streams. The overarching goal of the work is to detect anomalies in a federated environment over distributed data streams. This work complements the state-of-the-art by adapting the data stream algorithms in a federated learning setting for anomaly detection and by delivering a robust framework and demonstrating the practical feasibility in a real-world distributed deployment scenario.
翻訳日:2022-05-18 11:04:51 公開日:2022-05-17