このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220223となっている論文です。

PDF登録状況(公開日: 20220223)

TitleAuthorsAbstract論文公表日・翻訳日
# 生体認証:なぜまだ大きく採用されていないのか?

Biometric recognition: why not massively adopted yet? ( http://arxiv.org/abs/2203.03719v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy(参考訳) 過去10年間、デバイスを捕獲する価格が劇的に低下し、コンピューティング能力が向上してきたが、生体認証システムはまだ民間のアプリケーションに大きく採用されるには程遠いようだ。 本稿では,この現象の原因と生体認証に関する誤解について述べる。

Although there has been a dramatically reduction on the prices of capturing devices and an increase on computing power in the last decade, it seems that biometric systems are still far from massive adoption for civilian applications. This paper deals with the causes of this phenomenon, as well as some misconceptions regarding biometric identification.
翻訳日:2022-03-13 13:52:27 公開日:2022-02-23
# 音声電子透かし : 法医学的音声デジタル記録の認証のための解法

Speech watermarking: a solution for authentication of forensic audio digital recordings ( http://arxiv.org/abs/2203.02275v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Jose Juan Lucena-Molina, Martin Hagmueller, Gernot Kubin(参考訳) 本稿では,デジタル録音における法医学的音声認証の問題点について論じる。 法医学的なオーディオはいくつかの論文で言及されているが、既存のアプローチはアナログ磁気記録に焦点を当てており、市場に出回っている大量のデジタルレコーダー(光学、ソリッドステート、ハードディスクなど)によって古いファシオンになりつつある。 本稿では,音声透かしのためのスペクトル拡散手法を用いたディジタル信号処理手法を提案する。 このアプローチは、認証が記録サポートではなく信号自体に基づいているという利点を示す。 したがって、どんな記録装置にも有効である。 また,本提案では,記録日時などの関連情報やすべての関連データの導入を許可している(古典的システムでは不可能である)。 実験の結果, 音声透かしは, 後部法医学的話者識別に大きく干渉しないことが明らかとなった。

In this paper we discuss the problem of authentication of forensic audio when using digital recordings. Although forensic audio has been addressed in several papers the existing approaches are focused on analog magnetic recordings, which are becoming old-fashion due to the large amount of digital recorders available on the market (optical, solid-state, hard disks, etc). We present an approach based on digital signal processing that consist of spread spectrum techniques for speech watermarking. This approach presents the advantage that the authentication is based on the signal itself rather than the recording support. Thus, it is valid for whatever recording device. In addition, our proposal permits the introduction of relevant information such as recording date and time and all the relevant data (this is not possible with classical systems). Our experimental results reveal that the speech watermarking procedure does not interfere in a significant way with the posterior forensic speaker identification.
翻訳日:2022-03-13 13:51:56 公開日:2022-02-23
# (参考訳) 非バイアスリフト型入札システムの実世界実装 [全文訳有]

A Real-World Implementation of Unbiased Lift-based Bidding System ( http://arxiv.org/abs/2202.13868v1 )

ライセンス: CC0 1.0
Daisuke Moriwaki and Yuta Hayakawa and Akira Matsui and Yuta Saito and Isshu Munemasa and Masashi Shibata(参考訳) リアルタイム入札(RTB)の広告オークションでは、典型的なデマンド・サイド・プラットフォーム(DSP)が広告印象の直後にクリックおよび変換の確率に基づいてバイドする。 最近の研究では、このような戦略は最適ではないと考え、リフトベースの入札という、より優れた入札戦略を提案している。リフトベースの入札は、単に広告インプレッションのリフト効果に応じて価格を入札し、販売などのターゲット指標の最大化を達成する。 しかし、リフトベースの入札は広告業界ではまだ広く受け入れられていない。 一つの理由から、現在の請求ルールの下では、DSPプロバイダにとってリフトベースの入札は利益が低い。 第二に、オンライン広告業界では、その影響に関する包括的な調査が欠如していることから、リフトベースの入札の実践的有用性は理解されていない。 実世界の広告キャンペーンを用いて広範囲な実験を行い,様々な条件下でのパフォーマンスを検証した。 リフトベースの入札、特に偏見のないリフトベースの入札は、DSPプロバイダと広告主の両方にとって最も利益がある。 当社のアブレーション研究は、リフトベースの入札が、現在支配的な第一価格オークションに適していることを示している。 結果はオンラインを動機づける

In display ad auctions of Real-Time Bid-ding (RTB), a typical Demand-Side Platform (DSP)bids based on the predicted probability of click and conversion right after an ad impression. Recent studies find such a strategy is suboptimal and propose a better bidding strategy named lift-based bidding.Lift-based bidding simply bids the price according to the lift effect of the ad impression and achieves maximization of target metrics such as sales. Despiteits superiority, lift-based bidding has not yet been widely accepted in the advertising industry. For one reason, lift-based bidding is less profitable for DSP providers under the current billing rule. Second, thepractical usefulness of lift-based bidding is not widely understood in the online advertising industry due to the lack of a comprehensive investigation of its impact.We here propose a practically-implemen table lift-based bidding system that perfectly fits the current billing rules. We conduct extensive experiments usinga real-world advertising campaign and examine the performance under various settings. We find that lift-based bidding, especially unbiased lift-based bidding is most profitable for both DSP providers and advertisers. Our ablation study highlights that lift-based bidding has a good property for currently dominant first price auctions. The results will motivate the online
翻訳日:2022-03-06 13:57:34 公開日:2022-02-23
# (参考訳) 深層ニューラルネットワークのメモリ計画

Memory Planning for Deep Neural Networks ( http://arxiv.org/abs/2203.00448v1 )

ライセンス: CC BY 4.0
Maksim Levental(参考訳) 大規模システムのコンテキストにおいて,DNNにおけるメモリ割り当てパターンについて検討する。 このようなメモリ割り当てパターンは、マルチスレッディングの文脈において、システムメモリアロケータにおける \texttt{mutex} 競合のため、高いレイテンシーにさらされる。 このような‘texttt{mutex}競合による遅延は、ユーザ対応サービスにおいて望ましくないボトルネックを生み出します。 そこで,本研究では,メモリ使用量を適度に増加させることなく,全体のレイテンシを最適化する「記憶」ベースの手法である \texttt{memomalloc} を提案する。 具体的には,すべてのアロケーションをキャプチャし,その高レベルのソース操作と一意に関連付けるランタイムコンポーネントと,効率的なアロケーション"プラン"を構築する静的分析コンポーネントで構成される。 PyTorchディープラーニングフレームワークに \texttt{MemoMalloc} を実装し,幅広いDNNアーキテクチャ上でのメモリ消費と実行性能を評価する。 DNNの推論遅延に関して、‘texttt{MemoMalloc} は最先端の汎用メモリアロケータよりも40%も優れています。

We study memory allocation patterns in DNNs during inference, in the context of large-scale systems. We observe that such memory allocation patterns, in the context of multi-threading, are subject to high latencies, due to \texttt{mutex} contention in the system memory allocator. Latencies incurred due to such \texttt{mutex} contention produce undesirable bottlenecks in user-facing services. Thus, we propose a "memorization" based technique, \texttt{MemoMalloc}, for optimizing overall latency, with only moderate increases in peak memory usage. Specifically, our technique consists of a runtime component, which captures all allocations and uniquely associates them with their high-level source operation, and a static analysis component, which constructs an efficient allocation "plan". We present an implementation of \texttt{MemoMalloc} in the PyTorch deep learning framework and evaluate memory consumption and execution performance on a wide range of DNN architectures. We find that \texttt{MemoMalloc} outperforms state-of-the-art general purpose memory allocators, with respect to DNN inference latency, by as much as 40\%.
翻訳日:2022-03-06 13:39:12 公開日:2022-02-23
# (参考訳) 繰り返しバッファリングユニットによるネットワークパスのシミュレーション [全文訳有]

Simulating Network Paths with Recurrent Buffering Units ( http://arxiv.org/abs/2202.13870v1 )

ライセンス: CC BY 4.0
Divyam Anshumaan, Sriram Balasubramanian, Shubham Tiwari, Nagarajan Natarajan, Sundararajan Sellamanickam, Venkata N. Padmanabhan(参考訳) 物理ネットワークパス(例えばインターネット)のシミュレーションは、AI-for-networkingの新たなサブフィールドにおける基礎的な研究課題である。 我々は,送信者が提供した時間変化負荷に応答して,エンドツーエンドのパケット遅延値を生成するモデルを模索する。 本稿では,動的システム,逐次意思決定,時系列生成モデリングの交点におけるML問題を定式化する。 本稿では,リカレントバッファリングユニット(Recurrent Buffering Unit)と呼ばれる新しいRNNスタイルのアーキテクチャに物理ネットワークパスのセマンティクスを組み込んで,標準的なネットワークシミュレータツールの解釈可能性,ニューラルネットワークのパワー,学習のためのSGDベースの技術の有効性,合成および実世界のネットワークトレースに対する有望な結果をもたらす,ネットワークシミュレーションのための新しいグレーボックスアプローチを提案する。

Simulating physical network paths (e.g., Internet) is a cornerstone research problem in the emerging sub-field of AI-for-networking. We seek a model that generates end-to-end packet delay values in response to the time-varying load offered by a sender, which is typically a function of the previously output delays. We formulate an ML problem at the intersection of dynamical systems, sequential decision making, and time-series generative modeling. We propose a novel grey-box approach to network simulation that embeds the semantics of physical network path in a new RNN-style architecture called Recurrent Buffering Unit, providing the interpretability of standard network simulator tools, the power of neural models, the efficiency of SGD-based techniques for learning, and yielding promising results on synthetic and real-world network traces.
翻訳日:2022-03-06 13:37:55 公開日:2022-02-23
# 歪みのブラインドインバージョンを用いた話者認識の改善

Speaker recognition improvement using blind inversion of distortions ( http://arxiv.org/abs/2203.01164v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Jordi Sole-Casals(参考訳) 本稿では,話者認識システムの認識率を向上させるために非線形歪みの逆変換を提案する。 本研究では,テスト信号に対する飽和度の影響について検討し,トレーニング材料が制御された状況で記録された状況を考慮して検討するが,テスト信号は入力信号レベル(飽和度)とのミスマッチを示す。 実験の結果,データ融合と非線形歪み補償の併用により,飽和テスト文の認識率は80%から88.57%に向上し,クリーン音声では87.76%に向上した。

In this paper we propose the inversion of nonlinear distortions in order to improve the recognition rates of a speaker recognizer system. We study the effect of saturations on the test signals, trying to take into account real situations where the training material has been recorded in a controlled situation but the testing signals present some mismatch with the input signal level (saturations). The experimental results shows that a combination of data fusion with and without nonlinear distortion compensation can improve the recognition rates with saturated test sentences from 80% to 88.57%, while the results with clean speech (without saturation) is 87.76% for one microphone.
翻訳日:2022-03-06 13:14:14 公開日:2022-02-23
# 機械学習を用いたアクティブラーニングと分類を用いた変調と信号クラスラベリング

Modulation and signal class labelling using active learning and classification using machine learning ( http://arxiv.org/abs/2202.12930v1 )

ライセンス: Link先を確認
Bhargava B C, Ankush Deshmukh, A V Narasimhadhan(参考訳) 機械学習(ML)における教師付き学習にはラベル付きデータセットが必要である。 さらなるリアルタイムデータ分類には、ラベリングの容易な方法論が必要である。 無線変調と信号分類は、軍事、商業、電子偵察、認知無線など、多くの分野で応用されている。 本稿では,アクティブラーニングフレームワークを用いたリアルタイム無線変調と信号クラスラベリングの課題を主に解決することを目的とする。 さらなる変調と信号分類は、KNN、SVM、Naive Bayesなどの機械学習アルゴリズムを用いて行われる。 アクティブラーニングは、最少量のデータサンプルをトレーニングすることで、異なるクラスに属するデータポイントのラベル付けを支援する。 SNR18dBの信号に対する能動学習アルゴリズムにより、精度が86%となる。 さらに、変調および信号分類のためのKNNベースのモデルは、SNRの範囲で良好に動作し、18dB信号に対して99.8%の精度が得られる。 この研究の新規性は、無線変調と信号クラスラベリングにアクティブラーニングを適用することである。 変調と信号クラスは、データサンプルからのカップル生成の助けを借りて、所定のタイミングでラベル付けされる。

Supervised learning in machine learning (ML) requires labelled data set. Further real-time data classification requires an easily available methodology for labelling. Wireless modulation and signal classification find their application in plenty of areas such as military, commercial and electronic reconaissance and cognitive radio. This paper mainly aims to solve the problem of real-time wireless modulation and signal class labelling with an active learning framework. Further modulation and signal classification is performed with machine learning algorithms such as KNN, SVM, Naive bayes. Active learning helps in labelling the data points belonging to different classes with the least amount of data samples trained. An accuracy of 86 percent is obtained by the active learning algorithm for the signal with SNR 18 dB. Further, KNN based model for modulation and signal classification performs well over range of SNR, and an accuracy of 99.8 percent is obtained for 18 dB signal. The novelty of this work exists in applying active learning for wireless modulation and signal class labelling. Both modulation and signal classes are labelled at a given time with help of couplet formation from the data samples.
翻訳日:2022-03-06 12:47:44 公開日:2022-02-23
# 深部検索型ドキュメント指向データベースのための半構造化クエリグラウンドリングとその受信およびPOIマッチングへの応用

Semi-Structured Query Grounding for Document-Oriented Databases with Deep Retrieval and Its Application to Receipt and POI Matching ( http://arxiv.org/abs/2202.13959v1 )

ライセンス: Link先を確認
Geewook Kim, Wonseok Hwang, Minjoon Seo, Seunghyun Park(参考訳) ドキュメント指向データベースのための半構造化クエリシステムは、多くの実アプリケーションを持っている。 私たちが興味を持っている特定のアプリケーションの一つは、各金融レシートイメージと対応する利息の場所(例えばレストラン)を全国的なデータベースにマッチさせることです。 この問題は、データベースに類似または不完全なエントリが多数存在し、クエリがノイズ(例えば、光学的文字認識のエラー)である実運用環境では特に困難である。 本研究では,半構造化データにおけるクエリグラウンドリング問題に対する埋め込み型検索の実践的課題に対処することを目的とする。 検索用深層言語エンコーディングの最近の進歩を活かし,手作業で設計したコンポーネントを使わずにクエリとデータベースのエントリの埋め込みと検索を行うためのモジュールの最も効果的な組み合わせを見つけるための広範囲な実験を行った。 提案モデルは,従来の手作業によるパターンベースモデルを大きく上回っているが,開発コストやメンテナンスコストは少ない。 実験の中核的な観察についても論じており、他の領域で同様の問題に取り組む実践者にも役立ちます。

Semi-structured query systems for document-oriented databases have many real applications. One particular application that we are interested in is matching each financial receipt image with its corresponding place of interest (POI, e.g., restaurant) in the nationwide database. The problem is especially challenging in the real production environment where many similar or incomplete entries exist in the database and queries are noisy (e.g., errors in optical character recognition). In this work, we aim to address practical challenges when using embedding-based retrieval for the query grounding problem in semi-structured data. Leveraging recent advancements in deep language encoding for retrieval, we conduct extensive experiments to find the most effective combination of modules for the embedding and retrieval of both query and database entries without any manually engineered component. The proposed model significantly outperforms the conventional manual pattern-based model while requiring much less development and maintenance cost. We also discuss some core observations in our experiments, which could be helpful for practitioners working on a similar problem in other domains.
翻訳日:2022-03-06 12:31:59 公開日:2022-02-23
# 動き予測におけるHDマップのパス認識グラフアテンション

Path-Aware Graph Attention for HD Maps in Motion Prediction ( http://arxiv.org/abs/2202.13772v1 )

ライセンス: Link先を確認
Fang Da and Yu Zhang(参考訳) 自律運転における運動予測の成功は、HDマップの情報の統合に依存している。 自然にグラフ構造を持つ地図では,HDマップを符号化するグラフニューラルネットワーク(GNN)の研究が近年盛んである。 しかし、gnnが直接デプロイされた他の多くのアプリケーションとは異なり、hdマップは頂点(レーン)が様々な性質のエッジ(レーン-レーン相互作用関係)によって接続される異質なグラフであり、ほとんどのグラフベースのモデルは、エージェントがレーンをいかに移動させるかを予測するための重要な手がかりを提供する、エッジタイプを理解するように設計されていない。 この課題を克服するために,2つの頂点間の注意を推定する新しい注意アーキテクチャであるパスアウェアグラフ注意(path-aware graph attention)を提案する。 本分析は,GCNのような既存のグラフネットワークが苦戦している現実的な問題において,提案した注意機構が学習を促進する方法を示す。 地図符号化の改善により、提案されたモデルは、Argoverse Motion Forecastingデータセットの以前の状態を超え、2021年のArgoverse Motion Forecasting Competitionで優勝した。

The success of motion prediction for autonomous driving relies on integration of information from the HD maps. As maps are naturally graph-structured, investigation on graph neural networks (GNNs) for encoding HD maps is burgeoning in recent years. However, unlike many other applications where GNNs have been straightforwardly deployed, HD maps are heterogeneous graphs where vertices (lanes) are connected by edges (lane-lane interaction relationships) of various nature, and most graph-based models are not designed to understand the variety of edge types which provide crucial cues for predicting how the agents would travel the lanes. To overcome this challenge, we propose Path-Aware Graph Attention, a novel attention architecture that infers the attention between two vertices by parsing the sequence of edges forming the paths that connect them. Our analysis illustrates how the proposed attention mechanism can facilitate learning in a didactic problem where existing graph networks like GCN struggle. By improving map encoding, the proposed model surpasses previous state of the art on the Argoverse Motion Forecasting dataset, and won the first place in the 2021 Argoverse Motion Forecasting Competition.
翻訳日:2022-03-06 12:30:48 公開日:2022-02-23
# 2つのAFISシステムの技術評価

Technological evaluation of two AFIS systems ( http://arxiv.org/abs/2203.00447v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy(参考訳) 本稿では,2つの自動指紋識別システム(AFIS)の法医学的応用に関する技術的評価を行う。 どちらもスペイン警察の施設で勤務している。 1つは450,000以上の指紋のデータベースを持つPrintrak AFIS 2000システムで、もう1つはNEC AFIS 21 SAID NT-LEXS Release 2.4.4で1500万以上の指紋のデータベースである。 両システムともインクレス指紋を管理できるが、最新のシステムはより優れた実験結果を提供する

This paper provides a technological evaluation of two Automatic Fingerprint Identification Systems (AFIS) used in forensic applications. Both of them are installed and working in Spanish police premises. The first one is a Printrak AFIS 2000 system with a database of more than 450,000 fingerprints, while the second one is a NEC AFIS 21 SAID NT-LEXS Release 2.4.4 with a database of more than 15 million fingerprints. Our experiments reveal that although both systems can manage inkless fingerprints, the latest one offers better experimental results
翻訳日:2022-03-06 12:30:27 公開日:2022-02-23
# (参考訳) 逆方向強化学習による相対的回帰政策の学習 [全文訳有]

Learning Relative Return Policies With Upside-Down Reinforcement Learning ( http://arxiv.org/abs/2202.12742v1 )

ライセンス: CC BY 4.0
Dylan R. Ashley, Kai Arulkumaran, J\"urgen Schmidhuber, Rupesh Kumar Srivastava(参考訳) 近年,強化学習問題を解決するための教師付き学習への関心が再燃している。 この領域における最近の研究は、主にコマンド条件ポリシーの学習に焦点を当てている。 本研究では、あるスカラー値と観測された戻り値との所望の関係を規定するコマンドを扱うための1つの方法(逆さまの強化学習)の可能性について検討する。 逆ダウン強化学習は,非線形関数近似を用いて表付きバンディット設定やCartPoleでそのようなコマンドをオンラインで実行することができることを示す。 そこで本研究では,この手法の威力を実証し,より複雑な命令構造の下での実用化に向けての道を開く。

Lately, there has been a resurgence of interest in using supervised learning to solve reinforcement learning problems. Recent work in this area has largely focused on learning command-conditioned policies. We investigate the potential of one such method -- upside-down reinforcement learning -- to work with commands that specify a desired relationship between some scalar value and the observed return. We show that upside-down reinforcement learning can learn to carry out such commands online in a tabular bandit setting and in CartPole with non-linear function approximation. By doing so, we demonstrate the power of this family of methods and open the way for their practical use under more complicated command structures.
翻訳日:2022-03-01 04:08:11 公開日:2022-02-23
# (参考訳) 深層生成学習によるフォトリアリスティック画像合成

Synthesizing Photorealistic Images with Deep Generative Learning ( http://arxiv.org/abs/2202.12752v1 )

ライセンス: CC BY 4.0
Chuanxia Zheng(参考訳) 本論文の目的は、画像翻訳、画像補完、完成したシーン分解を含む様々な視覚合成および生成タスクの解決に向けた私の研究成果を提示することである。 この論文は5つの作品から構成されており、それぞれが可愛らしい内容の画像を合成する新しい学習ベースのアプローチと、視覚的に現実的な外観を示す。 それぞれの研究は、画像合成における提案手法の優位を示し、奥行き推定などの他のタスクにも貢献している。

The goal of this thesis is to present my research contributions towards solving various visual synthesis and generation tasks, comprising image translation, image completion, and completed scene decomposition. This thesis consists of five pieces of work, each of which presents a new learning-based approach for synthesizing images with plausible content as well as visually realistic appearance. Each work demonstrates the superiority of the proposed approach on image synthesis, with some further contributing to other tasks, such as depth estimation.
翻訳日:2022-03-01 04:01:09 公開日:2022-02-23
# 話者認識の現状と課題

State-of-the-art in speaker recognition ( http://arxiv.org/abs/2202.12705v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Enric Monte-Moreno(参考訳) 近年の音声技術の発展により、話者認識の性能と柔軟性を向上させるための新しいツールが開発されているが、指紋や虹彩識別技術を使用する場合、自由度や代替法は少ないが、音声認識の柔軟性と異なるレベルが提供される。 また、音声入力では、ユーザーだけが知っている知識やコードの使用や、鍛えるのが難しい弁証的・概念的特徴など、他の自由度がある。 本稿では, 話者認識における技術の現状について概説し, 特に, プロスとコントラスト, 研究ラインについて概説する。 現在の研究線には、改良された分類システム、確率文法による高レベル情報の利用が含まれる。 結論として、話者認識は、あらゆる可能性がすでに検討されている技術とは程遠い。

Recent advances in speech technologies have produced new tools that can be used to improve the performance and flexibility of speaker recognition While there are few degrees of freedom or alternative methods when using fingerprint or iris identification techniques, speech offers much more flexibility and different levels for performing recognition: the system can force the user to speak in a particular manner, different for each attempt to enter. Also with voice input the system has other degrees of freedom, such as the use of knowledge/codes that only the user knows, or dialectical/semantic al traits that are difficult to forge. This paper offers and overview of the state of the art in speaker recognition, with special emphasis on the pros and contras, and the current research lines. The current research lines include improved classification systems, and the use of high level information by means of probabilistic grammars. In conclusion, speaker recognition is far away from being a technology where all the possibilities have already been explored.
翻訳日:2022-02-28 16:03:52 公開日:2022-02-23
# FedCAT:デバイス結合による正確なフェデレーション学習を目指して

FedCAT: Towards Accurate Federated Learning via Device Concatenation ( http://arxiv.org/abs/2202.12751v1 )

ライセンス: Link先を確認
Ming Hu, Tian Liu, Zhiwei Ling, Zhihao Yue, Mingsong Chen(参考訳) 有望な分散機械学習パラダイムとして、フェデレーション学習(fl)は、すべての関連するデバイスが、ローカルデータのプライバシを公開することなく、グローバルなモデルを協調的にトレーニングできるようにする。 しかし,非IIDシナリオでは,データの不均一性に起因する重み分散により,FLモデルの分類精度が大幅に低下する。 モデル精度を改善するために様々なFL変種が研究されているが、そのほとんどは無視できない通信と計算オーバーヘッドの問題に悩まされている。 本稿では,提案するデバイス選択戦略とデバイス結合型ローカルトレーニング手法に基づいて,高いモデル精度を実現する新しいfl手法feed-catを提案する。 個々のデバイスで訓練された局所モデルを集約する従来のFL法とは異なり、FedCatは、一連の論理的に連結されたデバイスを通じて局所モデルを周期的に集約する。 4つのよく知られたベンチマークにおける総合的な実験結果から,提案手法は通信オーバーヘッドを増大させることなく,最先端fl法のモデルの精度を大幅に向上できることがわかった。

As a promising distributed machine learning paradigm, Federated Learning (FL) enables all the involved devices to train a global model collaboratively without exposing their local data privacy. However, for non-IID scenarios, the classification accuracy of FL models decreases drastically due to the weight divergence caused by data heterogeneity. Although various FL variants have been studied to improve model accuracy, most of them still suffer from the problem of non-negligible communication and computation overhead. In this paper, we introduce a novel FL approach named Fed-Cat that can achieve high model accuracy based on our proposed device selection strategy and device concatenation-based local training method. Unlike conventional FL methods that aggregate local models trained on individual devices, FedCat periodically aggregates local models after their traversals through a series of logically concatenated devices, which can effectively alleviate the model weight divergence problem. Comprehensive experimental results on four well-known benchmarks show that our approach can significantly improve the model accuracy of state-of-the-art FL methods without causing extra communication overhead.
翻訳日:2022-02-28 15:20:47 公開日:2022-02-23
# 教師なし深層学習によるソーシャルメディアへの政治的傾倒のきめ細かい予測

Fine-Grained Prediction of Political Leaning on Social Media with Unsupervised Deep Learning ( http://arxiv.org/abs/2202.12382v1 )

ライセンス: Link先を確認
Tiziano Fagni, Stefano Cresci(参考訳) ソーシャルメディアユーザーの政治的傾向を予測することは、選挙予測、世論のダイナミクスモデル、および分極と不情報の政治的側面を研究するのに有用であることを考えれば、ますます一般的なタスクである。 本稿では,ソーシャルメディア投稿のテクストコンテンツからきめ細かい政治傾向を学ぶための新しい教師なし手法を提案する。 本手法は,表現学習タスクにおいて潜在的政治イデオロギーを学習するために,ディープニューラルネットワークを利用する。 その後、ユーザは低次元イデオロギー空間に投影され、その後クラスタ化される。 ユーザの政治的傾きは、自動的に、ユーザが割り当てられたクラスタから引き出される。 本手法を2つの課題分類タスクで評価し,ベースラインや他の最先端手法と比較した。 この手法は,8クラスタスクではmicro f1 = 0.426,3クラスタスクではmicro f1 = 0.772という,教師なし手法で最高の結果を得る。 興味深いことばかりでなく、われわれの結果は、きめ細かい政治的傾きを検出するための、新しく、より教師なしのアプローチの開発への道を開くものでもある。

Predicting the political leaning of social media users is an increasingly popular task, given its usefulness for electoral forecasts, opinion dynamics models and for studying the political dimension of polarization and disinformation. Here, we propose a novel unsupervised technique for learning fine-grained political leaning from the textual content of social media posts. Our technique leverages a deep neural network for learning latent political ideologies in a representation learning task. Then, users are projected in a low-dimensional ideology space where they are subsequently clustered. The political leaning of a user is automatically derived from the cluster to which the user is assigned. We evaluated our technique in two challenging classification tasks and we compared it to baselines and other state-of-the-art approaches. Our technique obtains the best results among all unsupervised techniques, with micro F1 = 0.426 in the 8-class task and micro F1 = 0.772 in the 3-class task. Other than being interesting on their own, our results also pave the way for the development of new and better unsupervised approaches for the detection of fine-grained political leaning.
翻訳日:2022-02-28 14:16:56 公開日:2022-02-23
# UnifiedQA-v2:Broader Cross-Format Trainingによるより強力な一般化

UnifiedQA-v2: Stronger Generalization via Broader Cross-Format Training ( http://arxiv.org/abs/2202.12359v1 )

ライセンス: Link先を確認
Daniel Khashabi, Yeganeh Kordi, Hannaneh Hajishirzi(参考訳) 私たちはUnifiedQA-v2という,UnifiedQAと同じプロセスで構築されたQAモデルを紹介します。 これは一般的にドメイン内とクロスドメインの結果を改善する。

We present UnifiedQA-v2, a QA model built with the same process as UnifiedQA, except that it utilizes more supervision -- roughly 3x the number of datasets used for UnifiedQA. This generally leads to better in-domain and cross-domain results.
翻訳日:2022-02-28 14:15:47 公開日:2022-02-23
# (参考訳) エネルギー構築のためのディープラーニングと機械学習の体系的レビュー

Systematic review of deep learning and machine learning for building energy ( http://arxiv.org/abs/2202.12269v1 )

ライセンス: CC BY 4.0
Ardabili Sina, Leila Abdolalizadeh, Csaba Mako, Bernat Torok, Mosavi Amir(参考訳) ビルエネルギー(BE)管理は、都市サステナビリティとスマートシティにおいて重要な役割を担っている。 近年、新しいデータサイエンスとデータ駆動技術は、よりスマートなエネルギー管理のためのエネルギー消費とエネルギー需要データセットの分析において大きな進歩を示している。 機械学習(ML)とディープラーニング(DL)の手法と応用は、特に、正確で高性能なエネルギーモデルの発展を約束している。 本研究は、BEシステムに応用されたMLおよびDLに基づく手法の総合的なレビューを行い、これらの手法の性能を更に評価する。 体系的なレビューと包括的分類学を通じて,MLおよびDLに基づく手法の進歩を慎重に検討し,有望なモデルを紹介した。 エネルギー需要予測の結果, ハイブリッド法とアンサンブル法は高いロバスト性範囲に, svm法はロバスト性限界に, ann法は中ロバスト性限界に, 線形回帰モデルは低ロバスト性限界に置かれていることがわかった。 一方, エネルギー消費予測, DLベース, ハイブリッド, アンサンブルモデルでは, 高いロバスト性スコアが得られた。 ANN、SVM、シングルMLモデルは良好なロバスト性を提供し、LRベースのモデルは低いロバスト性スコアを提供した。 さらに、エネルギー負荷予測のため、LRベースのモデルではロバスト性スコアが低かった。 ハイブリッドモデルとアンサンブルベースのモデルは高いロバスト性スコアを与えた。 DLベースとSVMベースの技術は優れたロバストネススコアを提供し、ANNベースの技術は中程度のロバストネススコアを提供した。

The building energy (BE) management has an essential role in urban sustainability and smart cities. Recently, the novel data science and data-driven technologies have shown significant progress in analyzing the energy consumption and energy demand data sets for a smarter energy management. The machine learning (ML) and deep learning (DL) methods and applications, in particular, have been promising for the advancement of the accurate and high-performance energy models. The present study provides a comprehensive review of ML and DL-based techniques applied for handling BE systems, and it further evaluates the performance of these techniques. Through a systematic review and a comprehensive taxonomy, the advances of ML and DL-based techniques are carefully investigated, and the promising models are introduced. According to the results obtained for energy demand forecasting, the hybrid and ensemble methods are located in high robustness range, SVM-based methods are located in good robustness limitation, ANN-based methods are located in medium robustness limitation and linear regression models are located in low robustness limitations. On the other hand, for energy consumption forecasting, DL-based, hybrid, and ensemble-based models provided the highest robustness score. ANN, SVM, and single ML models provided good and medium robustness and LR-based models provided the lower robustness score. In addition, for energy load forecasting, LR-based models provided the lower robustness score. The hybrid and ensemble-based models provided a higher robustness score. The DL-based and SVM-based techniques provided a good robustness score and ANN-based techniques provided a medium robustness score.
翻訳日:2022-02-26 10:01:02 公開日:2022-02-23
# (参考訳) 日露点温度シミュレーションにおけるニューラルネットワークと二層ニューラルネットワークとの比較によるファジィ論理決定の統合 [全文訳有]

Integration of neural network and fuzzy logic decision making compared with bilayered neural network in the simulation of daily dew point temperature ( http://arxiv.org/abs/2202.12256v1 )

ライセンス: CC BY 4.0
Guodao Zhang, Shahab S. Band, Sina Ardabili, Kwok-Wing Chau, Amir Mosavi(参考訳) 本研究では,データ駆動方式を用いて露点温度(DPT)をシミュレーションする。 Adaptive Neuro-Fuzzy Inference System (ANFIS) は、アゼルバイジャン東部のタブリズでこのパラメータを予測するデータ駆動手法として利用されている。 様々な入力パターン、すなわちT min、T max、Tはアーキテクチャのトレーニングに使用され、DPTはモデルの出力である。 以上の結果から, anfis法は一般に高い精度でデータパターンを識別できることが示唆された。 しかし、このアプローチは、処理時間とコンピュータリソースが追加機能を追加することで大幅に増加することを示している。 結果に基づいて、新たな機能を含めれば、イテレーションやコンピューティングリソースの数が劇的に変化する可能性がある。 その結果、チューニングパラメータはメソッドフレームワーク内で最適化されなければなりません。 その結果,データ駆動手法(機械学習法)と観測データとの間には高い一致が認められた。 この予測ツールキットを用いて、DPTはTabrizの温度分布のみに基づいて適切に予測できる。 この種のモデリングは様々な場所でDPTを予測するために非常に有望である。 さらに,BNN(Bilayered Neural Network)モデルとANFISモデルを様々なスケールで徹底的に比較した。 ANFISモデルは、ほとんど全てのメンバーシップ関数に対して非常に安定であるが、BNNモデルは、DPTを予測するためにこのスケールファクターに非常に敏感である。

In this research, dew point temperature (DPT) is simulated using the data-driven approach. Adaptive Neuro-Fuzzy Inference System (ANFIS) is utilized as a data-driven technique to forecast this parameter at Tabriz in East Azerbaijan. Various input patterns, namely T min, T max, and T mean, are utilized for training the architecture whilst DPT is the model's output. The findings indicate that, in general, ANFIS method is capable of identifying data patterns with a high degree of accuracy. However, the approach demonstrates that processing time and computer resources may substantially increase by adding additional functions. Based on the results, the number of iterations and computing resources might change dramatically if new functionalities are included. As a result, tuning parameters have to be optimized inside the method framework. The findings demonstrate a high agreement between results by the data-driven technique (machine learning method) and the observed data. Using this prediction toolkit, DPT can be adequately forecasted solely based on the temperature distribution of Tabriz. This kind of modeling is extremely promising for predicting DPT at various sites. Besides, this study thoroughly compares the Bilayered Neural Network (BNN) and ANFIS models on various scales. Whilst the ANFIS model is extremely stable for almost all numbers of membership functions, the BNN model is highly sensitive to this scale factor to predict DPT.
翻訳日:2022-02-26 09:59:45 公開日:2022-02-23
# (参考訳) 畳み込みニューラルネットワークを用いた廃棄物の分離法 [全文訳有]

A Method for Waste Segregation using Convolutional Neural Networks ( http://arxiv.org/abs/2202.12258v1 )

ライセンス: CC BY 4.0
Jash Shah and Sagar Kamat(参考訳) ゴミの分離は世界中の多くの国で主要な関心事である。 現代でも、有機廃棄物とリサイクル廃棄物を区別する方法を知らない人は多い。 そのため、世界は廃棄物処理の深刻な危機に直面している。 本稿では, 廃棄物分類の問題を解決するために, 深層学習アルゴリズムの活用を試みる。 廃棄物は有機物とリサイクル性の2つのカテゴリーに分類される。 提案手法の精度は94.9%である。 他の2つのモデルも有望な結果を示しているが、Proposed Modelは最大の精度で際立っている。 ディープラーニングの助けを借りて、効率的な廃棄物管理の最大の障害の1つを最終的に取り除くことができる。

Segregation of garbage is a primary concern in many nations across the world. Even though we are in the modern era, many people still do not know how to distinguish between organic and recyclable waste. It is because of this that the world is facing a major crisis of waste disposal. In this paper, we try to use deep learning algorithms to help solve this problem of waste classification. The waste is classified into two categories like organic and recyclable. Our proposed model achieves an accuracy of 94.9%. Although the other two models also show promising results, the Proposed Model stands out with the greatest accuracy. With the help of deep learning, one of the greatest obstacles to efficient waste management can finally be removed.
翻訳日:2022-02-26 09:50:02 公開日:2022-02-23
# (参考訳) 確率線形帯域に対するTruncated LinUCB

Truncated LinUCB for Stochastic Linear Bandits ( http://arxiv.org/abs/2202.11735v1 )

ライセンス: CC BY 4.0
Yanglei Song, Meng zhou(参考訳) 本稿では,コンテキストが独立で分散された$d$次元ランダムベクトルであり,armパラメータとコンテキストの両方において期待される報酬が線形であるような,有限個のアームを持つコンテキストバンディットを考察する。 LinUCBアルゴリズムは、関連する線形包帯に対して最小値に近いが、その過剰探索のため、次元$d$と時間地平線$T$の両方で最適である累積的後悔を持つことが示されている。 LinUCB のtruncated バージョンが提案され "Tr-LinUCB" と呼ばれ、LinUCB は truncation time $S$ まで続く。 Tr-LinUCBアルゴリズムは、十分に大きな定数である$C$に対して$S = Cd\log(T)$が$O(d\log(T))$後悔し、一致する下限を確立し、低次元の条件下では$d$と$T$の両方でTr-LinUCBの速度最適性を示す。 さらに、ある$\kappa>1$に対して$S = d\log^{\kappa}(T)$であれば、最適値に対する損失は乗法的な$\log\log(T)$ factorであり、$d$に依存しない。 Tr-LinUCBの切断時間を選択する際のオーバーシューティングに対する感度は、実用上重要である。

This paper considers contextual bandits with a finite number of arms, where the contexts are independent and identically distributed $d$-dimensional random vectors, and the expected rewards are linear in both the arm parameters and contexts. The LinUCB algorithm, which is near minimax optimal for related linear bandits, is shown to have a cumulative regret that is suboptimal in both the dimension $d$ and time horizon $T$, due to its over-exploration. A truncated version of LinUCB is proposed and termed "Tr-LinUCB", which follows LinUCB up to a truncation time $S$ and performs pure exploitation afterwards. The Tr-LinUCB algorithm is shown to achieve $O(d\log(T))$ regret if $S = Cd\log(T)$ for a sufficiently large constant $C$, and a matching lower bound is established, which shows the rate optimality of Tr-LinUCB in both $d$ and $T$ under a low dimensional regime. Further, if $S = d\log^{\kappa}(T)$ for some $\kappa>1$, the loss compared to the optimal is a multiplicative $\log\log(T)$ factor, which does not depend on $d$. This insensitivity to overshooting in choosing the truncation time of Tr-LinUCB is of practical importance.
翻訳日:2022-02-26 09:40:05 公開日:2022-02-23
# (参考訳) すべての線形領域は等しいか? [全文訳有]

Are All Linear Regions Created Equal? ( http://arxiv.org/abs/2202.11749v1 )

ライセンス: CC BY-SA 4.0
Matteo Gamba, Adrian Chmielewski-Anders, Josephine Sullivan, Hossein Azizpour, M{\aa}rten Bj\"orkman(参考訳) 線形領域の数はReLUネットワークの複雑性のプロキシとして研究されている。 しかし, プルーニングや知識蒸留といったネットワーク圧縮手法の実証的な成功は, 過度なパラメータ設定では, 線形領域密度が有効非線形性を捉えることができないことを示唆している。 本研究では,CIFAR-10 および CIFAR-100 上での訓練された VGG および ResNet の非線形性を捉える際の密度の有効性を検討するために,線形領域を発見するための効率的なアルゴリズムを提案する。 関数の変動に基づくより原理化された非線形性尺度と対比し、線形領域密度の欠点を強調する。 さらに, 非線形性の尺度は, 実験誤差の低減と非線形性の低減, 線形領域の局所的類似性の向上など, モデルワイド二重降下と明確に相関している。

The number of linear regions has been studied as a proxy of complexity for ReLU networks. However, the empirical success of network compression techniques like pruning and knowledge distillation, suggest that in the overparameterized setting, linear regions density might fail to capture the effective nonlinearity. In this work, we propose an efficient algorithm for discovering linear regions and use it to investigate the effectiveness of density in capturing the nonlinearity of trained VGGs and ResNets on CIFAR-10 and CIFAR-100. We contrast the results with a more principled nonlinearity measure based on function variation, highlighting the shortcomings of linear regions density. Furthermore, interestingly, our measure of nonlinearity clearly correlates with model-wise deep double descent, connecting reduced test error with reduced nonlinearity, and increased local similarity of linear regions.
翻訳日:2022-02-26 09:38:48 公開日:2022-02-23
# (参考訳) 光ファイバーモニタリングにおけるMLによる異常検出 [全文訳有]

ML-based Anomaly Detection in Optical Fiber Monitoring ( http://arxiv.org/abs/2202.11756v1 )

ライセンス: CC BY 4.0
Khouloud Abdelli, Joo Yeon Cho, Carsten Tropschug(参考訳) 光ネットワークにおけるセキュアで信頼性の高いデータ通信は高速インターネットにとって重要である。 本稿では,光ネットワークにおける異常検出と故障同定のためのデータ駆動アプローチを提案し,ファイバーブレークや光タッピングなどの物理的攻撃を診断する。 提案手法は, 自動エンコーダによる異常検出と, ファイバ故障同定と位置同定のためのアテンションベース双方向ゲートリカレントユニットアルゴリズムを含む。 本手法は,実運用データを用いて様々な攻撃シナリオにおける実験により有効性を検証する。

Secure and reliable data communication in optical networks is critical for high-speed internet. We propose a data driven approach for the anomaly detection and faults identification in optical networks to diagnose physical attacks such as fiber breaks and optical tapping. The proposed methods include an autoencoder-based anomaly detection and an attention-based bidirectional gated recurrent unit algorithm for the fiber fault identification and localization. We verify the efficiency of our methods by experiments under various attack scenarios using real operational data.
翻訳日:2022-02-26 09:13:59 公開日:2022-02-23
# (参考訳) 非構造化テキストから因果知識グラフへ:トランスフォーマーに基づくアプローチ [全文訳有]

From Unstructured Text to Causal Knowledge Graphs: A Transformer-Based Approach ( http://arxiv.org/abs/2202.11768v1 )

ライセンス: CC BY 4.0
Scott Friedman, Ian Magnusson, Vasanth Sarathy, Sonja Schmer-Galunder(参考訳) 定性的因果関係は、世界の離散的または連続的な相互作用の方向、依存性、時間的制約、単調性制約をコンパクトに表現する。 日常言語や学術言語では、量(例えば睡眠がストレスを減少させる)、離散的な事象や実体(例えばタンパク質が他のタンパク質の転写を阻害する)、意図的または機能的要因(例えば、病院の患者は痛みを和らげるように祈る)の間の相互作用を表現できる。 これらの多様な因果関係の抽出と表現は、科学的発見から社会科学までの領域で機能する認知システムにとって重要である。 本稿では,(1)変数や言語で記述された要因を含む知識グラフを共同で抽出するトランスフォーマーベースのNLPアーキテクチャ,(2)これらの変数に対する定性的因果関係,(3)これらの因果関係を制約する修飾子と大きさ,(4)抽出した各ノードを大きなオントロジー内でローカライズする単語感覚を提案する。 我々はトランスフォーマーベースのアーキテクチャ自体が認知システムであると主張するわけではないが、実世界のドメインにおける正確な知識グラフ抽出と、グラフベースの推論を行う認知システムのための知識グラフの実用性を示す。 このアプローチを実証し,学術出版物,ニュース記事,ソーシャルメディアからのテキスト入力処理という2つのユースケースで有望な結果を得た。

Qualitative causal relationships compactly express the direction, dependency, temporal constraints, and monotonicity constraints of discrete or continuous interactions in the world. In everyday or academic language, we may express interactions between quantities (e.g., sleep decreases stress), between discrete events or entities (e.g., a protein inhibits another protein's transcription), or between intentional or functional factors (e.g., hospital patients pray to relieve their pain). Extracting and representing these diverse causal relations are critical for cognitive systems that operate in domains spanning from scientific discovery to social science. This paper presents a transformer-based NLP architecture that jointly extracts knowledge graphs including (1) variables or factors described in language, (2) qualitative causal relationships over these variables, (3) qualifiers and magnitudes that constrain these causal relationships, and (4) word senses to localize each extracted node within a large ontology. We do not claim that our transformer-based architecture is itself a cognitive system; however, we provide evidence of its accurate knowledge graph extraction in real-world domains and the practicality of its resulting knowledge graphs for cognitive systems that perform graph-based reasoning. We demonstrate this approach and include promising results in two use cases, processing textual inputs from academic publications, news articles, and social media.
翻訳日:2022-02-26 09:05:20 公開日:2022-02-23
# (参考訳) pruneとtuneアンサンブル:スパース独立サブネットワークを用いた低コストアンサンブル学習 [全文訳有]

Prune and Tune Ensembles: Low-Cost Ensemble Learning With Sparse Independent Subnetworks ( http://arxiv.org/abs/2202.11782v1 )

ライセンス: CC BY 4.0
Tim Whitaker, Darrell Whitley(参考訳) アンサンブル学習は、機械学習の一般化を改善する効果的な方法である。 しかし、最先端のニューラルネットワークが大きくなるにつれて、複数の独立したネットワークのトレーニングに伴う計算コストは高価になる。 複数のモデルをスクラッチからトレーニングすることなく、ニューラルネットワークの多様なアンサンブルを作成するための高速で低コストな手法を提案する。 まず、単一の親ネットワークをトレーニングします。 次に、親をクローニングし、各子のパラメータを劇的に刈り取って、ユニークで多様なトポロジを持つメンバーのアンサンブルを作成することで、子ネットワークを作成する。 その後,少人数の子供ネットワークを短期間トレーニングし,スクラッチからのトレーニングに比べて大幅に高速化した。 我々は,子どもネットワークにおける多様性を最大化するための様々な方法を検討した。 この多様性により、"Prune and Tune"アンサンブルは、トレーニングコストのごく一部で従来のアンサンブルと競合する結果が得られる。 CIFAR-10 と CIFAR-100 の精度および不確実性評価の両面において, 低コストアンサンブル法の現状に対するアプローチのベンチマークを行った。

Ensemble Learning is an effective method for improving generalization in machine learning. However, as state-of-the-art neural networks grow larger, the computational cost associated with training several independent networks becomes expensive. We introduce a fast, low-cost method for creating diverse ensembles of neural networks without needing to train multiple models from scratch. We do this by first training a single parent network. We then create child networks by cloning the parent and dramatically pruning the parameters of each child to create an ensemble of members with unique and diverse topologies. We then briefly train each child network for a small number of epochs, which now converge significantly faster when compared to training from scratch. We explore various ways to maximize diversity in the child networks, including the use of anti-random pruning and one-cycle tuning. This diversity enables "Prune and Tune" ensembles to achieve results that are competitive with traditional ensembles at a fraction of the training cost. We benchmark our approach against state of the art low-cost ensemble methods and display marked improvement in both accuracy and uncertainty estimation on CIFAR-10 and CIFAR-100.
翻訳日:2022-02-26 08:48:10 公開日:2022-02-23
# (参考訳) テンソルトレインスケッチによる生成モデリング

Generative modeling via tensor train sketching ( http://arxiv.org/abs/2202.11788v1 )

ライセンス: CC BY 4.0
Y. Hur, J. G. Hoskins, M. Lindsey, E.M. Stoudenmire, Y. Khoo(参考訳) 本稿では,そのサンプルから確率密度のテンソルトレイン表現を構築するためのスケッチアルゴリズムを提案する。 本手法はテンソル列を構成するための標準再帰的svd法から逸脱する。 代わりに、個々のテンソルトレインコアに対して小さな線形系の列を定式化し、解く。 このアプローチは、回復問題のアルゴリズム的およびサンプル的複雑さの両方を脅かす次元の呪いを避けることができる。 具体的には、マルコフモデルに対して、テンソルコアは次元に関して一定であるサンプルの複雑さで復元できることを示す。 最後に,いくつかの数値実験を行い,本手法の性能について述べる。

In this paper we introduce a sketching algorithm for constructing a tensor train representation of a probability density from its samples. Our method deviates from the standard recursive SVD-based procedure for constructing a tensor train. Instead we formulate and solve a sequence of small linear systems for the individual tensor train cores. This approach can avoid the curse of dimensionality that threatens both the algorithmic and sample complexities of the recovery problem. Specifically, for Markov models, we prove that the tensor cores can be recovered with a sample complexity that is constant with respect to the dimension. Finally, we illustrate the performance of the method with several numerical experiments.
翻訳日:2022-02-26 08:34:28 公開日:2022-02-23
# (参考訳) 低位選好バンディットの学習速度向上のための相関の活用

Exploiting Correlation to Achieve Faster Learning Rates in Low-Rank Preference Bandits ( http://arxiv.org/abs/2202.11795v1 )

ライセンス: CC0 1.0
Suprovat Ghoshal and Aadirupa Saha(参考訳) 本稿では,ランダムなユーティリティベース選択モデル (RUMs) を用いた「emph{Correlated Preference Bandits}」問題を紹介する。 低ランクのような単純な相関構造を持つモデルがより高速な学習率をもたらすかどうかを考察する。 一般の'低ランク'選択モデルでは問題を解くことは不可能であるが、より構造化された項目相関を仮定してより高速な学習率が得られる。 特に、新しいクラスである \emph{Block-Rank} ベースの RUM モデルを導入し、最良の項目は $(\epsilon,\delta)$- PAC で、サンプルは $O(r \epsilon^{-2} \log(n/\delta))$のみであることを示す。 これは通常の学習アルゴリズムで知られていて、アイテム相関(r \ll n$)を活用できないような、標準的なサンプル複雑性である$\tilde{o}(n\epsilon^{-2} \log(1/\delta))$の値で改善される。 上記のサンプルの複雑さを、(対数因子まで)下限の一致で補完し、解析の厳密さを正当化します。 驚くべきことに、学習者がより大きなサブセットワイドクエリの代わりにただデュエルをプレイせざるを得ない場合、$\Omega(n\epsilon^{-2}\log(1/\delta))$の低い境界を示す。 さらに、結果をより一般的な '\emph{noisy Block-Rank}' モデルに拡張することで、我々の手法の堅牢性を保証する。 全体として、我々の結果は、ペアワイズ選好の$(k=2)$に対してサブセットワイズクエリを再生する利点を正当化する。

We introduce the \emph{Correlated Preference Bandits} problem with random utility-based choice models (RUMs), where the goal is to identify the best item from a given pool of $n$ items through online subsetwise preference feedback. We investigate whether models with a simple correlation structure, e.g. low rank, can result in faster learning rates. While we show that the problem can be impossible to solve for the general `low rank' choice models, faster learning rates can be attained assuming more structured item correlations. In particular, we introduce a new class of \emph{Block-Rank} based RUM model, where the best item is shown to be $(\epsilon,\delta)$- PAC learnable with only $O(r \epsilon^{-2} \log(n/\delta))$ samples. This improves on the standard sample complexity bound of $\tilde{O}(n\epsilon^{-2} \log(1/\delta))$ known for the usual learning algorithms which might not exploit the item-correlations ($r \ll n$). We complement the above sample complexity with a matching lower bound (up to logarithmic factors), justifying the tightness of our analysis. Surprisingly, we also show a lower bound of $\Omega(n\epsilon^{-2}\log(1/\delta))$ when the learner is forced to play just duels instead of larger subsetwise queries. Further, we extend the results to a more general `\emph{noisy Block-Rank}' model, which ensures robustness of our techniques. Overall, our results justify the advantage of playing subsetwise queries over pairwise preferences $(k=2)$, we show the latter provably fails to exploit correlation.
翻訳日:2022-02-26 08:33:40 公開日:2022-02-23
# (参考訳) 強化学習による特徴関数の訓練:XAI-methods play Connect Four [全文訳有]

Training Characteristic Functions with Reinforcement Learning: XAI-methods play Connect Four ( http://arxiv.org/abs/2202.11797v1 )

ライセンス: CC BY-SA 4.0
Stephan W\"aldchen, Felix Huber, Sebastian Pokutta(参考訳) 説明可能なAI(XAI)の目標の1つは、どの入力コンポーネントが分類器決定に関連するかを決定することである。 これは一般的にサリエンシー・アトリビューションとして知られている。 特性関数(協調ゲーム理論からの)は部分入力を評価し、シャプリー値のような理論的に「公正」な帰属法の基礎を形成することができる。 標準分類子関数のみを考えると、部分入力をどのように実現すべきかは明らかでない。 代わりに、ニューラルネットワークのようなブラックボックス分類器のためのほとんどのXAIメソッドは、一般的にオフマニフォールドにある反ファクト入力を考慮する。 これにより、評価が難しくなり、操作が容易になる。 本稿では,ニューラルネットワークの形式で特徴関数を直接学習し,単純な2人プレイゲームを行うためのセットアップを提案する。 トレーニング中にエージェントから色情報をランダムに隠すことで、Connect Fourのゲームに適用する。 XAIメソッドの比較には3つの利点がある: 部分的な入力を実現する方法の曖昧さを軽減し、オフマンフォールド評価を不要にし、互いに対戦させることでメソッドを比較することができる。

One of the goals of Explainable AI (XAI) is to determine which input components were relevant for a classifier decision. This is commonly know as saliency attribution. Characteristic functions (from cooperative game theory) are able to evaluate partial inputs and form the basis for theoretically "fair" attribution methods like Shapley values. Given only a standard classifier function, it is unclear how partial input should be realised. Instead, most XAI-methods for black-box classifiers like neural networks consider counterfactual inputs that generally lie off-manifold. This makes them hard to evaluate and easy to manipulate. We propose a setup to directly train characteristic functions in the form of neural networks to play simple two-player games. We apply this to the game of Connect Four by randomly hiding colour information from our agents during training. This has three advantages for comparing XAI-methods: It alleviates the ambiguity about how to realise partial input, makes off-manifold evaluation unnecessary and allows us to compare the methods by letting them play against each other.
翻訳日:2022-02-26 08:32:19 公開日:2022-02-23
# (参考訳) マルチタスク深層ニューラルネットワークによる光核セグメンテーションと組成回帰 [全文訳有]

Nuclei panoptic segmentation and composition regression with multi-task deep neural networks ( http://arxiv.org/abs/2202.11804v1 )

ライセンス: CC BY-SA 4.0
Satoshi Kondo, Satoshi Kasai(参考訳) Haematoxylin & Eosin染色組織像中の核セグメンテーション、分類、定量化は、計算病理学において下流で説明可能なモデルで使用できる解釈可能な細胞ベースの特徴の抽出を可能にする。 Colon Nuclei Identification and Counting (CoNIC) Challengeが開催され、計算病理学における自動核認識の研究と革新を促進する。 本報告では,提案手法をCoNICチャレンジに提出した。 提案手法では,マルチタスク学習フレームワークを用いて,単視分割タスクと回帰タスクを実行する。 パノプティカルセグメンテーションタスクでは、エンコーダ-デコーダ型ディープニューラルネットワークを用いて、隣接する核を異なるインスタンスに分割するために、セグメンテーションマップに加えて方向マップを予測する。

Nuclear segmentation, classification and quantification within Haematoxylin & Eosin stained histology images enables the extraction of interpretable cell-based features that can be used in downstream explainable models in computational pathology. The Colon Nuclei Identification and Counting (CoNIC) Challenge is held to help drive forward research and innovation for automatic nuclei recognition in computational pathology. This report describes our proposed method submitted to the CoNIC challenge. Our method employs a multi-task learning framework, which performs a panoptic segmentation task and a regression task. For the panoptic segmentation task, we use encoder-decoder type deep neural networks predicting a direction map in addition to a segmentation map in order to separate neighboring nuclei into different instances
翻訳日:2022-02-26 08:10:17 公開日:2022-02-23
# (参考訳) NeuroView-RNN: そろそろ時間だ [全文訳有]

NeuroView-RNN: It's About Time ( http://arxiv.org/abs/2202.11811v1 )

ライセンス: CC BY-SA 4.0
CJ Barberan, Sina Alemohammad, Naiming Liu, Randall Balestriero, Richard G. Baraniuk(参考訳) リカレントニューラルネットワーク(RNN)は、時系列やビデオなどのシーケンシャルなデータを処理するための重要なツールである。 解釈可能性とは、人によって理解される能力として定義され、数学的定式化で説明できる能力である説明可能性とは異なる。 RNNにおける重要な解釈可能性の問題は、時間毎に隠された各状態が定量的に意思決定プロセスにどのように貢献するかが明確でないことである。 本稿では,新しいRNNアーキテクチャのファミリとしてNeuroView-RNNを提案する。 ファミリーの各メンバーは、隠されたステップをグローバル線形分類器に結合することにより、標準のRNNアーキテクチャから派生する。 大域線形分類器は入力としてすべての隠れ状態を持つので、分類器の重みは隠された状態への線形写像を持つ。 したがって、重みから、NeuroView-RNNは、各ステップが特定の決定に対してどれだけ重要かを定量化できます。 ボーナスとして、NeuroView-RNNはRNNとその変種と比較して多くのケースで高い精度を提供する。 我々は,さまざまな時系列データセットを用いて評価することで,NeuroView-RNNの利点を示す。

Recurrent Neural Networks (RNNs) are important tools for processing sequential data such as time-series or video. Interpretability is defined as the ability to be understood by a person and is different from explainability, which is the ability to be explained in a mathematical formulation. A key interpretability issue with RNNs is that it is not clear how each hidden state per time step contributes to the decision-making process in a quantitative manner. We propose NeuroView-RNN as a family of new RNN architectures that explains how all the time steps are used for the decision-making process. Each member of the family is derived from a standard RNN architecture by concatenation of the hidden steps into a global linear classifier. The global linear classifier has all the hidden states as the input, so the weights of the classifier have a linear mapping to the hidden states. Hence, from the weights, NeuroView-RNN can quantify how important each time step is to a particular decision. As a bonus, NeuroView-RNN also offers higher accuracy in many cases compared to the RNNs and their variants. We showcase the benefits of NeuroView-RNN by evaluating on a multitude of diverse time-series datasets.
翻訳日:2022-02-26 08:06:24 公開日:2022-02-23
# (参考訳) 近接近傍アルゴリズムにおける補間の利点

Benefit of Interpolation in Nearest Neighbor Algorithms ( http://arxiv.org/abs/2202.11817v1 )

ライセンス: CC BY 4.0
Yue Xing, Qifan Song, Guang Cheng(参考訳) 深層学習の「citep[e.g.][]{zhang2016understandi ng}」研究では、過度にパラメータ化された深部ニューラルネットワークは、トレーニングエラーがほぼゼロである場合でも、小さなテストエラーを達成している。 いわゆる「二重降下」現象の理解に向けて多くの研究がなされているが、この論文ではデータ補間機構によって(過度なパラメトリゼーションを伴わずに)ゼロトレーニング誤差を強制する別の方法に目を向ける。 具体的には、近辺のNNアルゴリズムにおける補間重み付け方式のクラスについて検討する。 統計的リスクの乗法定数を慎重に特徴付けることにより,分類と回帰の両設定におけるデータ補間レベルに対するu字型性能曲線を明らかにした。 これにより、既存の結果 \citep{belkin2018does} は、ゼロトレーニングエラーが必ずしも予測性能を損なうとは限らないことを証明し、データ補間の軽度が(非補間)$k$-NNアルゴリズムよりも正確に予測性能と統計的安定性を改善するという反直感的な結果を主張している。 最後に、距離測定値の変更や破損したテストデータなど、結果の普遍性についても論じる。

In some studies \citep[e.g.,][]{zhang2016understandi ng} of deep learning, it is observed that over-parametrized deep neural networks achieve a small testing error even when the training error is almost zero. Despite numerous works towards understanding this so-called "double descent" phenomenon \citep[e.g.,][]{belkin2018reconcilin g,belkin2019two}, in this paper, we turn into another way to enforce zero training error (without over-parametrization ) through a data interpolation mechanism. Specifically, we consider a class of interpolated weighting schemes in the nearest neighbors (NN) algorithms. By carefully characterizing the multiplicative constant in the statistical risk, we reveal a U-shaped performance curve for the level of data interpolation in both classification and regression setups. This sharpens the existing result \citep{belkin2018does} that zero training error does not necessarily jeopardize predictive performances and claims a counter-intuitive result that a mild degree of data interpolation actually {\em strictly} improve the prediction performance and statistical stability over those of the (un-interpolated) $k$-NN algorithm. In the end, the universality of our results, such as change of distance measure and corrupted testing data, will also be discussed.
翻訳日:2022-02-26 07:46:56 公開日:2022-02-23
# (参考訳) 政策勾配強化学習のための一貫したドロップアウト [全文訳有]

Consistent Dropout for Policy Gradient Reinforcement Learning ( http://arxiv.org/abs/2202.11818v1 )

ライセンス: CC BY 4.0
Matthew Hausknecht and Nolan Wagener(参考訳) dropoutは長年、教師付き学習の主力だったが、強化学習ではめったに使われない。 政策段階の学習アルゴリズムでは、ドロップアウトのナイーブな応用が問題となる理由を分析し、この不安定性に対処するシンプルな手法である一貫性のあるドロップアウトを導入する。 我々は,a2c と ppo を用いて,幅広いドロップアウト確率の連続的および離散的動作環境において安定したトレーニングを実現することを実証した。 最後に、一貫したドロップアウトにより、モデルのネイティブドロップアウトを無効にすることなく、GPTなどの複雑なアーキテクチャのオンライントレーニングが可能になることを示す。

Dropout has long been a staple of supervised learning, but is rarely used in reinforcement learning. We analyze why naive application of dropout is problematic for policy-gradient learning algorithms and introduce consistent dropout, a simple technique to address this instability. We demonstrate consistent dropout enables stable training with A2C and PPO in both continuous and discrete action environments across a wide range of dropout probabilities. Finally, we show that consistent dropout enables the online training of complex architectures such as GPT without needing to disable the model's native dropout.
翻訳日:2022-02-26 07:45:36 公開日:2022-02-23
# (参考訳) 超音速流れの逆問題に対する物理インフォームドニューラルネットワーク [全文訳有]

Physics-informed neural networks for inverse problems in supersonic flows ( http://arxiv.org/abs/2202.11821v1 )

ライセンス: CC BY 4.0
Ameya D. Jagtap, Zhiping Mao, Nikolaus Adams, and George Em Karniadakis(参考訳) 逆超音速圧縮性流れ問題に対する正確な解法は、特殊航空機の設計にしばしば必要とされる。 特に、シュリーレン写真から得られる密度勾配のデータと、流入流と壁面境界の一部のデータがある問題を考える。 これらの逆問題は非常に困難であり、従来の手法ではそのような不適切な逆問題を解決するには不十分である。 この目的のために、我々は、物理インフォームドニューラルネットワーク(PINN)とその拡張バージョンである拡張PINN(XPINN)を採用し、ドメイン分解により各サブドメインに局所的に強力なニューラルネットワークを配置することができ、複雑な解が期待されるサブドメインにさらなる表現性を提供できる。 制御可能なオイラー方程式とは別に、我々は粘性解を得るためにエントロピー条件を強制する。 さらに, 密度と圧力に肯定的な条件を課す。 二次元膨張波, 2次元斜め波, 弓衝撃波を含む逆問題を考える。 PINN と XPINN で得られた解を比較し, 2 つの手法の一般化誤差を決定するための理論的結果を導出する。

Accurate solutions to inverse supersonic compressible flow problems are often required for designing specialized aerospace vehicles. In particular, we consider the problem where we have data available for density gradients from Schlieren photography as well as data at the inflow and part of wall boundaries. These inverse problems are notoriously difficult and traditional methods may not be adequate to solve such ill-posed inverse problems. To this end, we employ the physics-informed neural networks (PINNs) and its extended version, extended PINNs (XPINNs), where domain decomposition allows deploying locally powerful neural networks in each subdomain, which can provide additional expressivity in subdomains, where a complex solution is expected. Apart from the governing compressible Euler equations, we also enforce the entropy conditions in order to obtain viscosity solutions. Moreover, we enforce positivity conditions on density and pressure. We consider inverse problems involving two-dimensional expansion waves, two-dimensional oblique and bow shock waves. We compare solutions obtained by PINNs and XPINNs and invoke some theoretical results that can be used to decide on the generalization errors of the two methods.
翻訳日:2022-02-26 07:27:51 公開日:2022-02-23
# (参考訳) 個人話者の匿名化 [全文訳有]

Differentially Private Speaker Anonymization ( http://arxiv.org/abs/2202.11823v1 )

ライセンス: CC BY 4.0
Ali Shahin Shamsabadi, Brij Mohan Lal Srivastava, Aur\'elien Bellet, Nathalie Vauquier, Emmanuel Vincent, Mohamed Maouche, Marc Tommasi, Nicolas Papernot(参考訳) 実際の発話を共有することが、音声ベースのサービスのトレーニングと展開の鍵となる。 しかし、スピーチには個人情報が豊富にあるため、プライバシーのリスクも高まる。 話者匿名化は、言語的および韻律的属性をそのまま残しながら、発話から話者情報を除去することを目的としている。 最先端技術は、これらの属性から話者情報(話者埋め込みを介して表現される)を分離し、他の話者の埋め込みに基づく音声を再合成することによって機能する。 プライバシコミュニティの以前の調査では、匿名化はしばしば脆弱なプライバシ保護を提供するが、証明可能な保証は少なかった。 言語的・韻律的属性は依然として話者情報を含んでいる。 ノイズ層を用いて訓練したオートエンコーダと自動音声認識器に基づいて,各特徴抽出器を差分的に導入することにより,これらの属性から話者情報を除去する。 我々は,これらの抽出器を最先端の匿名化パイプラインに挿入し,その話者情報に証明可能な上限を持つ差分プライベート発話を初めて生成する。 我々は,LibriSpeechデータセットに対する個人話者匿名化手法によるプライバシーと利便性を実証的に評価した。 実験結果から, 話者識別を推測するために, 匿名化プロセスの知識を最大限に活用する強力な敵に対して, 音声認識訓練や推論において, 発話が極めて有効であることが確認された。

Sharing real-world speech utterances is key to the training and deployment of voice-based services. However, it also raises privacy risks as speech contains a wealth of personal data. Speaker anonymization aims to remove speaker information from a speech utterance while leaving its linguistic and prosodic attributes intact. State-of-the-art techniques operate by disentangling the speaker information (represented via a speaker embedding) from these attributes and re-synthesizing speech based on the speaker embedding of another speaker. Prior research in the privacy community has shown that anonymization often provides brittle privacy protection, even less so any provable guarantee. In this work, we show that disentanglement is indeed not perfect: linguistic and prosodic attributes still contain speaker information. We remove speaker information from these attributes by introducing differentially private feature extractors based on an autoencoder and an automatic speech recognizer, respectively, trained using noise layers. We plug these extractors in the state-of-the-art anonymization pipeline and generate, for the first time, differentially private utterances with a provable upper bound on the speaker information they contain. We evaluate empirically the privacy and utility resulting from our differentially private speaker anonymization approach on the LibriSpeech data set. Experimental results show that the generated utterances retain very high utility for automatic speech recognition training and inference, while being much better protected against strong adversaries who leverage the full knowledge of the anonymization process to try to infer the speaker identity.
翻訳日:2022-02-26 07:06:16 公開日:2022-02-23
# (参考訳) バイオサイバー攻撃におけるディープラーニングによるトロイの木馬のDNAトリガー検出 [全文訳有]

Using Deep Learning to Detect Digitally Encoded DNA Trigger for Trojan Malware in Bio-Cyber Attacks ( http://arxiv.org/abs/2202.11824v1 )

ライセンス: CC0 1.0
Mohd Siblee Islam, Stepan Ivanov, Hamdan Awan, Jennifer Drohan, Sasitharan Balasubramaniam, Lee Coffey, Srivatsan Kidambi, Witty Sri-saan(参考訳) この記事では、Deep Learning技術を使用して、バイオサイバー攻撃に対するDNAシークエンシングを保護する。 本稿では,DNA配列にペイロードをエンコードしてシークエンシングパイプラインで使用されるソフトウェアツールに埋め込まれたTrojanマルウェアを活性化するハイブリッド攻撃シナリオについて考察する。 このシナリオは、デジタル符号化されたIPアドレスと、DNA内の加害者のマシンのポート番号を含む合成工学的なDNAサンプルを提出する加害者に基づく。 サンプルdnaの遺伝子解析は、ソフトウェアのトロイの木馬マルウェアがリモート接続を起動および起動するために使用するアドレスをデコードする。 このアプローチは、複数の加害者に対して、DNAシークエンシングパイプラインをハイジャックするための接続を作成することができる。 データを隠蔽する方法として、前述した真のDNAとの類似性を最大化するため、アドレスを符号化することで検出を回避できる。 しかし,本論文では,DNAシークエンシングパイプラインをトロイの木馬攻撃から保護するために,ディープラーニングを用いてトリガー符号化データの検出と識別を成功させる方法について述べる。 その結果、エンコードされたトリガーデータにフラグメンテーション暗号化とステガノグラフィを施した後でも、新たなトロイの木馬攻撃シナリオにおける検出精度は100%に近いものとなる。 さらに, 湿式実験により, トロイの木馬ペイロードのエンコードDNAの設計と合成の可能性について検証した。

This article uses Deep Learning technologies to safeguard DNA sequencing against Bio-Cyber attacks. We consider a hybrid attack scenario where the payload is encoded into a DNA sequence to activate a Trojan malware implanted in a software tool used in the sequencing pipeline in order to allow the perpetrators to gain control over the resources used in that pipeline during sequence analysis. The scenario considered in the paper is based on perpetrators submitting synthetically engineered DNA samples that contain digitally encoded IP address and port number of the perpetrators machine in the DNA. Genetic analysis of the samples DNA will decode the address that is used by the software trojan malware to activate and trigger a remote connection. This approach can open up to multiple perpetrators to create connections to hijack the DNA sequencing pipeline. As a way of hiding the data, the perpetrators can avoid detection by encoding the address to maximise similarity with genuine DNAs, which we showed previously. However, in this paper we show how Deep Learning can be used to successfully detect and identify the trigger encoded data, in order to protect a DNA sequencing pipeline from trojan attacks. The result shows nearly up to 100% accuracy in detection in such a novel Trojan attack scenario even after applying fragmentation encryption and steganography on the encoded trigger data. In addition, feasibility of designing and synthesizing encoded DNA for such Trojan payloads is validated by a wet lab experiment.
翻訳日:2022-02-26 06:32:15 公開日:2022-02-23
# 人間と機械間の即興演奏のためのフラット潜在多様体

Flat latent manifolds for music improvisation between human and machine ( http://arxiv.org/abs/2202.12243v1 )

ライセンス: Link先を確認
Nutan Chen, Djalel Benbouzid, Francesco Ferroni, Mathis Nitschke, Luciano Pinna, Patrick van der Smagt(参考訳) 芸術音楽生成における機械学習の使用は、客観的な定量化が非意味である芸術の質に関する議論を引き起こす。 そこで我々は,音楽生成アルゴリズムを,ミュージシャンとオーディエンスの両方にとって,相互即興が新たな体験につながるような環境において,人間ミュージシャンと対向するものであると考える。 この動作を得るためには、反復的変分オートエンコーダ(vae)の枠組みを用いて、人間のミュージシャンがシードした音楽を生成することを学ぶ。 学習モデルでは、潜在空間における補間による新しい音楽列を生成する。 しかしながら、標準的なVAEは、その潜在表現の滑らかさを保証しない。 これは生成された音楽シーケンスの急激な変化に変換される。 これらの制限を克服するために、デコーダを定式化し、平坦なリーマン多様体、すなわちユークリッド空間に等尺な多様体で潜在空間を与える。 その結果、潜在空間における線形補間は、我々が目指す機械-音楽相互作用のタイプに適合する現実的で滑らかな音楽変化をもたらす。 我々は,音楽データセットに関する一連の実験を通して経験的証拠を提供し,プロのドラマーと対話的なジャムセッションにモデルをデプロイする。 ライブパフォーマンスは、潜在表現を直感的に解釈し、ドラマーがインタープレイを駆動できるという定性的な証拠を提供する。 音楽的応用の他に,本手法では,解釈可能性とエンドユーザとのインタラクションによって駆動される,機械学習モデルの人間中心設計の例を示す。

The use of machine learning in artistic music generation leads to controversial discussions of the quality of art, for which objective quantification is nonsensical. We therefore consider a music-generating algorithm as a counterpart to a human musician, in a setting where reciprocal improvisation is to lead to new experiences, both for the musician and the audience. To obtain this behaviour, we resort to the framework of recurrent Variational Auto-Encoders (VAE) and learn to generate music, seeded by a human musician. In the learned model, we generate novel musical sequences by interpolation in latent space. Standard VAEs however do not guarantee any form of smoothness in their latent representation. This translates into abrupt changes in the generated music sequences. To overcome these limitations, we regularise the decoder and endow the latent space with a flat Riemannian manifold, i.e., a manifold that is isometric to the Euclidean space. As a result, linearly interpolating in the latent space yields realistic and smooth musical changes that fit the type of machine--musician interactions we aim for. We provide empirical evidence for our method via a set of experiments on music datasets and we deploy our model for an interactive jam session with a professional drummer. The live performance provides qualitative evidence that the latent representation can be intuitively interpreted and exploited by the drummer to drive the interplay. Beyond the musical application, our approach showcases an instance of human-centred design of machine-learning models, driven by interpretability and the interaction with the end user.
翻訳日:2022-02-25 18:17:16 公開日:2022-02-23
# ベイズ深層学習を用いて原始惑星系円盤のギャップから惑星質量を推定する

Using Bayesian Deep Learning to infer Planet Mass from Gaps in Protoplanetary Disks ( http://arxiv.org/abs/2202.11730v1 )

ライセンス: Link先を確認
Sayantan Auddy, Ramit Dey, Min-Kai Lin (ASIAA, NCTS Physics Division), Daniel Carrera, and Jacob B. Simon(参考訳) 原始惑星円盤からの塵の放出で観測される環状ギャップのような惑星誘導サブ構造は、未発見の若い惑星を特徴づけるユニークなプローブを提供する。 深層学習に基づくモデルは、カスタマイズされたシミュレーションや経験的関係のような従来の手法よりも惑星の性質を特徴づける際、その予測に関連する不確実性を定量化する能力に欠ける。 本稿では、ディスクギャップから惑星の質量を予測し、予測に関連する不確実性を提供するベイズ深層学習ネットワーク「DPNNet-Bayesian」を提案する。 このアプローチのユニークな特徴は、ディープラーニングアーキテクチャに関連する不確実性と、測定ノイズに起因する入力データに固有の不確実性とを区別できることである。 このモデルは, 新たに実装された固定粒度モジュールと初期条件の改善により, ディスクプラネットシミュレーションから生成されたデータセットに基づいて訓練される。 ベイズフレームワークは、未知の観測に適用した場合の予測の有効性よりもゲージ/信頼区間を推定できる。 概念実証として, HL Tauで観測されたダストギャップにDPNNet-Bayesianを適用した。 このネットワークは、それぞれ 86.0 \pm 5.5 M_{\Earth} $, $ 43.8 \pm 3.3 M_{\Earth} $, $ 92.2 \pm 5.1 M_{\Earth} $ と予測している。

Planet induced sub-structures, like annular gaps, observed in dust emission from protoplanetary disks provide a unique probe to characterize unseen young planets. While deep learning based model has an edge in characterizing the planet's properties over traditional methods, like customized simulations and empirical relations, it lacks in its ability to quantify the uncertainty associated with its predictions. In this paper, we introduce a Bayesian deep learning network "DPNNet-Bayesian" ; that can predict planet mass from disk gaps and provides uncertainties associated with the prediction. A unique feature of our approach is that it can distinguish between the uncertainty associated with the deep learning architecture and uncertainty inherent in the input data due to measurement noise. The model is trained on a data set generated from disk-planet simulations using the \textsc{fargo3d} hydrodynamics code with a newly implemented fixed grain size module and improved initial conditions. The Bayesian framework enables estimating a gauge/confidence interval over the validity of the prediction when applied to unknown observations. As a proof-of-concept, we apply DPNNet-Bayesian to dust gaps observed in HL Tau. The network predicts masses of $ 86.0 \pm 5.5 M_{\Earth} $, $ 43.8 \pm 3.3 M_{\Earth} $, and $ 92.2 \pm 5.1 M_{\Earth} $ respectively, which are comparable to other studies based on specialized simulations.
翻訳日:2022-02-25 18:12:33 公開日:2022-02-23
# apache sparkによるストリーミングデータ分析による金融時系列のキャスティング

Nowcasting the Financial Time Series with Streaming Data Analytics under Apache Spark ( http://arxiv.org/abs/2202.11820v1 )

ライセンス: Link先を確認
Mohammad Arafat Ali Khan, Chandra Bhushan, Vadlamani Ravi, Vangala Sarveswara Rao and Shiva Shankar Orsu(参考訳) 本稿では,apache sparkのストリーミング分析機能を用いて,5分間隔でリアルタイムに高周波金融データセットをキャスティングすることを提案する。 提案する2段階の手法は,第1段階のカオスのモデル化と,第2段階のapache sparkのmllibで利用可能なラッソ回帰,リッジ回帰,一般化線形モデル,勾配ブースティングツリー,ランダムフォレストといった機械学習アルゴリズムによるトレーニングのためのスライディングウィンドウアプローチを用いたものである。 提案手法の有効性をテストするために、3つの異なるデータセットがあり、そのうち2つはNational Stock Exchange & Bombay Stock Exchange、そして最後に1つのBitcoin-INR変換データセットである。 提案手法の評価には,Symmetric Mean Absolute Percentage Error,Directional Symmetry,Theil U Coefficientといった指標を用いた。 我々はDiebold Mariano (DM) テストを用いて, それぞれのモデルの重要性を検証した。

This paper proposes nowcasting of high-frequency financial datasets in real-time with a 5-minute interval using the streaming analytics feature of Apache Spark. The proposed 2 stage method consists of modelling chaos in the first stage and then using a sliding window approach for training with machine learning algorithms namely Lasso Regression, Ridge Regression, Generalised Linear Model, Gradient Boosting Tree and Random Forest available in the MLLib of Apache Spark in the second stage. For testing the effectiveness of the proposed methodology, 3 different datasets, of which two are stock markets namely National Stock Exchange & Bombay Stock Exchange, and finally One Bitcoin-INR conversion dataset. For evaluating the proposed methodology, we used metrics such as Symmetric Mean Absolute Percentage Error, Directional Symmetry, and Theil U Coefficient. We tested the significance of each pair of models using the Diebold Mariano (DM) test.
翻訳日:2022-02-25 18:12:05 公開日:2022-02-23
# ニューラルネットワークトレーニング問題におけるスプリアス局所ミニマの存在について

On the Omnipresence of Spurious Local Minima in Certain Neural Network Training Problems ( http://arxiv.org/abs/2202.12262v1 )

ライセンス: Link先を確認
Constantin Christof and Julia Kowalczyk(参考訳) 本研究では,アフィンセグメントを含む活性化関数を持つ1次元実出力と,少なくとも2層以上の隠れ層を有する深層ニューラルネットワークの学習問題のロスランドスケープについて検討する。 このような問題は、アフィンでないすべての対象関数に対して、スプリアス局所極小(すなわち、グローバルに最適ではない)の連続体を持つことが示されている。 従来の研究とは対照的に,全てのサンプリングおよびパラメータ化レジーム,一般微分可能損失関数,任意の連続的非多項活性化関数,および有限次元および無限次元の設定について解析を行った。 さらに, 学習問題におけるスプリアス局所極小の出現は, 普遍近似定理の直接的な帰結であり, また, lp-best近似問題も, 密像を持たないすべてのネットワークに対して, ハダマールの意味で不適切であることを示す。 後者の結果は局所アフィン線型性の仮定も無く、隠れた層上の条件も持たない。 本論文は,局所最小値が実際に勾配解アルゴリズムの収束挙動に実際に影響を及ぼすことを示す数値実験で締めくくっている。

We study the loss landscape of training problems for deep artificial neural networks with a one-dimensional real output whose activation functions contain an affine segment and whose hidden layers have width at least two. It is shown that such problems possess a continuum of spurious (i.e., not globally optimal) local minima for all target functions that are not affine. In contrast to previous works, our analysis covers all sampling and parameterization regimes, general differentiable loss functions, arbitrary continuous nonpolynomial activation functions, and both the finite- and infinite-dimensional setting. It is further shown that the appearance of the spurious local minima in the considered training problems is a direct consequence of the universal approximation theorem and that the underlying mechanisms also cause, e.g., Lp-best approximation problems to be ill-posed in the sense of Hadamard for all networks that do not have a dense image. The latter result also holds without the assumption of local affine linearity and without any conditions on the hidden layers. The paper concludes with a numerical experiment which demonstrates that spurious local minima can indeed affect the convergence behavior of gradient-based solution algorithms in practice.
翻訳日:2022-02-25 18:09:43 公開日:2022-02-23
# 有向グラフにおけるクラスタリングエッジ

Clustering Edges in Directed Graphs ( http://arxiv.org/abs/2202.12265v1 )

ライセンス: Link先を確認
Manohar Murthi and Kamal Premaratne(参考訳) 頂点はグラフデータにどのように影響しますか? 我々はエッジクラスタリングのためのフレームワークを開発し,特に有向グラフに対する頂点と辺の協調的な影響を明らかにする探索データ解析手法を開発した。 頂点をグループ化するユビキタスな頂点クラスタリングとは対照的に、エッジクラスタリング群はエッジである。 機能親和性を共有するエッジは同じグループに割り当てられ、影響サブグラフクラスタを形成する。 頂点クラスタリングと同等の複雑さを持つこのフレームワークは、グラフデータに重要な影響サブグラフを示す3つの異なるエッジスペクトルクラスタリングの方法を示し、それぞれが有向影響プロセスに対する異なる洞察を提供する。 科学的研究におけるエッジクラスタリングの応用の可能性を示す様々な例を示す。

How do vertices exert influence in graph data? We develop a framework for edge clustering, a new method for exploratory data analysis that reveals how both vertices and edges collaboratively accomplish directed influence in graphs, especially for directed graphs. In contrast to the ubiquitous vertex clustering which groups vertices, edge clustering groups edges. Edges sharing a functional affinity are assigned to the same group and form an influence subgraph cluster. With a complexity comparable to that of vertex clustering, this framework presents three different methods for edge spectral clustering that reveal important influence subgraphs in graph data, with each method providing different insight into directed influence processes. We present several diverse examples demonstrating the potential for widespread application of edge clustering in scientific research.
翻訳日:2022-02-25 18:09:19 公開日:2022-02-23
# 臨界格子シュウィンガー模型における流れに基づくサンプリング

Flow-based sampling in the lattice Schwinger model at criticality ( http://arxiv.org/abs/2202.11712v1 )

ライセンス: Link先を確認
Michael S. Albergo, Denis Boyda, Kyle Cranmer, Daniel C. Hackett, Gurtej Kanwar, S\'ebastien Racani\`ere, Danilo J. Rezende, Fernando Romero-L\'opez, Phiala E. Shanahan, Julian M. Urban(参考訳) 近年の研究では、フローベースアルゴリズムは、量子色力学やシュウィンガーモデルなど、格子場理論の応用のためのフィールド分布の効率的なサンプリングを提供する可能性が示唆されている。 本研究では,シュウィンガーモデルにおいて,フェルミオン質量の臨界値におけるロバストな流れに基づくサンプリングの数値的な実演を行う。 対照的に、同じパラメータでは、従来の方法では構成空間のすべての部分のサンプリングに失敗し、不確かさを過小評価している。

Recent results suggest that flow-based algorithms may provide efficient sampling of field distributions for lattice field theory applications, such as studies of quantum chromodynamics and the Schwinger model. In this work, we provide a numerical demonstration of robust flow-based sampling in the Schwinger model at the critical value of the fermion mass. In contrast, at the same parameters, conventional methods fail to sample all parts of configuration space, leading to severely underestimated uncertainties.
翻訳日:2022-02-25 18:06:34 公開日:2022-02-23
# 完全量子ニューラルネットワーク

Completely Quantum Neural Networks ( http://arxiv.org/abs/2202.11727v1 )

ライセンス: Link先を確認
Steve Abel, Juan C. Criado, Michael Spannowsky(参考訳) ニューラルネットワークは、現代のディープラーニングアルゴリズムの中心にある。 量子アニーラタに一般的なニューラルネットワークを組み込んでトレーニングする方法を,古典的要素をトレーニングに導入せずに記述する。 現状の量子アニーラー上にネットワークを実装するために,ネットワークの自由パラメータを符号化するバイナリ,アクティベーション関数の多項式近似,2次多項式を2次多項式に還元する2つの重要な要素を開発した。 これらのアイデアを組み合わせることで、損失関数をイジングモデルハミルトニアンとして符号化することができる。 次に量子アニーラは基底状態を見つけることでネットワークを訓練する。 損失関数のグローバルな最小値を見つけるための一貫性と、ネットワークトレーニングが1つのアニーリングステップに収束するという事実は、高い分類性能を維持しながら、短いトレーニング時間につながります。 我々のアプローチは、一般的な機械学習モデルの量子トレーニングのための新しい道を開く。

Artificial neural networks are at the heart of modern deep learning algorithms. We describe how to embed and train a general neural network in a quantum annealer without introducing any classical element in training. To implement the network on a state-of-the-art quantum annealer, we develop three crucial ingredients: binary encoding the free parameters of the network, polynomial approximation of the activation function, and reduction of binary higher-order polynomials into quadratic ones. Together, these ideas allow encoding the loss function as an Ising model Hamiltonian. The quantum annealer then trains the network by finding the ground state. We implement this for an elementary network and illustrate the advantages of quantum training: its consistency in finding the global minimum of the loss function and the fact that the network training converges in a single annealing step, which leads to short training times while maintaining a high classification performance. Our approach opens a novel avenue for the quantum training of general machine learning models.
翻訳日:2022-02-25 18:06:25 公開日:2022-02-23
# ISDA: 変形可能な注意を伴う位置認識型インスタンスセグメンテーション

ISDA: Position-Aware Instance Segmentation with Deformable Attention ( http://arxiv.org/abs/2202.12251v1 )

ライセンス: Link先を確認
Kaining Ying, Zhenhua Wang, Cong Bai, Pengfei Zhou(参考訳) ほとんどのインスタンスセグメンテーションモデルは、前処理として提案推定(rpn)を、後処理として非最大抑制(nms)を組み込んだため、エンドツーエンドのトレーニングはできない。 本稿ではISDAと呼ばれる新しいエンドツーエンドのインスタンスセグメンテーション手法を提案する。 学習された位置認識カーネルとオブジェクトの特徴を備えた従来の畳み込み操作によって生成されるオブジェクトマスクのセットを予測する。 このようなカーネルや機能は、マルチスケール表現を備えた変形可能なアテンションネットワークを活用することで学習される。 提案手法は, セット予測機構によりNMSフリーである。 実証的には、ISDAはMS-COCOでMask R-CNN(強力なベースライン)を2.6ポイント上回っており、最近のモデルと比較して高いパフォーマンスを達成している。 コードはもうすぐ入手できる。

Most instance segmentation models are not end-to-end trainable due to either the incorporation of proposal estimation (RPN) as a pre-processing or non-maximum suppression (NMS) as a post-processing. Here we propose a novel end-to-end instance segmentation method termed ISDA. It reshapes the task into predicting a set of object masks, which are generated via traditional convolution operation with learned position-aware kernels and features of objects. Such kernels and features are learned by leveraging a deformable attention network with multi-scale representation. Thanks to the introduced set-prediction mechanism, the proposed method is NMS-free. Empirically, ISDA outperforms Mask R-CNN (the strong baseline) by 2.6 points on MS-COCO, and achieves leading performance compared with recent models. Code will be available soon.
翻訳日:2022-02-25 17:05:52 公開日:2022-02-23
# 解釈可能な特徴の必要性:動機付けと分類

The Need for Interpretable Features: Motivation and Taxonomy ( http://arxiv.org/abs/2202.11748v1 )

ライセンス: Link先を確認
Alexandra Zytek, Ignacio Arnaldo, Dongyu Liu, Laure Berti-Equille, Kalyan Veeramachaneni(参考訳) 実世界のドメインを対象とした機械学習(ML)アプリケーションの開発と説明を通じて、MLモデルは機能と同じくらい解釈可能であることを学びました。 回帰モデルのようなシンプルで高度に解釈可能なモデル型であっても、非解釈可能な機能を使う場合、理解することは困難または不可能である。 異なるユーザ、特にドメインでの意思決定にMLモデルを使用するユーザは、さまざまなレベルとタイプの機能解釈可能性を必要とする可能性がある。 さらに,我々の経験から,「解釈可能な特徴」という用語は,ml説明の有用性に影響を及ぼす特徴を最大限に把握するのに十分な具体的あるいは詳細なものではないと主張する。 本稿では,3つの重要な教訓について論じる。 1) 解釈可能な機能空間や、現実世界のアクションを取るドメインの専門家に役立つ機能の状態について、さらに注意を払わなければならない。 2) これらのドメインの専門家が必要とする特性について,形式的分類法が必要となる(本論文では部分分類法を提案する)。 3) モデル対応状態から解釈可能な形式にデータを取り込む変換は、モデルの特徴を準備する従来のml変換と同じように必須です。

Through extensive experience developing and explaining machine learning (ML) applications for real-world domains, we have learned that ML models are only as interpretable as their features. Even simple, highly interpretable model types such as regression models can be difficult or impossible to understand if they use uninterpretable features. Different users, especially those using ML models for decision-making in their domains, may require different levels and types of feature interpretability. Furthermore, based on our experiences, we claim that the term "interpretable feature" is not specific nor detailed enough to capture the full extent to which features impact the usefulness of ML explanations. In this paper, we motivate and discuss three key lessons: 1) more attention should be given to what we refer to as the interpretable feature space, or the state of features that are useful to domain experts taking real-world actions, 2) a formal taxonomy is needed of the feature properties that may be required by these domain experts (we propose a partial taxonomy in this paper), and 3) transforms that take data from the model-ready state to an interpretable form are just as essential as traditional ML transforms that prepare features for the model.
翻訳日:2022-02-25 17:05:18 公開日:2022-02-23
# 因果発見におけるビンニングの効果の検討

Investigating the effect of binning on causal discovery ( http://arxiv.org/abs/2202.11789v1 )

ライセンス: Link先を確認
Andrew Colt Deckert and Erich Kummerfeld(参考訳) 数値連続測定のバインニング(英: Binning、つまり離散化)は、データ収集、分析、プレゼンテーションにおいて広く普及しているが議論を呼んでいるプラクティスである。 バイニングの結果は様々な種類のデータ解析手法で評価されてきたが,これまでのところ、バイニングが因果探索アルゴリズムに与える影響は直接研究されていない。 本稿では,グリーディ等価探索(GES)因果探索アルゴリズムにおけるビンニングの効果をシミュレーションにより検討した結果を報告する。 この結果から,無結合連続データが最も検索性能が高いことが示唆されるが,例外もある。 また,サンプルサイズやチューニングパラメータの変化に対して,バイナリデータの方が感度が高く,サンプルサイズ,バイナリ,チューニングパラメータがパフォーマンスに与える影響も確認できた。

Binning (a.k.a. discretization) of numerically continuous measurements is a wide-spread but controversial practice in data collection, analysis, and presentation. The consequences of binning have been evaluated for many different kinds of data analysis methods, however so far the effect of binning on causal discovery algorithms has not been directly investigated. This paper reports the results of a simulation study that examined the effect of binning on the Greedy Equivalence Search (GES) causal discovery algorithm. Our findings suggest that unbinned continuous data often result in the highest search performance, but some exceptions are identified. We also found that binned data are more sensitive to changes in sample size and tuning parameters, and identified some interactive effects between sample size, binning, and tuning parameter on performance.
翻訳日:2022-02-25 17:04:59 公開日:2022-02-23
# グローバル、act local: 視覚・言語ナビゲーションのためのデュアルスケールグラフトランスフォーマー

Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation ( http://arxiv.org/abs/2202.11742v1 )

ライセンス: Link先を確認
Shizhe Chen, Pierre-Louis Guhur, Makarand Tapaswi, Cordelia Schmid and Ivan Laptev(参考訳) 未知の環境をナビゲートするための言語指示に従うことは、自律型実施エージェントにとって難しい問題である。 エージェントは、視覚的なシーンで言語を接地するだけでなく、ターゲットに到達するために環境を探索する必要がある。 本研究では,長期行動計画と細粒度クロスモーダル理解のためのデュアルスケールグラフトランスフォーマタ(duet)を提案する。 我々は,グローバルな活動空間における効率的な探索を可能にするために,オンザフライでトポロジカルマップを構築する。 大規模な行動空間推論と細粒度言語基底の複雑さのバランスをとるために,局所的な観測を超越した微細エンコーディングと,グラフ変換器によるグローバルマップ上の粗大エンコーディングを動的に組み合わせる。 提案手法であるDUETは、目標指向視覚言語ナビゲーション(VLN)ベンチマークのREVERIEとSOONにおいて、最先端の手法を著しく上回っている。 また、詳細なVLNベンチマークR2Rの成功率も向上する。

Following language instructions to navigate in unseen environments is a challenging problem for autonomous embodied agents. The agent not only needs to ground languages in visual scenes, but also should explore the environment to reach its target. In this work, we propose a dual-scale graph transformer (DUET) for joint long-term action planning and fine-grained cross-modal understanding. We build a topological map on-the-fly to enable efficient exploration in global action space. To balance the complexity of large action space reasoning and fine-grained language grounding, we dynamically combine a fine-scale encoding over local observations and a coarse-scale encoding on a global map via graph transformers. The proposed approach, DUET, significantly outperforms state-of-the-art methods on goal-oriented vision-and-language navigation (VLN) benchmarks REVERIE and SOON. It also improves the success rate on the fine-grained VLN benchmark R2R.
翻訳日:2022-02-25 16:58:19 公開日:2022-02-23
# radiotransformer: 視覚注意誘導疾患分類のためのカスケードグローバル焦点トランスフォーマ

RadioTransformer: A Cascaded Global-Focal Transformer for Visual Attention-guided Disease Classification ( http://arxiv.org/abs/2202.11781v1 )

ライセンス: Link先を確認
Moinak Bhattacharya, Shubham Jain, Prateek Prasanna(参考訳) 本研究では,放射線科医の視線パターンを活用した新しい視覚注意駆動トランスフォーマーであるradiotransformerを提案する。 放射線技師のような領域の専門家は、医用画像解釈のための視覚情報に頼る。 一方、深いニューラルネットワークは、視覚的解釈が困難である場合でも、同様のタスクにおいて大きな可能性を証明している。 視線追跡は、視覚検索の複雑さに関する洞察を与え、ドメインの専門家の観察行動を捉えるために使われてきた。 しかし、注意機構に依存しているフレームワークでさえ、この豊富なドメイン情報を活用していない。 RadioTransformerはこの重要なギャップを、電波技師の視覚的探索パターンから学び、ケース化されたグローバル焦点変換フレームワークで「人間の視覚的注意領域」として符号化する。 全体的な「グローバル」画像の特徴とより詳細な「ローカル」特徴はそれぞれ、提案したグローバルモジュールと焦点モジュールによってキャプチャされる。 本研究は,眼球運動データがない病気分類タスクを含む8つのデータセットに対する,学生と教師のアプローチの有効性を実験的に検証した。

In this work, we present RadioTransformer, a novel visual attention-driven transformer framework, that leverages radiologists' gaze patterns and models their visuo-cognitive behavior for disease diagnosis on chest radiographs. Domain experts, such as radiologists, rely on visual information for medical image interpretation. On the other hand, deep neural networks have demonstrated significant promise in similar tasks even where visual interpretation is challenging. Eye-gaze tracking has been used to capture the viewing behavior of domain experts, lending insights into the complexity of visual search. However, deep learning frameworks, even those that rely on attention mechanisms, do not leverage this rich domain information. RadioTransformer fills this critical gap by learning from radiologists' visual search patterns, encoded as 'human visual attention regions' in a cascaded global-focal transformer framework. The overall 'global' image characteristics and the more detailed 'local' features are captured by the proposed global and focal modules, respectively. We experimentally validate the efficacy of our student-teacher approach for 8 datasets involving different disease classification tasks where eye-gaze data is not available during the inference phase.
翻訳日:2022-02-25 16:58:02 公開日:2022-02-23
# 登録管理に失敗するオンライン署名検証システム

On-line signature verification system with failure to enroll managing ( http://arxiv.org/abs/2202.12242v1 )

ライセンス: Link先を確認
Joan Fabregas, Marcos Faundez-Zanuy(参考訳) 本稿では,オンライン署名に基づく生体認証システムについてシミュレーションする。 この目的で、mcytシグネチャデータベースを3つのサブセットに分割した。1つは分類訓練用、もう1つはシステム調整用、もう1つは登録と検証をシミュレートするシステムテスト用である。 このコンテキストは、新しいユーザが既存のシステムを登録しようとする実際の操作に対応しており、状況の登録の失敗を検出するために、システムによって自動的に誘導されなければならない。 この研究の主な貢献は、低品質サンプルを自動的に拒否するために、一貫性チェックからなるインテリジェントな登録という新しい提案によって、状況の登録に失敗する管理である。 この戦略は、ユーザーの8%を除外するときに、検証エラーを22%まで増やすことができる。 この状況では、8%の人がシステムに登録できず、他のバイオメトリックスや人間の能力によって検証されなければならない。 これらの人々は知的参加と同一視され、状況は管理できる。 また,しきい値符号化と判別可能性基準を備えたdct型特徴抽出器を提案する。

In this paper we simulate a real biometric verification system based on on-line signatures. For this purpose we have split the MCYT signature database in three subsets: one for classifier training, another for system adjustment and a third one for system testing simulating enrollment and verification. This context corresponds to a real operation, where a new user tries to enroll an existing system and must be automatically guided by the system in order to detect the failure to enroll situations. The main contribution of this work is the management of failure to enroll situations by means of a new proposal, called intelligent enrollment, which consists of consistency checking in order to automatically reject low quality samples. This strategy lets to enhance the verification errors up to 22% when leaving out 8% of the users. In this situation 8% of the people cannot be enrolled in the system and must be verified by other biometrics or by human abilities. These people are identified with intelligent enrollment and the situation can be thus managed. In addition we also propose a DCT-based feature extractor with threshold coding and discriminability criteria.
翻訳日:2022-02-25 16:33:47 公開日:2022-02-23
# 量子自然言語処理入門

A gentle introduction to Quantum Natural Language Processing ( http://arxiv.org/abs/2202.11766v1 )

ライセンス: Link先を確認
Shervin Le Du, Senaida Hern\'andez Santana, Giannicola Scarpa(参考訳) この修士論文の主な目標は、量子自然言語処理(QNLP)を導入して、NLPエンジニアと量子コンピューティング実践者の両方が理解できるようにすることである。 QNLPは、文の意味を量子コンピュータに符号化されたベクトルとして表現することを目的とした量子コンピューティングの最近の応用である。 これを実現するために、文の構成的意味(DisCoCatモデル)によって単語の分布的意味が拡張され、文の構文的構造を通じて単語の意味を表すベクトルが合成される。 これはテンソル積に基づくアルゴリズムを用いて行われる。 このアルゴリズムは古典的コンピュータでは非効率であるが、量子回路を用いてスケールする。 実装の実際的な詳細を明らかにすると、ユースケースは3つある。

The main goal of this master's thesis is to introduce Quantum Natural Language Processing (QNLP) in a way understandable by both the NLP engineer and the quantum computing practitioner. QNLP is a recent application of quantum computing that aims at representing sentences' meaning as vectors encoded into quantum computers. To achieve this, the distributional meaning of words is extended by the compositional meaning of sentences (DisCoCat model) : the vectors representing words' meanings are composed through the syntactic structure of the sentence. This is done using an algorithm based on tensor products. We see that this algorithm is inefficient on classical computers but scales well using quantum circuits. After exposing the practical details of its implementation, we go through three use-cases.
翻訳日:2022-02-25 16:32:39 公開日:2022-02-23
# 機械翻訳に自然言語プロンプトを使う

Using natural language prompts for machine translation ( http://arxiv.org/abs/2202.11822v1 )

ライセンス: Link先を確認
Xavier Garcia, Orhan Firat(参考訳) 機械翻訳モデルによって生成された出力の様々な側面を制御するための自然言語プロンプトの利用について検討する。 自然言語は、形式性やアウトプットの特定の方言といった特性に影響を与え得ることを実証する。 言語名を用いて多言語翻訳モデルの出力言語を制御することで、未知の言語ペアに対する肯定的な転送が可能になることを示す。 これにより、英語名を使って微調整中に見ることができない言語に翻訳する能力が解放される。 本研究では,この現象がスケール,事前学習ステップ数,微調整言語数,言語類似性に与える影響について検討する。

We explore the use of natural language prompts for controlling various aspects of the outputs generated by machine translation models. We demonstrate that natural language prompts allow us to influence properties like formality or specific dialect of the output. We show that using language names to control the output language of multilingual translation models enables positive transfer for unseen language pairs. This unlocks the ability to translate into languages not seen during fine-tuning by using their English names. We investigate how scale, number of pre-training steps, number of languages in fine-tuning, and language similarity affect this phenomenon.
翻訳日:2022-02-25 16:32:30 公開日:2022-02-23
# GANはいつ複製されますか? データセットサイズの選択について

When do GANs replicate? On the choice of dataset size ( http://arxiv.org/abs/2202.11765v1 )

ライセンス: Link先を確認
Qianli Feng, Chenqi Guo, Fabian Benitez-Quiroz, Aleix Martinez(参考訳) GANはトレーニングイメージを複製するのか? これまでの研究では、gansはトレーニング手順を大きく変更することなくトレーニングデータを複製していないことが示されている。 これは、GANがトレーニングデータに過度に適合するために必要な正確な条件に関する一連の研究につながります。 理論的にも経験的にも多くの要因が特定されているが、データセットのサイズと複雑さがGANの複製に与える影響はまだ分かっていない。 データセットのCelebA, Flower, LSUN-bedroomにおけるBigGANとStyleGAN2の実証的証拠により, データセットのサイズとその複雑さが生成した画像のGANの複製と知覚品質において重要な役割を果たすことを示した。 この関係をさらに定量化し、gan-データセットの組み合わせ間で共有減衰係数を用いて、レプリケーションの割合がデータセットのサイズと複雑性に関して指数関数的に減少することを発見した。 一方、知覚画像の品質はU字型トレンドw.r.tデータセットのサイズに従っている。 この発見は、データセットの構築と選択のガイドに使用できるganレプリケーションを防止するために、最小データセットサイズでのワンショット推定のための実用的なツールとなる。

Do GANs replicate training images? Previous studies have shown that GANs do not seem to replicate training data without significant change in the training procedure. This leads to a series of research on the exact condition needed for GANs to overfit to the training data. Although a number of factors has been theoretically or empirically identified, the effect of dataset size and complexity on GANs replication is still unknown. With empirical evidence from BigGAN and StyleGAN2, on datasets CelebA, Flower and LSUN-bedroom, we show that dataset size and its complexity play an important role in GANs replication and perceptual quality of the generated images. We further quantify this relationship, discovering that replication percentage decays exponentially with respect to dataset size and complexity, with a shared decaying factor across GAN-dataset combinations. Meanwhile, the perceptual image quality follows a U-shape trend w.r.t dataset size. This finding leads to a practical tool for one-shot estimation on minimal dataset size to prevent GAN replication which can be used to guide datasets construction and selection.
翻訳日:2022-02-25 16:27:35 公開日:2022-02-23
# マルチコンディショナルスタイルガンを用いたアート創造

Art Creation with Multi-Conditional StyleGANs ( http://arxiv.org/abs/2202.11777v1 )

ライセンス: Link先を確認
Konstantin Dobler, Florian H\"ubscher, Jan Westphal, Alejandro Sierra-M\'unera, Gerard de Melo, Ralf Krestel(参考訳) 有意義な芸術を創造することは、しばしば独特な人間の努力と見なされる。 人間のアーティストは、独特のスキル、理解、そして深い感情や感情を引き起こすアートワークを作る真の意図の組み合わせが必要です。 本稿では,人間アートを模倣する写実的な絵画を合成するために,大量の人間絵画を訓練した多条件生成逆ネットワーク(gan)アプローチを提案する。 提案手法は,StyleGANニューラルネットワークアーキテクチャに基づくものだが,観察者によって誘発される知覚的感情に対して,生成した絵画の特性を微粒的に制御する,カスタムなマルチ条件制御機構が組み込まれている。 そこで本研究では,条件設定と多様なデータセットに標準トランケーション手法を適用する条件付きトランケーション手法を提案する。 最後に,多条件生成に適した多様な評価手法を開発した。

Creating meaningful art is often viewed as a uniquely human endeavor. A human artist needs a combination of unique skills, understanding, and genuine intention to create artworks that evoke deep feelings and emotions. In this paper, we introduce a multi-conditional Generative Adversarial Network (GAN) approach trained on large amounts of human paintings to synthesize realistic-looking paintings that emulate human art. Our approach is based on the StyleGAN neural network architecture, but incorporates a custom multi-conditional control mechanism that provides fine-granular control over characteristics of the generated paintings, e.g., with regard to the perceived emotion evoked in a spectator. For better control, we introduce the conditional truncation trick, which adapts the standard truncation trick for the conditional setting and diverse datasets. Finally, we develop a diverse set of evaluation techniques tailored to multi-conditional generation.
翻訳日:2022-02-25 16:24:30 公開日:2022-02-23
# 近接完全GANインバージョン

Near Perfect GAN Inversion ( http://arxiv.org/abs/2202.11833v1 )

ライセンス: Link先を確認
Qianli Feng, Viraj Shah, Raghudeep Gadde, Pietro Perona, Aleix Martinez(参考訳) GAN(Generative Adversarial Networks)を用いて実際の写真を編集するには、完全に再生する潜在ベクトルを特定するために、GAN逆変換アルゴリズムが必要である。 残念ながら、既存の反転アルゴリズムは実際の写真に似た画像を合成できるが、ほとんどのアプリケーションで必要とされる同一のクローンを生成することはできない。 ここでは,写真のほぼ完全な再構成を実現するアルゴリズムを導出する。 固定ジェネレータ $g(\cdot)$ の逆マッピングを見つけるためにエンコーダまたは最適化ベースのメソッドに頼るのではなく、我々は、合成したい写真をより最適に表現するために$g(\cdot)$を局所的に調整するアプローチを導出する。 これは、学習されたマッピング $g(\cdot)$ s.t. $\| {\bf x} - g({\bf z}) \|<\epsilon$, with ${\bf x}$ 複製したい写真、${\bf z}$ 潜ベクトル、$\|\cdot\|$ 適切な計量、$\epsilon > 0$ 小さいスカラーでローカルに調整することで行われる。 この手法は,我々が複製したい実際の写真と区別できない合成画像を生成するだけでなく,これらの画像が容易に編集可能であることを示す。 本研究では,人間の顔,動物,車を含むさまざまなデータセットに対するアルゴリズムの有効性を実証し,多様性と包摂性の重要性について論じる。

To edit a real photo using Generative Adversarial Networks (GANs), we need a GAN inversion algorithm to identify the latent vector that perfectly reproduces it. Unfortunately, whereas existing inversion algorithms can synthesize images similar to real photos, they cannot generate the identical clones needed in most applications. Here, we derive an algorithm that achieves near perfect reconstructions of photos. Rather than relying on encoder- or optimization-based methods to find an inverse mapping on a fixed generator $G(\cdot)$, we derive an approach to locally adjust $G(\cdot)$ to more optimally represent the photos we wish to synthesize. This is done by locally tweaking the learned mapping $G(\cdot)$ s.t. $\| {\bf x} - G({\bf z}) \|<\epsilon$, with ${\bf x}$ the photo we wish to reproduce, ${\bf z}$ the latent vector, $\|\cdot\|$ an appropriate metric, and $\epsilon > 0$ a small scalar. We show that this approach can not only produce synthetic images that are indistinguishable from the real photos we wish to replicate, but that these images are readily editable. We demonstrate the effectiveness of the derived algorithm on a variety of datasets including human faces, animals, and cars, and discuss its importance for diversity and inclusion.
翻訳日:2022-02-25 16:24:15 公開日:2022-02-23
# 強化学習エージェントを用いた描画インダクタレイアウト:VCOインダクタの方法と応用

Drawing Inductor Layout with a Reinforcement Learning Agent: Method and Application for VCO Inductors ( http://arxiv.org/abs/2202.11798v1 )

ライセンス: Link先を確認
Cameron Haigh, Zichen Zhang, Negar Hassanpour, Khurram Javed, Yingying Fu, Shayan Shahramian, Shawn Zhang, Jun Luo(参考訳) 電圧制御発振器(vco)インダクタの設計は、人間の専門家が手作業で行う面倒で時間のかかる作業である。 本稿では,強化学習(RL)を用いて,VCOインダクタの設計を自動化するフレームワークを提案する。 問題を逐次手順として定式化し,完全インダクタが作成されるまでワイヤセグメントを次々に描画する。 次に、特定の目標仕様を満たすインダクタの描画を学ぶためにRLエージェントを使用します。 また,回路設計サイクル全体を通じて目標仕様を微調整する必要性を鑑み,エージェントが迅速に適応し,ターゲット仕様を適度に異なるものにするために新たなインダクタを描画できる変種を開発する。 実験の結果,提案フレームワークは,対象仕様を満たすか超過するVCOインダクタを自動生成することに成功した。

Design of Voltage-Controlled Oscillator (VCO) inductors is a laborious and time-consuming task that is conventionally done manually by human experts. In this paper, we propose a framework for automating the design of VCO inductors, using Reinforcement Learning (RL). We formulate the problem as a sequential procedure, where wire segments are drawn one after another, until a complete inductor is created. We then employ an RL agent to learn to draw inductors that meet certain target specifications. In light of the need to tweak the target specifications throughout the circuit design cycle, we also develop a variant in which the agent can learn to quickly adapt to draw new inductors for moderately different target specifications. Our empirical results show that the proposed framework is successful at automatically generating VCO inductors that meet or exceed the target specification.
翻訳日:2022-02-25 16:21:08 公開日:2022-02-23
# クラスタデータに対する解釈性, 性能, 一般化のための適応正規化混合学習(ARMED)モデル

Adversarially-regula rized mixed effects deep learning (ARMED) models for improved interpretability, performance, and generalization on clustered data ( http://arxiv.org/abs/2202.11783v1 )

ライセンス: Link先を確認
Kevin P. Nguyen, Albert Montillo (for the Alzheimer's Disease Neuroimaging Initiative)(参考訳) 自然科学におけるデータは、しばしば独立の前提に反する。 このようなデータセットは、固有のクラスタリング(研究サイト、主題、実験バッチなど)を持つサンプルを持ち、スプリアスな関連、不十分なモデルフィッティング、結合分析につながる可能性がある。 ディープラーニングにはほとんど対応していないが、クラスタ化されたデータに対する従来の統計では混合効果モデルが使われている。 混合効果モデルは、クラスタ固有のランダム効果からクラスター不変、集団レベルの固定効果を分離する。 既存ネットワークへの3つの非侵襲的な付加を通じて、適応型混合効果深層学習(ARMED)モデルを構築するための汎用フレームワークを提案する。 1) クラスター不変特徴のみを学ぶために元のモデルを制約するドメイン逆分類器 2)クラスタ固有の特徴を捉えたランダム効果サブネットワーク 3) トレーニング中に見えないクラスタを予測するクラスタ推論アプローチ。 我々はこの枠組みを, シミュレーション, 認知症予後, 診断, 細胞顕微鏡の4つの応用において, 高密度フィードフォワードニューラルネットワーク(dfnns), 畳み込みニューラルネットワーク, オートエンコーダに適用する。 我々は,従来のモデル,ドメイン逆数のみのモデル,クラスタメンバシップを共変量として包含することと比較した。 我々のモデルは、シミュレーションにおける真の関連を区別し、臨床応用においてより生物学的に妥当な特徴を強調する。 ARMED DFNNは臨床データのクラスタ間分散を定量化し、ARMEDオートエンコーダは細胞画像のバッチ効果を可視化する。 最後に、ARMEDはトレーニング中に見られるクラスタ(従来のモデルと比較して最大28%)のデータ精度を改善し、未確認のクラスタ(従来のモデルよりも最大9%)を一般化する。 強力な混合効果モデリングをディープラーニングに組み込むことで、ARMEDはクラスタ化されたデータのパフォーマンス、解釈可能性、一般化を向上させる。

Data in the natural sciences frequently violate assumptions of independence. Such datasets have samples with inherent clustering (e.g. by study site, subject, experimental batch), which may lead to spurious associations, poor model fitting, and confounded analyses. While largely unaddressed in deep learning, mixed effects models have been used in traditional statistics for clustered data. Mixed effects models separate cluster-invariant, population-level fixed effects from cluster-specific random effects. We propose a general-purpose framework for building Adversarially-Regula rized Mixed Effects Deep learning (ARMED) models through 3 non-intrusive additions to existing networks: 1) a domain adversarial classifier constraining the original model to learn only cluster-invariant features, 2) a random effects subnetwork capturing cluster-specific features, and 3) a cluster-inferencing approach to predict on clusters unseen during training. We apply this framework to dense feedforward neural networks (DFNNs), convolutional neural networks, and autoencoders on 4 applications including simulations, dementia prognosis and diagnosis, and cell microscopy. We compare to conventional models, domain adversarial-only models, and the naive inclusion of cluster membership as a covariate. Our models better distinguish confounded from true associations in simulations and emphasize more biologically plausible features in clinical applications. ARMED DFNNs quantify inter-cluster variance in clinical data while ARMED autoencoders visualize batch effects in cell images. Finally, ARMED improves accuracy on data from clusters seen during training (up to 28% vs. conventional models) and generalizes better to unseen clusters (up to 9% vs. conventional models). By incorporating powerful mixed effects modeling into deep learning, ARMED increases performance, interpretability, and generalization on clustered data.
翻訳日:2022-02-25 16:18:35 公開日:2022-02-23
# 認知的画像特性の多種多様な方向の発見

Discovering Multiple and Diverse Directions for Cognitive Image Properties ( http://arxiv.org/abs/2202.11772v1 )

ライセンス: Link先を確認
Umut Kocasari, Alperen Bag, Oguz Kaan Yuksel and Pinar Yanardag(参考訳) 近年の研究では、事前訓練されたGANの潜伏空間で解釈可能な方向を見つけることが可能であることが示されている。 これらの方向は制御可能な生成を可能にし、様々な意味編集操作をサポートする。 前回の研究はズームインのような所望の編集操作を実行する1つの方向の発見に重点を置いてきたが、所望の編集を実現する複数の多様な方向の発見に限定された作業が行われている。 そこで本研究では,特定の対象物に対して,多様かつ多様な方向を求める新しい枠組みを提案する。 特に,記憶可能性,情緒的妥当性,美学などの認知特性の操作に焦点をあてる。 提案手法は,様々な出力を生成しつつ,これらの特性をうまく操作できることを示す。 プロジェクトのページとソースコードはhttp://catlab-team.g ithub.io/latentcogni tive.com/で閲覧できます。

Recent research has shown that it is possible to find interpretable directions in the latent spaces of pre-trained GANs. These directions enable controllable generation and support a variety of semantic editing operations. While previous work has focused on discovering a single direction that performs a desired editing operation such as zoom-in, limited work has been done on the discovery of multiple and diverse directions that can achieve the desired edit. In this work, we propose a novel framework that discovers multiple and diverse directions for a given property of interest. In particular, we focus on the manipulation of cognitive properties such as Memorability, Emotional Valence and Aesthetics. We show with extensive experiments that our method successfully manipulates these properties while producing diverse outputs. Our project page and source code can be found at http://catlab-team.g ithub.io/latentcogni tive.
翻訳日:2022-02-25 16:17:50 公開日:2022-02-23
# 動き推定のための共役方向法の修正

A modification of the conjugate direction method for motion estimation ( http://arxiv.org/abs/2202.11831v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Francesc Tarres-Ruiz(参考訳) 動き推定のための異なるブロックマッチング方式の比較検討を行った。 本研究は,予測の精度に関する計算負担と客観的尺度に焦点を当てた。 既存のアルゴリズムとともに、いくつかの新しいバリエーションがテストされている。 文献に先行する共役方向法の興味深い修正が報告されている。 このアルゴリズムは、計算複雑性と動きベクトル推定の精度のトレードオフを示す。 計算複雑性は、様々な動きベクトルを組み込むように設計された一連の人工画像を用いて評価される。 ブロックマッチング法の性能は、補正された動きと元のフレームとの間の誤差信号のエントロピーの観点から測定されている。

A comparative study of different block matching alternatives for motion estimation is presented. The study is focused on computational burden and objective measures on the accuracy of prediction. Together with existing algorithms several new variations have been tested. An interesting modification of the conjugate direction method previously related in literature is reported. This new algorithm shows a good trade-off between computational complexity and accuracy of motion vector estimation. Computational complexity is evaluated using a sequence of artificial images designed to incorporate a great variety of motion vectors. The performance of block matching methods has been measured in terms of the entropy in the error signal between the motion compensated and the original frames.
翻訳日:2022-02-25 16:17:35 公開日:2022-02-23
# オンライン筆跡における短距離・長距離空気軌道の比較研究

A comparative study of in-air trajectories at short and long distances in online handwriting ( http://arxiv.org/abs/2202.12237v1 )

ライセンス: Link先を確認
Carlos Alonso-Martinez, Marcos Faundez-Zanuy, Jiri Mekyska(参考訳) 病的診断を支援するオンライン手書き解析に関する文献の紹介は, 空気中の軌跡を利用した。 同様の状況は生体認証のセキュリティアプリケーションで発生し、その目標は署名や手書きを使って個人を識別または検証することである。 これらの研究はペン先端から筆記面までの距離を考慮しない。 これは、現在の取得装置が高さ形成を提供していないためである。 しかし、2つの異なる高さで動きを区別するのは極めて容易である。 a) 短距離: ディジタイザの表面上の高さが1cm以下である場合、ディジタイザは、x及びy座標を提供する。 b) 距離:高さが1cmを超え、利用可能な唯一の情報は、特定のストロークが長距離で過ごした時間を示すタイムスタンプである。 いくつかの論文では短距離が用いられているが、長い距離は無視されており、本論文では検討する。 本稿では,663名のユーザと17951名のファイルを含む大規模なデータベース(BIOSECURID,EMOTHAW, PaHaW,Oxy-Therapy,SA LT)を解析する。 具体的に研究しました a) 異なるユーザプロファイル(病理的及び健康的なユーザ)と異なるタスクについて、地上、近距離、遠距離、遠距離の空気中の時間の割合 b) 分類率を改善するためにこれらの信号の潜在的利用 結果と結論 実験の結果,長距離移動は全実行時間のごく一部を占める(署名の場合は0.5%,最大データベースであるBIOSECUR-IDでは10.4%)。 また,pahawデータベース (p=0.0157) とクロスペンタゴン (p=0.0122) における l 文字の病理群と制御群の比較において有意な差異が認められた。

Introduction Existing literature about online handwriting analysis to support pathology diagnosis has taken advantage of in-air trajectories. A similar situation occurred in biometric security applications where the goal is to identify or verify an individual using his signature or handwriting. These studies do not consider the distance of the pen tip to the writing surface. This is due to the fact that current acquisition devices do not provide height formation. However, it is quite straightforward to differentiate movements at two different heights: a) short distance: height lower or equal to 1 cm above a surface of digitizer, the digitizer provides x and y coordinates. b) long distance: height exceeding 1 cm, the only information available is a time stamp that indicates the time that a specific stroke has spent at long distance. Although short distance has been used in several papers, long distances have been ignored and will be investigated in this paper. Methods In this paper, we will analyze a large set of databases (BIOSECURID, EMOTHAW, PaHaW, Oxygen-Therapy and SALT), which contain a total amount of 663 users and 17951 files. We have specifically studied: a) the percentage of time spent on-surface, in-air at short distance, and in-air at long distance for different user profiles (pathological and healthy users) and different tasks; b) The potential use of these signals to improve classification rates. Results and conclusions Our experimental results reveal that long-distance movements represent a very small portion of the total execution time (0.5 % in the case of signatures and 10.4% for uppercase words of BIOSECUR-ID, which is the largest database). In addition, significant differences have been found in the comparison of pathological versus control group for letter l in PaHaW database (p=0.0157) and crossed pentagons in SALT database (p=0.0122)
翻訳日:2022-02-25 16:14:33 公開日:2022-02-23
# EMOTHAW:手書きによる感情状態認識のための新しいデータベース

EMOTHAW: A novel database for emotional state recognition from handwriting ( http://arxiv.org/abs/2202.12245v1 )

ライセンス: Link先を確認
Laurence Likforman-Sulem, Anna Esposito, Marcos Faundez-Zanuy, Stephan Clemen\c{c}on, Gennaro Cordasco(参考訳) 手書きなどの日常的な活動を通じて負の感情を検出することは、幸福を促進するのに有用である。 タブレットなどのヒューマンマシンインタフェースの普及により,手書きサンプルの収集が容易になる。 本研究では,感情状態と手書きを関連付けた最初の公開手書きデータベースであるEMOTHAWについて述べる。 このデータベースには、不安、抑うつ、ストレスといった感情状態が抑うつ不安ストレス尺度(DASS)によって評価される129人の被験者のサンプルが含まれている。 ペンタゴンとハウスドローイング、手書きでコピーした単語、円と時計のドローイング、筆記体でコピーされた一文の7つのタスクがデジタル化タブレットを通じて記録される。 記録はペンの位置、紙上および空気中の位置、タイムスタンプ、圧力、ペン方位、高度で構成されている。 このデータベースについて分析を報告する。 収集したデータから、まずタイミングとダクトに関する測定値を計算する。 紙上または空中の書き込み装置の位置に応じて、別々の測定値を計算する。 我々は、ランダムな森林アプローチを用いて、この一連の測定(特徴として参照)を分析し、分類する。 後者は、特徴ランク付けプロセスを含む決定木のアンサンブルに基づく機械学習手法[2]である。 このランキングプロセスを使用して、ターゲットとする感情状態を最もよく示す特徴を識別します。 次に、各感情状態に関連するランダムな森林分類器を構築する。 クロスバリデーション実験の結果,対象の感情状態を60%から71%の精度で識別できることがわかった。

The detection of negative emotions through daily activities such as handwriting is useful for promoting well-being. The spread of human-machine interfaces such as tablets makes the collection of handwriting samples easier. In this context, we present a first publicly available handwriting database which relates emotional states to handwriting, that we call EMOTHAW. This database includes samples of 129 participants whose emotional states, namely anxiety, depression and stress, are assessed by the Depression Anxiety Stress Scales (DASS) questionnaire. Seven tasks are recorded through a digitizing tablet: pentagons and house drawing, words copied in handprint, circles and clock drawing, and one sentence copied in cursive writing. Records consist in pen positions, on-paper and in-air, time stamp, pressure, pen azimuth and altitude. We report our analysis on this database. From collected data, we first compute measurements related to timing and ductus. We compute separate measurements according to the position of the writing device: on paper or in-air. We analyse and classify this set of measurements (referred to as features) using a random forest approach. This latter is a machine learning method [2], based on an ensemble of decision trees, which includes a feature ranking process. We use this ranking process to identify the features which best reveal a targeted emotional state. We then build random forest classifiers associated to each emotional state. Our results, obtained from cross-validation experiments, show that the targeted emotional states can be identified with accuracies ranging from 60% to 71%.
翻訳日:2022-02-25 16:14:00 公開日:2022-02-23
# 最適早期停止について:オーバーインフォーマティブとアンダーインフォーマティブパラメトリゼーション

On Optimal Early Stopping: Over-informative versus Under-informative Parametrization ( http://arxiv.org/abs/2202.09885v2 )

ライセンス: Link先を確認
Ruoqi Shen, Liyao Gao, Yi-An Ma(参考訳) 早期停止は、オーバートレーニングニューラルネットワークを防ぐためのシンプルで広く使われている方法である。 我々は,最適早期停止時間とモデル次元の関係を明らかにするための理論的結果と,特定の線形モデルに対するデータセットのサンプルサイズを明らかにする。 この結果から,モデル次元が特徴数を超える場合と反対のシナリオで異なる2つの挙動を示す。 線形モデルに関するこれまでのほとんどの研究は後者の設定に焦点を当てているが、モデルの次元は一般的なディープラーニングタスクでデータから生じる特徴数を上回ることも多く、この設定を研究するモデルを提案する。 我々は, ニューラルネットワークの学習過程に最適な早期停止時間に関する理論的結果が対応することを実験的に示す。

Early stopping is a simple and widely used method to prevent over-training neural networks. We develop theoretical results to reveal the relationship between the optimal early stopping time and model dimension as well as sample size of the dataset for certain linear models. Our results demonstrate two very different behaviors when the model dimension exceeds the number of features versus the opposite scenario. While most previous works on linear models focus on the latter setting, we observe that the dimension of the model often exceeds the number of features arising from data in common deep learning tasks and propose a model to study this setting. We demonstrate experimentally that our theoretical results on optimal early stopping time corresponds to the training process of deep neural networks.
翻訳日:2022-02-25 12:34:55 公開日:2022-02-23
# 幾何学モデルにおけるランダムグラフマッチング:完全グラフの場合

Random Graph Matching in Geometric Models: the Case of Complete Graphs ( http://arxiv.org/abs/2202.10662v2 )

ライセンス: Link先を確認
Haoyu Wang, Yihong Wu, Jiaming Xu, Israel Yolou(参考訳) 本稿では, エッジ重み付きグラフとエッジ重み付きグラフのマッチング問題について検討し, エッジ重み付きランダムグラフマッチングに関する最近の研究を幾何学モデルに拡張する。 具体的には、ランダムな置換 $\pi^*$ on $[n]$ と $n$ iid の相関ガウスベクトルの対 $\{X_{\pi^*(i)}, Y_i\}$ in $\mathbb{R}^d$ with noise parameters $\sigma$ が与えられたとき、エッジウェイトは、あるリンク関数 $\kappa$ に対して $A_{ij}=\kappa(X_i,X_j)$ と $B_{ij}=\kappa(Y_i,Y_j)$ によって与えられる。 目標は、$a$ と $b$ の観測に基づいて、隠れた頂点対応 $\pi^*$ を回復することである。 我々は,$\kappa(x,y)=\langle x,y \rangle$ のドット生成モデルと$\kappa(x,y)=\|x-y\|^2$のユークリッド距離モデルに注目した。 高確率で$\pi^*$の完全回復、$\sigma=o(n^{-2/d})$の完全回復、$\sigma=o(n^{-1/d})$のほぼ完全回復を確実に達成する近似的極大推定器を導出する。 さらに,2成分マッチング問題の幾何モデルにおける [dck19] と [knw22] の最近の結果を補完して,潜在座標 $\{x_i\}$ と $\{y_i\}$ が観測された場合でも,これらの条件は情報理論的に最適であることが示されている。 副次的な発見として、[Ume88] の有望なスペクトルアルゴリズムが幾何モデルにおける最大可能性のさらなる近似として現れることを示す。

This paper studies the problem of matching two complete graphs with edge weights correlated through latent geometries, extending a recent line of research on random graph matching with independent edge weights to geometric models. Specifically, given a random permutation $\pi^*$ on $[n]$ and $n$ iid pairs of correlated Gaussian vectors $\{X_{\pi^*(i)}, Y_i\}$ in $\mathbb{R}^d$ with noise parameter $\sigma$, the edge weights are given by $A_{ij}=\kappa(X_i,X_j)$ and $B_{ij}=\kappa(Y_i,Y_j)$ for some link function $\kappa$. The goal is to recover the hidden vertex correspondence $\pi^*$ based on the observation of $A$ and $B$. We focus on the dot-product model with $\kappa(x,y)=\langle x, y \rangle$ and Euclidean distance model with $\kappa(x,y)=\|x-y\|^2$, in the low-dimensional regime of $d=o(\log n)$ wherein the underlying geometric structures are most evident. We derive an approximate maximum likelihood estimator, which provably achieves, with high probability, perfect recovery of $\pi^*$ when $\sigma=o(n^{-2/d})$ and almost perfect recovery with a vanishing fraction of errors when $\sigma=o(n^{-1/d})$. Furthermore, these conditions are shown to be information-theoreti cally optimal even when the latent coordinates $\{X_i\}$ and $\{Y_i\}$ are observed, complementing the recent results of [DCK19] and [KNW22] in geometric models of the planted bipartite matching problem. As a side discovery, we show that the celebrated spectral algorithm of [Ume88] emerges as a further approximation to the maximum likelihood in the geometric model.
翻訳日:2022-02-25 12:34:15 公開日:2022-02-23
# パーソナライズされたpate:個別プライバシ保証を備えた機械学習のためのディファレンシャルプライバシ

Personalized PATE: Differential Privacy for Machine Learning with Individual Privacy Guarantees ( http://arxiv.org/abs/2202.10517v2 )

ライセンス: Link先を確認
Christopher M\"uhl, Franziska Boenisch(参考訳) マシンラーニング(ML)を機密ドメインに適用するには、差分プライバシ(DP)などの正式なプライバシフレームワークを通じて、基礎となるトレーニングデータをプライバシ保護する必要がある。 しかし、通常、トレーニングデータのプライバシは、結果のMLモデルのユーティリティのコストを伴います。 この理由の1つは、dpがすべてのトレーニングデータポイントに対して1つの均質なプライバシ予算epsilonを使用しているためである。 実際には、異なるデータ保持者が異なるプライバシ要件と低い要件を持つデータ保持者のデータポイントを持つ場合、MLモデルのトレーニングプロセスにより多くの情報を提供する可能性がある。 そこで本研究では,pate(教師アンサンブル)のプライベートアグリゲーションをdpフレームワークに拡張し,トレーニングデータ内のプライバシ保証の異なるmlモデルのトレーニングを支援する3つの新しい手法を提案する。 提案手法を形式的に記述し,プライバシ境界の理論解析を行い,mnistおよび成人所得データセットの例として,最終モデルの有用性に対する効果を実験的に評価する。 実験により, 個人化されたプライバシ手法は, 非個人化されたベースラインよりも高い精度のモデルが得られることがわかった。 これにより、異なるデータ保有者が異なるプライバシーレベルで機密データの提供に同意するシナリオにおいて、プライバシユーティリティのトレードオフを改善することができる。

Applying machine learning (ML) to sensitive domains requires privacy protection of the underlying training data through formal privacy frameworks, such as differential privacy (DP). Yet, usually, the privacy of the training data comes at the costs of the resulting ML models' utility. One reason for this is that DP uses one homogeneous privacy budget epsilon for all training data points, which has to align with the strictest privacy requirement encountered among all data holders. In practice, different data holders might have different privacy requirements and data points of data holders with lower requirements could potentially contribute more information to the training process of the ML models. To account for this possibility, we propose three novel methods that extend the DP framework Private Aggregation of Teacher Ensembles (PATE) to support training an ML model with different personalized privacy guarantees within the training data. We formally describe the methods, provide theoretical analyses of their privacy bounds, and experimentally evaluate their effect on the final model's utility at the example of the MNIST and Adult income datasets. Our experiments show that our personalized privacy methods yield higher accuracy models than the non-personalized baseline. Thereby, our methods can improve the privacy-utility trade-off in scenarios in which different data holders consent to contribute their sensitive data at different privacy levels.
翻訳日:2022-02-25 12:33:21 公開日:2022-02-23
# (参考訳) StyleBERT:フォント情報による中国語事前学習 [全文訳有]

StyleBERT: Chinese pretraining by font style information ( http://arxiv.org/abs/2202.09955v2 )

ライセンス: CC BY 4.0
Chao Lv, Han Zhang, XinKai Du, Yunhao Zhang, Ying Huang, Wenhao Li, Jia Han, Shanshan Gu(参考訳) 英語事前学習言語モデルを用いたダウンストリーミングタスクの成功により、中国語NLPタスクのより良いパフォーマンスを得るためには、事前学習された中国語モデルも必要となる。 英語とは異なり、中国語にはグリフ情報などの特殊文字がある。 そこで本稿では,単語,ピニン,5ストローク,chaiziといった言語モデルの精通度を高めるために,以下の埋め込み情報を組み込んだ中国語事前学習言語モデルスタイルバートを提案する。 実験により,中国における幅広いNLPタスクにおいて,モデルが良好な性能を発揮することが示された。

With the success of down streaming task using English pre-trained language model, the pre-trained Chinese language model is also necessary to get a better performance of Chinese NLP task. Unlike the English language, Chinese has its special characters such as glyph information. So in this article, we propose the Chinese pre-trained language model StyleBERT which incorporate the following embedding information to enhance the savvy of language model, such as word, pinyin, five stroke and chaizi. The experiments show that the model achieves well performances on a wide range of Chinese NLP tasks.
翻訳日:2022-02-25 09:04:35 公開日:2022-02-23
# (参考訳) 28nm hkmgfefetベースシナプスコアを用いたハイブリッド精密ニューラルネットワークのばらつき対応トレーニング [全文訳有]

Variation Aware Training of Hybrid Precision Neural Networks with 28nm HKMG FeFET Based Synaptic Core ( http://arxiv.org/abs/2202.10912v2 )

ライセンス: CC BY 4.0
Sunanda Thunder and Po-Tsang Huang(参考訳) 本研究は、重み付き和演算を実行するeNVMベースの計算メモリユニットと、バック伝搬中の重み更新時にエラーを格納するSRAMユニットと、ハードウェアの重み更新に必要なパルス数とを備えたハイブリッド精度ニューラルネットワークトレーニングフレームワークを提案する。 シナプスデバイスとして28nmの強誘電体FET(FeFET)を用いたMLPベースニューラルネットワークのハイブリッドトレーニングアルゴリズムは、デバイスとサイクルの変動が存在する場合、最大95%の推論精度を実現する。 本アーキテクチャは,FeFETデバイスの動作モデルやマクロモデルを用いて評価され,浮動小数点法と比較して精度が向上した。

This work proposes a hybrid-precision neural network training framework with an eNVM based computational memory unit executing the weighted sum operation and another SRAM unit, which stores the error in weight update during back propagation and the required number of pulses to update the weights in the hardware. The hybrid training algorithm for MLP based neural network with 28 nm ferroelectric FET (FeFET) as synaptic devices achieves inference accuracy up to 95% in presence of device and cycle variations. The architecture is primarily evaluated using behavioral or macro-model of FeFET devices with experimentally calibrated device variations and we have achieved accuracies compared to floating-point implementations.
翻訳日:2022-02-25 07:57:23 公開日:2022-02-23
# (参考訳) 適応コレスキーガウス過程

Adaptive Cholesky Gaussian Processes ( http://arxiv.org/abs/2202.10769v2 )

ライセンス: CC BY 4.0
Simon Bartels, Kristoffer Stensbo-Smidt, Pablo Moreno-Mu\~noz, Wouter Boomsma, Jes Frellsen, S{\o}ren Hauberg(参考訳) 本稿では,データのサブセットのみを考慮して,ガウス過程モデルを大規模データセットに適合させる手法を提案する。 我々のアプローチは、計算オーバーヘッドが少ない正確な推論中に、サブセットのサイズがフライで選択されるという点で新しくなっています。 十分なデータセットのサブセットが観測されると、ログマージナル確率は線形傾向を示すことが多いという経験的観察から、多くの大きなデータセットは後方にわずかに影響するだけの冗長な情報を含んでいると結論づける。 これに基づいて、そのような部分集合を識別できる完全モデル証拠の確率的境界を提供する。 注目すべきことに、これらの境界は、標準コレスキー分解の中間段階に現れる用語で構成されており、十分なデータが観測されたら、その分解を適応的に停止するアルゴリズムを修正することができる。 実験により,提案手法をよく知られた推論手法に直接接続して,正確なガウス過程モデルを大規模データセットに適合させることができることを示す。

We present a method to fit exact Gaussian process models to large datasets by considering only a subset of the data. Our approach is novel in that the size of the subset is selected on the fly during exact inference with little computational overhead. From an empirical observation that the log-marginal likelihood often exhibits a linear trend once a sufficient subset of a dataset has been observed, we conclude that many large datasets contain redundant information that only slightly affects the posterior. Based on this, we provide probabilistic bounds on the full model evidence that can identify such subsets. Remarkably, these bounds are largely composed of terms that appear in intermediate steps of the standard Cholesky decomposition, allowing us to modify the algorithm to adaptively stop the decomposition once enough data have been observed. Empirically, we show that our method can be directly plugged into well-known inference schemes to fit exact Gaussian process models to large datasets.
翻訳日:2022-02-25 07:24:41 公開日:2022-02-23
# (参考訳) 公正なラベルが不公平な予測をもたらす理由:不公平性導入のためのグラフィカルな条件 [全文訳有]

Why Fair Labels Can Yield Unfair Predictions: Graphical Conditions for Introduced Unfairness ( http://arxiv.org/abs/2202.10816v2 )

ライセンス: CC BY 4.0
Carolyn Ashurst, Ryan Carey, Silvia Chiappa, Tom Everitt(参考訳) トレーニングデータにおける差別関係の再現に加えて、機械学習システムは差別効果の導入や増幅も可能である。 我々は、このことを不公平を導入し、それが生じる可能性のある状況について調査する。 そこで本研究では,不公平さの尺度として総変動を導入し,そのインセンティブを付与できるグラフィカルな条件を定式化する。 これらの基準は、機能としてセンシティブな属性を追加することで、よく定義された損失関数の下で導入される変動に対するインセンティブがなくなることを示唆している。 さらに、因果的な視点から、特定のパスが公平であるべき時の問題に光を当てたパス固有の効果が導入された。

In addition to reproducing discriminatory relationships in the training data, machine learning systems can also introduce or amplify discriminatory effects. We refer to this as introduced unfairness, and investigate the conditions under which it may arise. To this end, we propose introduced total variation as a measure of introduced unfairness, and establish graphical conditions under which it may be incentivised to occur. These criteria imply that adding the sensitive attribute as a feature removes the incentive for introduced variation under well-behaved loss functions. Additionally, taking a causal perspective, introduced path-specific effects shed light on the issue of when specific paths should be considered fair.
翻訳日:2022-02-25 07:20:42 公開日:2022-02-23
# (参考訳) 人間とロボットの相互作用のためのバーチャル、拡張現実、混合現実:調査と仮想デザイン要素分類

Virtual, Augmented, and Mixed Reality for Human-Robot Interaction: A Survey and Virtual Design Element Taxonomy ( http://arxiv.org/abs/2202.11249v1 )

ライセンス: CC BY 4.0
Michael Walker, Thao Phung, Tathagata Chakraborti, Tom Williams, and Daniel Szafir(参考訳) 近年,VAM-HRI(Virtual,Aug mented,Mixed Reality for Human-Robot Interaction)が注目されている。 しかし、HRIコミュニティには、複合現実インタフェースの側面を特徴付けるための共通用語とフレームワークが欠落しており、将来の研究にとって深刻な問題となっている。 したがって、フィールド内で行われている様々な作業の配列を正確に記述し、整理するために使用できる共通の用語と概念を持つことが重要です。 本稿では,仮想デザイン要素(VDE)の4つの主要なカテゴリから構成される,異なるタイプのVAM-HRIインタフェースのための新しい分類体系を提案する。 我々は、我々の分類を提示し、その要素が過去30年間にどのように開発されてきたか、そして今後10年でVAM-HRIが進む方向を説明する。

Virtual, Augmented, and Mixed Reality for Human-Robot Interaction (VAM-HRI) has been gaining considerable attention in research in recent years. However, the HRI community lacks a set of shared terminology and framework for characterizing aspects of mixed reality interfaces, presenting serious problems for future research. Therefore, it is important to have a common set of terms and concepts that can be used to precisely describe and organize the diverse array of work being done within the field. In this paper, we present a novel taxonomic framework for different types of VAM-HRI interfaces, composed of four main categories of virtual design elements (VDEs). We present and justify our taxonomy and explain how its elements have been developed over the last 30 years as well as the current directions VAM-HRI is headed in the coming decade.
翻訳日:2022-02-25 04:21:50 公開日:2022-02-23
# (参考訳) 多くのプロセッサ、わずかな時間:最適輸送結合による分割のためのMCMC

Many processors, little time: MCMC for partitions via optimal transport couplings ( http://arxiv.org/abs/2202.11258v1 )

ライセンス: CC BY 4.0
Tin D. Nguyen and Brian L. Trippe and Tamara Broderick(参考訳) マルコフ連鎖モンテカルロ法(MCMC)は、無限時間極限における漸近的に正確な期待を保証するため、クラスタリングにおいてしばしば用いられる。 しかし、有限時間では、遅い混合はしばしば性能を低下させる。 現代の計算環境は膨大な並列性を提供するが、並列MCMCの実装には重大なバイアスが生じる。 連続確率変数のMCMCサンプリングでは、マルコフ連鎖結合はバイアスを克服することができる。 しかしこれらのアプローチは、少数の移行の後、ペアのチェーンミーティングに大きく依存します。 分散クラスタリング変数に対する既存の結合アイデアの直接的な応用は、すぐには満たせないことを示す。 この失敗は「ラベルスイッチング問題(label-switching problem)」から生じ、意味論的に等価なクラスタレバリングは結合鎖の高速な一致を妨げる。 チェーンは、パーティションの(任意な)ラベル付けではなく、パーティションの空間を探索するものだと考えています。 分割空間上の計量を用いて最適な輸送結合を用いた実用的なアルゴリズムを定式化する。 我々の理論は、この方法が正確で効率的であることを確認する。 遺伝子や種子のクラスタリングからグラフの着色まで幅広い実験において,高度に並列な時間制限された構造における結合の利点を示す。

Markov chain Monte Carlo (MCMC) methods are often used in clustering since they guarantee asymptotically exact expectations in the infinite-time limit. In finite time, though, slow mixing often leads to poor performance. Modern computing environments offer massive parallelism, but naive implementations of parallel MCMC can exhibit substantial bias. In MCMC samplers of continuous random variables, Markov chain couplings can overcome bias. But these approaches depend crucially on paired chains meetings after a small number of transitions. We show that straightforward applications of existing coupling ideas to discrete clustering variables fail to meet quickly. This failure arises from the "label-switching problem": semantically equivalent cluster relabelings impede fast meeting of coupled chains. We instead consider chains as exploring the space of partitions rather than partitions' (arbitrary) labelings. Using a metric on the partition space, we formulate a practical algorithm using optimal transport couplings. Our theory confirms our method is accurate and efficient. In experiments ranging from clustering of genes or seeds to graph colorings, we show the benefits of our coupling in the highly parallel, time-limited regime.
翻訳日:2022-02-25 04:18:09 公開日:2022-02-23
# (参考訳) 人工知能計算のためのブロックチェーンフレームワーク [全文訳有]

Blockchain Framework for Artificial Intelligence Computation ( http://arxiv.org/abs/2202.11264v1 )

ライセンス: CC BY 4.0
Jie You(参考訳) Blockchainは基本的に、参加者間のすべてのトランザクションやデジタルイベントを記録する分散データベースである。 レコード内の各トランザクションは、ハードな数学的パズルを解くことを必要とするシステムの参加者の合意によって承認され、検証される。 承認されたレコードを不変にするために、数学的パズルは解くのが簡単ではないため、かなりの計算資源を消費する。 しかし、無意味なパズルを解くだけで、ブロックチェーンに多くの計算ノードをインストールして、レコードの承認を競うのはエネルギーを浪費する。 ここでは,学習エージェントが環境の状態に対して最適な決定を下すためのマルコフ決定プロセスとして成長するブロックチェーンをモデル化し,新たなブロックを追加・検証することにより,強化学習問題として作業の実証を行う。 具体的には,ブロック検証とコンセンサス機構を深い強化学習イテレーションプロセスとして設計する。 As a result, our method utilizes the determination of state transition and the randomness of action selection of a Markov decision process, as well as the computational complexity of a deep neural network, collectively to make the blocks not easy to recompute and to preserve the order of transactions, while the blockchain nodes are exploited to train the same deep neural network with different data samples (state-action pairs) in parallel, allowing the model to experience multiple episodes across computing nodes but at one time. 当社の手法は次世代のパブリックブロックチェーンネットワークの設計に使用されており,産業用アプリケーションに計算資源を節約するだけでなく,一般的な問題に対してデータ共有やAIモデル設計を奨励する可能性がある。

Blockchain is an essentially distributed database recording all transactions or digital events among participating parties. Each transaction in the records is approved and verified by consensus of the participants in the system that requires solving a hard mathematical puzzle, which is known as proof-of-work. To make the approved records immutable, the mathematical puzzle is not trivial to solve and therefore consumes substantial computing resources. However, it is energy-wasteful to have many computational nodes installed in the blockchain competing to approve the records by just solving a meaningless puzzle. Here, we pose proof-of-work as a reinforcement-learni ng problem by modeling the blockchain growing as a Markov decision process, in which a learning agent makes an optimal decision over the environment's state, whereas a new block is added and verified. Specifically, we design the block verification and consensus mechanism as a deep reinforcement-learni ng iteration process. As a result, our method utilizes the determination of state transition and the randomness of action selection of a Markov decision process, as well as the computational complexity of a deep neural network, collectively to make the blocks not easy to recompute and to preserve the order of transactions, while the blockchain nodes are exploited to train the same deep neural network with different data samples (state-action pairs) in parallel, allowing the model to experience multiple episodes across computing nodes but at one time. Our method is used to design the next generation of public blockchain networks, which has the potential not only to spare computational resources for industrial applications but also to encourage data sharing and AI model design for common problems.
翻訳日:2022-02-25 04:17:06 公開日:2022-02-23
# (参考訳) 安全なモデル説明のためのマージンディスタンシング

Margin-distancing for safe model explanation ( http://arxiv.org/abs/2202.11266v1 )

ライセンス: CC BY 4.0
Tom Yan, Chicheng Zhang(参考訳) 連続的な設定における機械学習モデルの利用の増加は、透明性とゲームに対する脆弱性の間の重要かつ不可解な緊張を浮き彫りにした。 このことは法文学において大きな議論を巻き起こしているが、この論争の技術的な研究は比較的少ない。 本研究では,この緊張関係の清浄な定式化と,透明性とゲームとのトレードオフを実現する方法を提案する。 我々は、ゲーム源をモデルの \emph{decision boundary} に近い点と同定する。 そして、境界点のラベルに関して十分に不確実なバージョン空間と拡張可能でありながら整合性のあるサンプルベースの説明を提供する方法についての調査を開始する。 最後に、実世界のデータセットにおけるこのトレードオフに関する実証的な調査を行い、理論的結果を提示する。

The growing use of machine learning models in consequential settings has highlighted an important and seemingly irreconcilable tension between transparency and vulnerability to gaming. While this has sparked sizable debate in legal literature, there has been comparatively less technical study of this contention. In this work, we propose a clean-cut formulation of this tension and a way to make the tradeoff between transparency and gaming. We identify the source of gaming as being points close to the \emph{decision boundary} of the model. And we initiate an investigation on how to provide example-based explanations that are expansive and yet consistent with a version space that is sufficiently uncertain with respect to the boundary points' labels. Finally, we furnish our theoretical results with empirical investigations of this tradeoff on real-world datasets.
翻訳日:2022-02-25 04:09:41 公開日:2022-02-23
# (参考訳) ViKiNG: ジオグラフィックヒントを用いた視力に基づくカイロメータースケールナビゲーション [全文訳有]

ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints ( http://arxiv.org/abs/2202.11271v1 )

ライセンス: CC BY 4.0
Dhruv Shah, Sergey Levine(参考訳) ロボットナビゲーションは3次元再構築と計画の問題やエンドツーエンドの学習問題としてアプローチされてきた。 しかし、長距離航法には、地図やGPSといった重要なナビゲーションヒントを提供するが、信頼性が低い、あるいは信頼性の低い、グローバルジオグラフィックに関する情報を活用できるだけでなく、局所航法可能性に関する計画と推論の両方が必要である。 本研究では,学習と計画を統合した学習型アプローチを提案し,計画ヒューリスティックな計画図や衛星地図,GPS座標などの側面情報を,正確性に頼らずに活用することができる。 提案手法は,ロボットの現在のカメラ観測と,そのサブゴールにどの程度容易に到達できるかを推定するための潜在的なサブゴールを推定するローカル・トラバーサビリティ・モデルと,オーバヘッドマップに注目し,様々なサブゴールの目的地までの距離を推定するヒューリスティック・モデルとを組み込んでいる。 これらのモデルはヒューリスティックなプランナーによって、最終目的地に到達するために最適な次のサブゴールを決定するために使用されます。 本手法は, 環境のトポロジカル表現のみを利用して, 明示的な幾何学的再構成を行なわない。 ViKiNGは、トレーニングデータセットで80メートル以上の軌跡を見たことがないが、画像ベースの学習コントローラと目標指向のヒューリスティックを活用して、これまで見えない環境で最大3km離れた場所に移動し、潜在的な経路を探索したり、実行不可能であると判明した場合に2倍の複雑な振る舞いを示す。 バイキングは信頼性の低い地図やgpsにも頑健であり、低レベルのコントローラは最終的にエゴセントリックな画像観察に基づいて決定を下す。 実験のビデオはhttps://sites.google .com/view/viking-rel easeをご覧ください。

Robotic navigation has been approached as a problem of 3D reconstruction and planning, as well as an end-to-end learning problem. However, long-range navigation requires both planning and reasoning about local traversability, as well as being able to utilize information about global geography, in the form of a roadmap, GPS, or other side information, which provides important navigational hints but may be low-fidelity or unreliable. In this work, we propose a learning-based approach that integrates learning and planning, and can utilize side information such as schematic roadmaps, satellite maps and GPS coordinates as a planning heuristic, without relying on them being accurate. Our method, ViKiNG, incorporates a local traversability model, which looks at the robot's current camera observation and a potential subgoal to infer how easily that subgoal can be reached, as well as a heuristic model, which looks at overhead maps and attempts to estimate the distance to the destination for various subgoals. These models are used by a heuristic planner to decide the best next subgoal in order to reach the final destination. Our method performs no explicit geometric reconstruction, utilizing only a topological representation of the environment. Despite having never seen trajectories longer than 80 meters in its training dataset, ViKiNG can leverage its image-based learned controller and goal-directed heuristic to navigate to goals up to 3 kilometers away in previously unseen environments, and exhibit complex behaviors such as probing potential paths and doubling back when they are found to be non-viable. ViKiNG is also robust to unreliable maps and GPS, since the low-level controller ultimately makes decisions based on egocentric image observations, using maps only as planning heuristics. For videos of our experiments, please check out https://sites.google .com/view/viking-rel ease.
翻訳日:2022-02-25 04:08:34 公開日:2022-02-23
# (参考訳) 線形モデルの最小量子化:情報理論限界と効率的なアルゴリズム

Minimax Optimal Quantization of Linear Models: Information-Theoreti c Limits and Efficient Algorithms ( http://arxiv.org/abs/2202.11277v1 )

ライセンス: CC BY 4.0
Rajarshi Saha, Mert Pilanci, Andrea J. Goldsmith(参考訳) 測定値 $\mathbf{x} = \mathbf{w}\boldsymbol{\theta} + \mathbf{v}$ から得られた線形モデルを量子化する問題を考える。 モデルは$dB$-bitsでしか表現できないよう制約されており、$B \in (0, \infty)$は事前に指定された予算であり、$d$はモデルの次元である。 この設定の下で,ミニマックスリスクに対する情報理論的下界を導出し,一致する上界と密接であることを示す。 この上限はランダムな埋め込みに基づくアルゴリズムを用いて達成される。 ほぼ最適に実行しながら計算効率の良いランダム化アダマール埋め込みを提案する。 また,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。 数値シミュレーションは我々の理論的な主張を検証する。

We consider the problem of quantizing a linear model learned from measurements $\mathbf{X} = \mathbf{W}\boldsymbol{\theta} + \mathbf{v}$. The model is constrained to be representable using only $dB$-bits, where $B \in (0, \infty)$ is a pre-specified budget and $d$ is the dimension of the model. We derive an information-theoreti c lower bound for the minimax risk under this setting and show that it is tight with a matching upper bound. This upper bound is achieved using randomized embedding based algorithms. We propose randomized Hadamard embeddings that are computationally efficient while performing near-optimally. We also show that our method and upper-bounds can be extended for two-layer ReLU neural networks. Numerical simulations validate our theoretical claims.
翻訳日:2022-02-25 03:43:53 公開日:2022-02-23
# (参考訳) lpf防御 : 周波数解析に基づく3次元防御 [全文訳有]

LPF-Defense: 3D Adversarial Defense based on Frequency Analysis ( http://arxiv.org/abs/2202.11287v1 )

ライセンス: CC BY 4.0
Hanieh Naderi, Arian Etemadi, Kimia Noorbakhsh and Shohreh Kasaei(参考訳) 3Dポイントクラウド分類は、最近さまざまなアプリケーションシナリオに広くデプロイされているが、敵攻撃に対して非常に脆弱である。 これにより、敵対的攻撃に直面した3Dモデルの堅牢なトレーニングの重要性が増す。 既存の対向攻撃の性能を解析した結果,入力データの中・高周波成分により多くの対向的摂動がみられた。 したがって、トレーニング段階での高周波コンテンツを抑制することにより、逆例に対するモデル堅牢性を向上する。 実験の結果,提案手法はPointNet, PointNet++, DGCNNモデルに対する6つの攻撃の成功率を低下させることがわかった。 特に、平均的な分類精度の向上により、drop100攻撃では3.8%、drop200攻撃では4.26%向上した。 また、他の利用可能な方法と比較して、元のデータセットのモデルの精度も向上する。

Although 3D point cloud classification has recently been widely deployed in different application scenarios, it is still very vulnerable to adversarial attacks. This increases the importance of robust training of 3D models in the face of adversarial attacks. Based on our analysis on the performance of existing adversarial attacks, more adversarial perturbations are found in the mid and high-frequency components of input data. Therefore, by suppressing the high-frequency content in the training phase, the models robustness against adversarial examples is improved. Experiments showed that the proposed defense method decreases the success rate of six attacks on PointNet, PointNet++ ,, and DGCNN models. In particular, improvements are achieved with an average increase of classification accuracy by 3.8 % on drop100 attack and 4.26 % on drop200 attack compared to the state-of-the-art methods. The method also improves models accuracy on the original dataset compared to other available methods.
翻訳日:2022-02-25 03:42:37 公開日:2022-02-23
# (参考訳) 連続学習に基づく多モード動的プロセスモニタリングのための確率的遅い特徴解析 [全文訳有]

Continual learning-based probabilistic slow feature analysis for multimode dynamic process monitoring ( http://arxiv.org/abs/2202.11295v1 )

ライセンス: CC BY 4.0
Jingxin Zhang, Donghua Zhou, Maoyin Chen, Xia Hong(参考訳) 本稿では, オンライン監視のためのマルチモードスロー機能を抽出するために, 弾性重み密化 (ewc) を確率的スロー機能解析 (psfa) に拡張した新しいマルチモード動的プロセスモニタリング手法を提案する。 ewcは当初、シーケンシャルなマルチタスクの機械学習の設定に導入され、破滅的な忘れる問題を避けることを目的としていた。 新しいモードが到着すると、このモードをPSFAと事前の知識で識別できるように、一連のデータを収集する必要がある。 そして、パラメータ重要度を推定する学習知識に新たなデータが著しく干渉することを防止するために、正規化用語を導入する。 提案手法はPSFA-EWCと表現され,継続的に更新され,連続モードの性能に優れる。 従来のマルチモード監視アルゴリズムとは異なり、PSFA-EWCは後方転送と前方転送機能を備えている。 以前のモードの重要な機能は、新しい情報を統合しながら保持され、新しい関連するモードの学習に寄与する可能性がある。 複数の既知の方法と比較し, 提案手法の有効性を連続槽ヒータと実用的な石炭粉砕システムを用いて実証した。

In this paper, a novel multimode dynamic process monitoring approach is proposed by extending elastic weight consolidation (EWC) to probabilistic slow feature analysis (PSFA) in order to extract multimode slow features for online monitoring. EWC was originally introduced in the setting of machine learning of sequential multi-tasks with the aim of avoiding catastrophic forgetting issue, which equally poses as a major challenge in multimode dynamic process monitoring. When a new mode arrives, a set of data should be collected so that this mode can be identified by PSFA and prior knowledge. Then, a regularization term is introduced to prevent new data from significantly interfering with the learned knowledge, where the parameter importance measures are estimated. The proposed method is denoted as PSFA-EWC, which is updated continually and capable of achieving excellent performance for successive modes. Different from traditional multimode monitoring algorithms, PSFA-EWC furnishes backward and forward transfer ability. The significant features of previous modes are retained while consolidating new information, which may contribute to learning new relevant modes. Compared with several known methods, the effectiveness of the proposed method is demonstrated via a continuous stirred tank heater and a practical coal pulverizing system.
翻訳日:2022-02-25 03:25:05 公開日:2022-02-23
# (参考訳) マルチターン音声対話における知識強化BERT相互ネットワーク [全文訳有]

Knowledge Augmented BERT Mutual Network in Multi-turn Spoken Dialogues ( http://arxiv.org/abs/2202.11299v1 )

ライセンス: CC BY 4.0
Ting-Wei Wu and Biing-Hwang Juang(参考訳) 現代の音声言語理解(SLU)システムは、意図やスロットを検出するために単一の発話で明らかになった洗練された意味概念に依存している。 しかし、特に長期スロットコンテキストにおいて、対話内のマルチターンダイナミクスをモデル化する能力は欠如している。 外部の知識がなければ、単語列内の限られた言語的正当性に依存して、対話のターンを越えて深い意味情報を見渡すことができる。 本稿では、2つのSLUタスク間の対話コンテキストを相互に活用するために、BERTベースのジョイントモデルに知識注意モジュールを装備することを提案する。 さらにゲーティング機構を利用して、無関係な知識三重項をフィルタリングし、邪魔な理解を回避する。 2つの複雑なマルチターン対話データセットにおける実験結果は,2つのsluタスクをフィルタした知識と対話コンテキストで相互にモデル化することで実証されている。

Modern spoken language understanding (SLU) systems rely on sophisticated semantic notions revealed in single utterances to detect intents and slots. However, they lack the capability of modeling multi-turn dynamics within a dialogue particularly in long-term slot contexts. Without external knowledge, depending on limited linguistic legitimacy within a word sequence may overlook deep semantic information across dialogue turns. In this paper, we propose to equip a BERT-based joint model with a knowledge attention module to mutually leverage dialogue contexts between two SLU tasks. A gating mechanism is further utilized to filter out irrelevant knowledge triples and to circumvent distracting comprehension. Experimental results in two complicated multi-turn dialogue datasets have demonstrate by mutually modeling two SLU tasks with filtered knowledge and dialogue contexts, our approach has considerable improvements compared with several competitive baselines.
翻訳日:2022-02-25 02:58:06 公開日:2022-02-23
# (参考訳) 古典的定量戦略の探求

Exploring Classic Quantitative Strategies ( http://arxiv.org/abs/2202.11309v1 )

ライセンス: CC BY 4.0
Jun Lu(参考訳) 本論文の目的は,ブラックボックス量的戦略の背後にある魔法を解き放つことである。 テクニックの動作方法と理由に関する強固な基盤を構築することを目的としています。 この写本は、戦略の背後にある数学である単純な直観からこの知識を結晶化する。 このチュートリアルは、量的戦略の形式的側面と非公式な側面の両方に対処することを避けない。 そうすることで、読者はこれらのテクニックをいつ、どのように、どのように、なぜ適用するのかを深く理解したいと考えている。 戦略はS\&P500とSH510300データセットの両方で示される。 しかし、テストの結果はメソッドの動作の例に過ぎず、実際のマーケットポジションの提案については主張されていない。

The goal of this paper is to debunk and dispel the magic behind the black-box quantitative strategies. It aims to build a solid foundation on how and why the techniques work. This manuscript crystallizes this knowledge by deriving from simple intuitions, the mathematics behind the strategies. This tutorial doesn't shy away from addressing both the formal and informal aspects of quantitative strategies. By doing so, it hopes to provide readers with a deeper understanding of these techniques as well as the when, the how and the why of applying these techniques. The strategies are presented in terms of both S\&P500 and SH510300 data sets. However, the results from the tests are just examples of how the methods work; no claim is made on the suggestion of real market positions.
翻訳日:2022-02-25 02:48:11 公開日:2022-02-23
# (参考訳) ロバストで回復力のあるSLAMの準備はできているか? SLAMデータセットの定量的評価のためのフレームワーク [全文訳有]

Are We Ready for Robust and Resilient SLAM? A Framework For Quantitative Characterization of SLAM Datasets ( http://arxiv.org/abs/2202.11312v1 )

ライセンス: CC BY 4.0
Islam Ali, Hong Zhang(参考訳) SLAMシステムの信頼性は、現代の多くの自律システムにおいて重要な要件の1つと考えられている。 これにより、多くの最先端システムの開発、挑戦的なデータセットの作成、SLAMシステムパフォーマンスを測定するための厳密なメトリクスの導入といった取り組みが進められた。 しかし、ロバスト性/レジリエンスコンテキストにおけるデータセットとパフォーマンスの関係は、ほとんど研究されていない。 この空白を埋めるためには,スラムシステムの動作条件のキャラクタリゼーションが不可欠であり,ロバスト性とレジリエンスを定量的に測定するための環境を提供する。 本稿では、SLAMの性能を適切に評価するために、SLAMデータセットの特性が重要な第一歩となることを論じる。 この研究は、SLAMデータセットの定量的評価のための以前の取り組みをレビューすることから始まる。 そして、摂動特性の問題を考察し、SLAMの堅牢性/レジリエンスの関連性を確立する。 その後、slamデータセットの定量的解析と比較のための新しい汎用的拡張可能なフレームワークを提案する。 さらに、異なる特徴パラメータの記述も提供される。 最後に,提案フレームワークが達成した洞察のレベルを強調する3つのslamデータセット(kitti, euroc-mav, tum-vi)のキャラクタリゼーション結果を提示し,このフレームワークの適用例を示す。

Reliability of SLAM systems is considered one of the critical requirements in many modern autonomous systems. This directed the efforts to developing many state-of-the-art systems, creating challenging datasets, and introducing rigorous metrics to measure SLAM system performance. However, the link between datasets and performance in the robustness/resilienc e context has rarely been explored. In order to fill this void, characterization the operating conditions of SLAM systems is essential in order to provide an environment for quantitative measurement of robustness and resilience. In this paper, we argue that for proper evaluation of SLAM performance, the characterization of SLAM datasets serves as a critical first step. The study starts by reviewing previous efforts for quantitative characterization of SLAM datasets. Then, the problem of perturbations characterization is discussed and the linkage to SLAM robustness/resilienc e is established. After that, we propose a novel, generic and extendable framework for quantitative analysis and comparison of SLAM datasets. Additionally, a description of different characterization parameters is provided. Finally, we demonstrate the application of our framework by presenting the characterization results of three SLAM datasets: KITTI, EuroC-MAV, and TUM-VI highlighting the level of insights achieved by the proposed framework.
翻訳日:2022-02-25 02:47:05 公開日:2022-02-23
# (参考訳) 多変量関数フォアキャスター [全文訳有]

Multivariate Quantile Function Forecaster ( http://arxiv.org/abs/2202.11316v1 )

ライセンス: CC BY 4.0
Kelvin Kan, Fran\c{c}ois-Xavier Aubet, Tim Januschowski, Youngsuk Park, Konstantinos Benidis, Lars Ruthotto, Jan Gasthaus(参考訳) 本稿では,多変量関数を用いた大域的確率予測手法であるMultivarate Quantile Function Forecaster (MQF$^2$)を提案する。 以前のアプローチは、自己回帰的あるいは暗黙的に依存関係構造を時間にわたってキャプチャするが、予測地平線の増加に伴うエラー蓄積を示すか、あるいはエラー蓄積を示すのではなく、時間ステップにわたって依存関係構造をモデル化しないマルチホリゾンシーケンスツーシーケンスモデルである。 MQF$^2$は、入力凸ニューラルネットワークを用いてパラメトリズする凸関数の勾配として定義される多変量関数の形で直接予測を行うことによって、両方のアプローチの利点を組み合わせる。 設計上、量子関数は入力量子レベルに対して単調であり、したがって量子交差を避ける。 mqf$^2$: エネルギースコアまたは最大確率でトレーニングする2つのオプションを提供する。 実世界および合成データセットにおける実験結果から,我々のモデルは,時間依存構造をキャプチャしながら,単一の時間ステップメトリクスの観点から,最先端の手法と同等の性能を持つことがわかった。

We propose Multivariate Quantile Function Forecaster (MQF$^2$), a global probabilistic forecasting method constructed using a multivariate quantile function and investigate its application to multi-horizon forecasting. Prior approaches are either autoregressive, implicitly capturing the dependency structure across time but exhibiting error accumulation with increasing forecast horizons, or multi-horizon sequence-to-sequence models, which do not exhibit error accumulation, but also do typically not model the dependency structure across time steps. MQF$^2$ combines the benefits of both approaches, by directly making predictions in the form of a multivariate quantile function, defined as the gradient of a convex function which we parametrize using input-convex neural networks. By design, the quantile function is monotone with respect to the input quantile levels and hence avoids quantile crossing. We provide two options to train MQF$^2$: with energy score or with maximum likelihood. Experimental results on real-world and synthetic datasets show that our model has comparable performance with state-of-the-art methods in terms of single time step metrics while capturing the time dependency structure.
翻訳日:2022-02-25 01:50:20 公開日:2022-02-23
# (参考訳) 妖精が大きければ大きいほど? エッジデバイスの公正性を達成できる小さなニューラルネットワーク [全文訳有]

The Larger The Fairer? Small Neural Networks Can Achieve Fairness for Edge Devices ( http://arxiv.org/abs/2202.11317v1 )

ライセンス: CC0 1.0
Yi Sheng, Junhuan Yang, Yawen Wu, Kevin Mao, Yiyu Shi, Jingtong Hu, Weiwen Jiang, Lei Yang(参考訳) aiの民主化の進展とともに、ニューラルネットワークは幅広いアプリケーションのためにエッジデバイスに頻繁に展開されている。 顔認識やモバイル医療など、多くのアプリケーションでフェアネスの懸念が徐々に現れています。 エッジデバイスにとって最も公平なニューラルアーキテクチャは何か? 既存のニューラルネットワークを調べることで、より大きなネットワークが通常より公平であることを確認する。 しかし、エッジデバイスはハードウェア仕様を満たすためにより小さなニューラルアーキテクチャを要求する。 この課題に対処するために、Fairnessand Hardware-aware Neural Architecture Searchフレームワーク、すなわちFaHaNaを提案する。 モデル凍結アプローチと組み合わせることで、ファハナはハードウェア仕様を満たしながら、公平性と正確性をバランスよくニューラルネットワークを効率的に探索することができる。 その結果、FaHaNaは皮膚科学データセット上で、より公平で精度の高い一連のニューラルネットワークを識別できることがわかった。 FaHaNaがターゲットとするエッジデバイスは、MobileNetV2と比較して、わずかに精度が良く、5.28倍、サイズが15.14%高く、一方Raspberry PIとOdroid XU-4では5.75倍、そして5.79倍のスピードアップを実現している。

Along with the progress of AI democratization, neural networks are being deployed more frequently in edge devices for a wide range of applications. Fairness concerns gradually emerge in many applications, such as face recognition and mobile medical. One fundamental question arises: what will be the fairest neural architecture for edge devices? By examining the existing neural networks, we observe that larger networks typically are fairer. But, edge devices call for smaller neural architectures to meet hardware specifications. To address this challenge, this work proposes a novel Fairness- and Hardware-aware Neural architecture search framework, namely FaHaNa. Coupled with a model freezing approach, FaHaNa can efficiently search for neural networks with balanced fairness and accuracy, while guaranteed to meet hardware specifications. Results show that FaHaNa can identify a series of neural networks with higher fairness and accuracy on a dermatology dataset. Target edge devices, FaHaNa finds a neural architecture with slightly higher accuracy, 5.28x smaller size, 15.14% higher fairness score, compared with MobileNetV2; meanwhile, on Raspberry PI and Odroid XU-4, it achieves 5.75x and 5.79x speedup.
翻訳日:2022-02-25 01:12:57 公開日:2022-02-23
# (参考訳) 流れの正規化のための効率的なCDF近似 [全文訳有]

Efficient CDF Approximations for Normalizing Flows ( http://arxiv.org/abs/2202.11322v1 )

ライセンス: CC BY 4.0
Chandramouli Shama Sastry, Andreas Lehrmann, Marcus Brubaker, Alexander Radovic(参考訳) 正規化フローモデル 単純な基底分布で動作する単射変換の観点から複雑な対象分布をモデル化する。 そのため、多くの重要な統計量、特に可能性とサンプルの抽出可能な計算が可能となる。 これらの魅力的な性質にもかかわらず、複素領域(例えばポリトープ)上の累積分布関数(CDF)のようなより複雑な推論タスクの計算は依然として困難である。 モンテカルロ法を用いた従来のCDF近似は偏りがないが、ばらつきが無くサンプル効率が低い。 代わりに、正規化フローの双相的性質の上に構築し、正規化フローによって引き起こされるように、対象空間の閉領域上のcdfをその \emph{boundary} を越えるフラックスの観点から推定するために発散定理を利用する。 決定論的変種は、戦略的に境界を分割することで、反復的に推定を改善するが、確率的変種は偏りのない推定を提供する。 一般的なフローアーキテクチャとuciベンチマークデータセットに関する実験では、従来の推定値と比較してサンプル効率が著しく向上しています。

Normalizing flows model a complex target distribution in terms of a bijective transform operating on a simple base distribution. As such, they enable tractable computation of a number of important statistical quantities, particularly likelihoods and samples. Despite these appealing properties, the computation of more complex inference tasks, such as the cumulative distribution function (CDF) over a complex region (e.g., a polytope) remains challenging. Traditional CDF approximations using Monte-Carlo techniques are unbiased but have unbounded variance and low sample efficiency. Instead, we build upon the diffeomorphic properties of normalizing flows and leverage the divergence theorem to estimate the CDF over a closed region in target space in terms of the flux across its \emph{boundary}, as induced by the normalizing flow. We describe both deterministic and stochastic instances of this estimator: while the deterministic variant iteratively improves the estimate by strategically subdividing the boundary, the stochastic variant provides unbiased estimates. Our experiments on popular flow architectures and UCI benchmark datasets show a marked improvement in sample efficiency as compared to traditional estimators.
翻訳日:2022-02-25 00:58:57 公開日:2022-02-23
# (参考訳) 対話的エキスパートによる実証からの強化学習と無人表面容器の自動ベルト制御システムへの応用 [全文訳有]

Reinforcement Learning from Demonstrations by Novel Interactive Expert and Application to Automatic Berthing Control Systems for Unmanned Surface Vessel ( http://arxiv.org/abs/2202.11325v1 )

ライセンス: CC BY 4.0
Haoran Zhang, Chenkun Yin, Yanxin Zhang, Shangtai Jin, Zhenxuan Li(参考訳) 本稿では,RLfD(Reinforcement Learning from Demonstration)の2つの新しい実践的手法を開発し,無人表面容器の自動曲げ制御システムに適用する。 モデル予測制御とDeep Deterministic Policy Gradientを組み合わせたモデル予測ベースエキスパート(MPBE)と呼ばれる新しい専門家データ生成手法を開発し,RLfDアルゴリズムの高品質な監視データを提供する。 まず、RLエージェントをMPBEに置き換え、環境と直接対話することで、簡単なRLfD法、モデル予測Deep Deterministic Policy Gradient(MP-DDPG)を導入する。 そして,MP-DDPGの分布ミスマッチ問題を解析し,分布ミスマッチを緩和する2つの手法を提案する。 さらに、mp-ddpgに基づく新たなrlfdアルゴリズムであるself-guided actor-critic (sgac)が存在し、mpbeを継続的にクエリして高品質な専門家データを生成することで効果的に活用することができる。 不安定な学習プロセスにつながる分布ミスマッチ問題は、DAgger方式でSGACによって解決される。 さらに、SGACアルゴリズムが保証された単調改善と収束できることを証明する理論的解析を行う。 シミュレーションの結果,MP-DDPGとSGACが船舶の係留制御に有効であることを検証し,他の一般的な強化学習アルゴリズムやMP-DDPGと比較してSGACの利点を示した。

In this paper, two novel practical methods of Reinforcement Learning from Demonstration (RLfD) are developed and applied to automatic berthing control systems for Unmanned Surface Vessel. A new expert data generation method, called Model Predictive Based Expert (MPBE) which combines Model Predictive Control and Deep Deterministic Policy Gradient, is developed to provide high quality supervision data for RLfD algorithms. A straightforward RLfD method, model predictive Deep Deterministic Policy Gradient (MP-DDPG), is firstly introduced by replacing the RL agent with MPBE to directly interact with the environment. Then distribution mismatch problem is analyzed for MP-DDPG, and two techniques that alleviate distribution mismatch are proposed. Furthermore, another novel RLfD algorithm based on the MP-DDPG, called Self-Guided Actor-Critic (SGAC) is present, which can effectively leverage MPBE by continuously querying it to generate high quality expert data online. The distribution mismatch problem leading to unstable learning process is addressed by SGAC in a DAgger manner. In addition, theoretical analysis is given to prove that SGAC algorithm can converge with guaranteed monotonic improvement. Simulation results verify the effectiveness of MP-DDPG and SGAC to accomplish the ship berthing control task, and show advantages of SGAC comparing with other typical reinforcement learning algorithms and MP-DDPG.
翻訳日:2022-02-25 00:40:00 公開日:2022-02-23
# (参考訳) facemaskを用いた顔画像のディープフェイク検出 [全文訳有]

Deepfake Detection for Facial Images with Facemasks ( http://arxiv.org/abs/2202.11359v1 )

ライセンス: CC BY 4.0
Donggeun Ko, Sangjun Lee, Jinyong Park, Saebyeol Shin, Donghee Hong, Simon S. Woo(参考訳) 超現実主義的な顔画像の生成と操作は、プライバシーの侵害、セキュリティの脅し、悪質な政治操作など、数多くの非倫理的な社会問題を引き起こしており、ディープフェイク法医学の需要が高まる中で、近年のディープフェイク検出法の開発に再燃している。 現在提案されている深度検出法は, 目覚しい検出率と堅牢性を示した。 しかし,提案されているディープフェイク検出法はいずれも,thecovid-19の流行後のパンデミック危機におけるフェイスマスクによるディープフェイクの動作を評価しなかった。 本稿では,facemaskを用いたディープフェイクにおける最先端ディープフェイク検出モデルの性能を徹底的に評価する。 また,マスク付きディープフェイク検出の2つのアプローチを提案する。 両手法の実験的評価は, 各種ディープフェイクデータセットのベースラインディープフェイク検出モデルを用いて評価され, この2つの手法のうち, 顔クロッパーフォームはフェイスパッチよりも優れており, 実世界のフェイクフェイスマスクを検出するためのディープフェイク検出モデルのためのトレインメソッドである可能性が示唆された。

Hyper-realistic face image generation and manipulation have givenrise to numerous unethical social issues, e.g., invasion of privacy,threat of security, and malicious political maneuvering, which re-sulted in the development of recent deepfake detection methodswith the rising demands of deepfake forensics. Proposed deepfakedetection methods to date have shown remarkable detection perfor-mance and robustness. However, none of the suggested deepfakedetection methods assessed the performance of deepfakes withthe facemask during the pandemic crisis after the outbreak of theCovid-19. In this paper, we thoroughly evaluate the performance ofstate-of-the-art deepfake detection models on the deepfakes withthe facemask. Also, we propose two approaches to enhance themasked deepfakes detection:face-patch andface-crop. The experi-mental evaluations on both methods are assessed through the base-line deepfake detection models on the various deepfake datasets.Our extensive experiments show that, among the two methods,face-cropper forms better than theface-patch, and could be a trainmethod for deepfake detection models to detect fake faces withfacemask in real world.
翻訳日:2022-02-25 00:10:05 公開日:2022-02-23
# (参考訳) アーカイブデータにおける関係発見のための探索的手法 [全文訳有]

Exploratory Methods for Relation Discovery in Archival Data ( http://arxiv.org/abs/2202.11361v1 )

ライセンス: CC BY-SA 4.0
Lucia Giagnolini, Marilena Daquino, Francesca Mambelli, Francesca Tomasi(参考訳) 本稿では,美術史社会における関係を解明し,歴史学者の伝記や考古学的記述に,美術史学の探究に関連するグラフパターンを取り入れた総合的アプローチを提案する。 我々は、探索データ分析を用いてパターンを検出し、特徴を抽出し、分類モデルを用いて新しい関係を予測し、カタログ化段階で考古学者に推奨する。 その結果,文献情報に基づく関係は,研究トピックや機関関係に基づく関係よりも高精度に対処できることがわかった。 決定論的および事前規則は確率論的手法よりも優れた結果を示す。

In this article we propose a holistic approach to discover relations in art historical communities and enrich historians' biographies and archival descriptions with graph patterns relevant to art historiographic enquiry. We use exploratory data analysis to detect patterns, we select features, and we use them to evaluate classification models to predict new relations, to be recommended to archivists during the cataloguing phase. Results show that relations based on biographical information can be addressed with higher precision than relations based on research topics or institutional relations. Deterministic and a priori rules present better results than probabilistic methods.
翻訳日:2022-02-25 00:02:16 公開日:2022-02-23
# (参考訳) 複雑なAppleオーチャード環境における小さなAppleのローカライズ [全文訳有]

Localizing Small Apples in Complex Apple Orchard Environments ( http://arxiv.org/abs/2202.11372v1 )

ライセンス: CC BY 4.0
Christian Wilms, Robert Johanson, Simone Frintrop(参考訳) 果実の局在化は、収穫量推定や収穫のための自動化農業パイプラインにおいて不可欠な第一歩である。 この例の1つは、リンゴ全体の画像におけるリンゴの局在である。 このようなシナリオではリンゴは非常に小さなオブジェクトであるため、我々は小さなオブジェクトに焦点を当てたオブジェクト提案生成システム attentionmaskを適用することでこの問題に取り組みます。 AttentionMaskは、非常に小さなリンゴ用の新しいモジュールを追加するか、ティリングフレームワークに統合することで適応します。 どちらのアプローチも、複雑なapple orchard環境をカバーするminneappleデータセット上の標準オブジェクト提案生成システムよりも明らかに優れている。 本評価は, アップルサイズの改善を更に分析し, 2つのアプローチの異なる特性を示す。

The localization of fruits is an essential first step in automated agricultural pipelines for yield estimation or fruit picking. One example of this is the localization of apples in images of entire apple trees. Since the apples are very small objects in such scenarios, we tackle this problem by adapting the object proposal generation system AttentionMask that focuses on small objects. We adapt AttentionMask by either adding a new module for very small apples or integrating it into a tiling framework. Both approaches clearly outperform standard object proposal generation systems on the MinneApple dataset covering complex apple orchard environments. Our evaluation further analyses the improvement w.r.t. the apple sizes and shows the different characteristics of our two approaches.
翻訳日:2022-02-24 23:47:17 公開日:2022-02-23
# (参考訳) アクション認識のためのスケルトンシーケンスとrgbフレームベースマルチモダリティ特徴融合ネットワーク [全文訳有]

Skeleton Sequence and RGB Frame Based Multi-Modality Feature Fusion Network for Action Recognition ( http://arxiv.org/abs/2202.11374v1 )

ライセンス: CC BY 4.0
Xiaoguang Zhu, Ye Zhu, Haoyu Wang, Honglin Wen, Yan Yan and Peilin Liu(参考訳) 行動認識はコンピュータビジョンにおいて、視覚システムにおける幅広い応用のための熱い話題となっている。 以前のアプローチでは、骨格配列とRGBビデオのモダリティを融合することで改善されている。 しかし、このような手法は、RGBビデオネットワークの高複雑性に対する精度と効率の両立を図っている。 そこで本研究では, 骨格列とRGBフレームの組み合わせが, 骨格列とRGBビデオとに近接していることから, 骨格列とRGBフレームのモダリティを結合する多モード特徴融合ネットワークを提案する。 このようにして、複雑さを大きなマージンで減らしながら補完的な情報が保持される。 2つのモードの対応をよりよく探求するため、ネットワークに2段階の融合フレームワークが導入された。 核融合初期の段階では、RGBフレームが四肢運動領域に集中するのを助けるために、単一のRGBフレーム上に骨格配列を投影する骨格注意モジュールを導入する。 後期融合期には, 相関を利用して骨格特徴とRGB特徴を融合させるクロスアテンションモジュールを提案する。 NTU RGB+D と SYSU の2つのベンチマーク実験により,提案手法はネットワークの複雑さを低減しつつ,最先端の手法と比較して競争性能が向上することを示した。

Action recognition has been a heated topic in computer vision for its wide application in vision systems. Previous approaches achieve improvement by fusing the modalities of the skeleton sequence and RGB video. However, such methods have a dilemma between the accuracy and efficiency for the high complexity of the RGB video network. To solve the problem, we propose a multi-modality feature fusion network to combine the modalities of the skeleton sequence and RGB frame instead of the RGB video, as the key information contained by the combination of skeleton sequence and RGB frame is close to that of the skeleton sequence and RGB video. In this way, the complementary information is retained while the complexity is reduced by a large margin. To better explore the correspondence of the two modalities, a two-stage fusion framework is introduced in the network. In the early fusion stage, we introduce a skeleton attention module that projects the skeleton sequence on the single RGB frame to help the RGB frame focus on the limb movement regions. In the late fusion stage, we propose a cross-attention module to fuse the skeleton feature and the RGB feature by exploiting the correlation. Experiments on two benchmarks NTU RGB+D and SYSU show that the proposed model achieves competitive performance compared with the state-of-the-art methods while reduces the complexity of the network.
翻訳日:2022-02-24 23:39:24 公開日:2022-02-23
# (参考訳) 網膜CT画像におけるマルチスケールスパース表現に基づくシャドーペイント [全文訳有]

Multi-scale Sparse Representation-Based Shadow Inpainting for Retinal OCT Images ( http://arxiv.org/abs/2202.11377v1 )

ライセンス: CC BY 4.0
Yaoqi Tang, Yufan Li, Hongshan Liu, Jiaxuan Li, Peiyao Jin, Yu Gan, Yuye Ling, and Yikai Su(参考訳) 網膜光コヒーレンス断層撮影(OCT)画像における表面血管による陰影領域の塗布は,正確で堅牢な機械解析と臨床診断に重要である。 隣り合う情報を伝達し、欠落した領域を徐々に埋めるといった従来のシーケンスベースのアプローチはコスト効率がよい。 しかし、より大きな欠落領域やテクスチャに富んだ構造を扱うと満足のいく結果が得られなくなる。 エンコーダ-デコーダネットワークなどの深層学習に基づく手法が,自然画像インパインタスクにおいて有望な結果を示している。 しかし、通常、ネットワークトレーニングには、データセットのサイズに対する高い需要に加えて、長い計算時間を必要とするため、しばしば小さな医療データセットに適用することは困難である。 これらの課題に対処するために, スパース表現と深層学習を相乗的に適用することにより, OCT画像のための新しいマルチスケールシャドウ塗装フレームワークを提案する: スパース表現は, 少量のトレーニング画像から特徴を抽出し, マルチスケール画像融合後の画像を正規化し, 畳み込みニューラルネットワーク(CNN)を用いて画像品質を向上させる。 画像の塗布中に、影幅に基づいて前処理した入力画像を異なる枝に分割し、異なるスケールから補完情報を抽出する。 最後に、スパース表現に基づく正規化モジュールは、マルチスケールの機能集約後に生成されたコンテンツを洗練するように設計されている。 合成および実世界の影に関する従来の学習技術と深層学習技術の比較実験を行った。 その結果,提案手法は,特に広い影を呈する場合には,視覚品質や定量的指標の観点から好適な絵具が得られることがわかった。

Inpainting shadowed regions cast by superficial blood vessels in retinal optical coherence tomography (OCT) images is critical for accurate and robust machine analysis and clinical diagnosis. Traditional sequence-based approaches such as propagating neighboring information to gradually fill in the missing regions are cost-effective. But they generate less satisfactory outcomes when dealing with larger missing regions and texture-rich structures. Emerging deep learning-based methods such as encoder-decoder networks have shown promising results in natural image inpainting tasks. However, they typically need a long computational time for network training in addition to the high demand on the size of datasets, which makes it difficult to be applied on often small medical datasets. To address these challenges, we propose a novel multi-scale shadow inpainting framework for OCT images by synergically applying sparse representation and deep learning: sparse representation is used to extract features from a small amount of training images for further inpainting and to regularize the image after the multi-scale image fusion, while convolutional neural network (CNN) is employed to enhance the image quality. During the image inpainting, we divide preprocessed input images into different branches based on the shadow width to harvest complementary information from different scales. Finally, a sparse representation-based regularizing module is designed to refine the generated contents after multi-scale feature aggregation. Experiments are conducted to compare our proposal versus both traditional and deep learning-based techniques on synthetic and real-world shadows. Results demonstrate that our proposed method achieves favorable image inpainting in terms of visual quality and quantitative metrics, especially when wide shadows are presented.
翻訳日:2022-02-24 23:13:34 公開日:2022-02-23
# (参考訳) インクリメンタル・インクリメンタルな分類のためのマルチ教師の知識蒸留 [全文訳有]

Multi-Teacher Knowledge Distillation for Incremental Implicitly-Refined Classification ( http://arxiv.org/abs/2202.11384v1 )

ライセンス: CC BY 4.0
Longhui Yu, Zhenyu Weng, Yuqing Wang, Yuesheng Zhu(参考訳) インクリメンタルラーニング手法は、最終モデル(教師モデル)から現在のモデル(生徒モデル)への知識を逐次学習プロセスで蒸留することにより、新しいクラスを継続的に学習することができる。 しかし、これらの手法はインクリメンタルな暗黙的洗練分類(iirc)では機能しない。これはインクリメンタルな学習拡張であり、入ってくるクラスは2つの粒度レベル(スーパークラスラベルとサブクラスラベル)を持つことができる。 これは、事前学習されたスーパークラス知識が順次学習されたサブクラス知識によって占有される可能性があるためである。 そこで本研究では,MTKD(Multi-Teacher Knowledge Distillation)戦略を提案する。 サブクラス知識を保存するために,教師としての最後のモデルを用いて,学生モデルの知識を蒸留する。 超クラス知識を保存するため、初期モデルが豊富な超クラス知識を含んでいるため、スーパークラス知識を蒸留するためにスーパークラス教師として初期モデルを使用する。 しかし、2つの教師モデルから知識を蒸留すると、生徒モデルが冗長な予測をする可能性がある。 さらに,冗長予測を減らすため,top-k予測制限と呼ばれる後処理機構を提案する。 irc-imagenet120 と iirc-cifar100 の実験結果から,本手法は既存の手法と比較して精度が向上した。

Incremental learning methods can learn new classes continually by distilling knowledge from the last model (as a teacher model) to the current model (as a student model) in the sequentially learning process. However, these methods cannot work for Incremental Implicitly-Refined Classification (IIRC), an incremental learning extension where the incoming classes could have two granularity levels, a superclass label and a subclass label. This is because the previously learned superclass knowledge may be occupied by the subclass knowledge learned sequentially. To solve this problem, we propose a novel Multi-Teacher Knowledge Distillation (MTKD) strategy. To preserve the subclass knowledge, we use the last model as a general teacher to distill the previous knowledge for the student model. To preserve the superclass knowledge, we use the initial model as a superclass teacher to distill the superclass knowledge as the initial model contains abundant superclass knowledge. However, distilling knowledge from two teacher models could result in the student model making some redundant predictions. We further propose a post-processing mechanism, called as Top-k prediction restriction to reduce the redundant predictions. Our experimental results on IIRC-ImageNet120 and IIRC-CIFAR100 show that the proposed method can achieve better classification accuracy compared with existing state-of-the-art methods.
翻訳日:2022-02-24 23:03:18 公開日:2022-02-23
# (参考訳) 交替学習を用いた深度学習に基づく半教師付き回帰 [全文訳有]

Deep Metric Learning-Based Semi-Supervised Regression With Alternate Learning ( http://arxiv.org/abs/2202.11388v1 )

ライセンス: CC BY 4.0
Adina Zell, Gencer Sumbul, Beg\"um Demir(参考訳) 本稿では,パラメータ推定問題に対する新しい深層メトリック学習に基づく半教師付き回帰法(dml-s2r)を提案する。 DML-S2R法は, 対象値の付加サンプルを収集することなく, ラベル付きサンプルが不足している問題を緩和することを目的としている。 この目的のために提案するdml-s2r法は主に2つのステップからなる。 一 ラベル付きデータが少ない一対の類似性モデリング 二 豊富なラベルのないデータを有する三重項に基づく計量学習 最初のステップは、少数のラベル付きサンプルを使用してペアワイズサンプルの類似性をモデル化することである。 これは、ラベル付きサンプルの目標値差をSNN(Siamese Neural Network)で推定することで達成される。 第2のステップは、ラベル付きサンプルの数が不十分な場合に、三重項ベースの距離空間(類似したサンプルが互いに近く、異質なサンプルが互いに遠く離れている)を学ぶことである。 これは、ラベル付きサンプルだけでなくラベルなしサンプルも活用するトリプルトベースのディープメトリック学習に、最初のステップのsnを使用することで実現されている。 DML-S2Rのエンド・ツー・エンドトレーニングにおいて,この2つのステップの学習戦略について検討する。 この戦略により、各ステップのエンコードされた情報は、他のステップを学ぶためのガイダンスとなる。 実験の結果,DML-S2Rは最先端の半教師付き回帰法と比較された。 提案手法のコードはhttps://git.tu-berli n.de/rsim/DML-S2Rで公開されている。

This paper introduces a novel deep metric learning-based semi-supervised regression (DML-S2R) method for parameter estimation problems. The proposed DML-S2R method aims to mitigate the problems of insufficient amount of labeled samples without collecting any additional samples with target values. To this end, the proposed DML-S2R method is made up of two main steps: i) pairwise similarity modeling with scarce labeled data; and ii) triplet-based metric learning with abundant unlabeled data. The first step aims to model pairwise sample similarities by using a small number of labeled samples. This is achieved by estimating the target value differences of labeled samples with a Siamese neural network (SNN). The second step aims to learn a triplet-based metric space (in which similar samples are close to each other and dissimilar samples are far apart from each other) when the number of labeled samples is insufficient. This is achieved by employing the SNN of the first step for triplet-based deep metric learning that exploits not only labeled samples but also unlabeled samples. For the end-to-end training of DML-S2R, we investigate an alternate learning strategy for the two steps. Due to this strategy, the encoded information in each step becomes a guidance for learning the other step. The experimental results confirm the success of DML-S2R compared to the state-of-the-art semi-supervised regression methods. The code of the proposed method is publicly available at https://git.tu-berli n.de/rsim/DML-S2R.
翻訳日:2022-02-24 22:50:21 公開日:2022-02-23
# (参考訳) 対称対数凹機構の微分プライバシー [全文訳有]

Differential privacy for symmetric log-concave mechanisms ( http://arxiv.org/abs/2202.11393v1 )

ライセンス: CC BY 4.0
Staal A. Vinterbo(参考訳) データベースクエリ結果にランダムノイズを加えることは、プライバシを達成するための重要なツールである。 課題は、プライバシー要件を満たしながら、このノイズを最小限にすることである。 最近、ガウス雑音に対する$(\epsilon, \delta)$微分プライバシーの十分かつ必要な条件が公表された。 この条件は、この分布に対する最小のプライバシー保護尺度の計算を可能にする。 この作業を拡張し、すべての対称および対数凹形ノイズ密度に対して$(\epsilon, \delta)$-differentia l privacyに対して十分な条件を提供する。 この結果から,問合せ結果の寸法に対するノイズ分布の微調整が可能となった。 これは、現在使われているLaplace と Gaussian のメカニズムが持つ平均二乗誤差よりも、$\epsilon$ と $\delta$ に対して著しく低い値が得られることを示す。

Adding random noise to database query results is an important tool for achieving privacy. A challenge is to minimize this noise while still meeting privacy requirements. Recently, a sufficient and necessary condition for $(\epsilon, \delta)$-differentia l privacy for Gaussian noise was published. This condition allows the computation of the minimum privacy-preserving scale for this distribution. We extend this work and provide a sufficient and necessary condition for $(\epsilon, \delta)$-differentia l privacy for all symmetric and log-concave noise densities. Our results allow fine-grained tailoring of the noise distribution to the dimensionality of the query result. We demonstrate that this can yield significantly lower mean squared errors than those incurred by the currently used Laplace and Gaussian mechanisms for the same $\epsilon$ and $\delta$.
翻訳日:2022-02-24 22:42:42 公開日:2022-02-23
# (参考訳) 医用画像分割のための混合ブロックニューラルアーキテクチャ探索 [全文訳有]

Mixed-Block Neural Architecture Search for Medical Image Segmentation ( http://arxiv.org/abs/2202.11401v1 )

ライセンス: CC BY 4.0
Martijn M.A. Bosma, Arkadiy Dushatskiy, Monika Grewal, Tanja Alderliesten, Peter A. N. Bosman(参考訳) 深層ニューラルネットワーク(dnn)は、医療画像のセグメンテーションを自動化することによって、さまざまな臨床手順をより時間効率良くする可能性がある。 強い、時には人間レベルのパフォーマンスのため、この分野では標準的なアプローチになっている。 しかし,最高の医用画像分割DNNの設計はタスク固有である。 ニューラルネットワーク設計の自動化であるneural architecture search(nas)は、さまざまなタスクにおいて、手作業で設計されたネットワークを上回る能力を持つことが示されている。 しかし、既存の医用画像分割のためのNAS法は、発見できるDNNアーキテクチャの非常に限られた種類を探索してきた。 本研究では,医用画像分割ネットワークのための新しいNAS検索空間を提案する。 この探索空間は、U-Netでよく知られる一般化エンコーダデコーダ構造の強みと、画像分類タスクにおいて強力な性能を示すネットワークブロックを組み合わせる。 探索は、複数の細胞の最善のトポロジーと各セルの構成を同時に探すことによって行われ、トポロジーと細胞レベルの属性の相互作用を可能にする。 提案手法によって得られた2つのデータセットを用いた実験から,nas法で検出されたネットワークは,よく知られた手作りセグメンテーションネットワークよりも優れた性能を示し,トポロジー探索のみを実行する他のnas法やセルレベルサーチによるトポロジレベルサーチ法よりも優れた性能を示すことがわかった。

Deep Neural Networks (DNNs) have the potential for making various clinical procedures more time-efficient by automating medical image segmentation. Due to their strong, in some cases human-level, performance, they have become the standard approach in this field. The design of the best possible medical image segmentation DNNs, however, is task-specific. Neural Architecture Search (NAS), i.e., the automation of neural network design, has been shown to have the capability to outperform manually designed networks for various tasks. However, the existing NAS methods for medical image segmentation have explored a quite limited range of types of DNN architectures that can be discovered. In this work, we propose a novel NAS search space for medical image segmentation networks. This search space combines the strength of a generalised encoder-decoder structure, well known from U-Net, with network blocks that have proven to have a strong performance in image classification tasks. The search is performed by looking for the best topology of multiple cells simultaneously with the configuration of each cell within, allowing for interactions between topology and cell-level attributes. From experiments on two publicly available datasets, we find that the networks discovered by our proposed NAS method have better performance than well-known handcrafted segmentation networks, and outperform networks found with other NAS approaches that perform only topology search, and topology-level search followed by cell-level search.
翻訳日:2022-02-24 22:08:04 公開日:2022-02-23
# (参考訳) リモートセンシングにおける自己監督型クロスモーダル画像検索手法 [全文訳有]

A Novel Self-Supervised Cross-Modal Image Retrieval Method In Remote Sensing ( http://arxiv.org/abs/2202.11429v1 )

ライセンス: CC BY 4.0
Gencer Sumbul, Markus M\"uller, Beg\"um Demir(参考訳) マルチモーダルリモートセンシング(RS)画像アーカイブが利用可能であることから、最も重要な研究テーマの1つは、異なるモーダルにわたって意味的に類似した画像を検索するクロスモーダルRS画像検索(CM-RSIR)手法の開発である。 既存のCM-RSIR法では、アノテートされたトレーニングイメージ(大規模なアプリケーションで収集するには時間を要するが、コストがかかり、実現不可能)が必要であり、モーダル内およびモーダル間類似性保存とモーダル間差分除去を同時に処理しない。 本稿では,新しい自己教師型クロスモーダル画像検索手法を提案する。 一 異なるモダリティ間の相互情報を自己監督的にモデル化すること。 二 モーダル特定特徴空間の分布を類似して保持すること。 三 注釈付き訓練画像を必要とすることなく、各モダリティ内で最も類似した画像を定義すること。 そこで我々は,3つの損失関数を同時に含む新たな目的を提案する。 一 モジュール間類似性保存のための異なるモダリティの相互情報の最大化 二 マルチモーダル画像タプルの角距離を最小化して、モーダル間不一致を解消すること。 iii) モダリティ内の類似性を評価するために、各モダリティ内の最も類似した画像のコサイン類似性を高めること。 実験により,提案手法の有効性を最先端手法と比較した。 提案手法のコードはhttps://git.tu-berli n.de/rsim/SS-CM-RSIR で公開されている。

Due to the availability of multi-modal remote sensing (RS) image archives, one of the most important research topics is the development of cross-modal RS image retrieval (CM-RSIR) methods that search semantically similar images across different modalities. Existing CM-RSIR methods require annotated training images (which is time-consuming, costly and not feasible to gather in large-scale applications) and do not concurrently address intra- and inter-modal similarity preservation and inter-modal discrepancy elimination. In this paper, we introduce a novel self-supervised cross-modal image retrieval method that aims to: i) model mutual-information between different modalities in a self-supervised manner; ii) retain the distributions of modal-specific feature spaces similar; and iii) define most similar images within each modality without requiring any annotated training images. To this end, we propose a novel objective including three loss functions that simultaneously: i) maximize mutual information of different modalities for inter-modal similarity preservation; ii) minimize the angular distance of multi-modal image tuples for the elimination of inter-modal discrepancies; and iii) increase cosine similarity of most similar images within each modality for the characterization of intra-modal similarities. Experimental results show the effectiveness of the proposed method compared to state-of-the-art methods. The code of the proposed method is publicly available at https://git.tu-berli n.de/rsim/SS-CM-RSIR .
翻訳日:2022-02-24 22:00:05 公開日:2022-02-23
# (参考訳) アダプティブツリー探索による任意の翻訳目標の導出 [全文訳有]

Enabling arbitrary translation objectives with Adaptive Tree Search ( http://arxiv.org/abs/2202.11444v1 )

ライセンス: CC BY 4.0
Wang Ling, Wojciech Stokowiec, Domenic Donato, Laurent Sartran, Lei Yu, Austin Matthews and Chris Dyer(参考訳) 本稿では,探索対象の形状や構造を仮定しない翻訳モデルに基づく高輝度出力を探索する適応木探索アルゴリズムを提案する。 このアルゴリズム - モンテカルロ木探索の決定論的変種 -- は、自己回帰性や条件付き独立性仮定のようなデコーディングを扱いやすくするために課される制約によって蓄積されない、新しい種類のモデルの探索を可能にする。 自己回帰モデルに適用すると、アルゴリズムはビーム探索と異なるバイアスを持つため、自己回帰モデルにおけるバイアスの復号化の役割の新たな分析が可能になる。 経験的に,適応木探索アルゴリズムは,自己回帰モデルにおけるビーム探索に比べて,かなり優れたモデルスコアの出力を探索し,出力中の単語に対してスコアが付加的に分解されないモデルにおける再ランキング手法と比較した。 また、bleuに関して複数の翻訳モデル目標の相関関係を特徴付ける。 いくつかの標準モデルは、ビーム探索バイアスの利点があるが、他のより頑健なモデル(期待された自動メトリックスコアを最大化するために調整された自動回帰モデル、ノイズチャンネルモデル、新しく提案された目的)は、提案するデコーダを用いた探索量の増加の恩恵を受けるが、ビーム探索バイアスは、そのような目的から得られる改善を制限する。 したがって,モデルが改善するにつれて,ビーム探索や再ランキングに基づく手法への過度な依存によって改善が隠される可能性がある。

We introduce an adaptive tree search algorithm, that can find high-scoring outputs under translation models that make no assumptions about the form or structure of the search objective. This algorithm -- a deterministic variant of Monte Carlo tree search -- enables the exploration of new kinds of models that are unencumbered by constraints imposed to make decoding tractable, such as autoregressivity or conditional independence assumptions. When applied to autoregressive models, our algorithm has different biases than beam search has, which enables a new analysis of the role of decoding bias in autoregressive models. Empirically, we show that our adaptive tree search algorithm finds outputs with substantially better model scores compared to beam search in autoregressive models, and compared to reranking techniques in models whose scores do not decompose additively with respect to the words in the output. We also characterise the correlation of several translation model objectives with respect to BLEU. We find that while some standard models are poorly calibrated and benefit from the beam search bias, other often more robust models (autoregressive models tuned to maximize expected automatic metric scores, the noisy channel model and a newly proposed objective) benefit from increasing amounts of search using our proposed decoder, whereas the beam search bias limits the improvements obtained from such objectives. Thus, we argue that as models improve, the improvements may be masked by over-reliance on beam search or reranking based methods.
翻訳日:2022-02-24 21:51:00 公開日:2022-02-23
# (参考訳) 人工知能を用いた観測機械運動の再構成 [全文訳有]

Reconstruction of observed mechanical motions with Artificial Intelligence tools ( http://arxiv.org/abs/2202.11447v1 )

ライセンス: CC BY-SA 4.0
Antal Jakovac, Marcell T. Kurbucz, Peter Posfay(参考訳) 本研究の目的は,背景に機械的機構が存在すると仮定して観測軌道の法則を定め,これらの法則を用いて観測運動を確実に継続することである。 これらの法則は、限られた数のパラメータを持つニューラルネットワークによって表現される。 ネットワークのトレーニングはExtreme Learning Machineのアイデアに従う。 埋め込みの異なるレベルに関する法則を決定するので、運動の方程式だけでなく、異なる種類の対称性も表すことができる。 再帰的な数値進化では、決定された数値精度内で全ての観測された法則を満たさなければならない。 このようにして、重力振子と二重振子の例で示すように、積分運動とカオス運動の両方を再構築することができる。

The goal of this paper is to determine the laws of observed trajectories assuming that there is a mechanical system in the background and using these laws to continue the observed motion in a plausible way. The laws are represented by neural networks with a limited number of parameters. The training of the networks follows the Extreme Learning Machine idea. We determine laws for different levels of embedding, thus we can represent not only the equation of motion but also the symmetries of different kinds. In the recursive numerical evolution of the system, we require the fulfillment of all the observed laws, within the determined numerical precision. In this way, we can successfully reconstruct both integrable and chaotic motions, as we demonstrate in the example of the gravity pendulum and the double pendulum.
翻訳日:2022-02-24 21:24:39 公開日:2022-02-23
# (参考訳) SLOGAN:任意長・外語彙テキストのための手書きスタイル合成 [全文訳有]

SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and Out-of-Vocabulary Text ( http://arxiv.org/abs/2202.11456v1 )

ライセンス: CC BY 4.0
Canjie Luo, Yuanzhi Zhu, Lianwen Jin, Zhe Li, Dezhi Peng(参考訳) 頑健なテキスト認識者の訓練には,大量のラベル付きデータが必要である。 しかし、多彩な様式の筆跡データと膨大な語彙の収集は非常に高価である。 データ合成はデータハンガーを緩和する有望な方法だが、手書き合成の2つの重要な問題、すなわちスタイル表現とコンテンツ埋め込みは未解決のままである。 そこで本研究では,GAN(Generative Adversarial Network, GAN)に基づく任意の長文と語彙外文に対して,パラメータ化および制御可能な手書きスタイルを合成する手法を提案する。 具体的には,特定の手書きスタイルを潜在ベクトルとしてパラメータ化するためのスタイルバンクを提案する。 スタイルバンクのトレーニングは、属性アノテーションではなく、ソースイメージのライター識別のみを必要とする。 また、入力された印刷画像を変更することにより、コンテンツの多様性を柔軟に達成できるように、容易に得られる印刷スタイル画像を提供することで、テキストコンテンツを埋め込む。 最後に、ジェネレータは二重判別器によって誘導され、分離文字として現れる手書き特性と一連のカーシブ結合の両方を扱う。 本手法は,学習語彙に含まれない単語を,様々なスタイルで合成することができる。 広汎な実験により,優れたスタイルの多様性と豊かな語彙を持つ高品質なテキストイメージを本手法で合成できることが確認された。

Large amounts of labeled data are urgently required for the training of robust text recognizers. However, collecting handwriting data of diverse styles, along with an immense lexicon, is considerably expensive. Although data synthesis is a promising way to relieve data hunger, two key issues of handwriting synthesis, namely, style representation and content embedding, remain unsolved. To this end, we propose a novel method that can synthesize parameterized and controllable handwriting Styles for arbitrary-Length and Out-of-vocabulary text based on a Generative Adversarial Network (GAN), termed SLOGAN. Specifically, we propose a style bank to parameterize the specific handwriting styles as latent vectors, which are input to a generator as style priors to achieve the corresponding handwritten styles. The training of the style bank requires only the writer identification of the source images, rather than attribute annotations. Moreover, we embed the text content by providing an easily obtainable printed style image, so that the diversity of the content can be flexibly achieved by changing the input printed image. Finally, the generator is guided by dual discriminators to handle both the handwriting characteristics that appear as separated characters and in a series of cursive joins. Our method can synthesize words that are not included in the training vocabulary and with various new styles. Extensive experiments have shown that high-quality text images with great style diversity and rich vocabulary can be synthesized using our method, thereby enhancing the robustness of the recognizer.
翻訳日:2022-02-24 21:13:54 公開日:2022-02-23
# (参考訳) プライベートなAIoTデバイスに関するテーラーモデルに向けて:フェデレートされたニューラルアーキテクチャ検索 [全文訳有]

Towards Tailored Models on Private AIoT Devices: Federated Direct Neural Architecture Search ( http://arxiv.org/abs/2202.11490v1 )

ライセンス: CC BY 4.0
Chunhui Zhang, Xiaoming Yuan, Qianyun Zhang, Guangxu Zhu, Lei Cheng, and Ning Zhang(参考訳) ニューラルネットワークは、エッジデバイスにデプロイする際、様々な厳しいリソース制約に遭遇することが多い。 人間の努力を減らしてこれらの問題に取り組むために、機械学習は、さまざまな人工知能(AIoT)シナリオに適合するさまざまなニューラルネットワークを見つけることで人気がある。 近年,自動機械知能を実現しながら個人情報の漏洩を防止するため,連合学習とニューラルネットワーク検索(nas)の統合が注目されている。 期待できるように思えるが、両者の難しさの結合はアルゴリズム開発を非常に困難にしている。 特に、AIoTデバイス間で巨大な非独立かつ同一の(非IID)データから直接、最適なニューラルネットワークを直接、フェデレートして効率的に検索する方法は、クラックが難しい。 本稿では,ProxylessNASの進歩を活用することで,デバイス間の非IDデータからハードウェアフレンドリなNASを実現するためのFDNAS(Federated Direct Neural Architecture Search)フレームワークを提案する。 メタラーニングにインスパイアされた異種組み込みハードウェアプラットフォームを用いたさまざまなデータ分散と異なるタイプのデバイスの両方にさらに適応するために、各デバイスが特定のデータ分散とハードウェア制約に対して適切なディープラーニングモデルを学習できるという意味で、デバイス対応NASを実現するために、CFDNAS(Cluster Federated Direct Neural Architecture Search)フレームワークが提案されている。 非IIDデータセットに対する大規模な実験は、提案したソリューションがデータとデバイスの不均一性の両方の存在下で達成した最先端の精度効率トレードオフを示している。

Neural networks often encounter various stringent resource constraints while deploying on edge devices. To tackle these problems with less human efforts, automated machine learning becomes popular in finding various neural architectures that fit diverse Artificial Intelligence of Things (AIoT) scenarios. Recently, to prevent the leakage of private information while enable automated machine intelligence, there is an emerging trend to integrate federated learning and neural architecture search (NAS). Although promising as it may seem, the coupling of difficulties from both tenets makes the algorithm development quite challenging. In particular, how to efficiently search the optimal neural architecture directly from massive non-independent and identically distributed (non-IID) data among AIoT devices in a federated manner is a hard nut to crack. In this paper, to tackle this challenge, by leveraging the advances in ProxylessNAS, we propose a Federated Direct Neural Architecture Search (FDNAS) framework that allows for hardware-friendly NAS from non- IID data across devices. To further adapt to both various data distributions and different types of devices with heterogeneous embedded hardware platforms, inspired by meta-learning, a Cluster Federated Direct Neural Architecture Search (CFDNAS) framework is proposed to achieve device-aware NAS, in the sense that each device can learn a tailored deep learning model for its particular data distribution and hardware constraint. Extensive experiments on non-IID datasets have shown the state-of-the-art accuracy-efficiency trade-offs achieved by the proposed solution in the presence of both data and device heterogeneity.
翻訳日:2022-02-24 20:47:22 公開日:2022-02-23
# (参考訳) MITI:腹腔鏡下手術におけるSLAMベンチマーク [全文訳有]

MITI: SLAM Benchmark for Laparoscopic Surgery ( http://arxiv.org/abs/2202.11496v1 )

ライセンス: CC BY 4.0
Regine Hartwig, Daniel Ostler, Jean-Claude Rosenthal, Hubertus Feu{\ss}ner, Dirk Wilhelm, Dirk Wollherr(参考訳) 腹部へのmis(minimally invasive surgery)介入のための立体視慣性コンピュータビジョンアルゴリズム(slam/sfm/3dリコンストラクション/視覚慣性オドメトリ)を評価するための新しいベンチマークを提案する。 我々のMITIデータセットは[https://mediatum.ub. tum.de/1621941]で利用可能であり、TUMのResearch Hospital Rechts der Isarでハンドヘルド手術の完全な記録によって必要なすべてのデータを提供する。 IMUからのマルチモーダルセンサ情報、ステレオビデオ、赤外線トラッキングを基礎的真理として含んでいる。 さらに、ステレオスコープ、加速度計、磁力計、センサ設定の剛性変換、タイムオフセットのキャリブレーションも利用可能である。 切削や組織変形をほとんど含まない適切な介入を賢明に選択し,slamアルゴリズムのテストに最適であるようにハンドヘルドカメラで腹部をフルスキャンした。 MISアプリケーション用に設計されたビジュアル慣性アルゴリズムの進歩を促進するため、我々の臨床研修データセットが、研究者のアルゴリズム強化に役立つことを期待する。

We propose a new benchmark for evaluating stereoscopic visual-inertial computer vision algorithms (SLAM/ SfM/ 3D Reconstruction/ Visual-Inertial Odometry) for minimally invasive surgical (MIS) interventions in the abdomen. Our MITI Dataset available at [https://mediatum.ub. tum.de/1621941] provides all the necessary data by a complete recording of a handheld surgical intervention at Research Hospital Rechts der Isar of TUM. It contains multimodal sensor information from IMU, stereoscopic video, and infrared (IR) tracking as ground truth for evaluation. Furthermore, calibration for the stereoscope, accelerometer, magnetometer, the rigid transformations in the sensor setup, and time-offsets are available. We wisely chose a suitable intervention that contains very few cutting and tissue deformation and shows a full scan of the abdomen with a handheld camera such that it is ideal for testing SLAM algorithms. Intending to promote the progress of visual-inertial algorithms designed for MIS application, we hope that our clinical training dataset helps and enables researchers to enhance algorithms.
翻訳日:2022-02-24 20:18:25 公開日:2022-02-23
# (参考訳) 一次メラノーマのゲノム免疫サブグループへの画像ベース分類のための弱い教師付き学習 [全文訳有]

Weakly-supervised learning for image-based classification of primary melanomas into genomic immune subgroups ( http://arxiv.org/abs/2202.11524v1 )

ライセンス: CC BY 4.0
Lucy Godson, Navid Alemi, Jeremie Nsengimana, Graham P. Cook, Emily L. Clarke, Darren Treanor, D. Timothy Bishop, Julia Newton-Bishop and Ali Gooya(参考訳) メラノーマ患者に対する早期予後マーカーと成体化患者を効果的に治療するための2つの重要な課題である。 これまでの研究では、腫瘍のトランスクリプトームデータを用いて、患者を免疫サブグループに分類し、メラノーマ特異的生存と潜在的治療戦略に関連付けられていた。 しかし、トランスクリプトームデータの取得は時間とコストのかかるプロセスである。 また、現在の臨床ワークフローでは日常的に使われていない。 そこで我々は,臨床ワークフローで確立されたgigapixel h&e染色病理スライドをこれらの免疫サブグループに分類する深層学習モデルを開発した。 従来のサブタイピングアプローチでは、完全に注釈付きデータを必要とする教師付き学習や、メラノーマ患者の単一遺伝子変異のみを調べた。 我々は,スライドレベルラベルのみを必要とするマルチインテンス学習手法を活用し,分類の重要度の高い領域を注目するアテンション機構を使用する。 さらに, 病理特異的自己監督モデルでは, 病理診断モデルと比較して, 病理組織像を高あるいは低免疫サブグループに分類するための平均AUC0.76を達成できた。 我々は、この方法によって、より重要なバイオマーカーを見つけることができ、さらに高価な遺伝子検査を行う必要なしに、腫瘍の免疫環境を推測し、患者を階層化するためのツールになり得ると予測している。

Determining early-stage prognostic markers and stratifying patients for effective treatment are two key challenges for improving outcomes for melanoma patients. Previous studies have used tumour transcriptome data to stratify patients into immune subgroups, which were associated with differential melanoma specific survival and potential treatment strategies. However, acquiring transcriptome data is a time-consuming and costly process. Moreover, it is not routinely used in the current clinical workflow. Here we attempt to overcome this by developing deep learning models to classify gigapixel H&E stained pathology slides, which are well established in clinical workflows, into these immune subgroups. Previous subtyping approaches have employed supervised learning which requires fully annotated data, or have only examined single genetic mutations in melanoma patients. We leverage a multiple-instance learning approach, which only requires slide-level labels and uses an attention mechanism to highlight regions of high importance to the classification. Moreover, we show that pathology-specific self-supervised models generate better representations compared to pathology-agnostic models for improving our model performance, achieving a mean AUC of 0.76 for classifying histopathology images as high or low immune subgroups. We anticipate that this method may allow us to find new biomarkers of high importance and could act as a tool for clinicians to infer the immune landscape of tumours and stratify patients, without needing to carry out additional expensive genetic tests.
翻訳日:2022-02-24 20:13:12 公開日:2022-02-23
# (参考訳) Shisha: 異種アーキテクチャ上でのCNNパイプラインのオンラインスケジューリング [全文訳有]

Shisha: Online scheduling of CNN pipelines on heterogeneous architectures ( http://arxiv.org/abs/2202.11575v1 )

ライセンス: CC BY-SA 4.0
Pirah Noor Soomro, Mustafa Abduljabbar, Jeronimo Castrillon, Miquel Peric\`as(参考訳) チップレットは現代のチップ設計において一般的な手法となっている。 チップレットは収率を改善し、コア、メモリサブシステム、インターコネクトのレベルでの不均一性を可能にする。 畳み込みニューラルネットワーク(CNN)は、ますます多くの重みがあるため、高い計算量、帯域幅、メモリ容量を必要とする。 したがってchipletベースのアーキテクチャを利用するには、cnnはスケジューリングとコンピューティングリソース間のワークロード分散の観点から最適化されなければならない。 チップレットアーキテクチャ上で並列CNNパイプラインを生成しスケジュールするオンラインアプローチであるShishaを提案する。 Shishaは計算性能とメモリ帯域幅の不均一性を目標とし、高速なオンライン探索技術を通じてパイプラインスケジュールを調整する。 シシャをシミュレートアニーリング,ヒルクライミング,パイプサーチと比較した。 平均収束時間は、他の探索アルゴリズムと比べてシシャの約35倍改善される。 迅速な探索にもかかわらず、シシャの解法は他のヒューリスティックな探索アルゴリズムよりも優れていることが多い。

Chiplets have become a common methodology in modern chip design. Chiplets improve yield and enable heterogeneity at the level of cores, memory subsystem and the interconnect. Convolutional Neural Networks (CNNs) have high computational, bandwidth and memory capacity requirements owing to the increasingly large amount of weights. Thus to exploit chiplet-based architectures, CNNs must be optimized in terms of scheduling and workload distribution among computing resources. We propose Shisha, an online approach to generate and schedule parallel CNN pipelines on chiplet architectures. Shisha targets heterogeneity in compute performance and memory bandwidth and tunes the pipeline schedule through a fast online exploration technique. We compare Shisha with Simulated Annealing, Hill Climbing and Pipe-Search. On average, the convergence time is improved by ~35x in Shisha compared to other exploration algorithms. Despite the quick exploration, Shisha's solution is often better than that of other heuristic exploration algorithms.
翻訳日:2022-02-24 19:49:16 公開日:2022-02-23
# (参考訳) シグニチャド比推定を用いた高価な時系列シミュレータの償却確率フリー推論 [全文訳有]

Amortised Likelihood-free Inference for Expensive Time-series Simulators with Signatured Ratio Estimation ( http://arxiv.org/abs/2202.11585v1 )

ライセンス: CC BY 4.0
Joel Dyer, Patrick Cannon, Sebastian M Schmon(参考訳) 自然科学や社会科学における複雑な力学のシミュレーションモデルでは、一般に従順な確率関数が欠如しており、従来の帰納法に基づく統計推論は不可能である。 機械学習の最近の進歩は、二項分類器に基づく確率比トリックを用いて、さもなければ難解な確率関数を推定する新しいアルゴリズムを導入している。 したがって、適切な確率的分類器を構築できる限り効率的な近似が得られる。 最近導入されたシグネチャカーネルに基づくパスシグネチャを用いたシーケンシャルデータのためのカーネル分類器を提案する。 サンプル数が低い重要な場合においても,シグネチャの代表パワーは高い性能の分類器が得られることを示す。 このようなシナリオでは、我々のアプローチは、一般的な後進推論タスクで高度なニューラルネットワークを上回ることができる。

Simulation models of complex dynamics in the natural and social sciences commonly lack a tractable likelihood function, rendering traditional likelihood-based statistical inference impossible. Recent advances in machine learning have introduced novel algorithms for estimating otherwise intractable likelihood functions using a likelihood ratio trick based on binary classifiers. Consequently, efficient likelihood approximations can be obtained whenever good probabilistic classifiers can be constructed. We propose a kernel classifier for sequential data using path signatures based on the recently introduced signature kernel. We demonstrate that the representative power of signatures yields a highly performant classifier, even in the crucially important case where sample numbers are low. In such scenarios, our approach can outperform sophisticated neural networks for common posterior inference tasks.
翻訳日:2022-02-24 19:37:48 公開日:2022-02-23
# (参考訳) ロバスト学習に必要なデータはいくつあるか? [全文訳有]

How Many Data Are Needed for Robust Learning? ( http://arxiv.org/abs/2202.11592v1 )

ライセンス: CC BY 4.0
Hongyang Zhang, Yihan Wu, Heng Huang(参考訳) その結果,ロバスト補間問題のサンプル複雑性は入力次元において指数関数的であり,データが単位球内にある場合の相転移現象を発見できることがわかった。 ロバスト補間(Robust interpolation)とは、Lipschitz関数によって$\R^d$のノイズの多いトレーニングデータを補間する問題を指す。 この問題は、共変数が等値分布から引き出されるときによく理解されているが、ジェネリック分布や最悪の場合分布の下での性能についてはほとんど不明である。 結果は2倍になります。 我々は任意のデータ分布に対する補間関数の$\Omega(n^{1/d})$に対して、厳密で普遍的なリプシッツ性を提供する。 我々の結果は、$n=\exp(\omega(d))$ のとき、オーバーパラメトリゼーションシナリオにおける $\mathcal{O}(1)$-Lipschitz 関数の存在を証明している。 2小データはロバスト性を傷つける:$n=\exp(\Omega(d))$は、任意の$\mathcal{O}(1)$-Lipschitz学習アルゴリズムによって、特定の分布の下で良い集団誤差を得るために必要である。 おそらく、我々の結果は、ビッグデータの呪いとロバスト性に対する次元の祝福に光を当て、$n=\exp(\Theta(d))$で相転移の興味深い現象を発見した。

We show that the sample complexity of robust interpolation problem could be exponential in the input dimensionality and discover a phase transition phenomenon when the data are in a unit ball. Robust interpolation refers to the problem of interpolating $n$ noisy training data in $\R^d$ by a Lipschitz function. Although this problem has been well understood when the covariates are drawn from an isoperimetry distribution, much remains unknown concerning its performance under generic or even the worst-case distributions. Our results are two-fold: 1) too many data hurt robustness; we provide a tight and universal Lipschitzness lower bound $\Omega(n^{1/d})$ of the interpolating function for arbitrary data distributions. Our result disproves potential existence of an $\mathcal{O}(1)$-Lipschitz function in the overparametrization scenario when $n=\exp(\omega(d))$. 2) Small data hurt robustness: $n=\exp(\Omega(d))$ is necessary for obtaining a good population error under certain distributions by any $\mathcal{O}(1)$-Lipschitz learning algorithm. Perhaps surprisingly, our results shed light on the curse of big data and the blessing of dimensionality for robustness, and discover an intriguing phenomenon of phase transition at $n=\exp(\Theta(d))$.
翻訳日:2022-02-24 19:17:43 公開日:2022-02-23
# (参考訳) ディープベイズICP共分散推定 [全文訳有]

Deep Bayesian ICP Covariance Estimation ( http://arxiv.org/abs/2202.11607v1 )

ライセンス: CC BY 4.0
Andrea De Maio and Simon Lacroix(参考訳) 反復クローズトポイント(ICP)点クラウド登録アルゴリズムの共分散推定は,状態推定とセンサ融合に不可欠である。 我々は、ICPの主なエラー源は、センサノイズからシーン形状に至るまで、入力データそのものにあると主張している。 近年の深層学習によるポイントクラウドの活用により,ICPのエラーモデルを学ぶためのデータ駆動型アプローチを提案する。 変分ベイズ法を用いて,データ依存型ヘテロシデスティック・アレエータ的不確かさと認識的不確かさをモデル化する共分散を推定する。 システム評価は、異なるデータセット上のLiDARオドメトリー上で行われ、技術状況と比較して良い結果が浮かび上がる。

Covariance estimation for the Iterative Closest Point (ICP) point cloud registration algorithm is essential for state estimation and sensor fusion purposes. We argue that a major source of error for ICP is in the input data itself, from the sensor noise to the scene geometry. Benefiting from recent developments in deep learning for point clouds, we propose a data-driven approach to learn an error model for ICP. We estimate covariances modeling data-dependent heteroscedastic aleatoric uncertainty, and epistemic uncertainty using a variational Bayesian approach. The system evaluation is performed on LiDAR odometry on different datasets, highlighting good results in comparison to the state of the art.
翻訳日:2022-02-24 18:47:03 公開日:2022-02-23
# (参考訳) 可溶性影響図における情報価値の完全な基準 [全文訳有]

A Complete Criterion for Value of Information in Soluble Influence Diagrams ( http://arxiv.org/abs/2202.11629v1 )

ライセンス: CC BY 4.0
Chris van Merwijk, Ryan Carey and Tom Everitt(参考訳) 影響図は、AIシステムの安全性と公正性を分析するために最近使用されている。 この分析の鍵となる構成要素は、情報の価値(VoI)のグラフィカルな基準である。 本稿では,VoIの複数の決定を伴う影響図における最初の完全なグラフィカルな基準を確立する。 ID準同型は影響図の構造保存変換であり、システムツリーは影響図における情報や制御のフローを捉える経路の集合である。

Influence diagrams have recently been used to analyse the safety and fairness properties of AI systems. A key building block for this analysis is a graphical criterion for value of information (VoI). This paper establishes the first complete graphical criterion for VoI in influence diagrams with multiple decisions. Along the way, we establish two important techniques for proving properties of multi-decision influence diagrams: ID homomorphisms are structure-preserving transformations of influence diagrams, while a Tree of Systems is collection of paths that captures how information and control can flow in an influence diagram.
翻訳日:2022-02-24 18:32:32 公開日:2022-02-23
# (参考訳) TEEに基づく分散型レコメンデーションシステム:生データ共有の償還 [全文訳有]

TEE-based decentralized recommender systems: The raw data sharing redemption ( http://arxiv.org/abs/2202.11655v1 )

ライセンス: CC BY 4.0
Akash Dhasade, Nevena Dresevic, Anne-Marie Kermarrec, Rafael Pires(参考訳) 今日の多くのアプリケーションではレコメンダが中心です。 協調フィルタリング(CF)に基づくような最も効果的なレコメンデーションスキームは、ユーザプロファイル間の類似性を利用してレコメンデーションを作成するが、潜在的にプライベートデータを公開する。 連合学習と分散学習システムは、データをプライバシを保護するためにユーザのマシンに留めておくことで、この問題に対処している。 しかし、ネットワーク全体でモデルパラメータを共有することは、それでもプライバシー侵害を引き起こす可能性がある。 本稿では,最初のエンクレーブ型分散CFレコメンデータであるREXを紹介する。 REXはIntelソフトウェアガード拡張(SGX)のような信頼された実行環境(TEE)を利用して、プライバシを保持しながら収束を改善する。 まず、REXは生のデータ共有を可能にし、最終的に収束をスピードアップし、ネットワークの負荷を減らす。 第二に、REXはプライバシーを完全に保存する。 我々は、ディープニューラルネットワーク(DNN)とマトリクス因数分解(MF)レコメンダの両方における生データ共有の影響を分析し、信頼された環境の利点をREXの完全な実装で示す。 実験の結果、生のデータ共有により、rexはトレーニング時間を18.3倍削減し、パラメータのみを共有する標準分散アプローチに比べてネットワーク負荷を2桁削減すると同時に、極めて少ないオーバヘッドで信頼性の高いハードウェアエンクレーブを活用することで、プライバシを完全に保護できることがわかった。

Recommenders are central in many applications today. The most effective recommendation schemes, such as those based on collaborative filtering (CF), exploit similarities between user profiles to make recommendations, but potentially expose private data. Federated learning and decentralized learning systems address this by letting the data stay on user's machines to preserve privacy: each user performs the training on local data and only the model parameters are shared. However, sharing the model parameters across the network may still yield privacy breaches. In this paper, we present REX, the first enclave-based decentralized CF recommender. REX exploits Trusted execution environments (TEE), such as Intel software guard extensions (SGX), that provide shielded environments within the processor to improve convergence while preserving privacy. Firstly, REX enables raw data sharing, which ultimately speeds up convergence and reduces the network load. Secondly, REX fully preserves privacy. We analyze the impact of raw data sharing in both deep neural network (DNN) and matrix factorization (MF) recommenders and showcase the benefits of trusted environments in a full-fledged implementation of REX. Our experimental results demonstrate that through raw data sharing, REX significantly decreases the training time by 18.3x and the network load by 2 orders of magnitude over standard decentralized approaches that share only parameters, while fully protecting privacy by leveraging trustworthy hardware enclaves with very little overhead.
翻訳日:2022-02-24 17:34:48 公開日:2022-02-23
# (参考訳) アクティブフロー制御のための機械学習手法の比較解析

Comparative analysis of machine learning methods for active flow control ( http://arxiv.org/abs/2202.11664v1 )

ライセンス: CC BY 4.0
Fabio Pino, Lorenzo Schena, Jean Rabault, Alexander Kuhnle and Miguel .A. Mendez(参考訳) 遺伝的プログラミング(gp)や強化学習(rl)といった機械学習フレームワークがフロー制御で人気を集めている。 本研究は,bayesian optimization (bo) やlipschitz global optimization (lipo) といった大域的最適化手法に対して,最も代表的なアルゴリズムのいくつかをベンチマークし,両者の比較分析を行う。 まず, 最適制御理論とモデルフリー機械学習法を結びつけ, フロー制御問題の一般的な枠組みについて検討する。 そして、3つのテストケースで制御アルゴリズムをテストする。 1) 周波数クロストークを特徴とする非線形力学系の安定化, (2) バーガース流からのウェーブキャンセリング, (3) シリンダ後流における抗力低減などである。 これらの問題に対するコントロールは,近年の文献において,いずれかの手法で取り組まれているが,本論文では,探索と搾取の違いと,制御法定義における「モデル能力」と「要求複雑性」とのバランスを包括的に比較する。 このような比較が様々な手法のハイブリダイゼーションへの道を開くと信じており、フロー制御問題の文献における今後の発展を展望する。

Machine learning frameworks such as Genetic Programming (GP) and Reinforcement Learning (RL) are gaining popularity in flow control. This work presents a comparative analysis of the two, bench-marking some of their most representative algorithms against global optimization techniques such as Bayesian Optimization (BO) and Lipschitz global optimization (LIPO). First, we review the general framework of the flow control problem, linking optimal control theory with model-free machine learning methods. Then, we test the control algorithms on three test cases. These are (1) the stabilization of a nonlinear dynamical system featuring frequency cross-talk, (2) the wave cancellation from a Burgers' flow and (3) the drag reduction in a cylinder wake flow. Although the control of these problems has been tackled in the recent literature with one method or the other, we present a comprehensive comparison to illustrate their differences in exploration versus exploitation and their balance between `model capacity' in the control law definition versus `required complexity'. We believe that such a comparison opens the path towards hybridization of the various methods, and we offer some perspective on their future development in the literature of flow control problems.
翻訳日:2022-02-24 17:06:13 公開日:2022-02-23
# (参考訳) シャープな次元化とクラスタリングによる人間の動き検出 [全文訳有]

Human Motion Detection Using Sharpened Dimensionality Reduction and Clustering ( http://arxiv.org/abs/2202.11667v1 )

ライセンス: CC BY 4.0
Jeewon Heo, Youngjoo Kim and Jos B.T.M. Roerdink(参考訳) 多次元射影技術に属するシャープ化次元還元(sdr)は,近年,高次元データの探索的・視覚的解析における課題に取り組むために導入されている。 SDRは、人間の活動感覚データや天文学的データセットなど、さまざまな現実世界のデータセットに適用されている。 しかし、生成したプロジェクションから手動でサンプルをラベル付けすることは高価である。 本稿では,k平均,階層クラスタリング,雑音を伴うアプリケーションの密度ベース空間クラスタリング(dbscan),スペクトルクラスタリングなどのクラスタリング手法を用いて,高次元データの2次元投影を容易にラベル付けする手法を提案する。 スマートフォンの加速度計やジャイロスコープ記録から抽出した2つの公開アクティビティデータセットを含む,合成および実世界のデータセット上で,sdrのパイプラインとクラスタリング手法をテストした。 SDRの視覚的クラスタ分離を定性的かつ定量的に評価するためにクラスタリングを適用した。 我々は、クラスタリングSDRの結果は、クラスタリングプレーンDRよりも優れたラベル付け結果をもたらすと結論付け、k平均はクラスタリング精度、使いやすさ、計算スケーラビリティの観点からSDRの推奨クラスタリング方法である。

Sharpened dimensionality reduction (SDR), which belongs to the class of multidimensional projection techniques, has recently been introduced to tackle the challenges in the exploratory and visual analysis of high-dimensional data. SDR has been applied to various real-world datasets, such as human activity sensory data and astronomical datasets. However, manually labeling the samples from the generated projection are expensive. To address this problem, we propose here to use clustering methods such as k-means, Hierarchical Clustering, Density-Based Spatial Clustering of Applications with Noise (DBSCAN), and Spectral Clustering to easily label the 2D projections of high-dimensional data. We test our pipeline of SDR and the clustering methods on a range of synthetic and real-world datasets, including two different public human activity datasets extracted from smartphone accelerometer or gyroscope recordings of various movements. We apply clustering to assess the visual cluster separation of SDR, both qualitatively and quantitatively. We conclude that clustering SDR results yields better labeling results than clustering plain DR, and that k-means is the recommended clustering method for SDR in terms of clustering accuracy, ease-of-use, and computational scalability.
翻訳日:2022-02-24 17:03:41 公開日:2022-02-23
# (参考訳) ランダムシードフィールドの超分解能GAN [全文訳有]

Super-resolution GANs of randomly-seeded fields ( http://arxiv.org/abs/2202.11701v1 )

ライセンス: CC BY 4.0
Alejandro G\"uemes, Carlos Sanmiguel Vila, Stefano Discetti(参考訳) スパース測定によるフィールド量の再構成は、幅広い応用において生じる問題である。 このタスクは、ポイントスパース測定とフィールド量のマッピングを教師なしの方法で行う場合、特に困難である。 移動センサーおよび/またはランダムなオンオフ状態に対してさらに複雑さが加えられる。 このような条件下では、最も簡単な解決策は、散らばったデータを正規のグリッドに補間することである。 しかし、このアプローチで達成された空間分解能は、スパース測定値の平均間隔によって最終的に制限される。 そこで本研究では,ランダムスパースセンサからフィールド量を推定する超高分解能生成対向ネットワーク(GAN)フレームワークを提案する。 このアルゴリズムはランダムサンプリングを利用して、高解像度の基底分布の不完全ビューを提供する。 これをRandomly-SEEDed Super- resolution GAN(RaSeedGAN)と呼ぶ。 提案手法は, 流体流動シミュレーション, 海面温度分布測定, およびゼロ圧力勾配乱流境界層の粒子画像速度測定データの合成データベースを用いて実験を行った。 その結果, 高いギャップ率 (>50\%) や騒音条件を有する場合においても, 提案手法の優れた性能を示すことができた。 我々の知る限り、これはトレーニング中のフルフィールド高分解能表現やトレーニング例のライブラリを必要としないランダムシードフィールドからフルフィールド推定のための最初のスーパーレゾリューションgansアルゴリズムである。

Reconstruction of field quantities from sparse measurements is a problem arising in a broad spectrum of applications. This task is particularly challenging when mapping between point sparse measurements and field quantities shall be performed in an unsupervised manner. Further complexity is added for moving sensors and/or random on-off status. Under such conditions, the most straightforward solution is to interpolate the scattered data onto a regular grid. However, the spatial resolution achieved with this approach is ultimately limited by the mean spacing between the sparse measurements. In this work, we propose a novel super-resolution generative adversarial network (GAN) framework to estimate field quantities from random sparse sensors without needing any full-resolution field for training. The algorithm exploits random sampling to provide incomplete views of the high-resolution underlying distributions. It is hereby referred to as RAndomly-SEEDed super-resolution GAN (RaSeedGAN). The proposed technique is tested on synthetic databases of fluid flow simulations, ocean surface temperature distributions measurements, and particle image velocimetry data of a zero-pressure-gradie nt turbulent boundary layer. The results show an excellent performance of the proposed methodology even in cases with a high level of gappyness (>50\%) or noise conditions. To our knowledge, this is the first super-resolution GANs algorithm for full-field estimation from randomly-seeded fields with no need of a full-field high-resolution representation during training nor of a library of training examples.
翻訳日:2022-02-24 16:56:16 公開日:2022-02-23
# ガウス過程に基づく安全臨界資源制約システム制御のためのネットワークオンライン学習

Networked Online Learning for Control of Safety-Critical Resource-Constrained Systems based on Gaussian Processes ( http://arxiv.org/abs/2202.11491v1 )

ライセンス: Link先を確認
Armin Lederer, Mingmin Zhang, Samuel Tesfazgi, Sandra Hirche(参考訳) 未知の環境で稼働する安全クリティカルな技術システムは、その行動に迅速に適応する能力を必要としており、操作中に生成されたデータストリームからモデルをオンラインに推測することで制御できる。 gaussian process-based learningは、境界付き予測エラーを確実にするため、特に安全クリティカルなアプリケーションに適している。 オンライン推論には計算効率のよい近似が存在するが、これらの手法は予測誤差の保証がなく、高いメモリ要件を有しており、厳密なメモリ制約を持つ安全クリティカルシステムには適用できない。 本研究では,クラウド上でのリモートデータ管理による限られたローカルリソースの問題に対処する,ガウシアンプロセス回帰に基づく新しいネットワーク型オンライン学習手法を提案する。 提案手法は,高い確率で有界追跡誤差を保証し,特定の制御性能を達成するために最も関連性の高いデータを特定する。 さらに,送信チャネルの帯域幅制限と遅延を考慮した,ローカルシステムとクラウド間の効率的なデータ伝送方式を提案する。 提案手法の有効性をシミュレーションにより検証した。

Safety-critical technical systems operating in unknown environments require the ability to quickly adapt their behavior, which can be achieved in control by inferring a model online from the data stream generated during operation. Gaussian process-based learning is particularly well suited for safety-critical applications as it ensures bounded prediction errors. While there exist computationally efficient approximations for online inference, these approaches lack guarantees for the prediction error and have high memory requirements, and are therefore not applicable to safety-critical systems with tight memory constraints. In this work, we propose a novel networked online learning approach based on Gaussian process regression, which addresses the issue of limited local resources by employing remote data management in the cloud. Our approach formally guarantees a bounded tracking error with high probability, which is exploited to identify the most relevant data to achieve a certain control performance. We further propose an effective data transmission scheme between the local system and the cloud taking bandwidth limitations and time delay of the transmission channel into account. The effectiveness of the proposed method is successfully demonstrated in a simulation.
翻訳日:2022-02-24 16:39:33 公開日:2022-02-23
# 効率的なマルチモーダル後部分布評価のための周期的ベイズモンテカルロ

Cyclical Variational Bayes Monte Carlo for Efficient Multi-Modal Posterior Distributions Evaluation ( http://arxiv.org/abs/2202.11645v1 )

ライセンス: Link先を確認
Felipe Igea, Alice Cicirello(参考訳) 統計モデル更新は、観測可能な量の一連の測定が与えられたとき、未知の潜在パラメータの不確かさを計算するために工学において頻繁に用いられる。 変分推論は、機械学習コミュニティが最適化アプローチを通じて後方近似を推定するために開発したサンプリング手法の代替手法である。 本稿では, 変分ベイズ型モンテカルロ法(vbmc法)について, コストのかかるモデルを含む工学における統計モデル更新問題に対処する目的で検討する。 この方法は、アクティブサンプリングベイズ二次数とガウス過程に基づく変分推論を組み合わせることで、費用のかかるモデルの実行量が少ないパラメータの後方分布を非パラメトリックに推定する。 VBMCはモデル選択にも使用することができ、モデルのエビデンスを下限に見積もることができる。 本稿では,周期的アニーリングスケジュールをアルゴリズムに導入することにより,VBMCアルゴリズムの変種を開発する。 提案したサイクリックVBMCアルゴリズムは,複数周期の探索および利用フェーズを持つことで,マルチモーダル後部を効果的に扱うことができる。 標準的なVBMCアルゴリズム、モノトニックなVBMC、サイクリックなVBMC、トランジショナルなマルコフ連鎖モンテカルロ(TEMCMC)を比較するために4つの数値例が用いられる。 以上の結果から, 提案手法は, TEMCMCと比較して, モデル実行回数を極めて少なくして, 精度の高い結果が得られることがわかった。 潜在的なマルチモーダル問題の存在下では、提案する循環型vbmcアルゴリズムは、結果の後方の精度の点で他の全てのアプローチよりも優れている。

Statistical model updating is frequently used in engineering to calculate the uncertainty of some unknown latent parameters when a set of measurements on observable quantities is given. Variational inference is an alternative approach to sampling methods that has been developed by the machine learning community to estimate posterior approximations through an optimization approach. In this paper, the Variational Bayesian Monte Carlo (VBMC) method is investigated with the purpose of dealing with statistical model updating problems in engineering involving expensive-to-run models. This method combines the active-sampling Bayesian quadrature with a Gaussian-process based variational inference to yield a non-parametric estimation of the posterior distribution of the identified parameters involving few runs of the expensive-to-run model. VBMC can also be used for model selection as it produces an estimation of the model's evidence lower bound. In this paper, a variant of the VBMC algorithm is developed through the introduction of a cyclical annealing schedule into the algorithm. The proposed cyclical VBMC algorithm allows to deal effectively with multi-modal posteriors by having multiple cycles of exploration and exploitation phases. Four numerical examples are used to compare the standard VBMC algorithm, the monotonic VBMC, the cyclical VBMC and the Transitional Ensemble Markov Chain Monte Carlo (TEMCMC). Overall, it is found that the proposed cyclical VBMC approach yields accurate results with a very reduced number of model runs compared to the state of the art sampling technique TEMCMC. In the presence of potential multi-modal problems, the proposed cyclical VBMC algorithm outperforms all the other approaches in terms of accuracy of the resulting posterior.
翻訳日:2022-02-24 16:39:17 公開日:2022-02-23
# (参考訳) ワイド平均ベイズ型ニューラルネットワークはデータを無視する

Wide Mean-Field Bayesian Neural Networks Ignore the Data ( http://arxiv.org/abs/2202.11670v1 )

ライセンス: CC BY 4.0
Beau Coker, Wessel P. Bruinsma, David R. Burt, Weiwei Pan, Finale Doshi-Velez(参考訳) ベイジアンニューラルネットワーク(BNN)は、ディープラーニングの表現力とベイジアン形式主義の利点を組み合わせる。 近年、広義の深いBNNの分析は、その先行と後部に関する理論的洞察を与えている。 しかし, 近似推定では後肢に類似した所見は認められていない。 本研究では,ネットワーク幅が大きく,アクティベーション関数が奇異な場合に,平均場変動推定が完全にデータをモデル化できないことを示す。 具体的には, 任意のアクティベーション関数を持つ完全連結BNNに対して, 最適平均場変動後予測分布(関数空間)は, 幅が無限大になるにつれて, 先行予測分布に収束することを示す。 我々はこの結果の側面を他の可能性に一般化する。 我々の理論的結果は、以前にBNNで観察された不適合な振る舞いを示唆している。 我々の収束境界は漸近的ではなく、分析の定数は計算できるが、現時点では標準の訓練体制に適用するにはゆるい。 最後に, 有効化関数が奇数でない場合, 最適近似後段は前置値に従わない傾向にあり, 提案文は任意に一般化できないことを示した。

Bayesian neural networks (BNNs) combine the expressive power of deep learning with the advantages of Bayesian formalism. In recent years, the analysis of wide, deep BNNs has provided theoretical insight into their priors and posteriors. However, we have no analogous insight into their posteriors under approximate inference. In this work, we show that mean-field variational inference entirely fails to model the data when the network width is large and the activation function is odd. Specifically, for fully-connected BNNs with odd activation functions and a homoscedastic Gaussian likelihood, we show that the optimal mean-field variational posterior predictive (i.e., function space) distribution converges to the prior predictive distribution as the width tends to infinity. We generalize aspects of this result to other likelihoods. Our theoretical results are suggestive of underfitting behavior previously observered in BNNs. While our convergence bounds are non-asymptotic and constants in our analysis can be computed, they are currently too loose to be applicable in standard training regimes. Finally, we show that the optimal approximate posterior need not tend to the prior if the activation function is not odd, showing that our statements cannot be generalized arbitrarily.
翻訳日:2022-02-24 16:37:27 公開日:2022-02-23
# 把握における実時間液量推定のための視覚触覚センシング

Visual-tactile sensing for Real-time liquid Volume Estimation in Grasping ( http://arxiv.org/abs/2202.11503v1 )

ライセンス: Link先を確認
Fan Zhu, Ruixing Jia, Lei Yang, Youcan Yan, Zheng Wang, Jia Pan, Wenping Wang(参考訳) 本稿では, 変形性容器内の液体をプロバイオセプティブな方法でリアルタイムに推定する深部粘性触覚モデルを提案する。RGBカメラからの生の視覚入力と, 特定の触覚センサからの触覚刺激を, センサキャリブレーションを伴わずに, ロボットシステムは, 推定モデルに基づいて, リアルタイムに制御・調整されている。 私たちの作品の主な貢献とノベルティは以下のとおりである。 1)マルチモーダル畳み込みネットワークを用いたエンドツーエンド予測モデルを開発し,実験検証において約2mlの誤差で高精度な液体体積推定法を検討する。 2)分類タスクと回帰タスクの両方の損失を包括的に考慮し,収集したデータと実際のロボットプラットフォームにおける各バリエーションの性能を比較評価するマルチタスク学習アーキテクチャを提案する。 3) 変形可能な容器に連続的に流入する液の要求量を正確に制御するために, 摂動ロボットシステムを利用する。 4) リアルタイム液量予測により, 把持計画を適応的に調整し, より安定した把持・操作を実現する。

We propose a deep visuo-tactile model for realtime estimation of the liquid inside a deformable container in a proprioceptive way.We fuse two sensory modalities, i.e., the raw visual inputs from the RGB camera and the tactile cues from our specific tactile sensor without any extra sensor calibrations.The robotic system is well controlled and adjusted based on the estimation model in real time. The main contributions and novelties of our work are listed as follows: 1) Explore a proprioceptive way for liquid volume estimation by developing an end-to-end predictive model with multi-modal convolutional networks, which achieve a high precision with an error of around 2 ml in the experimental validation. 2) Propose a multi-task learning architecture which comprehensively considers the losses from both classification and regression tasks, and comparatively evaluate the performance of each variant on the collected data and actual robotic platform. 3) Utilize the proprioceptive robotic system to accurately serve and control the requested volume of liquid, which is continuously flowing into a deformable container in real time. 4) Adaptively adjust the grasping plan to achieve more stable grasping and manipulation according to the real-time liquid volume prediction.
翻訳日:2022-02-24 16:35:26 公開日:2022-02-23
# ReverseORC: OR制約付きResizable User Interface Layoutのリバースエンジニアリング

ReverseORC: Reverse Engineering of Resizable User Interface Layouts with OR-Constraints ( http://arxiv.org/abs/2202.11523v1 )

ライセンス: Link先を確認
Yue Jiang, Wolfgang Stuerzlinger, Christof Lutteroth(参考訳) ユーザインターフェース(UI)のリバースエンジニアリング(RE)は、ソフトウェア進化において重要な役割を果たす。 しかし、uiテクノロジの多様性とuiのリサイズの必要性は、これを難しくしている。 本稿では,ReverseORCを提案する。ReverseORCは,多種多様なレイアウトタイプとその動的リサイズ動作を,実装と独立に検出し,OR制約を用いて特定する。 以前のREアプローチとは異なり、ReverseORCはUIを異なるサイズでサンプリングし、それらの違いを分析することで、柔軟なレイアウト制約仕様を推論する。 複雑な動的レイアウトの振る舞いを持つ標準ではないレイアウトマネージャを再現する仕様を作成することができる。 ReverseORCは、GUIやWebなど、非常に異なるレイアウトアプローチで、さまざまなプラットフォームで動作します。 さらに、レガシーUIの問題の検出と修正、レイアウトの振る舞いの強化によるUIの拡張、フレキシブルなUIレイアウトの作成をサポートするためにも使用できる。

Reverse engineering (RE) of user interfaces (UIs) plays an important role in software evolution. However, the large diversity of UI technologies and the need for UIs to be resizable make this challenging. We propose ReverseORC, a novel RE approach able to discover diverse layout types and their dynamic resizing behaviours independently of their implementation, and to specify them by using OR constraints. Unlike previous RE approaches, ReverseORC infers flexible layout constraint specifications by sampling UIs at different sizes and analyzing the differences between them. It can create specifications that replicate even some non-standard layout managers with complex dynamic layout behaviours. We demonstrate that ReverseORC works across different platforms with very different layout approaches, e.g., for GUIs as well as for the Web. Furthermore, it can be used to detect and fix problems in legacy UIs, extend UIs with enhanced layout behaviours, and support the creation of flexible UI layouts.
翻訳日:2022-02-24 16:35:03 公開日:2022-02-23
# 効率的なパラメータ再構成のためのベイズ目標ベクトル最適化

Bayesian Target-Vector Optimization for Efficient Parameter Reconstruction ( http://arxiv.org/abs/2202.11559v1 )

ライセンス: Link先を確認
Matthias Plock, Anna Andrle, Sven Burger, Philipp-Immanuel Schneider(参考訳) パラメータ再構成は気象学では不可欠である。 ここでは、測定プロセスのパラメータ化モデルに適合させることで、$K$の実験的な測定を説明したい。 モデルパラメータは、最小二乗法、すなわち、$k$モデルの予測と$k$の実験的な観測の間の二乗残差の和を最小化することによって、定期的に決定される。 モデル関数は、しばしば数値シミュレーションを計算的に要求する。 ベイズ最適化法は、高価なモデル関数の最小化に特に適している。 しかし、revenberg-marquardtアルゴリズムのような最小二乗法とは対照的に、これらは$\chi^2$の値しか考慮せず、$k$の個々のモデル出力を無視する。 我々は,モデル関数のすべての$k$寄与を考慮したベイズ目標ベクトル最適化スキームを導入し,数百の観測結果に基づくパラメータ再構成問題に特に適している。 その性能は、光学メソロジー再構成問題と2つの合成最小二乗問題に対する確立された方法と比較される。 提案手法は確立した最適化手法を上回っている。 また、訓練された代理モデル上でマルコフ連鎖モンテカルロサンプリングを用いて実際のモデル関数の観測をほとんど行わず、正確な不確実性推定を行うこともできる。

Parameter reconstructions are indispensable in metrology. Here, on wants to explain $K$ experimental measurements by fitting to them a parameterized model of the measurement process. The model parameters are regularly determined by least-square methods, i.e., by minimizing the sum of the squared residuals between the $K$ model predictions and the $K$ experimental observations, $\chi^2$. The model functions often involve computationally demanding numerical simulations. Bayesian optimization methods are specifically suited for minimizing expensive model functions. However, in contrast to least-square methods such as the Levenberg-Marquardt algorithm, they only take the value of $\chi^2$ into account, and neglect the $K$ individual model outputs. We introduce a Bayesian target-vector optimization scheme that considers all $K$ contributions of the model function and that is specifically suited for parameter reconstruction problems which are often based on hundreds of observations. Its performance is compared to established methods for an optical metrology reconstruction problem and two synthetic least-squares problems. The proposed method outperforms established optimization methods. It also enables to determine accurate uncertainty estimates with very few observations of the actual model function by using Markov chain Monte Carlo sampling on a trained surrogate model.
翻訳日:2022-02-24 16:34:46 公開日:2022-02-23
# Submodlib: サブモジュール最適化ライブラリ

Submodlib: A Submodular Optimization Library ( http://arxiv.org/abs/2202.10680v2 )

ライセンス: Link先を確認
Vishal Kaushal, Ganesh Ramakrishnan, Rishabh Iyer(参考訳) 部分モジュラ関数は、代表性、多様性、範囲などの概念を自然にモデル化する特別な集合関数のクラスであり、計算学的に非常に効率的であることが示されている。 過去の多くの研究は、様々な文脈で最適な部分集合を見つけるために部分モジュラー最適化を適用してきた。 例えば、効率的な人的消費のためのデータ要約、モデル開発時間(トレーニング、ハイパーパラメータチューニング)を減らすためのトレーニングデータの効果的な小さなサブセットの発見、ラベルなしデータの効果的なサブセットの発見、ラベル付けコストの削減などです。 最近の研究は部分モジュラー関数を利用して、ガイド付き部分集合選択とガイド付き要約の問題を解くのに非常に有用であることが判明した部分モジュラー情報測度を提案する。 本稿では,c++最適化エンジンを用いたサブモジュール最適化のための,オープンソースで使いやすい,効率的,スケーラブルなpythonライブラリであるsubmodlibを提案する。 submodlibは、要約、データサブセット選択、ハイパーパラメータチューニング、効率的なトレーニングなどの分野で応用されている。 リッチなAPIを通じて、使用方法に大きな柔軟性を提供します。 submodlibのソースはhttps://github.com/d ecile-team/submodlib にある。

Submodular functions are a special class of set functions which naturally model the notion of representativeness, diversity, coverage etc. and have been shown to be computationally very efficient. A lot of past work has applied submodular optimization to find optimal subsets in various contexts. Some examples include data summarization for efficient human consumption, finding effective smaller subsets of training data to reduce the model development time (training, hyper parameter tuning), finding effective subsets of unlabeled data to reduce the labeling costs, etc. A recent work has also leveraged submodular functions to propose submodular information measures which have been found to be very useful in solving the problems of guided subset selection and guided summarization. In this work, we present Submodlib which is an open-source, easy-to-use, efficient and scalable Python library for submodular optimization with a C++ optimization engine. Submodlib finds its application in summarization, data subset selection, hyper parameter tuning, efficient training and more. Through a rich API, it offers a great deal of flexibility in the way it can be used. Source of Submodlib is available at https://github.com/d ecile-team/submodlib .
翻訳日:2022-02-24 16:34:23 公開日:2022-02-23
# リガンドフォーマー:ロバスト解釈による複合特性予測のためのグラフニューラルネットワーク

Ligandformer: A Graph Neural Network for Predicting Compound Property with Robust Interpretation ( http://arxiv.org/abs/2202.10873v2 )

ライセンス: Link先を確認
Jinjiang Guo, Qi Liu, Han Guo, Xi Lu(参考訳) QSAR法のロバストで効率的な解釈は、主観的意見(化学または生物学の専門知識)によるAI予測の合理性を検証し、洗練された化学または生物学的プロセス機構を理解し、医薬品産業における構造最適化のためのヒューリスティックなアイデアを提供するのに非常に有用である。 この目的のために,多層自己アテンションに基づくグラフニューラルネットワークフレームワーク,すなわちLigandformerを構築し,解釈による複合特性の予測を行う。 Ligandformerは、異なるネットワークブロックからの複合構造に対する注意マップを統合する。 統合注意マップは、複合構造に対する機械の局所的関心を反映し、予測された複合特性とその構造との関係を示す。 この研究は主に3つの側面に貢献する。 1. リガンドフォーマーは, 深層学習法のブラックボックスを直接開き, 化学構造に関する局所的予測的根拠を提供する。 2)Ligandformerは様々な実験ラウンドで頑健な予測を行い,ディープラーニング手法のユビキタスな予測不安定性を克服する。 3. リガンドフォーマは、高い性能で異なる化学的、生物学的性質を予測するために一般化することができる。 さらに、Ligandformerは特定の特性スコアと可視的注意マップを同時に出力することができ、研究者が化学的または生物学的性質を調査し、構造を効率的に最適化するのを支援することができる。 本フレームワークは, 精度, 堅牢性, 一般化の点で性能が優れており, 複雑なシステム研究に応用できる。

Robust and efficient interpretation of QSAR methods is quite useful to validate AI prediction rationales with subjective opinion (chemist or biologist expertise), understand sophisticated chemical or biological process mechanisms, and provide heuristic ideas for structure optimization in pharmaceutical industry. For this purpose, we construct a multi-layer self-attention based Graph Neural Network framework, namely Ligandformer, for predicting compound property with interpretation. Ligandformer integrates attention maps on compound structure from different network blocks. The integrated attention map reflects the machine's local interest on compound structure, and indicates the relationship between predicted compound property and its structure. This work mainly contributes to three aspects: 1. Ligandformer directly opens the black-box of deep learning methods, providing local prediction rationales on chemical structures. 2. Ligandformer gives robust prediction in different experimental rounds, overcoming the ubiquitous prediction instability of deep learning methods. 3. Ligandformer can be generalized to predict different chemical or biological properties with high performance. Furthermore, Ligandformer can simultaneously output specific property score and visible attention map on structure, which can support researchers to investigate chemical or biological property and optimize structure efficiently. Our framework outperforms over counterparts in terms of accuracy, robustness and generalization, and can be applied in complex system study.
翻訳日:2022-02-24 16:34:03 公開日:2022-02-23
# 定数問題:完全有界ノルムを用いた微分プライベート連続観測のきめ細かい複雑さ

Constant matters: Fine-grained Complexity of Differentially Private Continual Observation Using Completely Bounded Norms ( http://arxiv.org/abs/2202.11205v1 )

ライセンス: Link先を確認
Monika Henzinger and Jalaj Upadhyay(参考訳) 連続観測モデルにおける平均化とカウントのための差分プライベートアルゴリズムに対するきめ細かい誤差境界について検討する。 これに対し、作用素代数から完全に有界なスペクトルノルム(cbノルム)を用いる。 行列 $W$ に対して、その cb ノルムは \[ \|{W}\|_{\mathsf{cb}} = \max_{Q} \left\{ \frac{\|{Q \bullet W}\||{Q}\|} \right\}, \] と定義される。 我々は、連続観察モデルの下で微分プライバシーで研究された2つの基本行列の cb ノルムを定めている: カウント行列 $M_{\mathsf{counting}}$ と平均行列 $M_{\mathsf{average}}$ である。 M_{\mathsf{counting}}$に対して、加法ギャップが 1 + \frac{1}{\pi}$ である下限と上限を与える。 我々の因子化はストリーミング設定に十分な2つの望ましい性質を持つ: 因子化は低三角形行列を含み、因子化の異なる成分の数は正確に$T$である。 これにより、キュレーターに$t$次元のベクトルを保存させながら、フライで因子化を計算することができます。 M_{\mathsf{average}}$ の場合、$\approx 0.64$ の下限と上限の間の付加的なギャップを示す。

We study fine-grained error bounds for differentially private algorithms for averaging and counting in the continual observation model. For this, we use the completely bounded spectral norm (cb norm) from operator algebra. For a matrix $W$, its cb norm is defined as \[ \|{W}\|_{\mathsf{cb}} = \max_{Q} \left\{ \frac{\|{Q \bullet W}\|}{\|{Q}\|} \right\}, \] where $Q \bullet W$ denotes the Schur product and $\|{\cdot}\|$ denotes the spectral norm. We bound the cb norm of two fundamental matrices studied in differential privacy under the continual observation model: the counting matrix $M_{\mathsf{counting}}$ and the averaging matrix $M_{\mathsf{average}}$. For $M_{\mathsf{counting}}$, we give lower and upper bound whose additive gap is $1 + \frac{1}{\pi}$. Our factorization also has two desirable properties sufficient for streaming setting: the factorization contains of lower-triangular matrices and the number of distinct entries in the factorization is exactly $T$. This allows us to compute the factorization on the fly while requiring the curator to store a $T$-dimensional vector. For $M_{\mathsf{average}}$, we show an additive gap between the lower and upper bound of $\approx 0.64$.
翻訳日:2022-02-24 16:31:57 公開日:2022-02-23
# ベイズ的深層学習による気候予測

A Bayesian Deep Learning Approach to Near-Term Climate Prediction ( http://arxiv.org/abs/2202.11244v1 )

ライセンス: Link先を確認
Xihaier Luo and Balasubramanya T. Nadiga and Yihui Ren and Ji Hwan Park and Wei Xu and Shinjae Yoo(参考訳) モデルバイアスとそれに伴う初期化ショックは、最先端の気候予測における予測スキルを低下させる深刻な欠点であるため、気候予測に対する機械学習に基づく補完的なアプローチを追求する。 地域地球系モデル(CESM2)の土木前制御シミュレーションにおいて,北大西洋海面温度の自然変動を年間時間スケールで予測する。 従来の研究では,畳み込み型LSTMや貯水池型コンピューティングネットワークなどのリカレントネットワークの利用が検討されているが,現在はフィードフォワード型畳み込み型ネットワークの利用に重点を置いている。 特に,Densenetアーキテクチャのフィードフォワード畳み込みネットワークは,予測能力において,畳み込みLSTMよりも優れていることがわかった。 次に, スタイン変分勾配降下に基づく同一ネットワークの確率的定式化を考察し, 予測の不確かさの有用な尺度を提供するとともに, 予測スキルの観点から, 確率的(ベイズ的)バージョンが決定論的に同等のネットワークの定式化を改善できることを見いだす。 最後に,確率的設定で得られたmlモデルのアンサンブルの信頼性を,アンサンブル数値気象予測の文脈で開発された分析ツールを用いて特徴付ける。

Since model bias and associated initialization shock are serious shortcomings that reduce prediction skills in state-of-the-art decadal climate prediction efforts, we pursue a complementary machine-learning-bas ed approach to climate prediction. The example problem setting we consider consists of predicting natural variability of the North Atlantic sea surface temperature on the interannual timescale in the pre-industrial control simulation of the Community Earth System Model (CESM2). While previous works have considered the use of recurrent networks such as convolutional LSTMs and reservoir computing networks in this and other similar problem settings, we currently focus on the use of feedforward convolutional networks. In particular, we find that a feedforward convolutional network with a Densenet architecture is able to outperform a convolutional LSTM in terms of predictive skill. Next, we go on to consider a probabilistic formulation of the same network based on Stein variational gradient descent and find that in addition to providing useful measures of predictive uncertainty, the probabilistic (Bayesian) version improves on its deterministic counterpart in terms of predictive skill. Finally, we characterize the reliability of the ensemble of ML models obtained in the probabilistic setting by using analysis tools developed in the context of ensemble numerical weather prediction.
翻訳日:2022-02-24 16:31:03 公開日:2022-02-23
# ノード分類のためのエッジディスタングルの探索

Exploring Edge Disentanglement for Node Classification ( http://arxiv.org/abs/2202.11245v1 )

ライセンス: Link先を確認
Tianxiang Zhao, Xiang Zhang, Suhang Wang(参考訳) 実世界のグラフのエッジは通常、様々な要因によって形成され、多様な関係意味論を持つ。 例えば、ソーシャルネットワークのつながりは、友人関係、同僚関係、あるいは同じ近所に住んでいることを示せる。 しかしながら、これらの潜在要因は通常、データ収集とグラフ形成プロセスのため、単にエッジの存在の背後に隠されている。 近年のグラフ学習の急速な発展にもかかわらず、ほとんどのモデルは全体論的アプローチを採用し、すべてのエッジを等しく扱う。 エッジを切り離す上での大きな困難は、明示的な監督の欠如である。 本稿では,エッジパターンを綿密に検討し,3つのヒューリスティックを提案し,それに対応する3つのプリテキストタスクの設計を行い,エッジの絡み合いを誘導する。 具体的には,これらのセルフスーパービジョンタスクを,下流ノード分類タスクと共同で訓練し,自動エッジ・アンタングル化を促進するために設計したエッジ・アンタングル化モジュール上で実施する。 切り離しモジュールのチャネルは識別可能な関係や近傍の相互作用を捉えることが期待され、それらからの出力はノード表現として集約される。 提案するdignnは,様々なニューラルアーキテクチャに組み込むのが容易であり,実世界のデータセットを6ドルで実験する。 実証的な結果は、大きなパフォーマンス向上を達成できることを示している。

Edges in real-world graphs are typically formed by a variety of factors and carry diverse relation semantics. For example, connections in a social network could indicate friendship, being colleagues, or living in the same neighborhood. However, these latent factors are usually concealed behind mere edge existence due to the data collection and graph formation processes. Despite rapid developments in graph learning over these years, most models take a holistic approach and treat all edges as equal. One major difficulty in disentangling edges is the lack of explicit supervisions. In this work, with close examination of edge patterns, we propose three heuristics and design three corresponding pretext tasks to guide the automatic edge disentanglement. Concretely, these self-supervision tasks are enforced on a designed edge disentanglement module to be trained jointly with the downstream node classification task to encourage automatic edge disentanglement. Channels of the disentanglement module are expected to capture distinguishable relations and neighborhood interactions, and outputs from them are aggregated as node representations. The proposed DisGNN is easy to be incorporated with various neural architectures, and we conduct experiments on $6$ real-world datasets. Empirical results show that it can achieve significant performance gains.
翻訳日:2022-02-24 16:30:41 公開日:2022-02-23
# 潜伏畳み込みを伴うグランガー因果関係の深部反復モデリング

Deep Recurrent Modelling of Granger Causality with Latent Confounding ( http://arxiv.org/abs/2202.11286v1 )

ライセンス: Link先を確認
Zexuan Yin and Paolo Barucca(参考訳) 観測時系列データにおける因果関係の推測は、介入ができない場合に重要な課題である。 グランジャー因果関係は、異なる時系列間の潜在的な因果メカニズムを推測するための一般的なフレームワークである。 元々のグランガー因果関係の定義は線形過程に限られており、潜在する共同設立者の存在下で急激な結論をもたらす。 本研究では,リカレントニューラルネットワークの表現力を生かし,非線形グレンジャー因果関係をモデル化するためのディープラーニングに基づくアプローチを提案する。 本研究では,複数の再帰的ニューラルネットワークを用いて予測分布をパラメータ化し,grangerテストを行うために,デュアルデコーダを新たに使用する手法を提案する。 本稿では,非線形確率的時系列におけるモデル性能について示す。このモデルの性能は,潜在共同設立者が異なる時間ラグで原因と効果に影響を与えるものであり,既存のベンチマークと比較すると,モデルの有効性を示す。

Inferring causal relationships in observational time series data is an important task when interventions cannot be performed. Granger causality is a popular framework to infer potential causal mechanisms between different time series. The original definition of Granger causality is restricted to linear processes and leads to spurious conclusions in the presence of a latent confounder. In this work, we harness the expressive power of recurrent neural networks and propose a deep learning-based approach to model non-linear Granger causality by directly accounting for latent confounders. Our approach leverages multiple recurrent neural networks to parameterise predictive distributions and we propose the novel use of a dual-decoder setup to conduct the Granger tests. We demonstrate the model performance on non-linear stochastic time series for which the latent confounder influences the cause and effect with different time lags; results show the effectiveness of our model compared to existing benchmarks.
翻訳日:2022-02-24 16:30:20 公開日:2022-02-23
# モバイルエッジクラウド連続体における分散DNNのエネルギー効率向上

Energy-efficient Training of Distributed DNNs in the Mobile-edge-cloud Continuum ( http://arxiv.org/abs/2202.11349v1 )

ライセンス: Link先を確認
Francesco Malandrino and Carla Fabiana Chiasserini and Giuseppe Di Giacomo(参考訳) 我々は,異種ノード群が協調して学習タスクを行う多層ネットワーク(モバイルエッジクラウドなど)における分散機械学習に対処する。 複数のデータソースと計算可能なノードが存在するため、学習コントローラ(例えばエッジに位置する)は決定をしなければならない。 i)選択するためにMLモデル構造を分散した (ii)mlモデルのトレーニングに使用するべきデータ、及び (iii)どのリソースを割り当てるべきか。 これらの決定は互いに深く影響するため、共同で行うべきである。 本稿では,ML効率の最大化を目的としたマルチ層ネットワークにおける分散学習の新しいアプローチを提案する。 そこで本稿では,学習時間と品質要件を満たしつつ,エネルギー効率の高いMLモデルトレーニングを実現するRightTrainというソリューション概念を提案する。 RightTrainは多項式時間で高品質な決定を行う。 さらに,評価の結果,RightTrainは最適値と密に一致し,50%以上の性能を有することがわかった。

We address distributed machine learning in multi-tier (e.g., mobile-edge-cloud) networks where a heterogeneous set of nodes cooperate to perform a learning task. Due to the presence of multiple data sources and computation-capable nodes, a learning controller (e.g., located in the edge) has to make decisions about (i) which distributed ML model structure to select, (ii) which data should be used for the ML model training, and (iii) which resources should be allocated to it. Since these decisions deeply influence one another, they should be made jointly. In this paper, we envision a new approach to distributed learning in multi-tier networks, which aims at maximizing ML efficiency. To this end, we propose a solution concept, called RightTrain, that achieves energy-efficient ML model training, while fulfilling learning time and quality requirements. RightTrain makes high-quality decisions in polynomial time. Further, our performance evaluation shows that RightTrain closely matches the optimum and outperforms the state of the art by over 50%.
翻訳日:2022-02-24 16:29:04 公開日:2022-02-23
# グラフニューラルネットワークを用いた自動走行の協調行動計画

Cooperative Behavioral Planning for Automated Driving using Graph Neural Networks ( http://arxiv.org/abs/2202.11376v1 )

ライセンス: Link先を確認
Marvin Klimke, Benjamin V\"olz, Michael Buchholz(参考訳) 都市交差点は、静的優先規則と優先トラフィックのビューを制限する閉塞のため、遅延や非効率の傾向にある。 自動交差点管理システムとして広く知られている既存の交通流改善手法は、主に非学習予約方式や最適化アルゴリズムに基づいている。 機械学習ベースの技術は、単一のエゴ車両の計画において有望な結果を示す。 本研究では,都市交差点における交通流の最適化に機械学習アルゴリズムを活用することを提案する。 学習に基づく行動計画にはいくつかの課題があり、適切な入力と出力の表現と大量の地上データを要求する。 本稿では,グラフニューラルネットワークを伴うフレキシブルグラフベース入力表現を用いて,前者問題に対処する。 これにより、シーンを効率的にエンコードし、関連するすべての車両に固有の出力を提供することができる。 専門家によるデモンストレーションの模倣に頼ることなく、合理的な政策を学ぶために、協調計画課題を強化学習問題と表現する。 自動運転における意思決定のためのオープンソースのシミュレーション環境において,提案手法を訓練し,評価する。 ファーストインファーストのスキームや静的優先ルールによって制御されるトラフィックと比較して、学習したプランナーは、誘導停止の数を減少させながら、流量の大幅な増加を示す。 合成シミュレーションに加えて、このアプローチは、公開されているindデータセットから取られた現実世界のトラフィックデータに基づいて評価される。

Urban intersections are prone to delays and inefficiencies due to static precedence rules and occlusions limiting the view on prioritized traffic. Existing approaches to improve traffic flow, widely known as automatic intersection management systems, are mostly based on non-learning reservation schemes or optimization algorithms. Machine learning-based techniques show promising results in planning for a single ego vehicle. This work proposes to leverage machine learning algorithms to optimize traffic flow at urban intersections by jointly planning for multiple vehicles. Learning-based behavior planning poses several challenges, demanding for a suited input and output representation as well as large amounts of ground-truth data. We address the former issue by using a flexible graph-based input representation accompanied by a graph neural network. This allows to efficiently encode the scene and inherently provide individual outputs for all involved vehicles. To learn a sensible policy, without relying on the imitation of expert demonstrations, the cooperative planning task is phrased as a reinforcement learning problem. We train and evaluate the proposed method in an open-source simulation environment for decision making in automated driving. Compared to a first-in-first-out scheme and traffic governed by static priority rules, the learned planner shows a significant gain in flow rate, while reducing the number of induced stops. In addition to synthetic simulations, the approach is also evaluated based on real-world traffic data taken from the publicly available inD dataset.
翻訳日:2022-02-24 16:28:49 公開日:2022-02-23
# 生体認証システムのプライバシー問題

Privacy issues on biometric systems ( http://arxiv.org/abs/2202.11415v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy(参考訳) XXI世紀にはプライバシー問題に強い関心が寄せられている。 テクノロジーは個人の同意なしに個人情報を入手することを可能にし、コンピュータはこの情報を共有して処理できるようにする。 ある意味では、生体情報は個人情報であり、生体認証が個人のプライバシーを脅かす試みであると主張する人もいるとき、何が真実で何が偽であるかを意識することが重要である。 本稿では,この問題に関連する重要な点について述べる。

In the XXIth century there is a strong interest on privacy issues. Technology permits obtaining personal information without individuals consent, computers make it feasible to share and process this information, and this can bring about damaging implications. In some sense, biometric information is personal information, so it is important to be conscious about what is true and what is false when some people claim that biometrics is an attempt to individuals privacy. In this paper, key points related to this matter are dealt with.
翻訳日:2022-02-24 16:28:28 公開日:2022-02-23
# 指紋によるドア開放システムの試験報告

Testing report of a fingerprint-based door-opening system ( http://arxiv.org/abs/2202.11419v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Joan Fabregas(参考訳) 本稿では,低コストなインクレス指紋センサを用いたドア開口システムの動作評価について述べる。 このシステムは我々の研究室の1つへのアクセス制御のために開発された。 実験の結果, システムは正常に動作しており, 部品交換も不要であることがわかった。 50人以上のユーザをサポートすることができ、週に14時間の5日作業で1日平均74,5回アクセスを試みることができる。 異なるベンダーの異なる製品を比較し、評価する際に考慮すべき重要な事実についても強調する。

This paper describes the operational evaluation of a door-opening system based on a low-cost inkless fingerprint sensor. This system has been developed and installed for access control to one of our laboratories. Experimental results reveal that the system is working fine and no special cleaning requirements neither components replacement is needed. It can support more than 50 users, and an average of 74,5 access attempts per day in a 14-hour 5-day-per-week working. Emphasize is also given on some important facts to be taken into consideration when comparing and evaluating different products from different vendors.
翻訳日:2022-02-24 16:28:21 公開日:2022-02-23
# 進行重み分量化を用いたビット幅不均一フェデレーション学習

Bitwidth Heterogeneous Federated Learning with Progressive Weight Dequantization ( http://arxiv.org/abs/2202.11453v1 )

ライセンス: Link先を確認
Jaehong Yoon, Geon Park, Wonyong Jeong, Sung Ju Hwang(参考訳) 実用的な連合学習シナリオでは、計算とメモリ記憶のためのビット幅が設計によって異なる可能性がある。 しかしながら、デバイスヘテロゲネス連合学習シナリオにおける進歩にもかかわらず、ハードウェアにおけるビット幅仕様の不均一性はほとんど見過ごされてきた。 本稿では,bitwidth heterofederated learning (bhfl) と呼ばれる,ビット幅異種性を持つ実用的flシナリオを提案する。 BHFLは、特に高ビット幅モデルにおいて、異なるビット幅のモデルパラメータの集約が深刻な性能劣化をもたらすという、新しい課題をもたらす。 そこで本研究では,低ビット幅重みを高ビット幅重みに漸進的に再構成し,最終的に全精度重みに復元する,中央サーバにトレーニング可能な重み脱量子化器を備えたprowdフレームワークを提案する。 prowdはさらにモデルパラメータを選択的に集約し、ビット重みの互換性を最大化する。 ベンチマークデータセット上の関連するflベースラインに対して,ビット幅の異なるクライアントを用いてprowdを検証する。 我々のProWDは、提案したBHFLシナリオの下で、ベースラインFLアルゴリズムと単純アプローチ(例えば、グループ平均化)に大きく勝る。

In practical federated learning scenarios, the participating devices may have different bitwidths for computation and memory storage by design. However, despite the progress made in device-heterogeneous federated learning scenarios, the heterogeneity in the bitwidth specifications in the hardware has been mostly overlooked. We introduce a pragmatic FL scenario with bitwidth heterogeneity across the participating devices, dubbed as Bitwidth Heterogeneous Federated Learning (BHFL). BHFL brings in a new challenge, that the aggregation of model parameters with different bitwidths could result in severe performance degeneration, especially for high-bitwidth models. To tackle this problem, we propose ProWD framework, which has a trainable weight dequantizer at the central server that progressively reconstructs the low-bitwidth weights into higher bitwidth weights, and finally into full-precision weights. ProWD further selectively aggregates the model parameters to maximize the compatibility across bit-heterogeneous weights. We validate ProWD against relevant FL baselines on the benchmark datasets, using clients with varying bitwidths. Our ProWD largely outperforms the baseline FL algorithms as well as naive approaches (e.g. grouped averaging) under the proposed BHFL scenario.
翻訳日:2022-02-24 16:28:06 公開日:2022-02-23
# バイオメトリックセキュリティ技術

Biometric security technology ( http://arxiv.org/abs/2202.11459v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy(参考訳) 本稿では,生体認証技術に関する主要な話題について概説する。 生体認証は、従来の認識方法よりも安全性と利便性が向上する。 たとえ私たちが古典的なメソッド(パスワードやハンドヘルドトークン)を生体認証方式に置き換えたくないとしても、確実に私たちはこれらのシステムの潜在的なユーザであり、新しいパスポートモデルには必須です。 そのため,生体認証技術の可能性に慣れることは有用である。

This paper presents an overview of the main topics related to biometric security technology, with the main purpose to provide a primer on this subject. Biometrics can offer greater security and convenience than traditional methods for people recognition. Even if we do not want to replace a classic method (password or handheld token) by a biometric one, for sure, we are potential users of these systems, which will even be mandatory for new passport models. For this reason, to be familiarized with the possibilities of biometric security technology is useful.
翻訳日:2022-02-24 16:27:45 公開日:2022-02-23
# イントラロジクスにおけるマップレスナビゲーションのための自動カリキュラムによる深層強化学習

Using Deep Reinforcement Learning with Automatic Curriculum earning for Mapless Navigation in Intralogistics ( http://arxiv.org/abs/2202.11512v1 )

ライセンス: Link先を確認
Honghu Xue, Benedikt Hein, Mohamed Bakr, Georg Schildbach, Bengt Abel and Elmar Rueckert(参考訳) 本稿では,倉庫シナリオにおけるマップレスナビゲーション問題を解決するための深層強化学習手法を提案する。 自動誘導車両は、LiDARと前頭RGBセンサーを備え、目標のドームの下に到達することを学ぶ。 課題は、学習のためのポジティブなサンプルのばらばらさ、部分的可観測性を備えたマルチモーダルセンサ認識、正確な操舵操作と長いトレーニングサイクルの要求にある。 そこで我々はNavACL-Qを,分散ソフトアクター批判とともに自動カリキュラム学習として提案した。 学習アルゴリズムの性能を異なる倉庫環境で徹底的に評価し、学習方針の堅牢性と一般化性の両方を確認する。 NVIDIA Isaac Simの結果は、トレーニングされたエージェントが、NVIDIA Isaac Simが提供したマップベースのナビゲーションパイプラインをエージェントゴール距離と相対方向で大幅に上回っていることを実証している。 また,NavACL-Qは学習過程全体を大幅に促進し,事前学習した特徴抽出器がトレーニング速度を著しく向上させることを確認した。

We propose a deep reinforcement learning approach for solving a mapless navigation problem in warehouse scenarios. The automatic guided vehicle is equipped with LiDAR and frontal RGB sensors and learns to reach underneath the target dolly. The challenges reside in the sparseness of positive samples for learning, multi-modal sensor perception with partial observability, the demand for accurate steering maneuvers together with long training cycles. To address these points, we proposed NavACL-Q as an automatic curriculum learning together with distributed soft actor-critic. The performance of the learning algorithm is evaluated exhaustively in a different warehouse environment to check both robustness and generalizability of the learned policy. Results in NVIDIA Isaac Sim demonstrates that our trained agent significantly outperforms the map-based navigation pipeline provided by NVIDIA Isaac Sim in terms of higher agent-goal distances and relative orientations. The ablation studies also confirmed that NavACL-Q greatly facilitates the whole learning process and a pre-trained feature extractor manifestly boosts the training speed.
翻訳日:2022-02-24 16:27:37 公開日:2022-02-23
# テクスチャへのu-attention:ユニバーサルテクスチャ合成のためのマルチステージ砂時計ビジョントランスフォーマ

Paying U-Attention to Textures: Multi-Stage Hourglass Vision Transformer for Universal Texture Synthesis ( http://arxiv.org/abs/2202.11703v1 )

ライセンス: Link先を確認
Shouchang Guo, Valentin Deschaintre, Douglas Noll, Arthur Roullier(参考訳) ユニバーサルテクスチャ合成のための新しいU-Attention Vision Transformerを提案する。 注意機構によって実現された自然の長距離依存性を利用して,その構造を単一の推論で保存しながら,多様なテクスチャを合成することができる。 本研究では,大域構造に対応する多段階の時計バックボーンを提案し,粗大から粗大のストリームにおいて,様々なスケールでパッチマッピングを行う。 さらに,異なるスケールで情報を伝播・融合する接続および畳み込み設計をスキップすることで,u-attentionアーキテクチャは,ミクロ組織,メソ構造,マクロ構造への注意を統一し,逐次的に合成結果を洗練する。 本手法は, 確率的, 構造的いずれのテクスチャにおいても従来よりも強い2$\times$合成を実現するとともに, 微調整を伴わない非知覚テクスチャに一般化できることを示す。 アブレーション研究は、アーキテクチャの各コンポーネントの有効性を示します。

We present a novel U-Attention vision Transformer for universal texture synthesis. We exploit the natural long-range dependencies enabled by the attention mechanism to allow our approach to synthesize diverse textures while preserving their structures in a single inference. We propose a multi-stage hourglass backbone that attends to the global structure and performs patch mapping at varying scales in a coarse-to-fine-to-co arse stream. Further completed by skip connection and convolution designs that propagate and fuse information at different scales, our U-Attention architecture unifies attention to microstructures, mesostructures and macrostructures, and progressively refines synthesis results at successive stages. We show that our method achieves stronger 2$\times$ synthesis than previous work on both stochastic and structured textures while generalizing to unseen textures without fine-tuning. Ablation studies demonstrate the effectiveness of each component of our architecture.
翻訳日:2022-02-24 16:25:59 公開日:2022-02-23
# 入出力仕様に基づくニューラルネットワークの学習

Learning Neural Networks under Input-Output Specifications ( http://arxiv.org/abs/2202.11246v1 )

ライセンス: Link先を確認
Zain ul Abdeen, He Yin, Vassilis Kekatos, Ming Jin(参考訳) 本稿では,入力出力動作の特定仕様を満たすニューラルネットワークの学習に関する重要な課題について検討する。 我々の戦略は、変換空間における凸である許容ポリシーパラメータの集合の内部近似を見つけることである。 そこで本研究では,非線形仕様とアクティベーション関数を2次制約で抽象化し,ニューラルネットワークの検証条件を凸化するという技術的課題を解決する。 特に,ループ変換に基づく元のニューラルネットワークの再パラメータ化スキームを提案し,学習中に強制可能な凸条件を導出する。 この理論的構成は、入力の異なる領域に対する到達可能な集合を特定する実験で検証される。

In this paper, we examine an important problem of learning neural networks that certifiably meet certain specifications on input-output behaviors. Our strategy is to find an inner approximation of the set of admissible policy parameters, which is convex in a transformed space. To this end, we address the key technical challenge of convexifying the verification condition for neural networks, which is derived by abstracting the nonlinear specifications and activation functions with quadratic constraints. In particular, we propose a reparametrization scheme of the original neural network based on loop transformation, which leads to a convex condition that can be enforced during learning. This theoretical construction is validated in an experiment that specifies reachable sets for different regions of inputs.
翻訳日:2022-02-24 16:22:46 公開日:2022-02-23
# メトリックベースのサーバレスコンピューティングプラットフォームの性能モデリング

Performance Modeling of Metric-Based Serverless Computing Platforms ( http://arxiv.org/abs/2202.11247v1 )

ライセンス: Link先を確認
Nima Mahmoudi, Hamzeh Khazaei(参考訳) 分析パフォーマンスモデルは、異なる条件と負荷下でサービスの品質とサービス展開のコストが望ましいままであることを保証するのに非常に効果的です。 クラウドコンピューティングの以前のパラダイムに対して、さまざまな分析的パフォーマンスモデルが提案されているが、サーバレスコンピューティングには、パフォーマンス保証を提供するようなモデルがない。 さらに、ほとんどのサーバレスコンピューティングプラットフォームは、直接的かつ即時のフィードバックを提供することなく、デプロイメントのパフォーマンスとコストの両方に影響を与える可能性のあるデプロイメントの設定を指定するために、開発者の入力を必要とする。 これまでの研究では、サーバレスコンピューティングプラットフォーム(AWS Lambda、Azure Functions、Google Cloud Functionsなど)の定常的かつ過渡的な分析のために、このようなパフォーマンスモデルを構築しました。 本研究では,並列処理価値と秒あたりの要求数を自動スケーリング決定に使用する,サーバーレスコンピューティングプラットフォームの最新のトレンドに対する分析的パフォーマンスモデルの開発を目的とする。 サーバレスコンピューティングプラットフォームの例としては、KnativeとGoogle Cloud Run(Googleが管理するKnativeサービス)がある。 提案されたパフォーマンスモデルは、開発者とプロバイダが異なる構成でデプロイのパフォーマンスとコストを予測するのに役立つ。 提案する性能モデルの妥当性と精度を,knativeを用いた実世界実験により検証し,データ収集量を最小限に抑えることにより,与えられたワークロードの定常特性を正確に予測できることを示す。

Analytical performance models are very effective in ensuring the quality of service and cost of service deployment remain desirable under different conditions and workloads. While various analytical performance models have been proposed for previous paradigms in cloud computing, serverless computing lacks such models that can provide developers with performance guarantees. Besides, most serverless computing platforms still require developers' input to specify the configuration for their deployment that could affect both the performance and cost of their deployment, without providing them with any direct and immediate feedback. In previous studies, we built such performance models for steady-state and transient analysis of scale-per-request serverless computing platforms (e.g., AWS Lambda, Azure Functions, Google Cloud Functions) that could give developers immediate feedback about the quality of service and cost of their deployments. In this work, we aim to develop analytical performance models for the latest trend in serverless computing platforms that use concurrency value and the rate of requests per second for autoscaling decisions. Examples of such serverless computing platforms are Knative and Google Cloud Run (a managed Knative service by Google). The proposed performance model can help developers and providers predict the performance and cost of deployments with different configurations which could help them tune the configuration toward the best outcome. We validate the applicability and accuracy of the proposed performance model by extensive real-world experimentation on Knative and show that our performance model is able to accurately predict the steady-state characteristics of a given workload with minimal amount of data collection.
翻訳日:2022-02-24 16:22:35 公開日:2022-02-23
# Web of Scholars: 学者の知識グラフ

Web of Scholars: A Scholar Knowledge Graph ( http://arxiv.org/abs/2202.11311v1 )

ライセンス: Link先を確認
Jiaying Liu, Jing Ren, Wenqing Zheng, Lianhua Chi, Ivan Lee, Feng Xia(参考訳) 本研究では,最先端のマイニング技術を統合し,コンピュータ科学分野の学者の背後にある複雑なネットワークを探索し,マイニングし,可視化する新しいシステム,すなわち学者のwebを実証する。 ナレッジグラフに依存しており、高速で正確でインテリジェントなセマンティッククエリと強力なレコメンデーションを提供する。 さらに、情報共有を実現するために、高度な関数の基盤となるアーキテクチャとして提供されるオープンAPIを提供する。 Web of Scholarsは知識グラフを活用しており、より多くの検索が存在する場合、より多くの知識にアクセスできるようになる。 研究者が科学の中で詳細な分析を行うための、有用かつ相互運用可能なツールとして機能する。

In this work, we demonstrate a novel system, namely Web of Scholars, which integrates state-of-the-art mining techniques to search, mine, and visualize complex networks behind scholars in the field of Computer Science. Relying on the knowledge graph, it provides services for fast, accurate, and intelligent semantic querying as well as powerful recommendations. In addition, in order to realize information sharing, it provides an open API to be served as the underlying architecture for advanced functions. Web of Scholars takes advantage of knowledge graph, which means that it will be able to access more knowledge if more search exist. It can be served as a useful and interoperable tool for scholars to conduct in-depth analysis within Science of Science.
翻訳日:2022-02-24 16:22:12 公開日:2022-02-23
# 逆問題に対する適応型再構成ネットワークの訓練

Training Adaptive Reconstruction Networks for Inverse Problems ( http://arxiv.org/abs/2202.11342v1 )

ライセンス: Link先を確認
Alban Gossard (IMT), Pierre Weiss (IMT)(参考訳) ニューラルネットワークは、不適切な逆問題の解決の約束に満ちている。 特に、物理学的なインフォームド学習アプローチは、その優れた品質のために、徐々に手作りの再構築アルゴリズムを置き換えているように見える。 この論文の目的は二つある。 まず、これらのネットワークの重大な弱点を示し、前方モデルのバリエーションに効率的に適応しない。 第2に,フォワードオペレータのファミリーでネットワークをトレーニングすることで,復元品質を著しく損なうことなく適応性問題を解決できることを示す。 磁気共鳴画像法(mri)で発生する部分フーリエサンプリング問題に対して,すべての実験を慎重に考案した。

Neural networks are full of promises for the resolution of ill-posed inverse problems. In particular, physics informed learning approaches already seem to progressively gradually replace carefully hand-crafted reconstruction algorithms, for their superior quality. The aim of this paper is twofold. First we show a significant weakness of these networks: they do not adapt efficiently to variations of the forward model. Second, we show that training the network with a family of forward operators allows to solve the adaptivity problem without compromising the reconstruction quality significantly. All our experiments are carefully devised on partial Fourier sampling problems arising in magnetic resonance imaging (MRI).
翻訳日:2022-02-24 16:21:59 公開日:2022-02-23
# 異常引用検出のためのディープグラフ学習

Deep Graph Learning for Anomalous Citation Detection ( http://arxiv.org/abs/2202.11360v1 )

ライセンス: Link先を確認
Jiaying Liu, Feng Xia, Xu Feng, Jing Ren, Huan Liu(参考訳) 異常検出は、医療、フィンテック、治安など、様々な重要な領域において最も活発な研究分野の1つである。 しかし,論文データ,すなわち引用ネットワークにおける異常検出にはほとんど注意が払われていない。 引用は、科学的研究の影響を評価する上で最も重要な指標の1つと考えられており、様々な方法でゲームされる可能性がある。 したがって、引用ネットワークにおける異常検出は、引用の操作とインフレーションを特定するために重要である。 そこで本稿では,この問題に対処するために,新たな深層グラフ学習モデルである glad (graph learning for anomaly detection) を提案する。 GLADは、グラフニューラルネットワークを介してノード属性とリンク属性の両方を追加することで、ネットワーク表現学習にテキストセマンティックマイニングを組み込む。 引用内容の関連性だけでなく、論文間の隠れた関係も生かしている。 GLADフレームワーク内ではCPU(Citation PUrpose)と呼ばれるアルゴリズムが提案され,引用テキストに基づく引用の目的が明らかになった。 GLADの性能は、シミュレーションされた異常励起データセットを通して検証される。 GLADが異常励起検出タスクに及ぼす影響を実験的に検証した。

Anomaly detection is one of the most active research areas in various critical domains, such as healthcare, fintech, and public security. However, little attention has been paid to scholarly data, i.e., anomaly detection in a citation network. Citation is considered as one of the most crucial metrics to evaluate the impact of scientific research, which may be gamed in multiple ways. Therefore, anomaly detection in citation networks is of significant importance to identify manipulation and inflation of citations. To address this open issue, we propose a novel deep graph learning model, namely GLAD (Graph Learning for Anomaly Detection), to identify anomalies in citation networks. GLAD incorporates text semantic mining to network representation learning by adding both node attributes and link attributes via graph neural networks. It exploits not only the relevance of citation contents but also hidden relationships between papers. Within the GLAD framework, we propose an algorithm called CPU (Citation PUrpose) to discover the purpose of citation based on citation texts. The performance of GLAD is validated through a simulated anomalous citation dataset. Experimental results demonstrate the effectiveness of GLAD on the anomalous citation detection task.
翻訳日:2022-02-24 16:21:49 公開日:2022-02-23
# 最適予測のtモデルに基づく不完全情報をもつ動的システムの動的モード分解の拡張

Extension of Dynamic Mode Decomposition for dynamic systems with incomplete information based on t-model of optimal prediction ( http://arxiv.org/abs/2202.11432v1 )

ライセンス: Link先を確認
Aleksandr Katrutsa, Sergey Utyuzhnikov, Ivan Oseledets(参考訳) 動的モード分解は動的データを研究するための非常に効率的な手法であることが証明された。 これはすべてデータ駆動のアプローチであり、測定から一般的にサンプリングされるはずのデータスナップショットから必要な情報をすべて抽出する。 このアプローチの適用は、利用可能なデータが不完全である場合に問題となる。 このような設定は、電力グリッドのような複雑な力学系のモデリング、特に低次モデリングにおいて非常によく発生する。 未解決変数の効果を考慮し、モリ・ズワンジッヒ形式に基づく最適予測アプローチを適用し、既存の不確実性の下で最も期待される予測を得ることができる。 これにより、データの欠落の影響を考慮した予測モデルの開発が効果的に行われる。 本稿では,Liouville方程式から検討された手法の詳細な導出と,観測データに対応する最適遷移演算子を定義する最適化問題との整合性について述べる。 既存の手法とは対照的に,森-Zwanzig分解の1次近似を考慮し,対応する最適化問題を記述し,勾配に基づく最適化手法で解く。 得られた目的関数の勾配を自動微分法により正確に計算する。 数値実験は、考慮されたアプローチがモリ=ズワンツィヒ分解と実質的に同じダイナミクスを与えることを示しているが、計算量は少ない。

The Dynamic Mode Decomposition has proved to be a very efficient technique to study dynamic data. This is entirely a data-driven approach that extracts all necessary information from data snapshots which are commonly supposed to be sampled from measurement. The application of this approach becomes problematic if the available data is incomplete because some dimensions of smaller scale either missing or unmeasured. Such setting occurs very often in modeling complex dynamical systems such as power grids, in particular with reduced-order modeling. To take into account the effect of unresolved variables the optimal prediction approach based on the Mori-Zwanzig formalism can be applied to obtain the most expected prediction under existing uncertainties. This effectively leads to the development of a time-predictive model accounting for the impact of missing data. In the present paper we provide a detailed derivation of the considered method from the Liouville equation and finalize it with the optimization problem that defines the optimal transition operator corresponding to the observed data. In contrast to the existing approach, we consider a first-order approximation of the Mori-Zwanzig decomposition, state the corresponding optimization problem and solve it with the gradient-based optimization method. The gradient of the obtained objective function is computed precisely through the automatic differentiation technique. The numerical experiments illustrate that the considered approach gives practically the same dynamics as the exact Mori-Zwanzig decomposition, but is less computationally intensive.
翻訳日:2022-02-24 16:21:31 公開日:2022-02-23
# listen to interpret: nmfを用いたオーディオネットワークのポストホック解釈可能性

Listen to Interpret: Post-hoc Interpretability for Audio Networks with NMF ( http://arxiv.org/abs/2202.11479v1 )

ライセンス: Link先を確認
Jayneel Parekh, Sanjeel Parekh, Pavlo Mozharovskyi, Florence d'Alch\'e-Buc, Ga\"el Richard(参考訳) 本稿では,音声処理ネットワークにおけるポストホック解釈可能性に取り組む。 私たちの目標は、エンドユーザーにも聞き取れるハイレベルなオーディオオブジェクトの観点で、ネットワークの決定を解釈することです。 そこで本研究では,非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。 特に、注意深く正規化されたインタプリタモジュールをトレーニングし、ターゲットネットワークの隠蔽層表現を入力とし、中間出力として事前学習NMFコンポーネントの時間アクティベーションを生成する。 提案手法により,ネットワークの判断に最も関係のある入力信号の一部を明示的に拡張する直感的な音声ベースの解釈を生成することができる。 実世界のマルチラベル分類タスクを含む,一般的なベンチマークにおける本手法の適用性を示す。

This paper tackles post-hoc interpretability for audio processing networks. Our goal is to interpret decisions of a network in terms of high-level audio objects that are also listenable for the end-user. To this end, we propose a novel interpreter design that incorporates non-negative matrix factorization (NMF). In particular, a carefully regularized interpreter module is trained to take hidden layer representations of the targeted network as input and produce time activations of pre-learnt NMF components as intermediate outputs. Our methodology allows us to generate intuitive audio-based interpretations that explicitly enhance parts of the input signal most relevant for a network's decision. We demonstrate our method's applicability on popular benchmarks, including a real-world multi-label classification task.
翻訳日:2022-02-24 16:21:07 公開日:2022-02-23
# (参考訳) オンライン時系列予測のための高速で遅い学習 [全文訳有]

Learning Fast and Slow for Online Time Series Forecasting ( http://arxiv.org/abs/2202.11672v1 )

ライセンス: CC BY 4.0
Quang Pham, Chenghao Liu, Doyen Sahoo, Steven C.H. Hoi(参考訳) 非定常環境におけるディープニューラルネットワークの高速適応性は,オンライン時系列予測に重要である。 成功するソリューションには、新しく繰り返されるパターンの変更を扱う必要がある。 しかし、非定常環境への適応能力の制限と、古い知識の破滅的な忘れが原因で、深層神経予知装置の訓練は極めて難しい。 本研究では,相補的学習システム(cls)理論に着想を得て,オンライン時系列予測のための包括的フレームワークであるfast and slow learning networks(fsnet)を提案する。 特にFSNetは、最近の変更への迅速な適応の動的バランスと、同様の古い知識の取得によって、ゆっくりと学習されたバックボーンを改善している。 FSNetは、各レイヤの損失に対するコントリビューションを監視するアダプタの2つの補完的なコンポーネントと、繰り返しイベントの記憶、更新、リコールをサポートする連想メモリ間のインタラクションを通じて、このメカニズムを実現する。 実データと合成データセットに関する大規模な実験は、FSNetの新たなパターンと繰り返しパターンに対する有効性と堅牢性を検証する。 私たちのコードは公開されます。

The fast adaptation capability of deep neural networks in non-stationary environments is critical for online time series forecasting. Successful solutions require handling changes to new and recurring patterns. However, training deep neural forecaster on the fly is notoriously challenging because of their limited ability to adapt to non-stationary environments and the catastrophic forgetting of old knowledge. In this work, inspired by the Complementary Learning Systems (CLS) theory, we propose Fast and Slow learning Networks (FSNet), a holistic framework for online time-series forecasting to simultaneously deal with abrupt changing and repeating patterns. Particularly, FSNet improves the slowly-learned backbone by dynamically balancing fast adaptation to recent changes and retrieving similar old knowledge. FSNet achieves this mechanism via an interaction between two complementary components of an adapter to monitor each layer's contribution to the lost, and an associative memory to support remembering, updating, and recalling repeating events. Extensive experiments on real and synthetic datasets validate FSNet's efficacy and robustness to both new and recurring patterns. Our code will be made publicly available.
翻訳日:2022-02-24 16:20:26 公開日:2022-02-23
# ブレグマン発散に焦点をあてた最好適な先行点を見つける次元性低減法

A Dimensionality Reduction Method for Finding Least Favorable Priors with a Focus on Bregman Divergence ( http://arxiv.org/abs/2202.11598v1 )

ライセンス: Link先を確認
Alex Dytso, Mario Goldenbaum, H. Vincent Poor, Shlomo Shamai (Shitz)(参考訳) 点推定におけるミニマックス推定器を特徴づける一般的な方法は、問題をベイズ推定領域に移し、最も好ましい事前分布を求めることである。 温和な条件下で、最も好ましくない事前に誘導されるベイズ推定器は、ミニマックスであることが知られている。 しかし、無限次元である確率分布の空間に固有の最適化があるため、最も好ましい分布を見つけることは困難である。 本稿では,次元に明示的な境界を持つ有限次元集合に最適化を移すための次元性低減法を開発した。 この次元減少の利点は、投影された勾配上昇のような一般的なアルゴリズムを使用することで、最も好ましくない事前を見つけられることである。 論文全体を通して、この問題を進展させるために、我々は比較的大きな損失関数、すなわちブレグマンダイバージェンス(bregman divergences)によって引き起こされるベイズリスクに自らを限定する。

A common way of characterizing minimax estimators in point estimation is by moving the problem into the Bayesian estimation domain and finding a least favorable prior distribution. The Bayesian estimator induced by a least favorable prior, under mild conditions, is then known to be minimax. However, finding least favorable distributions can be challenging due to inherent optimization over the space of probability distributions, which is infinite-dimensional . This paper develops a dimensionality reduction method that allows us to move the optimization to a finite-dimensional setting with an explicit bound on the dimension. The benefit of this dimensionality reduction is that it permits the use of popular algorithms such as projected gradient ascent to find least favorable priors. Throughout the paper, in order to make progress on the problem, we restrict ourselves to Bayesian risks induced by a relatively large class of loss functions, namely Bregman divergences.
翻訳日:2022-02-24 15:57:25 公開日:2022-02-23
# 抽象要約のためのクラスタパターンの学習

Learning Cluster Patterns for Abstractive Summarization ( http://arxiv.org/abs/2202.10967v2 )

ライセンス: Link先を確認
Sung-Guk Jo, Jeong-Jae Kim and Byung-Won On(参考訳) 現在、BERTSUMやBARTのような事前訓練されたシーケンス・ツー・シーケンスモデルは、抽象的な要約の最先端の結果を示している。 これらのモデルでは、微調整の間、エンコーダは文を潜在空間の文脈ベクトルに変換し、デコーダは文脈ベクトルに基づいて要約生成タスクを学習する。 提案手法では,デコーダがより有意な文脈ベクトルに参加できるような,有意な文脈ベクトルと非有意な文脈ベクトルの2つのクラスタを考える。 そこで本研究では,エンコーダとデコーダの間の新たなクラスタリングトランスフォーマ層を提案し,まず2つの正則ベクトルと非正則ベクトルのクラスタを生成し,その後,クラスタを正規化し,縮小して潜在空間で分割する。 実験の結果,提案モデルはこれらの異なるクラスタパターンを学習することで既存のBARTモデルよりも優れており,CNN/DailyMailおよびXSUMデータセットで平均4%,BERTScoreで0.3%向上した。

Nowadays, pre-trained sequence-to-sequence models such as BERTSUM and BART have shown state-of-the-art results in abstractive summarization. In these models, during fine-tuning, the encoder transforms sentences to context vectors in the latent space and the decoder learns the summary generation task based on the context vectors. In our approach, we consider two clusters of salient and non-salient context vectors, using which the decoder can attend more to salient context vectors for summary generation. For this, we propose a novel clustering transformer layer between the encoder and the decoder, which first generates two clusters of salient and non-salient vectors, and then normalizes and shrinks the clusters to make them apart in the latent space. Our experimental result shows that the proposed model outperforms the existing BART model by learning these distinct cluster patterns, improving up to 4% in ROUGE and 0.3% in BERTScore on average in CNN/DailyMail and XSUM data sets.
翻訳日:2022-02-24 15:56:51 公開日:2022-02-23
# 統一多言語プロンプトを用いたプロンプトベースチューニングのゼロショットクロスリンガル転送

Zero-shot Cross-lingual Transfer of Prompt-based Tuning with a Unified Multilingual Prompt ( http://arxiv.org/abs/2202.11451v1 )

ライセンス: Link先を確認
Lianzhe Huang, Shuming Ma, Dongdong Zhang, Furu Wei and Houfeng Wang(参考訳) Promptベースのチューニングは、事前訓練された言語モデル(PLM)に有効であることが証明されている。 既存の研究のほとんどは単言語プロンプトに焦点を当てているが、多言語plmの多言語プロンプト、特にゼロショットクロスリンガル設定について研究している。 複数の言語に対して異なるプロンプトを設計する作業を軽減するため、UniPromptと呼ばれる全ての言語に対して統一的なプロンプトを使用する新しいモデルを提案する。 離散的なプロンプトやソフトプロンプトとは異なり、統一プロンプトはモデルベースで言語に依存しない。 具体的には、統一プロンプトを多言語PLMによって初期化し、言語に依存しない表現を生成し、その後テキスト入力と融合する。 推論中は、余分な計算コストが不要になるようにプロンプトを事前計算することができる。 統一プロンプトとコロケーションするために,ターゲットラベルワードの新たな初期化手法を提案し,言語間のモデルの転送性をさらに向上させる。 大規模な実験により,提案手法は異なる言語間で強いベースラインを著しく上回ることを示す。 今後の研究を促進するデータとコードをリリースします。

Prompt-based tuning has been proven effective for pretrained language models (PLMs). While most of the existing work focuses on the monolingual prompts, we study the multilingual prompts for multilingual PLMs, especially in the zero-shot cross-lingual setting. To alleviate the effort of designing different prompts for multiple languages, we propose a novel model that uses a unified prompt for all languages, called UniPrompt. Different from the discrete prompts and soft prompts, the unified prompt is model-based and language-agnostic. Specifically, the unified prompt is initialized by a multilingual PLM to produce language-independent representation, after which is fused with the text input. During inference, the prompts can be pre-computed so that no extra computation cost is needed. To collocate with the unified prompt, we propose a new initialization method for the target label word to further improve the model's transferability across languages. Extensive experiments show that our proposed methods can significantly outperform the strong baselines across different languages. We will release data and code to facilitate future research.
翻訳日:2022-02-24 15:56:29 公開日:2022-02-23
# 機械翻訳における最先端技術の改良 : 個人のドメイン知識を活用したja <-> en言語ペアのためのnmt最適化

Refining the state-of-the-art in Machine Translation, optimizing NMT for the JA <-> EN language pair by leveraging personal domain expertise ( http://arxiv.org/abs/2202.11669v1 )

ライセンス: Link先を確認
Matthew Bieda(参考訳) opennmtフレームワークを活用したトランスフォーマーアーキテクチャに基づくen/ja用nmt(neural machine translation)システムの構築を文書化する。 最適性能を得るために,コーパス前処理,ハイパーパラメータチューニング,モデルアーキテクチャの体系的な探索を行った。 本システムはBLEUなどの標準自己評価指標と日本語言語学者としての主観的意見を用いて評価した。

Documenting the construction of an NMT (Neural Machine Translation) system for En/Ja based on the Transformer architecture leveraging the OpenNMT framework. A systematic exploration of corpora pre-processing, hyperparameter tuning and model architecture is carried out to obtain optimal performance. The system is evaluated using standard auto-evaluation metrics such as BLEU, and my subjective opinion as a Japanese linguist.
翻訳日:2022-02-24 15:56:09 公開日:2022-02-23
# 神経科学的オントロジー知識の不確実性下におけるスケーラブルな問合せ:ニューロラングアプローチ

Scalable Query Answering under Uncertainty to Neuroscientific Ontological Knowledge: The NeuroLang Approach ( http://arxiv.org/abs/2202.11333v1 )

ライセンス: Link先を確認
Gaston Zanitti (PARIETAL), Yamil Soto (UNS), Valentin Iovene (PARIETAL), Maria Vanina Martinez, Ricardo Rodriguez, Gerardo Simari (UNS), Demian Wassermann (PARIETAL)(参考訳) 神経科学の研究者は、脳を研究するために利用可能なデータセットの数が増えています。 脳が研究されている範囲を考えると、その領域、活性化パターン、研究に関連する重要な単語などに関する現在の芸術をエンコードするオントロジの知識も利用可能である。 さらに、ボクセル(3Dピクセル)と個々の脳の実際の点とのマッピングから生じる脳スキャンに固有の不確実性がある。 残念ながら、不確実性の下でリッチな異種データのコレクションにアクセスするための統一フレームワークは存在しないため、研究者はアドホックツールに頼る必要がある。 特に、このようなタスクに対処しようとする現在のツールの大きな弱点の1つは、非常に限られた命題クエリ言語のみが開発されていることである。 本稿では,存在規則,確率的不確実性,非常に大きなデータセット上でのクエリ応答性を保証する組み込み機構を備えたオントロジ言語であるneurolangを提案する。 言語とその一般的なクエリ応答アーキテクチャを提示した後、現在のツールが不十分な実用的なシナリオにニューロランゲージをどのように適用できるかを実世界のユースケースとして論じる。

Researchers in neuroscience have a growing number of datasets available to study the brain, which is made possible by recent technological advances. Given the extent to which the brain has been studied, there is also available ontological knowledge encoding the current state of the art regarding its different areas, activation patterns, key words associated with studies, etc. Furthermore, there is an inherent uncertainty associated with brain scans arising from the mapping between voxels -- 3D pixels -- and actual points in different individual brains. Unfortunately, there is currently no unifying framework for accessing such collections of rich heterogeneous data under uncertainty, making it necessary for researchers to rely on ad hoc tools. In particular, one major weakness of current tools that attempt to address this kind of task is that only very limited propositional query languages have been developed. In this paper, we present NeuroLang, an ontology language with existential rules, probabilistic uncertainty, and built-in mechanisms to guarantee tractable query answering over very large datasets. After presenting the language and its general query answering architecture, we discuss real-world use cases showing how NeuroLang can be applied to practical scenarios for which current tools are inadequate.
翻訳日:2022-02-24 15:56:01 公開日:2022-02-23
# 模擬エージェントにおける運動量予測とアクティブモータ制御

Inference of Affordances and Active Motor Control in Simulated Agents ( http://arxiv.org/abs/2202.11532v1 )

ライセンス: Link先を確認
Fedor Scholz, Christian Gumbsch, Sebastian Otte, Martin V. Butz(参考訳) フレキシブルでゴール指向の行動は人間の生活の基本的な側面である。 自由エネルギー最小化原理に基づいて、アクティブ推論の理論は計算神経科学の観点からそのような行動の生成を形式化する。 この理論に基づき,センサモジュレータ情報を処理し,その世界の行動関連側面を推定し,高度に柔軟で目標指向の行動を呼び出す,出力確率,時間予測,モジュール型ニューラルネットワークアーキテクチャを導入する。 自由エネルギーの近似を最小化するためにエンドツーエンドで訓練された我々のアーキテクチャは、余裕マップと解釈できる潜在状態を開発する。 すなわち、出現する潜在状態は、どの作用が局所的な文脈に依存するかを示す。 アクティブ推論と組み合わせることで,新たなアフォーマンスマップを取り入れることで,柔軟で目標指向の振る舞いが実行可能であることを示す。 その結果、シミュレーションエージェントは連続した空間を柔軟に操り、障害物との衝突を回避し、高い確実性で目標に至る経路を優先する。 また, 学習したエージェントは, 障害物やその他の地形が作用する固定環境下でエージェントを訓練した後, 様々な場所における様々な障害物や地形を含む手続き的に生成された環境においても, 同様の性能を示す。 モデル学習をさらに改善し、焦点を絞るために、近い将来に時間的予測モデル自体を学習しながら、アクティブな推論に基づく情報ゲイン指向の行動を実行することを計画している。 さらに、より深いイベント予測抽象化と、コンパクトで習慣的な行動プリミティブの両方の開発を促進するつもりです。

Flexible, goal-directed behavior is a fundamental aspect of human life. Based on the free energy minimization principle, the theory of active inference formalizes the generation of such behavior from a computational neuroscience perspective. Based on the theory, we introduce an output-probabilistic , temporally predictive, modular artificial neural network architecture, which processes sensorimotor information, infers behavior-relevant aspects of its world, and invokes highly flexible, goal-directed behavior. We show that our architecture, which is trained end-to-end to minimize an approximation of free energy, develops latent states that can be interpreted as affordance maps. That is, the emerging latent states signal which actions lead to which effects dependent on the local context. In combination with active inference, we show that flexible, goal-directed behavior can be invoked, incorporating the emerging affordance maps. As a result, our simulated agent flexibly steers through continuous spaces, avoids collisions with obstacles, and prefers pathways that lead to the goal with high certainty. Additionally, we show that the learned agent is highly suitable for zero-shot generalization across environments: After training the agent in a handful of fixed environments with obstacles and other terrains affecting its behavior, it performs similarly well in procedurally generated environments containing different amounts of obstacles and terrains of various sizes at different locations. To improve and focus model learning further, we plan to invoke active inference-based, information-gain-ori ented behavior also while learning the temporally predictive model itself in the near future. Moreover, we intend to foster the development of both deeper event-predictive abstractions and compact, habitual behavioral primitives.
翻訳日:2022-02-24 15:54:30 公開日:2022-02-23
# 教師なしポイントクラウド登録の信頼性評価

Reliable Inlier Evaluation for Unsupervised Point Cloud Registration ( http://arxiv.org/abs/2202.11292v1 )

ライセンス: Link先を確認
Yaqi Shen, Le Hui, Haobo Jiang, Jin Xie, Jian Yang(参考訳) 教師なしポイントクラウド登録アルゴリズムは通常、効果的な不確実性評価の欠如による部分重複問題における不満足な登録精度に苦しむ。 本稿では,ロバストな無教師ポイントクラウド登録のための地域合意に基づく信頼度評価手法を提案する。 震源近傍とそれに対応する擬似目標近傍の識別的幾何学的差異を効果的に区別するために捉えることが期待される。 具体的には,マッチングマップリファインメントモジュールと不整合評価モジュールから構成される。 マッチングマップリファインメントモジュールでは、隣人のマッチングスコアを組み込むことで、ポイントワイズ対応マップ推定を改善する。 集約された近傍情報は、疑似目標点クラウドを生成するために高品質な対応を提供することができるように、識別マップ構築を容易にする。 外れ値がソース近傍と対応する疑似ターゲット近傍との間に有意な構造的差を有するという観測に基づいて、この外れ値に対する差は小さいが、この差を利用して推定された対応ごとに不確実信頼度をスコアする。 特に,近傍間の幾何学的差異を捉えるための有効なグラフ表現を構築する。 最後に、学習した対応とそれに対応する不整合信頼度を用いて、重み付きSVDアルゴリズムを用いて変換推定を行う。 教師なし環境下では,ハマー関数に基づく大域的アライメント損失,局所的な地域的コンセンサス損失,空間的一貫性損失をモデル最適化に用いる。 広範なデータセットを用いた実験結果から,教師なしのポイントクラウド登録手法が同等の性能を発揮することが示された。

Unsupervised point cloud registration algorithm usually suffers from the unsatisfied registration precision in the partially overlapping problem due to the lack of effective inlier evaluation. In this paper, we propose a neighborhood consensus based reliable inlier evaluation method for robust unsupervised point cloud registration. It is expected to capture the discriminative geometric difference between the source neighborhood and the corresponding pseudo target neighborhood for effective inlier distinction. Specifically, our model consists of a matching map refinement module and an inlier evaluation module. In our matching map refinement module, we improve the point-wise matching map estimation by integrating the matching scores of neighbors into it. The aggregated neighborhood information potentially facilitates the discriminative map construction so that high-quality correspondences can be provided for generating the pseudo target point cloud. Based on the observation that the outlier has the significant structure-wise difference between its source neighborhood and corresponding pseudo target neighborhood while this difference for inlier is small, the inlier evaluation module exploits this difference to score the inlier confidence for each estimated correspondence. In particular, we construct an effective graph representation for capturing this geometric difference between the neighborhoods. Finally, with the learned correspondences and the corresponding inlier confidence, we use the weighted SVD algorithm for transformation estimation. Under the unsupervised setting, we exploit the Huber function based global alignment loss, the local neighborhood consensus loss, and spatial consistency loss for model optimization. The experimental results on extensive datasets demonstrate that our unsupervised point cloud registration method can yield comparable performance.
翻訳日:2022-02-24 15:52:53 公開日:2022-02-23
# レコンストラクションタスクがユニバーサル勝利チケットを見つける

Reconstruction Task Finds Universal Winning Tickets ( http://arxiv.org/abs/2202.11484v1 )

ライセンス: Link先を確認
Ruichen Li, Binghui Li, Qi Qian, Liwei Wang(参考訳) 十分に訓練されたニューラルネットワークは、コンピュータビジョンシステムにおいて有望な精度と効率のトレードオフを実現するために有効である。 しかし、既存のプルーニングアルゴリズムのほとんどは、ソースドメインで定義された分類タスクのみに焦点を当てている。 元のモデルの強い転送性とは異なり、プルーニングされたネットワークは、オブジェクト検出のような複雑な下流タスクに転送するのは困難である。 本稿では,画像レベルのプレトレインタスクは,下流の様々なタスクに対して,モデルを刈り取ることができないことを示す。 この問題を軽減するため,従来のプルーニングフレームワークに画素レベルのタスクである画像再構成を導入する。 具体的には、オートエンコーダを元のモデルに基づいてトレーニングした後、オートエンコーダと分類損失の両方でプルーニングプロセスを最適化する。 ベンチマークダウンストリームタスクに関する実証研究は、提案手法が最先端の結果を明示的に上回ることを示す。

Pruning well-trained neural networks is effective to achieve a promising accuracy-efficiency trade-off in computer vision regimes. However, most of existing pruning algorithms only focus on the classification task defined on the source domain. Different from the strong transferability of the original model, a pruned network is hard to transfer to complicated downstream tasks such as object detection arXiv:arch-ive/2012. 04643. In this paper, we show that the image-level pretrain task is not capable of pruning models for diverse downstream tasks. To mitigate this problem, we introduce image reconstruction, a pixel-level task, into the traditional pruning framework. Concretely, an autoencoder is trained based on the original model, and then the pruning process is optimized with both autoencoder and classification losses. The empirical study on benchmark downstream tasks shows that the proposed method can outperform state-of-the-art results explicitly.
翻訳日:2022-02-24 15:50:45 公開日:2022-02-23
# マスク特徴混合による小型データセットの画像分類

Image Classification on Small Datasets via Masked Feature Mixing ( http://arxiv.org/abs/2202.11616v1 )

ライセンス: Link先を確認
Christoph Reinders, Frederik Schubert, Bodo Rosenhahn(参考訳) 深層畳み込みニューラルネットワークは大量のラベル付きデータサンプルを必要とする。 多くの実世界のアプリケーションでは、これは拡張メソッドによって一般的に扱われる大きな制限である。 本稿では,小さなデータセット上で深層ニューラルネットワークを学習する問題に対処する。 提案アーキテクチャであるChimeraMixは,インスタンスの構成を生成することでデータ拡張を学習する。 生成モデルは、画像をペアでエンコードし、マスクによって導かれた特徴を組み合わせて、新しいサンプルを作成する。 評価のために、すべてのメソッドは追加データなしでスクラッチからトレーニングされる。 ベンチマークデータセットに関するいくつかの実験、例えばciFAIR-10、STL-10、ciFAIR-100は、小さなデータセットの分類のための現在の最先端の手法と比較して、ChimeraMixの優れた性能を示している。

Deep convolutional neural networks require large amounts of labeled data samples. For many real-world applications, this is a major limitation which is commonly treated by augmentation methods. In this work, we address the problem of learning deep neural networks on small datasets. Our proposed architecture called ChimeraMix learns a data augmentation by generating compositions of instances. The generative model encodes images in pairs, combines the features guided by a mask, and creates new samples. For evaluation, all methods are trained from scratch without any additional data. Several experiments on benchmark datasets, e.g. ciFAIR-10, STL-10, and ciFAIR-100, demonstrate the superior performance of ChimeraMix compared to current state-of-the-art methods for classification on small datasets.
翻訳日:2022-02-24 15:50:28 公開日:2022-02-23
# 深層幾何ディスクリプタを用いた3次元点雲の異常検出

Anomaly Detection in 3D Point Clouds using Deep Geometric Descriptors ( http://arxiv.org/abs/2202.11660v1 )

ライセンス: Link先を確認
Paul Bergmann and David Sattlegger(参考訳) 高分解能3次元点雲における幾何異常の教師なし検出のための新しい手法を提案する。 特に,確立された学生・教師異常検出フレームワークの3次元への適応を提案する。 学生ネットワークは、異常のない点雲上の事前訓練された教師ネットワークの出力と一致するように訓練される。 テストデータに適用した場合、教師と生徒の間の回帰誤差により、異常構造の信頼性の高い局所化が可能となる。 密集した局所幾何学的記述子を抽出する表現的教師ネットワークを構築するために,新しい自己教師による事前学習戦略を提案する。 教師は、現地の受容場を再構築して訓練を受け、アノテーションを必要としない。 MVTec 3D Anomaly Detectionデータセットの総合的な実験により,本手法の有効性が明らかとなった。 アブレーション研究は,本手法が性能,実行時間,メモリ消費に関する実用的要件を満たすことを示した。

We present a new method for the unsupervised detection of geometric anomalies in high-resolution 3D point clouds. In particular, we propose an adaptation of the established student-teacher anomaly detection framework to three dimensions. A student network is trained to match the output of a pretrained teacher network on anomaly-free point clouds. When applied to test data, regression errors between the teacher and the student allow reliable localization of anomalous structures. To construct an expressive teacher network that extracts dense local geometric descriptors, we introduce a novel self-supervised pretraining strategy. The teacher is trained by reconstructing local receptive fields and does not require annotations. Extensive experiments on the comprehensive MVTec 3D Anomaly Detection dataset highlight the effectiveness of our approach, which outperforms the next-best method by a large margin. Ablation studies show that our approach meets the requirements of practical applications regarding performance, runtime, and memory consumption.
翻訳日:2022-02-24 15:50:20 公開日:2022-02-23
# Anchored Hidden State Mixup を用いた分散音響センサデータにおける分布外回帰のモデル化

Better Modelling Out-of-Distribution Regression on Distributed Acoustic Sensor Data Using Anchored Hidden State Mixup ( http://arxiv.org/abs/2202.11283v1 )

ライセンス: Link先を確認
Hasan Asyari Arief, Peter James Thomas, and Tomasz Wiktorski(参考訳) トレーニングとテストデータの統計的分布が異なる状況における機械学習モデルの応用を一般化することは、複雑な問題であった。 Our contributions in this paper are threefold: (1) we introduce an anchored-based Out of Distribution (OOD) Regression Mixup algorithm, leveraging manifold hidden state mixup and observation similarities to form a novel regularization penalty, (2) we provide a first of its kind, high resolution Distributed Acoustic Sensor (DAS) dataset that is suitable for testing OOD regression modelling, allowing other researchers to benchmark progress in this area, and (3) we demonstrate with an extensive evaluation the generalization performance of the proposed method against existing approaches, then show that our method achieves state-of-the-art performance. 最後に,Udacity や Rotation-MNIST など,他の回帰データセットに対する一般化性能の向上を図り,提案手法の適用性を示す。

Generalizing the application of machine learning models to situations where the statistical distribution of training and test data are different has been a complex problem. Our contributions in this paper are threefold: (1) we introduce an anchored-based Out of Distribution (OOD) Regression Mixup algorithm, leveraging manifold hidden state mixup and observation similarities to form a novel regularization penalty, (2) we provide a first of its kind, high resolution Distributed Acoustic Sensor (DAS) dataset that is suitable for testing OOD regression modelling, allowing other researchers to benchmark progress in this area, and (3) we demonstrate with an extensive evaluation the generalization performance of the proposed method against existing approaches, then show that our method achieves state-of-the-art performance. Lastly, we also demonstrate a wider applicability of the proposed method by exhibiting improved generalization performances on other types of regression datasets, including Udacity and Rotation-MNIST datasets.
翻訳日:2022-02-24 15:47:53 公開日:2022-02-23
# グラフ畳み込みネットワークを用いたコンピュータ支援工学(CAE)部品の分類

Classification of Computer Aided Engineering (CAE) Parts Using Graph Convolutional Networks ( http://arxiv.org/abs/2202.11289v1 )

ライセンス: Link先を確認
Alok Warey and Rajan Chakravarty(参考訳) CAEエンジニアは、複数のボディモデルにまたがる数百のパーツで作業する。 グラフ畳み込みネットワーク(GCN)はCAE部品分類器の開発に使用された。 トレーニングデータとして、代表体モデルから866個の異なる部品が使用された。 これらの部分は、x, y, z座標系の各ノードの値を持つ3次元有限要素解析(FEA)メッシュとして表現された。 GCNベースの分類器は、完全に接続されたニューラルネットワークとPointNetベースのモデルと比較された。 トレーニングモデルの性能は, トレーニングデータの一部を含むテストセットで評価したが, 追加の穴, 回転, 翻訳, メッシュの改良/調整, メッシュスキーマの変動, x, y軸に沿ったミラーリング, 地形特徴の変動, メッシュノード順序の変化などがあった。 訓練されたgcnモデルは、試験セットにおいて88.5%の分類精度を達成できた。すなわち、ベースライン部分から有意な変化にもかかわらず、866のデータセットから正しいマッチング部分を見つけることができた。 この研究で実証されたCAE部品分類器は、いくつかのボディモデルにまたがるCAE部品をフィルターすることで、要求を満たす部品を見つけるのに非常に有用である。

CAE engineers work with hundreds of parts spread across multiple body models. A Graph Convolutional Network (GCN) was used to develop a CAE parts classifier. As many as 866 distinct parts from a representative body model were used as training data. The parts were represented as a three-dimensional (3-D) Finite Element Analysis (FEA) mesh with values of each node in the x, y, z coordinate system. The GCN based classifier was compared to fully connected neural network and PointNet based models. Performance of the trained models was evaluated with a test set that included parts from the training data, but with additional holes, rotation, translation, mesh refinement/coarsenin g, variation of mesh schema, mirroring along x and y axes, variation of topographical features, and change in mesh node ordering. The trained GCN model was able to achieve 88.5% classification accuracy on the test set i.e., it was able to find the correct matching part from the dataset of 866 parts despite significant variation from the baseline part. A CAE parts classifier demonstrated in this study could be very useful for engineers to filter through CAE parts spread across several body models to find parts that meet their requirements.
翻訳日:2022-02-24 15:47:38 公開日:2022-02-23
# fastrpb: 長いシーケンスタスクのためのスケーラブルな相対位置符号化

FastRPB: a Scalable Relative Positional Encoding for Long Sequence Tasks ( http://arxiv.org/abs/2202.11364v1 )

ライセンス: Link先を確認
Maksim Zubkov, Daniil Gavrilov(参考訳) トランスフォーマーは、NLP、CV、オーディオ処理、グラフ解析など、様々な領域で顕著な性能を発揮する。 しかし、それらは2次複雑性 w.r.t. の入力長のため、長いシーケンスタスクではうまくスケールしない。 この制限に対処するために線形変換器が提案された。 しかし、これらのモデルでは、元のモデルと比較して長いシーケンスタスクではより弱い性能を示している。 本稿では,Linear Transformerモデルについて検討し,その2つのコアコンポーネントを再考する。 まず,シフト不変カーネル関数sikfを用いた線形変圧器の改良を行い,速度を損なうことなく高い精度を実現する。 次に,高速フーリエ変換を用いて位置情報を自己注意に効率的に付加するFast Relative Positional BiasのFastRPBを紹介する。 FastRPBは自己アテンション機構とは独立であり、元の自己アテンションと全ての効率的な変異と組み合わせることができる。 FastRPB は O(N log(N)) の計算複雑性を持ち、O(N) メモリ w.r.t. 入力シーケンス長 N を必要とする。

Transformers achieve remarkable performance in various domains, including NLP, CV, audio processing, and graph analysis. However, they do not scale well on long sequence tasks due to their quadratic complexity w.r.t. the inputs length. Linear Transformers were proposed to address this limitation. However, these models have shown weaker performance on the long sequence tasks comparing to the original one. In this paper, we explore Linear Transformer models, rethinking their two core components. Firstly, we improved Linear Transformer with Shift-Invariant Kernel Function SIKF, which achieve higher accuracy without loss in speed. Secondly, we introduce FastRPB which stands for Fast Relative Positional Bias, which efficiently adds positional information to self-attention using Fast Fourier Transformation. FastRPB is independent of the self-attention mechanism and can be combined with an original self-attention and all its efficient variants. FastRPB has O(N log(N)) computational complexity, requiring O(N) memory w.r.t. input sequence length N.
翻訳日:2022-02-24 15:47:18 公開日:2022-02-23
# 時系列予測のための変圧器に基づく差分注意融合モデル

A Differential Attention Fusion Model Based on Transformer for Time Series Forecasting ( http://arxiv.org/abs/2202.11402v1 )

ライセンス: Link先を確認
Benhan Li, Shengdong Du, Tianrui Li(参考訳) 時系列予測は、機器ライフサイクル予測、天気予報、交通流予測などの分野で広く利用されている。 近年,並列学習能力の強化により,時系列予測にトランスフォーマーを適用しようとする研究者が増えている。 しかし、既存の変圧器法は予測に決定的な役割を果たす小さな時間セグメントに十分な注意を払わず、時系列の傾向に影響を与える小さな変化に影響を受けず、連続時間依存の特徴を効果的に学習することは困難である。 そこで本研究では,従来のTransformerアーキテクチャに基づいて,差分層,隣接する注目層,すべり融合機構,残留層を設計したTransformerに基づく差分注意融合モデルを提案する。 具体的には, 隣接点の違いを抽出し, 差分と隣接点に着目した。 スライディングフュージョン機構は、データが重要な情報を失うことなくエンコードおよびデコードに参加することができるように、各時点の様々な特徴を融合する。 畳み込みとLSTMを含む残層は、更に時間点間の依存を学習し、我々のモデルがより深いトレーニングを行うことを可能にします。 3つのデータセットに対する多数の実験により,本手法が生成した予測結果が最先端の予測結果と好適に比較できることが示された。

Time series forecasting is widely used in the fields of equipment life cycle forecasting, weather forecasting, traffic flow forecasting, and other fields. Recently, some scholars have tried to apply Transformer to time series forecasting because of its powerful parallel training ability. However, the existing Transformer methods do not pay enough attention to the small time segments that play a decisive role in prediction, making it insensitive to small changes that affect the trend of time series, and it is difficult to effectively learn continuous time-dependent features. To solve this problem, we propose a differential attention fusion model based on Transformer, which designs the differential layer, neighbor attention, sliding fusion mechanism, and residual layer on the basis of classical Transformer architecture. Specifically, the differences of adjacent time points are extracted and focused by difference and neighbor attention. The sliding fusion mechanism fuses various features of each time point so that the data can participate in encoding and decoding without losing important information. The residual layer including convolution and LSTM further learns the dependence between time points and enables our model to carry out deeper training. A large number of experiments on three datasets show that the prediction results produced by our method are favorably comparable to the state-of-the-art.
翻訳日:2022-02-24 15:47:03 公開日:2022-02-23
# 不確実性駆動オフライン強化学習のための悲観的ブートストラップ

Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement Learning ( http://arxiv.org/abs/2202.11566v1 )

ライセンス: Link先を確認
Chenjia Bai, Lingxiao Wang, Zhuoran Yang, Zhihong Deng, Animesh Garg, Peng Liu, Zhaoran Wang(参考訳) オフライン強化学習(rl)は、環境を探索することなく、以前収集したデータセットからポリシーを学ぶことを目的としている。 オフラインrlにオフポリシーアルゴリズムを直接適用することは、通常、out-of-distribution (ood) アクションによって引き起こされる外挿エラーのために失敗する。 従来の手法では、oodアクションのq値のペナルティを課したり、トレーニングされたポリシーを行動ポリシーに近いものに制限したりすることでこの問題に取り組む。 しかしながら、そのような手法は、通常、オフラインデータを超えた値関数の一般化を防ぎ、OODデータの正確な特徴を欠いている。 本稿では,ポリシ制約のない純粋不確実性駆動オフラインアルゴリズムであるオフラインrl(pbrl)の悲観的ブートストラップを提案する。 具体的には、自己ストラップ付きQ-関数の不一致による不確実性の定量化を行い、推定された不確実性に基づいて値関数をペナリゼーションすることで悲観的な更新を行う。 さらに,外挿誤差に対処するため,新しいOODサンプリング手法を提案する。 このようなOODサンプリングと悲観的ブートストラッピングは線形MDPにおいて証明可能な不確実性定量化器となり,PBRLの理論的基盤となることを示す。 D4RLベンチマークの大規模な実験により、PBRLは最先端のアルゴリズムよりも優れた性能を示している。

Offline Reinforcement Learning (RL) aims to learn policies from previously collected datasets without exploring the environment. Directly applying off-policy algorithms to offline RL usually fails due to the extrapolation error caused by the out-of-distribution (OOD) actions. Previous methods tackle such problem by penalizing the Q-values of OOD actions or constraining the trained policy to be close to the behavior policy. Nevertheless, such methods typically prevent the generalization of value functions beyond the offline data and also lack precise characterization of OOD data. In this paper, we propose Pessimistic Bootstrapping for offline RL (PBRL), a purely uncertainty-driven offline algorithm without explicit policy constraints. Specifically, PBRL conducts uncertainty quantification via the disagreement of bootstrapped Q-functions, and performs pessimistic updates by penalizing the value function based on the estimated uncertainty. To tackle the extrapolating error, we further propose a novel OOD sampling method. We show that such OOD sampling and pessimistic bootstrapping yields provable uncertainty quantifier in linear MDPs, thus providing the theoretical underpinning for PBRL. Extensive experiments on D4RL benchmark show that PBRL has better performance compared to the state-of-the-art algorithms.
翻訳日:2022-02-24 15:46:40 公開日:2022-02-23
# バンドルレコメンデーションのための多視点遠方グラフネットワーク

Multi-view Intent Disentangle Graph Networks for Bundle Recommendation ( http://arxiv.org/abs/2202.11425v1 )

ライセンス: Link先を確認
Sen Zhao, Wei Wei, Ding Zou, Xianling Mao(参考訳) bundle recommendationは、ユーザに対してアイテム全体のバンドルを推奨することを目的としている。 それにもかかわらず、彼らは通常、アイテムを採用するユーザの意図の多様性を無視し、表現におけるユーザの意図を混乱させない。 バンドルレコメンデーションの実際のシナリオでは、ユーザのインテントはユーザの異なるバンドル(グローバルビュー)に自然に分散され、バンドルはユーザの複数のインテント(ローカルビュー)を含む可能性がある。 それぞれの視点には 意図の分離に対する利点があります 1) グローバル視点では,各インテントの提示により多くの項目が関与しており,各インテントの下でのユーザの嗜好をより明確に示すことができる。 2)同じバンドル内のアイテムが相互に高い相関関係にあるため,各意図の項目間の関連を明らかにすることができる。 そこで本研究では,ユーザ意図や項目の関連性の多様性をよりきめ細かな粒度で正確にかつ包括的に把握できる,Multi-view Intent Disentangle Graph Networks (MIDGN) という新しいモデルを提案する。 具体的には、MIDGNは、ユーザの意図を2つの異なる視点から切り離す。 1) グローバルレベルでは,MIDGNは,ユーザ意図とバンドルアイテムの混在を解消する。 2) ローカルレベルでは、midgnはユーザーの意図を各バンドル内のアイテムと結びつけて区別する。 一方,コントラスト学習フレームワークでは,異なる視点から分離したユーザの意図を比較し,学習意図を改善する。 2つのベンチマークデータセットで実施された大規模な実験により、MIDGNは最先端の手法をそれぞれ10.7%、26.8%上回った。

Bundle recommendation aims to recommend the user a bundle of items as a whole. Nevertheless, they usually neglect the diversity of the user's intents on adopting items and fail to disentangle the user's intents in representations. In the real scenario of bundle recommendation, a user's intent may be naturally distributed in the different bundles of that user (Global view), while a bundle may contain multiple intents of a user (Local view). Each view has its advantages for intent disentangling: 1) From the global view, more items are involved to present each intent, which can demonstrate the user's preference under each intent more clearly. 2) From the local view, it can reveal the association among items under each intent since items within the same bundle are highly correlated to each other. To this end, we propose a novel model named Multi-view Intent Disentangle Graph Networks (MIDGN), which is capable of precisely and comprehensively capturing the diversity of the user's intent and items' associations at the finer granularity. Specifically, MIDGN disentangles the user's intents from two different perspectives, respectively: 1) In the global level, MIDGN disentangles the user's intent coupled with inter-bundle items; 2) In the Local level, MIDGN disentangles the user's intent coupled with items within each bundle. Meanwhile, we compare the user's intents disentangled from different views under the contrast learning framework to improve the learned intents. Extensive experiments conducted on two benchmark datasets demonstrate that MIDGN outperforms the state-of-the-art methods by over 10.7% and 26.8%, respectively.
翻訳日:2022-02-24 15:46:17 公開日:2022-02-23
# DL-SLOT:グラフ最適化に基づく動的ライダーSLAMとオブジェクト追跡

DL-SLOT: Dynamic Lidar SLAM and Object Tracking Based On Graph Optimization ( http://arxiv.org/abs/2202.11431v1 )

ライセンス: Link先を確認
Xuebo Tian, Junqiao Zhao, Chen Ye(参考訳) ego-pose推定と動的物体追跡は、自動運転システムにおける2つの重要な問題である。 2つの仮定、すなわち、同時ローカライゼーションとマッピングの静的世界仮定(slam)と、オブジェクト追跡の正確なエゴポジット仮定(ego-pose assumption)である。 しかし、これらの仮定はSLAMとオブジェクト追跡が相互に相関し有益になるような、非常にダイナミックな道路シナリオでは成り立たない。 本稿では,動的Lidar SLAMとオブジェクト追跡手法であるDL-SLOTを提案する。 本手法は,エゴ車両と環境中の静的および動的オブジェクトの両方の状態推定を統一最適化フレームワークに統合し,SLAMとオブジェクト追跡(SLOT)を同時に実現する。 まず、潜在的な動的オブジェクトに属するすべてのポイントを取り除くために、オブジェクト検出を実装します。 次に、フィルタされた点雲を用いてLiDARオドメトリーを行う。 同時に、スライディングウインドウ内の時系列情報に基づいて、検出されたオブジェクトを履歴オブジェクト軌跡に関連付ける。 スライディングウィンドウにおける静的および動的オブジェクトおよびエゴ車両の状態は、統一された局所最適化フレームワークに統合される。 我々はこのフレームワークでSLAMとオブジェクトトラッキングを同時に実行し、高ダイナミックな道路シナリオにおけるSLAMの堅牢性と精度とオブジェクトの状態推定の精度を大幅に向上させる。 提案手法はA-LOAMよりも精度が高いことを示す。

Ego-pose estimation and dynamic object tracking are two key issues in an autonomous driving system. Two assumptions are often made for them, i.e. the static world assumption of simultaneous localization and mapping (SLAM) and the exact ego-pose assumption of object tracking, respectively. However, these assumptions are difficult to hold in highly dynamic road scenarios where SLAM and object tracking become correlated and mutually beneficial. In this paper, DL-SLOT, a dynamic Lidar SLAM and object tracking method is proposed. This method integrates the state estimations of both the ego vehicle and the static and dynamic objects in the environment into a unified optimization framework, to realize SLAM and object tracking (SLOT) simultaneously. Firstly, we implement object detection to remove all the points that belong to potential dynamic objects. Then, LiDAR odometry is conducted using the filtered point cloud. At the same time, detected objects are associated with the history object trajectories based on the time-series information in a sliding window. The states of the static and dynamic objects and ego vehicle in the sliding window are integrated into a unified local optimization framework. We perform SLAM and object tracking simultaneously in this framework, which significantly improves the robustness and accuracy of SLAM in highly dynamic road scenarios and the accuracy of objects' states estimation. Experiments on public datasets have shown that our method achieves better accuracy than A-LOAM.
翻訳日:2022-02-24 15:45:50 公開日:2022-02-23
# 断面依存性を有するパネルの粒状非因果性試験

Testing Granger Non-Causality in Panels with Cross-Sectional Dependencies ( http://arxiv.org/abs/2202.11612v1 )

ライセンス: Link先を確認
Lenon Minorics, Caner Turkmen, David Kernert, Patrick Bloebaum, Laurent Callot, Dominik Janzing(参考訳) 本稿では,パネルデータ上でGrangerの非因果性をテストするための新しい手法を提案する。 パネルメンバの統計を集約する代わりに、対応するp値を集約し、パネルメンバが依存している場合でも、結果のp値が選択した重要度レベルでタイプiエラーにほぼバウンドすることを示す。 パネルデータ上で最も広く使われているGranger因果性アルゴリズムに対する我々のアプローチを比較し、我々のアプローチは、大きなサンプルサイズと断面積依存のパネルに対して、同じパワーで低いFDRが得られることを示す。 最後に、世界中の国や地域で測定された感染者と死亡者に関するCOVID-19データについて検討し、現状のアプローチが失敗しながら、確認されたケースと死亡者の間の真の因果関係を見出すことができることを示す。

This paper proposes a new approach for testing Granger non-causality on panel data. Instead of aggregating panel member statistics, we aggregate their corresponding p-values and show that the resulting p-value approximately bounds the type I error by the chosen significance level even if the panel members are dependent. We compare our approach against the most widely used Granger causality algorithm on panel data and show that our approach yields lower FDR at the same power for large sample sizes and panels with cross-sectional dependencies. Finally, we examine COVID-19 data about confirmed cases and deaths measured in countries/regions worldwide and show that our approach is able to discover the true causal relation between confirmed cases and deaths while state-of-the-art approaches fail.
翻訳日:2022-02-24 15:45:00 公開日:2022-02-23
# RDP-Net:変更検出のための領域詳細保存ネットワーク

RDP-Net: Region Detail Preserving Network for Change Detection ( http://arxiv.org/abs/2202.09745v2 )

ライセンス: Link先を確認
Hongjia Chen, Fangling Pu, Rui Yang, Rui Tang, Xin Xu(参考訳) 変化検出(CD)は重要な地球観測技術である。 陸地オブジェクトの動的情報をキャプチャする。 ディープラーニングの台頭に伴い、ニューラルネットワーク(NN)はCDに大きな可能性を示している。 しかし、現在のnnモデルは学習中に詳細情報を失うバックボーンアーキテクチャを導入している。 さらに、現在のNNモデルはパラメータが重いため、ドローンなどのエッジデバイスへのデプロイを妨げている。 本研究は,CD のための領域詳細保存ネットワーク RDP-Net を提案することでこの問題に対処する。 NNトレーニングのウォームアップ期間中の個々のサンプルの重要性を定量化する,効率的なトレーニング戦略を提案する。 そして,重要度スコアに基づいて非一様サンプリングを行い,nnが分かり易く難易度の高い詳細情報を学習できるようにする。 次に,境界や小領域といった細部に対するネットワークの注意を向上する効果的なエッジロスを提案する。 その結果,170mのパラメータしか持たないcdにおける最先端の経験的性能を実現するnnモデルを提供する。 当社のRDP-Netは,コンパクトデバイス上での実用的なCDアプリケーションのメリットを享受し,より効率的なトレーニング戦略によって,変革検出を新たなレベルに導くことができることを願っています。

Change detection (CD) is an essential earth observation technique. It captures the dynamic information of land objects. With the rise of deep learning, neural networks (NN) have shown great potential in CD. However, current NN models introduce backbone architectures that lose the detail information during learning. Moreover, current NN models are heavy in parameters, which prevents their deployment on edge devices such as drones. In this work, we tackle this issue by proposing RDP-Net: a region detail preserving network for CD. We propose an efficient training strategy that quantifies the importance of individual samples during the warmup period of NN training. Then, we perform non-uniform sampling based on the importance score so that the NN could learn detail information from easy to hard. Next, we propose an effective edge loss that improves the network's attention on details such as boundaries and small regions. As a result, we provide a NN model that achieves the state-of-the-art empirical performance in CD with only 1.70M parameters. We hope our RDP-Net would benefit the practical CD applications on compact devices and could inspire more people to bring change detection to a new level with the efficient training strategy.
翻訳日:2022-02-24 15:44:45 公開日:2022-02-23
# FUNQUE: 統一品質評価器の融合

FUNQUE: Fusion of Unified Quality Evaluators ( http://arxiv.org/abs/2202.11241v1 )

ライセンス: Link先を確認
Abhinau K. Venkataramanan, Cosmin Stejerean and Alan C. Bovik(参考訳) 核融合に基づく品質評価は、個別に低い性能を達成する品質モデルから高性能品質モデルを開発するための強力な方法として現れてきた。 そのようなアルゴリズムの顕著な例はVMAFであり、SSIMと共にビデオ品質予測の業界標準として広く採用されている。 最先端の技術の進歩に加えて、異質な品質モデルの使用による計算負荷の軽減が不可欠である。 本稿では,人間の視覚システムを考慮した共通変換領域で計算することにより,"原子"の品質モデルを統一し,統一された品質評価器を融合する品質モデルであるfunqueを提案する。 最新技術と比較すると,funqueは主観的スコアと効率との相関性において,計算共有により有意な改善が得られている。

Fusion-based quality assessment has emerged as a powerful method for developing high-performance quality models from quality models that individually achieve lower performances. A prominent example of such an algorithm is VMAF, which has been widely adopted as an industry standard for video quality prediction along with SSIM. In addition to advancing the state-of-the-art, it is imperative to alleviate the computational burden presented by the use of a heterogeneous set of quality models. In this paper, we unify "atom" quality models by computing them on a common transform domain that accounts for the Human Visual System, and we propose FUNQUE, a quality model that fuses unified quality evaluators. We demonstrate that in comparison to the state-of-the-art, FUNQUE offers significant improvements in both correlation against subjective scores and efficiency, due to computation sharing.
翻訳日:2022-02-24 15:44:26 公開日:2022-02-23
# 終端から終端までの画像デライニングと物体検出ニューラルネットワーク

An End-to-End Cascaded Image Deraining and Object Detection Neural Network ( http://arxiv.org/abs/2202.11279v1 )

ライセンス: Link先を確認
Kaige Wang, Tianming Wang, Jianchuang Qu, Huatao Jiang, Qing Li, Lin Chang(参考訳) 近年,深層学習に基づく画像抽出手法は大きな進歩を遂げているが,現実の状況では,その応用には2つの大きな欠点がある。 まず,降雨量で表される低レベルの視覚課題と物体検出で表される高レベルの視覚タスクとのギャップが重要であり,低レベルの視覚タスクは高レベルの視覚タスクにほとんど寄与しない。 第二に、デレインデータセットの品質が改善される必要がある。 実際、多くの基準線における降雨線は実際の降雨線と大きなギャップがあり、デライニングデータセット画像の解像度は概して理想的ではない。 一方、低レベルのビジョンタスクと高レベルのビジョンタスクの両方に共通するデータセットは少ない。 本稿では,低レベル視覚タスクと高レベル視覚タスクの組み合わせについて検討する。 具体的には,2つのカスケードネットワーク,改良されたイメージレーディングネットワーク,およびオブジェクト検出ネットワークからなる,降雨の影響を低減するためのエンドツーエンドオブジェクト検出ネットワークを提案する。 また、異なるサブネットワークの特性に対応するために、損失関数のコンポーネントも設計する。 次に、降雨除去と物体検出のためのKITTIデータセットに基づくデータセットを提案する。 また,提案ネットワークは,自動運転車が収集した運転映像に基づいて測定され,降雨除去や物体検出の好結果を示す。

While the deep learning-based image deraining methods have made great progress in recent years, there are two major shortcomings in their application in real-world situations. Firstly, the gap between the low-level vision task represented by rain removal and the high-level vision task represented by object detection is significant, and the low-level vision task can hardly contribute to the high-level vision task. Secondly, the quality of the deraining dataset needs to be improved. In fact, the rain lines in many baselines have a large gap with the real rain lines, and the resolution of the deraining dataset images is generally not ideally. Meanwhile, there are few common datasets for both the low-level vision task and the high-level vision task. In this paper, we explore the combination of the low-level vision task with the high-level vision task. Specifically, we propose an end-to-end object detection network for reducing the impact of rainfall, which consists of two cascaded networks, an improved image deraining network and an object detection network, respectively. We also design the components of the loss function to accommodate the characteristics of the different sub-networks. We then propose a dataset based on the KITTI dataset for rainfall removal and object detection, on which our network surpasses the state-of-the-art with a significant improvement in metrics. Besides, our proposed network is measured on driving videos collected by self-driving vehicles and shows positive results for rain removal and object detection.
翻訳日:2022-02-24 15:44:13 公開日:2022-02-23
# エコフュージョン:効率的な自律車両知覚のためのエネルギアウェア適応センサ融合

EcoFusion: Energy-Aware Adaptive Sensor Fusion for Efficient Autonomous Vehicle Perception ( http://arxiv.org/abs/2202.11330v1 )

ライセンス: Link先を確認
Arnav Vaibhav Malawade, Trier Mortlock, Mohammad Abdullah Al Faruque(参考訳) 自動運転車は、複数のセンサー、大きなディープラーニングモデル、強力なハードウェアプラットフォームを使用して環境を認識し、安全にナビゲートする。 多くの文脈において、いくつかの感度はエネルギー消費を増やしながら知覚に悪影響を及ぼす。 そこで本研究では,環境情報を用いたセンサ融合手法であるecofusionを提案する。 EcoFusionは既存の核融合法に比べて最大9.5%パフォーマンスが良く、業界標準のNvidia Drive PX2ハードウェアプラットフォームでは、約60%のエネルギーと58%のレイテンシで動作している。 また,いくつかの文脈識別戦略を提案し,エネルギーと性能の協調最適化を実装し,シナリオ固有の結果を提案する。

Autonomous vehicles use multiple sensors, large deep-learning models, and powerful hardware platforms to perceive the environment and navigate safely. In many contexts, some sensing modalities negatively impact perception while increasing energy consumption. We propose EcoFusion: an energy-aware sensor fusion approach that uses context to adapt the fusion method and reduce energy consumption without affecting perception performance. EcoFusion performs up to 9.5% better at object detection than existing fusion methods with approximately 60% less energy and 58% lower latency on the industry-standard Nvidia Drive PX2 hardware platform. We also propose several context-identificati on strategies, implement a joint optimization between energy and performance, and present scenario-specific results.
翻訳日:2022-02-24 15:43:49 公開日:2022-02-23
# proformer: プロトタイプに基づく特徴拡張と視覚トランスフォーマーによる身体運動の効率的なデータ表現

ProFormer: Learning Data-efficient Representations of Body Movement with Prototype-based Feature Augmentation and Visual Transformers ( http://arxiv.org/abs/2202.11423v1 )

ライセンス: Link先を確認
Kunyu Peng, Alina Roitberg, Kailun Yang, Jiaming Zhang, Rainer Stiefelhagen(参考訳) 人間の行動を自動的に理解することで、家庭のロボットは最も重要なニーズを特定し、現在の状況に応じて人間を助ける方法を計画できる。 しかし、そのような手法の大多数は、多くのラベル付きトレーニング例が興味あるすべての概念に利用できるという前提のもとに開発されている。 一方ロボットは、絶えず変化する非構造環境の中で動作し、ごく少数のサンプルから新しいアクションカテゴリに適応する必要がある。 身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用し、畳み込みニューラルネットワークの入力として使われるようになった。 我々は、このパラダイムをトランスフォーマーネットワークの観点から捉え、初めて視覚トランスフォーマーをスケルトン運動のデータ効率の高いエンコーダとして探究した。 私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。 半教師付き学習における機能強化手法の最近の成功に触発されて、さらにproformer -- 埋め込みの強化と補助一貫性損失の計算に使用される反復的に推定されたアクションカテゴリプロトタイプに適用されたソフトアテンションを使用する、改良されたトレーニング戦略を紹介します。 広範囲にわたる実験は、ボディポーズからのワンショット認識に対する我々のアプローチの有効性を一貫して示し、複数のデータセットで最先端の結果を達成し、挑戦的なNTU-120ワンショットベンチマークにおける最も優れたアプローチを1.84%上回った。 私たちのコードはhttps://github.com/K Peng9510/ProFormer.c omで公開されます。

Automatically understanding human behaviour allows household robots to identify the most critical needs and plan how to assist the human according to the current situation. However, the majority of such methods are developed under the assumption that a large amount of labelled training examples is available for all concepts-of-interest . Robots, on the other hand, operate in constantly changing unstructured environments, and need to adapt to novel action categories from very few samples. Methods for data-efficient recognition from body poses increasingly leverage skeleton sequences structured as image-like arrays and then used as input to convolutional neural networks. We look at this paradigm from the perspective of transformer networks, for the first time exploring visual transformers as data-efficient encoders of skeleton movement. In our pipeline, body pose sequences cast as image-like representations are converted into patch embeddings and then passed to a visual transformer backbone optimized with deep metric learning. Inspired by recent success of feature enhancement methods in semi-supervised learning, we further introduce ProFormer -- an improved training strategy which uses soft-attention applied on iteratively estimated action category prototypes used to augment the embeddings and compute an auxiliary consistency loss. Extensive experiments consistently demonstrate the effectiveness of our approach for one-shot recognition from body poses, achieving state-of-the-art results on multiple datasets and surpassing the best published approach on the challenging NTU-120 one-shot benchmark by 1.84%. Our code will be made publicly available at https://github.com/K Peng9510/ProFormer.
翻訳日:2022-02-24 15:43:32 公開日:2022-02-23
# (参考訳) 伝達学習における幾何学的構造のクラス:ミニマックス境界と最適性 [全文訳有]

A Class of Geometric Structures in Transfer Learning: Minimax Bounds and Optimality ( http://arxiv.org/abs/2202.11685v1 )

ライセンス: CC BY 4.0
Xuhui Zhang and Jose Blanchet and Soumyadip Ghosh and Mark S. Squillante(参考訳) 情報理論的な限界を理解するための以前の取り組みは、ソース領域とターゲット領域の幾何学的構造を十分に活用していないことを観察して、トランスファー学習の問題を考察する。 対照的に、本研究では、線形回帰モデルに自然幾何学的構造を組み込むことの利点を、両領域のグラム行列によって形成される一般化固有値問題に対応づける。 次に,有限個のミニマックス下限を定式化し,一致する上界を楽しむ洗練されたモデル補間推定器を提案し,その枠組みを複数のソース領域と一般化線形モデルに拡張する。 驚いたことに、ソースパラメータとターゲットパラメータ間の距離で情報が得られる限り、負の転送は発生しない。 シミュレーション研究により,提案した補間推定器は,中等度・高次元の両方で最先端の伝達学習法より優れていることが示された。

We study the problem of transfer learning, observing that previous efforts to understand its information-theoreti c limits do not fully exploit the geometric structure of the source and target domains. In contrast, our study first illustrates the benefits of incorporating a natural geometric structure within a linear regression model, which corresponds to the generalized eigenvalue problem formed by the Gram matrices of both domains. We next establish a finite-sample minimax lower bound, propose a refined model interpolation estimator that enjoys a matching upper bound, and then extend our framework to multiple source domains and generalized linear models. Surprisingly, as long as information is available on the distance between the source and target parameters, negative-transfer does not occur. Simulation studies show that our proposed interpolation estimator outperforms state-of-the-art transfer learning methods in both moderate- and high-dimensional settings.
翻訳日:2022-02-24 15:41:13 公開日:2022-02-23
# ベイズモデルの選択、限界可能性、一般化

Bayesian Model Selection, the Marginal Likelihood, and Generalization ( http://arxiv.org/abs/2202.11678v1 )

ライセンス: Link先を確認
Sanae Lotfi, Pavel Izmailov, Gregory Benton, Micah Goldblum, Andrew Gordon Wilson(参考訳) 観測と完全に一致した仮説を比較するにはどうすればよいのか? 境界確率(ベイズ証拠とも呼ばれる)は、前者から観測結果を生成する確率を表し、occamのカミソリを自動的にエンコードするこの基礎的問題に対する独特のアプローチを提供する。 余剰確率がオーバーフィットし、事前の仮定に敏感であることが観察されているが、ハイパーパラメータ学習と離散モデル比較の限界は十分には研究されていない。 まず,学習制約や仮説テストに対する限界確率の魅力について再検討する。 次に、一般化の代用として限界確率を用いる際の概念的および実践的な問題を強調する。 具体的には,超パラメータ学習における不適合と過剰フィッティングの両面において,神経アーキテクチャ探索の意義から,限界可能性と一般化との負の相関性を示す。 本稿では,より一般化に整合した条件付き辺縁確率による部分的治療を行い,カーネル学習などの大規模ハイパーパラメータ学習に有用であることを示す。

How do we compare between hypotheses that are entirely consistent with observations? The marginal likelihood (aka Bayesian evidence), which represents the probability of generating our observations from a prior, provides a distinctive approach to this foundational question, automatically encoding Occam's razor. Although it has been observed that the marginal likelihood can overfit and is sensitive to prior assumptions, its limitations for hyperparameter learning and discrete model comparison have not been thoroughly investigated. We first revisit the appealing properties of the marginal likelihood for learning constraints and hypothesis testing. We then highlight the conceptual and practical issues in using the marginal likelihood as a proxy for generalization. Namely, we show how marginal likelihood can be negatively correlated with generalization, with implications for neural architecture search, and can lead to both underfitting and overfitting in hyperparameter learning. We provide a partial remedy through a conditional marginal likelihood, which we show is more aligned with generalization, and practically valuable for large-scale hyperparameter learning, such as in deep kernel learning.
翻訳日:2022-02-24 15:06:40 公開日:2022-02-23
# Amodal Panoptic Segmentation

Amodal Panoptic Segmentation ( http://arxiv.org/abs/2202.11542v1 )

ライセンス: Link先を確認
Rohit Mohan, Abhinav Valada(参考訳) 人間は、その一部が占有されている場合でも、全体として物体を知覚する顕著な能力を持っている。 この無様知覚の能力は、私たちの世界に対する知覚的および認知的理解の基礎を成す。 ロボットがこの能力に合理化できるようにするため、我々はamodal panoptic segmentationという新しいタスクを定式化し、提案する。 このタスクの目的は、物クラスの可視領域のピクセル単位の意味セグメンテーションラベルと、物クラスの可視領域と隠蔽領域の両方のインスタンスセグメンテーションラベルを同時に予測することである。 この新しいタスクの研究を容易にするため,KITTI-360-APSとBDD100K-APSとして公開している画素レベルのアモーダルパノプティックセグメンテーションラベルを用いた2つのベンチマークデータセットを拡張した。 amodal panoptic quality (apq) と amodal parse coverage (apc) の指標と共に、いくつかの強力なベースラインを示し、そのパフォーマンスを解釈可能な方法で定量化する。 さらに,この課題に対する第一歩として,occludersとoccludesの複雑な関係を明示的にモデル化し,apsnet(amodal panoptic segmentation network)を提案する。 APSNetは両ベンチマークで最先端のパフォーマンスを実現しており、さらに重要なことはアモーダル認識の有用性を実証している。 ベンチマークはhttp://amodal-panopt ic.cs.uni-freiburg.d eで利用可能である。

Humans have the remarkable ability to perceive objects as a whole, even when parts of them are occluded. This ability of amodal perception forms the basis of our perceptual and cognitive understanding of our world. To enable robots to reason with this capability, we formulate and propose a novel task that we name amodal panoptic segmentation. The goal of this task is to simultaneously predict the pixel-wise semantic segmentation labels of the visible regions of stuff classes and the instance segmentation labels of both the visible and occluded regions of thing classes. To facilitate research on this new task, we extend two established benchmark datasets with pixel-level amodal panoptic segmentation labels that we make publicly available as KITTI-360-APS and BDD100K-APS. We present several strong baselines, along with the amodal panoptic quality (APQ) and amodal parsing coverage (APC) metrics to quantify the performance in an interpretable manner. Furthermore, we propose the novel amodal panoptic segmentation network (APSNet), as a first step towards addressing this task by explicitly modeling the complex relationships between the occluders and occludes. Extensive experimental evaluations demonstrate that APSNet achieves state-of-the-art performance on both benchmarks and more importantly exemplifies the utility of amodal recognition. The benchmarks are available at http://amodal-panopt ic.cs.uni-freiburg.d e.
翻訳日:2022-02-24 15:06:21 公開日:2022-02-23
# MLProxy: サーバレスコンピューティングプラットフォーム上でのマシンラーニング推論のためのSLA対応のリバースプロキシ

MLProxy: SLA-Aware Reverse Proxy for Machine Learning Inference Serving on Serverless Computing Platforms ( http://arxiv.org/abs/2202.11243v1 )

ライセンス: Link先を確認
Nima Mahmoudi, Hamzeh Khazaei(参考訳) クラウド上で機械学習推論ワークロードを提供するのは、プロダクションレベルではまだ難しい課題です。 SLA要件を満たすための推論ワークロードの最適設定とインフラストラクチャコストの最適化は、バッチ設定、リソース設定、変数到着プロセスの間の複雑な相互作用のため、非常に複雑です。 サーバーレスコンピューティングは、多くのインフラストラクチャ管理タスクを自動化するために近年登場している。 ワークロードのバッチ化によって、マシンラーニングサービスワークロードの応答時間とコスト効率が向上する可能性が明らかになった。 しかし、サーバーレスコンピューティングプラットフォームではまだサポートされていない。 我々の実験は、さまざまな機械学習ワークロードに対して、バッチ処理が要求毎の処理オーバーヘッドを削減し、システムの効率を大幅に改善できることを示しました。 本稿では、サーバーレスコンピューティングシステムにおける効率的な機械学習サービスを支援する適応型リバースプロキシであるmlproxyを提案する。 MLProxyは適応バッチをサポートし、サーバレスコストを最適化しながらSLA準拠を保証する。 我々はKnativeで厳密な実験を行い、MLProxyの有効性を実証した。 mlproxyは、サーバーレスデプロイメントのコストを最大92%削減できると同時に、最先端のモデル提供フレームワークにまたがって一般化可能な、sla違反を最大99%削減できることを示した。

Serving machine learning inference workloads on the cloud is still a challenging task on the production level. Optimal configuration of the inference workload to meet SLA requirements while optimizing the infrastructure costs is highly complicated due to the complex interaction between batch configuration, resource configurations, and variable arrival process. Serverless computing has emerged in recent years to automate most infrastructure management tasks. Workload batching has revealed the potential to improve the response time and cost-effectiveness of machine learning serving workloads. However, it has not yet been supported out of the box by serverless computing platforms. Our experiments have shown that for various machine learning workloads, batching can hugely improve the system's efficiency by reducing the processing overhead per request. In this work, we present MLProxy, an adaptive reverse proxy to support efficient machine learning serving workloads on serverless computing systems. MLProxy supports adaptive batching to ensure SLA compliance while optimizing serverless costs. We performed rigorous experiments on Knative to demonstrate the effectiveness of MLProxy. We showed that MLProxy could reduce the cost of serverless deployment by up to 92% while reducing SLA violations by up to 99% that can be generalized across state-of-the-art model serving frameworks.
翻訳日:2022-02-24 15:05:54 公開日:2022-02-23
# 緊急対応のための意思決定支援システムの設計:課題と機会

Designing Decision Support Systems for Emergency Response: Challenges and Opportunities ( http://arxiv.org/abs/2202.11268v1 )

ライセンス: Link先を確認
Geoffrey Pettet and Hunter Baxter and Sayyed Mohsen Vazirizade and Hemant Purohit and Meiyi Ma and Ayan Mukhopadhyay and Abhishek Dubey(参考訳) 道路事故等の事故に対応する効果的な緊急対応管理システム(ERM)を設計することは,地域社会が直面する大きな問題である。 毎日の頻繁な事故への対応に加えて(約2億4000万の救急医療サービスコールと米国で毎年500万件の交通事故)、これらのシステムは自然災害時の対応も支援している。 近年、緊急対応者がより効率的かつ効果的に対応できるような意思決定支援と最適化ツールの構築に一貫した関心が寄せられている。 これには、初期インシデント検出、インシデント予測、戦略的リソース割り当てとディスパッチポリシを実装する、多数の原則化されたサブシステムが含まれている。 本稿では,重要な課題を取り上げ,我々のチームがコミュニティパートナと共同で開発したアプローチの概要を紹介する。

Designing effective emergency response management (ERM) systems to respond to incidents such as road accidents is a major problem faced by communities. In addition to responding to frequent incidents each day (about 240 million emergency medical services calls and over 5 million road accidents in the US each year), these systems also support response during natural hazards. Recently, there has been a consistent interest in building decision support and optimization tools that can help emergency responders provide more efficient and effective response. This includes a number of principled subsystems that implement early incident detection, incident likelihood forecasting and strategic resource allocation and dispatch policies. In this paper, we highlight the key challenges and provide an overview of the approach developed by our team in collaboration with our community partners.
翻訳日:2022-02-24 15:02:57 公開日:2022-02-23
# 神経一般化自己回帰条件ヘテロスケサシティ

Neural Generalised AutoRegressive Conditional Heteroskedasticity ( http://arxiv.org/abs/2202.11285v1 )

ライセンス: Link先を確認
Zexuan Yin and Paolo Barucca(参考訳) 金融時系列における条件付きヘテロケシュティリティをモデル化する手法のクラスであるneural garchを提案する。 ニューラル GARCH は単変量体における GARCH 1,1 モデルと多変量体における対角 BEKK 1,1 モデルのニューラルネットワーク適応である。 我々は、金融市場の常に変化するダイナミクスを反映するため、GARCHモデルの係数を時間的に変化させることを許す。 時間変化係数は確率勾配変動ベイズで訓練された繰り返しニューラルネットワークによってパラメータ化される。 我々は,本モデルの2つの変種を提案する。1つは通常のイノベーション,もう1つは学生tイノベーションである。 我々は、幅広い一変量および多変量財務時系列でモデルをテストし、ニューラル・スチューデントtモデルが他のモデルより一貫して優れていることを見出した。

We propose Neural GARCH, a class of methods to model conditional heteroskedasticity in financial time series. Neural GARCH is a neural network adaptation of the GARCH 1,1 model in the univariate case, and the diagonal BEKK 1,1 model in the multivariate case. We allow the coefficients of a GARCH model to be time varying in order to reflect the constantly changing dynamics of financial markets. The time varying coefficients are parameterised by a recurrent neural network that is trained with stochastic gradient variational Bayes. We propose two variants of our model, one with normal innovations and the other with Students t innovations. We test our models on a wide range of univariate and multivariate financial time series, and we find that the Neural Students t model consistently outperforms the others.
翻訳日:2022-02-24 15:02:23 公開日:2022-02-23
# ラベル分布学習による話者年齢推定に向けて

Towards Speaker Age Estimation with Label Distribution Learning ( http://arxiv.org/abs/2202.11424v1 )

ライセンス: Link先を確認
Shijing Si, Jianzong Wang, Junqing Peng, Jing Xiao(参考訳) 話者年齢推定の既存の方法は、通常、それを多クラス分類または回帰問題として扱う。 しかし、ラベルの曖昧さのため、正確な年齢識別は依然として課題であり、同一人物の隣接年齢からの発声はしばしば区別できない。 これに対処するために,年齢ラベル間の曖昧な情報を利用し,各年齢ラベルを離散ラベル分布に変換し,そのデータに適合するラベル分布学習(ldl)手法を活用する。 音声データサンプル毎に, 話者の年齢分布を推定し, その分布に加えて, 年齢予測と年齢不確実性最小化の2つのタスクを行う。 そこで,本手法は,年齢分類と回帰アプローチを自然に組み合わせ,手法の堅牢性を高める。 nist sre08-10データセットと実世界のデータセットについて実験を行い、本手法がベースラインメソッドを比較的大きなマージンで上回り、実世界のデータセットにおける平均絶対誤差(mae)を10%減少させることを示した。

Existing methods for speaker age estimation usually treat it as a multi-class classification or a regression problem. However, precise age identification remains a challenge due to label ambiguity, \emph{i.e.}, utterances from adjacent age of the same person are often indistinguishable. To address this, we utilize the ambiguous information among the age labels, convert each age label into a discrete label distribution and leverage the label distribution learning (LDL) method to fit the data. For each audio data sample, our method produces a age distribution of its speaker, and on top of the distribution we also perform two other tasks: age prediction and age uncertainty minimization. Therefore, our method naturally combines the age classification and regression approaches, which enhances the robustness of our method. We conduct experiments on the public NIST SRE08-10 dataset and a real-world dataset, which exhibit that our method outperforms baseline methods by a relatively large margin, yielding a 10\% reduction in terms of mean absolute error (MAE) on a real-world dataset.
翻訳日:2022-02-24 15:02:10 公開日:2022-02-23
# バーンスタイン条件を満たさない指数的局所ラドマチャー複雑度リスク境界

Exponential Tail Local Rademacher Complexity Risk Bounds Without the Bernstein Condition ( http://arxiv.org/abs/2202.11461v1 )

ライセンス: Link先を確認
Varun Kanade, Patrick Rebeschini, Tomas Vaskevicius(参考訳) 局所ラデマッハ複雑性フレームワークは、経験的リスク最小化の枠組みに基づく統計的推定器の急激な過剰リスク境界を確立するための最も成功した汎用ツールボックスの1つである。 このツールボックスを適用するには、典型的にはBernstein条件を使用する必要がある。 近年、モデル選択の根本的な問題を含む集約理論から導かれる非凸や不適切な推定器によって、最適な統計性能が達成できるという問題のいくつかを目撃している。 これらの例は現在、古典的ローカライゼーション理論の範囲外である。 本研究では, 一般の高確率理論が確立されていないオフセットラデマッハ錯体による局在化への最近のアプローチを基礎としている。 我々の主な結果は、古典理論によって得られるものよりも少なくとも鋭い結果をもたらすオフセットラデマッハ複雑性の観点から表される指数尾超過リスクである。 しかしながら、この境界は、古典理論が依拠する推定子非依存(一般に分布依存)ベルンシュタイン条件の代わりに、推定子非依存な幾何学的条件(「オフセット条件」)の下で適用される。 この結果は、古典理論を直接カバーしない不適切な予測レジームに適用できる。

The local Rademacher complexity framework is one of the most successful general-purpose toolboxes for establishing sharp excess risk bounds for statistical estimators based on the framework of empirical risk minimization. Applying this toolbox typically requires using the Bernstein condition, which often restricts applicability to convex and proper settings. Recent years have witnessed several examples of problems where optimal statistical performance is only achievable via non-convex and improper estimators originating from aggregation theory, including the fundamental problem of model selection. These examples are currently outside of the reach of the classical localization theory. In this work, we build upon the recent approach to localization via offset Rademacher complexities, for which a general high-probability theory has yet to be established. Our main result is an exponential-tail excess risk bound expressed in terms of the offset Rademacher complexity that yields results at least as sharp as those obtainable via the classical theory. However, our bound applies under an estimator-dependent geometric condition (the "offset condition") instead of the estimator-independen t (but, in general, distribution-depende nt) Bernstein condition on which the classical theory relies. Our results apply to improper prediction regimes not directly covered by the classical theory.
翻訳日:2022-02-24 15:01:51 公開日:2022-02-23
# 鏡像が再び揺らぐ:無限雑音下での最適確率凸最適化

Mirror Descent Strikes Again: Optimal Stochastic Convex Optimization under Infinite Noise Variance ( http://arxiv.org/abs/2202.11632v1 )

ライセンス: Link先を確認
Nuri Mert Vural, Lu Yu, Krishnakumar Balasubramanian, Stanislav Volgushev, Murat A. Erdogdu(参考訳) 無限雑音分散下での確率凸最適化について検討する。 具体的には、確率的勾配が偏りなく、ある$\kappa \in (0,1]$ に対して一様に有界な$(1+\kappa)$-th モーメントを持つとき、最適化問題の反復数、次元、および関連する幾何学的パラメータの観点から、一様凸ミラー写像の特定のクラスに対する確率的ミラー降下アルゴリズムの収束率を定量化する。 興味深いことに、このアルゴリズムは、いくつかの最近の経験的および理論的研究で広く使われている明示的な勾配クリッピングや正規化を必要としない。 収束結果と情報理論的下界を補完し、確率的一階オラクルのみを用いた他のアルゴリズムは改善率を達成できないことを示す。 その結果,ロバストな統計処理や機械学習による問題に対するオンライン/ストリーミング確率近似アルゴリズムの開発に,いくつかの興味深い結果が得られた。

We study stochastic convex optimization under infinite noise variance. Specifically, when the stochastic gradient is unbiased and has uniformly bounded $(1+\kappa)$-th moment, for some $\kappa \in (0,1]$, we quantify the convergence rate of the Stochastic Mirror Descent algorithm with a particular class of uniformly convex mirror maps, in terms of the number of iterations, dimensionality and related geometric parameters of the optimization problem. Interestingly this algorithm does not require any explicit gradient clipping or normalization, which have been extensively used in several recent empirical and theoretical works. We complement our convergence results with information-theoreti c lower bounds showing that no other algorithm using only stochastic first-order oracles can achieve improved rates. Our results have several interesting consequences for devising online/streaming stochastic approximation algorithms for problems arising in robust statistics and machine learning.
翻訳日:2022-02-24 15:01:28 公開日:2022-02-23
# 出力推定のための動的フィルタによるグローバル収束政策探索

Globally Convergent Policy Search over Dynamic Filters for Output Estimation ( http://arxiv.org/abs/2202.11659v1 )

ライセンス: Link先を確認
Jack Umenberger, Max Simchowitz, Juan C. Perdomo, Kaiqing Zhang, Russ Tedrake(参考訳) 本稿では,線形力学系の出力を予測する古典的問題に対して,大域的に最適な$\textit{dynamic}$フィルタに確実に収束する最初の直接ポリシー探索アルゴリズムを提案する。 部分的に観測可能であるにもかかわらず、現代の強化学習のバックボーンの一つである直接ポリシー探索アルゴリズムの理論的保証は達成が困難であることが証明されている。 これは主に内部状態を維持するフィルタを最適化する際に生じる退化によるものである。 本稿では,フィルタの内部状態のすべての成分が基礎となる力学系の真の状態を表すことを直感的に要求する$\textit{informativity}$という概念に基づいて,この問題に対する新たな視点を提供する。 我々は、情報化が前述の退化を克服していることを示す。 具体的には、unformativity を明示的に強制する$\textit{regularizer}$ を提案し、この正規化目的の勾配降下と ``reconditioning step''' を、グローバルな最適コストである$\mathcal{o}(1/t)$ と組み合わせて確立する。 本解析は,凸改質による非凸勾配降下を解析するための新しい枠組みや,線形リアプノフ方程式に対する(定量的な)可視性の観点からの解の新たな境界など,独立した関心を持つであろういくつかの新しい結果に依存している。

We introduce the first direct policy search algorithm which provably converges to the globally optimal $\textit{dynamic}$ filter for the classical problem of predicting the outputs of a linear dynamical system, given noisy, partial observations. Despite the ubiquity of partial observability in practice, theoretical guarantees for direct policy search algorithms, one of the backbones of modern reinforcement learning, have proven difficult to achieve. This is primarily due to the degeneracies which arise when optimizing over filters that maintain internal state. In this paper, we provide a new perspective on this challenging problem based on the notion of $\textit{informativity}$, which intuitively requires that all components of a filter's internal state are representative of the true state of the underlying dynamical system. We show that informativity overcomes the aforementioned degeneracy. Specifically, we propose a $\textit{regularizer}$ which explicitly enforces informativity, and establish that gradient descent on this regularized objective - combined with a ``reconditioning step'' - converges to the globally optimal cost a $\mathcal{O}(1/T)$. Our analysis relies on several new results which may be of independent interest, including a new framework for analyzing non-convex gradient descent via convex reformulation, and novel bounds on the solution to linear Lyapunov equations in terms of (our quantitative measure of) informativity.
翻訳日:2022-02-24 15:00:19 公開日:2022-02-23
# MuMiN: 大規模多言語多言語 Fact-Checked Misinformation Social Network Dataset

MuMiN: A Large-Scale Multilingual Multimodal Fact-Checked Misinformation Social Network Dataset ( http://arxiv.org/abs/2202.11684v1 )

ライセンス: Link先を確認
Dan Saattrup Nielsen and Ryan McConville(参考訳) 誤報はソーシャルメディアやニュース記事でますます広まりつつある。 このようなコンテンツを検出するには,機械学習を利用したアルゴリズム支援が求められている。 これらの機械学習モデルのトレーニングには、十分なスケール、多様性、品質のデータセットが必要です。 しかし、自動誤報検出の分野におけるデータセットは、主に単言語であり、限られた量のモダリティを含み、十分なスケールと品質を持っていない。 データ収集・リンクシステム(MuMiN-trawl)を開発し、リッチなソーシャルメディアデータ(ツイート、返信、ユーザ、画像、記事、ハッシュタグ)を含む公開誤情報グラフデータセット(MuMiN)を構築する。 データセットはpythonパッケージ(mumin)を介して異種グラフとして利用できる。 本研究は,ソーシャル・メディアを含むクレームの妥当性に関連する2つのノード分類タスクのベースラインとなる結果を提供し,マクロ平均値f1-scoreが62.55%,61.45%の課題課題であることを示す。 MuMiNエコシステムはhttps://mumin-datase t.github.io/で利用可能だ。

Misinformation is becoming increasingly prevalent on social media and in news articles. It has become so widespread that we require algorithmic assistance utilising machine learning to detect such content. Training these machine learning models require datasets of sufficient scale, diversity and quality. However, datasets in the field of automatic misinformation detection are predominantly monolingual, include a limited amount of modalities and are not of sufficient scale and quality. Addressing this, we develop a data collection and linking system (MuMiN-trawl), to build a public misinformation graph dataset (MuMiN), containing rich social media data (tweets, replies, users, images, articles, hashtags) spanning 21 million tweets belonging to 26 thousand Twitter threads, each of which have been semantically linked to 13 thousand fact-checked claims across dozens of topics, events and domains, in 41 different languages, spanning more than a decade. The dataset is made available as a heterogeneous graph via a Python package (mumin). We provide baseline results for two node classification tasks related to the veracity of a claim involving social media, and demonstrate that these are challenging tasks, with the highest macro-average F1-score being 62.55% and 61.45% for the two tasks, respectively. The MuMiN ecosystem is available at https://mumin-datase t.github.io/, including the data, documentation, tutorials and leaderboards.
翻訳日:2022-02-24 14:59:52 公開日:2022-02-23
# 絶対ゼロショット学習

Absolute Zero-Shot Learning ( http://arxiv.org/abs/2202.11319v1 )

ライセンス: Link先を確認
Rui Gao, Fan Wan, Daniel Organisciak, Jiyao Pu, Junyan Wang, Haoran Duan, Peng Zhang, Xingsong Hou, Yang Long(参考訳) データ著作権とプライバシの問題に関する懸念が高まる中、我々は新しい絶対ゼロショット学習(azsl)パラダイム、すなわちゼロ実データによる分類器の訓練を提案する。 鍵となるイノベーションは、データ漏洩なしにAZSLモデルのトレーニングをガイドするデータ保護として、教師モデルを巻き込むことです。 AZSLモデルは,教師ネットワークの性能を維持しつつ,日付のない知識伝達を実現するジェネレータと学生ネットワークから構成される。 AZSLタスクにおける「ブラックボックス」と「ホワイトボックス」のシナリオをモデルセキュリティの異なるレベルとして検討する。 また,インダクティブとトランスダクティブの両方の設定において,教師モデルについて議論する。 非常に単純な実装とデータ欠落の欠点にもかかわらず、我々のAZSLフレームワークは、最先端のZSLとGZSLのパフォーマンスを'ホワイトボックス'のシナリオで維持することができる。 大規模な定性的および定量的分析は、モデルを 'ブラックボックス' シナリオでデプロイする際の有望な結果を示す。

Considering the increasing concerns about data copyright and privacy issues, we present a novel Absolute Zero-Shot Learning (AZSL) paradigm, i.e., training a classifier with zero real data. The key innovation is to involve a teacher model as the data safeguard to guide the AZSL model training without data leaking. The AZSL model consists of a generator and student network, which can achieve date-free knowledge transfer while maintaining the performance of the teacher network. We investigate `black-box' and `white-box' scenarios in AZSL task as different levels of model security. Besides, we also provide discussion of teacher model in both inductive and transductive settings. Despite embarrassingly simple implementations and data-missing disadvantages, our AZSL framework can retain state-of-the-art ZSL and GZSL performance under the `white-box' scenario. Extensive qualitative and quantitative analysis also demonstrates promising results when deploying the model under `black-box' scenario.
翻訳日:2022-02-24 14:59:27 公開日:2022-02-23
# 生体認証のためのサーマルハンドイメージセグメンテーション

Thermal hand image segmentation for biometric recognition ( http://arxiv.org/abs/2202.11462v1 )

ライセンス: Link先を確認
Xavier Font-Aragones, Marcos Faundez-Zanuy, Jiri Mekyska(参考訳) 本稿では,熱(TH)と可視(VIS)による人物の識別をTESTO 882-3カメラで同時に行う手法を提案する。 また,本研究のために新たに取得したデータベースについても紹介する。 th画像を扱う上での真の課題は,取得面と混同される可能性のあるコールドフィンガー領域である。 この問題は、VIS情報を利用して解決する。 我々は、THとVISの画像が識別問題でどのように機能するかを示すために、異なるテストを実施した。 実験結果から,THハンドイメージは生体認証システムに適しており,この情報を組み合わせるとより良い結果が得られることがわかった。 バイオメトリック分散マッチングは、特徴ベクトル次元の低減技術や分類タスクとして用いられてきた。 その選択基準は、最大100の測定を行うために使用されるベクトルの長さを減らすのに役立つ。 識別率は、104人のデータベースを使用する場合、これらの条件下で98.3%の最大値に達する。

In this paper we present a method to identify people by means of thermal (TH) and visible (VIS) hand images acquired simultaneously with a TESTO 882-3 camera. In addition, we also present a new database specially acquired for this work. The real challenge when dealing with TH images is the cold finger areas, which can be confused with the acquisition surface. This problem is solved by taking advantage of the VIS information. We have performed different tests to show how TH and VIS images work in identification problems. Experimental results reveal that TH hand image is as suitable for biometric recognition systems as VIS hand images, and better results are obtained when combining this information. A Biometric Dispersion Matcher has been used as a feature vector dimensionality reduction technique as well as a classification task. Its selection criteria helps to reduce the length of the vectors used to perform identification up to a hundred measurements. Identification rates reach a maximum value of 98.3% under these conditions, when using a database of 104 people.
翻訳日:2022-02-24 14:59:09 公開日:2022-02-23
# 拡張に基づく教師なしドメイン適応

Augmentation based unsupervised domain adaptation ( http://arxiv.org/abs/2202.11486v1 )

ライセンス: Link先を確認
Mauricio Orbes-Arteaga, Thomas Varsavsky, Lauge Sorensen, Mads Nielsen, Akshay Pai, Sebastien Ourselin, Marc Modat, and M Jorge Cardoso(参考訳) 医用画像解析における深層学習の挿入は、疾患分類や異常検出やセグメンテーションといったいくつかの応用における最先端技術戦略の発展につながった。 しかし、最も先進的な手法でさえ一般化するには膨大な量のデータを必要とする。 現実的な臨床シナリオでは、データ取得とアノテーションは高価であるため、小さなデータと非表現データでトレーニングされたディープラーニングモデルは、トレーニングに使用されるデータ(例えば、異なるスキャナからのデータ)と異なるデータにデプロイされる場合よりも優れています。 本研究では,この問題をセグメント化モデルで緩和する領域適応手法を提案する。 本手法は, 対向領域適応と整合性トレーニングの特性を利用して, より堅牢な適応を実現する。 ホワイトマターハイパーインテンシティ(WMH)アノテーションを持つ2つのデータセットを用いて,個々の戦略が失敗する傾向にあるコーナーケースにおいても,モデル一般化を改善することを示した。

The insertion of deep learning in medical image analysis had lead to the development of state-of-the art strategies in several applications such a disease classification, as well as abnormality detection and segmentation. However, even the most advanced methods require a huge and diverse amount of data to generalize. Because in realistic clinical scenarios, data acquisition and annotation is expensive, deep learning models trained on small and unrepresentative data tend to outperform when deployed in data that differs from the one used for training (e.g data from different scanners). In this work, we proposed a domain adaptation methodology to alleviate this problem in segmentation models. Our approach takes advantage of the properties of adversarial domain adaptation and consistency training to achieve more robust adaptation. Using two datasets with white matter hyperintensities (WMH) annotations, we demonstrated that the proposed method improves model generalization even in corner cases where individual strategies tend to fail.
翻訳日:2022-02-24 14:58:54 公開日:2022-02-23
# カスケード伝搬による回折光学系設計

Diffractive optical system design by cascaded propagation ( http://arxiv.org/abs/2202.11535v1 )

ライセンス: Link先を確認
Boris Ferdman, Alon Saguy, Onit Alalouf, Yoav Shechtman(参考訳) 複雑な光学系の設計は計算ツールに大きく依存している。 これらは典型的には幾何学的な光学とフーリエ光学を使い、回折素子を使って波長のスケールの特徴を持つ光を操作することができる。 フーリエ光学は通常、システムの開口部に置かれた薄い要素の設計に使われ、シフト不変点拡散関数(psf)を生成する。 フーリエ光学を適用する際の大きなボトルネックは、例えば複数の、または開口外要素を扱う際に、数値的な複雑さから生じる。 本研究では,バックプロパゲーションを用いた前例のない設計の自由度を持つ回折光学系の最適化を可能にするコリンズ積分に基づく効率的かつ微分可能な伝播モデルを提案し,実装する。 本手法は,複雑な撮像系内の任意の平面に配置した薄板要素を応用し,複数の平面のカスケード最適化を行い,深層学習により最適なマシンビジョンシステムを設計することで,数値的および実験的に適用性を示す。

Modern design of complex optical systems relies heavily on computational tools. These typically utilize geometrical optics as well as Fourier optics, which enables the use of diffractive elements to manipulate light with features on the scale of a wavelength. Fourier optics is typically used for designing thin elements, placed in the system's aperture, generating a shift-invariant Point Spread Function (PSF). A major bottleneck in applying Fourier Optics in many cases of interest, e.g. when dealing with multiple, or out-of-aperture elements, comes from numerical complexity. In this work, we propose and implement an efficient and differentiable propagation model based on the Collins integral, which enables the optimization of diffraction optical systems with unprecedented design freedom using backpropagation. We demonstrate the applicability of our method, numerically and experimentally, by engineering shift-variant PSFs via thin plate elements placed in arbitrary planes inside complex imaging systems, performing cascaded optimization of multiple planes, and designing optimal machine-vision systems by deep learning.
翻訳日:2022-02-24 14:58:37 公開日:2022-02-23
# (参考訳) COLDデコーディング:Langevin Dynamicsを用いたエネルギーベース制約テキスト生成 [全文訳有]

COLD Decoding: Energy-based Constrained Text Generation with Langevin Dynamics ( http://arxiv.org/abs/2202.11705v1 )

ライセンス: CC BY 4.0
Lianhui Qin, Sean Welleck, Daniel Khashabi, Yejin Choi(参考訳) テキスト生成の多くのアプリケーションは、生成したテキストの意味やスタイルを制御するために異なる制約を組み込む必要がある。 これらの制約は困難(例えば、あるキーワードが出力に含まれることを保証する)であり、ソフト(例えば、出力を左または右のコンテキストでコンテキスト化する)である。 本稿では,エネルギー関数による制約の指定として制約生成を統一し,勾配に基づくサンプリングによる制約に対する効率的な微分可能な推論を行う,Langevin Dynamics (COLD)によるエネルギーベース制約デコーディングを提案する。 COLDデコード(英語版)は、構文制約のある生成、帰納的推論、反実的推論という3つの挑戦的なテキスト生成アプリケーションを通して示されるように、タスク固有の微調整を必要とせずに、既製の左から右への言語モデルに直接適用できる柔軟なフレームワークである。 これらの制約付き生成タスクの実験は、自動評価と人的評価の両方の観点から、我々のアプローチの有効性を示している。

Many applications of text generation require incorporating different constraints to control the semantics or style of generated text. These constraints can be hard (e.g., ensuring certain keywords are included in the output) and soft (e.g., contextualizing the output with the left- or right-hand context). In this paper, we present Energy-based Constrained Decoding with Langevin Dynamics (COLD), a decoding framework which unifies constrained generation as specifying constraints through an energy function, then performing efficient differentiable reasoning over the constraints through gradient-based sampling. COLD decoding is a flexible framework that can be applied directly to off-the-shelf left-to-right language models without the need for any task-specific fine-tuning, as demonstrated through three challenging text generation applications: lexically-constraine d generation, abductive reasoning, and counterfactual reasoning. Our experiments on these constrained generation tasks point to the effectiveness of our approach, both in terms of automatic and human evaluation.
翻訳日:2022-02-24 14:56:34 公開日:2022-02-23
# ポリシーの安全なゾーンを見つける マルコフ決定プロセス

Finding Safe Zones of policies Markov Decision Processes ( http://arxiv.org/abs/2202.11593v1 )

ライセンス: Link先を確認
Lee Cohen, Yishay Mansour, Michal Moshkovitz(参考訳) ポリシーが与えられたら、SafeZoneを状態のサブセットとして定義し、ポリシーの軌道のほとんどがこのサブセットに限定されるようにします。 SafeZoneの品質は状態の数とエスケープ確率、すなわちランダムな軌道がサブセットを離れる確率によってパラメータ化される。 SafeZonesは、少数の状態と低いエスケープ確率を持つ場合に特に興味深い。 最適セーフゾーンの探索の複雑さを考察し,一般に計算が困難であることを示す。 このため、近似的なSafeZonesの計算に集中する。 我々の主な成果は、多項式サイズのサンプル複雑性を用いて、脱出確率とSafeZoneサイズの両方に約2ドルの近似係数を与える双基準近似アルゴリズムである。 本論文は,本アルゴリズムの実証的評価によって結論づける。

Given a policy, we define a SafeZone as a subset of states, such that most of the policy's trajectories are confined to this subset. The quality of the SafeZone is parameterized by the number of states and the escape probability, i.e., the probability that a random trajectory will leave the subset. SafeZones are especially interesting when they have a small number of states and low escape probability. We study the complexity of finding optimal SafeZones, and show that in general the problem is computationally hard. For this reason we concentrate on computing approximate SafeZones. Our main result is a bi-criteria approximation algorithm which gives a factor of almost $2$ approximation for both the escape probability and SafeZone size, using a polynomial size sample complexity. We conclude the paper with an empirical evaluation of our algorithm.
翻訳日:2022-02-24 14:32:53 公開日:2022-02-23
# 暗黙の助けの必要性を識別し理解し、支援行動の合成のための常識的推論

Commonsense Reasoning for Identifying and Understanding the Implicit Need of Help and Synthesizing Assistive Actions ( http://arxiv.org/abs/2202.11337v1 )

ライセンス: Link先を確認
Ma\"elic Neau, Paulo Santos, Anne-Gwenn Bosser (ENIB), Nathan Beu, C\'edric Buche (Lab-STICC\_RAMBO)(参考訳) HRI(Human-Robot Interaction)は、サービスロボティクスの新たなサブフィールドである。 既存のアプローチの多くは、明示的なシグナル(音声、ジェスチャー)による関与に依存しているが、現在の文献では、暗黙のユーザニーズに対応するソリューションが不足している。 本稿では,建築について述べる。 a) ユーザの暗黙の助けの必要性を検出する (b)事前学習なしで支援行動のセットを生成する。 課題 (a)コモンセンス知識の利用と相まって、シーングラフ生成のための最先端のソリューションを用いて行う。 (b)追加のコモンセンス知識とグラフ構造に関する感情分析を用いて実施する。 最後に、確立されたベンチマーク(例えば、ActionGenomeデータセット)と人間の実験を用いたソリューションの評価を提案する。 このアプローチの主な動機は、知覚-決定-行動ループを単一のアーキテクチャに埋め込むことである。

Human-Robot Interaction (HRI) is an emerging subfield of service robotics. While most existing approaches rely on explicit signals (i.e. voice, gesture) to engage, current literature is lacking solutions to address implicit user needs. In this paper, we present an architecture to (a) detect user implicit need of help and (b) generate a set of assistive actions without prior learning. Task (a) will be performed using state-of-the-art solutions for Scene Graph Generation coupled to the use of commonsense knowledge; whereas, task (b) will be performed using additional commonsense knowledge as well as a sentiment analysis on graph structure. Finally, we propose an evaluation of our solution using established benchmarks (e.g. ActionGenome dataset) along with human experiments. The main motivation of our approach is the embedding of the perception-decision- action loop in a single architecture.
翻訳日:2022-02-24 14:32:40 公開日:2022-02-23
# 高分解能リモートセンシング画像からの耕作地抽出におけるiflytek challenge 2021の勝利解

The Winning Solution to the iFLYTEK Challenge 2021 Cultivated Land Extraction from High-Resolution Remote Sensing Image ( http://arxiv.org/abs/2202.10974v2 )

ライセンス: Link先を確認
Zhen Zhao, Yuqiu Liu, Gang Zhang, Liang Tang and Xiaolin Hu(参考訳) 高分解能遠隔画像から耕作地を正確に抽出することは精密農業の基本課題である。 本稿では,高分解能リモートセンシング画像から土壌抽出を行うiflytek challenge 2021の解法を紹介する。 課題は、非常に高解像度のマルチスペクトルリモートセンシング画像で、耕作された土地のオブジェクトをセグメンテーションすることである。 この問題を解決するために、非常に効率的で効率的なパイプラインを構築しました。 まず,原画像を小さなタイルに分割し,各タイルに対して個別にインスタンス分割を行った。 自然画像にうまく機能するインスタンス分割アルゴリズムをいくつか検討し,リモートセンシング画像に適用可能な効果的な手法を開発した。 そして,提案するオーバーラップタイル融合戦略により,すべての小タイルの予測結果をシームレスで連続的なセグメンテーション結果にマージした。 このチャレンジで486チーム中1位を獲得した。

Extracting cultivated land accurately from high-resolution remote images is a basic task for precision agriculture. This report introduces our solution to the iFLYTEK challenge 2021 cultivated land extraction from high-resolution remote sensing image. The challenge requires segmenting cultivated land objects in very high-resolution multispectral remote sensing images. We established a highly effective and efficient pipeline to solve this problem. We first divided the original images into small tiles and separately performed instance segmentation on each tile. We explored several instance segmentation algorithms that work well on natural images and developed a set of effective methods that are applicable to remote sensing images. Then we merged the prediction results of all small tiles into seamless, continuous segmentation results through our proposed overlap-tile fusion strategy. We achieved the first place among 486 teams in the challenge.
翻訳日:2022-02-24 14:32:28 公開日:2022-02-23
# NetRCA: ネットワーク障害による効果的なローカライゼーションアルゴリズム

NetRCA: An Effective Network Fault Cause Localization Algorithm ( http://arxiv.org/abs/2202.11269v1 )

ライセンス: Link先を確認
Chaoli Zhang, Zhiqiang Zhou, Yingying Zhang, Linxiao Yang, Kai He, Qingsong Wen, Liang Sun(参考訳) ネットワーク障害の根本原因の局所化は、ネットワークの運用とメンテナンスに不可欠である。 しかし、複雑なネットワークアーキテクチャや無線環境、ラベル付きデータに制限があるため、真の根本原因を正確に特定することは困難である。 本稿では,この問題に対処するために,netrcaという新しいアルゴリズムを提案する。 まず, 時間的, 方向性, 属性, 相互作用特性を考慮し, 元の生データから効果的な抽出特徴を抽出する。 第2に,ラベル付きデータとラベル付きデータの両方から新たなトレーニングデータを生成するため,ラベル付きサンプルの欠如を克服するために,多変量時系列類似性とラベル伝搬を採用する。 第3に、XGBoost、ルールセット学習、属性モデル、グラフアルゴリズムを組み合わせたアンサンブルモデルを設計し、全てのデータ情報を完全に活用し、性能を向上させる。 最後に、ICASSP 2022 AIOps Challengeの実際のデータセットを用いて実験と分析を行い、このアプローチの優位性と有効性を示す。

Localizing the root cause of network faults is crucial to network operation and maintenance. However, due to the complicated network architectures and wireless environments, as well as limited labeled data, accurately localizing the true root cause is challenging. In this paper, we propose a novel algorithm named NetRCA to deal with this problem. Firstly, we extract effective derived features from the original raw data by considering temporal, directional, attribution, and interaction characteristics. Secondly, we adopt multivariate time series similarity and label propagation to generate new training data from both labeled and unlabeled data to overcome the lack of labeled samples. Thirdly, we design an ensemble model which combines XGBoost, rule set learning, attribution model, and graph algorithm, to fully utilize all data information and enhance performance. Finally, experiments and analysis are conducted on the real-world dataset from ICASSP 2022 AIOps Challenge to demonstrate the superiority and effectiveness of our approach.
翻訳日:2022-02-24 14:32:01 公開日:2022-02-23
# VAEのPAC-Bayesian再構成保証について

On PAC-Bayesian reconstruction guarantees for VAEs ( http://arxiv.org/abs/2202.11455v1 )

ライセンス: Link先を確認
Badr-Eddine Ch\'erief-Abdellatif and Yuyang Shi and Arnaud Doucet and Benjamin Guedj(参考訳) 広く使われていることと経験的な成功にもかかわらず、変分オートエンコーダ(VAE)の動作と性能に関する理論的理解と研究は、ここ数年で始まったばかりである。 我々は,vaeの非知覚テストデータの再構成能力を分析し,pac-bayes理論の議論を活用し,この最近の研究に寄与する。 我々は,理論再構成誤差の一般化境界を与え,vae目標の正規化効果に関する知見を提供する。 提案手法は,古典的ベンチマークデータセットにおける実験支援による理論的結果を示す。

Despite its wide use and empirical successes, the theoretical understanding and study of the behaviour and performance of the variational autoencoder (VAE) have only emerged in the past few years. We contribute to this recent line of work by analysing the VAE's reconstruction ability for unseen test data, leveraging arguments from the PAC-Bayes theory. We provide generalisation bounds on the theoretical reconstruction error, and provide insights on the regularisation effect of VAE objectives. We illustrate our theoretical results with supporting experiments on classical benchmark datasets.
翻訳日:2022-02-24 14:31:38 公開日:2022-02-23
# 短文分類のためのPrompt-Learning

Prompt-Learning for Short Text Classification ( http://arxiv.org/abs/2202.11345v1 )

ライセンス: Link先を確認
Yi Zhu, Xinke Zhou, Jipeng Qiang, Yun Li, Yunhao Yuan, Xindong Wu(参考訳) 短い文章では、極端に短い長さ、特徴の空間性、高い曖昧さが、分類タスクに大きな課題をもたらします。 近年,特定の下流タスクに事前学習言語モデルをチューニングするための効果的な手法として,迅速な学習が注目されている。 プロンプトラーニングの背後にある主な直感は、入力にテンプレートを挿入し、テキスト分類タスクを同等のクローゼスタイルタスクに変換することである。 しかし、ほとんどのプロンプトラーニング手法はラベル付き単語を手作業で拡張したり、クラス名をクローズ型予測に組み込んだ知識としてしか考慮しない。 本稿では,ラベル単語空間の拡大に際し,短い文章自体とクラス名の両方を考慮し,知識に富む拡張に基づくプロンプトラーニングを用いた簡易な短い文章分類手法を提案する。 具体的には、probaseのようなオープンナレッジグラフから、短いテキストでエンティティに関連するトップ$n$概念を検索し、選択された概念とクラスラベル間の距離計算により拡張ラベル単語をさらに洗練する。 実験結果から,本手法は他の微調整,素早い学習,知識に富んだ学習方法と比較して明らかな改善が得られ,その精度は3つのよく知られたデータセット上で最大6ポイント向上した。

In the short text, the extreme short length, feature sparsity and high ambiguity pose huge challenge to classification tasks. Recently, as an effective method for tuning Pre-trained Language Models for specific downstream tasks, prompt-learning has attracted vast amount of attention and research. The main intuition behind the prompt-learning is to insert template into the input and convert the text classification tasks into equivalent cloze-style tasks. However, most prompt-learning methods expand label words manually or only consider the class name for knowledge incorporating in cloze-style prediction, which will inevitably incurred omissions and bias in classification tasks. In this paper, we propose a simple short text classification approach that makes use of prompt-learning based on knowledgeable expansion, which can consider both the short text itself and class name during expanding label words space. Specifically, the top $N$ concepts related to the entity in short text are retrieved from the open Knowledge Graph like Probase, and we further refine the expanded label words by the distance calculation between selected concepts and class label. Experimental results show that our approach obtains obvious improvement compared with other fine-tuning, prompt-learning and knowledgeable prompt-tuning methods, outperforming the state-of-the-art by up to 6 Accuracy points on three well-known datasets.
翻訳日:2022-02-24 14:30:00 公開日:2022-02-23
# 事前学習言語モデルのアンサンブルを用いた短解法スコア

Short-answer scoring with ensembles of pretrained language models ( http://arxiv.org/abs/2202.11558v1 )

ライセンス: Link先を確認
Christopher Ormerod(参考訳) カグル自動短答採点データセットを用いて,事前学習したトランスフォーマト言語モデルの短答問合せの有効性について検討した。 我々は、人気の小型、ベース、および大規模で事前学習されたトランスフォーマーベースの言語モデルの集合を微調整し、これらのモデルのアンサンブルをテストする目的でデータセット上の1つの特徴ベースモデルを訓練する。 トレーニングでは早期停止機構とハイパーパラメータ最適化を用いた。 一般に、より大きなモデルの方が若干性能が良いが、それでも最先端の結果には達していない。 モデルのアンサンブルを考えると、最先端の成果を生み出す多くの大きなネットワークのアンサンブルがありますが、これらのアンサンブルは実環境に現実的に配置するには大きすぎます。

We investigate the effectiveness of ensembles of pretrained transformer-based language models on short answer questions using the Kaggle Automated Short Answer Scoring dataset. We fine-tune a collection of popular small, base, and large pretrained transformer-based language models, and train one feature-base model on the dataset with the aim of testing ensembles of these models. We used an early stopping mechanism and hyperparameter optimization in training. We observe that generally that the larger models perform slightly better, however, they still fall short of state-of-the-art results one their own. Once we consider ensembles of models, there are ensembles of a number of large networks that do produce state-of-the-art results, however, these ensembles are too large to realistically be put in a production environment.
翻訳日:2022-02-24 14:29:34 公開日:2022-02-23
# 正規化カットを用いた教師なし物体発見のための自己監督型変圧器

Self-Supervised Transformers for Unsupervised Object Discovery using Normalized Cut ( http://arxiv.org/abs/2202.11539v1 )

ライセンス: Link先を確認
Yangtao Wang (M-PSI), Xi Shen (LIGM), Shell Hu, Yuan Yuan (MIT CSAIL), James Crowley (M-PSI), Dominique Vaufreydaz (M-PSI)(参考訳) 自己蒸留損失(DINO)を用いて自己教師学習を訓練したトランスフォーマーは、有意な前景オブジェクトをハイライトする注意マップを生成する。 本稿では,自己教師付きトランスフォーマー機能を用いて画像から物体を検出するグラフベースの手法を提案する。 ビジュアルトークンは、トークンの類似性に基づいて接続スコアを表すエッジを持つ重み付きグラフのノードと見なされる。 前景オブジェクトは正規化グラフカットを使用してセグメント化され、自己相似領域をグループ化する。 一般化固有分解によるスペクトルクラスタリングを用いてグラフカット問題を解き、その絶対値が前景オブジェクトに属する可能性を示すため、第2最小の固有ベクトルがカット解を提供することを示した。 私たちは、voc07、voc12、coco20kでそれぞれ6.9%、8.1%、8.1%のマージンで失われた最近の芸術の状態を改善しました。 第2段階のクラス非依存検出器(CAD)を追加することにより、さらなる性能向上が図られる。 提案手法は,教師なしサリエンシ検出や弱教師付きオブジェクト検出に容易に拡張できる。 教師なし塩分濃度検出では,従来の技術と比較して,ECSSD,DUTS,DUT-OMRO Nの4.9%,5.2%,12.9%でIoUを改善した。 弱教師付きオブジェクト検出では,CUBとImageNetの競合性能を実現する。

Transformers trained with self-supervised learning using self-distillation loss (DINO) have been shown to produce attention maps that highlight salient foreground objects. In this paper, we demonstrate a graph-based approach that uses the self-supervised transformer features to discover an object from an image. Visual tokens are viewed as nodes in a weighted graph with edges representing a connectivity score based on the similarity of tokens. Foreground objects can then be segmented using a normalized graph-cut to group self-similar regions. We solve the graph-cut problem using spectral clustering with generalized eigen-decomposition and show that the second smallest eigenvector provides a cutting solution since its absolute value indicates the likelihood that a token belongs to a foreground object. Despite its simplicity, this approach significantly boosts the performance of unsupervised object discovery: we improve over the recent state of the art LOST by a margin of 6.9%, 8.1%, and 8.1% respectively on the VOC07, VOC12, and COCO20K. The performance can be further improved by adding a second stage class-agnostic detector (CAD). Our proposed method can be easily extended to unsupervised saliency detection and weakly supervised object detection. For unsupervised saliency detection, we improve IoU for 4.9%, 5.2%, 12.9% on ECSSD, DUTS, DUT-OMRON respectively compared to previous state of the art. For weakly supervised object detection, we achieve competitive performance on CUB and ImageNet.
翻訳日:2022-02-24 14:29:20 公開日:2022-02-23
# 生涯実験データベース(LDE)による再現性とメタ学習の実現

Enabling Reproducibility and Meta-learning Through a Lifelong Database of Experiments (LDE) ( http://arxiv.org/abs/2202.10979v2 )

ライセンス: Link先を確認
Jason Tsay, Andrea Bartezzaghi, Aleke Nolte, Cristiano Malossi(参考訳) 人工知能(AI)の開発は本質的に反復的で実験的である。 通常の開発、特に自動化AIの出現に伴って、何百、何千もの実験が生成され、しばしば失われ、二度と検査されない。 これらの実験を文書化して大規模に学習する機会は失われたが、これらの実験の追跡と再現の複雑さは、データサイエンティストにとってしばしば禁止される。 実験成果物から関連メタデータを自動的に抽出し,保存し,これらの成果物を再現し,メタラーニングを行う機能を備えた実験データベース(LDE)を提案する。 データセットやパイプライン、それぞれの構成方法、ランタイム環境に関する情報を備えたトレーニングなど、ai開発ライフサイクルの複数のステージからコンテキストを格納します。 ストアされたメタデータの標準化された性質は、特にパフォーマンス指標によるアーティファクトのランク付けにおいて、クエリと集約を可能にします。 我々は,既存のメタラーニング研究を再現し,再現されたメタデータをシステムに格納することで,LDEの能力を示す。 そして、このメタデータについて2つの実験を行う。 1)性能指標の再現性と変動性の検討 2)データ上に多数のメタ学習アルゴリズムを実装し,実験結果の変動が推薦性能に与える影響を検討する。 この変化は、結果の上にメタラーニングが構築されたときに続き、集約された結果を使用する場合のパフォーマンスが向上する。 これは、ldeのような結果を自動的に収集し集約するシステムが、メタラーニングの実装を支援するだけでなく、パフォーマンスも向上することを示唆している。

Artificial Intelligence (AI) development is inherently iterative and experimental. Over the course of normal development, especially with the advent of automated AI, hundreds or thousands of experiments are generated and are often lost or never examined again. There is a lost opportunity to document these experiments and learn from them at scale, but the complexity of tracking and reproducing these experiments is often prohibitive to data scientists. We present the Lifelong Database of Experiments (LDE) that automatically extracts and stores linked metadata from experiment artifacts and provides features to reproduce these artifacts and perform meta-learning across them. We store context from multiple stages of the AI development lifecycle including datasets, pipelines, how each is configured, and training runs with information about their runtime environment. The standardized nature of the stored metadata allows for querying and aggregation, especially in terms of ranking artifacts by performance metrics. We exhibit the capabilities of the LDE by reproducing an existing meta-learning study and storing the reproduced metadata in our system. Then, we perform two experiments on this metadata: 1) examining the reproducibility and variability of the performance metrics and 2) implementing a number of meta-learning algorithms on top of the data and examining how variability in experimental results impacts recommendation performance. The experimental results suggest significant variation in performance, especially depending on dataset configurations; this variation carries over when meta-learning is built on top of the results, with performance improving when using aggregated results. This suggests that a system that automatically collects and aggregates results such as the LDE not only assists in implementing meta-learning but may also improve its performance.
翻訳日:2022-02-24 14:28:56 公開日:2022-02-23
# 深層強化学習: 機会と課題

Deep Reinforcement Learning: Opportunities and Challenges ( http://arxiv.org/abs/2202.11296v1 )

ライセンス: Link先を確認
Yuxi Li(参考訳) この記事では、実生活における強化学習の分野、機会と挑戦について、技術的な詳細のない視点で、幅広いトピックに触れながら、穏やかな議論をします。 この記事は、歴史的および最近の研究論文、調査、チュートリアル、講演、ブログ、書籍の両方に基づいている。 研究者、エンジニア、学生、マネージャー、投資家、役員、そしてこの分野についてもっと知りたいと思う人たちなど、読者のさまざまなグループが、この記事に興味を持っているかもしれない。 本稿では、まず、強化学習(RL)とその深層学習、機械学習、AIとの関係について簡単な紹介を行う。 次に,製品やサービス,ゲーム,レコメンダシステム,ロボティクス,輸送,経済とファイナンス,医療,教育,組合せ最適化,コンピュータシステム,科学とエンジニアリングにおけるrlの活用の機会について論じる。 我々は特に課題について論じる。 1)財団法人 2)表現 3)褒美 4)モデル,シミュレーション,計画,ベンチマーク 5)a.a.メタラーニングを学ぶための学習 6) 政治・オフライン学習 7) ソフトウェア開発とデプロイメント。 8)ビジネスの視点,及び 9) さらなる課題。 私たちは最後に、"なぜrlはまだ広く採用されていないのか?"と答えようとして、議論を締め括った。

This article is a gentle discussion about the field of reinforcement learning for real life, about opportunities and challenges, with perspectives and without technical details, touching a broad range of topics. The article is based on both historical and recent research papers, surveys, tutorials, talks, blogs, and books. Various groups of readers, like researchers, engineers, students, managers, investors, officers, and people wanting to know more about the field, may find the article interesting. In this article, we first give a brief introduction to reinforcement learning (RL), and its relationship with deep learning, machine learning and AI. Then we discuss opportunities of RL, in particular, applications in products and services, games, recommender systems, robotics, transportation, economics and finance, healthcare, education, combinatorial optimization, computer systems, and science and engineering. The we discuss challenges, in particular, 1) foundation, 2) representation, 3) reward, 4) model, simulation, planning, and benchmarks, 5) learning to learn a.k.a. meta-learning, 6) off-policy/offline learning, 7) software development and deployment, 8) business perspectives, and 9) more challenges. We conclude with a discussion, attempting to answer: "Why has RL not been widely adopted in practice yet?" and "When is RL helpful?".
翻訳日:2022-02-24 14:27:52 公開日:2022-02-23
# ディープラーニングの再現性と説明可能なAI(XAI)

Deep Learning Reproducibility and Explainable AI (XAI) ( http://arxiv.org/abs/2202.11452v1 )

ライセンス: Link先を確認
A.-M. Leventi-Peetz and T. \"Ostreich(参考訳) ディープラーニング(DL)学習アルゴリズムの非決定性とそのニューラルネットワーク(NN)モデルの説明可能性への影響について,画像分類の例を用いて検討した。 この問題について議論するため、2つの畳み込みニューラルネットワーク(CNN)をトレーニングし、その結果を比較した。 この比較は、決定論的で堅牢なDLモデルと決定論的説明可能な人工知能(XAI)を実際に作成できる可能性の探索に役立つ。 ここで実施されたすべての成功と限界について詳述する。 この研究で得られた決定論的モデルのソースコードがリストアップされている。 再現性は、AIアプローチにおける卓越性の中でEUによって提案されたモデルガバナンスフレームワークの開発フェーズコンポーネントとしてインデックス化されている。 さらに、再現性は、モデル結果の解釈とAIシステムアプリケーションの圧倒的な拡張に向けた信頼の構築に因果関係を確立するための要件である。 本研究では、再現性や対処方法の途中で解決しなければならない課題について検討する。

The nondeterminism of Deep Learning (DL) training algorithms and its influence on the explainability of neural network (NN) models are investigated in this work with the help of image classification examples. To discuss the issue, two convolutional neural networks (CNN) have been trained and their results compared. The comparison serves the exploration of the feasibility of creating deterministic, robust DL models and deterministic explainable artificial intelligence (XAI) in practice. Successes and limitation of all here carried out efforts are described in detail. The source code of the attained deterministic models has been listed in this work. Reproducibility is indexed as a development-phase-co mponent of the Model Governance Framework, proposed by the EU within their excellence in AI approach. Furthermore, reproducibility is a requirement for establishing causality for the interpretation of model results and building of trust towards the overwhelming expansion of AI systems applications. Problems that have to be solved on the way to reproducibility and ways to deal with some of them, are examined in this work.
翻訳日:2022-02-24 14:26:49 公開日:2022-02-23
# 複数の感性特徴を持つデータに対するフェアネス対応ニーブベイズ分類器

Fairness-Aware Naive Bayes Classifier for Data with Multiple Sensitive Features ( http://arxiv.org/abs/2202.11499v1 )

ライセンス: Link先を確認
Stelios Boulitsakis-Logothet is(参考訳) フェアネスアウェア機械学習は、人種、性別、宗教などの繊細な属性に基づく不公平な差別を避けながら、予測を生成するユーティリティを最大化することを目指している。 この分野における重要な仕事の行は、分類器の訓練段階における公平さを強制することである。 この戦略に従う単純な効果的な二項分類アルゴリズムは2-naive-Bayes (2NB) であり、これは統計パリティを強制するものであり、データセットを構成するグループは同じ確率で正のラベルを受け取る必要がある。 本稿では,このアルゴリズムをN-naive-Bayes (NNB) に一般化し,データ中の2つのセンシティブなグループのみを仮定する単純化を解消し,任意の数のグループに適用する。 本稿では,元アルゴリズムの統計的パリティ制約の拡張と,ラベルと単一感度属性の統計的独立性を強制する後処理ルーチンを提案する。 次に,複数の感度特徴を持つデータへの適用について検討し,交差性に着目したグループフェアネス制約の拡張である差分フェアネスを強制するための新しい制約および後処理ルーチンを提案する。 我々は、米国国勢調査データセットにおけるNNBアルゴリズムの有効性を実証的に実証し、その精度と劣化性能を、異なるインパクトとDF-$\epsilon$スコアで測定し、同様のグループフェアネスアルゴリズムと比較した。 最後に,このアルゴリズムをアプリケーションに組み込む前に,ユーザが認識すべき重要な考慮事項を整理し,統計的パリティを公平性基準として用いることのメリット,欠点,倫理的意味について,さらに読むように指示する。

Fairness-aware machine learning seeks to maximise utility in generating predictions while avoiding unfair discrimination based on sensitive attributes such as race, sex, religion, etc. An important line of work in this field is enforcing fairness during the training step of a classifier. A simple yet effective binary classification algorithm that follows this strategy is two-naive-Bayes (2NB), which enforces statistical parity - requiring that the groups comprising the dataset receive positive labels with the same likelihood. In this paper, we generalise this algorithm into N-naive-Bayes (NNB) to eliminate the simplification of assuming only two sensitive groups in the data and instead apply it to an arbitrary number of groups. We propose an extension of the original algorithm's statistical parity constraint and the post-processing routine that enforces statistical independence of the label and the single sensitive attribute. Then, we investigate its application on data with multiple sensitive features and propose a new constraint and post-processing routine to enforce differential fairness, an extension of established group-fairness constraints focused on intersectionalities. We empirically demonstrate the effectiveness of the NNB algorithm on US Census datasets and compare its accuracy and debiasing performance, as measured by disparate impact and DF-$\epsilon$ score, with similar group-fairness algorithms. Finally, we lay out important considerations users should be aware of before incorporating this algorithm into their application, and direct them to further reading on the pros, cons, and ethical implications of using statistical parity as a fairness criterion.
翻訳日:2022-02-24 14:26:33 公開日:2022-02-23
# 機械学習による因果関係打破の試み--予測変数同定のためのモデル説明可能性手法の限界

Trying to Outrun Causality with Machine Learning: Limitations of Model Explainability Techniques for Identifying Predictive Variables ( http://arxiv.org/abs/2202.09875v3 )

ライセンス: Link先を確認
Matthew J. Vowels(参考訳) 機械学習の説明可能性技術は、なぜ特定の決定や予測がなされたのかを理解するために「説明」やモデルを問う方法として提案されている。 このような能力は、センシティブな要因や法的結果に関する意思決定プロセスの自動化にマシンラーニングが使用されている場合に特に重要です。 実際、これはEUの法律による要件ですらある。 さらに、過度に制限された機能形式(例えば線形回帰の場合)を課すことに関心を持つ研究者は、興味のある結果に関連する重要な変数を特定することを目的として、探索研究の一環として説明可能性技術とともに機械学習アルゴリズムを使用する動機があるかもしれない。 例えば、疫学者は「リスク要因」、すなわち、ランダムな森林を用いて病気からの回復に影響を与える要因を特定し、重要度を用いて変数の関連性を評価することに興味があるかもしれない。 しかし、私たちが実証しようとしているように、機械学習のアルゴリズムは見た目ほど柔軟性がなく、データの根底にある因果構造に驚くほど敏感です。 この結果、実際に因果系に批判的であり、結果と非常に相関している予測子は、しかしながら、結果に無関係で非重要かつ非予測的な説明可能性技術によって見なされる可能性がある。 これは、それ自体が説明可能性のテクニックの制限であるよりもむしろ、回帰の数学的含意と、これらの含意と、根底にある因果構造の関連する条件的非依存性との相互作用の結果である。 重要な変数のデータを探索したい研究者に、代替案をいくつか提供します。

Machine Learning explainability techniques have been proposed as a means of `explaining' or interrogating a model in order to understand why a particular decision or prediction has been made. Such an ability is especially important at a time when machine learning is being used to automate decision processes which concern sensitive factors and legal outcomes. Indeed, it is even a requirement according to EU law. Furthermore, researchers concerned with imposing overly restrictive functional form (e.g. as would be the case in a linear regression) may be motivated to use machine learning algorithms in conjunction with explainability techniques, as part of exploratory research, with the goal of identifying important variables which are associated with an outcome of interest. For example, epidemiologists might be interested in identifying 'risk factors' - i.e., factors which affect recovery from disease - by using random forests and assessing variable relevance using importance measures. However, and as we aim to demonstrate, machine learning algorithms are not as flexible as they might seem, and are instead incredibly sensitive to the underling causal structure in the data. The consequences of this are that predictors which are, in fact, critical to a causal system and highly correlated with the outcome, may nonetheless be deemed by explainability techniques to be unrelated/unimportan t/unpredictive of the outcome. Rather than this being a limitation of explainability techniques per se, it is rather a consequence of the mathematical implications of regressions, and the interaction of these implications with the associated conditional independencies of the underlying causal structure. We provide some alternative recommendations for researchers wanting to explore the data for important variables.
翻訳日:2022-02-24 14:26:04 公開日:2022-02-23
# Preformer: 長期時系列予測のためのマルチスケールセグメントワイズ相関付き予測変換器

Preformer: Predictive Transformer with Multi-Scale Segment-wise Correlations for Long-Term Time Series Forecasting ( http://arxiv.org/abs/2202.11356v1 )

ライセンス: Link先を確認
Dazhao Du, Bing Su, Zhewei Wei(参考訳) トランスフォーマーに基づく手法は、長期時系列予測において大きな可能性を示している。 しかし、これらの手法の多くは、時系列の長さで複雑さが2乗的に増加するため、長期予測では難解になるばかりでなく、対応するキーと値が同じポイントから変換されるため、コンテキストから予測依存性を明示的に捉えることができない。 本稿では,予測型トランスフォーマーモデルである {\em Preformer を提案する。 Preformerは、時系列をセグメントに分割し、セグメント単位の相関に基づく注意を時系列のエンコーディングに利用する、新しい効率的なマルチスケールセグメンテーション・コレレーション機構を導入する。 異なる時間スケールで依存関係を集約し,セグメント長の選択を容易にするマルチスケール構造を開発した。 preformerはさらに、キーと値は同じセグメントではなく2つの連続したセグメントから来るデコーディングの予測パラダイムを設計する。 このように、キーセグメントがクエリセグメントと高い相関スコアを持つ場合、その連続したセグメントはクエリセグメントの予測により多くの貢献をする。 大規模な実験では、Preformerは他のTransformerベースの手法よりも優れています。

Transformer-based methods have shown great potential in long-term time series forecasting. However, most of these methods adopt the standard point-wise self-attention mechanism, which not only becomes intractable for long-term forecasting since its complexity increases quadratically with the length of time series, but also cannot explicitly capture the predictive dependencies from contexts since the corresponding key and value are transformed from the same point. This paper proposes a predictive Transformer-based model called {\em Preformer}. Preformer introduces a novel efficient {\em Multi-Scale Segment-Correlation} mechanism that divides time series into segments and utilizes segment-wise correlation-based attention for encoding time series. A multi-scale structure is developed to aggregate dependencies at different temporal scales and facilitate the selection of segment length. Preformer further designs a predictive paradigm for decoding, where the key and value come from two successive segments rather than the same segment. In this way, if a key segment has a high correlation score with the query segment, its successive segment contributes more to the prediction of the query segment. Extensive experiments demonstrate that our Preformer outperforms other Transformer-based methods.
翻訳日:2022-02-24 14:25:38 公開日:2022-02-23
# 一般化線形モデルと加算モデルの高速スパース分類

Fast Sparse Classification for Generalized Linear and Additive Models ( http://arxiv.org/abs/2202.11389v1 )

ライセンス: Link先を確認
Jiachang Liu, Chudi Zhong, Margo Seltzer, Cynthia Rudin(参考訳) スパース一般化線形および加法モデルに対する高速分類手法を提案する。 これらのテクニックは、何千もの機能と何千もの観察を数分で処理することができる。 高速でスパースなロジスティック回帰の場合、我々の計算速度アップは、他のベストサブセット検索技術よりも、ロジスティック損失のための線形および二次的なサロゲートカットによって、削除のために効率的に機能を表示できるだけでなく、より統一的な機能探索を好む優先順位キューの使用にかかっています。 ロジスティック損失の代替として,各イテレーションにおける線探索に対する解析解を許容する指数的損失を提案する。 私たちのアルゴリズムは一般的に、以前のアプローチの2倍から5倍高速です。 彼らは、挑戦的なデータセットのブラックボックスモデルに匹敵する精度の解釈可能なモデルを生成する。

We present fast classification techniques for sparse generalized linear and additive models. These techniques can handle thousands of features and thousands of observations in minutes, even in the presence of many highly correlated features. For fast sparse logistic regression, our computational speed-up over other best-subset search techniques owes to linear and quadratic surrogate cuts for the logistic loss that allow us to efficiently screen features for elimination, as well as use of a priority queue that favors a more uniform exploration of features. As an alternative to the logistic loss, we propose the exponential loss, which permits an analytical solution to the line search at each iteration. Our algorithms are generally 2 to 5 times faster than previous approaches. They produce interpretable models that have accuracy comparable to black box models on challenging datasets.
翻訳日:2022-02-24 14:25:17 公開日:2022-02-23
# 確率線形バンディットの残留ブートストラップ探索

Residual Bootstrap Exploration for Stochastic Linear Bandit ( http://arxiv.org/abs/2202.11474v1 )

ライセンス: Link先を確認
Shuang Wu, Chi-Hua Wang, Yuantong Li, Guang Cheng(参考訳) 確率線形帯域問題に対するブートストラップに基づくオンラインアルゴリズムを提案する。 重要なアイデアは、平均報酬推定の残差を再サンプリングして次のステップ報酬を見積もる、残余のブートストラップ探索を採用することである。 我々のアルゴリズムは,確率線形バンドイット(\texttt{LinReBoot})の残余ブートストラップ探索であり,リサンプリング分布から線形報酬を推定し,最も高い報酬推定値でアームを引っ張る。 特に,確率線形バンディット問題における残余ブートストラップに基づく探索機構の解明に理論的枠組みを貢献する。 重要な洞察は、ブートストラップ探索の強みは、オンライン学習モデルと残差の再サンプリング分布の協調的最適化に基づいているということである。 このような観察により、提案した \texttt{LinReBoot} が高確率の $\tilde{O}(d \sqrt{n})$ sub-linear regret を穏やかな条件下で確保できることを示すことができる。 本実験は,線形バンドイット問題の様々な定式化における \texttt{reboot} 原理の容易な一般化をサポートし, \texttt{linreboot} の計算効率を示す。

We propose a new bootstrap-based online algorithm for stochastic linear bandit problems. The key idea is to adopt residual bootstrap exploration, in which the agent estimates the next step reward by re-sampling the residuals of mean reward estimate. Our algorithm, residual bootstrap exploration for stochastic linear bandit (\texttt{LinReBoot}), estimates the linear reward from its re-sampling distribution and pulls the arm with the highest reward estimate. In particular, we contribute a theoretical framework to demystify residual bootstrap-based exploration mechanisms in stochastic linear bandit problems. The key insight is that the strength of bootstrap exploration is based on collaborated optimism between the online-learned model and the re-sampling distribution of residuals. Such observation enables us to show that the proposed \texttt{LinReBoot} secure a high-probability $\tilde{O}(d \sqrt{n})$ sub-linear regret under mild conditions. Our experiments support the easy generalizability of the \texttt{ReBoot} principle in the various formulations of linear bandit problems and show the significant computational efficiency of \texttt{LinReBoot}.
翻訳日:2022-02-24 14:25:00 公開日:2022-02-23
# ロバストな幾何学的メトリック学習

Robust Geometric Metric Learning ( http://arxiv.org/abs/2202.11550v1 )

ライセンス: Link先を確認
Antoine Collas, Arnaud Breloy, Guillaume Ginolhac, Chengfang Ren, Jean-Philippe Ovarlez(参考訳) 本稿では,計量学習問題に対する新しいアルゴリズムを提案する。 まず、文献からの古典的計量学習の定式化を共分散行列推定問題として修正することができることに注意する。 この観点から、Robust Geometric Metric Learning (RGML)と呼ばれる一般的なアプローチが研究される。 この方法は、各クラスの共分散行列を(未知の)バリセンタに向けて縮小しながら同時に推定することを目的としている。 本稿では,ガウス確率(RGML Gaussian)とタイラーのM-推定器(RGML Tyler)の2つの特定のコスト関数に着目した。 どちらも、バリ中心はリーマン距離で定義され、測地的凸性とアフィン不変性のよい性質を享受する。 この最適化は対称正定行列のリーマン幾何学と単位行列の部分多様体を用いて行われる。 最後に、実際のデータセット上でRGMLのパフォーマンスが主張される。 不正なラベル付きデータに対して堅牢でありながら、強いパフォーマンスを示す。

This paper proposes new algorithms for the metric learning problem. We start by noticing that several classical metric learning formulations from the literature can be viewed as modified covariance matrix estimation problems. Leveraging this point of view, a general approach, called Robust Geometric Metric Learning (RGML), is then studied. This method aims at simultaneously estimating the covariance matrix of each class while shrinking them towards their (unknown) barycenter. We focus on two specific costs functions: one associated with the Gaussian likelihood (RGML Gaussian), and one with Tyler's M -estimator (RGML Tyler). In both, the barycenter is defined with the Riemannian distance, which enjoys nice properties of geodesic convexity and affine invariance. The optimization is performed using the Riemannian geometry of symmetric positive definite matrices and its submanifold of unit determinant. Finally, the performance of RGML is asserted on real datasets. Strong performance is exhibited while being robust to mislabeled data.
翻訳日:2022-02-24 14:24:33 公開日:2022-02-23