このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220301となっている論文です。

PDF登録状況(公開日: 20220301)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) AI Gone Astray - 技術的サプリメント [全文訳有]

AI Gone Astray: Technical Supplement ( http://arxiv.org/abs/2203.16452v1 )

ライセンス: CC BY 4.0
Janice Yang, Ludvig Karstens, Casey Ross, Adam Yala(参考訳) この研究は、"ai gone astray: how subtle shifts in patient data sent popular algorithms reeling, undermining patient safety"の技術的サプリメントである。stat newsは、臨床的にデプロイされた機械学習モデルに対する時間ドリフトの影響を調査している。 私たちは、公開データセットであるimmitt-ivを使用して、dascenaとepicによる商用アプローチを再現したモデルを訓練し、致命的かつ扱いやすい状態である敗血症の発生を予測する。 もっとも注目すべきは、エピック機能上に構築されたrnnは、0.729 aucから0.525 aucに10年以上にわたって劣化し、パフォーマンス低下の根本原因として技術的および臨床的ドリフトを調査したことです。

This study is a technical supplement to "AI gone astray: How subtle shifts in patient data send popular algorithms reeling, undermining patient safety." from STAT News, which investigates the effect of time drift on clinically deployed machine learning models. We use MIMIC-IV, a publicly available dataset, to train models that replicate commercial approaches by Dascena and Epic to predict the onset of sepsis, a deadly and yet treatable condition. We observe some of these models degrade overtime; most notably an RNN built on Epic features degrades from a 0.729 AUC to a 0.525 AUC over a decade, leading us to investigate technical and clinical drift as root causes of this performance drop.
翻訳日:2022-04-03 20:31:53 公開日:2022-03-01
# (参考訳) ディープニューラルネットワークの暗黙的解釈可能性の実証と双対性 [全文訳有]

Explicitising The Implicit Intrepretability of Deep Neural Networks Via Duality ( http://arxiv.org/abs/2203.16455v1 )

ライセンス: CC BY 4.0
Chandrashekar Lakshminarayanan, Amit Vikram Singh, Arun Rajkumar(参考訳) Lakshminarayanan と Singh [2020] による最近の研究は、完全連結深層ニューラルネットワーク(DNN)と修正線形ユニット(ReLU)の二重ビューを提供した。 示されていたのは i) ゲート内の情報は、NPK(Neural path kernel)と呼ばれるカーネルによって解析的に特徴づけられ、 (二)最も重要な情報は門で学習され、学習したゲートを考慮すれば、性能を著しく損なうことなく、ゼロから重みを再現することができる。 本稿では,DNNの従来の解釈を再考し,DNNの暗黙的解釈可能性を明らかにする。 そこで我々はまず,畳み込み層の存在下でのNPKの回転不変性とアンサンブル構造の新たな理論的性質を示す。 私たちの理論は、従来の知恵に挑戦する2つの驚くべき経験的な結果をもたらす。 (i)一定の1入力でも重みを訓練することができる。 (ii)ガティングマスクは性能を損なうことなくシャッフルすることができる。 これらの結果は、我々がDLGN(Deep linearly gated Network)と呼ぶ新しいネットワークのクラスを動機付けている。 DLGNは、従来の解釈とは対照的に、より直接的で単純なDNN解釈を行うために、二重昇降路の現象を用いる。 CIFAR-10 と CIFAR-100 の広範な実験を通して,これらの DLGN は解釈可能性と精度のトレードオフを大幅に向上させることを示す。

Recent work by Lakshminarayanan and Singh [2020] provided a dual view for fully connected deep neural networks (DNNs) with rectified linear units (ReLU). It was shown that (i) the information in the gates is analytically characterised by a kernel called the neural path kernel (NPK) and (ii) most critical information is learnt in the gates, in that, given the learnt gates, the weights can be retrained from scratch without significant loss in performance. Using the dual view, in this paper, we rethink the conventional interpretations of DNNs thereby explicitsing the implicit interpretability of DNNs. Towards this, we first show new theoretical properties namely rotational invariance and ensemble structure of the NPK in the presence of convolutional layers and skip connections respectively. Our theory leads to two surprising empirical results that challenge conventional wisdom: (i) the weights can be trained even with a constant 1 input, (ii) the gating masks can be shuffled, without any significant loss in performance. These results motivate a novel class of networks which we call deep linearly gated networks (DLGNs). DLGNs using the phenomenon of dual lifting pave way to more direct and simpler interpretation of DNNs as opposed to conventional interpretations. We show via extensive experiments on CIFAR-10 and CIFAR-100 that these DLGNs lead to much better interpretability-acc uracy tradeoff.
翻訳日:2022-04-03 20:22:54 公開日:2022-03-01
# (参考訳) エネルギー効率PPGを用いた心拍モニタリングのための仮設畳み込みネットワーク [全文訳有]

Embedding Temporal Convolutional Networks for Energy-Efficient PPG-Based Heart Rate Monitoring ( http://arxiv.org/abs/2203.04396v1 )

ライセンス: CC BY 4.0
Alessio Burrello, Daniele Jahier Pagliari, Pierangelo Maria Rapa, Matilde Semilia, Matteo Risso, Tommaso Polonelli, Massimo Poncino, Luca Benini, Simone Benatti(参考訳) Photoplethysmography (PPG) センサーは非侵襲的で快適な心拍数(HR)モニタリングを可能にする。 残念なことに、モーションアーティファクト(mas)は監視精度に深刻な影響を与え、皮膚とセンサーのインターフェースに高い変動を引き起こす。 この問題を解決するために、ppg信号と慣性センサデータを組み合わせたデータ融合技術がいくつか導入されている。 これまでは、商用と検索の両方のソリューションは計算効率が良いが、あまり堅牢ではない、あるいは手作業のパラメータに強く依存しているため、一般化性能は劣る。 本研究では,PPGに基づく人事推定のための計算軽量で頑健なディープラーニングベースのアプローチを提案する。 具体的には、ニューラルネットワーク探索(NAS)を利用して、人事推定のための時間畳み込みネットワーク(TCN)の多様なセットを導出する。 また,MAの量に応じて複数のHR推定器を選択する適応アルゴリズムである ActPPG を導入し,エネルギー効率を向上する。 PPGDaliaのMean Absolute Error(MAE)の3.84 Beats per Minute(BPM)という2つのベンチマークデータセットに対して,我々のアプローチを検証した。 さらに、我々は低消費電力の商用マイクロコントローラ(STM32L4)にモデルをデプロイし、複雑さと精度の空間におけるパレート最適解の豊富な集合を得る。

Photoplethysmography (PPG) sensors allow for non-invasive and comfortable heart-rate (HR) monitoring, suitable for compact wrist-worn devices. Unfortunately, Motion Artifacts (MAs) severely impact the monitoring accuracy, causing high variability in the skin-to-sensor interface. Several data fusion techniques have been introduced to cope with this problem, based on combining PPG signals with inertial sensor data. Until know, both commercial and reasearch solutions are computationally efficient but not very robust, or strongly dependent on hand-tuned parameters, which leads to poor generalization performance. % In this work, we tackle these limitations by proposing a computationally lightweight yet robust deep learning-based approach for PPG-based HR estimation. Specifically, we derive a diverse set of Temporal Convolutional Networks (TCN) for HR estimation, leveraging Neural Architecture Search (NAS). Moreover, we also introduce ActPPG, an adaptive algorithm that selects among multiple HR estimators depending on the amount of MAs, to improve energy efficiency. We validate our approaches on two benchmark datasets, achieving as low as 3.84 Beats per Minute (BPM) of Mean Absolute Error (MAE) on PPGDalia, which outperforms the previous state-of-the-art. Moreover, we deploy our models on a low-power commercial microcontroller (STM32L4), obtaining a rich set of Pareto optimal solutions in the complexity vs. accuracy space.
翻訳日:2022-03-13 15:11:55 公開日:2022-03-01
# 明示的学生ベクトル推定と教師なし質問行列学習による認知診断

Cognitive Diagnosis with Explicit Student Vector Estimation and Unsupervised Question Matrix Learning ( http://arxiv.org/abs/2203.03722v1 )

ライセンス: Link先を確認
Lu Dong, Zhenhua Ling, Qiang Ling and Zefeng Lai(参考訳) 認知診断は多くの教育応用において重要な課題である。 多くの解決法が文献に書かれている。 決定論的入力、ノイズ・アンド・ゲート(DINA)モデルは古典的な認知診断モデルであり、例えば学生ベクトルなどの解釈可能な認知パラメータを提供することができる。 しかし、DINAの確率的部分の仮定は、質問のスリップと推測率は学生非依存であると仮定するため、強すぎる。 さらに、認知診断領域における質問のスキル分布を記録する質問行列(Q行列)は、しばしばドメインの専門家によって与えられる正確なラベルを必要とする。 そこで本稿では,DINAの確率的部分に対する仮定に依存せず,学生ベクトルを局所的な自己整合性テストで推定する,明示的な学生ベクトル推定法を提案する。 そして、推定された学生ベクトルに基づいて、DINAの確率部分は、スリップと推定率が学生ベクトルと関連している学生依存モデルに修正することができる。 さらに,q行列を自動的にラベル付けするヒューリスティック双方向キャリブレーションアルゴリズム(hbca)と呼ばれる教師なし手法を提案し,問題難易度関係と解結果とを初期化に結びつけ,esve-dinaの耐障害性を用いてキャリブレーションを行う。 2つの実世界のデータセットによる実験結果から,ESVE-DINAはDINAモデルよりも精度が高く,HBCAによって自動的にラベル付けされたQ行列は,同じモデル構造を用いて手動でラベル付けしたQ行列と同等の性能が得られることが示された。

Cognitive diagnosis is an essential task in many educational applications. Many solutions have been designed in the literature. The deterministic input, noisy "and" gate (DINA) model is a classical cognitive diagnosis model and can provide interpretable cognitive parameters, e.g., student vectors. However, the assumption of the probabilistic part of DINA is too strong, because it assumes that the slip and guess rates of questions are student-independent. Besides, the question matrix (i.e., Q-matrix) recording the skill distribution of the questions in the cognitive diagnosis domain often requires precise labels given by domain experts. Thus, we propose an explicit student vector estimation (ESVE) method to estimate the student vectors of DINA with a local self-consistent test, which does not rely on any assumptions for the probabilistic part of DINA. Then, based on the estimated student vectors, the probabilistic part of DINA can be modified to a student dependent model that the slip and guess rates are related to student vectors. Furthermore, we propose an unsupervised method called heuristic bidirectional calibration algorithm (HBCA) to label the Q-matrix automatically, which connects the question difficulty relation and the answer results for initialization and uses the fault tolerance of ESVE-DINA for calibration. The experimental results on two real-world datasets show that ESVE-DINA outperforms the DINA model on accuracy and that the Q-matrix labeled automatically by HBCA can achieve performance comparable to that obtained with the manually labeled Q-matrix when using the same model structure.
翻訳日:2022-03-13 13:52:56 公開日:2022-03-01
# 公共政策のためのAIに基づく意思決定のためのシステムカード

System Cards for AI-Based Decision-Making for Public Policy ( http://arxiv.org/abs/2203.04754v1 )

ライセンス: Link先を確認
Furkan Gursoy and Ioannis A. Kakadiaris(参考訳) 公共政策の決定はますます行われ、自動意思決定アルゴリズムによって支援されている。 これらのアルゴリズムの多くは、リシディズムの予測、福祉決定の支援、顔認識を用いた個人識別などのタスクのために個人データを処理している。 効率性と有効性は向上するが、このようなアルゴリズムは本質的にバイアス、不透明性、説明可能性の欠如、悪質性などの問題から自由ではない。 これらのアルゴリズムの結果が個人や社会に大きな影響を与え、展開後の分析やコンテストに開放されることを考えると、そのような問題は展開前に考慮しなければならない。 公式監査は、公開政策で使用されるアルゴリズムが適切な説明責任基準を満たすための方法である。 この研究は、文献の広範な分析に基づいて、公的な政策における人工知能に基づく意思決定システムの正式な監査のためのシステムアカウンタビリティベンチマークと、そのような監査の結果を示すスコアカードとして機能するシステムカードの統一フレームワークを提案する。 ベンチマークは、次元からなる4次元と4次元の行列で構成された50の基準からなる。 (i) データ (ii)モデル。 (iii)コード (iv)システム及び (a)開発 b)アセスメント, (c)緩和 (d)保証。 各基準を、人間またはコンピュータによる評価を行うか、評価結果がバイナリであるか順序尺度であるかを示す提案測定尺度と共に記述し、議論する。 提案するシステムアカウンタビリティベンチマークは、会計システムの現状を反映し、将来のアルゴリズム監査のチェックリストとして機能し、今後の研究としてシーケンシャルな作業の道を開く。

Decisions in public policy are increasingly being made or assisted by automated decision-making algorithms. Many of these algorithms process personal data for tasks such as predicting recidivism, assisting welfare decisions, identifying individuals using face recognition, and more. While potentially improving efficiency and effectiveness, such algorithms are not inherently free from issues such as bias, opaqueness, lack of explainability, maleficence, and the like. Given that the outcomes of these algorithms have significant impacts on individuals and society and are open to analysis and contestation after deployment, such issues must be accounted for before deployment. Formal audits are a way towards ensuring algorithms that are used in public policy meet the appropriate accountability standards. This work, based on an extensive analysis of the literature, proposes a unifying framework for system accountability benchmark for formal audits of artificial intelligence-based decision-aiding systems in public policy as well as system cards that serve as scorecards presenting the outcomes of such audits. The benchmark consists of 50 criteria organized within a four by four matrix consisting of the dimensions of (i) data, (ii) model, (iii) code, (iv) system and (a) development, (b) assessment, (c) mitigation, (d) assurance. Each criterion is described and discussed alongside a suggested measurement scale indicating whether the evaluations are to be performed by humans or computers and whether the evaluation outcomes are binary or on an ordinal scale. The proposed system accountability benchmark reflects the state-of-the-art developments for accountable systems, serves as a checklist for future algorithm audits, and paves the way for sequential work as future research.
翻訳日:2022-03-13 13:25:28 公開日:2022-03-01
# (参考訳) 物体検出とセグメンテーションのための信頼度校正 [全文訳有]

Confidence Calibration for Object Detection and Segmentation ( http://arxiv.org/abs/2202.12785v2 )

ライセンス: CC BY 4.0
Fabian K\"uppers, Anselm Haselhoff, Jan Kronenberger, Jonas Schneider(参考訳) ニューラルネットワークから得られる信頼度推定の校正は、特に自動運転や医療画像診断のような安全クリティカルな応用において重要である。 しかし, 分類問題では信頼度校正の課題が検討されているものの, 対象検出やセグメンテーション問題に関する徹底的な調査はいまだに欠落している。 そこで本章では,物体検出およびセグメント化モデルに対する信頼性校正の検討に焦点をあてる。 本稿では,オブジェクト検出とセグメンテーションのタスクによく知られたキャリブレーション手法を拡張した多変量信頼度校正の概念を紹介する。 これにより、バウンディングボックス/ピクセル位置、形状情報などの追加機能も認識できる拡張された信頼度校正が可能になる。 さらに、予測校正誤差(ECE)を拡張して、オブジェクト検出とセグメンテーションモデルの誤校正を計測する。 我々は,ms coco のネットワークアーキテクチャと都市景観について検討し,導入されたキャリブレーションの定義から,特にオブジェクト検出やインスタンスセグメンテーションモデルが本質的に誤調整されていることを示す。 提案手法を用いてキャリブレーションの改善を行い,セグメンテーションマスクの品質にも有意な影響を与えることができた。

Calibrated confidence estimates obtained from neural networks are crucial, particularly for safety-critical applications such as autonomous driving or medical image diagnosis. However, although the task of confidence calibration has been investigated on classification problems, thorough investigations on object detection and segmentation problems are still missing. Therefore, we focus on the investigation of confidence calibration for object detection and segmentation models in this chapter. We introduce the concept of multivariate confidence calibration that is an extension of well-known calibration methods to the task of object detection and segmentation. This allows for an extended confidence calibration that is also aware of additional features such as bounding box/pixel position, shape information, etc. Furthermore, we extend the expected calibration error (ECE) to measure miscalibration of object detection and segmentation models. We examine several network architectures on MS COCO as well as on Cityscapes and show that especially object detection as well as instance segmentation models are intrinsically miscalibrated given the introduced definition of calibration. Using our proposed calibration methods, we have been able to improve calibration so that it also has a positive impact on the quality of segmentation masks as well.
翻訳日:2022-03-05 15:42:29 公開日:2022-03-01
# (参考訳) 電話レベルの混合データ拡張とマルチソース情報による非ネイティブな単語レベルの発音スコーリングの改善 [全文訳有]

Improving Non-native Word-level Pronunciation Scoring with Phone-level Mixup Data Augmentation and Multi-source Information ( http://arxiv.org/abs/2203.01826v1 )

ライセンス: CC BY 4.0
Kaiqi Fu, Shaojun Gao, Kai Wang, Wei Li, Xiaohai Tian, Zejun Ma(参考訳) ディープラーニングベースの発音スコアリングモデルは、注釈付き非ネイティブデータの可用性に大きく依存しています。 データ不足問題に対処するため、データ拡張はモデル事前トレーニングに一般的に使用される。 本稿では, 単語レベルの発音性能を向上させるため, 簡易で効果的なデータ拡張手法である電話レベルの混合手法を提案する。 具体的には、レキシコンから音素シーケンスが与えられると、学習データ中の対応する電話レベルの特徴からランダムにサンプリングして人工的な拡張語サンプルを生成することができ、単語スコアはgopスコアの平均となる。 任意の電話レベルの組み合わせにより、mixupは様々な発音スコアを持つ単語を生成できる。 さらに、マルチソース情報(例えば、MFCCやディープ機能)を用いて、スコアリングシステムの性能をさらに向上する。 speechocean762で行った実験により、本システムは、事前学習のための混合データを追加することでベースラインを上回っており、ピアソン相関係数 (pcc) は0.567から0.061に増加した。 また,提案手法はベースラインのラベル付き1/10データを用いて類似した性能を実現する。 さらに,提案手法の有効性を実証する実験を行った。

Deep learning-based pronunciation scoring models highly rely on the availability of the annotated non-native data, which is costly and has scalability issues. To deal with the data scarcity problem, data augmentation is commonly used for model pretraining. In this paper, we propose a phone-level mixup, a simple yet effective data augmentation method, to improve the performance of word-level pronunciation scoring. Specifically, given a phoneme sequence from lexicon, the artificial augmented word sample can be generated by randomly sampling from the corresponding phone-level features in training data, while the word score is the average of their GOP scores. Benefit from the arbitrary phone-level combination, the mixup is able to generate any word with various pronunciation scores. Moreover, we utilize multi-source information (e.g., MFCC and deep features) to further improve the scoring system performance. The experiments conducted on the Speechocean762 show that the proposed system outperforms the baseline by adding the mixup data for pretraining, with Pearson correlation coefficients (PCC) increasing from 0.567 to 0.61. The results also indicate that proposed method achieves similar performance by using 1/10 unlabeled data of baseline. In addition, the experimental results also demonstrate the efficiency of our proposed multi-source approach.
翻訳日:2022-03-05 14:04:50 公開日:2022-03-01
# (参考訳) タイミングエラーの影響:ナビゲーションカメラのケーススタディ [全文訳有]

Effect of Timing Error: A Case Study of Navigation Camera ( http://arxiv.org/abs/2203.01412v1 )

ライセンス: CC BY-SA 4.0
Sandeep S. Kulkarni and Sanjay M. Joshi(参考訳) 本稿では,サイバー物理システムにおけるタイミング誤差の影響のより広いケーススタディとして,ナビゲーションカメラのタイミング誤差の問題に焦点を当てる。 これらのシステムは、ある物事が同時に起こるか、ある期間に定期的に起こるという要件に依存している。 しかしながら、これらのシステムがより複雑になるにつれて、コンポーネント間でタイミングエラーが発生するため、同時(または周期的な)イベントの仮定に違反する可能性がある。 2台のカメラで撮影された2d画像から検出された光学マーカーを用いて3d空間にマーカーを配置する外科用ナビゲーションシステムの問題点について考察する。 このようなマーカーの予め定義された配列、すなわち参照要素は、患者の画像上の手術器具の対応するcadモデルをナビゲートするために使用される。 カメラは、両方のカメラの写真が正確に同時に撮影されるという仮定に依存している。 タイミングエラーが発生した場合、楽器は画像の間を移動した可能性がある。 測定器の位置によっては、測定器の局在にかなりの誤差が生じる可能性があることがわかりました。 具体的には、実際の動きが$\delta$であれば、観測された動きはカメラの動作範囲で$5\delta$となる可能性がある。 さらに,カメラシステムや操作範囲に変化がある場合,エラーに影響を及ぼす可能性のある潜在的な問題も同定する。

We focus on the problem of timing errors in navigation camera as a case study in a broader problem of the effect of a timing error in cyber-physical systems. These systems rely on the requirement that certain things happen at the same time or certain things happen periodically at some period $T$. However, as these systems get more complex, timing errors can occur between the components thereby violating the assumption about events being simultaneous (or periodic). We consider the problem of a surgical navigation system where optical markers detected in the 2D pictures taken by two cameras are used to localize the markers in 3D space. A predefined array of such markers, known as a reference element, is used to navigate the corresponding CAD model of a surgical instrument on patient's images. The cameras rely on the assumption that the pictures from both cameras are taken exactly at the same time. If a timing error occurs then the instrument may have moved between the pictures. We find that, depending upon the location of the instrument, this can lead to a substantial error in the localization of the instrument. Specifically, we find that if the actual movement is $\delta$ then the observed movement may be as high as $5\delta$ in the operating range of the camera. Furthermore, we also identify potential issues that could affect the error in case there are changes to the camera system or to the operating range.
翻訳日:2022-03-05 13:54:06 公開日:2022-03-01
# 教師なしニューラル音声表現学習の概要

A Brief Overview of Unsupervised Neural Speech Representation Learning ( http://arxiv.org/abs/2203.01829v1 )

ライセンス: Link先を確認
Lasse Borgholt, Jakob Drachmann Havtorn, Joakim Edin, Lars Maal{\o}e, Christian Igel(参考訳) 近年,音声処理のための教師なし表現学習が盛んに行われている。 コンピュータビジョンと自然言語処理の仕事は道を切り開いたが、音声データには独特の課題がある。 その結果、他のドメインからのメソッドが直接翻訳されることはほとんどない。 本稿では,過去10年間の音声のための教師なし表現学習の開発について概観する。 自己教師付き手法と確率潜在変数モデルという2つの主要なモデルカテゴリを同定する。 モデルを説明し,包括的分類法を開発する。 最後に,2つのカテゴリのモデルを比較して比較する。

Unsupervised representation learning for speech processing has matured greatly in the last few years. Work in computer vision and natural language processing has paved the way, but speech data offers unique challenges. As a result, methods from other domains rarely translate directly. We review the development of unsupervised representation learning for speech over the last decade. We identify two primary model categories: self-supervised methods and probabilistic latent variable models. We describe the models and develop a comprehensive taxonomy. Finally, we discuss and compare models from the two categories.
翻訳日:2022-03-04 17:05:17 公開日:2022-03-01
# 時間リンク予測のための効果的なグラフ学習手法:WSDMカップ2022の第一位

An Effective Graph Learning based Approach for Temporal Link Prediction: The First Place of WSDM Cup 2022 ( http://arxiv.org/abs/2203.01820v1 )

ライセンス: Link先を確認
Qian Zhao, Shuo Yang, Binbin Hu, Zhiqiang Zhang, Yakun Wang, Yusong Chen, Jun Zhou, Chuan Shi(参考訳) 時間的リンク予測は、時間的グラフにおける最も重要な研究の1つであり、研究領域から多くの注目を集めている。 wsdm cup 2022は時相グラフ上の時間内の辺の存在確率を予測する解を求めるものである。 本稿では,競争で1位となったアントグラフの解法を紹介する。 まず,性能の理論的上界を時間的情報を排除することで解析し,グラフ上の構造情報と属性情報だけが優れた性能を達成できることを示す。 この仮説に基づいて,よく設計された特徴をいくつか紹介する。 最後に, コンペティションデータセットを用いた実験では, aucスコアをデータセットaで0.666, データセットbで0.902とし, それぞれの特徴の効率性も実証した。 コードはhttps://github.com/i m0qianqian/WSDM2022T GP-AntGraphで公開されている。

Temporal link prediction, as one of the most crucial work in temporal graphs, has attracted lots of attention from the research area. The WSDM Cup 2022 seeks for solutions that predict the existence probabilities of edges within time spans over temporal graph. This paper introduces the solution of AntGraph, which wins the 1st place in the competition. We first analysis the theoretical upper-bound of the performance by removing temporal information, which implies that only structure and attribute information on the graph could achieve great performance. Based on this hypothesis, then we introduce several well-designed features. Finally, experiments conducted on the competition datasets show the superiority of our proposal, which achieved AUC score of 0.666 on dataset A and 0.902 on dataset B, the ablation studies also prove the efficiency of each feature. Code is publicly available at https://github.com/i m0qianqian/WSDM2022T GP-AntGraph.
翻訳日:2022-03-04 15:26:26 公開日:2022-03-01
# 確率的2段階検出器を用いたコロニー核インスタンスセグメンテーション

Colon Nuclei Instance Segmentation using a Probabilistic Two-Stage Detector ( http://arxiv.org/abs/2203.01321v1 )

ライセンス: Link先を確認
Pedro Costa, Yongpan Fu, Jo\~ao Nunes, Aur\'elio Campilho, Jaime S. Cardoso(参考訳) ガンは先進国における主要な死因の1つである。 癌診断は、不審組織の試料の顕微鏡的分析によって行われる。 このプロセスは時間がかかり、エラーが発生しやすいが、深層学習モデルはがん診断の病理学者に役立つかもしれない。 我々は、CenterNet2オブジェクト検出モデルを変更し、SegCenterNet2と呼ばれるインスタンスセグメンテーションを実行することを提案する。 私たちは、CoNICチャレンジデータセットでSegCenterNet2をトレーニングし、競合メトリクスのMask R-CNNよりも優れたパフォーマンスを示している。

Cancer is one of the leading causes of death in the developed world. Cancer diagnosis is performed through the microscopic analysis of a sample of suspicious tissue. This process is time consuming and error prone, but Deep Learning models could be helpful for pathologists during cancer diagnosis. We propose to change the CenterNet2 object detection model to also perform instance segmentation, which we call SegCenterNet2. We train SegCenterNet2 in the CoNIC challenge dataset and show that it performs better than Mask R-CNN in the competition metrics.
翻訳日:2022-03-04 15:22:21 公開日:2022-03-01
# (参考訳) 機械学習による天文学研究の優先順位決定 [全文訳有]

Determining Research Priorities for Astronomy Using Machine Learning ( http://arxiv.org/abs/2203.00713v1 )

ライセンス: CC BY 4.0
Brian Thomas, Harley Thronson, Anthony Buonomo and Louis Barbier(参考訳) 機械学習技術が科学の戦略的計画を強化することができるかどうかに関する最初の調査を要約する。 高影響天文学雑誌の要約を用いた潜在ディリクレ割当に基づくアプローチは、研究トピックに対する今後の関心を示す主要な指標となる可能性がある。 2010年国立科学アカデミー天文学・天体物理学研究フロンティアパネルで特定された高次研究領域とよく相関する2つのトピック指標を示す。 1つの指標は、すべての科学論文("counts")による各トピックへの分数貢献の合計に基づいており、もう1つはこれらの数値の複合的な年次成長率である。 これらの指標は、同じDecadal Surveyに提出されたホワイトペーパーと同等の相関関係を示す。 以上の結果から,デカナルサーベイは急速に成長する研究を過小評価する可能性が示唆された。 私たちの研究の予備版は、 thronson et al. 2021 によって提示された。

We summarize the first exploratory investigation into whether Machine Learning techniques can augment science strategic planning. We find that an approach based on Latent Dirichlet Allocation using abstracts drawn from high impact astronomy journals may provide a leading indicator of future interest in a research topic. We show two topic metrics that correlate well with the high-priority research areas identified by the 2010 National Academies' Astronomy and Astrophysics Decadal Survey science frontier panels. One metric is based on a sum of the fractional contribution to each topic by all scientific papers ("counts") while the other is the Compound Annual Growth Rate of these counts. These same metrics also show the same degree of correlation with the whitepapers submitted to the same Decadal Survey. Our results suggest that the Decadal Survey may under-emphasize fast growing research. A preliminary version of our work was presented by Thronson et al. 2021.
翻訳日:2022-03-04 09:49:49 公開日:2022-03-01
# (参考訳) 人的データのないロバストなリアルタイム文化伝達の学習

Learning Robust Real-Time Cultural Transmission without Human Data ( http://arxiv.org/abs/2203.00715v1 )

ライセンス: CC BY 4.0
Cultural General Intelligence Team, Avishkar Bhoopchand, Bethanie Brownfield, Adrian Collister, Agustin Dal Lago, Ashley Edwards, Richard Everett, Alexandre Frechette, Yanko Gitahy Oliveira, Edward Hughes, Kory W. Mathewson, Piermaria Mendolicchio, Julia Pawar, Miruna Pislar, Alex Platonov, Evan Senter, Sukhdeep Singh, Alexander Zacherl, Lei M. Zhang(参考訳) 文化伝承は、エージェントが互いに情報をリアルタイムで取得・活用し、高い忠実さとリコールを可能にする、ドメイン一般の社会的スキルである。 人間では、累積的な文化的進化を支え、私たちのスキル、ツール、知識を世代にわたって拡張する継承プロセスです。 人工知能エージェントにおけるゼロショット、高リコール文化伝達を生成する方法を提案する。 我々のエージェントは,事前に収集した人間データを使わずに,新しい文脈で人間からのリアルタイムな文化伝達に成功している。 文化伝達を発生させるのに十分な驚くほど単純な成分群を同定し,それを厳密に評価するための評価方法を開発した。 これは、人工知能を開発するアルゴリズムとしての文化進化の道を開く。

Cultural transmission is the domain-general social skill that allows agents to acquire and use information from each other in real-time with high fidelity and recall. In humans, it is the inheritance process that powers cumulative cultural evolution, expanding our skills, tools and knowledge across generations. We provide a method for generating zero-shot, high recall cultural transmission in artificially intelligent agents. Our agents succeed at real-time cultural transmission from humans in novel contexts without using any pre-collected human data. We identify a surprisingly simple set of ingredients sufficient for generating cultural transmission and develop an evaluation methodology for rigorously assessing it. This paves the way for cultural evolution as an algorithm for developing artificial general intelligence.
翻訳日:2022-03-04 09:45:27 公開日:2022-03-01
# (参考訳) Manifold-Aware GANを用いた3次元骨格型人体動作予測 [全文訳有]

3D Skeleton-based Human Motion Prediction with Manifold-Aware GAN ( http://arxiv.org/abs/2203.00736v1 )

ライセンス: CC BY 4.0
Baptiste Chopin, Naima Otberdout, Mohamed Daoudi, Angela Bartolo(参考訳) 本研究では3次元骨格に基づく人間の動作予測の新しい解法を提案する。 このタスクの目的は、以前の骨格ポーズシーケンスに基づいて将来の人間のポーズを予測することである。 これは、(1)非現実的な動きをもたらす予測運動の不連続性、(2)長期的地平線における時間的誤差蓄積による性能劣化の2つの主要な課題を解決している。 3次元人間の骨格運動のコンパクトな多様体値表現を用いてこの問題に取り組む。 具体的には、3次元のポーズの時間的進化を軌跡としてモデル化し、人間の動きを球面多様体上の単一点にマッピングする。 このようなコンパクトな表現はエラーの蓄積を回避し、動き全体の滑らかさとコヒーレンスを確保しながら、長期予測のための堅牢な表現を提供する。 これらの非ユークリッド表現を学ぶために、異なる損失を通じて人間の運動の時間的および空間的依存性を捉える多様体認識ワッサースタイン生成逆モデルを構築する。 CMU MoCapとHuman 3.6Mのデータセットを用いて実験を行い、短期および長期の地平線における最先端技術に対する我々のアプローチの優位性を実証した。 生成した動きの滑らかさは定性的結果に強調される。

In this work we propose a novel solution for 3D skeleton-based human motion prediction. The objective of this task consists in forecasting future human poses based on a prior skeleton pose sequence. This involves solving two main challenges still present in recent literature; (1) discontinuity of the predicted motion which results in unrealistic motions and (2) performance deterioration in long-term horizons resulting from error accumulation across time. We tackle these issues by using a compact manifold-valued representation of 3D human skeleton motion. Specifically, we model the temporal evolution of the 3D poses as trajectory, what allows us to map human motions to single points on a sphere manifold. Using such a compact representation avoids error accumulation and provides robust representation for long-term prediction while ensuring the smoothness and the coherence of the whole motion. To learn these non-Euclidean representations, we build a manifold-aware Wasserstein generative adversarial model that captures the temporal and spatial dependencies of human motion through different losses. Experiments have been conducted on CMU MoCap and Human 3.6M datasets and demonstrate the superiority of our approach over the state-of-the-art both in short and long term horizons. The smoothness of the generated motion is highlighted in the qualitative results.
翻訳日:2022-03-04 09:44:15 公開日:2022-03-01
# (参考訳) ロボット支援手術における実行エラーのランタイム検出 [全文訳有]

Runtime Detection of Executional Errors in Robot-Assisted Surgery ( http://arxiv.org/abs/2203.00737v1 )

ライセンス: CC BY 4.0
Zongyu Li, Kay Hutchinson, Homa Alemzadeh(参考訳) 手術ロボットの設計や手術スキルの客観的評価のための自動化技術の発展にも拘わらず、ロボット支援最小侵襲手術(rmis)における安全性の確保には依然として課題がある。 本稿では,運動データ解析により手術中の実行エラーを検出するランタイムモニタリングシステムを提案する。 本システムでは,二種類のシアムニューラルネットと,手術課題やジェスチャ,その分布的類似性,一般的なエラーモードを含む外科的文脈の知識を組み込んで,小訓練データセットから正常と誤手術の軌跡の違いを学習する。 JIGSAWSデータセットからのSuturing and Needle Passingタスクのドライラブ・デモを用いて,異なるレベルの文脈知識とトレーニングデータで訓練された単一CNNおよびLSTMネットワークと比較して,Siameseネットワークを用いた誤り検出の性能を評価する。 これらの結果から, ジェスチャー特定タスク非依存のSameseネットワークではマイクロF1スコアが0.94(Siamese-CNN)と0.95(Siamese-LSTM)となり, シングルCNN(0.86)とLSTM(0.87)よりも優れていた。 これらのシームズネットワークは、サチューリングとニードルパスのためのシームズ-CNNとシームズ-LSTMモデルにおいて、ジェスチャー非特定タスクよりも優れています。

Despite significant developments in the design of surgical robots and automated techniques for objective evaluation of surgical skills, there are still challenges in ensuring safety in robot-assisted minimally-invasive surgery (RMIS). This paper presents a runtime monitoring system for the detection of executional errors during surgical tasks through the analysis of kinematic data. The proposed system incorporates dual Siamese neural networks and knowledge of surgical context, including surgical tasks and gestures, their distributional similarities, and common error modes, to learn the differences between normal and erroneous surgical trajectories from small training datasets. We evaluate the performance of the error detection using Siamese networks compared to single CNN and LSTM networks trained with different levels of contextual knowledge and training data, using the dry-lab demonstrations of the Suturing and Needle Passing tasks from the JIGSAWS dataset. Our results show that gesture specific task nonspecific Siamese networks obtain micro F1 scores of 0.94 (Siamese-CNN) and 0.95 (Siamese-LSTM), and perform better than single CNN (0.86) and LSTM (0.87) networks. These Siamese networks also outperform gesture nonspecific task specific Siamese-CNN and Siamese-LSTM models for Suturing and Needle Passing.
翻訳日:2022-03-04 09:23:45 公開日:2022-03-01
# (参考訳) HyperPrompt: トランスフォーマーのプロンプトベースのタスクコンディショニング [全文訳有]

HyperPrompt: Prompt-based Task-Conditioning of Transformers ( http://arxiv.org/abs/2203.00759v1 )

ライセンス: CC BY 4.0
Yun He, Huaixiu Steven Zheng, Yi Tay, Jai Gupta, Yu Du, Vamsi Aribandi, Zhe Zhao, YaGuang Li, Zhao Chen, Donald Metzler, Heng-Tze Cheng, Ed H. Chi(参考訳) Prompt-Tuningは、事前訓練された言語モデルをパラメータ効率良く微調整するための新しいパラダイムである。 本稿では,ハイパーネットワークを用いたハイパープロンプトの生成について検討する。トランスフォーマーにおける自己着脱のプロンプトベースのタスクコンディショニングのための新しいアーキテクチャであるhyperpromptを提案する。 ハイパープロンプトはHyperNetworkの生成を通じてエンドツーエンドで学習可能である。 hyperpromptを使用すると、ネットワークはタスク固有の特徴マップを学習でき、ハイパープロキシがタスクのグローバルメモリとして機能すると同時に、タスク間で柔軟な情報共有を可能にする。 我々はHyperPromptが,タスク条件パラメータを0.14 %程度追加することで,強力なマルチタスク学習ベースラインと競合し,優れたパラメータと計算効率を実現していることを示す。 実験的な実験により,HyperPromptは強力なT5マルチタスク学習ベースラインや,Prompt-TuningやHyperFormer++ on Natural Language Understandingベンチマークなど,パラメータ効率のよいアダプタバリアントよりも優れた性能を実現することができることを示した。

Prompt-Tuning is a new paradigm for finetuning pre-trained language models in a parameter-efficient way. Here, we explore the use of HyperNetworks to generate hyper-prompts: we propose HyperPrompt, a novel architecture for prompt-based task-conditioning of self-attention in Transformers. The hyper-prompts are end-to-end learnable via generation by a HyperNetwork. HyperPrompt allows the network to learn task-specific feature maps where the hyper-prompts serve as task global memories for the queries to attend to, at the same time enabling flexible information sharing among tasks. We show that HyperPrompt is competitive against strong multi-task learning baselines with as few as $0.14\%$ of additional task-conditioning parameters, achieving great parameter and computational efficiency. Through extensive empirical experiments, we demonstrate that HyperPrompt can achieve superior performances over strong T5 multi-task learning baselines and parameter-efficient adapter variants including Prompt-Tuning and HyperFormer++ on Natural Language Understanding benchmarks of GLUE and SuperGLUE across many model sizes.
翻訳日:2022-03-04 08:52:59 公開日:2022-03-01
# (参考訳) ローコストオンデバイス部分ドメイン適応(loco-pda) : エッジデバイスでの効率的なcnnリトレーニングを可能にする [全文訳有]

Low-Cost On-device Partial Domain Adaptation (LoCO-PDA): Enabling efficient CNN retraining on edge devices ( http://arxiv.org/abs/2203.00772v1 )

ライセンス: CC BY 4.0
Aditya Rajagopal, Christos-Savvas Bouganis(参考訳) エッジデバイスへの畳み込みニューラルネットワーク(convolutional neural network, cnns)のデプロイの増加に伴い、デプロイ時の観測データ分布の不確実性が高まり、ilsvrc'12のような大規模で広範なデータセットを使用してcnnをトレーニングすることが可能になった。 したがって、デプロイ時の観測データ分布は、トレーニングデータ分布のサブセットである可能性が高い。 このような場合、ネットワークを観測データ分布に適応させないと、負の転送による性能低下が生じ、これは部分領域適応(pda)の焦点である。 PDAをターゲットとする現在の作業は、エッジデバイス上でのドメイン適応の実行、ターゲット分布の変化への適応、あるいは適応されたネットワークのデプロイコストの削減に重点を置いていない。 本研究は,これらすべての方向を対象とし,デバイス上でPDAを行うための新たなPDA手法を提案する。 LoCO-PDAは、エッジデバイス上で再トレーニングできるようにして、デプロイされたネットワークを観測データ分散に適応させる。 ILSVRC12データセットのサブセット全体で、LoCO-PDAは平均で3.04ppの分類精度を改善し、メモリ再トレーニングの最大15.1倍の削減とNVIDIA Jetson TX2の推論遅延の2.07倍の改善を実現している。 この仕事は、匿名性のために削除された \emph{link} でオープンソースである。

With the increased deployment of Convolutional Neural Networks (CNNs) on edge devices, the uncertainty of the observed data distribution upon deployment has led researchers to to utilise large and extensive datasets such as ILSVRC'12 to train CNNs. Consequently, it is likely that the observed data distribution upon deployment is a subset of the training data distribution. In such cases, not adapting a network to the observed data distribution can cause performance degradation due to negative transfer and alleviating this is the focus of Partial Domain Adaptation (PDA). Current works targeting PDA do not focus on performing the domain adaptation on an edge device, adapting to a changing target distribution or reducing the cost of deploying the adapted network. This work proposes a novel PDA methodology that targets all of these directions and opens avenues for on-device PDA. LoCO-PDA adapts a deployed network to the observed data distribution by enabling it to be retrained on an edge device. Across subsets of the ILSVRC12 dataset, LoCO-PDA improves classification accuracy by 3.04pp on average while achieving up to 15.1x reduction in retraining memory consumption and 2.07x improvement in inference latency on the NVIDIA Jetson TX2. The work is open-sourced at \emph{link removed for anonymity}.
翻訳日:2022-03-04 08:18:05 公開日:2022-03-01
# (参考訳) マルチターン対話における応答選択のための2段階教師付きコントラスト学習 [全文訳有]

Two-Level Supervised Contrastive Learning for Response Selection in Multi-Turn Dialogue ( http://arxiv.org/abs/2203.00793v1 )

ライセンス: CC BY 4.0
Wentao Zhang, Shuang Xu, and Haoran Huang(参考訳) マルチターン対話における発話に対する多くの候補からの適切な応答を選択することは,検索に基づく対話システムにおいて重要な問題である。 既存の作業は、タスクを発話と候補のマッチングとして形式化し、モデルの学習においてクロスエントロピー損失を使用する。 本稿では,教師付きコントラスト損失を用いたコントラスト学習を課題に適用する。 このようにして、正の例の学習表現と負の例の表現は埋め込み空間でより遠く離れることができ、マッチングの性能を高めることができる。 さらに、2段階の教師付きコントラスト学習と呼ばれる新しい教師付きコントラスト学習法を開発し、マルチターン対話における応答選択にこの手法を用いる。 本手法は,文トークンシャッフル (STS) と文再順序付け (SR) の2つの手法を用いて教師付きコントラスト学習を行う。 3つのベンチマークデータセットによる実験結果から,提案手法はタスクの対照的な学習基準と最先端の手法を著しく上回ることがわかった。

Selecting an appropriate response from many candidates given the utterances in a multi-turn dialogue is the key problem for a retrieval-based dialogue system. Existing work formalizes the task as matching between the utterances and a candidate and uses the cross-entropy loss in learning of the model. This paper applies contrastive learning to the problem by using the supervised contrastive loss. In this way, the learned representations of positive examples and representations of negative examples can be more distantly separated in the embedding space, and the performance of matching can be enhanced. We further develop a new method for supervised contrastive learning, referred to as two-level supervised contrastive learning, and employ the method in response selection in multi-turn dialogue. Our method exploits two techniques: sentence token shuffling (STS) and sentence re-ordering (SR) for supervised contrastive learning. Experimental results on three benchmark datasets demonstrate that the proposed method significantly outperforms the contrastive learning baseline and the state-of-the-art methods for the task.
翻訳日:2022-03-04 08:00:09 公開日:2022-03-01
# VaiPhy: 変分推論に基づく系統解析アルゴリズム

VaiPhy: a Variational Inference Based Algorithm for Phylogeny ( http://arxiv.org/abs/2203.01121v1 )

ライセンス: Link先を確認
Hazal Koptagel, Oskar Kviman, Harald Melin, Negar Safinianaini, Jens Lagergren(参考訳) 系統学は計算生物学における古典的な方法論であり、現在ではがん発生の文脈において、単細胞データの医学的調査に非常に関連がある。 木空間の指数的な大きさは、マルコフ連鎖モンテカルロ法に基づく現在のベイズ系統推定において、局所的な演算に依存するため、強い障害となる。 より最近の変分推論(VI)に基づく手法は速度改善を提供するが、変動パラメータを学習するために高価な自動微分演算に依存する。 拡張木空間における近似後部推論のための驚くほど高速な VI ベースのアルゴリズムである VaiPhy を提案する。 VaiPhyは、実データ上の最先端の手法と同等に辺りのログのような推定をし、自動微分を必要としないため、かなり高速である。 代わりに、VayPhyは座標上昇更新方程式と2つの新しいサンプリングスキームを組み合わせる。 (i)拡張木空間における木トポロジーのための提案分布slantis,および (II) JC サンプリング器は,私たちの知る限りでは,一般的なJukes-Cantor モデルから直接分岐長をサンプリングするための最初のスキームである。 VaiPhyを密度推定とランタイムの観点から比較する。 さらに,ベースラインの再現性を評価する。 私たちはGitHubでコードを提供しています。

Phylogenetics is a classical methodology in computational biology that today has become highly relevant for medical investigation of single-cell data, e.g., in the context of development of cancer. The exponential size of the tree space is unfortunately a formidable obstacle for current Bayesian phylogenetic inference using Markov chain Monte Carlo based methods since these rely on local operations. And although more recent variational inference (VI) based methods offer speed improvements, they rely on expensive auto-differentiation operations for learning the variational parameters. We propose VaiPhy, a remarkably fast VI based algorithm for approximate posterior inference in an augmented tree space. VaiPhy produces marginal log-likelihood estimates on par with the state-of-the-art methods on real data, and is considerably faster since it does not require auto-differentiation . Instead, VaiPhy combines coordinate ascent update equations with two novel sampling schemes: (i) SLANTIS, a proposal distribution for tree topologies in the augmented tree space, and (ii) the JC sampler, the, to the best of our knowledge, first ever scheme for sampling branch lengths directly from the popular Jukes-Cantor model. We compare VaiPhy in terms of density estimation and runtime. Additionally, we evaluate the reproducibility of the baselines. We provide our code on GitHub: https://github.com/L agergren-Lab/VaiPhy.
翻訳日:2022-03-03 16:33:06 公開日:2022-03-01
# 露出プロファイルに対するベイズ適応および解釈可能な機能回帰

Bayesian adaptive and interpretable functional regression for exposure profiles ( http://arxiv.org/abs/2203.00784v1 )

ライセンス: Link先を確認
Yunan Gao, Daniel R. Kowal(参考訳) 妊娠中の汚染物質曝露は出生と健康の予後に悪影響を及ぼす。 しかし、出生前の大気汚染の曝露と教育結果の関連性は、特に妊娠中の感受性の重大な窓として、あまり明確ではない。 ノースカロライナの学生の大規模なコホートを用いて、ほぼ連続的な解像度で記録された出生前の$\mbox{PM}_{2.5}$露出を調査し、第4段階の読解スコアと関連づけた。 関数型およびスカラー型予測器を用いた局所適応ベイズ回帰モデルを開発した。 提案モデルでは, 動的収縮に先行してB-スプラインベース展開を行い, 回帰面のスムーズな特性と急激な変化を捉える。 局所的適応性は、シミュレーションデータ上の既存の方法よりも正確な点推定と不確かさの定量化に現れている。 このモデルには、大規模データセットに対するベイズ推論を完全に行う、高度にスケーラブルなGibbsサンプルが伴っている。 さらに,スカラー・オン・ファンクション回帰モデルの解釈可能性に関する幅広い制限を述べるとともに,モデル解釈を導く新しい決定分析ツールを導入する。 これらの手法を用いて,3番目の三期目の期間を,$\mbox{PM}_{2.5}$露光に対する感受性の重要な窓として同定する。

Pollutant exposures during gestation are a known and adverse factor for birth and health outcomes. However, the links between prenatal air pollution exposures and educational outcomes are less clear, in particular the critical windows of susceptibility during pregnancy. Using a large cohort of students in North Carolina, we study prenatal $\mbox{PM}_{2.5}$ exposures recorded at near-continuous resolutions and linked to 4th end-of-grade reading scores. We develop a locally-adaptive Bayesian regression model for scalar responses with functional and scalar predictors. The proposed model pairs a B-spline basis expansion with dynamic shrinkage priors to capture both smooth and rapidly-changing features in the regression surface. The local adaptivity is manifested in more accurate point estimates and more precise uncertainty quantification than existing methods on simulated data. The model is accompanied by a highly scalable Gibbs sampler for fully Bayesian inference on large datasets. In addition, we describe broad limitations with the interpretability of scalar-on-function regression models, and introduce new decision analysis tools to guide the model interpretation. Using these methods, we identify a period within the third trimester as the critical window of susceptibility to $\mbox{PM}_{2.5}$ exposure.
翻訳日:2022-03-03 16:07:27 公開日:2022-03-01
# 仮想建物シミュレーションによる統一的物理的脅威監視システム

Unified Physical Threat Monitoring System Aided by Virtual Building Simulation ( http://arxiv.org/abs/2203.00789v1 )

ライセンス: Link先を確認
Zenjie Li and Barry Norton(参考訳) 近年,重要なインフラを対象とする物理的脅威の増加に伴い,最先端技術に基づく映像監視とデジタルセンサを統合した信頼性の高い脅威監視システムを確立することが重要である。 スマートビルのフロアプラン、カメラ、センサーを統一した物理的脅威監視ソリューションが本研究で提案されている。 コンピュータビジョンとディープラーニングモデルはビデオストリーム分析に使用される。 リアルタイム分析結果と関連するデジタルセンサからのフィードバックとを組み合わせたルールエンジンによって脅威が検出されると、人間のオペレータがさらなるアクションを行えるように警告をビデオ管理システムに送信する。 物理的脅威監視システムは通常、現実の生活をシミュレートするには非現実的な火災のような複雑で破壊的な出来事に対処する必要がある。 新型コロナウイルス(COVID-19)のパンデミックとプライバシー問題で課された制限が課題を増している。 我々はUnreal Engineを利用して、仮想ビルのコンテキストにおいて、不審で侵入的なシーンをフォトリアリスティックな品質でシミュレートする。 アドオンプログラムは、仮想PTZカメラからMilestone Video Management Systemにビデオストリームを転送し、ユーザーがグラフィッククライアントアプリケーションからそれらのカメラを制御できるように実装されている。 火災警報器、温度センサ、ドアアクセス制御などの仮想センサーも同様に実装され、現実のセンサーと同じプログラムVMSインターフェースを満たす。 このシミュレーションシステムの拡張性と再現性により、この統合された物理的脅威監視システムを統合し、その有効性とユーザフレンドリ性を検証した。 シミュレーションされたUnrealのシーンと本研究で開発されたソフトウェアアドオンはどちらも高度に変調されており、この領域の将来のプロジェクトで再利用できる。

With increasing physical threats in recent years targeted at critical infrastructures, it is crucial to establish a reliable threat monitoring system integrating video surveillance and digital sensors based on cutting-edge technologies. A physical threat monitoring solution unifying the floorplan, cameras, and sensors for smart buildings has been set up in our study. Computer vision and deep learning models are used for video streams analysis. When a threat is detected by a rule engine based on the real-time analysis results combining with feedback from related digital sensors, an alert is sent to the Video Management System so that human operators can take further action. A physical threat monitoring system typically needs to address complex and even destructive incidents, such as fire, which is unrealistic to simulate in real life. Restrictions imposed during the Covid-19 pandemic and privacy concerns have added to the challenges. Our study utilises the Unreal Engine to simulate some typical suspicious and intrusion scenes with photorealistic qualities in the context of a virtual building. Add-on programs are implemented to transfer the video stream from virtual PTZ cameras to the Milestone Video Management System and enable users to control those cameras from the graphic client application. Virtual sensors such as fire alarms, temperature sensors and door access controls are implemented similarly, fulfilling the same programmatic VMS interface as real-life sensors. Thanks to this simulation system's extensibility and repeatability, we have consolidated this unified physical threat monitoring system and verified its effectiveness and user-friendliness. Both the simulated Unreal scenes and the software add-ons developed during this study are highly modulated and thereby are ready for reuse in future projects in this area.
翻訳日:2022-03-03 15:29:36 公開日:2022-03-01
# 参加・記憶・生成:少数のショットで忠実なテーブル・ツー・テキスト生成に向けて

Attend, Memorize and Generate: Towards Faithful Table-to-Text Generation in Few Shots ( http://arxiv.org/abs/2203.00732v1 )

ライセンス: Link先を確認
Wenting Zhao, Ye Liu, Yao Wan, Philip S. Yu(参考訳) Few-shot table-to-text generation は、限られたデータを用いてテーブル内容を伝えるために、流動的で忠実な文を構成するタスクである。 優れた訓練済み言語モデルによって、印象的な流動的な文を生成するために多くの努力がなされてきたが、生成されたコンテンツの忠実さは改善される必要がある。 そこで本研究では,人間のテキスト生成プロセスに触発された,Attend,Memorize,Gen erate(AMG)という新しいアプローチを提案する。 特に、agg(1)は、テーブルスロットレベルと従来のトークンバイトケンレベルの注意に基づく新しい戦略を用いて、テーブル構造と自然言語情報の両方を利用する、(2)テーブルスロット割当状態を動的に記憶し、(3)コンテキストとメモリ割当状態の両方に応じて忠実な文を生成する、という、コンテキストの多粒度を乗り越える。 Wikiデータセットの3つのドメイン(人、歌、本)に対する人間の評価による総合的な実験により、我々のモデルは、流布と忠実の両方において、最先端のベースラインと比較した場合、より高い資格のあるテキストを生成できることを示す。

Few-shot table-to-text generation is a task of composing fluent and faithful sentences to convey table content using limited data. Despite many efforts having been made towards generating impressive fluent sentences by fine-tuning powerful pre-trained language models, the faithfulness of generated content still needs to be improved. To this end, this paper proposes a novel approach Attend, Memorize and Generate (called AMG), inspired by the text generation process of humans. In particular, AMG (1) attends over the multi-granularity of context using a novel strategy based on table slot level and traditional token-by-token level attention to exploit both the table structure and natural linguistic information; (2) dynamically memorizes the table slot allocation states; and (3) generates faithful sentences according to both the context and memory allocation states. Comprehensive experiments with human evaluation on three domains (i.e., humans, songs, and books) of the Wiki dataset show that our model can generate higher qualified texts when compared with several state-of-the-art baselines, in both fluency and faithfulness.
翻訳日:2022-03-03 14:51:47 公開日:2022-03-01
# オープンドメイン対話におけるマルチセンテンス知識選択

Multi-Sentence Knowledge Selection in Open-Domain Dialogue ( http://arxiv.org/abs/2203.00763v1 )

ライセンス: Link先を確認
Mihail Eric, Nicole Chartier, Behnam Hedayatnia, Karthik Gopalakrishnan, Pankaj Rajan, Yang Liu, Dilek Hakkani-Tur(参考訳) 会話に外部知識ソースを効果的に組み込むことは、オープンドメイン対話研究における長年の問題である。 オープンドメイン知識選択に関する既存の文献は限定的であり、コンテキストごとに単一の関連する知識文が存在するなど、知識ソースに対する不安定な仮定を単純化する(Dinan et al., 2019)。 本研究では,データと評価に関する既存の方法論がどこに欠陥があるかを示す,オープンドメイン会話知識選択の既存状態を評価する。 次に、関連する知識を収集するための新しいフレームワークを提案し、ウィザード・オブ・ウィキペディア(wow)コーパスに基づいた拡張データセットを作成することで改善します。 wow++は、対話コンテキストごとに8つの関連する知識文を平均し、オープンドメインの対話知識選択の固有のあいまいさを受け入れている。 次に、この拡張データセット上の様々な知識ランキングアルゴリズムを、本質的な評価と応答品質の外部測定の両方でベンチマークし、WOW++を使用するニューラルリランカが標準データセットでトレーニングされたランキングよりも優れていることを示す。

Incorporating external knowledge sources effectively in conversations is a longstanding problem in open-domain dialogue research. The existing literature on open-domain knowledge selection is limited and makes certain brittle assumptions on knowledge sources to simplify the overall task (Dinan et al., 2019), such as the existence of a single relevant knowledge sentence per context. In this work, we evaluate the existing state of open-domain conversation knowledge selection, showing where the existing methodologies regarding data and evaluation are flawed. We then improve on them by proposing a new framework for collecting relevant knowledge, and create an augmented dataset based on the Wizard of Wikipedia (WOW) corpus, which we call WOW++. WOW++ averages 8 relevant knowledge sentences per dialogue context, embracing the inherent ambiguity of open-domain dialogue knowledge selection. We then benchmark various knowledge ranking algorithms on this augmented dataset with both intrinsic evaluation and extrinsic measures of response quality, showing that neural rerankers that use WOW++ can outperform rankers trained on standard datasets.
翻訳日:2022-03-03 14:51:24 公開日:2022-03-01
# 甲殻類の自動計測のための画像解析

Image analysis for automatic measurement of crustose lichens ( http://arxiv.org/abs/2203.00787v1 )

ライセンス: Link先を確認
Pedro Guedes and Maria Alexandra Oliveira and Cristina Branquinho and Jo\~ao Nuno Silva(参考訳) 真菌と藻類の共生から生じる生物である地層は、特に最近の地質学的堆積物や考古学的構造において、地層の大きさと年齢の相関を利用して、年齢推定物質として頻繁に用いられる。 現在の自動化されていない手動キッチンと測定(定規、校正器、デジタル画像処理ツールを使用する)は、特にサンプル数が多い場合、時間と労力を要するプロセスである。 本研究は,平坦な岩盤表面のリッチェンタッリを効率的に同定し,関連するリッチェンサイズ統計(カバー率,タッリ数,面積,周囲)を作成するために開発された,画像取得・処理ツールのワークフローとセットを提案する。 開発したワークフローでは、画像キャプチャに通常のデジタルカメラと、画像の自動補正とスケール割り当てを可能にする特別に設計されたターゲットを使用する。 その後、画像分割および支援ベクターマシン(sv)およびランダム森林分類器のための簡易線形反復クラスタリング(slic)を用いた対話的前景抽出ツール(grabcut)および画像の自動分類に基づく支援画像分割・分類を含むフローにおいて、地衣類識別を行う。 最初の評価は有望な結果を示している。 GrabCutを用いた画像の手動分類では、現在使用されている技術と比較して平均速度が4で、平均精度は95%である。 SLICとSVMをデフォルトパラメータで自動分類すると、平均精度が70倍を超える結果が得られる。 開発されたシステムは柔軟性があり、処理時間を大幅に削減することができ、ワークフローによって新しいlichen人口のデータセットを適用できる。

Lichens, organisms resulting from a symbiosis between a fungus and an algae, are frequently used as age estimators, especially in recent geological deposits and archaeological structures, using the correlation between lichen size and age. Current non-automated manual lichen and measurement (with ruler, calipers or using digital image processing tools) is a time-consuming and laborious process, especially when the number of samples is high. This work presents a workflow and set of image acquisition and processing tools developed to efficiently identify lichen thalli in flat rocky surfaces, and to produce relevant lichen size statistics (percentage cover, number of thalli, their area and perimeter). The developed workflow uses a regular digital camera for image capture along with specially designed targets to allow for automatic image correction and scale assignment. After this step, lichen identification is done in a flow comprising assisted image segmentation and classification based on interactive foreground extraction tool (GrabCut) and automatic classification of images using Simple Linear Iterative Clustering (SLIC) for image segmentation and Support Vector Machines (SV) and Random Forest classifiers. Initial evaluation shows promising results. The manual classification of images (for training) using GrabCut show an average speedup of 4 if compared with currently used techniques and presents an average precision of 95\%. The automatic classification using SLIC and SVM with default parameters produces results with average precision higher than 70\%. The developed system is flexible and allows a considerable reduction of processing time, the workflow allows it applicability to data sets of new lichen populations.
翻訳日:2022-03-03 14:47:31 公開日:2022-03-01
# 画像とシーケンスのgbmへのトリックとプラグイン

Tricks and Plugins to GBM on Images and Sequences ( http://arxiv.org/abs/2203.00761v1 )

ライセンス: Link先を確認
Biyi Fang, Jean Utke, Diego Klabjan(参考訳) 畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、複数の抽象レベルを持つデータの表現を学ぶために複数の処理層とブロックで構成されており、近年で最も成功した機械学習モデルである。 しかし、数百万のパラメータと多くのブロックはトレーニングを難しくし、時には理想的なアーキテクチャを探したりパラメータをチューニングするために数日から数週間が必要となる。 本稿では,動的特徴選択とBoostCNNの利点を組み合わせた深層畳み込みニューラルネットワーク(BoostCNN)の高速化アルゴリズムと,ブースティングとトランスフォーマーを組み合わせた新たなアルゴリズム群を提案する。 これらの新モデルを学習するために,サブグリッド選択と重要サンプリング戦略を導入し,最小2乗目的関数に基づいて,強化重みを深層学習アーキテクチャに組み込むアルゴリズムセットを提案する。 これらのアルゴリズムは、適切なネットワークアーキテクチャを見つけるために必要な手作業を減らすだけでなく、パフォーマンスと実行時間の短縮をもたらす。 実験により,提案手法は,いくつかの細粒度分類タスクにおいてベンチマークを上回った。

Convolutional neural networks (CNNs) and transformers, which are composed of multiple processing layers and blocks to learn the representations of data with multiple abstract levels, are the most successful machine learning models in recent years. However, millions of parameters and many blocks make them difficult to be trained, and sometimes several days or weeks are required to find an ideal architecture or tune the parameters. Within this paper, we propose a new algorithm for boosting Deep Convolutional Neural Networks (BoostCNN) to combine the merits of dynamic feature selection and BoostCNN, and another new family of algorithms combining boosting and transformers. To learn these new models, we introduce subgrid selection and importance sampling strategies and propose a set of algorithms to incorporate boosting weights into a deep learning architecture based on a least squares objective function. These algorithms not only reduce the required manual effort for finding an appropriate network architecture but also result in superior performance and lower running time. Experiments show that the proposed methods outperform benchmarks on several fine-grained classification tasks.
翻訳日:2022-03-03 14:23:37 公開日:2022-03-01
# サイドデータを用いたテキストの話題分析

Topic Analysis for Text with Side Data ( http://arxiv.org/abs/2203.00762v1 )

ライセンス: Link先を確認
Biyi Fang, Kripa Rajshekhar, Diego Klabjan(参考訳) 潜在因子モデル(行列分解など)は予測において優れた性能を得るが、コールドスタート、非透過性、準最適推奨などいくつかの問題に悩まされる。 本稿では,これらの制約に対処するために,サイドデータ付きテキストを用いる。 本稿では,ニューラルネットワークと4階層階層ベイズモデルである潜在トピックモデルを組み合わせたハイブリッド生成確率モデルを提案する。 モデルでは、各文書は下位のトピックセット上の有限混合としてモデル化され、各トピックは下位のトピック確率のセット上の無限混合としてモデル化される。 さらに、各話題確率は、側面データ上の有限混合としてモデル化される。 テキストの文脈において、ニューラルネットワークは、トピックグループ化を行うのに役立つldaの事前分布である対応するテキストのサイドデータに関する概要分布を提供する。 このアプローチは、いくつかの異なるデータセットで評価され、モデルがトピックグルーピング、モデルパープレキシティ、分類、コメント生成の点で標準のldaおよびdirichlet-multinomia l regression(dmr)を上回ることが示されている。

Although latent factor models (e.g., matrix factorization) obtain good performance in predictions, they suffer from several problems including cold-start, non-transparency, and suboptimal recommendations. In this paper, we employ text with side data to tackle these limitations. We introduce a hybrid generative probabilistic model that combines a neural network with a latent topic model, which is a four-level hierarchical Bayesian model. In the model, each document is modeled as a finite mixture over an underlying set of topics and each topic is modeled as an infinite mixture over an underlying set of topic probabilities. Furthermore, each topic probability is modeled as a finite mixture over side data. In the context of text, the neural network provides an overview distribution about side data for the corresponding text, which is the prior distribution in LDA to help perform topic grouping. The approach is evaluated on several different datasets, where the model is shown to outperform standard LDA and Dirichlet-multinomia l regression (DMR) in terms of topic grouping, model perplexity, classification and comment generation.
翻訳日:2022-03-03 14:21:24 公開日:2022-03-01
# TANDEM:触覚センサによる共同探索と意思決定の学習

TANDEM: Learning Joint Exploration and Decision Making with Tactile Sensors ( http://arxiv.org/abs/2203.00798v1 )

ライセンス: Link先を確認
Jingxi Xu, Shuran Song, Matei Ciocarlie(参考訳) 人間の視覚の完全な欠如(ポケットから物体を取り出すなど)で複雑な操作を行う能力にインスパイアされたロボット操作フィールドは、触覚に基づくオブジェクトインタラクションの新しい方法を開発する動機となっている。 しかし、触覚センサーは、触覚が活発な感覚のモダリティであることの課題である: 触覚センサは、スパースで局所的なデータを提供し、情報を収集するために効果的な探索戦略と併用する必要がある。 本研究では,触覚探索を指導するプロセスと,タスク関連意思決定との相互作用に注目した。 我々は,意思決定と協調して効率的な探索戦略を学習するアーキテクチャであるタンデム(TADEM)を提案する。 我々のアプローチは、探索と識別のために、別々に訓練されたモジュールに基づいている。 本手法は,触覚フィードバックのみに基づいて,触覚センサを備えたロボットが既知の集合から物体を探索・識別する必要がある触覚物体認識タスクにおいて実証する。 TANDEMは、他の方法よりも少ない動作で高い精度を実現し、センサノイズに対してより堅牢であることを示す。

Inspired by the human ability to perform complex manipulation in the complete absence of vision (like retrieving an object from a pocket), the robotic manipulation field is motivated to develop new methods for tactile-based object interaction. However, tactile sensing presents the challenge of being an active sensing modality: a touch sensor provides sparse, local data, and must be used in conjunction with effective exploration strategies in order to collect information. In this work, we focus on the process of guiding tactile exploration, and its interplay with task-related decision making. We propose TANDEM (TActile exploration aNd DEcision Making), an architecture to learn efficient exploration strategies in conjunction with decision making. Our approach is based on separate but co-trained modules for exploration and discrimination. We demonstrate this method on a tactile object recognition task, where a robot equipped with a touch sensor must explore and identify an object from a known set based on tactile feedback alone. TANDEM achieves higher accuracy with fewer actions than alternative methods and is also shown to be more robust to sensor noise.
翻訳日:2022-03-03 14:21:05 公開日:2022-03-01
# マルチインナーミニマを用いた二値最適化のための制約付き最適化手法

A Constrained Optimization Approach to Bilevel Optimization with Multiple Inner Minima ( http://arxiv.org/abs/2203.01123v1 )

ライセンス: Link先を確認
Daouda Sow, Kaiyi Ji, Ziwei Guan, Yingbin Liang(参考訳) 双レベル最適化は、ハイパーパラメータ最適化、ニューラルアーキテクチャ探索、メタラーニングなど、現代の機械学習問題に広く応用されている。 特異な内極小点を持つ双レベル問題(例えば、内関数が強凸であるような)はよく理解されているが、複数の内極小点を持つ双レベル問題は困難でオープンな問題である。 このような問題のために設計された既存のアルゴリズムは制限された状況に適用可能であり、収束の完全な保証は得られなかった。 本稿では,二レベル問題を等価制約付き最適化に変換し,その解法としてプライマル・デュアルアルゴリズムを提案する。 このようなアプローチにはいくつかの利点がある。 a) 多重内因性ミニマ課題に対処すること。 b) 既存の勾配に基づく二値アルゴリズムとは対照的に,2次ヘシアンおよびヤコビアン計算を伴わない完全一階効率を特徴とする。 c) 制約付き非凸最適化により収束保証を受ける。 また,提案手法の望ましい性能を示す実験を行った。

Bilevel optimization has found extensive applications in modern machine learning problems such as hyperparameter optimization, neural architecture search, meta-learning, etc. While bilevel problems with a unique inner minimal point (e.g., where the inner function is strongly convex) are well understood, bilevel problems with multiple inner minimal points remains to be a challenging and open problem. Existing algorithms designed for such a problem were applicable to restricted situations and do not come with the full guarantee of convergence. In this paper, we propose a new approach, which convert the bilevel problem to an equivalent constrained optimization, and then the primal-dual algorithm can be used to solve the problem. Such an approach enjoys a few advantages including (a) addresses the multiple inner minima challenge; (b) features fully first-order efficiency without involving second-order Hessian and Jacobian computations, as opposed to most existing gradient-based bilevel algorithms; (c) admits the convergence guarantee via constrained nonconvex optimization. Our experiments further demonstrate the desired performance of the proposed approach.
翻訳日:2022-03-03 14:18:14 公開日:2022-03-01
# E-LANG:スーパーおよびスウィフト言語モデルのエネルギーベース共同推論

E-LANG: Energy-Based Joint Inferencing of Super and Swift Language Models ( http://arxiv.org/abs/2203.00748v1 )

ライセンス: Link先を確認
Mohammad Akbari, Amin Banitalebi-Dehkordi, Yong Zhang(参考訳) 巨大で高機能な言語モデルの構築は、ここ数年のトレンドです。 性能は高いものの、計算コストが高い。 一般的な解決策は、モデル圧縮を適用するか、あるいは軽量アーキテクチャを選択することである。 本稿では,大規模高精度スーパーモデルと軽量スウィフトモデル間の推論を分散するE-LANGという動的推論手法を提案する。 この目的のために、決定モジュールは、潜在空間における表現のエネルギー特性に基づいて、入力をスーパーまたはスウィフトモデルにルーティングする。 この手法は容易に採用でき、アーキテクチャに依存しない。 そのため、アーキテクチャ操作、モジュールの再組み立て、再トレーニングを必要とせずに、ブラックボックスの事前訓練モデルに適用することができる。 エンコーダのみのバックボーンや分類タスクにのみ適用可能な既存の手法とは異なり,エンコーダ・デコーダ構造や翻訳などのシーケンス・ツー・シーケンスタスクにも機能する。 E-LANGの性能は、GLUE、SuperGLUE、WMT上でのT5とBERTのバックボーンによる一連の実験によって検証される。 特に、平均計算速度はGLUEで3.3$\times$、SuperGLUEで2.9$\times$より優れている。 BERTベースのSOTAもGLUE上で3.2$\times$少ない計算で実現しています。 コードとデモは補足資料で入手できる。

Building huge and highly capable language models has been a trend in the past years. Despite their great performance, they incur high computational cost. A common solution is to apply model compression or choose light-weight architectures, which often need a separate fixed-size model for each desirable computational budget, and may lose performance in case of heavy compression. This paper proposes an effective dynamic inference approach, called E-LANG, which distributes the inference between large accurate Super-models and light-weight Swift models. To this end, a decision making module routes the inputs to Super or Swift models based on the energy characteristics of the representations in the latent space. This method is easily adoptable and architecture agnostic. As such, it can be applied to black-box pre-trained models without a need for architectural manipulations, reassembling of modules, or re-training. Unlike existing methods that are only applicable to encoder-only backbones and classification tasks, our method also works for encoder-decoder structures and sequence-to-sequence tasks such as translation. The E-LANG performance is verified through a set of experiments with T5 and BERT backbones on GLUE, SuperGLUE, and WMT. In particular, we outperform T5-11B with an average computations speed-up of 3.3$\times$ on GLUE and 2.9$\times$ on SuperGLUE. We also achieve BERT-based SOTA on GLUE with 3.2$\times$ less computations. Code and demo are available in the supplementary materials.
翻訳日:2022-03-03 13:51:59 公開日:2022-03-01
# 頑健な自動音声認識のためのコンフォーメータに基づく音響モデル

A Conformer Based Acoustic Model for Robust Automatic Speech Recognition ( http://arxiv.org/abs/2203.00725v1 )

ライセンス: Link先を確認
Yufeng Yang, Peidong Wang, DeLiang Wang(参考訳) 本研究は、コンフォーマに基づく音響モデルを導入することで、ロバストな自動音声認識(asr)を実現する。 提案手法は,双方向長短短期記憶(blstm)モデルを用いた最先端認識システムを構築し,発話方向のドロップアウトと反復話者適応を行うが,blstmネットワークの代わりにコンフォーマエンコーダを用いる。 コンフォーメータエンコーダは、音響モデリングに畳み込み型注意機構を使用する。 提案システムはCHiME-4コーパスの単調ASRタスクに基づいて評価される。 発話の正規化や話者適応と組み合わせて、我々のモデルは6.25 %$ワードエラー率を達成し、従来の最良のシステムよりも8.4 %$相対的に優れている。 さらに、提案されたコンフォーマーベースのモデルは、モデルサイズがより小さく、トレーニング時間を8.5 %$に短縮する。

This study addresses robust automatic speech recognition (ASR) by introducing a Conformer-based acoustic model. The proposed model builds on a state-of-the-art recognition system using a bi-directional long short-term memory (BLSTM) model with utterance-wise dropout and iterative speaker adaptation, but employs a Conformer encoder instead of the BLSTM network. The Conformer encoder uses a convolution-augmente d attention mechanism for acoustic modeling. The proposed system is evaluated on the monaural ASR task of the CHiME-4 corpus. Coupled with utterance-wise normalization and speaker adaptation, our model achieves $6.25\%$ word error rate, which outperforms the previous best system by $8.4\%$ relatively. In addition, the proposed Conformer-based model is $18.3\%$ smaller in model size and reduces training time by $88.5\%$.
翻訳日:2022-03-03 13:51:35 公開日:2022-03-01
# レーダーによる降水の深部時間補間

Deep Temporal Interpolation of Radar-based Precipitation ( http://arxiv.org/abs/2203.01277v1 )

ライセンス: Link先を確認
Michiaki Tatsubori, Takao Moriyama, Tatsuya Ishikawa, Paolo Fraccaro, Anne Jones, Blair Edwards, Julian Kuehnert, Sekou L. Remy(参考訳) 洪水モデルの境界条件とそれに伴うリスクを推定する際には, 局所的な洪水の原因を見逃さないように, 高度の時間分解能(例:5分)で降水を補間することが不可欠である。 本稿では,衛星からのグローバル気象レーダ画像の光学フローに基づく補間について検討する。 提案手法では,複数のビデオフレームの補間にディープニューラルネットワークを用い,地形情報と短時間の粗粒降雨レーダ観測を併用して自己監督訓練を行う。 南フランス(2018年)のオード県における洪水危険シミュレーションのためのMeteonetレーダ降水データセットを用いた実験により, 線形補間ベースラインよりも提案手法の利点を最大20%の誤差低減で実証した。

When providing the boundary conditions for hydrological flood models and estimating the associated risk, interpolating precipitation at very high temporal resolutions (e.g. 5 minutes) is essential not to miss the cause of flooding in local regions. In this paper, we study optical flow-based interpolation of globally available weather radar images from satellites. The proposed approach uses deep neural networks for the interpolation of multiple video frames, while terrain information is combined with temporarily coarse-grained precipitation radar observation as inputs for self-supervised training. An experiment with the Meteonet radar precipitation dataset for the flood risk simulation in Aude, a department in Southern France (2018), demonstrated the advantage of the proposed method over a linear interpolation baseline, with up to 20% error reduction.
翻訳日:2022-03-03 13:30:52 公開日:2022-03-01
# ノック、ノック。 誰だ? --合成データによるサッカー選手ジャージ番号の識別

Knock, knock. Who's there? -- Identifying football player jersey numbers with synthetic data ( http://arxiv.org/abs/2203.00734v1 )

ライセンス: Link先を確認
Divya Bhargavi, Erika Pelaez Coyotl, Sia Gholami(参考訳) 自動プレイヤー識別はスポーツビデオ解析において必須かつ複雑なタスクである。 長年にわたり異なる戦略が考案されてきたが、ジャージ数に基づく識別は、その汎用性と相対的な単純さから最も一般的なアプローチの1つである。 しかし、カメラアングルの変化、低解像度、ワイドレンジショットでの小さな物体サイズ、プレイヤーの姿勢や動きの過渡的な変化など、ジャージ番号の自動検出は依然として難しい。 本稿では,シアトル・シーホークスの練習ビデオから得られた小規模で高度にバランスの取れないデータセットにおいて,ジャージ番号識別のための新しい手法を提案する。 以上の結果から, 単純なモデルではジャージ数検出タスクにおいて許容性能が得られ, 合成データにより性能が劇的に向上することが示唆された(全体の精度が約9%向上し, 低周波数数では約18%向上)。

Automatic player identification is an essential and complex task in sports video analysis. Different strategies have been devised over the years, but identification based on jersey numbers is one of the most common approaches given its versatility and relative simplicity. However, automatic detection of jersey numbers is still challenging due to changing camera angles, low video resolution, small object size in wide-range shots and transient changes in the player's posture and movement. In this paper we present a novel approach for jersey number identification in a small, highly imbalanced dataset from the Seattle Seahawks practice videos. Our results indicate that simple models can achieve an acceptable performance on the jersey number detection task and that synthetic data can improve the performance dramatically (accuracy increase of ~9% overall, ~18% on low frequency numbers) making our approach achieve state of the art results.
翻訳日:2022-03-03 13:29:54 公開日:2022-03-01
# イメージを超えて推論する時間と場所があります

There is a Time and Place for Reasoning Beyond the Image ( http://arxiv.org/abs/2203.00758v1 )

ライセンス: Link先を確認
Xingyu Fu, Ben Zhou, Ishaan Preetam Chandratreya, Carl Vondrick, Dan Roth(参考訳) イメージは、人間の目のピクセルのみよりも重要であり、より完全な画像を確立するために、他のソースからのコンテキスト情報と推論、関連付け、推論することができる。 例えば、図1では、看板、建物、群衆などについてのセグメント的な理解を通じて、写真に関連するニュース記事を特定する方法を見つけることができます。 これは、犯罪行為の証拠検索、自動ストーリーライン構築、画像クラスタリングのような上流処理といった後続のタスクにおいて、画像が撮影された時間と場所を教えてくれる。 本稿では,ニューヨーク・タイムズ(NYT)から自動的に抽出された16k画像と関連するニュース,時間,位置のデータセットと,WITから離れた監視対象として追加の61k例を紹介する。 抽出に加えて,評価目的の時空間情報を見つけるために,画像が実現可能であると考えられるクラウドソーシング部分集合を提案する。 現状のジョイントモデルと人間のパフォーマンスの間には70%のギャップがあることを示し,世界知識でオープンエンド推論を行うことのできる高レベル視覚言語ジョイントモデルを動機づけたセグメントワイド推論を用いたモデルを提案する。

Images are often more significant than only the pixels to human eyes, as we can infer, associate, and reason with contextual information from other sources to establish a more complete picture. For example, in Figure 1, we can find a way to identify the news articles related to the picture through segment-wise understandings on the signs, the buildings, the crowds, and more. This tells us the time when and the location where the image is taken, which will help us in subsequent tasks, such as evidence retrieval for criminal activities, automatic storyline construction, and upper-stream processing such as image clustering. In this work, we formulate this problem and introduce TARA: a dataset with 16k images with their associated news, time and location automatically extracted from New York Times (NYT), and an additional 61k examples as distant supervision from WIT. On top of the extractions, we present a crowdsourced subset in which images are believed to be feasible to find their spatio-temporal information for evaluation purpose. We show that there exists a 70% gap between a state-of-the-art joint model and human performance, which is slightly filled by our proposed model that uses segment-wise reasoning, motivating higher-level vision-language joint models that can conduct open-ended reasoning with world knowledge.
翻訳日:2022-03-03 13:29:38 公開日:2022-03-01
# 多視点データからの変分解釈可能学習

Variational Interpretable Learning from Multi-view Data ( http://arxiv.org/abs/2202.13503v2 )

ライセンス: Link先を確認
Lin Qiu, Lynn Lin, Vernon M. Chinchilli(参考訳) 標準相関解析(CCA)の主な考え方は、異なるビューを最大相関を持つ共通の潜在空間にマッピングすることである。 多視点学習のためのDICCA(Deep Interpretable Variational Canonical correlation analysis)を提案する。 開発したモデルでは, 線形CCAの潜在変数モデルから非線形モデルまで, 深層生成ネットワークを用いて拡張する。 DICCAは、多視点データの共有とビュー固有のバリエーションの両方を分離するように設計されている。 さらに,モデルをより解釈しやすくするため,ビュー固有生成器からなる構造的変分オートエンコーダを用いて,潜在重量に先立ってスパーシティ誘導を行う。 実世界のデータセットにおける実証的な結果は、我々の手法がドメイン間で競合していることを示している。

The main idea of canonical correlation analysis (CCA) is to map different views onto a common latent space with maximum correlation. We propose a deep interpretable variational canonical correlation analysis (DICCA) for multi-view learning. The developed model extends the existing latent variable model for linear CCA to nonlinear models through the use of deep generative networks. DICCA is designed to disentangle both the shared and view-specific variations for multi-view data. To further make the model more interpretable, we place a sparsity-inducing prior on the latent weight with a structured variational autoencoder that is comprised of view-specific generators. Empirical results on real-world datasets show that our methods are competitive across domains.
翻訳日:2022-03-03 11:49:21 公開日:2022-03-01
# コードの大規模言語モデルの体系的評価

A Systematic Evaluation of Large Language Models of Code ( http://arxiv.org/abs/2202.13169v2 )

ライセンス: Link先を確認
Frank F. Xu, Uri Alon, Graham Neubig, Vincent J. Hellendoorn(参考訳) コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。 しかし、現在の最先端のコードLM(Codex (Chen et al., 2021))は公開されておらず、モデルやデータ設計の決定について多くの疑問を残している。 Codex, GPT-J, GPT-Neo, GPT-NeoX-20B, CodeParrotの3つの既存モデルの体系的な評価を通じて,これらの空白を埋めることを目指している。 codex自体はオープンソースではありませんが、既存のオープンソースモデルは、自然言語モデリングを主に対象とするが、いくつかのプログラミング言語で密接な結果をもたらすことが分かっています。 我々はさらに、多言語コーパスでのみトレーニングされた大規模なオープンソースモデルという形で、重要な欠落部分を特定する。 GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。 c言語では、polycoderはcodexを含む全てのモデルを上回る。 私たちのトレーニングされたモデルはオープンソースで、https://github.com/V Hellendoorn/Code-LMs で公開されています。

Large language models (LMs) of code have recently shown tremendous promise in completing code and synthesizing code from natural language descriptions. However, the current state-of-the-art code LMs (e.g., Codex (Chen et al., 2021)) are not publicly available, leaving many questions about their model and data design decisions. We aim to fill in some of these blanks through a systematic evaluation of the largest existing models: Codex, GPT-J, GPT-Neo, GPT-NeoX-20B, and CodeParrot, across various programming languages. Although Codex itself is not open-source, we find that existing open-source models do achieve close results in some programming languages, although targeted mainly for natural language modeling. We further identify an important missing piece in the form of a large open-source model trained exclusively on a multi-lingual corpus of code. We release a new model, PolyCoder, with 2.7B parameters based on the GPT-2 architecture, which was trained on 249GB of code across 12 programming languages on a single machine. In the C programming language, PolyCoder outperforms all models including Codex. Our trained models are open-source and publicly available at https://github.com/V Hellendoorn/Code-LMs , which enables future research and application in this area.
翻訳日:2022-03-03 10:23:02 公開日:2022-03-01
# (参考訳) 人間の価値と不合理性を学ぶアルゴリズムの危険性 [全文訳有]

The dangers in algorithms learning humans' values and irrationalities ( http://arxiv.org/abs/2202.13985v2 )

ライセンス: CC BY 4.0
Rebecca Gorman, Stuart Armstrong(参考訳) 人工知能(AI)が人間の価値観(または人間の好み)に合わせるためには、まずその価値を学ぶ必要がある。 人間の行動に基づいて訓練されたAIシステムは、人間の不合理性を人間の価値と誤分類し、その不合理性を最適化する。 AIを学ぶことは、必然的に人間の不合理性と人間の行動/政治に関する情報を得る。 人間のポリシーを知ることで、AIがより汎用的に(部分的に整合しているかどうかに関わらず)強力になるのに対して、人間の不合理性を学ぶことで、見返りに価値を提供することなく、人間を搾取することができる。 本稿では,人間の不合理性と人的政策を学習する人工知能開発における危険性を分析し,人的バイアス,人的政策,人的価値に関するさまざまなレベルの情報を持つモデルレコメンデーションシステムを構築する。 結論として、AIの力や知識が何であれ、人間の価値よりも人間の不合理性を知ることは危険である。 したがって、AIは人間のバイアスを学び、行動から価値を引き出すよりも、人間の価値を直接学習する方がよい。

For an artificial intelligence (AI) to be aligned with human values (or human preferences), it must first learn those values. AI systems that are trained on human behavior, risk miscategorising human irrationalities as human values -- and then optimising for these irrationalities. Simply learning human values still carries risks: AI learning them will inevitably also gain information on human irrationalities and human behaviour/policy. Both of these can be dangerous: knowing human policy allows an AI to become generically more powerful (whether it is partially aligned or not aligned at all), while learning human irrationalities allows it to exploit humans without needing to provide value in return. This paper analyses the danger in developing artificial intelligence that learns about human irrationalities and human policy, and constructs a model recommendation system with various levels of information about human biases, human policy, and human values. It concludes that, whatever the power and knowledge of the AI, it is more dangerous for it to know human irrationalities than human values. Thus it is better for the AI to learn human values directly, rather than learning human biases and then deducing values from behaviour.
翻訳日:2022-03-03 06:04:20 公開日:2022-03-01
# (参考訳) AAAI 2022におけるAICSワークショップの成果

Proceedings of the Artificial Intelligence for Cyber Security (AICS) Workshop at AAAI 2022 ( http://arxiv.org/abs/2202.14010v2 )

ライセンス: CC BY 4.0
James Holt, Edward Raff, Ahmad Ridley, Dennis Ross, Arunesh Sinha, Diane Staheli, William Streilen, Milind Tambe, Yevgeniy Vorobeychik, Allan Wollaber(参考訳) ワークショップは、サイバーセキュリティの問題へのAIの適用に焦点を当てる。 サイバーシステムは大量のデータを生成し、これを効果的に活用することは人間の能力を超える。 さらに、敵は新たな攻撃を継続する。 したがって、AI手法はサイバードメインを理解し保護するために必要となる。 これらの課題は、企業ネットワークにおいて広く研究されているが、研究と実践には多くのギャップがあり、他の領域では新たな問題がある。 一般的に、AI技術は現実世界では広く採用されていない。 1)セキュリティのためのAI認証の欠如 (2) サイバードメイン内のAIシステムに対する実践的制約(例えば、電力、メモリ、ストレージ)の影響に関する公式な研究の欠如 (3) 回避、中毒攻撃などの既知の脆弱性 (4) セキュリティアナリストにとって意味のある説明の欠如 (5) AIソリューションに対するアナリスト信頼の欠如 など。 これらの課題に対して,研究コミュニティが新たなソリューションを開発する必要がある。

The workshop will focus on the application of AI to problems in cyber security. Cyber systems generate large volumes of data, utilizing this effectively is beyond human capabilities. Additionally, adversaries continue to develop new attacks. Hence, AI methods are required to understand and protect the cyber domain. These challenges are widely studied in enterprise networks, but there are many gaps in research and practice as well as novel problems in other domains. In general, AI techniques are still not widely adopted in the real world. Reasons include: (1) a lack of certification of AI for security, (2) a lack of formal study of the implications of practical constraints (e.g., power, memory, storage) for AI systems in the cyber domain, (3) known vulnerabilities such as evasion, poisoning attacks, (4) lack of meaningful explanations for security analysts, and (5) lack of analyst trust in AI solutions. There is a need for the research community to develop novel solutions for these practical issues.
翻訳日:2022-03-03 05:31:22 公開日:2022-03-01
# (参考訳) 最接近点を求める2倍尺度による分布回帰特性 [全文訳有]

Performance of Distribution Regression with Doubling Measure under the seek of Closest Point ( http://arxiv.org/abs/2203.00155v1 )

ライセンス: CC BY 4.0
Ilqar Ramazanli(参考訳) 分布の分布が1より2倍大きいことを前提として分布回帰問題を考察する。 まず, 2倍の測度を持つ任意の分布の幾何学を探索し,その周りの小さな理論を構築する。 次に,この理論を用いて最も近い分布の1つを適応的に見つけ,それらの分布に基づいて回帰値を計算する方法を示す。 最後に,提案手法の精度と理論的解析について述べる。

We study the distribution regression problem assuming the distribution of distributions has a doubling measure larger than one. First, we explore the geometry of any distributions that has doubling measure larger than one and build a small theory around it. Then, we show how to utilize this theory to find one of the nearest distributions adaptively and compute the regression value based on these distributions. Finally, we provide the accuracy of the suggested method here and provide the theoretical analysis for it.
翻訳日:2022-03-03 00:45:08 公開日:2022-03-01
# (参考訳) 頂点制約によるフロントドアモデルの試験可能性について [全文訳有]

On Testability of the Front-Door Model via Verma Constraints ( http://arxiv.org/abs/2203.00161v1 )

ライセンス: CC BY 4.0
Rohit Bhattacharya, Razieh Nabi(参考訳) フロントドア基準は、治療と結果の間に確証のない共同創設者が存在するにもかかわらず、因果効果を識別し計算するために使用できる。 しかし、主な前提は -- (i)治療の効果を完全に媒介する変数(又は一連の変数)の存在、及び (ii) 治療・アウトカム・ペアと類似の問題に同時に悩まされないものは, しばしば不愉快であると考えられる。 本稿ではこれらの仮定の検証可能性について考察する。 補助変数を含む穏やかな条件下では、フロントドアモデル(およびそれの単純な拡張)にエンコードされた仮定は、一般化された等式制約 a.k.a verma 制約によって検証できる。 本研究は, 実データと合成データに対する提案の有効性を検証し, 2つの適合性試験を提案する。 また,計測不能なコンバウンディングを扱うための機器変数アプローチと理論的,経験的比較を行った。

The front-door criterion can be used to identify and compute causal effects despite the existence of unmeasured confounders between a treatment and outcome. However, the key assumptions -- (i) the existence of a variable (or set of variables) that fully mediates the effect of the treatment on the outcome, and (ii) which simultaneously does not suffer from similar issues of confounding as the treatment-outcome pair -- are often deemed implausible. This paper explores the testability of these assumptions. We show that under mild conditions involving an auxiliary variable, the assumptions encoded in the front-door model (and simple extensions of it) may be tested via generalized equality constraints a.k.a Verma constraints. We propose two goodness-of-fit tests based on this observation, and evaluate the efficacy of our proposal on real and synthetic data. We also provide theoretical and empirical comparisons to instrumental variable approaches to handling unmeasured confounding.
翻訳日:2022-03-03 00:37:13 公開日:2022-03-01
# (参考訳) CoNiCチャレンジのための不均衡クラスによる核セグメンテーションと分類モデル [全文訳有]

Nuclear Segmentation and Classification Model with Imbalanced Classes for CoNiC Challenge ( http://arxiv.org/abs/2203.00171v1 )

ライセンス: CC BY 4.0
Jijun Cheng, Xipeng Pan, Feihu Hou, Bingchao Zhao, Jiatai Lin, Zhenbing Liu, Zaiyi Liu, Chu Han(参考訳) 核分裂と分類は、計算病理学の重要なステップである。 ワーウィック大学のTIA研究所は、リザードデータセットに基づく大腸癌におけるH&E染色組織像のための核分割分類チャレンジ(CoNiC)を組織した。 この課題では、コンピュータアルゴリズムは上皮、リンパ球、血漿、好酸球、好中球、結合組織を含む6種類の核を分離し、認識することができる。 この課題は、核のセグメンテーションと分類タスクと細胞構成タスクの予測という2つの非常に相関したタスクを導入する。 この課題に対処しなければならない障害がいくつかあります。 1)マイノリティクラスにおける訓練サンプルの少ない不均衡アノテーション 2)複数のセンタやスキャナからの画像の色変化。 3)訓練サンプルの限定。 4) 類型間の類似形態の出現。 これらの課題に対処するため,我々は核分裂と分類のための系統的パイプラインを提案した。 まず,データ拡張のための擬似画像を自動生成するGANモデルを構築した。 次に,色変化問題を解決するために,自己教師付き染色正規化モデルを訓練した。 次に、モデルがマイノリティクラスにより多くの注意を払うように、コスト感受性の損失を伴うベースラインモデルHoVer-Netを構築した。 リーダボードの結果によると,提案パイプラインは予備試験段階で0.40665 mpq+ (第33位) と0.62199 r2 (第4位) を達成した。

Nuclear segmentation and classification is an essential step for computational pathology. TIA lab from Warwick University organized a nuclear segmentation and classification challenge (CoNiC) for H&E stained histopathology images in colorectal cancer based on the Lizard dataset. In this challenge, computer algorithms should be able to segment and recognize six types of nuclei, including Epithelial, Lymphocyte, Plasma, Eosinophil, Neutrophil, Connective tissue. This challenge introduces two highly correlated tasks, nuclei segmentation and classification task and prediction of cellular composition task. There are a few obstacles we have to address in this challenge, 1) imbalanced annotations with few training samples on minority classes, 2) color variation of the images from multiple centers or scanners, 3) limited training samples, 4) similar morphological appearance among classes. To deal with these challenges, we proposed a systematic pipeline for nuclear segmentation and classification. First, we built a GAN-based model to automatically generate pseudo images for data augmentation. Then we trained a self-supervised stain normalization model to solve the color variation problem. Next we constructed a baseline model HoVer-Net with cost-sensitive loss to encourage the model pay more attention on the minority classes. According to the results of the leaderboard, our proposed pipeline achieves 0.40665 mPQ+ (Rank 33rd) and 0.62199 r2 (Rank 4th) in the preliminary test phase.
翻訳日:2022-03-03 00:08:55 公開日:2022-03-01
# (参考訳) 非凸収束保証を用いた深層学習のための部分的AUCの最適化 [全文訳有]

When AUC meets DRO: Optimizing Partial AUC for Deep Learning with Non-Convex Convergence Guarantee ( http://arxiv.org/abs/2203.00176v1 )

ライセンス: CC BY 4.0
Dixian Zhu, Gang Li, Bokun Wang, Xiaodong Wu, Tianbao Yang(参考訳) 本稿では,深層学習に適用可能な一方向および二方向部分AUC(pAUC)の最適化のための,系統的かつ効率的な勾配法を提案する。 本稿では,各正値データの損失を定義するために分散ロバスト最適化(DRO)を用いて,pAUCサロゲート目的の新たな定式化を提案する。 我々はDROの2つの定式化について検討し、そのうちの1つは条件値-at-risk(CVaR)に基づいており、pAUCの非滑らかだが正確な推定器を出力し、もう1つは不正確なが滑らかなpAUCの推定器を生成するKL発散正規化DROに基づいている。 1方向と2方向のpauc最大化について,2つのアルゴリズムを提案し,それらの2つの定式化を最適化するための収束性を証明する。 各種データセットの深層学習におけるpAUC最大化のためのアルゴリズムの有効性を示す実験を行った。

In this paper, we propose systematic and efficient gradient-based methods for both one-way and two-way partial AUC (pAUC) maximization that are applicable to deep learning. We propose new formulations of pAUC surrogate objectives by using the distributionally robust optimization (DRO) to define the loss for each individual positive data. We consider two formulations of DRO, one of which is based on conditional-value-at -risk (CVaR) that yields a non-smooth but exact estimator for pAUC, and another one is based on a KL divergence regularized DRO that yields an inexact but smooth (soft) estimator for pAUC. For both one-way and two-way pAUC maximization, we propose two algorithms and prove their convergence for optimizing their two formulations, respectively. Experiments demonstrate the effectiveness of the proposed algorithms for pAUC maximization for deep learning on various datasets.
翻訳日:2022-03-03 00:03:07 公開日:2022-03-01
# (参考訳) 分布ミスマッチを用いた半教師付きディープラーニングによる画像分類 [全文訳有]

Semi-supervised Deep Learning for Image Classification with Distribution Mismatch: A Survey ( http://arxiv.org/abs/2203.00190v1 )

ライセンス: CC BY 4.0
Saul Calderon-Ramirez, Shengxiang Yang, David Elizondo(参考訳) 深層学習の手法はいくつかの分野で採用されており、材料品質制御、医用画像、自動運転など、画像認識の応用において顕著な成功を収めている。 ディープラーニングモデルは、予測モデルをトレーニングするためにラベル付き観測が豊富に依存する。 これらのモデルは推定する数百万のパラメータで構成されており、より多くのトレーニング観察の必要性が増している。 ラベル付きデータ観測を収集することはしばしばコストがかかるため、モデルが過度に適合する可能性があるため、ディープラーニングモデルの使用は理想的ではない。 半教師付き設定では、ラベルのないデータは、小さなラベル付きデータセットを持つモデルの精度と一般化のレベルを改善するために使用される。 それにもかかわらず、多くの状況において、異なる非競合データソースが利用可能である。 これにより、ラベル付きデータセットとラベルなしデータセットの間の大きな分散ミスマッチのリスクが高まる。 このような現象は、ラベル付きデータセットと非ラベル付きデータセットの両方が同様の分布から引き出されると仮定される、一般的な半教師付きディープラーニングフレームワークにかなりのパフォーマンスを損なう可能性がある。 そこで本稿では,画像認識のための半教師付き深層学習の最新のアプローチについて検討する。 強調されるのは、ラベル付きデータセットと非ラベル付きデータセットの間の分散ミスマッチを扱うように設計された半教師付きディープラーニングモデルである。 私たちはオープンな課題に対処し、コミュニティがそれに取り組むことを奨励し、現実世界の使用環境下での従来のディープラーニングパイプラインの高データ要求を克服することを目的としています。

Deep learning methodologies have been employed in several different fields, with an outstanding success in image recognition applications, such as material quality control, medical imaging, autonomous driving, etc. Deep learning models rely on the abundance of labelled observations to train a prospective model. These models are composed of millions of parameters to estimate, increasing the need of more training observations. Frequently it is expensive to gather labelled observations of data, making the usage of deep learning models not ideal, as the model might over-fit data. In a semi-supervised setting, unlabelled data is used to improve the levels of accuracy and generalization of a model with small labelled datasets. Nevertheless, in many situations different unlabelled data sources might be available. This raises the risk of a significant distribution mismatch between the labelled and unlabelled datasets. Such phenomena can cause a considerable performance hit to typical semi-supervised deep learning frameworks, which often assume that both labelled and unlabelled datasets are drawn from similar distributions. Therefore, in this paper we study the latest approaches for semi-supervised deep learning for image recognition. Emphasis is made in semi-supervised deep learning models designed to deal with a distribution mismatch between the labelled and unlabelled datasets. We address open challenges with the aim to encourage the community to tackle them, and overcome the high data demand of traditional deep learning pipelines under real-world usage settings.
翻訳日:2022-03-02 22:58:07 公開日:2022-03-01
# (参考訳) NeuRecover: トレーニング履歴を持つディープニューラルネットワークの回帰制御修復 [全文訳有]

NeuRecover: Regression-Controlle d Repair of Deep Neural Networks with Training History ( http://arxiv.org/abs/2203.00191v1 )

ライセンス: CC BY 4.0
Shogo Tokui, Susumu Tokumoto, Akihito Yoshii, Fuyuki Ishikawa, Takao Nakagawa, Kazuki Munakata, Shinji Kikuchi(参考訳) 深層ニューラルネットワーク(dnn)の品質向上のための体系的手法は、安全性クリティカルなアプリケーションを含む実用的な応用への需要の増加を考える上で重要である。 重要な課題は、DNNを更新する際の小さな制御性にある。 ある動作を修正するためのトレーニングは、しばしば他の動作に破壊的な影響を与えるため、リグレッション、すなわち更新されたDNNは、元の動作によって正しく処理された入力で失敗する。 この問題は、エンジニアが安全や信頼のために集中的な保証活動の失敗を調査する必要がある場合に重要である。 DNNの検索ベースの修復技術は、DNN内の"責任のあるパラメータ"のみをローカライズすることで、この問題に対処する可能性がある。 しかし、DNN補修作業における回帰を抑制するのに十分な制御性を実現するためのポテンシャルは検討されていない。 本稿では,DNNのパラメータを変更するべきか否かを判断するために,トレーニング履歴を利用した新しいDNN修復手法を提案する。 我々はこの手法をNeuRecoverと呼ばれるツールに実装し、3つのデータセットで評価した。 提案手法は,4分の1未満,場合によっては10分の1,レグレッション数で,既存手法よりも優れていた。 本手法は,特定の故障タイプを厳格に修正する場合に特に有効である。 このような場合, 回帰率の安定的に低い(<2%) 傾向を示し, 多くの場合, 再トレーニングによる回帰率の10分の1であった。

Systematic techniques to improve quality of deep neural networks (DNNs) are critical given the increasing demand for practical applications including safety-critical ones. The key challenge comes from the little controllability in updating DNNs. Retraining to fix some behavior often has a destructive impact on other behavior, causing regressions, i.e., the updated DNN fails with inputs correctly handled by the original one. This problem is crucial when engineers are required to investigate failures in intensive assurance activities for safety or trust. Search-based repair techniques for DNNs have potentials to tackle this challenge by enabling localized updates only on "responsible parameters" inside the DNN. However, the potentials have not been explored to realize sufficient controllability to suppress regressions in DNN repair tasks. In this paper, we propose a novel DNN repair method that makes use of the training history for judging which DNN parameters should be changed or not to suppress regressions. We implemented the method into a tool called NeuRecover and evaluated it with three datasets. Our method outperformed the existing method by achieving often less than a quarter, even a tenth in some cases, number of regressions. Our method is especially effective when the repair requirements are tight to fix specific failure types. In such cases, our method showed stably low rates (<2%) of regressions, which were in many cases a tenth of regressions caused by retraining.
翻訳日:2022-03-02 22:26:49 公開日:2022-03-01
# (参考訳) RMBR: 機械翻訳のための正規化最小ベイズリスク評価フレームワーク [全文訳有]

RMBR: A Regularized Minimum Bayes Risk Reranking Framework for Machine Translation ( http://arxiv.org/abs/2203.00201v1 )

ライセンス: CC BY 4.0
Yidan Zhang, Yu Wan, Dayiheng Liu, Baosong Yang, Zhenan He(参考訳) ビーム探索は、ニューラルマシン翻訳(nmt)の最も広く使われている復号法である。 実際には、n候補のうち最もログ確率の高いトップ1候補が好ましい候補として選ばれる。 しかし、このトップ1候補はn-bestリストの中でベストな翻訳ではないかもしれない。 近年,n-bestリストから他の候補に最も近いコンセンサス変換を求めるNMTの品質向上のために,最小ベイズリスク(MBR)復号法が提案されている。 実用性関数は、候補間の語彙レベルの類似性のみを考慮し、期待されるユーティリティは、末尾リストの時間的および不十分な候補全体のn-bestリストがパフォーマンスを損なう可能性があることを考慮し、候補間の関係のみを考慮する。 これらの課題を解決するために、意味に基づく類似性を考慮した正規化MBRリグレードフレームワーク(RMBR)を設計し、リストをトラストすることで各候補に対して期待されるユーティリティを算出する。 提案するフレームワークは,各候補の翻訳品質とモデルの不確実性をさらに検討する。 そこで提案する品質正規化器と不確実性正規化器をフレームワークに組み込む。 複数の翻訳タスクに対する大規模な実験により,本手法の有効性が示された。

Beam search is the most widely used decoding method for neural machine translation (NMT). In practice, the top-1 candidate with the highest log-probability among the n candidates is selected as the preferred one. However, this top-1 candidate may not be the best overall translation among the n-best list. Recently, Minimum Bayes Risk (MBR) decoding has been proposed to improve the quality for NMT, which seeks for a consensus translation that is closest on average to other candidates from the n-best list. We argue that MBR still suffers from the following problems: The utility function only considers the lexical-level similarity between candidates; The expected utility considers the entire n-best list which is time-consuming and inadequate candidates in the tail list may hurt the performance; Only the relationship between candidates is considered. To solve these issues, we design a regularized MBR reranking framework (RMBR), which considers semantic-based similarity and computes the expected utility for each candidate by truncating the list. We expect the proposed framework to further consider the translation quality and model uncertainty of each candidate. Thus the proposed quality regularizer and uncertainty regularizer are incorporated into the framework. Extensive experiments on multiple translation tasks demonstrate the effectiveness of our method.
翻訳日:2022-03-02 22:06:50 公開日:2022-03-01
# (参考訳) FedREP:小売エネルギープロバイダ向け水平フェデレート負荷予測に向けて [全文訳有]

FedREP: Towards Horizontal Federated Load Forecasting for Retail Energy Providers ( http://arxiv.org/abs/2203.00219v1 )

ライセンス: CC BY 4.0
Muhammad Akbar Husnoo, Adnan Anwar, Nasser Hosseinzadeh, Shama Naz Islam, Abdun Naser Mahmood, Robin Doss(参考訳) スマートメータは家庭用エネルギー消費データを小売エネルギープロバイダ(rep)に収集し、送信しているため、データプライバシを確保しながら、きめ細かい消費者データの有効利用を確保することが主な課題である。 本稿では,エネルギー需要管理,負荷切り換え,インフラ開発に不可欠なrepについて,エネルギー負荷消費量予測のためのこの課題に取り組む。 具体的には、既存のエネルギー負荷予測は集中的であり、スケーラビリティがなく、最も重要なのは、データプライバシの脅威に弱いことだ。 さらに、REPは個々の市場参加者であり、自身の顧客のプライバシーを確保する責任がある。 この問題に対処するため、我々はREPのエネルギー負荷予測、すなわちFedREPのための水平プライバシー保護フェデレーション学習フレームワークを提案する。 データを共有することなく、複数のREPが共通の堅牢な機械学習モデルを構築し、データプライバシやデータセキュリティ、スケーラビリティといった重要な問題に対処することで、制御センタと複数の小売業者からなる連合学習システムを考える。 予測には,最先端のlong short-term memory(lstm)ニューラルネットワークを用いる。これは,観測の長期シーケンスを学習する能力と,消失する勾配問題を解きながら時系列データによる精度向上が期待できるためである。 最後に,実エネルギー消費データセットを用いて広範なデータ駆動実験を行う。 実験の結果,提案する連合学習フレームワークは0.3~0.4の範囲のmseで十分な性能を達成でき,プライバシを保ちスケーラビリティを向上しつつ,集中型アプローチのそれと比較的類似していることがわかった。

As Smart Meters are collecting and transmitting household energy consumption data to Retail Energy Providers (REP), the main challenge is to ensure the effective use of fine-grained consumer data while ensuring data privacy. In this manuscript, we tackle this challenge for energy load consumption forecasting in regards to REPs which is essential to energy demand management, load switching and infrastructure development. Specifically, we note that existing energy load forecasting is centralized, which are not scalable and most importantly, vulnerable to data privacy threats. Besides, REPs are individual market participants and liable to ensure the privacy of their own customers. To address this issue, we propose a novel horizontal privacy-preserving federated learning framework for REPs energy load forecasting, namely FedREP. We consider a federated learning system consisting of a control centre and multiple retailers by enabling multiple REPs to build a common, robust machine learning model without sharing data, thus addressing critical issues such as data privacy, data security and scalability. For forecasting, we use a state-of-the-art Long Short-Term Memory (LSTM) neural network due to its ability to learn long term sequences of observations and promises of higher accuracy with time-series data while solving the vanishing gradient problem. Finally, we conduct extensive data-driven experiments using a real energy consumption dataset. Experimental results demonstrate that our proposed federated learning framework can achieve sufficient performance in terms of MSE ranging between 0.3 to 0.4 and is relatively similar to that of a centralized approach while preserving privacy and improving scalability.
翻訳日:2022-03-02 22:03:35 公開日:2022-03-01
# (参考訳) TRILLsson: 拡張ユニバーサルパラ言語音声表現 [全文訳有]

TRILLsson: Distilled Universal Paralinguistic Speech Representations ( http://arxiv.org/abs/2203.00236v1 )

ライセンス: CC BY 4.0
Joel Shor, Subhashini Venugopalan(参考訳) 最近の自己スーパービジョンの進歩は、音声表現の質を劇的に改善した。 しかし、現在最先端の組み込みモデルのデバイスへの展開は、公開可用性の制限とリソースフットプリントの増大により制限されている。 我々の研究はこれらの問題に対処し、小規模で最先端の性能に近いパラ言語的音声モデルの集合を公開している。 我々のアプローチは知識蒸留に基づいており、モデルは公開データのみに蒸留される。 異なるアーキテクチャを探索し、非意味的音声(NOSS)ベンチマークでモデルを徹底的に評価する。 私たちの最大の蒸留モデルは、オリジナルのモデル(314mb対2.2gb)の15%以下で、7つのタスクのうち6つで96%以上の精度を達成し、データを6.5%でトレーニングしています。 最小モデルのサイズは1%(22MB)で、7つのタスクのうちの6つで90%以上の精度を達成する。 我々のモデルは7つのタスクのうち6つでオープンソースのWav2Vec 2.0モデルより優れており、最小のモデルは7%のサイズのにも関わらず、両方の感情認識タスクでオープンソースのWav2Vec 2.0より優れています。

Recent advances in self-supervision have dramatically improved the quality of speech representations. However, deployment of state-of-the-art embedding models on devices has been restricted due to their limited public availability and large resource footprint. Our work addresses these issues by publicly releasing a collection of paralinguistic speech models that are small and near state-of-the-art performance. Our approach is based on knowledge distillation, and our models are distilled on public data only. We explore different architectures and thoroughly evaluate our models on the Non-Semantic Speech (NOSS) benchmark. Our largest distilled model is less than 15% the size of the original model (314MB vs 2.2GB), achieves over 96% the accuracy on 6 of 7 tasks, and is trained on 6.5% the data. The smallest model is 1% in size (22MB) and achieves over 90% the accuracy on 6 of 7 tasks. Our models outperform the open source Wav2Vec 2.0 model on 6 of 7 tasks, and our smallest model outperforms the open source Wav2Vec 2.0 on both emotion recognition tasks despite being 7% the size.
翻訳日:2022-03-02 21:53:13 公開日:2022-03-01
# (参考訳) ピン入力法における中国語GPTの探索と適応 [全文訳有]

Exploring and Adapting Chinese GPT to Pinyin Input Method ( http://arxiv.org/abs/2203.00249v1 )

ライセンス: CC BY 4.0
Minghuan Tan, Yong Dai, Duyu Tang, Zhangyin Feng, Guoping Huang, Jing Jiang, Jiwei Li, Shuming Shi(参考訳) GPTはテキスト生成タスクのデファクトメソッドとなっているが、Pinyin 入力メソッドへの応用は未検討のままである。 本稿では,中国のgptをピンイン入力法に活用する最初の探索を行う。 凍結したGPTはピニインの最先端性能を実現する。 しかし、入力に短縮ピンインが含まれていると、性能が劇的に低下する。 理由は、省略されたpinyinは、多くの完全なpinyinにマッピングできるためであり、これはさらに多くの漢字にリンクしている。 pinyinでコンテキストを豊かにし、ホモホンを識別するためのトレーニングプロセスを最適化することを含む、2つの戦略でこの問題を軽減する。 さらにPinyin入力手法の評価を容易にするため、15ドメインから270Kインスタンスからなるデータセットを作成する。 その結果,全領域にわたる短縮ピンインの性能が向上した。 モデル分析は、両方の戦略がパフォーマンス向上に寄与することを示している。

While GPT has become the de-facto method for text generation tasks, its application to pinyin input method remains unexplored. In this work, we make the first exploration to leverage Chinese GPT for pinyin input method. We find that a frozen GPT achieves state-of-the-art performance on perfect pinyin. However, the performance drops dramatically when the input includes abbreviated pinyin. A reason is that an abbreviated pinyin can be mapped to many perfect pinyin, which links to even larger number of Chinese characters. We mitigate this issue with two strategies, including enriching the context with pinyin and optimizing the training process to help distinguish homophones. To further facilitate the evaluation of pinyin input method, we create a dataset consisting of 270K instances from 15 domains. Results show that our approach improves performance on abbreviated pinyin across all domains. Model analysis demonstrates that both strategies contribute to the performance boost.
翻訳日:2022-03-02 21:45:28 公開日:2022-03-01
# (参考訳) 時間的知識グラフを用いた質問応答の時間感度向上 [全文訳有]

Improving Time Sensitivity for Question Answering over Temporal Knowledge Graphs ( http://arxiv.org/abs/2203.00255v1 )

ライセンス: CC BY 4.0
Chao Shang, Guangtao Wang, Peng Qi, Jing Huang(参考訳) 時間的知識グラフ(KGs)に対する質問応答は、時間的KGに含まれる事実を効率よく利用し、実体関係を記録し、それらが時間的に発生するとき、自然言語の質問に答える(例:「オバマ前アメリカ合衆国大統領は誰だったのか」)。 これらの質問は、しばしば、以前の作業が適切に対処できない3つの時間関連の課題を含む。 1)質問は、しばしば正確な関心のタイムスタンプを指定しない(例えば、2000年ではなく「オバマ」)。 2)時間関係の微妙な語彙的違い(例えば「前」と「後」) 3)既成の時間的KG埋め込みは,時間的順序に関する質問に答える上で重要なタイムスタンプの時間的順序を無視している。 本稿では,これらの問題に対処するための時間依存性質問応答(TSQA)フレームワークを提案する。 TSQAは、未記述のタイムスタンプを質問から推測するタイムスタンプ推定モジュールを備えている。 また、TSQAがベースとしている時間依存性KGエンコーダを用いて、時間依存性KGエンコーダをインジェクションする。 TSQAは、潜在的な答えの探索空間を減らす技術によって、時間的KGに対する質問応答のための新しいベンチマークにおいて、特に時間的KGにおける事実に関する複数のステップを必要とする複雑な質問に対する32%の(絶対的な)誤り低減を達成するために、過去の技術状況よりも大幅に優れている。

Question answering over temporal knowledge graphs (KGs) efficiently uses facts contained in a temporal KG, which records entity relations and when they occur in time, to answer natural language questions (e.g., "Who was the president of the US before Obama?"). These questions often involve three time-related challenges that previous work fail to adequately address: 1) questions often do not specify exact timestamps of interest (e.g., "Obama" instead of 2000); 2) subtle lexical differences in time relations (e.g., "before" vs "after"); 3) off-the-shelf temporal KG embeddings that previous work builds on ignore the temporal order of timestamps, which is crucial for answering temporal-order related questions. In this paper, we propose a time-sensitive question answering (TSQA) framework to tackle these problems. TSQA features a timestamp estimation module to infer the unwritten timestamp from the question. We also employ a time-sensitive KG encoder to inject ordering information into the temporal KG embeddings that TSQA is based on. With the help of techniques to reduce the search space for potential answers, TSQA significantly outperforms the previous state of the art on a new benchmark for question answering over temporal KGs, especially achieving a 32% (absolute) error reduction on complex questions that require multiple steps of reasoning over facts in the temporal KG.
翻訳日:2022-03-02 21:32:18 公開日:2022-03-01
# (参考訳) TableFormer: テーブルテキストエンコーディングのためのロバストトランスフォーマーモデリング [全文訳有]

TableFormer: Robust Transformer Modeling for Table-Text Encoding ( http://arxiv.org/abs/2203.00274v1 )

ライセンス: CC BY 4.0
Jingfeng Yang, Aditya Gupta, Shyam Upadhyay, Luheng He, Rahul Goel, Shachi Paul(参考訳) 表を理解することは自然言語理解の重要な側面である。 テーブル理解のための既存のモデルは、行または列の順序が望ましくないバイアスとしてエンコードされるテーブル構造の線形化を必要とする。 このようなスプリアスバイアスにより、モデルは行と列の順番の摂動に対して脆弱になる。 さらに、以前の作業ではテーブル構造やテーブル-テキストのアライメントを十分にモデル化しておらず、テーブル-テキストの理解能力を妨げています。 本研究では,学習可能な注意バイアスを通じて表構造バイアスを完全に組み込んだテーブルテキスト符号化アーキテクチャTableFormerを提案する。 tableformerは(1)行と列の順序に厳密に不変であり、(2)テーブルのインダクティブバイアスのため、テーブルをよりよく理解することができる。 評価の結果、SQA、WTQ、TabFactのテーブル推論データセットの全ての設定において、TableFormerは強いベースラインを上回り、特に応答不変行や列オーダーの摂動(最高のベースラインよりも6%改善)に直面した場合、特にSQAの最先端のパフォーマンスを実現している。

Understanding tables is an important aspect of natural language understanding. Existing models for table understanding require linearization of the table structure, where row or column order is encoded as an unwanted bias. Such spurious biases make the model vulnerable to row and column order perturbations. Additionally, prior work has not thoroughly modeled the table structures or table-text alignments, hindering the table-text understanding ability. In this work, we propose a robust and structurally aware table-text encoding architecture TableFormer, where tabular structural biases are incorporated completely through learnable attention biases. TableFormer is (1) strictly invariant to row and column orders, and, (2) could understand tables better due to its tabular inductive biases. Our evaluations showed that TableFormer outperforms strong baselines in all settings on SQA, WTQ and TabFact table reasoning datasets, and achieves state-of-the-art performance on SQA, especially when facing answer-invariant row and column order perturbations (6% improvement over the best baseline), because previous SOTA models' performance drops by 4% - 6% when facing such perturbations while TableFormer is not affected.
翻訳日:2022-03-02 21:17:59 公開日:2022-03-01
# (参考訳) progresslabeller: オブジェクト中心の3d知覚をトレーニングするためのビジュアルデータストリームアノテーション [全文訳有]

ProgressLabeller: Visual Data Stream Annotation for Training Object-Centric 3D Perception ( http://arxiv.org/abs/2203.00283v1 )

ライセンス: CC BY 4.0
Xiaotong Chen, Huijie Zhang, Zeren Yu, Stanley Lewis, Odest Chadwicke Jenkins(参考訳) 視覚知覚タスクは、しばしば3Dポーズや画像空間分割マスクを含む大量のラベル付きデータを必要とする。 このようなトレーニングデータセットを作成するプロセスは、一般的な用途で有効にスケールアップすることが困難または時間集約的であることを証明できる。 剛体物体に対するポーズ推定のタスクを考える。 ディープニューラルネットワークベースのアプローチは、大規模な公開データセットでトレーニングされた場合、優れたパフォーマンスを示している。 しかし、これらのネットワークを他の新しいオブジェクトに適応させるか、既存のモデルを異なる環境向けに微調整するかは、新しいラベル付きインスタンスを生成するのにかなりの時間を要する。 そこで本研究では,カラー画像シーケンスから大量の6次元ポーズトレーニングデータを,スケーラブルな方法で効率よく生成する手法として,ProgressLabellerを提案する。 progresslabellerは、透明または半透明なオブジェクトをサポートすることを目的としている。 我々は,最先端のポーズ推定ネットワークを微調整し,下流ロボットの把持成功率を著しく向上させる,100万以上のサンプルのデータセットを迅速に作成することにより,progresslabellerの有効性を実証する。 ProgressLabellerは近く公開される予定だ。

Visual perception tasks often require vast amounts of labelled data, including 3D poses and image space segmentation masks. The process of creating such training data sets can prove difficult or time-intensive to scale up to efficacy for general use. Consider the task of pose estimation for rigid objects. Deep neural network based approaches have shown good performance when trained on large, public datasets. However, adapting these networks for other novel objects, or fine-tuning existing models for different environments, requires significant time investment to generate newly labelled instances. Towards this end, we propose ProgressLabeller as a method for more efficiently generating large amounts of 6D pose training data from color images sequences for custom scenes in a scalable manner. ProgressLabeller is intended to also support transparent or translucent objects, for which the previous methods based on depth dense reconstruction will fail. We demonstrate the effectiveness of ProgressLabeller by rapidly create a dataset of over 1M samples with which we fine-tune a state-of-the-art pose estimation network in order to markedly improve the downstream robotic grasp success rates. ProgressLabeller will be made publicly available soon.
翻訳日:2022-03-02 21:03:07 公開日:2022-03-01
# (参考訳) ニューラルネットワークのロバスト性解析のためのドメイン理論フレームワーク

A Domain-Theoretic Framework for Robustness Analysis of Neural Networks ( http://arxiv.org/abs/2203.00295v1 )

ライセンス: CC BY 4.0
Can Zhou, Razin A. Shaikh, Yiran Li, Amin Farjudian(参考訳) 本稿では,ニューラルネットワークのロバスト性評価のためのドメイン理論フレームワークを提案する。 まず、一般的なネットワークのグローバルなロバスト性を分析する。 そして、有限次元バナッハ空間上では、領域論的 L-導関数がクラークの一般化勾配と一致するという事実を用いて、攻撃に依存しない局所ロバスト性解析の枠組みを拡張する。 私たちのフレームワークは、構築によって正しいアルゴリズムを設計するのに理想的です。 フィードフォワード回帰器のリプシッツ定数推定のための検証アルゴリズムを開発することにより、この主張を実証する。 微分可能ネットワーク上でのアルゴリズムの完全性および一般位置ReLUネットワーク上でのアルゴリズムの完全性を証明する。 我々のドメインモデルでは、微分可能ネットワークと非微分可能ネットワークを均一に分析することができる。 本アルゴリズムは任意精度区間演算を用いて実装し,いくつかの実験結果を示す。 私たちの実装は、浮動小数点エラーも処理するため、真に検証されています。

We present a domain-theoretic framework for validated robustness analysis of neural networks. We first analyze the global robustness of a general class of networks. Then, using the fact that, over finite-dimensional Banach spaces, the domain-theoretic L-derivative coincides with Clarke's generalized gradient, we extend our framework for attack-agnostic local robustness analysis. Our framework is ideal for designing algorithms which are correct by construction. We exemplify this claim by developing a validated algorithm for estimation of Lipschitz constant of feedforward regressors. We prove the completeness of the algorithm over differentiable networks, and also over general position ReLU networks. Within our domain model, differentiable and non-differentiable networks can be analyzed uniformly. We implement our algorithm using arbitrary-precision interval arithmetic, and present the results of some experiments. Our implementation is truly validated, as it handles floating-point errors as well.
翻訳日:2022-03-02 20:47:56 公開日:2022-03-01
# (参考訳) 深部単眼6次元物体ポーズ推定のための逆サンプル

Adversarial samples for deep monocular 6D object pose estimation ( http://arxiv.org/abs/2203.00302v1 )

ライセンス: CC BY 4.0
Jinlai Zhang, Weiming Li, Shuang Liang, Hao Wang, Jihong Zhu(参考訳) rgb画像からオブジェクト6dのポーズを推定することは、自動運転やロボットによる把持など、多くの現実のアプリケーションにとって重要である。 本研究では,まず,最先端の深層学習(SOTA)に基づく6次元ポーズ推定モデルを騙し得る敵のサンプルについて検討する。 特に,6次元ポーズ推定のための3つの主要カテゴリのモデルをすべて攻撃できる統一的な6次元ポーズ推定攻撃,すなわちu6daを提案する。 u6daの重要なアイデアは、正しい6dポーズ推定に不可欠なオブジェクト形状の間違った結果を予測するモデルを騙すことです。 具体的には,6次元ポーズ推定のための移動型ブラックボックス攻撃について検討する。 セグメンテーションアテンションマップを元の位置から遠ざけることにより、逆さまのサンプルが作られる。 このような敵対的サンプルは, 直接的な6次元ポーズ推定モデルに有効であるだけでなく, 頑健なransacモジュールによらず2段階モデルにも適用可能であることを示した。 大規模公開ベンチマークによるU6DAの有効性の実証実験を行った。 また、6次元ポーズ推定タスクのロバストネス研究のための新しいU6DA-Linemodデータセットも導入した。 コードとデータセットは \url{https://github.com/c uge1995/U6DA} で公開されます。

Estimating object 6D pose from an RGB image is important for many real-world applications such as autonomous driving and robotic grasping, where robustness of the estimation is crucial. In this work, for the first time, we study adversarial samples that can fool state-of-the-art (SOTA) deep learning based 6D pose estimation models. In particular, we propose a Unified 6D pose estimation Attack, namely U6DA, which can successfully attack all the three main categories of models for 6D pose estimation. The key idea of our U6DA is to fool the models to predict wrong results for object shapes that are essential for correct 6D pose estimation. Specifically, we explore a transfer-based black-box attack to 6D pose estimation. By shifting the segmentation attention map away from its original position, adversarial samples are crafted. We show that such adversarial samples are not only effective for the direct 6D pose estimation models, but also able to attack the two-stage based models regardless of their robust RANSAC modules. Extensive experiments were conducted to demonstrate the effectiveness of our U6DA with large-scale public benchmarks. We also introduce a new U6DA-Linemod dataset for robustness study of the 6D pose estimation task. Our codes and dataset will be available at \url{https://github.com/c uge1995/U6DA}.
翻訳日:2022-03-02 20:47:06 公開日:2022-03-01
# (参考訳) UAVにおける物体検出パイプラインの包括的解析 [全文訳有]

Comprehensive Analysis of the Object Detection Pipeline on UAVs ( http://arxiv.org/abs/2203.00306v1 )

ライセンス: CC BY 4.0
Leon Amadeus Varga, Sebastian Koch, Andreas Zell(参考訳) オブジェクト検出パイプラインは、シーンをキャプチャするカメラと、これらの画像を処理するオブジェクト検出器で構成される。 画像の品質は、物体検出器の性能に直接影響する。 今日では、画像の品質向上やオブジェクト検出モデルの改良に焦点が当てられているが、2つのサブシステムの共同最適化の重要性は無視されている。 本稿では, リモートセンシングアプリケーションにおける7つのパラメータ(量子化, 圧縮, 解像度, 色モデル, 画像歪み, ガンマ補正, 追加チャネル)の影響を実験的に解析する。 実験では, 異なる領域から得られた3つのUAVデータセットと, 大規模かつ小型の物体検出モデルを用いて, パイプラインパラメータの影響を広範囲に評価する。 さらに,UAVの組込みプラットフォーム上でオブジェクト検出パイプラインのプロトタイプを実現するとともに,この結果に基づいてオブジェクト検出パイプラインを構築するためのベストプラクティスを提案する。 すべてのパラメータが検出精度とデータスループットに等しく影響するわけではないし、パラメータ間の適切な妥協を使用することで、同じデータスループットを維持しながら、軽量なオブジェクト検出モデルの検出精度を向上させることができる。

An object detection pipeline comprises a camera that captures the scene and an object detector that processes these images. The quality of the images directly affects the performance of the object detector. Many works nowadays focus either on improving the image quality or improving the object detection models independently, but neglect the importance of joint optimization of the two subsystems. In this paper, we first empirically analyze the influence of seven parameters (quantization, compression, resolution, color model, image distortion, gamma correction, additional channels) in remote sensing applications. For our experiments, we utilize three UAV data sets from different domains and a mixture of large and small state-of-the-art object detector models to provide an extensive evaluation of the influence of the pipeline parameters. Additionally, we realize an object detection pipeline prototype on an embedded platform for an UAV and give a best practice recommendation for building object detection pipelines based on our findings. We show that not all parameters have an equal impact on detection accuracy and data throughput, and that by using a suitable compromise between parameters we are able to improve detection accuracy for lightweight object detection models, while keeping the same data throughput.
翻訳日:2022-03-02 20:45:10 公開日:2022-03-01
# (参考訳) VScript: オーディオ映像提示による制御可能なスクリプト生成 [全文訳有]

VScript: Controllable Script Generation with Audio-Visual Presentation ( http://arxiv.org/abs/2203.00314v1 )

ライセンス: CC BY 4.0
Ziwei Ji, Yan Xu, I-Tsun Cheng, Samuel Cahyawijaya, Rita Frieske, Etsuko Ishii, Min Zeng, Andrea Madotto, Pascale Fung(参考訳) 自動スクリプト生成は大量のリソースを節約し、プロの脚本家にインスピレーションを与える。 本稿では,対話やシーン記述を含む完全なスクリプトを生成する制御可能なパイプラインであるVScriptについて述べる。 対話型インタフェースにより,ユーザはジャンルを選択でき,テーマや生成したスクリプトの開発を制御できる単語を入力できる。 我々は階層構造を採用し、プロットを生成し、スクリプトとその音声視覚提示を行う。 また、逆対話要約として扱うことにより、プロット誘導対話生成に対する新しいアプローチを導入する。 実験の結果,本手法は,特にジャンル制御の観点から,自動評価と人間評価の両方において,ベースラインを上回っていることがわかった。

Automatic script generation could save a considerable amount of resources and offer inspiration to professional scriptwriters. We present VScript, a controllable pipeline that generates complete scripts including dialogues and scene descriptions, and presents visually using video retrieval and aurally using text-to-speech for spoken dialogue. With an interactive interface, our system allows users to select genres and input starting words that control the theme and development of the generated script. We adopt a hierarchical structure, which generates the plot, then the script and its audio-visual presentation. We also introduce a novel approach to plot-guided dialogue generation by treating it as an inverse dialogue summarization. Experiment results show that our approach outperforms the baselines on both automatic and human evaluations, especially in terms of genre control.
翻訳日:2022-03-02 20:33:19 公開日:2022-03-01
# (参考訳) スケール正規化を伴う残留ネットワークの差分プライベートトレーニング [全文訳有]

Differentially private training of residual networks with scale normalisation ( http://arxiv.org/abs/2203.00324v1 )

ライセンス: CC BY 4.0
Helena Klause, Alexander Ziller, Daniel Rueckert, Kerstin Hammernik, Georgios Kaissis(参考訳) 差動的確率的勾配降下(dp-sgd)を訓練するための残差ネットワーク(resnets)におけるバッチ正規化(bn)のための置換層の選択の最適について検討し,残差ブロックにおけるスケール混合現象について検討した。 実験により,1-64グループ正規化(GN)グループを超えるハイパーパラメータ探索により,ベンチマーク(CIFAR-10)および大画面(ImageNette)タスクにおいて,ResNet-9とResNet-50の精度が大幅に向上することが示された。 さらに、残留ブロックの追加操作後に追加の正規化層が導入されるモデルアーキテクチャの簡易な修正であるスケール正規化により、CIFAR-10における最先端結果の達成を可能にするResNetsの有用性がさらに向上する。

We investigate the optimal choice of replacement layer for Batch Normalisation (BN) in residual networks (ResNets) for training with Differentially Private Stochastic Gradient Descent (DP-SGD) and study the phenomenon of scale mixing in residual blocks, whereby the activations on the two branches are scaled differently. Our experimental evaluation indicates that a hyperparameter search over 1-64 Group Normalisation (GN) groups improves the accuracy of ResNet-9 and ResNet-50 considerably in both benchmark (CIFAR-10) and large-image (ImageNette) tasks. Moreover, Scale Normalisation, a simple modification to the model architecture by which an additional normalisation layer is introduced after the residual block's addition operation further improves the utility of ResNets allowing us to achieve state-of-the-art results on CIFAR-10.
翻訳日:2022-03-02 20:19:50 公開日:2022-03-01
# (参考訳) CMSにおける粒子流再構成のための機械学習 [全文訳有]

Machine Learning for Particle Flow Reconstruction at CMS ( http://arxiv.org/abs/2203.00330v1 )

ライセンス: CC BY 4.0
Joosep Pata, Javier Duarte, Farouk Mokhtar, Eric Wulff, Jieun Yoo, Jean-Roch Vlimant, Maurizio Pierini, Maria Girone(参考訳) CMSのための機械学習に基づく粒子フローアルゴリズムの実装について詳述する。 標準粒子流アルゴリズムは、熱量計のクラスターと軌道に基づいて安定な粒子を再構成し、複数の検出器サブシステムの複合情報を利用する大域的なイベント再構成を提供する。 我々は,グラフニューラルネットワークを用いたGPUなどの異種コンピューティングプラットフォームへの粒子フローの進化の可能性について検討した。 マシン学習型PFモデルは、イベント中のトラックとカロリークラスタの全リストに基づいて、粒子候補を再構成する。 検証のために,提案するアルゴリズムがジェットのオフライン再構成と横エネルギーの欠如と相互作用する場合,cmsソフトウェアフレームワークの物理性能を直接決定する。 また,実行時とメモリ使用時をほぼ線形にスケールするアルゴリズムの計算性能を,入力サイズとともに報告する。

We provide details on the implementation of a machine-learning based particle flow algorithm for CMS. The standard particle flow algorithm reconstructs stable particles based on calorimeter clusters and tracks to provide a global event reconstruction that exploits the combined information of multiple detector subsystems, leading to strong improvements for quantities such as jets and missing transverse energy. We have studied a possible evolution of particle flow towards heterogeneous computing platforms such as GPUs using a graph neural network. The machine-learned PF model reconstructs particle candidates based on the full list of tracks and calorimeter clusters in the event. For validation, we determine the physics performance directly in the CMS software framework when the proposed algorithm is interfaced with the offline reconstruction of jets and missing transverse energy. We also report the computational performance of the algorithm, which scales approximately linearly in runtime and memory usage with the input size.
翻訳日:2022-03-02 20:11:02 公開日:2022-03-01
# (参考訳) IID表現学習への取り組みとバイオメディカルデータへの応用 [全文訳有]

Towards IID representation learning and its application on biomedical data ( http://arxiv.org/abs/2203.00332v1 )

ライセンス: CC BY 4.0
Jiqing Wu, Inti Zlobec, Maxime Lafarge, Yukun He, Viktor H. Koelzer(参考訳) 実世界のデータの不均一性のため、因果関係に関する最近の研究で広く受け入れられた独立性と同一分布(IID)の仮定が批判されている。 本稿では、疑わしい仮定である代わりに、IIDは学習すべき基本的なタスク関連特性である、と論じる。 k$ 独立確率ベクトル $\mathsf{X}^{i = 1, \ldots, k}$ を考えると、様々な因果質問がタスク関連関数 $\phi$ の学習によって IID を誘導する$\mathsf{Z}^i := \phi \circ \mathsf{X}^i$ の学習によってどのように再構成されるかが詳しく説明される。 概念実証のために,アウト・オブ・ディストリビューション(OOD)一般化タスクにおけるIID表現学習について検討する。 具体的には、IIDを誘導する学習関数を用いて得られた表現を利用して、2つのバイオメディカルデータセット上で分子特性(分子予測)の予測を行う。 a)前分析的な変異と b) サンプリングプロトコル。 再現性を実現し,SOTA(State-of-the-a rt)手法と比較するために,WILDSから推奨されるOODベンチマークガイドラインに従う。 WILDS でサポートされている SOTA ベースラインと比較して,OOD タスクにおける IID 表現学習の優れた性能が確認された。 コードはhttps://github.com/c tplab/iid_representa tion_learningで公開されている。

Due to the heterogeneity of real-world data, the widely accepted independent and identically distributed (IID) assumption has been criticized in recent studies on causality. In this paper, we argue that instead of being a questionable assumption, IID is a fundamental task-relevant property that needs to be learned. Consider $k$ independent random vectors $\mathsf{X}^{i = 1, \ldots, k}$, we elaborate on how a variety of different causal questions can be reformulated to learning a task-relevant function $\phi$ that induces IID among $\mathsf{Z}^i := \phi \circ \mathsf{X}^i$, which we term IID representation learning. For proof of concept, we examine the IID representation learning on Out-of-Distribution (OOD) generalization tasks. Concretely, by utilizing the representation obtained via the learned function that induces IID, we conduct prediction of molecular characteristics (molecular prediction) on two biomedical datasets with real-world distribution shifts introduced by a) preanalytical variation and b) sampling protocol. To enable reproducibility and for comparison to the state-of-the-art (SOTA) methods, this is done by following the OOD benchmarking guidelines recommended from WILDS. Compared to the SOTA baselines supported in WILDS, the results confirm the superior performance of IID representation learning on OOD tasks. The code is publicly accessible via https://github.com/C TPLab/IID_representa tion_learning.
翻訳日:2022-03-02 20:00:39 公開日:2022-03-01
# (参考訳) 生成前に読め! 機械読解による忠実なロングフォーム質問応答 [全文訳有]

Read before Generate! Faithful Long Form Question Answering with Machine Reading ( http://arxiv.org/abs/2203.00343v1 )

ライセンス: CC BY 4.0
Dan Su, Xiaoguang Li, Jindi Zhang, Lifeng Shang, Xin Jiang, Qun Liu, Pascale Fung(参考訳) LFQA(Long-form Question answering)は、ある質問に対する段落長の回答を生成することを目的とする。 大規模な事前学習モデルを用いたLFQAに関する現在の研究は、流動的でやや関係のあるコンテンツを生成するのに効果的であるが、主要な課題は、より幻覚的なコンテンツが少ない忠実な回答を生成する方法である。 生成と機械読取を協調的にモデル化する新しいエンドツーエンドフレームワークを提案する。 鍵となるアイデアは、忠実な事実に重きを置くことができる、きめ細かな回答関連のサルエント情報によって生成モデルを強化することである。 The-of-the-art results on two LFQA data, ELI5 and MS MARCO, showed the effective of our method, with strong baselines on automatic and human evaluation metrics。 詳細な分析により、我々の方法が、より流動的で、関連性があり、より忠実な答えを生み出す能力がさらに証明される。

Long-form question answering (LFQA) aims to generate a paragraph-length answer for a given question. While current work on LFQA using large pre-trained model for generation are effective at producing fluent and somewhat relevant content, one primary challenge lies in how to generate a faithful answer that has less hallucinated content. We propose a new end-to-end framework that jointly models answer generation and machine reading. The key idea is to augment the generation model with fine-grained, answer-related salient information which can be viewed as an emphasis on faithful facts. State-of-the-art results on two LFQA datasets, ELI5 and MS MARCO, demonstrate the effectiveness of our method, in comparison with strong baselines on automatic and human evaluation metrics. A detailed analysis further proves the competency of our methods in generating fluent, relevant, and more faithful answers.
翻訳日:2022-03-02 19:32:58 公開日:2022-03-01
# (参考訳) 逆翻訳エッセイと調整スコアを用いた自動エッセイスコアリングの性能向上 [全文訳有]

Improving Performance of Automated Essay Scoring by using back-translation essays and adjusted scores ( http://arxiv.org/abs/2203.00354v1 )

ライセンス: CC BY 4.0
You-Jin Jong (1), Yong-Jin Kim (2), Ok-Chol Ri (1) ((1) Kum Sung Middle School Number 2, Pyongyang, D.P.R of Korea, (2) Faculty of Mathematics, KIM IL SUNG University, Pyongyang, D.P.R of Korea)(参考訳) 自動エッセイスコアリングは、学生の教育における言語能力を評価する上で重要な役割を担っている。 従来のアプローチでは、手作りの機能をスコアに使い、時間がかかり複雑です。 近年、ニューラルネットワークアプローチは、機能エンジニアリングなしでパフォーマンスを改善している。 他の自然言語処理タスクとは異なり、エッセイの自動評価には少数のデータセットしか公開されておらず、データセットのサイズは十分に大きくない。 ニューラルネットワークの性能がデータセットのサイズと密接に関連していることを考慮すると、データの欠如は自動エッセイスコアリングモデルの性能改善を制限している。 本稿では,バックトランスレーションとスコア調整を用いたエッセイスコアペア数を増加させる手法を提案し,増補のための自動学生評価賞データセットに適用した。 先行研究から得られたモデルを用いて拡張データの有効性を評価した。 また,エッセイ自動採点に広く用いられている長期短期記憶を用いたモデルにおいて,評価を行った。 モデルのトレーニングに拡張データを使用することで、モデルのパフォーマンスが向上した。

Automated essay scoring plays an important role in judging students' language abilities in education. Traditional approaches use handcrafted features to score and are time-consuming and complicated. Recently, neural network approaches have improved performance without any feature engineering. Unlike other natural language processing tasks, only a small number of datasets are publicly available for automated essay scoring, and the size of the dataset is not sufficiently large. Considering that the performance of a neural network is closely related to the size of the dataset, the lack of data limits the performance improvement of the automated essay scoring model. In this paper, we proposed a method to increase the number of essay-score pairs using back-translation and score adjustment and applied it to the Automated Student Assessment Prize dataset for augmentation. We evaluated the effectiveness of the augmented data using models from prior work. In addition, performance was evaluated in a model using long short-term memory, which is widely used for automated essay scoring. The performance of the models was improved by using augmented data to train the models.
翻訳日:2022-03-02 19:14:03 公開日:2022-03-01
# (参考訳) Tempera: 心臓MRI分割のための空間変換器特徴ピラミッドネットワーク [全文訳有]

Tempera: Spatial Transformer Feature Pyramid Network for Cardiac MRI Segmentation ( http://arxiv.org/abs/2203.00355v1 )

ライセンス: CC BY 4.0
Christoforos Galazis, Huiyi Wu, Zhuoyu Li, Camille Petri, Anil A. Bharath, Marta Varela(参考訳) 心疾患の診断には右心室(RV)の構造と機能を評価することが重要である。 しかし、左心室(LV)よりもRVを分節することは依然として困難である。 本稿では,短い(SA)と長い(LA)心MR画像の両方において,RVのセグメンテーションに焦点をあてる。 本研究では,新しいマルチインプット/アウトプットアーキテクチャ,ハイブリッド2D/3D幾何空間トランスフォームEr fEature pyRAmid (Tempera)を提案する。 我々の特徴ピラミッドは、マルチスケールの特徴出力だけでなく、マルチスケールのSAとLAの入力画像も可能にすることで、現在の設計を拡張している。 テンペラはSA画像とLA画像の層重み分けにより学習特徴を伝達し、予測されたSAセグメントをLA空間にマッピングするために幾何学的ターゲット変換器を組み込む。 このモデルでは,SAとLAの平均Diceスコアは0.836,LAは0.798,Hausdorff距離は26.31mm,Hausdorff距離は31.19mmである。 これにより、RVセグメンテーションモデルを臨床ワークフローに組み込む可能性が開ける。

Assessing the structure and function of the right ventricle (RV) is important in the diagnosis of several cardiac pathologies. However, it remains more challenging to segment the RV than the left ventricle (LV). In this paper, we focus on segmenting the RV in both short (SA) and long-axis (LA) cardiac MR images simultaneously. For this task, we propose a new multi-input/output architecture, hybrid 2D/3D geometric spatial TransformEr Multi-Pass fEature pyRAmid (Tempera). Our feature pyramid extends current designs by allowing not only a multi-scale feature output but multi-scale SA and LA input images as well. Tempera transfers learned features between SA and LA images via layer weight sharing and incorporates a geometric target transformer to map the predicted SA segmentation to LA space. Our model achieves an average Dice score of 0.836 and 0.798 for the SA and LA, respectively, and 26.31 mm and 31.19 mm Hausdorff distances. This opens up the potential for the incorporation of RV segmentation models into clinical workflows.
翻訳日:2022-03-02 19:03:50 公開日:2022-03-01
# (参考訳) 畳み込みオートエンコーダと縮小オーバーコロケーション法による非線形多様体ROM

Non-linear manifold ROM with Convolutional Autoencoders and Reduced Over-Collocation method ( http://arxiv.org/abs/2203.00360v1 )

ライセンス: CC BY 4.0
Francesco Romor and Giovanni Stabile and Gianluigi Rozza(参考訳) 非アフィンパラメトリックな依存、非線形性、および関心モデルのアドベクション支配的な規則は、線形部分空間近似に基づく効率的な縮小次モデルの実現を妨げるコルモゴロフ n-幅崩壊を遅くする。 考えられるソリューションの中には、オートエンコーダとその変種を利用した純粋にデータ駆動の手法があり、動的システムの潜在表現を学習し、別のアーキテクチャでそれを進化させる。 標準的な線形手法が失敗する多くのアプリケーションで成功しているにもかかわらず、結果の解釈可能性を高めるために、特にトレーニング範囲外において、データの豊富さを特徴とするシステムでは、より多くのことを行う必要がある。 予測フェーズの間、モデルの物理学に関する知識はどれも悪用されないことは言うまでもない。 これらの弱点を克服するため、Carlbergらによって導入された非線型多様体法を、オーバーコロケーションの削減とデコーダの教師/学生による訓練によって実現した超減算で実装する。 本研究では,2次元非線形保存法と2次元浅水モデルを用いて方法論を検証し,時間とともに動的に進化する純粋データ駆動型手法と長期記憶ネットワークとの比較を行った。

Non-affine parametric dependencies, nonlinearities and advection-dominated regimes of the model of interest can result in a slow Kolmogorov n-width decay, which precludes the realization of efficient reduced-order models based on linear subspace approximations. Among the possible solutions, there are purely data-driven methods that leverage autoencoders and their variants to learn a latent representation of the dynamical system, and then evolve it in time with another architecture. Despite their success in many applications where standard linear techniques fail, more has to be done to increase the interpretability of the results, especially outside the training range and not in regimes characterized by an abundance of data. Not to mention that none of the knowledge on the physics of the model is exploited during the predictive phase. In order to overcome these weaknesses, we implement the non-linear manifold method introduced by Carlberg et al [37] with hyper-reduction achieved through reduced over-collocation and teacher-student training of a reduced decoder. We test the methodology on a 2d non-linear conservation law and a 2d shallow water models, and compare the results obtained with a purely data-driven method for which the dynamics is evolved in time with a long-short term memory network.
翻訳日:2022-03-02 18:57:07 公開日:2022-03-01
# (参考訳) 協調フィルタリングに基づくマルチメディアレコメンダシステムにおける人気バイアス [全文訳有]

Popularity Bias in Collaborative Filtering-Based Multimedia Recommender Systems ( http://arxiv.org/abs/2203.00376v1 )

ライセンス: CC BY 4.0
Dominik Kowald and Emanuel Lacic(参考訳) マルチメディアレコメンデーターシステムは、例えば、歌、(デジタル)書籍、映画などのメディアアイテムを、協調フィルタリングのような伝統的なレコメンデーターシステムの概念を利用してユーザに推奨する。 本稿では,このような協調フィルタリングに基づくマルチメディアレコメンデータシステムの可能性,すなわちリコメンデーションリストにおける不人気項目の表現不足につながる人気バイアスについて検討する。 そこで我々は,LastFm,MovieLens,Bo okCrossing,MyAnimeLi stの4つのマルチメディアデータセットを,それぞれ,人気傾向の異なる3つのユーザグループ,すなわちLowPop,MedPop,HighPo pに分割した。 これらのユーザグループを用いて,アイテムとユーザレベルの人気バイアスに関して,4つの協調フィルタリングに基づくアルゴリズムを評価した。 まず,人気アイテムに関心のないユーザが大きなユーザプロファイルを持つ傾向にあり,マルチメディアリコメンデーションシステムにとって重要なデータソースであることを示す。 第二に、人気アイテムは不人気アイテムよりも頻繁に推奨される。 第3に,人気アイテムに対する興味の少ないユーザは,中・高関心のユーザよりもはるかに悪いレコメンデーションを受けることが分かりました。

Multimedia recommender systems suggest media items, e.g., songs, (digital) books and movies, to users by utilizing concepts of traditional recommender systems such as collaborative filtering. In this paper, we investigate a potential issue of such collaborative-filter ing based multimedia recommender systems, namely popularity bias that leads to the underrepresentation of unpopular items in the recommendation lists. Therefore, we study four multimedia datasets, i.e., LastFm, MovieLens, BookCrossing and MyAnimeList, that we each split into three user groups differing in their inclination to popularity, i.e., LowPop, MedPop and HighPop. Using these user groups, we evaluate four collaborative filtering-based algorithms with respect to popularity bias on the item and the user level. Our findings are three-fold: firstly, we show that users with little interest into popular items tend to have large user profiles and thus, are important data sources for multimedia recommender systems. Secondly, we find that popular items are recommended more frequently than unpopular ones. Thirdly, we find that users with little interest into popular items receive significantly worse recommendations than users with medium or high interest into popularity.
翻訳日:2022-03-02 18:56:01 公開日:2022-03-01
# (参考訳) 分散検出のための評価プロトコルにおけるランダム性に対処する [全文訳有]

Addressing Randomness in Evaluation Protocols for Out-of-Distribution Detection ( http://arxiv.org/abs/2203.00382v1 )

ライセンス: CC BY 4.0
Konstantin Kirchheim, Tim Gonschorek, Frank Ortmeier(参考訳) 分類のためのディープニューラルネットワークは、トレーニング分布から生じる入力に直面すると予測不可能に振る舞う。 これはアウト・オブ・ディストリビューション検出(OOD)機構を動機付けている。 分布外データに関する事前情報がない場合,検出手法の性能評価が困難となる。 現代のいくつかの評価プロトコルはオープンセットシミュレーションに基づいており、データセットの最大5つの合成ランダムスプリットのパフォーマンスを、分散サンプルと分散サンプルに平均している。 しかし、考えられる分割の数ははるかに多くなり、Deep Neural Networksの性能は、異なるランダムな変動源によって大きく変動することが知られている。 我々は,現在のプロトコルがOOD法の性能を推定できないことを実証的に実証した。 この評価をランダムなプロセスとしてキャストすることにより、オープンセットシミュレーションの概念を一般化し、ランダム性に対処するモンテカルロ法を用いてOOD法の性能を推定する。

Deep Neural Networks for classification behave unpredictably when confronted with inputs not stemming from the training distribution. This motivates out-of-distribution detection (OOD) mechanisms. The usual lack of prior information on out-of-distribution data renders the performance estimation of detection approaches on unseen data difficult. Several contemporary evaluation protocols are based on open set simulations, which average the performance over up to five synthetic random splits of a dataset into in- and out-of-distribution samples. However, the number of possible splits may be much larger, and the performance of Deep Neural Networks is known to fluctuate significantly depending on different sources of random variation. We empirically demonstrate that current protocols may fail to provide reliable estimates of the expected performance of OOD methods. By casting this evaluation as a random process, we generalize the concept of open set simulations and propose to estimate the performance of OOD methods using a Monte Carlo approach that addresses the randomness.
翻訳日:2022-03-02 18:46:58 公開日:2022-03-01
# (参考訳) 強化学習における抽象理論

A Theory of Abstraction in Reinforcement Learning ( http://arxiv.org/abs/2203.00397v1 )

ライセンス: CC BY 4.0
David Abel(参考訳) 強化学習は、行動と観察だけで良い判断をすることを学ぶエージェントが直面する問題を定義する。 効果的な問題解決のためには、そのようなエージェントは、膨大な世界を効率的に探索し、遅延したフィードバックから信用を割り当て、新しい体験に一般化する必要がある。 これらすべての取り組みには抽象化が不可欠です。 抽象化を通じてエージェントは、合理的で適応的な意思決定者に必要な多くのプラクティスをサポートする、環境の簡潔なモデルを形成することができる。 本稿では,強化学習における抽象理論について述べる。 最初に、抽象化のプロセスを実行する関数に3つのdeiderataを提供します。 1) 準最適行動の表現の保存 2) 効率的に学び、構築し、 3) 計画や学習時間の短縮。 次に、エージェントがこれらのデシダータに従って抽象化を学習する方法を明確にする、新しいアルゴリズムと分析のスイートを提示します。 総じて、これらの結果は効果的な強化学習の複雑さを最小化する抽象化の発見と利用への部分的パスを提供する。

Reinforcement learning defines the problem facing agents that learn to make good decisions through action and observation alone. To be effective problem solvers, such agents must efficiently explore vast worlds, assign credit from delayed feedback, and generalize to new experiences, all while making use of limited data, computational resources, and perceptual bandwidth. Abstraction is essential to all of these endeavors. Through abstraction, agents can form concise models of their environment that support the many practices required of a rational, adaptive decision maker. In this dissertation, I present a theory of abstraction in reinforcement learning. I first offer three desiderata for functions that carry out the process of abstraction: they should 1) preserve representation of near-optimal behavior, 2) be learned and constructed efficiently, and 3) lower planning or learning time. I then present a suite of new algorithms and analysis that clarify how agents can learn to abstract according to these desiderata. Collectively, these results provide a partial path toward the discovery and use of abstraction that minimizes the complexity of effective reinforcement learning.
翻訳日:2022-03-02 18:35:31 公開日:2022-03-01
# (参考訳) 0-1ソフトマージン損失を有する非線形カーネル支持ベクターマシン

Nonlinear Kernel Support Vector Machine with 0-1 Soft Margin Loss ( http://arxiv.org/abs/2203.00399v1 )

ライセンス: CC BY 4.0
Ju Liu, Ling-Wei Huang, Yuan-Hai Shao, Wei-Jie Chen, Chun-Na Li(参考訳) 0-1ソフトマージン損失(L_{0/1}$-SVM)を持つ線形支持ベクトルマシンの最近の進歩は、0-1ロス問題を直接解けることを示している。 しかしながら、その理論的かつアルゴリズム的な要求は、線形解法フレームワークをその非線形カーネル形式に直接拡張することを制限するが、ラグランジアン双対函数の明示的な表現がないことは、それらのうちの1つの大きな欠点である。 本稿では,非パラメトリック表現定理を適用して,0-1ソフトマージン損失を持つ支持ベクトルマシンの非線形モデル($L_{0/1}$-KSVM)を提案する。 その最適条件を理論的に検討し、その数値解を得るために乗算器アルゴリズム(ADMM)の動作セット選択方向法を導入する。 さらに、まず、サポートベクトル (sv) に対して $l_{0/1}$-ksvm の閉形式を定義する。 理論的には、$L_{0/1}$-KSVM のすべての SV が並列決定曲面上のみに存在することを証明している。 実験部はまた、$L_{0/1}$-KSVMは、線形ピアである$L_{0/1}$-SVMと他の6つの非線形ベンチマークSVM分類器と比較した場合、十分な予測精度とともに、SVをはるかに少なくすることを示した。

Recent advance on linear support vector machine with the 0-1 soft margin loss ($L_{0/1}$-SVM) shows that the 0-1 loss problem can be solved directly. However, its theoretical and algorithmic requirements restrict us extending the linear solving framework to its nonlinear kernel form directly, the absence of explicit expression of Lagrangian dual function of $L_{0/1}$-SVM is one big deficiency among of them. In this paper, by applying the nonparametric representation theorem, we propose a nonlinear model for support vector machine with 0-1 soft margin loss, called $L_{0/1}$-KSVM, which cunningly involves the kernel technique into it and more importantly, follows the success on systematically solving its linear task. Its optimal condition is explored theoretically and a working set selection alternating direction method of multipliers (ADMM) algorithm is introduced to acquire its numerical solution. Moreover, we firstly present a closed-form definition to the support vector (SV) of $L_{0/1}$-KSVM. Theoretically, we prove that all SVs of $L_{0/1}$-KSVM are only located on the parallel decision surfaces. The experiment part also shows that $L_{0/1}$-KSVM has much fewer SVs, simultaneously with a decent predicting accuracy, when comparing to its linear peer $L_{0/1}$-SVM and the other six nonlinear benchmark SVM classifiers.
翻訳日:2022-03-02 18:32:55 公開日:2022-03-01
# (参考訳) 0.25-6 THz帯反射幾何学におけるTHz時間領域画像のビーム形状効果とノイズ除去 [全文訳有]

Beam-Shape Effects and Noise Removal from THz Time-Domain Images in Reflection Geometry in the 0.25-6 THz Range ( http://arxiv.org/abs/2203.00417v1 )

ライセンス: CC BY 4.0
Marina Ljubenovic, Alessia Artesani, Stefano Bonetti, and Arianna Traviglia(参考訳) 高分解能ハイパースペクトル(hs)画像の復元の必要性が高まり、画像コンテンツの明快さを高めるためにコンピュータビジョンベースの処理への依存度が高まる。 HS画像は、楽器の制限による劣化効果やアーチファクトに悩まされる可能性がある。 本稿では, 反射幾何学におけるテラヘルツ時間領域分光(THz-TDS)画像において, 劣化効果, 周波数依存性のぼかし, ノイズの低減を目的とした手法に着目する。 伝送幾何学において THz-TDS 画像の復元に有効であることが以前に証明されていたが, 反射法での実験は行われなかった。 このモードは、ほとんどのケースで効果的に使用できる唯一のモードであり、例えば、THz範囲で不透明な物体や、文化的興味のある物体のような場所(例えば博物館)から移動できない物体を分析する場合などである。 伝送モードと比較して、リフレクション幾何は既存の文献では無視されている THz のデータにさらなる歪みをもたらす。 本研究では,一様形状の試料(現代の1ユーロ硬貨とインレードペンダント)と表面の不均一なレリーフおよび腐食生成物(古代ローマの銀貨)の両方を,特に複雑な物(古代ローマの銀貨)の分析に用いた画像のデブロアリングとデノナイジングに成功している。 本研究は,4オクターブ以上の0.25~6thz範囲のデータを画像処理によって復元する能力を示し,まだ文献で十分に研究されていない遠赤外線スペクトルを用いた文化財の今後の分析的アプローチの基礎を提供する。

The increasing need of restoring high-resolution Hyper-Spectral (HS) images is determining a growing reliance on Computer Vision-based processing to enhance the clarity of the image content. HS images can, in fact, suffer from degradation effects or artefacts caused by instrument limitations. This paper focuses on a procedure aimed at reducing the degradation effects, frequency-dependent blur and noise, in Terahertz Time-Domain Spectroscopy (THz-TDS) images in reflection geometry. It describes the application of a joint deblurring and denoising approach that had been previously proved to be effective for the restoration of THz-TDS images in transmission geometry, but that had never been tested in reflection modality. This mode is often the only one that can be effectively used in most cases, for example when analyzing objects that are either opaque in the THz range, or that cannot be displaced from their location (e.g., museums), such as those of cultural interest. Compared to transmission mode, reflection geometry introduces, however, further distortion to THz data, neglected in existing literature. In this work, we successfully implement image deblurring and denoising of both uniform-shape samples (a contemporary 1 Euro cent coin and an inlaid pendant) and samples with the uneven reliefs and corrosion products on the surface which make the analysis of the object particularly complex (an ancient Roman silver coin). The study demonstrates the ability of image processing to restore data in the 0.25 - 6 THz range, spanning over more than four octaves, and providing the foundation for future analytical approaches of cultural heritage using the far-infrared spectrum still not sufficiently investigated in literature.
翻訳日:2022-03-02 18:31:43 公開日:2022-03-01
# (参考訳) beyond gradients: モデル反転攻撃における敵の優先事項の活用 [全文訳有]

Beyond Gradients: Exploiting Adversarial Priors in Model Inversion Attacks ( http://arxiv.org/abs/2203.00481v1 )

ライセンス: CC BY 4.0
Dmitrii Usynin, Daniel Rueckert, Georgios Kaissis(参考訳) 連合学習のような協調機械学習設定は、敵の干渉や攻撃の影響を受けやすい。 このような攻撃の1つのクラスはモデル反転攻撃と呼ばれ、敵がモデルをリバースエンジニアリングして表現を抽出し、トレーニングデータを開示する。 この攻撃の以前の実装は、典型的には捕獲されたデータ(すなわち共有勾配)にのみ依存し、訓練コンソーシアムの一部として敵自身が制御するデータを悪用しない。 本研究では,勾配に基づくモデル逆転攻撃の基礎の上に構築された新しいモデル逆転フレームワークを提案する。 提案手法は,同一の正直な脅威モデルを維持しつつ,定性的かつ定量的に既存の勾配に基づくアプローチを上回っており,敵が隠れたままに改良を施すことができる。

Collaborative machine learning settings like federated learning can be susceptible to adversarial interference and attacks. One class of such attacks is termed model inversion attacks, characterised by the adversary reverse-engineering the model to extract representations and thus disclose the training data. Prior implementations of this attack typically only rely on the captured data (i.e. the shared gradients) and do not exploit the data the adversary themselves control as part of the training consortium. In this work, we propose a novel model inversion framework that builds on the foundations of gradient-based model inversion attacks, but additionally relies on matching the features and the style of the reconstructed image to data that is controlled by an adversary. Our technique outperforms existing gradient-based approaches both qualitatively and quantitatively, while still maintaining the same honest-but-curious threat model, allowing the adversary to obtain enhanced reconstructions while remaining concealed.
翻訳日:2022-03-02 18:11:51 公開日:2022-03-01
# (参考訳) グループベースサブセットスキャンによる生成モデルの創造性評価 [全文訳有]

Towards Creativity Characterization of Generative Models via Group-based Subset Scanning ( http://arxiv.org/abs/2203.00523v1 )

ライセンス: CC BY 4.0
Celia Cintas, Payel Das, Brian Quanz, Girmaw Abebe Tadesse, Skyler Speakman, Pin-Yu Chen(参考訳) 可変オートエンコーダ (VAE) やGAN (Generative Adversarial Networks) のような深層生成モデルは、計算創造性研究に広く利用されている。 しかし、このようなモデルは散逸したサンプル生成を避けるために分散生成を妨げ、創造性を制限している。 このように、人間の創造性の研究を生成的深層学習技術に取り入れることで、アウトプットをより魅力的で人間らしくする機会が得られる。 創造性研究に向けた生成モデルの出現を見る限り、これらのモデルから創造的なアウトプットを特徴づける機械学習ベースのサロゲートメトリクスの必要性は不可欠である。 生成モデルの隠れ層における異常なノードアクティベーションのサブセットを検出し,創造プロセスを識別,定量化し,特徴付けるグループベースサブセットスキャンを提案する。 標準画像ベンチマークおよびそれらの「創造的生成」変異を用いた実験により,提案するサブセットスコア分布は,画素空間よりも活性化空間における創造的プロセスの検出に有用であることを明らかにした。 さらに, 創造的なサンプルは, 通常のサンプルや非創造的なサンプルよりも大きな異常部分を生成することがわかった。 創造的復号プロセスで強調されるノードアクティベーションは、通常のサンプル生成に責任を持つものとは異なる。 最後に,本手法で選択したサブセットのイメージが人間の評価者によって創造的であるかどうかを検証し,人間の創造性知覚と深部神経網内のノード活性化との関連性を示した。

Deep generative models, such as Variational Autoencoders (VAEs) and Generative Adversarial Networks (GANs), have been employed widely in computational creativity research. However, such models discourage out-of-distribution generation to avoid spurious sample generation, thereby limiting their creativity. Thus, incorporating research on human creativity into generative deep learning techniques presents an opportunity to make their outputs more compelling and human-like. As we see the emergence of generative models directed toward creativity research, a need for machine learning-based surrogate metrics to characterize creative output from these models is imperative. We propose group-based subset scanning to identify, quantify, and characterize creative processes by detecting a subset of anomalous node-activations in the hidden layers of the generative models. Our experiments on the standard image benchmarks, and their "creatively generated" variants, reveal that the proposed subset scores distribution is more useful for detecting creative processes in the activation space rather than the pixel space. Further, we found that creative samples generate larger subsets of anomalies than normal or non-creative samples across datasets. The node activations highlighted during the creative decoding process are different from those responsible for the normal sample generation. Lastly, we assess if the images from the subsets selected by our method were also found creative by human evaluators, presenting a link between creativity perception in humans and node activations within deep neural nets.
翻訳日:2022-03-02 17:52:59 公開日:2022-03-01
# (参考訳) 深層学習型IVFに向けて:形態運動パラメータ予測のための大規模公開ベンチマーク [全文訳有]

Towards deep learning-powered IVF: A large public benchmark for morphokinetic parameter prediction ( http://arxiv.org/abs/2203.00531v1 )

ライセンス: CC BY 4.0
Tristan Gomez, Magalie Feyeux, Nicolas Normand, Laurent David, Perrine Paul-Gilloteaux, Thomas Fr\'eour, Harold Mouch\`ere(参考訳) In Vitro Fertilization (IVF) のための人工知能(AI)ベースのソリューションの開発に重要な制限は、ディープラーニング(DL)モデルをトレーニングし評価するための公開リファレンスベンチマークがないことである。 そこで本研究では, 胚発生過程の756ビデオの注釈付きデータセットを, 合計337k画像に対して記述する。 resnet, lstm, resnet-3dアーキテクチャをデータセットに適用し, ステージ開発フェーズを自動アノテートするアルゴリズム的アプローチを過大に活用できることを実証した。 また,形態運動モデルの評価をコミュニティが行うことのできる,最初の公開ベンチマークも提案する。 これはディープラーニングによるIVFへの第一歩だ。 ここでは, 初期細胞分裂期だけでなく, 後期細胞分裂期, 減量後の段階, 未使用のごく初期の段階を含む16種類の発達期を含む, 高度に詳細なアノテーションを提案する。 このアプローチは、胚発生のタイムラプスビデオにおけるディープラーニングアプローチの全体的なパフォーマンス向上に役立つと仮定し、最終的に臨床成功率を向上した不妊患者に利益をもたらす(コードとデータはhttps://gitlab.univ- nantes.fr/E144069X/b ench_mk_pred.gitで入手できる)。

An important limitation to the development of Artificial Intelligence (AI)-based solutions for In Vitro Fertilization (IVF) is the absence of a public reference benchmark to train and evaluate deep learning (DL) models. In this work, we describe a fully annotated dataset of 756 videos of developing embryos, for a total of 337k images. We applied ResNet, LSTM, and ResNet-3D architectures to our dataset and demonstrate that they overperform algorithmic approaches to automatically annotate stage development phases. Altogether, we propose the first public benchmark that will allow the community to evaluate morphokinetic models. This is the first step towards deep learning-powered IVF. Of note, we propose highly detailed annotations with 16 different development phases, including early cell division phases, but also late cell divisions, phases after morulation, and very early phases, which have never been used before. We postulate that this original approach will help improve the overall performance of deep learning approaches on time-lapse videos of embryo development, ultimately benefiting infertile patients with improved clinical success rates (Code and data are available at https://gitlab.univ- nantes.fr/E144069X/b ench_mk_pred.git).
翻訳日:2022-03-02 17:43:03 公開日:2022-03-01
# (参考訳) ユニタリ変換学習のための最適量子データセット [全文訳有]

Optimal quantum dataset for learning a unitary transformation ( http://arxiv.org/abs/2203.00546v1 )

ライセンス: CC BY 4.0
Zhan Yu, Xuanqiang Zhao, Benchi Zhao, Xin Wang(参考訳) ユニタリ変換は量子状態の時間発展を定式化する。 ユニタリ変換を効率的に学習する方法は、量子機械学習の基本的な問題である。 最も自然で先進的な戦略は、量子データセットに基づいた量子機械学習モデルをトレーニングすることだ。 トレーニングデータが増えるとモデルが改善されるが、過剰なデータを使用することでトレーニングの効率が低下する。 本研究では,ユニタリ変換を正確に学習するために必要な量子データセットを最小サイズで解くことにより,量子データのパワーと限界を明らかにする。 まず、純状態のデータセットの最小サイズが$n$-qubitユニタリ変換を学習するために$2^n$であることを示す。 量子データの能力を十分に探求するために、正確なトレーニングに十分な$n+1$混合状態からなる量子データセットを導入する。 主なアイデアはデカップリングを利用した構造を単純化することであり、純粋な状態のデータセットに対して指数関数的に改善される。 さらに、混合状態の量子データセットのサイズを定数に縮めることができ、ユニタリを学習するための最適な量子データセットが得られることを示す。 オラクルコンパイルとハミルトンシミュレーションにおける本研究の応用について紹介する。 特に,3量子1次元近傍ハイゼンベルク模型を正確にシミュレートするには,基本量子ゲートが4,820ドル未満で,トロッタスズキ積公式で構築した回路では4320ドル以下しか使用できない。

Unitary transformations formulate the time evolution of quantum states. How to learn a unitary transformation efficiently is a fundamental problem in quantum machine learning. The most natural and leading strategy is to train a quantum machine learning model based on a quantum dataset. Although presence of more training data results in better models, using too much data reduces the efficiency of training. In this work, we solve the problem on the minimum size of sufficient quantum datasets for learning a unitary transformation exactly, which reveals the power and limitation of quantum data. First, we prove that the minimum size of dataset with pure states is $2^n$ for learning an $n$-qubit unitary transformation. To fully explore the capability of quantum data, we introduce a quantum dataset consisting of $n+1$ mixed states that are sufficient for exact training. The main idea is to simplify the structure utilizing decoupling, which leads to an exponential improvement on the size over the datasets with pure states. Furthermore, we show that the size of quantum dataset with mixed states can be reduced to a constant, which yields an optimal quantum dataset for learning a unitary. We showcase the applications of our results in oracle compiling and Hamiltonian simulation. Notably, to accurately simulate a 3-qubit one-dimensional nearest-neighbor Heisenberg model, our circuit only uses $48$ elementary quantum gates, which is significantly less than $4320$ gates in the circuit constructed by the Trotter-Suzuki product formula.
翻訳日:2022-03-02 17:20:37 公開日:2022-03-01
# (参考訳) モデルパラメータの不確かさを考慮したロバストモデル予測制御のためのベイズ最適化 [全文訳有]

Bayesian Optimisation for Robust Model Predictive Control under Model Parameter Uncertainty ( http://arxiv.org/abs/2203.00551v1 )

ライセンス: CC BY 4.0
Rel Guzman, Rafael Oliveira, Fabio Ramos(参考訳) 本稿では,確率モデル予測制御(mpc)ハイパーパラメータの適応最適化手法を提案し,性能評価に基づく遷移モデルパラメータの確率分布を共同で推定する。 特に,MPCハイパーパラメータおよびダイナミックスモデルパラメータ空間にまたがる様々なノイズに対処するために,非定常雑音モデルを用いたベイズ最適化(BO)アルゴリズムを開発した。 典型的なホモシダスティックノイズモデルは、確率制御器が本質的にノイズが多いため、MPCのチューニングには非現実的であり、ノイズのレベルは超パラメータ設定の影響を受けます。 シミュレーション制御とロボットのタスクにおいて,制御パラメータと動的パラメータを共同で推論する最適化アルゴリズムの評価を行った。 実験の結果,我々のアプローチは累積的な報酬とより安定したコントローラをもたらすことがわかった。

We propose an adaptive optimisation approach for tuning stochastic model predictive control (MPC) hyper-parameters while jointly estimating probability distributions of the transition model parameters based on performance rewards. In particular, we develop a Bayesian optimisation (BO) algorithm with a heteroscedastic noise model to deal with varying noise across the MPC hyper-parameter and dynamics model parameter spaces. Typical homoscedastic noise models are unrealistic for tuning MPC since stochastic controllers are inherently noisy, and the level of noise is affected by their hyper-parameter settings. We evaluate the proposed optimisation algorithm in simulated control and robotics tasks where we jointly infer control and dynamics parameters. Experimental results demonstrate that our approach leads to higher cumulative rewards and more stable controllers.
翻訳日:2022-03-02 17:01:25 公開日:2022-03-01
# (参考訳) 分布的ロバスト性によるグローバル局所正規化 [全文訳有]

Global-Local Regularization Via Distributional Robustness ( http://arxiv.org/abs/2203.00553v1 )

ライセンス: CC BY 4.0
Hoang Phan, Trung Le, Trung Phung, Tuan Anh Bui, Nhat Ho and Dinh Phung(参考訳) 多くの状況において優れた性能にもかかわらず、ディープニューラルネットワークは敵の例や分布シフトに対して脆弱であり、現実世界のアプリケーションではモデル一般化能力を制限する。 これらの問題を緩和するために、近年のアプローチでは、分散ロバストネス最適化(DRO)を活用し、最も難しい分布を見つけ、最も難しい分布に対して損失関数を最小化する。 いくつかの改善はともかく、これらのDROアプローチにはいくつかの明らかな制限がある。 まず、モデルロバスト性を強化するために局所正規化に集中し、多くの実世界のアプリケーション(例えば、ドメイン適応、ドメイン一般化、および敵機械学習)で有用なグローバル正規化効果を欠いている。 第二に、既存のDROアプローチにおける損失関数は最も困難な分布のみで動作し、したがって元の分布と分離され、制限的なモデリング能力をもたらす。 本稿では,wasserstein を基盤とする dro framework の脈絡に従う新しい正規化手法を提案する。 具体的には、特定のジョイント分布とwassersteinベースの不確実性を定義し、モデリング能力を高め、局所正規化とグローバル正規化の両方を適用するために、オリジナルかつ最も挑戦的な分布を結合できる。 異なる学習問題に関する実証的研究により,提案手法は,半教師付き学習,ドメイン適応,ドメイン一般化,対向機械学習など,様々な領域において,既存の正規化アプローチを著しく上回っていることが示された。

Despite superior performance in many situations, deep neural networks are often vulnerable to adversarial examples and distribution shifts, limiting model generalization ability in real-world applications. To alleviate these problems, recent approaches leverage distributional robustness optimization (DRO) to find the most challenging distribution, and then minimize loss function over this most challenging distribution. Regardless of achieving some improvements, these DRO approaches have some obvious limitations. First, they purely focus on local regularization to strengthen model robustness, missing a global regularization effect which is useful in many real-world applications (e.g., domain adaptation, domain generalization, and adversarial machine learning). Second, the loss functions in the existing DRO approaches operate in only the most challenging distribution, hence decouple with the original distribution, leading to a restrictive modeling capability. In this paper, we propose a novel regularization technique, following the veins of Wasserstein-based DRO framework. Specifically, we define a particular joint distribution and Wasserstein-based uncertainty, allowing us to couple the original and most challenging distributions for enhancing modeling capability and applying both local and global regularizations. Empirical studies on different learning problems demonstrate that our proposed approach significantly outperforms the existing regularization approaches in various domains: semi-supervised learning, domain adaptation, domain generalization, and adversarial machine learning.
翻訳日:2022-03-02 16:45:40 公開日:2022-03-01
# (参考訳) 既知の物理を組み込んだリカレントニューラルネットワークの経路サンプリング [全文訳有]

Path sampling of recurrent neural networks by incorporating known physics ( http://arxiv.org/abs/2203.00597v1 )

ライセンス: CC BY 4.0
Sun-Ting Tsai, Eric Fields, Pratyush Tiwary(参考訳) リカレントニューラルネットワークは、天気予報やテキスト予測など、さまざまな領域における動的システムのモデリングに広く利用されている。 しばしば、実験的に観察された力学を事前の知識や直観で補おうとする。 これらのネットワークの繰り返しの性質により、トレーニングで使用される時系列の任意の長さの記憶をモデル化することができるが、一般的な制約によって事前の知識や直感を課すことは困難である。 本研究では,最大校正器の原理に基づく経路サンプリング手法を提案する。これにより,再帰的なニューラルネットワークに一般的な熱力学あるいは運動論的制約を組み込むことができる。 本稿では,全原子分子動力学から収集した時系列を補うという文脈で,長期短期記憶ネットワークとして広く使用されるリカレントニューラルネットワークについて述べる。 異なるアプリケーションに対する形式主義のパワーを実証する。 本手法は、他の生成人工知能モデルや、直観や理論に基づく補正によって限られたデータを補うことを望む物理・社会科学の様々な分野における一般的な時系列に容易に一般化することができる。

Recurrent neural networks have seen widespread use in modeling dynamical systems in varied domains such as weather prediction, text prediction and several others. Often one wishes to supplement the experimentally observed dynamics with prior knowledge or intuition about the system. While the recurrent nature of these networks allows them to model arbitrarily long memories in the time series used in training, it makes it harder to impose prior knowledge or intuition through generic constraints. In this work, we present a path sampling approach based on principle of Maximum Caliber that allows us to include generic thermodynamic or kinetic constraints into recurrent neural networks. We show the method here for a widely used type of recurrent neural network known as long short-term memory network in the context of supplementing time series collecting from all-atom molecular dynamics. We demonstrate the power of the formalism for different applications. Our method can be easily generalized to other generative artificial intelligence models and to generic time series in different areas of physical and social sciences, where one wishes to supplement limited data with intuition or theory based corrections.
翻訳日:2022-03-02 16:12:54 公開日:2022-03-01
# (参考訳) 生物化学生産プロセスのスケジューリングのための分布強化学習

Distributional Reinforcement Learning for Scheduling of (Bio)chemical Production Processes ( http://arxiv.org/abs/2203.00636v1 )

ライセンス: CC BY 4.0
Max Mowbray, Dongda Zhang, Ehecatl Antonio Del Rio Chanona(参考訳) 強化学習(RL)は、最近、プロセスシステム工学と制御コミュニティから大きな注目を集めている。 近年の研究では、不確実性の存在下での最適スケジューリング決定のためのRLの適用について検討されている。 本稿では,生産スケジューリング問題に共通して課される優先的制約と解離的制約に対処するRL手法を提案する。 この研究は、現実的なスケジューリングプロセスにおいて不可欠な条件付き値-リスク(CVaR)のようなリスクに敏感な定式化の最適化を可能にする。 提案手法を単段並列バッチ生産環境で徹底的に検討し,milp(mixed integer linear programming)戦略に対するベンチマークを行った。 提案手法は,既存のMILP手法に匹敵する性能で,オンライン意思決定におけるプラントの不確実性を考慮できることを示す。 さらに、このフレームワークはリスクに敏感な尺度を最適化する利点を享受し、最も効率的な最適化アプローチよりもはるかに早く意思決定の順序を識別する。 これは、実践的な問題を緩和し、オンライン生産スケジューリングのパラダイムにおけるプロセスの不確実性の実現の処理を容易にすることを約束します。

Reinforcement Learning (RL) has recently received significant attention from the process systems engineering and control communities. Recent works have investigated the application of RL to identify optimal scheduling decision in the presence of uncertainty. In this work, we present a RL methodology to address precedence and disjunctive constraints as commonly imposed on production scheduling problems. This work naturally enables the optimization of risk-sensitive formulations such as the conditional value-at-risk (CVaR), which are essential in realistic scheduling processes. The proposed strategy is investigated thoroughly in a single-stage, parallel batch production environment, and benchmarked against mixed integer linear programming (MILP) strategies. We show that the policy identified by our approach is able to account for plant uncertainties in online decision-making, with expected performance comparable to existing MILP methods. Additionally, the framework gains the benefits of optimizing for risk-sensitive measures, and identifies decisions orders of magnitude faster than the most efficient optimization approaches. This promises to mitigate practical issues and ease in handling realizations of process uncertainty in the paradigm of online production scheduling.
翻訳日:2022-03-02 15:58:26 公開日:2022-03-01
# 可変オートエンコーダを用いたlhcにおける粒子ベース高速ジェットシミュレーション

Particle-based Fast Jet Simulation at the LHC with Variational Autoencoders ( http://arxiv.org/abs/2203.00520v1 )

ライセンス: Link先を確認
Mary Touranakou, Nadezda Chernyavskaya, Javier Duarte, Dimitrios Gunopulos, Raghav Kansal, Breno Orzari, Maurizio Pierini, Thiago Tomei, Jean-Roch Vlimant(参考訳) 本研究では,LHCにおける粒子ジェットの高速シミュレーションにDeep Variational Autoencodersを使用する方法について検討した。 我々はジェットをその瞬間を特徴とする構成要素のリストとして表現する。 検出器効果前のジェットのシミュレーションから始まり、検出後に対応する成分のリストを返すようにDeep Variational Autoencoderを訓練する。 そのため、従来の処理チェーンの時間を要する検出器シミュレーションと衝突再構成ステップの両方をバイパスし、イベント生成ワークフローを著しく高速化する。 モデル最適化とハイパーパラメータチューニングにより, 構成成分のモーメントの正確な記述と, 規則ベースの高速シミュレーションに匹敵する推論時間を提供しながら, ジェットフォーモーメントの最先端精度を実現する。

We study how to use Deep Variational Autoencoders for a fast simulation of jets of particles at the LHC. We represent jets as a list of constituents, characterized by their momenta. Starting from a simulation of the jet before detector effects, we train a Deep Variational Autoencoder to return the corresponding list of constituents after detection. Doing so, we bypass both the time-consuming detector simulation and the collision reconstruction steps of a traditional processing chain, speeding up significantly the events generation workflow. Through model optimization and hyperparameter tuning, we achieve state-of-the-art precision on the jet four-momentum, while providing an accurate description of the constituents momenta, and an inference time comparable to that of a rule-based fast simulation.
翻訳日:2022-03-02 15:56:35 公開日:2022-03-01
# エンコーダデコーダリカレントニューラルネットワークを用いた白色物質のWMTI-Watsonモデルのパラメータ推定

Parameter estimation for WMTI-Watson model of white matter using encoder-decoder recurrent neural network ( http://arxiv.org/abs/2203.00595v1 )

ライセンス: Link先を確認
Yujian Diao and Ileana Ozana Jelescu(参考訳) 拡散MRI信号の生体物理モデリングは、特定のミクロ組織特性の見積もりを提供するが、非線形最小二乗法(NLLS)のような非線形最適化は、モデル推定の最も広く使われている手法であるが、局所最小化と高い計算コストに悩まされている。 ディープラーニングアプローチは、NLフィッティングを着実に置き換えているが、各取得プロトコルとノイズレベルに対してモデルを再トレーニングする必要があるという制限が伴っている。 wmti(white matter tract integrity)-watsonモデル(wmti-watson model)は、拡散テンソルとクルトシステンソル(dki)からモデルパラメータを推定する白色物質における拡散の標準モデルの実装として提案された。 本稿では,エンコーダ・デコーダ・リカレントニューラルネットワーク(RNN)に基づくディープラーニング手法を提案し,ロバスト性を高め,WMTI-Watsonのパラメータ推定を高速化する。 学習データと実験データとの分布の潜在的差異に影響を受けないモデルを作成するために埋め込み手法を用いる。 したがって、このRNNベースの解法は、DKIがデータから事前計算される限り、取得プロトコルや基礎となるパラメータ分布によらず、計算効率が高く、他のデータセットに容易に変換できるという利点がある。 本研究では,ラットおよびヒト脳の合成および生体内データセットにおけるNLLS,RNN法および多層パーセプトロン(MLP)の性能評価を行った。 提案手法は,NLLSよりも高速に計算時間を短縮し(数時間から秒),精度と精度はよく,ロバスト性は向上し,MLPより新しいデータセットへの変換性が向上した。

Biophysical modelling of the diffusion MRI signal provides estimates of specific microstructural tissue properties.Although nonlinear optimization such as non-linear least squares (NLLS) is the most widespread method for model estimation, it suffers from local minima and high computational cost. Deep Learning approaches are steadily replacing NL fitting, but come with the limitation that the model needs to be retrained for each acquisition protocol and noise level. The White Matter Tract Integrity (WMTI)-Watson model was proposed as an implementation of the Standard Model of diffusion in white matter that estimates model parameters from the diffusion and kurtosis tensors (DKI). Here we proposed a deep learning approach based on the encoder-decoder recurrent neural network (RNN) to increase the robustness and accelerate the parameter estimation of WMTI-Watson. We use an embedding approach to render the model insensitive to potential differences in distributions between training data and experimental data. This RNN-based solver thus has the advantage of being highly efficient in computation and more readily translatable to other datasets, irrespective of acquisition protocol and underlying parameter distributions as long as DKI was pre-computed from the data. In this study, we evaluated the performance of NLLS, the RNN-based method and a multilayer perceptron (MLP) on synthetic and in vivo datasets of rat and human brain. We showed that the proposed RNN-based fitting approach had the advantage of highly reduced computation time over NLLS (from hours to seconds), with similar accuracy and precision but improved robustness, and superior translatability to new datasets over MLP.
翻訳日:2022-03-02 15:56:14 公開日:2022-03-01
# マルチパラメトリックMRIによるグリオーマセグメンテーションにおけるディープニューラルネットワーク挙動の可視化のためのニューラル正規微分方程式モデル

A Neural Ordinary Differential Equation Model for Visualizing Deep Neural Network Behaviors in Multi-Parametric MRI based Glioma Segmentation ( http://arxiv.org/abs/2203.00628v1 )

ライセンス: Link先を確認
Zhenyu Yang, Zongsheng Hu, Hangjie Ji, Kyle Lafata, Scott Floyd, Fang-Fang Yin, Chunhao Wang(参考訳) 目的:多パラメータmri(mp-mri)を用いたグリオーマセグメンテーションによる深層ニューラルネットワーク(dnn)行動の可視化のための神経常微分方程式(ode)モデルを開発すること。 方法: 深部特徴抽出を時空間連続的なプロセスとしてモデル化できると仮定することにより, 深部特徴抽出を明示的表現のないODEで制御する新しい深部学習モデル, ニューラルODEを設計した。 動力学は 1)DNNおよびMR画像との相互作用 2)セグメンテーション形成はODEを解いた後に可視化できる。 最終分節結果に対するdnnによる各mriの利用を定量的に評価するaccumulative contribution curve (acc) を考案した。 提案するニューラルodeモデルは,4モードmp-mriプロトコルt1,コントラスト強調t1(t1-ce),t2,flairを用いた369例で実証された。 3つのニューラルODEモデルを用いて, 造影腫瘍(ET), 腫瘍コア(TC), 腫瘍全体(WT)の分節を訓練した。 DNNによる重要なMRモダリティをACC分析により同定した。 主要なMRモーダルのみを用いたDNNのセグメンテーション結果と4つのMRモーダルのセグメンテーション結果を比較した。 結果:すべてのニューラルODEモデルは,画像のダイナミックスを期待どおりに説明できた。 ACC分析では,ETおよびTCセグメンテーションにおいてT1-Ceが唯一のキーモダリティであり,FLAIRとT2はWTセグメンテーションにおいてキーモダリティであった。 すべての4つのMRモードを用いたU-Net結果と比較して、ET(0.784->0.775)、TC(0.760->0.758)およびWT(0.841->0.837)のDice係数は、有意な差を伴わずに最小の差しか持たなかった。 結論: ニューラルODEモデルは、説明可能性を高めてディープラーニングモデルの入力を最適化する新しいツールを提供する。 提案手法は,他の医用画像関連深層学習アプリケーションに一般化することができる。

Purpose: To develop a neural ordinary differential equation (ODE) model for visualizing deep neural network (DNN) behavior during multi-parametric MRI (mp-MRI) based glioma segmentation as a method to enhance deep learning explainability. Methods: By hypothesizing that deep feature extraction can be modeled as a spatiotemporally continuous process, we designed a novel deep learning model, neural ODE, in which deep feature extraction was governed by an ODE without explicit expression. The dynamics of 1) MR images after interactions with DNN and 2) segmentation formation can be visualized after solving ODE. An accumulative contribution curve (ACC) was designed to quantitatively evaluate the utilization of each MRI by DNN towards the final segmentation results. The proposed neural ODE model was demonstrated using 369 glioma patients with a 4-modality mp-MRI protocol: T1, contrast-enhanced T1 (T1-Ce), T2, and FLAIR. Three neural ODE models were trained to segment enhancing tumor (ET), tumor core (TC), and whole tumor (WT). The key MR modalities with significant utilization by DNN were identified based on ACC analysis. Segmentation results by DNN using only the key MR modalities were compared to the ones using all 4 MR modalities. Results: All neural ODE models successfully illustrated image dynamics as expected. ACC analysis identified T1-Ce as the only key modality in ET and TC segmentations, while both FLAIR and T2 were key modalities in WT segmentation. Compared to the U-Net results using all 4 MR modalities, Dice coefficient of ET (0.784->0.775), TC (0.760->0.758), and WT (0.841->0.837) using the key modalities only had minimal differences without significance. Conclusion: The neural ODE model offers a new tool for optimizing the deep learning model inputs with enhanced explainability. The presented methodology can be generalized to other medical image-related deep learning applications.
翻訳日:2022-03-02 15:55:42 公開日:2022-03-01
# OnBRA:テンポラルネットワークにおける時間的相互中心性の厳密な推定

ONBRA: Rigorous Estimation of the Temporal Betweenness Centrality in Temporal Networks ( http://arxiv.org/abs/2203.00653v1 )

ライセンス: Link先を確認
Diego Santoro and Ilie Sarpe(参考訳) ネットワーク分析では、ノード間の重心性はそのノードを訪れる最短経路のごく一部を非公式にキャプチャする。 中間性中心性尺度の計算は、現代のネットワークの解析において基本的なタスクであり、そのようなネットワークにおける最も中央のノードの識別を可能にする。 大規模なネットワークに加えて、現代のネットワークにはイベントの発生時期の情報も含まれている。 このようなネットワークはしばしばテンポラルネットワークと呼ばれる。 時間的情報により、時間的ネットワーク(時間的ネットワーク)における間性中心性の研究は、静的ネットワーク(時間的情報を持たないネットワーク)よりもはるかに困難になる。 さらに、時間的中間性中心性の正確な計算は、計算コストが非常に高いため、中程度のネットワークでもしばしば実用的ではない。 このような計算コストを削減する自然なアプローチは、時間的相互中心性の正確な値の高品質な推定を得ることである。 本稿では,時間的ネットワークにおけるノードの時間的相互関係を推定する最初のサンプリングベース近似アルゴリズムであるonbraを提案する。 ONBRAは、時間的ネットワークの最短経路に対する2つの異なる最適基準の下で、時間的間隔中央値の推定を計算することができる。 加えて、ONBRA は高度集中不等式である 'emph{empirical Bernstein bound} を利用して、鋭い理論的保証を持つ高品質な推定を出力する。 最後に,本実験により,onbraは実世界のネットワーク上での時間的相互性中心性の正確な計算に必要な計算資源を大幅に削減すると同時に,厳密な保証によって高品質な推定を報告できることを示した。

In network analysis, the betweenness centrality of a node informally captures the fraction of shortest paths visiting that node. The computation of the betweenness centrality measure is a fundamental task in the analysis of modern networks, enabling the identification of the most central nodes in such networks. Additionally to being massive, modern networks also contain information about the time at which their events occur. Such networks are often called temporal networks. The temporal information makes the study of the betweenness centrality in temporal networks (i.e., temporal betweenness centrality) much more challenging than in static networks (i.e., networks without temporal information). Moreover, the exact computation of the temporal betweenness centrality is often impractical on even moderately-sized networks, given its extremely high computational cost. A natural approach to reduce such computational cost is to obtain high-quality estimates of the exact values of the temporal betweenness centrality. In this work we present ONBRA, the first sampling-based approximation algorithm for estimating the temporal betweenness centrality values of the nodes in a temporal network, providing rigorous probabilistic guarantees on the quality of its output. ONBRA is able to compute the estimates of the temporal betweenness centrality values under two different optimality criteria for the shortest paths of the temporal network. In addition, ONBRA outputs high-quality estimates with sharp theoretical guarantees leveraging on the \emph{empirical Bernstein bound}, an advanced concentration inequality. Finally, our experimental evaluation shows that ONBRA significantly reduces the computational resources required by the exact computation of the temporal betweenness centrality on several real world networks, while reporting high-quality estimates with rigorous guarantees.
翻訳日:2022-03-02 15:55:00 公開日:2022-03-01
# 指数メカニズムによるプライベート凸最適化

Private Convex Optimization via Exponential Mechanism ( http://arxiv.org/abs/2203.00263v1 )

ライセンス: Link先を確認
Sivakanth Gopi, Yin Tat Lee, Daogao Liu(参考訳) 本稿では,非滑らか凸関数のプライベート最適化問題を$F(x)=\mathbb{E}_i f_i(x)$ on $\mathbb{R}^d$で検討する。 F(x)$ と $\pi(x)\propto \exp(-k(F(x)+\mu\|x\|_2^2/2))$ と $(\epsilon,\delta)$- DP に $\ell_2^2$ の正規化子を加えて指数的メカニズムを変更することで、既知の最適経験的リスクと人口損失の両方を復元することを示した。 さらに、このメカニズムを$\widetilde{o}(n \min(d, n))$ query to $f_i(x)$ for the dp-sco ここで$n$はサンプル/ユーザ数、$d$はアンビエント次元である。 また、評価クエリの数に対して、(ほぼ)一致した下限の$\widetilde{\Omega}(n \min(d, n))$も与えます。 1)損失関数が強凸で摂動がリプシッツであれば指数的なメカニズムのガウス微分プライバシー(GDP)を証明する。 私たちのプライバシバウンドは \emph{optimal} であり、特別な場合としてガウス機構のプライバシを含み、強い対数凸測度の等長不等式を用いて証明される。 2) $\exp(-F(x)-\mu \|x\|^2_2/2)$ for $G$-Lipschitz $F$ with $\eta$ error in total variation (TV) distance using $\widetilde{O}((G^2/\mu) \log^2(d/\eta))$ unbiased query to $F(x)$。 これは、クエリの複雑さが$d$と$\eta$の両方で \emph{polylogarithmic dependency} を持つ最初のサンプルである。

In this paper, we study private optimization problems for non-smooth convex functions $F(x)=\mathbb{E}_i f_i(x)$ on $\mathbb{R}^d$. We show that modifying the exponential mechanism by adding an $\ell_2^2$ regularizer to $F(x)$ and sampling from $\pi(x)\propto \exp(-k(F(x)+\mu\|x\|_2^2/2))$ recovers both the known optimal empirical risk and population loss under $(\epsilon,\delta)$- DP. Furthermore, we show how to implement this mechanism using $\widetilde{O}(n \min(d, n))$ queries to $f_i(x)$ for the DP-SCO where $n$ is the number of samples/users and $d$ is the ambient dimension. We also give a (nearly) matching lower bound $\widetilde{\Omega}(n \min(d, n))$ on the number of evaluation queries. Our results utilize the following tools that are of independent interest: (1) We prove Gaussian Differential Privacy (GDP) of the exponential mechanism if the loss function is strongly convex and the perturbation is Lipschitz. Our privacy bound is \emph{optimal} as it includes the privacy of Gaussian mechanism as a special case and is proved using the isoperimetric inequality for strongly log-concave measures. (2) We show how to sample from $\exp(-F(x)-\mu \|x\|^2_2/2)$ for $G$-Lipschitz $F$ with $\eta$ error in total variation (TV) distance using $\widetilde{O}((G^2/\mu) \log^2(d/\eta))$ unbiased queries to $F(x)$. This is the first sampler whose query complexity has \emph{polylogarithmic dependence} on both dimension $d$ and accuracy $\eta$.
翻訳日:2022-03-02 15:54:33 公開日:2022-03-01
# (参考訳) 高次元因果推論のためのニューラルスコアマッチング

Neural Score Matching for High-Dimensional Causal Inference ( http://arxiv.org/abs/2203.00554v1 )

ライセンス: CC BY 4.0
Oscar Clivio, Fabian Falck, Brieuc Lehmann, George Deligiannidis, Chris Holmes(参考訳) 因果推論における従来手法は高次元データセットでは実用的ではない。 正確なマッチングと粗い正確なマッチングは、入力次元が大きくなるにつれて指数関数的に少ないマッチングを見つけ、プロペンサススコアマッチングは、高度に無関係な単位と一致する可能性がある。 この問題を克服するため,従来のスカラー・プロペンシティ・スコアとは対照的に,ニューラルネットワークを用いて選択した粗さレベルの非自明な多変量バランススコアを得る理論的結果を開発した。 これらのバランススコアを高次元因果推論のマッチングに活用し,この手順をニューラルスコアマッチングと呼ぶ。 本手法は, 処理効果推定と不均衡の両面で, 半合成高次元データセットにおける他のマッチング手法と競合することを示す。

Traditional methods for matching in causal inference are impractical for high-dimensional datasets. They suffer from the curse of dimensionality: exact matching and coarsened exact matching find exponentially fewer matches as the input dimension grows, and propensity score matching may match highly unrelated units together. To overcome this problem, we develop theoretical results which motivate the use of neural networks to obtain non-trivial, multivariate balancing scores of a chosen level of coarseness, in contrast to the classical, scalar propensity score. We leverage these balancing scores to perform matching for high-dimensional causal inference and call this procedure neural score matching. We show that our method is competitive against other matching approaches on semi-synthetic high-dimensional datasets, both in terms of treatment effect estimation and reducing imbalance.
翻訳日:2022-03-02 15:52:10 公開日:2022-03-01
# 平面地上車両の高効率グローバル・オプティマイズレス視覚オドメトリ

Efficient Globally-Optimal Correspondence-Less Visual Odometry for Planar Ground Vehicles ( http://arxiv.org/abs/2203.00291v1 )

ライセンス: Link先を確認
Ling Gao, Junyan Su, Jiadi Cui, Xiangchen Zeng, Xin Peng, Laurent Kneip(参考訳) 平面地上車両の運動はしばしばホロノミックではなく、結果として2機のdofアッカーマン・ステアリング・モデルによってモデル化される。 我々は、地上面に対して正面平行運動を行う下向きカメラを用いて、そのような動きを推定できる可能性を分析する。 これにより、運動推定は2パラメータ平面ホモグラフィーのみを識別する単純な画像登録問題に変換される。 しかし、この設定から生じる1つの困難は、地上面の特徴が不連続であり、従って連続するビューの一致が難しいことである。 我々は、平面に基づくアッカーマン運動推定に最初のグローバル最適対応レス解を導入することで、この困難に遭遇した。 解決策は分岐とバウンドの最適化技術に依存している。 低次元のパラメトリション、厳密な境界の導出、効率的な実装を通じて、この手法が最終的に正確なリアルタイム動作推定にどう対応できるかを実証する。 我々は、その大域的最適性の性質を証明し、局所的に一定の回転中心を仮定する影響を分析する。 実データを用いた結果から,従来の対応型仮説・テストスキームよりも大きなアドバンテージが得られた。

The motion of planar ground vehicles is often non-holonomic, and as a result may be modelled by the 2 DoF Ackermann steering model. We analyse the feasibility of estimating such motion with a downward facing camera that exerts fronto-parallel motion with respect to the ground plane. This turns the motion estimation into a simple image registration problem in which we only have to identify a 2-parameter planar homography. However, one difficulty that arises from this setup is that ground-plane features are indistinctive and thus hard to match between successive views. We encountered this difficulty by introducing the first globally-optimal, correspondence-less solution to plane-based Ackermann motion estimation. The solution relies on the branch-and-bound optimisation technique. Through the low-dimensional parametrisation, a derivation of tight bounds, and an efficient implementation, we demonstrate how this technique is eventually amenable to accurate real-time motion estimation. We prove its property of global optimality and analyse the impact of assuming a locally constant centre of rotation. Our results on real data finally demonstrate a significant advantage over the more traditional, correspondence-based hypothesise-and-test schemes.
翻訳日:2022-03-02 15:50:31 公開日:2022-03-01
# FP-Loc:軽量・ドリフトフリーのフロアプラン支援LiDAR

FP-Loc: Lightweight and Drift-free Floor Plan-assisted LiDAR Localization ( http://arxiv.org/abs/2203.00292v1 )

ライセンス: Link先を確認
Ling Gao, Laurent Kneip(参考訳) フロアプランに基づくフル6自由度LiDARローカライゼーションのための新しいフレームワークを提案する。 提案手法は,壁や柱などの垂直構造要素のセグメンテーションをサポートし,ポーズの一部を解決するロバストな天井と地上面の検出に依存している。 我々のコアコントリビューションは、フロアプランから最も近い垂直構造要素の効率的な検索のための、新しい近接データ構造である。 登録は、ペアワイズ正則化ウィンドウドポーズグラフ最適化として実現される。 複数の場面で高効率で高精度でドリフトフリーな長期局在を示す。

We present a novel framework for floor plan-based, full six degree-of-freedom LiDAR localization. Our approach relies on robust ceiling and ground plane detection, which solves part of the pose and supports the segmentation of vertical structure elements such as walls and pillars. Our core contribution is a novel nearest neighbour data structure for an efficient look-up of nearest vertical structure elements from the floor plan. The registration is realized as a pair-wise regularized windowed pose graph optimization. Highly efficient, accurate and drift-free long-term localization is demonstrated on multiple scenes.
翻訳日:2022-03-02 15:50:10 公開日:2022-03-01
# join : 光学ディスク/カップセグメンテーションとfovea検出のための事前指導型マルチタスク学習

JOINED : Prior Guided Multi-task Learning for Joint Optic Disc/Cup Segmentation and Fovea Detection ( http://arxiv.org/abs/2203.00461v1 )

ライセンス: Link先を確認
Huaqing He, Li Lin, Zhiyuan Cai, Xiaoying Tang(参考訳) 眼底撮影は、加齢に伴う黄斑変性、緑内障、糖尿病網膜症などの様々な網膜変性疾患の存在と重症度を文書化するために日常的に用いられており、fovea、 optic disc(od)、 optic cup(oc)が重要な解剖学的ランドマークとなっている。 これらの解剖学的ランドマークの同定は、非常に臨床的に重要である。 しかし、網膜変性中の病変、drusen、その他の異常の存在は、自動的にランドマークの検出とセグメンテーションを複雑化する。 現存するほとんどの研究は、それぞれのランドマークを単一のタスクとして扱い、通常、臨床上の事前情報を使用しない。 本稿では,ジョイントOD/OCセグメンテーションと卵胞検出のための先行指導型マルチタスク学習のためのJOINEDという新しい手法を提案する。 各画像画素から興味のあるランドマークまでの距離情報を有効に活用するために、セグメンテーションブランチと検出ブランチに加えて、距離予測のための補助ブランチを構築する。 提案する結合パイプラインは粗いステージと細かいステージで構成される。 粗い段階では, OD/OC粗いセグメンテーションと熱マップの局所化をジョイントセグメンテーションと検出モジュールを介して行う。 その後、粗い段階で得られた細かな処理と予測を、より優れた性能とより高速な収束のための追加情報として収集する。 GAMMA, PALM, およびREFUGEデータセットに対して, 提案したJOINEDは, 既存の最先端のアプローチよりも優れていることを示す。 さらに、miccai2021ワークショップomia8が主催するgammaチャレンジでは、od/ocセグメンテーションとfovea検出タスクで5位にランクインした。

Fundus photography has been routinely used to document the presence and severity of various retinal degenerative diseases such as age-related macula degeneration, glaucoma, and diabetic retinopathy, for which the fovea, optic disc (OD), and optic cup (OC) are important anatomical landmarks. Identification of those anatomical landmarks is of great clinical importance. However, the presence of lesions, drusen, and other abnormalities during retinal degeneration severely complicates automatic landmark detection and segmentation. Most existing works treat the identification of each landmark as a single task and typically do not make use of any clinical prior information. In this paper, we present a novel method, named JOINED, for prior guided multi-task learning for joint OD/OC segmentation and fovea detection. An auxiliary branch for distance prediction, in addition to a segmentation branch and a detection branch, is constructed to effectively utilize the distance information from each image pixel to landmarks of interest. Our proposed JOINED pipeline consists of a coarse stage and a fine stage. At the coarse stage, we obtain the OD/OC coarse segmentation and the heatmap localization of fovea through a joint segmentation and detection module. Afterwards, we crop the regions of interest for subsequent fine processing and use predictions obtained at the coarse stage as additional information for better performance and faster convergence. Experimental results reveal that our proposed JOINED outperforms existing state-of-the-art approaches on the publicly-available GAMMA, PALM, and REFUGE datasets of fundus images. Furthermore, JOINED ranked the 5th on the OD/OC segmentation and fovea detection tasks in the GAMMA challenge hosted by the MICCAI2021 workshop OMIA8.
翻訳日:2022-03-02 15:50:02 公開日:2022-03-01
# Descriptellation:SLA Mの深層学習コンステレーション記述子

Descriptellation: Deep Learned Constellation Descriptors for SLAM ( http://arxiv.org/abs/2203.00567v1 )

ライセンス: Link先を確認
Chunwei Xing, Xinyu Sun, Andrei Cramariuc, Samuel Gull, Jen Jen Chung, Cesar Cadena, Roland Siegwart, Florian Tschopp(参考訳) 現在のグローバルローカライゼーション記述子(SLAM)は、大きな視点や外観の変化の下で失敗することが多い。 ディスクリプタにセマンティクスオブジェクトのトポロジー情報を追加することは、問題を緩和する。 しかし,手作りのトポロジカルディスクリプタは限られた情報を抽出し,環境騒音や劇的な視点の変化,物体の閉塞や誤検出に対して頑健ではない。 この問題を解決するために,意味のある対象から星座を構成することで学習に基づくアプローチを定式化し,Deep Graph Convolution Networksを用いて星座表現を記述子にマッピングする。 パリ=ル=リールデータセットとIQmulusデータセットに対するDeep Learned Constellation Descriptor(Descripte llation)の有効性を示す。 記述はランダムに生成されたシミュレーションデータセットで訓練されるが、実世界のデータセット上で優れた一般化能力を示す。 Descriptellationは、グローバルなローカライゼーションのためにPointNetと手作りの星座ディスクリプタより優れ、様々な種類のノイズに対して堅牢性を示す。

Current global localization descriptors in Simultaneous Localization and Mapping (SLAM) often fail under vast viewpoint or appearance changes. Adding topological information of semantic objects into the descriptors ameliorates the problem. However, hand-crafted topological descriptors extract limited information and they are not robust to environmental noise, drastic perspective changes, or object occlusion or misdetections. To solve this problem, we formulate a learning-based approach by constructing constellations from semantically meaningful objects and use Deep Graph Convolution Networks to map the constellation representation to a descriptor. We demonstrate the effectiveness of our Deep Learned Constellation Descriptor (Descriptellation) on the Paris-Rue-Lille and IQmulus datasets. Although Descriptellation is trained on randomly generated simulation datasets, it shows good generalization abilities on real-world datasets. Descriptellation outperforms the PointNet and handcrafted constellation descriptors for global localization, and shows robustness against different types of noise.
翻訳日:2022-03-02 15:49:32 公開日:2022-03-01
# NL-Ridge アプローチによる非教師なし非局所的画像復調手法の統一的視点に向けて

Towards a unified view of unsupervised non-local methods for image denoising: the NL-Ridge approach ( http://arxiv.org/abs/2203.00570v1 )

ライセンス: Link先を確認
S\'ebastien Herbreteau and Charles Kervrann(参考訳) 本研究では,ノイズ画像パッチを線形に結合する非教師なし非局所手法の統一ビューを提案する。 異なるモデリングおよび推定フレームワークで確立された最良の方法は、2段階のアルゴリズムである。 第1段階としてsteinのunbiased risk estimation(sure)と,ディープラーニング理論から借用された"internal adapt"を活用することで,nl-ridgeアプローチにより,画像分割のためのパッチアグリゲーション手法の再構成が可能となる。 第2のステップでは、閉形式集約重みは多変量リッジ回帰によって計算される。 人工的なノイズ画像実験により、nl-ridgeは概念的にシンプルながら、bm3dやnl-bayesのような最先端の教師なしデノイザーや最近の教師なし深層学習方法よりも優れていることが示されている。

We propose a unified view of unsupervised non-local methods for image denoising that linearily combine noisy image patches. The best methods, established in different modeling and estimation frameworks, are two-step algorithms. Leveraging Stein's unbiased risk estimate (SURE) for the first step and the "internal adaptation", a concept borrowed from deep learning theory, for the second one, we show that our NL-Ridge approach enables to reconcile several patch aggregation methods for image denoising. In the second step, our closed-form aggregation weights are computed through multivariate Ridge regressions. Experiments on artificially noisy images demonstrate that NL-Ridge may outperform well established state-of-the-art unsupervised denoisers such as BM3D and NL-Bayes, as well as recent unsupervised deep learning methods, while being simpler conceptually.
翻訳日:2022-03-02 15:49:15 公開日:2022-03-01
# 自己監督型視覚変換器は病理学で視覚概念を学ぶ

Self-Supervised Vision Transformers Learn Visual Concepts in Histopathology ( http://arxiv.org/abs/2203.00585v1 )

ライセンス: Link先を確認
Richard J. Chen, Rahul G. Krishnan(参考訳) 組織表現型は、癌病理における腫瘍免疫マイクロ環境における病理組織学的バイオマーカーの客観的特徴を学ぶための基本的な課題である。 しかし、全スライディングイメージング(WSI)は複雑なコンピュータビジョンである。 1)WSIは、データキュレーションにおける大規模ピクセルレベルの取り組みを妨げ、膨大な画像解像度を有する。 2) 形態学的表現型の多様性は, 組織ラベリングにおける生体内および生体内変動をもたらす。 これらの限界に対処するために, 画像エンコーダ(画像ネットからの転送学習, 自己教師付き事前学習)を用いて病理から形態的特徴を抽出する試みが提案されているが, 広く検証されていない。 本研究では,様々な弱教師付きおよびパッチレベルのタスクを検証しながら,様々な自己教師付きモデルを訓練することにより,病理学における良好な表現の探索を行う。 私たちの重要な発見は、ディノベースの知識蒸留を用いた視覚トランスフォーマーが、異なる注意頭が異なる形態的表現型を学ぶヒストロジー画像において、データ効率と解釈可能な特徴を学習できることを発見したことです。 評価コードと事前トレーニングされたウェイトは、https://github.com/R icharizardd/Self-Sup ervised-ViT-Pathで公開しています。

Tissue phenotyping is a fundamental task in learning objective characterizations of histopathologic biomarkers within the tumor-immune microenvironment in cancer pathology. However, whole-slide imaging (WSI) is a complex computer vision in which: 1) WSIs have enormous image resolutions with precludes large-scale pixel-level efforts in data curation, and 2) diversity of morphological phenotypes results in inter- and intra-observer variability in tissue labeling. To address these limitations, current efforts have proposed using pretrained image encoders (transfer learning from ImageNet, self-supervised pretraining) in extracting morphological features from pathology, but have not been extensively validated. In this work, we conduct a search for good representations in pathology by training a variety of self-supervised models with validation on a variety of weakly-supervised and patch-level tasks. Our key finding is in discovering that Vision Transformers using DINO-based knowledge distillation are able to learn data-efficient and interpretable features in histology images wherein the different attention heads learn distinct morphological phenotypes. We make evaluation code and pretrained weights publicly-available at: https://github.com/R icharizardd/Self-Sup ervised-ViT-Path.
翻訳日:2022-03-02 15:48:56 公開日:2022-03-01
# 完全rgb just noticeable difference (jnd) モデリング

Full RGB Just Noticeable Difference (JND) Modelling ( http://arxiv.org/abs/2203.00629v1 )

ライセンス: Link先を確認
Jian Jin, Dong Yu, Weisi Lin, Lili Meng, Hao Wang, Huaxiang Zhang(参考訳) Just Noticeable difference (JND) はマルチメディア信号処理、特に最新のビジュアルデータ処理に多くの応用がある。 これは一般的に、何十年も研究されてきた人間の視点による最小限の視覚的内容の変化と定義されている。 しかし、既存の手法のほとんどはJNDモデリングの輝度成分にのみ焦点をあてており、単に色成分を輝度のスケールバージョンと見なすだけである。 本稿では、RGB-JNDと呼ばれる全RGBチャネルの特性を考慮に入れ、JNDを生成するJNDモデルを提案する。 この目的のために、RGB-JND-NETが提案され、完全なRGBチャネルの視覚コンテンツを使用してJND生成のための特徴を抽出する。 JND生成を監督するために、適応画像品質評価結合(AIC)を開発する。 さらに、RDB-JND-NETは、視覚的注意とJNDの関係を自動的にマイニングすることで、視覚的注意を考慮に入れている。 我々の知る限りでは、フルカラー空間に対するJNDモデリングの注意深い研究はこれが初めてである。 実験結果から,RGB-JND-NET モデルは最先端の JND モデルより優れていることが示された。 また、赤と青のチャンネルのjndは、赤と青のチャンネルにおいて、赤と青のチャンネルに比べて人間の視覚系が緑と青のチャンネルに対してより敏感であるという事実と相まって、赤と青のチャンネルでより多くの変更が許容できることを示す実験結果に従って、緑と青のチャンネルのjndよりも大きい。

Just Noticeable Difference (JND) has many applications in multimedia signal processing, especially for visual data processing up to date. It's generally defined as the minimum visual content changes that the human can perspective, which has been studied for decades. However, most of the existing methods only focus on the luminance component of JND modelling and simply regard chrominance components as scaled versions of luminance. In this paper, we propose a JND model to generate the JND by taking the characteristics of full RGB channels into account, termed as the RGB-JND. To this end, an RGB-JND-NET is proposed, where the visual content in full RGB channels is used to extract features for JND generation. To supervise the JND generation, an adaptive image quality assessment combination (AIC) is developed. Besides, the RDB-JND-NET also takes the visual attention into account by automatically mining the underlying relationship between visual attention and the JND, which is further used to constrain the JND spatial distribution. To the best of our knowledge, this is the first work on careful investigation of JND modelling for full-color space. Experimental results demonstrate that the RGB-JND-NET model outperforms the relevant state-of-the-art JND models. Besides, the JND of the red and blue channels are larger than that of the green one according to the experimental results of the proposed model, which demonstrates that more changes can be tolerated in the red and blue channels, in line with the well-known fact that the human visual system is more sensitive to the green channel in comparison with the red and blue ones.
翻訳日:2022-03-02 15:48:37 公開日:2022-03-01
# 時間変化グラフ信号再構成によるセンサデータの復元

Recovery of Missing Sensor Data by Reconstructing Time-varying Graph Signals ( http://arxiv.org/abs/2203.00418v1 )

ライセンス: Link先を確認
Anindya Mondal, Mayukhmali Das, Aditi Chatterjee, Palaniandavar Venkateswaran(参考訳) ワイヤレスセンサーネットワークは、サイズが小さく、低コストで、展開が容易であるため、現在最も有望な技術である。 無線センサの数が増加するにつれて、データの欠落の可能性も高まる。 この不完全なデータは、意思決定に使用すると悲惨な結果をもたらす可能性がある。 この問題を扱う文献が豊富にある。 しかし、ほとんどのアプローチでは、大量のデータが失われると性能が低下する。 本稿では, 無線センサネットワークにおけるソボレフ再構成アルゴリズムについて, グラフ信号処理の新たな分野に着想を得た。 いくつかの公開データセットにおける実験的比較は、アルゴリズムが複数の最先端技術を超えることを54%のマージンで示している。 さらに, このアルゴリズムは, 膨大なデータ損失時においても, 欠落データを一貫して検索することを示す。

Wireless sensor networks are among the most promising technologies of the current era because of their small size, lower cost, and ease of deployment. With the increasing number of wireless sensors, the probability of generating missing data also rises. This incomplete data could lead to disastrous consequences if used for decision-making. There is rich literature dealing with this problem. However, most approaches show performance degradation when a sizable amount of data is lost. Inspired by the emerging field of graph signal processing, this paper performs a new study of a Sobolev reconstruction algorithm in wireless sensor networks. Experimental comparisons on several publicly available datasets demonstrate that the algorithm surpasses multiple state-of-the-art techniques by a maximum margin of 54%. We further show that this algorithm consistently retrieves the missing data even during massive data loss situations.
翻訳日:2022-03-02 15:47:03 公開日:2022-03-01
# 金融機械学習におけるスーパーコンピュータの利用

Making use of supercomputers in financial machine learning ( http://arxiv.org/abs/2203.00427v1 )

ライセンス: Link先を確認
Philippe Cotte, Pierre Lagier, Vincent Margot, Christophe Geissler(参考訳) この記事は、FujitsuとAdvestisのコラボレーションの結果です。 このコラボレーションの目的は、Fungakuの高性能コンピュータに投資勧告を生み出す体系的な探索に基づくアルゴリズムをリファクタリングし、実行することであり、非常に多くのコアがクラウドマシンと比較してデータをより深く探索できるかどうかを確認し、より良い予測をもたらすことが期待できる。 その結果,探索ルールの数の増加は最終ルールセットの予測性能の増大をもたらすことがわかった。 また,本研究の特定のケースでは,40コア以上のコアを用いた場合,計算時間が大幅に向上しないことがわかった。 しかし、この制限の起源は、探索空間をプルーンするために用いられるしきい値に基づく探索ヒューリスティックによって説明される。 制限しきい値の少ない類似のデータセットの場合、実際に使用されるコアの数ははるかに多くなり、並列化がより大きな効果をもたらすという証拠があります。

This article is the result of a collaboration between Fujitsu and Advestis. This collaboration aims at refactoring and running an algorithm based on systematic exploration producing investment recommendations on a high-performance computer of the Fugaku, to see whether a very high number of cores could allow for a deeper exploration of the data compared to a cloud machine, hopefully resulting in better predictions. We found that an increase in the number of explored rules results in a net increase in the predictive performance of the final ruleset. Also, in the particular case of this study, we found that using more than around 40 cores does not bring a significant computation time gain. However, the origin of this limitation is explained by a threshold-based search heuristic used to prune the search space. We have evidence that for similar data sets with less restrictive thresholds, the number of cores actually used could very well be much higher, allowing parallelization to have a much greater effect.
翻訳日:2022-03-02 15:46:50 公開日:2022-03-01
# より強力なグラフニューラルネットワークのための等変および安定位置符号化

Equivariant and Stable Positional Encoding for More Powerful Graph Neural Networks ( http://arxiv.org/abs/2203.00199v1 )

ライセンス: Link先を確認
Haorui Wang, Haoteng Yin, Muhan Zhang, Pan Li(参考訳) グラフニューラルネットワーク(GNN)は多くのグラフベースの学習タスクにおいて大きな利点を示しているが、リンク/モチーフ予測などのノードセットに基づいてタスクを正確に予測することができないことが多い。 近年,ランダムなノード特徴やノード距離特徴を用いてこの問題に対処する研究が多数提案されている。 しかし、収束の遅さ、不正確な予測、あるいは高い複雑さに苦しむ。 本研究では,Laplacian EigenmapやDeepwalkなど,位置符号化(PE)技術によって与えられるノードの位置特徴を利用できるGNNを再検討する。 pe を持つ gnn は、しばしば、(インダクティブな)グラフや安定グラフに一般化できないため、批判される。 本稿では、これらの問題を原理的に研究し、厳密な数学的解析を伴うGNN層のクラスである証明可能な解を提案する。 PEGは独自のチャネルを使用して、元のノード機能と位置機能を更新する。 PEGは、元のノードの特徴である置換同値 w.r.t と回転同値 w.r.t を同時に課す。 8つの実世界のネットワーク上でのリンク予測実験は、一般化とスケーラビリティにおけるPEGの利点を示している。

Graph neural networks (GNN) have shown great advantages in many graph-based learning tasks but often fail to predict accurately for a task-based on sets of nodes such as link/motif prediction and so on. Many works have recently proposed to address this problem by using random node features or node distance features. However, they suffer from either slow convergence, inaccurate prediction, or high complexity. In this work, we revisit GNNs that allow using positional features of nodes given by positional encoding (PE) techniques such as Laplacian Eigenmap, Deepwalk, etc. GNNs with PE often get criticized because they are not generalizable to unseen graphs (inductive) or stable. Here, we study these issues in a principled way and propose a provable solution, a class of GNN layers termed PEG with rigorous mathematical analysis. PEG uses separate channels to update the original node features and positional features. PEG imposes permutation equivariance w.r.t. the original node features and rotation equivariance w.r.t. the positional features simultaneously. Extensive link prediction experiments over 8 real-world networks demonstrate the advantages of PEG in generalization and scalability.
翻訳日:2022-03-02 15:43:17 公開日:2022-03-01
# 機械学習モデルにおける脆弱性群同定のための説明可能性

Explainability for identification of vulnerable groups in machine learning models ( http://arxiv.org/abs/2203.00317v1 )

ライセンス: Link先を確認
Inga Str\"umke, and Marija Slavkovik(参考訳) 予測モデルが脆弱な個人やグループを特定する場合、そのモデルの使用は倫理的な問題になる可能性がある。 しかし、これはモデルがやっていることですか? フィールドとしての機械学習の公正性は、情報処理と機械学習の手法による個人とグループの公正な扱いに焦点を当てている。 保護された集団の差別緩和にかなりの注意が払われているが、脆弱な集団は同じ注意を払われていない。 常に脆弱であると見なされる保護されたグループとは異なり、脆弱なグループは、ある文脈では弱いが別の状況では弱い。 これは、機械学習下で脆弱な個人やグループを保護する方法と時間に関する新たな課題を提起する。 説明可能な人工知能(XAI)の手法は、より文脈的な問題を考慮し、「なぜこの決定が下されたのか」という問いに答えることに関心がある。 既存の公平性や既存の説明可能性メソッドでは、予測モデルが脆弱性を特定するかどうかを確認できません。 そこで本研究では,この問題について議論し,予測モデルの解析手法を提案する。

If a prediction model identifies vulnerable individuals or groups, the use of that model may become an ethical issue. But can we know that this is what a model does? Machine learning fairness as a field is focused on the just treatment of individuals and groups under information processing with machine learning methods. While considerable attention has been given to mitigating discrimination of protected groups, vulnerable groups have not received the same attention. Unlike protected groups, which can be regarded as always vulnerable, a vulnerable group may be vulnerable in one context but not in another. This raises new challenges on how and when to protect vulnerable individuals and groups under machine learning. Methods from explainable artificial intelligence (XAI), in contrast, do consider more contextual issues and are concerned with answering the question "why was this decision made?". Neither existing fairness nor existing explainability methods allow us to ascertain if a prediction model identifies vulnerability. We discuss this problem and propose approaches for analysing prediction models in this respect.
翻訳日:2022-03-02 15:42:57 公開日:2022-03-01
# インパルス雑音下での信号推定のためのグラフ正規化LMPアルゴリズム

Graph Normalized-LMP Algorithm for Signal Estimation Under Impulsive Noise ( http://arxiv.org/abs/2203.00320v1 )

ライセンス: Link先を確認
Yi Yan, Radwa Adel, Ercan Engin Kuruoglu(参考訳) 本稿では,帯域制限フィルタやノードサンプリングを含むGSP技術を用いたグラフ信号処理(GSP)のための適応グラフ正規化最小pthパワー(GNLMP)アルゴリズムを導入し,インパルス雑音下でのサンプルグラフ信号の推定を行う。 適応型GSP Least Mean Squares (GLMS) アルゴリズムや正規化GLMS (GNLMS) アルゴリズムなど、最小二乗法に基づくアルゴリズムとは異なり、GNLMP アルゴリズムはガウス雑音によって重みのある特徴を持つグラフ信号を再構成することができる。 最近導入された適応型GSP最小pthパワー(GLMP)アルゴリズムと比較して、GNLMPアルゴリズムは安定グラフ信号に収束する反復回数を減らす。 GNLMPアルゴリズムの収束条件が導出され、GNLMPアルゴリズムが多次元の時間変化グラフ信号を複数の特徴で処理する能力も示される。 安定状態および時間変化グラフ信号の推定におけるGNLMPアルゴリズムの性能は,GLMPよりも高速で,GLMSやGNLMSと比較して頑健であることを示す。

In this paper, we introduce an adaptive graph normalized least mean pth power (GNLMP) algorithm for graph signal processing (GSP) that utilizes GSP techniques, including bandlimited filtering and node sampling, to estimate sampled graph signals under impulsive noise. Different from least-squares-based algorithms, such as the adaptive GSP Least Mean Squares (GLMS) algorithm and the normalized GLMS (GNLMS) algorithm, the GNLMP algorithm has the ability to reconstruct a graph signal that is corrupted by non-Gaussian noise with heavy-tailed characteristics. Compared to the recently introduced adaptive GSP least mean pth power (GLMP) algorithm, the GNLMP algorithm reduces the number of iterations to converge to a steady graph signal. The convergence condition of the GNLMP algorithm is derived, and the ability of the GNLMP algorithm to process multidimensional time-varying graph signals with multiple features is demonstrated as well. Simulations show the performance of the GNLMP algorithm in estimating steady-state and time-varying graph signals is faster than GLMP and more robust in comparison to GLMS and GNLMS.
翻訳日:2022-03-02 15:42:42 公開日:2022-03-01
# 線形モデル木を用いた深層強化学習ドッキングエージェントのユーザ適応可視化による説明

Explaining a Deep Reinforcement Learning Docking Agent Using Linear Model Trees with User Adapted Visualization ( http://arxiv.org/abs/2203.00368v1 )

ライセンス: Link先を確認
Vilde B. Gj{\ae}rum, Inga Str\"umke, Ole Andreas Alsos, Anastasios M. Lekkas(参考訳) ディープニューラルネットワーク(DNN)は海洋ロボット分野において有用であるが、その有用性はブラックボックスの性質によって制限される。 説明可能な人工知能手法は、このようなブラックボックスがどのように意思決定を行うかを理解しようとする。 本研究では, 線形モデル木 (LMT) を用いて, シミュレーション環境下での自律表面容器 (ASV) を制御するDNNを近似し, DNNと並列に実行し, リアルタイムで特徴属性の形で説明を行う。 モデルがどの程度よく理解できるかは、説明そのものだけでなく、その説明の受信者にどのように提示され、適応されるかにも依存します。 異なるエンドユーザは、異なるタイプの説明と異なる表現の両方を必要とするかもしれない。 The main contributions of this work are (1) significantly improving both the accuracy and the build time of a greedy approach for building LMTs by introducing ordering of features in the splitting of the tree, (2) giving an overview of the characteristics of the seafarer/operator and the developer as two different end-users of the agent and receiver of the explanations, and (3) suggesting a visualization of the docking agent, the environment, and the feature attributions given by the LMT for when the developer is the end-user of the system, and another visualization for when the seafarer or operator is the end-user, based on their different characteristics.

Deep neural networks (DNNs) can be useful within the marine robotics field, but their utility value is restricted by their black-box nature. Explainable artificial intelligence methods attempt to understand how such black-boxes make their decisions. In this work, linear model trees (LMTs) are used to approximate the DNN controlling an autonomous surface vessel (ASV) in a simulated environment and then run in parallel with the DNN to give explanations in the form of feature attributions in real-time. How well a model can be understood depends not only on the explanation itself, but also on how well it is presented and adapted to the receiver of said explanation. Different end-users may need both different types of explanations, as well as different representations of these. The main contributions of this work are (1) significantly improving both the accuracy and the build time of a greedy approach for building LMTs by introducing ordering of features in the splitting of the tree, (2) giving an overview of the characteristics of the seafarer/operator and the developer as two different end-users of the agent and receiver of the explanations, and (3) suggesting a visualization of the docking agent, the environment, and the feature attributions given by the LMT for when the developer is the end-user of the system, and another visualization for when the seafarer or operator is the end-user, based on their different characteristics.
翻訳日:2022-03-02 15:42:21 公開日:2022-03-01
# 線形モデル木を用いた深層強化学習ドッキングエージェントの近似

Approximating a deep reinforcement learning docking agent using linear model trees ( http://arxiv.org/abs/2203.00369v1 )

ライセンス: Link先を確認
Vilde B. Gj{\ae}rum, Ella-Lovise H. R{\o}rvik, Anastasios M. Lekkas(参考訳) 深層強化学習はロボティクスに多くの注目すべき結果をもたらした。 しかし、ディープニューラルネットワーク(DNN)は直感的ではないため、彼らの予測を理解することは困難であり、経済的、安全性、保証上の理由から、現実世界のアプリケーションに対するポテンシャルを強く制限する。 この問題を解決するために、SHAPやLIMEなど、いくつかの説明可能なAIメソッドが提示されているが、これらは、リアルタイムロボットアプリケーションでの使用や、ローカルな説明のみを提供するにはコストがかかりすぎる。 本稿では,ドッキング操作を行う5つの制御入力を有する自律型表面車両に対して,dnnポリシを近似するリニアモデル木(lmt)を,当初はppo(proximal policy optimization)で訓練した。 提案手法の主な利点は次の2つである。 a) lmtは透過的であり、出力(私たちの場合、制御アクション)と入力特徴の特定の値を直接関連付けることができる。 b)LMTは計算効率が高く、リアルタイムで情報を提供することができる。 シミュレーションでは、不透明なDNNポリシーが車両を制御し、LMTは並列に走行し、特徴属性の形で説明を提供する。 以上の結果から,LMTは自律船のディジタル保証フレームワークの有用な構成要素である可能性が示唆された。

Deep reinforcement learning has led to numerous notable results in robotics. However, deep neural networks (DNNs) are unintuitive, which makes it difficult to understand their predictions and strongly limits their potential for real-world applications due to economic, safety, and assurance reasons. To remedy this problem, a number of explainable AI methods have been presented, such as SHAP and LIME, but these can be either be too costly to be used in real-time robotic applications or provide only local explanations. In this paper, the main contribution is the use of a linear model tree (LMT) to approximate a DNN policy, originally trained via proximal policy optimization(PPO), for an autonomous surface vehicle with five control inputs performing a docking operation. The two main benefits of the proposed approach are: a) LMTs are transparent which makes it possible to associate directly the outputs (control actions, in our case) with specific values of the input features, b) LMTs are computationally efficient and can provide information in real-time. In our simulations, the opaque DNN policy controls the vehicle and the LMT runs in parallel to provide explanations in the form of feature attributions. Our results indicate that LMTs can be a useful component within digital assurance frameworks for autonomous ships.
翻訳日:2022-03-02 15:41:59 公開日:2022-03-01
# 対象中心の把握嗜好に関するデータ効率学習

Data-efficient learning of object-centric grasp preferences ( http://arxiv.org/abs/2203.00384v1 )

ライセンス: Link先を確認
Yoann Fleytoux and Anji Ma and Serena Ivaldi and Jean-Baptiste Mouret(参考訳) ディープラーニングのおかげで,ここ数年で大きな進歩を遂げました。 しかし、rgb-d画像だけを見るだけでは把握できない物体が多数存在し、物理的理由(例えば、不均一な質量分布を持つハンマー)やタスク制約(例えば、損なうべきではない食品)のためかもしれない。 このような状況では、専門家の好みを考慮する必要がある。 本稿では、データ効率のよい把握パイプライン(Latent Space GP Selector -- LGPS)を導入し、オブジェクトごとのラベル数個(典型的には1対4)で把握の好みを学習し、このオブジェクトの新しいビューに一般化する。 私たちのパイプラインは、最先端の把持ジェネレータ(例:dex-net)で生成されたデータセットを使って、潜在的な把持空間を学習することに基づいています。 この潜在空間はガウス過程分類器の低次元入力として使われ、生成器によって提案されたものの中から望ましい把握を選択する。 その結果,本手法はコーネルデータセット上ではgr-convnetとgg-cnnのどちらよりも優れており,特に少数のラベルしか使われていない場合は,80のラベルだけで80% (885シーン,244オブジェクト) を正しく選択できることがわかった。 結果はデータセット(91シーン、28オブジェクト)で似ています。

Grasping made impressive progress during the last few years thanks to deep learning. However, there are many objects for which it is not possible to choose a grasp by only looking at an RGB-D image, might it be for physical reasons (e.g., a hammer with uneven mass distribution) or task constraints (e.g., food that should not be spoiled). In such situations, the preferences of experts need to be taken into account. In this paper, we introduce a data-efficient grasping pipeline (Latent Space GP Selector -- LGPS) that learns grasp preferences with only a few labels per object (typically 1 to 4) and generalizes to new views of this object. Our pipeline is based on learning a latent space of grasps with a dataset generated with any state-of-the-art grasp generator (e.g., Dex-Net). This latent space is then used as a low-dimensional input for a Gaussian process classifier that selects the preferred grasp among those proposed by the generator. The results show that our method outperforms both GR-ConvNet and GG-CNN (two state-of-the-art methods that are also based on labeled grasps) on the Cornell dataset, especially when only a few labels are used: only 80 labels are enough to correctly choose 80% of the grasps (885 scenes, 244 objects). Results are similar on our dataset (91 scenes, 28 objects).
翻訳日:2022-03-02 15:41:38 公開日:2022-03-01
# 人間中心機械学習の実践に向けて

Towards Practices for Human-Centered Machine Learning ( http://arxiv.org/abs/2203.00432v1 )

ライセンス: Link先を確認
Stevie Chancellor(参考訳) Human-centered machine learning(HCML)とは、人間の問題に適用される機械学習を指す用語である。 このアイデアは注目に値するものであり、学術的な興奮を生み出すが、研究者や実践者はコンピュータ科学におけるHCMLを明確に定義し実装するのに苦労してきた。 本稿では,人間中心型機械学習の実践を提案する。機械学習の技術的進歩と同じくらい,社会的,文化的,倫理的意味の研究と設計が重要である。 これらの実践は、HCI、AI、社会技術分野の学際的な視点と、この新しい領域に関する継続的な議論の間に橋渡しされる。 5つのプラクティスは、HCMLが問題に対する適切な解決策空間であることを保証すること、問題ステートメントを位置ステートメントとして概念化すること、対話モデルを超えて人間を定義すること、ドメインコントリビューションの合法化、社会技術的失敗を予想することである。 結論として、これらのプラクティスが研究や実践においてどのように実施されるかを提案します。

"Human-centered machine learning" (HCML) is a term that describes machine learning that applies to human-focused problems. Although this idea is noteworthy and generates scholarly excitement, scholars and practitioners have struggled to clearly define and implement HCML in computer science. This article proposes practices for human-centered machine learning, an area where studying and designing for social, cultural, and ethical implications are just as important as technical advances in ML. These practices bridge between interdisciplinary perspectives of HCI, AI, and sociotechnical fields, as well as ongoing discourse on this new area. The five practices include ensuring HCML is the appropriate solution space for a problem; conceptualizing problem statements as position statements; moving beyond interaction models to define the human; legitimizing domain contributions; and anticipating sociotechnical failure. I conclude by suggesting how these practices might be implemented in research and practice.
翻訳日:2022-03-02 15:39:29 公開日:2022-03-01
# 生成分子設計モデルの多目的潜在空間最適化

Multi-Objective Latent Space Optimization of Generative Molecular Design Models ( http://arxiv.org/abs/2203.00526v1 )

ライセンス: Link先を確認
A N M Nafiz Abeer, Nathan Urban, M Ryan Weil, Francis J. Alexander, Byung-Jun Yoon(参考訳) 可変オートエンコーダ(VAE)のような生成モデルに基づく分子設計は、高次元の分子空間を探索して所望の特性を持つ分子を同定する効率性から、近年人気が高まっている。 初期モデルの有効性はトレーニングデータに強く依存するが、改良された特性を持つ新規分子を提案するモデルのサンプリング効率は、潜在空間最適化によってさらに向上することができる。 本稿では、生成分子設計(GMD)の性能を大幅に向上させる多目的潜在空間最適化(LSO)手法を提案する。 提案手法では, トレーニングデータの各分子の重み付けがPareto効率によって決定される反復重み付け再学習手法を採用する。 複数分子特性を共同最適化するための多目的GMD LSO法により, GMDの性能を大幅に向上できることを示す。

Molecular design based on generative models, such as variational autoencoders (VAEs), has become increasingly popular in recent years due to its efficiency for exploring high-dimensional molecular space to identify molecules with desired properties. While the efficacy of the initial model strongly depends on the training data, the sampling efficiency of the model for suggesting novel molecules with enhanced properties can be further enhanced via latent space optimization. In this paper, we propose a multi-objective latent space optimization (LSO) method that can significantly enhance the performance of generative molecular design (GMD). The proposed method adopts an iterative weighted retraining approach, where the respective weights of the molecules in the training data are determined by their Pareto efficiency. We demonstrate that our multi-objective GMD LSO method can significantly improve the performance of GMD for jointly optimizing multiple molecular properties.
翻訳日:2022-03-02 15:38:48 公開日:2022-03-01
# 解釈可能次元減少のための遺伝的プログラミング表現と適合関数について

On genetic programming representations and fitness functions for interpretable dimensionality reduction ( http://arxiv.org/abs/2203.00528v1 )

ライセンス: Link先を確認
Thomas Uriot and Marco Virgolin and Tanja Alderliesten and Peter Bosman(参考訳) 次元減少(DR)はデータ探索と知識発見において重要な技術である。 しかし、主要なdrメソッドのほとんどは線形(例えば、pca)であり、元のデータとその低次元表現(例えば、mds、t-sne、isomap)の間の明示的なマッピングを提供していないか、容易に解釈できないマッピング(例えば、kernel pca、neural-based autoencoder)を生成する。 近年、遺伝子プログラミング(GP)は、シンボル表現の形で解釈可能なDRマッピングの進化に用いられている。 GPをこの目的に利用できる方法はいくつかあり、比較を行う研究は存在しない。 本稿では,既存のGP手法を比較し,新しい手法を考案することによって,このギャップを埋める。 提案手法は, 予測精度と低次元表現のみを用いて, 元の特徴をどの程度再構築できるかに基づいて, いくつかのベンチマークデータセット上で評価する。 最後に,結果表現とその複雑性を定性的に評価する。 様々なGP手法が最先端のDRアルゴリズムと競合し、解釈可能なDRマッピングを生成する可能性があることが判明した。

Dimensionality reduction (DR) is an important technique for data exploration and knowledge discovery. However, most of the main DR methods are either linear (e.g., PCA), do not provide an explicit mapping between the original data and its lower-dimensional representation (e.g., MDS, t-SNE, isomap), or produce mappings that cannot be easily interpreted (e.g., kernel PCA, neural-based autoencoder). Recently, genetic programming (GP) has been used to evolve interpretable DR mappings in the form of symbolic expressions. There exists a number of ways in which GP can be used to this end and no study exists that performs a comparison. In this paper, we fill this gap by comparing existing GP methods as well as devising new ones. We evaluate our methods on several benchmark datasets based on predictive accuracy and on how well the original features can be reconstructed using the lower-dimensional representation only. Finally, we qualitatively assess the resulting expressions and their complexity. We find that various GP methods can be competitive with state-of-the-art DR algorithms and that they have the potential to produce interpretable DR mappings.
翻訳日:2022-03-02 15:38:33 公開日:2022-03-01
# 量子回路をユニタリ演算子として学ぶAns\atze

Beyond Ans\"atze: Learning Quantum Circuits as Unitary Operators ( http://arxiv.org/abs/2203.00601v1 )

ライセンス: Link先を確認
B\'alint M\'at\'e, Bertrand Le Saux, Maxwell Henderson(参考訳) 本稿では、ユニタリ群$U(2^N)$の演算子として、$N$ワイヤ上で量子回路を最適化する利点について検討する。 リー代数 $\mathfrak u(2^n)$ で勾配に基づく最適化を行い、指数写像を用いてユニタリ行列をパラメトリズする。 u(2^n)$ は ansatz によって引き起こされる探索空間よりも一般的であるだけでなく、古典的なコンピュータでの操作が容易であると主張する。 結果として得られるアプローチは高速でアンサッツフリーで、$n$のワイヤ上ですべてのans\"atzeのパフォーマンスの上限を提供する。

This paper explores the advantages of optimizing quantum circuits on $N$ wires as operators in the unitary group $U(2^N)$. We run gradient-based optimization in the Lie algebra $\mathfrak u(2^N)$ and use the exponential map to parametrize unitary matrices. We argue that $U(2^N)$ is not only more general than the search space induced by an ansatz, but in ways easier to work with on classical computers. The resulting approach is quick, ansatz-free and provides an upper bound on performance over all ans\"atze on $N$ wires.
翻訳日:2022-03-02 15:38:13 公開日:2022-03-01
# リーマン統計は確率行列理論に合致する:高次元共分散行列からの学習に向けて

Riemannian statistics meets random matrix theory: towards learning from high-dimensional covariance matrices ( http://arxiv.org/abs/2203.00204v1 )

ライセンス: Link先を確認
Salem Said, Simon Heuveline, Cyrus Mostajeran(参考訳) リーマンガウス分布は、正定値行列(以下共分散行列)の統計集団の内在的構造を捉えることを目的とした学習モデルの基本的な構成要素として最初に導入された。 このようなモデルの潜在的な応用は大きな注目を集めているが、これらの応用には依然として大きな障害があり、高次元共分散行列の空間上のリーマン・ガウス分布に関連する正規化因子を計算する実用的な方法は存在しないようである。 本稿では,この手法がランダム行列理論との予期せぬ新たな接続から生じることを示す。 その主な貢献は、実、複素、四元共分散行列のリーマン的ガウス分布が直交、ユニタリ、シンプレクティックな対正規行列アンサンブルと等価であることを証明することである。 この同値性は、かなり単純な解析式の観点から、正規化因子の高効率な近似をもたらす。 この近似による誤差は次元の逆二乗のように減少する。 数値実験を行い、この近似が高次元共分散行列の実世界のデータセットへの応用を妨げる困難をいかに解くかを示す。 その後、この論文はブロック-トプリッツ共分散行列のリーマン・ガウス分布に向く。 これらは「アコシュ正規」アンサンブルと呼ばれる他の種類のランダム行列アンサンブルと等価である。 直交的およびユニタリな"acosh-normal"アンサンブルは、それぞれ、toeplitzブロックとblock-toeplitz共分散行列のケースに対応する。

Riemannian Gaussian distributions were initially introduced as basic building blocks for learning models which aim to capture the intrinsic structure of statistical populations of positive-definite matrices (here called covariance matrices). While the potential applications of such models have attracted significant attention, a major obstacle still stands in the way of these applications: there seems to exist no practical method of computing the normalising factors associated with Riemannian Gaussian distributions on spaces of high-dimensional covariance matrices. The present paper shows that this missing method comes from an unexpected new connection with random matrix theory. Its main contribution is to prove that Riemannian Gaussian distributions of real, complex, or quaternion covariance matrices are equivalent to orthogonal, unitary, or symplectic log-normal matrix ensembles. This equivalence yields a highly efficient approximation of the normalising factors, in terms of a rather simple analytic expression. The error due to this approximation decreases like the inverse square of dimension. Numerical experiments are conducted which demonstrate how this new approximation can unlock the difficulties which have impeded applications to real-world datasets of high-dimensional covariance matrices. The paper then turns to Riemannian Gaussian distributions of block-Toeplitz covariance matrices. These are equivalent to yet another kind of random matrix ensembles, here called "acosh-normal" ensembles. Orthogonal and unitary "acosh-normal" ensembles correspond to the cases of block-Toeplitz with Toeplitz blocks, and block-Toeplitz (with general blocks) covariance matrices, respectively.
翻訳日:2022-03-02 15:37:45 公開日:2022-03-01
# 機械学習による溶液中高分子脂質の分子動力学

Molecular Dynamics of Polymer-lipids in Solution from Supervised Machine Learning ( http://arxiv.org/abs/2203.00151v1 )

ライセンス: Link先を確認
James Andrews, Olga Gkountouna and Estela Blaisten-Barojas(参考訳) ニューラルネットワークを含む機械学習技術は、結晶から生体分子まで、システムの構造とエネルギーの分析に有効な代替手段を提供することのできる、材料や化学科学者のための一般的なツールである。 しかし、動力学の予測のための努力は少ない。 本研究では, アセテートエチルで溶媒和した高分子高分子-脂質集合体のエネルギー予測のための, 確立された3つの再帰的ニューラルネットワークアーキテクチャの能力について検討する。 リカレントニューラルネットワークから生成されたデータモデルは、分子動力学から生成し、50万点を含む溶媒との相互作用エネルギーとmacromolecules内ポテンシャルエネルギーのナノ秒長時系列で訓練およびテストされる。 総括分析の結果,3つの再帰的ニューラルネットワークは,エネルギー変動の再現能力に限界のあるデータモデルを生成し,入力系列分布と矛盾する点の分布に基づく短期的・長期的エネルギー予測を導出することがわかった。 本稿では,本シリーズの事前クラスタ化時間パターンを含む時系列を付加した,一連のアンサンブルに基づいて訓練された人工ネットワークモデルのアンサンブルを形成することを目的とした,インサイリコ実験プロトコルを提案する。 予測過程は、分子動力学エネルギー変動が広がる値の拡散を伴う予測時系列の帯域を予測することにより改善される。 しかし、予測の帯域からの点の分布は最適ではない。 3つのリカレントニューラルネットワークは、ナノ秒スケールの熱平衡における検査された分子系の実際の変動を再現する単一モデルを生成することができなかったが、提案プロトコルは分子の運命の有用な推定を提供する。

Machine learning techniques including neural networks are popular tools for materials and chemical scientists with applications that may provide viable alternative methods in the analysis of structure and energetics of systems ranging from crystals to biomolecules. However, efforts are less abundant for prediction of dynamics. Here we explore the ability of three well established recurrent neural network architectures for forecasting the energetics of a macromolecular polymer-lipid aggregate solvated in ethyl acetate at ambient conditions. Data models generated from recurrent neural networks are trained and tested on nanoseconds-long time series of the intra-macromolecules potential energy and their interaction energy with the solvent generated from Molecular Dynamics and containing half million points. Our exhaustive analyses convey that the three recurrent neural network investigated generate data models with limited capability of reproducing the energetic fluctuations and yielding short or long term energetics forecasts with underlying distribution of points inconsistent with the input series distributions. We propose an in silico experimental protocol consisting on forming an ensemble of artificial network models trained on an ensemble of series with additional features from time series containing pre-clustered time patterns of the original series. The forecast process improves by predicting a band of forecasted time series with a spread of values consistent with the molecular dynamics energy fluctuations span. However, the distribution of points from the band of forecasts is not optimal. Although the three inspected recurrent neural networks were unable of generating single models that reproduce the actual fluctuations of the inspected molecular system energies in thermal equilibrium at the nanosecond scale, the proposed protocol provides useful estimates of the molecular fate
翻訳日:2022-03-02 15:35:06 公開日:2022-03-01
# 射影幾何学によるプライベート周波数推定

Private Frequency Estimation via Projective Geometry ( http://arxiv.org/abs/2203.00194v1 )

ライセンス: Link先を確認
Vitaly Feldman, Jelani Nelson, Huy L\^e Nguyen, Kunal Talwar(参考訳) そこで本研究では,局所微分型(LDP)周波数推定のための新しいアルゴリズムであるProjectiveGeometry Response (PGR)を提案する。 k$の宇宙サイズと$n$のユーザに対して、我々の$\varepsilon$-LDPアルゴリズムは、プライベートコインセッティングにおける$\lceil\log_2k\rceil $ビットとパブリックコインセッティングにおける$\varepsilon\log_2e + O(1)$の通信コストを持ち、計算コスト$O(n + k\exp(\varepsilon) \log k)$は、サーバが周波数ヒストグラムをほぼ再構築し、最先端のプライバシユーティリティトレードオフを達成します。 実際には多くのパラメータ設定において、これは最近のpi-rapporアルゴリズム(feldman and talwar; 2021)によって達成された$ o(n+k^2)$計算コストを大幅に改善する。 実験により,PI-RAPPORを50倍以上高速化し,約75倍少ないメモリでパラメータ設定を行った。 さらに、我々のアルゴリズムの実行時間はハダマール応答 (Acharya, Sun, and Zhang; 2019) と再帰ハダマール応答 (Chen, Kairouz, and Ozgur; 2020) のオーダーの範囲内であり、再構成エラーが著しく悪化している。 我々のアルゴリズムの誤差は、本質的に通信効率と時間効率が良いが、ssアルゴリズム(ye and barg; 2017)と一致している。 我々の新しいアルゴリズムは、有限フィールド上の射影平面を用いて、対独立に近い集合の小さな集合と、サーバ側のヒストグラム再構成を近似する動的プログラミングアルゴリズムを定義することに基づいている。 また,我々はhybridprojectivegeom etryresponseと呼ぶpgrの拡張も提供している。

In this work, we propose a new algorithm ProjectiveGeometryRe sponse (PGR) for locally differentially private (LDP) frequency estimation. For a universe size of $k$ and with $n$ users, our $\varepsilon$-LDP algorithm has communication cost $\lceil\log_2k\rceil $ bits in the private coin setting and $\varepsilon\log_2 e + O(1)$ in the public coin setting, and has computation cost $O(n + k\exp(\varepsilon) \log k)$ for the server to approximately reconstruct the frequency histogram, while achieving the state-of-the-art privacy-utility tradeoff. In many parameter settings used in practice this is a significant improvement over the $ O(n+k^2)$ computation cost that is achieved by the recent PI-RAPPOR algorithm (Feldman and Talwar; 2021). Our empirical evaluation shows a speedup of over 50x over PI-RAPPOR while using approximately 75x less memory for practically relevant parameter settings. In addition, the running time of our algorithm is within an order of magnitude of HadamardResponse (Acharya, Sun, and Zhang; 2019) and RecursiveHadamardRes ponse (Chen, Kairouz, and Ozgur; 2020) which have significantly worse reconstruction error. The error of our algorithm essentially matches that of the communication- and time-inefficient but utility-optimal SubsetSelection (SS) algorithm (Ye and Barg; 2017). Our new algorithm is based on using Projective Planes over a finite field to define a small collection of sets that are close to being pairwise independent and a dynamic programming algorithm for approximate histogram reconstruction on the server side. We also give an extension of PGR, which we call HybridProjectiveGeom etryResponse, that allows trading off computation time with utility smoothly.
翻訳日:2022-03-02 15:34:42 公開日:2022-03-01
# (参考訳) Transformer Grammars:Syntactic Inductive Biasesを大規模に拡張したTransformer Language Models [全文訳有]

Transformer Grammars: Augmenting Transformer Language Models with Syntactic Inductive Biases at Scale ( http://arxiv.org/abs/2203.00633v1 )

ライセンス: CC BY 4.0
Laurent Sartran, Samuel Barrett, Adhiguna Kuncoro, Milo\v{s} Stanojevi\'c, Phil Blunsom, Chris Dyer(参考訳) 大量のデータに基づいて訓練されたトランスフォーマー言語モデルは、様々なNLPベンチマークで顕著な成功を収めた。 興味深いことに、この成功は階層的な構文構造の明確なモデリングが欠如しているモデルによって達成される。 モデルに再帰的構文合成のレンズを通してデータを説明させる帰納的バイアスを通じて、トランスフォーマー言語モデルの性能をさらに向上させるにはどうすればよいのか? 再帰構文のモデリングの利点は、小さなデータとモデルスケールで示されてきたが、同様の設計原則が、スケールでうまく機能する強力なトランスフォーマー言語モデルの場合、なおも有益であるかどうか、という疑問は未解決である。 これらの質問に答えるために、トランスフォーマー文法(transformer grammars)を紹介します。 (i)変圧器の表現力、拡張性、強力な性能、及び (ii)特別な注意マスクを通して実施する再帰的構文合成。 Transformer Grammarsは、文レベルの言語モデリングの難易度に加えて、複数の構文に敏感な言語モデリング評価指標において、様々な強力なベースラインを上回ります。 それにもかかわらず、再帰的構文構成のボトルネックは文書レベルのモデリングの難易度を損なうことが判明し、構文構造とは独立して動作する異なる種類の記憶機構が、長文の処理において重要な役割を果たすことを示す。

Transformer language models that are trained on vast amounts of data have achieved remarkable success at various NLP benchmarks. Intriguingly, this success is achieved by models that lack an explicit modeling of hierarchical syntactic structures, which were hypothesized by decades of linguistic research to be necessary for good generalization. This naturally leaves a question: to what extent can we further improve the performance of Transformer language models, through an inductive bias that encourages the model to explain the data through the lens of recursive syntactic compositions? Although the benefits of modeling recursive syntax have been shown at the small data and model scales, it remains an open question whether -- and to what extent -- a similar design principle is still beneficial in the case of powerful Transformer language models that work well at scale. To answer these questions, we introduce Transformer Grammars -- a novel class of Transformer language models that combine: (i) the expressive power, scalability, and strong performance of Transformers, and (ii) recursive syntactic compositions, which here are implemented through a special attention mask. We find that Transformer Grammars outperform various strong baselines on multiple syntax-sensitive language modeling evaluation metrics, in addition to sentence-level language modeling perplexity. Nevertheless, we find that the recursive syntactic composition bottleneck harms perplexity on document-level modeling, providing evidence that a different kind of memory mechanism -- that works independently of syntactic structures -- plays an important role in the processing of long-form text.
翻訳日:2022-03-02 15:32:29 公開日:2022-03-01
# 時間知覚:任意境界検出のための汎用アーキテクチャ

Temporal Perceiver: A General Architecture for Arbitrary Boundary Detection ( http://arxiv.org/abs/2203.00307v1 )

ライセンス: Link先を確認
Jing Tan, Yuhong Wang, Gangshan Wu, Limin Wang(参考訳) ジェネリック境界検出(GBD)は、ビデオのセマンティックコヒーレントと分類なしの単位に分割する一般的な境界の特定を目的としており、長めのビデオ理解のための重要な前処理ステップとしてサーバーを配置する。 従来の研究では、単純なCNNからLSTMまでの複雑なディープネットワークの設計で、これらの異なるレベルの汎用境界を別々に扱っていた。 本稿では,ビデオにおける任意の境界検出のための汎用的かつシンプルなアーキテクチャを開発することを目的とする。 そこで本研究では,変圧器を用いた汎用アーキテクチャであるtemporal perceiverを提案する。 中心となる設計は、少量の潜在機能クエリをアンカーとして導入し、冗長な入力をクロスアテンションブロックを介して固定次元に圧縮する。 この固定数の潜在ユニットのおかげで、注意操作の二次的な複雑さを入力フレームの線形形式に還元する。 具体的には、ビデオのコヒーレンス構造を活用するために、境界クエリとコンテキストクエリという2種類の潜在特徴クエリを構築し、それに応じてセマンティックアンコヒーレンス領域とコヒーレンス領域を処理する。 さらに,潜在機能クエリの学習をガイドするために,境界クエリが最上位の可能な境界に到達することを明示的に促すために,クロスアテンションにおけるアライメント損失を提案する。 最後に、圧縮表現にスパース検出ヘッドを示し、後処理モジュールを使わずに最終境界検出結果を直接出力する。 我々は、ショットレベル、イベントレベル、シーンレベルGBDなど、さまざまな検出ベンチマークでテンポラルパーシーバーをテストする。 提案手法は,すべてのベンチマークにおける従来の最先端手法を超越し,時間知覚器の一般化能力を示す。

Generic Boundary Detection (GBD) aims at locating general boundaries that divide videos into semantically coherent and taxonomy-free units, and could server as an important pre-processing step for long-form video understanding. Previous research separately handle these different-level generic boundaries with specific designs of complicated deep networks from simple CNN to LSTM. Instead, in this paper, our objective is to develop a general yet simple architecture for arbitrary boundary detection in videos. To this end, we present Temporal Perceiver, a general architecture with Transformers, offering a unified solution to the detection of arbitrary generic boundaries. The core design is to introduce a small set of latent feature queries as anchors to compress the redundant input into fixed dimension via cross-attention blocks. Thanks to this fixed number of latent units, it reduces the quadratic complexity of attention operation to a linear form of input frames. Specifically, to leverage the coherence structure of videos, we construct two types of latent feature queries: boundary queries and context queries, which handle the semantic incoherence and coherence regions accordingly. Moreover, to guide the learning of latent feature queries, we propose an alignment loss on cross-attention to explicitly encourage the boundary queries to attend on the top possible boundaries. Finally, we present a sparse detection head on the compressed representations and directly output the final boundary detection results without any post-processing module. We test our Temporal Perceiver on a variety of detection benchmarks, ranging from shot-level, event-level, to scene-level GBD. Our method surpasses the previous state-of-the-art methods on all benchmarks, demonstrating the generalization ability of our temporal perceiver.
翻訳日:2022-03-02 14:59:53 公開日:2022-03-01
# 衛星画像における説明可能な機械学習を用いた荒野探索

Exploring Wilderness Using Explainable Machine Learning in Satellite Imagery ( http://arxiv.org/abs/2203.00379v1 )

ライセンス: Link先を確認
Timo T. Stomberg, Taylor Stone, Johannes Leonhardt, Ribana Roscher(参考訳) 荒野地域は重要な生態的・社会的利益をもたらし、それゆえ監視と保存が必須である。 しかし、「野生」となる場所は曖昧に定義されており、リモートセンシング技術による荒野の検出とモニタリングが困難な課題となっている。 本稿では,多スペクトル衛星画像による荒野の曖昧な概念の特徴と外観について考察する。 そこで本研究では,Fennoscandiaの野生・人為的領域の解明に有効な,新しい説明可能な機械学習手法をキュレートデータセットに適用する。 データセットには、表示領域のSentinel-2イメージが含まれている 1)自然の性格の保存・維持を目的とした保護区域 2)人工景観と農業景観からなる人為的地域。 本手法により,野生および人為的特徴を考慮したリモートセンシングデータの連続的,詳細的,高分解能の感度マップを予測した。 我々のニューラルネットワークは、野生および人為的特徴と特定の土地被覆クラスに関して意味的に配列された領域を解釈可能な活性化空間を提供する。 これにより,提案手法の信頼性が向上し,研究概念に関する新たな説明が可能になる。 本モデルは,リモートセンシングのための説明可能な機械学習を進化させ,既存の荒野の包括的解析の機会を提供し,保全活動に実用的な妥当性を提供する。 コードとデータはhttp://rs.ipb.uni-bo nn.de/dataとhttps://gitlab.jsc.f z-juelich.de/kiste/w ildernessで入手できる。

Wilderness areas offer important ecological and social benefits, and therefore warrant monitoring and preservation. Yet, what makes a place "wild" is vaguely defined, making the detection and monitoring of wilderness areas via remote sensing techniques a challenging task. In this article, we explore the characteristics and appearance of the vague concept of wilderness areas via multispectral satellite imagery. For this, we apply a novel explainable machine learning technique on a curated dataset, which is sophisticated for the task to investigate wild and anthropogenic areas in Fennoscandia. The dataset contains Sentinel-2 images of areas representing 1) protected areas with the aim of preserving and retaining the natural character and 2) anthropogenic areas consisting of artificial and agricultural landscapes. With our technique, we predict continuous, detailed and high-resolution sensitivity maps of unseen remote sensing data in regards to wild and anthropogenic characteristics. Our neural network provides an interpretable activation space in which regions are semantically arranged in regards to wild and anthropogenic characteristics and certain land cover classes. This increases confidence in the method and allows for new explanations in regards to the investigated concept. Our model advances explainable machine learning for remote sensing, offers opportunities for comprehensive analyses of existing wilderness, and practical relevance for conservation efforts. Code and data are available at http://rs.ipb.uni-bo nn.de/data and https://gitlab.jsc.f z-juelich.de/kiste/w ilderness, respectively.
翻訳日:2022-03-02 14:59:23 公開日:2022-03-01
# CLIP-GEN:CLIPを用いたテキスト・画像・ジェネレータの言語学習

CLIP-GEN: Language-Free Training of a Text-to-Image Generator with CLIP ( http://arxiv.org/abs/2203.00386v1 )

ライセンス: Link先を確認
Zihao Wang, Wei Liu, Qian He, Xinglong Wu, Zili Yi(参考訳) 一般的なドメイン(dall.e、cogviewなど)でテキストから画像へのジェネレータをトレーニングするには、膨大な量のペアのテキスト画像データが必要です。 本稿では,事前学習したCLIPモデルを用いて,言語画像の事前生成を行うための,CLIP-GENと呼ばれる自己教師型スキームを提案する。 私たちのアプローチでは、テキストから画像へのジェネレータをトレーニングするために、一般的なドメイン内のラベルのないイメージセットのみが必要です。 具体的には、テキストラベルのない画像に対して、まずCLIPのイメージエンコーダを用いて、統一言語ビジョン埋め込み空間における画像の埋め込みを抽出する。 次に、VQGAN符号ブック空間の離散トークン列に変換する(VQGANモデルは、ラベルのない画像データセットを手動でトレーニングすることができる)。 最後に、画像トークンを統一された言語ビジョン表現からマッピングする自己回帰トランスフォーマをトレーニングする。 トレーニング後、CLIPのテキストエンコーダから抽出されたテキスト埋め込みに基づいて、入力テキストに基づいてコヒーレントな画像トークンを生成することができる。 このような戦略により、imagenetのような大きなテキストフリーなイメージデータセットで、強力で一般的なテキストから画像へのジェネレータをトレーニングできます。 定性的および定量的評価により,本手法は画像品質の観点から最適化ベースのテキスト・画像法を著しく上回り,テキスト・画像マッチングを損なわないことを確認した。 私たちのメソッドは、CogViewのようなフラッグシップ教師付きモデルと同等のパフォーマンスを達成できます。

Training a text-to-image generator in the general domain (e.g., Dall.e, CogView) requires huge amounts of paired text-image data, which is too expensive to collect. In this paper, we propose a self-supervised scheme named as CLIP-GEN for general text-to-image generation with the language-image priors extracted with a pre-trained CLIP model. In our approach, we only require a set of unlabeled images in the general domain to train a text-to-image generator. Specifically, given an image without text labels, we first extract the embedding of the image in the united language-vision embedding space with the image encoder of CLIP. Next, we convert the image into a sequence of discrete tokens in the VQGAN codebook space (the VQGAN model can be trained with the unlabeled image dataset in hand). Finally, we train an autoregressive transformer that maps the image tokens from its unified language-vision representation. Once trained, the transformer can generate coherent image tokens based on the text embedding extracted from the text encoder of CLIP upon an input text. Such a strategy enables us to train a strong and general text-to-image generator with large text-free image dataset such as ImageNet. Qualitative and quantitative evaluations verify that our method significantly outperforms optimization-based text-to-image methods in terms of image quality while not compromising the text-image matching. Our method can even achieve comparable performance as flagship supervised models like CogView.
翻訳日:2022-03-02 14:59:03 公開日:2022-03-01
# 動画圧縮センシングのための運動認識動的グラフニューラルネットワーク

Motion-aware Dynamic Graph Neural Network for Video Compressive Sensing ( http://arxiv.org/abs/2203.00387v1 )

ライセンス: Link先を確認
Ruiying Lu, Ziheng Cheng, Bo Chen and Xin Yuan(参考訳) video snapshot compressive imaging (sci) は2d検出器を使用してシーケンシャルなビデオフレームをキャプチャし、それらを単一の測定に圧縮する。 スナップショット計測から高速映像フレームを復元する様々な再構成手法が開発されている。 しかし,既存の再構成手法では,ビデオ処理に欠かせない長距離空間依存や時間依存を捉えることができない。 本稿では,グラフニューラルネットワーク(GNN)に基づくフレキシブルでロバストなアプローチを提案し,空間上の画素間の非局所的相互作用を,距離に関係なく効率的にモデル化する。 具体的には,動き対応動的サンプリング,クロススケールノードサンプリング,グラフアグリゲーションからなるフレームバイフレーム動作の指導の下で,各画素を相対ノードの集約として表現するモーションアウェア動的gnnを開発した。 シミュレーションと実データの両方の広範な結果から,提案手法の有効性と有効性が示され,提案モデルの動的サンプリング操作を可視化することで映像sci再構成結果が向上することを示す。 コードとモデルは一般公開される予定だ。

Video snapshot compressive imaging (SCI) utilizes a 2D detector to capture sequential video frames and compresses them into a single measurement. Various reconstruction methods have been developed to recover the high-speed video frames from the snapshot measurement. However, most existing reconstruction methods are incapable of capturing long-range spatial and temporal dependencies, which are critical for video processing. In this paper, we propose a flexible and robust approach based on graph neural network (GNN) to efficiently model non-local interactions between pixels in space as well as time regardless of the distance. Specifically, we develop a motion-aware dynamic GNN for better video representation, i.e., represent each pixel as the aggregation of relative nodes under the guidance of frame-by-frame motions, which consists of motion-aware dynamic sampling, cross-scale node sampling and graph aggregation. Extensive results on both simulation and real data demonstrate both the effectiveness and efficiency of the proposed approach, and the visualization clearly illustrates the intrinsic dynamic sampling operations of our proposed model for boosting the video SCI reconstruction results. The code and models will be released to the public.
翻訳日:2022-03-02 14:58:41 公開日:2022-03-01
# リアルタイム意味セグメンテーションのための境界補正マルチスケール融合ネットワーク

Boundary Corrected Multi-scale Fusion Network for Real-time Semantic Segmentation ( http://arxiv.org/abs/2203.00436v1 )

ライセンス: Link先を確認
Tianjiao Jiang, Yi Jin, Tengfei Liang, Xu Wang, Yidong Li(参考訳) 画像セマンティックセグメンテーションは、画像のピクセルレベルの分類を目標とし、実用における精度と速度の両方の要件がある。 既存のセマンティックセグメンテーション法は主に高精度な入力に頼っており、推論時間の要件を満たしていない。 軽量アーキテクチャによる高速シーン解析にフォーカスする手法もあるが、比較的低い性能で低計算下で意味的特徴を完全にマイニングすることはできない。 本研究では,リアルタイム・高精度セグメンテーションを実現するために,低解像度マルチスケール融合モジュールを用いて意味情報を抽出するバウンダリ補正マルチスケール融合ネットワークを提案する。 さらに,低分解能特徴マップ融合による境界誤差に対処するため,過剰に滑らかな特徴量を制限するために,さらに境界補正損失を設計できる。 大規模な実験により,リアルタイムセマンティックセグメンテーションの精度と速度の最先端のバランスが得られた。

Image semantic segmentation aims at the pixel-level classification of images, which has requirements for both accuracy and speed in practical application. Existing semantic segmentation methods mainly rely on the high-resolution input to achieve high accuracy and do not meet the requirements of inference time. Although some methods focus on high-speed scene parsing with lightweight architectures, they can not fully mine semantic features under low computation with relatively low performance. To realize the real-time and high-precision segmentation, we propose a new method named Boundary Corrected Multi-scale Fusion Network, which uses the designed Low-resolution Multi-scale Fusion Module to extract semantic information. Moreover, to deal with boundary errors caused by low-resolution feature map fusion, we further design an additional Boundary Corrected Loss to constrain overly smooth features. Extensive experiments show that our method achieves a state-of-the-art balance of accuracy and speed for the real-time semantic segmentation.
翻訳日:2022-03-02 14:58:22 公開日:2022-03-01
# 細粒度分類のための教師付き学習と教師なし学習のギャップを埋める

Bridge the Gap between Supervised and Unsupervised Learning for Fine-Grained Classification ( http://arxiv.org/abs/2203.00441v1 )

ライセンス: Link先を確認
Jiabao Wang, Yang Li, Xiu-Shen Wei, Hang Li, Zhuang Miao, Rui Zhang(参考訳) 教師なし学習技術は、一般オブジェクト分類(goc)と人物再識別(re-id)において教師なし学習技術に追いつき、あるいは超えている。 しかし、細粒度視覚分類(FGVC)の教師なし学習は、OCや人物のリIDよりも困難であることが判明した。 FGVCにおける教師なし学習と教師なし学習のギャップを埋めるために,教師なしFGVCと教師なしFGVCのパフォーマンスギャップに不可欠な要素(特徴抽出,クラスタリング,コントラスト学習など)について検討する。 さらに,このギャップを軽減するために,UFCLと呼ばれるシンプルで効果的で実践的な手法を提案する。 まず、堅牢で強力なバックボーンであるResNet50-IBNを導入し、ImageNet事前訓練されたモデルをFGVCタスクに転送する際にドメイン適応機能を持つ。 次に,ハイパーパラメータの少ない隣接カテゴリに対して,より優れたクラスタを生成するdbscanではなく,hdbscanを導入することを提案する。 最後に,ネットワークのパラメータを学習する最適化プロセスを改善するために,避けられない雑音を伴う擬似ラベルを用いて,比較学習を行うための重み付け特徴エージェントとその更新機構を提案する。 UFCLの有効性はCUB-200-2011,Oxford- Flowers,Oxford-Pets, Stanford-Dogs,Stanfo rd-Cars,FGVC-Aircraf tの各データセットで検証された。 教師なしFGVC設定では,最先端の成果が得られ,重要な要因と重要なパラメータを分析し,実践的なガイダンスを提供する。

Unsupervised learning technology has caught up with or even surpassed supervised learning technology in general object classification (GOC) and person re-identification (re-ID). However, it is found that the unsupervised learning of fine-grained visual classification (FGVC) is more challenging than GOC and person re-ID. In order to bridge the gap between unsupervised and supervised learning for FGVC, we investigate the essential factors (including feature extraction, clustering, and contrastive learning) for the performance gap between supervised and unsupervised FGVC. Furthermore, we propose a simple, effective, and practical method, termed as UFCL, to alleviate the gap. Three key issues are concerned and improved: First, we introduce a robust and powerful backbone, ResNet50-IBN, which has an ability of domain adaptation when we transfer ImageNet pre-trained models to FGVC tasks. Next, we propose to introduce HDBSCAN instead of DBSCAN to do clustering, which can generate better clusters for adjacent categories with fewer hyper-parameters. Finally, we propose a weighted feature agent and its updating mechanism to do contrastive learning by using the pseudo labels with inevitable noise, which can improve the optimization process of learning the parameters of the network. The effectiveness of our UFCL is verified on CUB-200-2011, Oxford-Flowers, Oxford-Pets, Stanford-Dogs, Stanford-Cars and FGVC-Aircraft datasets. Under the unsupervised FGVC setting, we achieve state-of-the-art results, and analyze the key factors and the important parameters to provide a practical guidance.
翻訳日:2022-03-02 14:58:06 公開日:2022-03-01
# SwitchHit: 環境変化における視覚的位置認識改善のための確率的相補性に基づくスイッチングシステム

SwitchHit: A Probabilistic, Complementarity-Base d Switching System for Improved Visual Place Recognition in Changing Environments ( http://arxiv.org/abs/2203.00591v1 )

ライセンス: Link先を確認
Maria Waheed, Michael Milford, Klaus McDonald-Maier and Shoaib Ehsan(参考訳) コンピュータビジョンとロボティクスの基本的なタスクである視覚位置認識(VPR)は、主に視覚情報に基づいて場所を特定する問題である。 天候や季節による変化など、視点や外観の変化は、この課題を難しくしている。 現在、あらゆる種類の環境、様々なロボットプラットフォーム、そして幅広い視点と外観の変化の下で機能する普遍的なVPR技術は存在しない。 近年の研究では、特定のVPRデータセットの相補性を評価して、より優れたパフォーマンスを実現することにより、異なるVPRメソッドをインテリジェントに組み合わせる可能性を示している。 しかし、これは、ロボットが現実のシナリオにデプロイされたときに利用できない真実情報(正しい一致)を必要とする。 さらに、リソース制約のある組み込みプラットフォームでは、複数のVPRテクニックの並列実行が禁止される可能性がある。 これらの制約を克服するために,確率的相補性に基づくスイッチングVPRシステムであるSwitchHitを提案する。 提案手法は,複数のvpr技術から構成されるが,単にすべてのテクニックを同時に実行するのではなく,入力されたクエリ画像に対する正しいマッチング確率を予測し,クエリが一定の閾値以下であれば動的に別の補完手法に切り替える。 この革新的な複数のVPR技術の使用により、我々のシステムは、ブラト力と複数のVPR技術を同時に実行する他の組み合わせVPRアプローチよりも効率的で堅牢になる。 これにより、リソース制約のある組み込みシステムに適合し、システム内の個々のVPRメソッドが独立して動作させることで、全体的な優れたパフォーマンスを達成することができる。

Visual place recognition (VPR), a fundamental task in computer vision and robotics, is the problem of identifying a place mainly based on visual information. Viewpoint and appearance changes, such as due to weather and seasonal variations, make this task challenging. Currently, there is no universal VPR technique that can work in all types of environments, on a variety of robotic platforms, and under a wide range of viewpoint and appearance changes. Recent work has shown the potential of combining different VPR methods intelligently by evaluating complementarity for some specific VPR datasets to achieve better performance. This, however, requires ground truth information (correct matches) which is not available when a robot is deployed in a real-world scenario. Moreover, running multiple VPR techniques in parallel may be prohibitive for resource-constrained embedded platforms. To overcome these limitations, this paper presents a probabilistic complementarity based switching VPR system, SwitchHit. Our proposed system consists of multiple VPR techniques, however, it does not simply run all techniques at once, rather predicts the probability of correct match for an incoming query image and dynamically switches to another complementary technique if the probability of correctly matching the query is below a certain threshold. This innovative use of multiple VPR techniques allow our system to be more efficient and robust than other combined VPR approaches employing brute force and running multiple VPR techniques at once. Thus making it more suitable for resource constrained embedded systems and achieving an overall superior performance from what any individual VPR method in the system could have by achieved running independently.
翻訳日:2022-03-02 14:57:36 公開日:2022-03-01
# 放射線治療計画のためのリスクローカライズとセグメンテーションのための統一3d枠組み

A unified 3D framework for Organs at Risk Localization and Segmentation for Radiation Therapy Planning ( http://arxiv.org/abs/2203.00624v1 )

ライセンス: Link先を確認
Fernando Navarro, Guido Sasahara, Suprosanna Shit, Ivan Ezhov, Jan C. Peeken, Stephanie E. Combs and Bjoern H. Menze(参考訳) 放射線治療計画などの医用画像解析タスクにおいて,CTにおける臓器の局所化と領域分割が必須である。 例えば、OAR周囲の腫瘍のセグメンテーションは、正常な組織を汚染することなく腫瘍領域への放射線の最大化を可能にする。 しかし、現在の医療ワークフローでは、エラーが発生しやすいOARを手動で記述する必要があるため、アノテーションに依存している。 本研究では,新しいローカライゼーションやセグメンテーションアーキテクチャではなく,OARのローカライゼーション・セグメンテーションのための統一的な3Dパイプラインの導入を目指す。 我々の知識を最大限に活用するため,提案フレームワークにより医療画像に固有の3次元コンテキスト情報の活用が可能となる。 第1段階では、3次元多変量回帰ネットワークが臓器のセントロイドとバウンドボックスを予測する。 第二に、3次元臓器特異的セグメンテーションネットワークを利用してマルチオルガンセグメンテーションマップを生成する。 本手法は,視野の異なるCTスキャンと複数の臓器を含むVISCERALデータセットにおいて,Diceスコアが0.9260 pm 0.18 %であった。

Automatic localization and segmentation of organs-at-risk (OAR) in CT are essential pre-processing steps in medical image analysis tasks, such as radiation therapy planning. For instance, the segmentation of OAR surrounding tumors enables the maximization of radiation to the tumor area without compromising the healthy tissues. However, the current medical workflow requires manual delineation of OAR, which is prone to errors and is annotator-dependent. In this work, we aim to introduce a unified 3D pipeline for OAR localization-segment ation rather than novel localization or segmentation architectures. To the best of our knowledge, our proposed framework fully enables the exploitation of 3D context information inherent in medical imaging. In the first step, a 3D multi-variate regression network predicts organs' centroids and bounding boxes. Secondly, 3D organ-specific segmentation networks are leveraged to generate a multi-organ segmentation map. Our method achieved an overall Dice score of $0.9260\pm 0.18 \%$ on the VISCERAL dataset containing CT scans with varying fields of view and multiple organs.
翻訳日:2022-03-02 14:57:09 公開日:2022-03-01
# 自己監督型バッチノルムテスト時間適応による一般化可能な人物再同定

Generalizable Person Re-Identification via Self-Supervised Batch Norm Test-Time Adaption ( http://arxiv.org/abs/2203.00672v1 )

ライセンス: Link先を確認
Ke Han, Chenyang Si, Yan Huang, Liang Wang, Tieniu Tan(参考訳) 本稿では,未認識領域の分布シフトが主な課題である人物再同定(re-id)の一般化問題について検討する。 分散を正規化するための重要なツールとして、バッチ正規化(BN)が既存の手法で広く使われている。 しかし、BNがトレーニング領域に大きく偏っていることを無視し、更新せずに直接一般化した場合、必然的にパフォーマンス低下を被る。 本稿では,bnパラメータを適応的に更新するために,自己教師付き戦略を適用する新しいre-idフレームワークであるバッチノルムテスト時間適応(bnta)を提案する。 具体的には、BNTAは、推論前にラベル付けされていないターゲットデータ内のドメイン認識情報を素早く探索し、BNによって正規化された特徴分布を変調してターゲットドメインに適応させる。 これは、モデルがそれぞれ身体部分の構造とアイデンティティに関してドメイン認識情報をマイニングするのに役立つ、部分位置決めと部分近接マッチングという2つの設計された自己監督補助タスクによって達成される。 本手法の有効性を実証するために,3つのre-idデータセットについて広範囲な実験を行い,最新手法の優れた性能を確認した。

In this paper, we investigate the generalization problem of person re-identification (re-id), whose major challenge is the distribution shift on an unseen domain. As an important tool of regularizing the distribution, batch normalization (BN) has been widely used in existing methods. However, they neglect that BN is severely biased to the training domain and inevitably suffers the performance drop if directly generalized without being updated. To tackle this issue, we propose Batch Norm Test-time Adaption (BNTA), a novel re-id framework that applies the self-supervised strategy to update BN parameters adaptively. Specifically, BNTA quickly explores the domain-aware information within unlabeled target data before inference, and accordingly modulates the feature distribution normalized by BN to adapt to the target domain. This is accomplished by two designed self-supervised auxiliary tasks, namely part positioning and part nearest neighbor matching, which help the model mine the domain-aware information with respect to the structure and identity of body parts, respectively. To demonstrate the effectiveness of our method, we conduct extensive experiments on three re-id datasets and confirm the superior performance to the state-of-the-art methods.
翻訳日:2022-03-02 14:56:53 公開日:2022-03-01
# CrossPoint: 3Dポイントクラウド理解のための自己監督型クロスモーダルコントラスト学習

CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D Point Cloud Understanding ( http://arxiv.org/abs/2203.00680v1 )

ライセンス: Link先を確認
Mohamed Afham, Isuru Dissanayake, Dinithi Dissanayake, Amaya Dharmasiri, Kanchana Thilakarathna, Ranga Rodrigo(参考訳) 3次元オブジェクト分類、セグメンテーション、検出などの様々なタスクのための大規模ポイントクラウドデータセットのマニュアルアノテーションは、ポイントクラウドの不規則な構造のため、しばしば困難である。 人間のラベル付けなしで動く自己教師型学習は、この問題に対処するための有望なアプローチである。 現実世界では、人間は2d画像から学習した視覚概念をマッピングして3d世界を理解することができると観察する。 そこで本研究では,移動可能な3Dポイントクラウド表現を学習するための,シンプルなクロスモーダルコントラスト学習手法であるCrossPointを提案する。 これは、点雲と対応する不変空間内の2次元画像との一致を最大化し、点雲様相の変換への不変性を助長することで、物体の3d-2次元対応を可能にする。 共同学習の目的は,3次元点クラウドと2次元画像モダリティの両方から,自己教師ありの方法でリッチな学習信号を合体させることである。 実験の結果,従来の教師なし学習手法よりも,3次元オブジェクトの分類やセグメンテーションなど,さまざまな下流タスクにおいて優れていた。 さらに,アブレーション研究は,より良質な点雲理解のためのアプローチの有効性を検証する。 コードと事前訓練されたモデルはhttp://github.com/Mo hamedAfham/CrossPoin t.comで入手できる。

Manual annotation of large-scale point cloud dataset for varying tasks such as 3D object classification, segmentation and detection is often laborious owing to the irregular structure of point clouds. Self-supervised learning, which operates without any human labeling, is a promising approach to address this issue. We observe in the real world that humans are capable of mapping the visual concepts learnt from 2D images to understand the 3D world. Encouraged by this insight, we propose CrossPoint, a simple cross-modal contrastive learning approach to learn transferable 3D point cloud representations. It enables a 3D-2D correspondence of objects by maximizing agreement between point clouds and the corresponding rendered 2D image in the invariant space, while encouraging invariance to transformations in the point cloud modality. Our joint training objective combines the feature correspondences within and across modalities, thus ensembles a rich learning signal from both 3D point cloud and 2D image modalities in a self-supervised fashion. Experimental results show that our approach outperforms the previous unsupervised learning methods on a diverse range of downstream tasks including 3D object classification and segmentation. Further, the ablation studies validate the potency of our approach for a better point cloud understanding. Code and pretrained models are available at http://github.com/Mo hamedAfham/CrossPoin t.
翻訳日:2022-03-02 14:56:05 公開日:2022-03-01
# 単語センスの曖昧さに関するトポロジ的データ解析

Topological Data Analysis for Word Sense Disambiguation ( http://arxiv.org/abs/2203.00565v1 )

ライセンス: Link先を確認
Michael Rawson, Samuel Dooley, Mithun Bharadwaj, and Rishabh Choudhary(参考訳) 我々は、トポロジカルデータ解析を用いた単語知覚誘導・曖昧化のための新しい教師なしアルゴリズムを開発し、検証する。 この問題に対する典型的なアプローチは、単語埋め込みにおける距離の単純な低レベル特徴に基づくクラスタリングである。 本手法は,単語感覚誘導タスクのためのクラスタのよりリッチな概念化を提供するトポロジーの分野における高度な数学的概念に依拠する。 我々は, semcorデータセット上の持続的ホモロジーバーコードアルゴリズムを用いて, この手法が単語感覚誘導に低い相対誤差を与えることを示す。 これは自然言語処理におけるトポロジカルアルゴリズムの有望さを示し、この有望な分野における今後の研究を提唱する。

We develop and test a novel unsupervised algorithm for word sense induction and disambiguation which uses topological data analysis. Typical approaches to the problem involve clustering, based on simple low level features of distance in word embeddings. Our approach relies on advanced mathematical concepts in the field of topology which provides a richer conceptualization of clusters for the word sense induction tasks. We use a persistent homology barcode algorithm on the SemCor dataset and demonstrate that our approach gives low relative error on word sense induction. This shows the promise of topological algorithms for natural language processing and we advocate for future work in this promising area.
翻訳日:2022-03-02 14:55:44 公開日:2022-03-01
# 単語の「エゴネットワーク」における構造的不変性と意味的指紋

Structural invariants and semantic fingerprints in the "ego network" of words ( http://arxiv.org/abs/2203.00588v1 )

ライセンス: Link先を確認
Kilian Ollivier and Chiara Boldrini and Andrea Passarella and Marco Conti(参考訳) 人類学的に確立された認知モデルは、社会的相互作用の「バンド幅」を制限する認知的制約のため、人間は通常の構造に従って社会的関係を組織することを示した。 本研究では,言語生産など他の認知過程に類似した規則性が存在することを仮定する。 この主張を調査するために、Twitterユーザ(正規ユーザとプロのライター)の不均一なグループのつぶやきを含むデータセットを分析した。 確立された社会的認知の制約を明らかにするために用いられる方法論に類似した手法を利用することで、構造的および意味的両方のレベルで規則性を見出す。 前者では、同心的な階層構造(言葉のエゴネットワーク、社会関係のエゴネットワークと類似)が、個人が使用する単語をどう整理するかをうまく捉えている。 この構造内の層の大きさは、外向きに移動すると定期的に増加し(前回に比べて約2〜3倍)、2つの垂直な外部層は、ユーザの総層数に関係なく、使用語の約60%と30%を一貫して占める。 意味分析のために、各egoネットワークの各リングは、そのリング内の単語に関連するトピックをキャプチャするセマンティックプロファイルによって記述される。 環 #1 がモデルに特別な役割を果たすことが分かる。 意味的に最も異なっており、環の中でも最も多様である。 また、最内側のリングにおいて重要なトピックは、他のリングとエゴネットワーク全体において、それぞれに支配的な特徴を持つことも示している。 この点において、環 #1 は単語の ego ネットワークの意味的指紋と見なすことができる。

Well-established cognitive models coming from anthropology have shown that, due to the cognitive constraints that limit our "bandwidth" for social interactions, humans organize their social relations according to a regular structure. In this work, we postulate that similar regularities can be found in other cognitive processes, such as those involving language production. In order to investigate this claim, we analyse a dataset containing tweets of a heterogeneous group of Twitter users (regular users and professional writers). Leveraging a methodology similar to the one used to uncover the well-established social cognitive constraints, we find regularities at both the structural and semantic level. At the former, we find that a concentric layered structure (which we call ego network of words, in analogy to the ego network of social relationships) very well captures how individuals organise the words they use. The size of the layers in this structure regularly grows (approximately 2-3 times with respect to the previous one) when moving outwards, and the two penultimate external layers consistently account for approximately 60% and 30% of the used words, irrespective of the number of the total number of layers of the user. For the semantic analysis, each ring of each ego network is described by a semantic profile, which captures the topics associated with the words in the ring. We find that ring #1 has a special role in the model. It is semantically the most dissimilar and the most diverse among the rings. We also show that the topics that are important in the innermost ring also have the characteristic of being predominant in each of the other rings, as well as in the entire ego network. In this respect, ring #1 can be seen as the semantic fingerprint of the ego network of words.
翻訳日:2022-03-02 14:55:34 公開日:2022-03-01
# 会話の学際的科学の進歩--人間の発話の大規模マルチモーダルコーパスからの洞察

Advancing an Interdisciplinary Science of Conversation: Insights from a Large Multimodal Corpus of Human Speech ( http://arxiv.org/abs/2203.00674v1 )

ライセンス: Link先を確認
Andrew Reece, Gus Cooney, Peter Bull, Christine Chung, Bryn Dawson, Casey Fitzpatrick, Tamara Glazer, Dean Knox, Alex Liebscher and Sebastian Marin(参考訳) 人々は人生の大部分を会話に費やしていますが、私たちの会話に関する科学的理解はまだ初期段階です。 本報告では,対話の学際的科学を推進し,音声による会話を1,656件記録した,大規模で斬新な多モーダルコーパスから発見する。 この700万語以上の単語と850時間のコーパスは、1TB以上の音声、ビデオ、文字起こし、音声、顔、セマンティック表現のモーメント・ツー・モーメント、および話者の会話のリフレクションの広範な調査を含む。 コーパスのかなりの範囲を活用して,(1)人間のターンテイクの協調性,(2)音声を会話のターンに分割するための新しいアルゴリズムの手順,(3)会話が成功するか失敗するかを分析するためのさまざまなテキスト,聴覚,視覚的特徴に機械学習の洞察を適用し,(4)会話がライフスパン全体の幸福とどのように関係しているかを探求する。 また, 様々な背景の個人がコミュニケーションパターンをどう変化させ, 接続する方法を見出すかを示す, 定量的分析と定性的な各録音の質的レビューに基づく総合的混合手法レポートを報告した。 さまざまな分野の学者が会話研究に関心を抱いているようにみえるため、この大規模な公開データセットが今後の研究、特に学際的な境界を越えてどのように新たな方向性を提供するかについて議論した。

People spend a substantial portion of their lives engaged in conversation, and yet our scientific understanding of conversation is still in its infancy. In this report we advance an interdisciplinary science of conversation, with findings from a large, novel, multimodal corpus of 1,656 recorded conversations in spoken English. This 7+ million word, 850 hour corpus totals over 1TB of audio, video, and transcripts, with moment-to-moment measures of vocal, facial, and semantic expression, along with an extensive survey of speaker post conversation reflections. We leverage the considerable scope of the corpus to (1) extend key findings from the literature, such as the cooperativeness of human turn-taking; (2) define novel algorithmic procedures for the segmentation of speech into conversational turns; (3) apply machine learning insights across various textual, auditory, and visual features to analyze what makes conversations succeed or fail; and (4) explore how conversations are related to well-being across the lifespan. We also report (5) a comprehensive mixed-method report, based on quantitative analysis and qualitative review of each recording, that showcases how individuals from diverse backgrounds alter their communication patterns and find ways to connect. We conclude with a discussion of how this large-scale public dataset may offer new directions for future research, especially across disciplinary boundaries, as scholars from a variety of fields appear increasingly interested in the study of conversation.
翻訳日:2022-03-02 14:55:07 公開日:2022-03-01
# 機械学習とニューラルネットワークを用いた脳卒中予測のための予測分析手法

A predictive analytics approach for stroke prediction using machine learning and neural networks ( http://arxiv.org/abs/2203.00497v1 )

ライセンス: Link先を確認
Soumyabrata Dev, Hewei Wang, Chidozie Shamrock Nwosu, Nishtha Jain, Bharadwaj Veeravalli, and Deepu John(参考訳) 社会における脳梗塞の負の影響は、脳卒中の管理と診断を改善するための共同努力につながっている。 技術と医療診断の相乗効果が高まり、介護者は患者の医療記録を体系的に発掘しアーカイブすることで、より良い患者管理の機会を創出する。 したがって、患者の健康記録におけるこれらの危険因子の相互依存性を調べ、脳卒中予測への相対的寄与を理解することが重要である。 本稿では,脳卒中予測のための電子健康記録の諸因子を系統的に分析する。 様々な統計手法と主成分分析を用いて、脳卒中予測の最も重要な要因を同定する。 以上の結果から, 年齢, 心疾患, 平均血糖値, 高血圧が脳卒中検出の最も重要な因子であることが示唆された。 さらに、これら4つの属性を用いたパーセプトロンニューラルネットワークは、利用可能なすべての入力特徴や他のベンチマークアルゴリズムを使用する場合と比較して、高い精度と最も低いミス率を提供する。 脳卒中の発生に関してデータセットは高度にバランスが取れないため,サブサンプリング技術を用いて作成したバランスの取れたデータセットについて報告する。

The negative impact of stroke in society has led to concerted efforts to improve the management and diagnosis of stroke. With an increased synergy between technology and medical diagnosis, caregivers create opportunities for better patient management by systematically mining and archiving the patients' medical records. Therefore, it is vital to study the interdependency of these risk factors in patients' health records and understand their relative contribution to stroke prediction. This paper systematically analyzes the various factors in electronic health records for effective stroke prediction. Using various statistical techniques and principal component analysis, we identify the most important factors for stroke prediction. We conclude that age, heart disease, average glucose level, and hypertension are the most important factors for detecting stroke in patients. Furthermore, a perceptron neural network using these four attributes provides the highest accuracy rate and lowest miss rate compared to using all available input features and other benchmarking algorithms. As the dataset is highly imbalanced concerning the occurrence of stroke, we report our results on a balanced dataset created via sub-sampling techniques.
翻訳日:2022-03-02 14:52:34 公開日:2022-03-01
# コネクテッド・オートモービルにおけるスプーフィング攻撃検出のためのRADAR機能の説明

Explaining RADAR features for detecting spoofing attacks in Connected Autonomous Vehicles ( http://arxiv.org/abs/2203.00150v1 )

ライセンス: Link先を確認
Nidhi Rastogi, Sara Rampazzi, Michael Clifford, Miriam Heller, Matthew Bishop, Karl Levitt(参考訳) connected autonomous vehicles(cavs)は、サイバー攻撃を防ぐためにaiシステムを組み込むことが期待されている。 機械学習(ML)モデルは、このようなAIシステムの基盤となる。 これらのモデルはブラックボックスのように振る舞うことで悪名高く、入力を高い精度でソリューションに変換するが、彼らの決定を支持する説明はない。 モデルのパフォーマンスを伝え、決定を透過化し、ステークホルダーとモデルに対する信頼を確立するために、説明が必要です。 例えば、MLモデルが低信頼の判断を下したり、複数のあるいは曖昧な代替手段を提供する場合などである。 説明は事故後の法医学的分析の証拠でもある。 セキュリティ問題に対する説明可能なMLの研究は限られている。 本稿では,ML攻撃検出モデルの訓練,特に自動車などの高移動・リスク回避プラットフォームにおける重要かつ未調査なセンサデータであるtextit{uncertainty}問題について述べる。 本稿では,センサ入力における \textit{certainty} と \textit{uncertainty} を説明するモデルを提案する。 モデル説明は入力データの品質を説明できないシステムでは不正確であると仮定する。 レーダセンサデータの特徴量について,<textit{uncertainty} と質量関数を推定し,実験評価によりトレーニングモデルに組み込む。 マス関数により、分類器は全てのスプーフ入力を不正なクラスラベルで正確に分類することができる。

Connected autonomous vehicles (CAVs) are anticipated to have built-in AI systems for defending against cyberattacks. Machine learning (ML) models form the basis of many such AI systems. These models are notorious for acting like black boxes, transforming inputs into solutions with great accuracy, but no explanations support their decisions. Explanations are needed to communicate model performance, make decisions transparent, and establish trust in the models with stakeholders. Explanations can also indicate when humans must take control, for instance, when the ML model makes low confidence decisions or offers multiple or ambiguous alternatives. Explanations also provide evidence for post-incident forensic analysis. Research on explainable ML to security problems is limited, and more so concerning CAVs. This paper surfaces a critical yet under-researched sensor data \textit{uncertainty} problem for training ML attack detection models, especially in highly mobile and risk-averse platforms such as autonomous vehicles. We present a model that explains \textit{certainty} and \textit{uncertainty} in sensor input -- a missing characteristic in data collection. We hypothesize that model explanation is inaccurate for a given system without explainable input data quality. We estimate \textit{uncertainty} and mass functions for features in radar sensor data and incorporate them into the training model through experimental evaluation. The mass function allows the classifier to categorize all spoofed inputs accurately with an incorrect class label.
翻訳日:2022-03-02 14:52:14 公開日:2022-03-01
# FIRL: 迅速な模倣と政策再利用学習

FIRL: Fast Imitation and Policy Reuse Learning ( http://arxiv.org/abs/2203.00251v1 )

ライセンス: Link先を確認
Yiwen Chen, Zedong Zhang, Haofeng Liu, Jiayi Tan, Marcelo Ang(参考訳) インテリジェントなロボティクスポリシーは、ドアを開ける、皿を洗う、テーブルを組織するといった挑戦的な用途のために広く研究されている。 簡単にアクセスして再利用できるスキルを含む"Policy Pool"について言及する。 このプールを活用するための研究としては、ポリシの再利用、モジュール学習、アセンブリ学習、転送学習、階層強化学習(hrl)などがある。 しかし、ほとんどの手法は学習効率が良くないため、トレーニングには大規模なデータセットが必要である。 この作業は、ポリシープールに基づいた高速学習の実現に焦点を当てている。 スクラッチから学ぶことを避けることで、ワンショットや数ショットで十分な速さで学習するべきです。 また、人間と対話し、学ぶことも可能ですが、トレーニング期間は数分以内に行うべきです。 FIRL,Fast (ワンショット) Imitation, Policy Reuse Learningを提案する。 スクラッチから新しいスキルを学ぶ代わりに、2層階層機構の下で、より高い層でワンショット模倣学習を実行する。 本手法は,数回のオフラインイテレーションで解決可能な,複雑なタスク学習を単純な回帰問題に還元する。 エージェントは、一発のデモンストレーションから新しいタスクをうまく指揮することができる。 我々はこの方法をOpenDoorsのミニグリッド環境でデモし、コードはhttp://www.github.co m/yiwc/firl.comで公開されている。

Intelligent robotics policies have been widely researched for challenging applications such as opening doors, washing dishes, and table organization. We refer to a "Policy Pool", containing skills that be easily accessed and reused. There are researches to leverage the pool, such as policy reuse, modular learning, assembly learning, transfer learning, hierarchical reinforcement learning (HRL), etc. However, most methods generally do not perform well in learning efficiency and require large datasets for training. This work focuses on enabling fast learning based on the policy pool. It should learn fast enough in one-shot or few-shot by avoiding learning from scratch. We also allow it to interact and learn from humans, but the training period should be within minutes. We propose FIRL, Fast (one-shot) Imitation, and Policy Reuse Learning. Instead of learning a new skill from scratch, it performs the one-shot imitation learning on the higher layer under a 2-layer hierarchical mechanism. Our method reduces a complex task learning to a simple regression problem that it could solve in a few offline iterations. The agent could have a good command of a new task given a one-shot demonstration. We demonstrate this method on the OpenDoors mini-grid environment, and the code is available on http://www.github.co m/yiwc/firl.
翻訳日:2022-03-02 14:51:48 公開日:2022-03-01
# まずは、損傷したヒューマノイドロボットで環境を悪用する学習

First do not fall: learning to exploit the environment with a damaged humanoid robot ( http://arxiv.org/abs/2203.00316v1 )

ライセンス: Link先を確認
Timoth\'ee Anne, Elo\"ise Dalin, Ivan Bergonzani, Serena Ivaldi, and Jean-Baptiste Mouret(参考訳) 人間型ロボットは、危険な状況下で人間を置き換えることができるが、そのような状況は彼らにとって同様に危険である。 私たちは、ヒューマノイドロボットは建物で主に使用されるだろうと考えており、壁の近くにいる可能性が高い。 転倒を避けるために、手を置く場所が数ミリ秒で見つかると、人間のように最も近い壁に傾くことができる。 本稿では, 壁方向, 壁距離, ロボットの姿勢に応じて, この接触位置を選択するニューラルネットワークを学習するD-Reflexという手法を紹介する。 この接触位置は全身制御装置によって安定した姿勢に達するために使用される。 d-reflexはタロスロボット(1.75m,100kg,30度自由度)が回避可能な落下の75%以上を回避できることを示した。

Humanoid robots could replace humans in hazardous situations but most of such situations are equally dangerous for them, which means that they have a high chance of being damaged and fall. We hypothesize that humanoid robots would be mostly used in buildings, which makes them likely to be close to a wall. To avoid a fall, they can therefore lean on the closest wall, like a human would do, provided that they find in a few milliseconds where to put the hand(s). This article introduces a method, called D-Reflex, that learns a neural network that chooses this contact position given the wall orientation, the wall distance, and the posture of the robot. This contact position is then used by a whole-body controller to reach a stable posture. We show that D-Reflex allows a simulated TALOS robot (1.75m, 100kg, 30 degrees of freedom) to avoid more than 75% of the avoidable falls.
翻訳日:2022-03-02 14:51:29 公開日:2022-03-01
# OpenDR: ロボットのための高性能でフットプリントの少ないディープラーニングを実現するためのオープンツールキット

OpenDR: An Open Toolkit for Enabling High Performance, Low Footprint Deep Learning for Robotics ( http://arxiv.org/abs/2203.00403v1 )

ライセンス: Link先を確認
N. Passalis, S. Pedrazzi, R. Babuska, W. Burgard, D. Dias, F. Ferro, M. Gabbouj, O. Green, A. Iosifidis, E. Kayacan, J. Kober, O. Michel, N. Nikolaidis, P. Nousi, R. Pieters, M. Tzelepi, A. Valada, and A. Tefas(参考訳) 既存のディープラーニング(DL)フレームワークは、通常、非常に特定の学習、推論、実施上の問題が存在するロボット工学に使えるソリューションを提供しない。 比較的急勾配の学習曲線とDLが採用する方法論は、従来のアプローチと異なり、DLモデルの複雑さが高いため、特殊なハードウェアアクセラレーターを採用する必要がしばしばあり、ロボット工学におけるDLモデルの使用に必要な労力とコストが増大する。 また、既存のDL手法の多くは、従来のコンピュータビジョンパイプラインが継承した静的推論パラダイムに従い、アクティブな知覚を無視し、知覚精度を高めるために環境とアクティブに対話するために使用できる。 本稿では,Open Deep Learning Toolkit for Robotics (OpenDR)を紹介する。 OpenDRは、ロボット企業や研究機関がAIと認知技術をロボットアプリケーションに効率的に開発、展開するために、オープンで、非プロプライエタリで、効率的で、モジュール化されたツールキットを開発することを目的としている。 また、これらの課題を克服するために作成された抽象インターフェースとともに、設計の選択を詳述した。 このインターフェースは、従来のDL認知と推論を超えて、オープン性、均一性、ロボット指向の知覚を、例えばアクティブな知覚を通じて、その中核となる設計原則として組み込むことができる。

Existing Deep Learning (DL) frameworks typically do not provide ready-to-use solutions for robotics, where very specific learning, reasoning, and embodiment problems exist. Their relatively steep learning curve and the different methodologies employed by DL compared to traditional approaches, along with the high complexity of DL models, which often leads to the need of employing specialized hardware accelerators, further increase the effort and cost needed to employ DL models in robotics. Also, most of the existing DL methods follow a static inference paradigm, as inherited by the traditional computer vision pipelines, ignoring active perception, which can be employed to actively interact with the environment in order to increase perception accuracy. In this paper, we present the Open Deep Learning Toolkit for Robotics (OpenDR). OpenDR aims at developing an open, non-proprietary, efficient, and modular toolkit that can be easily used by robotics companies and research institutions to efficiently develop and deploy AI and cognition technologies to robotics applications, providing a solid step towards addressing the aforementioned challenges. We also detail the design choices, along with an abstract interface that was created to overcome these challenges. This interface can describe various robotic tasks, spanning beyond traditional DL cognition and inference, as known by existing frameworks, incorporating openness, homogeneity and robotics-oriented perception e.g., through active perception, as its core design principles.
翻訳日:2022-03-02 14:51:14 公開日:2022-03-01
# マルチスピーカエンドツーエンドASRのための拡張グラフ時間分類

Extended Graph Temporal Classification for Multi-Speaker End-to-End ASR ( http://arxiv.org/abs/2203.00232v1 )

ライセンス: Link先を確認
Xuankai Chang, Niko Moritz, Takaaki Hori, Shinji Watanabe, Jonathan Le Roux(参考訳) グラフに基づく時間的分類法(GTC)は,近年,グラフに基づく監視を用いて自動音声認識(ASR)システムを改善するために提案されている。 例えば、GTCは最初、擬ラベル配列のN-bestリストを半教師付き学習用のグラフにエンコードするために使われた。 本稿では,より広い範囲のタスクに適用可能なニューラルネットワークを用いて,ラベルとラベル遷移の両方の後方をモデル化するためのgtcの拡張を提案する。 例として,多話者音声認識タスクに拡張GTC(GTC-e)を用いる。 マルチスピーカ音声の書き起こし及び話者情報はグラフで表現され、話者情報は遷移に関連付けられ、ASRはノードに出力される。 GTC-eを用いて、複数話者によるトークンは時系列順に単一のマージシーケンスとして認識されるため、マルチスピーカーASRモデリングは単一話者ASRモデリングと非常によく似ている。 評価のために,librispeechから派生したマルチスピーカー音声データセットのシミュレーション実験を行い,タスクの古典的なベンチマークに近い性能で有望な結果を得た。

Graph-based temporal classification (GTC), a generalized form of the connectionist temporal classification loss, was recently proposed to improve automatic speech recognition (ASR) systems using graph-based supervision. For example, GTC was first used to encode an N-best list of pseudo-label sequences into a graph for semi-supervised learning. In this paper, we propose an extension of GTC to model the posteriors of both labels and label transitions by a neural network, which can be applied to a wider range of tasks. As an example application, we use the extended GTC (GTC-e) for the multi-speaker speech recognition task. The transcriptions and speaker information of multi-speaker speech are represented by a graph, where the speaker information is associated with the transitions and ASR outputs with the nodes. Using GTC-e, multi-speaker ASR modelling becomes very similar to single-speaker ASR modeling, in that tokens by multiple speakers are recognized as a single merged sequence in chronological order. For evaluation, we perform experiments on a simulated multi-speaker speech dataset derived from LibriSpeech, obtaining promising results with performance close to classical benchmarks for the task.
翻訳日:2022-03-02 14:50:36 公開日:2022-03-01
# ArabGend: アラビア語のTwitterで性分析と推論

ArabGend: Gender Analysis and Inference on Arabic Twitter ( http://arxiv.org/abs/2203.00271v1 )

ライセンス: Link先を確認
Hamdy Mubarak, Shammur Absar Chowdhury, Firoj Alam(参考訳) twitterの性別分析は、男性と女性の間の重要な社会文化的違いを明らかにすることができる。 これまで、最も広く話されている言語のコンテンツについて、性別を分析・推定する努力は盛んに行われてきたが、我々の知識により、アラビア語では非常に限定的な作業が行われている。 本稿では,アラビア語のtwitter界における男女間の差異を広範囲に分析する。 専門職におけるユーザエンゲージメントの違い,関心トピック,男女差について検討した。 また、性別分析とともに、友達のユーザ名、プロフィール写真、ツイート、ネットワークを利用して性別を推測する手法を提案する。 そのために私たちは,約92Kのユーザロケーションに関連付けられた166万のTwitterアカウントの性別と位置情報を手作業でアノテートしました。 提案手法は,F1スコアが82.1%であり,過半数ベースラインよりも47.3%高い。 さらに、デモを開発して公開しました。

Gender analysis of Twitter can reveal important socio-cultural differences between male and female users. There has been a significant effort to analyze and automatically infer gender in the past for most widely spoken languages' content, however, to our knowledge very limited work has been done for Arabic. In this paper, we perform an extensive analysis of differences between male and female users on the Arabic Twitter-sphere. We study differences in user engagement, topics of interest, and the gender gap in professions. Along with gender analysis, we also propose a method to infer gender by utilizing usernames, profile pictures, tweets, and networks of friends. In order to do so, we manually annotated gender and locations for ~166K Twitter accounts associated with ~92K user location, which we plan to make publicly available at http://anonymous.com . Our proposed gender inference method achieve an F1 score of 82.1%, which is 47.3% higher than majority baseline. In addition, we also developed a demo and made it publicly available.
翻訳日:2022-03-02 14:49:44 公開日:2022-03-01
# BERT-LID: BERTを活用して音声言語識別を改善する

BERT-LID: Leveraging BERT to Improve Spoken Language Identification ( http://arxiv.org/abs/2203.00328v1 )

ライセンス: Link先を確認
Yuting Nie, Junhong Zhao, Wei-Qiang Zhang, Jinfeng Bai, Zhongqin Wu(参考訳) 言語識別は、音声区間によって伝達される言語の識別を自動的に決定するタスクである。 インテリジェントな音声システムの多言語間相互運用性に大きな影響を与える。 中・長発話(>3s)における言語識別の精度は高いものの,短い発話(<=1s)の性能は満足のいくものとはほど遠い。 本稿では,言語識別性能を向上させるための効果的なbert型言語識別システム(bert-lid)を提案する。 LIDパイプラインにBERTを適応させるために、BERTの前に接続ネットワークをドロップして、フロントエンドの電話認識器から派生したフレームレベルのPhontic Posteriorgrams(PPG)を適合させ、接続ネットワークとBERT事前学習モデルの微調整を行う。 我々は,BERTとCNN,LSTM,DPCNN,RCNNを併用するなど,このパイプ化フレームワークの様々なバリエーションを評価する。 実験の結果, RCNN-BERTが最適性能を示した。 従来のRCNN-BERTモデルと比較すると,長期識別では約5%,短期識別では18%の精度で精度が向上する。 私たちのモデルのアウトパフォーマンス、特に短期的なタスクは、提案するbertベースのアプローチが言語識別に適用可能であることを示している。

Language identification is a task of automatically determining the identity of a language conveyed by a spoken segment. It has a profound impact on the multilingual interoperability of an intelligent speech system. Despite language identification attaining high accuracy on medium or long utterances (>3s), the performance on short utterances (<=1s) is still far from satisfactory. We propose an effective BERT-based language identification system (BERT-LID) to improve language identification performance, especially on short-duration speech segments. To adapt BERT into the LID pipeline, we drop in a conjunction network prior to BERT to accommodate the frame-level Phonetic Posteriorgrams(PPG) derived from the frontend phone recognizer and then fine-tune the conjunction network and BERT pre-trained model together. We evaluate several variations within this piped framework, including combining BERT with CNN, LSTM, DPCNN, and RCNN. The experimental results demonstrate that the best-performing model is RCNN-BERT. Compared with the prior works, our RCNN-BERT model can improve the accuracy by about 5% on long-segment identification and 18% on short-segment identification. The outperformance of our model, especially on the short-segment task, demonstrates the applicability of our proposed BERT-based approach on language identification.
翻訳日:2022-03-02 14:49:27 公開日:2022-03-01
# 自己監督型プレトレーニングにおける個人領域因子の影響の測定

Measuring the Impact of Individual Domain Factors in Self-Supervised Pre-Training ( http://arxiv.org/abs/2203.00648v1 )

ライセンス: Link先を確認
Ramon Sanabria, Wei-Ning Hsu, Alexei Baevski, Michael Auli(参考訳) 人間の音声データにはアクセント、構文、意味の多様性、音響環境といったドメイン要素が豊富に含まれている。 従来,事前学習と微調整の音声認識におけるドメインミスマッチの効果について検討してきたが,個々の要因の寄与を判別することはできなかった。 本稿では,事前学習された表現の性能に及ぼす因子の影響をよりよく理解するための制御研究について述べる。 そのために,1つの領域因子を修飾した修正自然音声か合成音声のいずれかのモデルの事前学習を行い,微調整後の自動音声認識の性能を測定した。 その結果,音素領域因子は事前学習において重要な役割を担っていることが明らかとなった。 本研究は,音声の自己教師付き事前学習におけるドメイン特性の理解を深めた最初の研究である。

Human speech data comprises a rich set of domain factors such as accent, syntactic and semantic variety, or acoustic environment. Previous work explores the effect of domain mismatch in automatic speech recognition between pre-training and fine-tuning as a whole but does not dissect the contribution of individual factors. In this paper, we present a controlled study to better understand the effect of such factors on the performance of pre-trained representations. To do so, we pre-train models either on modified natural speech or synthesized audio, with a single domain factor modified, and then measure performance on automatic speech recognition after fine tuning. Results show that phonetic domain factors play an important role during pre-training while grammatical and syntactic factors are far less important. To our knowledge, this is the first study to better understand the domain characteristics in self-supervised pre-training for speech.
翻訳日:2022-03-02 14:49:04 公開日:2022-03-01
# 人を自動的に検出するロボット:クラス内変動に頑健なマルチモーダル・コントラスト学習法

Robots Autonomously Detecting People: A Multimodal Deep Contrastive Learning Method Robust to Intraclass Variations ( http://arxiv.org/abs/2203.00187v1 )

ライセンス: Link先を確認
Angus Fung, Beno Benhabib, Goldie Nejat(参考訳) 病院, 長期ケア, 店舗, 空港など, 混み合った, あるいは散らばった人間中心の環境にいる人々のロボットによる検出は, 他者や物に遮られ, 衣服やポーズのバリエーションによって変形するので困難である。 照明が弱いため、識別的な視覚的特徴が失われることもある。 本稿では,クラス内変動下での人検出の移動ロボット問題に対処する,新しいマルチモーダル人検出アーキテクチャを提案する。 2段階のトレーニング手法を提案する。 1) 時間不変なマルチモーダルコントラスト学習(TimCLR)と定義する独自の事前学習手法 2)MFRCNN(Multimodal Faster R-CNN)検出器。 TimCLRは教師なし学習を通じてクラス内で不変な人表現を学習する。 本手法は,多様画像列内の自然な変動から画像対を生成し,合成データ拡張に加え,異なるモダリティ間の不変性を伝達するクロスモーダル特徴をコントラストする点においてユニークな手法である。 これらの事前訓練された特徴は、RGB-D画像からの微調整と人物検出のためにMFRCNN検出器によって使用される。 人中心混在環境と散在環境の両方におけるDLアーキテクチャの性能評価実験を行った。 提案手法は, 異なる照明条件下での身体閉塞者やポーズ変形者の検出において, 検出精度の観点から, 既存のユニモーダル・マルチモーダル人物検出手法よりも優れていることを示す。

Robotic detection of people in crowded and/or cluttered human-centered environments including hospitals, long-term care, stores and airports is challenging as people can become occluded by other people or objects, and deform due to variations in clothing or pose. There can also be loss of discriminative visual features due to poor lighting. In this paper, we present a novel multimodal person detection architecture to address the mobile robot problem of person detection under intraclass variations. We present a two-stage training approach using 1) a unique pretraining method we define as Temporal Invariant Multimodal Contrastive Learning (TimCLR), and 2) a Multimodal Faster R-CNN (MFRCNN) detector. TimCLR learns person representations that are invariant under intraclass variations through unsupervised learning. Our approach is unique in that it generates image pairs from natural variations within multimodal image sequences, in addition to synthetic data augmentation, and contrasts crossmodal features to transfer invariances between different modalities. These pretrained features are used by the MFRCNN detector for finetuning and person detection from RGB-D images. Extensive experiments validate the performance of our DL architecture in both human-centered crowded and cluttered environments. Results show that our method outperforms existing unimodal and multimodal person detection approaches in terms of detection accuracy in detecting people with body occlusions and pose deformations in different lighting conditions.
翻訳日:2022-03-02 14:47:19 公開日:2022-03-01
# コロニー核同定とカウントのための分離型ホバーネットとインスタンス型YOLO

Separable-HoverNet and Instance-YOLO for Colon Nuclei Identification and Counting ( http://arxiv.org/abs/2203.00262v1 )

ライセンス: Link先を確認
Chunhui Lin and Liukun Zhang and Lijian Mao and Min Wu and Dong Hu(参考訳) Haematoxylin & Eosin染色組織像中の核セグメンテーション、分類、定量化は、計算病理学(CPath)において下流で説明可能なモデルで使用できる解釈可能な細胞ベースの特徴の抽出を可能にする。 しかし、異なる原子核の自動認識は、いくつかの異なる種類の原子核が存在するという点で大きな課題に直面している。 本稿では,separable-hovernetとinstance-yolov5を組み合わせることで,結腸核を小さく非平衡化する手法を提案する。 提案手法は,isbi 2022 conic challengeのセル構成-予備テストデータセットにおいて,セグメンテーションと分類-予備テストデータセットでmpq+0.389,r2 0.599を実現できる。

Nuclear segmentation, classification and quantification within Haematoxylin & Eosin stained histology images enables the extraction of interpretable cell-based features that can be used in downstream explainable models in computational pathology (CPath). However, automatic recognition of different nuclei is faced with a major challenge in that there are several different types of nuclei, some of them exhibiting large intraclass variability. In this work, we propose an approach that combine Separable-HoverNet and Instance-YOLOv5 to indentify colon nuclei small and unbalanced. Our approach can achieve mPQ+ 0.389 on the Segmentation and Classification-Preli minary Test Dataset and r2 0.599 on the Cellular Composition-Prelimin ary Test Dataset on ISBI 2022 CoNIC Challenge.
翻訳日:2022-03-02 14:46:54 公開日:2022-03-01
# (参考訳) 3次元PET画像における出力予測のためのマルチタスクマルチスケール学習 [全文訳有]

Multi-Task Multi-Scale Learning For Outcome Prediction in 3D PET Images ( http://arxiv.org/abs/2203.00641v1 )

ライセンス: CC BY 4.0
Amine Amyar, Romain Modzelewski, Pierre Vera, Vincent Morard, Su Ruan(参考訳) 背景と目的: 腫瘍学における治療と生存に対する患者反応の予測は、精密医療への顕著なアプローチである。 そのために、画像が侵襲的な方法の代わりに使用される分野として放射線学が提案された。 放射線分析の最初のステップは、病変のセグメンテーションである。 しかし、この作業は時間がかかり、医師の主観化が可能である。 教師付き深層学習に基づく自動化ツールは、医師を支援するために大きな進歩を遂げた。 しかし、これらのデータは空腹であり、注釈付き画像のごく一部しか利用できない医療分野では、注釈付きデータは依然として大きな問題となっている。 方法:本研究では,患者の生存と反応を予測するためのマルチタスク学習フレームワークを提案する。 エンコーダは複数のタスクを有効活用して有意義で強力な特徴を抽出し,放射能性能を向上させる。 また,補助的なタスクが帰納的バイアスとなり,モデルがより一般化できることを示した。 結果: 肺癌および食道癌に対する治療効果と生存率について, ROC曲線が77%, 食道癌が71%で, 単タスク学習法が77%, 単タスク学習法が71%であった。 結論: マルチタスク・ラーニング・アプローチにより, 腫瘍内および縦隔領域の豊富な情報を抽出することにより, 放射線解析の性能を向上させることができることを示す。

Background and Objectives: Predicting patient response to treatment and survival in oncology is a prominent way towards precision medicine. To that end, radiomics was proposed as a field of study where images are used instead of invasive methods. The first step in radiomic analysis is the segmentation of the lesion. However, this task is time consuming and can be physician subjective. Automated tools based on supervised deep learning have made great progress to assist physicians. However, they are data hungry, and annotated data remains a major issue in the medical field where only a small subset of annotated images is available. Methods: In this work, we propose a multi-task learning framework to predict patient's survival and response. We show that the encoder can leverage multiple tasks to extract meaningful and powerful features that improve radiomics performance. We show also that subsidiary tasks serve as an inductive bias so that the model can better generalize. Results: Our model was tested and validated for treatment response and survival in lung and esophageal cancers, with an area under the ROC curve of 77% and 71% respectively, outperforming single task learning methods. Conclusions: We show that, by using a multi-task learning approach, we can boost the performance of radiomic analysis by extracting rich information of intratumoral and peritumoral regions.
翻訳日:2022-03-02 14:46:04 公開日:2022-03-01
# ディープベイズ線形回帰におけるランダム特徴と学習特徴の対比

Contrasting random and learned features in deep Bayesian linear regression ( http://arxiv.org/abs/2203.00573v1 )

ライセンス: Link先を確認
Jacob A. Zavatone-Veth, William L. Tong, and Cengiz Pehlevan(参考訳) 特徴学習が一般化にどのように影響するかを理解することは、現代のディープラーニング理論の最も重要な目標である。 本稿では,表現の学習能力が,非構造ガウスデータに基づく深部ベイズ線形ニューラルネットワークの一般化性能に与える影響について検討する。 すべての層がトレーニングされたディープネットワークとディープランダム特徴モデルを比較することで、幅、深さ、データ密度、事前ミスマッチの間の相互作用の詳細な特徴付けを提供する。 両モデルとも,ラベルノイズの存在下での二重発振挙動を示す。 ランダム特徴モデルは、狭いボトルネック層がある場合、モデルワイドのダブルディフレッシュを表示することもできる。 ランダム特徴モデルは与えられたデータ密度での一般化に最適な特定の幅を持つが、ニューラルネットワークを可能な限り幅や幅を狭くすることは常に最適である。 さらに,カーネル限界学習曲線の先行順序補正は,全ての層が訓練されるような,ランダムな特徴モデルとディープネットワークを区別できないことを示す。 まとめると、この単純な回帰モデルでは、アーキテクチャの詳細が一般化性能にどのように影響するかが解明される。

Understanding how feature learning affects generalization is among the foremost goals of modern deep learning theory. Here, we study how the ability to learn representations affects the generalization performance of a simple class of models: deep Bayesian linear neural networks trained on unstructured Gaussian data. By comparing deep random feature models to deep networks in which all layers are trained, we provide a detailed characterization of the interplay between width, depth, data density, and prior mismatch. We show that both models display sample-wise double-descent behavior in the presence of label noise. Random feature models can also display model-wise double-descent if there are narrow bottleneck layers, while deep networks do not show these divergences. Random feature models can have particular widths that are optimal for generalization at a given data density, while making neural networks as wide or as narrow as possible is always optimal. Moreover, we show that the leading-order correction to the kernel-limit learning curve cannot distinguish between random feature models and deep networks in which all layers are trained. Taken together, our findings begin to elucidate how architectural details affect generalization performance in this simple class of deep regression models.
翻訳日:2022-03-02 14:29:11 公開日:2022-03-01
# ユークリッド空間に埋め込まれた低次元データからの学習の副作用

Side-effects of Learning from Low Dimensional Data Embedded in an Euclidean Space ( http://arxiv.org/abs/2203.00614v1 )

ライセンス: Link先を確認
Juncai He, Richard Tsai, Rachel Ward(参考訳) 低次元多様体仮説は、自然画像を含む多くの応用で見られるデータは、高次元ユークリッド空間に埋め込まれた低次元多様体の上(概ね)にあると仮定している。 この設定では、典型的なニューラルネットワークは、埋め込み空間内の有限個のベクトルを入力として取る関数を定義する。 しかし、トレーニング分布の外側の地点で最適化されたネットワークを評価することを検討する必要がある。 本稿では、トレーニングデータが$\mathbb r^d$の線形部分空間に分布する場合を考える。 ニューラルネットワークによって定義される学習関数の変動を,部分空間を横断する方向において推定する。 データ多様体の余次元におけるネットワークの深さと雑音に関連する潜在正規化効果について検討する。 また,騒音の存在により,トレーニングの副作用も増す。

The low dimensional manifold hypothesis posits that the data found in many applications, such as those involving natural images, lie (approximately) on low dimensional manifolds embedded in a high dimensional Euclidean space. In this setting, a typical neural network defines a function that takes a finite number of vectors in the embedding space as input. However, one often needs to consider evaluating the optimized network at points outside the training distribution. This paper considers the case in which the training data is distributed in a linear subspace of $\mathbb R^d$. We derive estimates on the variation of the learning function, defined by a neural network, in the direction transversal to the subspace. We study the potential regularization effects associated with the network's depth and noise in the codimension of the data manifold. We also present additional side effects in training due to the presence of noise.
翻訳日:2022-03-02 14:28:51 公開日:2022-03-01
# 無条件等価探索による因果構造学習

Causal Structure Learning with Greedy Unconditional Equivalence Search ( http://arxiv.org/abs/2203.00521v1 )

ライセンス: Link先を確認
Alex Markham, Danai Deligeorgaki, Pratik Misra, and Liam Solus(参考訳) 我々は、有向非巡回グラフ(DAG)モデルを非条件同値(unconditional equivalence)、すなわち、2つのDAGが同じ非条件d-分離文を持つ場合に特徴付ける問題を考える。 それぞれの無条件同値類(UEC)は、そのクラスのメンバーをコードする傾き構造を持つ無向グラフで一意に表現することができる。 この構造のため、非条件同値の変換的特徴付けを提供する。 これらの結果を組み合わせて、Greedy Unconditional Equivalence Search (GUES)と呼ばれる観測データからDAGモデルを学習するためのハイブリッドアルゴリズムを導入する。 合成データにGUESを適用することで,既存の手法に匹敵する精度が得られることを示す。 しかし、従来の手法とは対照的に、平均的なUCCはDAGが少ないことが観察されるため、GUESの検索スペースは大幅に削減される。

We consider the problem of characterizing directed acyclic graph (DAG) models up to unconditional equivalence, i.e., when two DAGs have the same set of unconditional d-separation statements. Each unconditional equivalence class (UEC) can be uniquely represented with an undirected graph whose clique structure encodes the members of the class. Via this structure, we provide a transformational characterization of unconditional equivalence. Combining these results, we introduce a hybrid algorithm for learning DAG models from observational data, called Greedy Unconditional Equivalence Search (GUES), which first estimates the UEC of the data using independence tests and then greedily searches the UEC for the optimal DAG. Applying GUES on synthetic data, we show that it achieves comparable accuracy to existing methods. However, in contrast to existing methods, since the average UEC is observed to contain few DAGs, the search space for GUES is drastically reduced.
翻訳日:2022-03-02 14:25:55 公開日:2022-03-01
# ASRエラーを用いたマルチモーダル感性分析のための感性単語認識

Sentiment Word Aware Multimodal Refinement for Multimodal Sentiment Analysis with ASR Errors ( http://arxiv.org/abs/2203.00257v1 )

ライセンス: Link先を確認
Yang Wu, Yanyan Zhao, Hao Yang, Song Chen, Bing Qin, Xiaohuan Cao, Wenting Zhao(参考訳) マルチモーダル感情分析は注目を集め、多くのモデルが提案されている。 しかし,現状のモデルの性能は実世界での展開によって急激に低下する。 主な理由は,実世界のアプリケーションが自動音声認識(ASR)モデルによるテキスト出力にのみアクセス可能であることにある。 ASR出力のさらなる分析により、テキストモダリティにおける重要な感情要素である感情語が他の単語として認識され、テキストの感情が変化し、マルチモーダル感情モデルの性能が直接的に損なわれることが分かる。 そこで本研究では,マルチモーダル感情の手がかりを活用し,誤った感情語を動的に洗練することができる感情語認識マルチモーダルリファインメントモデル(swrm)を提案する。 具体的には、まず感情単語の位置検出モジュールを用いて、テキスト中の感情単語の最も可能な位置を抽出し、マルチモーダル感情単語洗練モジュールを用いて感情単語の埋め込みを動的に洗練する。 洗練された埋め込みは、感情ラベルを予測するためにマルチモーダル特徴融合モジュールのテキスト入力として取られる。 我々は,MOSI-Speechbrain,MO SI-IBM,MOSI-iFlytekなどの実世界のデータセットに関する広範な実験を行い,本モデルの有効性を示した。 さらに,本手法は他のマルチモーダル機能融合モデルにも容易に適用できる。 データとコードはhttps://github.com/a lbertwy/SWRM.comで入手できる。

Multimodal sentiment analysis has attracted increasing attention and lots of models have been proposed. However, the performance of the state-of-the-art models decreases sharply when they are deployed in the real world. We find that the main reason is that real-world applications can only access the text outputs by the automatic speech recognition (ASR) models, which may be with errors because of the limitation of model capacity. Through further analysis of the ASR outputs, we find that in some cases the sentiment words, the key sentiment elements in the textual modality, are recognized as other words, which makes the sentiment of the text change and hurts the performance of multimodal sentiment models directly. To address this problem, we propose the sentiment word aware multimodal refinement model (SWRM), which can dynamically refine the erroneous sentiment words by leveraging multimodal sentiment clues. Specifically, we first use the sentiment word position detection module to obtain the most possible position of the sentiment word in the text and then utilize the multimodal sentiment word refinement module to dynamically refine the sentiment word embeddings. The refined embeddings are taken as the textual inputs of the multimodal feature fusion module to predict the sentiment labels. We conduct extensive experiments on the real-world datasets including MOSI-Speechbrain, MOSI-IBM, and MOSI-iFlytek and the results demonstrate the effectiveness of our model, which surpasses the current state-of-the-art models on three datasets. Furthermore, our approach can be adapted for other multimodal feature fusion models easily. Data and code are available at https://github.com/a lbertwy/SWRM.
翻訳日:2022-03-02 14:25:38 公開日:2022-03-01
# Fast-R2D2: 文法誘導とテキスト表現のためのPruned CKYに基づく事前学習型再帰ニューラルネットワーク

Fast-R2D2: A Pretrained Recursive Neural Network based on Pruned CKY for Grammar Induction and Text Representation ( http://arxiv.org/abs/2203.00281v1 )

ライセンス: Link先を確認
Xiang Hu, Haitao Mi, Liang Li, Gerard de Melo(参考訳) 近年、CKYベースのモデルは、人間のような符号化パラダイムにより教師なし文法の帰納化に大きな可能性を示しており、これは再帰的かつ階層的に実行されるが、時間複雑度は$O(n^3)である。 微分可能木(R2D2)に基づく再帰変換器は、ヒューリスティックプルーニング法を導入することで、複雑なツリーエンコーダであっても、大規模言語モデルに事前学習を拡大することができる。 しかし、ルールベースのプルーニングアプローチは、局所的な最適かつ遅い推論の問題に苦しむ。 本稿では,これらの問題を統一的な方法で解決する。 本稿では,モデルベースプルーニング法としてトップダウンパーサを用いることを提案する。 通常、パーサはスプリットポイントスコアリングタスクとして解析を行い、最初に与えられた文のすべてのスプリットポイントをスコア付け、その後、現在のスパンで最もスコアの高いスプリットポイントを選択して再帰的にスプリットポイントを2つに分割します。 分割の逆順は、R2D2エンコーダにおけるプルーニングの順序と見なされる。 双方向言語モデル損失の他に、パーサとR2D2からのツリー確率間のKL距離を最小化してパーサを最適化する。 実験により,我々のFast-R2D2は文法誘導性能を大幅に向上し,下流分類タスクにおける競合的な結果が得られることが示された。

Recently CKY-based models show great potential in unsupervised grammar induction thanks to their human-like encoding paradigm, which runs recursively and hierarchically, but requires $O(n^3)$ time-complexity. Recursive Transformer based on Differentiable Trees (R2D2) makes it possible to scale to large language model pre-training even with complex tree encoder by introducing a heuristic pruning method. However, the rule-based pruning approach suffers from local optimum and slow inference issues. In this paper, we fix those issues in a unified method. We propose to use a top-down parser as a model-based pruning method, which also enables parallel encoding during inference. Typically, our parser casts parsing as a split point scoring task, which first scores all split points for a given sentence, and then recursively splits a span into two by picking a split point with the highest score in the current span. The reverse order of the splits is considered as the order of pruning in R2D2 encoder. Beside the bi-directional language model loss, we also optimize the parser by minimizing the KL distance between tree probabilities from parser and R2D2. Our experiments show that our Fast-R2D2 improves performance significantly in grammar induction and achieves competitive results in downstream classification tasks.
翻訳日:2022-03-02 14:25:11 公開日:2022-03-01
# 「中国語のBERTよりずっといい言葉」:中国語の文法的誤りの訂正をめざして

"Is Whole Word Masking Always Better for Chinese BERT?": Probing on Chinese Grammatical Error Correction ( http://arxiv.org/abs/2203.00286v1 )

ライセンス: Link先を確認
Yong Dai, Linyang Li, Cong Zhou, Zhangyin Feng, Enbo Zhao, Xipeng Qiu, Piji Li, Duyu Tang(参考訳) 単語に対応するすべてのサブワードを一度にマスキングするWWM(Whole Word masking)は、英語のBERTモデルを改善する。 しかし中国語では、各トークンが原子的文字であるため、サブワードは存在しない。 中国語の単語の意味は、単語が複数の文字からなる構成単位であるという点で異なる。 このような違いは、WWMが中国のBERTにより良い文脈理解能力をもたらすかどうかを調査する動機となっている。 これを実現するために,文法的誤り訂正に関連する2つのプロビングタスクを導入し,事前学習したモデルに対して,マスキング言語モデリング手法によるトークンの修正や挿入を依頼する。 10,448文で19,075トークンのラベルを含むデータセットを構築した。 標準文字レベルマスキング(clm)、wwm、およびclmとwwmの組み合わせを用いた3つの中国語bertモデルを訓練した。 第一に、あるキャラクタを挿入または置き換える必要がある場合、CLMでトレーニングされたモデルが最もよく機能する。 第二に、複数の文字を扱う必要がある場合、WWMがパフォーマンス向上の鍵となる。 最後に、文レベルの下流タスクで微調整されると、異なるマスキング戦略でトレーニングされたモデルが比較可能に実行される。

Whole word masking (WWM), which masks all subwords corresponding to a word at once, makes a better English BERT model. For the Chinese language, however, there is no subword because each token is an atomic character. The meaning of a word in Chinese is different in that a word is a compositional unit consisting of multiple characters. Such difference motivates us to investigate whether WWM leads to better context understanding ability for Chinese BERT. To achieve this, we introduce two probing tasks related to grammatical error correction and ask pretrained models to revise or insert tokens in a masked language modeling manner. We construct a dataset including labels for 19,075 tokens in 10,448 sentences. We train three Chinese BERT models with standard character-level masking (CLM), WWM, and a combination of CLM and WWM, respectively. Our major findings are as follows: First, when one character needs to be inserted or replaced, the model trained with CLM performs the best. Second, when more than one character needs to be handled, WWM is the key to better performance. Finally, when being fine-tuned on sentence-level downstream tasks, models trained with different masking strategies perform comparably.
翻訳日:2022-03-02 14:22:55 公開日:2022-03-01
# $ \text{T}^3 $OMVP: 都市域における観測制約付き多車両探索のためのトランスフォーマーによる時間とチームの強化学習スキーム

$ \text{T}^3 $OMVP: A Transformer-based Time and Team Reinforcement Learning Scheme for Observation-constrai ned Multi-Vehicle Pursuit in Urban Area ( http://arxiv.org/abs/2203.00183v1 )

ライセンス: Link先を確認
Zheng Yuan, Tianhao Wu, Qinwen Wang, Yiying Yang, Lei Li, Lin Zhang(参考訳) Smart Internet of Vehicles (IoVs) と人工知能 (AI) が組み合わさって、Intelligent Transportation System (ITS) における車両の意思決定に貢献する。 モバイルターゲットを捕捉するマルチ車両協調能力であるmvp(multi-vehicle pursuit games)は、徐々にホットな研究テーマになりつつある。 オープンスペース環境におけるmvpの分野にはいくつかの成果があるが、都市部では複雑な道路構造や移動スペースがmvpゲームの解決に課題となっている。 本稿では、観測制約付きMVP(OMVP)問題を定義し、その問題に対処するためのトランスフォーマーベースの時間とチームの強化学習スキーム(「text{T}^3 $OMVP」)を提案する。 まず, 分散部分観測マルコフ決定過程 (dec-pomdp) に基づいて, 新たな多車追従モデルを構築し, この問題をインスタンス化する。 第二に、トランスフォーマーに基づく観測シーケンスの導入と修正により、QMIXは、複雑な道路構造、制限された移動空間、制約された観測に適応するように再定義され、車両の観測と組み合わせた目標を追従するために車両を制御する。 第3に,提案手法を検証するため,多区間都市環境を構築した。 大規模な実験結果から、提案された $ \text{T}^3 $OMVP スキームは、最先端の QMIX アプローチに対して 9.66\%\textasciitild e106.25\% の大幅な改善を実現することが示された。 コードは \url{https://github.com/p ipihaiziguai/t3omvp}で入手できる。

Smart Internet of Vehicles (IoVs) combined with Artificial Intelligence (AI) will contribute to vehicle decision-making in the Intelligent Transportation System (ITS). Multi-Vehicle Pursuit games (MVP), a multi-vehicle cooperative ability to capture mobile targets, is becoming a hot research topic gradually. Although there are some achievements in the field of MVP in the open space environment, the urban area brings complicated road structures and restricted moving spaces as challenges to the resolution of MVP games. We define an Observation-constrai ned MVP (OMVP) problem in this paper and propose a Transformer-based Time and Team Reinforcement Learning scheme ($ \text{T}^3 $OMVP) to address the problem. First, a new multi-vehicle pursuit model is constructed based on decentralized partially observed Markov decision processes (Dec-POMDP) to instantiate this problem. Second, by introducing and modifying the transformer-based observation sequence, QMIX is redefined to adapt to the complicated road structure, restricted moving spaces and constrained observations, so as to control vehicles to pursue the target combining the vehicle's observations. Third, a multi-intersection urban environment is built to verify the proposed scheme. Extensive experimental results demonstrate that the proposed $ \text{T}^3 $OMVP scheme achieves significant improvements relative to state-of-the-art QMIX approaches by 9.66\%\textasciitild e106.25\%. Code is available at \url{https://github.com/p ipihaiziguai/T3OMVP}.
翻訳日:2022-03-02 14:22:31 公開日:2022-03-01
# 供給ネットワークに対する信念伝播--因子グラフの効率的なクラスタリング

Belief propagation for supply networks: Efficient clustering of their factor graphs ( http://arxiv.org/abs/2203.00467v1 )

ライセンス: Link先を確認
Tim Ritmeester and Hildegard Meyer-Ortmanns(参考訳) 本研究では,供給ネットワーク,特に電力網や天然ガスパイプラインネットワークにおける状態推定と最適化問題に対して,信念伝達(BP)を効率的かつスケーラブルなツールとみなす。 bpアルゴリズムは、関心のある問題への割り当てが一意ではない因子グラフ表現を利用する。 状態変数とその相互依存性に依存する。 因子グラフの多くの短いループはBPの精度を損なう可能性がある。 本研究では,生成する変換因子グラフが元のネットワークと比較して追加ループを持たないように,因子グラフのクラスターループを体系的に構成する手法を提案する。 BPの精度はわずかに向上した計算量で保証される。 このメソッドはループを処理するために既存の代替手段より優れている。 我々は、キルヒホフの法則の類似物という形で制約の構造を共有する水網などの供給ネットワークに対する他の応用を指摘する。 因子グラフの小さなループが元のネットワークの変数間の制約によって体系的に生成される場合、BPにおける因子グラフの割り当ては他のアプローチを補完する。 高速で信頼性の高いアルゴリズムを提供し、サプライネットワークの状態決定、推定、最適化問題において限界化を行う。

We consider belief propagation (BP) as an efficient and scalable tool for state estimation and optimization problems in supply networks, in particular in power grids and natural gas pipeline networks. BP algorithms make use of factor graph representations, whose assignment to the problem of interest is not unique. It depends on the state variables and their mutual interdependencies. Many short loops in factor graphs may impede the accuracy of BP. We propose a systematic way to cluster loops of factor graphs such that the resulting transformed factor graphs have no additional loops as compared to the original network. They guarantee an accurate performance of BP with only slightly increased computational effort. The method outperforms existing alternatives to handle the loops. We point to other applications to supply networks such as water networks that share the structure of constraints in the form of analogues of Kirchhoff's laws. Whenever small and abundant loops in factor graphs are systematically generated by constraints between variables in the original network, our factor-graph assignment in BP complements other approaches. It provides a fast and reliable algorithm to perform marginalization in state determination, estimation, or optimization issues in supply networks.
翻訳日:2022-03-02 14:21:59 公開日:2022-03-01
# 効率的な強化学習のためのAIプランニングアノテーション

AI Planning Annotation for Sample Efficient Reinforcement Learning ( http://arxiv.org/abs/2203.00669v1 )

ライセンス: Link先を確認
Junkyu Lee, Michael Katz, Don Joven Agravante, Miao Liu, Tim Klinger, Murray Campbell, Shirin Sohrabi, Gerald Tesauro(参考訳) AI計画と強化学習(RL)はどちらも、異なる定式化の下でシーケンシャルな意思決定問題を解決する。 AI Planningはオペレータモデルを必要とするが、効率的なプラン生成を可能にする。 RLは演算子モデルを必要とせず、代わりにエージェントを高い報酬状態に導くポリシーを学ぶ。 RLは耐久性が高いのに対して、ノイズに直面して計画が脆くなることがある。 しかし、RLはポリシーを学ぶために多くのトレーニング例を必要とします。 本研究は、RLの効率を改善するために適切に定義された計画モデルを使用することで、AI計画とRLをより近づけることを目指している。 具体的には、階層的なRLのオプションは計画タスクから導出することができ、オプションポリシー関数のトレーニングのための計画とRLアルゴリズムを統合することができることを示す。 実験では,従来より様々なrl環境におけるサンプル効率の向上を実証した。

AI planning and Reinforcement Learning (RL) both solve sequential decision-making problems under the different formulations. AI Planning requires operator models, but then allows efficient plan generation. RL requires no operator model, instead learns a policy to guide an agent to high reward states. Planning can be brittle in the face of noise whereas RL is more tolerant. However, RL requires a large number of training examples to learn the policy. In this work, we aim to bring AI planning and RL closer by showing that a suitably defined planning model can be used to improve the efficiency of RL. Specifically, we show that the options in the hierarchical RL can be derived from a planning task and integrate planning and RL algorithms for training option policy functions. Our experiments demonstrate an improved sample efficiency on a variety of RL environments over the previous state-of-the-art.
翻訳日:2022-03-02 14:21:42 公開日:2022-03-01
# 大腸核同定と計数のための同時セマンティックスとインスタンスセグメンテーション

Simultaneous Semantic and Instance Segmentation for Colon Nuclei Identification and Counting ( http://arxiv.org/abs/2203.00157v1 )

ライセンス: Link先を確認
Lihao Liu, Chenyang Hong, Angelica I. Aviles-Rivero, Carola-Bibiane Sch\"onlieb(参考訳) 本稿では,Haematoxylin および Eosin 染色組織像から得られた自動核分割,分類,定量化の問題点に対処する。 本稿では,セマンティクスとインスタンスセグメンテーションの同時フレームワークとして構成したソリューションを提案する。 私たちのソリューションは、Colon Nuclei Identification and Counting (CoNIC) Challengeの一部です。 まず、セグメンテーションモデルとインスタンスセグメンテーションモデルを別々にトレーニングします。 私たちのフレームワークはbackbone hovernetとcascade mask-rcnnモデルとして使用しています。 次に、結果をNMS(Non-Maximum Suppression Embedding)にまとめます。 我々のフレームワークでは、セマンティックモデルがセルのクラス予測を計算し、インスタンスモデルが洗練されたセグメンテーションを提供する。 実験結果から,提案するモデルでは,提案するベースラインを大きなマージンで上回る結果が得られた。

We address the problem of automated nuclear segmentation, classification, and quantification from Haematoxylin and Eosin stained histology images, which is of great relevance for several downstream computational pathology applications. In this work, we present a solution framed as a simultaneous semantic and instance segmentation framework. Our solution is part of the Colon Nuclei Identification and Counting (CoNIC) Challenge. We first train a semantic and instance segmentation model separately. Our framework uses as backbone HoverNet and Cascade Mask-RCNN models. We then ensemble the results with a custom Non-Maximum Suppression embedding (NMS). In our framework, the semantic model computes a class prediction for the cells whilst the instance model provides a refined segmentation. We demonstrate, through our experimental results, that our model outperforms the provided baselines by a large margin.
翻訳日:2022-03-02 14:18:15 公開日:2022-03-01
# Unary-Pairwise Attention を用いた3Dポイントクラウド処理のための局所特徴学習の強化

Enhancing Local Feature Learning for 3D Point Cloud Processing using Unary-Pairwise Attention ( http://arxiv.org/abs/2203.00172v1 )

ライセンス: Link先を確認
Haoyi Xiu, Xin Liu, Weiming Wang, Kyoung-Sook Kim, Takayuki Shinohara, Qiong Chang, Masashi Matsuoka(参考訳) 我々は,3次元点雲間の関係をモデル化するために,UPA (unary-pairwise attention) という単純な注意を提示する。 提案手法は,グローバルに運用される標準セルフアテンション(sa)が,異なるクエリ位置に対してほぼ同じアテンションマップを生成する傾向にあり,クエリ非依存情報とクエリ依存情報を同時に学習することが困難であることを示す。 そこで我々は,SAを再編成し,問合せに依存しない(ユニタリ)コンポーネントと問合せに依存しない(ペアワイズ)コンポーネントを提案する。 SAとは対照的に、UPAはローカル操作によるクエリ依存を保証する。 大規模な実験により、UPAは、形状分類、部分分割、シーンセグメンテーションを含む様々な点雲理解タスクにおいて、SAを一貫して上回ります。 さらに、人気のある PointNet++ メソッドを UPA に組み込むことは、最先端の注目ベースのアプローチよりも優れているか、あるいは同等である。 さらに、UPAは、合成モジュールとして統合された場合、標準ネットワークと近代ネットワークの両方の性能を体系的に向上させる。

We present a simple but effective attention named the unary-pairwise attention (UPA) for modeling the relationship between 3D point clouds. Our idea is motivated by the analysis that the standard self-attention (SA) that operates globally tends to produce almost the same attention maps for different query positions, revealing difficulties for learning query-independent and query-dependent information jointly. Therefore, we reformulate the SA and propose query-independent (Unary) and query-dependent (Pairwise) components to facilitate the learning of both terms. In contrast to the SA, the UPA ensures query dependence via operating locally. Extensive experiments show that the UPA outperforms the SA consistently on various point cloud understanding tasks including shape classification, part segmentation, and scene segmentation. Moreover, simply equipping the popular PointNet++ method with the UPA even outperforms or is on par with the state-of-the-art attention-based approaches. In addition, the UPA systematically boosts the performance of both standard and modern networks when it is integrated into them as a compositional module.
翻訳日:2022-03-02 14:18:03 公開日:2022-03-01
# ACTIVE:部分的マルチビュークラスタリングのための拡張自由グラフコントラスト学習

ACTIVE:Augmentation- Free Graph Contrastive Learning for Partial Multi-View Clustering ( http://arxiv.org/abs/2203.00186v1 )

ライセンス: Link先を確認
Yiming Wang, Dongxia Chang, Zhiqiang Fu, Jie Wen, Yao Zhao(参考訳) 本稿では,部分的マルチビュークラスタリングの問題を解決するために,拡張自由グラフコントラスト学習フレームワークであるACTIVEを提案する。 特に、類似したサンプル(すなわち同じクラスタに属する)の表現と、それらの多重ビュー機能は似ているべきである。 これは、イメージとその拡張が類似の表現を共有していると仮定する一般的な教師なしのコントラスト学習とは異なっている。 具体的には、類似したサンプルを識別するために最も近い近隣のグラフを用いて関係グラフを構築し、構築されたインスタンス間関係グラフを行方不明のビューに転送し、対応する欠落データ上にグラフを構築する。 その後、クラスタ内の異なるビューの相互情報を最大化するために、2つの主要なコンポーネントであるin-view graph contrastive learning(WGC)とcross-view graph consistency learning(CGC)が考案された。 提案手法は、インスタンスレベルのコントラスト学習と欠落データ推論をクラスタレベルに引き上げ、個々の欠落データがクラスタリングに与える影響を効果的に軽減する。 いくつかの挑戦的なデータセットの実験は、提案手法の優位性を実証している。

In this paper, we propose an augmentation-free graph contrastive learning framework, namely ACTIVE, to solve the problem of partial multi-view clustering. Notably, we suppose that the representations of similar samples (i.e., belonging to the same cluster) and their multiply views features should be similar. This is distinct from the general unsupervised contrastive learning that assumes an image and its augmentations share a similar representation. Specifically, relation graphs are constructed using the nearest neighbours to identify existing similar samples, then the constructed inter-instance relation graphs are transferred to the missing views to build graphs on the corresponding missing data. Subsequently, two main components, within-view graph contrastive learning (WGC) and cross-view graph consistency learning (CGC), are devised to maximize the mutual information of different views within a cluster. The proposed approach elevates instance-level contrastive learning and missing data inference to the cluster-level, effectively mitigating the impact of individual missing data on clustering. Experiments on several challenging datasets demonstrate the superiority of our proposed methods.
翻訳日:2022-03-02 14:17:43 公開日:2022-03-01
# 従来のフィルタがディープラーニングを満たした場合--イメージフィルタによる基底構成学習

When A Conventional Filter Meets Deep Learning: Basis Composition Learning on Image Filters ( http://arxiv.org/abs/2203.00258v1 )

ライセンス: Link先を確認
Fu Lee Wang, Yidan Feng, Haoran Xie, Gary Cheng, Mingqiang Wei(参考訳) 画像フィルターは高速で軽量で効果的であり、従来の知恵は視覚タスクの基本ツールとして好まれる。 実用的なシナリオでは、ユーザは満足のいく結果を得るためにパラメータを複数回調整する必要があります。 この不便さは、効率とユーザエクスペリエンスを大幅に削減します。 本稿では,単一画像フィルタを用いた基底合成学習を提案し,その最適公式を自動的に決定する。 まず、選択されたパラメータ構成の下で近似からなるフィルタ基底(FB)の集合を構築し、次に、FBの候補をどのように組み合わせてターゲット画像をよりよく近似するかを学ぶための二重分岐合成モジュールを提案する。 提案手法は,ユーザフレンドリーなフィルタを描画し,デノイング,デラミニング,テクスチャ除去など,基本的な低レベルの視覚問題に有効である。 大規模な実験により,本手法は性能,時間的複雑性,メモリ効率の適切なバランスが得られた。

Image filters are fast, lightweight and effective, which make these conventional wisdoms preferable as basic tools in vision tasks. In practical scenarios, users have to tweak parameters multiple times to obtain satisfied results. This inconvenience heavily discounts the efficiency and user experience. We propose basis composition learning on single image filters to automatically determine their optimal formulas. The feasibility is based on a two-step strategy: first, we build a set of filtered basis (FB) consisting of approximations under selected parameter configurations; second, a dual-branch composition module is proposed to learn how the candidates in FB are combined to better approximate the target image. Our method is simple yet effective in practice; it renders filters to be user-friendly and benefits fundamental low-level vision problems including denoising, deraining and texture removal. Extensive experiments demonstrate that our method achieves an appropriate balance among the performance, time complexity and memory efficiency.
翻訳日:2022-03-02 14:17:23 公開日:2022-03-01
# 教師なし異常検出のための全周波数チャネル選択表現

Omni-frequency Channel-selection Representations for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2203.00259v1 )

ライセンス: Link先を確認
Yufei Liang, Jiangning Zhang, Shiwei Zhao, Runze Wu, Yong Liu, and Shuwen Pan(参考訳) 近年、密度ベースおよび分類ベース手法は、教師なし異常検出を規定しているが、再構成ベースの手法は、復元能力の低さと性能の低さに言及されることは稀である。 しかし, 後者では, より実践的な教師なしトレーニングのために, コストのかかるトレーニングサンプルを必要としないため, この種の手法の改善に焦点をあて, 周波数の観点で異常検出タスクを処理する新しいOmni- frequency Channel-Selection Reconstruction (OCR-GAN) ネットワークを提案する。 具体的には,正規画像と異常画像の周波数分布の有意差を観測し,入力画像を異なる周波数成分に分離し,再構成過程を並列全周波数画像復元の組み合わせとしてモデル化する周波数分離(fd)モジュールを提案する。 さらに,複数周波数間の相関を考慮し,異なるチャネルを適応的に選択することにより,異なるエンコーダ間の周波数インタラクションを行うチャネル選択(cs)モジュールを提案する。 例えば、MVTec ADデータセット上で、再構成ベースラインを+38.1以上、現在のSOTAメソッドを+0.3以上越える余分なトレーニングデータなしで、新しい最先端の98.3検出AUCを実現する。 ソースコードはhttps://github.com/z hangzjn/ocr-ganで入手できる。

Density-based and classification-based methods have ruled unsupervised anomaly detection in recent years, while reconstruction-based methods are rarely mentioned for the poor reconstruction ability and low performance. However, the latter requires no costly extra training samples for the unsupervised training that is more practical, so this paper focuses on improving this kind of method and proposes a novel Omni-frequency Channel-selection Reconstruction (OCR-GAN) network to handle anomaly detection task in a perspective of frequency. Concretely, we propose a Frequency Decoupling (FD) module to decouple the input image into different frequency components and model the reconstruction process as a combination of parallel omni-frequency image restorations, as we observe a significant difference in the frequency distribution of normal and abnormal images. Given the correlation among multiple frequencies, we further propose a Channel Selection (CS) module that performs frequency interaction among different encoders by adaptively selecting different channels. Abundant experiments demonstrate the effectiveness and superiority of our approach over different kinds of methods, e.g., achieving a new state-of-the-art 98.3 detection AUC on the MVTec AD dataset without extra training data that markedly surpasses the reconstruction-based baseline by +38.1 and the current SOTA method by +0.3. Source code will be available at https://github.com/z hangzjn/OCR-GAN.
翻訳日:2022-03-02 14:17:05 公開日:2022-03-01
# (参考訳) 生成的敵ネットワーク [全文訳有]

Generative Adversarial Networks ( http://arxiv.org/abs/2203.00667v1 )

ライセンス: CC BY 4.0
Gilad Cohen and Raja Giryes(参考訳) generative adversarial network (gans) は高品質なデータを生成するための非常に人気のあるフレームワークであり、多くの分野の学界と産業の両方で非常に使われている。 おそらく、彼らの最も大きな影響はコンピュータビジョンの分野であり、最先端の画像生成を達成している。 この章では、GANの原則について論じ、トレーニングと評価中に固有の問題をいくつか提示することで紹介する。 我々は,(1)モード崩壊,(2)勾配の消失,(3)低画質画像の生成という3つの課題に焦点を当てた。 次に、上記の課題を是正するアーキテクチャ変種および損失変種GANを列挙する。 最後に、実世界のアプリケーションにおけるganの2つの利用例を示す:データ拡張と顔画像生成。

Generative Adversarial Networks (GANs) are very popular frameworks for generating high-quality data, and are immensely used in both the academia and industry in many domains. Arguably, their most substantial impact has been in the area of computer vision, where they achieve state-of-the-art image generation. This chapter gives an introduction to GANs, by discussing their principle mechanism and presenting some of their inherent problems during training and evaluation. We focus on these three issues: (1) mode collapse, (2) vanishing gradients, and (3) generation of low-quality images. We then list some architecture-variant and loss-variant GANs that remedy the above challenges. Lastly, we present two utilization examples of GANs for real-world applications: Data augmentation and face images generation.
翻訳日:2022-03-02 14:15:24 公開日:2022-03-01
# 3次元セマンティックセグメンテーションがクラス不均衡とOODデータに直面する課題を理解する

Understanding the Challenges When 3D Semantic Segmentation Faces Class Imbalanced and OOD Data ( http://arxiv.org/abs/2203.00214v1 )

ライセンス: Link先を確認
Yancheng Pan, Fan Xie, Huijing Zhao(参考訳) 3Dセマンティックセグメンテーション(3DSS)は、安全な自動運転システムを構築する上で不可欠なプロセスである。 しかし、3Dセマンティックセグメンテーションのためのディープラーニングモデルは、しばしばクラス不均衡問題とアウト・オブ・ディストリビューション(OOD)データに悩まされる。 本研究では,クラス不均衡が3DSS性能にどのように影響するか,モデルがカテゴリ予測の正しさを検出できるか,あるいはデータをID(in-distriion)かOODかを検討する。 これらの目的のために、3つの代表的3DSSモデルと5つの信頼評価手法を用いて2つの実験を行い、各クラスの混乱と特徴分析を行う。 さらに,3次元LiDARデータセットのデータ拡張手法を提案し,セマンティックKITTIとセマンティックPOSSに基づく新しいデータセット(AugKITTI)を作成する。 我々は、結果のより深い分析のために、wpreメトリックとtsdを提案し、それに続く提案を洞察に富んだ議論で述べる。 実験結果から,(1)クラスはデータサイズだけでなく,各セマンティックカテゴリの基本的特性も不均衡であることがわかった。 2)クラス内多様性とクラス間あいまいさは,クラス学習を困難にし,モデルの性能を大幅に制限し,セマンティックとデータギャップの課題を生み出す。 (3) 特徴が他のクラスと混同されているクラスでは信頼スコアが信頼できない。 3DSSモデルでは、それらの非分類IDクラスとOODも高い信頼スコアを与え、3DSS予測を信頼できないものにし、3DSS結果の信頼性を判断する上での課題となる。 これらの結果は、現実世界のアプリケーションに使用される3DSSモデルの性能と信頼性を改善するためのいくつかの研究の方向性を示している。

3D semantic segmentation (3DSS) is an essential process in the creation of a safe autonomous driving system. However, deep learning models for 3D semantic segmentation often suffer from the class imbalance problem and out-of-distribution (OOD) data. In this study, we explore how the class imbalance problem affects 3DSS performance and whether the model can detect the category prediction correctness, or whether data is ID (in-distribution) or OOD. For these purposes, we conduct two experiments using three representative 3DSS models and five trust scoring methods, and conduct both a confusion and feature analysis of each class. Furthermore, a data augmentation method for the 3D LiDAR dataset is proposed to create a new dataset based on SemanticKITTI and SemanticPOSS, called AugKITTI. We propose the wPre metric and TSD for a more in-depth analysis of the results, and follow are proposals with an insightful discussion. Based on the experimental results, we find that: (1) the classes are not only imbalanced in their data size but also in the basic properties of each semantic category. (2) The intraclass diversity and interclass ambiguity make class learning difficult and greatly limit the models' performance, creating the challenges of semantic and data gaps. (3) The trust scores are unreliable for classes whose features are confused with other classes. For 3DSS models, those misclassified ID classes and OODs may also be given high trust scores, making the 3DSS predictions unreliable, and leading to the challenges in judging 3DSS result trustworthiness. All of these outcomes point to several research directions for improving the performance and reliability of the 3DSS models used for real-world applications.
翻訳日:2022-03-02 13:55:57 公開日:2022-03-01
# DAMO-NLP at SemEval-2022 Task 11: A Knowledge-based System for Multilingual Named Entity Recognition

DAMO-NLP at SemEval-2022 Task 11: A Knowledge-based System for Multilingual Named Entity Recognition ( http://arxiv.org/abs/2203.00545v1 )

ライセンス: Link先を確認
Xinyu Wang, Yongliang Shen, Jiong Cai, Tao Wang, Xiaobin Wang, Pengjun Xie, Fei Huang, Weiming Lu, Yueting Zhuang, Kewei Tu, Wei Lu, Yong Jiang(参考訳) MultiCoNER共有タスクは、複数の言語に対する短文および低文設定において、意味的に曖昧で複雑な名前のエンティティを検出することを目的としている。 コンテキストの欠如は、あいまいな名前付きエンティティの認識を難しくする。 この問題を軽減するため、我々のチームDAMO-NLPは知識ベースシステムを提案し、ウィキペディアに基づく多言語知識ベースを構築し、名前付きエンティティ認識(NER)モデルに関連するコンテキスト情報を提供する。 入力文が与えられた場合,本システムは知識ベースから関連コンテキストを効果的に検索する。 元の入力文はそのようなコンテキスト情報で拡張され、より優れたコンテキスト化トークン表現をキャプチャできる。 我々のシステムはMultiCoNER共有タスクで13トラック中10トラックを獲得した。

The MultiCoNER shared task aims at detecting semantically ambiguous and complex named entities in short and low-context settings for multiple languages. The lack of contexts makes the recognition of ambiguous named entities challenging. To alleviate this issue, our team DAMO-NLP proposes a knowledge-based system, where we build a multilingual knowledge base based on Wikipedia to provide related context information to the named entity recognition (NER) model. Given an input sentence, our system effectively retrieves related contexts from the knowledge base. The original input sentences are then augmented with such context information, allowing significantly better contextualized token representations to be captured. Our system wins 10 out of 13 tracks in the MultiCoNER shared task.
翻訳日:2022-03-02 13:55:28 公開日:2022-03-01
# DeepNet:1000レイヤへのトランスフォーマーのスケーリング

DeepNet: Scaling Transformers to 1,000 Layers ( http://arxiv.org/abs/2203.00555v1 )

ライセンス: Link先を確認
Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Dongdong Zhang, Furu Wei(参考訳) 本稿では,極端に深い変圧器を安定化する簡易かつ効果的な方法を提案する。 具体的には、理論上導出された初期化を伴うトランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。 詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。 提案手法は、Post-LNの優れた性能とPre-LNの安定したトレーニングという2つの世界のベストを組み合わせ、DeepNormが好ましい選択肢となる。 我々は、1000層までのトランスフォーマー(2500の注意とフィードフォワードのネットワークサブレイヤー)を、従来のディープトランスフォーマーよりも1桁深い難易度でスケールすることに成功しました。 注目すべきは、7,482の翻訳方向を持つ多言語ベンチマークにおいて、3.2Bパラメータを持つ200層モデルは、12Bパラメータを持つ48層の最先端モデルを5 BLEUポイントで大幅に上回り、期待できるスケーリング方向を示す。

In this paper, we propose a simple yet effective method to stabilize extremely deep Transformers. Specifically, we introduce a new normalization function (DeepNorm) to modify the residual connection in Transformer, accompanying with theoretically derived initialization. In-depth theoretical analysis shows that model updates can be bounded in a stable way. The proposed method combines the best of two worlds, i.e., good performance of Post-LN and stable training of Pre-LN, making DeepNorm a preferred alternative. We successfully scale Transformers up to 1,000 layers (i.e., 2,500 attention and feed-forward network sublayers) without difficulty, which is one order of magnitude deeper than previous deep Transformers. Remarkably, on a multilingual benchmark with 7,482 translation directions, our 200-layer model with 3.2B parameters significantly outperforms the 48-layer state-of-the-art model with 12B parameters by 5 BLEU points, which indicates a promising scaling direction.
翻訳日:2022-03-02 13:55:13 公開日:2022-03-01
# マルチホップ質問応答のための意味文合成推論

Semantic Sentence Composition Reasoning for Multi-Hop Question Answering ( http://arxiv.org/abs/2203.00160v1 )

ライセンス: Link先を確認
Qianglong Chen(参考訳) データ不足のため、既存のマルチホップなドメイン質問応答システムでは、各質問に応じて、関連する支援事実を効果的に見つける必要がある。 意味的事実文検索とマルチホップ文脈拡張の課題を軽減するために,多段階意味マッチングモジュール (MSSM) と事実文合成モジュール (FSC) の2つの主要なモジュールからなる多項目質問応答タスクに対する意味的文合成推論手法を提案する。 事実文と多段階意味検索を組み合わせることで,モデル学習と推論のためのより包括的文脈情報を提供できる。 実験の結果,既存の学習済み言語モデルを組み込んで,QASCタスクにおける既存のSOTA法を約9%向上させることができた。

Due to the lack of insufficient data, existing multi-hop open domain question answering systems require to effectively find out relevant supporting facts according to each question. To alleviate the challenges of semantic factual sentences retrieval and multi-hop context expansion, we present a semantic sentence composition reasoning approach for a multi-hop question answering task, which consists of two key modules: a multi-stage semantic matching module (MSSM) and a factual sentence composition module (FSC). With the combination of factual sentences and multi-stage semantic retrieval, our approach can provide more comprehensive contextual information for model training and reasoning. Experimental results demonstrate our model is able to incorporate existing pre-trained language models and outperform the existing SOTA method on the QASC task with an improvement of about 9%.
翻訳日:2022-03-02 13:54:55 公開日:2022-03-01
# 層適応型ディープニューラルネットワークによる分散検出

Layer Adaptive Deep Neural Networks for Out-of-distribution Detection ( http://arxiv.org/abs/2203.00192v1 )

ライセンス: Link先を確認
Haoliang Wang, Chen Zhao, Xujiang Zhao, Feng Chen(参考訳) ディープニューラルネットワーク(DNN)の前方通過の間、入力は徐々に低レベルの特徴から高レベルの概念ラベルへと変化していった。 異なる層における特徴は入力の重要な要素を様々なレベルでまとめることができるが、現代のアウト・オブ・ディストリビューション(OOD)検出方法は、主にエンド層機能の利用に焦点を当てている。 本稿では、中間層出力をフル活用できるDNNのための新しい層適応型OOD検出フレームワーク(LA-OOD)を提案する。 具体的には、固定終端層で統一OOD検出器を訓練する代わりに、中間層で複数のワンクラスSVM OOD検出器を同時に訓練し、DNNの様々な深さで符号化された全スペクトル特性を利用する。 我々は,OODのサンプルを検出できる最適な層を特定するための,シンプルで効果的な層適応ポリシーを開発した。 LA-OODは既存のDNNにも適用可能で、トレーニング中にOODサンプルにアクセスする必要はない。 さまざまな深度とアーキテクチャの3つのDNNを用いて、LA-OODは様々な複雑さのOODに対して堅牢であり、いくつかの実世界のデータセットに対する大きなマージンで最先端の競合より優れていることを示した。

During the forward pass of Deep Neural Networks (DNNs), inputs gradually transformed from low-level features to high-level conceptual labels. While features at different layers could summarize the important factors of the inputs at varying levels, modern out-of-distribution (OOD) detection methods mostly focus on utilizing their ending layer features. In this paper, we proposed a novel layer-adaptive OOD detection framework (LA-OOD) for DNNs that can fully utilize the intermediate layers' outputs. Specifically, instead of training a unified OOD detector at a fixed ending layer, we train multiple One-Class SVM OOD detectors simultaneously at the intermediate layers to exploit the full spectrum characteristics encoded at varying depths of DNNs. We develop a simple yet effective layer-adaptive policy to identify the best layer for detecting each potential OOD example. LA-OOD can be applied to any existing DNNs and does not require access to OOD samples during the training. Using three DNNs of varying depth and architectures, our experiments demonstrate that LA-OOD is robust against OODs of varying complexity and can outperform state-of-the-art competitors by a large margin on some real-world datasets.
翻訳日:2022-03-02 13:54:40 公開日:2022-03-01
# 深層学習のためのデュアル・エンボディード・シンボリック概念表現

Dual Embodied-Symbolic Concept Representations for Deep Learning ( http://arxiv.org/abs/2203.00600v1 )

ライセンス: Link先を確認
Daniel T. Chang(参考訳) 認知神経科学の最近の知見に触発されて、概念表現に二重レベルモデルを用いることを提唱する。 エンボディードの概念表現はモジュラリティ特異であり、特徴空間における特徴ベクトルの形で存在する。 一方、象徴的概念表現は、アモーダルかつ言語固有のものであり、概念/知識空間に単語/知識グラフ埋め込みという形で存在する。 人間の概念体系は具体化された表現と象徴的な表現の両方を含み、通常は概念的処理を駆動するために相互作用する。 そこで我々はさらに,深層学習における2つの具体的シンボリック概念表現の利用を提唱する。 それらの使用法と価値を示すために,数発クラスインクリメンタルラーニングのための具体的-記号的知識蒸留と,画像テキストマッチングのための具体的-記号的融合表現の2つの重要なユースケースについて論じる。 Dual embodied-symbolic concept representationsはディープラーニングとシンボリックAI統合の基礎である。 このような統合の2つの重要な例について論じる: ナレッジグラフによるシーングラフ生成とマルチモーダルナレッジグラフである。

Motivated by recent findings from cognitive neural science, we advocate the use of a dual-level model for concept representations: the embodied level consists of concept-oriented feature representations, and the symbolic level consists of concept graphs. Embodied concept representations are modality specific and exist in the form of feature vectors in a feature space. Symbolic concept representations, on the other hand, are amodal and language specific, and exist in the form of word / knowledge-graph embeddings in a concept / knowledge space. The human conceptual system comprises both embodied representations and symbolic representations, which typically interact to drive conceptual processing. As such, we further advocate the use of dual embodied-symbolic concept representations for deep learning. To demonstrate their usage and value, we discuss two important use cases: embodied-symbolic knowledge distillation for few-shot class incremental learning, and embodied-symbolic fused representation for image-text matching. Dual embodied-symbolic concept representations are the foundation for deep learning and symbolic AI integration. We discuss two important examples of such integration: scene graph generation with knowledge graph bridging, and multimodal knowledge graphs.
翻訳日:2022-03-02 13:52:12 公開日:2022-03-01
# PaSca: スケーラブルパラダイムに基づくグラフニューラルネットワーク検索システム

PaSca: a Graph Neural Architecture Search System under the Scalable Paradigm ( http://arxiv.org/abs/2203.00638v1 )

ライセンス: Link先を確認
Wentao Zhang, Yu Shen, Zheyu Lin, Yang Li, Xiaosen Li, Wen Ouyang, Yangyu Tao, Zhi Yang, Bin Cui(参考訳) グラフニューラルネットワーク(GNN)は、様々なグラフベースのタスクで最先端のパフォーマンスを達成した。 しかし、メインストリームのGNNは、ニューラルメッセージパッシング機構に基づいて設計されているため、データサイズやメッセージパッシングステップに適していない。 スケーラブルなGNNの設計への関心は高まっているが、現在の研究は一般的なデザイン空間よりも特定のGNN設計に焦点を当てており、潜在的にスケーラブルなGNNモデルの発見を制限している。 本稿では,個々の設計を研究するのではなく,スケーラブルなGNNの設計空間を体系的に構築し,探索するための原則的アプローチを提供するPasCaを提案する。 PasCaはメッセージパッシング機構を分解することで、150kの異なる設計からなる一般的なアーキテクチャ設計空間とともに、新しいスケーラブルグラフニューラルネットワークパラダイム(SGAP)を提供する。 このパラダイムに従って,多目的最適化による複数の基準(精度と効率)間のトレードオフのバランスをとるために,高性能でスケーラブルなGNNアーキテクチャを自動検索するオートサーチエンジンを実装した。 10のベンチマークデータセットに関する実証研究により,本システムで発見された代表インスタンス(PasCa-V1,V2,V3)が,競争ベースライン間で一貫した性能を達成することが示された。 具体的には、PasCa-V3は、我々の大規模産業データセットの予測精度を最大28.3\times$トレーニングスピードアップで、最先端のGNNメソッドであるJK-Netを0.4\%上回っている。

Graph neural networks (GNNs) have achieved state-of-the-art performance in various graph-based tasks. However, as mainstream GNNs are designed based on the neural message passing mechanism, they do not scale well to data size and message passing steps. Although there has been an emerging interest in the design of scalable GNNs, current researches focus on specific GNN design, rather than the general design space, limiting the discovery of potential scalable GNN models. This paper proposes PasCa, a new paradigm and system that offers a principled approach to systemically construct and explore the design space for scalable GNNs, rather than studying individual designs. Through deconstructing the message passing mechanism, PasCa presents a novel Scalable Graph Neural Architecture Paradigm (SGAP), together with a general architecture design space consisting of 150k different designs. Following the paradigm, we implement an auto-search engine that can automatically search well-performing and scalable GNN architectures to balance the trade-off between multiple criteria (e.g., accuracy and efficiency) via multi-objective optimization. Empirical studies on ten benchmark datasets demonstrate that the representative instances (i.e., PasCa-V1, V2, and V3) discovered by our system achieve consistent performance among competitive baselines. Concretely, PasCa-V3 outperforms the state-of-the-art GNN method JK-Net by 0.4\% in terms of predictive accuracy on our large industry dataset while achieving up to $28.3\times$ training speedups.
翻訳日:2022-03-02 13:51:53 公開日:2022-03-01
# 人工知能法における法医学的画像解析のコンプライアンス問題

Compliance Challenges in Forensic Image Analysis Under the Artificial Intelligence Act ( http://arxiv.org/abs/2203.00469v1 )

ライセンス: Link先を確認
Benedikt Lorch, Nicole Scheler, Christian Riess(参考訳) 法医学的画像解析の多くの応用において、現在最先端の成果は機械学習手法によって達成されている。 しかし、その信頼性や不透明性に対する懸念は、そのような方法が刑事捜査に利用できるかどうかという疑問を提起する。 機械学習手法の法的規制は明確に定義されていなかったため、これまでのところ法的なコンプライアンスの問題はほとんど議論されていない。 この目的のために、欧州委員会は最近、信頼できるAIの使用のための規制フレームワークである人工知能(AI)法を提案した。 ドラフトAI法の下では、法執行機関で使用されるリスクの高いAIシステムは許可されるが、必須要件に従わなければならない。 本稿では,法医学的画像解析における機械学習の利用が高リスクに分類される理由を概説する。 次に,高リスクaiシステムの要求要件を要約し,ライセンスプレート認識とディープフェイク検出という2つの法医学的応用の観点から,これらの要件について議論する。 本稿の目的は,今後の法的要件に対する意識を高め,今後の研究への道筋を示すことにある。

In many applications of forensic image analysis, state-of-the-art results are nowadays achieved with machine learning methods. However, concerns about their reliability and opaqueness raise the question whether such methods can be used in criminal investigations. So far, this question of legal compliance has hardly been discussed, also because legal regulations for machine learning methods were not defined explicitly. To this end, the European Commission recently proposed the artificial intelligence (AI) act, a regulatory framework for the trustworthy use of AI. Under the draft AI act, high-risk AI systems for use in law enforcement are permitted but subject to compliance with mandatory requirements. In this paper, we review why the use of machine learning in forensic image analysis is classified as high-risk. We then summarize the mandatory requirements for high-risk AI systems and discuss these requirements in light of two forensic applications, license plate recognition and deep fake detection. The goal of this paper is to raise awareness of the upcoming legal requirements and to point out avenues for future research.
翻訳日:2022-03-02 13:49:20 公開日:2022-03-01
# 共通音声分析エンジンに向けて

Towards a Common Speech Analysis Engine ( http://arxiv.org/abs/2203.00613v1 )

ライセンス: Link先を確認
Hagai Aronowitz, Itai Gat, Edmilson Morais, Weizhong Zhu and Ron Hoory(参考訳) 自己教師付き表現学習の最近の革新は、自然言語処理の著しい進歩をもたらした。 とはいえ、音声処理領域では、自己教師付き表現学習に基づくシステムは、まだ最先端とはみなされていない。 本稿では,近年の自己教師型音声処理の進歩を活用し,共通の音声分析エンジンを構築することを提案する。 このようなエンジンは、単一のアーキテクチャを用いて複数の音声処理タスクを処理し、最先端の精度を得る。 エンジンは小さなトレーニングデータセットで新しいタスクのサポートも可能にする必要がある。 さらに、共通エンジンは、クライアント内プライベートデータによる分散トレーニングをサポートする必要がある。 本稿では,HuBERTの自己教師型音声表現に基づく共通音声分析エンジンのアーキテクチャを提案する。 実験に基づいて,NIST-LRE 07とIEMOCAPの標準評価における言語識別と感情認識の結果を報告する。 これらの課題について報告した最新技術性能を上回る結果を得た。 また、トレーニングデータ量の削減による感情認識タスクのエンジン分析を行い、改善した結果の達成方法を示した。

Recent innovations in self-supervised representation learning have led to remarkable advances in natural language processing. That said, in the speech processing domain, self-supervised representation learning-based systems are not yet considered state-of-the-art. We propose leveraging recent advances in self-supervised-base d speech processing to create a common speech analysis engine. Such an engine should be able to handle multiple speech processing tasks, using a single architecture, to obtain state-of-the-art accuracy. The engine must also enable support for new tasks with small training datasets. Beyond that, a common engine should be capable of supporting distributed training with client in-house private data. We present the architecture for a common speech analysis engine based on the HuBERT self-supervised speech representation. Based on experiments, we report our results for language identification and emotion recognition on the standard evaluations NIST-LRE 07 and IEMOCAP. Our results surpass the state-of-the-art performance reported so far on these tasks. We also analyzed our engine on the emotion recognition task using reduced amounts of training data and show how to achieve improved results.
翻訳日:2022-03-02 13:49:05 公開日:2022-03-01
# GROW: メモリ効率の良いグラフ畳み込みニューラルネットワークのためのRow-Stationary Sparse-Dense GEMM加速器

GROW: A Row-Stationary Sparse-Dense GEMM Accelerator for Memory-Efficient Graph Convolutional Neural Networks ( http://arxiv.org/abs/2203.00158v1 )

ライセンス: Link先を確認
Minhoo Kang, Ranggi Hwang, Jiwon Lee, Dongyun Kam, Youngjoo Lee, Minsoo Rhu(参考訳) グラフ畳み込みニューラルネットワーク(GCN)は、入力データがリレーショナルである様々なアプリケーション領域において重要な技術として登場した。 gcnsのユニークな特徴は、その2つの主要な実行段階である集約と組み合わせが著しく異なるデータフローを示すことである。 その結果、前回のGCN加速器はこの研究領域に取り組み、アグリゲーションと組み合わせの段階をスパースデンス行列の乗法としてキャストした。 しかし、以前の作業はしばしば非効率なデータ移動に悩まされ、大きなパフォーマンスがテーブルに残されている。 我々は,gustavson のアルゴリズムに基づく gcn アクセラレータである grow を用いて,sparse-dense gemm アクセラレータの設計を行った。 GROWは、GCNのローカリティと並列性のバランスを崩すソフトウェア/ハードウェアを共同設計し、最先端のGCNアクセラレータと比較して、大幅なエネルギー効率の改善を実現している。

Graph convolutional neural networks (GCNs) have emerged as a key technology in various application domains where the input data is relational. A unique property of GCNs is that its two primary execution stages, aggregation and combination, exhibit drastically different dataflows. Consequently, prior GCN accelerators tackle this research space by casting the aggregation and combination stages as a series of sparse-dense matrix multiplication. However, prior work frequently suffers from inefficient data movements, leaving significant performance left on the table. We present GROW, a GCN accelerator based on Gustavson's algorithm to architect a row-wise product based sparse-dense GEMM accelerator. GROW co-designs the software/hardware that strikes a balance in locality and parallelism for GCNs, achieving significant energy-efficiency improvements vs. state-of-the-art GCN accelerators.
翻訳日:2022-03-02 13:48:17 公開日:2022-03-01
# 視覚手がかりからの学習と融合による抑うつの自動検出

Automatic Depression Detection via Learning and Fusing Features from Visual Cues ( http://arxiv.org/abs/2203.00304v1 )

ライセンス: Link先を確認
Yanrong Guo, Chenyang Zhu, Shijie Hao, Richang Hong(参考訳) うつ病は最も一般的な精神疾患の1つであり、人生に深刻な影響を及ぼす。 伝統的なうつ病診断は通常、労働集約的で主観的な尺度による評価に依存する。 このような状況下では、ADD(Automatic Depression Detection)はその低コストと客観性のために注目を集めている。 ADDシステムは、ビデオシーケンスなどのいくつかの医療記録からうつ病を自動的に検出することができる。 しかし、長いシーケンスからうつ病特異的情報を効果的に抽出することは依然として困難であり、満足のいく精度を妨げている。 本稿では,視覚的手がかりから特徴を学習・融合する新しいADD手法を提案する。 具体的には,複数の拡張畳み込みブロック(dcb)を設計・積み重ねた時間的拡張畳み込みネットワーク(tdcn)を構築し,シーケンスから長距離時間情報を得る。 そして、TDCNから抽出された異なる特徴を融合するために、FWAモジュールを採用する。 モジュールは特徴チャネルに重みを割り当てることを学び、様々な種類の視覚的特徴をよりうまく取り入れ、検出精度をさらに高めることを目指している。 本手法は,DAIC_WOZデータセット上での最先端性能を他の視覚的特徴に基づく手法と比較し,その有効性を示した。

Depression is one of the most prevalent mental disorders, which seriously affects one's life. Traditional depression diagnostics commonly depends on rating with scales, which can be labor-intensive and subjective. In this context, Automatic Depression Detection (ADD) has been attracting more attention for its low cost and objectivity. ADD systems are able to detect depression automatically from some medical records, like video sequences. However, it remains challenging to effectively extract depression-specific information from long sequences, thereby hindering a satisfying accuracy. In this paper, we propose a novel ADD method via learning and fusing features from visual cues. Specifically, we firstly construct Temporal Dilated Convolutional Network (TDCN), in which multiple Dilated Convolution Blocks (DCB) are designed and stacked, to learn the long-range temporal information from sequences. Then, the Feature-Wise Attention (FWA) module is adopted to fuse different features extracted from TDCNs. The module learns to assign weights for the feature channels, aiming to better incorporate different kinds of visual features and further enhance the detection accuracy. Our method achieves the state-of-the-art performance on the DAIC_WOZ dataset compared to other visual-feature-based methods, showing its effectiveness.
翻訳日:2022-03-02 13:46:33 公開日:2022-03-01
# 短期人口予測のための注意型マルチビューグラフ畳み込みネットワーク

Attention-based Contextual Multi-View Graph Convolutional Networks for Short-term Population Prediction ( http://arxiv.org/abs/2203.00489v1 )

ライセンス: Link先を確認
Yuki Kubota, Yuki Ohira and Tetsuo Shimizu(参考訳) 短期的な人口予測は都市コンピューティングにおいて重要な問題である。 正確な将来の人口予測は、都市計画家や開発者に対して豊富な洞察を与えることができる。 しかし, 複雑な時空間依存性のため, 将来の人口予測は難しい課題である。 多くの既存の研究は、都市をグリッドに分割し、畳み込みニューラルネットワーク(CNN)を用いて空間的相関を捉えようとしている。 しかし、CNNは矩形フィルタを用いて空間相関を捉えるだけで、鉄道の分布やPOIの位置といった都市環境情報を無視する。 また,人口予測におけるこれらの情報の重要性は地域によって異なり,気象条件や1週間の日といった状況の影響も受けている。 この問題に対処するために,Attention-based Contextual Multi-View Graph Convolutional Networks (ACMV-GCNs) と呼ばれる新しいディープラーニングモデルを提案する。 まず,都市環境情報に基づく複数のグラフを構築し,次に,様々な視点からの空間相関をグラフ畳み込みネットワークで捉える。 さらに,今後の人口予測に都市環境情報を活用する際の状況を考慮した注意モジュールも追加する。 携帯電話で収集した統計人口データを用いて,提案手法がベースライン法より優れていることを示す。 また,アテンションモジュールで計算した重みを可視化することにより,事前の知識を使わずに都市環境情報を効率的に活用する方法を学習できることを示す。

Short-term future population prediction is a crucial problem in urban computing. Accurate future population prediction can provide rich insights for urban planners or developers. However, predicting the future population is a challenging task due to its complex spatiotemporal dependencies. Many existing works have attempted to capture spatial correlations by partitioning a city into grids and using Convolutional Neural Networks (CNN). However, CNN merely captures spatial correlations by using a rectangle filter; it ignores urban environmental information such as distribution of railroads and location of POI. Moreover, the importance of those kinds of information for population prediction differs in each region and is affected by contextual situations such as weather conditions and day of the week. To tackle this problem, we propose a novel deep learning model called Attention-based Contextual Multi-View Graph Convolutional Networks (ACMV-GCNs). We first construct multiple graphs based on urban environmental information, and then ACMV-GCNs captures spatial correlations from various views with graph convolutional networks. Further, we add an attention module to consider the contextual situations when leveraging urban environmental information for future population prediction. Using statistics population count data collected through mobile phones, we demonstrate that our proposed model outperforms baseline methods. In addition, by visualizing weights calculated by an attention module, we show that our model learns an efficient way to utilize urban environment information without any prior knowledge.
翻訳日:2022-03-02 13:46:13 公開日:2022-03-01
# dreamingv2:レコンストラクションのない離散世界モデルによる強化学習

DreamingV2: Reinforcement Learning with Discrete World Models without Reconstruction ( http://arxiv.org/abs/2203.00494v1 )

ライセンス: Link先を確認
Masashi Okada, Tadahiro Taniguchi(参考訳) 本稿では,dreamerv2とdreamingの協調拡張であるdreamingv2という,世界モデルを用いた新しい強化学習手法を提案する。 dreamerv2はピクセルからの最先端モデルに基づく強化学習であり、離散世界モデルを用いてカテゴリ変数を持つ潜在状態を表現する。 また、夢はピクセルからの強化学習の一形態であり、リコンストラクションフリーのコントラスト学習目標を伴って、一般世界モデルトレーニングにおける自動エンコーディングプロセスを避けようとするものである。 提案されたDreamingV2は、DreamingV2の離散表現とDreamingの再構成不要な目的の両方を採用する新しいアプローチである。 DreamerV2と最近のモデルベースで再現しない手法と比較すると、DreamingV2は5つのシミュレーションされた3Dロボットアームタスクで最高のスコアを得る。 その離散表現は不連続な環境を記述するのに適しているため、dreamingv2はロボット学習にとって信頼できるソリューションであると信じています。

The present paper proposes a novel reinforcement learning method with world models, DreamingV2, a collaborative extension of DreamerV2 and Dreaming. DreamerV2 is a cutting-edge model-based reinforcement learning from pixels that uses discrete world models to represent latent states with categorical variables. Dreaming is also a form of reinforcement learning from pixels that attempts to avoid the autoencoding process in general world model training by involving a reconstruction-free contrastive learning objective. The proposed DreamingV2 is a novel approach of adopting both the discrete representation of DreamingV2 and the reconstruction-free objective of Dreaming. Compared to DreamerV2 and other recent model-based methods without reconstruction, DreamingV2 achieves the best scores on five simulated challenging 3D robot arm tasks. We believe that DreamingV2 will be a reliable solution for robot learning since its discrete representation is suitable to describe discontinuous environments, and the reconstruction-free fashion well manages complex vision observations.
翻訳日:2022-03-02 13:45:48 公開日:2022-03-01
# グラフニューラルネットワークを用いたNUMAとPrefetchers最適化のための中間表現学習

Learning Intermediate Representations using Graph Neural Networks for NUMA and Prefetchers Optimization ( http://arxiv.org/abs/2203.00611v1 )

ライセンス: Link先を確認
Ali TehraniJamsaz, Mihail Popov, Akash Dutta, Emmanuelle Saillard, Ali Jannesari(参考訳) NUMAとハードウェアのプレフィッシャー構成の広いスペースがあり、アプリケーションのパフォーマンスに大きな影響を与えます。 これまでの研究では、モデルがコードの動的特性に基づいて設定を自動的に選択してスピードアップを実現する方法が示されている。 本稿では,コード中の静的中間表現(IR)が,性能プロファイリングの禁止コストを伴わずにNUMA/prefetcher最適化を導く方法を示す。 本稿では,多様な中間表現と最適構成を含む包括的データセットを作成する手法を提案する。 次に、このデータセットを検証するためにグラフニューラルネットワークモデルを適用する。 静的な中間表現に基づくモデルは、高価な動的パフォーマンスプロファイリングに基づく戦略によって得られる性能向上の80%を達成する。 さらに静的情報と動的情報の両方を利用するハイブリッドモデルを開発した。 ハイブリッドモデルは動的モデルと同等の性能を発揮するが,プログラムの30%のみをプロファイリングすることでコストを削減できる。

There is a large space of NUMA and hardware prefetcher configurations that can significantly impact the performance of an application. Previous studies have demonstrated how a model can automatically select configurations based on the dynamic properties of the code to achieve speedups. This paper demonstrates how the static Intermediate Representation (IR) of the code can guide NUMA/prefetcher optimizations without the prohibitive cost of performance profiling. We propose a method to create a comprehensive dataset that includes a diverse set of intermediate representations along with optimum configurations. We then apply a graph neural network model in order to validate this dataset. We show that our static intermediate representation based model achieves 80% of the performance gains provided by expensive dynamic performance profiling based strategies. We further develop a hybrid model that uses both static and dynamic information. Our hybrid model achieves the same gains as the dynamic models but at a reduced cost by only profiling 30% of the programs.
翻訳日:2022-03-02 13:44:09 公開日:2022-03-01
# (参考訳) サンプル複雑度と深さ:情報理論解析 [全文訳有]

Sample Complexity versus Depth: An Information Theoretic Analysis ( http://arxiv.org/abs/2203.00246v1 )

ライセンス: CC BY 4.0
Hong Jun Jeon and Benjamin Van Roy(参考訳) ディープラーニングは、さまざまなデータセットで有効であることが証明されている。 これを踏まえて、自然な調査は、"どんなデータ生成プロセスがディープラーニングを成功させるのか? 本研究では,深層ニューラルネットワークが適しているように見える多層データ生成過程のサンプル複雑性について検討する。 浅層、深層、パラメトリック、非パラメトリック、ノイズなし、ノイズなど、あらゆるデータ生成プロセスの分析に対応する汎用的でエレガントな情報理論ツールを開発した。 次に、これらのツールを用いて、多層プロセスの深さに対するサンプルの複雑さの依存性を特徴づける。 以上の結果から, 深さに対する線形依存が示唆された。 これは指数的あるいは高次多項式依存を示唆する以前の結果とは対照的である。

Deep learning has proven effective across a range of data sets. In light of this, a natural inquiry is: "for what data generating processes can deep learning succeed?" In this work, we study the sample complexity of learning multilayer data generating processes of a sort for which deep neural networks seem to be suited. We develop general and elegant information-theoreti c tools that accommodate analysis of any data generating process -- shallow or deep, parametric or nonparametric, noiseless or noisy. We then use these tools to characterize the dependence of sample complexity on the depth of multilayer processes. Our results indicate roughly linear dependence on depth. This is in contrast to previous results that suggest exponential or high-order polynomial dependence.
翻訳日:2022-03-02 13:42:14 公開日:2022-03-01
# ニューラルアーキテクチャ探索に基づく効率的なエンドツーエンド3次元モデル再構成

An Efficient End-to-End 3D Model Reconstruction based on Neural Architecture Search ( http://arxiv.org/abs/2202.13313v2 )

ライセンス: Link先を確認
Yongdong Huang, Yuanzhan Li, Xulong Cao, Siyu Zhang, Shen Cai, Ting Lu, Yuqi Liu(参考訳) ニューラルネットワークによる3dオブジェクト表現が普及している。 しかし、以前の多くの作品では、異なる3dオブジェクトを表現するために固定されたアーキテクチャとサイズを持つニューラルネットワークを採用しており、単純なオブジェクトに対する過剰なネットワークパラメータと複雑なオブジェクトの再構成精度が制限されている。 各3Dモデルに対して、高忠実度再構成を実現するために、できるだけ少ないパラメータでエンドツーエンドのニューラルネットワークを持つことが望ましい。 本稿では,ニューラルアーキテクチャ探索(NAS)とバイナリ分類を用いた効率的なモデル再構成手法を提案する。 レイヤ数、各レイヤ内のノード数、各レイヤの活性化機能を探索空間とすることで、強化学習技術に基づいて特定のネットワークアーキテクチャを得ることができる。 さらに,ネットワーク推論後に使用される従来の表面再構成アルゴリズム(例えばマーチングキューブ)を取り除き,バイナリボクセルを分類することでエンドツーエンドネットワークを完成させる。 他の符号付き距離場 (sdf) 予測やバイナリ分類ネットワークと比較すると, ネットワークパラメータの低減により, 復元精度が著しく向上した。

Using neural networks to represent 3D objects has become popular. However, many previous works employ neural networks with fixed architecture and size to represent different 3D objects, which lead to excessive network parameters for simple objects and limited reconstruction accuracy for complex objects. For each 3D model, it is desirable to have an end-to-end neural network with as few parameters as possible to achieve high-fidelity reconstruction. In this paper, we propose an efficient model reconstruction method utilizing neural architecture search (NAS) and binary classification. Taking the number of layers, the number of nodes in each layer, and the activation function of each layer as the search space, a specific network architecture can be obtained based on reinforcement learning technology. Furthermore, to get rid of the traditional surface reconstruction algorithms (e.g., marching cube) used after network inference, we complete the end-to-end network by classifying binary voxels. Compared to other signed distance field (SDF) prediction or binary classification networks, our method achieves significantly higher reconstruction accuracy using fewer network parameters.
翻訳日:2022-03-02 13:03:52 公開日:2022-03-01
# マニピュレーションの技:セキュリティゲームにおけるマルチステップ・マニピュレーション・アタックの脅威

The Art of Manipulation: Threat of Multi-Step Manipulative Attacks in Security Games ( http://arxiv.org/abs/2202.13424v2 )

ライセンス: Link先を確認
Thanh H. Nguyen and Arunesh Sinha(参考訳) 本稿では,攻撃者の行動の学習を誤解させるために,複数の時間ステップにわたる攻撃を巧妙な攻撃者が編成しようとする,stackelberg security gamesにおけるマルチステップマニピュレーション攻撃の問題点について検討する。 この攻撃操作は最終的に攻撃者の利益に対する守備者のパトロール戦略に影響を与える。 これまでの研究は、攻撃者の行動を学習し、対応する戦略を一度だけ設計するワンショットゲームのみに焦点を当てていた。 一方,我々の研究は,攻撃者の操作の長期的影響を調査し,プレイヤーの現在の攻撃選択と防御選択が,守備者の将来の学習とパトロール計画を決定する。 この論文には3つの重要な貢献がある。 まず,攻撃者が時間軸全体にわたって行った連続的な操作的攻撃の影響を捉えるマルチステップ操作型攻撃ゲームモデルを提案する。 第2に,攻撃者に対する最適な操作的攻撃計画を計算するアルゴリズムを提案し,複数の時間ステップにわたる計算に係わる複数の最適化コンポーネントの課題に対処する。 最後に,このような誤解を招く攻撃の影響について,広範な実験結果を示し,攻撃者にとって大きな利益と防御者にとっての損失を示す。

This paper studies the problem of multi-step manipulative attacks in Stackelberg security games, in which a clever attacker attempts to orchestrate its attacks over multiple time steps to mislead the defender's learning of the attacker's behavior. This attack manipulation eventually influences the defender's patrol strategy towards the attacker's benefit. Previous work along this line of research only focuses on one-shot games in which the defender learns the attacker's behavior and then designs a corresponding strategy only once. Our work, on the other hand, investigates the long-term impact of the attacker's manipulation in which current attack and defense choices of players determine the future learning and patrol planning of the defender. This paper has three key contributions. First, we introduce a new multi-step manipulative attack game model that captures the impact of sequential manipulative attacks carried out by the attacker over the entire time horizon. Second, we propose a new algorithm to compute an optimal manipulative attack plan for the attacker, which tackles the challenge of multiple connected optimization components involved in the computation across multiple time steps. Finally, we present extensive experimental results on the impact of such misleading attacks, showing a significant benefit for the attacker and loss for the defender.
翻訳日:2022-03-02 13:03:34 公開日:2022-03-01
# GAME-ON: フェイクニュース検出のためのグラフ注意ネットワークに基づくマルチモーダルフュージョン

GAME-ON: Graph Attention Network based Multimodal Fusion for Fake News Detection ( http://arxiv.org/abs/2202.12478v2 )

ライセンス: Link先を確認
Mudit Dhawan, Shakshi Sharma, Aditya Kadam, Rajesh Sharma and Ponnurangam Kumaraguru(参考訳) 現代のソーシャルメディアは、大きくて影響力を増している。 これらのプラットフォームに広がるフェイクニュースは、私たちの生活に破壊的かつ有害な影響を与えます。 さらに、マルチメディアコンテンツはテキストデータよりも投稿の可視性を向上させるため、しばしば偽コンテンツ作成にマルチメディアが使われていることが観察されている。 従来のマルチモーダルベースの多くの研究は、偽コンテンツの識別における異質なモダリティのモデリングの問題に対処しようと試みている。 しかし,これらの研究は,(1)後段のモデルにおけるモーダル性に対する単純な連結演算子の利用によるモーダル間関係の非効率な符号化,(2)小さいが複雑な実生活マルチモーダルデータセット上でパラメータの不均等な数で非常に深いニューラルネットワークを訓練することにより,オーバーフィッティングの可能性が高まる。 これらの制限に対処するために、私たちは、さまざまなモダリティ内および相互間の粒度の相互作用を可能にし、マルチモーダルフェイクニュース検出のためのより堅牢なデータ表現を学習する、グラフニューラルネットワークベースのエンドツーエンドトレーニング可能なフレームワークであるgame-onを提案する。 評価にはtwitterとweiboという2つのフェイクニュースデータセットを使っています。 当社のモデルはTwitter上で平均11%向上し、Weiboでは2.6%のマージンで競争力を維持する一方で、最も優れた最先端ベースラインよりも65%少ないパラメータを使用する。

Social media in present times has a significant and growing influence. Fake news being spread on these platforms have a disruptive and damaging impact on our lives. Furthermore, as multimedia content improves the visibility of posts more than text data, it has been observed that often multimedia is being used for creating fake content. A plethora of previous multimodal-based work has tried to address the problem of modeling heterogeneous modalities in identifying fake content. However, these works have the following limitations: (1) inefficient encoding of inter-modal relations by utilizing a simple concatenation operator on the modalities at a later stage in a model, which might result in information loss; (2) training very deep neural networks with a disproportionate number of parameters on small but complex real-life multimodal datasets result in higher chances of overfitting. To address these limitations, we propose GAME-ON, a Graph Neural Network based end-to-end trainable framework that allows granular interactions within and across different modalities to learn more robust data representations for multimodal fake news detection. We use two publicly available fake news datasets, Twitter and Weibo, for evaluations. Our model outperforms on Twitter by an average of 11% and keeps competitive performance on Weibo, within a 2.6% margin, while using 65% fewer parameters than the best comparable state-of-the-art baseline.
翻訳日:2022-03-02 13:03:14 公開日:2022-03-01
# 機械学習を活用したインテリジェントデータセンターネットワーク:サーベイ

Machine Learning Empowered Intelligent Data Center Networking: A Survey ( http://arxiv.org/abs/2202.13549v2 )

ライセンス: Link先を確認
Bo Li, Ting Wang, Peng Yang, Mingsong Chen, Shui Yu and Mounir Hamdi(参考訳) 成長を続けるクラウドベースのサービスのニーズをサポートするため、データセンター内のサーバやネットワークデバイスの数は指数関数的に増加し、結果としてネットワーク最適化の複雑さと困難が増している。 これらの課題に対処するために、学界も産業界も、ネットワークインテリジェンスを実現するために人工知能技術に目を向ける。 この目的のために、近年、多くの新規でクリエイティブな機械学習(MLベース)の研究が進められている。 それでも、特に大規模異種サービスとトラフィックデータのオンラインリアルタイム動的処理のシナリオにおいて、データセンターネットワーク(dcns)のインテリジェントな最適化が直面する大きな課題がある。 我々の知識を最大限に活用するために、インテリジェントDCNについて詳細な分析を行う体系的かつオリジナルな調査が欠如している。 そこで本稿では,機械学習のデータセンタネットワークへの応用を総合的に検討し,フロー予測,フロー分類,ロードバランシング,リソース管理,ルーティング最適化,混雑制御などを含む最近の研究の概要と詳細な分析を行う。 種々のソリューションを多次元・多視点で比較するために,REBEL-3Sと呼ばれる品質評価基準を設計し,これらの研究の長所と短所を公平に測定する。 さらに,データセンタネットワークと機械学習の融合技術の発展について,いくつかの課題や将来的な研究機会とともにユニークな知見を提示する。

To support the needs of ever-growing cloud-based services, the number of servers and network devices in data centers is increasing exponentially, which in turn results in high complexities and difficulties in network optimization. To address these challenges, both academia and industry turn to artificial intelligence technology to realize network intelligence. To this end, a considerable number of novel and creative machine learning-based (ML-based) research works have been put forward in recent few years. Nevertheless, there are still enormous challenges faced by the intelligent optimization of data center networks (DCNs), especially in the scenario of online real-time dynamic processing of massive heterogeneous services and traffic data. To best of our knowledge, there is a lack of systematic and original comprehensively investigations with in-depth analysis on intelligent DCN. To this end, in this paper, we comprehensively investigate the application of machine learning to data center networking, and provide a general overview and in-depth analysis of the recent works, covering flow prediction, flow classification, load balancing, resource management, routing optimization, and congestion control. In order to provide a multi-dimensional and multi-perspective comparison of various solutions, we design a quality assessment criteria called REBEL-3S to impartially measure the strengths and weaknesses of these research works. Moreover, we also present unique insights into the technology evolution of the fusion of data center network and machine learning, together with some challenges and potential future research opportunities.
翻訳日:2022-03-02 13:02:46 公開日:2022-03-01
# 機械学習による多面格子の洗練戦略と仮想要素法および多面不連続ガレルキン法への応用

Machine Learning based refinement strategies for polyhedral grids with applications to Virtual Element and polyhedral Discontinuous Galerkin methods ( http://arxiv.org/abs/2202.12654v2 )

ライセンス: Link先を確認
P. F. Antonietti, F. Dassi, E. Manuzzi(参考訳) 本稿では,多面体グリッドの細分化を扱うための機械学習手法に基づく2つの新しい戦略を提案する。 1つはk平均クラスタリングアルゴリズムを用いて、精製されるポリヘドロンの点を分割する。 この戦略はよく知られた遠心性ボロノイ音節の変種である。 2つ目は、畳み込みニューラルネットワークを使用して、要素の「形」を分類し、「アドホック」精製基準を定義する。 この戦略は、オンライン計算コストの低いk平均戦略を含む既存の洗練戦略を強化するために使用できる。 本稿では,任意の形状の多面体要素をサポートする有限要素法であるVirtual Element Method(VEM)とPolygonal Discontinuous Galerkin(PolyDG)の2つのファミリを考慮したアルゴリズムを提案する。 これらの戦略が下層グリッドの構造と品質を保ち、全体的な計算コストとメッシュの複雑さを低減できることを実証する。

We propose two new strategies based on Machine Learning techniques to handle polyhedral grid refinement, to be possibly employed within an adaptive framework. The first one employs the k-means clustering algorithm to partition the points of the polyhedron to be refined. This strategy is a variation of the well known Centroidal Voronoi Tessellation. The second one employs Convolutional Neural Networks to classify the "shape" of an element so that "ad-hoc" refinement criteria can be defined. This strategy can be used to enhance existing refinement strategies, including the k-means strategy, at a low online computational cost. We test the proposed algorithms considering two families of finite element methods that support arbitrarily shaped polyhedral elements, namely the Virtual Element Method (VEM) and the Polygonal Discontinuous Galerkin (PolyDG) method. We demonstrate that these strategies do preserve the structure and the quality of the underlaying grids, reducing the overall computational cost and mesh complexity.
翻訳日:2022-03-02 13:02:25 公開日:2022-03-01
# 検索に基づくマルチグラニュラーアライメントによる教師なし視覚・言語事前学習

Unsupervised Vision-and-Language Pre-training via Retrieval-based Multi-Granular Alignment ( http://arxiv.org/abs/2203.00242v1 )

ライセンス: Link先を確認
Mingyang Zhou, Licheng Yu, Amanpreet Singh, Mengjiao Wang, Zhou Yu, Ning Zhang(参考訳) ビジョン・アンド・ランゲージ(v+l)事前学習モデルは近年、様々なマルチモーダルベンチマークで大きな成功を収めている。 しかし、既存のモデルのほとんどは、画像のみまたはテキストのみのデータと比較して、収集にコストがかかる大量の画像テキストデータに対して事前トレーニングを必要とする。 本稿では、非並列画像とテキストデータセットから、非教師なしビジョン・アンド・ランゲージ事前学習(UVLP)を学習する。 良質な教師なしV+L事前学習に繋がる2つの要因を並列データなしで発見する。 (i)共同画像・テキスト入力 (ii)画像テキストのアライメント(非並列データに対しても)。 そこで本稿では,非並列テキストと画像のための教師なしV+L事前学習カリキュラムを提案する。 まず,検索に基づくアプローチにより,弱アライメントされた画像テキストコーパスを構築し,次に,領域間アライメント,領域間アライメント,画像間アライメントなどの多面的アライメントプリトレーニングタスクを適用し,この2つのモダリティ間のギャップを橋渡しする。 包括的アブレーション研究は、各粒度がより強い事前学習モデルを学ぶのに役立つことを示した。 我々は、VQA、NLVR2、Visual Entailment、RefCOCO+を含むV+L下流タスクに事前学習したモデルを適用する。 本モデルでは,教師なし環境下での全てのタスクにおいて,最先端の性能を実現する。

Vision-and-Language (V+L) pre-training models have achieved tremendous success in recent years on various multi-modal benchmarks. However, the majority of existing models require pre-training on a large set of parallel image-text data, which is costly to collect, compared to image-only or text-only data. In this paper, we explore unsupervised Vision-and-Language pre-training (UVLP) to learn the cross-modal representation from non-parallel image and text datasets. We found two key factors that lead to good unsupervised V+L pre-training without parallel data: (i) joint image-and-text input (ii) overall image-text alignment (even for non-parallel data). Accordingly, we propose a novel unsupervised V+L pre-training curriculum for non-parallel texts and images. We first construct a weakly aligned image-text corpus via a retrieval-based approach, then apply a set of multi-granular alignment pre-training tasks, including region-to-tag, region-to-phrase, and image-to-sentence alignment, to bridge the gap between the two modalities. A comprehensive ablation study shows each granularity is helpful to learn a stronger pre-trained model. We adapt our pre-trained model to a set of V+L downstream tasks, including VQA, NLVR2, Visual Entailment, and RefCOCO+. Our model achieves the state-of-art performance in all these tasks under the unsupervised setting.
翻訳日:2022-03-02 13:02:05 公開日:2022-03-01
# IID, OOD, and Adversarial Setsにおける複数タスク間の選択予測手法の検討

Investigating Selective Prediction Approaches Across Several Tasks in IID, OOD, and Adversarial Settings ( http://arxiv.org/abs/2203.00211v1 )

ライセンス: Link先を確認
Neeraj Varshney, Swaroop Mishra, and Chitta Baral(参考訳) NLPシステムに選択的予測機能を持たせるために,タスク固有のアプローチが提案されている。 しかし、どのアプローチがタスクをまたいで最もうまく機能するか、あるいは最も単純なベースラインである'maxprob'を一貫して上回っても、まだ検討されていない。 そこで本研究では,複数のnlpタスクにまたがる17のデータセットの大規模セットアップにおいて,「選択予測」を体系的に検討する。 ドメイン内(IID)、ドメイン外(OOD)、およびADV(adversarial)設定の下での包括的な実験により、追加のリソース(保持データ/計算)を活用するにもかかわらず、既存のアプローチはいずれも3つの設定すべてでMaxProbより一貫して、かなり優れています。 さらに、それらのパフォーマンスはタスク間でうまく翻訳されない。 例えば、Monte-Carlo Dropoutは、Duplicate Detectionデータセットで他のすべてのアプローチよりも優れていますが、特にOOD設定では、NLIデータセットではうまくいきません。 そこで我々は,今後の選択的予測手法をタスクや設定全体にわたって評価し,信頼性の高い評価を行うことを推奨する。

In order to equip NLP systems with selective prediction capability, several task-specific approaches have been proposed. However, which approaches work best across tasks or even if they consistently outperform the simplest baseline 'MaxProb' remains to be explored. To this end, we systematically study 'selective prediction' in a large-scale setup of 17 datasets across several NLP tasks. Through comprehensive experiments under in-domain (IID), out-of-domain (OOD), and adversarial (ADV) settings, we show that despite leveraging additional resources (held-out data/computation), none of the existing approaches consistently and considerably outperforms MaxProb in all three settings. Furthermore, their performance does not translate well across tasks. For instance, Monte-Carlo Dropout outperforms all other approaches on Duplicate Detection datasets but does not fare well on NLI datasets, especially in the OOD setting. Thus, we recommend that future selective prediction approaches should be evaluated across tasks and settings for reliable estimation of their capabilities.
翻訳日:2022-03-02 13:01:17 公開日:2022-03-01
# E-LMC:空間場予測のためのコリージョン化の拡張線形モデル

E-LMC: Extended Linear Model of Coregionalization for Predictions of Spatial Fields ( http://arxiv.org/abs/2203.00525v1 )

ライセンス: Link先を確認
Shihong Wang, Xueying Zhang, Yichen Meng, Wei Xing(参考訳) 偏微分方程式に基づく物理シミュレーションは、一般に、工学設計と最適化のためのシステムの特定の特性を計算するために使用される空間場結果を生成する。 シミュレーションの集中的な計算負荷のため、低次元入力を空間場にマッピングするサーロゲートモデルは、比較的小さなデータセットに基づいて一般的に構築される。 空間場全体の予測という課題を解決するため,コリージョン化の線形モデル(LMC)は高次元空間場出力内の複雑な相関関係を解き、正確な予測を行うことができる。 しかし、lmcは、空間場が潜在過程と基底関数の線形結合によって十分に近似できない場合に失敗する。 本稿では,LMCがトレーサビリティとスケーラビリティを維持しつつ,非線形問題に容易に一般化できるような,複雑で非線形な空間場を線形化するための可逆ニューラルネットワークを導入することにより,LCCを拡張した。 いくつかの実世界の応用は、E-LMCが空間相関を効果的に活用できることを示し、元のLCCよりも40%向上し、他の最先端の空間場モデルよりも優れていることを示した。

Physical simulations based on partial differential equations typically generate spatial fields results, which are utilized to calculate specific properties of a system for engineering design and optimization. Due to the intensive computational burden of the simulations, a surrogate model mapping the low-dimensional inputs to the spatial fields are commonly built based on a relatively small dataset. To resolve the challenge of predicting the whole spatial field, the popular linear model of coregionalization (LMC) can disentangle complicated correlations within the high-dimensional spatial field outputs and deliver accurate predictions. However, LMC fails if the spatial field cannot be well approximated by a linear combination of base functions with latent processes. In this paper, we extend LMC by introducing an invertible neural network to linearize the highly complex and nonlinear spatial fields such that the LMC can easily generalize to nonlinear problems while preserving the traceability and scalability. Several real-world applications demonstrate that E-LMC can exploit spatial correlations effectively, showing a maximum improvement of about 40% over the original LMC and outperforming the other state-of-the-art spatial field models.
翻訳日:2022-03-02 13:00:55 公開日:2022-03-01
# 強化学習における表現の一般化について

On the Generalization of Representations in Reinforcement Learning ( http://arxiv.org/abs/2203.00543v1 )

ライセンス: Link先を確認
Charline Le Lan, Stephen Tu, Adam Oberman, Rishabh Agarwal, Marc G.Bellemare(参考訳) 強化学習では、状態表現は大きな問題空間をうまく扱うために用いられる。 状態表現は、値関数をほとんどパラメータで近似するだけでなく、新たに遭遇した状態に一般化する。 これらの特徴は暗黙的に(ニューラルネットワークの一部として)、あるいは明示的に(例えば \citet{dayan 1993improving} の後継表現など)学習することができる。 表現の近似特性は合理的によく理解されているが、これらの表現の一般化の方法と時期の正確な特徴は欠如している。 本研究では、このギャップに対処し、特定の状態表現から生じる一般化誤差について情報的境界を与える。 この境界は、ある状態の値を知ることが他の状態の値を知らせる度合いを測定する有効次元の概念に基づいている。 我々の境界は任意の状態表現に適用され、よく一般化する表現とよく近似する表現の間の自然な緊張を定量化する。 本論は,古典的表現学習手法をアーケード学習環境上で実証的に調査し,学習した表現の一般化行動がそれらの有効次元によって明確に説明されていることを明らかにする。

In reinforcement learning, state representations are used to tractably deal with large problem spaces. State representations serve both to approximate the value function with few parameters, but also to generalize to newly encountered states. Their features may be learned implicitly (as part of a neural network) or explicitly (for example, the successor representation of \citet{dayan1993improving}). While the approximation properties of representations are reasonably well-understood, a precise characterization of how and when these representations generalize is lacking. In this work, we address this gap and provide an informative bound on the generalization error arising from a specific state representation. This bound is based on the notion of effective dimension which measures the degree to which knowing the value at one state informs the value at other states. Our bound applies to any state representation and quantifies the natural tension between representations that generalize well and those that approximate well. We complement our theoretical results with an empirical survey of classic representation learning methods from the literature and results on the Arcade Learning Environment, and find that the generalization behaviour of learned representations is well-explained by their effective dimension.
翻訳日:2022-03-02 13:00:25 公開日:2022-03-01
# ロボット間間接配置ハンドオーバのプリエンプティブ動作計画

Preemptive Motion Planning for Human-to-Robot Indirect Placement Handovers ( http://arxiv.org/abs/2203.00156v1 )

ライセンス: Link先を確認
Andrew Choi, Mohammad Khalid Jawed, and Jungseock Joo(参考訳) 技術が進歩するにつれて、安全で効率的で協力的なロボットチームの必要性がますます重要になっている。 どんな設定でも最も基本的な協調作業の1つはオブジェクトハンドオーバである。 人間対ロボットのハンドオーバは,(1)直接的手取りと(2)間接的手取りとピックアップの2つのアプローチをとることができる。 後者のアプローチは、人間とロボットの接触を最小限に抑えるが、物体が表面に置かれるのを待たなければならないため、アイドル時間が増加することもある。 このような無駄な時間を最小化するために、ロボットは、対象がどこに置かれるかの人間の意図を事前に予測しなければならない。 さらに、ロボットが何らかの生産的行動を行うためには、予測や動き計画がリアルタイムに行われる必要がある。 本研究では,ロボットが目視やジェスチャーをモデル入力として,人間のエージェントの意図した配置位置へ先進的に移動できるようにする新しい予測計画パイプラインを提案する。 本稿では,本研究の早期意図予測プランナの性能と欠点と,人間ロボットケーススタディによるパイプライン利用の実践的メリットについて検討する。

As technology advances, the need for safe, efficient, and collaborative human-robot-teams has become increasingly important. One of the most fundamental collaborative tasks in any setting is the object handover. Human-to-robot handovers can take either of two approaches: (1) direct hand-to-hand or (2) indirect hand-to-placement-to -pick-up. The latter approach ensures minimal contact between the human and robot but can also result in increased idle time due to having to wait for the object to first be placed down on a surface. To minimize such idle time, the robot must preemptively predict the human intent of where the object will be placed. Furthermore, for the robot to preemptively act in any sort of productive manner, predictions and motion planning must occur in real-time. We introduce a novel prediction-planning pipeline that allows the robot to preemptively move towards the human agent's intended placement location using gaze and gestures as model inputs. In this paper, we investigate the performance and drawbacks of our early intent predictor-planner as well as the practical benefits of using such a pipeline through a human-robot case study.
翻訳日:2022-03-02 13:00:07 公開日:2022-03-01
# あなたの不確実性はどの程度確かですか。

How certain are your uncertainties? ( http://arxiv.org/abs/2203.00238v1 )

ライセンス: Link先を確認
Luke Whitbread and Mark Jenkinson(参考訳) ディープラーニング手法の出力における不確実性の尺度を持つことは、出力の解釈の支援、エンドユーザとの信頼の構築、ネットワークのトレーニングとパフォーマンスの向上など、いくつかの面で有用である。 そのため、疫学(使用したモデルに関する)やアレタリック(データに関する)といった様々な不確実性を捉えるための様々な方法が提案されており、これらを疫学的な不確実性のためのテストタイムドロップアウトと、アレタリック不確実性のためのテストタイム拡張を推定する最も一般的な方法が提案されている。 しかし、これらの方法はパラメータ化されており(例えば、ドロップアウトの量や型や拡張のレベルなど)、固定されたネットワークやデータセットであっても、計算可能な不確実性の範囲は広い。 本研究は,これらの不確かさ測定の安定性について,大きさと空間パターンの両方の観点から検討する。 良好な特徴を持つBraTSチャレンジを用いた実験では,これらの不確実性の大きさや空間パターンの変動が,解釈可能性,再現性,信頼性に与える影響について考察した。

Having a measure of uncertainty in the output of a deep learning method is useful in several ways, such as in assisting with interpretation of the outputs, helping build confidence with end users, and for improving the training and performance of the networks. Therefore, several different methods have been proposed to capture various types of uncertainty, including epistemic (relating to the model used) and aleatoric (relating to the data) sources, with the most commonly used methods for estimating these being test-time dropout for epistemic uncertainty and test-time augmentation for aleatoric uncertainty. However, these methods are parameterised (e.g. amount of dropout or type and level of augmentation) and so there is a whole range of possible uncertainties that could be calculated, even with a fixed network and dataset. This work investigates the stability of these uncertainty measurements, in terms of both magnitude and spatial pattern. In experiments using the well characterised BraTS challenge, we demonstrate substantial variability in the magnitude and spatial pattern of these uncertainties, and discuss the implications for interpretability, repeatability and confidence in results.
翻訳日:2022-03-02 12:59:45 公開日:2022-03-01
# サンプル効率のよい政策学習のための遊びからの余裕学習

Affordance Learning from Play for Sample-Efficient Policy Learning ( http://arxiv.org/abs/2203.00352v1 )

ライセンス: Link先を確認
Jessica Borja-Diaz, Oier Mees, Gabriel Kalweit, Lukas Hermann, Joschka Boedecker, Wolfram Burgard(参考訳) 人間中心の環境で動作するロボットは、オブジェクトがどのように機能するかを理解する能力を持つべきである。 そこで本研究では,人間の遠隔操作型プレイデータから自己監督型視覚アプライアンスモデルを抽出し,それを利用して効率的なポリシー学習と行動計画を実現する手法を提案する。 モデルベース計画とモデルフリー深層強化学習(rl)を組み合わせることで,人間に好まれる同じ対象領域を好むポリシを学習し,環境とのロボットインタラクションを最小限に抑える。 提案手法であるvapo(visual affordance-guided policy optimization)を多種多様なシミュレーション操作タスクと実世界のロボットティディアップ実験を用いて評価し,提案手法の有効性を実証した。 当社のポリシはベースラインよりも4倍高速にトレーニングされ,新たなオブジェクトへの汎用性が向上しています。

Robots operating in human-centered environments should have the ability to understand how objects function: what can be done with each object, where this interaction may occur, and how the object is used to achieve a goal. To this end, we propose a novel approach that extracts a self-supervised visual affordance model from human teleoperated play data and leverages it to enable efficient policy learning and motion planning. We combine model-based planning with model-free deep reinforcement learning (RL) to learn policies that favor the same object regions favored by people, while requiring minimal robot interactions with the environment. We evaluate our algorithm, Visual Affordance-guided Policy Optimization (VAPO), with both diverse simulation manipulation tasks and real world robot tidy-up experiments to demonstrate the effectiveness of our affordance-guided policies. We find that our policies train 4x faster than the baselines and generalize better to novel objects because our visual affordance model can anticipate their affordance regions.
翻訳日:2022-03-02 12:59:24 公開日:2022-03-01
# 変動のない変分オートエンコーダ

Variational Autoencoders Without the Variation ( http://arxiv.org/abs/2203.00645v1 )

ライセンス: Link先を確認
Gregory A. Daly, Jonathan E. Fieldsend and Gavin Tabor(参考訳) 変分オートエンシング(英語版)(vae)は生成モデリングに対する一般的なアプローチである。 しかし、vaesの能力を実際に活用することは困難である。 正規化およびエントロピー的オートエンコーダに関する最近の研究は、生成モデリングにおいて、変分的アプローチを取り除き、新たな正規化手法で古典的決定論的オートエンコーダ(DAE)に戻す可能性を探り始めた。 本稿では,新たな手法を使わずに画像生成のためのDAEの能力と,大規模ネットワークの暗黙的な正規化と平滑化の効果を実証的に検討する。 CIFAR-10 や CelebA でトレーニングした場合,DAE は画像生成に有効であり,VAE の有用性の多くは十分に大きな畳み込みエンコーダやデコーダから暗黙的に生じる可能性がある。

Variational autoencdoers (VAE) are a popular approach to generative modelling. However, exploiting the capabilities of VAEs in practice can be difficult. Recent work on regularised and entropic autoencoders have begun to explore the potential, for generative modelling, of removing the variational approach and returning to the classic deterministic autoencoder (DAE) with additional novel regularisation methods. In this paper we empirically explore the capability of DAEs for image generation without additional novel methods and the effect of the implicit regularisation and smoothness of large networks. We find that DAEs can be used successfully for image generation without additional loss terms, and that many of the useful properties of VAEs can arise implicitly from sufficiently large convolutional encoders and decoders when trained on CIFAR-10 and CelebA.
翻訳日:2022-03-02 12:59:06 公開日:2022-03-01
# EPPAC: Prompt AnswerCentralization を用いたエンティティ前タイピング関係分類

EPPAC: Entity Pre-typing Relation Classification with Prompt AnswerCentralizing ( http://arxiv.org/abs/2203.00193v1 )

ライセンス: Link先を確認
Jiejun Tan, Wenbin Hu, WeiWei Liu(参考訳) 関係分類(RC)は、与えられた文脈における対象と対象のペアの関係を予測することを目的としている。 近年,高速チューニング手法はRCにおいて高い性能を達成している。 しかし、既存のプロンプトチューニング手法には、(1)多数のカテゴリがRC性能を低下させ、(2)手動で設計したプロンプトは集中労働を必要とする。 これらの課題に対処するため,本論文では,Prompt Answer Centralizing (EPPAC)を用いたEntity Pre-typing Relation Classificationを提案する。 eppacのエンティティプリタイティング(entity pre-tying)は、rcの前にエンティティをプリタイプするダブルレベルフレームワークを使用して、最初の問題に対処するために提示される。 広範な実験により,提案するeppacは,tacredとtacrevの最先端アプローチをそれぞれ14.4%,11.1%上回った。 コードは補足資料に記載されている。

Relation classification (RC) aims to predict the relationship between a pair of subject and object in a given context. Recently, prompt tuning approaches have achieved high performance in RC. However, existing prompt tuning approaches have the following issues: (1) numerous categories decrease RC performance; (2) manually designed prompts require intensive labor. To address these issues, a novel paradigm, Entity Pre-typing Relation Classification with Prompt Answer Centralizing(EPPAC) is proposed in this paper. The entity pre-tying in EPPAC is presented to address the first issue using a double-level framework that pre-types entities before RC and prompt answer centralizing is proposed to address the second issue. Extensive experiments show that our proposed EPPAC outperformed state-of-the-art approaches on TACRED and TACREV by 14.4% and 11.1%, respectively. The code is provided in the Supplementary Materials.
翻訳日:2022-03-02 12:58:37 公開日:2022-03-01
# MERIt: 論理推論のためのメタパスガイドによるコントラスト学習

MERIt: Meta-Path Guided Contrastive Learning for Logical Reasoning ( http://arxiv.org/abs/2203.00357v1 )

ライセンス: Link先を確認
Fangkai Jiao, Yangyang Guo, Xuemeng Song, Liqiang Nie(参考訳) 論理的推論は自然言語理解に不可欠である。 これまでの研究では、論理関係に関する事前知識を取り入れるためにグラフモデルを採用するか、データ拡張を通じて神経モデルに記号論理を導入するかのどちらかである。 しかし、これらの手法は注釈付きトレーニングデータに大きく依存しており、データセットの分散により過度に適合し、一般化の問題に悩まされる。 そこで,本稿では,テキストの論理推論のためのメタパスガイド型コントラスト学習手法であるmeritを用いて,大量のラベルなしテキストデータに対して自己教師あり事前学習を行う。 2つの新しい戦略が我々の手法の必須要素である。 特に,自然テキストの論理構造を発見するためにメタパスに基づく戦略を考案し,さらに,事前学習によって引き起こされる情報ショートカットをなくすための反事実的データ拡張戦略を考案した。 ReClor と LogiQA という2つの難解な論理的推論ベンチマークの実験結果から,本手法がSOTA のベースラインより優れていることを示す。

Logical reasoning is of vital importance to natural language understanding. Previous studies either employ graph-based models to incorporate prior knowledge about logical relations, or introduce symbolic logic into neural models through data augmentation. These methods, however, heavily depend on annotated training data, and thus suffer from over-fitting and poor generalization problems due to the dataset sparsity. To address these two problems, in this paper, we propose MERIt, a MEta-path guided contrastive learning method for logical ReasonIng of text, to perform self-supervised pre-training on abundant unlabeled text data. Two novel strategies serve as indispensable components of our method. In particular, a strategy based on meta-path is devised to discover the logical structure in natural texts, followed by a counterfactual data augmentation strategy to eliminate the information shortcut induced by pre-training. The experimental results on two challenging logical reasoning benchmarks, i.e., ReClor and LogiQA, demonstrate that our method outperforms the SOTA baselines with significant improvements.
翻訳日:2022-03-02 12:58:20 公開日:2022-03-01
# 手動・接触検出のための背景混合データ拡張

Background Mixup Data Augmentation for Hand and Object-in-Contact Detection ( http://arxiv.org/abs/2202.13941v2 )

ライセンス: Link先を確認
Koya Tango, Takehiko Ohkawa, Ryosuke Furuta, Yoichi Sato(参考訳) ビデオフレーム内の人間の手の位置と物体の接触(手動物体の検出)を検知することは、ビデオから人間の活動を理解するのに不可欠である。 オブジェクト検出器のトレーニングでは、データバイアスを軽減するために2つのトレーニングイメージをオーバーレイするMixupと呼ばれる手法が実証的にデータ拡張に有効であることが示されている。 しかし、ハンドオブジェクト検出では、2つのハンドマニピュレーション画像が混合されると意図しないバイアスが発生し、例えば、特定の領域における手とオブジェクトの集中は、ハンドオブジェクト検出器のオブジェクト境界を識別する能力が低下する。 本研究では,手動物体検出における意図しない効果を低減しつつ,データ混合正則化を利用した背景混合法を提案する。 手と被写体が接触する2つの画像とを混合する代わりに、対象画像と手のない背景画像と、外部画像から抽出された被写体とを混合し、この混合画像を用いて検出器を訓練する。 提案手法は,教師付き学習と半教師付き学習の両方において,偽陽性を効果的に低減し,手対象検出の性能を向上させることを実証した。

Detecting the positions of human hands and objects-in-contact (hand-object detection) in each video frame is vital for understanding human activities from videos. For training an object detector, a method called Mixup, which overlays two training images to mitigate data bias, has been empirically shown to be effective for data augmentation. However, in hand-object detection, mixing two hand-manipulation images produces unintended biases, e.g., the concentration of hands and objects in a specific region degrades the ability of the hand-object detector to identify object boundaries. We propose a data-augmentation method called Background Mixup that leverages data-mixing regularization while reducing the unintended effects in hand-object detection. Instead of mixing two images where a hand and an object in contact appear, we mix a target training image with background images without hands and objects-in-contact extracted from external image sources, and use the mixed images for training the detector. Our experiments demonstrated that the proposed method can effectively reduce false positives and improve the performance of hand-object detection in both supervised and semi-supervised learning settings.
翻訳日:2022-03-02 12:47:04 公開日:2022-03-01
# ハイブリッド・アドバーサル・トレーニングによるロバスト・スタック・カプセル自動エンコーダの開発

Towards Robust Stacked Capsule Autoencoder with Hybrid Adversarial Training ( http://arxiv.org/abs/2202.13755v2 )

ライセンス: Link先を確認
Jiazhu Dai, Siwei Xiong(参考訳) カプセルネットワーク(capsnets)は、特徴の空間的関係に基づいて画像を分類する新しいニューラルネットワークである。 特徴のポーズとその相対位置を分析することで、アフィン変換後の画像を認識することができる。 積み重ねられたカプセルオートエンコーダ(SCAE)は最先端のCapsNetであり、CapsNetの教師なしの分類を初めて達成した。 しかし、セキュリティ上の脆弱性やSCAEの堅牢性はめったに調査されていない。 本稿では,画像の本来のカテゴリに関連するオブジェクトカプセルのコントリビューションを減らして,攻撃者が敵の摂動を発生させることができるSCAEに対する回避攻撃を提案する。 逆の摂動は元の画像に適用され、摂動された画像は誤分類される。 さらに,このような回避攻撃に対するHAT(Hybrid Adversarial Training)と呼ばれる防御手法を提案する。 HATは、より良い堅牢性と安定性を達成するために、敵の訓練と敵の蒸留を利用している。 本研究では, 防御法と実験結果から, 改良SCAEモデルが回避攻撃下で82.14%の分類精度を達成できることを示す。 ソースコードはhttps://github.com/F rostbiteXSW/SCAE_Def enseで公開されている。

Capsule networks (CapsNets) are new neural networks that classify images based on the spatial relationships of features. By analyzing the pose of features and their relative positions, it is more capable to recognize images after affine transformation. The stacked capsule autoencoder (SCAE) is a state-of-the-art CapsNet, and achieved unsupervised classification of CapsNets for the first time. However, the security vulnerabilities and the robustness of the SCAE has rarely been explored. In this paper, we propose an evasion attack against SCAE, where the attacker can generate adversarial perturbations based on reducing the contribution of the object capsules in SCAE related to the original category of the image. The adversarial perturbations are then applied to the original images, and the perturbed images will be misclassified. Furthermore, we propose a defense method called Hybrid Adversarial Training (HAT) against such evasion attacks. HAT makes use of adversarial training and adversarial distillation to achieve better robustness and stability. We evaluate the defense method and the experimental results show that the refined SCAE model can achieve 82.14% classification accuracy under evasion attack. The source code is available at https://github.com/F rostbiteXSW/SCAE_Def ense.
翻訳日:2022-03-02 12:46:45 公開日:2022-03-01
# マルチタスク学習におけるモジュールスキルの組み合わせ

Combining Modular Skills in Multitask Learning ( http://arxiv.org/abs/2202.13914v2 )

ライセンス: Link先を確認
Edoardo M. Ponti, Alessandro Sordoni, Yoshua Bengio and Siva Reddy(参考訳) モジュール設計は、神経モデルに対して、異なる知識の面を分離し、再結合し、より体系的に新しいタスクに一般化することを奨励する。 この研究において、各タスクは(潜在的に小さい)在庫から潜在的な離散スキルのサブセットと関連づけられていると仮定する。 すると、スキルはパラメータ効率(スパース/ローランク)モデルのパラメータ化に対応する。 これらとタスクスキル割り当て行列を共同で学習することにより、各タスクのネットワークをアクティブスキルのパラメータの平均としてインスタンス化する。 タスク間での非自明なソフトなスキル分割を好むために、インドのビュッフェプロセスや2速学習率といった一連の帰納的バイアスを試す。 我々は2つの主要な設定で潜在スキルモデルを評価する。 1)BabyAIプラットフォーム8レベルに追従した接地指導のためのマルチタスク強化学習 2)160nlpタスクからなるベンチマークであるcrossfit上での事前学習されたテキストからテキストへの生成モデルの数少ない適応。 ネットワークのモジュラー設計は強化学習におけるサンプル効率と教師あり学習における限定的一般化を著しく向上させ、知識がタスク間で絡み合うような完全共有、タスク固有、あるいは条件付き生成パラメータを持つベースラインと比較した。 さらに,タスクの階層構造を明示するため,個々のスキルが解釈可能性にどのように役立つかを示す。

A modular design encourages neural models to disentangle and recombine different facets of knowledge to generalise more systematically to new tasks. In this work, we assume that each task is associated with a subset of latent discrete skills from a (potentially small) inventory. In turn, skills correspond to parameter-efficient (sparse / low-rank) model parameterisations. By jointly learning these and a task-skill allocation matrix, the network for each task is instantiated as the average of the parameters of active skills. To favour non-trivial soft partitions of skills across tasks, we experiment with a series of inductive biases, such as an Indian Buffet Process prior and a two-speed learning rate. We evaluate our latent-skill model on two main settings: 1) multitask reinforcement learning for grounded instruction following on 8 levels of the BabyAI platform; and 2) few-shot adaptation of pre-trained text-to-text generative models on CrossFit, a benchmark comprising 160 NLP tasks. We find that the modular design of a network significantly increases sample efficiency in reinforcement learning and few-shot generalisation in supervised learning, compared to baselines with fully shared, task-specific, or conditionally generated parameters where knowledge is entangled across tasks. In addition, we show how discrete skills help interpretability, as they yield an explicit hierarchy of tasks.
翻訳日:2022-03-02 12:46:22 公開日:2022-03-01
# MetaVA:心電図に基づく心室不整脈検出のための深部ニューラルネットワークのカリキュラムメタラーニングと事前調整

MetaVA: Curriculum Meta-learning and Pre-fine-tuning of Deep Neural Networks for Detecting Ventricular Arrhythmias based on ECGs ( http://arxiv.org/abs/2202.12450v2 )

ライセンス: Link先を確認
Wenrui Zhang, Shijia Geng, Zhaoji Fu, Linlin Zheng, Chenyang Jiang, Shenda Hong(参考訳) 心室不整脈(VA)は突然の心臓死の主な原因である。 心電図(ECG)に基づくVA検出のための機械学習手法の開発は、人々の命を救うのに役立つ。 しかし、ECGのためのこのような機械学習モデルの開発は、以下の理由により困難である。 1)異なる被験者と集団レベルの多様性 2) 1つの主題の異なるモーメントからの個人レベルの多様性。 本研究では,これらの課題を事前学習と微調整の段階で解決することを目的とする。 事前学習段階において,グループレベルの多様性を解決するために,カリキュラム学習(CL)法を用いたモデル非依存メタラーニング(MAML)を提案する。 MAMLは、大きなデータセットからより優れた知識を転送し、モデルを新しい人に迅速に適応させるために、わずか数レコードを使用すると期待されている。 CLは、メタラーニングによって、簡単なタスクから難しいタスクまで、MAMLをさらに改善する予定である。 微調整の段階では,個別レベルの多様性を解決するために,事前調整の改善を提案する。 利用可能なECGデータセットを3つ組み合わせて実験を行った。 その結果,提案手法はすべての評価指標において比較手法よりも優れていた。 アブレーションによる研究によると、MAMLとCLはより均一に機能し、事前調整はモデルをトレーニングデータに適合させる可能性がある。

Ventricular arrhythmias (VA) are the main causes of sudden cardiac death. Developing machine learning methods for detecting VA based on electrocardiograms (ECGs) can help save people's lives. However, developing such machine learning models for ECGs is challenging because of the following: 1) group-level diversity from different subjects and 2) individual-level diversity from different moments of a single subject. In this study, we aim to solve these problems in the pre-training and fine-tuning stages. For the pre-training stage, we propose a novel model agnostic meta-learning (MAML) with curriculum learning (CL) method to solve group-level diversity. MAML is expected to better transfer the knowledge from a large dataset and use only a few recordings to quickly adapt the model to a new person. CL is supposed to further improve MAML by meta-learning from easy to difficult tasks. For the fine-tuning stage, we propose improved pre-fine-tuning to solve individual-level diversity. We conduct experiments using a combination of three publicly available ECG datasets. The results show that our method outperforms the compared methods in terms of all evaluation metrics. Ablation studies show that MAML and CL could help perform more evenly, and pre-fine-tuning could better fit the model to training data.
翻訳日:2022-03-02 12:46:01 公開日:2022-03-01
# 協調型マルチエージェント強化学習のためのスケーラブルグラフ理論分散フレームワーク

A Scalable Graph-Theoretic Distributed Framework for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2202.13046v2 )

ライセンス: Link先を確認
Gangshan Jing, He Bai, Jemin George, Aranya Chakrabortty, Piyush K. Sharma(参考訳) 大規模協調型マルチエージェント強化学習(MARL)の主な課題は2つある。 (i)RLアルゴリズムは,各エージェントのリソースが限られているため,分散することが望ましい。 (II)次元の呪いにより収束や計算複雑性の問題が発生する。 残念ながら、既存の分散RLの参照のほとんどは、各エージェントのポリシー検索プロセスがローカル情報に基づいていることにのみ焦点をあてているが、大規模ネットワークに直面する際に状態空間と行動空間の高次元によって引き起こされるスケーラビリティの問題は解決できない。 本稿では,この問題に関わるグラフ構造を利用した協調型MARLのための汎用分散フレームワークを提案する。 MARLでは,座標グラフ,観測グラフ,報酬グラフという3つのグラフを導入する。 これら3つのグラフと与えられた通信グラフに基づいて、2つの分散RLアプローチを提案する。 最初のアプローチでは、上記の4つのグラフの構造に依存する問題自体の固有の分解可能性特性を利用し、特定のグラフィカルな条件下で高いパフォーマンスを生み出すことができる。 第二のアプローチは近似解を提供し、任意のグラフに適用できる。 ここで近似誤差は人工的に設計された指数に依存する。 この指標の選択は近似誤差の最小化と計算複雑性の低減とのトレードオフである。 シミュレーションによると、rlアルゴリズムは、集中型およびコンセンサスベースの分散rlアルゴリズムと比較して、大規模マスへのスケーラビリティが大幅に向上している。

The main challenge of large-scale cooperative multi-agent reinforcement learning (MARL) is two-fold: (i) the RL algorithm is desired to be distributed due to limited resource for each individual agent; (ii) issues on convergence or computational complexity emerge due to the curse of dimensionality. Unfortunately, most of existing distributed RL references only focus on ensuring that the individual policy-seeking process of each agent is based on local information, but fail to solve the scalability issue induced by high dimensions of the state and action spaces when facing large-scale networks. In this paper, we propose a general distributed framework for cooperative MARL by utilizing the structures of graphs involved in this problem. We introduce three graphs in MARL, namely, the coordination graph, the observation graph and the reward graph. Based on these three graphs, and a given communication graph, we propose two distributed RL approaches. The first approach utilizes the inherent decomposability property of the problem itself, whose efficiency depends on the structures of the aforementioned four graphs, and is able to produce a high performance under specific graphical conditions. The second approach provides an approximate solution and is applicable for any graphs. Here the approximation error depends on an artificially designed index. The choice of this index is a trade-off between minimizing the approximation error and reducing the computational complexity. Simulations show that our RL algorithms have a significantly improved scalability to large-scale MASs compared with centralized and consensus-based distributed RL algorithms.
翻訳日:2022-03-02 12:45:44 公開日:2022-03-01
# 確率的勾配降下の良性不適合

Benign Underfitting of Stochastic Gradient Descent ( http://arxiv.org/abs/2202.13361v2 )

ライセンス: Link先を確認
Tomer Koren, Roi Livni, Yishay Mansour, Uri Sherman(参考訳) 本研究では,確率勾配降下(SGD)を「従来型」学習規則として理解し,学習データに適合して一般化性能が得られるかを検討した。 基本的な確率凸最適化の枠組みを考えると、SGDは古典的には、O(1/\sqrt n)$で人口リスクを最小化するために知られており、驚くべきことに、SGDソリューションが$\Omega(1)$の経験的リスクと一般化ギャップの両方を示す問題が存在することを証明している。 その結果、sgdはいかなる意味でもアルゴリズム的に安定ではないことが判明し、その一般化能力は一様収束や他の(古典解析以外の)現在知られている一般化境界技術では説明できない。 次に,類似現象が発生しないことを示し,その個体群リスクが実際に最適な速度で収束することを示す,近縁再配置sgdの解析を継続する。 最後に, 有限サム凸最適化問題に対する非置換 SGD の文脈において, 本研究の主な成果を解釈し, 既知結果よりも大幅に向上するマルチエポック方式の上下境界を導出する。

We study to what extent may stochastic gradient descent (SGD) be understood as a "conventional" learning rule that achieves generalization performance by obtaining a good fit to training data. We consider the fundamental stochastic convex optimization framework, where (one pass, without-replacement) SGD is classically known to minimize the population risk at rate $O(1/\sqrt n)$, and prove that, surprisingly, there exist problem instances where the SGD solution exhibits both empirical risk and generalization gap of $\Omega(1)$. Consequently, it turns out that SGD is not algorithmically stable in any sense, and its generalization ability cannot be explained by uniform convergence or any other currently known generalization bound technique for that matter (other than that of its classical analysis). We then continue to analyze the closely related with-replacement SGD, for which we show that an analogous phenomenon does not occur and prove that its population risk does in fact converge at the optimal rate. Finally, we interpret our main results in the context of without-replacement SGD for finite-sum convex optimization problems, and derive upper and lower bounds for the multi-epoch regime that significantly improve upon previously known results.
翻訳日:2022-03-02 12:45:21 公開日:2022-03-01
# 対照学習における否定的サンプルの影響を探る--文埋め込みを事例として

Exploring the Impact of Negative Samples of Contrastive Learning: A Case Study of Sentence Embedding ( http://arxiv.org/abs/2202.13093v2 )

ライセンス: Link先を確認
Rui Cao, Yihao Wang, Yuxin Liang, Ling Gao, Jie Zheng, Jie Ren, Zheng Wang(参考訳) ラベルのないデータから知識を抽出する強力な技術として、コントラスト学習が登場している。 この技術は、正(類似)と負(類似)の2つの成分のバランスの取れた混合物を必要とする。 これは通常、トレーニング中に負のサンプルのキューを維持することで達成される。 この領域での先行的な作業は通常、固定長の負のサンプルキューを使用するが、負のサンプルサイズがモデルのパフォーマンスにどのように影響するかは定かではない。 対照的な学習を実践する際の負のサンプル数の不透明な影響は、我々の深層探査を刺激した。 本稿では,文埋め込みのための負のサンプル列を持つモーメントコントラスト学習モデル,すなわちMoCoSEを提案する。 予測層をオンラインブランチに追加して,モデルを非対称にするとともに,対象ブランチのema更新機構を併用することで,モデル崩壊を防止する。 最大トレーサブル距離メトリックを定義することで、テキストの対比学習が負のサンプルの履歴情報からどの程度の利点を得られるかを学習する。 実験の結果,最大トレーサブル距離が一定範囲の場合に最良の結果が得られ,負のサンプルキューに最適な履歴情報が存在することが示された。 提案した教師なしMoCoSEを意味的テキスト類似度(STS)タスクで評価し,Spearmanの相関平均7.27 %$を得る。 ソースコードはhttps://github.com/x bdxwyh/mocoseで入手できる。

Contrastive learning is emerging as a powerful technique for extracting knowledge from unlabeled data. This technique requires a balanced mixture of two ingredients: positive (similar) and negative (dissimilar) samples. This is typically achieved by maintaining a queue of negative samples during training. Prior works in the area typically uses a fixed-length negative sample queue, but how the negative sample size affects the model performance remains unclear. The opaque impact of the number of negative samples on performance when employing contrastive learning aroused our in-depth exploration. This paper presents a momentum contrastive learning model with negative sample queue for sentence embedding, namely MoCoSE. We add the prediction layer to the online branch to make the model asymmetric and together with EMA update mechanism of the target branch to prevent model from collapsing. We define a maximum traceable distance metric, through which we learn to what extent the text contrastive learning benefits from the historical information of negative samples. Our experiments find that the best results are obtained when the maximum traceable distance is at a certain range, demonstrating that there is an optimal range of historical information for a negative sample queue. We evaluate the proposed unsupervised MoCoSE on the semantic text similarity (STS) task and obtain an average Spearman's correlation of $77.27\%$. Source code is available at https://github.com/x bdxwyh/mocose
翻訳日:2022-03-02 12:44:54 公開日:2022-03-01