このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220510となっている論文です。

PDF登録状況(公開日: 20220510)

TitleAuthorsAbstract論文公表日・翻訳日
# ハイブリッド能動学習(HAL)を用いたアトラクションの流域推定のためのモデルフリーサンプリング法

A Model-Free Sampling Method for Estimating Basins of Attraction Using Hybrid Active Learning (HAL) ( http://arxiv.org/abs/2003.10976v3 )

ライセンス: Link先を確認
Xue-She Wang, Samuel A. Moore, James D. Turner, Brian P. Mann(参考訳) 引力の盆地(BoA)を理解することは、しばしば非線形システムにとって最重要事項である。 高分解能boaを決定するための既存のアプローチのほとんどは、システムの力学モデル(例えば、連続系の微分方程式や点マッピング、離散系のためのセルマッピングなど)の事前知識を必要としており、近似解析解の導出やマルチコアコンピュータ上での並列計算を効率的に行うことができる。 しかし、これらの方法は通常、boaが実験的に決定されなければならないときや、システムのモデルが不明なとき、非実用的である。 本稿では,BoAのモデルフリーサンプリング手法を提案する。 提案手法はハイブリッド能動学習(HAL)に基づいており,BoAの境界を効率的に決定する「情報的」標本の発見とラベル付けを目的としている。 3つの主要な部分からなる。 1) シミュレーション又は実験から得られたサンプル数を最大化するための軌道(ast)への追加サンプリング 2)BoAの局所的境界を利用するアクティブラーニング(AL)アルゴリズム 3)BoAの大域的境界を探索する密度ベースサンプリング法 (DBS) を提案する。 双安定非線形系に対するBoA推定の例を示し,HALサンプリング法の高効率性を示す。

Understanding the basins of attraction (BoA) is often a paramount consideration for nonlinear systems. Most existing approaches to determining a high-resolution BoA require prior knowledge of the system's dynamical model (e.g., differential equation or point mapping for continuous systems, cell mapping for discrete systems, etc.), which allows derivation of approximate analytical solutions or parallel computing on a multi-core computer to find the BoA efficiently. However, these methods are typically impractical when the BoA must be determined experimentally or when the system's model is unknown. This paper introduces a model-free sampling method for BoA. The proposed method is based upon hybrid active learning (HAL) and is designed to find and label the "informative" samples, which efficiently determine the boundary of BoA. It consists of three primary parts: 1) additional sampling on trajectories (AST) to maximize the number of samples obtained from each simulation or experiment; 2) an active learning (AL) algorithm to exploit the local boundary of BoA; and 3) a density-based sampling (DBS) method to explore the global boundary of BoA. An example of estimating the BoA for a bistable nonlinear system is presented to show the high efficiency of our HAL sampling method.
翻訳日:2022-12-20 08:42:08 公開日:2022-05-10
# Labelled Textual Networksのための統合ノードエンコーダ

Integrated Node Encoder for Labelled Textual Networks ( http://arxiv.org/abs/2005.11694v2 )

ライセンス: Link先を確認
Ye Ma and Lu Zong(参考訳) ノードのラベル付き情報にほとんど焦点を合わせずに、コンテンツエンハンスされたネットワーク埋め込みモデルを活用するために、voluminous worksが実装されている。 TriDNRはノードをノード属性として扱うことでノードラベルを利用するが、ラベル付き情報で未ラベルのノードベクトルを拡張できないため、既存の教師なしのテキストネットワーク埋め込みモデルと比較してテストセットの分類結果が弱い。 本研究では,テキストネットワークのための統合ノードエンコーダ(INE)を設計し,構造に基づく目的とラベルに基づく目的を共同で訓練する。 その結果、ノードエンコーダは、ネットワークテキストや構造だけでなく、ラベル付き情報も統合知識として保持する。 さらに、ineはラベルのないノードに対して、ノードの内容を入力することでラベル付きベクターを作成することができる。 ノード埋め込みはCoraとDBLPの2つの公開引用ネットワーク上での分類タスクにおける最先端のパフォーマンスを達成し、ベンチマークをそれぞれ10.0\%、12.1\%、トレーニング比率70\%でプッシュする。 さらに,我々のモデルをテキストネットワークから広範囲のネットワークに一般化する実現可能なソリューションを提案する。

Voluminous works have been implemented to exploit content-enhanced network embedding models, with little focus on the labelled information of nodes. Although TriDNR leverages node labels by treating them as node attributes, it fails to enrich unlabelled node vectors with the labelled information, which leads to the weaker classification result on the test set in comparison to existing unsupervised textual network embedding models. In this study, we design an integrated node encoder (INE) for textual networks which is jointly trained on the structure-based and label-based objectives. As a result, the node encoder preserves the integrated knowledge of not only the network text and structure, but also the labelled information. Furthermore, INE allows the creation of label-enhanced vectors for unlabelled nodes by entering their node contents. Our node embedding achieves state-of-the-art performances in the classification task on two public citation networks, namely Cora and DBLP, pushing benchmarks up by 10.0\% and 12.1\%, respectively, with the 70\% training ratio. Additionally, a feasible solution that generalizes our model from textual networks to a broader range of networks is proposed.
翻訳日:2022-11-29 13:42:24 公開日:2022-05-10
# EBBINNOT:静止型ダイナミックビジョンセンサのためのハードウェア効率の良いハイブリッドイベントフレームトラッカー

EBBINNOT: A Hardware Efficient Hybrid Event-Frame Tracker for Stationary Dynamic Vision Sensors ( http://arxiv.org/abs/2006.00422v4 )

ライセンス: Link先を確認
Vivek Mohan, Deepak Singla, Tarun Pulluri, Andres Ussa, Pradeep Kumar Gopalakrishnan, Pao-Sheng Sun, Bharath Ramesh and Arindam Basu(参考訳) 代替のセンシングパラダイムとして、動的視覚センサ(DVS)が近年、従来のセンサがデータレートと処理時間を高くするシナリオに取り組むために研究されている。 本稿では,静止型ニューロモルフィックセンサによって記録された物体を検出し,追跡するためのハイブリッドイベントフレーム手法を提案する。 具体的には,IoTアプリケーションの長期使用を可能にするメモリおよび計算ニーズを最適化する,ハードウェア効率のよい処理パイプラインを提案する。 静的dvsの背景除去特性を利用するために,フレーム持続時間内にイベントの有無を知らせるイベントベースのバイナリ画像生成を提案する。 これにより、メモリ要求を減らし、中央値のフィルタリングや接続されたコンポーネントラベリングといった単純なアルゴリズムをそれぞれ利用できるようになる。 フラグメンテーション問題を克服するために、YOLOにインスパイアされたニューラルネットワークベースの検出器と分類器が提案されている。 最後に,検出とトラックの重なりを利用した新たな重なりに基づくトラッカーが提案されている。 提案したパイプラインは、2つの異なるニューロモルフィックセンサー(DVSとCeleX)で3つの異なる場所にまたがる5時間以上のトラフィック記録により評価され、同様の性能を示す。 既存のイベントベースの機能トラッカと比較して,計算量を約6倍削減しながら,同様の精度を提供する。 我々の知る限り、定常的なDVSベースのトラフィック監視ソリューションが同時に記録されたRGBフレームベースの手法と比較されるのはこれが初めてであり、最先端のディープラーニングソリューションよりも優れた性能を示す。

As an alternative sensing paradigm, dynamic vision sensors (DVS) have been recently explored to tackle scenarios where conventional sensors result in high data rate and processing time. This paper presents a hybrid event-frame approach for detecting and tracking objects recorded by a stationary neuromorphic sensor, thereby exploiting the sparse DVS output in a low-power setting for traffic monitoring. Specifically, we propose a hardware efficient processing pipeline that optimizes memory and computational needs that enable long-term battery powered usage for IoT applications. To exploit the background removal property of a static DVS, we propose an event-based binary image creation that signals presence or absence of events in a frame duration. This reduces memory requirement and enables usage of simple algorithms like median filtering and connected component labeling for denoise and region proposal respectively. To overcome the fragmentation issue, a YOLO inspired neural network based detector and classifier to merge fragmented region proposals has been proposed. Finally, a new overlap based tracker was implemented, exploiting overlap between detections and tracks is proposed with heuristics to overcome occlusion. The proposed pipeline is evaluated with more than 5 hours of traffic recording spanning three different locations on two different neuromorphic sensors (DVS and CeleX) and demonstrate similar performance. Compared to existing event-based feature trackers, our method provides similar accuracy while needing approx 6 times less computes. To the best of our knowledge, this is the first time a stationary DVS based traffic monitoring solution is extensively compared to simultaneously recorded RGB frame-based methods while showing tremendous promise by outperforming state-of-the-art deep learning solutions.
翻訳日:2022-11-26 13:08:54 公開日:2022-05-10
# 進化データに基づく自動機械学習のための適応戦略

Adaptation Strategies for Automated Machine Learning on Evolving Data ( http://arxiv.org/abs/2006.06480v3 )

ライセンス: Link先を確認
Bilge Celik and Joaquin Vanschoren(参考訳) 自動機械学習(automl)システムは、新しいデータセットのための優れたモデルを効率的に構築することが示されている。 しかし、データが時間とともに進化していくと、どれだけうまく適応できるかはよくわからない。 本研究の主な目的は,概念ドリフトなどのデータストリームの課題がAutoMLメソッドの性能に与える影響と,それらをより堅牢にするためにどのような適応戦略を適用できるかを理解することである。 そこで我々は,6つの概念ドリフト適応戦略を提案し,それらの有効性を異なるAutoMLアプローチで評価する。 私たちは、ベイジアン最適化、遺伝的プログラミング、自動積み重ねによるランダム検索など、機械学習パイプラインを構築するためのさまざまなAutoMLアプローチのためにこれを実施しています。 これらは、概念ドリフトの異なる実世界および合成データストリームで実証的に評価される。 この分析に基づいて,より高度で堅牢なAutoML技術を開発する方法を提案する。

Automated Machine Learning (AutoML) systems have been shown to efficiently build good models for new datasets. However, it is often not clear how well they can adapt when the data evolves over time. The main goal of this study is to understand the effect of data stream challenges such as concept drift on the performance of AutoML methods, and which adaptation strategies can be employed to make them more robust. To that end, we propose 6 concept drift adaptation strategies and evaluate their effectiveness on different AutoML approaches. We do this for a variety of AutoML approaches for building machine learning pipelines, including those that leverage Bayesian optimization, genetic programming, and random search with automated stacking. These are evaluated empirically on real-world and synthetic data streams with different types of concept drift. Based on this analysis, we propose ways to develop more sophisticated and robust AutoML techniques.
翻訳日:2022-11-23 14:18:41 公開日:2022-05-10
# 複雑なダイナミクス予測のためのディープネットワークによる物理モデルの拡張

Augmenting Physical Models with Deep Networks for Complex Dynamics Forecasting ( http://arxiv.org/abs/2010.04456v6 )

ライセンス: Link先を確認
Yuan Yin, Vincent Le Guen, J\'er\'emie Dona, Emmanuel de B\'ezenac, Ibrahim Ayed, Nicolas Thome, Patrick Gallinari(参考訳) それらの力学に関する部分的な知識しか得られない環境で複雑な力学現象を予測することは、様々な科学分野において一般的な問題である。 この文脈では、純粋にデータ駆動アプローチはおそらく不十分であるが、標準的な物理モデリングに基づくアプローチは過度に単純化され、無視できないエラーを引き起こす傾向がある。 本稿では、深層データ駆動モデルを用いた微分方程式により記述された不完全な物理力学を拡張するための原理的アプローチであるAPHYNITYフレームワークを紹介する。 これはダイナミクスを2つのコンポーネントに分割することで構成される: 事前の知識を持つダイナミクスを説明する物理コンポーネントと、物理モデルのエラーを会計するデータ駆動コンポーネントである。 学習問題は、物理モデルが可能な限り多くのデータを説明できるように慎重に定式化され、一方、データ駆動コンポーネントは物理モデルによって取得できない情報しか記述しない。 これは、この分解の存在と一意性を提供するだけでなく、解釈可能性と一般化の利点も保証する。 3つの重要なユースケース(反応拡散方程式、波動方程式、非線形減衰振り子など)についての実験を行った結果、APHYNITYは近似物理モデルを利用してシステムの進化を正確に予測し、関連する物理パラメータを正確に特定できることがわかった。 コードはhttps://github.com/yuan-yin/APHYNITY で入手できる。

Forecasting complex dynamical phenomena in settings where only partial knowledge of their dynamics is available is a prevalent problem across various scientific fields. While purely data-driven approaches are arguably insufficient in this context, standard physical modeling based approaches tend to be over-simplistic, inducing non-negligible errors. In this work, we introduce the APHYNITY framework, a principled approach for augmenting incomplete physical dynamics described by differential equations with deep data-driven models. It consists in decomposing the dynamics into two components: a physical component accounting for the dynamics for which we have some prior knowledge, and a data-driven component accounting for errors of the physical model. The learning problem is carefully formulated such that the physical model explains as much of the data as possible, while the data-driven component only describes information that cannot be captured by the physical model, no more, no less. This not only provides the existence and uniqueness for this decomposition, but also ensures interpretability and benefits generalization. Experiments made on three important use cases, each representative of a different family of phenomena, i.e. reaction-diffusion equations, wave equations and the non-linear damped pendulum, show that APHYNITY can efficiently leverage approximate physical models to accurately forecast the evolution of the system and correctly identify relevant physical parameters. Code is available at https://github.com/yuan-yin/APHYNITY .
翻訳日:2022-10-09 03:55:56 公開日:2022-05-10
# (参考訳) 画像の2次元署名とテクスチャ分類

2-d signature of images and texture classification ( http://arxiv.org/abs/2205.11236v1 )

ライセンス: CC BY 4.0
Sheng Zhang, Guang Lin, Samy Tindel(参考訳) 画像に対する2次元シグネチャの適切な概念を導入する。 この物体は、いわゆる荒い経路理論にインスパイアされ、画像のような2次元物体の本質的な特徴の多くを捉えている。 そのため、パターン分類の低次元の特徴として機能する。 ここでは、テクスチャ分類のための簡単な手順を実装する。 この文脈において,シグネチャに基づく低次元特徴集合は優れた精度をもたらすことを示す。

We introduce a proper notion of 2-dimensional signature for images. This object is inspired by the so-called rough paths theory, and it captures many essential features of a 2-dimensional object such as an image. It thus serves as a low-dimensional feature for pattern classification. Here we implement a simple procedure for texture classification. In this context, we show that a low dimensional set of features based on signatures produces an excellent accuracy.
翻訳日:2022-06-06 08:50:05 公開日:2022-05-10
# 生涯の個人的文脈認識

Lifelong Personal Context Recognition ( http://arxiv.org/abs/2205.10123v1 )

ライセンス: Link先を確認
Andrea Bontempelli, Marcelo Rodas Britez, Xiaoyue Li, Haonan Zhao, Luca Erculiani, Stefano Teso, Andrea Passerini, Fausto Giunchiglia(参考訳) 我々は、人間と生涯共生するAIの開発に焦点をあてる。 このタスクの重要な前提は、AIが(いつでも)人間がいる個人的な状況を理解することである。 このタスクがもたらした重要な課題を概説します (一)有用な提案の理解及び提供に必要な、ユーザコンテキストの人間的かつ自我中心の性質を扱うこと。 (ii)変化に頑健な方法で機械学習を用いて生涯にわたる文脈認識を行うこと。 三 連続的な双方向の相互作用により、AIと人間の世界表現の整合性を維持すること。 本稿では,これらの課題に取り組み,学んだ教訓を議論し,今後の研究の方向性を強調する最近の試みを概説する。 主なメッセージは、このプロジェクトを追求するには知識表現と機械学習の交差点にある研究が必要であるということだ。 どちらの技術もこの目標を達成できない。

We focus on the development of AIs which live in lifelong symbiosis with a human. The key prerequisite for this task is that the AI understands - at any moment in time - the personal situational context that the human is in. We outline the key challenges that this task brings forth, namely (i) handling the human-like and ego-centric nature of the the user's context, necessary for understanding and providing useful suggestions, (ii) performing lifelong context recognition using machine learning in a way that is robust to change, and (iii) maintaining alignment between the AI's and human's representations of the world through continual bidirectional interaction. In this short paper, we summarize our recent attempts at tackling these challenges, discuss the lessons learned, and highlight directions of future research. The main take-away message is that pursuing this project requires research which lies at the intersection of knowledge representation and machine learning. Neither technology can achieve this goal without the other.
翻訳日:2022-05-29 20:36:17 公開日:2022-05-10
# (参考訳) 地域暖房システムのエネルギー需要予測における品質と速度

Quality versus speed in energy demand prediction for district heating systems ( http://arxiv.org/abs/2205.07863v1 )

ライセンス: CC BY 4.0
Witold Andrzejewski and Jedrzej Potoniec and Maciej Drozdowski and Jerzy Stefanowski and Robert Wrembel and Pawe{\l} Stapf(参考訳) 本稿では,地域熱システムにおけるエネルギー需要予測について考察する。 競争力のある電力市場での電力供給において、エネルギー需要の効果的な予測は複合熱システムにおいて不可欠である。 この問題に対処するために,(1) e. dotzauer が提案したアルゴリズムの拡張,(2) エネルギー消費量の移動平均に対する1週間の調整線形回帰に基づく自己回帰予測器,という2つのアルゴリズムを提案する。 これら2つの手法は最先端のニューラルネットワークと比較される。 エネルギー需要予測アルゴリズムは様々な計算コストと予測品質を有する。 予測品質は予測的優位性の尺度として広く用いられているが、計算コストは少なく、その影響はそれほど広く研究されていない。 予測アルゴリズムが新しいデータを使って常に更新される場合、計算コストの高い予測手法が適用できない場合がある。 計算コストは、トレーニングと実行の部分に分けられる。 実行部は、すでに訓練済みのアルゴリズムを適用して何かを予測した場合のコストである。 本稿では,これらの手法を,トレーニングと実行の両方において,品質と計算コストに関して評価する。 比較は、ポーランド北西部の地区暖房システムによる実世界のデータセットで行われている。

In this paper, we consider energy demand prediction in district heating systems. Effective energy demand prediction is essential in combined heat power systems when offering electrical energy in competitive electricity markets. To address this problem, we propose two sets of algorithms: (1) a novel extension to the algorithm proposed by E. Dotzauer and (2) an autoregressive predictor based on hour-of-week adjusted linear regression on moving averages of energy consumption. These two methods are compared against state-of-the-art artificial neural networks. Energy demand predictor algorithms have various computational costs and prediction quality. While prediction quality is a widely used measure of predictor superiority, computational costs are less frequently analyzed and their impact is not so extensively studied. When predictor algorithms are constantly updated using new data, some computationally expensive forecasting methods may become inapplicable. The computational costs can be split into training and execution parts. The execution part is the cost paid when the already trained algorithm is applied to predict something. In this paper, we evaluate the above methods with respect to the quality and computational costs, both in the training and in the execution. The comparison is conducted on a real-world dataset from a district heating system in the northwest part of Poland.
翻訳日:2022-05-22 13:46:46 公開日:2022-05-10
# (参考訳) リカレントニューラルネットワークとKNNを用いた脳波信号に基づく人間の感情分類

Human Emotion Classification based on EEG Signals Using Recurrent Neural Network And KNN ( http://arxiv.org/abs/2205.08419v1 )

ライセンス: CC BY 4.0
Shashank Joshi and Falak Joshi(参考訳) 人間の接触では、感情はとても重要です。 言葉、音声イントネーション、表情、キネシスといった属性は、すべて人の感情を表現するのに使うことができる。 しかし、脳-コンピュータインタフェース(BCI)デバイスはまだ感情解釈に必要なレベルに達していない。 機械学習アルゴリズムの急速な開発、ドライ電極技術、および脳-コンピュータインタフェースの様々な現実世界への応用により、脳波データからの感情分類が最近注目を集めている。 脳波(EEG)信号はこれらのシステムにとって重要な資源である。 eeg信号を使用する主な利点は、真の感情を反映し、コンピュータシステムによって容易に解決される点である。 本研究では,チャネル選択前処理を用いて,善,中,負の感情に関連する脳波信号を同定した。 しかし、研究者はこれまでの様々な感情状態の関連を限定的に把握していた。 脳波信号を識別するために、離散ウェーブレット変換と、リカレントニューラルネットワーク(RNN)やk-nearest neighbor(kNN)アルゴリズムなどの機械学習技術を用いた。 当初、分類法はチャネル選択に利用されていた。 その結果、これらのチャネルからEEGセグメントの機能を統合することで、最終的な特徴ベクトルが生成される。 rnn と knn のアルゴリズムを用いて, 正, 中性, 負の感情を連結した最終特徴ベクトルを独立に分類した。 両手法の分類性能を計算・比較する。 rnn と knn を用いて, 平均誤差は94.844 %, 93.438 %であった。

In human contact, emotion is very crucial. Attributes like words, voice intonation, facial expressions, and kinesics can all be used to portray one's feelings. However, brain-computer interface (BCI) devices have not yet reached the level required for emotion interpretation. With the rapid development of machine learning algorithms, dry electrode techniques, and different real-world applications of the brain-computer interface for normal individuals, emotion categorization from EEG data has recently gotten a lot of attention. Electroencephalogram (EEG) signals are a critical resource for these systems. The primary benefit of employing EEG signals is that they reflect true emotion and are easily resolved by computer systems. In this work, EEG signals associated with good, neutral, and negative emotions were identified using channel selection preprocessing. However, researchers had a limited grasp of the specifics of the link between various emotional states until now. To identify EEG signals, we used discrete wavelet transform and machine learning techniques such as recurrent neural network (RNN) and k-nearest neighbor (kNN) algorithm. Initially, the classifier methods were utilized for channel selection. As a result, final feature vectors were created by integrating the features of EEG segments from these channels. Using the RNN and kNN algorithms, the final feature vectors with connected positive, neutral, and negative emotions were categorized independently. The classification performance of both techniques is computed and compared. Using RNN and kNN, the average overall accuracies were 94.844 % and 93.438 %, respectively.
翻訳日:2022-05-22 13:26:46 公開日:2022-05-10
# クラウドベースのFew-Shot学習のためのプライバシ向上

Privacy Enhancement for Cloud-Based Few-Shot Learning ( http://arxiv.org/abs/2205.07864v1 )

ライセンス: Link先を確認
Archit Parnami, Muhammad Usama, Liyue Fan and Minwoo Lee(参考訳) 正確なモデルに必要なデータが少ないことは、多くのアプリケーションドメインにおいて堅牢性と汎用性を示している。 しかし、信頼できない環境に少数のショットモデルを展開すると、例えば攻撃や敵がユーザーのプライバシを侵害するなどのプライバシー上の懸念が生じる可能性がある。 本稿では、データのプライバシーを保護し、モデルの正確性を維持する新しいプライバシー保護型埋め込み空間を確立することにより、信頼できない環境、例えばクラウドにおける数ショット学習のプライバシー向上について検討する。 画像のぼやけや画素化,ガウスノイズ,および差分プライベートな画素化(DP-Pix)といった様々な画像プライバシ手法が,少数の画像分類に与える影響について検討し,共同損失によるプライバシー保護表現の学習方法を提案する。 経験的な結果から、プライバシパフォーマンスのトレードオフが、プライバシを強調する少数の学習のためにどのように交渉されるかが分かる。

Requiring less data for accurate models, few-shot learning has shown robustness and generality in many application domains. However, deploying few-shot models in untrusted environments may inflict privacy concerns, e.g., attacks or adversaries that may breach the privacy of user-supplied data. This paper studies the privacy enhancement for the few-shot learning in an untrusted environment, e.g., the cloud, by establishing a novel privacy-preserved embedding space that preserves the privacy of data and maintains the accuracy of the model. We examine the impact of various image privacy methods such as blurring, pixelization, Gaussian noise, and differentially private pixelization (DP-Pix) on few-shot image classification and propose a method that learns privacy-preserved representation through the joint loss. The empirical results show how privacy-performance trade-off can be negotiated for privacy-enhanced few-shot learning.
翻訳日:2022-05-22 11:18:40 公開日:2022-05-10
# 安全確保可能な人間にインスパイアされた知覚アーキテクチャ

A Safety Assurable Human-Inspired Perception Architecture ( http://arxiv.org/abs/2205.07862v1 )

ライセンス: Link先を確認
Rick Salay, Krzysztof Czarnecki(参考訳) ディープニューラルネットワーク(DNN)を用いた人工知能ベースの知覚(AIP)は、人間のレベルに近い性能を達成したが、その有名な制限は、自律的なアプリケーションに必要な安全保証の障害である。 これには、敵の入力に対する脆弱性、新しい入力を扱うことができないこと、非解釈性が含まれる。 これらの制限に対処する研究は活発に行われているが、本稿ではそれらに対処するには根本的に異なるアプローチが必要であると論じる。 1型思考は高速で無意識であるが2型思考は遅く、意識的推論に基づく人間の認知の双対プロセスモデルに触発されて、安全なaipのための双対プロセスアーキテクチャを提案する。 本稿では,人間が最も単純な非自明な認識問題,画像分類,およびそれに対応するAIPアーキテクチャのスケッチについて検討する。 このアーキテクチャは、DNNを用いたAIPの限界に対処する体系的な方法と、人間レベルのパフォーマンスを保証するためのアプローチを提供することができる、と我々は主張する。 結論として、アーキテクチャのどのコンポーネントが既存の作業によってすでに対処され、何が将来の作業のままなのかを議論する。

Although artificial intelligence-based perception (AIP) using deep neural networks (DNN) has achieved near human level performance, its well-known limitations are obstacles to the safety assurance needed in autonomous applications. These include vulnerability to adversarial inputs, inability to handle novel inputs and non-interpretability. While research in addressing these limitations is active, in this paper, we argue that a fundamentally different approach is needed to address them. Inspired by dual process models of human cognition, where Type 1 thinking is fast and non-conscious while Type 2 thinking is slow and based on conscious reasoning, we propose a dual process architecture for safe AIP. We review research on how humans address the simplest non-trivial perception problem, image classification, and sketch a corresponding AIP architecture for this task. We argue that this architecture can provide a systematic way of addressing the limitations of AIP using DNNs and an approach to assurance of human-level performance and beyond. We conclude by discussing what components of the architecture may already be addressed by existing work and what remains future work.
翻訳日:2022-05-22 11:17:56 公開日:2022-05-10
# 機械学習と原子層堆積:ニューラルネットワークを用いた原子炉成長プロファイルからの飽和時間予測

Machine learning and atomic layer deposition: predicting saturation times from reactor growth profiles using artificial neural networks ( http://arxiv.org/abs/2205.08378v1 )

ライセンス: Link先を確認
Angel Yanguas-Gil and Jeffrey W. Elam(参考訳) 本研究では,ald反応器の異なる点における厚み値に基づく原子層堆積プロセスの最適化へのディープニューラルネットワークの適用について検討する。 本研究では,ニューラルネットワークを訓練し,原子炉の異なる地点で測定された線量時間と厚さ値から飽和時間を予測するデータセットを,単一実験条件で導入する。 次に、ニューラルネットワークが高い予測精度を達成するために必要なサイズと複雑さをよりよく理解するために、深さ(隠れ層数)とサイズ(各層内のニューロン数)を含む、さまざまな人工ニューラルネットワークの構成を探索する。 その結果、訓練されたニューラルネットワークは、表面運動学の事前情報を必要とせずに、飽和時間を正確に予測できることがわかった。 これにより、既知の原子炉での新しいaldプロセスを最適化するために必要な実験の数を最小限に抑えることができる。 しかし、データセットと訓練手順は原子炉の幾何学に依存する。

In this work we explore the application of deep neural networks to the optimization of atomic layer deposition processes based on thickness values obtained at different points of an ALD reactor. We introduce a dataset designed to train neural networks to predict saturation times based on the dose time and thickness values measured at different points of the reactor for a single experimental condition. We then explore different artificial neural network configurations, including depth (number of hidden layers) and size (number of neurons in each layers) to better understand the size and complexity that neural networks should have to achieve high predictive accuracy. The results obtained show that trained neural networks can accurately predict saturation times without requiring any prior information on the surface kinetics. This provides a viable approach to minimize the number of experiments required to optimize new ALD processes in a known reactor. However, the datasets and training procedure depend on the reactor geometry.
翻訳日:2022-05-22 11:15:40 公開日:2022-05-10
# 携帯電話センサデータに基づく抑うつ診断と予測

Depression Diagnosis and Forecast based on Mobile Phone Sensor Data ( http://arxiv.org/abs/2205.07861v1 )

ライセンス: Link先を確認
Xiangheng He, Andreas Triantafyllopoulos, Alexander Kathan, Manuel Milling, Tianhao Yan, Srividya Tirunellai Rajamani, Ludwig K\"uster, Mathias Harrer, Elena Heber, Inga Grossmann, David D. Ebert, Bj\"orn W. Schuller(参考訳) これまでの研究では、携帯電話から収集したセンサデータとヒトのうつ状態の相関が示されている。 従来の自己評価アンケートと比べて、携帯電話から収集した受動的データはアクセスしやすく、時間も少ない。 特に、受動的携帯電話データは、フレキシブルな時間間隔で収集することができ、即刻の心理的変化を検出し、早期の介入を支援する。 また,携帯電話データを用いたうつ病診断を主眼とした先行研究では,うつ病予報が十分に注目されていない。 本研究では,携帯電話データから電話,電話利用,ユーザ活動,GPS機能を含む4種類の受動的特徴を抽出する。 我々は、診断と予測タスクの両方をモデル化するために、主観非依存の10倍のクロスバリデーション設定に長寿命メモリ(LSTM)ネットワークを実装した。 その結果,携帯電話センサデータから抑うつを予測できる可能性を示す診断課題と同等の結果が得られることがわかった。 本モデルは,主要なうつ病予報(バイナリ)の77.0 %,うつ病重症度予測の53.7 %(5クラス),最高のrmseスコア4.094(phq-9,0~27)を達成する。

Previous studies have shown the correlation between sensor data collected from mobile phones and human depression states. Compared to the traditional self-assessment questionnaires, the passive data collected from mobile phones is easier to access and less time-consuming. In particular, passive mobile phone data can be collected on a flexible time interval, thus detecting moment-by-moment psychological changes and helping achieve earlier interventions. Moreover, while previous studies mainly focused on depression diagnosis using mobile phone data, depression forecasting has not received sufficient attention. In this work, we extract four types of passive features from mobile phone data, including phone call, phone usage, user activity, and GPS features. We implement a long short-term memory (LSTM) network in a subject-independent 10-fold cross-validation setup to model both a diagnostic and a forecasting tasks. Experimental results show that the forecasting task achieves comparable results with the diagnostic task, which indicates the possibility of forecasting depression from mobile phone sensor data. Our model achieves an accuracy of 77.0 % for major depression forecasting (binary), an accuracy of 53.7 % for depression severity forecasting (5 classes), and a best RMSE score of 4.094 (PHQ-9, range from 0 to 27).
翻訳日:2022-05-22 10:57:48 公開日:2022-05-10
# VesNet-RL:実世界のUSプローブナビゲーションのためのシミュレーションに基づく強化学習

VesNet-RL: Simulation-based Reinforcement Learning for Real-World US Probe Navigation ( http://arxiv.org/abs/2205.06676v1 )

ライセンス: Link先を確認
Yuan Bi, Zhongliang Jiang, Yuan Gao, Thomas Wendler, Angelos Karlas, and Nassir Navab(参考訳) 超音波(us)は、放射線のない、低コスト、リアルタイムであるため、最も一般的な医用画像の1つである。 フリーハンドの米国試験では、超音波撮影者はしばしばアメリカのプローブをナビゲートして、診断情報の豊富な標準検査プレーンを可視化する。 しかし、結果として得られる画像の再現性と安定性は、しばしば操作者内および操作者間の変化に悩まされる。 相互作用に基づく学習方法としての強化学習(rl)は、視覚ナビゲートタスクにおいてその効果を実証しているが、一般化の観点からはrlは制限されている。 この課題に対処するため,本研究では,米国探査機の標準長手方向の航法を行うためのシミュレーションベースのRLフレームワークを提案する。 unetはusイメージからバイナリマスクを提供するために使用され、シミュレーションされたバイナリコンテナイメージでトレーニングされたrlエージェントを、さらなるトレーニングなしに実際のシナリオに適用することができる。 実状態を正確に特徴付けるために、環境の理解を容易にするためにマルチモダリティ状態表現構造を導入する。 また, 容器の特性を考慮し, 最小境界長方形に基づく新たな標準視点認識手法を提案し, 探索過程を終了させる。 提案手法の有効性を評価するため,ボランティアの頸動脈内3次元容積と,ロボットUSを用いたカスタムデザインゲルファントムの物理的評価を行った。 その結果,提案手法は船体長手方向へのプローブの移動を効果的かつ正確に行うことができることがわかった。

Ultrasound (US) is one of the most common medical imaging modalities since it is radiation-free, low-cost, and real-time. In freehand US examinations, sonographers often navigate a US probe to visualize standard examination planes with rich diagnostic information. However, reproducibility and stability of the resulting images often suffer from intra- and inter-operator variation. Reinforcement learning (RL), as an interaction-based learning method, has demonstrated its effectiveness in visual navigating tasks; however, RL is limited in terms of generalization. To address this challenge, we propose a simulation-based RL framework for real-world navigation of US probes towards the standard longitudinal views of vessels. A UNet is used to provide binary masks from US images; thereby, the RL agent trained on simulated binary vessel images can be applied in real scenarios without further training. To accurately characterize actual states, a multi-modality state representation structure is introduced to facilitate the understanding of environments. Moreover, considering the characteristics of vessels, a novel standard view recognition approach based on the minimum bounding rectangle is proposed to terminate the searching process. To evaluate the effectiveness of the proposed method, the trained policy is validated virtually on 3D volumes of a volunteer's in-vivo carotid artery, and physically on custom-designed gel phantoms using robotic US. The results demonstrate that proposed approach can effectively and accurately navigate the probe towards the longitudinal view of vessels.
翻訳日:2022-05-22 10:56:34 公開日:2022-05-10
# (参考訳) 注意型クロスモーダルインタラクションと運動強調による圧縮映像動作認識のための表現学習

Representation Learning for Compressed Video Action Recognition via Attentive Cross-modal Interaction with Motion Enhancement ( http://arxiv.org/abs/2205.03569v2 )

ライセンス: CC BY 4.0
Bing Li, Jiaxin Chen, Dongming Zhang, Xiuguo Bao, Di Huang(参考訳) 圧縮されたビデオアクション認識は、rgbフレームと圧縮された動きの手がかり(例えば動きベクトルと残差)によって生のビデオを置き換えることで、ストレージと計算コストを大幅に削減するため、最近注目を集めている。 しかし, この課題は不均質なrgbと運動モダリティの融合が不十分であり, 粗大でノイズの多いダイナミクスに苦しむ。 上記の2つの課題に対処するため,本論文では,動作強化を伴う注意的クロスモーダルインタラクションネットワーク(MEACI-Net)を提案する。 これは2つのストリームアーキテクチャ、すなわちrgbモダリティとモーションモダリティの2つに従う。 特に、モーションストリームは、表現学習を強化するために、デノイジングモジュールを組み込んだマルチスケールブロックを用いる。 次に、smc(selective motion complement)とcma(cross-modality addition)モジュールを導入し、smcはrgbモダリティを時空間的に注意する局所的運動特徴と補完し、cmaはさらに2つのモダリティと選択的特徴増強を組み合わせることにより、2つのストリーム間の相互作用を強化する。 ucf-101、hmdb-51およびkinetics-400ベンチマークに関する広範な実験は、meaci-netの有効性と効率を示している。

Compressed video action recognition has recently drawn growing attention, since it remarkably reduces the storage and computational cost via replacing raw videos by sparsely sampled RGB frames and compressed motion cues (e.g., motion vectors and residuals). However, this task severely suffers from the coarse and noisy dynamics and the insufficient fusion of the heterogeneous RGB and motion modalities. To address the two issues above, this paper proposes a novel framework, namely Attentive Cross-modal Interaction Network with Motion Enhancement (MEACI-Net). It follows the two-stream architecture, i.e. one for the RGB modality and the other for the motion modality. Particularly, the motion stream employs a multi-scale block embedded with a denoising module to enhance representation learning. The interaction between the two streams is then strengthened by introducing the Selective Motion Complement (SMC) and Cross-Modality Augment (CMA) modules, where SMC complements the RGB modality with spatio-temporally attentive local motion features and CMA further combines the two modalities with selective feature augmentation. Extensive experiments on the UCF-101, HMDB-51 and Kinetics-400 benchmarks demonstrate the effectiveness and efficiency of MEACI-Net.
翻訳日:2022-05-15 10:27:41 公開日:2022-05-10
# (参考訳) ドライバーから学習して、Amazonのラストマイルルーティング研究課題に取り組む

Learning from Drivers to Tackle the Amazon Last Mile Routing Research Challenge ( http://arxiv.org/abs/2205.04001v2 )

ライセンス: CC BY 4.0
Chen Wu, Yin Song, Verdi March, Eden Duthie(参考訳) Amazon Last Mile Routing Research Challengeの目標は、Amazonドライバの実際の体験を最適なルート計画と最適化のソリューションに統合することである。 本稿では,機械学習と従来のトラベリングセールスパーソン問題(TSP)を階層的に組み合わせた手法を提案する。 この方法は両世界の利益を享受する。 一方,各ゾーンに数個の停止区間があるゾーンレベルで,過去のルートから逐次確率モデルを学習することにより,ドライバのノウハウを符号化する。 その後、ロールアウトアルゴリズムと呼ばれる1ステップのポリシー反復法を使用して、学習した確率モデルからサンプリングされた妥当なゾーンシーケンスを生成する。 一方,本手法は富裕なTSP文献で開発された証明手法を用いて,各ゾーン内でのシーケンス停止を効率的に行う。 そのような組み合わせの結果は有望なようだ。 評価スコアは0.0374$で、これはトップ3チームが公式チャレンジリーダーボードで達成した結果に匹敵するものです。 さらに,本手法は,この課題の範囲を超えて,明確な逐次パターンを示す経路の学習に適用可能である。 このメソッドのソースコードはhttps://github.com/aws-samples/amazon-sagemaker-amazon-routing-challenge-solで公開されている。

The goal of the Amazon Last Mile Routing Research Challenge is to integrate the real-life experience of Amazon drivers into the solution of optimal route planning and optimization. This paper presents our method that tackles this challenge by hierarchically combining machine learning and conventional Traveling Salesperson Problem (TSP) solvers. Our method reaps the benefits from both worlds. On the one hand, our method encodes driver know-how by learning a sequential probability model from historical routes at the zone level, where each zone contains a few parcel stops. It then uses a single step policy iteration method, known as the Rollout algorithm, to generate plausible zone sequences sampled from the learned probability model. On the other hand, our method utilizes proven methods developed in the rich TSP literature to sequence stops within each zone efficiently. The outcome of such a combination appeared to be promising. Our method obtained an evaluation score of $0.0374$, which is comparable to what the top three teams have achieved on the official Challenge leaderboard. Moreover, our learning-based method is applicable to driving routes that may exhibit distinct sequential patterns beyond the scope of this Challenge. The source code of our method is publicly available at https://github.com/aws-samples/amazon-sagemaker-amazon-routing-challenge-sol
翻訳日:2022-05-15 03:24:49 公開日:2022-05-10
# (参考訳) 文書埋め込みのための文レベルのプライバシー

Sentence-level Privacy for Document Embeddings ( http://arxiv.org/abs/2205.04605v1 )

ライセンス: CC BY 4.0
Casey Meehan, Khalil Mrini, Kamalika Chaudhuri(参考訳) ユーザ言語データは、高度にセンシティブな個人コンテンツを含むことができる。 そのため、データから学習する場合、ユーザに強力で解釈可能なプライバシー保証を提供することが不可欠である。 本研究では,senddp:pure local differential privacyを文レベルで単一ユーザ文書に対して提案する。 本稿では,高次元で汎用性の高い$\epsilon$-SentDP文書の埋め込みを生成するために,ロバスト統計学と言語モデリングの概念を組み合わせた新しい手法DeepCandidateを提案する。 これにより、文書中の任意の一文は他の文と置換でき、$\epsilon$-indistinguishableを埋め込むことができる。 実験の結果,これらのプライベート文書の埋め込みは,感情分析やトピック分類といった下流作業や,単語レベルのメートル法DPなどの保証が弱いベースライン手法よりも優れていることがわかった。

User language data can contain highly sensitive personal content. As such, it is imperative to offer users a strong and interpretable privacy guarantee when learning from their data. In this work, we propose SentDP: pure local differential privacy at the sentence level for a single user document. We propose a novel technique, DeepCandidate, that combines concepts from robust statistics and language modeling to produce high-dimensional, general-purpose $\epsilon$-SentDP document embeddings. This guarantees that any single sentence in a document can be substituted with any other sentence while keeping the embedding $\epsilon$-indistinguishable. Our experiments indicate that these private document embeddings are useful for downstream tasks like sentiment analysis and topic classification and even outperform baseline methods with weaker guarantees like word-level Metric DP.
翻訳日:2022-05-15 00:06:59 公開日:2022-05-10
# (参考訳) 機械学習の共通性に向けて: アイデンティティの増大、低表現の扱い、評価の実施

Towards Intersectionality in Machine Learning: Including More Identities, Handling Underrepresentation, and Performing Evaluation ( http://arxiv.org/abs/2205.04610v1 )

ライセンス: CC BY 4.0
Angelina Wang and Vikram V. Ramaswamy and Olga Russakovsky(参考訳) 機械学習の公平性の研究は歴史的に1つの2進分類属性と見なされてきたが、現実ははるかに複雑である。 本研究では,(1)データセットラベルとして含める属性,(2)モデルトレーニング中のサブグループの漸進的に小さいサイズを扱う方法,(3)ベンチマークモデルがより多くのサブグループに対して公平である場合に,既存の評価基準を超越する方法,の3つの段階において,機械学習パイプラインの3つの段階に沿って生じる疑問を提起する。 それぞれの質問に対して,米国国勢調査から派生した表型データセットの徹底した実証的評価を行い,機械学習コミュニティに構築的勧告を与える。 まず、どの属性ラベルをトレーニングするかを選択する際に、各属性の完全なセットを常に評価しながら、ドメイン知識を実証的検証で補うことを提唱する。 第2に、規範的含意を考慮せずにデータ不均衡技術の使用を警告し、データ構造を用いた代替案を提案する。 第3に,交差点設定に適した新しい評価指標を導入する。 全体として、機械学習に交叉性を組み込む際に必要となる3つの(十分ではない!

Research in machine learning fairness has historically considered a single binary demographic attribute; however, the reality is of course far more complicated. In this work, we grapple with questions that arise along three stages of the machine learning pipeline when incorporating intersectionality as multiple demographic attributes: (1) which demographic attributes to include as dataset labels, (2) how to handle the progressively smaller size of subgroups during model training, and (3) how to move beyond existing evaluation metrics when benchmarking model fairness for more subgroups. For each question, we provide thorough empirical evaluation on tabular datasets derived from the US Census, and present constructive recommendations for the machine learning community. First, we advocate for supplementing domain knowledge with empirical validation when choosing which demographic attribute labels to train on, while always evaluating on the full set of demographic attributes. Second, we warn against using data imbalance techniques without considering their normative implications and suggest an alternative using the structure in the data. Third, we introduce new evaluation metrics which are more appropriate for the intersectional setting. Overall, we provide substantive suggestions on three necessary (albeit not sufficient!) considerations when incorporating intersectionality into machine learning.
翻訳日:2022-05-14 23:48:32 公開日:2022-05-10
# (参考訳) 機械学習のモデリングによるクラスウェイト校正

Calibrating for Class Weights by Modeling Machine Learning ( http://arxiv.org/abs/2205.04613v1 )

ライセンス: CC BY 4.0
Andrew Caplin, Daniel Martin, and Philip Marx(参考訳) より研究された課題は、機械学習アルゴリズムによって提供される信頼度スコアが、真実の確率に基づいて調整される範囲である。 私たちの出発点は、キャリブレーションがクラスの重み付けと相容れないように見えることです。これは、1つのクラスがあまり一般的でない場合(クラス不均衡)や、ある外部目標を達成する場合(コスト感受性学習)にしばしば使用されるテクニックです。 本稿では,この不整合性をモデルベースで説明し,クラス重み付けによって誤判定されるアルゴリズムから確率を復元する簡単な方法を生成する。 このアプローチは,rajpurkar,irvin,zhu,al.(2017)の2次肺炎検出タスクで検証した。

A much studied issue is the extent to which the confidence scores provided by machine learning algorithms are calibrated to ground truth probabilities. Our starting point is that calibration is seemingly incompatible with class weighting, a technique often employed when one class is less common (class imbalance) or with the hope of achieving some external objective (cost-sensitive learning). We provide a model-based explanation for this incompatibility and use our anthropomorphic model to generate a simple method of recovering likelihoods from an algorithm that is miscalibrated due to class weighting. We validate this approach in the binary pneumonia detection task of Rajpurkar, Irvin, Zhu, et al. (2017).
翻訳日:2022-05-14 23:22:46 公開日:2022-05-10
# (参考訳) テレマティクスによる夜間自動車の予測--マルチレベルアプローチ

Nightly Automobile Claims Prediction from Telematics-Derived Features: A Multilevel Approach ( http://arxiv.org/abs/2205.04616v1 )

ライセンス: CC BY 4.0
Allen R. Williams, Yoolim Jin, Anthony Duer, Tuka Alhanai, Mohammad Ghassemi(参考訳) 近年では、ドライバーからgpsデータを収集し、そのデータをドライバーの自動車保険価格に組み込むことが可能になっている。 このデータを夜間に収集・処理し、各個別旅行の1マイルと時刻の要約と、旅行の属性(例えば、運転者の疲労や運転者の気遣いなど)を記述する一連の行動スコアからなるメタデータに分類し、運転者の主張に繋がる事故の直前に発生した旅行の分類を成功させることで、リスクの増加期間を識別できるかどうかを検討する。 ドライバーのリスクの増加期間の特定は、介入の機会と、潜在的にクレームの回避をもたらすため、価値がある。 ドライバーが取るべき旅行のメタデータを調べ、分類器を訓練し、そのドライバーが主張する場所が‘textit{the following trip’であるかどうかを予測する。 0.6以上の受信者-操作特性の領域を達成することにより,事前にクレームを予測可能であることを示す。 さらに、XGBoost分類器の受信-演算特性に基づく領域で測定された予測パワーを、駆動マイルなどの露光機能を用いて運転者がクレームを持つかどうか、計算速度スコアなどの行動特性を用いて訓練した者と比較した。

In recent years it has become possible to collect GPS data from drivers and to incorporate this data into automobile insurance pricing for the driver. This data is continuously collected and processed nightly into metadata consisting of mileage and time summaries of each discrete trip taken, and a set of behavioral scores describing attributes of the trip (e.g, driver fatigue or driver distraction) so we examine whether it can be used to identify periods of increased risk by successfully classifying trips that occur immediately before a trip in which there was an incident leading to a claim for that driver. Identification of periods of increased risk for a driver is valuable because it creates an opportunity for intervention and, potentially, avoidance of a claim. We examine metadata for each trip a driver takes and train a classifier to predict whether \textit{the following trip} is one in which a claim occurs for that driver. By achieving a area under the receiver-operator characteristic above 0.6, we show that it is possible to predict claims in advance. Additionally, we compare the predictive power, as measured by the area under the receiver-operator characteristic of XGBoost classifiers trained to predict whether a driver will have a claim using exposure features such as driven miles, and those trained using behavioral features such as a computed speed score.
翻訳日:2022-05-14 23:10:38 公開日:2022-05-10
# (参考訳) codo: 下流の背景不変性を用いたコントラスト学習

CoDo: Contrastive Learning with Downstream Background Invariance for Detection ( http://arxiv.org/abs/2205.04617v1 )

ライセンス: CC BY 4.0
Bing Zhao, Jun Li and Hong Zhu(参考訳) 先行した自己教師付き学習研究は、主に前文課題として画像レベルのインスタンス識別を選択する。 教師あり学習法に匹敵する素晴らしい分類性能を達成している。 しかし、オブジェクト検出などの下流タスクでは、転送性能が低下する。 パフォーマンスギャップを埋めるために,コントラスト学習と下流背景不変性(codo)という,オブジェクトレベルの自己教師付き学習手法を提案する。 pretextタスクは、さまざまなバックグラウンド、特にダウンストリームデータセットのインスタンスロケーションモデリングにフォーカスするように変換される。 背景不変性の能力は物体検出に不可欠であると考えられている。 まず、背景画像にインスタンスをペーストし、境界ボックスをいじって背景情報を含むデータ拡張戦略を提案する。 次に,事前学習ネットワークとメインストリーム検出パイプライン間のアーキテクチャアライメントを実装した。 第3に、階層的および多視点のコントラスト学習は、視覚的表現学習のパフォーマンスを向上させるように設計されている。 MSCOCOの実験では、共通のバックボーンを持つCoDoであるResNet50-FPNが、オブジェクト検出に強力な転送学習結果をもたらすことを示した。

The prior self-supervised learning researches mainly select image-level instance discrimination as pretext task. It achieves a fantastic classification performance that is comparable to supervised learning methods. However, with degraded transfer performance on downstream tasks such as object detection. To bridge the performance gap, we propose a novel object-level self-supervised learning method, called Contrastive learning with Downstream background invariance (CoDo). The pretext task is converted to focus on instance location modeling for various backgrounds, especially for downstream datasets. The ability of background invariance is considered vital for object detection. Firstly, a data augmentation strategy is proposed to paste the instances onto background images, and then jitter the bounding box to involve background information. Secondly, we implement architecture alignment between our pretraining network and the mainstream detection pipelines. Thirdly, hierarchical and multi views contrastive learning is designed to improve performance of visual representation learning. Experiments on MSCOCO demonstrate that the proposed CoDo with common backbones, ResNet50-FPN, yields strong transfer learning results for object detection.
翻訳日:2022-05-14 22:59:03 公開日:2022-05-10
# (参考訳) 学習アルゴリズムにおけるリスク回避と推薦システムへの応用

Risk Aversion In Learning Algorithms and an Application To Recommendation Systems ( http://arxiv.org/abs/2205.04619v1 )

ライセンス: CC BY 4.0
Andreas Haupt and Aroon Narayanan(参考訳) バンディット学習環境を考える。 我々は,upper confidence band (ucb) や $\varepsilon$-greedy といった一般的な学習アルゴリズムがリスク回避を示すことを実証する。 我々は、$\varepsilon$-Greedyが決定論的かつラデマチャー分布のアームに直面した場合、確率が0$となる危険腕を選択することを証明した。 UCBはリスク回避行動も示しており,リスク回避は,リスクの高い腕がわずかに高い期待を抱いても,早期学習において持続的に現れることを実験的に示す。 このモデルをレコメンデーションシステムに校正し,アルゴリズムによるリスク回避が消費者の余剰を減少させ,均質性を高めることを示す。 本稿では,他のバンディットアルゴリズムの拡張,強化学習,決定理論に対するアルゴリズム的リスク回避の影響について考察する。

Consider a bandit learning environment. We demonstrate that popular learning algorithms such as Upper Confidence Band (UCB) and $\varepsilon$-Greedy exhibit risk aversion: when presented with two arms of the same expectation, but different variance, the algorithms tend to not choose the riskier, i.e. higher variance, arm. We prove that $\varepsilon$-Greedy chooses the risky arm with probability tending to $0$ when faced with a deterministic and a Rademacher-distributed arm. We show experimentally that UCB also shows risk-averse behavior, and that risk aversion is present persistently in early rounds of learning even if the riskier arm has a slightly higher expectation. We calibrate our model to a recommendation system and show that algorithmic risk aversion can decrease consumer surplus and increase homogeneity. We discuss several extensions to other bandit algorithms, reinforcement learning, and investigate the impacts of algorithmic risk aversion for decision theory.
翻訳日:2022-05-14 22:57:47 公開日:2022-05-10
# (参考訳) 順序統計のためのエントロピーCLT

Entropic CLT for Order Statistics ( http://arxiv.org/abs/2205.04621v1 )

ライセンス: CC BY 4.0
Martina Cardone and Alex Dytso and Cynthia Rush(参考訳) 中央順序統計が中心極限挙動を示し、サンプルサイズが大きくなるにつれてガウス分布に収束することが知られている。 本稿では,CLTのエントロピーバージョンを確立し,相対エントロピーを用いてより強い収束モードを確保することにより,この既知の結果を強化する。 特に、次数$O(1/\sqrt{n})$収束率は、順序統計を生成するサンプルの親分布に関する穏やかな条件の下で成立する。 この結果を証明するために、順序統計に関する補助的な結果が導出される。

It is well known that central order statistics exhibit a central limit behavior and converge to a Gaussian distribution as the sample size grows. This paper strengthens this known result by establishing an entropic version of the CLT that ensures a stronger mode of convergence using the relative entropy. In particular, an order $O(1/\sqrt{n})$ rate of convergence is established under mild conditions on the parent distribution of the sample generating the order statistics. To prove this result, ancillary results on order statistics are derived, which might be of independent interest.
翻訳日:2022-05-14 22:47:19 公開日:2022-05-10
# (参考訳) 柔軟な動的ストリーム分析のためのエッジクラウド統合フレームワーク

An Edge-Cloud Integrated Framework for Flexible and Dynamic Stream Analytics ( http://arxiv.org/abs/2205.04622v1 )

ライセンス: CC BY 4.0
Xin Wang, Azim Khan, Jianwu Wang, Aryya Gangopadhyay, Carl E. Busart, Jade Freeman(参考訳) IoT(Internet of Things)やエッジコンピューティング,クラウドコンピューティングの普及に伴い,IoTセンサデータ上でのリアルタイムトレンド予測やオブジェクト検出など,ストリーム分析アプリケーションの開発がますます進んでいる。 ストリーム分析の一般的なタイプの1つは、recurrent neural network(rnn)のディープラーニングモデルに基づく時系列あるいはシーケンスデータ予測と予測である。 処理対象のデータが前もって利用可能で変更されないと仮定した従来の分析とは違って、ストリーム分析では、継続的に生成されるデータと、データトレンド/分散(コンセプトドリフト)が変更され、予測/予測精度が時間とともに低下する可能性がある。 もうひとつの課題は,ストリーム分析に最適なリソースプロビジョニングを提供することによる,全体的なレイテンシの向上だ。 本稿では,rnnベースのストリーム分析において,エッジリソースとクラウドリソースを最大限に活用し,精度とレイテンシを向上させる方法について検討する。 本稿では,エッジ上の低レイテンシ推論とクラウド上の高容量トレーニングをサポートするハイブリッドストリーム分析のための,エッジクラウド統合フレームワークを提案する。 我々は,エッジ中心,クラウド中心,エッジクラウド統合といったハイブリッド学習フレームワークの柔軟な展開について検討する。 さらに,このハイブリッド学習フレームワークは,過去のデータに基づいて事前学習したrnnモデルと,最新のデータに基づいて周期的に再訓練された別のrnnモデルから推定結果を動的に結合することができる。 実世界とシミュレートされたストリームデータセットを用いて,提案するエッジクラウドデプロイメントが,レイテンシの観点から3つのデプロイメントタイプの中で最も優れていることを示す。 実験では,3つのコンセプトドリフトシナリオすべてにおいて,動的学習手法が最善の学習手法であることを示す。

With the popularity of Internet of Things (IoT), edge computing and cloud computing, more and more stream analytics applications are being developed including real-time trend prediction and object detection on top of IoT sensing data. One popular type of stream analytics is the recurrent neural network (RNN) deep learning model based time series or sequence data prediction and forecasting. Different from traditional analytics that assumes data to be processed are available ahead of time and will not change, stream analytics deals with data that are being generated continuously and data trend/distribution could change (aka concept drift), which will cause prediction/forecasting accuracy to drop over time. One other challenge is to find the best resource provisioning for stream analytics to achieve good overall latency. In this paper, we study how to best leverage edge and cloud resources to achieve better accuracy and latency for RNN-based stream analytics. We propose a novel edge-cloud integrated framework for hybrid stream analytics that support low latency inference on the edge and high capacity training on the cloud. We study the flexible deployment of our hybrid learning framework, namely edge-centric, cloud-centric and edge-cloud integrated. Further, our hybrid learning framework can dynamically combine inference results from an RNN model pre-trained based on historical data and another RNN model re-trained periodically based on the most recent data. Using real-world and simulated stream datasets, our experiments show the proposed edge-cloud deployment is the best among all three deployment types in terms of latency. For accuracy, the experiments show our dynamic learning approach performs the best among all learning approaches for all three concept drift scenarios.
翻訳日:2022-05-14 21:29:47 公開日:2022-05-10
# (参考訳) 組立学習とグラフ学習を対象とするフラッド検出パイプラインと関連する諸問題に関する研究

On some studies of Fraud Detection Pipeline and related issues from the scope of Ensemble Learning and Graph-based Learning ( http://arxiv.org/abs/2205.04626v1 )

ライセンス: CC BY 4.0
Tuan Tran(参考訳) 英国の反詐欺チャリティーであるFraud Advisory Panel(FAP)は2016年のレビューで、不正行為のビジネスコストを144億、個人費用は970億と見積もっている。 銀行、保険、製造業、政府が最も一般的な産業は詐欺行為である。 効率的な不正検出システムを設計することで、損失を回避できるが、不均衡データや計算コストなど、多くの難しい問題により、このシステムの構築は困難である。 過去30年間で、不正検出に関する様々な研究があるが、不正検出システムを構築するための最良のアプローチについて合意はない。 この論文では いくつか質問に答えることを目指しています 一 容易に実装できるだけでなく、信頼性の高い結果も提供できる簡易かつ効果的なフラッド検出システムの構築方法及び提案したフラッド検出パイプラインは、システムの潜在的バックボーンであり、拡張やアップグレードが容易である。 二 プロセスの更新コストを低減するため、システム内のモデルを更新する(かつ精度を安定させる)とき。 三 不正検出等、ビッグデータ分類問題における極端な不均衡をどう扱うか。この二つの難題のギャップである。 さらに、グラフに基づく半教師付き学習を用いて不正取引を検出する方法。

The UK anti-fraud charity Fraud Advisory Panel (FAP) in their review of 2016 estimates business costs of fraud at 144 billion, and its individual counterpart at 9.7 billion. Banking, insurance, manufacturing, and government are the most common industries affected by fraud activities. Designing an efficient fraud detection system could avoid losing the money; however, building this system is challenging due to many difficult problems, e.g.imbalanced data, computing costs, etc. Over the last three decades, there are various research relates to fraud detection but no agreement on what is the best approach to build the fraud detection system. In this thesis, we aim to answer some questions such as i) how to build a simplified and effective Fraud Detection System that not only easy to implement but also providing reliable results and our proposed Fraud Detection Pipeline is a potential backbone of the system and is easy to be extended or upgraded, ii) when to update models in our system (and keep the accuracy stable) in order to reduce the cost of updating process, iii) how to deal with an extreme imbalance in big data classification problem, e.g. fraud detection, since this is the gap between two difficult problems, iv) further, how to apply graph-based semi-supervised learning to detect fraudulent transactions.
翻訳日:2022-05-14 21:08:56 公開日:2022-05-10
# (参考訳) 深層学習技術による暗号ポンプとダンプ検出

Crypto Pump and Dump Detection via Deep Learning Techniques ( http://arxiv.org/abs/2205.04646v1 )

ライセンス: CC BY 4.0
Viswanath Chadalapaka, Kyle Chang, Gireesh Mahajan, Anuj Vasil(参考訳) 暗号通貨自体が過去10年で驚くべき採用率に達しているにもかかわらず、暗号通貨の不正検出は極めて未調査の問題領域である。 暗号通貨に関する不正行為の中で、ポンプとダンプのスキームが最も一般的である。 株式市場におけるこうした詐欺に関する研究はいくつか行われているが、ラベル付き株式データや暗号通貨分野特有のボラティリティの欠如は、この問題領域に対する株式市場の研究の適用性を制限している。 さらに、この分野でこれまで行われた作業は、自然界の統計学か、あるいはランダムフォレストツリーのような古典的機械学習モデルに関するものだった。 本稿では,この問題領域における2つの既存のニューラルネットワークアーキテクチャの新たな適用法を提案する。

Despite the fact that cryptocurrencies themselves have experienced an astonishing rate of adoption over the last decade, cryptocurrency fraud detection is a heavily under-researched problem area. Of all fraudulent activity regarding cryptocurrencies, pump and dump schemes are some of the most common. Though some studies have been done on these kinds of scams in the stock market, the lack of labelled stock data and the volatility unique to the cryptocurrency space constrains the applicability of studies on the stock market toward this problem domain. Furthermore, the only work done in this space thus far has been either statistical in nature, or has been concerned with classical machine learning models such as random forest trees. We propose the novel application of two existing neural network architectures to this problem domain and show that deep learning solutions can significantly outperform all other existing pump and dump detection methods for cryptocurrencies.
翻訳日:2022-05-14 20:47:47 公開日:2022-05-10
# (参考訳) SuMe: バイオメディカルメカニズムの要約に向けたデータセット

SuMe: A Dataset Towards Summarizing Biomedical Mechanisms ( http://arxiv.org/abs/2205.04652v1 )

ライセンス: CC BY 4.0
Mohaddeseh Bastan, Nishant Shankar, Mihai Surdeanu, and Niranjan Balasubramanian(参考訳) 言語モデルは生物医学的テキストを読み、議論される生体医学的メカニズムを説明することができるか? 本稿では,生物医療機構の要約タスクを紹介する。 生物医学的な研究は、ある物質(例えば、タンパク質や化学物質)が生物学的文脈において他の物質にどのように影響するかのメカニズムをしばしば研究する。 これらの出版物の要約には、しばしばそのような関係に関する関連する支持言明を提示する集中した一連の文、関連する実験的な証拠、および関係の基礎となるメカニズムを要約する結論付け文が含まれる。 我々はこの構造を利用して要約タスクを作成し、入力は抽象的な文と主エンティティの集合であり、出力は機構を要約する関係と文を含む。 少量の手動ラベル付き機構文を用いて,機構文分類器を訓練し,大規模な生体医学的抽象コレクションをフィルタリングし,22kインスタンスの要約データセットを作成する。 また,611kインスタンスの事前学習タスクとして結論文生成を導入する。 大規模生物ドメイン言語モデルの性能をベンチマークする。 事前学習タスクは性能向上に役立ちながら,最高のモデルでは32%のインスタンスで許容可能なメカニズムの出力を生成しており,これは生物医学的言語理解と要約において重要な課題であることを示している。

Can language models read biomedical texts and explain the biomedical mechanisms discussed? In this work we introduce a biomedical mechanism summarization task. Biomedical studies often investigate the mechanisms behind how one entity (e.g., a protein or a chemical) affects another in a biological context. The abstracts of these publications often include a focused set of sentences that present relevant supporting statements regarding such relationships, associated experimental evidence, and a concluding sentence that summarizes the mechanism underlying the relationship. We leverage this structure and create a summarization task, where the input is a collection of sentences and the main entities in an abstract, and the output includes the relationship and a sentence that summarizes the mechanism. Using a small amount of manually labeled mechanism sentences, we train a mechanism sentence classifier to filter a large biomedical abstract collection and create a summarization dataset with 22k instances. We also introduce conclusion sentence generation as a pretraining task with 611k instances. We benchmark the performance of large bio-domain language models. We find that while the pretraining task help improves performance, the best model produces acceptable mechanism outputs in only 32% of the instances, which shows the task presents significant challenges in biomedical language understanding and summarization.
翻訳日:2022-05-14 20:38:05 公開日:2022-05-10
# (参考訳) A 14uJ/Decision Keyword Spotting Accelerator with In-SRAM-Computing and On Chip Learning for Customization

A 14uJ/Decision Keyword Spotting Accelerator with In-SRAM-Computing and On Chip Learning for Customization ( http://arxiv.org/abs/2205.04665v1 )

ライセンス: CC BY 4.0
Yu-Hsiang Chiang, Tian-Sheuan Chang and Shyh Jye Jou(参考訳) 近年、キーワードスポッティングは消費者デバイスと対話する自然な方法として人気が高まっている。 しかし、常にオンになっている性質と音声の多様性から、低消費電力なデザインとユーザーカスタマイズが必要となる。 本稿では,SRAMベースのインメモリコンピューティング(IMC)とユーザカスタマイズのためのオンチップ学習を用いた低消費電力,エネルギー効率のキーワードスポッティングアクセラレータについて述べる。 しかし、IMCはマクロサイズ、限られた精度、非理想効果に制約されている。 上記の問題に対処するために,IMC対応モデル設計を用いたバイアス補償と微調整を提案する。 さらに,低精度エッジデバイスを用いた学習では量子化による誤差や勾配値がゼロとなるため,誤差スケーリングと小さな勾配蓄積を提案し,理想的なモデルトレーニングと同じ精度を実現する。 シミュレーションの結果,ユーザのカスタマイズにより,補正と微調整により精度損失を51.08\%から89.76\%に回復し,カスタマイズにより96.71\%に改善できることがわかった。 チップの実装は、決定当たり14ドルuj$でモデルの実行を成功させる。 最新技術と比較すると、より高精度なオンチップモデルカスタマイズ機能を備えた高効率な設計となる。

Keyword spotting has gained popularity as a natural way to interact with consumer devices in recent years. However, because of its always-on nature and the variety of speech, it necessitates a low-power design as well as user customization. This paper describes a low-power, energy-efficient keyword spotting accelerator with SRAM based in-memory computing (IMC) and on-chip learning for user customization. However, IMC is constrained by macro size, limited precision, and non-ideal effects. To address the issues mentioned above, this paper proposes bias compensation and fine-tuning using an IMC-aware model design. Furthermore, because learning with low-precision edge devices results in zero error and gradient values due to quantization, this paper proposes error scaling and small gradient accumulation to achieve the same accuracy as ideal model training. The simulation results show that with user customization, we can recover the accuracy loss from 51.08\% to 89.76\% with compensation and fine-tuning and further improve to 96.71\% with customization. The chip implementation can successfully run the model with only 14$uJ$ per decision. When compared to the state-of-the-art works, the presented design has higher energy efficiency with additional on-chip model customization capabilities for higher accuracy.
翻訳日:2022-05-14 20:19:53 公開日:2022-05-10
# (参考訳) 慣性測定ユニットを用いた深部歩行追跡

Deep Gait Tracking With Inertial Measurement Unit ( http://arxiv.org/abs/2205.04666v1 )

ライセンス: CC BY 4.0
Jien De Sui, and Tian Sheuan Chang(参考訳) 本稿では,6軸慣性測定単位(imu)センサデータのみを用いた畳み込みニューラルネットワークによる足の動き追跡について述べる。 提案手法は, ディファレンシャル入力とウィンドウ入力を併用することで, 様々な歩行条件に適応できる。 トレーニングデータは、IMUセンサデータのスライディングとランダムウィンドウサンプリングによってさらに強化され、データの多様性が向上し、パフォーマンスが向上する。 提案手法は3次元出力の予測を1つのモデルに融合する。 提案した融合モデルでは, 平均誤差はX軸が2.30+-2.23cm, Y軸が0.91+-0.95cm, Z軸が0.58+-0.52cmとなる。

This paper presents a convolutional neural network based foot motion tracking with only six-axis Inertial-Measurement-Unit (IMU) sensor data. The presented approach can adapt to various walking conditions by adopting differential and window based input. The training data are further augmented by sliding and random window samplings on IMU sensor data to increase data diversity for better performance. The proposed approach fuses predictions of three dimensional output into one model. The proposed fused model can achieve average error of 2.30+-2.23 cm in X-axis, 0.91+-0.95 cm in Y-axis and 0.58+-0.52 cm in Z-axis.
翻訳日:2022-05-14 20:06:11 公開日:2022-05-10
# (参考訳) 正規化流れと分布外射影を用いた変分推論mpc

Variational Inference MPC using Normalizing Flows and Out-of-Distribution Projection ( http://arxiv.org/abs/2205.04667v1 )

ライセンス: CC BY 4.0
Thomas Power and Dmitry Berenson(参考訳) 本研究では,開始,目標,環境に条件づけられた正規化フローを訓練することにより,最適制御列の分布を近似する不定形変分推論を用いた衝突なしナビゲーションのためのモデル予測制御(mpc)法を提案する。 この表現により、ロボットのダイナミクスと複雑な障害物ジオメトリの両方を考慮した分布を学習できる。 この分布からサンプルを抽出し,フローMPPIサンプリングに基づくMPC法の一部として,目標指向と衝突回避の両方が可能な制御シーケンスを生成する。 しかし,本手法をデプロイする場合,ロボットは,トレーニングで使用するものとは大きく異なる,アウト・オブ・ディストリビューション(OOD)環境に遭遇する可能性がある。 このような場合、学習フローは低コストな制御シーケンスを生成するために信頼できない。 また,本手法をOOD環境に一般化するために,MPCプロセスの一部として環境表現を投影する手法を提案する。 このプロジェクションは、真の環境における軌道品質を最適化しながら、環境表現をより分配的に変える。 2次元2次元インテグレータと3次元12DoF不活性化四重極子を用いたシミュレーションの結果,実際のデータから生成されたOOD環境を含む分布内およびOOD環境において,プロジェクションを用いたフローMPPIが最先端のMPCベースラインより優れていることが示唆された。

We propose a Model Predictive Control (MPC) method for collision-free navigation that uses amortized variational inference to approximate the distribution of optimal control sequences by training a normalizing flow conditioned on the start, goal and environment. This representation allows us to learn a distribution that accounts for both the dynamics of the robot and complex obstacle geometries. We can then sample from this distribution to produce control sequences which are likely to be both goal-directed and collision-free as part of our proposed FlowMPPI sampling-based MPC method. However, when deploying this method, the robot may encounter an out-of-distribution (OOD) environment, i.e. one which is radically different from those used in training. In such cases, the learned flow cannot be trusted to produce low-cost control sequences. To generalize our method to OOD environments we also present an approach that performs projection on the representation of the environment as part of the MPC process. This projection changes the environment representation to be more in-distribution while also optimizing trajectory quality in the true environment. Our simulation results on a 2D double-integrator and a 3D 12DoF underactuated quadrotor suggest that FlowMPPI with projection outperforms state-of-the-art MPC baselines on both in-distribution and OOD environments, including OOD environments generated from real-world data.
翻訳日:2022-05-14 19:56:27 公開日:2022-05-10
# (参考訳) ランニングとウォーキングのためのリアルタイムウェアラブル歩行位相セグメンテーション

Real-Time Wearable Gait Phase Segmentation For Running And Walking ( http://arxiv.org/abs/2205.04668v1 )

ライセンス: CC BY 4.0
Jien-De Sui, Wei-Han Chen, Tzyy-Yuang Shiang and Tian-Sheuan Chang(参考訳) 畳み込みニューラルネットワーク(CNN)に基づく分類タスクでは、異なるテストケース下で各フェーズを正確に分類するために、時間遅延や重重なり合ったスライディングウィンドウの煩雑な手動設定が必要であり、これはIMU(Inertial-Measurement-Unit)センサーデータのストリーミングには適さないため、異なるシナリオに適応できない。 本稿では,単一の6軸imuセンサのみを用いたセグメンテーションに基づく歩行位相検出法を提案する。 提案したセグメンテーションは、歩行位相を考慮した受容場設定とIMU指向処理順序を備えたCNNを用いており、高い精度で1000HzまでのIMUのサンプリングレートに適合し、リアルタイム計算では20Hzまでのサンプリングレートを低下させることができる。 20Hzサンプリングレートデータを用いたモデルでは,揺動時間8.86ms,姿勢時間9.12ms,歩行位相検出96.44\%,ストライド検出99.97\%の平均誤差が得られる。 携帯電話でのリアルタイム実装は1秒のセンサーデータに36ミリ秒しかかからない。

Previous gait phase detection as convolutional neural network (CNN) based classification task requires cumbersome manual setting of time delay or heavy overlapped sliding windows to accurately classify each phase under different test cases, which is not suitable for streaming Inertial-Measurement-Unit (IMU) sensor data and fails to adapt to different scenarios. This paper presents a segmentation based gait phase detection with only a single six-axis IMU sensor, which can easily adapt to both walking and running at various speeds. The proposed segmentation uses CNN with gait phase aware receptive field setting and IMU oriented processing order, which can fit to high sampling rate of IMU up to 1000Hz for high accuracy and low sampling rate down to 20Hz for real time calculation. The proposed model on the 20Hz sampling rate data can achieve average error of 8.86 ms in swing time, 9.12 ms in stance time and 96.44\% accuracy of gait phase detection and 99.97\% accuracy of stride detection. Its real-time implementation on mobile phone only takes 36 ms for 1 second length of sensor data.
翻訳日:2022-05-14 19:37:32 公開日:2022-05-10
# (参考訳) 異種個体群間における遺伝的リスク予測の改善

Improving genetic risk prediction across diverse population by disentangling ancestry representations ( http://arxiv.org/abs/2205.04673v1 )

ライセンス: CC BY-SA 4.0
Prashnna K Gyawali, Yann Le Guen, Xiaoxia Liu, Hua Tang, James Zou, Zihuai He(参考訳) 遺伝データを用いたリスク予測モデルは、ゲノム学において勢いを増している。 しかし、ほとんどのポリジェニックリスクモデルは、類似した(主にヨーロッパ)祖先の参加者のデータを用いて開発された。 これにより、少数民族やアフリカ系アメリカ人のような混ざり合った個人に適用すると、リスク予測者の偏りが生じる可能性がある。 このバイアスに対処するために, 人口構造を基盤とする予測モデルを中心に, 多様な人口のデータを活用し, その表現における表現型関連情報から祖先を異にする新しいディープラーニングフレームワークを提案する。 祖先の矛盾した表現は、少数民族にまたがるリスク予測器を構築するのに使うことができる。 提案手法をアルツハイマー病遺伝子解析に応用した。 従来の線形リスク予測法や非線形リスク予測法と比較して,提案手法は少数民族,特に混成個体のリスク予測を大幅に改善する。

Risk prediction models using genetic data have seen increasing traction in genomics. However, most of the polygenic risk models were developed using data from participants with similar (mostly European) ancestry. This can lead to biases in the risk predictors resulting in poor generalization when applied to minority populations and admixed individuals such as African Americans. To address this bias, largely due to the prediction models being confounded by the underlying population structure, we propose a novel deep-learning framework that leverages data from diverse population and disentangles ancestry from the phenotype-relevant information in its representation. The ancestry disentangled representation can be used to build risk predictors that perform better across minority populations. We applied the proposed method to the analysis of Alzheimer's disease genetics. Comparing with standard linear and nonlinear risk prediction methods, the proposed method substantially improves risk prediction in minority populations, particularly for admixed individuals.
翻訳日:2022-05-14 19:29:01 公開日:2022-05-10
# (参考訳) 精密受粉のためのコンピュータビジョンを用いた空間モニタリングと昆虫行動解析

Spatial Monitoring and Insect Behavioural Analysis Using Computer Vision for Precision Pollination ( http://arxiv.org/abs/2205.04675v1 )

ライセンス: CC BY 4.0
Malika Nisal Ratnayake, Don Chathurika Amarathunga, Asaduz Zaman, Adrian G. Dyer, Alan Dorin(参考訳) 昆虫は作物の世界的な受粉者であり、自然生態系の持続性を維持する上で重要な役割を担っている。 したがって、昆虫の受粉監視と管理は作物の生産と食品の安全性を改善するのに不可欠である。 コンピュータビジョンによる受粉者監視は、手動で実現可能なデータ収集を強化することができる。 新たに得られたデータは、昆虫の分布を詳細に理解し、受粉効果を予測するのに十分な詳細な分析を容易にし、精度の高い受粉を誘導する。 現在のコンピュータビジョンでは、複雑な屋外環境での昆虫追跡は空間的に制限され、しばしば単一の昆虫種に制限される。 これは農業との関わりを制限している。 そこで,本研究では,昆虫数,昆虫運動追跡,行動解析,受粉予測などのマーカーレスデータ収集を容易にする新しいシステムを提案する。 本システムは,エッジコンピューティングによる多点映像記録,オフライン自動多種昆虫数,追跡,行動分析によって構成されている。 我々は,その能力を実証するために,市販のベリー農場でシステムを実装し,テストする。 本システムでは,ポリトンネル内の9つの監視ステーションで4種類の昆虫を追跡し,それぞれ0.8以上のf-scoreを得た。 このシステムは、各昆虫の相対的な受粉影響を評価するために重要な指標の計算を可能にした。 この技術進歩により、精密受粉のための詳細なデータ収集が可能となる。 これは、作物の受粉を管理する栽培者やアピアリストに、食糧生産と食品の安全性を改善するためにデータ駆動の意思決定を行うことを可能にするために重要である。

Insects are the most important global pollinator of crops and play a key role in maintaining the sustainability of natural ecosystems. Insect pollination monitoring and management are therefore essential for improving crop production and food security. Computer vision facilitated pollinator monitoring can intensify data collection over what is feasible using manual approaches. The new data it generates may provide a detailed understanding of insect distributions and facilitate fine-grained analysis sufficient to predict their pollination efficacy and underpin precision pollination. Current computer vision facilitated insect tracking in complex outdoor environments is restricted in spatial coverage and often constrained to a single insect species. This limits its relevance to agriculture. Therefore, in this article we introduce a novel system to facilitate markerless data capture for insect counting, insect motion tracking, behaviour analysis and pollination prediction across large agricultural areas. Our system is comprised of Edge Computing multi-point video recording, offline automated multi-species insect counting, tracking and behavioural analysis. We implement and test our system on a commercial berry farm to demonstrate its capabilities. Our system successfully tracked four insect varieties, at nine monitoring stations within a poly-tunnel, obtaining an F-score above 0.8 for each variety. The system enabled calculation of key metrics to assess the relative pollination impact of each insect variety. With this technological advancement, detailed, ongoing data collection for precision pollination becomes achievable. This is important to inform growers and apiarists managing crop pollination, as it allows data-driven decisions to be made to improve food production and food security.
翻訳日:2022-05-14 19:13:45 公開日:2022-05-10
# (参考訳) 連続学習多対一LSTMを用いた金融市場における時系列のリアルタイム予測

Real-time Forecasting of Time Series in Financial Markets Using Sequentially Trained Many-to-one LSTMs ( http://arxiv.org/abs/2205.04678v1 )

ライセンス: CC BY 4.0
Kelum Gajamannage and Yonggi Park(参考訳) 金融市場は高度に複雑で不安定であり、このような市場について予測のために学ぶことは、クラッシュやその後の回復を早期に警告する上で不可欠である。 金融数学や機械学習といった様々な分野の学習ツールを使って、そのような市場で信頼できる予測をしようとしている。 しかし、人工ニューラルネットワーク(ann)フレームワークが開発されるまでは、この技術の精度は十分ではなかった。 さらに、財務時系列の正確なリアルタイム予測を行うことは、使用中のANNアーキテクチャとその訓練手順に非常に適している。 長期記憶(Long Short-term memory, LSTM)は、時系列予測に広く利用されているリカレントニューラルネットワークファミリーのメンバーである。 特に、既知の長さを持つ2つのLSTM、例えば、以前のデータのT$タイムステップをトレーニングし、わずか1回だけ前進を予測します。 各イテレーションにおいて、1つのLSTMが最適なエポック数を見つけるために使用される一方で、第2のLSTMは予測するエポック数だけを訓練する。 我々は、現在の予測を次の予測のためのトレーニングセットとして扱い、同じLSTMを訓練する。 従来のトレーニング手法では,テスト期間中に予測がさらに遠ざかると誤差が大きくなるが,本手法では,テスト期間中にトレーニングが進むにつれて,精度が向上する。 我々のアプローチの予測精度は、株式、暗号通貨、商品の3つの異なる金融市場の3つの時系列を用いて検証される。 その結果,拡張カルマンフィルタ,自己回帰モデル,自己回帰的統合移動平均モデルと比較した。

Financial markets are highly complex and volatile; thus, learning about such markets for the sake of making predictions is vital to make early alerts about crashes and subsequent recoveries. People have been using learning tools from diverse fields such as financial mathematics and machine learning in the attempt of making trustworthy predictions on such markets. However, the accuracy of such techniques had not been adequate until artificial neural network (ANN) frameworks were developed. Moreover, making accurate real-time predictions of financial time series is highly subjective to the ANN architecture in use and the procedure of training it. Long short-term memory (LSTM) is a member of the recurrent neural network family which has been widely utilized for time series predictions. Especially, we train two LSTMs with a known length, say $T$ time steps, of previous data and predict only one time step ahead. At each iteration, while one LSTM is employed to find the best number of epochs, the second LSTM is trained only for the best number of epochs to make predictions. We treat the current prediction as in the training set for the next prediction and train the same LSTM. While classic ways of training result in more error when the predictions are made further away in the test period, our approach is capable of maintaining a superior accuracy as training increases when it proceeds through the testing period. The forecasting accuracy of our approach is validated using three time series from each of the three diverse financial markets: stock, cryptocurrency, and commodity. The results are compared with those of an extended Kalman filter, an autoregressive model, and an autoregressive integrated moving average model.
翻訳日:2022-05-14 18:50:47 公開日:2022-05-10
# (参考訳) DNSベースのブラウザ内暗号ジャック検出

DNS based In-Browser Cryptojacking Detection ( http://arxiv.org/abs/2205.04685v1 )

ライセンス: CC BY 4.0
Rohit Kumar Sachan, Rachit Agarwal, Sandeep Kumar Shukla(参考訳) ドメイン名(DN)のメタデータの側面により、DNの振る舞いを解析し、DNがブラウザ内暗号ジャックに関与しているかどうかを検出することができる。 そこで我々は,暗号ジャッキングに関わるDNの時間的・行動的側面の異なる側面を研究する動機がある。 問合せ頻度や問合せバーストなどの時間的特徴と、度数や直径などのグラフに基づく特徴と、文字列ベースのような非時間的特徴を用いて、DNがブラウザ内暗号ジャックに関与していると思われるかどうかを検出する。 次に、2時間データセットや完全なデータセットなど、さまざまな時間的粒度の機械学習(ML)アルゴリズムをトレーニングするためにそれらを使用します。 以上の結果から,decisivetrees分類器が59.5%のリコール率で最良であるのに対し,教師なし学習ではk=2のk-meansが最良であることが示された。 類似性分析により、暗号化されたDNと、すでに知られている他の悪意のあるDNとの間の最小限のばらつきが明らかになる。 また、ブラウザ内暗号化検出の精度を向上させるために、最先端のメソッドの機能セットを改善する必要性も明らかにしている。 分析の結果、インド政府のwebサイトは2021年10月から12月の間に暗号化に関わっていなかったことがわかりました。 しかし,資源利用量から異なる特性を持つ10個のDNを同定した。

The metadata aspect of Domain Names (DNs) enables us to perform a behavioral study of DNs and detect if a DN is involved in in-browser cryptojacking. Thus, we are motivated to study different temporal and behavioral aspects of DNs involved in cryptojacking. We use temporal features such as query frequency and query burst along with graph-based features such as degree and diameter, and non-temporal features such as the string-based to detect if a DNs is suspect to be involved in the in-browser cryptojacking. Then, we use them to train the Machine Learning (ML) algorithms over different temporal granularities such as 2 hours datasets and complete dataset. Our results show DecisionTrees classifier performs the best with 59.5% Recall on cryptojacked DN, while for unsupervised learning, K-Means with K=2 perform the best. Similarity analysis of the features reveals a minimal divergence between the cryptojacking DNs and other already known malicious DNs. It also reveals the need for improvements in the feature set of state-of-the-art methods to improve their accuracy in detecting in-browser cryptojacking. As added analysis, our signature-based analysis identifies that none-of-the Indian Government websites were involved in cryptojacking during October-December 2021. However, based on the resource utilization, we identify 10 DNs with different properties than others.
翻訳日:2022-05-14 18:30:31 公開日:2022-05-10
# (参考訳) 周期的信号に対する非同期イベントベースアルゴリズム

An asynchronous event-based algorithm for periodic signals ( http://arxiv.org/abs/2205.04691v1 )

ライセンス: CC BY 4.0
David El-Chai Ben-Ezra, Ron Arad, Ayelet Padowicz, Israel Tugendhaft(参考訳) 本稿では,イベントカメラの新たな技術により,既知の周波数で画素サイズの信号を検出するための単純なイベント指向アルゴリズムを提案する。 さらに,ランダムな変動から所望の周期信号をフィルタリングするアルゴリズムの能力を解析する。 この能力を実証し、トワイライトの間、100Hzの周波数でフリックする街灯の信号と、視野の遠い建物で窓から発する太陽の輝きとを、アルゴリズムがどのように区別できるかを示す。

In this paper, we present a simple event-oriented algorithm for detection of pixel-size signals with a known frequency, by the novel technology of an event camera. In addition, we analyze the ability of the algorithm to filter out the desired periodic signals from random fluctuations. We demonstrate this ability and show how the algorithm can distinguish, during twilight, between the signals of a streetlight that flicker with frequency of 100 Hz, and sun glitter originating from windows in far-away buildings in the field of view.
翻訳日:2022-05-14 18:13:52 公開日:2022-05-10
# (参考訳) 知識強化機械学習と自動運転への応用:調査

Knowledge Augmented Machine Learning with Applications in Autonomous Driving: A Survey ( http://arxiv.org/abs/2205.04712v1 )

ライセンス: CC BY 4.0
Julian W\"ormann, Daniel Bogdoll, Etienne B\"uhrle, Han Chen, Evaristus Fuh Chuo, Kostadin Cvejoski, Ludger van Elst, Tobias Glei{\ss}ner, Philip Gottschall, Stefan Griesche, Christian Hellert, Christian Hesels, Sebastian Houben, Tim Joseph, Niklas Keil, Johann Kelsch, Hendrik K\"onigshof, Erwin Kraft, Leonie Kreuser, Kevin Krone, Tobias Latka, Denny Mattern, Stefan Matthes, Mohsin Munir, Moritz Nekolla, Adrian Paschke, Maximilian Alexander Pintz, Tianming Qiu, Faraz Qureishi, Syed Tahseen Raza Rizvi, J\"org Reichardt, Laura von Rueden, Stefan Rudolph, Alexander Sagel, Gerhard Schunk, Hao Shen, Hendrik Stapelbroek, Vera Stehr, Gurucharan Srinivas, Anh Tuan Tran, Abhishek Vivekanandan, Ya Wang, Florian Wasserrab, Tino Werner, Christian Wirth, Stefan Zwicklbauer(参考訳) 代表的データセットの存在は多くの成功した人工知能と機械学習モデルの前提条件である。 しかしながら、これらのモデルのその後の適用は、トレーニングに使用するデータで不十分に表現されるシナリオを伴うことが多い。 理由は多様体であり、時間とコストの制約から倫理的考察まで様々である。 その結果、これらのモデル、特に安全クリティカルなアプリケーションでの信頼性の高い使用は、大きな課題となる。 追加的な既存の知識ソースを活用することは、純粋データ駆動アプローチの制限を克服し、最終的にはこれらのモデルの一般化能力を高めるための鍵となる。 さらに、知識に適合する予測は、不十分なシナリオにおいても信頼できる安全な決定を下すのに不可欠である。 本研究は、データベースモデルと既存の知識を組み合わせた文献における既存の技術と手法の概要を提供する。 識別されたアプローチはカテゴリ統合、抽出、適合性に従って構成される。 自動運転分野の応用には特に注意が払われている。

The existence of representative datasets is a prerequisite of many successful artificial intelligence and machine learning models. However, the subsequent application of these models often involves scenarios that are inadequately represented in the data used for training. The reasons for this are manifold and range from time and cost constraints to ethical considerations. As a consequence, the reliable use of these models, especially in safety-critical applications, is a huge challenge. Leveraging additional, already existing sources of knowledge is key to overcome the limitations of purely data-driven approaches, and eventually to increase the generalization capability of these models. Furthermore, predictions that conform with knowledge are crucial for making trustworthy and safe decisions even in underrepresented scenarios. This work provides an overview of existing techniques and methods in the literature that combine data-based models with existing knowledge. The identified approaches are structured according to the categories integration, extraction and conformity. Special attention is given to applications in the field of autonomous driving.
翻訳日:2022-05-14 18:08:28 公開日:2022-05-10
# (参考訳) 大域的・局所的な表現指導による雑音ラベルデータからのロバストな医用画像分類

Robust Medical Image Classification from Noisy Labeled Data with Global and Local Representation Guided Co-training ( http://arxiv.org/abs/2205.04723v1 )

ライセンス: CC BY 4.0
Cheng Xue, Lequan Yu, Pengfei Chen, Qi Dou, and Pheng-Ann Heng(参考訳) ディープニューラルネットワークは、様々な自然画像と医療画像コンピューティングタスクで顕著な成功を収めてきた。 しかし、これらの成果は正確に注釈付けされたトレーニングデータに依存している。 ノイズの多いラベル付き画像に遭遇した場合、ネットワークトレーニング手順は困難に悩まされ、サブ最適分類器となる。 この問題は、医用画像の注釈品質がアノテータの専門知識や経験に大きく依存するため、医用画像解析の分野ではさらに深刻である。 本稿では,高品質なアノテート医療データの欠如に対処するために,雑音ラベルデータからロバストな医用画像分類を行うための,グローバルおよびローカル表現学習を用いた新しい協調学習パラダイムを提案する。 具体的には,ノイズラベルフィルタ付き自己センブルモデルを用いて,クリーンでノイズの多いサンプルを効率的に選択する。 そして、クリーンサンプルを共同トレーニング戦略で訓練し、不完全なラベル付きサンプルからの混乱を解消する。 特に,ネットワークを暗黙的に規則化し,自己教師あり方式でノイズサンプルを活用するための,新たなグローバル・ローカル表現学習方式を考案した。 提案手法は,3種類のラベルノイズ,ie,randomノイズ,コンピュータ生成ラベルノイズ,observer間変動雑音を含む4つの医療画像分類データセット上でロバストな学習戦略を評価した。 提案手法は,ノイズラベル法で他の学習よりも優れており,また,各成分の分析実験も行った。

Deep neural networks have achieved remarkable success in a wide variety of natural image and medical image computing tasks. However, these achievements indispensably rely on accurately annotated training data. If encountering some noisy-labeled images, the network training procedure would suffer from difficulties, leading to a sub-optimal classifier. This problem is even more severe in the medical image analysis field, as the annotation quality of medical images heavily relies on the expertise and experience of annotators. In this paper, we propose a novel collaborative training paradigm with global and local representation learning for robust medical image classification from noisy-labeled data to combat the lack of high quality annotated medical data. Specifically, we employ the self-ensemble model with a noisy label filter to efficiently select the clean and noisy samples. Then, the clean samples are trained by a collaborative training strategy to eliminate the disturbance from imperfect labeled samples. Notably, we further design a novel global and local representation learning scheme to implicitly regularize the networks to utilize noisy samples in a self-supervised manner. We evaluated our proposed robust learning strategy on four public medical image classification datasets with three types of label noise,ie,random noise, computer-generated label noise, and inter-observer variability noise. Our method outperforms other learning from noisy label methods and we also conducted extensive experiments to analyze each component of our method.
翻訳日:2022-05-14 18:06:53 公開日:2022-05-10
# (参考訳) 参照表現の弱教師付きセグメンテーション

Weakly-supervised segmentation of referring expressions ( http://arxiv.org/abs/2205.04725v1 )

ライセンス: CC BY 4.0
Robin Strudel, Ivan Laptev, Cordelia Schmid(参考訳) ビジュアルグラウンドは、与えられた参照表現に対応する画像内の領域(ボックスまたはセグメント)をローカライズする。 本研究では,これまで完全に教師された環境でのみ対処されてきた,参照表現からのイメージセグメンテーションに対処する。 しかし、完全な教師付きセットアップではピクセル単位での監視が必要であり、手動のアノテーションを犠牲にしてスケールするのは困難である。 そこで我々は、参照表現から弱教師付きイメージセグメンテーションのタスクを導入し、ピクセルレベルのアノテーションなしで画像レベルの参照表現から直接セグメンテーションマスクを学習するテキストベースセマンティックセグメンテーション(TSEG)を提案する。 本手法は,パッチテキストの類似性を計算し,新しいマルチラベルパッチ割り当て機構を用いて訓練中の分類目標を導出する。 得られた視覚的接地モデルは、与えられた自然言語表現に対応する画像領域をセグメント化する。 我々のアプローチTSEGは、困難であるPhraseCutとRefCOCOデータセット上で、弱教師付き参照表現セグメンテーションのための有望な結果を示す。 TSEGはまた、Pascal VOC上のセマンティックセグメンテーションのためのゼロショット設定で評価した場合の競合性能を示す。

Visual grounding localizes regions (boxes or segments) in the image corresponding to given referring expressions. In this work we address image segmentation from referring expressions, a problem that has so far only been addressed in a fully-supervised setting. A fully-supervised setup, however, requires pixel-wise supervision and is hard to scale given the expense of manual annotation. We therefore introduce a new task of weakly-supervised image segmentation from referring expressions and propose Text grounded semantic SEGgmentation (TSEG) that learns segmentation masks directly from image-level referring expressions without pixel-level annotations. Our transformer-based method computes patch-text similarities and guides the classification objective during training with a new multi-label patch assignment mechanism. The resulting visual grounding model segments image regions corresponding to given natural language expressions. Our approach TSEG demonstrates promising results for weakly-supervised referring expression segmentation on the challenging PhraseCut and RefCOCO datasets. TSEG also shows competitive performance when evaluated in a zero-shot setting for semantic segmentation on Pascal VOC.
翻訳日:2022-05-14 17:23:15 公開日:2022-05-10
# (参考訳) 最大平均差を持つ量子生成学習モデルの理論

Theory of Quantum Generative Learning Models with Maximum Mean Discrepancy ( http://arxiv.org/abs/2205.04730v1 )

ライセンス: CC BY 4.0
Yuxuan Du, Zhuozhuo Tu, Bujiao Wu, Xiao Yuan, Dacheng Tao(参考訳) 量子力学の本質的な確率論的性質は、量子生成学習モデル(QGLM)を古典的モデルよりも計算上の優位性で設計する試みを誘発する。 現在までに、2つの原型QGLMは量子回路Born Machine (QCBM) と量子生成逆ネットワーク (QGAN) であり、それぞれ明示的および暗黙的な方法でターゲット分布を近似している。 経験的な業績にもかかわらず、これらのモデルの基本理論はほとんど不明である。 この知識のギャップを狭めるため,本研究では,qcbms と qgan の学習能力を一般化の観点から検討する。 特に,量子デバイスがターゲット分布に直接アクセスでき,量子カーネルが使用される場合に,qcbmsの一般化能力を分析し,その優位性を同定する。 次に、QGANの一般化誤差境界が、採用されるAnsatz、クォーディットの数、入力状態に依存することを示す。 この境界は、ハミルトニアン学習タスクにおいて潜在的量子長所を求めるためにさらに用いられる。 量子状態、ガウス分布、およびパラメータ化ハミルトンの基底状態の近似におけるQGLMの数値結果は、理論解析と一致する。 我々の研究は、量子生成学習モデルのパワーを定量的に理解するための道を開く。

The intrinsic probabilistic nature of quantum mechanics invokes endeavors of designing quantum generative learning models (QGLMs) with computational advantages over classical ones. To date, two prototypical QGLMs are quantum circuit Born machines (QCBMs) and quantum generative adversarial networks (QGANs), which approximate the target distribution in explicit and implicit ways, respectively. Despite the empirical achievements, the fundamental theory of these models remains largely obscure. To narrow this knowledge gap, here we explore the learnability of QCBMs and QGANs from the perspective of generalization when their loss is specified to be the maximum mean discrepancy. Particularly, we first analyze the generalization ability of QCBMs and identify their superiorities when the quantum devices can directly access the target distribution and the quantum kernels are employed. Next, we prove how the generalization error bound of QGANs depends on the employed Ansatz, the number of qudits, and input states. This bound can be further employed to seek potential quantum advantages in Hamiltonian learning tasks. Numerical results of QGLMs in approximating quantum states, Gaussian distribution, and ground states of parameterized Hamiltonians accord with the theoretical analysis. Our work opens the avenue for quantitatively understanding the power of quantum generative learning models.
翻訳日:2022-05-14 17:05:01 公開日:2022-05-10
# (参考訳) 制約を用いた説明可能なデータインプテーション

Explainable Data Imputation using Constraints ( http://arxiv.org/abs/2205.04731v1 )

ライセンス: CC BY 4.0
Sandeep Hans, Diptikalyan Saha, Aniya Aggarwal(参考訳) データセット内のデータ値は、誤操作やヒューマンエラーによって欠落したり異常になったりします。 値の欠如でデータを分析するとバイアスが発生し、推論に影響を与える。 原理成分分析や特異値分解など、いくつかの分析手法は完全なデータを必要とする。 多くのアプローチは数値データを入力し、他の属性への属性の依存性を考慮しないものもあれば、人的介入とドメイン知識を必要とするものもある。 本稿では,データ型値の異なるデータ型値とその関連制約に基づくデータ計算のための新しいアルゴリズムを提案する。 アルゴリズムとアートインプテーション手法の状況を比較し,異なる指標を用いて実験結果を示す。 本アルゴリズムは, 欠落値だけでなく, あらゆる含意に使用される属性の意義を人間の可読性で記述した説明文を生成する。

Data values in a dataset can be missing or anomalous due to mishandling or human error. Analysing data with missing values can create bias and affect the inferences. Several analysis methods, such as principle components analysis or singular value decomposition, require complete data. Many approaches impute numeric data and some do not consider dependency of attributes on other attributes, while some require human intervention and domain knowledge. We present a new algorithm for data imputation based on different data type values and their association constraints in data, which are not handled currently by any system. We show experimental results using different metrics comparing our algorithm with state of the art imputation techniques. Our algorithm not only imputes the missing values but also generates human readable explanations describing the significance of attributes used for every imputation.
翻訳日:2022-05-14 16:04:13 公開日:2022-05-10
# (参考訳) GLAMのためのAIトレーニングリソース:スナップショット

AI training resources for GLAM: a snapshot ( http://arxiv.org/abs/2205.04738v1 )

ライセンス: CC BY 4.0
Andrew Darby and Catherine Nicole Coleman and Claudia Engel and Daniel van Strien and Mike Trizna and Zachary W. Painter(参考訳) 私たちは、Galleries, Libraries, Archives and Museums (GLAM)コミュニティに焦点をあてて、AIの教育と学習に利用可能な現在のリソースのスナップショットを取ります。 審査は2021年と2022年に行われた。 このレビューは、私たちが関連していると認識した資料の概要を提供し、この資料の説明を提供し、この分野における今後の作業について推奨します。

We take a snapshot of current resources available for teaching and learning AI with a focus on the Galleries, Libraries, Archives and Museums (GLAM) community. The review was carried out in 2021 and 2022. The review provides an overview of material we identified as being relevant, offers a description of this material and makes recommendations for future work in this area.
翻訳日:2022-05-14 15:52:07 公開日:2022-05-10
# (参考訳) 医学診断における深層学習法 : アンケート調査より

Explainable Deep Learning Methods in Medical Diagnosis: A Survey ( http://arxiv.org/abs/2205.04766v1 )

ライセンス: CC BY 4.0
Cristiano Patr\'icio, Jo\~ao C. Neves, Lu\'is F. Teixeira(参考訳) ディープラーニングの顕著な成功は、その医学的診断への応用に対する関心を惹きつけている。 最先端のディープラーニングモデルでさえ、異なるタイプの医療データの分類において人間レベルの精度を達成したが、これらのモデルは、主に解釈可能性の欠如のために、臨床ワークフローでは採用されていない。 ディープラーニングモデルのブラックボックス性は、これらのモデルの意思決定プロセスを説明するための戦略開発の必要性を高め、eXplainable Artificial Intelligence(XAI)というトピックが生み出された。 この文脈では, 視覚的, テキスト的, 例に基づく説明法など, xai の医療診断への応用を徹底的に調査する。 さらに,本研究は,既存の医用画像データセットと既存の指標をレビューし,説明の質を評価する。 既存の調査を補完するものとして、レポート生成手法のセットのパフォーマンス比較を含める。 最後に,XAIを医用画像に適用する上での大きな課題についても論じる。

The remarkable success of deep learning has prompted interest in its application to medical diagnosis. Even tough state-of-the-art deep learning models have achieved human-level accuracy on the classification of different types of medical data, these models are hardly adopted in clinical workflows, mainly due to their lack of interpretability. The black-box-ness of deep learning models has raised the need for devising strategies to explain the decision process of these models, leading to the creation of the topic of eXplainable Artificial Intelligence (XAI). In this context, we provide a thorough survey of XAI applied to medical diagnosis, including visual, textual, and example-based explanation methods. Moreover, this work reviews the existing medical imaging datasets and the existing metrics for evaluating the quality of the explanations . Complementary to most existing surveys, we include a performance comparison among a set of report generation-based methods. Finally, the major challenges in applying XAI to medical imaging are also discussed.
翻訳日:2022-05-14 15:42:50 公開日:2022-05-10
# (参考訳) マルチドメインからの自己教師付き学習のためのドメイン不変マスキングオートエンコーダ

Domain Invariant Masked Autoencoders for Self-supervised Learning from Multi-domains ( http://arxiv.org/abs/2205.04771v1 )

ライセンス: CC0 1.0
Haiyang Yang, Meilin Chen, Yizhou Wang, Shixiang Tang, Feng Zhu, Lei Bai, Rui Zhao, Wanli Ouyang(参考訳) 異なる視覚領域にまたがる学習表現を一般化することは、人間の視覚システムの基本的かつ重要な能力である。 近年の自己教師型学習手法は,トレーニングセットと同じドメインで評価を行い,優れたパフォーマンスを達成しているが,異なるドメインでテストした場合,望ましくないパフォーマンスが低下する。 したがって、複数のドメインタスクから自己教師付き学習を行い、トレーニングセットと同じドメインの評価に適するだけでなく、未知のドメインにも一般化できるドメイン不変特徴を学習する。 本稿では,マルチドメインから自己教師付き学習を行うためのドメイン不変マスク型オートエンコーダ(dimae)を提案する。 コアとなるアイデアは、異なるドメインからのスタイルノイズで入力イメージを増強し、拡張画像の埋め込みからイメージを再構築し、エンコーダを正則化してドメイン不変の特徴を学ぶことである。 DiMAEには2つの重要な設計が含まれている。 1) パラメータフリーでコンテンツを持続しながら入力に他のドメインからのスタイル情報を追加するコンテンツ保存スタイルミックス 2)複数のドメイン固有デコーダは、コード化されたドメイン不変の機能に対応する入力のドメインスタイルを復元する。 PACSとDomainNetの実験は、最近の最先端の手法と比較して、DiMAEがかなりの利益を得ていることを示している。

Generalizing learned representations across significantly different visual domains is a fundamental yet crucial ability of the human visual system. While recent self-supervised learning methods have achieved good performances with evaluation set on the same domain as the training set, they will have an undesirable performance decrease when tested on a different domain. Therefore, the self-supervised learning from multiple domains task is proposed to learn domain-invariant features that are not only suitable for evaluation on the same domain as the training set but also can be generalized to unseen domains. In this paper, we propose a Domain-invariant Masked AutoEncoder (DiMAE) for self-supervised learning from multi-domains, which designs a new pretext task, \emph{i.e.,} the cross-domain reconstruction task, to learn domain-invariant features. The core idea is to augment the input image with style noise from different domains and then reconstruct the image from the embedding of the augmented image, regularizing the encoder to learn domain-invariant features. To accomplish the idea, DiMAE contains two critical designs, 1) content-preserved style mix, which adds style information from other domains to input while persevering the content in a parameter-free manner, and 2) multiple domain-specific decoders, which recovers the corresponding domain style of input to the encoded domain-invariant features for reconstruction. Experiments on PACS and DomainNet illustrate that DiMAE achieves considerable gains compared with recent state-of-the-art methods.
翻訳日:2022-05-14 15:40:49 公開日:2022-05-10
# (参考訳) 高次元入力のための動きプランナー学習のためのリカレントニューラルネットワークの設計

Designing a Recurrent Neural Network to Learn a Motion Planner for High-Dimensional Inputs ( http://arxiv.org/abs/2205.04799v1 )

ライセンス: CC BY-SA 4.0
Johnathan Chiu(参考訳) 自動運転業界における機械学習の利用は、近年の進歩を加速している。 特に、認識と予測スタックにおける大規模なディープラーニングモデルの使用は、非常に成功したが、計画スタックにおける機械学習の使用に関する大きな文献は、いまだに存在しない。 計画スタックにおける現在の技術状態は、しばしば高速な制約付き最適化やルールベースのアプローチに依存します。 これらの2つの技術は、車両が人間のドライバーのそれとよく似た動作をすることを可能にする、多くの基本的な問題に対処できない。 本稿では,この問題にアプローチするための基礎的深層学習システムの設計を試みる。 さらに,本論文の主な目的は,自律走行車(AV)の計画スタックにおける機械学習の潜在的活用を実証し,現在および将来の研究のためのベースラインワークを提供することである。

The use of machine learning in the self-driving industry has boosted a number of recent advancements. In particular, the usage of large deep learning models in the perception and prediction stack have proved quite successful, but there still lacks significant literature on the use of machine learning in the planning stack. The current state of the art in the planning stack often relies on fast constrained optimization or rule-based approaches. Both of these techniques fail to address a significant number of fundamental problems that would allow the vehicle to operate more similarly to that of human drivers. In this paper, we attempt to design a basic deep learning system to approach this problem. Furthermore, the main underlying goal of this paper is to demonstrate the potential uses of machine learning in the planning stack for autonomous vehicles (AV) and provide a baseline work for ongoing and future research.
翻訳日:2022-05-14 15:25:10 公開日:2022-05-10
# (参考訳) PostgreSQLのための認知的視覚学習環境

Cognitive Visual-learning Environment for PostgreSQL ( http://arxiv.org/abs/2205.04834v1 )

ライセンス: CC BY 4.0
Manuela Nayantara Jeyaraj, Senuri Sucharitharathna, Chathurika Senarath, Yasanthy Kanagaraj, Indraka Udayakumara(参考訳) PostgreSQLは、データベースコミュニティに導入されたオブジェクトリレーショナルデータベース(ORDBMS)であり、さまざまな情報抽出ユースケースに広く使用されている。 高度なSQL準拠のオープンソースObject RDBMSとしても知られている。 しかし、ユーザはまだPostgreSQLに解決していない。これは、まだレイヤーの下にあり、アマチュアユーザにとって永続的なテキスト環境の複雑さのためである。 したがって、postgresqlの条件に基づいてクエリとフローを操作することにより、データベースが作成される手順と標準、テーブルとそれらの関係をユーザが理解するための簡単な環境を提供する必要がある。 このようにして、プロジェクトはpostgresqlが提供する支配的な機能を特定し、postgresqlへの移行においてデータベースユーザコミュニティに存在する制約を分析し、特定されたスコープと制約に基づいて、クエリ生成プラットフォームとして機能するシステムと、postgresqlクエリ構築を認知的に学習するインタラクティブな環境を提供する学習ツールを開発する。 これは、テキストエディタを組み込んだビジュアルエディタを使って、会話の行き届いたユーザに提供する。 視覚的に描画可能なクエリコンポーネントを提供することで、ユーザはpostgresqlクエリ生成をインタラクティブに学習できる認知的、視覚的、触覚的な環境を提供することを目的としている。

PostgreSQL is an object-relational database (ORDBMS) that was introduced into the database community and has been avidly used for a variety of information extraction use cases. It is also known to be an advanced SQL-compliant open source Object RDBMS. However, users have not yet resolved to PostgreSQL due to the fact that it is still under the layers and the complexity of its persistent textual environment for an amateur user. Hence, there is a dire need to provide an easy environment for users to comprehend the procedure and standards with which databases are created, tables and the relationships among them, manipulating queries and their flow based on conditions in PostgreSQL. As such, this project identifies the dominant features offered by Postgresql, analyzes the constraints that exist in the database user community in migrating to PostgreSQL and based on the scope and constraints identified, develop a system that will serve as a query generation platform as well as a learning tool that will provide an interactive environment to cognitively learn PostgreSQL query building. This is achieved using a visual editor incorporating a textual editor for a well-versed user. By providing visually-draggable query components to work with, this research aims to offer a cognitive, visual and tactile environment where users can interactively learn PostgreSQL query generation.
翻訳日:2022-05-14 14:51:33 公開日:2022-05-10
# (参考訳) ランダム化反復球面デコンボリューションインフォームドトラクトグラムフィルタによるラインプラズビリティの評価

Assessing Streamline Plausibility Through Randomized Iterative Spherical-Deconvolution Informed Tractogram Filtering ( http://arxiv.org/abs/2205.04843v1 )

ライセンス: CC BY 4.0
Antonia Hain (1), Daniel J\"orgens (2 and 3), Rodrigo Moreno (3) ((1) Saarland University, Faculty of Mathematics and Computer Science, Saarbr\"ucken, Germany, (2) Division of Brain, Imaging, and Behaviour, Krembil Research Institute, Toronto Western Hospital, University Health Network, Toronto, Canada, (3) KTH Royal Institute of Technology, Department of Biomedical Engineering and Health Systems, Stockholm, Sweden)(参考訳) トラクトグラフィーは脳接続研究において不可欠である。 しかし、現在信頼性の問題に直面している。 特に、最先端のトラクトグラフィー法によって生成されたトラクトグラムの神経線維再構築(流線)は解剖学的には不可能である。 この問題に対処するため, トラクトグラムフィルタリング法が開発され, 後処理工程における故障接続を除去した。 本研究は, フィルタ後の残流線と基礎となる拡散磁気共鳴画像データとの整合性を改善するために, 大域的最適化手法を用いた, トラクトグラムの球面デコンボリューションインフォームドフィルタ (SIFT) について, より詳しく検討する。 SIFTは, 周囲のトラクトグラムの大きさや構成に依存するため, 個々の流線型の妥当性を判定するには適していない。 この問題に対処するために、各ストリームラインに対する複数の評価を取得するために、ランダムに選択されたトラクトグラムサブセットにSIFTを適用することを提案する。 このアプローチにより、トレーニング分類器の擬似基底真理として使われた非常に一貫したフィルタリング結果で、ストリームラインを識別することができる。 訓練された分類器は、得られた妥当で目立たない流線群を80%以上の精度で識別することができる。 論文で使用されているソフトウェアコードと分類器の事前トレーニングされた重みは、githubリポジトリhttps://github.com/djoerch/randomized_filteringを介して自由に配布される。

Tractography has become an indispensable part of brain connectivity studies. However, it is currently facing problems with reliability. In particular, a substantial amount of nerve fiber reconstructions (streamlines) in tractograms produced by state-of-the-art tractography methods are anatomically implausible. To address this problem, tractogram filtering methods have been developed to remove faulty connections in a postprocessing step. This study takes a closer look at one such method, \textit{Spherical-deconvolution Informed Filtering of Tractograms} (SIFT), which uses a global optimization approach to improve the agreement between the remaining streamlines after filtering and the underlying diffusion magnetic resonance imaging data. SIFT is not suitable to judge the plausibility of individual streamlines since its results depend on the size and composition of the surrounding tractogram. To tackle this problem, we propose applying SIFT to randomly selected tractogram subsets in order to retrieve multiple assessments for each streamline. This approach makes it possible to identify streamlines with very consistent filtering results, which were used as pseudo ground truths for training classifiers. The trained classifier is able to distinguish the obtained groups of plausible and implausible streamlines with accuracy above 80%. The software code used in the paper and pretrained weights of the classifier are distributed freely via the Github repository https://github.com/djoerch/randomised_filtering.
翻訳日:2022-05-14 14:37:05 公開日:2022-05-10
# (参考訳) Turtle Score - 類似性に基づく開発者アナライザ

Turtle Score -- Similarity Based Developer Analyzer ( http://arxiv.org/abs/2205.04876v1 )

ライセンス: CC BY 4.0
Sanjjushri Varshini, Ponshriharini V, Santhosh Kannan, Snekha Suresh, Harshavardhan Ramesh, Rohith Mahadevan, Raja CSP Raman(参考訳) 日々の生活の中で、IT企業にとって非常に要求の多いタスクは、企業の文化に適合する適切な候補を見つけることです。 この研究は、会社にぴったり合う候補者を見つけるために、説得力のある成果を理解、分析、自動生成することを目的としています。 データは、IT領域で働く各従業員のパフォーマンス指標に注目して収集される。 これは多目的性と焦点の広い視野をもたらすさまざまなカテゴリに基づいて行われる。 このデータに対し,学習者分析は機械学習アルゴリズムを用いて学習者類似性と開発者類似性を取得し,同一の作業パターンを持つ人をリクルートする。 同様の性格の人と作業する場合、特定の労働者の効率と能力が高くなることが証明されている。 そのため、生産性の高い人材を募集する採用者にとって有用なツールとなる。 これは、設計したモデルが、高い精度と不正確な推奨スコアで、可能な限りの最良の結果をもたらすことを意味する。

In day-to-day life, a highly demanding task for IT companies is to find the right candidates who fit the companies' culture. This research aims to comprehend, analyze and automatically produce convincing outcomes to find a candidate who perfectly fits right in the company. Data is examined and collected for each employee who works in the IT domain focusing on their performance measure. This is done based on various different categories which bring versatility and a wide view of focus. To this data, learner analysis is done using machine learning algorithms to obtain learner similarity and developer similarity in order to recruit people with identical working patterns. It's been proven that the efficiency and capability of a particular worker go higher when working with a person of a similar personality. Therefore this will serve as a useful tool for recruiters who aim to recruit people with high productivity. This is to say that the model designed will render the best outcome possible with high accuracy and an immaculate recommendation score.
翻訳日:2022-05-14 14:35:55 公開日:2022-05-10
# (参考訳) 車種分類のためのハイブリッド量子ニューラルネットワークのハイパーパラメータ最適化

Hyperparameter optimization of hybrid quantum neural networks for car classification ( http://arxiv.org/abs/2205.04878v1 )

ライセンス: CC BY 4.0
Asel Sagingalieva, Andrii Kurkin, Artem Melnikov, Daniil Kuhmistrov, Michael Perelshtein, Alexey Melnikov, Andrea Skolik, David Von Dollen(参考訳) 画像認識は機械学習アルゴリズムの主要な応用の1つである。 それでも、現代の画像認識システムで使用される機械学習モデルは、調整にかなりの計算時間を必要とする数百万のパラメータで構成されている。 さらに、モデルハイパーパラメータの調整は、さらなるオーバーヘッドをもたらす。 このため、機械学習モデルとハイパーパラメータ最適化技術の新しい開発が必要である。 本稿では,量子インスパイアされたハイパーパラメータ最適化手法と,教師付き学習のためのハイブリッド量子古典機械学習モデルを提案する。 我々は,標準ブラックボックスの目標関数に対してハイパーパラメータ最適化手法をベンチマークし,探索空間の大きさの増大に応じて,予測実行時間と適合度を削減した形での性能改善を観察する。 我々は,車載画像分類タスクにおけるアプローチを検証し,テンソルトレインハイパーパラメータ最適化を用いたハイブリッド量子ニューラルネットワークモデルの実装を実演する。 実験では,ニューラルネットワークResNet34で使用する標準標準のグラフグリッド探索手法に対して,定性的かつ定量的な優位性を示した。 分類精度0.97は18イテレーション後にハイブリッドモデルにより得られたが、古典モデルは75イテレーション後に0.92の精度を達成した。

Image recognition is one of the primary applications of machine learning algorithms. Nevertheless, machine learning models used in modern image recognition systems consist of millions of parameters that usually require significant computational time to be adjusted. Moreover, adjustment of model hyperparameters leads to additional overhead. Because of this, new developments in machine learning models and hyperparameter optimization techniques are required. This paper presents a quantum-inspired hyperparameter optimization technique and a hybrid quantum-classical machine learning model for supervised learning. We benchmark our hyperparameter optimization method over standard black-box objective functions and observe performance improvements in the form of reduced expected run times and fitness in response to the growth in the size of the search space. We test our approaches in a car image classification task, and demonstrate a full-scale implementation of the hybrid quantum neural network model with the tensor train hyperparameter optimization. Our tests show a qualitative and quantitative advantage over the corresponding standard classical tabular grid search approach used with a deep neural network ResNet34. A classification accuracy of 0.97 was obtained by the hybrid model after 18 iterations, whereas the classical model achieved an accuracy of 0.92 after 75 iterations.
翻訳日:2022-05-14 14:28:50 公開日:2022-05-10
# (参考訳) 深層学習を用いた画像検索

Identical Image Retrieval using Deep Learning ( http://arxiv.org/abs/2205.04883v1 )

ライセンス: CC BY 4.0
Sayan Nath, Nikhil Nayak(参考訳) 近年,画像との相互作用が増加していることが判明した。 画像の類似性は、与えられた参照画像から類似した画像を取得することである。 ターゲットは、クエリとして検索された画像が類似した画像になるかどうかを調べることである。 私たちは最先端のモデルであるBigTransfer Modelを使用しています。 BigTransfer(BiT)は基本的にはResNetだが、ImageNetやImageNet-21kのような大きなデータセットで事前トレーニングされ、追加修正されている。 微調整済みの畳み込みニューラルネットワークモデルを用いて、K-Nearest Neighborモデルで重要な特徴を抽出し、最も近い隣人を学習する。 本モデルの応用は,低推論時間でテキストクエリによって実現し難い,類似した画像を見つけることである。 私たちはこのアプリケーションに基づいてモデルのベンチマークを分析します。

In recent years, we know that the interaction with images has increased. Image similarity involves fetching similar-looking images abiding by a given reference image. The target is to find out whether the image searched as a query can result in similar pictures. We are using the BigTransfer Model, which is a state-of-art model itself. BigTransfer(BiT) is essentially a ResNet but pre-trained on a larger dataset like ImageNet and ImageNet-21k with additional modifications. Using the fine-tuned pre-trained Convolution Neural Network Model, we extract the key features and train on the K-Nearest Neighbor model to obtain the nearest neighbor. The application of our model is to find similar images, which are hard to achieve through text queries within a low inference time. We analyse the benchmark of our model based on this application.
翻訳日:2022-05-14 14:14:18 公開日:2022-05-10
# (参考訳) Blind Super-Resolution:分解モデル,ベースライン,パフォーマンス上の境界

A Closer Look at Blind Super-Resolution: Degradation Models, Baselines, and Performance Upper Bounds ( http://arxiv.org/abs/2205.04910v1 )

ライセンス: CC BY 4.0
Wenlong Zhang, Guangyuan Shi, Yihao Liu, Chao Dong, Xiao-Ming Wu(参考訳) 分解モデルはブラインド超解像(SR)において重要な役割を果たす。 古典的な劣化モデルは、主にぼやけた劣化を伴うが、現実のシナリオをシミュレートするには単純すぎる。 近年提案されている実用的劣化モデルは, 劣化型の全スペクトルを含むが, 劣化過程においてすべての劣化型を用いる複雑な場合のみを考慮し, 現実に共通する多くの重要なコーナーケースを無視している。 この問題に対処するために,ランダムゲートコントローラを用いて広い範囲の劣化事例を生成する統一ゲート劣化モデルを提案する。 ゲート劣化モデルに基づいて,非盲点,古典的,実践的,その他多くのコーナーケースを効果的に扱える単純なベースラインネットワークを提案する。 現状の手法に対するベースラインネットワークの性能を正確に評価し,その限界を理解するために,劣化タイプ毎にSRネットワークの性能上限を導入する。 実験により, 統一ゲート劣化モデルにより, 提案したベースラインは, 性能上界に近い, 定量的, 定性的結果の既存手法よりもはるかに優れた性能が得られることを示した。

Degradation models play an important role in Blind super-resolution (SR). The classical degradation model, which mainly involves blur degradation, is too simple to simulate real-world scenarios. The recently proposed practical degradation model includes a full spectrum of degradation types, but only considers complex cases that use all degradation types in the degradation process, while ignoring many important corner cases that are common in the real world. To address this problem, we propose a unified gated degradation model to generate a broad set of degradation cases using a random gate controller. Based on the gated degradation model, we propose simple baseline networks that can effectively handle non-blind, classical, practical degradation cases as well as many other corner cases. To fairly evaluate the performance of our baseline networks against state-of-the-art methods and understand their limits, we introduce the performance upper bound of an SR network for every degradation type. Our empirical analysis shows that with the unified gated degradation model, the proposed baselines can achieve much better performance than existing methods in quantitative and qualitative results, which are close to the performance upper bounds.
翻訳日:2022-05-14 14:06:44 公開日:2022-05-10
# (参考訳) カテゴリー意味論における記述論理alcの推論

Reasoning in the Description Logic ALC under Category Semantics ( http://arxiv.org/abs/2205.04911v1 )

ライセンス: CC BY 4.0
Ludovic Brieulle and Chan Le Duc and Pascal Vaillant(参考訳) 本稿では、分類言語を用いて記述論理$\mathcal{ALC}$の通常の集合論的意味論を一般的なTBoxで再構成する。 この設定では、$\mathcal{ALC}$ の概念はオブジェクトとして、概念は矢印として、メンバシップはオブジェクトとカテゴリの矢印上の論理量化子として表現される。 このようなカテゴリベースの意味論は$\mathcal{ALC}$のセマンティクスをよりモジュール化した表現を提供する。 このフィーチャにより、空間の指数的複雑性の原因となる存在的制約と普遍的制約の間の相互作用をなくすことで、$\mathcal{alc}$のサブ論理を定義することができる。 このような部分論理は通常の集合論的な意味論では定義できないが、多項式空間で実行される概念満足性をチェックする決定論的アルゴリズムを提案することにより、この部分論理は {\sc{PSPACE}} であることを示す。

We present in this paper a reformulation of the usual set-theoretical semantics of the description logic $\mathcal{ALC}$ with general TBoxes by using categorical language. In this setting, $\mathcal{ALC}$ concepts are represented as objects, concept subsumptions as arrows, and memberships as logical quantifiers over objects and arrows of categories. Such a category-based semantics provides a more modular representation of the semantics of $\mathcal{ALC}$. This feature allows us to define a sublogic of $\mathcal{ALC}$ by dropping the interaction between existential and universal restrictions, which would be responsible for an exponential complexity in space. Such a sublogic is undefinable in the usual set-theoretical semantics, We show that this sublogic is {\sc{PSPACE}} by proposing a deterministic algorithm for checking concept satisfiability which runs in polynomial space.
翻訳日:2022-05-14 13:49:08 公開日:2022-05-10
# (参考訳) read the room: ロボットの声を環境や社会的文脈に適応させる

Read the Room: Adapting a Robot's Voice to Ambient and Social Contexts ( http://arxiv.org/abs/2205.04952v1 )

ライセンス: CC0 1.0
Emma Hughson, Paige Tuttosi, Akihiro Matsufuji, Angelica Lim(参考訳) 声を異なる環境や社会的相互作用に適応させることは、人間の社会的相互作用に必要である。 ロボット工学では, 騒音や静かな環境下での音声認識能力に大きな注目を集めているが, 社会的音声特徴の生成における環境要因を考えると, ほとんど検討されていない。 本研究は,各種レストランにおけるサービスロボットの活用事例から,様々な社会的・音響的文脈における受容性を最大化するために,ロボットの発話を改変することを目的とする。 参加者は7つの異なる環境音と背景画像を入力して、スクリプト化されたタスクとスクリプトなしのタスクで会話する。 音声合成には, 音声変換法に加えて, 環境データに適合するテキストから音声への変換法が用いられた。 そこで我々は,人間が環境と社会的文脈に合った合成音声を好むことを示す主観的知覚調査を行った。 本研究は,(1)実環境下での音声データ収集のための新しいプロトコル,(2)適切な社会的・環境的なインタラクションのためにロボット音声を操作するためのツールと方向,(3)異なる環境に対応するために柔軟にロボット音声を変換する上での音声変換の役割に関する洞察の3つのソリューションを提供する。

Adapting one's voice to different ambient environments and social interactions is required for human social interaction. In robotics, the ability to recognize speech in noisy and quiet environments has received significant attention, but considering ambient cues in the production of social speech features has been little explored. Our research aims to modify a robot's speech to maximize acceptability in various social and acoustic contexts, starting with a use case for service robots in varying restaurants. We created an original dataset collected over Zoom with participants conversing in scripted and unscripted tasks given 7 different ambient sounds and background images. Voice conversion methods, in addition to altered Text-to-Speech that matched ambient specific data, were used for speech synthesis tasks. We conducted a subjective perception study that showed humans prefer synthetic speech that matches ambience and social context, ultimately preferring more human-like voices. This work provides three solutions to ambient and socially appropriate synthetic voices: (1) a novel protocol to collect real contextual audio voice data, (2) tools and directions to manipulate robot speech for appropriate social and ambient specific interactions, and (3) insight into voice conversion's role in flexibly altering robot speech to match different ambient environments.
翻訳日:2022-05-14 12:55:01 公開日:2022-05-10
# (参考訳) allsh: 局所的感受性と硬さによるアクティブラーニング

ALLSH: Active Learning Guided by Local Sensitivity and Hardness ( http://arxiv.org/abs/2205.04980v1 )

ライセンス: CC BY 4.0
Shujian Zhang, Chengyue Gong, Xingchao Liu, Pengcheng He, Weizhu Chen, Mingyuan Zhou(参考訳) アノテーションのための有能なラベルなしデータを効果的に収集するアクティブラーニングは、ラベル付きデータに対する需要を減らす。 本研究では,局所感度と硬度認識獲得機能を備えたラベル付きサンプルの検索を提案する。 提案手法では,局所摂動を通じてデータコピーを生成し,予測可能性が最も高いデータポイントを選択する。 我々は,選択型ケース摂動を注入することで,獲得機能をさらに強化する。 本手法は,様々な分類タスクにおいてよく用いられるアクティブラーニング戦略よりも一貫した利得が得られる。 さらに,promply-based few-shot learningにおいて,プロンプト選択の研究におけるベースラインに対する一貫した改善が観察された。 これらの実験は,局所的感度と硬さに導かれた獲得が多くのnlpタスクに有効かつ有益であることを示す。

Active learning, which effectively collects informative unlabeled data for annotation, reduces the demand for labeled data. In this work, we propose to retrieve unlabeled samples with a local sensitivity and hardness-aware acquisition function. The proposed method generates data copies through local perturbations and selects data points whose predictive likelihoods diverge the most from their copies. We further empower our acquisition function by injecting the select-worst case perturbation. Our method achieves consistent gains over the commonly used active learning strategies in various classification tasks. Furthermore, we observe consistent improvements over the baselines on the study of prompt selection in prompt-based few-shot learning. These experiments demonstrate that our acquisition guided by local sensitivity and hardness can be effective and beneficial for many NLP tasks.
翻訳日:2022-05-14 12:38:56 公開日:2022-05-10
# (参考訳) 実証(LfD)からの学習のための生存可能なアルゴリズムオプションの探索 : パラメータ化複雑度アプローチ

Exploring Viable Algorithmic Options for Learning from Demonstration (LfD): A Parameterized Complexity Approach ( http://arxiv.org/abs/2205.04989v1 )

ライセンス: CC BY 4.0
Todd Wareham(参考訳) 最悪の場合、ヒューリスティックアルゴリズムによるこれらのタスクの驚くほどの解決性に対して、多くの機械学習タスクの多項式時間イントラクタビリティを調整するための鍵は、現実のデータセットに対する制限を悪用しているようだ。 このような制限を調査する1つのアプローチは、なぜヒューリスティックが制限下でうまく機能するのかを分析することである。 補完的なアプローチは、制約の集合が効率的で信頼性の高い機械学習アルゴリズムが存在するかどうかを体系的に決定することである。 本稿では、パラメータ化複雑性分析を用いて、このようなアルゴリズムの体系的な探索をいかに行うかを示す。 図示的な例として、バッチのパラメータ化複雑性分析と、学習からデモンストレーション(LfD)を基礎とした漸進的なポリシー推論について、最初のパラメータ化複雑性解析を行う。 LfDの基本モデルとは対照的に、環境、デモンストレーション、ポリシーに関する多くの(しばしば同時)制限に対して、我々の問題は、一般にも相対的にも効率的には解決できない。 また, 効率的な可解性を実現するための制約を初めて提示し, lfdの基本モデルとより複雑なlfdモデルの両方について, 可解性および不解性結果の意義について考察した。

The key to reconciling the polynomial-time intractability of many machine learning tasks in the worst case with the surprising solvability of these tasks by heuristic algorithms in practice seems to be exploiting restrictions on real-world data sets. One approach to investigating such restrictions is to analyze why heuristics perform well under restrictions. A complementary approach would be to systematically determine under which sets of restrictions efficient and reliable machine learning algorithms do and do not exist. In this paper, we show how such a systematic exploration of algorithmic options can be done using parameterized complexity analysis, As an illustrative example, we give the first parameterized complexity analysis of batch and incremental policy inference under Learning from Demonstration (LfD). Relative to a basic model of LfD, we show that none of our problems can be solved efficiently either in general or relative to a number of (often simultaneous) restrictions on environments, demonstrations, and policies. We also give the first known restrictions under which efficient solvability is possible and discuss the implications of our solvability and unsolvability results for both our basic model of LfD and more complex models of LfD used in practice.
翻訳日:2022-05-14 12:19:50 公開日:2022-05-10
# (参考訳) 変化点検出のためのランダムフォレスト

Random Forests for Change Point Detection ( http://arxiv.org/abs/2205.04997v1 )

ライセンス: CC BY 4.0
Malte Londschien, Peter B\"uhlmann, Solt Kov\'acs(参考訳) 分類器を用いた多変量非パラメトリック多重変化点検出法を提案する。 我々は,クラス確率予測を用いて異なる変化点構成を比較する分類器log-likelihood ratioを構築した。 本稿では,特に森林変動林に好適な計算可能な探索法を提案する。 しかし、この手法はクラス確率予測をもたらす任意のクラス化器とペアリングすることができ、k-nearest近傍のクラス化器を用いても説明できる。 我々は選択を動機付ける理論的結果を提供する。 提案手法は,既存の多変量非パラメトリック変化点検出法と比較して,経験的性能が向上することを示す。 当社のメソッドの効率的な実装は,変更対象ソフトウェアパッケージでR,Python,Rustユーザに提供されています。

We propose a novel multivariate nonparametric multiple change point detection method using classifiers. We construct a classifier log-likelihood ratio that uses class probability predictions to compare different change point configurations. We propose a computationally feasible search method that is particularly well suited for random forests, denoted by changeforest. However, the method can be paired with any classifier that yields class probability predictions, which we illustrate by also using a k-nearest neighbor classifier. We provide theoretical results motivating our choices. In a large simulation study, our proposed changeforest method achieves improved empirical performance compared to existing multivariate nonparametric change point detection methods. An efficient implementation of our method is made available for R, Python, and Rust users in the changeforest software package.
翻訳日:2022-05-14 12:18:13 公開日:2022-05-10
# (参考訳) マスクニューロン被覆を有するNLPモデルのホワイトボックス試験

White-box Testing of NLP models with Mask Neuron Coverage ( http://arxiv.org/abs/2205.05050v1 )

ライセンス: CC BY 4.0
Arshdeep Sekhon, Yangfeng Ji, Matthew B. Dwyer, Yanjun Qi(参考訳) 最近の文献では、NLPモデルの振る舞いをテストするためにCheckListのようなブラックボックス戦略を使うことへの関心が高まっている。 ホワイトボックステストの研究は、ディープモデルの内部挙動がどの程度徹底的にテストされているかを評価する多くの方法を開発したが、NLPモデルには適用できない。 変換器ベースNLPモデル用にカスタマイズしたホワイトボックステスト手法を提案する。 マスクニューロンのカバレッジ(mncover)は、テスト中にモデルの注意層がどれだけ徹底的に実行されるかを測定する。 mncoverは、チェックリストが生成するテストスイートを、平均で60\%以上のサイズで大幅に削減し、失敗したテストを維持しながら洗練できることを示し、テストスイートの障害検出能力に集中できることを示した。 さらに、MNCOVERを用いて、CheckListの入力生成をガイドし、代替のNLPテスト手法を評価し、データ拡張を行い精度を向上させる方法を示す。

Recent literature has seen growing interest in using black-box strategies like CheckList for testing the behavior of NLP models. Research on white-box testing has developed a number of methods for evaluating how thoroughly the internal behavior of deep models is tested, but they are not applicable to NLP models. We propose a set of white-box testing methods that are customized for transformer-based NLP models. These include Mask Neuron Coverage (MNCOVER) that measures how thoroughly the attention layers in models are exercised during testing. We show that MNCOVER can refine testing suites generated by CheckList by substantially reduce them in size, for more than 60\% on average, while retaining failing tests -- thereby concentrating the fault detection power of the test suite. Further we show how MNCOVER can be used to guide CheckList input generation, evaluate alternative NLP testing methods, and drive data augmentation to improve accuracy.
翻訳日:2022-05-14 12:17:12 公開日:2022-05-10
# (参考訳) 確率的シナプスのための高スループット生成ベクトル自己回帰モデル

A High Throughput Generative Vector Autoregression Model for Stochastic Synapses ( http://arxiv.org/abs/2205.05053v1 )

ライセンス: CC BY 4.0
T. Hennen, A. Elias, J. F. Nodin, G. Molas, R. Waser, D. J. Wouters and D. Bedau(参考訳) 脳のシナプス接続性と可塑性を模倣することにより、新しい電子ナノデバイスがニューロモルフィックシステムの構築ブロックとして新たな機会を提供する。 新興デバイスに基づく計算アーキテクチャの大規模シミュレーションにおける課題の一つは、デバイス応答、ヒステリシス、ノイズ、および時間領域における共分散構造を、異なるデバイスパラメータ間で正確に捉えることである。 本稿では,最近利用可能になった抵抗メモリセル用電気計測データに基づくシナプスアレイの高スループット生成モデルを用いて,この問題に対処する。 この実世界データをベクトル自己回帰確率過程にマッピングし,デバイスパラメータとその相互相関構造を正確に再現する。 我々は、cpuとgpuの両方の並列化実装を提供し、10億セル以上の配列サイズと、30フレーム/sの4kビデオストリームのピクセルレート以上の毎秒1億重量更新のスループットを示しています。

By imitating the synaptic connectivity and plasticity of the brain, emerging electronic nanodevices offer new opportunities as the building blocks of neuromorphic systems. One challenge for largescale simulations of computational architectures based on emerging devices is to accurately capture device response, hysteresis, noise, and the covariance structure in the temporal domain as well as between the different device parameters. We address this challenge with a high throughput generative model for synaptic arrays that is based on a recently available type of electrical measurement data for resistive memory cells. We map this real world data onto a vector autoregressive stochastic process to accurately reproduce the device parameters and their cross-correlation structure. While closely matching the measured data, our model is still very fast; we provide parallelized implementations for both CPUs and GPUs and demonstrate array sizes above one billion cells and throughputs exceeding one hundred million weight updates per second, above the pixel rate of a 30 frames/s 4K video stream.
翻訳日:2022-05-14 12:00:42 公開日:2022-05-10
# (参考訳) 変分量子アルゴリズムの最適化に関する基礎的限界

Fundamental limitations on optimization in variational quantum algorithms ( http://arxiv.org/abs/2205.05056v1 )

ライセンス: CC BY 4.0
Hao-Kai Zhang, Chengkai Zhu, Geng Liu, Xin Wang(参考訳) 短期量子デバイスの量子応用を探求することは、理論と実用の両方の関心を持つ量子情報科学の急速に成長している分野である。 このような短期量子アプリケーションを確立するための主要なパラダイムは変分量子アルゴリズム(VQA)である。 これらのアルゴリズムは古典的なオプティマイザを用いてパラメータ化量子回路を訓練して特定のタスクを遂行する。 本研究では,そのようなランダム回路の広いクラスに対して,回路内の任意の局所量子ゲートの調整によるコスト関数の変動範囲が,確率の高い量子ビット数において指数関数的に消失することを示す。 この結果は、勾配ベースおよび勾配フリー最適化の制約を自然に統一し、vqaのトレーニング環境に厳格な制約を与えることができる。 したがって、vqasのトレーサビリティに関する基本的な制限は、指数次元のヒルベルト空間における最適化の硬さの本質を示している。 さらに, 代表VQAの数値シミュレーションにより, 結果の有効性を示す。 これらの結果は、VQAのスケーラビリティの理解を深め、利点のある短期量子アプリケーション探索に光を当てることになると信じている。

Exploring quantum applications of near-term quantum devices is a rapidly growing field of quantum information science with both theoretical and practical interests. A leading paradigm to establish such near-term quantum applications is variational quantum algorithms (VQAs). These algorithms use a classical optimizer to train a parameterized quantum circuit to accomplish certain tasks, where the circuits are usually randomly initialized. In this work, we prove that for a broad class of such random circuits, the variation range of the cost function via adjusting any local quantum gate within the circuit vanishes exponentially in the number of qubits with a high probability. This result can unify the restrictions on gradient-based and gradient-free optimizations in a natural manner and reveal extra harsh constraints on the training landscapes of VQAs. Hence a fundamental limitation on the trainability of VQAs is unraveled, indicating the essence of the optimization hardness in the Hilbert space with exponential dimension. We further showcase the validity of our results with numerical simulations of representative VQAs. We believe that these results would deepen our understanding of the scalability of VQAs and shed light on the search for near-term quantum applications with advantages.
翻訳日:2022-05-14 11:37:37 公開日:2022-05-10
# (参考訳) 感性ai:感覚形成理論を用いた解釈可能性と説明可能性の再認識

Sensible AI: Re-imagining Interpretability and Explainability using Sensemaking Theory ( http://arxiv.org/abs/2205.05057v1 )

ライセンス: CC BY 4.0
Harmanpreet Kaur, Eytan Adar, Eric Gilbert, Cliff Lampe(参考訳) MLモデルがどのように動作するかを理解することは、MLベースのシステムを責任を持って設計、デプロイ、使用するための前提条件である。 解釈可能性のアプローチにより、MLは人間の理解に役立つアウトプットの説明を提供することができる。 Though these approaches rely on guidelines for how humans explain things to each other, they ultimately solve for improving the artifact -- an explanation. In this paper, we propose an alternate framework for interpretability grounded in Weick's sensemaking theory, which focuses on who the explanation is intended for. Recent work has advocated for the importance of understanding stakeholders' needs -- we build on this by providing concrete properties (e.g., identity, social context, environmental cues, etc.) that shape human understanding. 我々は、人間の認知のニュアンスに影響を及ぼすAIであるSensible AIの設計ガイドラインを議論するためのテンプレートとして、組織におけるセンスメイキングの応用を使用している。

Understanding how ML models work is a prerequisite for responsibly designing, deploying, and using ML-based systems. With interpretability approaches, ML can now offer explanations for its outputs to aid human understanding. Though these approaches rely on guidelines for how humans explain things to each other, they ultimately solve for improving the artifact -- an explanation. In this paper, we propose an alternate framework for interpretability grounded in Weick's sensemaking theory, which focuses on who the explanation is intended for. Recent work has advocated for the importance of understanding stakeholders' needs -- we build on this by providing concrete properties (e.g., identity, social context, environmental cues, etc.) that shape human understanding. We use an application of sensemaking in organizations as a template for discussing design guidelines for Sensible AI, AI that factors in the nuances of human cognition when trying to explain itself.
翻訳日:2022-05-14 10:57:00 公開日:2022-05-10
# (参考訳) 深部強化学習とSim-to-sim転送を用いたロケットリーグの解法について

On the Verge of Solving Rocket League using Deep Reinforcement Learning and Sim-to-sim Transfer ( http://arxiv.org/abs/2205.05061v1 )

ライセンス: CC BY 4.0
Marco Pleines, Konstantin Ramthun, Yannik Wegener, Hendrik Meyer, Matthias Pallasch, Sebastian Prior, Jannik Dr\"ogem\"uller, Leon B\"uttinghaus, Thilo R\"othemeyer, Alexander Kaschwig, Oliver Chmurzynski, Frederik Rohkr\"ahmer, Roman Kalkreuth, Frank Zimmer, Mike Preuss(参考訳) 自律的に訓練されたエージェントは、高速なシミュレーション速度か、同時に実行される何千ものマシンの重い並列化に依存する。 この研究は、ロボット工学で確立された第3の方法、すなわちsim-to-real transfer、またはゲーム自体がシミュレーションであると見なされる場合のsim-to-sim transferを探求する。 rocket leagueの場合、ゴールキーパーとストライカーの単一行動がシミュレーション環境で深層強化学習を用いてうまく学習でき、元のゲームに戻せることを実証する。 実施したトレーニングシミュレーションはある程度不正確であるが、ゴールキーピングエージェントは一度転送されたショットの100%近くを保存し、打撃剤は75%のケースでスコアを付ける。 したがって、訓練されたエージェントは十分に頑健であり、ロケットリーグのターゲットドメインに一般化することができる。

Autonomously trained agents that are supposed to play video games reasonably well rely either on fast simulation speeds or heavy parallelization across thousands of machines running concurrently. This work explores a third way that is established in robotics, namely sim-to-real transfer, or if the game is considered a simulation itself, sim-to-sim transfer. In the case of Rocket League, we demonstrate that single behaviors of goalies and strikers can be successfully learned using Deep Reinforcement Learning in the simulation environment and transferred back to the original game. Although the implemented training simulation is to some extent inaccurate, the goalkeeping agent saves nearly 100% of its faced shots once transferred, while the striking agent scores in about 75% of cases. Therefore, the trained agent is robust enough and able to generalize to the target domain of Rocket League.
翻訳日:2022-05-14 10:31:55 公開日:2022-05-10
# (参考訳) 実世界の超解像のためのメトリック学習に基づく対話型変調

Metric Learning based Interactive Modulation for Real-World Super-Resolution ( http://arxiv.org/abs/2205.05065v1 )

ライセンス: CC BY 4.0
Chong Mou, Yanze Wu, Xintao Wang, Chao Dong, Jian Zhang, Ying Shan(参考訳) インタラクティブ画像復元は,復元強度を決定する複数の制御係数を調整して画像復元を目標とする。 既存の方法は、既知の劣化タイプやレベルを監督した制御可能な関数の学習に制限される。 彼らは通常、実際の劣化が仮定と異なる場合、深刻なパフォーマンス低下に苦しむ。 このような制限は、実世界の劣化の複雑さのためであり、トレーニング中の対話的変調を明示的に監視することはできない。 しかし、現実の超解像におけるインタラクティブな変調を実現する方法はまだ研究されていない。 本稿では,MM-RealSR(Metric Learning based Interactive Modulation for Real-World Super-Resolution)を提案する。 具体的には,現実シナリオにおける劣化レベルを推定するための教師なし劣化推定手法を提案する。 対話型メカニズムの明示的な監督として既知の劣化レベルを使用する代わりに、実世界のシナリオにおける不定量的な劣化レベルを、教師なしの方法で訓練された計量空間にマッピングする計量学習戦略を提案する。 さらに,計量空間の分布を正規化するために,計量学習プロセスにおいてアンカーポイント戦略を導入する。 MM-RealSRは実世界の超解像において優れた変調と復元性能が得られることを示した。 コードはhttps://github.com/TencentARC/MM-RealSRで公開されている。

Interactive image restoration aims to restore images by adjusting several controlling coefficients, which determine the restoration strength. Existing methods are restricted in learning the controllable functions under the supervision of known degradation types and levels. They usually suffer from a severe performance drop when the real degradation is different from their assumptions. Such a limitation is due to the complexity of real-world degradations, which can not provide explicit supervision to the interactive modulation during training. However, how to realize the interactive modulation in real-world super-resolution has not yet been studied. In this work, we present a Metric Learning based Interactive Modulation for Real-World Super-Resolution (MM-RealSR). Specifically, we propose an unsupervised degradation estimation strategy to estimate the degradation level in real-world scenarios. Instead of using known degradation levels as explicit supervision to the interactive mechanism, we propose a metric learning strategy to map the unquantifiable degradation levels in real-world scenarios to a metric space, which is trained in an unsupervised manner. Moreover, we introduce an anchor point strategy in the metric learning process to normalize the distribution of metric space. Extensive experiments demonstrate that the proposed MM-RealSR achieves excellent modulation and restoration performance in real-world super-resolution. Codes are available at https://github.com/TencentARC/MM-RealSR.
翻訳日:2022-05-14 10:12:24 公開日:2022-05-10
# (参考訳) 秘密鍵とデコーダ側情報を用いたセキュアでプライベートなソース符号化

Secure and Private Source Coding with Private Key and Decoder Side Information ( http://arxiv.org/abs/2205.05068v1 )

ライセンス: CC BY 4.0
Onur G\"unl\"u, Rafael F. Schaefer, Holger Boche, and H. Vincent Poor(参考訳) 複数の端末によるセキュアなソース符号化の問題は、ノイズ測定がセキュアなソース再構成に使用される相関ランダム変数であるリモートソースを考慮し、拡張する。 問題への主な追加は 1) 全ての端末は、リモコンのノイズ測定を無意味に観察する。 2) 秘密鍵は,すべての正統な端末で利用可能である。 3) エンコーダとデコーダとの間の公開通信リンクは,レート制限される。 4)エンコーダ入力に対して、盗聴者への秘密漏洩を測定し、一方、リモートソースに対してプライバシーリークを測定する。 厳密なレート領域は、セキュリティ、プライバシ、通信、歪みの制約の下で、秘密鍵、リモートソース、デコーダ側情報を含む損失のあるソース符号化問題に特徴づけられる。 歪み制約を信頼性制約に置き換えることで、損失のないケースに対しても正確なレート領域を得る。 さらに、スカラー離散時間ガウス音源および測定チャネルのロスレート領域を確立する。

The problem of secure source coding with multiple terminals is extended by considering a remote source whose noisy measurements are the correlated random variables used for secure source reconstruction. The main additions to the problem include 1) all terminals noncausally observe a noisy measurement of the remote source; 2) a private key is available to all legitimate terminals; 3) the public communication link between the encoder and decoder is rate-limited; 4) the secrecy leakage to the eavesdropper is measured with respect to the encoder input, whereas the privacy leakage is measured with respect to the remote source. Exact rate regions are characterized for a lossy source coding problem with a private key, remote source, and decoder side information under security, privacy, communication, and distortion constraints. By replacing the distortion constraint with a reliability constraint, we obtain the exact rate region also for the lossless case. Furthermore, the lossy rate region for scalar discrete-time Gaussian sources and measurement channels is established.
翻訳日:2022-05-14 10:10:32 公開日:2022-05-10
# (参考訳) スムースレーティングスケールを用いたテンソルベース協調フィルタリング

Tensor-based Collaborative Filtering With Smooth Ratings Scale ( http://arxiv.org/abs/2205.05070v1 )

ライセンス: CC BY 4.0
Nikita Marin, Elizaveta Makhneva, Maria Lysyuk, Vladimir Chernyy, Ivan Oseledets, Evgeny Frolov(参考訳) 従来のコラボレーティブフィルタリング手法は,ユーザの評価知覚における不一致の影響を考慮しない。 アイテムに5つ星を割り当てることがほとんどないユーザもいれば、選択したアイテムに5つ星を割り当てるユーザも少なくない。 同じ項目を経験したとしても、評価スタイルにおける系統的不一致は、データから適切なパターンを効果的に抽出するレコメンダシステムの能力の系統的エラーにつながる。 この問題を緩和するために、人口レベルの異なる評価値間の依存性を表すレーティングの類似度行列を導入する。 したがって,評価値間の相関が平均的に存在する場合,ユーザ率の低下や低下の影響をオフセットすることで,提案する推奨値の品質を向上させることができる。

Conventional collaborative filtering techniques don't take into consideration the effect of discrepancy in users' rating perception. Some users may rarely give 5 stars to items while others almost always assign 5 stars to the chosen item. Even if they had experience with the same items this systematic discrepancy in their evaluation style will lead to the systematic errors in the ability of recommender system to effectively extract right patterns from data. To mitigate this problem we introduce the ratings' similarity matrix which represents the dependency between different values of ratings on the population level. Hence, if on average the correlations between ratings exist, it is possible to improve the quality of proposed recommendations by off-setting the effect of either shifted down or shifted up users' rates.
翻訳日:2022-05-14 09:45:21 公開日:2022-05-10
# (参考訳) NLP研究における気候意識

Towards Climate Awareness in NLP Research ( http://arxiv.org/abs/2205.05071v1 )

ライセンス: CC BY 4.0
Daniel Hershcovich, Nicolas Webersinke, Mathias Kraus, Julia Anna Bingler and Markus Leippold(参考訳) AIの気候の影響、特にNLPの研究は、計算モデルのトレーニングと実行にますます使われている膨大な量のエネルギーを考えると、深刻な問題となっている。 これにより、効率の良いNLPに焦点が当てられる。 しかし、この重要なイニシアチブは、NLP研究の系統的な気候報告を可能にする単純なガイドラインを欠いている。 われわれは、この欠落が、環境影響のより徹底的な調査を可能にする、NLPレポートの重要人物がほとんどいない理由の1つだと論じている。 本稿では,実験と基礎となるコンピュータハードウェアに関する限られた情報のみを有効利用することを目的とした,気候評価モデルカードを提案する。 このステップがnlp研究の環境影響に対する認識を高める上で不可欠である理由を説明し,より詳細な議論への道筋を開く。

The climate impact of AI, and NLP research in particular, has become a serious issue given the enormous amount of energy that is increasingly being used for training and running computational models. Consequently, increasing focus is placed on efficient NLP. However, this important initiative lacks simple guidelines that would allow for systematic climate reporting of NLP research. We argue that this deficiency is one of the reasons why very few publications in NLP report key figures that would allow a more thorough examination of environmental impact. As a remedy, we propose a climate performance model card with the primary purpose of being practically usable with only limited information about experiments and the underlying computer hardware. We describe why this step is essential to increase awareness about the environmental impact of NLP research and, thereby, paving the way for more thorough discussions.
翻訳日:2022-05-14 09:14:57 公開日:2022-05-10
# (参考訳) 高エネルギー物理のための機械学習校正のバイアスと先行

Bias and Priors in Machine Learning Calibrations for High Energy Physics ( http://arxiv.org/abs/2205.05084v1 )

ライセンス: CC BY 4.0
Rikab Gambhir, Benjamin Nachman, and Jesse Thaler(参考訳) 機械学習は、高エネルギー物理検出器でほぼすべての再構成された物体の校正を改善するエキサイティングな機会を提供する。 しかしながら、機械学習のアプローチは、トレーニング中に使用される例のスペクトルに依存することが多い。 これはキャリブレーションの望ましくない性質であり、様々な環境に適用する必要がある。 本研究の目的は,機械学習による校正戦略の事前依存性を明確にすることである。 シミュレーションベースとデータベースキャリブレーションの両方に対する最近の提案は、トレーニングに使用されるサンプルの特性を継承し、下流分析のバイアスをもたらす可能性があることを実証する。 シミュレーションベースキャリブレーションの場合、最近提案されているガウス型アンサッツ法では、事前依存の落とし穴を回避できるが、事前非依存のデータベースキャリブレーションは未解決の問題である。

Machine learning offers an exciting opportunity to improve the calibration of nearly all reconstructed objects in high-energy physics detectors. However, machine learning approaches often depend on the spectra of examples used during training, an issue known as prior dependence. This is an undesirable property of a calibration, which needs to be applicable in a variety of environments. The purpose of this paper is to explicitly highlight the prior dependence of some machine learning-based calibration strategies. We demonstrate how some recent proposals for both simulation-based and data-based calibrations inherit properties of the sample used for training, which can result in biases for downstream analyses. In the case of simulation-based calibration, we argue that our recently proposed Gaussian Ansatz approach can avoid some of the pitfalls of prior dependence, whereas prior-independent data-based calibration remains an open problem.
翻訳日:2022-05-14 08:57:48 公開日:2022-05-10
# (参考訳) 信号とカラー画像の四次相関の効率的な計算法

An Efficient Calculation of Quaternion Correlation of Signals and Color Images ( http://arxiv.org/abs/2205.05113v1 )

ライセンス: CC BY 4.0
Artyom M. Grigoryan and Sos S. Agaian(参考訳) 過去1世紀にわたり、相関関係は工学科学において不可欠な数学的手法であり、事実上全ての信号/画像処理分野を含んでいる。 本稿では,四元数代数における信号とカラー画像の相関関数の計算法について述べる。 本稿では,可換乗算演算を用いた四元数を用いて,対応する相関関数を定義する。 四元数信号と画像の相関は、信号と画像の四元数DFTを掛け合わせることで計算できる。 カラー画像の相関の複雑さは複素代数の3倍である。

Over the past century, a correlation has been an essential mathematical technique utilized in engineering sciences, including practically every signal/image processing field. This paper describes an effective method of calculating the correlation function of signals and color images in quaternion algebra. We propose using the quaternions with a commutative multiplication operation and defining the corresponding correlation function in this arithmetic. The correlation between quaternion signals and images can be calculated by multiplying two quaternion DFTs of signals and images. The complexity of the correlation of color images is three times higher than in complex algebra.
翻訳日:2022-05-14 08:22:35 公開日:2022-05-10
# (参考訳) 事前学習言語モデルから潜在ステアリングベクトルを抽出する

Extracting Latent Steering Vectors from Pretrained Language Models ( http://arxiv.org/abs/2205.05124v1 )

ライセンス: CC BY 4.0
Nishant Subramani, Nivedita Suresh, Matthew E. Peters(参考訳) 制御可能なテキスト生成に関する以前の研究は、トレーニング可能なデコーディング、スマートプロンプト設計、あるいは望ましい目的に基づいて微調整を通じて言語モデルを制御する方法を学ぶことに集中していた。 対象の文を生成するためにモデルを操るのに必要な情報は、既にモデル内にエンコードされていると仮定する。 そこで我々は,事前訓練された言語モデルデコーダから直接潜在ベクトルを微調整なしで抽出する,まったく別のアプローチを提案する。 実験により、ステアリングベクトルが存在しており、言語モデルの隠れ状態に追加されると、様々なドメインから英語の文に対してほぼ完全に(>99 BLEU)ターゲット文が生成される。 Yelpの感情評価ベンチマークでは,ベクトル算術が教師なしの感情伝達に利用でき,このタスクに適したモデルに匹敵する性能を示す。 テキスト類似度ベンチマーク (STS-B) で評価すると, ステアリングベクトル間の距離が文類似度を反映していることが判明した。 最後に、ステアリングベクトルの内在的性質について解析する。 その結果, 凍結したlmsは, 潜在性ステアリング空間を介して効果的に制御できることが示唆された。

Prior work on controllable text generation has focused on learning how to control language models through trainable decoding, smart-prompt design, or fine-tuning based on a desired objective. We hypothesize that the information needed to steer the model to generate a target sentence is already encoded within the model. Accordingly, we explore a different approach altogether: extracting latent vectors directly from pretrained language model decoders without fine-tuning. Experiments show that there exist steering vectors, which, when added to the hidden states of the language model, generate a target sentence nearly perfectly (> 99 BLEU) for English sentences from a variety of domains. We show that vector arithmetic can be used for unsupervised sentiment transfer on the Yelp sentiment benchmark, with performance comparable to models tailored to this task. We find that distances between steering vectors reflect sentence similarity when evaluated on a textual similarity benchmark (STS-B), outperforming pooled hidden states of models. Finally, we present an analysis of the intrinsic properties of the steering vectors. Taken together, our results suggest that frozen LMs can be effectively controlled through their latent steering space.
翻訳日:2022-05-14 08:12:40 公開日:2022-05-10
# (参考訳) ロバストテキスト分類のためのSibylvariant Transformations

Sibylvariant Transformations for Robust Text Classification ( http://arxiv.org/abs/2205.05137v1 )

ライセンス: CC BY 4.0
Fabrice Harel-Canada, Muhammad Ali Gulzar, Nanyun Peng, Miryung Kim(参考訳) NLPのテキスト変換技術の大部分は、本来のクラスラベルを保持するために暗黙の制約があるため、入力空間を拡張できる能力に本質的に制限されている。 本研究では,ラベル保存制約を緩和し,期待するクラスを故意に変更し,より多様な入力分布へと導く幅広い変換の集合を記述するために,sibylvariance (sib) の概念を提案する。 我々は,すべてのデータ変換を整理するための統一フレームワークを提供する。(1) 1つの離散種を別の種に変換する,(2) 2つ以上のクラスを混合する混合変異である。 NLPにおけるシビル分散の役割を探るため,Concept2SentenceやSentMixなど,41のテキスト変換を実装した。 Sibylvarianceはまた、最も混乱したクラスペアに対して新しい入力混合物を生成する独自の適応トレーニングを可能にし、学習者がより大きなニュアンスで区別することを挑戦する。 6つのベンチマークデータセットを用いた実験は, 一般化性能, 欠陥検出, 対向ロバスト性を強く支援する。

The vast majority of text transformation techniques in NLP are inherently limited in their ability to expand input space coverage due to an implicit constraint to preserve the original class label. In this work, we propose the notion of sibylvariance (SIB) to describe the broader set of transforms that relax the label-preserving constraint, knowably vary the expected class, and lead to significantly more diverse input distributions. We offer a unified framework to organize all data transformations, including two types of SIB: (1) Transmutations convert one discrete kind into another, (2) Mixture Mutations blend two or more classes together. To explore the role of sibylvariance within NLP, we implemented 41 text transformations, including several novel techniques like Concept2Sentence and SentMix. Sibylvariance also enables a unique form of adaptive training that generates new input mixtures for the most confused class pairs, challenging the learner to differentiate with greater nuance. Our experiments on six benchmark datasets strongly support the efficacy of sibylvariance for generalization performance, defect detection, and adversarial robustness.
翻訳日:2022-05-14 07:52:16 公開日:2022-05-10
# (参考訳) リスク・アバース強化学習の効率化

Efficient Risk-Averse Reinforcement Learning ( http://arxiv.org/abs/2205.05138v1 )

ライセンス: CC BY 4.0
Ido Greenberg, Yinlam Chow, Mohammad Ghavamzadeh, Shie Mannor(参考訳) リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。 リスク尺度は、しばしばエージェントの経験から得られる最悪のリターンに焦点を当てる。 その結果、リスク回避rlの標準的な方法は高リターン戦略をしばしば無視する。 特定の条件下では、必然的に局所最適障壁を生じさせ、それをバイパスするためのソフトリスクメカニズムを提案する。 また,リスクサンプリングのための新しいクロスエントロピーモジュールを考案し,(1)ソフトリスクにもかかわらずリスク回避を保ち,(2)サンプル効率を独立的に改善する。 スペンサーとオプティマイザのリスク回避を分離することで、低い条件でエピソードをサンプリングできるが、成功する戦略に関して最適化することができる。 我々はこれらの2つの概念をCeSoR - Cross-entropy Soft-Risk Optimization algorithm - に組み合わせ、任意のリスク-逆ポリシー勾配(PG)法に適用できる。 迷路ナビゲーション,自律運転,資源配分ベンチマークにおけるリスク回避の改善を実証し,標準リスク回避PGが完全に失敗するシナリオを含む。

In risk-averse reinforcement learning (RL), the goal is to optimize some risk measure of the returns. A risk measure often focuses on the worst returns out of the agent's experience. As a result, standard methods for risk-averse RL often ignore high-return strategies. We prove that under certain conditions this inevitably leads to a local-optimum barrier, and propose a soft risk mechanism to bypass it. We also devise a novel Cross Entropy module for risk sampling, which (1) preserves risk aversion despite the soft risk; (2) independently improves sample efficiency. By separating the risk aversion of the sampler and the optimizer, we can sample episodes with poor conditions, yet optimize with respect to successful strategies. We combine these two concepts in CeSoR - Cross-entropy Soft-Risk optimization algorithm - which can be applied on top of any risk-averse policy gradient (PG) method. We demonstrate improved risk aversion in maze navigation, autonomous driving, and resource allocation benchmarks, including in scenarios where standard risk-averse PG completely fails.
翻訳日:2022-05-14 07:29:48 公開日:2022-05-10
# (参考訳) 数少ない画像分類ベンチマークは現実には遠く及ばない - セマンティックタスクサンプリングによるビルドバックの改善

Few-Shot Image Classification Benchmarks are Too Far From Reality: Build Back Better with Semantic Task Sampling ( http://arxiv.org/abs/2205.05155v1 )

ライセンス: CC BY-SA 4.0
Etienne Bennequin, Myriam Tami, Antoine Toubhans, Celine Hudelot(参考訳) 毎日、Few-Shotイメージ分類に取り組む新しい方法が公開され、学術ベンチマークのパフォーマンスが向上している。 しかしながら、これらのベンチマークは、我々が遭遇した実際の産業ユースケースを正確に表現していない。 本研究では,定性的かつ定量的な研究を通じて,バスタブ,キャベツ,ピザ,シッパーケ,カードーンなど,非常に意味的に異なるクラスからなるタスクに対して,広く使用されているベンチマーク階層イメージネットが強く偏っていることを明らかにした。 これによりtieredimagenet(および類似のベンチマーク)は、通常よりきめ細かい分類を伴う実際のユースケースを解決するモデルの能力を評価することができない。 このバイアスを、tieredimagenetのクラスに関するセマンティック情報を使って軽減し、改善されたバランスのとれたベンチマークを生成する。 さらに,デンマークのfungi 2020データセットを用いた,マイナショット画像分類の新しいベンチマークも紹介する。 本ベンチマークでは,様々な微粒度を用いた多種多様な評価課題を提案する。 さらに、このベンチマークには多方向タスク(例えば100のクラスで構成されている)が含まれており、産業アプリケーションでは非常に一般的である。 提案手法は,課題の難易度とクラス間の意味的類似性,多方向の少数ショット分類における最先端メソッドのパフォーマンス低下と相関関係を示し,これらの手法のスケーリング能力に関する疑問を提起する。 我々は、コミュニティが標準評価プロセスの品質と実際のアプリケーションとの関連性にさらに疑問を呈することを願っている。

Every day, a new method is published to tackle Few-Shot Image Classification, showing better and better performances on academic benchmarks. Nevertheless, we observe that these current benchmarks do not accurately represent the real industrial use cases that we encountered. In this work, through both qualitative and quantitative studies, we expose that the widely used benchmark tieredImageNet is strongly biased towards tasks composed of very semantically dissimilar classes e.g. bathtub, cabbage, pizza, schipperke, and cardoon. This makes tieredImageNet (and similar benchmarks) irrelevant to evaluate the ability of a model to solve real-life use cases usually involving more fine-grained classification. We mitigate this bias using semantic information about the classes of tieredImageNet and generate an improved, balanced benchmark. Going further, we also introduce a new benchmark for Few-Shot Image Classification using the Danish Fungi 2020 dataset. This benchmark proposes a wide variety of evaluation tasks with various fine-graininess. Moreover, this benchmark includes many-way tasks (e.g. composed of 100 classes), which is a challenging setting yet very common in industrial applications. Our experiments bring out the correlation between the difficulty of a task and the semantic similarity between its classes, as well as a heavy performance drop of state-of-the-art methods on many-way few-shot classification, raising questions about the scaling abilities of these methods. We hope that our work will encourage the community to further question the quality of standard evaluation processes and their relevance to real-life applications.
翻訳日:2022-05-14 06:57:27 公開日:2022-05-10
# (参考訳) 自己監視型異常検出:調査と展望

Self-Supervised Anomaly Detection: A Survey and Outlook ( http://arxiv.org/abs/2205.05173v1 )

ライセンス: CC BY 4.0
Hadi Hojjati, Thi Kieu Khanh Ho, Narges Armanfard(参考訳) 過去数年間、まれな事象の検出を主眼とする機械学習のサブフィールドである異常検出は、ディープラーニングモデルが前例のない成長を遂げた後、大幅な改善をみせた。 近年,自己教師付き学習の出現により,最先端精度をかなり超えた新しい異常検出アルゴリズムが開発されている。 本稿では,自己監督型異常検出における現在のアプローチを概観する。 共通のアプローチの技術的詳細を説明し、その強みと欠点について論じる。 また,これらのモデルの性能を,他の最先端の異常検出モデルと比較した。 最後に、既存のアルゴリズムを改善するための様々な新しい方向について論じる。

Over the past few years, anomaly detection, a subfield of machine learning that is mainly concerned with the detection of rare events, witnessed an immense improvement following the unprecedented growth of deep learning models. Recently, the emergence of self-supervised learning has sparked the development of new anomaly detection algorithms that surpassed state-of-the-art accuracy by a significant margin. This paper aims to review the current approaches in self-supervised anomaly detection. We present technical details of the common approaches and discuss their strengths and drawbacks. We also compare the performance of these models against each other and other state-of-the-art anomaly detection models. Finally, we discuss a variety of new directions for improving the existing algorithms.
翻訳日:2022-05-13 12:17:02 公開日:2022-05-10
# (参考訳) conflab: 自由参加型ソーシャルインタラクションのためのリッチなマルチモーダルマルチセンサーデータセット

ConfLab: A Rich Multimodal Multisensor Dataset of Free-Standing Social Interactions In-the-Wild ( http://arxiv.org/abs/2205.05177v1 )

ライセンス: CC BY 4.0
Chirag Raman, Jose Vargas-Quiros, Stephanie Tan, Ekin Gedik, Ashraful Islam, Hayley Hung(参考訳) コンファレンス・リビング・ラボ(ConfLab)の形で,マルチモーダル・マルチセンサ・データ収集のための新たな概念の創出について述べる。 ConfLabには、国際会議でのさまざまなステータス、知り合い、ネットワークモチベーションを捉えた、49人の忠実度の高いデータが含まれている。 このようなデータセットの記録は、参加者のプライバシーとデータの忠実性の間の微妙なトレードオフと、関連する技術的およびロジスティックな課題のために難しい。 8カメラのオーバーヘッド設定、体の動きを記録する個人用ウェアラブルセンサー(9軸IMU)、Bluetoothベースの近接、低周波オーディオなどです。 さらに,身体のキーポイントや動作を高頻度でアノテートするために,最先端のハードウェア同期ソリューションと時間効率の連続手法を用いる。 我々は、我々の改善はより細かい時間スケールでの相互作用ダイナミクスのより深い研究に不可欠であると主張している。 当社の研究タスクでは,プライバシ保護型ソーシャルデータ分析に関するオープン課題として,オーバーヘッドカメラからのキーポイント検出,スケルトンベース非オーディオ話者検出,fフォーメーション検出などが紹介されている。 ConfLabデータセットでは、従来のコンピュータビジョンタスクと、社会的に動機づけられたタスクの幅を埋めることを目的としています。

We describe an instantiation of a new concept for multimodal multisensor data collection of real life in-the-wild free standing social interactions in the form of a Conference Living Lab (ConfLab). ConfLab contains high fidelity data of 49 people during a real-life professional networking event capturing a diverse mix of status, acquaintanceship, and networking motivations at an international conference. Recording such a dataset is challenging due to the delicate trade-off between participant privacy and fidelity of the data, and the technical and logistic challenges involved. We improve upon prior datasets in the fidelity of most of our modalities: 8-camera overhead setup, personal wearable sensors recording body motion (9-axis IMU), Bluetooth-based proximity, and low-frequency audio. Additionally, we use a state-of-the-art hardware synchronization solution and time-efficient continuous technique for annotating body keypoints and actions at high frequencies. We argue that our improvements are essential for a deeper study of interaction dynamics at finer time scales. Our research tasks showcase some of the open challenges related to in-the-wild privacy-preserving social data analysis: keypoints detection from overhead camera views, skeleton based no-audio speaker detection, and F-formation detection. With the ConfLab dataset, we aim to bridge the gap between traditional computer vision tasks and in-the-wild ecologically valid socially-motivated tasks.
翻訳日:2022-05-13 11:23:52 公開日:2022-05-10
# (参考訳) 大規模分散電力グリッド - 利用にインスパイアされたAIの可能性と課題

Massively Digitized Power Grid: Opportunities and Challenges of Use-inspired AI ( http://arxiv.org/abs/2205.05180v1 )

ライセンス: CC BY 4.0
Le Xie, Xiangtian Zheng, Yannan Sun, Tong Huang, Tony Bruton(参考訳) 本稿は、大規模デジタル電力網における機会と課題について、利用に触発された視点を示す。 データアベイラビリティ、コンピューティング能力、人工知能(ai)アルゴリズム開発の複雑な相互作用は、電力グリッドにおけるデジタル化ソリューションの採用を促進する3つの重要な要因であると主張している。 これら3つの要因が電力系統運用の重要機能や計画実践に与える影響を,産業実践事例研究で概説し,考察した。 データ、コンピューティング、AIアルゴリズムに対するオープンな課題と研究の機会は、電力産業の膨大な脱炭活動の文脈内で具体化されている。

This article presents a use-inspired perspective of the opportunities and challenges in a massively digitized power grid. It argues that the intricate interplay of data availability, computing capability, and artificial intelligence (AI) algorithm development are the three key factors driving the adoption of digitized solutions in the power grid. The impact of these three factors on critical functions of power system operation and planning practices are reviewed and illustrated with industrial practice case studies. Open challenges and research opportunities for data, computing, and AI algorithms are articulated within the context of the power industry's tremendous decarbonization efforts.
翻訳日:2022-05-13 10:52:58 公開日:2022-05-10
# (参考訳) キュレートされた文脈における社会的包摂性:博物館の実践から

Social Inclusion in Curated Contexts: Insights from Museum Practices ( http://arxiv.org/abs/2205.05192v1 )

ライセンス: CC BY 4.0
Han-Yin Huang and Cynthia C. S. Liem(参考訳) 人工知能の文献は、社会の少数かつ脆弱なコミュニティは、デザインプロセスに固有のバイアスがあるため、機械学習アルゴリズムによって負の影響を受ける可能性があることを示唆している。 多様化するオーディエンスに対処する上で同様の課題に直面した博物館部門は、特に表現と意味作りの分野で理論と実践の変化を見てきた。 rarityとgrandeurは、初期の博物館の慣習の中心に置かれていたが、民俗生活と博物館の多様なコミュニティとの関係は、現代の慣習と広く統合された部分となっている。 これらの変更は、より社会的に包括的なサービスを提供するために、多様性とアクセシビリティの問題に対処する。 これらの変化を振り返り、AIの世界を振り返ると、博物館の体験は、特に検索エンジン、レコメンダシステム、デジタルライブラリーで頻繁に発生するように、コレクションとアクセスの両方をキュレーションまたはフィルタリングする必要がある状況において、社会的に包括的なアプローチでAIを構築するための有用な教訓を提供する、と私たちは主張する。 1) 中立性の価値を保留する代わりに, 実践者は自身の背景や仕事に対する他者の影響を認識している。 中立ではなく、文化的謙虚さを実践することで、潜在的なバイアスに対処する可能性を高めることができる。 (2)データ収集や機械学習の段階を超えて、状況解釈の余地があるはずだ。 モデルや予測を適用する前に、関連する関係者が存在する状況を考慮する必要がある。 (3)コミュニティ参加はコミュニティのニーズに役立ち、実践者とコミュニティをまとめることのメリットが付加される。

Artificial intelligence literature suggests that minority and fragile communities in society can be negatively impacted by machine learning algorithms due to inherent biases in the design process, which lead to socially exclusive decisions and policies. Faced with similar challenges in dealing with an increasingly diversified audience, the museum sector has seen changes in theory and practice, particularly in the areas of representation and meaning-making. While rarity and grandeur used to be at the centre stage of the early museum practices, folk life and museums' relationships with the diverse communities they serve become a widely integrated part of the contemporary practices. These changes address issues of diversity and accessibility in order to offer more socially inclusive services. Drawing on these changes and reflecting back on the AI world, we argue that the museum experience provides useful lessons for building AI with socially inclusive approaches, especially in situations in which both a collection and access to it will need to be curated or filtered, as frequently happens in search engines, recommender systems and digital libraries. We highlight three principles: (1) Instead of upholding the value of neutrality, practitioners are aware of the influences of their own backgrounds and those of others on their work. By not claiming to be neutral but practising cultural humility, the chances of addressing potential biases can be increased. (2) There should be room for situational interpretation beyond the stages of data collection and machine learning. Before applying models and predictions, the contexts in which relevant parties exist should be taken into account. (3) Community participation serves the needs of communities and has the added benefit of bringing practitioners and communities together.
翻訳日:2022-05-13 09:49:23 公開日:2022-05-10
# (参考訳) 学生コラボレーションによる自己監督型学習の改善:脳細胞画像解析のためのデュアルロス適応型マスケードオートエンコーダ

Student Collaboration Improves Self-Supervised Learning: Dual-Loss Adaptive Masked Autoencoder for Brain Cell Image Analysis ( http://arxiv.org/abs/2205.05194v1 )

ライセンス: CC BY 4.0
Son T. Ly, Bai Lin, Hung Q. Vo, Dragan Maric, Badri Roysam, and Hien V. Nguyen(参考訳) 自己教師付き学習は、人間のアノテーションを使わずに監督信号のソースとして基盤となるデータ構造を利用する。 このアプローチは、大量のバイオメディカルデータと限られたアノテーションで学習する実践的なソリューションを提供する。 マルチビューによるデータ活用(例:拡張画像)の他の研究と異なり、情報理論の観点から確立した自己教師付きデュアルロス適応マスクオートエンコーダ(dama)アルゴリズムを提案する。 特に,目的関数は,画素レベル再構成と特徴レベル回帰の条件エントロピーを最小化し,相互情報を最大化する。 さらに,相互情報を最大化するための適応マスクサンプリング戦略を導入する。 提案手法を検証するため,脳細胞画像の広範な実験を行った。 DAMAは、最先端の自己監督法と脳細胞データに対する監督法の両方を著しく上回り、ImageNet-1k上での競争結果を示す。 コード:https://github.com/hula-ai/DAMA

Self-supervised learning leverages the underlying data structure as the source of the supervisory signal without the need for human annotation effort. This approach offers a practical solution to learning with a large amount of biomedical data and limited annotation. Unlike other studies exploiting data via multi-view (e.g., augmented images), this study presents a self-supervised Dual-Loss Adaptive Masked Autoencoder (DAMA) algorithm established from the viewpoint of the information theory. Specifically, our objective function maximizes the mutual information by minimizing the conditional entropy in pixel-level reconstruction and feature-level regression. We further introduce an adaptive mask sampling strategy to maximize mutual information. We conduct extensive experiments on brain cell images to validate the proposed method. DAMA significantly outperforms both state-of-the-art self-supervised and supervised methods on brain cells data and demonstrates competitive result on ImageNet-1k. Code: https://github.com/hula-ai/DAMA
翻訳日:2022-05-13 09:30:20 公開日:2022-05-10
# (参考訳) 外乱除去と外乱関節最適化を併用した2レベル機械学習フレームワークを用いたインシデント時間予測

Incident duration prediction using a bi-level machine learning framework with outlier removal and intra-extra joint optimisation ( http://arxiv.org/abs/2205.05197v1 )

ライセンス: CC BY-SA 4.0
Artur Grigorev, Adriana-Simona Mihaita, Seunghyeon Lee, Fang Chen(参考訳) イベントの確率的性質から、トラフィックインシデントの持続時間を予測することは難しい課題である。 事故がいつまで続くか正確に予測する能力は、ルート選択におけるエンドユーザーと、非リカレントトラフィックの混雑に対処するトラフィック操作マネージャの両方に大きな利益をもたらす。 本稿では,オーストラリア,オーストラリア,サン・フランシコの幹線道路と高速道路で収集された3つの不均一なデータセットのインシデント継続時間を予測するために,アウトリアー除去とエクストラ共同最適化を併用した,新たな2レベル機械学習フレームワークを提案する。 我々は,二進法と多進法を比較しながら,クラスバランスと予測性能の両方を目標とし,短期と長期の交通事故発生期間の最適しきい値を求める。 第二に、インシデント持続時間予測をより微細にするために、データセットの複数の回帰シナリオに対してテストされた複数のベースラインMLモデルを拡張した、新しいエクストラ共同最適化アルゴリズム(IEO-ML)を提案する。 最終結果は次のとおりである。 a) 40~45分は,短期的又は長期的インシデントを特定し,これらのインシデントを別々にモデル化すべき最善のスプリットしきい値である。 b)提案したIEO-MLアプローチは,精度の高いインシデント期間予測のための大きな可能性を示す全ケースの6,6\%で,ベースラインMLモデルよりも有意に優れていた。 最後に、特徴量を評価し、その時間、場所、インシデントタイプ、インシデント報告ソース、天気を、インシデントがどれくらい続くかに影響する重要な要素のトップ10のうちの1つとして示す。

Predicting the duration of traffic incidents is a challenging task due to the stochastic nature of events. The ability to accurately predict how long accidents will last can provide significant benefits to both end-users in their route choice and traffic operation managers in handling of non-recurrent traffic congestion. This paper presents a novel bi-level machine learning framework enhanced with outlier removal and intra-extra joint optimisation for predicting the incident duration on three heterogeneous data sets collected for both arterial roads and motorways from Sydney, Australia and San-Francisco, U.S.A. Firstly, we use incident data logs to develop a binary classification prediction approach, which allows us to classify traffic incidents as short-term or long-term. We find the optimal threshold between short-term versus long-term traffic incident duration, targeting both class balance and prediction performance while also comparing the binary versus multi-class classification approaches. Secondly, for more granularity of the incident duration prediction to the minute level, we propose a new Intra-Extra Joint Optimisation algorithm (IEO-ML) which extends multiple baseline ML models tested against several regression scenarios across the data sets. Final results indicate that: a) 40-45 min is the best split threshold for identifying short versus long-term incidents and that these incidents should be modelled separately, b) our proposed IEO-ML approach significantly outperforms baseline ML models in $66\%$ of all cases showcasing its great potential for accurate incident duration prediction. Lastly, we evaluate the feature importance and show that time, location, incident type, incident reporting source and weather at among the top 10 critical factors which influence how long incidents will last.
翻訳日:2022-05-13 09:29:23 公開日:2022-05-10
# ブートストラップ型乗算雑音によるロバストデータ駆動出力フィードバック制御

Robust Data-Driven Output Feedback Control via Bootstrapped Multiplicative Noise ( http://arxiv.org/abs/2205.05119v1 )

ライセンス: Link先を確認
Benjamin Gravell, Iman Shames, Tyler Summers(参考訳) 本研究では,制御設計に固有有限サンプルモデル推定の不確かさを明示的に組み込むロバストなデータ駆動型出力フィードバック制御アルゴリズムを提案する。 本アルゴリズムは,(1)部分空間識別名義モデル推定器,(2)名義モデル推定の非漸近的分散を定量化するブートストラップ再サンプリング法,(3)結合された最適動的出力フィードバックフィルタと乗法雑音の制御器からなる非従来型ロバストな制御設計法,の3成分を有する。 提案手法の重要な利点は、システム同定とロバスト制御設計手順の両方が確率的不確かさ表現を用いており、実際の固有統計推定の不確実性はロバストコントローラが設計している不確実性と直接一致することである。 さらに、制御設計方法は、既存のアプローチよりも効果的に不確かさ形状を捉えることができる高度に構造化された不確実性表現を収容する。 提案したロバストなデータ駆動型出力フィードバック制御器は,サンプルの複雑さと安定性の様々な尺度において,一定の等価な制御器を著しく上回り得ることを示す。

We propose a robust data-driven output feedback control algorithm that explicitly incorporates inherent finite-sample model estimate uncertainties into the control design. The algorithm has three components: (1) a subspace identification nominal model estimator; (2) a bootstrap resampling method that quantifies non-asymptotic variance of the nominal model estimate; and (3) a non-conventional robust control design method comprising a coupled optimal dynamic output feedback filter and controller with multiplicative noise. A key advantage of the proposed approach is that the system identification and robust control design procedures both use stochastic uncertainty representations, so that the actual inherent statistical estimation uncertainty directly aligns with the uncertainty the robust controller is being designed against. Moreover, the control design method accommodates a highly structured uncertainty representation that can capture uncertainty shape more effectively than existing approaches. We show through numerical experiments that the proposed robust data-driven output feedback controller can significantly outperform a certainty equivalent controller on various measures of sample complexity and stability robustness.
翻訳日:2022-05-12 22:01:56 公開日:2022-05-10
# 視聴覚関連から視覚スタイルを学ぶ

Learning Visual Styles from Audio-Visual Associations ( http://arxiv.org/abs/2205.05072v1 )

ライセンス: Link先を確認
Tingle Li, Yichen Liu, Andrew Owens, Hang Zhao(参考訳) 雨の光から雪のくぼみまで、私たちが聞く音はシーンの中に現れる視覚的なテクスチャを伝えることが多い。 本稿では,未ラベル音声視覚データから視覚スタイルを学習する手法を提案する。 私たちのモデルは、音に合わせてシーンのテクスチャを操作することを学びます。 対の視聴覚データのデータセットを考えると、操作後、与えられた入力音と共起する可能性が高まるように、入力画像を変更することを学ぶ。 定量的・質的評価では,音素モデルの方がラベルに基づくアプローチよりも優れている。 また,音量調整や2つの音の混合など,映像操作のための直感的な表現が可能となり,予測可能な映像スタイルの変化が得られることを示す。 プロジェクトWebページ: https://tinglok.netlify.app/files/avstyle

From the patter of rain to the crunch of snow, the sounds we hear often convey the visual textures that appear within a scene. In this paper, we present a method for learning visual styles from unlabeled audio-visual data. Our model learns to manipulate the texture of a scene to match a sound, a problem we term audio-driven image stylization. Given a dataset of paired audio-visual data, we learn to modify input images such that, after manipulation, they are more likely to co-occur with a given input sound. In quantitative and qualitative evaluations, our sound-based model outperforms label-based approaches. We also show that audio can be an intuitive representation for manipulating images, as adjusting a sound's volume or mixing two sounds together results in predictable changes to visual style. Project webpage: https://tinglok.netlify.app/files/avstyle
翻訳日:2022-05-12 21:38:30 公開日:2022-05-10
# ドメイン適応と半監督学習における因果性について:情報理論解析

On Causality in Domain Adaptation and Semi-Supervised Learning: an Information-Theoretic Analysis ( http://arxiv.org/abs/2205.04641v1 )

ライセンス: Link先を確認
Xuetong Wu and Mingming Gong and Jonathan H. Manton and Uwe Aickelin and Jingge Zhu(参考訳) 因果関係と非教師なしドメイン適応(uda/semi-supervised learning, ssl)の関連が確立され,近年,これらの学習問題の方法論的発展につながった。 しかし、UDA/SSLの一般化性能における因果性の役割を説明する公式な理論はいまだ不十分である。 本稿では,mラベル付きソースデータとnラベルなしターゲットデータにアクセスするUDA/SSL設定を,パラメトリック確率モデルに基づくトレーニングインスタンスとして検討する。 対象領域における予測の学習性能(過剰リスクなど)について検討する。 具体的には、2つのシナリオを区別する: 学習問題は、その特徴が原因であり、ラベルが効果である場合、因果学習と呼ばれ、それ以外の場合、反因果学習と呼ばれる。 因果学習では、ソースとターゲットドメイン間のラベル付け分布が変化しない場合のみ、O(1/m)のレートでソースサンプルのサイズに余剰リスクが依存していることが示される。 反コーサル学習では、ラベルのないデータが通常o(1/n)の割合でパフォーマンスを支配していることを示す。 我々の分析は、潜在的結果確率変数と情報理論の概念に基づいている。 これらの結果から,データサンプルサイズと,因果メカニズムの異なる学習課題の硬さの関係が明らかになった。

The establishment of the link between causality and unsupervised domain adaptation (UDA)/semi-supervised learning (SSL) has led to methodological advances in these learning problems in recent years. However, a formal theory that explains the role of causality in the generalization performance of UDA/SSL is still lacking. In this paper, we consider the UDA/SSL setting where we access m labeled source data and n unlabeled target data as training instances under a parametric probabilistic model. We study the learning performance (e.g., excess risk) of prediction in the target domain. Specifically, we distinguish two scenarios: the learning problem is called causal learning if the feature is the cause and the label is the effect, and is called anti-causal learning otherwise. We show that in causal learning, the excess risk depends on the size of the source sample at a rate of O(1/m) only if the labelling distribution between the source and target domains remains unchanged. In anti-causal learning, we show that the unlabeled data dominate the performance at a rate of typically O(1/n). Our analysis is based on the notion of potential outcome random variables and information theory. These results bring out the relationship between the data sample size and the hardness of the learning problem with different causal mechanisms.
翻訳日:2022-05-12 21:36:42 公開日:2022-05-10
# 異種インフラストラクチャ上での機械学習ワークフローの提供と最適化

Serving and Optimizing Machine Learning Workflows on Heterogeneous Infrastructures ( http://arxiv.org/abs/2205.04713v1 )

ライセンス: Link先を確認
Yongji Wu, Matthew Lentz, Danyang Zhuo, Yao Lu(参考訳) スマートデバイスとモノのインターネットがユビキタスに展開されるようになり、機械学習の推論のためのデータソースはますますネットワークの端に移ってきています。 既存の機械学習推論プラットフォームは通常、均質なインフラストラクチャを前提としており、エッジデバイス、ローカルハブ、エッジデータセンタ、クラウドデータセンタを含む、より複雑でタイトなコンピューティングインフラストラクチャを考慮していない。 一方、最近の機械学習の取り組みは、異種環境におけるモデル圧縮、プルーニング、量子化のための実行可能なソリューションを提供してきた。 異種インフラストラクチャ上での機械学習推論ワークフローの提供と最適化のためのフレームワークであるJellyBeanの設計と実装を行う。 サービスレベルの目標(スループット、精度など)を考慮すれば、jellybeanは、精度目標を満たしたコスト効率の高いモデルを自動的に選択し、さまざまなインフラストラクチャ層にデプロイする方法を決定する。 JellyBeanは、最先端のモデル選択やワーカー割り当てソリューションと比較して、最大58%の視覚的質問応答のサービスコストを削減し、NVIDIA AI City Challengeからの車両追跡を最大36%削減している。 JellyBeanはまた、従来のMLサービスシステム(例えばクラウド上のSpark)のサービスコストを最大5倍に向上させる。

With the advent of ubiquitous deployment of smart devices and the Internet of Things, data sources for machine learning inference have increasingly moved to the edge of the network. Existing machine learning inference platforms typically assume a homogeneous infrastructure and do not take into account the more complex and tiered computing infrastructure that includes edge devices, local hubs, edge datacenters, and cloud datacenters. On the other hand, recent machine learning efforts have provided viable solutions for model compression, pruning and quantization for heterogeneous environments; for a machine learning model, now we may easily find or even generate a series of models with different tradeoffs between accuracy and efficiency. We design and implement JellyBean, a framework for serving and optimizing machine learning inference workflows on heterogeneous infrastructures. Given service-level objectives (e.g., throughput, accuracy), JellyBean automatically selects the most cost-efficient models that met the accuracy target and decides how to deploy them across different tiers of infrastructures. Evaluations show that JellyBean reduces the total serving cost of visual question answering by up to 58%, and vehicle tracking from the NVIDIA AI City Challenge by up to 36% compared with state-of-the-art model selection and worker assignment solutions. JellyBean also outperforms prior ML serving systems (e.g., Spark on the cloud) up to 5x in serving costs.
翻訳日:2022-05-12 21:36:21 公開日:2022-05-10
# SpiNNakerの海馬CA3領域におけるバイオインスパイアされた記憶のスパイクに基づく計算モデル

Spike-based computational models of bio-inspired memories in the hippocampal CA3 region on SpiNNaker ( http://arxiv.org/abs/2205.04782v1 )

ライセンス: Link先を確認
Daniel Casanueva-Morato, Alvaro Ayuso-Martinez, Juan P. Dominguez-Morales, Angel Jimenez-Fernandez and Gabriel Jimenez-Moreno(参考訳) 人間の脳は、現在存在する最も強力で効率的な機械であり、現代のコンピュータの能力を大きく上回っている。 現在、ニューロモルフィックエンジニアリングの研究は、これらの優れた能力を得るために脳の機能を模倣するハードウェアの開発を試みている。 現在開発中の領域の1つは、海馬が重要な役割を担っているバイオインスパイアされた記憶の設計である。 脳のこの領域は短期記憶として作用し、脳内の様々な感覚の流れからの情報を記憶し、後で記憶する能力を持つ。 これは、海馬の主要サブリージョンであるCA3を構成する、反復的な側方ネットワークアーキテクチャによって可能となる。 本研究では,SpinNNakerハードウェアプラットフォーム上でのスパイクニューラルネットワークによって実装された複雑なパターンの記憶と記憶のための,完全機能海馬バイオインスパイアメモリのスパイクに基づく2つの計算モデルを開発した。 これらのモデルは生物学的抽象化の異なるレベルを示し、第一のモデルは生物モデルに近い一定の振動活性を持ち、第二のモデルはエネルギー効率の良い調節活性を持ち、生物にインスパイアされているにもかかわらず、より機能的なアプローチを選択する。 学習/リコール能力をテストするために、各モデルに対して異なる実験が行われた。 提案モデルの機能と生物学的妥当性を総合的に比較し,その強度と弱点を示した。 2つのモデルは研究者向けに公開されており、将来のスパイクベースの実装とアプリケーションへの道を開く可能性がある。

The human brain is the most powerful and efficient machine in existence today, surpassing in many ways the capabilities of modern computers. Currently, lines of research in neuromorphic engineering are trying to develop hardware that mimics the functioning of the brain to acquire these superior capabilities. One of the areas still under development is the design of bio-inspired memories, where the hippocampus plays an important role. This region of the brain acts as a short-term memory with the ability to store associations of information from different sensory streams in the brain and recall them later. This is possible thanks to the recurrent collateral network architecture that constitutes CA3, the main sub-region of the hippocampus. In this work, we developed two spike-based computational models of fully functional hippocampal bio-inspired memories for the storage and recall of complex patterns implemented with spiking neural networks on the SpiNNaker hardware platform. These models present different levels of biological abstraction, with the first model having a constant oscillatory activity closer to the biological model, and the second one having an energy-efficient regulated activity, which, although it is still bio-inspired, opts for a more functional approach. Different experiments were performed for each of the models, in order to test their learning/recalling capabilities. A comprehensive comparison between the functionality and the biological plausibility of the presented models was carried out, showing their strengths and weaknesses. The two models, which are publicly available for researchers, could pave the way for future spike-based implementations and applications.
翻訳日:2022-05-12 21:36:00 公開日:2022-05-10
# ユニバーサルキャッシング

Universal Caching ( http://arxiv.org/abs/2205.04860v1 )

ライセンス: Link先を確認
Ativ Joshi and Abhishek Sinha(参考訳) 学習文献では、オンラインポリシーのパフォーマンスは一般的に、オンラインポリシーの累積損失と後から見て最適なベンチマークとを比較する静的後悔の指標を用いて測定される。 静的後悔の定義では、ベンチマークポリシーは時間軸を通じて固定されている。 当然、修正されたベンチマークがパフォーマンスの低下に苦しむ非定常な設定では、結果として生じる後悔の限界は緩やかになる。 本稿では,オンラインキャッシュ問題における後悔の最小化という概念について検討する。 特に、任意のラウンドにおけるオフラインベンチマークの動作は、任意に多数の状態を含む有限状態予測器によって決定される。 情報理論における普遍予測文献のアイデアを用いて,適応型サブリニア・リットバウンドを持つ効率的なオンラインキャッシングポリシーを提案する。 私たちの知る限りでは、ユニバーサルキャッシング問題で知られている最初のデータ依存の後悔だ。 本稿では,最近提案されているオンラインキャッシングポリシとインクリメンタル解析アルゴリズム,例えばlempel-ziv '78を組み合わせることにより,この結果を確立する。 また,本手法は,先行研究で用いたより複雑で問題固有の組合せ論とは対照的に,改良された後悔境界の学習理論的な証明も提供する。

In the learning literature, the performance of an online policy is commonly measured in terms of the static regret metric, which compares the cumulative loss of an online policy to that of an optimal benchmark in hindsight. In the definition of static regret, the benchmark policy remains fixed throughout the time horizon. Naturally, the resulting regret bounds become loose in non-stationary settings where fixed benchmarks often suffer from poor performance. In this paper, we investigate a stronger notion of regret minimization in the context of an online caching problem. In particular, we allow the action of the offline benchmark at any round to be decided by a finite state predictor containing arbitrarily many states. Using ideas from the universal prediction literature in information theory, we propose an efficient online caching policy with an adaptive sub-linear regret bound. To the best of our knowledge, this is the first data-dependent regret bound known for the universal caching problem. We establish this result by combining a recently-proposed online caching policy with an incremental parsing algorithm, e.g., Lempel-Ziv '78. Our methods also yield a simpler learning-theoretic proof of the improved regret bound as opposed to the more involved and problem-specific combinatorial arguments used in the earlier works.
翻訳日:2022-05-12 21:35:39 公開日:2022-05-10
# 雑音ベイズ最適化における累積レギュレット最小化の調整

Adjusted Expected Improvement for Cumulative Regret Minimization in Noisy Bayesian Optimization ( http://arxiv.org/abs/2205.04901v1 )

ライセンス: Link先を確認
Shouri Hu, Haowei Wang, Zhongxiang Dai, Bryan Kian Hsiang Low, Szu Hui Ng(参考訳) 期待改善(ei)はベイズ最適化(bo)の最も一般的な獲得関数の1つであり、単純な後悔の最小化のために多くのアプリケーションで優れた経験的性能を示している。 しかし、累積的後悔の評価基準では、EIの性能は競争力がなく、既存の理論的後悔の上限は改善の余地がある。 累積的後悔による性能向上のためにeiを適応させるために, 獲得関数と比較した評価コストと呼ばれる新しい量を導入するとともに, 期待改善コスト(eic)アルゴリズムを開発した。 EICの各イテレーションでは、その値がその評価コストを超える場合に限り、最大の取得関数値を持つ新しいポイントをサンプリングする。 この評価コストは、各イテレーションの目的関数値がパフォーマンス指標に影響を与えるため、累積的後悔計量の下で重要である点をサンプリングする潜在的な欠点を定量化する。 さらに、理論上は、二乗指数共分散カーネルの極小正規性条件下でのEICのほぼ最適後悔上限を確立し、いくつかのBOアルゴリズムに対するEICの改善を示す実験を行う。

The expected improvement (EI) is one of the most popular acquisition functions for Bayesian optimization (BO) and has demonstrated good empirical performances in many applications for the minimization of simple regret. However, under the evaluation metric of cumulative regret, the performance of EI may not be competitive, and its existing theoretical regret upper bound still has room for improvement. To adapt the EI for better performance under cumulative regret, we introduce a novel quantity called the evaluation cost which is compared against the acquisition function, and with this, develop the expected improvement-cost (EIC) algorithm. In each iteration of EIC, a new point with the largest acquisition function value is sampled, only if that value exceeds its evaluation cost. If none meets this criteria, the current best point is resampled.This evaluation cost quantifies the potential downside of sampling a point, which is important under the cumulative regret metric as the objective function value in every iteration affects the performance measure. We further establish in theory a near-optimal regret upper bound of EIC for the squared-exponential covariance kernel under mild regularity conditions, and perform experiments to illustrate the improvement of EIC over several popular BO algorithms.
翻訳日:2022-05-12 21:35:23 公開日:2022-05-10
# 固定点ネットワークによるthz超大質量mimoのハイブリッド遠距離・近距離チャネル推定

Hybrid Far- and Near-Field Channel Estimation for THz Ultra-Massive MIMO via Fixed Point Networks ( http://arxiv.org/abs/2205.04944v1 )

ライセンス: Link先を確認
Wentao Yu, Yifei Shen, Hengtao He, Xianghao Yu, Jun Zhang, and Khaled B. Letaief(参考訳) terahertz ultra-massive multiple-input multi-output (thz um-mimo) は6gワイヤレスシステムのキーイネーブラとして考えられている。 大きなアレイ開口と小さな波長の結合効果により、THz UM-MIMO系の近接場領域は大幅に拡大される。 このようなシステムの高次元チャネルは、遠距離場と近距離場の確率混合からなるため、チャネル推定は非常に困難である。 以前のユニフィールドの仮定に基づく作業は、ハイブリッドな遠距離および近距離フィールドの特徴を捉えることができず、大きなパフォーマンス損失を被ることになる。 これは、ハイブリッドフィールドチャネル推定を考える動機となる。 我々は,不動点理論から着想を得て,適応的複雑性と線形収束保証を備えた効率的な深層学習型チャネル推定器を開発した。 古典的直交近似メッセージパッシングに基づいて,各イテレーションを,閉形式線形推定器とニューラルネットワークに基づく非線形推定器からなる縮約写像に変換する。 アルゴリズムの大きな革新は、任意の深さでニューラルネットワークをモデル化し、ハイブリッドフィールドチャネル条件に適応しながら、チャネル推定を計算するために固定点反復を適用することである。 シミュレーション結果は理論解析を検証し, 推定精度と収束率において, 最先端手法に比べて有意な性能向上を示す。

Terahertz ultra-massive multiple-input multiple-output (THz UM-MIMO) is envisioned as one of the key enablers of 6G wireless systems. Due to the joint effect of its large array aperture and small wavelength, the near-field region of THz UM-MIMO systems is greatly enlarged. The high-dimensional channel of such systems thus consists of a stochastic mixture of far and near fields, which renders channel estimation extremely challenging. Previous works based on uni-field assumptions cannot capture the hybrid far- and near-field features, and will suffer significant performance loss. This motivates us to consider hybrid-field channel estimation. We draw inspirations from fixed point theory to develop an efficient deep learning based channel estimator with adaptive complexity and linear convergence guarantee. Built upon classic orthogonal approximate message passing, we transform each iteration into a contractive mapping, comprising a closed-form linear estimator and a neural network based non-linear estimator. A major algorithmic innovation involves applying fixed point iteration to compute the channel estimate while modeling neural networks with arbitrary depth and adapting to the hybrid-field channel conditions. Simulation results will verify our theoretical analysis and show significant performance gains over state-of-the-art approaches in the estimation accuracy and convergence rate.
翻訳日:2022-05-12 21:35:02 公開日:2022-05-10
# データからエージェントベースモデルを学ぶこと

On learning agent-based models from data ( http://arxiv.org/abs/2205.05052v1 )

ライセンス: Link先を確認
Corrado Monti, Marco Pangallo, Gianmarco De Francisci Morales, Francesco Bonchi(参考訳) エージェントベースモデル(ABM)は、マイクロレベルの仮定から複雑なシステムの進化を研究するためにいくつかの分野で用いられている。 しかし、ABMはエージェント固有の変数(または「マイクロ」変数)を推定することができず、これはABMがマイクロレベルのデータ可用性を利用するのを防ぎ、予測能力を大幅に制限する大きな制限である。 本稿では,データからABMの潜伏マイクロ変数を学習するためのプロトコルを提案する。 このプロトコルの最初のステップは、確率論的モデルにABMを還元することであり、計算に難航する確率が特徴である。 この削減は、確率性とデータ可用性のバランスと、観測不能な離散的選択を微分可能近似に置き換えるという2つの一般的な設計原則に従う。 次に,本プロトコルは,勾配に基づく期待最大化アルゴリズムを用いて潜在変数の確率を最大化する。 我々は、所得の異なるエージェントが高所得地区に住むために高い価格を入札する住宅市場のABMに適用することで、当社のプロトコルを実証する。 得られたモデルは,abmの一般的な挙動を保ちつつ,潜在変数の正確な推定を可能にする。 また、我々の推定値がサンプル外予測に利用できることを示す。 我々のプロトコルはブラックボックスデータ同化手法の代替と見なすことができ、モデリング者はモデルの仮定を裸にし、推論過程を考え、潜在的な識別問題を発見せざるを得ない。

Agent-Based Models (ABMs) are used in several fields to study the evolution of complex systems from micro-level assumptions. However, ABMs typically can not estimate agent-specific (or "micro") variables: this is a major limitation which prevents ABMs from harnessing micro-level data availability and which greatly limits their predictive power. In this paper, we propose a protocol to learn the latent micro-variables of an ABM from data. The first step of our protocol is to reduce an ABM to a probabilistic model, characterized by a computationally tractable likelihood. This reduction follows two general design principles: balance of stochasticity and data availability, and replacement of unobservable discrete choices with differentiable approximations. Then, our protocol proceeds by maximizing the likelihood of the latent variables via a gradient-based expectation maximization algorithm. We demonstrate our protocol by applying it to an ABM of the housing market, in which agents with different incomes bid higher prices to live in high-income neighborhoods. We demonstrate that the obtained model allows accurate estimates of the latent variables, while preserving the general behavior of the ABM. We also show that our estimates can be used for out-of-sample forecasting. Our protocol can be seen as an alternative to black-box data assimilation methods, that forces the modeler to lay bare the assumptions of the model, to think about the inferential process, and to spot potential identification problems.
翻訳日:2022-05-12 21:34:42 公開日:2022-05-10
# フロー完了ネットワーク:グラフニューラルネットワークを用いた不完全フロー情報からの流体力学の推定

Flow Completion Network: Inferring the Fluid Dynamics from Incomplete Flow Information using Graph Neural Networks ( http://arxiv.org/abs/2205.04739v1 )

ライセンス: Link先を確認
Xiaodong He (1), Yinan Wang (2), Juan Li (3) ((1) Department of R and D, UnionString Technology Co. Ltd., (2) School of Engineering, University of Liverpool, Liverpool, UK. (3) Department of Engineering, King's College London, London, UK.)(参考訳) 本稿では,グラフ畳み込み注意ネットワークに基づく不完全なデータから,流れ場や物体に作用する力を含む流体力学を推定する,新しいニューラルネットワークであるフロー補完ネットワーク(fcn)を提案する。 FCNはいくつかのグラフ畳み込み層と空間的注意層で構成されている。 渦力マップ(vfm)法と組み合わせた流場の速度場と渦力寄与を推算するように設計された。 流体力学で採用された他のニューラルネットワークと比較して、FCNは構造化データと非構造化データの両方を扱うことができる。 提案するFCNの性能は, 円柱まわりの流れ場に関する計算流体力学(CFD)データを用いて評価する。 本モデルにより予測される力係数はCFDから直接得られる力係数に対して検証される。 さらに,本モデルでは,既存の流れ場情報と勾配情報を同時に活用し,従来のCNNモデルやDNNモデルよりも優れた性能が得られることを示した。

This paper introduces a novel neural network -- the flow completion network (FCN) -- to infer the fluid dynamics, including the flow field and the force acting on the body, from the incomplete data based on Graph Convolution Attention Network. The FCN is composed of several graph convolution layers and spatial attention layers. It is designed to infer the velocity field and the vortex force contribution of the flow field when combined with the vortex force map (VFM) method. Compared with other neural networks adopted in fluid dynamics, the FCN is capable of dealing with both structured data and unstructured data. The performance of the proposed FCN is assessed by the computational fluid dynamics (CFD) data on the flow field around a circular cylinder. The force coefficients predicted by our model are validated against those obtained directly from CFD. Moreover, it is shown that our model effectively utilizes the existing flow field information and the gradient information simultaneously, giving a better performance than the traditional CNN-based and DNN-based models.
翻訳日:2022-05-12 21:00:40 公開日:2022-05-10
# 深層学習に基づく中国語テキスト感情マイニングと株式市場相関研究

Deep learning based Chinese text sentiment mining and stock market correlation research ( http://arxiv.org/abs/2205.04743v1 )

ライセンス: Link先を確認
Chenrui Zhang(参考訳) 我々は、ストックバーなどの金融フォーラムデータをクロールし、感情分析のためのディープラーニングモデルと組み合わせる方法について検討する。 本稿では,金融コーパスに対する学習とszse成分指数の予測にbertモデルを用い,最大情報係数比較による金融コーパスへのbertモデルの適用を見出す。 得られた感情特徴は、株式市場の変動を反映し、予測精度を効果的に改善するのに役立つ。 一方, 深層学習と財務資料を組み合わせることで, 深層学習を通じて株式市場に対する投資家の感情のメカニズムを探求し, 株式市場の安定を維持するためのより合理的な政策ガイドラインを策定する上で, 国家規制や政策部門にとって有益であると考えられる。

We explore how to crawl financial forum data such as stock bars and combine them with deep learning models for sentiment analysis. In this paper, we will use the BERT model to train against the financial corpus and predict the SZSE Component Index, and find that applying the BERT model to the financial corpus through the maximum information coefficient comparison study. The obtained sentiment features will be able to reflect the fluctuations in the stock market and help to improve the prediction accuracy effectively. Meanwhile, this paper combines deep learning with financial text, in further exploring the mechanism of investor sentiment on stock market through deep learning method, which will be beneficial for national regulators and policy departments to develop more reasonable policy guidelines for maintaining the stability of stock market.
翻訳日:2022-05-12 21:00:24 公開日:2022-05-10
# ガウスの場合のいくつかの相似測度バリ中心に対する固定点反復

Fixed-point iterations for several dissimilarity measure barycenters in the Gaussian case ( http://arxiv.org/abs/2205.04806v1 )

ライセンス: Link先を確認
Alessandro D'Ortenzio, Costanzo Manes, Umut Orguner(参考訳) 目標追跡とセンサフュージョンの文脈では、多くのセンサが乱れやマルチモーダルノイズの影響を受けながら同じ場面で測定を行うように、利用可能な情報を符号化する多数のガウス密度(多重仮説)を扱うことは珍しくない。 このような場合、計算負荷を制限するため、削減手順を実施しなければならない。 いくつかの状況では、利用可能な全ての情報を単一の仮説に融合させることが求められ、通常は集合のバリ中心を計算することによって行われる。 しかし、そのような計算は選択された異質性尺度に強く依存しており、非常に少ない場合では解析的にバリセンタを計算できるため、しばしば数値的手法を用いて行う必要がある。 共変性の制約のような、対称で正定値でなければならないいくつかの問題は、ガウス群の集合のバリ中心の数値計算を困難にする。 本研究では,いくつかの相似性尺度に従って,バリセンタの計算にFPI(Fixed-Point Iterations)を適用し,特定の相似性尺度を必要とするアプリケーションにおいてガウス集合の融合・縮小のための有用なツールボックスを構成する。

In target tracking and sensor fusion contexts it is not unusual to deal with a large number of Gaussian densities that encode the available information (multiple hypotheses), as in applications where many sensors, affected by clutter or multimodal noise, take measurements on the same scene. In such cases reduction procedures must be implemented, with the purpose of limiting the computational load. In some situations it is required to fuse all available information into a single hypothesis, and this is usually done by computing the barycenter of the set. However, such computation strongly depends on the chosen dissimilarity measure, and most often it must be performed making use of numerical methods, since in very few cases the barycenter can be computed analytically. Some issues, like the constraint on the covariance, that must be symmetric and positive definite, make it hard the numerical computation of the barycenter of a set of Gaussians. In this work, Fixed-Point Iterations (FPI) are presented for the computation of barycenters according to several dissimilarity measures, making up a useful toolbox for fusion/reduction of Gaussian sets in applications where specific dissimilarity measures are required.
翻訳日:2022-05-12 20:56:22 公開日:2022-05-10
# 森学習のための回帰に基づく予測--Zwanzig演算子

Regression-based projection for learning Mori--Zwanzig operators ( http://arxiv.org/abs/2205.05135v1 )

ライセンス: Link先を確認
Yen Ting Lin, Yifeng Tian, Daniel Livescu(参考訳) 本研究では,統計回帰を射影演算子として採用し,森-ツワンジヒ形式における演算子のデータ駆動学習を可能にする。 本稿では,任意の回帰モデルに対してマルコフとメモリ演算子を抽出するアルゴリズムを提案する。 本稿では,森プロジェクション演算子に基づく最近提案されたデータ駆動学習アルゴリズムにおける線形回帰結果の選択を,高次近似クープマン学習法とみなすことができることを示す。 より表現的、潜在的に非線形回帰モデルは、高度に理想化され、計算効率のよいモリの射影作用素と、最も最適だが計算不能なズワンツィヒ射影作用素の間のギャップを自然に埋めることを示す。 本研究では, 線形, 多項式, スプライン, ニューラルネットベース回帰を含む回帰モデルに対する数値実験を行い, 回帰モデルの複雑さが増大するにつれて, 漸進的な改善が見られた。 本提案は,メモリ依存の修正を抽出できる汎用フレームワークを提供し,定常力学系のためのデータ駆動学習手法を文献に容易に適用できる。

We propose to adopt statistical regression as the projection operator to enable data-driven learning of the operators in the Mori--Zwanzig formalism. We present a principled algorithm to extract the Markov and memory operators for any regression models. We show that the choice of linear regression results in a recently proposed data-driven learning algorithm based on Mori's projection operator, which can be considered as a higher-order approximate Koopman learning method. We show that more expressive, potentially nonlinear regression models naturally fill in the gap between the highly idealized and computationally efficient Mori's projection operator and the most optimal yet computationally infeasible Zwanzig projection operator. We performed numerical experiments and extracted the operators for an array of regression-based projections, including linear, polynomial, spline, and neural-network-based regression, showing a progressive improvement as the complexity of the regression model increased. Our proposition provides a general framework to extract memory-dependent corrections and can be readily applied to an array of data-driven learning methods for stationary dynamical systems in the literature.
翻訳日:2022-05-12 20:54:52 公開日:2022-05-10
# 圧縮と分散低減を併用したフェデレートランダムリシャッフリング

Federated Random Reshuffling with Compression and Variance Reduction ( http://arxiv.org/abs/2205.03914v2 )

ライセンス: Link先を確認
Grigory Malinovsky, Peter Richt\'arik(参考訳) 無置換標本を用いた確率的勾配降下(sgd)の変種であるランダム・リシャフリング(rr)は、経験的リスク最小化による教師あり機械学習モデルを訓練する非常に一般的な方法である。 実用性能が優れているため、標準の機械学習ソフトウェアに組み込まれ、しばしばデフォルトとして設定される。 fedrrの名称の下では、最近この手法は、局所sgdのような一般的なベースラインと比較して優れたパフォーマンスを持つフェデレーション学習(mishchenko et al.,2021)に適用可能であることが示されている。 この開発に触発されて、federrをさらに改善するための3つの新しいアルゴリズムをデザインした: 圧縮federrと2つの分散縮小拡張: 1つはシャッフルリングから生じる分散を改ざんし、もう1つは圧縮による分散を改ざんする。 圧縮の分散低減機構により、圧縮パラメータへの依存性をなくし、malinovskyらによって導入されたランダムリシャフリングに対する追加制御線形摂動を適用することができる。 (2021)は最適な分散を排除するのに役立つ。 本研究では, 圧縮演算子の限界を克服し, 境界勾配仮定や不均質データを用いずに, 標準仮定の下で圧縮局所法を初めて解析する。 我々は、合成および実データ集合に関する実験で理論結果と照合する。

Random Reshuffling (RR), which is a variant of Stochastic Gradient Descent (SGD) employing sampling without replacement, is an immensely popular method for training supervised machine learning models via empirical risk minimization. Due to its superior practical performance, it is embedded and often set as default in standard machine learning software. Under the name FedRR, this method was recently shown to be applicable to federated learning (Mishchenko et al.,2021), with superior performance when compared to common baselines such as Local SGD. Inspired by this development, we design three new algorithms to improve FedRR further: compressed FedRR and two variance reduced extensions: one for taming the variance coming from shuffling and the other for taming the variance due to compression. The variance reduction mechanism for compression allows us to eliminate dependence on the compression parameter, and applying additional controlled linear perturbations for Random Reshuffling, introduced by Malinovsky et al.(2021) helps to eliminate variance at the optimum. We provide the first analysis of compressed local methods under standard assumptions without bounded gradient assumptions and for heterogeneous data, overcoming the limitations of the compression operator. We corroborate our theoretical results with experiments on synthetic and real data sets.
翻訳日:2022-05-12 20:54:05 公開日:2022-05-10
# 感性サンプルを用いたロスレスブラックボックス透かしによるディープエンサンブルモデルの完全性検証

Verifying Integrity of Deep Ensemble Models by Lossless Black-box Watermarking with Sensitive Samples ( http://arxiv.org/abs/2205.04145v2 )

ライセンス: Link先を確認
Lina Lin and Hanzhou Wu(参考訳) 多くの分野でディープニューラルネットワーク(DNN)が広く使われるようになると、知的財産権(IP)侵害からDNNモデルを保護する研究がますます増えている。 多くの既存手法がデジタル透かしを用いてDNNモデルを保護する。 大多数は、内部ネットワーク構造/パラメータに直接透かしを埋め込むか、いわゆるトリガーサンプルセットで保護されるモデルを微調整することでゼロビット透かしを挿入する。 これらの手法は非常にうまく機能するが、個々のDNNモデルに対して設計されており、複数のDNNモデルを組み合わせて最終的な決定を行うディープアンサンブルモデル(DEM)に直接適用することはできない。 そこで,本論文では,demの完全性を検証するために使用できる新しいブラックボックス透かし法を提案する。 提案手法では、実世界のDEM攻撃を模倣し、非攻撃されたDEMと攻撃されたDEMのサブモデルの予測結果を分析することにより、ある程度の機密サンプルを慎重に選択する。 これらの細心の注意深いサンプルからターゲットDEMの予測結果を解析することにより、ターゲットDEMの完全性を検証することができる。 従来の多くの手法とは異なり,提案手法は保護対象とする元のDEMを変更せず,提案手法は無損失であることを示す。 実験の結果,1つのサブモデルのみを攻撃してもDEM整合性が確実に検証可能であることが確認された。

With the widespread use of deep neural networks (DNNs) in many areas, more and more studies focus on protecting DNN models from intellectual property (IP) infringement. Many existing methods apply digital watermarking to protect the DNN models. The majority of them either embed a watermark directly into the internal network structure/parameters or insert a zero-bit watermark by fine-tuning a model to be protected with a set of so-called trigger samples. Though these methods work very well, they were designed for individual DNN models, which cannot be directly applied to deep ensemble models (DEMs) that combine multiple DNN models to make the final decision. It motivates us to propose a novel black-box watermarking method in this paper for DEMs, which can be used for verifying the integrity of DEMs. In the proposed method, a certain number of sensitive samples are carefully selected through mimicking real-world DEM attacks and analyzing the prediction results of the sub-models of the non-attacked DEM and the attacked DEM on the carefully crafted dataset. By analyzing the prediction results of the target DEM on these carefully crafted sensitive samples, we are able to verify the integrity of the target DEM. Different from many previous methods, the proposed method does not modify the original DEM to be protected, which indicates that the proposed method is lossless. Experimental results have shown that the DEM integrity can be reliably verified even if only one sub-model was attacked, which has good potential in practice.
翻訳日:2022-05-12 20:53:39 公開日:2022-05-10
# 時間論理制御対象の高速化強化学習

Accelerated Reinforcement Learning for Temporal Logic Control Objectives ( http://arxiv.org/abs/2205.04424v2 )

ライセンス: Link先を確認
Yiannis Kantaros(参考訳) 本稿では,シークエンシングやカバレッジ,監視といった時間論理的任務をこなす未知のマルコフ決定過程(MDP)をモデル化した移動ロボットの学習制御ポリシの問題に対処する。 MDPはワークスペースの構造と制御決定の結果の不確実性を捉えている。 制御目的は,線形時間論理(LTL)式として指定された高次タスクの達成確率を最大化する制御ポリシを合成することである。 そこで本研究では,ltl制御目標に対する高速化モデルベース強化学習(rl)アルゴリズムを提案する。 そのサンプル効率は、タスク満足に寄与する方向へのバイアスの探索に依存している。 これはLTLタスクのオートマトン表現と継続的に学習されたMDPモデルを活用することで実現される。 最後に,近年の時間論理RL法に対して提案手法のサンプル効率を示す広範な比較実験を行った。

This paper addresses the problem of learning control policies for mobile robots modeled as unknown Markov Decision Processes (MDPs) that are tasked with temporal logic missions, such as sequencing, coverage, or surveillance. The MDP captures uncertainty in the workspace structure and the outcomes of control decisions. The control objective is to synthesize a control policy that maximizes the probability of accomplishing a high-level task, specified as a Linear Temporal Logic (LTL) formula. To address this problem, we propose a novel accelerated model-based reinforcement learning (RL) algorithm for LTL control objectives that is capable of learning control policies significantly faster than related approaches. Its sample-efficiency relies on biasing exploration towards directions that may contribute to task satisfaction. This is accomplished by leveraging an automaton representation of the LTL task as well as a continuously learned MDP model. Finally, we provide extensive comparative experiments that demonstrate the sample efficiency of the proposed method against recent temporal logic RL methods.
翻訳日:2022-05-12 20:53:14 公開日:2022-05-10
# ドメイン知識を用いた自己教師型回帰学習:イメージングにおける自己教師型認知改善への応用

Self-supervised regression learning using domain knowledge: Applications to improving self-supervised denoising in imaging ( http://arxiv.org/abs/2205.04821v1 )

ライセンス: Link先を確認
Il Yong Chun, Dongwon Park, Xuehang Zheng, Se Young Chun, Yong Long(参考訳) 連続量を予測する回帰は、計算画像とコンピュータビジョン技術を用いたアプリケーションの中心的な部分である。 しかし、特定の回帰タスクを除く回帰タスクに対する自己教師あり学習の研究と理解は遅れている。 本稿では、特定のアプリケーションのドメイン知識をカプセル化した設計可能な擬似予測器を用いて、入力データのみを用いて回帰ニューラルネットワークを学習できる汎用自己教師付き回帰学習(SSRL)フレームワークを提案する。 本論文は、異なる設定下では、より良い擬似予測器がSSRLの特性を通常の教師付き学習に近づけることができることを示すことにより、ドメイン知識の使用の重要性を強調する。 低線量トモグラフィデノナイジングとカメラ画像デノナイジングの数値実験により、提案したSSRLは、既存の自己監督型デノナイジング法に比べて、デノナイジング品質を著しく改善することが示された。

Regression that predicts continuous quantity is a central part of applications using computational imaging and computer vision technologies. Yet, studying and understanding self-supervised learning for regression tasks - except for a particular regression task, image denoising - have lagged behind. This paper proposes a general self-supervised regression learning (SSRL) framework that enables learning regression neural networks with only input data (but without ground-truth target data), by using a designable pseudo-predictor that encapsulates domain knowledge of a specific application. The paper underlines the importance of using domain knowledge by showing that under different settings, the better pseudo-predictor can lead properties of SSRL closer to those of ordinary supervised learning. Numerical experiments for low-dose computational tomography denoising and camera image denoising demonstrate that proposed SSRL significantly improves the denoising quality over several existing self-supervised denoising methods.
翻訳日:2022-05-12 20:30:55 公開日:2022-05-10
# MNet:異方性医用画像分割のための2D/3Dネットワーク再考

MNet: Rethinking 2D/3D Networks for Anisotropic Medical Image Segmentation ( http://arxiv.org/abs/2205.04846v1 )

ライセンス: Link先を確認
Zhangfu Dong, Yuting He, Xiaoming Qi, Yang Chen, Huazhong Shu, Jean-Louis Coatrieux, Guanyu Yang, Shuo Li(参考訳) 厚いスライススキャンの性質は、3D医療画像のスライス間不連続性を著しく引き起こし、バニラ2D/3D畳み込みニューラルネットワーク(CNN)はスライス間情報と密度の高いスライス内情報をバランスよく表現することができず、スライス間特徴(バニラ2D CNN)への過度な不適合と、長距離スライス(バニラ3D CNN)からのノイズへの過度な適合をもたらす。 本研究では,学習を通じて軸間の空間表現のバランスをとるための新しいメッシュネットワーク(mnet)を提案する。 1) 多次元畳み込みを基本モジュールに深く埋め込み, 表現過程の選択を柔軟にすることで, スパース間スライス情報と密集したスライス情報に対する表現のバランスをとることにより, 多数の表現プロセスを潜在的に融合させる。 2)MNetは,各基本モジュールの多次元的特徴を融合させ,2D(容易に認識できる領域の高セグメンテーション精度)と3D(3次元臓器輪郭の高滑らかさ)表現の利点を両立させ,目標領域のより正確なモデリングを実現する。 4つの公開データセット(CT\&MR)で総合的な実験を行い、提案したMNetが他の手法よりも優れていることを示す。 コードとデータセットは以下の通りである。

The nature of thick-slice scanning causes severe inter-slice discontinuities of 3D medical images, and the vanilla 2D/3D convolutional neural networks (CNNs) fail to represent sparse inter-slice information and dense intra-slice information in a balanced way, leading to severe underfitting to inter-slice features (for vanilla 2D CNNs) and overfitting to noise from long-range slices (for vanilla 3D CNNs). In this work, a novel mesh network (MNet) is proposed to balance the spatial representation inter axes via learning. 1) Our MNet latently fuses plenty of representation processes by embedding multi-dimensional convolutions deeply into basic modules, making the selections of representation processes flexible, thus balancing representation for sparse inter-slice information and dense intra-slice information adaptively. 2) Our MNet latently fuses multi-dimensional features inside each basic module, simultaneously taking the advantages of 2D (high segmentation accuracy of the easily recognized regions in 2D view) and 3D (high smoothness of 3D organ contour) representations, thus obtaining more accurate modeling for target regions. Comprehensive experiments are performed on four public datasets (CT\&MR), the results consistently demonstrate the proposed MNet outperforms the other methods. The code and datasets are available at: https://github.com/zfdong-code/MNet
翻訳日:2022-05-12 20:30:38 公開日:2022-05-10
# 影除去のための影認識動的畳み込み

Shadow-Aware Dynamic Convolution for Shadow Removal ( http://arxiv.org/abs/2205.04908v1 )

ライセンス: Link先を確認
Yimin Xu, Mingbao Lin, Hong Yang, Ke Li, Yunhang Shen, Fei Chao, Rongrong Ji(参考訳) 多くの収集画像に広範囲の影があるため、未汚染画像が多くの下流マルチメディアタスクにおいて重要な意味を持つため、影の除去が注目を集めている。 現在の方法では、影領域と非陰影領域のカラーマッピングと非陰影領域の間の大きなギャップを無視しながら、影領域と非陰影領域の両方の同じ畳み込み操作を考慮し、再構成画像の品質が低下し、計算負荷が重い。 そこで本研究では,シャドウ領域と非シャドウ領域との相互依存を分離するための,新しいプラグアンドプレイ型シャドウ・アウェア・ダイナミック・コンボリューション(SADC)モジュールを提案する。 我々のSADCは、非陰影領域の色マッピングが学習が容易であるという事実に着想を得て、軽量な畳み込みモジュールで非陰影領域を計算的に安価に処理し、より複雑な畳み込みモジュールで影領域を復元し、画像再構成の品質を確保する。 また,非シャドウ領域には背景色情報が多く含まれることから,非シャドウ領域からシャドウ領域への情報フローを強化するため,新たにコンボリューション内蒸留損失が生じた。 ISTDおよびSRDデータセットの大規模な実験により,多くの最先端技術に対する影除去性能の向上が示された。 私たちのコードはhttps://github.com/xuyimin0926/SADCで利用可能です。

With a wide range of shadows in many collected images, shadow removal has aroused increasing attention since uncontaminated images are of vital importance for many downstream multimedia tasks. Current methods consider the same convolution operations for both shadow and non-shadow regions while ignoring the large gap between the color mappings for the shadow region and the non-shadow region, leading to poor quality of reconstructed images and a heavy computation burden. To solve this problem, this paper introduces a novel plug-and-play Shadow-Aware Dynamic Convolution (SADC) module to decouple the interdependence between the shadow region and the non-shadow region. Inspired by the fact that the color mapping of the non-shadow region is easier to learn, our SADC processes the non-shadow region with a lightweight convolution module in a computationally cheap manner and recovers the shadow region with a more complicated convolution module to ensure the quality of image reconstruction. Given that the non-shadow region often contains more background color information, we further develop a novel intra-convolution distillation loss to strengthen the information flow from the non-shadow region to the shadow region. Extensive experiments on the ISTD and SRD datasets show our method achieves better performance in shadow removal over many state-of-the-arts. Our code is available at https://github.com/xuyimin0926/SADC.
翻訳日:2022-05-12 20:30:03 公開日:2022-05-10
# nerf-editing:neural radiance fieldの幾何編集

NeRF-Editing: Geometry Editing of Neural Radiance Fields ( http://arxiv.org/abs/2205.04978v1 )

ライセンス: Link先を確認
Yu-Jie Yuan, Yang-Tian Sun, Yu-Kun Lai, Yuewen Ma, Rongfei Jia, Lin Gao(参考訳) 入射ニューラルレンダリング、特にニューラルレージアンスフィールド(NeRF)は、シーンの新規なビュー合成において大きな可能性を示している。 しかし,現在のNeRF方式では,シーン内でユーザが制御した形状変形を行うことができない。 既存の研究では、ユーザの制約に従って放射界を変更するアプローチが提案されているが、色編集やオブジェクトの変換や回転に限られている。 本稿では,シーンの暗黙的な表現に対してユーザが制御可能な形状変形を行えるようにし,ネットワークを再トレーニングすることなく編集シーンの新しいビューイメージを合成する手法を提案する。 具体的には,抽出したメッシュ表現とターゲットシーンの暗黙的ニューラルネットワーク表現との対応性を確立する。 ユーザはまず、よく開発されたメッシュベースの変形手法を使用して、シーンのメッシュ表現を変形することができる。 次に,メッシュ表現からのユーザ編集を利用して,テトラヘドラメッシュをプロキシとして,編集シーンのレンダリング結果を取得することにより,カメラ光を曲げる。 広範な実験により,このフレームワークは合成データだけでなく,ユーザによってキャプチャされた実環境においても,理想的な編集結果が得られることを示した。

Implicit neural rendering, especially Neural Radiance Field (NeRF), has shown great potential in novel view synthesis of a scene. However, current NeRF-based methods cannot enable users to perform user-controlled shape deformation in the scene. While existing works have proposed some approaches to modify the radiance field according to the user's constraints, the modification is limited to color editing or object translation and rotation. In this paper, we propose a method that allows users to perform controllable shape deformation on the implicit representation of the scene, and synthesizes the novel view images of the edited scene without re-training the network. Specifically, we establish a correspondence between the extracted explicit mesh representation and the implicit neural representation of the target scene. Users can first utilize well-developed mesh-based deformation methods to deform the mesh representation of the scene. Our method then utilizes user edits from the mesh representation to bend the camera rays by introducing a tetrahedra mesh as a proxy, obtaining the rendering results of the edited scene. Extensive experiments demonstrate that our framework can achieve ideal editing results not only on synthetic data, but also on real scenes captured by users.
翻訳日:2022-05-12 20:29:34 公開日:2022-05-10
# CTスキャンから抽出したDeep Learning-based Featuresを用いたCOVID-19患者の予後予測

Using Deep Learning-based Features Extracted from CT scans to Predict Outcomes in COVID-19 Patients ( http://arxiv.org/abs/2205.05009v1 )

ライセンス: Link先を確認
Sai Vidyaranya Nuthalapati, Marcela Vizcaychipi, Pallav Shah, Piotr Chudzik, Chee Hau Leow, Paria Yousefi, Ahmed Selim, Keiran Tait and Ben Irving(参考訳) 新型コロナウイルスのパンデミックは日々の生活に大きな影響を与えている。 患者に必要な資源を提供することで、病気に取り組むことは極めて重要である。 しかし,要件を決定する要因の数を考えると,必要なリソースの推定は簡単な作業ではない。 この問題は、感染した患者がICU(Intensive Care Unit)の支援を必要とする確率と、それに影響を与える各要因の重要性を予測することで解決できる。 また、死亡リスクの高い患者を判定する医師を支援するために、死亡確率も算出する。 入院と死亡の両方を決定するため,ctスキャンと電子健康記録(ehr)データから抽出したマルチモーダル特徴を組み合わせる新しい手法を提案する。 深層学習モデルを用いてCTスキャンから定量的特徴を抽出する。 これらの特徴とEHRデータベースから直接読み取ったものを組み合わせて機械学習モデルに入力され、最終的には患者結果の確率が出力される。 この研究は、胸部CTスキャンの一般的な定量化に幅広いディープラーニング手法を適用する能力と、これらの定量的メトリクスを患者の結果にリンクする能力の両方を示す。 提案手法の有効性は, 内部キュレートされたデータセット上で検証し, ICUの入室予測における受信者動作特性曲線(AUC)平均面積0.77, 最高の動作分類器を用いた死亡予測平均AUC0.73を達成することにより示される。

The COVID-19 pandemic has had a considerable impact on day-to-day life. Tackling the disease by providing the necessary resources to the affected is of paramount importance. However, estimation of the required resources is not a trivial task given the number of factors which determine the requirement. This issue can be addressed by predicting the probability that an infected patient requires Intensive Care Unit (ICU) support and the importance of each of the factors that influence it. Moreover, to assist the doctors in determining the patients at high risk of fatality, the probability of death is also calculated. For determining both the patient outcomes (ICU admission and death), a novel methodology is proposed by combining multi-modal features, extracted from Computed Tomography (CT) scans and Electronic Health Record (EHR) data. Deep learning models are leveraged to extract quantitative features from CT scans. These features combined with those directly read from the EHR database are fed into machine learning models to eventually output the probabilities of patient outcomes. This work demonstrates both the ability to apply a broad set of deep learning methods for general quantification of Chest CT scans and the ability to link these quantitative metrics to patient outcomes. The effectiveness of the proposed method is shown by testing it on an internally curated dataset, achieving a mean area under Receiver operating characteristic curve (AUC) of 0.77 on ICU admission prediction and a mean AUC of 0.73 on death prediction using the best performing classifiers.
翻訳日:2022-05-12 20:29:15 公開日:2022-05-10
# 複数画像化のための変圧器の情報損失低減

Reduce Information Loss in Transformers for Pluralistic Image Inpainting ( http://arxiv.org/abs/2205.05076v1 )

ライセンス: Link先を確認
Qiankun Liu and Zhentao Tan and Dongdong Chen and Qi Chu and Xiyang Dai and Yinpeng Chen and Mengchen Liu and Lu Yuan and Nenghai Yu(参考訳) トランスフォーマーは最近、多元的イメージインペインティングで大きな成功を収めている。 しかし、既存のトランスフォーマーベースのソリューションは、各ピクセルをトークンとみなし、2つの側面からの情報損失問題に悩まされている。 1)入力画像をより低い解像度に分解し、効率を考慮し、情報損失とマスク領域の境界の余分なずれを生じさせる。 2) 256^3$ RGB ピクセルを小さな数(例えば 512 など)の量子化ピクセルに量子化する。 量子化された画素のインデックスは、トランスの入力と予測ターゲットのトークンとして使用される。 予備のcnnネットワークは低分解能な結果をアップサンプリングして洗練するために用いられるが、失われた情報を取り出すのが困難であり、入力情報を可能な限り保持するため、新しいトランスフォーマーベースのフレームワーク「put」を提案する。 具体的には、計算効率を維持しつつ入力ダウンサンプリングを回避するために、エンコーダがマスク画像を非オーバーラップパッチトークンに変換するパッチベースのオートエンコーダp-vqvaeを設計、デコーダは、未マスク領域を変更せずに、被写体トークンからマスク領域を回復する。 量子化による情報損失を解消するため、P-VQVAEエンコーダの機能を量子化せずに直接入力とし、量子化トークンを予測対象としてのみ考慮するUn-Quantized Transformer(UQ-Transformer)を適用する。 大規模な実験では、PUTは画像の忠実性、特に大きなマスキング領域や複雑な大規模データセットにおいて、最先端の手法を大幅に上回っている。

Transformers have achieved great success in pluralistic image inpainting recently. However, we find existing transformer based solutions regard each pixel as a token, thus suffer from information loss issue from two aspects: 1) They downsample the input image into much lower resolutions for efficiency consideration, incurring information loss and extra misalignment for the boundaries of masked regions. 2) They quantize $256^3$ RGB pixels to a small number (such as 512) of quantized pixels. The indices of quantized pixels are used as tokens for the inputs and prediction targets of transformer. Although an extra CNN network is used to upsample and refine the low-resolution results, it is difficult to retrieve the lost information back.To keep input information as much as possible, we propose a new transformer based framework "PUT". Specifically, to avoid input downsampling while maintaining the computation efficiency, we design a patch-based auto-encoder P-VQVAE, where the encoder converts the masked image into non-overlapped patch tokens and the decoder recovers the masked regions from inpainted tokens while keeping the unmasked regions unchanged. To eliminate the information loss caused by quantization, an Un-Quantized Transformer (UQ-Transformer) is applied, which directly takes the features from P-VQVAE encoder as input without quantization and regards the quantized tokens only as prediction targets. Extensive experiments show that PUT greatly outperforms state-of-the-art methods on image fidelity, especially for large masked regions and complex large-scale datasets.
翻訳日:2022-05-12 20:28:50 公開日:2022-05-10
# 順序交叉をもつ論理プログラムの強い等価性:論理的視点

Strong Equivalence of Logic Programs with Ordered Disjunction: a Logical Perspective ( http://arxiv.org/abs/2205.04882v1 )

ライセンス: Link先を確認
Angelos Charalambidis, Christos Nomikos, Panos Rondogiannis(参考訳) lpods (ordered disjunction) を持つ論理プログラムは、プログラムルールの先頭で優先的なディスジャンクションを表現する能力を持つ古典論理プログラムを拡張する。 LPODの最初の意味論は単純で直感的であるが、純粋にモデル理論ではない。 この結果、プログラムの特定の性質は純粋に論理的な用語で形式化する非自明なように見える。 この状態の例として、LPODの強い等価性の概念があげられる。 Faber et al. (2008) の結果は正確に開発されているが、ある特定の論理学における論理的等価性としてLPODの強い等価性を特徴づけるには不足している。 これは古典論理プログラムの強同値性のよく知られた特徴づけとは対照的であり、lifschitzら (2001) が証明したように、こことそこの論理の論理同値と一致する。 本稿では,4値論理の論理等価性としてLPODの強い等価性を純粋に論理的に評価する。 さらに,LPOD の強同値性に対する coNP-完全性 が新たに証明された。 本研究は,Charalambidis et al. (2021) が最近導入したLPODの論理的意味論に基づくものである。

Logic Programs with Ordered Disjunction (LPODs) extend classical logic programs with the capability of expressing preferential disjunctions in the heads of program rules. The initial semantics of LPODs, although simple and quite intuitive, is not purely model-theoretic. A consequence of this is that certain properties of programs appear non-trivial to formalize in purely logical terms. An example of this state of affairs is the characterization of the notion of strong equivalence for LPODs. Although the results of Faber et al. (2008) are accurately developed, they fall short of characterizing strong equivalence of LPODs as logical equivalence in some specific logic. This comes in sharp contrast with the well-known characterization of strong equivalence for classical logic programs, which, as proved by Lifschitz et al. (2001), coincides with logical equivalence in the logic of here-and-there. In this paper we obtain a purely logical characterization of strong equivalence of LPODs as logical equivalence in a four-valued logic. Moreover, we provide a new proof of the coNP-completeness of strong equivalence for LPODs, which has an interest in its own right since it relies on the special structure of such programs. Our results are based on the recent logical semantics of LPODs introduced by Charalambidis et al. (2021), a fact which we believe indicates that this new semantics may prove to be a useful tool in the further study of LPODs.
翻訳日:2022-05-12 20:04:21 公開日:2022-05-10
# 人間のAI意思決定における説明可能な人工知能の有用性に関するメタ分析

A Meta-Analysis on the Utility of Explainable Artificial Intelligence in Human-AI Decision-Making ( http://arxiv.org/abs/2205.05126v1 )

ライセンス: Link先を確認
Max Schemmer and Patrick Hemmer and Maximilian Nitsche and Niklas K\"uhl and Michael V\"ossing(参考訳) 人工知能(AI)を補助する意思決定の研究は、人間による意思決定のパフォーマンスに対する説明可能なAI(XAI)の分野からのテクニックによるAIの効果を評価する研究が、絶えず増えている。 しかし,タスクや実験的な設定が目的によって異なるため,XAIによるユーザ意思決定性能が向上した報告もある。 そこで本稿では, 統計的メタ分析を用いて既存のXAI研究の初期合成を行い, 既存の研究における意味を導出する。 xaiがユーザのパフォーマンスに与える影響を統計的に観察した。 さらに、最初の結果から、人間-AIによる意思決定がテキストデータ上でのタスクパフォーマンスを向上させることが示唆される。 しかし、単独のAI予測と比較して、説明がユーザーのパフォーマンスに与える影響は見つからない。 我々の最初の合成は、基礎となる原因を研究するための将来の研究をもたらし、説明の形で人間の意思決定者に効果的に利益をもたらすアルゴリズムの開発に寄与する。

Research in Artificial Intelligence (AI)-assisted decision-making is experiencing tremendous growth with a constantly rising number of studies evaluating the effect of AI with and without techniques from the field of explainable AI (XAI) on human decision-making performance. However, as tasks and experimental setups vary due to different objectives, some studies report improved user decision-making performance through XAI, while others report only negligible effects. Therefore, in this article, we present an initial synthesis of existing research on XAI studies using a statistical meta-analysis to derive implications across existing research. We observe a statistically positive impact of XAI on users' performance. Additionally, first results might indicate that human-AI decision-making yields better task performance on text data. However, we find no effect of explanations on users' performance compared to sole AI predictions. Our initial synthesis gives rise to future research to investigate the underlying causes as well as contribute to further development of algorithms that effectively benefit human decision-makers in the form of explanations.
翻訳日:2022-05-12 20:02:26 公開日:2022-05-10
# プロセス対応情報システムにおける予測コンプライアンスモニタリング:最先端技術,機能,研究方向

Predictive Compliance Monitoring in Process-Aware Information Systems: State of the Art, Functionalities, Research Directions ( http://arxiv.org/abs/2205.05446v1 )

ライセンス: Link先を確認
Stefanie Rinderle-Ma and Karolin Winter(参考訳) ビジネスプロセスのコンプライアンスはビジネスプロセス管理の重要な領域であり、プロセスが規制の制約やビジネスルールなどのコンプライアンスの制約に従うことを保証することを目的としています。 プロセスのコンプライアンスは、プロセスモデルの検証に基づくプロセス設計時間と、実行中のプロセスインスタンスのコンプライアンス状態の監視に基づく実行時にチェックできる。 既存のコンプライアンス監視アプローチでは、コンプライアンス違反を予測できるかどうかは不明だが、予測は準備と対策を取るために不可欠である。 この作業は、既存の文献をコンプライアンスとSLAの監視から分析し、予測プロセスの監視を行い、コンプライアンスの監視機能を更新したフレームワークを提供する。 コンプライアンス監視機能ごとに予測要件を導き出し、既存のアプローチでカバレッジを分析します。 この分析に基づいて、予測コンプライアンスとプロセス監視のためのオープンチャレンジと研究の方向性を詳述する。

Business process compliance is a key area of business process management and aims at ensuring that processes obey to compliance constraints such as regulatory constraints or business rules imposed on them. Process compliance can be checked during process design time based on verification of process models and at runtime based on monitoring the compliance states of running process instances. For existing compliance monitoring approaches it remains unclear whether and how compliance violations can be predicted, although predictions are crucial in order to prepare and take countermeasures in time. This work, hence, analyzes existing literature from compliance and SLA monitoring as well as predictive process monitoring and provides an updated framework of compliance monitoring functionalities. For each compliance monitoring functionality we elicit prediction requirements and analyze their coverage by existing approaches. Based on this analysis, open challenges and research directions for predictive compliance and process monitoring are elaborated.
翻訳日:2022-05-12 20:02:12 公開日:2022-05-10
# セパレータ・トランスデューサ・セグメンタ:マルチパーティ音声のストリーム認識とセグメンテーション

Separator-Transducer-Segmenter: Streaming Recognition and Segmentation of Multi-party Speech ( http://arxiv.org/abs/2205.05199v1 )

ライセンス: Link先を確認
Ilya Sklyar, Anna Piunova, Christian Osendorfer(参考訳) 重なり合う音声による多人数会話のストリーミング認識とセグメンテーションは、次世代音声アシスタントアプリケーションにとって不可欠である。 本研究では,従来のマルチターンリカレントニューラルネットワークトランスデューサ(MT-RNN-T)における課題に,音声分離,認識,セグメンテーションのより緊密な統合を可能にする新しいアプローチであるセパレータ-トランスデューサ-セグメンタ(STS)を用いて対処する。 まず,認識精度の低下を伴わずにセグメンテーションを改善するための,ターン開始とターン終了のトークンによる新しいセグメンテーションモデリング手法を提案する。 第2に,エミッション正規化法,ファシミット法,および音声活動情報を付加訓練信号とするマルチタスクトレーニングにより,音声認識とセグメンテーションの精度をさらに向上させる。 第3に、各話者ターンにおける終端検出を改善するために、終端発光遅延ペナルティを実験した。 最後に,エミッションレイテンシ指標による多人数会話のセグメンテーション分析のための新しいフレームワークを構築した。 ベストモデルでは4.6%のabsを報告します。 ターンカウント精度の向上と17%のrel。 ワードエラー率(WER)は、以前公開された作業と比較して、LibriCSSデータセットで改善されている。

Streaming recognition and segmentation of multi-party conversations with overlapping speech is crucial for the next generation of voice assistant applications. In this work we address its challenges discovered in the previous work on multi-turn recurrent neural network transducer (MT-RNN-T) with a novel approach, separator-transducer-segmenter (STS), that enables tighter integration of speech separation, recognition and segmentation in a single model. First, we propose a new segmentation modeling strategy through start-of-turn and end-of-turn tokens that improves segmentation without recognition accuracy degradation. Second, we further improve both speech recognition and segmentation accuracy through an emission regularization method, FastEmit, and multi-task training with speech activity information as an additional training signal. Third, we experiment with end-of-turn emission latency penalty to improve end-point detection for each speaker turn. Finally, we establish a novel framework for segmentation analysis of multi-party conversations through emission latency metrics. With our best model, we report 4.6% abs. turn counting accuracy improvement and 17% rel. word error rate (WER) improvement on LibriCSS dataset compared to the previously published work.
翻訳日:2022-05-12 20:01:32 公開日:2022-05-10
# 特徴量を用いたOCT画像における微小動脈瘤の自動検出

Automatic Detection of Microaneurysms in OCT Images Using Bag of Features ( http://arxiv.org/abs/2205.04695v1 )

ライセンス: Link先を確認
Elahe Sadat Kazemi Nasab, Ramin Almasi, Bijan Shoushtarian, Ehsan Golkar, Hossein Rabbani(参考訳) 糖尿病による糖尿病網膜症(DR)は網膜血管の変化によって発生し、視覚障害を引き起こす。 Microaneurysms (MAs) はDRの早期臨床症状であり、時間的診断はDRの発達の初期段階における検出に有効である。 光コヒーレンス断層撮影(oct)は非侵襲的イメージング技術であり、網膜の断面像を提供しており、近年では多くの眼疾患の診断に使用されている。 そこで本研究では,OCT画像を用いて網膜の正常領域からMA領域を同定する試みを行った。 本研究は, DR患者20例の FA および OCT 画像から収集したデータセットを用いて行われ, はじめに FA と OCT 画像が登録された。 そして,ma領域と正規領域を分離し,これらの領域の特徴をshr(speeded up robust feature)ディスクリプタを用いたbag of features (bof) アプローチで抽出した。 最後に,多層パーセプトロンネットワークを用いて分類処理を行った。 精度,感度,特異度,精度の基準はそれぞれ96.33%,97.33%,95.4%,95.28%であった。 oct画像を用いた自動検出は新しいアイデアであり,本分野における予備研究として得られた結果は有望である。

Diabetic Retinopathy (DR) caused by diabetes occurs as a result of changes in the retinal vessels and causes visual impairment. Microaneurysms (MAs) are the early clinical signs of DR, whose timely diagnosis can help detecting DR in the early stages of its development. It has been observed that MAs are more common in the inner retinal layers compared to the outer retinal layers in eyes suffering from DR. Optical Coherence Tomography (OCT) is a noninvasive imaging technique that provides a cross-sectional view of the retina and it has been used in recent years to diagnose many eye diseases. As a result, in this paper has attempted to identify areas with MA from normal areas of the retina using OCT images. This work is done using the dataset collected from FA and OCT images of 20 patients with DR. In this regard, firstly Fluorescein Angiography (FA) and OCT images were registered. Then the MA and normal areas were separated and the features of each of these areas were extracted using the Bag of Features (BOF) approach with Speeded-Up Robust Feature (SURF) descriptor. Finally, the classification process was performed using a multilayer perceptron network. For each of the criteria of accuracy, sensitivity, specificity, and precision, the obtained results were 96.33%, 97.33%, 95.4%, and 95.28%, respectively. Utilizing OCT images to detect MAsautomatically is a new idea and the results obtained as preliminary research in this field are promising .
翻訳日:2022-05-12 19:58:56 公開日:2022-05-10
# 可変安定化と多周波デノナイジングネットワークによる効率的なバーストローデノナイジング

Efficient Burst Raw Denoising with Variance Stabilization and Multi-frequency Denoising Network ( http://arxiv.org/abs/2205.04721v1 )

ライセンス: Link先を確認
Dasong Li, Yi Zhang, Ka Lung Law, Xiaogang Wang, Hongwei Qin and Hongsheng Li(参考訳) スマートフォンの人気が高まる中、高品質な画像の撮影はスマートフォンにとって極めて重要である。 スマートフォンのカメラは、小さな開口部と小さなセンサーセルを持ち、低光環境でノイズの多い画像に繋がる。 複数のフレームのバーストに基づくデノイングは、一般に単一フレームのデノーミングよりも優れるが、計算コストが大きい。 本稿では,効率的なバースト除算システムを提案する。 我々は,ノイズ優先統合,マルチフレームアライメント,マルチフレームデノイジングという3段階設計を採用している。 まず,生信号の前処理による雑音を分散安定化空間に統合することで,小型ネットワークによる競合性能の実現を可能にする。 第2に,バーストのアライメントに明示的なアライメントを適用することが不可欠であるが,マルチフレームアライメントを実現するために学習に基づく手法を統合する必要はない。 代わりに、従来の効率的なアライメント手法を頼りに、マルチフレームの分別ネットワークと組み合わせます。 最後に,複数のフレームを順次処理するデノイジング戦略を提案する。 シーケンシャル・デノナイジングは、複数の効率的なサブネットワーク・デノナイジングに分解することで、多数のフレームのフィルタリングを避ける。 各サブネットワークについて,異なる周波数のノイズを除去できる効率的なマルチ周波数デノージングネットワークを提案する。 私たちの3段階設計は効率的で、バーストデノイングで強い性能を示す。 合成および実生データセットの実験により,本手法は最先端の手法よりも高い性能を示し,計算コストを低減した。 さらに、低複雑性と高品質なパフォーマンスにより、スマートフォンへのデプロイが可能になる。

With the growing popularity of smartphones, capturing high-quality images is of vital importance to smartphones. The cameras of smartphones have small apertures and small sensor cells, which lead to the noisy images in low light environment. Denoising based on a burst of multiple frames generally outperforms single frame denoising but with the larger compututional cost. In this paper, we propose an efficient yet effective burst denoising system. We adopt a three-stage design: noise prior integration, multi-frame alignment and multi-frame denoising. First, we integrate noise prior by pre-processing raw signals into a variance-stabilization space, which allows using a small-scale network to achieve competitive performance. Second, we observe that it is essential to adopt an explicit alignment for burst denoising, but it is not necessary to integrate a learning-based method to perform multi-frame alignment. Instead, we resort to a conventional and efficient alignment method and combine it with our multi-frame denoising network. At last, we propose a denoising strategy that processes multiple frames sequentially. Sequential denoising avoids filtering a large number of frames by decomposing multiple frames denoising into several efficient sub-network denoising. As for each sub-network, we propose an efficient multi-frequency denoising network to remove noise of different frequencies. Our three-stage design is efficient and shows strong performance on burst denoising. Experiments on synthetic and real raw datasets demonstrate that our method outperforms state-of-the-art methods, with less computational cost. Furthermore, the low complexity and high-quality performance make deployment on smartphones possible.
翻訳日:2022-05-12 19:58:29 公開日:2022-05-10
# 野生における動的顔表情認識のための時空間変換器

Spatio-Temporal Transformer for Dynamic Facial Expression Recognition in the Wild ( http://arxiv.org/abs/2205.04749v1 )

ライセンス: Link先を確認
Fuyan Ma, Bin Sun, Shutao Li(参考訳) 野生での動的表情の手法は、主に畳み込みニューラルネットワーク(cnns)に基づいており、ローカル操作はビデオの長距離依存性を無視している。 この問題を解決するために,各フレーム内の識別特徴を抽出し,フレーム間の文脈関係をモデル化する時空間変換器(STT)を提案する。 時空間依存は、我々の統一トランスフォーマによってキャプチャされ、統合されます。 具体的には、複数のフレームからなる画像シーケンスを入力として、CNNバックボーンを用いて各フレームを視覚的特徴シーケンスに変換する。 その後、各ブロック内の空間的注意と時間的注意を、シーケンスレベルでの時空間表現の学習に併用する。 さらに, 最小クラス間距離と最大クラス間距離を有する学習特徴をさらに促進するために, コンパクトなソフトマックスクロスエントロピー損失を提案する。 DFEW と AFEW の2つの動的表情データセットの実験により,動的表情認識のための空間的および時間的依存関係を効果的に活用する方法が示唆された。 ソースコードとトレーニングログは公開される予定だ。

Previous methods for dynamic facial expression in the wild are mainly based on Convolutional Neural Networks (CNNs), whose local operations ignore the long-range dependencies in videos. To solve this problem, we propose the spatio-temporal Transformer (STT) to capture discriminative features within each frame and model contextual relationships among frames. Spatio-temporal dependencies are captured and integrated by our unified Transformer. Specifically, given an image sequence consisting of multiple frames as input, we utilize the CNN backbone to translate each frame into a visual feature sequence. Subsequently, the spatial attention and the temporal attention within each block are jointly applied for learning spatio-temporal representations at the sequence level. In addition, we propose the compact softmax cross entropy loss to further encourage the learned features have the minimum intra-class distance and the maximum inter-class distance. Experiments on two in-the-wild dynamic facial expression datasets (i.e., DFEW and AFEW) indicate that our method provides an effective way to make use of the spatial and temporal dependencies for dynamic facial expression recognition. The source code and the training logs will be made publicly available.
翻訳日:2022-05-12 19:58:06 公開日:2022-05-10
# ランドマーク適応ベース上の関数写像による非等角形状マッチング

Non-Isometric Shape Matching via Functional Maps on Landmark-Adapted Bases ( http://arxiv.org/abs/2205.04800v1 )

ライセンス: Link先を確認
Mikhail Panine, Maxime Kirgo and Maks Ovsjanikov(参考訳) 非等方的ランドマーク保存型非剛体形状マッチングの原理的手法を提案する。 提案手法は関数型マップの枠組みに基づいているが,その代わりにランドマークを正確に保存する近等角写像に注目する。 まず、本質的なdirichlet-steklov eigenproblemを用いて、新しいランドマーク対応基底を導入する。 第二に、この基底で表される共形写像の関数分解を確立する。 最後に,高品質なランドマーク保存マップを促進する共形不変エネルギーを定式化し,最近提案するズームアウト方式の変種を用いてその解法を示す。 この手法はディスクリプタフリーで効率良く,重要なメッシュ変動にロバストである。 我々は,様々なベンチマークデータセットに対するアプローチを評価し,非等尺ベンチマークにおける最先端性能と等尺ベンチマークにおける最先端性能を実証する。

We propose a principled approach for non-isometric landmark-preserving non-rigid shape matching. Our method is based on the functional maps framework, but rather than promoting isometries we focus instead on near-conformal maps that preserve landmarks exactly. We achieve this, first, by introducing a novel landmark-adapted basis using an intrinsic Dirichlet-Steklov eigenproblem. Second, we establish the functional decomposition of conformal maps expressed in this basis. Finally, we formulate a conformally-invariant energy that promotes high-quality landmark-preserving maps, and show how it can be solved via a variant of the recently proposed ZoomOut method that we extend to our setting. Our method is descriptor-free, efficient and robust to significant mesh variability. We evaluate our approach on a range of benchmark datasets and demonstrate state-of-the-art performance on non-isometric benchmarks and near state-of-the-art performance on isometric ones.
翻訳日:2022-05-12 19:57:47 公開日:2022-05-10
# 空間ラドン変換, 特性と画像再構成について

On Scale Space Radon Transform, Properties and Image Reconstruction ( http://arxiv.org/abs/2205.05188v1 )

ライセンス: Link先を確認
Nafaa Nacereddine, Djemel Ziou, Aicha Baya Goumeidane(参考訳) 数学的な変換が持つべきスケール空間における良い振る舞いの重要性に留意して,本論文では,スケール空間ラドン変換(SSRT)の基本特性と逆変換について述べる。 ssrtシンノグラムから画像を再構成するために、フィルタ付きバックプロジェクション(fbp)技術は、(1)推定ラドン変換(rt)を得るためにssrtを縮退させ、(2)古典ラドン変換(rt)を得るか、または(2)古典ラドン投影スペクトルを周波数領域で表現されたssrtとウィナーフィルタリングに置き換えるようにfbp技術をssrtに適合させる。 Shepp-Loganヘッドファントム画像上で,SSRTとRTを用いた画像再構成技術の比較を行った。 画像再構成品質尺度として平均絶対誤差(mae)を用い,rtベースに比べてssrtベースの画像再構成技術に優れた性能を示す。 さらに、この方法(2)は、かなり大きなガウス核を使用する場合の高レベルのノイズに対する計算時間および適応性の観点から、(1)よりも優れる。

Aware of the importance of the good behavior in the scale space that a mathematical transform must have, we depict, in this paper, the basic properties and the inverse transform of the Scale Space Radon Transform (SSRT). To reconstruct the image from SSRT sinogram, the Filtered backprojection (FBP) technique is used in two different ways: (1) Deconvolve SSRT to obtain the estimated Radon transform (RT) and then, reconstruct image using classical FBP or (2) Adapt FBP technique to SSRT so that the Radon projections spectrum used in classical FBP is replaced by SSRT and Wiener filtering, expressed in the frequency domain. Comparison of image reconstruction techniques using SSRT and RT are performed on Shepp-Logan head phantom image. Using the Mean Absolute Error (MAE) as image reconstruction quality measure, the preliminary results present an outstanding performance for SSRT-based image reconstruction techniques compared to the RT-based one. Furthermore, the method (2) outperforms the method (1) in terms of computation time and adaptability for high level of noise when fairly large Gaussian kernel is used.
翻訳日:2022-05-12 19:36:58 公開日:2022-05-10
# 蒸留から硬度負サンプリングへ:スパークニューラルIRモデルをより効果的に

From Distillation to Hard Negative Sampling: Making Sparse Neural IR Models More Effective ( http://arxiv.org/abs/2205.04733v1 )

ライセンス: Link先を確認
Thibault Formal, Carlos Lassance, Benjamin Piwowarski, St\'ephane Clinchant(参考訳) Approximate Nearest Neighborsサーチと組み合わせた高密度表現に基づくニューラルレトリバーは、蒸留の成功とトレーニングのサンプルのより優れたサンプリングにより、最近多くの注目を集めているが、それでも同じバックボーンアーキテクチャに依存している。 その間、伝統的な逆インデックス技術によって引き起こされたスパース表現学習は、明示的な語彙マッチングのような望ましいir優先から受け継がれている。 いくつかのアーキテクチャの変種が提案されているが、そのようなモデルの訓練にはより少ない労力が費やされている。 本研究では, 希薄な膨張型レトリバーであるSPLADEを用いて, 蒸留, 硬負マイニング, および事前学習言語モデルの初期化の効果について検討することにより, 密集モデルと同等のトレーニング改善の恩恵を受けることができるかを示す。 さらに、ドメイン内およびゼロショット設定における効率性と効率の関係について検討し、十分な表現力のあるモデルにおける両方のシナリオにおける最先端の結果をもたらす。

Neural retrievers based on dense representations combined with Approximate Nearest Neighbors search have recently received a lot of attention, owing their success to distillation and/or better sampling of examples for training -- while still relying on the same backbone architecture. In the meantime, sparse representation learning fueled by traditional inverted indexing techniques has seen a growing interest, inheriting from desirable IR priors such as explicit lexical matching. While some architectural variants have been proposed, a lesser effort has been put in the training of such models. In this work, we build on SPLADE -- a sparse expansion-based retriever -- and show to which extent it is able to benefit from the same training improvements as dense models, by studying the effect of distillation, hard-negative mining as well as the Pre-trained Language Model initialization. We furthermore study the link between effectiveness and efficiency, on in-domain and zero-shot settings, leading to state-of-the-art results in both scenarios for sufficiently expressive models.
翻訳日:2022-05-12 19:32:34 公開日:2022-05-10
# 擬似深部ニューラルネットワークのロバスト学習

Robust Learning of Parsimonious Deep Neural Networks ( http://arxiv.org/abs/2205.04650v1 )

ライセンス: Link先を確認
Valentin Frank Ingmar Guenter and Athanasios Sideris(参考訳) トレーニングの初期段階において,ニューラルネットワークの無関係構造を識別・排除できる同時学習および刈り取りアルゴリズムを提案する。 したがって、後続のトレーニングイテレーションの計算コストは推論の計算コストよりも大幅に削減される。 本手法は,変分推論の原理に基づき,適応ドロップアウトと同様にユニット/フィルタを乗算するベルヌーイ確率変数の後方分布を学習する。 我々は、ベルヌーイパラメータが決定論的最終ネットワークを確立する0または1に実質的に収束する方法で、その最適選択に不可欠な、事前パラメータ上の新しい超優先分布を導出する。 本アルゴリズムは,重み初期化や開始ネットワークの大きさに関わらず,一貫したプルーニングレベルと予測精度を実現するという意味で頑健である。 理論的および実用的な刈り取り条件を確立するための収束特性の解析を行う。 我々は,提案アルゴリズムをMNISTデータセット上で評価し,完全連結型および畳み込み型LeNetアーキテクチャを用いた。 シミュレーションにより, ネットワークの初期化や初期サイズに関して, より優れたテスト精度を維持しつつ, 構造化プルーニングの最先端手法と同等のプルーニングレベルを達成できることが示唆された。

We propose a simultaneous learning and pruning algorithm capable of identifying and eliminating irrelevant structures in a neural network during the early stages of training. Thus, the computational cost of subsequent training iterations, besides that of inference, is considerably reduced. Our method, based on variational inference principles, learns the posterior distribution of Bernoulli random variables multiplying the units/filters similarly to adaptive dropout. We derive a novel hyper-prior distribution over the prior parameters that is crucial for their optimal selection in a way that the Bernoulli parameters practically converge to either 0 or 1 establishing a deterministic final network. Our algorithm is robust in the sense that it achieves consistent pruning levels and prediction accuracy regardless of weight initialization or the size of the starting network. We provide an analysis of its convergence properties establishing theoretical and practical pruning conditions. We evaluate the proposed algorithm on the MNIST data set and commonly used fully connected and convolutional LeNet architectures. The simulations show that our method achieves pruning levels on par with state-of the-art methods for structured pruning, while maintaining better test-accuracy and more importantly in a manner robust with respect to network initialization and initial size.
翻訳日:2022-05-12 19:30:49 公開日:2022-05-10
# 動的学習グラフ畳み込み機構に基づく時空間交通流予測モデル

A spatial-temporal short-term traffic flow prediction model based on dynamical-learning graph convolution mechanism ( http://arxiv.org/abs/2205.04762v1 )

ライセンス: Link先を確認
Zhijun Chen (1), Zhe Lu (2), Qiushi Chen (3), Hongliang Zhong (3), Yishi Zhang (4), Jie Xue (5), Chaozhong Wu (1) ((1) Intelligent Transportation Systems Research Center, Wuhan University of Technology, Wuhan, China, (2) School of Transportation and Logistics Engineering, Wuhan University of Technology, Wuhan, China, (3) School of Computer Science and Technology, Wuhan University of Technology, Wuhan, China, (4) School of Management, Wuhan University of Technology, Wuhan, China, (5) Faculty of Technology, Policy and Management, Safety and Security Science Group (S3G), Delft University of Technology, Delft, The Netherlands)(参考訳) 短期交通流予測は知的交通システム(ITS)の重要な分岐であり、交通管理において重要な役割を果たしている。 グラフ畳み込みネットワーク(GCN)は道路網のグラフィカルな構造データを扱うために交通予測モデルで広く利用されている。 しかし、異なる道路区間における影響重みは、実生活では通常異なり、手動で解析することは困難である。 従来のGCNメカニズムは手動で設定された隣接行列に依存しており、トレーニング中にそのような空間パターンを動的に学習することはできない。 そこで本研究では,新しい位置グラフ畳み込みネットワーク(Location-GCN)を提案する。 ロケーションGCNはGCN機構に新たな学習可能な行列を追加し、この行列の絶対値を用いて異なるノード間の異なる影響レベルを表現することでこの問題を解決する。 次に、提案した交通予測モデルにおいて、長短期記憶(LSTM)を用いる。 さらに, 三角関数符号化を用いて, 短期入力シーケンスが長期周期情報を伝達できるようにする。 最終的に、提案モデルはベースラインモデルと比較され、2つの実単語トラフィックフローデータセットで評価される。 その結果,我々のモデルは,他の代表的な交通予測モデルよりも正確で堅牢であることがわかった。

Short-term traffic flow prediction is a vital branch of the Intelligent Traffic System (ITS) and plays an important role in traffic management. Graph convolution network (GCN) is widely used in traffic prediction models to better deal with the graphical structure data of road networks. However, the influence weights among different road sections are usually distinct in real life, and hard to be manually analyzed. Traditional GCN mechanism, relying on manually-set adjacency matrix, is unable to dynamically learn such spatial pattern during the training. To deal with this drawback, this paper proposes a novel location graph convolutional network (Location-GCN). Location-GCN solves this problem by adding a new learnable matrix into the GCN mechanism, using the absolute value of this matrix to represent the distinct influence levels among different nodes. Then, long short-term memory (LSTM) is employed in the proposed traffic prediction model. Moreover, Trigonometric function encoding is used in this study to enable the short-term input sequence to convey the long-term periodical information. Ultimately, the proposed model is compared with the baseline models and evaluated on two real word traffic flow datasets. The results show our model is more accurate and robust on both datasets than other representative traffic prediction models.
翻訳日:2022-05-12 19:30:30 公開日:2022-05-10
# リコンストラクションによる多視点コントラスト学習による属性付きネットワーク上の異常検出

Reconstruction Enhanced Multi-View Contrastive Learning for Anomaly Detection on Attributed Networks ( http://arxiv.org/abs/2205.04816v1 )

ライセンス: Link先を確認
Jiaqiang Zhang, Senzhang Wang, Songcan Chen(参考訳) 属性ネットワークから異常ノードを検出することは、金融詐欺検出やサイバーセキュリティなど、多くの実アプリケーションにおいて非常に重要である。 このタスクは、異常ノードと他のノードとの複雑な相互作用と、属性の点での不整合の両方のために困難である。 本稿では,マルチビューコントラスト学習ベースモジュールと属性再構成ベースモジュールを併用して,属性ネットワーク上の異常をより正確に検出する自己教師型学習フレームワークを提案する。 具体的には、2つの対比学習ビューがまず確立され、モデルが異常に関連するリッチな局所的およびグローバルな情報をより良くエンコードできるようになる。 隣接するノード間の属性整合性原理により、マスク付きオートエンコーダベースの再構成モジュールも導入され、大規模な再構成エラーを持つノードを識別し、異常と見なされる。 最後に、2つの補完モジュールを統合し、異常ノードをより正確に検出する。 5つのベンチマークデータセットで広範な実験を行った結果、現在の最先端モデルよりも優れた結果が得られた。

Detecting abnormal nodes from attributed networks is of great importance in many real applications, such as financial fraud detection and cyber security. This task is challenging due to both the complex interactions between the anomalous nodes with other counterparts and their inconsistency in terms of attributes. This paper proposes a self-supervised learning framework that jointly optimizes a multi-view contrastive learning-based module and an attribute reconstruction-based module to more accurately detect anomalies on attributed networks. Specifically, two contrastive learning views are firstly established, which allow the model to better encode rich local and global information related to the abnormality. Motivated by the attribute consistency principle between neighboring nodes, a masked autoencoder-based reconstruction module is also introduced to identify the nodes which have large reconstruction errors, then are regarded as anomalies. Finally, the two complementary modules are integrated for more accurately detecting the anomalous nodes. Extensive experiments conducted on five benchmark datasets show our model outperforms current state-of-the-art models.
翻訳日:2022-05-12 19:30:11 公開日:2022-05-10
# thor: 順序回帰におけるしきい値に基づくランキング損失

THOR: Threshold-Based Ranking Loss for Ordinal Regression ( http://arxiv.org/abs/2205.04864v1 )

ライセンス: Link先を確認
Tzeviya Sylvia Fuchs and Joseph Keshet(参考訳) 本研究では,インスタンスを順序カテゴリーに分類するための回帰に基づく順序回帰アルゴリズムを提案する。 従来の手法とは対照的に、この研究ではカテゴリ間の決定境界は事前に定義され、アルゴリズムはこれらの事前定義された境界に従って入力サンプルを適切なスコアに投影する。 これは、回帰誤差を最小化し、平均絶対誤差(MAE)を最小化する、新しいしきい値に基づくペアワイズ損失関数を追加することで達成される。 特徴抽出のためのCNNフレームワークを用いて,提案手法を実装した。 5つの実世界のベンチマーク実験の結果から,提案アルゴリズムが最先端の順序回帰アルゴリズムと比較して最高のmae結果が得られることが示された。

In this work, we present a regression-based ordinal regression algorithm for supervised classification of instances into ordinal categories. In contrast to previous methods, in this work the decision boundaries between categories are predefined, and the algorithm learns to project the input examples onto their appropriate scores according to these predefined boundaries. This is achieved by adding a novel threshold-based pairwise loss function that aims at minimizing the regression error, which in turn minimizes the Mean Absolute Error (MAE) measure. We implemented our proposed architecture-agnostic method using the CNN-framework for feature extraction. Experimental results on five real-world benchmarks demonstrate that the proposed algorithm achieves the best MAE results compared to state-of-the-art ordinal regression algorithms.
翻訳日:2022-05-12 19:29:53 公開日:2022-05-10
# 相互情報最大化と混合モデルによるディープグラフクラスタリング

Deep Graph Clustering via Mutual Information Maximization and Mixture Model ( http://arxiv.org/abs/2205.05168v1 )

ライセンス: Link先を確認
Maedeh Ahmadi, Mehran Safayani, Abdolreza Mirzaei(参考訳) グラフ分析において、グラフのノードをクラスタ化することを学ぶグラフクラスタリングやコミュニティ検出は難しい課題である。 本稿では,クラスタリングにやさしいノード組込み学習のためのコントラスト学習フレームワークを提案する。 グラフの対比学習は、自己教師付きグラフ学習において優れた性能を示しているが、グラフクラスタリングには使用されていない。 ノード埋め込みにおける相互情報最大化手法を用いたガウス混合情報最大化(GMIM)を提案する。 一方、表現空間はガウス分布(MoG)の混合に従うと仮定する。 私たちの目的のクラスタリング部分は、ガウス分布を各コミュニティに適合させようとしています。 ノード埋め込みは、統一されたフレームワークでMoGのパラメータと共同最適化される。 実世界のデータセットを用いた実験は,コミュニティ検出における手法の有効性を示す。

Attributed graph clustering or community detection which learns to cluster the nodes of a graph is a challenging task in graph analysis. In this paper, we introduce a contrastive learning framework for learning clustering-friendly node embedding. Although graph contrastive learning has shown outstanding performance in self-supervised graph learning, using it for graph clustering is not well explored. We propose Gaussian mixture information maximization (GMIM) which utilizes a mutual information maximization approach for node embedding. Meanwhile, it assumes that the representation space follows a Mixture of Gaussians (MoG) distribution. The clustering part of our objective tries to fit a Gaussian distribution to each community. The node embedding is jointly optimized with the parameters of MoG in a unified framework. Experiments on real-world datasets demonstrate the effectiveness of our method in community detection.
翻訳日:2022-05-12 19:27:58 公開日:2022-05-10
# 畳み込みエンコーダ/デコーダネットワークにおける多重忠実データ融合

Multifidelity data fusion in convolutional encoder/decoder networks ( http://arxiv.org/abs/2205.05187v1 )

ライセンス: Link先を確認
Lauren Partin, Gianluca Geraci, Ahmad Rushdi, Michael S. Eldred and Daniele E. Schiavazzi(参考訳) 我々は、エンコーダ、デコーダ、スキップ接続から組み立てられた畳み込みニューラルネットワークの回帰精度を分析し、多要素データを用いて訓練した。 等価な完全連結ネットワーク、エンコーダ、デコーダ、エンコーダ・デコーダ、デコーダ・エンコーダのアーキテクチャでは、入力から任意の次元の出力へのマッピングを学ぶことができる。 1次元関数から2次元のポアソン方程式解法まで,いくつかの高忠実度および低忠実度データを用いて,その精度を示す。 最終的にモンテカルロ・ドロップブロックが生成した不確実性推定の信頼性を向上する多くの実装選択について議論し、低、高、多忠実性アプローチにおける不確実性推定を比較する。

We analyze the regression accuracy of convolutional neural networks assembled from encoders, decoders and skip connections and trained with multifidelity data. Besides requiring significantly less trainable parameters than equivalent fully connected networks, encoder, decoder, encoder-decoder or decoder-encoder architectures can learn the mapping between inputs to outputs of arbitrary dimensionality. We demonstrate their accuracy when trained on a few high-fidelity and many low-fidelity data generated from models ranging from one-dimensional functions to Poisson equation solvers in two-dimensions. We finally discuss a number of implementation choices that improve the reliability of the uncertainty estimates generated by Monte Carlo DropBlocks, and compare uncertainty estimates among low-, high- and multifidelity approaches.
翻訳日:2022-05-12 19:27:47 公開日:2022-05-10
# unimorph 4.0:ユニバーサルモルフォロジー

UniMorph 4.0: Universal Morphology ( http://arxiv.org/abs/2205.03608v2 )

ライセンス: Link先を確認
Khuyagbaatar Batsuren, Omer Goldman, Salam Khalifa, Nizar Habash, Witold Kiera\'s, G\'abor Bella, Brian Leonard, Garrett Nicolai, Kyle Gorman, Yustinus Ghanggo Ate, Maria Ryskina, Sabrina J. Mielke, Elena Budianskaya, Charbel El-Khaissi, Tiago Pimentel, Michael Gasser, William Lane, Mohit Raj, Matt Coler, Jaime Rafael Montoya Samame, Delio Siticonatzi Camaiteri, Esa\'u Zumaeta Rojas, Didier L\'opez Francis, Arturo Oncevay, Juan L\'opez Bautista, Gema Celeste Silva Villegas, Lucas Torroba Hennigen, Adam Ek, David Guriel, Peter Dirix, Jean-Philippe Bernardy, Andrey Scherbakov, Aziyana Bayyr-ool, Antonios Anastasopoulos, Roberto Zariquiey, Karina Sheifer, Sofya Ganieva, Hilaria Cruz, Ritv\'an Karah\'o\v{g}a, Stella Markantonatou, George Pavlidis, Matvey Plugaryov, Elena Klyachko, Ali Salehi, Candy Angulo, Jatayu Baxi, Andrew Krizhanovsky, Natalia Krizhanovskaya, Elizabeth Salesky, Clara Vania, Sardana Ivanova, Jennifer White, Rowan Hall Maudslay, Josef Valvoda, Ran Zmigrod, Paula Czarnowska, Irene Nikkarinen, Aelita Salchak, Brijesh Bhatt, Christopher Straughn, Zoey Liu, Jonathan North Washington, Yuval Pinter, Duygu Ataman, Marcin Wolinski, Totok Suhardijanto, Anna Yablonskaya, Niklas Stoehr, Hossep Dolatian, Zahroh Nuriah, Shyam Ratan, Francis M. Tyers, Edoardo M. Ponti, Grant Aiton, Aryaman Arora, Richard J. Hatcher, Ritesh Kumar, Jeremiah Young, Daria Rodionova, Anastasia Yemelina, Taras Andrushko, Igor Marchenko, Polina Mashkovtseva, Alexandra Serova, Emily Prud'hommeaux, Maria Nepomniashchaya, Fausto Giunchiglia, Eleanor Chodroff, Mans Hulden, Miikka Silfverberg, Arya D. McCarthy, David Yarowsky, Ryan Cotterell, Reut Tsarfaty, Ekaterina Vylomova(参考訳) ユニモルフィック・モルフォロジー(unimorph)プロジェクトは、数百の多種多様な世界言語に広範に一般化された正規化形態素変換テーブルを提供する協力的な取り組みである。 リッチな形態素アノテーションのための言語に依存しない機能スキーマと、そのスキーマを実現する多様な言語におけるアノテーション付きデータのタイプレベルのリソースである。 本稿では,過去2年間のいくつかの分野(mccarthy et al. (2020)以降)における拡張と改善について述べる。 多くの言語学者による協力活動により、30の絶滅危惧言語を含む67の新しい言語が追加された。 性別やマクロンなどの問題に対処するために,抽出パイプラインにいくつかの改良を加えてきた。 また、スキーマをより包括的にするために、いくつかの欠落した形態的特徴を加えながら、多重議論やケース積み重ねのような形態的現象に必要となる階層構造を使用するようにスキーマを修正した。 前回のUniMorphリリースに合わせて,16言語で形態素セグメンテーションを施したデータベースも拡張した。 最後に、この新リリースは、データとアノテーションスキーマをMorphyNetから派生プロセスを表すインスタンスで強化することにより、UniMorphに派生形態を取り入れることを推進する。

The Universal Morphology (UniMorph) project is a collaborative effort providing broad-coverage instantiated normalized morphological inflection tables for hundreds of diverse world languages. The project comprises two major thrusts: a language-independent feature schema for rich morphological annotation and a type-level resource of annotated data in diverse languages realizing that schema. This paper presents the expansions and improvements made on several fronts over the last couple of years (since McCarthy et al. (2020)). Collaborative efforts by numerous linguists have added 67 new languages, including 30 endangered languages. We have implemented several improvements to the extraction pipeline to tackle some issues, e.g. missing gender and macron information. We have also amended the schema to use a hierarchical structure that is needed for morphological phenomena like multiple-argument agreement and case stacking, while adding some missing morphological features to make the schema more inclusive. In light of the last UniMorph release, we also augmented the database with morpheme segmentation for 16 languages. Lastly, this new release makes a push towards inclusion of derivational morphology in UniMorph by enriching the data and annotation schema with instances representing derivational processes from MorphyNet.
翻訳日:2022-05-12 18:54:16 公開日:2022-05-10
# ニューラルネットワーク翻訳のためのスケジューリングマルチタスク学習

Scheduled Multi-task Learning for Neural Chat Translation ( http://arxiv.org/abs/2205.03766v2 )

ライセンス: Link先を確認
Yunlong Liang, Fandong Meng, Jinan Xu, Yufeng Chen and Jie Zhou(参考訳) Neural Chat Translation (NCT)は、会話テキストをさまざまな言語に翻訳することを目的としている。 既存の手法は主に多言語対話の特徴(例えばコヒーレンス)をモデル化し、小規模チャット翻訳データを用いたマルチタスク学習によるチャット翻訳を改善することに焦点を当てている。 NCTモデルは目覚ましい成功を収めているが、チャット翻訳データや単純な共同学習方法が不十分なため、まだ十分ではない。 上記の課題に対処するため,NCTのためのマルチタスク学習フレームワークを提案する。 具体的には,最初の事前学習段階と微調整段階の間に第2の事前学習段階を追加することにより,大規模ドメイン内チャット翻訳データをトレーニングに組み込むための3段階学習フレームワークを考案する。 さらに,複数の訓練段階における対話関連補助タスクのスケジュールについて検討し,主要なチャット翻訳タスクを効果的に強化する。 4つの言語方向(英語と中国語とドイツ語)における広範囲な実験は、提案手法の有効性と優位性を検証する。 また,本研究のコミュニティでは,多言語多言語対話データセットを広く公開している。

Neural Chat Translation (NCT) aims to translate conversational text into different languages. Existing methods mainly focus on modeling the bilingual dialogue characteristics (e.g., coherence) to improve chat translation via multi-task learning on small-scale chat translation data. Although the NCT models have achieved impressive success, it is still far from satisfactory due to insufficient chat translation data and simple joint training manners. To address the above issues, we propose a scheduled multi-task learning framework for NCT. Specifically, we devise a three-stage training framework to incorporate the large-scale in-domain chat translation data into training by adding a second pre-training stage between the original pre-training and fine-tuning stages. Further, we investigate where and how to schedule the dialogue-related auxiliary tasks in multiple training stages to effectively enhance the main chat translation task. Extensive experiments in four language directions (English-Chinese and English-German) verify the effectiveness and superiority of the proposed approach. Additionally, we have made the large-scale in-domain paired bilingual dialogue dataset publicly available to the research community.
翻訳日:2022-05-12 18:53:56 公開日:2022-05-10
# パラコッタ:最も多様な翻訳サンプルペアから合成された多言語パラフローゼコーパス

ParaCotta: Synthetic Multilingual Paraphrase Corpora from the Most Diverse Translation Sample Pair ( http://arxiv.org/abs/2205.04651v1 )

ライセンス: Link先を確認
Alham Fikri Aji, Tirana Noor Fatyanosa, Radityo Eko Prasojo, Philip Arthur, Suci Fitriany, Salma Qonitah, Nadhifa Zulfa, Tomi Santoso, Mahendra Data(参考訳) アラビア語、カタルーニャ語、チェコ語、ドイツ語、英語、スペイン語、エストニア語、フランス語、ヒンディー語、インドネシア語、イタリア語、オランダ語、ルーマニア語、ロシア語、スウェーデン語、ベトナム語、中国語の17言語にまたがって、私たちの合成パラフレーズコーパスを公開します。 本手法は,単言語データとニューラルマシン翻訳システムにのみ依存し,パラフレーズを生成する。 ビーム探索を用いて複数の翻訳サンプルを生成し,文のbleuに応じて最も語彙的に多様なペアを選択する。 我々は生成したコーパスを \texttt{parabank2} と比較する。 我々の評価によれば、合成パラフラーゼ対は意味的に類似しており、語彙的に多様である。

We release our synthetic parallel paraphrase corpus across 17 languages: Arabic, Catalan, Czech, German, English, Spanish, Estonian, French, Hindi, Indonesian, Italian, Dutch, Romanian, Russian, Swedish, Vietnamese, and Chinese. Our method relies only on monolingual data and a neural machine translation system to generate paraphrases, hence simple to apply. We generate multiple translation samples using beam search and choose the most lexically diverse pair according to their sentence BLEU. We compare our generated corpus with the \texttt{ParaBank2}. According to our evaluation, our synthetic paraphrase pairs are semantically similar and lexically diverse.
翻訳日:2022-05-12 18:53:27 公開日:2022-05-10
# AdMix: ニューラルネットワーク翻訳のための混合サンプルデータ拡張手法

AdMix: A Mixed Sample Data Augmentation Method for Neural Machine Translation ( http://arxiv.org/abs/2205.04686v1 )

ライセンス: Link先を確認
Chang Jin, Shigui Qiu, Nini Xiao, Hao Jia(参考訳) ニューラルマシン翻訳(nmt)では、バックトランスレーションなどのデータ拡張手法が翻訳性能の向上に有効であることが証明されている。 本稿では,追加のトレーニングデータとは無関係なnmtのための新しいデータ拡張手法を提案する。 私たちのアプローチであるAdMixは2つの部分で構成されています。 1) 原文対に明瞭な離散ノイズ(単語置換,単語ドロップ,単語スワップ)を導入し,追加サンプルを作成する。 2) 強化試料と元の試料とを柔らかく混合することにより, 新たな合成訓練データを生成する。 異なるスケールの3つの翻訳データセットの実験では、AdMixは強力なトランスフォーマーベースラインよりもシグニフィカントの改善(1.0から2.7 BLEUポイント)を達成している。 他のデータ拡張技術(バックトランスレーションなど)と組み合わせることで,さらなる改善が期待できる。

In Neural Machine Translation (NMT), data augmentation methods such as back-translation have proven their effectiveness in improving translation performance. In this paper, we propose a novel data augmentation approach for NMT, which is independent of any additional training data. Our approach, AdMix, consists of two parts: 1) introduce faint discrete noise (word replacement, word dropping, word swapping) into the original sentence pairs to form augmented samples; 2) generate new synthetic training data by softly mixing the augmented samples with their original samples in training corpus. Experiments on three translation datasets of different scales show that AdMix achieves signifi cant improvements (1.0 to 2.7 BLEU points) over strong Transformer baseline. When combined with other data augmentation techniques (e.g., back-translation), our approach can obtain further improvements.
翻訳日:2022-05-12 18:53:14 公開日:2022-05-10
# 超低リソース言語モデリングにおける文脈の重要性

The Importance of Context in Very Low Resource Language Modeling ( http://arxiv.org/abs/2205.04810v1 )

ライセンス: Link先を確認
Lukas Edman, Antonio Toral, Gertjan van Noord(参考訳) 本稿では,10万文未満の資源言語モデルの事前学習について検討する。 非常に低いリソースシナリオでは、統計的なn-gram言語モデルは最先端のニューラルモデルより優れている。 実験の結果,これは主に局所的な文脈における前者の焦点が原因であることが示唆された。 そこで我々は,低リソース環境におけるニューラルモデルの性能を向上させるための3つの手法を導入し,モデルの自己認識を制限することが最も効果的であることを見出し,テスト対象言語である英語,ヒンディー語,トルコ語に対して,nliやposタグなどの下流タスクを最大5%改善した。

This paper investigates very low resource language model pretraining, when less than 100 thousand sentences are available. We find that, in very low resource scenarios, statistical n-gram language models outperform state-of-the-art neural models. Our experiments show that this is mainly due to the focus of the former on a local context. As such, we introduce three methods to improve a neural model's performance in the low-resource setting, finding that limiting the model's self-attention is the most effective one, improving on downstream tasks such as NLI and POS tagging by up to 5% for the languages we test on: English, Hindi, and Turkish.
翻訳日:2022-05-12 18:52:58 公開日:2022-05-10
# プロソディGAPのブリッジ: 感情的プロソディを効率的にサンプリングするための遺伝的アルゴリズム

Bridging the prosody GAP: Genetic Algorithm with People to efficiently sample emotional prosody ( http://arxiv.org/abs/2205.04820v1 )

ライセンス: Link先を確認
Pol van Rijn and Harin Lee and Nori Jacoby(参考訳) 人間の声は、音響の微妙な変化と様々な感情を効果的に伝達する。 既存の感情音声コーパスはそれらがどちらであるかに制限される (a)感情経験の完全な範囲を捉えないカテゴリーで特定の感情を誘発する高度にキュレートされた、または b) 意味的および韻律的手がかりに絡み合い、これらの手がかりを個別に研究する能力を制限する。 この課題を克服するために、人間の意思決定と生産を遺伝的アルゴリズムに統合する「GAP(Genetic Algorithm with People)」という新しいアプローチを提案する。 われわれのデザインでは、クリエイターとラッカーが、世代を超えて感情的な韻律を共同で最適化できる。 我々は、GAPが感情音声空間から効率的にサンプリングし、幅広い感情を捉え、最先端の感情音声コーパスと同等の結果を示すことを示した。 GAPは言語に依存しず、大規模なクラウドソーシングをサポートしており、将来の大規模クロスカルチャー研究をサポートすることができる。

The human voice effectively communicates a range of emotions with nuanced variations in acoustics. Existing emotional speech corpora are limited in that they are either (a) highly curated to induce specific emotions with predefined categories that may not capture the full extent of emotional experiences, or (b) entangled in their semantic and prosodic cues, limiting the ability to study these cues separately. To overcome this challenge, we propose a new approach called 'Genetic Algorithm with People' (GAP), which integrates human decision and production into a genetic algorithm. In our design, we allow creators and raters to jointly optimize the emotional prosody over generations. We demonstrate that GAP can efficiently sample from the emotional speech space and capture a broad range of emotions, and show comparable results to state-of-the-art emotional speech corpora. GAP is language-independent and supports large crowd-sourcing, thus can support future large-scale cross-cultural research.
翻訳日:2022-05-12 18:51:37 公開日:2022-05-10
# 言語学習パラダイムの統一

Unifying Language Learning Paradigms ( http://arxiv.org/abs/2205.05131v1 )

ライセンス: Link先を確認
Yi Tay, Mostafa Dehghani, Vinh Q. Tran, Xavier Garcia, Dara Bahri, Tal Schuster, Huaixiu Steven Zheng, Neil Houlsby, Donald Metzler(参考訳) 既存の事前訓練されたモデルは、一般に特定の種類の問題に向けられている。 今のところ、適切なアーキテクチャと事前トレーニングのセットアップについて、まだ合意が得られていないようだ。 本稿では,データセットやセットアップに共通して有効である事前学習モデルの統一フレームワークを提案する。 まず、トレーニング済みの目標 -- 一般的に混ざり合った2つの概念 -- でアーキテクチャのアーキタイプを切り離すことから始めます。 次に、NLPにおける自己超越に対する一般化された統一的な視点を示し、異なる事前学習対象が相互にキャスト可能であること、異なる目的間の補間がいかに効果的であるかを示す。 次に,多様な事前学習パラダイムを組み合わせる事前学習目標であるmixed-of-denoisers (mod)を提案する。 さらに、下流の微調整が特定の事前学習方式と関連づけられるモード切替の概念も導入する。 我々は,複数の事前学習目標を比較し,多種多様な設定でt5およびgpt様モデルを上回ることで,pareto-frontierを押し上げる方法を見出した。 最後に,最大20bのパラメータをスケールすることで,言語生成,言語理解,テキスト分類,質問応答,コモンセンス推論,長文推論,構造化知識基盤化,情報検索など,50の確立されたnlpタスクでsoma性能を実現する。 また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3を上回り,ワンショット要約でT5-XXLの性能を3倍に向上させた。 我々は 20b モデルの flax ベースの t5x モデルチェックポイントを \url{https://github.com/google-research/google-research/tree/master/ul2} でリリースします。

Existing pre-trained models are generally geared towards a particular class of problems. To date, there seems to be still no consensus on what the right architecture and pre-training setup should be. This paper presents a unified framework for pre-training models that are universally effective across datasets and setups. We begin by disentangling architectural archetypes with pre-training objectives -- two concepts that are commonly conflated. Next, we present a generalized and unified perspective for self-supervision in NLP and show how different pre-training objectives can be cast as one another and how interpolating between different objectives can be effective. We then propose Mixture-of-Denoisers (MoD), a pre-training objective that combines diverse pre-training paradigms together. We furthermore introduce a notion of mode switching, wherein downstream fine-tuning is associated with specific pre-training schemes. We conduct extensive ablative experiments to compare multiple pre-training objectives and find that our method pushes the Pareto-frontier by outperforming T5 and/or GPT-like models across multiple diverse setups. Finally, by scaling our model up to 20B parameters, we achieve SOTA performance on 50 well-established supervised NLP tasks ranging from language generation (with automated and human evaluation), language understanding, text classification, question answering, commonsense reasoning, long text reasoning, structured knowledge grounding and information retrieval. Our model also achieve strong results at in-context learning, outperforming 175B GPT-3 on zero-shot SuperGLUE and tripling the performance of T5-XXL on one-shot summarization. We release Flax-based T5X model checkpoints for the 20B model at \url{https://github.com/google-research/google-research/tree/master/ul2}.
翻訳日:2022-05-12 18:51:20 公開日:2022-05-10
# ランドマークによるヒューリスティック検索としての一般化計画のスケールアップ

Scaling-up Generalized Planning as Heuristic Search with Landmarks ( http://arxiv.org/abs/2205.04850v1 )

ライセンス: Link先を確認
Javier Segovia-Aguas, Sergio Jim\'enez, Anders Jonsson and Laura Sebasti\'a(参考訳) ランドマークは古典的計画において最も効果的な探索ヒューリスティックの一つであるが、一般的な計画では無視されている。 一般計画 (GP) は通常、アルゴリズム解の所定の空間における組合せ探索として扱われ、候補解が w.r.t. で評価される。 このタイプのソリューション評価は、計画インスタンスの表現において明示されていない任意のサブゴール情報を無視し、候補一般化計画の空間にプラトーを引き起こす。 さらに、gpのノード拡張は、gp問題の古典的なプランニングインスタンスのバッチ全体を通して全ての子ノードを評価する必要があるため、実行時のボトルネックである。 本稿では,GP の目覚ましい数的ヒューリスティック (計画インスタンスに明示的に表されていない部分ゴール情報を考える) と,GP の新たなヒューリスティック検索アルゴリズム (PGP と呼ぶ) を定義し,GP 問題の計画インスタンスのサブセットを段階的に処理する。 この2つの直交的貢献はアブレーション研究で分析され、gpの最先端をヒューリスティック探索として改善し、両者が組み合わせて使うと互いに利益を得ることが示された。

Landmarks are one of the most effective search heuristics for classical planning, but largely ignored in generalized planning. Generalized planning (GP) is usually addressed as a combinatorial search in a given space of algorithmic solutions, where candidate solutions are evaluated w.r.t.~the instances they solve. This type of solution evaluation ignores any sub-goal information that is not explicit in the representation of the planning instances, causing plateaus in the space of candidate generalized plans. Furthermore, node expansion in GP is a run-time bottleneck since it requires evaluating every child node over the entire batch of classical planning instances in a GP problem. In this paper we define a landmark counting heuristic for GP (that considers sub-goal information that is not explicitly represented in the planning instances), and a novel heuristic search algorithm for GP (that we call PGP) and that progressively processes subsets of the planning instances of a GP problem. Our two orthogonal contributions are analyzed in an ablation study, showing that both improve the state-of-the-art in GP as heuristic search, and that both benefit from each other when used in combination.
翻訳日:2022-05-12 18:48:21 公開日:2022-05-10
# 個人的人間推論に対する定量的シンボリックアプローチ

A Quantitative Symbolic Approach to Individual Human Reasoning ( http://arxiv.org/abs/2205.05030v1 )

ライセンス: Link先を確認
Emmanuelle Dietz, Johannes K. Fichte, Florim Hamiti(参考訳) 推論の認知理論(cognitive theory for reasoning)とは、人間が前提からどのように結論に達するかを理解することである。 仮説的思考から始めると、基本的な日常言語の背後にある意味と、それについてどのように考えるべきかに関心がある。 広く研究されているトピックは、認知理論が典型的な推論タスクを考慮し、自身の経験実験によって確認できるかどうかである。 本稿では,理論を論じるのではなく,論理的枠組みの中で認知的原理として形式化されたこれらの理論が,理論の量的概念を確立できることを示す。 そこで我々は,非単調推論と計算機科学の手法,すなわち解集合プログラミング(ASP.NET)と呼ばれる問題解決パラダイムを用いる。 最後に、ASP.NETの可視性推論を使って、既存の実験の効果をテストし、異なる多数派反応を説明できます。

Cognitive theories for reasoning are about understanding how humans come to conclusions from a set of premises. Starting from hypothetical thoughts, we are interested which are the implications behind basic everyday language and how do we reason with them. A widely studied topic is whether cognitive theories can account for typical reasoning tasks and be confirmed by own empirical experiments. This paper takes a different view and we do not propose a theory, but instead take findings from the literature and show how these, formalized as cognitive principles within a logical framework, can establish a quantitative notion of reasoning, which we call plausibility. For this purpose, we employ techniques from non-monotonic reasoning and computer science, namely, a solving paradigm called answer set programming (ASP). Finally, we can fruitfully use plausibility reasoning in ASP to test the effects of an existing experiment and explain different majority responses.
翻訳日:2022-05-12 18:47:59 公開日:2022-05-10
# UNITS:シーンテキスト検出のための教師なし中間訓練段階

UNITS: Unsupervised Intermediate Training Stage for Scene Text Detection ( http://arxiv.org/abs/2205.04683v1 )

ライセンス: Link先を確認
Youhui Guo, Yu Zhou, Xugong Qin, Enze Xie, Weiping Wang(参考訳) 近年のシーンテキスト検出手法はディープラーニングとデータ駆動に基づいている。 合成データは、高価なアノテーションコストのために事前学習に一般的に使用される。 しかし、合成データと実世界のデータの間には明らかにドメインの相違がある。 微調整段階で合成データによって初期化されるモデルを直接採用するのは、最適以下のパフォーマンスにつながる可能性がある。 本稿では,実世界のデータに対するバッファパスを構築し,事前学習段階と微調整段階のギャップを緩和する,シーンテキスト検出のための新たなトレーニングパラダイムを提案する。 実世界のデータから情報を教師なしの方法で知覚するために、3つのトレーニング戦略がさらに検討されている。 UNITSでは、推論中にパラメータや計算を導入することなく、シーンテキスト検出器が改善される。 広範な実験結果は、3つのパブリックデータセットで一貫したパフォーマンス改善を示している。

Recent scene text detection methods are almost based on deep learning and data-driven. Synthetic data is commonly adopted for pre-training due to expensive annotation cost. However, there are obvious domain discrepancies between synthetic data and real-world data. It may lead to sub-optimal performance to directly adopt the model initialized by synthetic data in the fine-tuning stage. In this paper, we propose a new training paradigm for scene text detection, which introduces an \textbf{UN}supervised \textbf{I}ntermediate \textbf{T}raining \textbf{S}tage (UNITS) that builds a buffer path to real-world data and can alleviate the gap between the pre-training stage and fine-tuning stage. Three training strategies are further explored to perceive information from real-world data in an unsupervised way. With UNITS, scene text detectors are improved without introducing any parameters and computations during inference. Extensive experimental results show consistent performance improvements on three public datasets.
翻訳日:2022-05-12 18:45:33 公開日:2022-05-10
# WG-VITON:トップ・ボトムの仮想試着

WG-VITON: Wearing-Guide Virtual Try-On for Top and Bottom Clothes ( http://arxiv.org/abs/2205.04759v1 )

ライセンス: Link先を確認
Soonchan Park, Jinah Park(参考訳) 仮想トライオン(viton)の研究は、生成ニューラルネットワーク(generative neural network)を用いたファッション製品を仮想的に探索する効果が示されており、vitonの最近の研究は、複数の種類の衣服(例えば上着と下着)を身に着けて人間のイメージを合成しようと試みている。 しかし、対象の人間の上着と下着を交換する場合、服の特定の組み合わせで多数の着用スタイルが可能となる。 本稿では,モデルの上着と下着を同時に交換する際の着用スタイルの変化の問題に対処する。 本稿では,新たに入力された2値マスクを用いて生成画像の着付けスタイルを制御する,着付け案内ビトン(すなわちwgビトン)を紹介する。 実験の結果,wg-vitonは上着と下着を併用したモデルのイメージを効果的に生成し,上着と下着を併用するなどの複雑な着付けスタイルを創り出すことができた。

Studies of virtual try-on (VITON) have been shown their effectiveness in utilizing the generative neural network for virtually exploring fashion products, and some of recent researches of VITON attempted to synthesize human image wearing given multiple types of garments (e.g., top and bottom clothes). However, when replacing the top and bottom clothes of the target human, numerous wearing styles are possible with a certain combination of the clothes. In this paper, we address the problem of variation in wearing style when simultaneously replacing the top and bottom clothes of the model. We introduce Wearing-Guide VITON (i.e., WG-VITON) which utilizes an additional input binary mask to control the wearing styles of the generated image. Our experiments show that WG-VITON effectively generates an image of the model wearing given top and bottom clothes, and create complicated wearing styles such as partly tucking in the top to the bottom
翻訳日:2022-05-12 18:45:18 公開日:2022-05-10
# YOLOv4を用いた移動学習によるインド食品の物体検出

Object Detection in Indian Food Platters using Transfer Learning with YOLOv4 ( http://arxiv.org/abs/2205.04841v1 )

ライセンス: Link先を確認
Deepanshu Pandey, Purva Parmar, Gauri Toshniwal, Mansi Goel, Vishesh Agrawal, Shivangi Dhiman, Lavanya Gupta and Ganesh Bagler(参考訳) 物体検出はコンピュータビジョンにおいてよく知られた問題である。 それにもかかわらず、伝統的なインド料理の使用と普及は制限されている。 特に1枚の写真に写っているインド料理の認識は3つの理由から困難である。 注釈付きインド食品データセットの欠如 2.皿間の不特定境界 3.高いクラス内変動 インド料理を包括的にラベル付けしたIndianFood10は、インド料理に頻繁に現れる10の食品クラスを含み、YOLOv4オブジェクト検出モデルを用いた移動学習を用いて、これらの問題を解決する。 私たちのモデルは、10クラスのデータセットで91.8%の総合マップスコアと0.90のf1スコアを達成できます。 また、従来の10のインド料理クラスを含む10クラスのdatasetindianfood20の拡張も提供しています。

Object detection is a well-known problem in computer vision. Despite this, its usage and pervasiveness in the traditional Indian food dishes has been limited. Particularly, recognizing Indian food dishes present in a single photo is challenging due to three reasons: 1. Lack of annotated Indian food datasets 2. Non-distinct boundaries between the dishes 3. High intra-class variation. We solve these issues by providing a comprehensively labelled Indian food dataset- IndianFood10, which contains 10 food classes that appear frequently in a staple Indian meal and using transfer learning with YOLOv4 object detector model. Our model is able to achieve an overall mAP score of 91.8% and f1-score of 0.90 for our 10 class dataset. We also provide an extension of our 10 class dataset- IndianFood20, which contains 10 more traditional Indian food classes.
翻訳日:2022-05-12 18:44:58 公開日:2022-05-10
# 数発意味セグメンテーションのための非目標知識の学習

Learning Non-target Knowledge for Few-shot Semantic Segmentation ( http://arxiv.org/abs/2205.04903v1 )

ライセンス: Link先を確認
Yuanwei Liu, Nian Liu, Qinglong Cao, Xiwen Yao, Junwei Han, Ling Shao(参考訳) 少数ショットのセマンティクスセグメンテーションにおける既存の研究は、対象のオブジェクト情報をマイニングすることだけに焦点を当てているが、特に背景(bg)や気を散らすオブジェクト(dos)を含む非ターゲット領域において、あいまいな領域を区別することが難しいことが多い。 この問題を軽減するため,クエリ内のBG領域とDO領域を明示的にマイニング・除去する,NTRE(Non-Target Region Elimination)ネットワークという新しいフレームワークを提案する。 まず、一般的なBGプロトタイプを学習してBG領域を抽出するために、BG Mining Module (BGMM)を提案する。 この目的のために、BGMMの学習を、既知の対象のセグメンテーション基底真理のみを用いて監督するために、BG損失を設計する。 次に、bg除去モジュールおよびdo除去モジュールを提案し、bg及びdoフリーターゲットセグメンテーション結果が得られるクエリ特徴からbgを順次フィルタリングし、情報を取得する。 さらに,対象オブジェクトとdosを区別するモデル能力を向上させるための,プロトタイプ型コントラスト学習アルゴリズムを提案する。 PASCAL-5iとCOCO-20iのデータセットによる大規模な実験は、単純さにもかかわらず、我々のアプローチが効果的であることを示している。

Existing studies in few-shot semantic segmentation only focus on mining the target object information, however, often are hard to tell ambiguous regions, especially in non-target regions, which include background (BG) and Distracting Objects (DOs). To alleviate this problem, we propose a novel framework, namely Non-Target Region Eliminating (NTRE) network, to explicitly mine and eliminate BG and DO regions in the query. First, a BG Mining Module (BGMM) is proposed to extract the BG region via learning a general BG prototype. To this end, we design a BG loss to supervise the learning of BGMM only using the known target object segmentation ground truth. Then, a BG Eliminating Module and a DO Eliminating Module are proposed to successively filter out the BG and DO information from the query feature, based on which we can obtain a BG and DO-free target object segmentation result. Furthermore, we propose a prototypical contrastive learning algorithm to improve the model ability of distinguishing the target object from DOs. Extensive experiments on both PASCAL-5i and COCO-20i datasets show that our approach is effective despite its simplicity.
翻訳日:2022-05-12 18:44:44 公開日:2022-05-10
# 大バッチトレーニングによるトランスフォーマー型クロスモーダルレシピ埋め込み

Transformer-based Cross-Modal Recipe Embeddings with Large Batch Training ( http://arxiv.org/abs/2205.04948v1 )

ライセンス: Link先を確認
Jing Yang, Junwen Chen, Keiji Yanai(参考訳) 本稿では,ACME~(Adversarial Cross-Modal Embedding)とH-T~(Hierarchical Transformer)にインスパイアされた,トランスフォーマーを用いた大規模バッチトレーニング用ネットワーク(TNLBT)のクロスモーダルレシピ検索フレームワークを提案する。 TNLBTはレシピの埋め込みから画像を生成しながら検索タスクを達成することを目的としている。 階層的トランスフォーマベースのレシピテキストエンコーダ,視覚トランスフォーマ~(vit)ベースのレシピイメージエンコーダ,および逆ネットワークアーキテクチャを適用し,レシピテキストと画像のクロスモーダル埋め込み学習を改善する。 さらに、自己教師付き学習を用いて、対応する画像を持たないレシピテキストのリッチな情報を活用する。 コントラスト学習は,近年の自己教師付き学習に関する文献に従えば,バッチサイズが大きくなるという利点があるため,学習中に大きなバッチサイズを採用し,その効果を検証した。 実験では,提案したフレームワークは,ベンチマークのRecipe1Mにおけるクロスモーダルなレシピ検索と画像生成タスクにおいて,最先端のフレームワークを著しく上回った。 クロスモーダルレシピ埋め込みにおける大規模バッチトレーニングの有効性を確認する最初の研究である。

In this paper, we present a cross-modal recipe retrieval framework, Transformer-based Network for Large Batch Training (TNLBT), which is inspired by ACME~(Adversarial Cross-Modal Embedding) and H-T~(Hierarchical Transformer). TNLBT aims to accomplish retrieval tasks while generating images from recipe embeddings. We apply the Hierarchical Transformer-based recipe text encoder, the Vision Transformer~(ViT)-based recipe image encoder, and an adversarial network architecture to enable better cross-modal embedding learning for recipe texts and images. In addition, we use self-supervised learning to exploit the rich information in the recipe texts having no corresponding images. Since contrastive learning could benefit from a larger batch size according to the recent literature on self-supervised learning, we adopt a large batch size during training and have validated its effectiveness. In the experiments, the proposed framework significantly outperformed the current state-of-the-art frameworks in both cross-modal recipe retrieval and image generation tasks on the benchmark Recipe1M. This is the first work which confirmed the effectiveness of large batch training on cross-modal recipe embeddings.
翻訳日:2022-05-12 18:44:22 公開日:2022-05-10
# KeypointNeRF:キーポイントの相対空間符号化を用いた画像ベースボリュームアバターの一般化

KeypointNeRF: Generalizing Image-based Volumetric Avatars using Relative Spatial Encoding of Keypoints ( http://arxiv.org/abs/2205.04992v1 )

ライセンス: Link先を確認
Marko Mihajlovic, Aayush Bansal, Michael Zollhoefer, Siyu Tang, Shunsuke Saito(参考訳) ピクセルアライメント機能を用いた画像ベースのボリュームアバターは、見えないポーズやアイデンティティへの一般化を約束する。 これまでの研究は、空間的曖昧さを減らすために、グローバルな空間符号化と多視点幾何学的整合性を活用していた。 しかし、グローバルエンコーディングはトレーニングデータの分布に過度に適合することが多く、スパースビューから多視点一貫した再構築を学ぶことは困難である。 本研究では,既存の空間エンコーディングに関する共通問題を調査し,比較的少ない視点から高忠実度ボリュームアバターをモデル化する手法を提案する。 鍵となるアイデアの1つは、スパース3Dキーポイントを介して相対空間の3D情報を符号化することである。 このアプローチは視点の幅とデータセット間のドメインギャップに対して堅牢です。 本手法は頭部再建の最先端手法より優れている。 視認できない被験者に対する人体再構成では、パラメトリックな人体モデルと時間的特徴集約を用いた先行作業に匹敵する性能を達成する。 先行研究における誤りの大部分は空間符号化の不適切な選択によるものであり,高忠実度画像に基づくアバターモデリングのための新たな方向性を提案する。 https://markomih.github.io/KeypointNeRF

Image-based volumetric avatars using pixel-aligned features promise generalization to unseen poses and identities. Prior work leverages global spatial encodings and multi-view geometric consistency to reduce spatial ambiguity. However, global encodings often suffer from overfitting to the distribution of the training data, and it is difficult to learn multi-view consistent reconstruction from sparse views. In this work, we investigate common issues with existing spatial encodings and propose a simple yet highly effective approach to modeling high-fidelity volumetric avatars from sparse views. One of the key ideas is to encode relative spatial 3D information via sparse 3D keypoints. This approach is robust to the sparsity of viewpoints and cross-dataset domain gap. Our approach outperforms state-of-the-art methods for head reconstruction. On human body reconstruction for unseen subjects, we also achieve performance comparable to prior work that uses a parametric human body model and temporal feature aggregation. Our experiments show that a majority of errors in prior work stem from an inappropriate choice of spatial encoding and thus we suggest a new direction for high-fidelity image-based avatar modeling. https://markomih.github.io/KeypointNeRF
翻訳日:2022-05-12 18:43:58 公開日:2022-05-10
# GPUスクラッチによるパーソナライズドレコメンデーションシステムのトレーニング:後方ではなく後方へ向けて

Training Personalized Recommendation Systems from (GPU) Scratch: Look Forward not Backwards ( http://arxiv.org/abs/2205.04702v1 )

ライセンス: Link先を確認
Youngeun Kwon, Minsoo Rhu(参考訳) パーソナライズドレコメンデーションモデル(recsys)は、ハイパースケーラによって提供される最もポピュラーな機械学習ワークロードの1つである。 RecSysをトレーニングする上で重要な課題は、その高いメモリ容量要件であり、数百GBからTBのモデルサイズに到達している。 RecSysでは、いわゆる埋め込み層がメモリ使用の大部分を占めるため、現在のシステムでは、メモリ空腹層を格納する大きなCPUメモリを格納するために、ハイブリッドCPU-GPU設計を採用している。 残念なことに、トレーニングの埋め込みには、遅いCPUメモリに反するメモリ帯域幅の集中的な操作がいくつか含まれており、パフォーマンス上のオーバーヘッドが発生している。 本稿では,GPUメモリ内に頻繁にアクセスされる埋め込み層を,CPUメモリへの埋め込み層トラフィックをフィルタする手法としてキャッシュすることを提案する。 本研究では,RecSysの埋め込みキャッシュ設計において,基本的に異なるアプローチを提案する。 提案するscratchpipeアーキテクチャは,recsysトレーニングのユニークな特性を利用して,過去だけでなく"将来の"キャッシュアクセスも参照可能な埋め込みキャッシュを開発する。 scratchpipeではこのような特性を利用して,提案するキャッシュ設計内で,組込みレイヤのアクティブなワーキングセットを"常に"キャプチャできることを保証することで,組込みレイヤのトレーニングをgpuメモリ速度で実行可能にする。

Personalized recommendation models (RecSys) are one of the most popular machine learning workload serviced by hyperscalers. A critical challenge of training RecSys is its high memory capacity requirements, reaching hundreds of GBs to TBs of model size. In RecSys, the so-called embedding layers account for the majority of memory usage so current systems employ a hybrid CPU-GPU design to have the large CPU memory store the memory hungry embedding layers. Unfortunately, training embeddings involve several memory bandwidth intensive operations which is at odds with the slow CPU memory, causing performance overheads. Prior work proposed to cache frequently accessed embeddings inside GPU memory as means to filter down the embedding layer traffic to CPU memory, but this paper observes several limitations with such cache design. In this work, we present a fundamentally different approach in designing embedding caches for RecSys. Our proposed ScratchPipe architecture utilizes unique properties of RecSys training to develop an embedding cache that not only sees the past but also the "future" cache accesses. ScratchPipe exploits such property to guarantee that the active working set of embedding layers can "always" be captured inside our proposed cache design, enabling embedding layer training to be conducted at GPU memory speed.
翻訳日:2022-05-12 18:15:39 公開日:2022-05-10
# SmartSAGE:In-Storage処理アーキテクチャを用いた大規模グラフニューラルネットワークのトレーニング

SmartSAGE: Training Large-scale Graph Neural Networks using In-Storage Processing Architectures ( http://arxiv.org/abs/2205.04711v1 )

ライセンス: Link先を確認
Yunjae Lee, Jinha Chung, Minsoo Rhu(参考訳) グラフニューラルネットワーク(gnns)は、各オブジェクトの表現(グラフノード)と異なるオブジェクト間の関係(ノードを接続するエッジ)の両方を学習し、さまざまなグラフベースのタスクで最先端のパフォーマンスを達成することによって、特徴を抽出することができる。 その強みにもかかわらず、プロダクション環境でこれらのアルゴリズムを利用することは、グラフノードとエッジの数を数十億から数十億スケールにし、トレーニングに十分なストレージスペースを必要とするため、いくつかの課題に直面している。 残念なことに、最先端のMLフレームワークはインメモリ処理モデルを採用しており、ML実践者の生産性を著しく損なう。 本研究では,現在最先端の大規模GNNトレーニングアルゴリズムであるGraphSAGEの詳細な特徴付けを行う。 そこで,本研究では,キャパシティを最適化したnvm ssd をメモリに最適化した gnn データを格納することで,メインメモリサイズの制限を超えた大規模 gnn トレーニングを実現することの実現可能性について検討する。 しかし、DRAMとSSDの間の大きな性能差を考えると、DRAMの直接代用としてSSDを盲目的に利用すると、性能が著しく低下する。 そこで我々は,ISPアーキテクチャに基づくソフトウェア/ハードウェアの共同設計であるSmartSAGEを開発した。 我々の研究は、ISPベースの大規模GNNトレーニングシステムが高容量ストレージと高パフォーマンスの両方を実現できることを示し、ML実践者がメインメモリサイズの物理的制限に悩まされることなく、大規模なGNNデータセットをトレーニングする機会を開く。

Graph neural networks (GNNs) can extract features by learning both the representation of each objects (i.e., graph nodes) and the relationship across different objects (i.e., the edges that connect nodes), achieving state-of-the-art performance in various graph-based tasks. Despite its strengths, utilizing these algorithms in a production environment faces several challenges as the number of graph nodes and edges amount to several billions to hundreds of billions scale, requiring substantial storage space for training. Unfortunately, state-of-the-art ML frameworks employ an in-memory processing model which significantly hampers the productivity of ML practitioners as it mandates the overall working set to fit within DRAM capacity. In this work, we first conduct a detailed characterization on a state-of-the-art, large-scale GNN training algorithm, GraphSAGE. Based on the characterization, we then explore the feasibility of utilizing capacity-optimized NVM SSDs for storing memory-hungry GNN data, which enables large-scale GNN training beyond the limits of main memory size. Given the large performance gap between DRAM and SSD, however, blindly utilizing SSDs as a direct substitute for DRAM leads to significant performance loss. We therefore develop SmartSAGE, our software/hardware co-design based on an in-storage processing (ISP) architecture. Our work demonstrates that an ISP based large-scale GNN training system can achieve both high capacity storage and high performance, opening up opportunities for ML practitioners to train large GNN datasets without being hampered by the physical limitations of main memory size.
翻訳日:2022-05-12 18:15:15 公開日:2022-05-10
# 置換不変言語モデルを用いたシンフォニー生成

Symphony Generation with Permutation Invariant Language Model ( http://arxiv.org/abs/2205.05448v1 )

ライセンス: Link先を確認
Jiafeng Liu, Yuanliang Dong, Zehua Cheng, Xinran Zhang, Xiaobing Li, Feng Yu and Maosong Sun(参考訳) 本稿では、置換不変言語モデルに基づくシンボリックシンフォニー音楽生成ソリューションであるsymphonynetを提案する。 テキスト生成と交響曲生成課題のギャップを埋めるため、特定の3次元位置埋め込みによるマルチトラックマルチインストゥルメント再現性(mmr)表現と、音楽トークンに対する修正バイトペア符号化アルゴリズム(music bpe)を提案する。 新しい線形変圧器デコーダアーキテクチャは、シンフォニートークンの長いシーケンスをモデル化するためのバックボーンとして導入された。 一方,入力から機器情報をマスキングすることで,協調作業として自動オーケストレーションを学ぶようにデコーダを訓練する。 また、シンフォニー生成研究の進展のために、大規模シンフォニーシンフォニーデータセットも導入する。 提案手法は,複数トラックのシンボリック音楽生成の先駆的ソリューションである人間構成と比較して,一貫性,新規,複雑,調和的な交響曲を生成できることを示す。

In this work, we present a symbolic symphony music generation solution, SymphonyNet, based on a permutation invariant language model. To bridge the gap between text generation and symphony generation task, we propose a novel Multi-track Multi-instrument Repeatable (MMR) representation with particular 3-D positional embedding and a modified Byte Pair Encoding algorithm (Music BPE) for music tokens. A novel linear transformer decoder architecture is introduced as a backbone for modeling extra-long sequences of symphony tokens. Meanwhile, we train the decoder to learn automatic orchestration as a joint task by masking instrument information from the input. We also introduce a large-scale symbolic symphony dataset for the advance of symphony generation research. Our empirical results show that our proposed approach can generate coherent, novel, complex and harmonious symphony compared to human composition, which is the pioneer solution for multi-track multi-instrument symbolic music generation.
翻訳日:2022-05-12 18:12:21 公開日:2022-05-10
# 深層ニューラルネットワーク学習のための通信効率の良い分散勾配クリッピングアルゴリズム

A Communication-Efficient Distributed Gradient Clipping Algorithm for Training Deep Neural Networks ( http://arxiv.org/abs/2205.05040v1 )

ライセンス: Link先を確認
Mingrui Liu, Zhenxun Zhuang, Yunwei Lei, Chunyang Liao(参考訳) ディープニューラルネットワークやフェデレートラーニング(FL)の分散トレーニングでは、通常、各マシン上でSGD(Stochastic Gradient Descent)またはその変種を実行し、他のマシンと定期的に通信する。 しかしながら、SGDは爆発的な勾配問題のため、ディープニューラルネットワーク(例えば、RNN、LSTM)のトレーニングにおいてゆっくりと収束する可能性がある。 グラデーション・クリッピングは通常、単一マシンの設定でこの問題に対処するために使用されるが、fl設定でこのテクニックを探求することは、まだ初期段階にあり、グラデーション・クリッピング・スキームが複数のマシンを利用して並列なスピードアップを享受できるかどうかは謎のままである。 主な技術的困難は、非凸損失関数、非Lipschitz連続勾配、通信ラウンドを同時にスキップすることである。 本稿では,LSTMが以前の研究で満足していた損失景観の平滑性仮定を探索し,通信効率の高い勾配クリッピングアルゴリズムを設計する。 このアルゴリズムは複数のマシンで実行でき、各マシンはグラデーション・クリッピング方式を採用し、グラデーション・ベースの更新を繰り返した後に他のマシンと通信する。 我々のアルゴリズムは、マシン数を$n$とする$\epsilon$-定常点を見つけるために、$o\left(\frac{1}{n\epsilon^4}\right)$反復複雑性を持つことが証明されている。 これにより,線形高速化が実現された。 本研究は,無関心な確率変数を推定する新たな解析手法を導入することで,この結果を実証する。 いくつかのベンチマークデータセットと様々なシナリオにおける実験は、アルゴリズムが実際に高速収束速度を示し、理論を検証していることを示している。

In distributed training of deep neural networks or Federated Learning (FL), people usually run Stochastic Gradient Descent (SGD) or its variants on each machine and communicate with other machines periodically. However, SGD might converge slowly in training some deep neural networks (e.g., RNN, LSTM) because of the exploding gradient issue. Gradient clipping is usually employed to address this issue in the single machine setting, but exploring this technique in the FL setting is still in its infancy: it remains mysterious whether the gradient clipping scheme can take advantage of multiple machines to enjoy parallel speedup. The main technical difficulty lies in dealing with nonconvex loss function, non-Lipschitz continuous gradient, and skipping communication rounds simultaneously. In this paper, we explore a relaxed-smoothness assumption of the loss landscape which LSTM was shown to satisfy in previous works and design a communication-efficient gradient clipping algorithm. This algorithm can be run on multiple machines, where each machine employs a gradient clipping scheme and communicate with other machines after multiple steps of gradient-based updates. Our algorithm is proved to have $O\left(\frac{1}{N\epsilon^4}\right)$ iteration complexity for finding an $\epsilon$-stationary point, where $N$ is the number of machines. This indicates that our algorithm enjoys linear speedup. We prove this result by introducing novel analysis techniques of estimating truncated random variables, which we believe are of independent interest. Our experiments on several benchmark datasets and various scenarios demonstrate that our algorithm indeed exhibits fast convergence speed in practice and thus validates our theory.
翻訳日:2022-05-12 18:11:38 公開日:2022-05-10
# HierAttn: 皮膚病変診断におけるステージアテンションとブランチアテンションを効果的に学習する

HierAttn: Effectively Learn Representations from Stage Attention and Branch Attention for Skin Lesions Diagnosis ( http://arxiv.org/abs/2205.04326v2 )

ライセンス: Link先を確認
Wei Dai, Rui Liu, Tianyi Wu, Min Wang, Jianqin Yin, Jun Liu(参考訳) 皮膚がんの早期診断と治療には,皮膚病変の正確かつ偏りのない検査が重要である。 皮膚病変の視覚的特徴は、様々なデバイスを用いて異なる皮膚色を持つ患者から皮膚画像が収集されるため、大きく異なる。 近年,画像の早期診断のための分類法として,畳み込みニューラルネットワーク(cnns)が開発されている。 しかし,ネットワーク構造が重く,文脈情報を無視しているため,CNNの実用化は限られている。 視覚トランスフォーマー(vits)は自己着脱機構によってグローバルな特徴を学習するが、比較的大きなモデルサイズ(100m以上)を持つ。 これらの制限に対処するため,階層的かつ自己注意的なニューラルネットワークであるHierAttnを導入する。 hierattnは、マルチステージおよび階層ネットワークによるローカルおよびグローバル特徴の学習に基づく、新しい戦略を適用する。 dermoscopy image dataset isic2019 と smartphone photos dataset pad-ufes-20 を用いて hierattn の有効性を評価した。 実験の結果,HierAttnはMobileNetV3やMobileViTなど,最先端のモバイルネットワークの中で最高のトップ1の精度とAUCを達成した。 コードはhttps://github.com/anthonyweidai/hierattnで入手できる。

An accurate and unbiased examination of skin lesions is critical for the early diagnosis and treatment of skin cancers. The visual feature of the skin lesions varies significantly because skin images are collected from patients with different skin colours by using various devices. Recent studies have developed ensembled convolutional neural networks (CNNs) to classify the images for early diagnosis. However, the practical use of CNNs is limited because their network structures are heavyweight and neglect contextual information. Vision transformers (ViTs) learn the global features by self-attention mechanisms, but they also have comparatively large model sizes (more than 100M). To address these limitations, we introduce HierAttn, a lite and effective neural network with hierarchical and self attention. HierAttn applies a novel strategy based on learning local and global features by a multi-stage and hierarchical network. The efficacy of HierAttn was evaluated by using the dermoscopy images dataset ISIC2019 and smartphone photos dataset PAD-UFES-20. The experimental results show that HierAttn achieves the best top-1 accuracy and AUC among state-of-the-art mobile networks, including MobileNetV3 and MobileViT. The code is available at https://github.com/anthonyweidai/HierAttn.
翻訳日:2022-05-12 18:11:07 公開日:2022-05-10
# 単一のmrモダリティを否定する

Disentangling A Single MR Modality ( http://arxiv.org/abs/2205.04982v1 )

ライセンス: Link先を確認
Lianrui Zuo, Yihao Liu, Yuan Xue, Shuo Han, Murat Bilgel, Susan M. Resnick, Jerry L. Prince, Aaron Carass(参考訳) 近年,医学画像から解剖学的・コントラスト的情報を遠ざけることが注目され,様々な画像解析タスクのメリットが示された。 現在の手法では、同一の解剖学を持つ対のマルチモーダル画像または補助ラベル(例えば手動のデライン化)を使用して不等角表現を学習し、不等角化に対する帰納的バイアスを与える。 しかし、これらの要件は、データ収集の時間とコストを大幅に増加させ、そのようなデータが利用できない場合に、これらのメソッドの適用性を制限する可能性がある。 さらに、これらの手法は一般に乱れを保証しない。 本稿では,単一モード磁気共鳴画像から理論的・実用的に優れた歪みを学習する新しい枠組みを提案する。 さらに,歪みを定量的に評価する新しい情報ベース指標を提案する。 既存の切り離し手法との比較により,提案手法は切り離しとクロスドメイン画像変換の両タスクにおいて優れた性能を発揮することが示された。

Disentangling anatomical and contrast information from medical images has gained attention recently, demonstrating benefits for various image analysis tasks. Current methods learn disentangled representations using either paired multi-modal images with the same underlying anatomy or auxiliary labels (e.g., manual delineations) to provide inductive bias for disentanglement. However, these requirements could significantly increase the time and cost in data collection and limit the applicability of these methods when such data are not available. Moreover, these methods generally do not guarantee disentanglement. In this paper, we present a novel framework that learns theoretically and practically superior disentanglement from single modality magnetic resonance images. Moreover, we propose a new information-based metric to quantitatively evaluate disentanglement. Comparisons over existing disentangling methods demonstrate that the proposed method achieves superior performance in both disentanglement and cross-domain image-to-image translation tasks.
翻訳日:2022-05-12 18:09:24 公開日:2022-05-10
# 肺結節分類のためのグレーレベル共起行列の深層融合

Deep fusion of gray level co-occurrence matrices for lung nodule classification ( http://arxiv.org/abs/2205.05123v1 )

ライセンス: Link先を確認
Ahmed Saihood, Hossein Karshenas and AhmadReza Naghsh Nilchi(参考訳) 肺癌は人間の健康にとって深刻な脅威であり、がんの診断が遅かったために何百万人もの人が死ぬため、できるだけ早くその病気を検出することが不可欠である。 Computerized chest analysis Tomography of scanは肺結節の検出と分類に有効な方法の1つであると推定されている。 肺のc.t.スキャン画像の高精度解析の必要性は,肺癌の検出と分類において重要な課題の1つであると考えられる。 新しい長期記憶(LSTM)に基づく深層核融合構造を導入し、肺結節から新しい容積グレイレベル共起行列(GLCM)計算により、結節を良性、悪性、曖昧性に分類するテクスチャ特性を適用した。 水柱最適化アルゴリズム(WSA)と組み合わせた改良型大津セグメンテーション法を提案し,肺結節を検出する。 大津wsaしきい値化は、従来のしきい値法に存在する制約を克服することができる。 2次元スライス融合に基づく2D-GLCM計算と、この3D-GLCMの体積2.5D-GLCM計算に基づくLSTM融合構造を近似することにより、この融合構造を評価するための実験が拡張されている。 提案手法は, LIDC-IDRIデータセットを用いて, 精度94.4%, 91.6%, 感度95.8%, 特異度97.33%, 96%, 98%, 精度、感度および特異度2.5D-GLCM融合でそれぞれ得られた。 同じ収率は98.7%、98%、99%であり、3D-GLCM融合である。 その結果,wsa-otsu法は実行時間が少なく,より正確なしきい値化プロセスが得られることがわかった。 3D-GLCMをベースとしたLSTMは,その性能に優れていた。

Lung cancer is a severe menace to human health, due to which millions of people die because of late diagnoses of cancer; thus, it is vital to detect the disease as early as possible. The Computerized chest analysis Tomography of scan is assumed to be one of the efficient solutions for detecting and classifying lung nodules. The necessity of high accuracy of analyzing C.T. scan images of the lung is considered as one of the crucial challenges in detecting and classifying lung cancer. A new long-short-term-memory (LSTM) based deep fusion structure, is introduced, where, the texture features computed from lung nodules through new volumetric grey-level-co-occurrence-matrices (GLCM) computations are applied to classify the nodules into: benign, malignant and ambiguous. An improved Otsu segmentation method combined with the water strider optimization algorithm (WSA) is proposed to detect the lung nodules. Otsu-WSA thresholding can overcome the restrictions present in previous thresholding methods. Extended experiments are run to assess this fusion structure by considering 2D-GLCM computations based 2D-slices fusion, and an approximation of this 3D-GLCM with volumetric 2.5D-GLCM computations-based LSTM fusion structure. The proposed methods are trained and assessed through the LIDC-IDRI dataset, where 94.4%, 91.6%, and 95.8% Accuracy, sensitivity, and specificity are obtained, respectively for 2D-GLCM fusion and 97.33%, 96%, and 98%, accuracy, sensitivity, and specificity, respectively, for 2.5D-GLCM fusion. The yield of the same are 98.7%, 98%, and 99%, for the 3D-GLCM fusion. The obtained results and analysis indicate that the WSA-Otsu method requires less execution time and yields a more accurate thresholding process. It is found that 3D-GLCM based LSTM outperforms its counterparts.
翻訳日:2022-05-12 18:09:07 公開日:2022-05-10
# 両世界のベスト:マルチタスクオーディオ・ビジュアル自動音声認識とアクティブ話者検出

Best of Both Worlds: Multi-task Audio-Visual Automatic Speech Recognition and Active Speaker Detection ( http://arxiv.org/abs/2205.05206v1 )

ライセンス: Link先を確認
Otavio Braga, Olivier Siohan(参考訳) 雑音条件下では、自動音声認識(ASR)は、話者の顔のビデオから得られる視覚信号の追加によって大きな恩恵を受けることができる。 しかし、複数の候補スピーカーが見えるようになると、伝統的には別の問題を解決する必要がある。すなわち、アクティベートスピーカー検出(asd)は、可視面のどの時点が音声に対応するかを選択することを伴う。 近年の研究では、アクティブな話者検出の精度を犠牲にして、競合する話者の顔の映像トラックに注意機構を組み込むことで、両問題を同時に解決できることが示されている。 この研究は、マルチタスク損失と共同で訓練できる単一のモデルを示すことによって、アクティブな話者検出精度のこのギャップを埋める。 トレーニング中の2つのタスクを組み合わせることで、ASD分類精度を約25%削減すると同時に、ASR専用にトレーニングされた多人数ベースラインと比較して、ASR性能を向上する。

Under noisy conditions, automatic speech recognition (ASR) can greatly benefit from the addition of visual signals coming from a video of the speaker's face. However, when multiple candidate speakers are visible this traditionally requires solving a separate problem, namely active speaker detection (ASD), which entails selecting at each moment in time which of the visible faces corresponds to the audio. Recent work has shown that we can solve both problems simultaneously by employing an attention mechanism over the competing video tracks of the speakers' faces, at the cost of sacrificing some accuracy on active speaker detection. This work closes this gap in active speaker detection accuracy by presenting a single model that can be jointly trained with a multi-task loss. By combining the two tasks during training we reduce the ASD classification accuracy by approximately 25%, while simultaneously improving the ASR performance when compared to the multi-person baseline trained exclusively for ASR.
翻訳日:2022-05-12 18:08:33 公開日:2022-05-10
# ヒューマン言語モデリング

Human Language Modeling ( http://arxiv.org/abs/2205.05128v1 )

ライセンス: Link先を確認
Nikita Soni, Matthew Matero, Niranjan Balasubramanian, and H. Andrew Schwartz(参考訳) 自然言語は人によって生成されるが、伝統的な言語モデリングは単語や文書を独立して生成されるかのように見る。 本稿では,HuLM(Human Language Modeling)を提案する。HuLM(Human Language Modeling)は,文書のシーケンス(ソーシャルメディアメッセージなど)を接続し,人間の状態を変えることによって人間の言語が中和されるという概念を捉える,言語モデリング問題の階層的拡張である。 本稿では,HuLMタスクの大規模トランスフォーマーモデルであるHaRTを紹介し,ソーシャルメディア利用者約10万人を対象に事前トレーニングを行い,ソーシャルメディアにおける言語モデリング(複雑度)と,文書レベルとユーザレベルの4つの下流タスク(スタンス検出,感情分類,年齢推定,パーソナリティ評価)における微調整の両面での有効性を示した。 すべてのタスクの結果は、現在の最先端を満たしているか、あるいは超えている。

Natural language is generated by people, yet traditional language modeling views words or documents as if generated independently. Here, we propose human language modeling (HuLM), a hierarchical extension to the language modeling problem whereby a human-level exists to connect sequences of documents (e.g. social media messages) and capture the notion that human language is moderated by changing human states. We introduce, HaRT, a large-scale transformer model for the HuLM task, pre-trained on approximately 100,000 social media users, and demonstrate its effectiveness in terms of both language modeling (perplexity) for social media and fine-tuning for 4 downstream tasks spanning document- and user-levels: stance detection, sentiment classification, age estimation, and personality assessment. Results on all tasks meet or surpass the current state-of-the-art.
翻訳日:2022-05-12 17:51:55 公開日:2022-05-10
# 大規模変圧器モデルにおける活性化再計算の低減

Reducing Activation Recomputation in Large Transformer Models ( http://arxiv.org/abs/2205.05198v1 )

ライセンス: Link先を確認
Vijay Korthikanti, Jared Casper, Sangkug Lym, Lawrence McAfee, Michael Andersch, Mohammad Shoeybi, Bryan Catanzaro(参考訳) 大規模なトランスフォーマーモデルのトレーニングは、現代のAIにおける最も重要な計算課題の1つである。 本稿では,アクティベーション再計算を減らし,大規模変圧器モデルのトレーニングを大幅に高速化する方法を示す。 アクティベーション再計算は一般にメモリ容量の制約を回避するために使用される。 バックプロパゲーションのためのアクティベーションを格納するのではなく、伝統的に再計算される。 本研究では,メモリ消費を十分に削減できるため,冗長計算のほとんどが不要であることを示す。 シーケンス並列性と選択的アクティベーション再計算の2つの新しい手法を提案する。 テンソル並列性とともに、これらの技術はアクティベーションを再計算する必要性をほとんど排除している。 我々は,最大1兆パラメータの言語モデルに対するアプローチを評価し,アクティベーション再計算による実行時間のオーバーヘッドを90%以上削減しつつ,アクティベーションメモリを5倍削減することを示した。 例えば、2240 NVIDIA A100 GPU上で 530B パラメータ GPT-3 スタイルのモデルをトレーニングすると、モデル Flops の利用率 54.2% を達成することができ、これは再計算で達成した 42.1% よりも 29% 高速である。 実装はMegatron-LMとNeMo-Megatronの両方で利用可能です。

Training large transformer models is one of the most important computational challenges of modern AI. In this paper, we show how to significantly accelerate training of large transformer models by reducing activation recomputation. Activation recomputation is commonly used to work around memory capacity constraints. Rather than storing activations for backpropagation, they are traditionally recomputed, which saves memory but adds redundant compute. In this work, we show most of this redundant compute is unnecessary because we can reduce memory consumption sufficiently without it. We present two novel yet very simple techniques: sequence parallelism and selective activation recomputation. In conjunction with tensor parallelism, these techniques almost eliminate the need to recompute activations. We evaluate our approach on language models up to one trillion parameters in scale and show that our method reduces activation memory by 5x, while reducing execution time overhead from activation recomputation by over 90%. For example, when training a 530B parameter GPT-3 style model on 2240 NVIDIA A100 GPUs, we achieve a Model Flops Utilization of 54.2%, which is 29% faster than the 42.1% we achieve using recomputation. Our implementation will be available in both Megatron-LM and NeMo-Megatron.
翻訳日:2022-05-12 17:51:38 公開日:2022-05-10
# ランダムでないデータに対するレコメンデーションのための安定化2倍強固な学習

Stabilized Doubly Robust Learning for Recommendation on Data Missing Not at Random ( http://arxiv.org/abs/2205.04701v1 )

ライセンス: Link先を確認
Haoxuan Li, Chunyuan Zheng, Xiao-Hua Zhou, Peng Wu(参考訳) 推薦システムでは、ユーザは常に好んで評価するアイテムを選択するが、結果としてデータがランダムに失われることはなく、予測モデルのバイアスのない評価と学習には大きな課題となる。 現在、二重ロバスト(DR)法とその変種は広く研究され、優れた性能を示している。 しかし,DR法は極めて小さな確率に対して不安定であり,外挿に頼っていることが示される。 本稿では,2重頑健性を維持しつつ,上記の制約に対処する安定化2重頑健性(SDR)推定器を提案する。 理論的解析により、SDRは不正確な不正確な不正確な誤りと任意に小さな確率の下で有界バイアス、分散、一般化誤差を持つことが示された。 さらに,より安定かつ正確な予測を達成し,計算,妥当性,予測モデルを周期的に更新する新しいSDR学習手法を提案する。 広範な実験により,提案手法が既存の手法を大きく上回ることがわかった。

In recommender systems, users always choose favorite items to rate, which results in data missing not at random and poses a great challenge for unbiased evaluation and learning of prediction models. Currently, the doubly robust (DR) method and its variants have been widely studied and demonstrate superior performance. However, we show that DR methods are unstable to extremely small propensities and rely on extrapolations, resulting in sub-optimal performances. In this paper, we propose a stabilized doubly robust (SDR) estimator to address the above limitations while retaining double robustness. Theoretical analysis shows that SDR has bounded bias, variance and generalization error bound under inaccurate imputed errors and arbitrarily small propensities. In addition, we propose a novel learning approach for SDR that updates the imputation, propensity, and prediction models cyclically, achieving more stable and accurate predictions. Extensive experiments show that our approach significantly outperforms the existing methods.
翻訳日:2022-05-12 17:48:31 公開日:2022-05-10
# vine copula構造の行列とグラフ表現

Matrix and graph representations of vine copula structures ( http://arxiv.org/abs/2205.04783v1 )

ライセンス: Link先を確認
D\'aniel Pfeifer and Edith Alice Kov\'acs(参考訳) vine copulasは、確率分布の大部分を効率的にモデル化することができる。 本稿では,その構造をより深く理解することに焦点を当てる。 我々は、グラフと行列を持つワインコプラを表現するために、よく知られた既存の構造を構築している。 グラフ表現には正規構造、チェリー構造、弦グラフ列構造が含まれており、同値性を示す。 重要なことに、vine 構造の完全な削除順序が与えられたとき、それは常に行列で一意的に表現できる。 O. M. N'apoles はそれらを行列で表す方法を示し、前者のアプローチをアルゴリズム化するとともに、桜の配列を通して行列を構成する新しい方法を示した。 最後に、これら2つの行列構築アルゴリズムは、同じ完全除去順序が使われている場合に等価であることを示す。

Vine copulas can efficiently model a large portion of probability distributions. This paper focuses on a more thorough understanding of their structures. We are building on well-known existing constructions to represent vine copulas with graphs as well as matrices. The graph representations include the regular, cherry and chordal graph sequence structures, which we show equivalence between. Importantly we also show that when a perfect elimination ordering of a vine structure is given, then it can always be uniquely represented with a matrix. O. M. N\'apoles has shown a way to represent them in a matrix, and we algorithmify this previous approach, while also showing a new method for constructing such a matrix, through cherry tree sequences. Lastly, we prove that these two matrix-building algorithms are equivalent if the same perfect elimination ordering is being used.
翻訳日:2022-05-12 17:48:14 公開日:2022-05-10
# ビデオ超解像の訓練の高速化

Accelerating the Training of Video Super-Resolution ( http://arxiv.org/abs/2205.05069v1 )

ライセンス: Link先を確認
Lijian Lin, Xintao Wang, Zhongang Qi, Ying Shan(参考訳) 畳み込みニューラルネットワーク(CNN)は最近、ビデオ超解像(VSR)の高品質な再構成を実証しているが、競争力のあるVSRモデルを効率的に訓練することは難しい問題である。 通常は、対応するイメージモデルをトレーニングするよりも桁違いに時間がかかるため、長い研究サイクルが経ちます。 既存のVSR手法は、通常、最初から端まで固定された空間サイズと時間サイズを持つモデルを訓練する。 固定サイズは通常、優れたパフォーマンスのために大きな値に設定され、トレーニングが遅くなる。 しかし、このような厳格な訓練戦略はVSRに必要か? 本研究では,小型から大規模の空間的/時間的サイズ,すなわち難易度の高い映像モデルを徐々に訓練することが可能であることを示す。 特に、訓練全体はいくつかの段階に分けられ、初期の段階は訓練空間の形状が小さい。 それぞれのステージ内では、時間的サイズも短いものから長いものまで変化するが、空間的サイズは変わらない。 このようなマルチグリッドトレーニング戦略により、トレーニングは加速されるが、ほとんどの計算は、より小さな空間的および短い時間的形状で実行される。 また,GPU並列化によるさらなる加速のために,精度の低下を伴わない大規模なミニバッチトレーニングについても検討する。 広汎な実験により,VSRモデルの性能低下を伴わないトレーニング(最大6.2\times$downup in wall-clock training time)をほぼ高速化できることが示された。 コードはhttps://github.com/TencentARC/Efficient-VSR-Trainingで公開されている。

Despite that convolution neural networks (CNN) have recently demonstrated high-quality reconstruction for video super-resolution (VSR), efficiently training competitive VSR models remains a challenging problem. It usually takes an order of magnitude more time than training their counterpart image models, leading to long research cycles. Existing VSR methods typically train models with fixed spatial and temporal sizes from beginning to end. The fixed sizes are usually set to large values for good performance, resulting to slow training. However, is such a rigid training strategy necessary for VSR? In this work, we show that it is possible to gradually train video models from small to large spatial/temporal sizes, i.e., in an easy-to-hard manner. In particular, the whole training is divided into several stages and the earlier stage has smaller training spatial shape. Inside each stage, the temporal size also varies from short to long while the spatial size remains unchanged. Training is accelerated by such a multigrid training strategy, as most of computation is performed on smaller spatial and shorter temporal shapes. For further acceleration with GPU parallelization, we also investigate the large minibatch training without the loss in accuracy. Extensive experiments demonstrate that our method is capable of largely speeding up training (up to $6.2\times$ speedup in wall-clock training time) without performance drop for various VSR models. The code is available at https://github.com/TencentARC/Efficient-VSR-Training.
翻訳日:2022-05-12 17:44:34 公開日:2022-05-10
# naturalspeech: エンド・ツー・エンドのテキストから音声合成

NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality ( http://arxiv.org/abs/2205.04421v2 )

ライセンス: Link先を確認
Xu Tan, Jiawei Chen, Haohe Liu, Jian Cong, Chen Zhang, Yanqing Liu, Xi Wang, Yichong Leng, Yuanhao Yi, Lei He, Frank Soong, Tao Qin, Sheng Zhao, Tie-Yan Liu(参考訳) テキスト・トゥ・スピーチ(TTS)は近年,学術・産業ともに急速に進歩している。 TTSシステムが人間レベルの品質を達成できるかどうか、その品質をどうやって定義/判断し、どのように達成できるのか、という疑問が自然に生じます。 本稿では,まず主観的尺度の統計的意義に基づいて人間レベルの品質を定義し,それを判断するための適切なガイドラインを導入し,次いで,ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発する。 具体的には、エンドツーエンドテキストから波形生成のための変分オートエンコーダ(vae)を活用し、テキストからの事前のキャパシティを高め、音素事前学習、微分可能持続時間モデリング、双方向前/後処理モデリング、vaeにおけるメモリ機構など、音声から後続の複雑さを低減させる。 一般的なljspeechデータセットにおける実験評価により,提案手法は文レベルでの人間記録に対して-0.01 cmos(比較平均評価スコア)を達成し,pレベルp >> 0.05ではウィルコクソンが署名したランクテストを行い,このデータセットで初めてヒト記録と統計的に有意な差は認められなかった。

Text to speech (TTS) has made rapid progress in both academia and industry in recent years. Some questions naturally arise that whether a TTS system can achieve human-level quality, how to define/judge that quality and how to achieve it. In this paper, we answer these questions by first defining the human-level quality based on the statistical significance of subjective measure and introducing appropriate guidelines to judge it, and then developing a TTS system called NaturalSpeech that achieves human-level quality on a benchmark dataset. Specifically, we leverage a variational autoencoder (VAE) for end-to-end text to waveform generation, with several key modules to enhance the capacity of the prior from text and reduce the complexity of the posterior from speech, including phoneme pre-training, differentiable duration modeling, bidirectional prior/posterior modeling, and a memory mechanism in VAE. Experiment evaluations on popular LJSpeech dataset show that our proposed NaturalSpeech achieves -0.01 CMOS (comparative mean opinion score) to human recordings at the sentence level, with Wilcoxon signed rank test at p-level p >> 0.05, which demonstrates no statistically significant difference from human recordings for the first time on this dataset.
翻訳日:2022-05-12 17:20:47 公開日:2022-05-10
# 進歩型自律対話エージェントを目指して

Towards a Progression-Aware Autonomous Dialogue Agent ( http://arxiv.org/abs/2205.03692v2 )

ライセンス: Link先を確認
Abraham Sanders, Tomek Strzalkowski, Mei Si, Albert Chang, Deepanshu Dey, Jonas Braasch, Dakuo Wang(参考訳) 近年の大規模言語モデリングと生成の進歩により、一般的なチャットから目標指向の談話まで多岐にわたる会話シナリオにおいて、人間のような応答を示す対話エージェントの作成が可能になった。 これらのエージェントは、事前の文脈に関連する高品質な応答を生成するのに優れていますが、会話が進む方向全体に対する認識の欠如と、タスクの成功の可能性に悩まされています。 そこで本研究では,対話エージェントが対話の進行を望ましい結果から遠ざかることができる枠組みを提案し,この信号を用いてその後の応答の計画を立てる。 本フレームワークは,(1)「グローバル」対話状態(GDS)空間の概念,(2)会話の軌跡から計算したタスク固有進行関数(PF),(3)エージェントが進行信号を用いて次の応答を選択するための対話ロールアウトに基づく計画機構の3つの重要な要素から構成される。

Recent advances in large-scale language modeling and generation have enabled the creation of dialogue agents that exhibit human-like responses in a wide range of conversational scenarios spanning a diverse set of tasks, from general chit-chat to focused goal-oriented discourse. While these agents excel at generating high-quality responses that are relevant to prior context, they suffer from a lack of awareness of the overall direction in which the conversation is headed, and the likelihood of task success inherent therein. Thus, we propose a framework in which dialogue agents can evaluate the progression of a conversation toward or away from desired outcomes, and use this signal to inform planning for subsequent responses. Our framework is composed of three key elements: (1) the notion of a "global" dialogue state (GDS) space, (2) a task-specific progression function (PF) computed in terms of a conversation's trajectory through this space, and (3) a planning mechanism based on dialogue rollouts by which an agent may use progression signals to select its next response.
翻訳日:2022-05-12 17:19:15 公開日:2022-05-10
# メタラーニングに基づくフェデレーション設定における知識グラフの知識外挿

Meta-Learning Based Knowledge Extrapolation for Knowledge Graphs in the Federated Setting ( http://arxiv.org/abs/2205.04692v1 )

ライセンス: Link先を確認
Mingyang Chen, Wen Zhang, Zhen Yao, Xiangnan Chen, Mengxiao Ding, Fei Huang, Huajun Chen(参考訳) 本研究では,新たな知識グラフ(kgs)を組み込んだ新しい要素(エンティティとリレーション)をフェデレーション環境で組み込むための知識外挿問題について検討する。 この問題では、既存のKGでトレーニングされたモデルが、未知の実体と関係を持つ新しいKGを組み込む必要がある。 そこで本研究では,既存のKG上で一連のタスクをサンプル化し,新たなKG上でのリンク予測タスクを模倣するメタラーニング設定を提案する。 サンプルタスクに基づいてグラフニューラルネットワークフレームワークをメタトレーニングし,構造情報に基づく未知のコンポーネントの機能の構築と,それらに対する出力埋め込みを実現する。 実験の結果,本手法は従来のkg埋め込み法を直接使用するkgsおよびベースラインのインダクティブ設定を考慮した非センシングコンポーネントを効果的に組み込むことができることがわかった。

We study the knowledge extrapolation problem to embed new components (i.e., entities and relations) that come with emerging knowledge graphs (KGs) in the federated setting. In this problem, a model trained on an existing KG needs to embed an emerging KG with unseen entities and relations. To solve this problem, we introduce the meta-learning setting, where a set of tasks are sampled on the existing KG to mimic the link prediction task on the emerging KG. Based on sampled tasks, we meta-train a graph neural network framework that can construct features for unseen components based on structural information and output embeddings for them. Experimental results show that our proposed method can effectively embed unseen components and outperforms models that consider inductive settings for KGs and baselines that directly use conventional KG embedding methods.
翻訳日:2022-05-12 17:18:56 公開日:2022-05-10
# 対話参加者の文外属性の制御--英語からポーランド語への翻訳を事例として

Controlling Extra-Textual Attributes about Dialogue Participants: A Case Study of English-to-Polish Neural Machine Translation ( http://arxiv.org/abs/2205.04747v1 )

ライセンス: Link先を確認
Sebastian T. Vincent, Lo\"ic Barrault, Carolina Scarton(参考訳) 英語と異なり、形態学的にリッチな言語は話者やその会話相手(性別や数など)の特徴を代名詞、単語の形態的終末語、構文を通して明らかにすることができる。 英語からそのような言語に翻訳する場合、機械翻訳モデルは、テキストコンテキストの特定の解釈を選択する必要がある。 我々は、この課題を英語からポーランド語への方向で検討する。 本稿では,テレビ対話の自動翻訳における外部メタデータの利用という未調査の問題に焦点をあて,多属性シナリオにおいて,翻訳の属性を制御するための幅広いアプローチを採用するケーススタディを提案する。 最高のモデルでは+5.81 chrF++/+6.03 BLEUが向上し、他のモデルでは競争性能が向上した。 さらに,ポーランド語テレビ対話の属性注釈付きデータセットと,モデルにおける属性制御を評価するための形態素解析スクリプトも提供した。

Unlike English, morphologically rich languages can reveal characteristics of speakers or their conversational partners, such as gender and number, via pronouns, morphological endings of words and syntax. When translating from English to such languages, a machine translation model needs to opt for a certain interpretation of textual context, which may lead to serious translation errors if extra-textual information is unavailable. We investigate this challenge in the English-to-Polish language direction. We focus on the underresearched problem of utilising external metadata in automatic translation of TV dialogue, proposing a case study where a wide range of approaches for controlling attributes in translation is employed in a multi-attribute scenario. The best model achieves an improvement of +5.81 chrF++/+6.03 BLEU, with other models achieving competitive performance. We additionally contribute a novel attribute-annotated dataset of Polish TV dialogue and a morphological analysis script used to evaluate attribute control in models.
翻訳日:2022-05-12 17:18:32 公開日:2022-05-10
# 高周波単語の類似性埋め込み尺度としてのコサインの問題点

Problems with Cosine as a Measure of Embedding Similarity for High Frequency Words ( http://arxiv.org/abs/2205.05092v1 )

ライセンス: Link先を確認
Kaitlyn Zhou, Kawin Ethayarajh, Dallas Card, Dan Jurafsky(参考訳) 文脈埋め込みのコサイン類似性は多くのNLPタスク(QA、IR、MTなど)とメトリクス(BERTScoreなど)で使用されている。 ここでは,BERT埋め込みよりもコサインによって推定される単語の類似性を過小評価し,この効果をデータ周波数の訓練に用いた。 人間の判断と比較すると、コサインの類似性は、多義語やその他の要因を制御した後でも、同じ単語または他の単語の他の例との類似性を過小評価している。 この高周波語に対する類似性の過小評価は、高頻度語と低頻度語の表現幾何学の違いによるものと推測し、2次元の場合の形式的議論を提供する。

Cosine similarity of contextual embeddings is used in many NLP tasks (e.g., QA, IR, MT) and metrics (e.g., BERTScore). Here, we uncover systematic ways in which word similarities estimated by cosine over BERT embeddings are understated and trace this effect to training data frequency. We find that relative to human judgements, cosine similarity underestimates the similarity of frequent words with other instances of the same word or other words across contexts, even after controlling for polysemy and other factors. We conjecture that this underestimation of similarity for high frequency words is due to differences in the representational geometry of high and low frequency words and provide a formal argument for the two-dimensional case.
翻訳日:2022-05-12 17:18:16 公開日:2022-05-10
# 富裕国や富裕層は

Richer Countries and Richer Representations ( http://arxiv.org/abs/2205.05093v1 )

ライセンス: Link先を確認
Kaitlyn Zhou, Kawin Ethayarajh, Dan Jurafsky(参考訳) 埋め込み空間において他の国よりも豊かな表現がされている国があるかどうかを検討する。 トレーニングコーパスの頻度が低い国は、サブワードにトークン化される傾向があり、埋め込み空間では意味的に区別されにくく、正しく予測される可能性が低い。 これらの性能格差と代表的損害は頻度によるものであるが、その頻度は国のgdpと高い相関関係にあり、歴史的権力と富の不平等を持続する。 我々は緩和戦略の有効性を分析し、研究者は単語頻度の訓練を報告することを推奨し、コミュニティが表現保証を定義し設計することを推奨する。

We examine whether some countries are more richly represented in embedding space than others. We find that countries whose names occur with low frequency in training corpora are more likely to be tokenized into subwords, are less semantically distinct in embedding space, and are less likely to be correctly predicted: e.g., Ghana (the correct answer and in-vocabulary) is not predicted for, "The country producing the most cocoa is [MASK].". Although these performance discrepancies and representational harms are due to frequency, we find that frequency is highly correlated with a country's GDP; thus perpetuating historic power and wealth inequalities. We analyze the effectiveness of mitigation strategies; recommend that researchers report training word frequencies; and recommend future work for the community to define and design representational guarantees.
翻訳日:2022-05-12 17:18:01 公開日:2022-05-10
# KEMP:長期軌道予測のための鍵フレームに基づく階層型エンドツーエンド深部モデル

KEMP: Keyframe-Based Hierarchical End-to-End Deep Model for Long-Term Trajectory Prediction ( http://arxiv.org/abs/2205.04624v1 )

ライセンス: Link先を確認
Qiujing Lu, Weiqiao Han, Jeffrey Ling, Minfa Wang, Haoyu Chen, Balakrishnan Varadarajan, Paul Covington(参考訳) 道路エージェントの将来の軌道予測は自動運転にとって重要な課題である。 DenseTNTやPECNetのような最近の目標に基づく軌道予測手法は、公開データセット上の予測タスクに優れた性能を示す。 しかし、それらは通常複雑なゴール選択アルゴリズムと最適化を必要とする。 本研究では,軌跡予測のための階層型エンドツーエンドディープラーニングフレームワークであるkempを提案する。 私たちのフレームワークの中核は、キーフレームベースの軌道予測(keyframe-based trajectory prediction)です。 KEMPはまず、ロードコンテキストで条件付けられたキーフレームを予測し、キーフレームとロードコンテキストで条件付けられた中間状態を埋める。 一般的なフレームワークでは、目標条件付きメソッドはキーフレームの数を1に等しい特別なケースです。 目標条件付き手法とは異なり、キーフレーム予測器は自動的に学習され、手作りの目標選択アルゴリズムを必要としない。 公開ベンチマークで評価し,waymo open motion dataset leaderboard(2021年9月1日現在)で第1位となった。

Predicting future trajectories of road agents is a critical task for autonomous driving. Recent goal-based trajectory prediction methods, such as DenseTNT and PECNet, have shown good performance on prediction tasks on public datasets. However, they usually require complicated goal-selection algorithms and optimization. In this work, we propose KEMP, a hierarchical end-to-end deep learning framework for trajectory prediction. At the core of our framework is keyframe-based trajectory prediction, where keyframes are representative states that trace out the general direction of the trajectory. KEMP first predicts keyframes conditioned on the road context, and then fills in intermediate states conditioned on the keyframes and the road context. Under our general framework, goal-conditioned methods are special cases in which the number of keyframes equal to one. Unlike goal-conditioned methods, our keyframe predictor is learned automatically and does not require hand-crafted goal-selection algorithms. We evaluate our model on public benchmarks and our model ranked 1st on Waymo Open Motion Dataset Leaderboard (as of September 1, 2021).
翻訳日:2022-05-12 16:48:03 公開日:2022-05-10