このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211230となっている論文です。

PDF登録状況(公開日: 20211230)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 次世代無線ネットワークにおける機械学習と人工知能 [全文訳有]

Machine Learning and Artificial Intelligence in Next-Generation Wireless Network ( http://arxiv.org/abs/2202.01690v1 )

ライセンス: CC BY 4.0
Wafeeq Iqbal, Wei Wang, Ting Zhu(参考訳) テクノロジーの進歩により、次世代無線ネットワークは非常に多様で複雑で、消費者の要求の変化に応じている。 現在のネットワークオペレーターの方法論とアプローチは従来的であり、次世代ネットワークがリソースを最も適切に利用するのを助けることはできない。 従来のツールの能力に制限があるため、ネットワークプロバイダは将来、ネットワークの加入者の要求を満たすことはできない。 そこで本稿では,次世代無線ネットワークの容量と有効性を向上させるため,機械学習,オートメーション,人工知能,ビッグデータ分析に注目する。 本稿では,今後のネットワークプロバイダのサービスとパフォーマンス向上におけるこれらの新技術の役割について論じる。 この論文は、機械学習、ビッグデータ分析、人工知能が、次世代ワイヤレスネットワークを自己適応、自己認識、規範、そして積極的にするのに役立つことを明らかにする。 論文の最後には、将来の無線ネットワークオペレーターが、運用フレームワークをAIや機械学習技術にシフトせずには働けないことが述べられている。

Due to the advancement in technologies, the next-generation wireless network will be very diverse, complicated, and according to the changed demands of the consumers. The current network operator methodologies and approaches are traditional and cannot help the next generation networks to utilize their resources most appropriately. The limited capability of the traditional tools will not allow the network providers to fulfill the demands of the network's subscribers in the future. Therefore, this paper will focus on machine learning, automation, artificial intelligence, and big data analytics for improving the capacity and effectiveness of next-generation wireless networks. The paper will discuss the role of these new technologies in improving the service and performance of the network providers in the future. The paper will find out that machine learning, big data analytics, and artificial intelligence will help in making the next-generation wireless network self-adaptive, self-aware, prescriptive, and proactive. At the end of the paper, it will be provided that future wireless network operators cannot work without shifting their operational framework to AI and machine learning technologies.
翻訳日:2022-02-06 13:20:05 公開日:2021-12-30
# 脳信号分析に基づく深層学習法:非侵襲的脳信号研究の最近の進歩

Brain Signals Analysis Based Deep Learning Methods: Recent advances in the study of non-invasive brain signals ( http://arxiv.org/abs/2201.04229v1 )

ライセンス: Link先を確認
Almabrok Essa and Hari Kotte(参考訳) 脳信号は、何百万もの脳ニューロン(神経細胞と脳細胞)によって処理される情報を構成する。 これらの脳信号は脳波(EEG)、脳磁図(MEG)、磁気共鳴画像(MRI)、CT(CT)などの脳イメージング技術などの非侵襲的手法を用いて記録・解析することができる。 本稿では、これらの脳信号の解析に異なるディープラーニング(dl)アルゴリズムを用いることや、これらのアルゴリズムが信号復号戦略を適用して人の神経学的状態を決定するのにどのように役立つかについて述べる。

Brain signals constitute the information that are processed by millions of brain neurons (nerve cells and brain cells). These brain signals can be recorded and analyzed using various of non-invasive techniques such as the Electroencephalograp h (EEG), Magneto-encephalogra ph (MEG) as well as brain-imaging techniques such as Magnetic Resonance Imaging (MRI), Computed Tomography (CT) and others, which will be discussed briefly in this paper. This paper discusses about the currently emerging techniques such as the usage of different Deep Learning (DL) algorithms for the analysis of these brain signals and how these algorithms will be helpful in determining the neurological status of a person by applying the signal decoding strategy.
翻訳日:2022-01-16 16:20:47 公開日:2021-12-30
# (参考訳) オランダ全1000万棟のLoD2モデルとLoD1モデルの自動3D再構築 [全文訳有]

Automated 3D reconstruction of LoD2 and LoD1 models for all 10 million buildings of the Netherlands ( http://arxiv.org/abs/2201.01191v1 )

ライセンス: CC BY 4.0
Ravi Peters, Bal\'azs Dukai, Stelios Vitalis, Jordi van Liempt, Jantien Stoter(参考訳) 本稿では,2次元ビルディングポリゴンとLiDAR点雲に基づく3次元ビルディングモデルの自動再構成を行うワークフローを提案する。 ワークフローは異なるレベルの詳細(LoD)でモデルを生成し、ひとつの一貫性のあるソースから異なるアプリケーションのデータ要求をサポートする。 アルゴリズムの改善や新しい入力データが利用可能になった場合、ワークフローを堅牢にすることで、新しいイテレーションを迅速に実行することができる。 再構成されたデータの質は入力データの品質に大きく依存し、プロセスのいくつかのステップで監視される。 3Dビューアが開発され、様々なフォーマットで利用可能な3Dデータを公開してダウンロードできるようになった。 このワークフローはオランダの1000万の建物すべてに適用されている。 新しい入力データが利用可能になったら、3Dサービスは更新される。

In this paper we present our workflow to automatically reconstruct 3D building models based on 2D building polygons and a LiDAR point cloud. The workflow generates models at different levels of detail (LoDs) to support data requirements of different applications from one consistent source. Specific attention has been paid to make the workflow robust to quickly run a new iteration in case of improvements in an algorithm or in case new input data become available. The quality of the reconstructed data highly depends on the quality of the input data and is monitored in several steps of the process. A 3D viewer has been developed to view and download the openly available 3D data at different LoDs in different formats. The workflow has been applied to all 10 million buildings of The Netherlands. The 3D service will be updated after new input data becomes available.
翻訳日:2022-01-09 14:10:36 公開日:2021-12-30
# (参考訳) 宇宙画像からの滑走路抽出とマッピングの改善 [全文訳有]

Runway Extraction and Improved Mapping from Space Imagery ( http://arxiv.org/abs/2201.00848v1 )

ライセンス: CC BY-SA 4.0
David A. Noever(参考訳) 空港滑走路などの主要インフラの監視に適用される変更検出手法は、災害救助や都市計画において重要な機能である。 本研究は、可塑性滑走路マップと衛星画像の間で可逆的に変換される2つの生成逆ネットワーク(GAN)アーキテクチャを同定する。 我々は、同じ視点からペア画像(サテライトマップ)を用いて、Pix2Pixアーキテクチャや条件付きGANを用いてトレーニング能力を説明する。 同様に、4つのネットワークヘッド(判別子-生成子ペア)を持つサイクガンアーキテクチャは、生の画像ピクセルからアウトラインやフィーチャーマップへの効果的なスタイル転送を提供することができる。 滑走路とターマックの境界を強調するために,従来のグレータンマップパレットは必要なトレーニング入力ではなく,より鋭い滑走路境界のための高コントラストマッピングパレット(赤黒)によって拡張可能であることを示す。 我々は、人間がほぼ現在の滑走路の境界を描き、可視衛星画像の機械出力を自動化する新しいユースケース(sketch2satellite)をプレビューする。 最後に, 衛星と地図化された滑走路が一致しないが, 自動更新でGANを用いて正しい地図を描画する異常な滑走路マップの例を特定する。

Change detection methods applied to monitoring key infrastructure like airport runways represent an important capability for disaster relief and urban planning. The present work identifies two generative adversarial networks (GAN) architectures that translate reversibly between plausible runway maps and satellite imagery. We illustrate the training capability using paired images (satellite-map) from the same point of view and using the Pix2Pix architecture or conditional GANs. In the absence of available pairs, we likewise show that CycleGAN architectures with four network heads (discriminator-gener ator pairs) can also provide effective style transfer from raw image pixels to outline or feature maps. To emphasize the runway and tarmac boundaries, we experimentally show that the traditional grey-tan map palette is not a required training input but can be augmented by higher contrast mapping palettes (red-black) for sharper runway boundaries. We preview a potentially novel use case (called "sketch2satellite&quo t;) where a human roughly draws the current runway boundaries and automates the machine output of plausible satellite images. Finally, we identify examples of faulty runway maps where the published satellite and mapped runways disagree but an automated update renders the correct map using GANs.
翻訳日:2022-01-09 12:54:49 公開日:2021-12-30
# ノイズと不均衡データを取り込むためにサンプル損失曲線を掘り下げる

Delving into Sample Loss Curve to Embrace Noisy and Imbalanced Data ( http://arxiv.org/abs/2201.00849v1 )

ライセンス: Link先を確認
Shenwang Jiang, Jianan Li, Ying Wang, Bo Huang, Zhang Zhang, Tingfa Xu(参考訳) 破損したラベルとクラス不均衡は、実際に収集されたトレーニングデータでよく見られ、ディープニューラルネットワーク(DNN)の過度な適合につながる。 既存のアプローチは、重み関数を設計してサンプルを再重み付け戦略を採用することでこれらの問題を緩和する。 しかし、これは1つの種類のデータバイアスのみを含むトレーニングデータにのみ適用できる。 しかし実際には、ラベルの破損したサンプルと、訓練データに一般的に共存する尾行クラスに偏りがあった。 同時に処理する方法は重要な問題ですが、未解決の問題です。 本稿では, この2種類の偏りは, 透過的損失に類似するが, 損失曲線の傾向と特性を区別し, 試料の重量割り当てに有意な先行性を与える可能性が示唆された。 Motivated by this, we delve into the loss curves and propose a novel probe-and-allocate training strategy: In the probing stage, we train the network on the whole biased training data without intervention, and record the loss curve of each sample as an additional attribute; In the allocating stage, we feed the resulting attribute to a newly designed curve-perception network, named CurveNet, to learn to identify the bias type of each sample and assign proper weights through meta-learning adaptively. メタ学習のトレーニング速度も、その応用を妨げている。 そこで本研究では,スキップ層メタ最適化(SLMO)と呼ばれる手法を提案する。 広範囲にわたる合成および実実験は、複数の挑戦的ベンチマークで最先端のパフォーマンスを実現する提案手法をよく検証している。

Corrupted labels and class imbalance are commonly encountered in practically collected training data, which easily leads to over-fitting of deep neural networks (DNNs). Existing approaches alleviate these issues by adopting a sample re-weighting strategy, which is to re-weight sample by designing weighting function. However, it is only applicable for training data containing only either one type of data biases. In practice, however, biased samples with corrupted labels and of tailed classes commonly co-exist in training data. How to handle them simultaneously is a key but under-explored problem. In this paper, we find that these two types of biased samples, though have similar transient loss, have distinguishable trend and characteristics in loss curves, which could provide valuable priors for sample weight assignment. Motivated by this, we delve into the loss curves and propose a novel probe-and-allocate training strategy: In the probing stage, we train the network on the whole biased training data without intervention, and record the loss curve of each sample as an additional attribute; In the allocating stage, we feed the resulting attribute to a newly designed curve-perception network, named CurveNet, to learn to identify the bias type of each sample and assign proper weights through meta-learning adaptively. The training speed of meta learning also blocks its application. To solve it, we propose a method named skip layer meta optimization (SLMO) to accelerate training speed by skipping the bottom layers. Extensive synthetic and real experiments well validate the proposed method, which achieves state-of-the-art performance on multiple challenging benchmarks.
翻訳日:2022-01-09 12:43:14 公開日:2021-12-30
# (参考訳) 機械学習と統計的アプローチを用いた脳卒中患者の静止予測長に関する文献レビュー [全文訳有]

A Literature Review on Length of Stay Prediction for Stroke Patients using Machine Learning and Statistical Approaches ( http://arxiv.org/abs/2201.00005v1 )

ライセンス: CC BY-SA 4.0
Ola Alkhatib and Ayman Alahmar(参考訳) 病院滞在時間(LOS)は、病院のサービス品質を反映し、病院のスケジュールと管理を改善するための最も重要な医療指標の1つである。 LOS予測は、病院に留まる患者は通常、資源が著しく制限されている病院で行うため、コスト管理に役立つ。 本研究では,機械学習と統計的アプローチを用いたLOS予測に関する論文をレビューした。 本研究は脳卒中患者のLOS予測に焦点をあてた研究を考察する。 調査の結果、著者が矛盾する結論に達したことが判明した。 例えば、脳卒中患者の年齢はLOSの重要な予測因子と考えられ、他の研究では年齢が重要な要因ではないと結論付けている。 したがって、脳卒中患者のLOS予測因子をより理解するために、この領域ではさらなる研究が必要である。

Hospital length of stay (LOS) is one of the most essential healthcare metrics that reflects the hospital quality of service and helps improve hospital scheduling and management. LOS prediction helps in cost management because patients who remain in hospitals usually do so in hospital units where resources are severely limited. In this study, we reviewed papers on LOS prediction using machine learning and statistical approaches. Our literature review considers research studies that focus on LOS prediction for stroke patients. Some of the surveyed studies revealed that authors reached contradicting conclusions. For example, the age of the patient was considered an important predictor of LOS for stroke patients in some studies, while other studies concluded that age was not a significant factor. Therefore, additional research is required in this domain to further understand the predictors of LOS for stroke patients.
翻訳日:2022-01-05 05:08:05 公開日:2021-12-30
# (参考訳) 信頼度最適化スコアの増補的説明と分布的ギャップ [全文訳有]

Augmentative eXplanation and the Distributional Gap of Confidence Optimization Score ( http://arxiv.org/abs/2201.00009v1 )

ライセンス: CC BY 4.0
Erico Tjoa, Hong Jing Khok, Tushar Chouhan, Guan Cuntai(参考訳) 本稿では, 信頼度最適化(CO)スコアを導入し, モデルの分類性能に対するヒートマップ/サービスマップの寄与を直接測定する。 eXplainable Artificial Intelligence (XAI)コミュニティで使用される一般的なヒートマップ生成方法は、Augmentative eXplanation (AX)と呼ばれるプロセスを通じてテストされる。 これらのヒートマップ法で co スコア分布に驚くべき \textit{gap} が現れる。 このギャップは、ディープニューラルネットワーク(dnn)予測の正確性の新しい指標となる可能性がある。 さらに,高CO値が得られるようなサリエンシマップを生成するGAX(Generative AX)手法についても紹介する。 また,GAXを用いてDNNアーキテクチャの非直感性を定性的に示す。

This paper introduces the Confidence Optimization (CO) score to directly measure the contribution of heatmaps/saliency maps to the classification performance of a model. Common heatmap generation methods used in the eXplainable Artificial Intelligence (XAI) community are tested through a process we call the Augmentative eXplanation (AX). We find a surprising \textit{gap} in CO scores distribution on these heatmap methods. The gap potentially serves as a novel indicator for the correctness of deep neural network (DNN) prediction. We further introduces Generative AX (GAX) method to generate saliency maps capable of attaining high CO scores. Using GAX, we also qualitatively demonstrate the unintuitiveness of DNN architectures.
翻訳日:2022-01-05 04:57:07 公開日:2021-12-30
# (参考訳) Deep Learning Interviews: AIのさまざまな重要なトピックから、何百もの完全に解決された求人面接の質問

Deep Learning Interviews: Hundreds of fully solved job interview questions from a wide range of key topics in AI ( http://arxiv.org/abs/2201.00650v1 )

ライセンス: CC BY 4.0
Shlomo Kashani, Amir Ivry(参考訳) deep learning interviewsの第2版には、aiのさまざまな重要なトピックから、完全に解決された何百もの問題がある。 面接や特定のトピックをリハーサルしたり、機械学習のM.Scを提供するように設計されている。 /Ph.D。 面接を待っている学生は、その分野の概要をよく整理した。 歯を切ったり、スキルを劇的に向上させるのに十分な問題はありますが、それは思慮に富んだ質問やエンゲージメントストーリーに収まっています。 学生や求職者にとって、このボリュームが特に価値があるのは、あらゆるトピックについて自信を持って素早く話すことができ、技術的な質問に明確かつ正しく答えることができ、インタビューの質問や回答の目的と意味を十分に理解することができます。 それらは、面接室に入る際には、強力で必須のアドバンテージだ。 本書の内容は、DLの面接や大学院レベルの試験に関連する多くのトピックの目録である。 この研究は、科学における成長傾向の最前線に置かれ、実用数学と計算のスキルのコアセットを教える。 すべてのコンピュータ科学者の訓練はMLの基本定理を含む必要があり、AIはほとんど全ての大学のカリキュラムに現れることが広く受け入れられている。 この巻は、これらのプログラムの卒業生の優れた参考書として設計されている。

The second edition of Deep Learning Interviews is home to hundreds of fully-solved problems, from a wide range of key topics in AI. It is designed to both rehearse interview or exam specific topics and provide machine learning M.Sc./Ph.D. students, and those awaiting an interview a well-organized overview of the field. The problems it poses are tough enough to cut your teeth on and to dramatically improve your skills-but they're framed within thought-provoking questions and engaging stories. That is what makes the volume so specifically valuable to students and job seekers: it provides them with the ability to speak confidently and quickly on any relevant topic, to answer technical questions clearly and correctly, and to fully understand the purpose and meaning of interview questions and answers. Those are powerful, indispensable advantages to have when walking into the interview room. The book's contents is a large inventory of numerous topics relevant to DL job interviews and graduate level exams. That places this work at the forefront of the growing trend in science to teach a core set of practical mathematical and computational skills. It is widely accepted that the training of every computer scientist must include the fundamental theorems of ML, and AI appears in the curriculum of nearly every university. This volume is designed as an excellent reference for graduates of such programs.
翻訳日:2022-01-05 04:41:01 公開日:2021-12-30
# (参考訳) マルチタスク時系列分類のための効率的フェデレート蒸留学習システム [全文訳有]

An Efficient Federated Distillation Learning System for Multi-task Time Series Classification ( http://arxiv.org/abs/2201.00011v1 )

ライセンス: CC BY 4.0
Huanlai Xing, Zhiwen Xiao, Rong Qu, Zonghai Zhu, and Bowen Zhao(参考訳) 本稿では,マルチタスク時系列分類(TSC)のための効率的なフェデレート蒸留学習システム(EFDLS)を提案する。 EFDLSは中央サーバと複数のモバイルユーザで構成されており、異なるユーザが異なるTSCタスクを実行することができる。 EFDLSには、FBST(Feature-based student-Teacher)フレームワークとDBWM(Trange-based weights matching)スキームという、2つの新しいコンポーネントがある。 各ユーザ内において、FBSTフレームワークは、教師と生徒が同一のネットワーク構造を持っていて、教師の隠れた層から生徒の隠れた層へ知識を伝達する。 接続されたユーザ毎に、学生モデルの隠されたレイヤの重みがEFDLSサーバに定期的にアップロードされる。 DBWMスキームはサーバ上に展開され、2つのモデルの重みの類似度を測定するために最小2乗距離を使用する。 このスキームは、各接続ユーザに対して、アップロードされたすべての重みのうち、ユーザとそのパートナーの重みが最も近いようにパートナーを見つける。 サーバは、ユーザとそのパートナーの重みをこの2つのユーザに送ると、受信した重みを教師の隠れた層にロードする。 実験結果から,提案するEFDLSは,トップ1の精度で選択したUCR2018データセットに対して優れた性能を示すことが示された。

This paper proposes an efficient federated distillation learning system (EFDLS) for multi-task time series classification (TSC). EFDLS consists of a central server and multiple mobile users, where different users may run different TSC tasks. EFDLS has two novel components, namely a feature-based student-teacher (FBST) framework and a distance-based weights matching (DBWM) scheme. Within each user, the FBST framework transfers knowledge from its teacher's hidden layers to its student's hidden layers via knowledge distillation, with the teacher and student having identical network structure. For each connected user, its student model's hidden layers' weights are uploaded to the EFDLS server periodically. The DBWM scheme is deployed on the server, with the least square distance used to measure the similarity between the weights of two given models. This scheme finds a partner for each connected user such that the user's and its partner's weights are the closest among all the weights uploaded. The server exchanges and sends back the user's and its partner's weights to these two users which then load the received weights to their teachers' hidden layers. Experimental results show that the proposed EFDLS achieves excellent performance on a set of selected UCR2018 datasets regarding top-1 accuracy.
翻訳日:2022-01-05 04:39:33 公開日:2021-12-30
# (参考訳) モラル:多目的強化アクティブラーニングによる人間ノルムによるAIの調整 [全文訳有]

MORAL: Aligning AI with Human Norms through Multi-Objective Reinforced Active Learning ( http://arxiv.org/abs/2201.00012v1 )

ライセンス: CC BY 4.0
Markus Peschl, Arkady Zgonnikov, Frans A. Oliehoek, Luciano C. Siebert(参考訳) デモンストレーションやペアワイズによる報酬関数の推測は、強化学習(rl)エージェントを人間の意図に合わせるための好意的なアプローチである。 しかし、最先端の手法は一般的に単一の報酬モデルを学ぶことに集中しているため、複数の専門家から異なる報酬関数を交換することは困難である。 本研究では,多目的強化アクティブラーニング(moral,multi-objecti ve reinforced active learning)を提案する。 スカラー化重みの分布を維持することにより,複数のポリシーの計算を不要にしつつ,多種多様な選好に対して深いrlエージェントをインタラクティブにチューニングすることができる。 我々は,納品をモデル化する2つのシナリオにおいて,モラルの有効性を実証的に実証する。 全体として,本研究は学習報酬を伴う多目的rlへの一歩であり,現在の報酬学習と機械倫理文献とのギャップを橋渡ししている。

Inferring reward functions from demonstrations and pairwise preferences are auspicious approaches for aligning Reinforcement Learning (RL) agents with human intentions. However, state-of-the art methods typically focus on learning a single reward model, thus rendering it difficult to trade off different reward functions from multiple experts. We propose Multi-Objective Reinforced Active Learning (MORAL), a novel method for combining diverse demonstrations of social norms into a Pareto-optimal policy. Through maintaining a distribution over scalarization weights, our approach is able to interactively tune a deep RL agent towards a variety of preferences, while eliminating the need for computing multiple policies. We empirically demonstrate the effectiveness of MORAL in two scenarios, which model a delivery and an emergency task that require an agent to act in the presence of normative conflicts. Overall, we consider our research a step towards multi-objective RL with learned rewards, bridging the gap between current reward learning and machine ethics literature.
翻訳日:2022-01-05 04:20:45 公開日:2021-12-30
# SAE:シリーズアンコール

SAE: Sequential Anchored Ensembles ( http://arxiv.org/abs/2201.00649v1 )

ライセンス: Link先を確認
Arnaud Delaunoy, Gilles Louppe(参考訳) ニューラルネットワークのベイズ後方の計算は、パラメータ空間の高次元性のために難しい課題である。 アンカー付きアンサンブルは、オプティマがベイジアン後方を追従するように設計されたアンカー付き損失に基づいて、ニューラルネットワークのアンサンブルを訓練することで後方に近似する。 しかし、各メンバーの訓練手順を繰り返すと、そのメンバー数が増えるにつれて、アンサンブルの訓練は計算的に高価になる。 本稿では,アンサンブルの軽量な代替品であるSequential Anchored Ensembles (SAE)を紹介する。 メンバーはスクラッチから各メンバーを訓練する代わりに、高い自己相関でサンプリングされた損失に基づいて順次訓練されるため、ニューラルネットワークの高速収束とベイズ後部の効率的な近似が可能になる。 SAEは、与えられた計算予算のために、いくつかのベンチマークでアンサンブルを上回り、他のベンチマークでは同等のパフォーマンスを示し、ベイズディープラーニングのNeurIPS 2021 Approximate Inferenceの光と拡張トラックで2位と3位を獲得した。

Computing the Bayesian posterior of a neural network is a challenging task due to the high-dimensionality of the parameter space. Anchored ensembles approximate the posterior by training an ensemble of neural networks on anchored losses designed for the optima to follow the Bayesian posterior. Training an ensemble, however, becomes computationally expensive as its number of members grows since the full training procedure is repeated for each member. In this note, we present Sequential Anchored Ensembles (SAE), a lightweight alternative to anchored ensembles. Instead of training each member of the ensemble from scratch, the members are trained sequentially on losses sampled with high auto-correlation, hence enabling fast convergence of the neural networks and efficient approximation of the Bayesian posterior. SAE outperform anchored ensembles, for a given computational budget, on some benchmarks while showing comparable performance on the others and achieved 2nd and 3rd place in the light and extended tracks of the NeurIPS 2021 Approximate Inference in Bayesian Deep Learning competition.
翻訳日:2022-01-04 14:45:29 公開日:2021-12-30
# 交通信号制御のための知識集中状態設計

Knowledge intensive state design for traffic signal control ( http://arxiv.org/abs/2201.00006v1 )

ライセンス: Link先を確認
Liang Zhang, Qiang Wu, Jianming Deng(参考訳) 交通信号制御(tsc)に強化学習(rl)技術を適用するという一般的な傾向がある。 近年、ほとんどの研究はニューラルネットワークの設計に注意を払っており、状態表現にはほとんど集中していない。 状態表現の設計はTSCに良い影響を与えますか? In this paper, we (1) propose an effective state representation as queue length of vehicles with intensive knowledge; (2) present a TSC method called MaxQueue based on our state representation approach; (3) develop a general RL-based TSC template called QL-XLight with queue length as state and reward and generate QL-FRAP, QL-CoLight, and QL-DQN by our QL-XLight template based on traditional and latest RL models.Through comprehensive experiments on multiple real-world datasets, we demonstrate that: (1) our MaxQueue method outperforms the latest RL based methods; (2) QL-FRAP and QL-CoLight achieves a new state-of-the-art (SOTA). 一般に、集中的な知識を持つ状態表現はtsc法にも不可欠である。 私たちのコードはgithubでリリースされています。

There is a general trend of applying reinforcement learning (RL) techniques for traffic signal control (TSC). Recently, most studies pay attention to the neural network design and rarely concentrate on the state representation. Does the design of state representation has a good impact on TSC? In this paper, we (1) propose an effective state representation as queue length of vehicles with intensive knowledge; (2) present a TSC method called MaxQueue based on our state representation approach; (3) develop a general RL-based TSC template called QL-XLight with queue length as state and reward and generate QL-FRAP, QL-CoLight, and QL-DQN by our QL-XLight template based on traditional and latest RL models.Through comprehensive experiments on multiple real-world datasets, we demonstrate that: (1) our MaxQueue method outperforms the latest RL based methods; (2) QL-FRAP and QL-CoLight achieves a new state-of-the-art (SOTA). In general, state representation with intensive knowledge is also essential for TSC methods. Our code is released on Github.
翻訳日:2022-01-04 13:58:42 公開日:2021-12-30
# 信頼性を考慮した多教師知識蒸留

Confidence-Aware Multi-Teacher Knowledge Distillation ( http://arxiv.org/abs/2201.00007v1 )

ライセンス: Link先を確認
Hailin Zhang, Defang Chen, Can Wang(参考訳) 知識蒸留は、当初、学生モデルトレーニングのための1つの教師モデルから追加の監督を利用するために導入された。 学生の成績を高めるため、近年では複数の教師からの多様な知識を活用しようとしている。 しかし、既存の研究では、複数の教師予測を平均化したり、他の様々なラベルフリー戦略と組み合わせることで、様々な情報源からの知識を統合している。 この問題に対処するため,教師が重み付けした1ホットラベルに近い教師予測を用いて,教師の予測に対して,各教師の信頼度を適応的に割り当てる信頼度対応多教師知識蒸留(CA-MKD)を提案する。 さらに、CA-MKDは中間層を組み込んで生徒のパフォーマンスをさらに向上させる。 総合的な実験により、我々のCA-MKDは様々な教師学生アーキテクチャで比較された最先端の手法を一貫して上回っていることが明らかとなった。

Knowledge distillation is initially introduced to utilize additional supervision from a single teacher model for the student model training. To boost the student performance, some recent variants attempt to exploit diverse knowledge sources from multiple teachers. However, existing studies mainly integrate knowledge from diverse sources by averaging over multiple teacher predictions or combining them using other various label-free strategies, which may mislead student in the presence of low-quality teacher predictions. To tackle this problem, we propose Confidence-Aware Multi-teacher Knowledge Distillation (CA-MKD), which adaptively assigns sample-wise reliability for each teacher prediction with the help of ground-truth labels, with those teacher predictions close to one-hot labels assigned large weights. Besides, CA-MKD incorporates intermediate layers to further improve student performance. Extensive experiments show that our CA-MKD consistently outperforms all compared state-of-the-art methods across various teacher-student architectures.
翻訳日:2022-01-04 13:12:42 公開日:2021-12-30
# 交通予報用軽量かつ高精度な時空間変圧器

A Lightweight and Accurate Spatial-Temporal Transformer for Traffic Forecasting ( http://arxiv.org/abs/2201.00008v1 )

ライセンス: Link先を確認
Guanyao Li, Shuhan Zhong, Letian Xiang, S.-H. Gary Chan, Ruiyuan Li, Chih-Chieh Hung, Wen-Chih Peng(参考訳) 本研究では,地域間の動的・周期的・共同的空間的依存を伴う交通の予測問題について検討する。 都市内の時間スロット0からt-1までの流入・流出トラフィックの総和を考慮し,任意の地域での時間t時のトラフィックを予測する。 この分野の先行技術は、多くの場合、空間的および時間的依存関係を分離した方法で考慮するか、あるいは多くのハイパーパラメータをチューニングしたトレーニングにおいて計算的に集中している。 交通予測のための情報融合と領域サンプリングを備えた新しい,軽量かつ高精度な空間時間変換器ST-TISを提案する。 ST-TISは情報融合と領域サンプリングにより標準変換器を拡張する。 情報融合モジュールは、領域間の複雑な空間-時間依存をキャプチャする。 領域サンプリングモジュールは、効率と予測精度を向上し、依存関係学習の計算複雑性を、nが領域数である$o(n^2)$から$o(n\sqrt{n})$に削減する。 最先端モデルよりもパラメータがはるかに少ないため、トレーニング時間とネットワークパラメータの最大90\%の削減で、チューニングと計算の点で、我々のモデルのオフライントレーニングは大幅に高速になります。 このようなトレーニングの効率にもかかわらず、広範な実験により、ST-TISは最先端のアプローチよりもオンラインの予測においてかなり正確であることが示されている(RMSEでは111\%、MAPEでは114\%)。

We study the forecasting problem for traffic with dynamic, possibly periodical, and joint spatial-temporal dependency between regions. Given the aggregated inflow and outflow traffic of regions in a city from time slots 0 to t-1, we predict the traffic at time t at any region. Prior arts in the area often consider the spatial and temporal dependencies in a decoupled manner or are rather computationally intensive in training with a large number of hyper-parameters to tune. We propose ST-TIS, a novel, lightweight, and accurate Spatial-Temporal Transformer with information fusion and region sampling for traffic forecasting. ST-TIS extends the canonical Transformer with information fusion and region sampling. The information fusion module captures the complex spatial-temporal dependency between regions. The region sampling module is to improve the efficiency and prediction accuracy, cutting the computation complexity for dependency learning from $O(n^2)$ to $O(n\sqrt{n})$, where n is the number of regions. With far fewer parameters than state-of-the-art models, the offline training of our model is significantly faster in terms of tuning and computation (with a reduction of up to $90\%$ on training time and network parameters). Notwithstanding such training efficiency, extensive experiments show that ST-TIS is substantially more accurate in online prediction than state-of-the-art approaches (with an average improvement of up to $11\%$ on RMSE, $14\%$ on MAPE).
翻訳日:2022-01-04 13:12:25 公開日:2021-12-30
# (参考訳) QEMind:AlibabaがWMT21品質評価共有タスクを提出 [全文訳有]

QEMind: Alibaba's Submission to the WMT21 Quality Estimation Shared Task ( http://arxiv.org/abs/2112.14890v1 )

ライセンス: CC BY 4.0
Jiayi Wang, Ke Wang, Boxing Chen, Yu Zhao, Weihua Luo, and Yuqi Zhang(参考訳) 機械翻訳における品質管理の重要なステップである品質推定は、長年にわたって研究されてきた。 本研究の目的は,機械翻訳結果の品質を基準翻訳なしで推定する自動手法を検討することである。 今年のWMT QE共有タスクでは、大規模なXLM-Roberta事前学習モデルを使用し、翻訳の不確実性を評価してQEシステムを構築する上で有用ないくつかの特徴である「textit{QEMind}」を提案する。 本システムは、直接評価の文レベルのスコア付けタスクと、臨界エラー検出のバイナリスコア予測タスクに適用されている。 本稿では,WMT 2021 QE共有タスクに対する提案を提示するとともに,多言語システムがWMT 2020のダイレクトアセスメントQEタスクにおいて,最高のシステムより優れていることを示す。

Quality Estimation, as a crucial step of quality control for machine translation, has been explored for years. The goal is to investigate automatic methods for estimating the quality of machine translation results without reference translations. In this year's WMT QE shared task, we utilize the large-scale XLM-Roberta pre-trained model and additionally propose several useful features to evaluate the uncertainty of the translations to build our QE system, named \textit{QEMind}. The system has been applied to the sentence-level scoring task of Direct Assessment and the binary score prediction task of Critical Error Detection. In this paper, we present our submissions to the WMT 2021 QE shared task and an extensive set of experimental results have shown us that our multilingual systems outperform the best system in the Direct Assessment QE task of WMT 2020.
翻訳日:2022-01-04 05:11:20 公開日:2021-12-30
# (参考訳) 顔偽造防止のための特徴生成と仮説検証 [全文訳有]

Feature Generation and Hypothesis Verification for Reliable Face Anti-Spoofing ( http://arxiv.org/abs/2112.14894v1 )

ライセンス: CC BY 4.0
Shice Liu, Shitao Lu, Hongyi Xu, Jing Yang, Shouhong Ding, Lizhuang Ma(参考訳) 既存のface anti-spoofing (fas) 法はドメイン内実験で高い精度を達成しているが、その効果は一般化が不十分なため、クロスドメインシナリオでは著しく低下する。 近年,領域一般化や表現の絡み合いなど,多種多様な手法が研究されている。 しかし、改善は2つの問題によって制限されている。 1) すべての顔を共有機能空間に完全にマッピングすることは困難である。 未知領域の顔が共有特徴空間の既知の領域にマッピングされない場合、誤って不正確な予測が得られる。 2) 様々なスプーフ跡を十分に考慮することは困難である。 本稿では,2つの問題を緩和するための特徴生成と仮説検証フレームワークを提案する。 さらに、FASタスクにおいて、実際の顔と既知の攻撃の仮説を生成する機能生成ネットワークを初めて導入する。 次に、2つの仮説検証モジュールを適用し、入力面がそれぞれ実顔空間と実顔分布から来るかどうかを判定する。 さらに,提案手法とベイズの不確実性推定との関係を解析し,未知領域における信頼性の高い防御を理論的に支援する。 実験の結果,我々のフレームワークは有望な結果を達成し,大規模な公開データセットに対する最先端のアプローチよりも優れていた。

Although existing face anti-spoofing (FAS) methods achieve high accuracy in intra-domain experiments, their effects drop severely in cross-domain scenarios because of poor generalization. Recently, multifarious techniques have been explored, such as domain generalization and representation disentanglement. However, the improvement is still limited by two issues: 1) It is difficult to perfectly map all faces to a shared feature space. If faces from unknown domains are not mapped to the known region in the shared feature space, accidentally inaccurate predictions will be obtained. 2) It is hard to completely consider various spoof traces for disentanglement. In this paper, we propose a Feature Generation and Hypothesis Verification framework to alleviate the two issues. Above all, feature generation networks which generate hypotheses of real faces and known attacks are introduced for the first time in the FAS task. Subsequently, two hypothesis verification modules are applied to judge whether the input face comes from the real-face space and the real-face distribution respectively. Furthermore, some analyses of the relationship between our framework and Bayesian uncertainty estimation are given, which provides theoretical support for reliable defense in unknown domains. Experimental results show our framework achieves promising results and outperforms the state-of-the-art approaches on extensive public datasets.
翻訳日:2022-01-04 05:02:28 公開日:2021-12-30
# (参考訳) 動的分岐予測のための深層学習手法の検討 [全文訳有]

A Survey of Deep Learning Techniques for Dynamic Branch Prediction ( http://arxiv.org/abs/2112.14911v1 )

ライセンス: CC BY 4.0
Rinu Joseph(参考訳) 分岐予測(branch prediction)は、パイプラインプロセッサ上での分岐命令の実行を高速化し、分岐コストを削減するアーキテクチャ機能である。 ムーアの法則時代におけるディープラーニング(dl)の最近の進歩は、自動チップ設計や低消費電力コンピュータアーキテクチャなどの分野を加速させている。 従来のコンピュータアーキテクチャの設計とアルゴリズムは、大量のデータにパラメータを最適化することで経験から学習するディープラーニングアルゴリズムに基づく動的予測の恩恵を受けることができる。 本稿では,従来の分岐予測アルゴリズムに着目し,その限界を分析し,条件付き分岐命令を予測可能な動的分岐予測器を作成するための深層学習手法の適用方法に関する文献調査を行う。 この分野での先行調査は、ニューラルネットワークのパーセプトロンに基づく動的分岐予測技術に焦点を当てている。 我々は、DLと高度な機械学習(ML)ベースの分岐予測器の最新調査に基づいて、調査を改善する計画である。

Branch prediction is an architectural feature that speeds up the execution of branch instruction on pipeline processors and reduces the cost of branching. Recent advancements of Deep Learning (DL) in the post Moore's Law era is accelerating areas of automated chip design, low-power computer architectures, and much more. Traditional computer architecture design and algorithms could benefit from dynamic predictors based on deep learning algorithms which learns from experience by optimizing its parameters on large number of data. In this survey paper, we focus on traditional branch prediction algorithms, analyzes its limitations, and presents a literature survey of how deep learning techniques can be applied to create dynamic branch predictors capable of predicting conditional branch instructions. Prior surveys in this field focus on dynamic branch prediction techniques based on neural network perceptrons. We plan to improve the survey based on latest research in DL and advanced Machine Learning (ML) based branch predictors.
翻訳日:2022-01-04 04:46:45 公開日:2021-12-30
# (参考訳) 外部データベースからのブラックボックス最適画像検索 [全文訳有]

Retrieving Black-box Optimal Images from External Databases ( http://arxiv.org/abs/2112.14921v1 )

ライセンス: CC BY 4.0
Ryoma Sato(参考訳) イメージを入力として取り、好みを示す値を出力するブラックボックス関数(ディープニューラルネットワークなど)があると仮定する。 インターネット上の外部データベースからこの機能に関して最適な画像を取得するには? 文献における標準的な検索問題(例:アイテムレコメンデーション)は、アルゴリズムがアイテムの集合に完全にアクセスできると仮定する。 言い換えれば、そのようなアルゴリズムはサービスプロバイダ向けに設計されている。 本稿では,異なる仮定の下での検索問題を考察する。 具体的には,画像データベースへのアクセスに制限のあるユーザが,自身のブラックボックス機能を使って画像を検索する方法を検討する。 この定式化により、各ユーザが定義したフレキシブルできめ細かい画像検索が可能になる。 ユーザは、apiの制限が厳しい検索クエリを通じてデータベースにアクセスすることができると仮定する。 したがって、ユーザはクエリ数の観点から最適な画像を効率的に検索する必要がある。 この問題に対して効率的な検索アルゴリズムTiaraを提案する。 実験では,提案手法が複数のベースラインよりも優れた性能を示すことを確認した。

Suppose we have a black-box function (e.g., deep neural network) that takes an image as input and outputs a value that indicates preference. How can we retrieve optimal images with respect to this function from an external database on the Internet? Standard retrieval problems in the literature (e.g., item recommendations) assume that an algorithm has full access to the set of items. In other words, such algorithms are designed for service providers. In this paper, we consider the retrieval problem under different assumptions. Specifically, we consider how users with limited access to an image database can retrieve images using their own black-box functions. This formulation enables a flexible and finer-grained image search defined by each user. We assume the user can access the database through a search query with tight API limits. Therefore, a user needs to efficiently retrieve optimal images in terms of the number of queries. We propose an efficient retrieval algorithm Tiara for this problem. In the experiments, we confirm that our proposed method performs better than several baselines under various settings.
翻訳日:2022-01-04 04:38:42 公開日:2021-12-30
# (参考訳) rheframedetect: オープンソースからのaiにおける修辞フレームの自動検出のためのテキスト分類システム [全文訳有]

RheFrameDetect: A Text Classification System for Automatic Detection of Rhetorical Frames in AI from Open Sources ( http://arxiv.org/abs/2112.14933v1 )

ライセンス: CC BY 4.0
Saurav Ghosh and Philippe Loustaunau(参考訳) AIにおける修辞フレームは、AI開発を政府や企業のような2つ以上のアクター間の競争として記述する表現として考えることができる。 そのようなフレームの例としては、ロボットアームレース、AI競合、技術優位、サイバーウォーフェア支配、5Gレースがある。 オープンソースからレトリックフレームを検出することは、政府や企業のAIに対する態度を追跡するのに役立つ。 急速に増加するオープンソース(オンラインニュースメディア、twitter、ブログ)を考えると、主題の専門家が(ほぼ)リアルタイムに修辞的なフレームを識別することは困難である。 さらに、これらのソースは一般に非構造化(ノイズ)であるため、これらのソースからフレームを検出するには最先端のテキスト分類技術が必要である。 本稿では,オープンソースからの修辞フレームを(ほぼ)リアルタイムに捉えるためのテキスト分類システムである rheframedetect を開発した。 入力ドキュメントが与えられた後、RheFrameDetectは複数のレベル(文書レベルと段落レベル)のテキスト分類技術を使用して、AIの議論で使用されるフレームのすべての発生を識別する。 複数のニュースソースからの注釈付きフレームに対するレオフレーム検出に用いたテキスト分類手法を広範囲に評価した。 RheFrameDetectの有効性をさらに実証するために、RheFrameDetectが認識したフレームを人間の注釈付きフレームと比較した複数のケーススタディを示す。

Rhetorical Frames in AI can be thought of as expressions that describe AI development as a competition between two or more actors, such as governments or companies. Examples of such Frames include robotic arms race, AI rivalry, technological supremacy, cyberwarfare dominance and 5G race. Detection of Rhetorical Frames from open sources can help us track the attitudes of governments or companies towards AI, specifically whether attitudes are becoming more cooperative or competitive over time. Given the rapidly increasing volumes of open sources (online news media, twitter, blogs), it is difficult for subject matter experts to identify Rhetorical Frames in (near) real-time. Moreover, these sources are in general unstructured (noisy) and therefore, detecting Frames from these sources will require state-of-the-art text classification techniques. In this paper, we develop RheFrameDetect, a text classification system for (near) real-time capture of Rhetorical Frames from open sources. Given an input document, RheFrameDetect employs text classification techniques at multiple levels (document level and paragraph level) to identify all occurrences of Frames used in the discussion of AI. We performed extensive evaluation of the text classification techniques used in RheFrameDetect against human annotated Frames from multiple news sources. To further demonstrate the effectiveness of RheFrameDetect, we show multiple case studies depicting the Frames identified by RheFrameDetect compared against human annotated Frames.
翻訳日:2022-01-04 04:21:12 公開日:2021-12-30
# (参考訳) SFU-HW-Tracks-v1: 生ビデオシーケンス上のオブジェクト追跡データセット [全文訳有]

SFU-HW-Tracks-v1: Object Tracking Dataset on Raw Video Sequences ( http://arxiv.org/abs/2112.14934v1 )

ライセンス: CC BY 4.0
Takehiro Tanaka, Hyomin Choi, Ivan V. Baji\'c(参考訳) 本稿では,高効率ビデオ符号化 (HEVC) v1 Common Test Conditions (CTC) シーケンスに対して,ユニークなオブジェクトIDを持つオブジェクトアノテーションを含むデータセットを提案する。 SFU-HW-Tracks-v1というデータセットを作成した。 各ビデオフレームについて、ground truthアノテーションにはオブジェクトクラスid、オブジェクトid、バウンディングボックス位置とその寸法が含まれる。 このデータセットは、未圧縮ビデオシーケンスにおけるオブジェクト追跡性能の評価や、ビデオ圧縮とオブジェクトトラッキングの関係の研究に使用できる。

We present a dataset that contains object annotations with unique object identities (IDs) for the High Efficiency Video Coding (HEVC) v1 Common Test Conditions (CTC) sequences. Ground-truth annotations for 13 sequences were prepared and released as the dataset called SFU-HW-Tracks-v1. For each video frame, ground truth annotations include object class ID, object ID, and bounding box location and its dimensions. The dataset can be used to evaluate object tracking performance on uncompressed video sequences and study the relationship between video compression and object tracking.
翻訳日:2022-01-04 04:07:51 公開日:2021-12-30
# (参考訳) テキスト追跡のための意味表現と視覚表現の対比学習 [全文訳有]

Contrastive Learning of Semantic and Visual Representations for Text Tracking ( http://arxiv.org/abs/2112.14976v1 )

ライセンス: CC BY 4.0
Zhuang Li, Weijia Wu, Mike Zheng Shou, Jiahong Li, Size Li, Zhongyuan Wang, Hong Zhou(参考訳) セマンティック表現はビデオ中のテキストを同時に分類、検出、追跡する必要があるビデオテキスト追跡(VTT)タスクにとって大きな利点である。 既存のアプローチのほとんどは、豊富な意味的特徴を無視しながら、連続したフレームの外観的類似性によってこのタスクに取り組む。 本稿では,セマンティック表現とビジュアル表現の対比学習を用いて,ビデオテキストをロバストに追跡する。 ビデオシーケンス内の異なるテキスト間の視覚的および意味的関係を利用してテキストを検出し,追跡するセマンティックおよびビジュアル表現(SVRep)を備えたエンドツーエンドのビデオテキストトラッカーを提案する。 さらに、軽量アーキテクチャにより、SVRepは競合推論速度を維持しながら最先端のパフォーマンスを達成する。 具体的には、resnet-18のバックボーンで${\rm id_{f1}}$を$\textbf{65.9\%}$で達成し、$\textbf{16.7}$ fpsでicdar2015(ビデオ)データセット上で動作し、$\textbf{8.6\%}$が従来の最先端メソッドよりも改善される。

Semantic representation is of great benefit to the video text tracking(VTT) task that requires simultaneously classifying, detecting, and tracking texts in the video. Most existing approaches tackle this task by appearance similarity in continuous frames, while ignoring the abundant semantic features. In this paper, we explore to robustly track video text with contrastive learning of semantic and visual representations. Correspondingly, we present an end-to-end video text tracker with Semantic and Visual Representations(SVRe p), which detects and tracks texts by exploiting the visual and semantic relationships between different texts in a video sequence. Besides, with a light-weight architecture, SVRep achieves state-of-the-art performance while maintaining competitive inference speed. Specifically, with a backbone of ResNet-18, SVRep achieves an ${\rm ID_{F1}}$ of $\textbf{65.9\%}$, running at $\textbf{16.7}$ FPS, on the ICDAR2015(video) dataset with $\textbf{8.6\%}$ improvement than the previous state-of-the-art methods.
翻訳日:2022-01-04 04:03:17 公開日:2021-12-30
# (参考訳) 単眼高推定のための転送可能表現学習 [全文訳有]

THE Benchmark: Transferable Representation Learning for Monocular Height Estimation ( http://arxiv.org/abs/2112.14985v1 )

ライセンス: CC BY 4.0
Zhitong Xiong, Wei Huang, Jingtao Hu, Yilei Shi, Qi Wang, and Xiao Xiang Zhu(参考訳) 3D都市モデルを迅速に生成することは、多くのアプリケーションにとって不可欠である。 単分子高さ推定は、大規模な幾何学的情報を得る最も効率的かつタイムリーな方法の1つである。 しかしながら、既存の作業は主に、非バイアスデータセットを使用したトレーニングとテストモデルに重点を置いている。 そこで本研究では,クロスデータセットにおける高さ推定モデルの転送可能性を調べるための新しいベンチマークデータセットを提案する。 そこで我々はまず,ハイト推定タスク上でのクロスデータセット変換学習のための大規模ベンチマークデータセットの設計と構築を行う。 このベンチマークデータセットは、新たに提案された大規模合成データセット、新たに収集された実世界のデータセット、異なる都市の既存の4つのデータセットを含む。 次に、ゼロショットと少数ショットのクロスデータセット転送という、2つの新しい実験プロトコルを設計する。 数回のクロスデータセット転送では,提案するスケール変形可能な畳み込みモジュールにより,ウィンドウベースのトランスフォーマティブが拡張され,深刻なスケール変動問題に対処できる。 ゼロショットクロスデータセット設定における深層モデルの一般化性を向上させるため、相対高さマップを絶対高さから切り離すために、最大正規化に基づくトランスフォーマネットワークが設計されている。 実験の結果,従来のデータ転送とクロスデータセット転送の両方において提案手法の有効性が示された。 データセットとコードはhttps://thebenchmark h.github.io/で公開されている。

Generating 3D city models rapidly is crucial for many applications. Monocular height estimation is one of the most efficient and timely ways to obtain large-scale geometric information. However, existing works focus primarily on training and testing models using unbiased datasets, which don't align well with real-world applications. Therefore, we propose a new benchmark dataset to study the transferability of height estimation models in a cross-dataset setting. To this end, we first design and construct a large-scale benchmark dataset for cross-dataset transfer learning on the height estimation task. This benchmark dataset includes a newly proposed large-scale synthetic dataset, a newly collected real-world dataset, and four existing datasets from different cities. Next, two new experimental protocols, zero-shot and few-shot cross-dataset transfer, are designed. For few-shot cross-dataset transfer, we enhance the window-based Transformer with the proposed scale-deformable convolution module to handle the severe scale-variation problem. To improve the generalizability of deep models in the zero-shot cross-dataset setting, a max-normalization-ba sed Transformer network is designed to decouple the relative height map from the absolute heights. Experimental results have demonstrated the effectiveness of the proposed methods in both the traditional and cross-dataset transfer settings. The datasets and codes are publicly available at https://thebenchmark h.github.io/.
翻訳日:2022-01-04 03:47:58 公開日:2021-12-30
# (参考訳) オブジェクト中心のワークフローペトリネットの音性 [全文訳有]

Soundness in Object-centric Workflow Petri Nets ( http://arxiv.org/abs/2112.14994v1 )

ライセンス: CC BY 4.0
Irina A. Lomazova, Alexey A. Mitsyuk, Andrey Rivkin(参考訳) 最近導入されたペトリネットに基づく形式主義は、ケースオブジェクトの適切な表現と管理、およびそれらの共進化の重要性を提唱している。 この作品では、そのような形式主義の1つの上に構築し、それに健全性の概念を導入する。 ケースオブジェクト間の非決定論的同期を持つネットの場合、音質問題は決定可能であることを示す。

Recently introduced Petri net-based formalisms advocate the importance of proper representation and management of case objects as well as their co-evolution. In this work we build on top of one of such formalisms and introduce the notion of soundness for it. We demonstrate that for nets with non-deterministic synchronization between case objects, the soundness problem is decidable.
翻訳日:2022-01-04 03:17:03 公開日:2021-12-30
# (参考訳) 知識事項:一般・特定知識を用いた放射線学レポート作成 [全文訳有]

Knowledge Matters: Radiology Report Generation with General and Specific Knowledge ( http://arxiv.org/abs/2112.15009v1 )

ライセンス: CC BY 4.0
Shuxin Yang, Xian Wu, Shen Ge, Shaohua Kevin Zhou, Li Xiao(参考訳) 放射線医学報告の自動作成は、経験豊富な放射線医を重労働から解放し、未経験者の誤診や診断の欠如を思い出させるクリニックにおいて重要である。 既存のアプローチは主に画像キャプションタスクとしての放射線学レポート生成を定式化し、エンコーダ・デコーダフレームワークを採用する。 しかし、医療分野では、純粋なデータ駆動アプローチは以下の問題に悩まされる。 1) 視覚的・テキスト的バイアス問題 2)専門知識の欠如。 本稿では, 医学的知識を2種類導入した, 知識エンハンスドラジオロジーレポート生成手法を提案する。 1) 一般知識は,独立して入力され,報告書作成のための幅広い知識を提供する。 2) 特定の知識は、入力に依存し、レポート生成にきめ細かい知識を提供する。 また,一般知識と特定知識の両面をフル活用するために,知識強化型マルチヘッドアテンション機構を提案する。 放射線画像の視覚的特徴を一般知識と具体的知識と組み合わせることで,提案モデルは生成したレポートの品質を向上させることができる。 IU-XrayとMIMIC-CXRの2つの公開データセットによる実験結果から,提案手法が最先端の画像キャプションに基づく手法より優れていることが示された。 アブレーション研究は、一般知識と特定知識の両方が、放射線学レポート生成の性能向上に役立つことも示している。

Automatic radiology report generation is critical in clinics which can relieve experienced radiologists from the heavy workload and remind inexperienced radiologists of misdiagnosis or missed diagnose. Existing approaches mainly formulate radiology report generation as an image captioning task and adopt the encoder-decoder framework. However, in the medical domain, such pure data-driven approaches suffer from the following problems: 1) visual and textual bias problem; 2) lack of expert knowledge. In this paper, we propose a knowledge-enhanced radiology report generation approach introduces two types of medical knowledge: 1) General knowledge, which is input independent and provides the broad knowledge for report generation; 2) Specific knowledge, which is input dependent and provides the fine-grained knowledge for report generation. To fully utilize both the general and specific knowledge, we also propose a knowledge-enhanced multi-head attention mechanism. By merging the visual features of the radiology image with general knowledge and specific knowledge, the proposed model can improve the quality of generated reports. Experimental results on two publicly available datasets IU-Xray and MIMIC-CXR show that the proposed knowledge enhanced approach outperforms state-of-the-art image captioning based methods. Ablation studies also demonstrate that both general and specific knowledge can help to improve the performance of radiology report generation.
翻訳日:2022-01-04 02:57:45 公開日:2021-12-30
# (参考訳) 学習知識ベースとマルチモーダルアライメントを用いた放射線学レポート生成 [全文訳有]

Radiology Report Generation with a Learned Knowledge Base and Multi-modal Alignment ( http://arxiv.org/abs/2112.15011v1 )

ライセンス: CC BY 4.0
Shuxin Yang, Xian Wu, Shen Ge, Xingwang Wu, S.Kevin Zhou, Li Xiao(参考訳) 診療所では、患者の治療を導くために放射線学報告が不可欠である。 残念ながら、レポート作成は放射線学者に重荷を課している。 このような負担を効果的に軽減するために,胸部X線からのレポート自動生成手法を提案する。 放射線学報告における記述がX線画像と高い相関関係にあるという観察から得られたアプローチは,2つの異なるモジュールを特徴とする。 (i)知識ベースを学ぶ。 上記の相関に埋め込まれた知識を吸収するために,テキスト埋め込みに基づく知識ベースを自動構築する。 (ii)マルチモーダルアライメント。 報告, 疾患ラベル, 画像間のセマンティックアライメントを促進するために, テキスト埋め込みを用いて視覚的特徴空間の学習を指導する。 IUおよびMIMIC-CXRデータセットを用いて、自然言語生成と臨床効果の指標を用いて、提案モデルの性能を評価する。 本研究は,各モジュールが生成したレポートの品質向上に寄与することを示す。 さらに、両モジュールの助けを借りて、我々の手法は最先端の手法よりも明らかに優れている。

In clinics, a radiology report is crucial for guiding a patient's treatment. Unfortunately, report writing imposes a heavy burden on radiologists. To effectively reduce such a burden, we hereby present an automatic, multi-modal approach for report generation from chest x-ray. Our approach, motivated by the observation that the descriptions in radiology reports are highly correlated with the x-ray images, features two distinct modules: (i) Learned knowledge base. To absorb the knowledge embedded in the above-mentioned correlation, we automatically build a knowledge base based on textual embedding. (ii) Multi-modal alignment. To promote the semantic alignment among reports, disease labels and images, we explicitly utilize textual embedding to guide the learning of the visual feature space. We evaluate the performance of the proposed model using metrics from both natural language generation and clinic efficacy on the public IU and MIMIC-CXR datasets. Our ablation study shows that each module contributes to improving the quality of generated reports. Furthermore, with the aid of both modules, our approach clearly outperforms state-of-the-art methods.
翻訳日:2022-01-04 02:38:19 公開日:2021-12-30
# (参考訳) 患者特定モデル再校正のためのDeep Transfer-Learning:sE MG分類への応用 [全文訳有]

Deep Transfer-Learning for patient specific model re-calibration: Application to sEMG-Classification ( http://arxiv.org/abs/2112.15019v1 )

ライセンス: CC BY 4.0
Stephan Johann Lehmler, Muhammad Saif-ur-Rehman, Tobias Glasmachers, Ioannis Iossifidis(参考訳) 表面筋電図(sEMG)の正確な復号化は、筋-機械-インタフェース(MMI)およびリハビリテーション療法への応用において重要である。 sEMG信号は、皮膚の厚み、体脂肪率、電極配置など様々な要因により、オブジェクト間のばらつきが高い。 したがって、訓練されたsEMGデコーダの高一般化品質を得るのは難しい。 通常、機械学習ベースのsegデコーダは、主題固有のデータに基づいてトレーニングされるか、あるいは少なくとも各ユーザのために個別に再調整される。 しかし、深層学習アルゴリズムは、sEMGデコーディングのいくつかの結果を生成するが、sEMGデータの可用性が限られているため、深層学習モデルは過度に適合する傾向にある。 近年、ドメイン適応のための伝達学習は、各種機械学習タスクのトレーニング時間を短縮し、一般化品質を改善している。 本研究では,2種類の事前訓練深層学習モデルの再校正のための重み初期化を用いた移動学習の有効性について検討し,その性能を被験者固有のモデルと比較した。 本研究は, semg分類における重み初期化に基づく伝達学習を徹底的に検討し, 伝達学習と主題特異的モデリングを比較した最初の研究である。 私たちは、さまざまな設定で3つの公開データベースでモデルをテストしました。 移動学習手法は,すべての設定において,微調整を伴わない事前学習モデルでは5~\%,被験者固有のモデルでは12~\%,平均22~\%のエポックで訓練されている。 以上の結果から,トランスファー学習は,ユーザ固有のモデルよりも少ないサンプルのトレーニングを高速化し,十分なデータが得られる限り,事前学習モデルの性能を向上させることが示唆された。

Accurate decoding of surface electromyography (sEMG) is pivotal for muscle-to-machine-in terfaces (MMI) and their application for e.g. rehabilitation therapy. sEMG signals have high inter-subject variability, due to various factors, including skin thickness, body fat percentage, and electrode placement. Therefore, obtaining high generalization quality of a trained sEMG decoder is quite challenging. Usually, machine learning based sEMG decoders are either trained on subject-specific data, or at least recalibrated for each user, individually. Even though, deep learning algorithms produced several state of the art results for sEMG decoding,however, due to the limited amount of availability of sEMG data, the deep learning models are prone to overfitting. Recently, transfer learning for domain adaptation improved generalization quality with reduced training time on various machine learning tasks. In this study, we investigate the effectiveness of transfer learning using weight initialization for recalibration of two different pretrained deep learning models on a new subjects data, and compare their performance to subject-specific models. To the best of our knowledge, this is the first study that thoroughly investigated weight-initializatio n based transfer learning for sEMG classification and compared transfer learning to subject-specific modeling. We tested our models on three publicly available databases under various settings. On average over all settings, our transfer learning approach improves 5~\%-points on the pretrained models without fine-tuning and 12~\%-points on the subject-specific models, while being trained on average 22~\% fewer epochs. Our results indicate that transfer learning enables faster training on fewer samples than user-specific models, and improves the performance of pretrained models as long as enough data is available.
翻訳日:2022-01-04 02:25:53 公開日:2021-12-30
# (参考訳) 普遍近似のための解釈型ニューラルネットワークの2例 [全文訳有]

Two Instances of Interpretable Neural Network for Universal Approximations ( http://arxiv.org/abs/2112.15026v1 )

ライセンス: CC BY 4.0
Erico Tjoa, Guan Cuntai(参考訳) 本稿では,TNN(Triangularly-co nstructed NN)とSQANN(Semi-Quantized Activation NN)の2つのボトムアップ解釈型ニューラルネットワーク構築手法を提案する。 顕著な特徴は,(1) 破滅的忘れ込みに対する抵抗 (2) 入力 \(x\) のトレーニングデータセットに任意に高い精度を示す証明が存在すること,(3) ユーザは ''fingerprints' のアクティベーションが \(x\) のアクティベーションと類似した訓練データの特定のサンプルを特定できる点である。 配布されていないサンプルを識別することもできる。

This paper proposes two bottom-up interpretable neural network (NN) constructions for universal approximation, namely Triangularly-constru cted NN (TNN) and Semi-Quantized Activation NN (SQANN). The notable properties are (1) resistance to catastrophic forgetting (2) existence of proof for arbitrarily high accuracies on training dataset (3) for an input \(x\), users can identify specific samples of training data whose activation ``fingerprints" are similar to that of \(x\)'s activations. Users can also identify samples that are out of distribution.
翻訳日:2022-01-04 02:12:43 公開日:2021-12-30
# (参考訳) きめ細かな解釈性を有する自己回帰設計 [全文訳有]

Self Reward Design with Fine-grained Interpretability ( http://arxiv.org/abs/2112.15034v1 )

ライセンス: CC BY 4.0
Erico Tjoa, Guan Cuntai(参考訳) 深層強化学習における透明性と公平性問題は、その方針や価値関数などを学ぶために使用される深層ニューラルネットワークのブラックボックスの性質に起因する可能性がある。 本稿では、ニューラルネットワーク(nn)のボトムアップ設計において、各ニューロンや層が、人間の理解可能な概念に対応する独自の意味と有用性を持つ、詳細な解釈可能性を有することによって、この問題を回避する方法を提案する。 故意の設計では,パラメータが少ないNNモデルを用いてラバラン問題を解くことができる。 Inverse Reward Designにインスパイアされた自己逆設計(SRD)を導入し、(1)純粋な設計(不完全だが)によって問題を解けるようにし、(2)未知の状態を避けるために、(w_{unknown}\)の活性化として集約されたニューロンの不活性化を認識する。

Transparency and fairness issues in Deep Reinforcement Learning may stem from the black-box nature of deep neural networks used to learn its policy, value functions etc. This paper proposes a way to circumvent the issues through the bottom-up design of neural networks (NN) with detailed interpretability, where each neuron or layer has its own meaning and utility that corresponds to humanly understandable concept. With deliberate design, we show that lavaland problems can be solved using NN model with few parameters. Furthermore, we introduce the Self Reward Design (SRD), inspired by the Inverse Reward Design, so that our interpretable design can (1) solve the problem by pure design (although imperfectly) (2) be optimized via SRD (3) perform avoidance of unknown states by recognizing the inactivations of neurons aggregated as the activation in \(w_{unknown}\).
翻訳日:2022-01-04 01:36:21 公開日:2021-12-30
# (参考訳) QAに基づく中間訓練は、テキスト分類のための微調整言語モデルに役立つか? [全文訳有]

Does QA-based intermediate training help fine-tuning language models for text classification? ( http://arxiv.org/abs/2112.15051v1 )

ライセンス: CC BY 4.0
Shiwei Zhang and Xiuzhen Zhang(参考訳) 下流タスクのための微調整済み言語モデルがNLPの標準となっている。 近年,質問応答 (QA) のような高レベルな推論タスクに基づく中間訓練により,目標タスクに対する言語モデルの性能が向上することが確認された。 しかし、中間訓練が一般的に様々な言語モデルに効果があるかどうかは不明である。 本稿では、SQuAD-2.0QAタスクを目標テキスト分類タスクの中間訓練に使用し、単一シーケンス分類のための8つのタスクと、2つのベースと2つのコンパクト言語モデルを用いたシーケンスペア分類のための8つのタスクを実験した。 実験により、QAに基づく中間訓練は、類似のQAタスクを除いて、異なる言語モデル間で異なる転送性能を生成することが示された。

Fine-tuning pre-trained language models for downstream tasks has become a norm for NLP. Recently it is found that intermediate training based on high-level inference tasks such as Question Answering (QA) can improve the performance of some language models for target tasks. However it is not clear if intermediate training generally benefits various language models. In this paper, using the SQuAD-2.0 QA task for intermediate training for target text classification tasks, we experimented on eight tasks for single-sequence classification and eight tasks for sequence-pair classification using two base and two compact language models. Our experiments show that QA-based intermediate training generates varying transfer performance across different language models, except for similar QA tasks.
翻訳日:2022-01-04 01:19:14 公開日:2021-12-30
# (参考訳) TextRGNN: テキスト分類のための残差グラフニューラルネットワーク [全文訳有]

TextRGNN: Residual Graph Neural Networks for Text Classification ( http://arxiv.org/abs/2112.15060v1 )

ライセンス: CC BY 4.0
Jiayuan Chen and Boyu Zhang and Yinfei Xu and Meng Wang(参考訳) 近年,グラフニューラルネットワーク(GNN)に基づくテキスト分類モデルが注目されている。 これらのモデルの多くは、事前学習ノード埋め込み初期化と2層グラフ畳み込みを用いて、同様のネットワークパラダイムを採用している。 本研究では,畳み込みネットワーク深度を深くする残差接続を導入した改良型GNN構造であるTextRGNNを提案する。 我々の構造はより広いノード受容場を得ることができ、ノード特徴の過度な平滑化を効果的に抑制できる。 さらに,確率的言語モデルとグラフノード埋め込みの初期化を統合することにより,非グラフ意味情報の抽出が容易になる。 実験の結果,本モデルは汎用的かつ効率的であることが判明した。 コーパスレベルであれテキストレベルであれ、分類精度を大幅に向上させ、幅広いテキスト分類データセット上でSOTA性能を達成することができる。

Recently, text classification model based on graph neural network (GNN) has attracted more and more attention. Most of these models adopt a similar network paradigm, that is, using pre-training node embedding initialization and two-layer graph convolution. In this work, we propose TextRGNN, an improved GNN structure that introduces residual connection to deepen the convolution network depth. Our structure can obtain a wider node receptive field and effectively suppress the over-smoothing of node features. In addition, we integrate the probabilistic language model into the initialization of graph node embedding, so that the non-graph semantic information of can be better extracted. The experimental results show that our model is general and efficient. It can significantly improve the classification accuracy whether in corpus level or text level, and achieve SOTA performance on a wide range of text classification datasets.
翻訳日:2022-01-04 01:11:04 公開日:2021-12-30
# (参考訳) knnアルゴリズムによる手の衛生的ジェスチャーの特徴抽出と予測 [全文訳有]

Feature Extraction and Prediction for Hand Hygiene Gestures with KNN Algorithm ( http://arxiv.org/abs/2112.15085v1 )

ライセンス: CC BY 4.0
Rashmi Bakshi(参考訳) 本研究は,手洗い作業に関わる手指ジェスチャーの分析に焦点をあてる。 世界保健機関の手衛生ガイドラインでは、手を洗うための標準的な手衛生ジェスチャーが6つある。 本論文では,コンピュータビジョンライブラリopencvを用いて,手輪郭,手中心,最大輪郭に沿った極端手点などの手の特徴を抽出する。 これらの手の特徴は、手衛生ビデオ内の各データフレームに対して抽出される。 このプロジェクトでは、ビデオ録画の堅牢な手衛生データセットが作成された。 この作業では、このデータセットのサブセットが使用されます。 抽出した手の特徴をKNNアルゴリズムに基づくクラスに分類し,非競合データの分類と予測のためのクロスフォールド検証手法を提案する。 平均精度スコアが95%に達し、K=5の適切な入力値を持つKNNアルゴリズムが分類に有効であることを証明した。 6つの異なる手衛生クラスを持つ完全なデータセットは、今後の作業のためにKNN分類器で使用される。

This work focuses upon the analysis of hand gestures involved in the process of hand washing. There are six standard hand hygiene gestures for washing hands as provided by World Health Organisation hand hygiene guidelines. In this paper, hand features such as contours of hands, the centroid of the hands, and extreme hand points along the largest contour are extracted with the use of the computer vision library, OpenCV. These hand features are extracted for each data frame in a hand hygiene video. A robust hand hygiene dataset of video recordings was created in the project. A subset of this dataset is used in this work. Extracted hand features are further grouped into classes based on the KNN algorithm with a cross-fold validation technique for the classification and prediction of the unlabelled data. A mean accuracy score of >95% is achieved and proves that the KNN algorithm with an appropriate input value of K=5 is efficient for classification. A complete dataset with six distinct hand hygiene classes will be used with the KNN classifier for future work.
翻訳日:2022-01-04 01:02:01 公開日:2021-12-30
# (参考訳) 転帰学習における神経崩壊の役割について

On the Role of Neural Collapse in Transfer Learning ( http://arxiv.org/abs/2112.15121v1 )

ライセンス: CC BY 4.0
Tomer Galanti, Andr\'as Gy\"orgy, Marcus Hutter(参考訳) 本研究では,新しいクラスに移動可能な分類の表現を基礎モデルで学習する能力について検討する。 論文の最近の結果は、多くのクラスで単一の分類子によって学習される表現は、そのような問題のために設計された特別な目的のアルゴリズムによって学習される表現を持つ、少数の学習問題と競合していることを示している。 本稿では,過パラメータ化分類ネットワークによって得られた特徴が,神経崩壊と呼ばれる興味深いクラスタリング特性を示す,最近観測された現象に基づいて,この挙動を説明する。 我々は、神経崩壊がトレーニングクラスから新しいサンプルに一般化し、さらに重要なこととして、新しいクラスにも一般化できることを理論的にも経験的にも示し、基礎モデルがトランスファー学習や特にマイナショット設定においてうまく機能する機能マップを提供することを可能にした。

We study the ability of foundation models to learn representations for classification that are transferable to new, unseen classes. Recent results in the literature show that representations learned by a single classifier over many classes are competitive on few-shot learning problems with representations learned by special-purpose algorithms designed for such problems. In this paper we provide an explanation for this behavior based on the recently observed phenomenon that the features learned by overparameterized classification networks show an interesting clustering property, called neural collapse. We demonstrate both theoretically and empirically that neural collapse generalizes to new samples from the training classes, and -- more importantly -- to new classes as well, allowing foundation models to provide feature maps that work well in transfer learning and, specifically, in the few-shot setting.
翻訳日:2022-01-04 00:56:47 公開日:2021-12-30
# (参考訳) インドの言語間コグネイト検出のためのwordnetsの利用 [全文訳有]

Utilizing Wordnets for Cognate Detection among Indian Languages ( http://arxiv.org/abs/2112.15124v1 )

ライセンス: CC BY 4.0
Diptesh Kanojia, Kevin Patel, Pushpak Bhattacharyya, Malhar Kulkarni, Gholamreza Haffari(参考訳) ACD(Automatic Cognate Detection)は、機械翻訳、情報検索、計算系統学などのNLPアプリケーションを支援するために使われている課題である。 統一されたコグネートペアはこれらのアプリケーションに挑戦し、結果として性能が低下する。 本稿では,ヒンディー語を含む10言語間の単語対を検出し,深層学習手法を用いて単語対がコグネートであるか否かを予測する。 IndoWordnetは、正書法的な類似性に基づく単語ペアの検出と、そこから得られたデータを用いてニューラルネットワークモデルを訓練するための潜在的なリソースである。 並列コーパスを別の潜在的な資源として認識し,同じ実験を行う。 また,Wordnetsのさらなる実験による貢献を検証し,最大26%の性能向上を報告した。 近縁なインド言語間のコグネート検出のニュアンスを議論し,検出されたコグネートのリストをデータセットとして公開する。 また,無関係なインドの言語ペアの挙動をある程度観察し,検出されたコニャートのリストも公開する。

Automatic Cognate Detection (ACD) is a challenging task which has been utilized to help NLP applications like Machine Translation, Information Retrieval and Computational Phylogenetics. Unidentified cognate pairs can pose a challenge to these applications and result in a degradation of performance. In this paper, we detect cognate word pairs among ten Indian languages with Hindi and use deep learning methodologies to predict whether a word pair is cognate or not. We identify IndoWordnet as a potential resource to detect cognate word pairs based on orthographic similarity-based methods and train neural network models using the data obtained from it. We identify parallel corpora as another potential resource and perform the same experiments for them. We also validate the contribution of Wordnets through further experimentation and report improved performance of up to 26%. We discuss the nuances of cognate detection among closely related Indian languages and release the lists of detected cognates as a dataset. We also observe the behaviour of, to an extent, unrelated Indian language pairs and release the lists of detected cognates among them as well.
翻訳日:2022-01-04 00:55:31 公開日:2021-12-30
# (参考訳) ニューラルネットにおけるタスク最適低ビットサブディストリビューションの探索 [全文訳有]

Finding the Task-Optimal Low-Bit Sub-Distribution in Deep Neural Networks ( http://arxiv.org/abs/2112.15139v1 )

ライセンス: CC BY 4.0
Runpei Dong, Zhanhong Tan, Mengdi Wu, Linfeng Zhang, Kaisheng Ma(参考訳) 量子化されたニューラルネットワークは通常、少ないメモリフットプリントと計算の複雑さを必要とする。 しかし、量子化は必然的に元のネットワークから分散を逸脱させ、一般に性能を低下させる。 この問題に対処するため、大規模な努力がなされているが、既存のアプローチの多くは統計的考察を欠き、いくつかの手動構成に依存している。 本稿では, モデルに内在し, コンクリートガウス混合 (gm) と滑らかに近似した最適潜在部分分布を学習するための適応マップ量子化法を提案する。 特に、ネットワークの重み付けはgm近似のサブディストリビューションに従って投影される。 このサブディストリビューションは、直接タスク目的最適化によって導かれる協調チューニングスキーマの重み更新と共に進化する。 近代建築における画像分類と物体検出に関する十分な実験により,提案手法の有効性,一般化性,伝達性を示す。 さらに、モバイルCPUの効率的なデプロイメントフローを開発し、オクタコアARMCPU上で最大7.46$\times$推論アクセラレーションを達成する。 コードはhttps://github.com/R unpeiDong/DGMSで公開されている。

Quantized neural networks typically require smaller memory footprints and lower computation complexity, which is crucial for efficient deployment. However, quantization inevitably leads to a distribution divergence from the original network, which generally degrades the performance. To tackle this issue, massive efforts have been made, but most existing approaches lack statistical considerations and depend on several manual configurations. In this paper, we present an adaptive-mapping quantization method to learn an optimal latent sub-distribution that is inherent within models and smoothly approximated with a concrete Gaussian Mixture (GM). In particular, the network weights are projected in compliance with the GM-approximated sub-distribution. This sub-distribution evolves along with the weight update in a co-tuning schema guided by the direct task-objective optimization. Sufficient experiments on image classification and object detection over various modern architectures demonstrate the effectiveness, generalization property, and transferability of the proposed method. Besides, an efficient deployment flow for the mobile CPU is developed, achieving up to 7.46$\times$ inference acceleration on an octa-core ARM CPU. Codes are publicly released at https://github.com/R unpeiDong/DGMS.
翻訳日:2022-01-04 00:44:16 公開日:2021-12-30
# (参考訳) 行動理論から経済学へ:反復的相互作用データから人間エージェントの選好を推定する [全文訳有]

From Behavioral Theories to Econometrics: Inferring Preferences of Human Agents from Data on Repeated Interactions ( http://arxiv.org/abs/2112.15151v1 )

ライセンス: CC BY 4.0
Gali Noti(参考訳) エージェントが繰り返し相互作用する戦略システムのデータから,人間エージェントの選好を推定する問題を考える。 近年,「量的後悔」と呼ばれる新たな推定手法が,エージェントが合理的でnash平衡に達すると仮定する従来のアプローチよりも,人間のエージェントの正確な推定を行うことが示されたが,この手法は人間の遊びの行動的側面を考慮した手法とは比較されていない。 本稿では,この目的のために行動経済学の平衡概念を活用し,量的後悔法やナッシュ均衡法と比較して,それらがいかにうまく機能するかを問う。 正規形ゲームにおける観察データから人間のエージェントの効用を推定するために,確立された行動平衡モデルに基づく4つの推定法を開発した。 私たちが研究する平衡モデルは、量子応答平衡、アクションサンプリング平衡、ペイオフサンプリング平衡、インパルスバランス平衡である。 これらの概念のいくつかでは、推論は閉公式によって解析的に達成され、他方では、推論はアルゴリズム的にのみ達成されることを示す。 2x2ゲームの実験データを用いて,これらの行動平衡法の推定成功を評価する。 結果は、それらの推定値がナッシュ均衡の推定値よりも正確なことを示している。 quantal-regret法との比較により,行動法の方がヒット率が高いが,quantal-regret法の方が全体の平均二乗誤差の点で優れており,本手法の違いについて考察する。

We consider the problem of estimating preferences of human agents from data of strategic systems where the agents repeatedly interact. Recently, it was demonstrated that a new estimation method called "quantal regret" produces more accurate estimates for human agents than the classic approach that assumes that agents are rational and reach a Nash equilibrium; however, this method has not been compared to methods that take into account behavioral aspects of human play. In this paper we leverage equilibrium concepts from behavioral economics for this purpose and ask how well they perform compared to the quantal regret and Nash equilibrium methods. We develop four estimation methods based on established behavioral equilibrium models to infer the utilities of human agents from observed data of normal-form games. The equilibrium models we study are quantal-response equilibrium, action-sampling equilibrium, payoff-sampling equilibrium, and impulse-balance equilibrium. We show that in some of these concepts the inference is achieved analytically via closed formulas, while in the others the inference is achieved only algorithmically. We use experimental data of 2x2 games to evaluate the estimation success of these behavioral equilibrium methods. The results show that the estimates they produce are more accurate than the estimates of the Nash equilibrium. The comparison with the quantal-regret method shows that the behavioral methods have better hit rates, but the quantal-regret method performs better in terms of the overall mean squared error, and we discuss the differences between the methods.
翻訳日:2022-01-04 00:18:51 公開日:2021-12-30
# (参考訳) 適応カルマン時間差と継承表現によるマルチエージェント強化学習 [全文訳有]

Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal Difference and Successor Representation ( http://arxiv.org/abs/2112.15156v1 )

ライセンス: CC BY 4.0
Mohammad Salimibeni, Arash Mohammadi, Parvin Malekzadeh, and Konstantinos N. Plataniotis(参考訳) 分散マルチエージェント強化学習(MARL)アルゴリズムは近年,近年のDeep Neural Networks (DNN) の進展を中心に注目されている。 従来のモデルベース(MB)またはモデルフリー(MF)RLアルゴリズムは、基礎となる値関数の学習に固定報酬モデルを利用するため、MARL問題に直接適用できない。 DNNベースのソリューションは、単一のエージェントが関与している場合、完全にうまく機能するが、そのような方法はMARL問題の複雑さに完全に一般化することができない。 言い換えれば、最近開発されたマルチエージェント環境のためのDNNに基づくアプローチは、性能が優れているが、過度に適合し、パラメータ選択に対する感度が高く、サンプルの非効率性が低い。 本稿では,マルチエージェント適応カルマン時間差分(MAK-TD)フレームワークとその継承表現に基づく変種(MAK-SR)を提案する。 直感的に言えば、主な目的は不確実性モデリングやオンライン2次学習といったカルマンフィルタ(KF)の特徴を活かすことである。 提案するmak-td/srフレームワークは、高次元マルチエージェント環境に関連するアクション空間の連続性を検討し、kalman temporal difference (ktd) を利用してパラメータの不確実性に対処する。 KTDフレームワークを利用することで、SR学習手順をフィルタ問題にモデル化し、ラジアル基底関数(RBF)推定器を用いて連続空間を特徴ベクトルに符号化する。 一方、局所的な報酬関数を学習するためには、観測ノイズの共分散と観測マッピング関数に関する事前知識の欠如に対処するため、MMAE(Multiple Model Adaptive Estimation)を用いる。 提案するMAK-TD/SRフレームワークは,OpenAI Gym MARLベンチマークを用いて,いくつかの実験により評価される。

Distributed Multi-Agent Reinforcement Learning (MARL) algorithms has attracted a surge of interest lately mainly due to the recent advancements of Deep Neural Networks (DNNs). Conventional Model-Based (MB) or Model-Free (MF) RL algorithms are not directly applicable to the MARL problems due to utilization of a fixed reward model for learning the underlying value function. While DNN-based solutions perform utterly well when a single agent is involved, such methods fail to fully generalize to the complexities of MARL problems. In other words, although recently developed approaches based on DNNs for multi-agent environments have achieved superior performance, they are still prone to overfiting, high sensitivity to parameter selection, and sample inefficiency. The paper proposes the Multi-Agent Adaptive Kalman Temporal Difference (MAK-TD) framework and its Successor Representation-based variant, referred to as the MAK-SR. Intuitively speaking, the main objective is to capitalize on unique characteristics of Kalman Filtering (KF) such as uncertainty modeling and online second order learning. The proposed MAK-TD/SR frameworks consider the continuous nature of the action-space that is associated with high dimensional multi-agent environments and exploit Kalman Temporal Difference (KTD) to address the parameter uncertainty. By leveraging the KTD framework, SR learning procedure is modeled into a filtering problem, where Radial Basis Function (RBF) estimators are used to encode the continuous space into feature vectors. On the other hand, for learning localized reward functions, we resort to Multiple Model Adaptive Estimation (MMAE), to deal with the lack of prior knowledge on the observation noise covariance and observation mapping function. The proposed MAK-TD/SR frameworks are evaluated via several experiments, which are implemented through the OpenAI Gym MARL benchmarks.
翻訳日:2022-01-03 23:59:41 公開日:2021-12-30
# (参考訳) IBM Watsonを用いたフィットネス管理のためのチャットボット [全文訳有]

Chatbot for fitness management using IBM Watson ( http://arxiv.org/abs/2112.15167v1 )

ライセンス: CC BY 4.0
Sai Rugved Lola, Rahul Dhadvai, Wei Wang, Ting Zhu(参考訳) チャットボットは、人間がコンピュータシステムと対話する方法に革命をもたらし、サービスエージェントやコールセンターの代表などの使用を代用した。 フィットネス産業は常に成長する産業だが、AI、ML、クラウドコンピューティングといった最新の技術には適応していない。 本稿では,IBM Watsonを用いたフィットネス管理用チャットボットを開発し,それをWebアプリケーションに統合するアイデアを提案する。 我々は、Chatbot Assistantに提供されるIBM Cloud Watsonのフレームワークとともに、自然言語処理(NLP)と自然言語理解(NLU)の使用を提案した。 このソフトウェアはサーバーレスアーキテクチャを使用して、ダイエットプラン、ホームエクササイズ、インタラクティブカウンセリングセッション、フィットネスレコメンデーションを提供することで、プロフェッショナルのサービスを組み合わせる。

Chatbots have revolutionized the way humans interact with computer systems and they have substituted the use of service agents, call-center representatives etc. Fitness industry has always been a growing industry although it has not adapted to the latest technologies like AI, ML and cloud computing. In this paper, we propose an idea to develop a chatbot for fitness management using IBM Watson and integrate it with a web application. We proposed using Natural Language Processing (NLP) and Natural Language Understanding (NLU) along with frameworks of IBM Cloud Watson provided for the Chatbot Assistant. This software uses a serverless architecture to combine the services of a professional by offering diet plans, home exercises, interactive counseling sessions, fitness recommendations.
翻訳日:2022-01-03 23:35:01 公開日:2021-12-30
# (参考訳) ニューラルネットワークのロバスト性に向けて

Towards Robustness of Neural Networks ( http://arxiv.org/abs/2112.15188v1 )

ライセンス: CC BY 4.0
Steven Basart(参考訳) 我々は、新しいデータセットであるImageNet-A/OとImageNet-Rを紹介し、CAOSと呼ばれる合成環境とテストスイートを紹介した。 ImageNet-A/Oを使えば、研究者はImageNetに残る盲点に集中できる。 ImageNet-Rは、表現がもはや自然ではなく、芸術的、その他の再帰を含むため、堅牢な表現を追跡する目的で特別に作られた。 CAOSスイートは、CARLAシミュレータで構築されており、異常なオブジェクトを取り込み、再現可能な合成環境や、堅牢性をテストするシーンを作成することができる。 すべてのデータセットは、ロバストネスのテストとロバストネスの進捗測定のために作成されました。 データセットは他の様々な研究で、頑健さの進歩を計測し、自然の精度だけに焦点を絞らない具体的な進歩を可能にするために使われてきた。 これらのデータセットから,ロバストネス研究を推し進めるための新しい手法を考案した。 我々は、最大ロジットの形で単純なベースラインを構築し、典型性スコアを作成し、前述のベンチマークで改善されたdeepaugmentの形式で新しいデータ拡張手法を作成する。 最大ロジットはsoftmax操作後の値ではなくlogit値を考慮し、小さな変更は注目すべき改善をもたらす。 典型性スコアは、出力分布をクラス上の後方分布と比較する。 これにより,セグメンテーションタスク以外のベースラインよりもパフォーマンスが向上することを示す。 ピクセルレベルでの推測では、ピクセルの意味情報はクラスレベルの情報よりも意味が薄い。 最後に、DeepAugmentの新しい拡張技術は、ニューラルネットワークを使用して、従来使用されていた幾何学的およびカメラベースの変換と根本的に異なる画像に拡張を生成する。

We introduce several new datasets namely ImageNet-A/O and ImageNet-R as well as a synthetic environment and testing suite we called CAOS. ImageNet-A/O allow researchers to focus in on the blind spots remaining in ImageNet. ImageNet-R was specifically created with the intention of tracking robust representation as the representations are no longer simply natural but include artistic, and other renditions. The CAOS suite is built off of CARLA simulator which allows for the inclusion of anomalous objects and can create reproducible synthetic environment and scenes for testing robustness. All of the datasets were created for testing robustness and measuring progress in robustness. The datasets have been used in various other works to measure their own progress in robustness and allowing for tangential progress that does not focus exclusively on natural accuracy. Given these datasets, we created several novel methods that aim to advance robustness research. We build off of simple baselines in the form of Maximum Logit, and Typicality Score as well as create a novel data augmentation method in the form of DeepAugment that improves on the aforementioned benchmarks. Maximum Logit considers the logit values instead of the values after the softmax operation, while a small change produces noticeable improvements. The Typicality Score compares the output distribution to a posterior distribution over classes. We show that this improves performance over the baseline in all but the segmentation task. Speculating that perhaps at the pixel level the semantic information of a pixel is less meaningful than that of class level information. Finally the new augmentation technique of DeepAugment utilizes neural networks to create augmentations on images that are radically different than the traditional geometric and camera based transformations used previously.
翻訳日:2022-01-03 23:24:05 公開日:2021-12-30
# 非標準参照による相対色コンステンシーのカラーアライメント

Colour alignment for relative colour constancy via non-standard references ( http://arxiv.org/abs/2112.15106v1 )

ライセンス: Link先を確認
Yunfeng Zhao, Stuart Ferguson, Huiyu Zhou, Chris Elliott and Karen Rafferty(参考訳) 相対色濃度は、多くの科学的イメージング応用に必須である。 しかし、ほとんどのデジタルカメラは画像形成が異なり、例えばスマートフォンのカメラアプリケーションでは、ネイティブセンサーの出力はアクセスできない。 これにより、さまざまなデバイスで一貫した色評価を実現することが難しくなり、コンピュータビジョンアルゴリズムのパフォーマンスを損なう。 この問題を解決するために,カメラ画像形成をブラックボックスとみなし,カラーアライメントをカメラ応答校正,応答線形化,色マッチングという3段階のプロセスとして定式化するカラーアライメントモデルを提案する。 提案モデルは、新しい線形距離のバランス機能を活用し、真の色値を知ることなく、非標準色参照、すなわち色パッチを扱う。 これは教師なしのプロセスでカメラのパラメータを決定することと等価である。 また、適用可能な処理を提供するためにカラーアライメントを行うために、画像全体で対応する最小数のカラーパッチで動作する。 様々な照明および露光条件下で複数のカメラが収集した2つの挑戦的な画像データセットを用いてモデルを評価した。 性能ベンチマークにより,我々のモデルは,他の人気・最先端手法と比較して優れた性能を示した。

Relative colour constancy is an essential requirement for many scientific imaging applications. However, most digital cameras differ in their image formations and native sensor output is usually inaccessible, e.g., in smartphone camera applications. This makes it hard to achieve consistent colour assessment across a range of devices, and that undermines the performance of computer vision algorithms. To resolve this issue, we propose a colour alignment model that considers the camera image formation as a black-box and formulates colour alignment as a three-step process: camera response calibration, response linearisation, and colour matching. The proposed model works with non-standard colour references, i.e., colour patches without knowing the true colour values, by utilising a novel balance-of-linear-di stances feature. It is equivalent to determining the camera parameters through an unsupervised process. It also works with a minimum number of corresponding colour patches across the images to be colour aligned to deliver the applicable processing. Two challenging image datasets collected by multiple cameras under various illumination and exposure conditions were used to evaluate the model. Performance benchmarks demonstrated that our model achieved superior performance compared to other popular and state-of-the-art methods.
翻訳日:2022-01-03 15:51:41 公開日:2021-12-30
# 適応ステップサイズを考慮した確率勾配降下の局所二次収束

Local Quadratic Convergence of Stochastic Gradient Descent with Adaptive Step Size ( http://arxiv.org/abs/2112.14872v1 )

ライセンス: Link先を確認
Adityanarayanan Radhakrishnan and Mikhail Belkin and Caroline Uhler(参考訳) 最適化手法の高速収束の確立は、実際の適用性に不可欠である。 過去10年間にディープラーニングの人気が高まり、確率的勾配降下とその適応的変種(例えば、Adagrad、Adamなど)は、機械学習実践者にとって重要な選択方法となっている。 多くの研究が、これらの一階最適化手法が線形あるいは線形収束を達成することを証明しているが、行列反転のような問題に対する適応的なステップサイズを持つ確率勾配勾配の局所的二次収束を確立する。

Establishing a fast rate of convergence for optimization methods is crucial to their applicability in practice. With the increasing popularity of deep learning over the past decade, stochastic gradient descent and its adaptive variants (e.g. Adagrad, Adam, etc.) have become prominent methods of choice for machine learning practitioners. While a large number of works have demonstrated that these first order optimization methods can achieve sub-linear or linear convergence, we establish local quadratic convergence for stochastic gradient descent with adaptive step size for problems such as matrix inversion.
翻訳日:2022-01-03 15:48:51 公開日:2021-12-30
# 私たちは本当に大きな進歩を遂げていますか? ヘテロジニアスグラフニューラルネットワークの再検討、ベンチマーク、精製

Are we really making much progress? Revisiting, benchmarking, and refining heterogeneous graph neural networks ( http://arxiv.org/abs/2112.14936v1 )

ライセンス: Link先を確認
Qingsong Lv, Ming Ding, Qiang Liu, Yuxiang Chen, Wenzheng Feng, Siming He, Chang Zhou, Jianguo Jiang, Yuxiao Dong, Jie Tang(参考訳) ヘテロジニアスグラフニューラルネットワーク(hgnn)は近年花開いたが、各作業で使用されるユニークなデータ処理と評価設定は、その進歩を完全に理解することを妨げる。 本研究では,HGNNの進捗について,公式コード,データセット,設定,ハイパーパラメータを用いて,最新の12のHGNNを体系的に再現した。 単純な同種GNN(例えばGCNとGAT)は、不適切な設定のため、大半が過小評価されている。 適切な入力を持つGATは、一般的に、様々なシナリオで既存のHGNNにマッチまたは性能を向上することができる。 頑健で再現可能なHGNN研究を容易にするため,11の多様なデータセットと3つのタスクからなるHGB(Heterogeneous Graph Benchmark)を構築した。 HGBは異種グラフデータの分割、特徴処理、性能評価のプロセスを標準化する。 最後に,HGBモデルにおいて,HGNNの進歩を加速するため,HGBモデルにおいて従来のモデルよりも大幅に性能が向上する,シンプルだが非常に強力なベースラインであるSimple-HGNを導入する。

Heterogeneous graph neural networks (HGNNs) have been blossoming in recent years, but the unique data processing and evaluation setups used by each work obstruct a full understanding of their advancements. In this work, we present a systematical reproduction of 12 recent HGNNs by using their official codes, datasets, settings, and hyperparameters, revealing surprising findings about the progress of HGNNs. We find that the simple homogeneous GNNs, e.g., GCN and GAT, are largely underestimated due to improper settings. GAT with proper inputs can generally match or outperform all existing HGNNs across various scenarios. To facilitate robust and reproducible HGNN research, we construct the Heterogeneous Graph Benchmark (HGB), consisting of 11 diverse datasets with three tasks. HGB standardizes the process of heterogeneous graph data splits, feature processing, and performance evaluation. Finally, we introduce a simple but very strong baseline Simple-HGN--which significantly outperforms all previous models on HGB--to accelerate the advancement of HGNNs in the future.
翻訳日:2022-01-03 15:48:41 公開日:2021-12-30
# eコマースにおける一般交通シェーピングプロトコル

A General Traffic Shaping Protocol in E-Commerce ( http://arxiv.org/abs/2112.14941v1 )

ライセンス: Link先を確認
Chenlin Shen, Guangda Huzhang, Yuhang Zhou, Chen Liang, Qing Da(参考訳) 異なるビジネス目標にアプローチするために、オンライントラフィックシェーピングアルゴリズムは、新しい商品の成長を促進するなど、ターゲットのアイテムセットの露出を改善することを目的としている。 一般に、これらのアルゴリズムは、よく訓練された変換率予測モデルを介して、各ユーザ-イムペアのユーティリティにアクセスすることができると仮定する。 しかし、実際のEコマースプラットフォームには、そのような正確なモデルを学ぶのを妨げる必然的な要因があります。 このユーティリティの正確な入力に対する大きな依存を断ち切るために、オンラインEコマースアプリケーションのための一般的なオンライントラフィック形成プロトコルを提案する。 提案手法では,トラヒックシェーピング問題におけるランキング結果に影響を及ぼす唯一の手法であるボーナススコアを,露出数と購入数にマッピングする関数を近似する。 具体的には、探索データ点の凸包上に構築した分割線形関数のクラスにより、上記の関数を近似する。 さらに,オンライントラフィック形成問題を,これらの断片的線形関数を目的と制約の両方に組み込む線形プログラミングとして再構成する。 本アルゴリズムは素数空間における線形計画の最適化を簡便に行うことができ、その解は最適化された目的と期待の制約を満たす確率的戦略によって単純に適用できる。 最後に,オンラインa/bテストでは,提案手法が従来の産業レベルのトラヒックシェーピングアルゴリズムを着実に上回っていることを示す。

To approach different business objectives, online traffic shaping algorithms aim at improving exposures of a target set of items, such as boosting the growth of new commodities. Generally, these algorithms assume that the utility of each user-item pair can be accessed via a well-trained conversion rate prediction model. However, for real E-Commerce platforms, there are unavoidable factors preventing us from learning such an accurate model. In order to break the heavy dependence on accurate inputs of the utility, we propose a general online traffic shaping protocol for online E-Commerce applications. In our framework, we approximate the function mapping the bonus scores, which generally are the only method to influence the ranking result in the traffic shaping problem, to the numbers of exposures and purchases. Concretely, we approximate the above function by a class of the piece-wise linear function constructed on the convex hull of the explored data points. Moreover, we reformulate the online traffic shaping problem as linear programming where these piece-wise linear functions are embedded into both the objective and constraints. Our algorithm can straightforwardly optimize the linear programming in the prime space, and its solution can be simply applied by a stochastic strategy to fulfill the optimized objective and the constraints in expectation. Finally, the online A/B test shows our proposed algorithm steadily outperforms the previous industrial level traffic shaping algorithm.
翻訳日:2022-01-03 15:48:22 公開日:2021-12-30
# 予測のための次元削減:BitcoinとEthereumへの応用

Dimensionality reduction for prediction: Application to Bitcoin and Ethereum ( http://arxiv.org/abs/2112.15036v1 )

ライセンス: Link先を確認
Hugo Inzirillo and Benjamin Mat(参考訳) 本研究の目的は,暗号通貨間のリンクを確立するための次元性低減手法の性能を評価することである。 われわれは、bitcoinとethereumの2つの最も取引された暗号通貨の分析に焦点を当てた。 分析を行うために、ログの戻り値を取得し、データセットを構築するためのコ変数を追加しました。 我々は最初に、BitcoinとEthereumのリンクを予備評価するために、ピアソン相関係数を導入した。 次に、標準相関分析と主成分分析を用いてデータセットの次元を削減した。 統計技術の両方でBitcoinとEthereumのリンクを分析した後、私たちはEthereumのリターンをBitcoinの機能で予測するパフォーマンスを測定しました。

The objective of this paper is to assess the performances of dimensionality reduction techniques to establish a link between cryptocurrencies. We have focused our analysis on the two most traded cryptocurrencies: Bitcoin and Ethereum. To perform our analysis, we took log returns and added some covariates to build our data set. We first introduced the pearson correlation coefficient in order to have a preliminary assessment of the link between Bitcoin and Ethereum. We then reduced the dimension of our data set using canonical correlation analysis and principal component analysis. After performing an analysis of the links between Bitcoin and Ethereum with both statistical techniques, we measured their performance on forecasting Ethereum returns with Bitcoin s features.
翻訳日:2022-01-03 15:48:02 公開日:2021-12-30
# 双線型カップリングによる平滑および凸凸サドルポイント問題の高速化初等二次勾配法

Accelerated Primal-Dual Gradient Method for Smooth and Convex-Concave Saddle-Point Problems with Bilinear Coupling ( http://arxiv.org/abs/2112.15199v1 )

ライセンス: Link先を確認
Dmitry Kovalev, Alexander Gasnikov, Peter Richt\'arik(参考訳) 本稿では,凸凹サドル点問題 $\min_x\max_y f について検討する。 (x) + y^\top\mathbf{A} x - g (y)$, ここで$f (x)$ と $g (y)$ は滑らかかつ凸関数である。 この問題を解くために,高速化されたPrimal-Dual Gradient法を提案する。 (i)低複雑性境界(zhang et al., 2021)に適合する強凸強凸配位における最適線形収束速度を達成する。 (ii)関数の1つが$fの場合、加速された線形収束率を達成する (x)$ と $g (y)$ は強い凸か、あるいはそれらが存在しない。 最後に、一般の滑らかで凸凸なサドル点問題$\min_x\max_y F(x,y)$に対する線形収束アルゴリズムを、強い凸性や強い凹凸性を必要とせずに得る。

In this paper we study a convex-concave saddle-point problem $\min_x\max_y f(x) + y^\top\mathbf{A} x - g(y)$, where $f(x)$ and $g(y)$ are smooth and convex functions. We propose an Accelerated Primal-Dual Gradient Method for solving this problem which (i) achieves an optimal linear convergence rate in the strongly-convex-stro ngly-concave regime matching the lower complexity bound (Zhang et al., 2021) and (ii) achieves an accelerated linear convergence rate in the case when only one of the functions $f(x)$ and $g(y)$ is strongly convex or even none of them are. Finally, we obtain a linearly-convergent algorithm for the general smooth and convex-concave saddle point problem $\min_x\max_y F(x,y)$ without requirement of strong convexity or strong concavity.
翻訳日:2022-01-03 15:47:52 公開日:2021-12-30
# Persformer: トポロジカル機械学習のためのトランスフォーマーアーキテクチャ

Persformer: A Transformer Architecture for Topological Machine Learning ( http://arxiv.org/abs/2112.15210v1 )

ライセンス: Link先を確認
Raphael Reinauer, Matteo Caorsi, Nicolas Berkouk(参考訳) トポロジカルデータ分析(TDA)の主な課題の1つは、機械学習アルゴリズムで直接使用できる永続的な図から特徴を抽出することである。 実際、パーシステンスダイアグラムは r2 内の点の本質的に(多元)集合であり、直観的にベクトルと見なすことはできない。 本稿では、永続化図を入力として受け入れる最初のTransformerニューラルネットワークアーキテクチャであるPersformerを紹介する。 persformerアーキテクチャは、古典的な合成ベンチマークデータセットの以前のトポロジカルニューラルネットワークアーキテクチャを大幅に上回っている。 さらに、普遍近似定理を満たす。 これにより、トポロジカル機械学習のための最初の解釈可能性手法を2つの例で紹介できる。

One of the main challenges of Topological Data Analysis (TDA) is to extract features from persistent diagrams directly usable by machine learning algorithms. Indeed, persistence diagrams are intrinsically (multi-)sets of points in R2 and cannot be seen in a straightforward manner as vectors. In this article, we introduce Persformer, the first Transformer neural network architecture that accepts persistence diagrams as input. The Persformer architecture significantly outperforms previous topological neural network architectures on classical synthetic benchmark datasets. Moreover, it satisfies a universal approximation theorem. This allows us to introduce the first interpretability method for topological machine learning, which we explore in two examples.
翻訳日:2022-01-03 15:47:07 公開日:2021-12-30
# シェープリー推定によるバックドア防御

Few-shot Backdoor Defense Using Shapley Estimation ( http://arxiv.org/abs/2112.14889v1 )

ライセンス: Link先を確認
Jiyang Guan, Zhuozhuo Tu, Ran He, Dacheng Tao(参考訳) ディープニューラルネットワークは、自律運転、顔認識、医療診断など、過去10年間にさまざまなタスクで顕著なパフォーマンスを達成した。 しかし、以前の研究では、悪意のある小さな隠れたトリガーをモデルトレーニングに注入し、深刻なセキュリティ脅威を引き起こすバックドア攻撃によって、深いニューラルネットワークが推論段階で特定の攻撃的行動に容易に操作できることが示されている。 引き起こされたニューロンを判断し、バックドア攻撃から保護するために、shapley値を利用して、データ不足の状況(クラス1枚かデータなしか)でモデルからバックドア攻撃を緩和する、shapley pruning (shappruning)と呼ばれる新しいアプローチを開発しました。 神経細胞間の相互作用を考慮すると、ShapPruningは数少ない感染ニューロン(全ニューロンの1%以下)を特定し、できるだけ多くの感染ニューロンを切断した後、モデルの構造と精度を保護する。 シャップランニングを加速するために、我々はさらに、シャップリー推定を加速するための廃棄しきい値と$\epsilon$-greedy戦略を提案し、わずか数分で汚染されたモデルを修復できる。 実験では,既存の手法と比較して,様々な攻撃やタスクに対する手法の有効性と堅牢性を示す。

Deep neural networks have achieved impressive performance in a variety of tasks over the last decade, such as autonomous driving, face recognition, and medical diagnosis. However, prior works show that deep neural networks are easily manipulated into specific, attacker-decided behaviors in the inference stage by backdoor attacks which inject malicious small hidden triggers into model training, raising serious security threats. To determine the triggered neurons and protect against backdoor attacks, we exploit Shapley value and develop a new approach called Shapley Pruning (ShapPruning) that successfully mitigates backdoor attacks from models in a data-insufficient situation (1 image per class or even free of data). Considering the interaction between neurons, ShapPruning identifies the few infected neurons (under 1% of all neurons) and manages to protect the model's structure and accuracy after pruning as many infected neurons as possible. To accelerate ShapPruning, we further propose discarding threshold and $\epsilon$-greedy strategy to accelerate Shapley estimation, making it possible to repair poisoned models with only several minutes. Experiments demonstrate the effectiveness and robustness of our method against various attacks and tasks compared to existing methods.
翻訳日:2022-01-03 15:45:03 公開日:2021-12-30
# 医用画像の変形登録のための解像度向上プラグイン

A Resolution Enhancement Plug-in for Deformable Registration of Medical Images ( http://arxiv.org/abs/2112.15180v1 )

ライセンス: Link先を確認
Kaicong Sun, Sven Simon(参考訳) 画像登録は医療画像の基本的な課題である。 登録時に強度値の再サンプリングが必要であり、より微細でシャープな構造の空間分解能が向上すれば、再サンプリング性能が向上し、登録精度が向上する。 super- resolution(スーパーレゾリューション、sr)は、ハードウェアの限界を超える解像度を実現できる空間レゾリューション拡張を目的としたアルゴリズム技術である。 本研究では,SRを前処理技術とみなし,登録ネットワークに簡単に接続可能なCNNベースの解像度向上モジュール(REM)を提案する。 残差スキームとREMのネットワーク構成を比較検討し,REMのアーキテクチャ設計を効果的に行う。 実際、REMは画像登録に限らず、他の視覚タスクと直接統合して解像度を高めることもできる。 提案するREMは,医療画像上の変形可能な登録を,異なるアップスケーリング因子で定量的に定性的に評価する。 LPBA40脳MRIデータセットの実験では、特に入力画像が劣化した空間分解能に苦しむ場合、REMは登録精度を向上するだけでなく、連続診断に利用できる解像度向上画像を生成する。

Image registration is a fundamental task for medical imaging. Resampling of the intensity values is required during registration and better spatial resolution with finer and sharper structures can improve the resampling performance and hence the registration accuracy. Super-resolution (SR) is an algorithmic technique targeting at spatial resolution enhancement which can achieve an image resolution beyond the hardware limitation. In this work, we consider SR as a preprocessing technique and present a CNN-based resolution enhancement module (REM) which can be easily plugged into the registration network in a cascaded manner. Different residual schemes and network configurations of REM are investigated to obtain an effective architecture design of REM. In fact, REM is not confined to image registration, it can also be straightforwardly integrated into other vision tasks for enhanced resolution. The proposed REM is thoroughly evaluated for deformable registration on medical images quantitatively and qualitatively at different upscaling factors. Experiments on LPBA40 brain MRI dataset demonstrate that REM not only improves the registration accuracy, especially when the input images suffer from degraded spatial resolution, but also generates resolution enhanced images which can be exploited for successive diagnosis.
翻訳日:2022-01-03 15:44:41 公開日:2021-12-30
# クロスモーダル音楽表現学習による音声から記号へのアレンジ

Audio-to-symbolic Arrangement via Cross-modal Music Representation Learning ( http://arxiv.org/abs/2112.15110v1 )

ライセンス: Link先を確認
Ziyu Wang, Dejing Xu, Gus Xia, Ying Shan(参考訳) ポップソングの音声に基づいてピアノ伴奏の楽譜を自動的に導き出せるか? 本論文では,音声とシンボリックなアレンジメントの問題について述べる。 優れたアレンジモデルは、オーディオの内容だけでなく、ピアノの作曲に関する事前知識(音質を「音」にし、音楽性を維持する)も考慮すべきである(この目的のために、我々は、モーダルな表現学習モデルに貢献する。 1)音声からコード及びメロディ情報を抽出し、 2) テクスチャ表現は音声と劣化した地上真実の配置の両方から学習する。 さらに,テクスチャ情報の発信源を劣化したスコアから音声に徐々にシフトさせる,カスタマイズされたトレーニング戦略も導入する。 最終的に、スコアベースのテクスチャ後部は標準正規分布に縮小され、推論には音声のみが必要となる。 実験により,本モデルが主要な音声情報をキャプチャし,生成品質においてベースラインを上回ることを示す。

Could we automatically derive the score of a piano accompaniment based on the audio of a pop song? This is the audio-to-symbolic arrangement problem we tackle in this paper. A good arrangement model should not only consider the audio content but also have prior knowledge of piano composition (so that the generation "sounds like" the audio and meanwhile maintains musicality.) To this end, we contribute a cross-modal representation-learn ing model, which 1) extracts chord and melodic information from the audio, and 2) learns texture representation from both audio and a corrupted ground truth arrangement. We further introduce a tailored training strategy that gradually shifts the source of texture information from corrupted score to audio. In the end, the score-based texture posterior is reduced to a standard normal distribution, and only audio is needed for inference. Experiments show that our model captures major audio information and outperforms baselines in generation quality.
翻訳日:2022-01-03 15:42:57 公開日:2021-12-30
# トップN一貫性を持つ多クラス損失関数の統一DROビュー

A Unified DRO View of Multi-class Loss Functions with top-N Consistency ( http://arxiv.org/abs/2112.14869v1 )

ライセンス: Link先を確認
Dixian Zhu and Tianbao Yang(参考訳) マルチクラス分類は、多くのクラスラベルの1つによってデータがラベル付けされる機械学習アプリケーションで最も一般的なタスクの1つである。 マルチクラス分類には、クロスエントロピー(CE)損失とクラマーシンガー(CS)損失(SVM損失)の2つを含む多くの損失関数が提案されている。 CS損失は従来の機械学習タスクに広く使用されているが、CE損失は通常、マルチクラスディープラーニングタスクのデフォルト選択である。 CS損失とCE損失の上位$の変種も存在し、より優れた上位$の精度を達成するための分類器の学習を促進するために提案されている。 それにもかかわらず、これらの異なる損失の関係は依然として不明であり、異なるシナリオにおける我々の期待を理解するのを妨げている。 本稿では,CS/CEの損失と,そのスムーズなトップ$kの変動について,与えられたラベル情報が不完全でノイズの多い場合に,CS/CEの損失よりも確実に優れた新しい損失関数群を提案する。 label-distributional ly robust (ldr) loss} と呼ばれる新しい滑らかな損失関数の族は、関数によって正規化された各ラベルの分布重みを用いて真のクラスラベル上の不確かさをキャプチャする与えられたラベル情報の不確かさをモデル化するために、distributally robust optimization (dro)フレームワークを活用することで定義される。

Multi-class classification is one of the most common tasks in machine learning applications, where data is labeled by one of many class labels. Many loss functions have been proposed for multi-class classification including two well-known ones, namely the cross-entropy (CE) loss and the crammer-singer (CS) loss (aka. the SVM loss). While CS loss has been used widely for traditional machine learning tasks, CE loss is usually a default choice for multi-class deep learning tasks. There are also top-$k$ variants of CS loss and CE loss that are proposed to promote the learning of a classifier for achieving better top-$k$ accuracy. Nevertheless, it still remains unclear the relationship between these different losses, which hinders our understanding of their expectations in different scenarios. In this paper, we present a unified view of the CS/CE losses and their smoothed top-$k$ variants by proposing a new family of loss functions, which are arguably better than the CS/CE losses when the given label information is incomplete and noisy. The new family of smooth loss functions named {label-distributional ly robust (LDR) loss} is defined by leveraging the distributionally robust optimization (DRO) framework to model the uncertainty in the given label information, where the uncertainty over true class labels is captured by using distributional weights for each label regularized by a function.
翻訳日:2022-01-03 15:06:39 公開日:2021-12-30
# 多様な最適化候補を生成する可逆上信頼境界アルゴリズム

Reversible Upper Confidence Bound Algorithm to Generate Diverse Optimized Candidates ( http://arxiv.org/abs/2112.14893v1 )

ライセンス: Link先を確認
Bin Chong, Yingguang Yang, Zi-Le Wang, Hang Xing, and Zhirong Liu(参考訳) 強化学習におけるマルチアームバンディット問題のアルゴリズムの多くは、期待される報酬を最大化することを目的としており、多様なアプリケーション(例えばalphago)に対して最も高い報酬(関数値)を持つ最適化候補を探索するのに有用である。 しかしながら、薬物発見のような典型的な応用例では、高い報酬で多様な候補を探索することを目的としている。 本稿では,そのような目的のために可逆上信頼結合(rucb)アルゴリズムを提案し,本態性障害タンパク質(idp)の仮想スクリーニングへの応用を示す。 rUCBは、高い精度と低性能の損失を達成しつつ、クエリ時間を大幅に短縮し、マルチポイント最適化や他の強化学習ケースに潜在的に応用できる可能性がある。

Most algorithms for the multi-armed bandit problem in reinforcement learning aimed to maximize the expected reward, which are thus useful in searching the optimized candidate with the highest reward (function value) for diverse applications (e.g., AlphaGo). However, in some typical application scenaios such as drug discovery, the aim is to search a diverse set of candidates with high reward. Here we propose a reversible upper confidence bound (rUCB) algorithm for such a purpose, and demonstrate its application in virtual screening upon intrinsically disordered proteins (IDPs). It is shown that rUCB greatly reduces the query times while achieving both high accuracy and low performance loss.The rUCB may have potential application in multipoint optimization and other reinforcement-learni ng cases.
翻訳日:2022-01-03 15:06:08 公開日:2021-12-30
# モチーフグラフニューラルネットワーク

Motif Graph Neural Network ( http://arxiv.org/abs/2112.14900v1 )

ライセンス: Link先を確認
Xuexin Chen, Ruichu Cai, Yuan Fang, Min Wu, Zijian Li, Zhifeng Hao(参考訳) グラフはエンティティ間の複雑な相互作用をモデル化することができる。 これらのアプリケーションは、しばしば標準的なグラフ学習タスクにキャストされ、重要なステップは低次元グラフ表現を学ぶことである。 グラフニューラルネットワーク(GNN)は現在、グラフ埋め込みアプローチで最も人気のあるモデルである。 しかし、近傍集約のパラダイムにおける標準GNNは、 \emph{high-order} グラフ構造を \emph{low-order} 構造とは対照的に区別する際の限定的な識別力に悩まされる。 高次構造を捉えるために、研究者はモチーフに頼り、モチーフベースのGNNを開発した。 しかし、既存のモチーフベースのGNNは高次構造に対する識別力の低下に悩まされることが多い。 上記の制約を克服するために,高次構造をよりよく捉えるための新しい枠組みであるモチーフグラフニューラルネットワーク(mgnn)を提案し,提案するモチーフ冗長化演算子とインジェクティブモチーフの組み合わせについて検討した。 まず、MGNNは各モチーフのノード表現のセットを生成する。 次の段階はモチーフ間の冗長性の最小化であり、モチーフを互いに比較し、各モチーフ特有の特徴を蒸留する。 最後に、MGNNは異なるモチーフから複数の表現を組み合わせることでノード表現の更新を行う。 特に、差別力を高めるために、MGNNは、異なるモチーフの表現を結合するためにインジェクティブ関数を利用する。 さらに,提案アーキテクチャは理論解析により,GNNの表現力を高めることを示す。 MGNNはノード分類とグラフ分類の両方において、7つの公開ベンチマークにおいて最先端の手法よりも優れていることを示す。

Graphs can model complicated interactions between entities, which naturally emerge in many important applications. These applications can often be cast into standard graph learning tasks, in which a crucial step is to learn low-dimensional graph representations. Graph neural networks (GNNs) are currently the most popular model in graph embedding approaches. However, standard GNNs in the neighborhood aggregation paradigm suffer from limited discriminative power in distinguishing \emph{high-order} graph structures as opposed to \emph{low-order} structures. To capture high-order structures, researchers have resorted to motifs and developed motif-based GNNs. However, existing motif-based GNNs still often suffer from less discriminative power on high-order structures. To overcome the above limitations, we propose Motif Graph Neural Network (MGNN), a novel framework to better capture high-order structures, hinging on our proposed motif redundancy minimization operator and injective motif combination. First, MGNN produces a set of node representations w.r.t. each motif. The next phase is our proposed redundancy minimization among motifs which compares the motifs with each other and distills the features unique to each motif. Finally, MGNN performs the updating of node representations by combining multiple representations from different motifs. In particular, to enhance the discriminative power, MGNN utilizes an injective function to combine the representations w.r.t. different motifs. We further show that our proposed architecture increases the expressive power of GNNs with a theoretical analysis. We demonstrate that MGNN outperforms state-of-the-art methods on seven public benchmarks on both node classification and graph classification tasks.
翻訳日:2022-01-03 15:05:53 公開日:2021-12-30
# 一般化ポリシー更新を用いた転校行動ベースの構築

Constructing a Good Behavior Basis for Transfer using Generalized Policy Updates ( http://arxiv.org/abs/2112.15025v1 )

ライセンス: Link先を確認
Safa Alver, Doina Precup(参考訳) そこで我々は,良質な方針を学習する問題について検討し,これらを組み合わせることで,新たなデータ無しあるいは少なからぬデータで,未知の強化学習タスクを多種多様に解くことができる。 具体的には,すべての課題に対する報酬を固定された特徴の集合の線形結合として表現可能と仮定した,総合的な政策評価・改善の枠組みを検討する。 理論的には、特定の仮定の下では、独立ポリシーと呼ばれる特定の多様なポリシーにアクセスでき、エージェントが訓練されたものよりも一般的に複雑である全てのダウンストリームタスクにおいて、即座にハイレベルなパフォーマンスを達成できることを示す。 この理論解析に基づいて,この一連のポリシーを反復的に構築する単純なアルゴリズムを提案する。 理論的結果の実証的検証に加えて,最近提案された多種多様なポリシーセット構築手法との比較を行い,他の手法が失敗する一方で,本手法がダウンストリームタスクの即時移行を可能にする行動基盤を構築することができることを示す。 また,独立したポリシセットにアクセスすることで,新しい報酬関数を特徴の線形結合として記述できない下流タスクの学習プロセスをブートストラップできることを示す。 最後に、このポリシーセットは現実的な生涯強化学習環境において有用であることを示す。

We study the problem of learning a good set of policies, so that when combined together, they can solve a wide variety of unseen reinforcement learning tasks with no or very little new data. Specifically, we consider the framework of generalized policy evaluation and improvement, in which the rewards for all tasks of interest are assumed to be expressible as a linear combination of a fixed set of features. We show theoretically that, under certain assumptions, having access to a specific set of diverse policies, which we call a set of independent policies, can allow for instantaneously achieving high-level performance on all possible downstream tasks which are typically more complex than the ones on which the agent was trained. Based on this theoretical analysis, we propose a simple algorithm that iteratively constructs this set of policies. In addition to empirically validating our theoretical results, we compare our approach with recently proposed diverse policy set construction methods and show that, while others fail, our approach is able to build a behavior basis that enables instantaneous transfer to all possible downstream tasks. We also show empirically that having access to a set of independent policies can better bootstrap the learning process on downstream tasks where the new reward function cannot be described as a linear combination of the features. Finally, we demonstrate that this policy set can be useful in a realistic lifelong reinforcement learning setting.
翻訳日:2022-01-03 15:05:29 公開日:2021-12-30
# 知識追跡のためのディープラーニングモデル:レビューと実証評価

Deep Learning Models for Knowledge Tracing: Review and Empirical Evaluation ( http://arxiv.org/abs/2112.15072v1 )

ライセンス: Link先を確認
Sami Sarsa, Juho Leinonen, Arto Hellas(参考訳) 本研究では,オープンで広く利用されているデータセットと,プログラミングを学ぶ学生の新しいデータセットを用いて,ディープラーニング知識トレース(dlkt)モデルの体系をレビューし,評価する。 評価されたDLKTモデルを再現性と再現性の評価のために再実装した。 我々は,モデルの主要アーキテクチャとは独立な比較モデルにおける入力層と出力層のバリエーションをテストし,いくつかの研究で暗黙的かつ明示的に使用された最大試行回数オプションをテストした。 評価された知識追跡モデルの品質を反映するために、いくつかのメトリクスが使用される。 評価された知識追跡モデルには、Vanilla-DKT、Long Short-Term Memory Deep Knowledge Tracing (LSTM-DKT)、Dynamic Key-Value Memory Network (DKVMN)、Self-Attentive Knowledge Tracing (SAKT)などがある。 我々は,ロジスティック回帰,ベイズ知識追跡(BKT)および単純な非学習モデルをベースラインとして評価する。 以上の結果から,DLKTモデルは一般の非DLKTモデルよりも優れており,DLKTモデル間の相対的差異は微妙であり,データセット間でもしばしば異なることが示唆された。 また, 平均予測などのナイーブモデルにより, 特に精度の点で, 高度な知識追跡モデルよりも優れた性能が得られることを示した。 さらに, パラメータおよびハイパーパラメータ分析により, 最適モデルハイパーパラメータの選択に使用するメトリックが, モデルの性能に顕著な影響を及ぼし, パラメータ選択がモデルランキングに影響を及ぼすことを示した。 また,入力層と出力層の変動の影響,長い試行シーケンスのフィルタリング,ランダム性やハードウェアなどの非モデル特性についても検討した。 最後に、モデル性能の再現性と関連する問題について論じる。 私たちのモデル実装、評価コード、データは、この作業の一部として公開されています。

In this work, we review and evaluate a body of deep learning knowledge tracing (DLKT) models with openly available and widely-used data sets, and with a novel data set of students learning to program. The evaluated DLKT models have been reimplemented for assessing reproducibility and replicability of previously reported results. We test different input and output layer variations found in the compared models that are independent of the main architectures of the models, and different maximum attempt count options that have been implicitly and explicitly used in some studies. Several metrics are used to reflect on the quality of the evaluated knowledge tracing models. The evaluated knowledge tracing models include Vanilla-DKT, two Long Short-Term Memory Deep Knowledge Tracing (LSTM-DKT) variants, two Dynamic Key-Value Memory Network (DKVMN) variants, and Self-Attentive Knowledge Tracing (SAKT). We evaluate logistic regression, Bayesian Knowledge Tracing (BKT) and simple non-learning models as baselines. Our results suggest that the DLKT models in general outperform non-DLKT models, and the relative differences between the DLKT models are subtle and often vary between datasets. Our results also show that naive models such as mean prediction can yield better performance than more sophisticated knowledge tracing models, especially in terms of accuracy. Further, our metric and hyperparameter analysis shows that the metric used to select the best model hyperparameters has a noticeable effect on the performance of the models, and that metric choice can affect model ranking. We also study the impact of input and output layer variations, filtering out long attempt sequences, and non-model properties such as randomness and hardware. Finally, we discuss model performance replicability and related issues. Our model implementations, evaluation code, and data are published as a part of this work.
翻訳日:2022-01-03 15:05:08 公開日:2021-12-30
# 資源効率のよいディープラーニング:モデル、算術、実装レベル技術に関する調査

Resource-Efficient Deep Learning: A Survey on Model-, Arithmetic-, and Implementation-Level Techniques ( http://arxiv.org/abs/2112.15131v1 )

ライセンス: Link先を確認
JunKyu Lee, Lev Mukhanov, Amir Sabbagh Molahosseini, Umar Minhas, Yang Hua, Jesus Martinez del Rincon, Kiril Dichev, Cheol-Ho Hong, Hans Vandierendonck(参考訳) ディープラーニングは、自動運転車、バーチャルアシスタント、ソーシャルネットワークサービス、ヘルスケアサービス、顔認識など、私たちの日常生活に広く浸透しています。 しかし、ディープニューラルネットワークはトレーニングと推論の間にかなりの計算リソースを要求する。 機械学習コミュニティは主にディープラーニングモデルのアーキテクチャ圧縮のようなモデルレベルの最適化に重点を置いており、システムコミュニティは実装レベルの最適化に重点を置いている。 この間に算術レベルの最適化技術が算術コミュニティで提案されている。 本稿では, モデル, 算術, 実装レベル技術の観点から資源効率の高いディープラーニング技術に関する調査を行い, 資源効率の高いディープラーニング技術の研究ギャップを3つの異なるレベル技術で確認する。 本調査は,資源効率メトリック定義に基づく高レベルから低レベルの手法の影響を明らかにし,資源効率深層学習研究の今後の動向について考察する。

Deep learning is pervasive in our daily life, including self-driving cars, virtual assistants, social network services, healthcare services, face recognition, etc. However, deep neural networks demand substantial compute resources during training and inference. The machine learning community has mainly focused on model-level optimizations such as architectural compression of deep learning models, while the system community has focused on implementation-level optimization. In between, various arithmetic-level optimization techniques have been proposed in the arithmetic community. This article provides a survey on resource-efficient deep learning techniques in terms of model-, arithmetic-, and implementation-level techniques and identifies the research gaps for resource-efficient deep learning techniques across the three different level techniques. Our survey clarifies the influence from higher to lower-level techniques based on our resource-efficiency metric definition and discusses the future trend for resource-efficient deep learning research.
翻訳日:2022-01-03 15:03:31 公開日:2021-12-30
# 制約サンプリング強化学習: 学習の高速化のための専門知識の導入

Constraint Sampling Reinforcement Learning: Incorporating Expertise For Faster Learning ( http://arxiv.org/abs/2112.15221v1 )

ライセンス: Link先を確認
Tong Mu, Georgios Theocharous, David Arbour, Emma Brunskill(参考訳) オンライン強化学習(RL)アルゴリズムは、ゆっくりと学習し、初期の性能が劣る可能性があるため、複雑な人間向けアプリケーションに展開することがしばしば困難である。 そこで本研究では,人間の洞察を高速学習に組み込む実用的なアルゴリズムを提案する。 我々のアルゴリズムであるConstraint Sampling Reinforcement Learning (CSRL)は、事前のドメイン知識をRLポリシーの制約/制約として組み込む。 個々の制約の誤った指定に対して堅牢性を維持するために、複数の潜在的なポリシー制約を必要とします。 基本的RL学習アルゴリズム(UCRL,DQN,Rainbowなど)が与えられた場合,制約と観測性能の関係を生かした消去スキームによる高信頼度を提案し,それらを適応的に切り替える。 dqn型アルゴリズムとucrlを基本アルゴリズムとしてアルゴリズムをインスタンス化し,実際のデータに基づく3つのシミュレータ,レコメンデーション,教育活動シーケンシング,hiv治療シーケンシングを含む4つの環境評価を行った。 すべてのケースにおいて、CSRLはベースラインよりも早く良いポリシーを学ぶ。

Online reinforcement learning (RL) algorithms are often difficult to deploy in complex human-facing applications as they may learn slowly and have poor early performance. To address this, we introduce a practical algorithm for incorporating human insight to speed learning. Our algorithm, Constraint Sampling Reinforcement Learning (CSRL), incorporates prior domain knowledge as constraints/restrict ions on the RL policy. It takes in multiple potential policy constraints to maintain robustness to misspecification of individual constraints while leveraging helpful ones to learn quickly. Given a base RL learning algorithm (ex. UCRL, DQN, Rainbow) we propose an upper confidence with elimination scheme that leverages the relationship between the constraints, and their observed performance, to adaptively switch among them. We instantiate our algorithm with DQN-type algorithms and UCRL as base algorithms, and evaluate our algorithm in four environments, including three simulators based on real data: recommendations, educational activity sequencing, and HIV treatment sequencing. In all cases, CSRL learns a good policy faster than baselines.
翻訳日:2022-01-03 14:48:21 公開日:2021-12-30
# gan性能向上のための補助分岐付き新規発電機

A Novel Generator with Auxiliary Branch for Improving GAN Performance ( http://arxiv.org/abs/2112.14968v1 )

ライセンス: Link先を確認
Seung Park and Yong-Goo Shin(参考訳) 生成逆数ネットワーク(GAN)のジェネレータは、前の層が画像の全体構造を学習し、後者が詳細を洗練する粗大な方法で画像生成を学習する。 粗い情報をよく広めるために、最近の研究は通常、複数の残余ブロックを積み重ねて生成器を構築する。 残差ブロックは高品質な画像を生成することができ、安定して訓練することができるが、しばしばネットワーク内の情報の流れを阻害する。 この問題を軽減するために,本論文では,主枝と補助枝の2つの異なる枝から得られた特徴を組み合わせることで,画像を生成する新しいジェネレータアーキテクチャを提案する。 メインブランチの目標は、複数の残差ブロックを通過して画像を生成することであり、補助ブランチは、前層の粗い情報を後層に伝達することである。 また,主枝と補助枝の特徴をうまく組み合わせるために,これらの枝内の情報の流れを制御するゲート機能融合モジュールを提案する。 提案手法の優位性を証明するため,CIFAR-10, CIFAR-100, LSUN, CelebA-HQ, AFHQ, little-ImageNetなどの各種標準データセットを用いた広範な実験を行った。 さらに,提案手法の一般化能力を示すため,様々なアブレーション研究を行った。 定量的評価により,提案手法はインセプションスコア(IS)とFrechetインセプション距離(FID)の点で印象的なGAN性能を示すことが示された。 例えば、提案手法は、小さなImageNetデータセットのFIDとISスコアをそれぞれ35.13から25.00、20.23から25.57に引き上げる。

The generator in the generative adversarial network (GAN) learns image generation in a coarse-to-fine manner in which earlier layers learn an overall structure of the image and the latter ones refine the details. To propagate the coarse information well, recent works usually build their generators by stacking up multiple residual blocks. Although the residual block can produce the high-quality image as well as be trained stably, it often impedes the information flow in the network. To alleviate this problem, this brief introduces a novel generator architecture that produces the image by combining features obtained through two different branches: the main and auxiliary branches. The goal of the main branch is to produce the image by passing through the multiple residual blocks, whereas the auxiliary branch is to convey the coarse information in the earlier layer to the later one. To combine the features in the main and auxiliary branches successfully, we also propose a gated feature fusion module that controls the information flow in those branches. To prove the superiority of the proposed method, this brief provides extensive experiments using various standard datasets including CIFAR-10, CIFAR-100, LSUN, CelebA-HQ, AFHQ, and tiny- ImageNet. Furthermore, we conducted various ablation studies to demonstrate the generalization ability of the proposed method. Quantitative evaluations prove that the proposed method exhibits impressive GAN performance in terms of Inception score (IS) and Frechet inception distance (FID). For instance, the proposed method boosts the FID and IS scores on the tiny-ImageNet dataset from 35.13 to 25.00 and 20.23 to 25.57, respectively.
翻訳日:2022-01-03 14:48:03 公開日:2021-12-30
# 生成逆ネットワークによる対照的なきめ細かいクラスクラスタリング

Contrastive Fine-grained Class Clustering via Generative Adversarial Networks ( http://arxiv.org/abs/2112.14971v1 )

ライセンス: Link先を確認
Yunji Kim, Jung-Woo Ha(参考訳) 教師なしのきめ細かいクラスクラスタリングは、微妙なオブジェクトの詳細に関する特徴表現の学習が困難であるため、実際は難しい課題である。 コントラスト学習を適用することでInfoGANのカテゴリ推論能力を活用する手法であるC3-GANを紹介する。 我々は,データの埋め込み空間におけるクラスタ境界形成を促す特徴表現の学習と,潜在コードと観測データとの相互情報の最大化を目指す。 我々のアプローチは、クラスタを推定するために使用される判別器を訓練し、相互情報を最大化する画像相対対を正の対とし、残りを負のペアとするコントラスト損失を最適化する。 具体的には、分類分布からサンプリングしたジェネレータの入力を判別器の埋め込み空間にマッピングし、クラスタセントロイドとして機能させる。 このようにして、C3-GANは、各クラスタが明確に分離可能なクラスタリングフレンドリーな埋め込み空間を学習することに成功した。 実験結果から,C3-GANは4つの詳細なベンチマークデータセット上での最先端クラスタリング性能を達成し,モード崩壊現象を緩和した。

Unsupervised fine-grained class clustering is practical yet challenging task due to the difficulty of feature representations learning of subtle object details. We introduce C3-GAN, a method that leverages the categorical inference power of InfoGAN by applying contrastive learning. We aim to learn feature representations that encourage the data to form distinct cluster boundaries in the embedding space, while also maximizing the mutual information between the latent code and its observation. Our approach is to train the discriminator, which is used for inferring clusters, to optimize the contrastive loss, where the image-latent pairs that maximize the mutual information are considered as positive pairs and the rest as negative pairs. Specifically, we map the input of the generator, which has sampled from the categorical distribution, to the embedding space of the discriminator and let them act as a cluster centroid. In this way, C3-GAN achieved to learn a clustering-friendly embedding space where each cluster is distinctively separable. Experimental results show that C3-GAN achieved state-of-the-art clustering performance on four fine-grained benchmark datasets, while also alleviating the mode collapse phenomenon.
翻訳日:2022-01-03 14:47:32 公開日:2021-12-30
# 予測関数正規化による自己教師付き表現の連続学習

Continually Learning Self-Supervised Representations with Projected Functional Regularization ( http://arxiv.org/abs/2112.15022v1 )

ライセンス: Link先を確認
Alex Gomez-Villa, Bartlomiej Twardowski, Lu Yu, Andrew D. Bagdanov, Joost van de Weijer(参考訳) 近年の自己教師あり学習手法は高品質な画像表現を学習でき、教師ありの手法でギャップを埋めている。 しかし、これらの手法は新たな知識を段階的に獲得することができず、実際には、IDデータによる事前学習フェーズとしてのみ使用される。 本研究では,記憶や再生を伴わない継続的学習体制における自己指導手法について検討する。 従来の知識を忘れないように,機能正規化の利用を提案する。 機能的正規化は, 機能蒸留としても知られ, 可塑性が低く, 連続学習性能が著しく制限されることを示す。 そこで本稿では,新たに学習した特徴空間が,新たに学習した特徴空間の情報を保持しつつ,新たな特徴空間の学習を可能にするプロジェクションネットワークを提案する。 これにより,学習者の可塑性を維持しながら忘れることを防止することができる。 自己超越に適用される他の漸進的学習アプローチに対する評価は,本手法が異なるシナリオや複数のデータセットにおいて競合性能を得ることを示す。

Recent self-supervised learning methods are able to learn high-quality image representations and are closing the gap with supervised methods. However, these methods are unable to acquire new knowledge incrementally -- they are, in fact, mostly used only as a pre-training phase with IID data. In this work we investigate self-supervised methods in continual learning regimes without additional memory or replay. To prevent forgetting of previous knowledge, we propose the usage of functional regularization. We will show that naive functional regularization, also known as feature distillation, leads to low plasticity and therefore seriously limits continual learning performance. To address this problem, we propose Projected Functional Regularization where a separate projection network ensures that the newly learned feature space preserves information of the previous feature space, while allowing for the learning of new features. This allows us to prevent forgetting while maintaining the plasticity of the learner. Evaluation against other incremental learning approaches applied to self-supervision demonstrates that our method obtains competitive performance in different scenarios and on multiple datasets.
翻訳日:2022-01-03 14:47:11 公開日:2021-12-30
# 中国語テキスト認識のベンチマーク:データセット,ベースライン,実証的研究

Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study ( http://arxiv.org/abs/2112.15093v1 )

ライセンス: Link先を確認
Jingye Chen, Haiyang Yu, Jianqi Ma, Mengnan Guan, Xixi Xu, Xiaocong Wang, Shaobo Qu, Bin Li, Xiangyang Xue(参考訳) 深層学習の隆盛は、近年のテキスト認識の急速な発展を目撃している。 しかし、既存のテキスト認識法は主に英語のテキスト用であるが、中国語のテキストの重要な役割は無視されている。 もう一つの広く普及している言語として、あらゆる意味で中国語のテキスト認識には幅広い応用市場がある。 本報告では,中国語テキスト認識に対する注目度を,合理的なデータセット構築基準の欠如,統一的な評価方法,既存のベースラインの結果と定義する。 このギャップを埋めるために、公開コンペティション、プロジェクト、論文から中国語のテキストデータセットを手作業で収集し、シーン、Web、ドキュメント、手書きデータセットを含む4つのカテゴリに分割します。 さらに,これらのデータセットに対する一連の代表的テキスト認識手法を統一評価法で評価し,実験結果を提供する。 実験結果を分析することで,中国語のシナリオでは,英文認識のための最先端のベースラインがうまく機能しないことがわかった。 我々は、漢文の特徴が英語のテキストと大きく異なるため、まだ探索中の課題が数多く残っていると考えている。 コードとデータセットはhttps://github.com/F udanVI/benchmarking- chinese-text-recogni tionで公開されている。

The flourishing blossom of deep learning has witnessed the rapid development of text recognition in recent years. However, the existing text recognition methods are mainly for English texts, whereas ignoring the pivotal role of Chinese texts. As another widely-spoken language, Chinese text recognition in all ways has extensive application markets. Based on our observations, we attribute the scarce attention on Chinese text recognition to the lack of reasonable dataset construction standards, unified evaluation methods, and results of the existing baselines. To fill this gap, we manually collect Chinese text datasets from publicly available competitions, projects, and papers, then divide them into four categories including scene, web, document, and handwriting datasets. Furthermore, we evaluate a series of representative text recognition methods on these datasets with unified evaluation methods to provide experimental results. By analyzing the experimental results, we surprisingly observe that state-of-the-art baselines for recognizing English texts cannot perform well on Chinese scenarios. We consider that there still remain numerous challenges under exploration due to the characteristics of Chinese texts, which are quite different from English texts. The code and datasets are made publicly available at https://github.com/F udanVI/benchmarking- chinese-text-recogni tion.
翻訳日:2022-01-03 14:46:54 公開日:2021-12-30
# 視覚トランスフォーマーの確率的層

Stochastic Layers in Vision Transformers ( http://arxiv.org/abs/2112.15111v1 )

ライセンス: Link先を確認
Nikola Popovic, Danda Pani Paudel, Thomas Probst, Luc Van Gool(参考訳) 視覚変換器に完全に確率的な層を導入するが、性能は著しく低下しない。 この追加の確率性は、視覚機能の堅牢性を高め、プライバシーを強化する。 このプロセスでは、トレーニングと推論の両方において、完全確率的パラメータを持つ線形層を使用して、各多層パーセプトロンの特徴活性化を変換する。 このような確率線形演算は、共有多層パーセプトロンを通過するトークンの集合によって形成される位相構造を保存する。 この操作は、認識タスクの学習を、その値の代わりにトークンのトポロジー構造に依存するように促し、その結果、視覚特徴の所望の堅牢性とプライバシを提供する。 本稿では,我々の機能を3つの異なるアプリケーション,すなわち,逆ロバスト性,ネットワークキャリブレーション,機能プライバシに活用する。 私たちの機能はこれらのタスクにエキサイティングな結果をもたらします。 さらに,確率層を有する視覚変換器の動作が良好であることを示す,フェデレーション・トランスファー学習のための実験装置についても紹介する。 私たちのソースコードは公開されます。

We introduce fully stochastic layers in vision transformers, without causing any severe drop in performance. The additional stochasticity boosts the robustness of visual features and strengthens privacy. In this process, linear layers with fully stochastic parameters are used, both during training and inference, to transform the feature activations of each multilayer perceptron. Such stochastic linear operations preserve the topological structure, formed by the set of tokens passing through the shared multilayer perceptron. This operation encourages the learning of the recognition task to rely on the topological structures of the tokens, instead of their values, which in turn offers the desired robustness and privacy of the visual features. In this paper, we use our features for three different applications, namely, adversarial robustness, network calibration, and feature privacy. Our features offer exciting results on those tasks. Furthermore, we showcase an experimental setup for federated and transfer learning, where the vision transformers with stochastic layers are again shown to be well behaved. Our source code will be made publicly available.
翻訳日:2022-01-03 14:45:18 公開日:2021-12-30
# ビジュアルおよびオブジェクトのジオローカライゼーション:総合的な調査

Visual and Object Geo-localization: A Comprehensive Survey ( http://arxiv.org/abs/2112.15202v1 )

ライセンス: Link先を確認
Daniel Wilson, Xiaohan Zhang, Waqas Sultani, Safwan Wshah(参考訳) ジオローカライゼーション(Geo-localization)とは、地球上の「中心」の位置を決定する過程のことであり、一般的にはGPS座標を用いている。 興味のある実体は、画像、画像のシーケンス、ビデオ、衛星画像、さらには画像内で見えるものであってもよい。 スマートフォンやインターネットによって、GPSタグ付きメディアの膨大なデータセットが急速に利用できるようになるとともに、ディープラーニングが機械学習モデルの性能向上に寄与しているため、拡張現実、ロボティクス、自動運転車、道路整備、そして3D再構築など、幅広いアプリケーションに多大な影響を与えている、視覚的および物体的地理的ローカライゼーションの分野が出現している。 本稿では,画像中の画像の取得場所(画像の局所化)と画像内の物体の局所化(オブジェクトの局所化)のいずれかを決定することにより,画像の局所化に関する総合的な調査を行う。 一般的なアルゴリズムの概要、提案されたデータセットの説明、および各フィールドの現在の状態を説明するためのパフォーマンス結果の分析を含む、詳細な研究を行う。

The concept of geo-localization refers to the process of determining where on earth some `entity' is located, typically using Global Positioning System (GPS) coordinates. The entity of interest may be an image, sequence of images, a video, satellite image, or even objects visible within the image. As massive datasets of GPS tagged media have rapidly become available due to smartphones and the internet, and deep learning has risen to enhance the performance capabilities of machine learning models, the fields of visual and object geo-localization have emerged due to its significant impact on a wide range of applications such as augmented reality, robotics, self-driving vehicles, road maintenance, and 3D reconstruction. This paper provides a comprehensive survey of geo-localization involving images, which involves either determining from where an image has been captured (Image geo-localization) or geo-locating objects within an image (Object geo-localization). We will provide an in-depth study, including a summary of popular algorithms, a description of proposed datasets, and an analysis of performance results to illustrate the current state of each field.
翻訳日:2022-01-03 14:45:02 公開日:2021-12-30
# YACLC:多次元アノテーションを用いた中国語学習者コーパス

YACLC: A Chinese Learner Corpus with Multidimensional Annotation ( http://arxiv.org/abs/2112.15043v1 )

ライセンス: Link先を確認
Yingying Wang, Cunliang Kong, Liner Yang, Yijun Wang, Xiaorong Lu, Renfen Hu, Shan He, Zhenghao Liu, Yun Chen, Erhong Yang, Maosong Sun(参考訳) 学習者コーパスはL2学習者が生成する言語データを収集する。 このリソースは、第二言語習得研究、外国語教育、自動文法誤り訂正に大いに関係している。 しかし、外国語学習者(cfl)としての中国語学習者コーパスにはほとんど焦点が当てられていない。 そこで本研究では,大規模多次元アノテート中国語学習コーパスの構築を提案する。 このコーパスを構築するために,まずcfl学習者が生成したトピックリッチテキストを多数取得する。 そして,文の受理性スコアと文法的誤りと流布に基づく訂正を含むアノテーションスキームを設計する。 アノテーションを効果的に実行するクラウドソーシングプラットフォームを構築しています(https://yaclc.wenmi nd.net)。 コーパスYACLC(Yet Another Chinese Learner Corpus)をCUGEベンチマーク(http://cuge.baai.ac .cn)の一部としてリリースします。 コーパスの原文やアノテーションを解析した結果,YACLCは相当の大きさで,アノテーションの品質が高いことがわかった。 このコーパスが、中国国際教育と中国の自動文法誤り訂正の研究をさらに強化することを期待している。

Learner corpus collects language data produced by L2 learners, that is second or foreign-language learners. This resource is of great relevance for second language acquisition research, foreign-language teaching, and automatic grammatical error correction. However, there is little focus on learner corpus for Chinese as Foreign Language (CFL) learners. Therefore, we propose to construct a large-scale, multidimensional annotated Chinese learner corpus. To construct the corpus, we first obtain a large number of topic-rich texts generated by CFL learners. Then we design an annotation scheme including a sentence acceptability score as well as grammatical error and fluency-based corrections. We build a crowdsourcing platform to perform the annotation effectively (https://yaclc.wenmi nd.net). We name the corpus YACLC (Yet Another Chinese Learner Corpus) and release it as part of the CUGE benchmark (http://cuge.baai.ac .cn). By analyzing the original sentences and annotations in the corpus, we found that YACLC has a considerable size and very high annotation quality. We hope this corpus can further enhance the studies on Chinese International Education and Chinese automatic grammatical error correction.
翻訳日:2022-01-03 14:26:35 公開日:2021-12-30
# KIND: 名前付きエンティティ認識のためのイタリアのマルチドメインデータセット

KIND: an Italian Multi-Domain Dataset for Named Entity Recognition ( http://arxiv.org/abs/2112.15099v1 )

ライセンス: Link先を確認
Teresa Paccosi, Alessio Palmero Aprosio(参考訳) 本稿では,名前付きエンティティ認識のためのイタリアのデータセットであるKINDについて述べる。 アノテーションには3つのクラス(人、場所、組織)を含む100万以上のトークンが含まれている。 データセット(約600万トークン)のほとんどは、ニュース、文学、政治談話という3つの異なるドメインの手動の金アノテーションを含んでいる。 テキストとアノテーションはGithubリポジトリから無料でダウンロードできる。

In this paper we present KIND, an Italian dataset for Named-Entity Recognition. It contains more than one million tokens with the annotation covering three classes: persons, locations, and organizations. Most of the dataset (around 600K tokens) contains manual gold annotations in three different domains: news, literature, and political discourses. Texts and annotations are downloadable for free from the Github repository.
翻訳日:2022-01-03 14:26:19 公開日:2021-12-30
# 最適教師付きセマンティックセグメンテーションを用いたディジタルロックタイピングDRTアルゴリズムの定式化

Digital Rock Typing DRT Algorithm Formulation with Optimal Supervised Semantic Segmentation ( http://arxiv.org/abs/2112.15068v1 )

ライセンス: Link先を確認
Omar Alfarisi, Djamel Ouzzane, Mohamed Sassi, Tiejun Zhang(参考訳) 3次元地質モデルにおける各格子ブロックは、そのブロックの物理的および化学的性質を表わす岩型を必要とする。 岩石の種類を分類する性質は、リソロジー、透水性、キャピラリー圧力である。 科学者や技術者は、試料の破砕、流体の流動、飽和などを含むため、これらの特性を従来の実験室で測定し、試料に破壊的手法を埋め込んだり、その性質(湿潤性、透水性、多孔性など)を変更したりした。 近年、マイクロコンピュータトモグラフィー(uCT)と磁気共鳴イメージング(MRI)画像からこれらの特性を定量化するためにDRT(Digital Rock Physics)が出現している。 しかし文学は、完全にデジタルな文脈でロックタイピングを試みなかった。 デジタルロックタイピング (drt) は, (1) デジタルロック特性決定に敬意を表した新規プロセスにおける最新のdrpの進歩の統合, (2) カーボネートにおける最新のロックタイピングアプローチのディジタル化,(3) コンピュータビジョン機能を活用した新しいカーボネートロックタイピングプロセスの導入により,不均質なカーボネートロックテクスチャに関するさらなる洞察を提供する。

Each grid block in a 3D geological model requires a rock type that represents all physical and chemical properties of that block. The properties that classify rock types are lithology, permeability, and capillary pressure. Scientists and engineers determined these properties using conventional laboratory measurements, which embedded destructive methods to the sample or altered some of its properties (i.e., wettability, permeability, and porosity) because the measurements process includes sample crushing, fluid flow, or fluid saturation. Lately, Digital Rock Physics (DRT) has emerged to quantify these properties from micro-Computerized Tomography (uCT) and Magnetic Resonance Imaging (MRI) images. However, the literature did not attempt rock typing in a wholly digital context. We propose performing Digital Rock Typing (DRT) by: (1) integrating the latest DRP advances in a novel process that honors digital rock properties determination, while; (2) digitalizing the latest rock typing approaches in carbonate, and (3) introducing a novel carbonate rock typing process that utilizes computer vision capabilities to provide more insight about the heterogeneous carbonate rock texture.
翻訳日:2022-01-03 14:23:36 公開日:2021-12-30
# 近似拡大ラグランジュ関数によるスティフェル多様体上の分散最適化

Decentralized Optimization Over the Stiefel Manifold by an Approximate Augmented Lagrangian Function ( http://arxiv.org/abs/2112.14949v1 )

ライセンス: Link先を確認
Lei Wang, Xin Liu(参考訳) 本稿では,$d$エージェントの連結ネットワーク上で定義されるStiefel多様体上の分散最適化問題に焦点をあてる。 目標は平均で$d$ローカル関数で、各関数はエージェントによってプライベートに保持され、そのデータをエンコードする。 エージェントは、この問題を解決するために協力して隣人とのみ通信することができる。 既存の方法では、収束を保証するために複数の通信ラウンドが必要であり、通信コストが高い。 それとは対照的に,本論文では,イテレーション毎に1ラウンドの通信のみを実行する,destinyと呼ばれる分散アルゴリズムを提案する。 DESTINYは勾配追跡技術と新しい近似拡張ラグランジアン関数を組み合わせる。 静止点へのグローバル収束は厳密に確立されている。 総合的な数値実験により、DESTINYは様々なテスト問題の解決において最先端のパフォーマンスを提供する強い可能性を実証している。

In this paper, we focus on the decentralized optimization problem over the Stiefel manifold, which is defined on a connected network of $d$ agents. The objective is an average of $d$ local functions, and each function is privately held by an agent and encodes its data. The agents can only communicate with their neighbors in a collaborative effort to solve this problem. In existing methods, multiple rounds of communications are required to guarantee the convergence, giving rise to high communication costs. In contrast, this paper proposes a decentralized algorithm, called DESTINY, which only invokes a single round of communications per iteration. DESTINY combines gradient tracking techniques with a novel approximate augmented Lagrangian function. The global convergence to stationary points is rigorously established. Comprehensive numerical experiments demonstrate that DESTINY has a strong potential to deliver a cutting-edge performance in solving a variety of testing problems.
翻訳日:2022-01-03 14:22:07 公開日:2021-12-30
# 気候変動と都市汚染への取り組み

Aim in Climate Change and City Pollution ( http://arxiv.org/abs/2112.15115v1 )

ライセンス: Link先を確認
Pablo Torres, Beril Sirmacek, Sergio Hoyas, Ricardo Vinuesa(参考訳) 都市環境の持続性はますます問題になっている。 大気汚染は、環境の悪化と、それにさらされた市民の健康に重要な役割を担っている。 本章では, 大気汚染をモデル化するための手法のレビューを行い, 機械学習手法の適用に焦点をあてる。 実際、機械学習手法は従来の大気汚染手法の精度を著しく向上させ、モデルの開発コストを抑えている。 機械学習ツールは、フロー力学モデリングやリモートセンシング手法など、大気汚染を研究する新しいアプローチを開いた。

The sustainability of urban environments is an increasingly relevant problem. Air pollution plays a key role in the degradation of the environment as well as the health of the citizens exposed to it. In this chapter we provide a review of the methods available to model air pollution, focusing on the application of machine-learning methods. In fact, machine-learning methods have proved to importantly increase the accuracy of traditional air-pollution approaches while limiting the development cost of the models. Machine-learning tools have opened new approaches to study air pollution, such as flow-dynamics modelling or remote-sensing methodologies.
翻訳日:2022-01-03 14:12:05 公開日:2021-12-30
# ニューラルネットワークの普遍性のための統一的で構成的なフレームワーク

A Unified and Constructive Framework for the Universality of Neural Networks ( http://arxiv.org/abs/2112.14877v1 )

ライセンス: Link先を確認
Tan Bui-Thanh(参考訳) 多くのニューラルネットワークが複雑なタスクや関数を複製できる理由の1つは、その普遍性である。 過去数十年間、ニューラルネットワークの単一またはクラスに対する構成的証明を提供する試みが数多く行われてきた。 本稿では,既存のアクティベーションのほとんどを含む,大規模なアクティベーションの普遍性のための統一的で建設的なフレームワークを提供することを目的とする。 フレームワークの中心にあるのは、ニューラルネットワークの近似idの概念である。 既存のアクティベーションのほとんどはニューラルネットワークの近似IDであり、コンパクトな函数の連続空間において普遍的であることが判明した。 このフレームワークにはいくつかの利点がある。 まず, 関数解析, 確率論, 数値解析などの基礎的手法を用いて構成する。 第二に、既存のアクティベーションの多くに有効である最初の統一的な試みである。 第3に、このフレームワークは製品として、Mish、SiLU、ELU、GELUなど、既存のアクティベーション機能の最初の大学証明を提供する。 第4に、普遍性を保証する新しいアクティベーションを発見する。 実際、$\k$th 微分が整数である任意のアクティベーション\textemdash は可積分であり、本質的に有界な\textemdash は普遍的である。 第5に、与えられたアクティベーションとエラー耐性のために、このフレームワークは、所定の数のニューロンと重み/バイアスの値を持つ対応する1つの隠れたニューラルネットワークのアーキテクチャを正確に提供する。

One of the reasons that many neural networks are capable of replicating complicated tasks or functions is their universality property. The past few decades have seen many attempts in providing constructive proofs for single or class of neural networks. This paper is an effort to provide a unified and constructive framework for the universality of a large class of activations including most of existing activations and beyond. At the heart of the framework is the concept of neural network approximate identity. It turns out that most of existing activations are neural network approximate identity, and thus universal in the space of continuous of functions on compacta. The framework induces several advantages. First, it is constructive with elementary means from functional analysis, probability theory, and numerical analysis. Second, it is the first unified attempt that is valid for most of existing activations. Third, as a by product, the framework provides the first university proof for some of the existing activation functions including Mish, SiLU, ELU, GELU, and etc. Fourth, it discovers new activations with guaranteed universality property. Indeed, any activation\textemdas h whose $\k$th derivative, with $\k$ being an integer, is integrable and essentially bounded\textemdash is universal. Fifth, for a given activation and error tolerance, the framework provides precisely the architecture of the corresponding one-hidden neural network with predetermined number of neuron, and the values of weights/biases.
翻訳日:2022-01-03 14:11:02 公開日:2021-12-30
# 分類表現における情報損失と運用損失の相互作用に関する研究

Studying the Interplay between Information Loss and Operation Loss in Representations for Classification ( http://arxiv.org/abs/2112.15238v1 )

ライセンス: Link先を確認
Jorge F. Silva, Felipe Tobar, Mario Vicu\~na and Felipe Cordova(参考訳) 情報理論は学習と意思決定のための特徴設計において広く採用されている。 このことから着想を得た私たちは,その関係を考察する。 一 シャノン感覚における情報損失の弱い形態 二 連続観測の損失のある連続表現(特徴)の族を考えるとき、誤差の最小確率(mpe)感覚における操作損失 この相互作用に光を当てたいくつかの結果を示す。 第1結果は,原生観測ではなく離散的損失表現(量子化)を採用する場合,各操作損失の関数として,弱形式の情報損失に対して下限を与える。 この結果から,情報損失の特定の形態(漸近的情報不足の弱い概念)は,連続表現の一般的なファミリーを考えると,MPEの消失(あるいは漸近的操作不足)を示唆することが示された。 理論的には,情報満足度を捉えようとする特徴表現の選択は学習に適していると考えられるが,目的がMPEの分類を達成しようとする場合,この選択は比較的保守的な設計原則である。 この最後のポイントを支持し、いくつかの構造的条件の下では、学習における操作的充足を達成するために、情報充足(相互情報感覚における純粋充足よりも厳密に弱い)という代替概念を採用することが可能である。

Information-theoreti c measures have been widely adopted in the design of features for learning and decision problems. Inspired by this, we look at the relationship between i) a weak form of information loss in the Shannon sense and ii) the operation loss in the minimum probability of error (MPE) sense when considering a family of lossy continuous representations (features) of a continuous observation. We present several results that shed light on this interplay. Our first result offers a lower bound on a weak form of information loss as a function of its respective operation loss when adopting a discrete lossy representation (quantization) instead of the original raw observation. From this, our main result shows that a specific form of vanishing information loss (a weak notion of asymptotic informational sufficiency) implies a vanishing MPE loss (or asymptotic operational sufficiency) when considering a general family of lossy continuous representations. Our theoretical findings support the observation that the selection of feature representations that attempt to capture informational sufficiency is appropriate for learning, but this selection is a rather conservative design principle if the intended goal is achieving MPE in classification. Supporting this last point, and under some structural conditions, we show that it is possible to adopt an alternative notion of informational sufficiency (strictly weaker than pure sufficiency in the mutual information sense) to achieve operational sufficiency in learning.
翻訳日:2022-01-03 14:10:39 公開日:2021-12-30
# ウサギ繁殖プログラムにおけるCTスキャンによる家畜体部分重量推定法

A general technique for the estimation of farm animal body part weights from CT scans and its applications in a rabbit breeding program ( http://arxiv.org/abs/2112.15095v1 )

ライセンス: Link先を確認
\'Ad\'am Cs\'oka, Gy\"orgy Kov\'acs, Vir\'ag \'Acs, Zsolt Matics, Zsolt Gerencs\'er, Zsolt Szendr\H{o}, Istv\'an Nagy, \"Ors Petneh\'azy, Imre Repa, Mariann Moizs, Tam\'as Donk\'o(参考訳) 家畜画像の様々な応用は、動物のCT画像から、特定の身体部分の重量と切断を推定することに基づいている。 多くの場合、ct画像における姿勢の巨大な変動は、非鎮静動物の走査によって、問題の複雑さが増大する。 本稿では,(おそらく)生物のCT画像から切り身と身体部分の重量を推定するための,汎用的で堅牢なアプローチを提案する。 我々は,弾性登録とジョイント特徴によるマルチアトラスに基づくセグメンテーションと回帰成分のモデル選択を,多数の特徴量と少ないサンプル数でケープに適用する。 提案手法はウサギ育種プログラムにおける実適用を通じて評価され,これまで選択を推進してきた従来の方法や方法よりも12%高いスコアを示した。 提案手法は同様の問題に容易に適応できるため,コミュニティの利益のためにオープンソースソフトウェアパッケージで共有される。

Various applications of farm animal imaging are based on the estimation of weights of certain body parts and cuts from the CT images of animals. In many cases, the complexity of the problem is increased by the enormous variability of postures in CT images due to the scanning of non-sedated, living animals. In this paper, we propose a general and robust approach for the estimation of the weights of cuts and body parts from the CT images of (possibly) living animals. We adapt multi-atlas based segmentation driven by elastic registration and joint feature and model selection for the regression component to cape with the large number of features and low number of samples. The proposed technique is evaluated and illustrated through real applications in rabbit breeding programs, showing r^2 scores 12% higher than previous techniques and methods that used to drive the selection so far. The proposed technique is easily adaptable to similar problems, consequently, it is shared in an open source software package for the benefit of the community.
翻訳日:2022-01-03 13:59:08 公開日:2021-12-30
# 仮想深度を用いた複数の360度画像からの深度推定

Dense Depth Estimation from Multiple 360-degree Images Using Virtual Depth ( http://arxiv.org/abs/2112.14931v1 )

ライセンス: Link先を確認
Seongyeop Yang, Kunhee Kim, Yeejin Lee(参考訳) 本稿では,マルチビュー360度画像のための深度推定パイプラインを提案する。 提案したパイプラインは、360度画像の半径歪みを補償する球面カメラモデルを利用する。 本稿では,球面カメラモデルから多視点への変換スケーリング手法の導入による拡張について述べる。 さらに,仮想深度の設定とフォトニック再投影誤差の最小化により,効率的な深度推定手法を提案する。 提案するパイプラインの性能を,自然シーンの画像と合成データセットを用いて検証し,定量的評価を行った。 実験結果から,提案パイプラインは,現在の高密度深部推定法に比べ,推定精度が向上することを確認した。

In this paper, we propose a dense depth estimation pipeline for multiview 360\degree\: images. The proposed pipeline leverages a spherical camera model that compensates for radial distortion in 360\degree\: images. The key contribution of this paper is the extension of a spherical camera model to multiview by introducing a translation scaling scheme. Moreover, we propose an effective dense depth estimation method by setting virtual depth and minimizing photonic reprojection error. We validate the performance of the proposed pipeline using the images of natural scenes as well as the synthesized dataset for quantitive evaluation. The experimental results verify that the proposed pipeline improves estimation accuracy compared to the current state-of-art dense depth estimation methods.
翻訳日:2022-01-03 13:57:32 公開日:2021-12-30
# 計測とサンプリング:グラフニューラルネットワークのためのメトリック誘導サブグラフ学習フレームワーク

Measuring and Sampling: A Metric-guided Subgraph Learning Framework for Graph Neural Network ( http://arxiv.org/abs/2112.15015v1 )

ライセンス: Link先を確認
Jiyang Bai, Yuxiang Ren, Jiawei Zhang(参考訳) グラフニューラルネットワーク(GNN)は、ノード属性とグラフ構造情報の両方を保存する強力なノード表現の学習において、説得力のある性能を示している。 しかし、より深いネットワーク構造で設計したり、大規模なグラフを扱う場合、多くのGNNは効率と効率の問題がある。 GNNのトレーニングの改善と高速化のために,いくつかのサンプリングアルゴリズムが提案されているが,GNNのパフォーマンス向上の源泉は無視されている。 グラフデータ内の情報の計測は、サンプリングアルゴリズムが冗長な情報やノイズを取り除きながら高価値な情報を保持するのに役立つ。 本稿では,GNNのためのMetric-Guided (MeGuide) サブグラフ学習フレームワークを提案する。 MeGuideでは、サブグラフサンプリングとミニバッチベースのトレーニングのガイドとして、Feature SmoothnessとConnection Failure Distanceという2つの新しいメトリクスを使用している。 特徴の滑らかさは、最も価値のある情報を保持するためにノードの特徴を分析するために設計され、接続障害距離は、サブグラフのサイズを制御する構造情報を測定することができる。 複数のデータセット上で様々なGNNをトレーニングする上で,MeGuideの有効性と有効性を示す。

Graph neural network (GNN) has shown convincing performance in learning powerful node representations that preserve both node attributes and graph structural information. However, many GNNs encounter problems in effectiveness and efficiency when they are designed with a deeper network structure or handle large-sized graphs. Several sampling algorithms have been proposed for improving and accelerating the training of GNNs, yet they ignore understanding the source of GNN performance gain. The measurement of information within graph data can help the sampling algorithms to keep high-value information while removing redundant information and even noise. In this paper, we propose a Metric-Guided (MeGuide) subgraph learning framework for GNNs. MeGuide employs two novel metrics: Feature Smoothness and Connection Failure Distance to guide the subgraph sampling and mini-batch based training. Feature Smoothness is designed for analyzing the feature of nodes in order to retain the most valuable information, while Connection Failure Distance can measure the structural information to control the size of subgraphs. We demonstrate the effectiveness and efficiency of MeGuide in training various GNNs on multiple datasets.
翻訳日:2022-01-03 13:55:04 公開日:2021-12-30
# ChunkFormer: マルチステージChunked Transformerによる時系列学習

ChunkFormer: Learning Long Time Series with Multi-stage Chunked Transformer ( http://arxiv.org/abs/2112.15087v1 )

ライセンス: Link先を確認
Yue Ju, Alka Isac and Yimin Nie(参考訳) 長いシーケンスデータの解析は多くの実世界のアプリケーションで難しいままである。 我々は,既存のトランスフォーマフレームワークを改良し,長時間の時系列処理を行うための新しいアーキテクチャであるchunkformerを提案する。 オリジナルのトランスフォーマーベースのモデルは、コンテキストデータを活用するためにシーケンスに沿ってグローバル情報を検出するための注意機構を採用している。 ロングシーケンシャルデータは、短いデータシーケンスの季節や変動などのローカル情報をトラップする。 さらに、元のトランスフォーマーはトレーニングコース中に注意行列全体を運ぶことでより多くのリソースを消費する。 これらの課題を克服するために、chunkformerは長いシーケンスをより小さなシーケンスチャンクに分割し、注意の計算を行い、各ステージに異なるチャンクサイズを適用する。 このようにして,提案モデルでは,入力列の総長を変更することなく,局所的情報と大域的情報の両方を徐々に学習する。 我々は、この新しいアーキテクチャをさまざまなビジネスドメインで広範囲にテストし、既存のトランスフォーマーベースのモデルよりも、そのようなモデルの利点を証明した。

The analysis of long sequence data remains challenging in many real-world applications. We propose a novel architecture, ChunkFormer, that improves the existing Transformer framework to handle the challenges while dealing with long time series. Original Transformer-based models adopt an attention mechanism to discover global information along a sequence to leverage the contextual data. Long sequential data traps local information such as seasonality and fluctuations in short data sequences. In addition, the original Transformer consumes more resources by carrying the entire attention matrix during the training course. To overcome these challenges, ChunkFormer splits the long sequences into smaller sequence chunks for the attention calculation, progressively applying different chunk sizes in each stage. In this way, the proposed model gradually learns both local and global information without changing the total length of the input sequences. We have extensively tested the effectiveness of this new architecture on different business domains and have proved the advantage of such a model over the existing Transformer-based models.
翻訳日:2022-01-03 13:54:46 公開日:2021-12-30
# グラフニューラルネットワークの非畳み込み学習

Deconfounded Training for Graph Neural Networks ( http://arxiv.org/abs/2112.15089v1 )

ライセンス: Link先を確認
Yongduo Sui, Xiang Wang, Jiancan Wu, Xiangnan He, Tat-Seng Chua(参考訳) 強力な表現の学習は、グラフニューラルネットワーク(gnns)の中心的なテーマである。 表現を豊かにするには、自明なパターンの代わりに入力グラフから臨界情報を洗練する必要がある。 この目的に向けて、グラフの注意とプーリングメソッドが優勢だ。 主に"参加する学習"というパラダイムに従っています。 出席したサブグラフと接地真実ラベルの相互情報を最大化する。 しかし、このトレーニングパラダイムは、自明な部分グラフとラベルの間の散発的な相関を捉えやすい。 このようなスプリアス相関は、分布内(id)テスト評価に有益であるが、分布外(ood)テストデータの一般化が貧弱である。 本研究では,gnnモデリングを因果的視点から再検討する。 因果的な仮定の上では、その自明な情報は、重要な情報とラベルの共起体として機能し、それらの間のバックドアパスを開き、それらを刺激的に関連付ける。 そこで本研究では,重大情報に対する統合効果の軽減とラッチの緩和,表現と一般化能力の向上を目的とした,dtp(deconfounded training)の新たなパラダイムを提案する。 具体的には、注意モジュールを用いて臨界部分グラフと自明部分グラフを切り離す。 そして、各臨界部分グラフを様々な自明な部分グラフと適切に相互作用させ、安定な予測を達成する。 これにより、GNNは、ラベルとの関係が複数のディストリビューションで堅牢である、より信頼性の高いサブグラフをキャプチャできる。 合成および実世界のデータセットに関する広範な実験を行い、その効果を実証する。

Learning powerful representations is one central theme of graph neural networks (GNNs). It requires refining the critical information from the input graph, instead of the trivial patterns, to enrich the representations. Towards this end, graph attention and pooling methods prevail. They mostly follow the paradigm of "learning to attend". It maximizes the mutual information between the attended subgraph and the ground-truth label. However, this training paradigm is prone to capture the spurious correlations between the trivial subgraph and the label. Such spurious correlations are beneficial to in-distribution (ID) test evaluations, but cause poor generalization in the out-of-distribution (OOD) test data. In this work, we revisit the GNN modeling from the causal perspective. On the top of our causal assumption, the trivial information serves as a confounder between the critical information and the label, which opens a backdoor path between them and makes them spuriously correlated. Hence, we present a new paradigm of deconfounded training (DTP) that better mitigates the confounding effect and latches on the critical information, to enhance the representation and generalization ability. Specifically, we adopt the attention modules to disentangle the critical subgraph and trivial subgraph. Then we make each critical subgraph fairly interact with diverse trivial subgraphs to achieve a stable prediction. It allows GNNs to capture a more reliable subgraph whose relation with the label is robust across different distributions. We conduct extensive experiments on synthetic and real-world datasets to demonstrate the effectiveness.
翻訳日:2022-01-03 13:54:29 公開日:2021-12-30
# リカレントジェネレーション・アンド・テストによるエージェントのオンライン学習

Learning Agent State Online with Recurrent Generate-and-Test ( http://arxiv.org/abs/2112.15236v1 )

ライセンス: Link先を確認
Amir Samani, Richard S. Sutton(参考訳) 連続したデータストリームから継続的にオンラインに学習することは、特にシーケンシャルなデータを持つ強化学習エージェントにとって難しい。 環境が環境の状態に関する部分的な情報を与える観察のみを提供する場合、エージェントは経験のデータストリームに基づいてエージェントの状態を学ぶ必要がある。 経験データストリームから直接学んだ状態をエージェント状態と呼ぶ。 リカレントニューラルネットワークはエージェント状態を学習することができるが、トレーニング方法は計算コストが高く、ハイパーパラメータに敏感であり、オンライン学習には適さない。 本研究は,エージェントの状態学習のための生成・テストアプローチに基づく手法を提案する。 生成とテストのアルゴリズムは、特徴を生成し、有用性をテストすることによって、状態特徴を検索する。 このプロセスでは、タスクにおけるエージェントのパフォーマンスに有用な機能を保存し、最も有用な機能は新しく生成された機能に置き換えられる。 オンライン多段階予測問題に対する提案手法の有効性について検討した。 最初の問題はトレース条件付けであり、エージェントが未来への複数のステップを予測するためのキューを記憶する能力に焦点を当てている。 2つ目の問題、トレースパターニングでは、エージェントは観測信号のパターンを学習し、将来の予測のために記憶する必要がある。 提案手法は,エージェント状態をオンラインで効果的に学習し,正確な予測を行うことができることを示す。

Learning continually and online from a continuous stream of data is challenging, especially for a reinforcement learning agent with sequential data. When the environment only provides observations giving partial information about the state of the environment, the agent must learn the agent state based on the data stream of experience. We refer to the state learned directly from the data stream of experience as the agent state. Recurrent neural networks can learn the agent state, but the training methods are computationally expensive and sensitive to the hyper-parameters, making them unideal for online learning. This work introduces methods based on the generate-and-test approach to learn the agent state. A generate-and-test algorithm searches for state features by generating features and testing their usefulness. In this process, features useful for the agent's performance on the task are preserved, and the least useful features get replaced with newly generated features. We study the effectiveness of our methods on two online multi-step prediction problems. The first problem, trace conditioning, focuses on the agent's ability to remember a cue for a prediction multiple steps into the future. In the second problem, trace patterning, the agent needs to learn patterns in the observation signals and remember them for future predictions. We show that our proposed methods can effectively learn the agent state online and produce accurate predictions.
翻訳日:2022-01-03 13:54:08 公開日:2021-12-30
# 高度不均衡多クラス分類のためのSAMME.C2アルゴリズム

The SAMME.C2 algorithm for severely imbalanced multi-class classification ( http://arxiv.org/abs/2112.14868v1 )

ライセンス: Link先を確認
Banghee So and Emiliano A. Valdez(参考訳) 分類予測モデリングは、対象のクラスやカテゴリに対するデータセット内の観測の正確な割り当てを伴う。 不均衡なクラス分布を持つ実世界の分類問題は増加傾向にある。 この場合、マイノリティクラスは、多数派クラスから学ぶべき観察が、多数派クラスよりはるかに少ない。 この空間性にもかかわらず、少数民族は、観測に適する科学学習アルゴリズムが無数の課題を提示しているにもかかわらず、より興味深いクラスと見なされることが多い。 本稿では、SAMME.C2と呼ぶ手法に基づいて、高度不均衡なクラスを扱うための新しいマルチクラス分類アルゴリズムを提案する。 SAMMEアルゴリズム(マルチクラス分類器)とAda.C2アルゴリズム(高クラス不均衡に対処するために設計されたコスト感受性バイナリ分類器)の強化技法の柔軟な力学をブレンドする。 得られたアルゴリズムを提供するだけでなく,提案したSAMME.C2アルゴリズムの科学的および統計的定式化も行う。 種々の分類器の難易度を調べる数値実験により,提案モデルの一貫した優れた性能を示す。

Classification predictive modeling involves the accurate assignment of observations in a dataset to target classes or categories. There is an increasing growth of real-world classification problems with severely imbalanced class distributions. In this case, minority classes have much fewer observations to learn from than those from majority classes. Despite this sparsity, a minority class is often considered the more interesting class yet developing a scientific learning algorithm suitable for the observations presents countless challenges. In this article, we suggest a novel multi-class classification algorithm specialized to handle severely imbalanced classes based on the method we refer to as SAMME.C2. It blends the flexible mechanics of the boosting techniques from SAMME algorithm, a multi-class classifier, and Ada.C2 algorithm, a cost-sensitive binary classifier designed to address highly class imbalances. Not only do we provide the resulting algorithm but we also establish scientific and statistical formulation of our proposed SAMME.C2 algorithm. Through numerical experiments examining various degrees of classifier difficulty, we demonstrate consistent superior performance of our proposed model.
翻訳日:2022-01-03 13:51:41 公開日:2021-12-30
# 新型コロナウイルス(covid-19)パンデミック時代のマスク着用監視のためのマスク検出パイプラインの開発:モジュラーアプローチ

Development of a face mask detection pipeline for mask-wearing monitoring in the era of the COVID-19 pandemic: A modular approach ( http://arxiv.org/abs/2112.15031v1 )

ライセンス: Link先を確認
Benjaphan Sommana, Ukrit Watchareeruetai, Ankush Ganguly, Samuel W.F. Earp, Taya Kitiyakara, Suparee Boonmanunt, Ratchainant Thammasudjarit(参考訳) SARS-Cov-2パンデミックの間、マスク着用はウイルスの拡散や収縮を防ぐための効果的な手段となった。 人口のマスク着用率をモニターする能力は、ウイルスに対する公衆衛生戦略を決定するのに役立つだろう。 しかし, マスク検出のための人工知能技術は, 一般人のマスク着用率を測定するために, 実際に大規模に展開されていない。 本稿では,2つのモジュールからなる2段階顔マスク検出手法を提案する。 1)顔検出とアライメント 2)フェイスマスク分類。 このアプローチにより、顔検出と顔マスク分類モジュールの異なる組み合わせで実験することができた。 具体的には、face mask分類モジュールの軽量なバックボーンを維持しながら、face detectorとして pyramidkey と retinaface を実験した。 さらに、AIZOOデータセットのテストセットのレザベルアノテーションも提供し、顔画像の誤りラベルを修正しました。 AIZOOとMoxa 3Kデータセットの評価結果は、提案したマスク検出パイプラインが最先端の手法を超越したことを示している。 提案されたパイプラインはまた、aizooデータセットのrelabeledテストセット上のマップを元のテストセットよりも高めている。 提案したモデルについて,画像を用いて訓練した結果,CCTV画像を用いたマスク着用率の監視に成功している。

During the SARS-Cov-2 pandemic, mask-wearing became an effective tool to prevent spreading and contracting the virus. The ability to monitor the mask-wearing rate in the population would be useful for determining public health strategies against the virus. However, artificial intelligence technologies for detecting face masks have not been deployed at a large scale in real-life to measure the mask-wearing rate in public. In this paper, we present a two-step face mask detection approach consisting of two separate modules: 1) face detection and alignment and 2) face mask classification. This approach allowed us to experiment with different combinations of face detection and face mask classification modules. More specifically, we experimented with PyramidKey and RetinaFace as face detectors while maintaining a lightweight backbone for the face mask classification module. Moreover, we also provide a relabeled annotation of the test set of the AIZOO dataset, where we rectified the incorrect labels for some face images. The evaluation results on the AIZOO and Moxa 3K datasets showed that the proposed face mask detection pipeline surpassed the state-of-the-art methods. The proposed pipeline also yielded a higher mAP on the relabeled test set of the AIZOO dataset than the original test set. Since we trained the proposed model using in-the-wild face images, we can successfully deploy our model to monitor the mask-wearing rate using public CCTV images.
翻訳日:2022-01-03 13:50:47 公開日:2021-12-30
# (参考訳) ベイズアルゴリズムは未知の連続時間システムの安定化を学ぶ [全文訳有]

Bayesian Algorithms Learn to Stabilize Unknown Continuous-Time Systems ( http://arxiv.org/abs/2112.15094v1 )

ライセンス: CC BY 4.0
Mohamad Kazem Shirani Faradonbeh, Mohamad Sadegh Shirani Faradonbeh(参考訳) 線形力学系は、不確定なダイナミクスを持つ植物の学習に基づく制御のための標準モデルである。 この設定は、植物下層の状態進化を捉える確率微分方程式から成り、真の動力学行列は未知であり、観測された状態軌道のデータから学ぶ必要がある。 重要な問題は、モデルの不確実性による制御動作の安定化と不安定化をできるだけ早く防ぐことである。 この目的のための信頼性の高い安定化手順は、不安定なデータから有効に学習し、有限時間でシステムを安定化させることができない。 本研究では,未知の連続時間確率線形系を安定化するベイズ学習アルゴリズムを提案する。 提案アルゴリズムはフレキシブルで、システムとの相互作用が著しく短い後、効果的な安定化性能を公開する。

Linear dynamical systems are canonical models for learning-based control of plants with uncertain dynamics. The setting consists of a stochastic differential equation that captures the state evolution of the plant understudy, while the true dynamics matrices are unknown and need to be learned from the observed data of state trajectory. An important issue is to ensure that the system is stabilized and destabilizing control actions due to model uncertainties are precluded as soon as possible. A reliable stabilization procedure for this purpose that can effectively learn from unstable data to stabilize the system in a finite time is not currently available. In this work, we propose a novel Bayesian learning algorithm that stabilizes unknown continuous-time stochastic linear systems. The presented algorithm is flexible and exposes effective stabilization performance after a remarkably short time period of interacting with the system.
翻訳日:2022-01-03 13:48:54 公開日:2021-12-30
# BERTの自動混合精度量子化探索

Automatic Mixed-Precision Quantization Search of BERT ( http://arxiv.org/abs/2112.14938v1 )

ライセンス: Link先を確認
Changsheng Zhao and Ting Hua and Yilin Shen and Qian Lou and Hongxia Jin(参考訳) BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。 しかしながら、これらのモデルは通常数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。 知識蒸留、軽量刈り、量子化がモデル圧縮の主要な方向であることが知られている。 しかしながら、知識蒸留によって得られたコンパクトモデルは、比較的小さな圧縮比であってもかなりの精度低下を被る可能性がある。 一方、自然言語処理タスク用に特別に設計された量子化の試みはごくわずかである。 ハイパーパラメータのマニュアル設定が必要であり、細粒度のサブグループ量子化がサポートされないため、圧縮率や大きなエラー率に悩まされる。 本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用自動混合量子化フレームワークを提案する。 具体的には,各サブグループにおけるパラメータのスケールと精度を自動的に割り当てると同時に,冗長なパラメータ群を抽出する。 BERT下流タスクの広範囲な評価により,提案手法はモデルサイズをはるかに小さくすることで,ベースラインよりも優れることがわかった。 また,DistilBERTのような直交法と解法を組み合わせることで,超軽量モデルの実現可能性を示す。

Pre-trained language models such as BERT have shown remarkable effectiveness in various natural language processing tasks. However, these models usually contain millions of parameters, which prevents them from practical deployment on resource-constrained devices. Knowledge distillation, Weight pruning, and Quantization are known to be the main directions in model compression. However, compact models obtained through knowledge distillation may suffer from significant accuracy drop even for a relatively small compression ratio. On the other hand, there are only a few quantization attempts that are specifically designed for natural language processing tasks. They suffer from a small compression ratio or a large error rate since manual setting on hyper-parameters is required and fine-grained subgroup-wise quantization is not supported. In this paper, we proposed an automatic mixed-precision quantization framework designed for BERT that can simultaneously conduct quantization and pruning in a subgroup-wise level. Specifically, our proposed method leverages Differentiable Neural Architecture Search to assign scale and precision for parameters in each sub-group automatically, and at the same time pruning out redundant groups of parameters. Extensive evaluations on BERT downstream tasks reveal that our proposed method outperforms baselines by providing the same performance with much smaller model size. We also show the feasibility of obtaining the extremely light-weight model by combining our solution with orthogonal methods such as DistilBERT.
翻訳日:2022-01-03 13:32:37 公開日:2021-12-30
# (参考訳) Recurring-Convolutio n Neural Network(R-CNN)を用いた早期バイオマーカーとしてのASD児の感情パターンの探索 [全文訳有]

Exploring the pattern of Emotion in children with ASD as an early biomarker through Recurring-Convolutio n Neural Network (R-CNN) ( http://arxiv.org/abs/2112.14983v1 )

ライセンス: CC BY 4.0
Abirami S P, Kousalya G and Karthick R(参考訳) 自閉症スペクトラム障害(ASD)は、様々な職業療法士の間で大きな関心事となっている。 この神経発達障害の最も大きな課題は、発達の初期段階で子どもの様々な症状を分析し探索するという事実にある。 このような早期発見は、子供たちを独立した生活に導くための適切な支援を提供するために、セラピストや臨床医を支えうる。 子どもが知覚する表情や感情は、このような自閉症の早期介入に寄与する可能性がある。 本稿では,基本的な表情を識別し,その感情を時間変化因子で探究する。 rcnn-ferシステムとして知られるrnnによって形成された予測ネットワークを用いて、前面に描画された68個のランドマークポイントを用いて、cnnによって識別された表情を組み込んだ感情分析を行う。 本稿では,R-CNNを用いて,テキストネットワーク解析による感情予測における時間的複雑さの低減による精度の向上と性能の向上を図っている。 この論文は、自閉症児の感情の同定において、自閉症社会に寄与するそのような識別のために構築された単純な機械学習モデルよりも優れた精度を示す。

Autism Spectrum Disorder (ASD) is found to be a major concern among various occupational therapists. The foremost challenge of this neurodevelopmental disorder lies in the fact of analyzing and exploring various symptoms of the children at their early stage of development. Such early identification could prop up the therapists and clinicians to provide proper assistive support to make the children lead an independent life. Facial expressions and emotions perceived by the children could contribute to such early intervention of autism. In this regard, the paper implements in identifying basic facial expression and exploring their emotions upon a time variant factor. The emotions are analyzed by incorporating the facial expression identified through CNN using 68 landmark points plotted on the frontal face with a prediction network formed by RNN known as RCNN-FER system. The paper adopts R-CNN to take the advantage of increased accuracy and performance with decreased time complexity in predicting emotion as a textual network analysis. The papers proves better accuracy in identifying the emotion in autistic children when compared over simple machine learning models built for such identifications contributing to autistic society.
翻訳日:2022-01-03 13:29:32 公開日:2021-12-30
# 3次元運動予測のためのポーズ表現と動き文脈モデルの検討

Investigating Pose Representations and Motion Contexts Modeling for 3D Motion Prediction ( http://arxiv.org/abs/2112.15012v1 )

ライセンス: Link先を確認
Zhenguang Liu, Shuang Wu, Shuyuan Jin, Shouling Ji, Qi Liu, Shijian Lu, and Li Cheng(参考訳) 歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。 これまで観察されてきた1つの側面は、骨格の姿勢の表現方法が予測結果に重大な影響を与えるという事実である。 しかし、異なるポーズ表現スキームを調査する努力は存在しない。 様々なポーズ表現について詳細な研究を行い,その動作予測タスクへの影響に着目した。 さらに,動き予測のための市販のrnnユニットにも,近年のアプローチが採用されている。 これらのアプローチは入力ポーズシーケンスをシーケンシャルに処理し、本質的に長期的な依存関係を捉えるのが困難である。 本稿では,動き予測のためのahmr(attentive hierarchical motion recurrent network)と呼ばれる新しいrnnアーキテクチャを提案する。 さらに、広く用いられているL2損失よりも幾何的に重要な動き予測タスクの測地損失と前方運動学損失について検討する。 興味深いことに,本手法をヒト,魚,マウスを含む多種多様な明瞭な物体に適用した。 実験の結果,本手法は短期予測において最先端の手法よりも優れており,50秒以上の自然動作の維持など,長期予測精度が向上していることがわかった。 私たちのコードは解放されます。

Predicting human motion from historical pose sequence is crucial for a machine to succeed in intelligent interactions with humans. One aspect that has been obviated so far, is the fact that how we represent the skeletal pose has a critical impact on the prediction results. Yet there is no effort that investigates across different pose representation schemes. We conduct an indepth study on various pose representations with a focus on their effects on the motion prediction task. Moreover, recent approaches build upon off-the-shelf RNN units for motion prediction. These approaches process input pose sequence sequentially and inherently have difficulties in capturing long-term dependencies. In this paper, we propose a novel RNN architecture termed AHMR (Attentive Hierarchical Motion Recurrent network) for motion prediction which simultaneously models local motion contexts and a global context. We further explore a geodesic loss and a forward kinematics loss for the motion prediction task, which have more geometric significance than the widely employed L2 loss. Interestingly, we applied our method to a range of articulate objects including human, fish, and mouse. Empirical results show that our approach outperforms the state-of-the-art methods in short-term prediction and achieves much enhanced long-term prediction proficiency, such as retaining natural human-like motions over 50 seconds predictions. Our codes are released.
翻訳日:2022-01-03 13:20:17 公開日:2021-12-30
# マルチストリームジェネレータによる教師なし画像間翻訳タスクのドメイン内監視の活用

Leveraging in-domain supervision for unsupervised image-to-image translation tasks via multi-stream generators ( http://arxiv.org/abs/2112.15091v1 )

ライセンス: Link先を確認
Dvir Yerushalmi, Dov Danon, Amit H. Bermano(参考訳) イメージ・ツー・イメージ翻訳(I2I)タスクのスーパービジョンは難しいが、結果として得られる品質に大きな影響を及ぼす。 本稿では、多くのUnsupervised I2I(UI2I)シナリオにおいて、一方のドメインは他方よりも親しみやすく、意味的セグメンテーションのようなドメイン内の事前知識を提供する。 複雑な場面では、ドメインのセマンティック構造を理解することは、特に監督なしでは困難であるが、I2I操作の成功の重要な部分である。 そこで我々は,新しいマルチストリームジェネレータアーキテクチャとセマンティックセグメンテーションに基づく正規化損失項によって,翻訳品質の恩恵を受けるために,このドメイン内知識を組み込む2つの手法を導入する。 本質的には,入力データをセマンティックマスクに従って分割し,画像の異なる領域の異なる動作にネットワークを明示的に導くことを提案する。 さらに,翻訳作業とともにセマンティックセグメンテーションネットワークを訓練し,この出力をロバスト性を向上させる損失項として活用することを提案する。 都市データに対する我々のアプローチを検証し、昼の画像を夜のものに変換する難しいUI2Iタスクにおいて優れた品質を示す。 さらに,拡張画像によるターゲットデータセットの強化により,古典的検出タスクなどの下流タスクのトレーニングが向上することを示す。

Supervision for image-to-image translation (I2I) tasks is hard to come by, but bears significant effect on the resulting quality. In this paper, we observe that for many Unsupervised I2I (UI2I) scenarios, one domain is more familiar than the other, and offers in-domain prior knowledge, such as semantic segmentation. We argue that for complex scenes, figuring out the semantic structure of the domain is hard, especially with no supervision, but is an important part of a successful I2I operation. We hence introduce two techniques to incorporate this invaluable in-domain prior knowledge for the benefit of translation quality: through a novel Multi-Stream generator architecture, and through a semantic segmentation-based regularization loss term. In essence, we propose splitting the input data according to semantic masks, explicitly guiding the network to different behavior for the different regions of the image. In addition, we propose training a semantic segmentation network along with the translation task, and to leverage this output as a loss term that improves robustness. We validate our approach on urban data, demonstrating superior quality in the challenging UI2I tasks of converting day images to night ones. In addition, we also demonstrate how reinforcing the target dataset with our augmented images improves the training of downstream tasks such as the classical detection one.
翻訳日:2022-01-03 13:19:57 公開日:2021-12-30
# 特定の剛体物体のポーズ推定

Pose Estimation of Specific Rigid Objects ( http://arxiv.org/abs/2112.15075v1 )

ライセンス: Link先を確認
Tomas Hodan(参考訳) 本稿では,オブジェクトの3次元モデルが利用可能であることを前提として,単一のRGBまたはRGB-D入力画像から剛体の6次元ポーズを推定する問題に対処する。 この問題は、ロボット操作、拡張現実、自動運転など、多くのアプリケーション分野において非常に重要である。 まず,RGB画像から6次元オブジェクトのポーズ推定を行うEPOSを提案する。 キーとなるアイデアは、オブジェクトをコンパクトな表面フラグメントで表現し、ニューラルネットワークによって入力画像の各ピクセルにおける対応するフラグメントの確率分布を予測することである。 各画素はデータ依存のフラグメント数にリンクされ、シンメトリーの体系的なハンドリングが可能となり、6DポーズはRANSACベースのフィッティング法によるリンクから推定される。 EPOSは、いくつかの標準データセット上ですべてのRGBおよびほとんどのRGB-DおよびDメソッドを上回った。 第2に,入力画像上にウィンドウをスライドさせてテンプレートとのマッチングを検索するRGB-D法であるHashMatchを提案する。 評価段階のカスケードを各ウィンドウ位置に適用し、全てのテンプレートに対する徹底的なマッチングを回避する。 第3に,ニューラルネットワークに基づくトレーニング手法のための3次元オブジェクトモデルの写実画像合成手法であるObjectSynthを提案する。 この画像は、ランダムな写真の上にレンダリングされたオブジェクトの一般的な画像と比べて大幅に改善される。 第4に,産業関連オブジェクトの3次元モデルとRGB-D画像を含む6次元オブジェクトポーズ推定のための最初のデータセットであるT-LESSを紹介する。 第5に、フィールドのステータスクオをキャプチャするベンチマークであるBOPを定義します。 BOPは、ICCVおよびECCV会議で組織された国際ワークショップで開催される11のデータセット、評価方法論、オンライン評価システム、公開課題から構成される。

In this thesis, we address the problem of estimating the 6D pose of rigid objects from a single RGB or RGB-D input image, assuming that 3D models of the objects are available. This problem is of great importance to many application fields such as robotic manipulation, augmented reality, and autonomous driving. First, we propose EPOS, a method for 6D object pose estimation from an RGB image. The key idea is to represent an object by compact surface fragments and predict the probability distribution of corresponding fragments at each pixel of the input image by a neural network. Each pixel is linked with a data-dependent number of fragments, which allows systematic handling of symmetries, and the 6D poses are estimated from the links by a RANSAC-based fitting method. EPOS outperformed all RGB and most RGB-D and D methods on several standard datasets. Second, we present HashMatch, an RGB-D method that slides a window over the input image and searches for a match against templates, which are pre-generated by rendering 3D object models in different orientations. The method applies a cascade of evaluation stages to each window location, which avoids exhaustive matching against all templates. Third, we propose ObjectSynth, an approach to synthesize photorealistic images of 3D object models for training methods based on neural networks. The images yield substantial improvements compared to commonly used images of objects rendered on top of random photographs. Fourth, we introduce T-LESS, the first dataset for 6D object pose estimation that includes 3D models and RGB-D images of industry-relevant objects. Fifth, we define BOP, a benchmark that captures the status quo in the field. BOP comprises eleven datasets in a unified format, an evaluation methodology, an online evaluation system, and public challenges held at international workshops organized at the ICCV and ECCV conferences.
翻訳日:2022-01-03 13:19:33 公開日:2021-12-30
# (参考訳) metagraspnet: 物理に基づくメタバース合成による視覚駆動ロボット把持のための大規模ベンチマークデータセット [全文訳有]

MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic Grasping via Physics-based Metaverse Synthesis ( http://arxiv.org/abs/2112.14663v2 )

ライセンス: CC BY 4.0
Yuhao Chen, E. Zhixuan Zeng, Maximilian Gilles, Alexander Wong(参考訳) ロボットシステムを活用したスマートファクトリーへの関心が高まっている。 ロボット工学を駆使したスマートファクトリアプリケーションでは、ロボットアームを使って、さまざまな環境でオブジェクトを自律的に把握する。 ロボットの把握には、オブジェクト検出、セグメンテーション、把握予測、ピックプランニングなど、さまざまなコンピュータビジョンタスクが必要である。 ロボットの把持、特にディープラーニングに機械学習を活用することには大きな進歩があったが、大規模で高品質なrgbdデータセットが必要であり、多様なシナリオと順列をカバーしている。 この巨大で多様なデータ問題に対処するために、私たちはメタバースの概念の近年の台頭に触発され、仮想世界と物理世界の間に大きなギャップを埋めました。 メタバースは、実世界の製造シナリオのデジタルツインを作り、トレーニングモデルのために大量のデータを生成できるさまざまなシナリオを仮想的に作成することを可能にする。 本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットMetaGraspNetを提案する。 提案するデータセットは、10万の画像と25の異なるオブジェクトタイプを含み、異なる把握シナリオでオブジェクトの検出とセグメンテーションモデルのパフォーマンスを評価する5つの困難に分割される。 また,既存の汎用性能指標と比較してロボット把持アプリケーションに適するように,オブジェクト検出とセグメンテーション性能を評価するためのデータセットと並行して,新しいレイアウト重み付け性能指標を提案する。 ベンチマークデータセットはKaggle上でオープンソースとして公開されており、第1フェーズは詳細なオブジェクト検出、セグメンテーション、レイアウトアノテーション、レイアウト重み付けされたパフォーマンスメトリックスクリプトで構成されています。

There has been increasing interest in smart factories powered by robotics systems to tackle repetitive, laborious tasks. One impactful yet challenging task in robotics-powered smart factory applications is robotic grasping: using robotic arms to grasp objects autonomously in different settings. Robotic grasping requires a variety of computer vision tasks such as object detection, segmentation, grasp prediction, pick planning, etc. While significant progress has been made in leveraging of machine learning for robotic grasping, particularly with deep learning, a big challenge remains in the need for large-scale, high-quality RGBD datasets that cover a wide diversity of scenarios and permutations. To tackle this big, diverse data problem, we are inspired by the recent rise in the concept of metaverse, which has greatly closed the gap between virtual worlds and the physical world. Metaverses allow us to create digital twins of real-world manufacturing scenarios and to virtually create different scenarios from which large volumes of data can be generated for training models. In this paper, we present MetaGraspNet: a large-scale benchmark dataset for vision-driven robotic grasping via physics-based metaverse synthesis. The proposed dataset contains 100,000 images and 25 different object types and is split into 5 difficulties to evaluate object detection and segmentation model performance in different grasping scenarios. We also propose a new layout-weighted performance metric alongside the dataset for evaluating object detection and segmentation performance in a manner that is more appropriate for robotic grasp applications compared to existing general-purpose performance metrics. Our benchmark dataset is available open-source on Kaggle, with the first phase consisting of detailed object detection, segmentation, layout annotations, and a layout-weighted performance metric script.
翻訳日:2022-01-03 11:50:08 公開日:2021-12-30
# 時間差学習の制御論的解析

Control Theoretic Analysis of Temporal Difference Learning ( http://arxiv.org/abs/2112.14417v2 )

ライセンス: Link先を確認
Donghwan Lee(参考訳) 本稿では,線形確率反復アルゴリズムと時間差学習(TD)の制御理論解析について検討する。 td-learning(td-learn ing)は、マルコフ決定過程における与えられたポリシーの価値関数を推定するための線形確率的反復アルゴリズムである。 TD-ラーニングの理論分析で成功した研究はいくつかあるが、研究者が統計効率の保証を発見したのは近年になってからである。 本稿では,線形システム制御コミュニティにおける標準概念を活用した制御理論有限時間解析TD学習を提案する。 そこで本研究では,制御理論における単純な概念と分析ツールを用いたTD学習と強化学習について,さらなる知見を提供する。

The goal of this paper is to investigate a control theoretic analysis of linear stochastic iterative algorithm and temporal difference (TD) learning. TD-learning is a linear stochastic iterative algorithm to estimate the value function of a given policy for a Markov decision process, which is one of the most popular and fundamental reinforcement learning algorithms. While there has been a series of successful works in theoretical analysis of TD-learning, it was not until recently that researchers found some guarantees on its statistical efficiency. In this paper, we propose a control theoretic finite-time analysis TD-learning, which exploits standard notions in linear system control communities. Therefore, the proposed work provides additional insights on TD-learning and reinforcement learning with simple concepts and analysis tools in control theory.
翻訳日:2022-01-03 11:41:19 公開日:2021-12-30