このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220101となっている論文です。

PDF登録状況(公開日: 20220101)

TitleAuthorsAbstract論文公表日・翻訳日
# 機械学習による効率的な分光エリプソメトリーモデリング

Machine Learning-enhanced Efficient Spectroscopic Ellipsometry Modeling ( http://arxiv.org/abs/2201.04933v1 )

ライセンス: Link先を確認
Ayush Arunachalam, S. Novia Berriel, Parag Banerjee, Kanad Basu(参考訳) 近年、コンピュータビジョンからデータマイニング、薬物発見に至るまで、機械学習(ML)が現実世界の多くのアプリケーションに広く採用されている。 本稿では,MLを用いて効率的な膜形成,特に原子層堆積(ALD)を促進する。 薄膜の生成に利用されるALDプロセスの発展と,それに続く産業への採用を促進するためには,その基盤となる原子プロセスを理解することが不可欠である。 この目的のために,分光エリプソメトリー (SE) などのフィルム成長モニタリング技術が提案されている。 しかし、In situ SEは複雑なハードウェアと関連しており、そのためリソース集約である。 これらの課題に対処するため,MLを用いた膜厚推定手法を提案する。 提案手法は, 高速なデータ取得, ハードウェアの複雑さの低減, および膜厚沈着のその場観察のための分光エリプソメトリーの簡易な統合に大きく影響する。 実験結果から,提案手法は,+/-1.5 nmで88.76%,+/-0.5 nm間隔で85.14%の厚さ予測精度を期待できることがわかった。 さらに, 膜厚を最大98%向上させることにより, 従来のse系分析よりも大幅に向上し, 極薄膜厚推定に有効な選択肢となる。

Over the recent years, there has been an extensive adoption of Machine Learning (ML) in a plethora of real-world applications, ranging from computer vision to data mining and drug discovery. In this paper, we utilize ML to facilitate efficient film fabrication, specifically Atomic Layer Deposition (ALD). In order to make advances in ALD process development, which is utilized to generate thin films, and its subsequent accelerated adoption in industry, it is imperative to understand the underlying atomistic processes. Towards this end, in situ techniques for monitoring film growth, such as Spectroscopic Ellipsometry (SE), have been proposed. However, in situ SE is associated with complex hardware and, hence, is resource intensive. To address these challenges, we propose an ML-based approach to expedite film thickness estimation. The proposed approach has tremendous implications of faster data acquisition, reduced hardware complexity and easier integration of spectroscopic ellipsometry for in situ monitoring of film thickness deposition. Our experimental results involving SE of TiO2 demonstrate that the proposed ML-based approach furnishes promising thickness prediction accuracy results of 88.76% within +/-1.5 nm and 85.14% within +/-0.5 nm intervals. Furthermore, we furnish accuracy results up to 98% at lower thicknesses, which is a significant improvement over existing SE-based analysis, thereby making our solution a viable option for thickness estimation of ultrathin films.
翻訳日:2022-01-16 16:19:15 公開日:2022-01-01
# (参考訳) 連立学習に基づく複数の未知線形システムの安定化 [全文訳有]

Joint Learning-Based Stabilization of Multiple Unknown Linear Systems ( http://arxiv.org/abs/2201.01387v1 )

ライセンス: CC BY 4.0
Mohamad Kazem Shirani Faradonbeh, Aditya Modi(参考訳) 近年,線形システムの学習に基づく制御が注目されている。 一般的な設定では、真の動的モデルは意思決定者に知られておらず、システムへの制御入力を適用することで対話的に学習する必要があります。 単一のシステムの適応制御のための効率的な強化学習方針の成熟した文献とは異なり、複数のシステムの合同学習の結果は、現在得られていない。 特に、高速で信頼性の高い共同安定化の重要な問題は未解決のままであり、この研究の焦点でもある。 不安定な状態軌跡のデータから,全てのシステムの安定化ポリシーを高速に学習するための,共同学習に基づく安定化アルゴリズムを提案する。 提案手法は, 極めて短時間で力学系のファミリーを安定化させるなど, 極めて効果的であることが示されている。

Learning-based control of linear systems received a lot of attentions recently. In popular settings, the true dynamical models are unknown to the decision-maker and need to be interactively learned by applying control inputs to the systems. Unlike the matured literature of efficient reinforcement learning policies for adaptive control of a single system, results on joint learning of multiple systems are not currently available. Especially, the important problem of fast and reliable joint-stabilization remains unaddressed and so is the focus of this work. We propose a novel joint learning-based stabilization algorithm for quickly learning stabilizing policies for all systems understudy, from the data of unstable state trajectories. The presented procedure is shown to be notably effective such that it stabilizes the family of dynamical systems in an extremely short time period.
翻訳日:2022-01-06 20:39:31 公開日:2022-01-01
# 解釈可能な低リソース法決定法

Interpretable Low-Resource Legal Decision Making ( http://arxiv.org/abs/2201.01164v1 )

ライセンス: Link先を確認
Rohan Bhambhoria, Hui Liu, Samuel Dahan, Xiaodan Zhu(参考訳) 過去数年間、ディープラーニングの法的応用が増えている。 しかし、他の高い意思決定領域と同様に、解釈可能性の要件も重要である。 法律実務者が利用している現在のモデルは、本来は解釈可能であるが、データ駆動型ディープラーニングモデルのパフォーマンス能力を活用できない、従来の機械学習タイプに近い。 本研究は,商標法分野における深層学習モデルを用いて,商標間の混同の可能性の問題を明らかにする。 具体的には,法律文書に有効であることを実証する手法として,モデル非依存な解釈可能な中間層を提案する。 さらに、カリキュラム学習戦略を用いて弱教師付き学習を活用し、深層学習モデルの性能向上を効果的に実証する。 これは、法律の専門家による高価な手作業による注釈付きサンプルの限られた数しか利用できない従来のモデルとは対照的である。 この研究で提示された手法は商標の混乱のリスクに対処するが、それらを他の法分野、あるいはより一般的には、他の類似の高度なアプリケーションシナリオに拡張することは容易である。

Over the past several years, legal applications of deep learning have been on the rise. However, as with other high-stakes decision making areas, the requirement for interpretability is of crucial importance. Current models utilized by legal practitioners are more of the conventional machine learning type, wherein they are inherently interpretable, yet unable to harness the performance capabilities of data-driven deep learning models. In this work, we utilize deep learning models in the area of trademark law to shed light on the issue of likelihood of confusion between trademarks. Specifically, we introduce a model-agnostic interpretable intermediate layer, a technique which proves to be effective for legal documents. Furthermore, we utilize weakly supervised learning by means of a curriculum learning strategy, effectively demonstrating the improved performance of a deep learning model. This is in contrast to the conventional models which are only able to utilize the limited number of expensive manually-annotated samples by legal experts. Although the methods presented in this work tackles the task of risk of confusion for trademarks, it is straightforward to extend them to other fields of law, or more generally, to other similar high-stakes application scenarios.
翻訳日:2022-01-05 13:41:28 公開日:2022-01-01
# マルチエージェントマルチアームバンディットとしてのクールノットゲームモデリング

Modelling Cournot Games as Multi-agent Multi-armed Bandits ( http://arxiv.org/abs/2201.01182v1 )

ライセンス: Link先を確認
Kshitija Taywade, Brent Harrison, Adib Bagh(参考訳) 本研究では,マルチエージェント・マルチアーム・バンディット(MA-MAB)を用いて繰り返しCournot oligopolyゲームをモデル化し,エージェントとして働く企業は生産量(離散値)を表すアームセットから選択する。 エージェントは独立したバンドイット問題と相互作用する。 この定式化において、各エージェントは、自身の報酬を最大化するために、腕間で順次選択を行う。 エージェントは環境に関する情報を持っておらず、アクションを行った後のみ自分の報酬を見ることができる。 しかし、市場需要は総工業生産の定常的な機能であり、市場からのランダムな参入や離脱は許されない。 これらの仮定から、$\epsilon$-greedyアプローチが従来のMABアプローチよりも有効な学習メカニズムを提供することがわかった。 また、順序付けられたアクション空間を利用する2つの新しいアプローチを提案する:$\epsilon$-greedy+hl と $\epsilon$-greedy+el である。 これらの新しいアプローチは、利益の少ない選択肢を排除し、企業がより利益の出る行動に集中できるようにする。 計算機シミュレーションを用いて結果における様々な平衡の出現を研究し,共同累積後悔の実証分析を行う。

We investigate the use of a multi-agent multi-armed bandit (MA-MAB) setting for modeling repeated Cournot oligopoly games, where the firms acting as agents choose from the set of arms representing production quantity (a discrete value). Agents interact with separate and independent bandit problems. In this formulation, each agent makes sequential choices among arms to maximize its own reward. Agents do not have any information about the environment; they can only see their own rewards after taking an action. However, the market demand is a stationary function of total industry output, and random entry or exit from the market is not allowed. Given these assumptions, we found that an $\epsilon$-greedy approach offers a more viable learning mechanism than other traditional MAB approaches, as it does not require any additional knowledge of the system to operate. We also propose two novel approaches that take advantage of the ordered action space: $\epsilon$-greedy+HL and $\epsilon$-greedy+EL. These new approaches help firms to focus on more profitable actions by eliminating less profitable choices and hence are designed to optimize the exploration. We use computer simulations to study the emergence of various equilibria in the outcomes and do the empirical analysis of joint cumulative regrets.
翻訳日:2022-01-05 13:33:19 公開日:2022-01-01
# (参考訳) PatchTrack: フレームパッチを使った複数オブジェクト追跡 [全文訳有]

PatchTrack: Multiple Object Tracking Using Frame Patches ( http://arxiv.org/abs/2201.00080v1 )

ライセンス: CC BY 4.0
Xiaotong Chen, Seyed Mehdi Iranmanesh, Kuo-Chin Lien(参考訳) オブジェクトの動きとオブジェクトの外観は、複数のオブジェクト追跡(MOT)アプリケーションで一般的に使用される情報であり、トラッキング・バイ・検出法におけるフレーム間の検出の関連付けや、共同検出・追跡法の直接トラック予測に使用される。 しかし、これら2つの情報はしばしば別々に検討されるだけでなく、現在の関心フレームから直接の視覚情報の利用を最適化する助けにもならない。 本稿では,現行のフレームのパッチを用いてトラックを予測できる変圧器を用いたジョイント・アンド・トラッキングシステムであるpatchtrackを提案する。 我々はKalmanフィルタを用いて、現在のフレーム内の既存のトラックの位置を前フレームから予測する。 予測された境界ボックスから切り出されたパッチはトランスデコーダに送られ、新しいトラックを推測する。 パッチにエンコードされたオブジェクトの動きとオブジェクトの出現情報の両方を利用することで,提案手法は,新しいトラックの発生可能性の高まりに注意を払う。 我々はMOT16 (MOTA 73.71%, IDF1 65.77%) やMOT17 (MOTA 73.59%, IDF1 65.23%) を含む最近のMOTベンチマークにおけるPatchTrackの有効性を示す。 結果はhttps://motchallenge .net/method/mot=4725&chl=10で公開される。

Object motion and object appearance are commonly used information in multiple object tracking (MOT) applications, either for associating detections across frames in tracking-by-detectio n methods or direct track predictions for joint-detection-and- tracking methods. However, not only are these two types of information often considered separately, but also they do not help optimize the usage of visual information from the current frame of interest directly. In this paper, we present PatchTrack, a Transformer-based joint-detection-and- tracking system that predicts tracks using patches of the current frame of interest. We use the Kalman filter to predict the locations of existing tracks in the current frame from the previous frame. Patches cropped from the predicted bounding boxes are sent to the Transformer decoder to infer new tracks. By utilizing both object motion and object appearance information encoded in patches, the proposed method pays more attention to where new tracks are more likely to occur. We show the effectiveness of PatchTrack on recent MOT benchmarks, including MOT16 (MOTA 73.71%, IDF1 65.77%) and MOT17 (MOTA 73.59%, IDF1 65.23%). The results are published on https://motchallenge .net/method/MOT=4725&chl=10.
翻訳日:2022-01-05 02:15:08 公開日:2022-01-01
# (参考訳) コンピュータビジョンに基づく駐車最適化システム [全文訳有]

Computer Vision Based Parking Optimization System ( http://arxiv.org/abs/2201.00095v1 )

ライセンス: CC BY 4.0
Siddharth Chandrasekaran, Jeffrey Matthew Reginald, Wei Wang, Ting Zhu(参考訳) 技術の改善は時間と時間に関連する問題と線形に関係している。 時間が経つにつれて、人間が直面する問題の数も増加することが観察されている。 しかし、これらの問題を解決する技術も改善される傾向にある。 車両の発明から始まった初期の問題の一つは駐車であった。 この問題を解決する技術は長年にわたって進化してきたが、駐車問題はいまだに解決されていない。 この背景にある主な理由は、駐車には1つの問題だけでなく、その内部に一連の問題があるからである。 これらの問題の1つは、分散駐車エコシステムにおける駐車場の占有度の検出である。 分散システムでは、ランダムな駐車スペースとは対照的に、ユーザーは望ましい駐車スペースを見つけるだろう。 本稿では,異なる駐車場における駐車空間検出ソリューションとして,Webベースのアプリケーションを提案する。 このソリューションはComputer Vision (CV)に基づいており、Python 3.0で書かれたDjangoフレームワークを使って構築されている。 このソリューションは、占有率検出の問題を解決するとともに、ユーザに対して、可用性と好みに基づいてブロックを決定するオプションを提供する。 提案システムの評価結果は有望かつ効率的である。 提案システムは、異なるシステムと統合して、他の関連する駐車問題の解決にも利用できる。

An improvement in technology is linearly related to time and time-relevant problems. It has been seen that as time progresses, the number of problems humans face also increases. However, technology to resolve these problems tends to improve as well. One of the earliest existing problems which started with the invention of vehicles was parking. The ease of resolving this problem using technology has evolved over the years but the problem of parking still remains unsolved. The main reason behind this is that parking does not only involve one problem but it consists of a set of problems within itself. One of these problems is the occupancy detection of the parking slots in a distributed parking ecosystem. In a distributed system, users would find preferable parking spaces as opposed to random parking spaces. In this paper, we propose a web-based application as a solution for parking space detection in different parking spaces. The solution is based on Computer Vision (CV) and is built using the Django framework written in Python 3.0. The solution works to resolve the occupancy detection problem along with providing the user the option to determine the block based on availability and his preference. The evaluation results for our proposed system are promising and efficient. The proposed system can also be integrated with different systems and be used for solving other relevant parking problems.
翻訳日:2022-01-05 02:00:52 公開日:2022-01-01
# (参考訳) salypath360: 全方位画像に対するsaliency and scanpath prediction framework [全文訳有]

SalyPath360: Saliency and Scanpath Prediction Framework for Omnidirectional Images ( http://arxiv.org/abs/2201.00096v1 )

ライセンス: CC BY 4.0
Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani, Mohamed Sayeh(参考訳) 本稿では,全方位画像の視覚的注意度を予測する新しい枠組みを提案する。 アーキテクチャのキーとなる設定は、与えられた刺激に対するサリエンシマップと対応するスキャンパスの同時予測である。 このフレームワークは、注意モジュールによって拡張された完全エンコーダ-デコーダ畳み込みニューラルネットワークを実装し、代表的給与マップを生成する。 また、softargmax機能を介してビューポートセンター固定点を生成するために補助ネットワークを用いる。 後者は特徴写像から固定点を導出することができる。 スキャンパス予測の利点を生かし,エンコーダデコーダに基づくサリエンシマップとスキャンパスに基づくサリエンシ・ヒートマップを利用して,最終的なアンバイアス・サリエンシ・マップを構築するための適応型ジョイント確率分布モデルを適用した。 提案手法は,saliencyとscanpathの予測の観点から評価され,salient360!データセットの最先端手法と比較した。 その結果,全方位視覚注意予測タスクにおいて,我々のフレームワークの妥当性と,そのようなアーキテクチャの利点が示された。

This paper introduces a new framework to predict visual attention of omnidirectional images. The key setup of our architecture is the simultaneous prediction of the saliency map and a corresponding scanpath for a given stimulus. The framework implements a fully encoder-decoder convolutional neural network augmented by an attention module to generate representative saliency maps. In addition, an auxiliary network is employed to generate probable viewport center fixation points through the SoftArgMax function. The latter allows to derive fixation points from feature maps. To take advantage of the scanpath prediction, an adaptive joint probability distribution model is then applied to construct the final unbiased saliency map by leveraging the encoder decoder-based saliency map and the scanpath-based saliency heatmap. The proposed framework was evaluated in terms of saliency and scanpath prediction, and the results were compared to state-of-the-art methods on Salient360! dataset. The results showed the relevance of our framework and the benefits of such architecture for further omnidirectional visual attention prediction tasks.
翻訳日:2022-01-05 01:42:41 公開日:2022-01-01
# (参考訳) ウェアラブルセンサデータの知識蒸留におけるデータ拡張戦略の役割 [全文訳有]

Role of Data Augmentation Strategies in Knowledge Distillation for Wearable Sensor Data ( http://arxiv.org/abs/2201.00111v1 )

ライセンス: CC BY 4.0
Eun Som Jeon, Anirudh Som, Ankita Shukla, Kristina Hasanaj, Matthew P. Buman, Pavan Turaga(参考訳) ディープニューラルネットワークは数千から数百万のパラメータによってパラメータ化され、多くの分類問題で大きな成功を収めている。 しかし、多くのパラメータがこれらのモデルをスマートフォンやウェアラブルデバイスのようなエッジデバイスに統合することは困難である。 この問題に対処するために、知識蒸留(KD)が広く採用されており、エッジデバイスに適したより小さなネットワークをトレーニングするために、事前訓練された高容量ネットワークを使用している。 本稿では,ウェアラブルデバイスにおける時系列データにKDを使用することの適用性と課題について検討する。 kdの適用に成功するには、トレーニング中にデータ拡張方法の特定の選択が必要となる。 しかし、KD中に拡張アプローチを選択するコヒーレントな戦略が存在するかどうかはまだ分かっていない。 本稿では,KDに基づく人間活動分析において,様々な共通選択とハイブリッドデータ強化戦略を比較し,比較する詳細な研究結果について報告する。 この領域の研究は、ウェアラブルデバイスからパブリックドメインで利用可能な包括的なデータベースがほとんどないため、しばしば制限される。 本研究は,人的活動と鎮静行動に関する大規模介入研究から得られた,小規模のデータベースを一般公開した。 KDにおけるデータ拡張手法の選択は、エンドパフォーマンスに様々な影響を及ぼすことが分かり、最適なネットワーク選択とデータ拡張戦略が、手元にあるデータセットに特有のものであることが判明した。 しかし、データベース全体にわたって強力なベースラインパフォーマンスを提供するための、一般的な推奨セットもまとめています。

Deep neural networks are parametrized by several thousands or millions of parameters, and have shown tremendous success in many classification problems. However, the large number of parameters makes it difficult to integrate these models into edge devices such as smartphones and wearable devices. To address this problem, knowledge distillation (KD) has been widely employed, that uses a pre-trained high capacity network to train a much smaller network, suitable for edge devices. In this paper, for the first time, we study the applicability and challenges of using KD for time-series data for wearable devices. Successful application of KD requires specific choices of data augmentation methods during training. However, it is not yet known if there exists a coherent strategy for choosing an augmentation approach during KD. In this paper, we report the results of a detailed study that compares and contrasts various common choices and some hybrid data augmentation strategies in KD based human activity analysis. Research in this area is often limited as there are not many comprehensive databases available in the public domain from wearable devices. Our study considers databases from small scale publicly available to one derived from a large scale interventional study into human activity and sedentary behavior. We find that the choice of data augmentation techniques during KD have a variable level of impact on end performance, and find that the optimal network choice as well as data augmentation strategies are specific to a dataset at hand. However, we also conclude with a general set of recommendations that can provide a strong baseline performance across databases.
翻訳日:2022-01-05 01:33:46 公開日:2022-01-01
# (参考訳) cloze翻訳と一貫性最適化を用いたゼロショットコモンセンス質問応答 [全文訳有]

Zero-shot Commonsense Question Answering with Cloze Translation and Consistency Optimization ( http://arxiv.org/abs/2201.00136v1 )

ライセンス: CC BY 4.0
Zi-Yi Dou, Nanyun Peng(参考訳) Commonsense Question answering (CQA)は、モデルが誰もが知っている常識に関する質問に答えられるかどうかをテストすることを目的としている。 外部知識ベースを組み込んだ先行研究は有望な結果を示しているが、知識ベースは構築に費用がかかり、しばしば一定の関係に制限される。 本稿では,事前学習された言語モデルに格納された \textit{implicit knowledge} の活用に注目する。 研究者らは、事前学習された言語モデルに埋め込まれた知識を、関係抽出とテキスト分類のために慎重に設計されたプロンプトの空白に埋め込むことで抽出できることを発見したが、入力と出力がより柔軟になるCQAにこのパラダイムを適用できるかどうかは不明である。 そこで本研究では,自然質問をクローゼスタイルの文に翻訳して,構文ベースモデル,教師なしニューラルモデル,および2つの教師付きニューラルモデルを含む,言語モデルからのコモンセンス知識をよりよく求める4つの翻訳手法について検討する。 さらに、異なる翻訳手法を組み合わせるために、異なる翻訳質問に対するモデル予測とラベルなしデータとの整合性を促進することを提案する。 ゼロショット設定における3つのCQAデータセットに対する手法の有効性を示す。 提案手法は知識ベースを改良したモデルに補完し,それらを組み合わせるとゼロショット性能が向上することを示す。 分析はまた、異なるクローゼ翻訳法の特徴を明らかにし、それらの組み合わせが大きな改善をもたらす理由についての洞察を提供する。

Commonsense question answering (CQA) aims to test if models can answer questions regarding commonsense knowledge that everyone knows. Prior works that incorporate external knowledge bases have shown promising results, but knowledge bases are expensive to construct and are often limited to a fixed set of relations. In this paper, we instead focus on better utilizing the \textit{implicit knowledge} stored in pre-trained language models. While researchers have found that the knowledge embedded in pre-trained language models can be extracted by having them fill in the blanks of carefully designed prompts for relation extraction and text classification, it remains unclear if we can adopt this paradigm in CQA where the inputs and outputs take much more flexible forms. To this end, we investigate four translation methods that can translate natural questions into cloze-style sentences to better solicit commonsense knowledge from language models, including a syntactic-based model, an unsupervised neural model, and two supervised neural models. In addition, to combine the different translation methods, we propose to encourage consistency among model predictions on different translated questions with unlabeled data. We demonstrate the effectiveness of our methods on three CQA datasets in zero-shot settings. We show that our methods are complementary to a knowledge base improved model, and combining them can lead to state-of-the-art zero-shot performance. Analyses also reveal distinct characteristics of the different cloze translation methods and provide insights on why combining them can lead to great improvements.
翻訳日:2022-01-05 01:11:09 公開日:2022-01-01
# (参考訳) マトリックス分解とその応用

Matrix Decomposition and Applications ( http://arxiv.org/abs/2201.00145v1 )

ライセンス: CC BY 4.0
Jun Lu(参考訳) 1954年、alston s. householder は行列分解に関する最初の現代的な処理の一つである数値解析の原理を出版し、(ブロック)lu分解を好んだ。 そして今、行列分解は機械学習のコア技術となり、主にニューラルネットワークに適合するバック伝搬アルゴリズムの開発が原因となっている。 本研究の目的は,数値線形代数と行列解析における概念と数学的ツールの自己完結的な紹介を提供することであり,行列分解法とその応用を次の節でシームレスに導入することである。 しかし、行列分解に関する有用で興味深い結果をすべてカバーできないことは明らかであり、ユークリッド空間、エルミート空間、ヒルベルト空間、および複素領域の物事の分離解析など、この議論を示すためのスコープの空白が与えられた。 線形代数の分野における文献の読み手を参照し、関連する分野のより詳細な紹介を行う。

In 1954, Alston S. Householder published Principles of Numerical Analysis, one of the first modern treatments on matrix decomposition that favored a (block) LU decomposition-the factorization of a matrix into the product of lower and upper triangular matrices. And now, matrix decomposition has become a core technology in machine learning, largely due to the development of the back propagation algorithm in fitting a neural network. The sole aim of this survey is to give a self-contained introduction to concepts and mathematical tools in numerical linear algebra and matrix analysis in order to seamlessly introduce matrix decomposition techniques and their applications in subsequent sections. However, we clearly realize our inability to cover all the useful and interesting results concerning matrix decomposition and given the paucity of scope to present this discussion, e.g., the separated analysis of the Euclidean space, Hermitian space, Hilbert space, and things in the complex domain. We refer the reader to literature in the field of linear algebra for a more detailed introduction to the related fields.
翻訳日:2022-01-05 00:57:39 公開日:2022-01-01
# (参考訳) 多様性を促進させる相補性を持つ自己注意型多視点表現学習 [全文訳有]

Self-attention Multi-view Representation Learning with Diversity-promoting Complementarity ( http://arxiv.org/abs/2201.00168v1 )

ライセンス: CC BY 4.0
Jian-wei Liu, Xi-hao Ding, Run-kun Lu, Xionglin Luo(参考訳) マルチビュー学習は、マルチビューデータ間のコンセンサスと/または相補性を利用して、より良いパフォーマンスでモデルを生成する。 しかし、相補性の観点からは、既存のほとんどのアプローチは相補性のある表現しか見つけられない。 In this paper, to utilize both complementarity and consistency simultaneously, give free rein to the potential of deep learning in grasping diversity-promoting complementarity for multi-view representation learning, we propose a novel supervised multi-view representation learning algorithm, called Self-Attention Multi-View network with Diversity-Promoting Complementarity (SAMVDPC), which exploits the consistency by a group of encoders, uses self-attention to find complementary information entailing diversity. 8つの実世界のデータセットを対象とした広範囲な実験により,提案手法の有効性が実証され,単一の補完的情報のみを考慮に入れた複数のベースライン法に対してその優越性が示された。

Multi-view learning attempts to generate a model with a better performance by exploiting the consensus and/or complementarity among multi-view data. However, in terms of complementarity, most existing approaches only can find representations with single complementarity rather than complementary information with diversity. In this paper, to utilize both complementarity and consistency simultaneously, give free rein to the potential of deep learning in grasping diversity-promoting complementarity for multi-view representation learning, we propose a novel supervised multi-view representation learning algorithm, called Self-Attention Multi-View network with Diversity-Promoting Complementarity (SAMVDPC), which exploits the consistency by a group of encoders, uses self-attention to find complementary information entailing diversity. Extensive experiments conducted on eight real-world datasets have demonstrated the effectiveness of our proposed method, and show its superiority over several baseline methods, which only consider single complementary information.
翻訳日:2022-01-05 00:56:12 公開日:2022-01-01
# (参考訳) オートエンコーダと注意による多視点サブスペース適応学習 [全文訳有]

Multi-view Subspace Adaptive Learning via Autoencoder and Attention ( http://arxiv.org/abs/2201.00171v1 )

ライセンス: CC BY 4.0
Jian-wei Liu, Hao-jie Xie, Run-kun Lu, and Xiong-lin Luo(参考訳) マルチビュー学習はデータサンプルの全ての特徴をより包括的にカバーできるため、マルチビュー学習は広く注目を集めている。 sparse subspace clustering(ssc)やlow-grade subspace clustering(lrsc)といった従来のサブスペースクラスタリング手法では、単一のビューに対して親和性マトリックスをクラスタ化することで、ビュー間の融合の問題を無視している。 本稿では,アテンション・アンド・オートエンコーダ(MSALAA)に基づくマルチビューサブスペース適応学習を提案する。 深層オートエンコーダと多視点低ランクスパースサブスペースクラスタリング(MLRSSC)における様々なビューの自己表現を整合させる手法を組み合わせることで、非直線性適合性の向上だけでなく、多視点学習の一貫性と相補性の原則を満たすことができる。 6つの実生活データセット上で,既存のベースライン手法に対する顕著な改善を実証的に観察した。

Multi-view learning can cover all features of data samples more comprehensively, so multi-view learning has attracted widespread attention. Traditional subspace clustering methods, such as sparse subspace clustering (SSC) and low-ranking subspace clustering (LRSC), cluster the affinity matrix for a single view, thus ignoring the problem of fusion between views. In our article, we propose a new Multiview Subspace Adaptive Learning based on Attention and Autoencoder (MSALAA). This method combines a deep autoencoder and a method for aligning the self-representations of various views in Multi-view Low-Rank Sparse Subspace Clustering (MLRSSC), which can not only increase the capability to non-linearity fitting, but also can meets the principles of consistency and complementarity of multi-view learning. We empirically observe significant improvement over existing baseline methods on six real-life datasets.
翻訳日:2022-01-05 00:47:13 公開日:2022-01-01
# (参考訳) gatedtabtransformer (複数形 gatedtabtransformers ) 表型モデリングのための拡張型ディープラーニングアーキテクチャ [全文訳有]

The GatedTabTransformer. An enhanced deep learning architecture for tabular modeling ( http://arxiv.org/abs/2201.00199v1 )

ライセンス: CC BY-SA 4.0
Radostin Cholakov and Todor Kolev(参考訳) グラフデータへのディープラーニングアーキテクチャの適用に対する関心が高まっている。 最先端ソリューションの1つであるTabTransformerは、カテゴリー的特徴間の関係をよりよく追跡するためのアテンションメカニズムを導入し、次に標準のMLPを使用して最終ログを出力する。 本稿では,1%以上のAUROCゲインを持つ3つのデータセットのバイナリ分類タスクにおいて,元のTabTransformerに対する複数の修正を提案する。 ゲート型MLPにインスパイアされた線形射影はMLPブロックに実装され、複数のアクティベーション関数をテストする。 また,訓練中のハイパーパラメータの重要性も評価した。

There is an increasing interest in the application of deep learning architectures to tabular data. One of the state-of-the-art solutions is TabTransformer which incorporates an attention mechanism to better track relationships between categorical features and then makes use of a standard MLP to output its final logits. In this paper we propose multiple modifications to the original TabTransformer performing better on binary classification tasks for three separate datasets with more than 1% AUROC gains. Inspired by gated MLP, linear projections are implemented in the MLP block and multiple activation functions are tested. We also evaluate the importance of specific hyper parameters during training.
翻訳日:2022-01-05 00:38:36 公開日:2022-01-01
# (参考訳) 位相誘導制御による四輪ロボットの自由歩行遷移学習 [全文訳有]

Learning Free Gait Transition for Quadruped Robots via Phase-Guided Controller ( http://arxiv.org/abs/2201.00206v1 )

ライセンス: CC BY-SA 4.0
Yecheng Shao, Yongbin Jin, Xianwei Liu, Weiyan He, Hongtao Wang, Wei Yang(参考訳) 歩行と遷移は足の移動において重要な要素である。 脚のあるロボットの場合、歩行やトランジションの記述や再現は長年の課題のままである。 強化学習は脚のあるロボットのコントローラーを定式化する強力なツールになっている。 しかしながら、複数の歩行と遷移を学ぶことは、マルチタスク学習の問題と関連している。 そこで本研究では,四足歩行ロボットの歩行行動における簡単な制御方針を学習するための新しい枠組みを提案する。 4つの独立した位相が歩行ジェネレータと4フィートの動きを特徴付ける制御ポリシーのインターフェースとして使用される。 フェーズによって導かれるこの四足ロボットは、生成された歩行(歩行、トロット、ペーシング、バウンディングなど)に応じてロコモトし、それらの歩行の間に遷移することができる。 より一般的な位相は、ミックスリズミカルダンスのような複雑な歩行を生成するのに使うことができる。 コントロールポリシーにより、中犬サイズの四足ロボットであるブラックパンサーロボットは、自然環境下での速度コマンドを円滑かつ堅牢に追従しながら、学習したすべてのモータースキルを実行することができる。

Gaits and transitions are key components in legged locomotion. For legged robots, describing and reproducing gaits as well as transitions remain longstanding challenges. Reinforcement learning has become a powerful tool to formulate controllers for legged robots. Learning multiple gaits and transitions, nevertheless, is related to the multi-task learning problems. In this work, we present a novel framework for training a simple control policy for a quadruped robot to locomote in various gaits. Four independent phases are used as the interface between the gait generator and the control policy, which characterizes the movement of four feet. Guided by the phases, the quadruped robot is able to locomote according to the generated gaits, such as walk, trot, pacing and bounding, and to make transitions among those gaits. More general phases can be used to generate complex gaits, such as mixed rhythmic dancing. With the control policy, the Black Panther robot, a medium-dog-sized quadruped robot, can perform all learned motor skills while following the velocity commands smoothly and robustly in natural environment.
翻訳日:2022-01-05 00:31:16 公開日:2022-01-01
# (参考訳) Turath-150K: Image Database of Arab Heritage

Turath-150K: Image Database of Arab Heritage ( http://arxiv.org/abs/2201.00220v1 )

ライセンス: CC BY 4.0
Dani Kiyasseh, Rasheed El-Bouri(参考訳) 大規模な画像データベースは、少数の文化で遭遇したオブジェクトやアクティビティに大きく偏っている。 この文化的に多様性のある画像の欠如は隠れた尾と呼ばれ、事前訓練されたニューラルネットワークの適用性を制限し、不注意に研究者を未表示領域から除外する。 この問題を治療するために、一般的に見られる物体、活動、シナリオを反映したアラブ世界の画像データベースであるTurath-150Kをキュレートする。 その過程で,Turathデータセットのサブセットを専門とするTurath Standard,Art,UNESCOの3つのベンチマークデータベースを紹介した。 このようなベンチマークにデプロイされた場合、imagenetで事前トレーニングされた既存のネットワークの制限を実証した後、画像分類のタスクで複数のネットワークを訓練し、評価する。 Turathの結果として、機械学習研究者は、表現不足の地域に関わり、さらに文化に焦点を絞ったデータベースのリリースを刺激したいと考えています。 データベースは、danikiyasseh.github. io/turathからアクセスできる。

Large-scale image databases remain largely biased towards objects and activities encountered in a select few cultures. This absence of culturally-diverse images, which we refer to as the hidden tail, limits the applicability of pre-trained neural networks and inadvertently excludes researchers from under-represented regions. To begin remedying this issue, we curate Turath-150K, a database of images of the Arab world that reflect objects, activities, and scenarios commonly found there. In the process, we introduce three benchmark databases, Turath Standard, Art, and UNESCO, specialised subsets of the Turath dataset. After demonstrating the limitations of existing networks pre-trained on ImageNet when deployed on such benchmarks, we train and evaluate several networks on the task of image classification. As a consequence of Turath, we hope to engage machine learning researchers in under-represented regions, and to inspire the release of additional culture-focused databases. The database can be accessed here: danikiyasseh.github. io/Turath.
翻訳日:2022-01-05 00:11:06 公開日:2022-01-01
# (参考訳) 肺癌診断における深層学習の応用 : 体系的検討

Deep Learning Applications for Lung Cancer Diagnosis: A systematic review ( http://arxiv.org/abs/2201.00227v1 )

ライセンス: CC BY 4.0
Hesamoddin Hosseini, Reza Monsefi, Shabnam Shadroo(参考訳) 肺癌は近年最も流行している疾患の1つである。 この分野の研究によると、米国では毎年20万人以上の患者が特定されている。 肺細胞の非制御的な増殖と増殖は悪性腫瘍形成を引き起こす。 近年、深層学習アルゴリズム、特に畳み込みニューラルネットワーク(cnn)は、疾患を自動的に診断する優れた方法となっている。 本研究の目的は,早期肺癌の診断の精度と感度の異なるモデルについて検討し,この分野の医師や研究者を支援することである。 この研究の主な目的は、深層学習に基づいて肺癌に存在する課題を特定することである。 この調査は、2016年から2021年までの32のカンファレンスとジャーナルの記事をレビューするために、定期的なマッピングと文献レビューを組み合わせた体系的に書かれています。 記事を分析してレビューした後、記事で取り上げられた質問は回答されている。 本研究は,関連記事の完全なレビューと体系的な書き込みにより,この分野の他のレビュー記事よりも優れている。

Lung cancer has been one of the most prevalent disease in recent years. According to the research of this field, more than 200,000 cases are identified each year in the US. Uncontrolled multiplication and growth of the lung cells result in malignant tumour formation. Recently, deep learning algorithms, especially Convolutional Neural Networks (CNN), have become a superior way to automatically diagnose disease. The purpose of this article is to review different models that lead to different accuracy and sensitivity in the diagnosis of early-stage lung cancer and to help physicians and researchers in this field. The main purpose of this work is to identify the challenges that exist in lung cancer based on deep learning. The survey is systematically written that combines regular mapping and literature review to review 32 conference and journal articles in the field from 2016 to 2021. After analysing and reviewing the articles, the questions raised in the articles are being answered. This research is superior to other review articles in this field due to the complete review of relevant articles and systematic write up.
翻訳日:2022-01-04 23:47:49 公開日:2022-01-01
# (参考訳) 高速高感度x線化学イメージングのためのサブスペースモデリング [全文訳有]

Subspace modeling for fast and high-sensitivity X-ray chemical imaging ( http://arxiv.org/abs/2201.00259v1 )

ライセンス: CC BY 4.0
Jizhou Li, Bin Chen, Guibin Zan, Guannan Qian, Piero Pianetta, Yijin Liu(参考訳) ナノスケールで形態学的化学相転移を解決することは、様々な分野における多くの科学および産業応用にとって重要な意味を持つ。 TXM-XANESイメージング技術は、フルフィールド透過型X線顕微鏡(TXM)とX線吸収型エッジ構造(XANES)を組み合わせることで、マルチエネルギーのX線による一連の顕微鏡画像を取得して化学マップを得る新しいツールである。 しかし、その能力は、システムエラーと高速な取得のための低露光による信号対雑音比によって制限されている。 本稿では, txm-xanesイメージングデータの固有特性とサブスペースモデリングを活用し, 高速かつ高感度な化学画像化を可能にする画質向上のための簡易かつロバストな分別手法を提案する。 合成データと実データの両方に関する広範な実験は、提案手法の優れた性能を示している。

Resolving morphological chemical phase transformations at the nanoscale is of vital importance to many scientific and industrial applications across various disciplines. The TXM-XANES imaging technique, by combining full field transmission X-ray microscopy (TXM) and X-ray absorption near edge structure (XANES), has been an emerging tool which operates by acquiring a series of microscopy images with multi-energy X-rays and fitting to obtain the chemical map. Its capability, however, is limited by the poor signal-to-noise ratios due to the system errors and low exposure illuminations for fast acquisition. In this work, by exploiting the intrinsic properties and subspace modeling of the TXM-XANES imaging data, we introduce a simple and robust denoising approach to improve the image quality, which enables fast and high-sensitivity chemical imaging. Extensive experiments on both synthetic and real datasets demonstrate the superior performance of the proposed method.
翻訳日:2022-01-04 23:46:48 公開日:2022-01-01
# Wasserstein Graph Clusteringによる脳ネットワークの動的永続ホモロジー

Dynamic Persistent Homology for Brain Networks via Wasserstein Graph Clustering ( http://arxiv.org/abs/2201.00087v1 )

ライセンス: Link先を確認
Moo K. Chung, Shih-Gu Huang, Ian C. Carroll, Vince D. Calhoun, H. Hill Goldsmith(参考訳) 動的に変化するグラフに対する新しいワッサーシュタイングラフクラスタリングを提案する。 ワッサーシュタインクラスタリングはグラフ間の位相的差を罰する。 ワッサーシュタインクラスタリングは、広く使われているk平均クラスタリングよりも優れている。 この手法は機能的脳ネットワークを動的に変化する状態空間をより正確に決定する。

We present the novel Wasserstein graph clustering for dynamically changing graphs. The Wasserstein clustering penalizes the topological discrepancy between graphs. The Wasserstein clustering is shown to outperform the widely used k-means clustering. The method applied in more accurate determination of the state spaces of dynamically changing functional brain networks.
翻訳日:2022-01-04 15:56:39 公開日:2022-01-01
# 時系列疾患制御モデルのための繰り返しニューラルネットワークを用いたベイズ最適化アルゴリズム

High-dimensional Bayesian Optimization Algorithm with Recurrent Neural Network for Disease Control Models in Time Series ( http://arxiv.org/abs/2201.00147v1 )

ライセンス: Link先を確認
Yuyang Chen, Kaiming Bi, Chih-Hang J. Wu, David Ben-Arieh, Ashesh Sinha(参考訳) ベイズ最適化アルゴリズムは非線形大域最適化問題や多くの機械学習アプリケーションにおいて有望なアプローチとなっている。 ここ数年、改善と強化が進み、複雑な動的問題を解くための有望な結果が示され、対象関数が計算的に高価である通常の微分方程式の系が評価されている。 さらに、ベイズ最適化アルゴリズムの簡単な実装は、10-20次元の最適化問題に対してのみうまく機能する。 本稿では,高次元および時系列決定モデルを用いた大域的最適化問題の最適解を予測できる再帰ニューラルネットワークを組み合わせた,新たな高次元ベイズ最適化アルゴリズムを提案する。 提案したRNN-BOアルゴリズムは、低次元空間における最適制御問題を解き、繰り返しニューラルネットワークを用いて履歴データから学習し、過去の最適解データを学習し、新しい初期システム値設定に対する最適制御戦略を予測する。 また、感染拡大を効果的かつ効率的に制御し、関連する財政コストを最小限に抑えるためには、最適制御戦略の正確かつ迅速な提供が不可欠である。 そこで,提案アルゴリズムの有効性を検証するために,決定論的SEIR流行モデルと確率的SIS最適制御モデルを用いて計算実験を行った。 最後に、RNN層の異なる数の影響と、ソリューションの品質と関連する計算努力のトレードオフに対するトレーニングのエポックスについても論じる。

Bayesian Optimization algorithm has become a promising approach for nonlinear global optimization problems and many machine learning applications. Over the past few years, improvements and enhancements have been brought forward and they have shown some promising results in solving the complex dynamic problems, systems of ordinary differential equations where the objective functions are computationally expensive to evaluate. Besides, the straightforward implementation of the Bayesian Optimization algorithm performs well merely for optimization problems with 10-20 dimensions. The study presented in this paper proposes a new high dimensional Bayesian Optimization algorithm combining Recurrent neural networks, which is expected to predict the optimal solution for the global optimization problems with high dimensional or time series decision models. The proposed RNN-BO algorithm can solve the optimal control problems in the lower dimension space and then learn from the historical data using the recurrent neural network to learn the historical optimal solution data and predict the optimal control strategy for any new initial system value setting. In addition, accurately and quickly providing the optimal control strategy is essential to effectively and efficiently control the epidemic spread while minimizing the associated financial costs. Therefore, to verify the effectiveness of the proposed algorithm, computational experiments are carried out on a deterministic SEIR epidemic model and a stochastic SIS optimal control model. Finally, we also discuss the impacts of different numbers of the RNN layers and training epochs on the trade-off between solution quality and related computational efforts.
翻訳日:2022-01-04 15:56:34 公開日:2022-01-01
# familyseer: 計算サブグラフの類似性を活用した最適化テンソル符号の実現

FamilySeer: Towards Optimized Tensor Codes by Exploiting Computation Subgraph Similarity ( http://arxiv.org/abs/2201.00194v1 )

ライセンス: Link先を確認
Shanjun Zhang, Mingzhen Li, Hailong Yang, Yi Liu, Zhongzhi Luan, Depei Qian(参考訳) 様々なディープラーニング(DL)モデルを効率的にデプロイすることで、DLコンパイラの研究が促進された。 最適化されたテンソルコードを生成するのが難しいため、dlコンパイラは自動チューニングのアプローチを要求でき、要求の増加は自動チューニングの効率と品質の向上を必要とする。 現在、DLコンパイラは入力されたDLモデルを複数のサブグラフに分割し、オートチューニングを利用してこれらのサブグラフの最適なテンソルコードを見つける。 しかし、既存の自動チューニングアプローチでは、サブグラフを個別のものとみなし、それらの間の類似性を見落としているため、限られた時間予算でより良いテンソル符号を活用できない。 本研究では,DLコンパイラの自動チューニングフレームワークであるFamilySeerを提案する。 familyseerはサブグラフ間の類似性と相違を利用してサブグラフをサブグラフファミリーに分類し、1つのサブグラフのチューニングによって同じファミリー内の他のサブグラフも改善できる。 各家族のコストモデルは、家族によって生成されたより浄化されたトレーニングサンプルを取得し、実際のハードウェア上のコスト測定をコストモデルによる軽量な推定に置き換えられるように、より正確になる。 実験によると、familyseerは最先端の自動チューニングフレームワークよりも、同じコードパフォーマンスのモデルコードを生成することができる。

Deploying various deep learning (DL) models efficiently has boosted the research on DL compilers. The difficulty of generating optimized tensor codes drives DL compiler to ask for the auto-tuning approaches, and the increasing demands require increasing auto-tuning efficiency and quality. Currently, the DL compilers partition the input DL models into several subgraphs and leverage the auto-tuning to find the optimal tensor codes of these subgraphs. However, existing auto-tuning approaches usually regard subgraphs as individual ones and overlook the similarities across them, and thus fail to exploit better tensor codes under limited time budgets. We propose FamilySeer, an auto-tuning framework for DL compilers that can generate better tensor codes even with limited time budgets. FamilySeer exploits the similarities and differences among subgraphs can organize them into subgraph families, where the tuning of one subgraph can also improve other subgraphs within the same family. The cost model of each family gets more purified training samples generated by the family and becomes more accurate so that the costly measurements on real hardware can be replaced with the lightweight estimation through cost model. Our experiments show that FamilySeer can generate model codes with the same code performance more efficiently than state-of-the-art auto-tuning frameworks.
翻訳日:2022-01-04 15:56:14 公開日:2022-01-01
# パラメトリックコスト関数近似:多段階確率プログラミングの新しいアプローチ

The Parametric Cost Function Approximation: A new approach for multistage stochastic programming ( http://arxiv.org/abs/2201.00258v1 )

ライセンス: Link先を確認
Warren B Powell, Saeed Ghadimi(参考訳) 研究文献における多段階確率的プログラミング問題を解決する最も一般的なアプローチは、現在決定が未来に与える影響を近似するためにバリュー関数(動的プログラミング)またはシナリオツリー(確率的プログラミング)を使用することである。 対照的に、一般的な業界の実践は、理解し解くのが容易であるが不確実性を無視していると批判される未来の決定論的近似を使用することである。 決定論的最適化モデルのパラメータ化バージョンは、確率的プログラミングや動的プログラミングの複雑さなしに不確実性を扱う効果的な方法であることを示す。 本稿では,多くの複雑な確率的決定問題に対する強力な戦略として,パラメータ化決定論的最適化モデル,特に決定論的ルックアヘッドモデルを提案する。 このアプローチは複雑な高次元状態変数を処理でき、シナリオツリーや値関数近似に関連する通常の近似を避けることができる。 代わりに、パラメータ化を設計し、チューニングするというオフラインの課題を導入する。 一連のアプリケーション設定を用いてそのアイデアを説明し、ローリング予測を伴う非定常エネルギー貯蔵問題におけるその使用例を示す。

The most common approaches for solving multistage stochastic programming problems in the research literature have been to either use value functions ("dynamic programming") or scenario trees ("stochastic programming") to approximate the impact of a decision now on the future. By contrast, common industry practice is to use a deterministic approximation of the future which is easier to understand and solve, but which is criticized for ignoring uncertainty. We show that a parameterized version of a deterministic optimization model can be an effective way of handling uncertainty without the complexity of either stochastic programming or dynamic programming. We present the idea of a parameterized deterministic optimization model, and in particular a deterministic lookahead model, as a powerful strategy for many complex stochastic decision problems. This approach can handle complex, high-dimensional state variables, and avoids the usual approximations associated with scenario trees or value function approximations. Instead, it introduces the offline challenge of designing and tuning the parameterization. We illustrate the idea by using a series of application settings, and demonstrate its use in a nonstationary energy storage problem with rolling forecasts.
翻訳日:2022-01-04 15:26:42 公開日:2022-01-01
# 信頼性ソースを用いたクロスチェックによるフェイクニュースの自動検出

Automated Fake News Detection using cross-checking with reliable sources ( http://arxiv.org/abs/2201.00083v1 )

ライセンス: Link先を確認
Zahra Ghadiri, Milad Ranjbar, Fakhteh Ghanbarnejad, Sadegh Raeisi(参考訳) 過去10年間で、偽ニュースや誤報は、政治や公衆衛生など、私たちの生活のさまざまな側面に影響を与える大きな問題になってきた。 自然行動に触発されて,偽ニュースの検出を自動化する手法を提案する。 自然な人間の行動は、信頼できる情報源と新しい情報をクロスチェックすることです。 我々は自然言語処理(NLP)と機械学習(ML)モデルを構築し、事前定義された信頼できるソースセットで新しい情報をクロスチェックするプロセスを自動化する。 私たちはこれをtwitterに実装し、偽ツイートをフラグするモデルを構築します。 具体的には、あるツイートに対して、信頼できるニュース機関から関連するニュースを見つけるために、そのテキストを使用します。 次にランダムフォレストモデルをトレーニングし、ツイートのテキスト内容が信頼できるニュースに一致しているかをチェックする。 もしそうでなければ、ツイートは偽物に分類される。 このアプローチは一般にどんな種類の情報にも適用でき、特定のニュース記事や情報のカテゴリに限定されない。 このアプローチの実装は、他の一般的なフェイクニュース分類モデルに匹敵する70\%$精度を与えます。 これらの結果は、フェイクニュース検出に対するより賢明で自然なアプローチへの道を開いた。

Over the past decade, fake news and misinformation have turned into a major problem that has impacted different aspects of our lives, including politics and public health. Inspired by natural human behavior, we present an approach that automates the detection of fake news. Natural human behavior is to cross-check new information with reliable sources. We use Natural Language Processing (NLP) and build a machine learning (ML) model that automates the process of cross-checking new information with a set of predefined reliable sources. We implement this for Twitter and build a model that flags fake tweets. Specifically, for a given tweet, we use its text to find relevant news from reliable news agencies. We then train a Random Forest model that checks if the textual content of the tweet is aligned with the trusted news. If it is not, the tweet is classified as fake. This approach can be generally applied to any kind of information and is not limited to a specific news story or a category of information. Our implementation of this approach gives a $70\%$ accuracy which outperforms other generic fake-news classification models. These results pave the way towards a more sensible and natural approach to fake news detection.
翻訳日:2022-01-04 15:25:49 公開日:2022-01-01
# デュアルステージネットワークエロージョンによる敵攻撃

Adversarial Attack via Dual-Stage Network Erosion ( http://arxiv.org/abs/2201.00097v1 )

ライセンス: Link先を確認
Yexin Duan, Junhua Zou, Xingyu Zhou, Wu Zhang, Jin Zhang, Zhisong Pan(参考訳) 深層ニューラルネットワークは、微妙な摂動を追加することで深層モデルを騙すことができる敵の例に弱い。 既存の攻撃は有望な結果を得たが、ブラックボックス設定で転送可能な敵の例を生成するには長い道のりが残されている。 そこで本研究では,既存のモデルに2段階の特徴レベル摂動を適用して,多様なモデルの集合を暗黙的に生成する手法を提案する。 そして、これらのモデルはイテレーション中に縦アンサンブルによって融合される。 提案手法はDual-Stage Network Erosion (DSNE)と呼ばれる。 我々は,非再現性ネットワークと残留性ネットワークの両方について包括的実験を行い,最先端手法と類似した計算コストでより転送可能な逆例を得る。 特に、残差ネットワークでは、残差ブロック情報をスキップ接続にバイアスすることで、敵の例の転送可能性を大幅に改善することができる。 私たちの研究は、ニューラルネットワークのアーキテクチャ上の脆弱性に関する新たな洞察を提供し、ニューラルネットワークの堅牢性に新たな課題を提示します。

Deep neural networks are vulnerable to adversarial examples, which can fool deep models by adding subtle perturbations. Although existing attacks have achieved promising results, it still leaves a long way to go for generating transferable adversarial examples under the black-box setting. To this end, this paper proposes to improve the transferability of adversarial examples, and applies dual-stage feature-level perturbations to an existing model to implicitly create a set of diverse models. Then these models are fused by the longitudinal ensemble during the iterations. The proposed method is termed Dual-Stage Network Erosion (DSNE). We conduct comprehensive experiments both on non-residual and residual networks, and obtain more transferable adversarial examples with the computational cost similar to the state-of-the-art method. In particular, for the residual networks, the transferability of the adversarial examples can be significantly improved by biasing the residual block information to the skip connections. Our work provides new insights into the architectural vulnerability of neural networks and presents new challenges to the robustness of neural networks.
翻訳日:2022-01-04 15:25:32 公開日:2022-01-01
# ラベルなしRGB画像を利用したRGB-D輝度検出の高速化

Boosting RGB-D Saliency Detection by Leveraging Unlabeled RGB Images ( http://arxiv.org/abs/2201.00100v1 )

ライセンス: Link先を確認
Xiaoqiang Wang, Lei Zhu, Siliang Tang, Huazhu Fu, Ping Li, Fei Wu, Yi Yang, Yueting Zhuang(参考訳) RGB-D Salient Object Detection (SOD) のための深層モデルの訓練は、しばしば多数のラベル付きRGB-D画像を必要とする。 しかし、RGB-Dデータを容易に取得できないため、RGB-D SOD技術の開発が制限される。 この問題を軽減するために、未ラベルのRGB画像を活用するためにDual-Semi RGB-D Salient Object Detection Network (DS-Net)を提案する。 まず,深さ推定枝と塩分検出枝を含む深さ分離畳み込みニューラルネットワーク(ddcnn)を考案する。 深度推定部は、RGB-D画像を用いて訓練され、未ラベルのRGB画像の擬似深度マップを推定してペアデータを形成する。 唾液度検出枝は、RGB-D唾液度を予測するためにRGB特徴と深さ特徴を融合するために使用される。 次に、DDCNN全体を半教師学習のための教師学生フレームワークのバックボーンとして割り当てる。 さらに、ラベル付きデータに対する中間的注意度と正当性マップの整合性損失や、ラベル付きデータに対する教師付き深度と正当性損失も導入する。 広く使用されている7つのベンチマークデータセットの実験結果から、DDCNNは最先端の手法を定量的にも質的にも優れていることが示された。 また,擬似深度マップを用いたRGB画像であっても,半教師付きDS-Netにより性能が向上することを示した。

Training deep models for RGB-D salient object detection (SOD) often requires a large number of labeled RGB-D images. However, RGB-D data is not easily acquired, which limits the development of RGB-D SOD techniques. To alleviate this issue, we present a Dual-Semi RGB-D Salient Object Detection Network (DS-Net) to leverage unlabeled RGB images for boosting RGB-D saliency detection. We first devise a depth decoupling convolutional neural network (DDCNN), which contains a depth estimation branch and a saliency detection branch. The depth estimation branch is trained with RGB-D images and then used to estimate the pseudo depth maps for all unlabeled RGB images to form the paired data. The saliency detection branch is used to fuse the RGB feature and depth feature to predict the RGB-D saliency. Then, the whole DDCNN is assigned as the backbone in a teacher-student framework for semi-supervised learning. Moreover, we also introduce a consistency loss on the intermediate attention and saliency maps for the unlabeled data, as well as a supervised depth and saliency loss for labeled data. Experimental results on seven widely-used benchmark datasets demonstrate that our DDCNN outperforms state-of-the-art methods both quantitatively and qualitatively. We also demonstrate that our semi-supervised DS-Net can further improve the performance, even when using an RGB image with the pseudo depth map.
翻訳日:2022-01-04 15:24:07 公開日:2022-01-01
# 適応型単一画像デブラリング

Adaptive Single Image Deblurring ( http://arxiv.org/abs/2201.00155v1 )

ライセンス: Link先を確認
Maitreya Suin, Kuldeep Purohit, A. N. Rajagopalan(参考訳) 本稿では,動的シーンの劣化問題に対処する。 エンド・ツー・エンドの完全な畳み込み設計は、最近、非一様動作の非一様化の最先端に進んでいるが、その性能・複雑さのトレードオフは依然として準最適である。 既存のアプローチでは、モデルサイズの増加と推論速度の増大に伴うカーネルサイズという、一般的な畳み込み層の数の増加によって、大きな受容場を実現している。 そこで本研究では,画像間の大きなぼやけた変化を扱うための,効率的な画素適応化と特徴注意設計を提案する。 また,ピクセルのグローバル依存だけでなく,隣接画素の動的利用も考慮し,パフォーマンスを著しく向上させる効果的なコンテンツ対応グローバルローカルフィルタリングモジュールを提案する。 本稿では,入力画像に存在するぼやけの空間的変動を暗黙的に検出し,中間特徴の局所的および大域的変調を行う,上記のモジュールからなるパッチ階層型注意アーキテクチャを用いる。 デブロアリングベンチマークにおける先行技術との比較により,提案したネットワークの優位性を示す。

This paper tackles the problem of dynamic scene deblurring. Although end-to-end fully convolutional designs have recently advanced the state-of-the-art in non-uniform motion deblurring, their performance-complexi ty trade-off is still sub-optimal. Existing approaches achieve a large receptive field by a simple increment in the number of generic convolution layers, kernel-size, which comes with the burden of the increase in model size and inference speed. In this work, we propose an efficient pixel adaptive and feature attentive design for handling large blur variations within and across different images. We also propose an effective content-aware global-local filtering module that significantly improves the performance by considering not only the global dependencies of the pixel but also dynamically using the neighboring pixels. We use a patch hierarchical attentive architecture composed of the above module that implicitly discover the spatial variations in the blur present in the input image and in turn perform local and global modulation of intermediate features. Extensive qualitative and quantitative comparisons with prior art on deblurring benchmarks demonstrate the superiority of the proposed network.
翻訳日:2022-01-04 15:23:42 公開日:2022-01-01
# 糖尿病足部潰瘍データセットの開発 : 概観

Development of Diabetic Foot Ulcer Datasets: An Overview ( http://arxiv.org/abs/2201.00163v1 )

ライセンス: Link先を確認
Moi Hoon Yap and Connah Kendrick and Neil D. Reeves and Manu Goyal and Joseph M. Pappachan and Bill Cassidy(参考訳) 本稿では,過去10年間にわたる糖尿病性足部潰瘍データセットの開発に用いられてきた概念的基礎と手順について紹介する。 筆者らは,フット写真のデータキャプチャ方法,プライベートデータセットとパブリックデータセットの開発研究の概要,関連するコンピュータビジョンタスク(検出,セグメンテーション,分類),糖尿病性フット潰瘍の課題,およびデータセットの開発に向けた今後の方向性について調査を行った。 国・年別にデータセット利用者の分布を報告する。 私たちの目標は、データセット開発において私たちが遭遇した技術的課題と優れたプラクティスを共有し、他の研究者がこの分野でデータ共有に参加する動機を提供することです。

This paper provides conceptual foundation and procedures used in the development of diabetic foot ulcer datasets over the past decade, with a timeline to demonstrate progress. We conduct a survey on data capturing methods for foot photographs, an overview of research in developing private and public datasets, the related computer vision tasks (detection, segmentation and classification), the diabetic foot ulcer challenges and the future direction of the development of the datasets. We report the distribution of dataset users by country and year. Our aim is to share the technical challenges that we encountered together with good practices in dataset development, and provide motivation for other researchers to participate in data sharing in this domain.
翻訳日:2022-01-04 15:23:23 公開日:2022-01-01
# 非局所的注意による動的シーン映像の劣化

Dynamic Scene Video Deblurring using Non-Local Attention ( http://arxiv.org/abs/2201.00169v1 )

ライセンス: Link先を確認
Maitreya Suin, A. N. Rajagopalan(参考訳) 本稿では,ビデオデブロアリングの課題に対処する。 既存の作業の多くは、時間情報融合の暗黙的あるいは明示的なアライメントに依存しており、計算コストを増大させるか、あるいは間違ったアライメントによる最適以下のパフォーマンスをもたらす。 本研究では,空間と時間にまたがる非局所的な操作を,アライメントに依存することなく完全に活用するための分解時空間注意を提案する。 既存の核融合技術に比べて優れた性能を示しながら、非常に効率的である。 複数のデータセットに対する大規模な実験により,本手法の優位性が示された。

This paper tackles the challenging problem of video deblurring. Most of the existing works depend on implicit or explicit alignment for temporal information fusion which either increase the computational cost or result in suboptimal performance due to wrong alignment. In this study, we propose a factorized spatio-temporal attention to perform non-local operations across space and time to fully utilize the available information without depending on alignment. It shows superior performance compared to existing fusion techniques while being much efficient. Extensive experiments on multiple datasets demonstrate the superiority of our method.
翻訳日:2022-01-04 15:23:10 公開日:2022-01-01
# 特徴ガイダンスを用いた画像復元

Image Restoration using Feature-guidance ( http://arxiv.org/abs/2201.00187v1 )

ライセンス: Link先を確認
Maitreya Suin, Kuldeep Purohit, A. N. Rajagopalan(参考訳) 画像復元は、劣化したバージョンからクリーンなイメージを復元するタスクである。 ほとんどの場合、劣化は空間的に変化し、影響を受ける領域の局所化と復元の両方を修復ネットワークに要求する。 本稿では, ぼやけ, 雨天など, 実際に発生する人工物の影響を受け, 画像の劣化の空間的・特異性を扱うための新しい手法を提案する。 本研究では, 劣化画像とクリーン画像のマッピングを直接学習する既存の手法とは異なり, 劣化局所化と劣化領域誘導修復の2段階に分割した。 我々の前提は, 劣化マスク予測の補助作業を用いて, 修復過程を指導することである。 この補助作業のために訓練されたモデルには,注意深い知識蒸留技術を用いて,復元ネットワークの訓練を指導するために活用できる重要な領域知識が含まれていることを実証する。 さらに,劣化した領域の復元にのみ焦点をあてたマスク誘導畳み込みとグローバルコンテキスト集約モジュールを提案する。 提案手法の有効性は, 強いベースラインに対する大幅な改善によって実証される。

Image restoration is the task of recovering a clean image from a degraded version. In most cases, the degradation is spatially varying, and it requires the restoration network to both localize and restore the affected regions. In this paper, we present a new approach suitable for handling the image-specific and spatially-varying nature of degradation in images affected by practically occurring artifacts such as blur, rain-streaks. We decompose the restoration task into two stages of degradation localization and degraded region-guided restoration, unlike existing methods which directly learn a mapping between the degraded and clean images. Our premise is to use the auxiliary task of degradation mask prediction to guide the restoration process. We demonstrate that the model trained for this auxiliary task contains vital region knowledge, which can be exploited to guide the restoration network's training using attentive knowledge distillation technique. Further, we propose mask-guided convolution and global context aggregation module that focuses solely on restoring the degraded regions. The proposed approach's effectiveness is demonstrated by achieving significant improvement over strong baselines.
翻訳日:2022-01-04 15:23:01 公開日:2022-01-01
# グラフニューラルネットワークの解析に向けて

Toward the Analysis of Graph Neural Networks ( http://arxiv.org/abs/2201.00115v1 )

ライセンス: Link先を確認
Thanh-Dat Nguyen, Thanh Le-Cong, ThanhVu H. Nguyen, Xuan-Bach D. Le, Quyet-Thang Huynh(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの堅牢なフレームワークとして最近登場した。 知識グラフ分析やソーシャルネットワークの推薦,さらにはCovid19の検出やワクチン開発など,多くの問題に適用されている。 しかし、フィードフォワードニューラルネットワーク(ffnn)のような他のディープニューラルネットワークとは異なり、検証や特性推論のような分析は存在せず、任意のグラフを入力として扱うことができるgnnの動的振る舞いによる可能性がある。 本稿では,GNNをFFNNに変換し,既存のFFNN分析を再利用することで,GNNの分析手法を提案する。 変換のスケーラビリティと精度を確保するために,様々な設計について論じる。 本稿では,ノード分類の研究事例について概説する。 我々は,GNNの理解と分析のための新たな研究の方向性を開拓する。

Graph Neural Networks (GNNs) have recently emerged as a robust framework for graph-structured data. They have been applied to many problems such as knowledge graph analysis, social networks recommendation, and even Covid19 detection and vaccine developments. However, unlike other deep neural networks such as Feed Forward Neural Networks (FFNNs), few analyses such as verification and property inferences exist, potentially due to dynamic behaviors of GNNs, which can take arbitrary graphs as input, whereas FFNNs which only take fixed size numerical vectors as inputs. This paper proposes an approach to analyze GNNs by converting them into FFNNs and reusing existing FFNNs analyses. We discuss various designs to ensure the scalability and accuracy of the conversions. We illustrate our method on a study case of node classification. We believe that our approach opens new research directions for understanding and analyzing GNNs.
翻訳日:2022-01-04 15:15:40 公開日:2022-01-01
# MLOps - 定義、ツール、課題

MLOps -- Definitions, Tools and Challenges ( http://arxiv.org/abs/2201.00162v1 )

ライセンス: Link先を確認
G. Symeonidis, E. Nerantzis, A. Kazakis, G.A. Papakostas(参考訳) 本稿では、機械学習オペレーション(mlops)領域の概要について述べる。 本研究の目的は,現在の問題点と動向を強調することで,システムの動作とコンポーネントを定義することである。 この文脈では、対応するガイドラインを提供するために、異なるツールとその有用性を示す。 さらに、MLOpsとAutoML(Automated Machine Learning)の接続を特定し、この組み合わせがどのように機能するかを提案する。

This paper is an overview of the Machine Learning Operations (MLOps) area. Our aim is to define the operation and the components of such systems by highlighting the current problems and trends. In this context, we present the different tools and their usefulness in order to provide the corresponding guidelines. Moreover, the connection between MLOps and AutoML (Automated Machine Learning) is identified and how this combination could work is proposed.
翻訳日:2022-01-04 15:15:26 公開日:2022-01-01
# 動的Last-Squares回帰

Dynamic Least-Squares Regression ( http://arxiv.org/abs/2201.00228v1 )

ライセンス: Link先を確認
Shunhua Jiang, Binghui Peng, Omri Weinstein(参考訳) 大規模教師付き学習における一般的な課題は、モデルをスクラッチから再トレーニングすることなく、新しいインクリメンタルデータを事前トレーニングされたモデルに活用する方法である。 この問題に触発されて、我々は動的最小二乗回帰(LSR)の正準問題を再考し、漸進的なトレーニングデータよりも線形モデルを学習することを目指す。 このセットアップでは、データとラベルが$(\mathbf{A}^{(t)}, \mathbf{b}^{(t)}) \in \mathbb{R}^{t \times d}\times \mathbb{R}^t$をオンラインのやり方で進化させ、その目標は、$\min_{\mathbf{x}^{(t)}} \| \mathbf{A}^{(t)} \mathbf{x}^{(t)} - \mathbf{b}^{(t)} \|_2$ for all $t\in [T]$に対して効率的に(近似)ソリューションを維持することである。 我々の主な成果は動的データ構造であり、動的LSRに対する任意に小さな定値近似解を保留時間$O(d^{1+o(1)})$で維持し、静的(スケッチベース)ソリューションの実行時間とほぼ一致する。 対照的に、正確な(あるいは1/\mathrm{poly}(n)$-accuracy)ソリューションの場合、静的設定と動的設定の分離、すなわち、動的LSRはOMv Conjecture (Henzinger et al., STOC'15)の下での償却更新時間($\Omega(d^{2-o(1)})$)を必要とすることを示す。 私たちのデータ構造は概念的にはシンプルで、実装が容易で、理論と実践の両方において高速です。

A common challenge in large-scale supervised learning, is how to exploit new incremental data to a pre-trained model, without re-training the model from scratch. Motivated by this problem, we revisit the canonical problem of dynamic least-squares regression (LSR), where the goal is to learn a linear model over incremental training data. In this setup, data and labels $(\mathbf{A}^{(t)}, \mathbf{b}^{(t)}) \in \mathbb{R}^{t \times d}\times \mathbb{R}^t$ evolve in an online fashion ($t\gg d$), and the goal is to efficiently maintain an (approximate) solution to $\min_{\mathbf{x}^{(t)}} \| \mathbf{A}^{(t)} \mathbf{x}^{(t)} - \mathbf{b}^{(t)} \|_2$ for all $t\in [T]$. Our main result is a dynamic data structure which maintains an arbitrarily small constant approximate solution to dynamic LSR with amortized update time $O(d^{1+o(1)})$, almost matching the running time of the static (sketching-based) solution. By contrast, for exact (or even $1/\mathrm{poly}(n)$-accuracy) solutions, we show a separation between the static and dynamic settings, namely, that dynamic LSR requires $\Omega(d^{2-o(1)})$ amortized update time under the OMv Conjecture (Henzinger et al., STOC'15). Our data structure is conceptually simple, easy to implement, and fast both in theory and practice, as corroborated by experiments over both synthetic and real-world datasets.
翻訳日:2022-01-04 15:15:21 公開日:2022-01-01
# 標本採取の課題と系統学的比較法がいかに役立つか--パマ・ニュンガン・ラミナルコントラストを事例として

Challenges of sampling and how phylogenetic comparative methods help: With a case study of the Pama-Nyungan laminal contrast ( http://arxiv.org/abs/2201.00195v1 )

ライセンス: Link先を確認
Jayden L. Macklin-Cordes, Erich R. Round(参考訳) 系統学的比較法は、我々の分野では新しく、ほとんどの言語学者にとって、少なくとも少しは謎に満ちている。 しかし、比較生物学においてそれらの発見に繋がる経路は、バランスのとれたサンプリングの方法論的歴史と非常に似ており、タイプ学者によって発見されなかった歴史の偶然に過ぎない。 ここでは,系統比較法の背後にある重要な論理と,サンプリングに焦点をあてた深層知的伝統との基本的関連性を明らかにする。 次に,これらの手法を日常の類型学研究に活用するための概念,方法,ツールを紹介する。 系統比較法と平衡サンプリングの主な共通点は、遺伝学による統計的非独立性に対処しようとすることである。 サンプリングは独立性を達成できず、ほとんどの比較データが廃棄される必要があるが、系統比較法は全てのデータを保持し使用しながら独立性を達成する。 本稿では,系統信号の本質的概念,樹木の不確実性,分類学に敏感な類型的平均値と比率,言語家族間の比較,同義性の影響について論じる。 詳細な補足資料は,実用的解析のための計算ツールを示し,パマ・ニュンガンの層間コントラストの類型論的ケーススタディで考察した。

Phylogenetic comparative methods are new in our field and are shrouded, for most linguists, in at least a little mystery. Yet the path that led to their discovery in comparative biology is so similar to the methodological history of balanced sampling, that it is only an accident of history that they were not discovered by a typologist. Here we clarify the essential logic behind phylogenetic comparative methods and their fundamental relatedness to a deep intellectual tradition focussed on sampling. Then we introduce concepts, methods and tools which will enable typologists to use these methods in everyday typological research. The key commonality of phylogenetic comparative methods and balanced sampling is that they attempt to deal with statistical non-independence due to genealogy. Whereas sampling can never achieve independence and requires most comparative data to be discarded, phylogenetic comparative methods achieve independence while retaining and using all data. We discuss the essential notions of phylogenetic signal; uncertainty about trees; typological averages and proportions that are sensitive to genealogy; comparison across language families; and the effects of areality. Extensive supplementary materials illustrate computational tools for practical analysis and we illustrate the methods discussed with a typological case study of the laminal contrast in Pama-Nyungan.
翻訳日:2022-01-04 14:49:54 公開日:2022-01-01
# AutoDES:動的アンサンブル戦略選択による分類の自動MLパイプライン生成

AutoDES: AutoML Pipeline Generation of Classification with Dynamic Ensemble Strategy Selection ( http://arxiv.org/abs/2201.00207v1 )

ライセンス: Link先を確認
Yunpu Zhao(参考訳) 近年、機械学習の自動化は目覚ましい技術的発展を遂げており、自動化された機械学習パイプラインの構築は重要な課題となっている。 モデルアンサンブルは、より良くより堅牢なモデルを得るために複数のモデルを組み合わせるテクニックである。 しかし、既存の自動機械学習は、積み重ね一般化のようなアンサンブル戦略が固定されたモデルアンサンブルを扱うのに単純である傾向がある。 異なるアンサンブル法、特にアンサンブルの選択に関する多くの技法があり、固定アンサンブル戦略はモデルの性能の上限を制限している。 本稿では,自動機械学習のための新しいフレームワークを提案する。 我々のフレームワークは動的アンサンブル選択の進歩を取り入れており、私たちの知る限り、私たちのアプローチはAutoMLの分野で最初にアンサンブル戦略を探索し最適化するものである。 比較実験では,OpenMLプラットフォームから42の分類データセットに同じCPU時間で,最先端の機械学習フレームワークの性能を向上する。 フレームワークのアブレーション実験により,提案手法の有効性が検証された。

Automating machine learning has achieved remarkable technological developments in recent years, and building an automated machine learning pipeline is now an essential task. The model ensemble is the technique of combining multiple models to get a better and more robust model. However, existing automated machine learning tends to be simplistic in handling the model ensemble, where the ensemble strategy is fixed, such as stacked generalization. There have been many techniques on different ensemble methods, especially ensemble selection, and the fixed ensemble strategy limits the upper limit of the model's performance. In this article, we present a novel framework for automated machine learning. Our framework incorporates advances in dynamic ensemble selection, and to our best knowledge, our approach is the first in the field of AutoML to search and optimize ensemble strategies. In the comparison experiments, our method outperforms the state-of-the-art automated machine learning frameworks with the same CPU time in 42 classification datasets from the OpenML platform. Ablation experiments on our framework validate the effectiveness of our proposed method.
翻訳日:2022-01-04 14:47:18 公開日:2022-01-01
# ばらばらなラベルを持つ雑音グラフのためのロバストグラフニューラルネットワーク

Towards Robust Graph Neural Networks for Noisy Graphs with Sparse Labels ( http://arxiv.org/abs/2201.00232v1 )

ライセンス: Link先を確認
Enyan Dai, Wei jIN, Hui Liu, Suhang Wang(参考訳) グラフニューラルネットワーク(gnns)は、グラフ構造化データのモデリングに優れた能力を示している。 しかし、実世界のグラフは通常構造ノイズを含み、ラベル付きノードが限られている。 このようなグラフでトレーニングすると、GNNの性能は大幅に低下し、多くのアプリケーションでのGNNの採用を妨げることになる。 したがって、ラベル付きノードに制限のある耐雑音性GNNを開発することが重要である。 しかし、これに関する作業は限られている。 そこで,ラベル付きノードを限定した雑音グラフ上で頑健なgnnを開発するという新しい問題について検討する。 分析の結果,ノイズの多いエッジと限定ラベル付きノードの両方が,GNNのメッセージパッシング機構を損なう可能性が示唆された。 そこで本研究では,雑音エッジを監視対象とし,雑音エッジをダウンウェイトにしたり,ノイズエッジを取り除いたりし,gnnのメッセージパッシングを容易化し,制限されたラベル付きノードの問題を緩和する新しい枠組みを提案する。 生成されたエッジは、ラベルのスムーズさでラベルなしノードの予測を規則化し、GNNのトレーニングを改善するためにさらに使用される。 実世界のデータセットに対する実験結果から,限定ラベル付きノードを持つ雑音グラフ上でのフレームワークの堅牢性を示す。

Graph Neural Networks (GNNs) have shown their great ability in modeling graph structured data. However, real-world graphs usually contain structure noises and have limited labeled nodes. The performance of GNNs would drop significantly when trained on such graphs, which hinders the adoption of GNNs on many applications. Thus, it is important to develop noise-resistant GNNs with limited labeled nodes. However, the work on this is rather limited. Therefore, we study a novel problem of developing robust GNNs on noisy graphs with limited labeled nodes. Our analysis shows that both the noisy edges and limited labeled nodes could harm the message-passing mechanism of GNNs. To mitigate these issues, we propose a novel framework which adopts the noisy edges as supervision to learn a denoised and dense graph, which can down-weight or eliminate noisy edges and facilitate message passing of GNNs to alleviate the issue of limited labeled nodes. The generated edges are further used to regularize the predictions of unlabeled nodes with label smoothness to better train GNNs. Experimental results on real-world datasets demonstrate the robustness of the proposed framework on noisy graphs with limited labeled nodes.
翻訳日:2022-01-04 14:47:02 公開日:2022-01-01
# モデルベース正規化による観測特徴空間間の移動RL

Transfer RL across Observation Feature Spaces via Model-Based Regularization ( http://arxiv.org/abs/2201.00248v1 )

ライセンス: Link先を確認
Yanchao Sun, Ruijie Zheng, Xiyao Wang, Andrew Cohen, Furong Huang(参考訳) 多くの強化学習(RL)アプリケーションでは、観察空間は人間の開発者によって指定され、物理的実現によって制限されるため、時間とともに劇的な変化(観測可能な特徴の増加など)が発生する可能性がある。 しかし、観測空間が変化すると、入力特徴のミスマッチのために前のポリシーが失敗する可能性があり、計算やサンプルの複雑さの点で非効率なスクラッチから別のポリシーを訓練する必要がある。 理論的知見に従い、ソースタスクの潜在空間ダイナミクスを抽出し、モデルベース正規化器として使用する対象タスクにダイナミクスモデルを転送する新しいアルゴリズムを提案する。 我々のアルゴリズムは、ターゲットタスクのタスク間マッピングや事前の知識なしに、観測空間の劇的な変化(例えば、ベクトルベース観察から画像ベース観察)に対処する。 実験結果から,本アルゴリズムは目標課題における学習効率と安定性を著しく向上させることが示された。

In many reinforcement learning (RL) applications, the observation space is specified by human developers and restricted by physical realizations, and may thus be subject to dramatic changes over time (e.g. increased number of observable features). However, when the observation space changes, the previous policy will likely fail due to the mismatch of input features, and another policy must be trained from scratch, which is inefficient in terms of computation and sample complexity. Following theoretical insights, we propose a novel algorithm which extracts the latent-space dynamics in the source task, and transfers the dynamics model to the target task to use as a model-based regularizer. Our algorithm works for drastic changes of observation space (e.g. from vector-based observation to image-based observation), without any inter-task mapping or any prior knowledge of the target task. Empirical results show that our algorithm significantly improves the efficiency and stability of learning in the target task.
翻訳日:2022-01-04 14:46:42 公開日:2022-01-01
# ゼロショット物体検出のためのロバスト領域特徴合成器

Robust Region Feature Synthesizer for Zero-Shot Object Detection ( http://arxiv.org/abs/2201.00103v1 )

ライセンス: Link先を確認
Peiliang Huang, Junwei Han, De Cheng, Dingwen Zhang(参考訳) ゼロショットオブジェクト検出は、クラスセマンティクスベクターを組み込むことで、制約のないテスト画像が与えられた未検出のクラスの検出を実現することを目的としている。 本研究では,本研究領域の課題として,実検体と同様にクラス内およびクラス間分離可能な頑健な領域特徴(未確認対象に対して)を合成して,強力な未確認対象検出器をトレーニングする方法を明らかにする。 これらの課題に対処するため,我々はクラス内セマンティクス発散コンポーネントとクラス間構造保存コンポーネントを含む新しいゼロショットオブジェクト検出フレームワークを構築した。 前者は、各クラスのセマンティクスベクトルから多様な視覚特徴を得るための1対2のマッピングを実現するために使われ、実際の目に見えないオブジェクトを画像の背景として分類するのを防ぐ。 後者は、クラス間とフォアグラウンド-バックグラウンドの関係を混ぜ合わせるのにあまりに散り散りに合成された特徴を避けるために使われる。 提案手法の有効性を示すため,PASCAL VOC,COCO,DIORデータセットに関する総合的な実験を行った。 特に,本手法はPASCAL VOCとCOCOの最先端性能を実現し,リモートセンシング画像におけるゼロショット物体検出を初めて実施した研究である。

Zero-shot object detection aims at incorporating class semantic vectors to realize the detection of (both seen and) unseen classes given an unconstrained test image. In this study, we reveal the core challenges in this research area: how to synthesize robust region features (for unseen objects) that are as intra-class diverse and inter-class separable as the real samples, so that strong unseen object detectors can be trained upon them. To address these challenges, we build a novel zero-shot object detection framework that contains an Intra-class Semantic Diverging component and an Inter-class Structure Preserving component. The former is used to realize the one-to-more mapping to obtain diverse visual features from each class semantic vector, preventing miss-classifying the real unseen objects as image backgrounds. While the latter is used to avoid the synthesized features too scattered to mix up the inter-class and foreground-backgroun d relationship. To demonstrate the effectiveness of the proposed approach, comprehensive experiments on PASCAL VOC, COCO, and DIOR datasets are conducted. Notably, our approach achieves the new state-of-the-art performance on PASCAL VOC and COCO and it is the first study to carry out zero-shot object detection in remote sensing imagery.
翻訳日:2022-01-04 14:21:42 公開日:2022-01-01
# 被写体再同定のための品質認識部モデル

Quality-aware Part Models for Occluded Person Re-identification ( http://arxiv.org/abs/2201.00107v1 )

ライセンス: Link先を確認
Pengfei Wang, Changxing Ding, Zhiyin Shao, Zhibin Hong, Shengli Zhang, Dacheng Tao(参考訳) 排除は、人の再識別(ReID)にとって大きな課題となる。 既存のアプローチは一般的に、計算効率とReIDの精度の両面で最適であるように、視界部分の推測に外部ツールに依存している。 特に歩行者同士のような複雑な咬合に直面すると失敗することがある。 そこで本稿では,Occlusion-robust ReIDのためのQPM(Quality-Aware Part Models)という新しい手法を提案する。 まず,部品の特徴を共同学習し,部品品質スコアを予測することを提案する。 品質アノテーションが利用できないため、隠蔽された身体部品に低得点を自動的に割り当てる戦略を導入し、隠蔽された身体部品がReID結果に与える影響を弱める。 第2に,予測した部分品質スコアに基づいて,新しいアイデンティティ認識空間注意(isa)モジュールを提案する。 このモジュールでは、対象歩行者の画素を強調するために粗いアイデンティティ認識機能を利用し、歩行者間の閉塞に対処する。 第3に,画像ペア毎に共通の非閉塞領域からグローバル特徴を生成するための適応的かつ効率的な手法を考案する。 この設計は重要であるが、しばしば既存の方法によって無視される。 QPMには3つの大きな利点がある。 1) トレーニングや推論の段階において、外部のツールに依存しない。 2) 物体と歩行者の両方による閉塞を処理し, 計算効率が高い。 閉鎖されたReIDのための4つの人気データベースの実験結果から、QPMは最先端の手法を著しく上回っていることが示された。 QPMのコードはリリースされます。

Occlusion poses a major challenge for person re-identification (ReID). Existing approaches typically rely on outside tools to infer visible body parts, which may be suboptimal in terms of both computational efficiency and ReID accuracy. In particular, they may fail when facing complex occlusions, such as those between pedestrians. Accordingly, in this paper, we propose a novel method named Quality-aware Part Models (QPM) for occlusion-robust ReID. First, we propose to jointly learn part features and predict part quality scores. As no quality annotation is available, we introduce a strategy that automatically assigns low scores to occluded body parts, thereby weakening the impact of occluded body parts on ReID results. Second, based on the predicted part quality scores, we propose a novel identity-aware spatial attention (ISA) module. In this module, a coarse identity-aware feature is utilized to highlight pixels of the target pedestrian, so as to handle the occlusion between pedestrians. Third, we design an adaptive and efficient approach for generating global features from common non-occluded regions with respect to each image pair. This design is crucial, but is often ignored by existing methods. QPM has three key advantages: 1) it does not rely on any outside tools in either the training or inference stages; 2) it handles occlusions caused by both objects and other pedestrians;3) it is highly computationally efficient. Experimental results on four popular databases for occluded ReID demonstrate that QPM consistently outperforms state-of-the-art methods by significant margins. The code of QPM will be released.
翻訳日:2022-01-04 14:21:16 公開日:2022-01-01
# SurfGen: 表面識別器を用いた逆3次元形状合成

SurfGen: Adversarial 3D Shape Synthesis with Explicit Surface Discriminators ( http://arxiv.org/abs/2201.00112v1 )

ライセンス: Link先を確認
Andrew Luo, Tianqin Li, Wen-Hao Zhang, Tai Sing Lee(参考訳) 深部生成モデルの最近の進歩は、3次元形状合成の大幅な進歩をもたらした。 既存のモデルは、ボクセル、点雲、暗黙の関数として表される形状を合成できるが、これらの手法は、最終的な3次元形状表面の妥当性を間接的にのみ強制する。 本稿では,物体表面への逆訓練を直接適用する3次元形状合成フレームワーク(surfgen)を提案する。 提案手法では, 球面上に定義された関数として, 暗黙的な3次元ジェネレータの自明な零等方面を捕捉し, 表現するために, 微分可能な球面射影層を用いる。 球面CNNを用いて3次元物体表面の球面表現を逆向きに処理することにより,自然形状面の統計をよりよく学習することができる。 大規模形状データセットを用いて本モデルを評価し,多種多様なトポロジーを持つ高忠実度3次元形状を生成可能であることを示す。

Recent advances in deep generative models have led to immense progress in 3D shape synthesis. While existing models are able to synthesize shapes represented as voxels, point-clouds, or implicit functions, these methods only indirectly enforce the plausibility of the final 3D shape surface. Here we present a 3D shape synthesis framework (SurfGen) that directly applies adversarial training to the object surface. Our approach uses a differentiable spherical projection layer to capture and represent the explicit zero isosurface of an implicit 3D generator as functions defined on the unit sphere. By processing the spherical representation of 3D object surfaces with a spherical CNN in an adversarial setting, our generator can better learn the statistics of natural shape surfaces. We evaluate our model on large-scale shape datasets, and demonstrate that the end-to-end trained model is capable of generating high fidelity 3D shapes with diverse topology.
翻訳日:2022-01-04 14:20:54 公開日:2022-01-01
# 適応型イメージインパインティング

Adaptive Image Inpainting ( http://arxiv.org/abs/2201.00177v1 )

ライセンス: Link先を確認
Maitreya Suin, Kuldeep Purohit, A. N. Rajagopalan(参考訳) 画像インパインティング手法は,近年,ディープニューラルネットワークの利用により大幅に改善されている。 しかし、これらの技法の多くは周囲と矛盾する歪んだ構造やぼやけたテクスチャをしばしば生み出す。 この問題は、欠損領域の完全かつ忠実な埋め込みを構築する際のエンコーダ層の非効率性に根ざしている。 この問題に対処するため、2段階のアプローチでは、粗い画像の細かな推定のために2つの別々のネットワークを配置する。 いくつかのアプローチでは、エッジや輪郭といった手作りの特徴を使って再構築プロセスを導いている。 これらの手法は、複数のジェネレータネットワークによる膨大な計算オーバーヘッド、手作り特徴の限られた能力、および地上の真実に存在する情報の準最適利用に悩まされている。 そこで本研究では,エンコーダ層に対する直接的機能レベルの監督を適応的に行うための蒸留法を提案する。 我々は, クロス・セルフ蒸留技術を展開し, 蒸留目標を達成するための専用エンコーダの完成ブロックの必要性を論じる。 提案手法を検証するために,複数のデータセットについて広範な評価を行う。

Image inpainting methods have shown significant improvements by using deep neural networks recently. However, many of these techniques often create distorted structures or blurry textures inconsistent with surrounding areas. The problem is rooted in the encoder layers' ineffectiveness in building a complete and faithful embedding of the missing regions. To address this problem, two-stage approaches deploy two separate networks for a coarse and fine estimate of the inpainted image. Some approaches utilize handcrafted features like edges or contours to guide the reconstruction process. These methods suffer from huge computational overheads owing to multiple generator networks, limited ability of handcrafted features, and sub-optimal utilization of the information present in the ground truth. Motivated by these observations, we propose a distillation based approach for inpainting, where we provide direct feature level supervision for the encoder layers in an adaptive manner. We deploy cross and self distillation techniques and discuss the need for a dedicated completion-block in encoder to achieve the distillation target. We conduct extensive evaluations on multiple datasets to validate our method.
翻訳日:2022-01-04 14:20:38 公開日:2022-01-01
# SporeAgent: オブジェクト・ポース・リファインメントのための強化されたシーンレベルの可視性

SporeAgent: Reinforced Scene-level Plausibility for Object Pose Refinement ( http://arxiv.org/abs/2201.00239v1 )

ライセンス: Link先を確認
Dominik Bauer, Timothy Patten, Markus Vincze(参考訳) 対称性と閉塞による観測ノイズ、不正確なセグメンテーション、曖昧さは、不正確なオブジェクトのポーズ推定につながる。 深度とRGBに基づくポーズ改善アプローチは、結果のポーズ推定の精度を高めるが、視覚的アライメントを考慮すると、観察のあいまいさの影響を受けやすい。 静的で厳格なシーンをよく観察するという事実を活用することを提案する。 したがって、対象物は物理的に妥当なポーズでなければならない。 確率を考えるとあいまいさが減少し、その結果、乱雑な環境でより正確にポーズを予測できることが示される。 この目的のために、RLに基づく最近の登録手法をオブジェクトポーズの反復的洗練に向けて拡張する。 LINEMOD および YCB-VIDEO データセットを用いた実験により, 深度に基づく精錬手法の最先端性能が実証された。

Observational noise, inaccurate segmentation and ambiguity due to symmetry and occlusion lead to inaccurate object pose estimates. While depth- and RGB-based pose refinement approaches increase the accuracy of the resulting pose estimates, they are susceptible to ambiguity in the observation as they consider visual alignment. We propose to leverage the fact that we often observe static, rigid scenes. Thus, the objects therein need to be under physically plausible poses. We show that considering plausibility reduces ambiguity and, in consequence, allows poses to be more accurately predicted in cluttered environments. To this end, we extend a recent RL-based registration approach towards iterative refinement of object poses. Experiments on the LINEMOD and YCB-VIDEO datasets demonstrate the state-of-the-art performance of our depth-based refinement approach.
翻訳日:2022-01-04 14:20:21 公開日:2022-01-01
# インテリジェント廃棄物管理システムのためのIoTによる経路勧告

IoT-based Route Recommendation for an Intelligent Waste Management System ( http://arxiv.org/abs/2201.00180v1 )

ライセンス: Link先を確認
Mohammadhossein Ghahramani, Mengchu Zhou, Anna Molter, Francesco Pilla(参考訳) IoT(Internet of Things)は、組み込みセンサーとサービスのネットワークを特徴とするパラダイムである。 これらのセンサーは様々な情報を収集し、例えばごみ箱の状態を追跡し、異なる集中型プラットフォームとデータを交換するために組み込まれている。 このようなセンサーの必要性は高まっているが、テクノロジーの普及には様々な課題がある。 例えば、IoTとその関連データを、ムダ管理の強化にどのように使用できるのか? スマートシティでは,効率的な廃棄物管理システムが不可欠である。 人工知能(AI)とIoT対応のアプローチにより、都市は廃棄物収集を管理することができる。 本研究は, 空間制約を考慮したIoT対応廃棄物管理システムにおいて, 経路推薦のためのインテリジェントなアプローチを提案する。 AIベースの手法に基づいて徹底的な分析を行い、対応する結果を比較する。 提案手法は,経路問題に対処するために,ビンの状態と座標を考慮したマルチレベル意思決定プロセスに基づいている。 このようなAIベースのモデルは、エンジニアが持続可能なインフラストラクチャシステムを設計するのに役立ちます。

The Internet of Things (IoT) is a paradigm characterized by a network of embedded sensors and services. These sensors are incorporated to collect various information, track physical conditions, e.g., waste bins' status, and exchange data with different centralized platforms. The need for such sensors is increasing; however, proliferation of technologies comes with various challenges. For example, how can IoT and its associated data be used to enhance waste management? In smart cities, an efficient waste management system is crucial. Artificial Intelligence (AI) and IoT-enabled approaches can empower cities to manage the waste collection. This work proposes an intelligent approach to route recommendation in an IoT-enabled waste management system given spatial constraints. It performs a thorough analysis based on AI-based methods and compares their corresponding results. Our solution is based on a multiple-level decision-making process in which bins' status and coordinates are taken into account to address the routing problem. Such AI-based models can help engineers design a sustainable infrastructure system.
翻訳日:2022-01-04 14:15:30 公開日:2022-01-01
# SAFL: 音声を失くした自己認識型シーンテキスト認識装置

SAFL: A Self-Attention Scene Text Recognizer with Focal Loss ( http://arxiv.org/abs/2201.00132v1 )

ライセンス: Link先を確認
Bao Hieu Tran, Thanh Le-Cong, Huu Manh Nguyen, Duc Anh Le, Thanh Hung Nguyen, Phi Le Nguyen(参考訳) 過去数十年間、シーンのテキスト認識は、幅広いアプリケーションでの重要性から、学術コミュニティと実際のユーザの両方から世界的に注目を集めてきた。 光文字認識の成果にもかかわらず、歪みや不規則なレイアウトといった固有の問題のために、シーンテキスト認識は依然として困難である。 既存のアプローチの多くは、再帰的あるいは畳み込みベースのニューラルネットワークを主に活用している。 しかしながら、リカレントニューラルネットワーク(RNN)は通常、逐次計算によるトレーニング速度の低下と、勾配やボトルネックの消滅という問題に直面するが、CNNは複雑さとパフォーマンスのトレードオフに耐えている。 本稿では,シーンテキスト認識のための焦点損失を考慮した自己注意型ニューラルネットワークモデルSAFLを紹介し,既存のアプローチの限界を克服する。 負の対数に代えて焦点損失を用いることで、モデルは低周波サンプルトレーニングに集中することができる。 さらに、歪みや不規則なテキストに対処するために、認識ネットワークに渡す前にSpatial TransformerNetwork(S TN)を用いてテキストの修正を行う。 提案モデルの性能を7つのベンチマークと比較する実験を行った。 その結果,本モデルが最も優れた性能が得られることがわかった。

In the last decades, scene text recognition has gained worldwide attention from both the academic community and actual users due to its importance in a wide range of applications. Despite achievements in optical character recognition, scene text recognition remains challenging due to inherent problems such as distortions or irregular layout. Most of the existing approaches mainly leverage recurrence or convolution-based neural networks. However, while recurrent neural networks (RNNs) usually suffer from slow training speed due to sequential computation and encounter problems as vanishing gradient or bottleneck, CNN endures a trade-off between complexity and performance. In this paper, we introduce SAFL, a self-attention-based neural network model with the focal loss for scene text recognition, to overcome the limitation of the existing approaches. The use of focal loss instead of negative log-likelihood helps the model focus more on low-frequency samples training. Moreover, to deal with the distortions and irregular texts, we exploit Spatial TransformerNetwork (STN) to rectify text before passing to the recognition network. We perform experiments to compare the performance of the proposed model with seven benchmarks. The numerical results show that our model achieves the best performance.
翻訳日:2022-01-04 14:01:15 公開日:2022-01-01
# 大規模臨床オントロジーのセマンティック検索

Semantic Search for Large Scale Clinical Ontologies ( http://arxiv.org/abs/2201.00118v1 )

ライセンス: Link先を確認
Duy-Hoa Ngo, Madonna Kemp, Donna Truran, Bevan Koopman, Alejandro Metke-Jimenez(参考訳) クエリが異なる語彙を使用する場合、大きな臨床オントロジーで概念を見つけることは困難である。 この問題を克服する探索アルゴリズムは、概念正規化やオントロジーマッチングのようなアプリケーションで有用であり、異なるシノニムを用いて異なる方法で概念を参照することができる。 本稿では,大規模臨床オントロジーのための意味探索システムを構築するための深層学習に基づくアプローチを提案する。 本稿では,オントロジーから直接トレーニングデータを生成するTriplet-BERTモデルを提案する。 このモデルは5つの実際のベンチマークデータセットを用いて評価され,提案手法は自由テキストから概念,概念検索タスクの両方において高い結果を達成し,すべてのベースラインメソッドを上回った。

Finding concepts in large clinical ontologies can be challenging when queries use different vocabularies. A search algorithm that overcomes this problem is useful in applications such as concept normalisation and ontology matching, where concepts can be referred to in different ways, using different synonyms. In this paper, we present a deep learning based approach to build a semantic search system for large clinical ontologies. We propose a Triplet-BERT model and a method that generates training data directly from the ontologies. The model is evaluated using five real benchmark data sets and the results show that our approach achieves high results on both free text to concept and concept to concept searching tasks, and outperforms all baseline methods.
翻訳日:2022-01-04 13:59:54 公開日:2022-01-01
# メタラーニングのためのTPUを用いた分散進化戦略

Distributed Evolution Strategies Using TPUs for Meta-Learning ( http://arxiv.org/abs/2201.00093v1 )

ライセンス: Link先を確認
Alex Sheng, Derek He(参考訳) メタラーニングは伝統的に、モデルの学習ダイナミクスを反復的に改善するために、タスク全体のバックプロパゲーションに依存している。 しかし、このアプローチは複雑なタスクにスケールすると計算が難しい。 メモリコストを増加させることなく,任意の長さのタスクに高度に並列かつスケーラブルなテンソル処理ユニット(tpus)を用いた分散進化メタラーニング戦略を提案する。 Omniglotデータセットの進化戦略を訓練したプロトタイプネットワークを用いて、5ショットの分類問題に対して98.4%の精度を達成した。 我々のアルゴリズムは、勾配を計算するために自動微分の最大40倍のメモリを使用し、その結果、バックプロパゲーション訓練された等価値(99.6%)の1.3%以内の精度を実現した。 人口構成が大きくなると99.1%の分類精度が向上した。 さらに,様々な訓練条件(個体数,モデルサイズ,労働者数,ショット,ウェイ,esハイパーパラメータなど)におけるes-protonetの安定性と性能を実験的に検証した。 私たちは、教師付き環境で進化的メタラーニングを初めて評価し、TPU上での分散進化戦略のための一般的なフレームワークを作成します。

Meta-learning traditionally relies on backpropagation through entire tasks to iteratively improve a model's learning dynamics. However, this approach is computationally intractable when scaled to complex tasks. We propose a distributed evolutionary meta-learning strategy using Tensor Processing Units (TPUs) that is highly parallel and scalable to arbitrarily long tasks with no increase in memory cost. Using a Prototypical Network trained with evolution strategies on the Omniglot dataset, we achieved an accuracy of 98.4% on a 5-shot classification problem. Our algorithm used as much as 40 times less memory than automatic differentiation to compute the gradient, with the resulting model achieving accuracy within 1.3% of a backpropagation-trai ned equivalent (99.6%). We observed better classification accuracy as high as 99.1% with larger population configurations. We further experimentally validate the stability and performance of ES-ProtoNet across a variety of training conditions (varying population size, model size, number of workers, shot, way, ES hyperparameters, etc.). Our contributions are twofold: we provide the first assessment of evolutionary meta-learning in a supervised setting, and create a general framework for distributed evolution strategies on TPUs.
翻訳日:2022-01-04 13:58:28 公開日:2022-01-01
# 非漸近反復法による共分散行列のスペクトルの復元

Recover the spectrum of covariance matrix: a non-asymptotic iterative method ( http://arxiv.org/abs/2201.00230v1 )

ライセンス: Link先を確認
Juntao Duan, Ionel Popescu, Heinrich Matzinger(参考訳) サンプル共分散はスペクトルに一貫したバイアスを持つことはよく知られており、例えばウィッシュアート行列のスペクトルはマルテンコ・パストゥル則に従う。 本研究では,このバイアスを積極的に排除し,小中小次元の真のスペクトルを回復する反復的アルゴリズム「集中」を提案する。

It is well known the sample covariance has a consistent bias in the spectrum, for example spectrum of Wishart matrix follows the Marchenko-Pastur law. We in this work introduce an iterative algorithm 'Concent' that actively eliminate this bias and recover the true spectrum for small and moderate dimensions.
翻訳日:2022-01-04 13:55:05 公開日:2022-01-01
# オペレータdeep q-learning: 強化学習におけるゼロショット報酬伝達

Operator Deep Q-Learning: Zero-Shot Reward Transferring in Reinforcement Learning ( http://arxiv.org/abs/2201.00236v1 )

ライセンス: Link先を確認
Ziyang Tang, Yihao Feng, Qiang Liu(参考訳) 強化学習(Reinforcement Learning, RL)は近年, 様々な分野で大きな成功を収めている。 しかし、標準のrlアルゴリズムは単一の報酬関数にしか適用できず、見えない報酬関数に素早く適応することはできない。 本稿では,報酬関数から値関数への写像を行う演算子を直接近似できる強化学習の一般演算子視点を提案する。 演算子を学習する利点は、任意の新しい報酬関数を入力として組み込んで、対応する値関数をゼロショットで達成できる点にある。 この特殊なタイプの演算子を近似するために、その理論的性質に基づいて多くの新しい演算子ニューラルネットワークアーキテクチャを設計する。 演算子ネットワークの設計は,既存の手法や汎用演算子ネットワークの標準設計よりも優れており,オフラインポリシ評価(OPE)の報酬転送や,オフラインポリシ最適化の報酬転送など,さまざまなタスクにおいて,演算子による深層Q-ラーニングフレームワークのメリットを実証している。

Reinforcement learning (RL) has drawn increasing interests in recent years due to its tremendous success in various applications. However, standard RL algorithms can only be applied for single reward function, and cannot adapt to an unseen reward function quickly. In this paper, we advocate a general operator view of reinforcement learning, which enables us to directly approximate the operator that maps from reward function to value function. The benefit of learning the operator is that we can incorporate any new reward function as input and attain its corresponding value function in a zero-shot manner. To approximate this special type of operator, we design a number of novel operator neural network architectures based on its theoretical properties. Our design of operator networks outperform the existing methods and the standard design of general purpose operator network, and we demonstrate the benefit of our operator deep Q-learning framework in several tasks including reward transferring for offline policy evaluation (OPE) and reward transferring for offline policy optimization in a range of tasks.
翻訳日:2022-01-04 13:54:57 公開日:2022-01-01
# 消化管内視鏡画像におけるアーティファクト除去のためのディープラーニングアーキテクチャの性能比較

Performance Comparison of Deep Learning Architectures for Artifact Removal in Gastrointestinal Endoscopic Imaging ( http://arxiv.org/abs/2201.00084v1 )

ライセンス: Link先を確認
Taira Watanabe, Kensuke Tanioka, Satoru Hiwa, and Tomoyuki Hiroyasu(参考訳) 内視鏡画像は通常、いくつかのアーティファクトを含む。 これらのアーティファクトは画像解析に大きく影響し、コンピュータで診断する。 ディープラーニングの一種である畳み込みニューラルネットワーク(cnns)は、そのようなアーティファクトを取り除くことができる。 CNNには様々なアーキテクチャが提案されており、アーティファクト削除の精度はアーキテクチャの選択によって異なる。 したがって、選択したアーキテクチャに応じて、アーティファクトの除去精度を決定する必要がある。 本研究では,鏡視下手術器具をアーティファクトとし,7種類のcnnアーキテクチャを用いてアーティファクト除去精度を判定・検討した。

Endoscopic images typically contain several artifacts. The artifacts significantly impact image analysis result in computer-aided diagnosis. Convolutional neural networks (CNNs), a type of deep learning, can removes such artifacts. Various architectures have been proposed for the CNNs, and the accuracy of artifact removal varies depending on the choice of architecture. Therefore, it is necessary to determine the artifact removal accuracy, depending on the selected architecture. In this study, we focus on endoscopic surgical instruments as artifacts, and determine and discuss the artifact removal accuracy using seven different CNN architectures.
翻訳日:2022-01-04 13:53:45 公開日:2022-01-01
# 確率的ニューラルネットワークにおける不確かさの再考

Rethinking Feature Uncertainty in Stochastic Neural Networks for Adversarial Robustness ( http://arxiv.org/abs/2201.00148v1 )

ライセンス: Link先を確認
Hao Yang, Min Wang, Zhengfei Yu, Yun Zhou(参考訳) ディープニューラルネットワーク(DNN)が多くの分野で顕著に成功したことはよく知られている。 しかし、モデル入力に不可避な大きさの摂動を加えると、モデルの性能は急速に低下する可能性がある。 この問題に対処するため,SNN(Stochastic Neural Networks)というランダム性手法が最近提案されている。 特に、snsは無作為性をモデルに注入し、目に見えない攻撃から防御し、敵の堅牢性を改善する。 しかし、snsの研究は、主にモデル重み/アクティベーションに固定または学習可能なノイズを注入することに焦点を当てている。 本稿では,既存のSNNの性能が特徴表現能力のボトルネックとなっていることを明らかにする。 驚くべきことに、特徴分布の次元当たりの分散を最大化することは、これまでのすべての方法を大きく上回らせ、特徴分布分散確率ニューラルネットワーク(mfdv-snn)を最大化する。 ホワイトボックス攻撃やブラックボックス攻撃に対する大規模な実験により、MFDV-SNNは既存の手法よりも大幅に改善され、モデルロバスト性を改善するための単純で効果的な方法であることが示されている。

It is well-known that deep neural networks (DNNs) have shown remarkable success in many fields. However, when adding an imperceptible magnitude perturbation on the model input, the model performance might get rapid decrease. To address this issue, a randomness technique has been proposed recently, named Stochastic Neural Networks (SNNs). Specifically, SNNs inject randomness into the model to defend against unseen attacks and improve the adversarial robustness. However, existed studies on SNNs mainly focus on injecting fixed or learnable noises to model weights/activations. In this paper, we find that the existed SNNs performances are largely bottlenecked by the feature representation ability. Surprisingly, simply maximizing the variance per dimension of the feature distribution leads to a considerable boost beyond all previous methods, which we named maximize feature distribution variance stochastic neural network (MFDV-SNN). Extensive experiments on well-known white- and black-box attacks show that MFDV-SNN achieves a significant improvement over existing methods, which indicates that it is a simple but effective method to improve model robustness.
翻訳日:2022-01-04 13:53:35 公開日:2022-01-01
# 無限次元空間間の作用素の深度非パラメトリック推定

Deep Nonparametric Estimation of Operators between Infinite Dimensional Spaces ( http://arxiv.org/abs/2201.00217v1 )

ライセンス: Link先を確認
Hao Liu, Haizhao Yang, Minshuo Chen, Tuo Zhao, Wenjing Liao(参考訳) 無限次元空間間の学習演算子は、機械学習、画像科学、数学的モデリング、シミュレーションなど、幅広い応用において生じる重要な学習タスクである。 本稿では,ディープニューラルネットワークを用いたリプシッツ作用素の非パラメトリック推定について検討する。 非漸近上界は、適切に選択されたネットワーククラスに対する経験的リスク最小化器の一般化誤差のために導出される。 対象演算子が低次元構造を示すと仮定すると、トレーニングサンプルサイズが増加するにつれて誤差境界が崩壊し、推定における内在次元に依存した魅力的な高速速度が得られる。 我々の仮定は実アプリケーションにおけるほとんどのシナリオをカバーしており、演算子推定における低次元データ構造を利用して高速な速度をもたらす。 また、ニューラルネットワーク推定器の一般化誤差に対するネットワーク構造(ネットワーク幅、深さ、スパーシティなど)の影響を調査し、学習効率を定量的に最大化するためのネットワーク構造の選択に関する一般的な提案を提案する。

Learning operators between infinitely dimensional spaces is an important learning task arising in wide applications in machine learning, imaging science, mathematical modeling and simulations, etc. This paper studies the nonparametric estimation of Lipschitz operators using deep neural networks. Non-asymptotic upper bounds are derived for the generalization error of the empirical risk minimizer over a properly chosen network class. Under the assumption that the target operator exhibits a low dimensional structure, our error bounds decay as the training sample size increases, with an attractive fast rate depending on the intrinsic dimension in our estimation. Our assumptions cover most scenarios in real applications and our results give rise to fast rates by exploiting low dimensional structures of data in operator estimation. We also investigate the influence of network structures (e.g., network width, depth, and sparsity) on the generalization error of the neural network estimator and propose a general suggestion on the choice of network structures to maximize the learning efficiency quantitatively.
翻訳日:2022-01-04 13:32:53 公開日:2022-01-01