このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210515となっている論文です。

PDF登録状況(公開日: 20210515)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 微視的有孔虫の事例分割 [全文訳有]

Instance Segmentation of Microscopic Foraminifera ( http://arxiv.org/abs/2105.14191v1 )

ライセンス: CC BY 4.0
Thomas Haugland Johansen, Steffen Aagaard S{\o}rensen, Kajsa M{\o}llersen, Fred Godtliebsen(参考訳) フォラミニフェラ(英: foraminifera)は、海洋堆積物の化石として残る貝殻を構成する単細胞海洋生物である。 これらの化石の分類と数え方は、例えば、重要である。 古海洋学・気候学研究。 しかし、1800年代から手作業で識別と数え上げが行われており、手間と時間を要する。 本研究では,マイクロフォアミニフェラの分類,検出,セグメント化を行う深層学習型インスタンスセグメンテーションモデルを提案する。 本モデルは,COCO検出データセットから得られたモデル重みパラメータを用いて,Mask R-CNNアーキテクチャに基づく。 我々は,700以上の微視的有孔虫と沈殿粒からなる新しい物体検出データセットにパラメータを適応させるために,微調整手法を用いる。 このモデルは、分類および検出タスクで0.78 pm 0.00$、セグメンテーションタスクで0.80 pm 0.00$の平均精度を達成している。 モデルが砂利粒子画像に挑戦することなく評価されると, 両課題の平均精度は0.84 pm 0.00$, 0.86 pm 0.00$となる。 予測結果は量的および質的に分析され、議論される。 この知見に基づき,今後の研究に向けたいくつかの方向性を提案し,このモデルが微視的有孔虫の同定と計数を自動化するための重要なステップであると結論づけた。

Foraminifera are single-celled marine organisms that construct shells that remain as fossils in the marine sediments. Classifying and counting these fossils are important in e.g. paleo-oceanographic and -climatological research. However, the identification and counting process has been performed manually since the 1800s and is laborious and time-consuming. In this work, we present a deep learning-based instance segmentation model for classifying, detecting, and segmenting microscopic foraminifera. Our model is based on the Mask R-CNN architecture, using model weight parameters that have learned on the COCO detection dataset. We use a fine-tuning approach to adapt the parameters on a novel object detection dataset of more than 7000 microscopic foraminifera and sediment grains. The model achieves a (COCO-style) average precision of $0.78 \pm 0.00$ on the classification and detection task, and $0.80 \pm 0.00$ on the segmentation task. When the model is evaluated without challenging sediment grain images, the average precision for both tasks increases to $0.84 \pm 0.00$ and $0.86 \pm 0.00$, respectively. Prediction results are analyzed both quantitatively and qualitatively and discussed. Based on our findings we propose several directions for future work, and conclude that our proposed model is an important step towards automating the identification and counting of microscopic foraminifera.
翻訳日:2021-06-06 10:57:43 公開日:2021-05-15
# マテリオの色素沈着

Gradient Descent in Materio ( http://arxiv.org/abs/2105.11233v1 )

ライセンス: Link先を確認
Marcus N. Boon, Hans-Christian Ruiz Euler, Tao Chen, Bram van de Ven, Unai Alegre Ibarra, Peter A. Bobbert, Wilfred G. van der Wiel(参考訳) 脳にインスパイアされた多層ニューラルネットワークアプローチであるdeep learningは、機械学習に革命をもたらした。 ニューラルネットワークモデルの重みに対する損失関数の勾配を計算するアルゴリズムで、勾配降下での使用と組み合わせられている。 しかし、デジタルコンピュータにおけるディープラーニングの実装は本質的に無駄であり、多くのアプリケーションでエネルギー消費が禁止的に高い。 これにより、ニューロモルフィックcmos集積回路や集積フォトニックテンソルコアから、非伝統的な物質ベースのコンピューティングシステムまで、特殊なハードウェアの開発が促進された。 これらの物質系の学習プロセスは、例えば人工進化や代理ニューラルネットワークモデリングによって行われるが、それでも複雑で時間を要するプロセスである。 本稿では,材料系内で直接損失関数の勾配降下を行うための効率的かつ高精度なホモダイン勾配抽出法を示す。 本手法を最近開発したdopantネットワーク処理ユニットで実証し,ブールゲートをすべて容易に実現した。 このことは、基本的に勾配降下が、単純な電子工学を用いてマテオで完全に実装できることを示し、物質システムを自律的に学習する方法を広げている。

Deep learning, a multi-layered neural network approach inspired by the brain, has revolutionized machine learning. One of its key enablers has been backpropagation, an algorithm that computes the gradient of a loss function with respect to the weights in the neural network model, in combination with its use in gradient descent. However, the implementation of deep learning in digital computers is intrinsically wasteful, with energy consumption becoming prohibitively high for many applications. This has stimulated the development of specialized hardware, ranging from neuromorphic CMOS integrated circuits and integrated photonic tensor cores to unconventional, material-based computing systems. The learning process in these material systems, taking place, e.g., by artificial evolution or surrogate neural network modelling, is still a complicated and time-consuming process. Here, we demonstrate an efficient and accurate homodyne gradient extraction method for performing gradient descent on the loss function directly in the material system. We demonstrate the method in our recently developed dopant network processing units, where we readily realize all Boolean gates. This shows that gradient descent can in principle be fully implemented in materio using simple electronics, opening up the way to autonomously learning material systems.
翻訳日:2021-06-06 08:50:27 公開日:2021-05-15
# (参考訳) 分散シフトに対するロバストネスの効果的なベースライン [全文訳有]

An Effective Baseline for Robustness to Distributional Shift ( http://arxiv.org/abs/2105.07107v1 )

ライセンス: CC BY-SA 4.0
Sunil Thulasidasan, Sushil Thapa, Sayera Dhaubhadel, Gopinath Chennupati, Tanmoy Bhattacharya, Jeff Bilmes(参考訳) ディープラーニングシステムの安全なデプロイには,トレーニング中に見られるものと異なる入力のカテゴリに直面した場合,確実な予測を控えることが重要な要件である。 しかし、これはディープラーニングにおいて特に難しい問題であり、モデルはしばしばそのような状況下で過度に信頼された予測をする。 本研究では,無意味なクラスからサンプルに遭遇した場合,予測を控えることが望ましいという,非分布検出の原則を取り入れた,シンプルだが効果的なアプローチを提案する。 提案手法では, 余剰の禁制クラスを持つネットワークを用いて, 多数の禁制クラスラベルを付与した多数のアウト・オブ・ディストリビューション (OoD) サンプルからなる未処理データセットを用いてトレーニングを行い, そのモデルを用いて, イン・オブ・オブ・ディストリビューション・サンプル間の効果的な差別化を学習する。 この比較的単純なアプローチを、分布外検出とディープラーニングの不確実性モデリングの両方で提案されている、より複雑な方法と比較し、画像認識やテキスト分類のための様々なベンチマークやディープアーキテクチャでその効果を実証し、既存のアプローチをかなりのマージンで上回っている。 この手法の単純さと有効性を考えると、このアプローチは、このドメインにおける将来の作業の新たなベースラインとして使われることを提案します。

Refraining from confidently predicting when faced with categories of inputs different from those seen during training is an important requirement for the safe deployment of deep learning systems. While simple to state, this has been a particularly challenging problem in deep learning, where models often end up making overconfident predictions in such situations. In this work we present a simple, but highly effective approach to deal with out-of-distribution detection that uses the principle of abstention: when encountering a sample from an unseen class, the desired behavior is to abstain from predicting. Our approach uses a network with an extra abstention class and is trained on a dataset that is augmented with an uncurated set that consists of a large number of out-of-distribution (OoD) samples that are assigned the label of the abstention class; the model is then trained to learn an effective discriminator between in and out-of-distribution samples. We compare this relatively simple approach against a wide variety of more complex methods that have been proposed both for out-of-distribution detection as well as uncertainty modeling in deep learning, and empirically demonstrate its effectiveness on a wide variety of of benchmarks and deep architectures for image recognition and text classification, often outperforming existing approaches by significant margins. Given the simplicity and effectiveness of this method, we propose that this approach be used as a new additional baseline for future work in this domain.
翻訳日:2021-05-20 05:05:59 公開日:2021-05-15
# (参考訳) コスト対応サイクル時間短縮のための規範的プロセスモニタリング [全文訳有]

Prescriptive Process Monitoring for Cost-Aware Cycle Time Reduction ( http://arxiv.org/abs/2105.07111v1 )

ライセンス: CC BY 4.0
Zahra Dasht Bozorgi, Irene Teinemaa, Marlon Dumas, Marcello La Rosa(参考訳) サイクルタイムの短縮は、ビジネスプロセス管理の分野での繰り返しの懸念である。 プロセスによっては、注文から配送までのプロセスでより速い配送サービスを使用することや、パッシブに待つのではなく、行方不明の情報を取得するために顧客に電話することなど、ケースのサイクルタイムを短縮するために様々な介入がトリガーされる可能性がある。 これらの介入にはそれぞれコストがかかる。 本稿では,ネットゲイン全体の最大化を図る方法として,時間短縮的介入をいつ引き起こすか,という課題に対処する。 本稿では,直交ランダムフォレストモデルを用いて,プロセスが進行中の事例ごとに時間的介入を誘発する因果効果を推定する規範的プロセスモニタリング手法を提案する。 この因果効果推定に基づいて、ユーザ定義ポリシーに従って介入をトリガーする。 この手法は2つの実生活ログで評価する。

Reducing cycle time is a recurrent concern in the field of business process management. Depending on the process, various interventions may be triggered to reduce the cycle time of a case, for example, using a faster shipping service in an order-to-delivery process or giving a phone call to a customer to obtain missing information rather than waiting passively. Each of these interventions comes with a cost. This paper tackles the problem of determining if and when to trigger a time-reducing intervention in a way that maximizes the total net gain. The paper proposes a prescriptive process monitoring method that uses orthogonal random forest models to estimate the causal effect of triggering a time-reducing intervention for each ongoing case of a process. Based on this causal effect estimate, the method triggers interventions according to a user-defined policy. The method is evaluated on two real-life logs.
翻訳日:2021-05-20 04:53:10 公開日:2021-05-15
# (参考訳) Webページの大規模視覚的,質的,定量的データセット [全文訳有]

A Large Visual, Qualitative and Quantitative Dataset of Web Pages ( http://arxiv.org/abs/2105.07113v1 )

ライセンス: CC BY 4.0
Christian Mejia-Escobar, Miguel Cazorla, Ester Martinez-Martin(参考訳) world wide webは、現在最も重要なコミュニケーションと情報プラットフォームであるだけでなく、科学研究への関心が高まっている分野でもある。 これは大量のデータを必要とする多くの作業やプロジェクトを動機付けます。 しかし,Webページのパラメータと視覚的外観を統合するデータセットは存在しない。 様々なコンピュータツールやプログラミングスクリプトをサポートし、49,438ページの大規模なデータセットを作成しました。 視覚的、テキスト的、数値的なデータ型で構成され、世界中のすべての国を含み、芸術、娯楽、経済、ビジネス、教育、政府、ニュース、メディア、科学、環境など幅広いトピックを検討し、異なる文化的特徴と様々なデザインの好みをカバーしている。 本稿では,最終製品を収集し,デバッグし,公開するプロセスについて述べる。 このデータセットの有用性を示すために,畳み込みニューラルネットワークを用いて,誤りwebページ検出のためのバイナリ分類モデルと,マルチクラスwebサブジェクトに基づく分類を明らかにした。

The World Wide Web is not only one of the most important platforms of communication and information at present, but also an area of growing interest for scientific research. This motivates a lot of work and projects that require large amounts of data. However, there is no dataset that integrates the parameters and visual appearance of Web pages, because its collection is a costly task in terms of time and effort. With the support of various computer tools and programming scripts, we have created a large dataset of 49,438 Web pages. It consists of visual, textual and numerical data types, includes all countries worldwide, and considers a broad range of topics such as art, entertainment, economy, business, education, government, news, media, science, and environment, covering different cultural characteristics and varied design preferences. In this paper, we describe the process of collecting, debugging and publishing the final product, which is freely available. To demonstrate the usefulness of our dataset, we expose a binary classification model for detecting error Web pages, and a multi-class Web subject-based categorization, both problems using convolutional neural networks.
翻訳日:2021-05-20 04:39:22 公開日:2021-05-15
# (参考訳) 自己訓練は疑わしいアヒル病巣を識別できるか? [全文訳有]

Can self-training identify suspicious ugly duckling lesions? ( http://arxiv.org/abs/2105.07116v1 )

ライセンス: CC BY 4.0
Mohammadreza Mohseni, Jordan Yap, William Yolland, Arash Koochek and M Stella Atkins(参考訳) メラノーマの検出に一般的に用いられる1つのアプローチは、アヒルネビや同じ患者の他の病変とは異なるように見える皮膚病変の存在を認識している。 これらの病変を自動的に検出し分析する方法は、手動スクリーニング法と比較して研究の標準化に役立つだろう。 しかし,アヒル病巣に限局した画像を得ることは困難である。 そこで我々は,自動教師付き機械学習を用いて異常病変を自動的に検出することを提案する。 まず, 広視野皮膚画像からすべての病変を自動検出し, 抽出し, 患者画像中の各病変に対する埋め込みを, 自動的に特定した特徴に基づいて算出する。 これらの埋め込みは、異性度を測定する方法としてL2距離を計算するために使用される。 この深層学習法を用いて、Ugly Ducklingsは検査医にもっと注意に値するアウトリーチとして識別される。 皮膚科医との比較により,72.1%の感度,94.2%の診断精度が得られた。

One commonly used clinical approach towards detecting melanomas recognises the existence of Ugly Duckling nevi, or skin lesions which look different from the other lesions on the same patient. An automatic method of detecting and analysing these lesions would help to standardize studies, compared with manual screening methods. However, it is difficult to obtain expertly-labelled images for ugly duckling lesions. We therefore propose to use self-supervised machine learning to automatically detect outlier lesions. We first automatically detect and extract all the lesions from a wide-field skin image, and calculate an embedding for each detected lesion in a patient image, based on automatically identified features. These embeddings are then used to calculate the L2 distances as a way to measure dissimilarity. Using this deep learning method, Ugly Ducklings are identified as outliers which should deserve more attention from the examining physician. We evaluate through comparison with dermatologists, and achieve a sensitivity rate of 72.1% and diagnostic accuracy of 94.2% on the held-out test set.
翻訳日:2021-05-20 04:22:11 公開日:2021-05-15
# ゼロショット学習逆変換器による教師なしMRI再構成

Unsupervised MRI Reconstruction via Zero-Shot Learned Adversarial Transformers ( http://arxiv.org/abs/2105.08059v1 )

ライセンス: Link先を確認
Yilmaz Korkmaz, Salman UH Dar, Mahmut Yurt, Muzaffer \"Ozbey, Tolga \c{C}ukur(参考訳) 近年、深層学習は急速に加速MRIのワークホースとなり、アンサンプの取得による画像再構成における最先端のパフォーマンスを提供している。 深い教師付きモデルのトレーニングには、通常、一致する対象のセットからアンダーサンプルとフルサンプルの取得の大規模なデータセットが必要である。 大規模な医療データセットへのアクセスが少ないことから、この制限は、完全にサンプル化された地上データへの依存を減らす教師なしの手法への関心を喚起した。 一般的なフレームワークは、事前のディープイメージに基づいており、ネットワーク駆動の正規化はアンサンプされた買収の推論中に直接実施される。 しかし、標準畳み込みアーキテクチャは長距離関係の捕捉に最適であり、ランダムに初期化されたネットワークは収束を阻害する可能性がある。 これらの制約に対処するために、ゼロショット学習適応変換器(SLATER)に基づく新しい教師なしMRI再構成手法を提案する。 スレイターは、mr画像にノイズや潜在変数をマッピングするクロスアテンショントランスフォーマーブロックを備えた、深い敵ネットワークを具現化する。 この無条件ネットワークは、自己教師付き符号化タスクに先立って、高品質なMRIを学習する。 アンダーサンプルテストデータ上でゼロショット再構成を行い、ネットワークパラメータ、潜時、雑音変数を最適化し、マルチコイルMRIデータに対する最大整合性を確保する。 脳MRIデータセットに関する総合的な実験により、SLATERのいくつかの最先端の教師なし手法に対する優れた性能が明らかに示された。

Supervised deep learning has swiftly become a workhorse for accelerated MRI in recent years, offering state-of-the-art performance in image reconstruction from undersampled acquisitions. Training deep supervised models requires large datasets of undersampled and fully-sampled acquisitions typically from a matching set of subjects. Given scarce access to large medical datasets, this limitation has sparked interest in unsupervised methods that reduce reliance on fully-sampled ground-truth data. A common framework is based on the deep image prior, where network-driven regularization is enforced directly during inference on undersampled acquisitions. Yet, canonical convolutional architectures are suboptimal in capturing long-range relationships, and randomly initialized networks may hamper convergence. To address these limitations, here we introduce a novel unsupervised MRI reconstruction method based on zero-Shot Learned Adversarial TransformERs (SLATER). SLATER embodies a deep adversarial network with cross-attention transformer blocks to map noise and latent variables onto MR images. This unconditional network learns a high-quality MRI prior in a self-supervised encoding task. A zero-shot reconstruction is performed on undersampled test data, where inference is performed by optimizing network parameters, latent and noise variables to ensure maximal consistency to multi-coil MRI data. Comprehensive experiments on brain MRI datasets clearly demonstrate the superior performance of SLATER against several state-of-the-art unsupervised methods.
翻訳日:2021-05-19 14:08:10 公開日:2021-05-15
# (参考訳) FDDH:大規模クロスモーダル検索のための高速識別離散ハッシュ [全文訳有]

FDDH: Fast Discriminative Discrete Hashing for Large-Scale Cross-Modal Retrieval ( http://arxiv.org/abs/2105.07128v1 )

ライセンス: CC0 1.0
Xin Liu, Xingzhi Wang and Yiu-ming Cheung(参考訳) クロスモーダルハッシュは、その有効性と効率性に好まれ、様々なモダリティの効率的な検索を容易にするために広く注目を集めている。 しかしながら、既存の手法の多くは、ハッシュコードを学ぶ際に意味情報の識別能力を十分に活用していないが、大規模データセットを扱うための時間を要するトレーニング手順がしばしば含まれている。 これらの問題に対処するため, 意味データを直交回転させることで類似性保存ハッシュコードの学習を定式化し, ハムミング空間へのマッピングの量子化損失を最小限に抑えるとともに, 大規模クロスモーダル検索のための高速識別離散ハッシュ法(FDDH)を提案する。 より具体的には、fddhはトレーニング例のターゲットのハッシュコードを対応する意味ラベルに回帰させる直交基底を導入し、"-dragging technique"を使用して大きな意味マージンを提供する。 これにより、意味情報の判別能力を明示的に捉えて最大化することができる。 さらに、非線形埋め込みデータをセマンティック部分空間にマッピングする直交変換方式が提案され、データ特徴とセマンティック表現とのセマンティック一貫性を十分に保証することができる。 これにより、非常に計算効率のよい識別的ハッシュ符号学習のために効率的なクローズドフォーム解が導出される。 さらに、異なるトレーニングサイズとストリーミングデータへの適応性を特徴とする、モダリティ特有の投影関数を最適化するための、効果的で安定したオンライン学習戦略も提示する。 提案手法は理論的にバイリプシッツ連続性を近似し,十分に高速に動作し,最先端手法による検索性能を大幅に向上させる。 ソースコードはhttps://github.com/s tarxliu/fddh。

Cross-modal hashing, favored for its effectiveness and efficiency, has received wide attention to facilitating efficient retrieval across different modalities. Nevertheless, most existing methods do not sufficiently exploit the discriminative power of semantic information when learning the hash codes, while often involving time-consuming training procedure for handling the large-scale dataset. To tackle these issues, we formulate the learning of similarity-preservin g hash codes in terms of orthogonally rotating the semantic data so as to minimize the quantization loss of mapping such data to hamming space, and propose an efficient Fast Discriminative Discrete Hashing (FDDH) approach for large-scale cross-modal retrieval. More specifically, FDDH introduces an orthogonal basis to regress the targeted hash codes of training examples to their corresponding semantic labels, and utilizes "-dragging technique to provide provable large semantic margins. Accordingly, the discriminative power of semantic information can be explicitly captured and maximized. Moreover, an orthogonal transformation scheme is further proposed to map the nonlinear embedding data into the semantic subspace, which can well guarantee the semantic consistency between the data feature and its semantic representation. Consequently, an efficient closed form solution is derived for discriminative hash code learning, which is very computationally efficient. In addition, an effective and stable online learning strategy is presented for optimizing modality-specific projection functions, featuring adaptivity to different training sizes and streaming data. The proposed FDDH approach theoretically approximates the bi-Lipschitz continuity, runs sufficiently fast, and also significantly improves the retrieval performance over the state-of-the-art methods. The source code is released at: https://github.com/s tarxliu/FDDH.
翻訳日:2021-05-19 13:38:32 公開日:2021-05-15
# (参考訳) 正規化深層線形判別分析 [全文訳有]

Regularized Deep Linear Discriminant Analysis ( http://arxiv.org/abs/2105.07129v1 )

ライセンス: CC BY 4.0
Hongwei Chen and Wen Lu(参考訳) 古典線形判別分析(LDA)の非線形拡張として、Deep Linear Discriminant Analysis(DLDA)は、元のカテゴリ的クロスエントロピー(CCE)損失関数を固有値に基づく損失関数に置き換え、線形分離可能な隠れ表現を学習できるようにする。 本稿では,DLDAが潜在部分空間におけるすべての次元の協調的識別能力の育成に重点を置いているのに対し,単一次元の分離能力の育成に重点を置いている。 dldaを改善するために,各次元の判別能力を強化し,互いに補い合うようにクラス内散乱行列の正則化法を提案する。 STL-10, CIFAR-10, Pediatric Pneumonic Chest X-ray Dataset を用いた実験の結果, 本手法の正則化は, DLDAおよび従来のCCEを用いたニューラルネットワークよりも優れていた。 局所空間におけるRDLDAの識別能力をさらに向上するため,サブクラスRDLDAというアルゴリズムも提案されている。

As a non-linear extension of the classic Linear Discriminant Analysis(LDA), Deep Linear Discriminant Analysis(DLDA) replaces the original Categorical Cross Entropy(CCE) loss function with eigenvalue-based loss function to make a deep neural network(DNN) able to learn linearly separable hidden representations. In this paper, we first point out DLDA focuses on training the cooperative discriminative ability of all the dimensions in the latent subspace, while put less emphasis on training the separable capacity of single dimension. To improve DLDA, a regularization method on within-class scatter matrix is proposed to strengthen the discriminative ability of each dimension, and also keep them complement each other. Experiment results on STL-10, CIFAR-10 and Pediatric Pneumonic Chest X-ray Dataset showed that our proposed regularization method Regularized Deep Linear Discriminant Analysis(RDLDA) outperformed DLDA and conventional neural network with CCE as objective. To further improve the discriminative ability of RDLDA in the local space, an algorithm named Subclass RDLDA is also proposed.
翻訳日:2021-05-19 12:39:12 公開日:2021-05-15
# (参考訳) ひとつは、手ジェスチャー認識のためのエンドツーエンドのコンパクトなソリューション [全文訳有]

One for All: An End-to-End Compact Solution for Hand Gesture Recognition ( http://arxiv.org/abs/2105.07143v1 )

ライセンス: CC BY 4.0
Monu Verma, Ayushi Gupta, santosh kumar Vipparthi(参考訳) HGRは、照明のバリエーション、散らかった背景、自発的なキャプチャなど、様々な側面の影響を受けており、非常に難しいタスクです。 HGRの従来のCNNネットワークは、複雑な標識、照明のバリエーション、複雑な背景と散らかった背景といった様々な課題に対処する2つのステージパイプラインに従っている。 既存のアプローチでは、入力画像から複雑さを取り除くために、専門家の専門知識と、ステージ1での補助計算が必要である。 そこで,本稿では,上述の課題を解決するために,手指ジェスチャー認識(フィットハンド)のための細粒度特徴注意ネットワークという,新しいエンド・ツー・エンドのコンパクトcnnフレームワークを提案する。 提案されたアーキテクチャのパイプラインは、ファインフェイトモジュールと拡張畳み込み(convolutional, conv)層という2つの主要なユニットで構成されている。 FineFeatモジュールは、マルチスケールの受信フィールド上の注意機構を利用して、きめ細かい特徴マップを抽出する。 マルチスケール応答の平均挙動を増大させることにより,効果的な特徴を捉えるための注意機構が導入された。 さらに、拡張畳み込みは、より大きな受容領域を通して手の動きのグローバルな特徴を提供する。 また、FineFeatモジュールと拡張レイヤの機能を組み合わせることで、手姿勢の相補的コンテキスト情報をキャプチャすることで、ネットワークの識別性を高めることができる。 被検者依存型(SD)と被検者依存型(SI)を7つのベンチマークデータセット(MUGD-I,MUGD-II,MUGD -III,MUGD-IV,MUGD-V, Finger Spelling,OUHANDS)で評価した。 さらに,提案するフィットハンドフレームワークの深い知見を検討するため,10個のアブレーション実験を行った。

The HGR is a quite challenging task as its performance is influenced by various aspects such as illumination variations, cluttered backgrounds, spontaneous capture, etc. The conventional CNN networks for HGR are following two stage pipeline to deal with the various challenges: complex signs, illumination variations, complex and cluttered backgrounds. The existing approaches needs expert expertise as well as auxiliary computation at stage 1 to remove the complexities from the input images. Therefore, in this paper, we proposes an novel end-to-end compact CNN framework: fine grained feature attentive network for hand gesture recognition (Fit-Hand) to solve the challenges as discussed above. The pipeline of the proposed architecture consists of two main units: FineFeat module and dilated convolutional (Conv) layer. The FineFeat module extracts fine grained feature maps by employing attention mechanism over multiscale receptive fields. The attention mechanism is introduced to capture effective features by enlarging the average behaviour of multi-scale responses. Moreover, dilated convolution provides global features of hand gestures through a larger receptive field. In addition, integrated layer is also utilized to combine the features of FineFeat module and dilated layer which enhances the discriminability of the network by capturing complementary context information of hand postures. The effectiveness of Fit- Hand is evaluated by using subject dependent (SD) and subject independent (SI) validation setup over seven benchmark datasets: MUGD-I, MUGD-II, MUGD-III, MUGD-IV, MUGD-V, Finger Spelling and OUHANDS, respectively. Furthermore, to investigate the deep insights of the proposed Fit-Hand framework, we performed ten ablation study.
翻訳日:2021-05-19 12:26:03 公開日:2021-05-15
# (参考訳) 言語モデリングのための認知正規化器 [全文訳有]

A Cognitive Regularizer for Language Modeling ( http://arxiv.org/abs/2105.07144v1 )

ライセンス: CC BY 4.0
Jason Wei, Clara Meister, and Ryan Cotterell(参考訳) 均一情報密度(UID)仮説は、話者が信号全体にわたって情報を均一に分配する発話を好むことを示唆しており、特定の構文的、形態的、韻律的選択の説明として、精神言語学においてかなりの注目を集めている。 統計的言語モデルにおける帰納的バイアスとして一様情報密度を操作可能か? 本稿では,UIDを正規化として符号化することで,言語モデルの訓練のための標準的MLEの目的を拡大する。 5つの言語ファミリーにまたがる10の言語に関する実験では、uid正規化の使用が言語モデルのパープレキシティを一貫して改善し、トレーニングデータに制限がある場合に効果が大きいことが分かりました。 さらに, 生成シーケンスの解析により, UID正規化言語モデルの方がエントロピーが高く, より長く, より語彙的に多様なテキストを生成することがわかった。 この結果から, UID は言語モデリングにおいて合理的な帰納バイアスであるだけでなく, 現代の NLP ツールを用いた UID 仮説の代替的妥当性も示唆された。

The uniform information density (UID) hypothesis, which posits that speakers prefer utterances that distribute information uniformly across the signal, has gained substantial traction in psycholinguistics as an explanation for certain syntactic, morphological, and prosodic choices. Could we operationalize uniform information density as an inductive bias for statistical language modeling? In this paper, we augment the canonical MLE objective for training language models by encoding UID as regularization. In experiments on ten languages spanning five language families, we find that using UID regularization consistently improves perplexity in language models, having a larger effect when training data is limited. Moreover, via analysis of generated sequences, we find that UID-regularized language models are higher-entropy and produce text that is longer and more lexically diverse. Our results not only suggest that UID is a reasonable inductive bias for language modeling, but also provide an alternative validation of the UID hypothesis using modern-day NLP tools.
翻訳日:2021-05-19 11:11:44 公開日:2021-05-15
# (参考訳) リドネット:低線量ct用深層ニューラルネットワーク [全文訳有]

RIDnet: Radiologist-Inspired Deep Neural Network for Low-dose CT Denoising ( http://arxiv.org/abs/2105.07146v1 )

ライセンス: CC BY 4.0
Kecheng Chen, Jiayu Sun, Jiang Shen, Jixiang Luo, Xinyu Zhang, Xuelin Pan, Dongsheng Wu, Yue Zhao, Miguel Bento, Yazhou Ren and Xiaorong Pu(参考訳) 低レベルの放射線曝露と健康への有害性が低いため、肺がんやCOVID-19の早期スクリーニングにおいて低用量CT(LDCT)が広く採用されている。 LDCT画像は複雑なノイズによる劣化に必然的に悩まされる。 商業的反復的再構成法と比較して,畳み込みニューラルネットワーク(CNN)を用いた深層学習(DL)に基づくLDCT復調法が競争力を発揮することが報告された。 既存のDLベースの手法の多くは、CNNが抽出したローカル情報に重点を置いているが、明示的な非ローカル情報と文脈情報の両方を無視している(放射線学者が活用している)。 この問題に対処するために,LDCT画像を読み取る放射線技師のワークフローを模倣する,RIDnet(Radioologist -inspired Deep Denoising Network)という新しいディープラーニングモデルを提案する。 具体的には、提案モデルは、ローカル情報のみでなく、ローカル情報、非ローカル情報、コンテキスト情報をすべて明示的に統合する。 放射線科医にインスパイアされたモデルは、放射線科医に親しまれるワークフローとして好まれています。 一般臨床データに対する二重盲検者による研究によれば,提案手法は最新の手法と比較して,構造的忠実性,騒音抑制,総合スコアにおいて最も印象的な性能が得られる。 医師にインスパイアされたモデルとして、ridnetは臨床診断を支援する意思決定支援ツールを設計する際の医師の行動を考慮した新しい研究ロードマップを提供している。 モデルとコードはhttps://github.com/t onyckc/ridnet_demoで入手できる。

Being low-level radiation exposure and less harmful to health, low-dose computed tomography (LDCT) has been widely adopted in the early screening of lung cancer and COVID-19. LDCT images inevitably suffer from the degradation problem caused by complex noises. It was reported that, compared with commercial iterative reconstruction methods, deep learning (DL)-based LDCT denoising methods using convolutional neural network (CNN) achieved competitive performance. Most existing DL-based methods focus on the local information extracted by CNN, while ignoring both explicit non-local and context information (which are leveraged by radiologists). To address this issue, we propose a novel deep learning model named radiologist-inspired deep denoising network (RIDnet) to imitate the workflow of a radiologist reading LDCT images. Concretely, the proposed model explicitly integrates all the local, non-local and context information rather than local information only. Our radiologist-inspired model is potentially favoured by radiologists as a familiar workflow. A double-blind reader study on a public clinical dataset shows that, compared with state-of-the-art methods, our proposed model achieves the most impressive performance in terms of the structural fidelity, the noise suppression and the overall score. As a physicians-inspired model, RIDnet gives a new research roadmap that takes into account the behavior of physicians when designing decision support tools for assisting clinical diagnosis. Models and code are available at https://github.com/t onyckc/RIDnet_demo.
翻訳日:2021-05-19 10:56:37 公開日:2021-05-15
# (参考訳) 最も重要なデータを入力して情報ボトルネックのコークをドリルする [全文訳有]

Drill the Cork of Information Bottleneck by Inputting the Most Important Data ( http://arxiv.org/abs/2105.07181v1 )

ライセンス: CC BY 4.0
Xinyu Peng, Jiawei Zhang, Fei-Yue Wang and Li Li(参考訳) ディープラーニングは、過去10年間でもっとも強力な機械学習ツールになった。 しかし、ディープニューラルネットワークを効率的にトレーニングする方法は、まだ完全に解決されていない。 広範に用いられているミニバッチ確率勾配勾配(SGD)を加速する必要がある。 ミニバッチSGDの学習力学をよりよく理解するための有望なツールとして、情報ボトルネック(IB)理論は、最適化プロセスは初期適合相と次の圧縮相からなると主張している。 この原理に基づき、効率的なデータ選択手法である典型的サンプリングをさらに研究し、深層ネットワークのトレーニングプロセスをいかに加速するかの新たな説明を提案する。 IB理論で表される嵌合相は、典型的サンプリングが適切に適用されれば、勾配近似の信号対雑音比が高くなることを示す。 さらに、この発見は、トレーニングセットの事前情報が最適化プロセスにとって重要であり、最も重要なデータの利用がより良くなれば、ボトルネックを高速に流れる情報の流れがより良くなります。 合成データと実世界のデータセットに関する理論的解析と実験結果の両方が結論を示している。

Deep learning has become the most powerful machine learning tool in the last decade. However, how to efficiently train deep neural networks remains to be thoroughly solved. The widely used minibatch stochastic gradient descent (SGD) still needs to be accelerated. As a promising tool to better understand the learning dynamic of minibatch SGD, the information bottleneck (IB) theory claims that the optimization process consists of an initial fitting phase and the following compression phase. Based on this principle, we further study typicality sampling, an efficient data selection method, and propose a new explanation of how it helps accelerate the training process of the deep networks. We show that the fitting phase depicted in the IB theory will be boosted with a high signal-to-noise ratio of gradient approximation if the typicality sampling is appropriately adopted. Furthermore, this finding also implies that the prior information of the training set is critical to the optimization process and the better use of the most important data can help the information flow through the bottleneck faster. Both theoretical analysis and experimental results on synthetic and real-world datasets demonstrate our conclusions.
翻訳日:2021-05-19 10:37:21 公開日:2021-05-15
# (参考訳) 看護におけるコンテンツ分析応用:合成知識合成メタスタディ [全文訳有]

Content Analysis Application in Nursing: A Synthetic Knowledge Synthesis Meta-Study ( http://arxiv.org/abs/2105.07189v1 )

ライセンス: CC BY 4.0
Helena Bla\v{z}un Vo\v{s}ner, Peter Kokol, Jernej Zavr\v{s}nik, Danica \v{Z}eleznik(参考訳) 理論的問題:研究文献の爆発的な成長に伴い、構造知識に対する新しいアプローチの必要性が現れた。 Method: Synthetic Content Analysis was used in our meta-study。 結果と考察: 私たちのメタスタディは, 看護研究において, 幅広い応用分野において, コンテンツ分析が頻繁に用いられることを示した。 その利用傾向は肯定的であり、様々な研究環境で世界中で利用されている。 本研究で使用した合成コンテンツ分析は,従来の合成の日常的な活動の多くを自動化活動に置き換えることで,より経済的に実現し,より容易に行うことができることを示す。

Theoretical issues: With the explosive growth in the research literature production, the need for new approaches to structure knowledge emerged. Method: Synthetic content analysis was used in our meta-study. Results and discussion: Our meta-study showed that content analysis is frequently used in nursing research in a very wide spectrum of applications. The trend of its use is positive and it is used globally in a variety of research settings. The synthetic content analysis used in our study showed to be a very helpful tool in performing knowledge synthesis, replacing many of the routine activities of conventional synthesis with automated activities this making such studies more economically viable and easier to perform.
翻訳日:2021-05-19 10:21:52 公開日:2021-05-15
# (参考訳) XAIメソッドの特性:A(Meta-)スタディ

XAI Method Properties: A (Meta-)study ( http://arxiv.org/abs/2105.07190v1 )

ライセンス: CC BY 4.0
Gesina Schwalbe, Bettina Finzel(参考訳) その間、説明可能な人工知能(xai)の研究の範囲内で、さまざまな用語、動機、アプローチ、評価基準が開発されてきた。 多くの分類群は文学で見ることができ、それぞれ異なる焦点を持つが、重複点も多様である。 本稿では,XAIにおける最先端技術の重要性を明らかにするため,メタアナリシスにおける最も引用された,現在の分類学を要約する。 また、このトピックに関する数多くの調査記事のコンセプトだけでなく、用語も提示し、追加しています。 最後に,50以上の手法を用いて,上位分類の概念を概説し,XAIの側面を概観し,事例に適した利用方法と,それに続く文脈に特有な研究の展開を図っている。

In the meantime, a wide variety of terminologies, motivations, approaches and evaluation criteria have been developed within the scope of research on explainable artificial intelligence (XAI). Many taxonomies can be found in the literature, each with a different focus, but also showing many points of overlap. In this paper, we summarize the most cited and current taxonomies in a meta-analysis in order to highlight the essential aspects of the state-of-the-art in XAI. We also present and add terminologies as well as concepts from a large number of survey articles on the topic. Last but not least, we illustrate concepts from the higher-level taxonomy with more than 50 example methods, which we categorize accordingly, thus providing a wide-ranging overview of aspects of XAI and paving the way for use case-appropriate as well as context-specific subsequent research.
翻訳日:2021-05-19 10:17:23 公開日:2021-05-15
# (参考訳) 二足歩行ロボットを模倣する方法を学ぶ [全文訳有]

Make Bipedal Robots Learn How to Imitate ( http://arxiv.org/abs/2105.07193v1 )

ライセンス: CC BY 4.0
Vishal Kumar and Sinnu Susan Thomas(参考訳) 二足歩行ロボットは、人間のように歩くことを学ばないので、人間に劣る。 本稿では,インストラクタが動作し,ロボットがインストラクタの動きを模倣しようとする模倣学習(il)の助けを借りて,二足歩行ロボットの基本的な動作を訓練する手法を提案する。 私たちの知る限りでは、ロボットがインストラクターの1つのビデオで動きを訓練するのはこれが初めてであり、訓練が関節角度に基づいて行われるため、ロボットは関節角度を常に物理的限界に保ち、より高速なトレーニングに役立てることができる。 ロボットの関節はOpenPoseアーキテクチャで識別され、次いで3点間の角度の助けを借りて関節角データを抽出し、ノイズのある解を得る。 savitzky-golayフィルタを用いてデータをスムースにし,シミュレータデータ解剖を保存した。 巧みに書かれたディープqネットワーク(dqn)をexperience replayで訓練して、ロボットがインストラクターと同じように動きを学ばせるようにする。 論文の実装は公開されています。

Bipedal robots do not perform well as humans since they do not learn to walk like we do. In this paper we propose a method to train a bipedal robot to perform some basic movements with the help of imitation learning (IL) in which an instructor will perform the movement and the robot will try to mimic the instructor movement. To the best of our knowledge, this is the first time we train the robot to perform movements with a single video of the instructor and as the training is done based on joint angles the robot will keep its joint angles always in physical limits which in return help in faster training. The joints of the robot are identified by OpenPose architecture and then joint angle data is extracted with the help of angle between three points resulting in a noisy solution. We smooth the data using Savitzky-Golay filter and preserve the Simulatore data anatomy. An ingeniously written Deep Q Network (DQN) is trained with experience replay to make the robot learn to perform the movements as similar as the instructor. The implementation of the paper is made publicly available.
翻訳日:2021-05-19 10:16:25 公開日:2021-05-15
# (参考訳) 新しい回路モデルと人工ニューラルネットワークを用いた複合ボルト継手の均等負荷分配設計 [全文訳有]

An even-load-distributi on design for composite bolted joints using a novel circuit model and artificial neural networks ( http://arxiv.org/abs/2105.07194v1 )

ライセンス: CC BY 4.0
Cheng Qiu, Yuzi Han, Logesh Shanmugam, Fengyang Jiang, Zhidong Guan, Shanyi Du, Jinglei Yang(参考訳) 炭素繊維強化プラスチック積層板の脆性のため, これらの複合材料中のメカニカル多関節は各ボルトに不均一な荷重分布を示し, 複合積層板の強度優位性を弱めている。 この欠陥を低減し,機械的関節における荷重分布の目標を達成するために,機械学習に基づくフレームワークを最適化手法として提案する。 摩擦効果がボルト荷重分布の決定に重要な要因であることが証明されたので,本フレームワークは,ボルト荷重の最小不均一性に対するボルトホールクリアランスや締め付けトルクなどの最適パラメータの提供を目的としている。 比較的低コストで人工ネットワークのトレーニングのためのデータサンプルを生成するために,新しい回路モデルを構築した。 設計空間におけるすべての入力が可能なデータベースは、機械学習モデルによって構築される。 データベースが提供するクリアランスとトルクの最適なデータセットは、有限要素法、回路モデル、および線形重ね合わせ原理に基づく実験測定の両方によって検証され、この最適化問題に対する一般的な枠組みの有効性を示す。 そして, 機械学習モデルをさらに比較し, 一般的な最適化アルゴリズムとの協調により, 逆設計問題に対する計算効率が大幅に向上する可能性を示す。

Due to the brittle feature of carbon fiber reinforced plastic laminates, mechanical multi-joint within these composite components show uneven load distribution for each bolt, which weaken the strength advantage of composite laminates. In order to reduce this defect and achieve the goal of even load distribution in mechanical joints, we propose a machine learning-based framework as an optimization method. Since that the friction effect has been proven to be a significant factor in determining bolt load distribution, our framework aims at providing optimal parameters including bolt-hole clearances and tightening torques for a minimum unevenness of bolt load. A novel circuit model is established to generate data samples for the training of artificial networks at a relatively low computational cost. A database for all the possible inputs in the design space is built through the machine learning model. The optimal dataset of clearances and torques provided by the database is validated by both the finite element method, circuit model, and an experimental measurement based on the linear superposition principle, which shows the effectiveness of this general framework for the optimization problem. Then, our machine learning model is further compared and worked in collaboration with commonly used optimization algorithms, which shows the potential of greatly increasing computational efficiency for the inverse design problem.
翻訳日:2021-05-19 10:03:05 公開日:2021-05-15
# (参考訳) 畳み込みニューラルネットワークやトランスフォーマーは人間のビジョンに近いか? [全文訳有]

Are Convolutional Neural Networks or Transformers more like human vision? ( http://arxiv.org/abs/2105.07197v1 )

ライセンス: CC BY 4.0
Shikhar Tuli, Ishita Dasgupta, Erin Grant, Thomas L. Griffiths(参考訳) 現代のコンピュータビジョンの機械学習モデルは、特定の視覚認識タスク、特にimagenetのようなデータセットの精度で人間を超越している。 しかし、多くの点で高い精度が達成できる。 機械学習システムによって見出される特定の決定関数は、システムが露出するデータだけでなく、典型的には特徴付けが難しいモデルの帰納バイアスによって決定される。 本研究では,誤差のパターンに着目した評価指標として精度を超越したニューラルネットワークモデルの深い行動解析の最近の動向について述べる。 我々は,cnnの翻訳不変性制約を緩和し,帰納バイアスの弱いモデルを表現する標準畳み込みニューラルネットワーク(cnns)と最近発表された注意に基づくネットワークであるvision transformer(vit)を比較した。 注意に基づくネットワークは、これまで、視覚タスクにおけるCNNよりも高い精度を達成することが示されており、より粒度の細かいエラー整合性を調べるために、新しいメトリクスを用いて、エラーが人間のものとより整合していることを示す。 これらの結果は、人間の視覚モデルの構築だけでなく、人間の視覚的物体認識の理解にも影響を及ぼす。

Modern machine learning models for computer vision exceed humans in accuracy on specific visual recognition tasks, notably on datasets like ImageNet. However, high accuracy can be achieved in many ways. The particular decision function found by a machine learning system is determined not only by the data to which the system is exposed, but also the inductive biases of the model, which are typically harder to characterize. In this work, we follow a recent trend of in-depth behavioral analyses of neural network models that go beyond accuracy as an evaluation metric by looking at patterns of errors. Our focus is on comparing a suite of standard Convolutional Neural Networks (CNNs) and a recently-proposed attention-based network, the Vision Transformer (ViT), which relaxes the translation-invarian ce constraint of CNNs and therefore represents a model with a weaker set of inductive biases. Attention-based networks have previously been shown to achieve higher accuracy than CNNs on vision tasks, and we demonstrate, using new metrics for examining error consistency with more granularity, that their errors are also more consistent with those of humans. These results have implications both for building more human-like vision models, as well as for understanding visual object recognition in humans.
翻訳日:2021-05-19 09:49:04 公開日:2021-05-15
# (参考訳) 変圧器とResNetの層正規化によるスキップ接続再考 [全文訳有]

Rethinking Skip Connection with Layer Normalization in Transformers and ResNets ( http://arxiv.org/abs/2105.07205v1 )

ライセンス: CC BY 4.0
Fenglin Liu, Xuancheng Ren, Zhiyuan Zhang, Xu Sun, Yuexian Zou(参考訳) スキップ接続は、ディープニューラルネットワークの性能と収束を改善するために広く使われている手法であり、ニューラルネットワーク層を通じて線形成分を伝播することにより、非線形性による最適化の難しさを緩和すると考えられている。 しかし、別の観点からは、入力と出力の間の変調機構として見ることができ、入力は事前に定義された値によってスケールされる。 本研究は,スキップ接続の有効性におけるスケール要因について検討し,スケールの微調整が,モデルの深さと一致して散発的な勾配の爆発や消失を招き,特に平滑なスキップ接続に対して一貫した改善をもたらすような正規化,層正規化によって対処できることを明らかにした。 この結果に触発されて我々はさらに,スキップ接続とレイヤ正規化を反復的に適用することにより,入力のスケールを適応的に調整する手法を提案する。

Skip connection, is a widely-used technique to improve the performance and the convergence of deep neural networks, which is believed to relieve the difficulty in optimization due to non-linearity by propagating a linear component through the neural network layers. However, from another point of view, it can also be seen as a modulating mechanism between the input and the output, with the input scaled by a pre-defined value one. In this work, we investigate how the scale factors in the effectiveness of the skip connection and reveal that a trivial adjustment of the scale will lead to spurious gradient exploding or vanishing in line with the deepness of the models, which could be addressed by normalization, in particular, layer normalization, which induces consistent improvements over the plain skip connection. Inspired by the findings, we further propose to adaptively adjust the scale of the input by recursively applying skip connection with layer normalization, which promotes the performance substantially and generalizes well across diverse tasks including both machine translation and image classification datasets.
翻訳日:2021-05-19 09:37:46 公開日:2021-05-15
# (参考訳) 両レベルプログラミングによる分子変換生成のためのエンドツーエンドフレームワーク [全文訳有]

An End-to-End Framework for Molecular Conformation Generation via Bilevel Programming ( http://arxiv.org/abs/2105.07246v1 )

ライセンス: CC BY 4.0
Minkai Xu, Wujie Wang, Shitong Luo, Chence Shi, Yoshua Bengio, Rafael Gomez-Bombarelli, Jian Tang(参考訳) 分子グラフから分子コンフォメーション(または3d構造)を予測することは、多くの応用において根本的な問題である。 ほとんどの既存のアプローチは、まず原子間の距離を予測し、それから距離幾何問題を最適化して3d構造を生成することで、通常2つのステップに分けられる。 しかし、これらの2段階のアプローチで予測される距離は、局所原子近傍の幾何学を一貫して保存することはできず、生成した構造が満足できない。 本稿では,条件付き変分オートエンコーダフレームワークに基づくConfVAEと呼ばれる分子配座予測のためのエンドツーエンドソリューションを提案する。 具体的には、まず分子グラフを潜時空間に符号化し、3次元構造は原理化された二段階最適化プログラムを解くことによって生成される。 いくつかのベンチマークデータセットに対する大規模な実験により、既存の最先端アプローチに対する提案手法の有効性が証明された。

Predicting molecular conformations (or 3D structures) from molecular graphs is a fundamental problem in many applications. Most existing approaches are usually divided into two steps by first predicting the distances between atoms and then generating a 3D structure through optimizing a distance geometry problem. However, the distances predicted with such two-stage approaches may not be able to consistently preserve the geometry of local atomic neighborhoods, making the generated structures unsatisfying. In this paper, we propose an end-to-end solution for molecular conformation prediction called ConfVAE based on the conditional variational autoencoder framework. Specifically, the molecular graph is first encoded in a latent space, and then the 3D structures are generated by solving a principled bilevel optimization program. Extensive experiments on several benchmark data sets prove the effectiveness of our proposed approach over existing state-of-the-art approaches.
翻訳日:2021-05-19 09:18:11 公開日:2021-05-15
# (参考訳) グラフ学習のための神経木 [全文訳有]

Neural Trees for Learning on Graphs ( http://arxiv.org/abs/2105.07264v1 )

ライセンス: CC BY 4.0
Rajat Talak, Siyi Hu, Lisa Peng, and Luca Carlone(参考訳) グラフニューラルネットワーク(GNN)は、グラフを学習するための柔軟で強力なアプローチとして登場した。 この成功にもかかわらず、既存のGNNはローカルなメッセージパッシングアーキテクチャによって制約されており、表現力は確実に制限されている。 本稿ではニューラルツリーという新しいGNNアーキテクチャを提案する。 ニューラルツリーアーキテクチャは、入力グラフでメッセージパッシングを行うのではなく、入力グラフから構築されたH木と呼ばれる木構造グラフでメッセージパッシングを行う。 h-ツリー内のノードは入力グラフのサブグラフに対応し、h-ツリー内のノードの親ノードが常に入力グラフのより大きなサブグラフに対応するように階層的に再構成される。 ニューラルツリーアーキテクチャは、無向グラフ上の任意の滑らかな確率分布関数を近似し、またジャンクションツリーアルゴリズムをエミュレートできることを示す。 また、分布関数の$\epsilon$-approxima tionを達成するために必要なパラメータの数は、入力グラフのツリー幅において指数関数であるが、そのサイズは線型であることを示す。 ニューラルツリーを3次元シーングラフの半教師付きノード分類に適用し、これらの理論的性質が従来のGNNアーキテクチャよりも精度の高い精度に変換されることを示す。

Graph Neural Networks (GNNs) have emerged as a flexible and powerful approach for learning over graphs. Despite this success, existing GNNs are constrained by their local message-passing architecture and are provably limited in their expressive power. In this work, we propose a new GNN architecture -- the Neural Tree. The neural tree architecture does not perform message passing on the input graph but on a tree-structured graph, called the H-tree, that is constructed from the input graph. Nodes in the H-tree correspond to subgraphs in the input graph, and they are reorganized in a hierarchical manner such that a parent-node of a node in the H-tree always corresponds to a larger subgraph in the input graph. We show that the neural tree architecture can approximate any smooth probability distribution function over an undirected graph, as well as emulate the junction tree algorithm. We also prove that the number of parameters needed to achieve an $\epsilon$-approxima tion of the distribution function is exponential in the treewidth of the input graph, but linear in its size. We apply the neural tree to semi-supervised node classification in 3D scene graphs, and show that these theoretical properties translate into significant gains in prediction accuracy, over the more traditional GNN architectures.
翻訳日:2021-05-19 08:56:38 公開日:2021-05-15
# (参考訳) 自己監督型学習における平均シフト [全文訳有]

Mean Shift for Self-Supervised Learning ( http://arxiv.org/abs/2105.07269v1 )

ライセンス: CC BY 4.0
Soroush Abbasi Koohpayegani, Ajinkya Tejankar, and Hamed Pirsiavash(参考訳) 最近の自己教師付き学習(SSL)アルゴリズムは、イメージのインスタンス間でのコントラスト、あるいはイメージクラスタ間のコントラストによって、機能を学ぶ。 本稿では,画像間の対比やクラスタ構造への事前適用をせずに,画像のグループ化によって表現を学習する単純な平均シフトアルゴリズムを提案する。 私たちは、各画像の埋め込みを、隣人の「平均」に近いように単に「シフト」します。 我々の設定では、最も近い隣人は、常に同じ画像の別の増大であるので、実験で使用される5ではなく1つの隣人を使う場合、我々のモデルはBYOLと同一である。 BYOLより200EpochsでのResNet50による画像ネット線形評価では72.4%の精度を実現した。 私たちのコードはここで入手できる。 https://github.com/u mbcvision/msf

Most recent self-supervised learning (SSL) algorithms learn features by contrasting between instances of images or by clustering the images and then contrasting between the image clusters. We introduce a simple mean-shift algorithm that learns representations by grouping images together without contrasting between them or adopting much of prior on the structure of the clusters. We simply "shift" the embedding of each image to be close to the "mean" of its neighbors. Since in our setting, the closest neighbor is always another augmentation of the same image, our model will be identical to BYOL when using only one nearest neighbor instead of 5 as used in our experiments. Our model achieves 72.4% on ImageNet linear evaluation with ResNet50 at 200 epochs outperforming BYOL. Our code is available here: https://github.com/U MBCvision/MSF
翻訳日:2021-05-19 08:23:17 公開日:2021-05-15
# (参考訳) 生成モデルにおける意味多様体のマスクガイドによる発見 [全文訳有]

Mask-Guided Discovery of Semantic Manifolds in Generative Models ( http://arxiv.org/abs/2105.07273v1 )

ライセンス: CC BY 4.0
Mengyu Yang, David Rokeby, Xavier Snelgrove(参考訳) GAN(Generative Adversarial Networks)の領域の進歩は、より低次元の潜在空間におけるランダムなベクトルから人間の顔の画像を生成する、スタイルGAN2のような驚くほどリアルなイメージを生成できるアーキテクチャへと繋がった。 残念ながら、この空間は絡み合っており、その軸に沿って潜伏ベクトルを変換することは、出力空間(例えば、笑顔の口、目を細くするなど)における有意義な変換とは一致しない。 モデルはブラックボックスとして動作し、出力の制御も、データから学んだ構造についての洞察も提供しない。 顔の空間的局所化領域の変化の多様体を探索する手法を提案する。 本手法は,これらの多様体に沿った潜伏ベクトル列のスムーズな変化をアニメーション作成に好適に発見する。 ラベル付きデータや内部モデルパラメータを明示的に変更する既存のアンタングルメント手法とは異なり、この手法はカスタム損失関数と手動で定義された変更領域によって導かれる最適化ベースのアプローチである。 私たちのコードはオープンソースで、補完的な結果とともに、プロジェクトページにある。 https://github.com/b molab/masked-gan-man ifold.com/

Advances in the realm of Generative Adversarial Networks (GANs) have led to architectures capable of producing amazingly realistic images such as StyleGAN2, which, when trained on the FFHQ dataset, generates images of human faces from random vectors in a lower-dimensional latent space. Unfortunately, this space is entangled - translating a latent vector along its axes does not correspond to a meaningful transformation in the output space (e.g., smiling mouth, squinting eyes). The model behaves as a black box, providing neither control over its output nor insight into the structures it has learned from the data. We present a method to explore the manifolds of changes of spatially localized regions of the face. Our method discovers smoothly varying sequences of latent vectors along these manifolds suitable for creating animations. Unlike existing disentanglement methods that either require labelled data or explicitly alter internal model parameters, our method is an optimization-based approach guided by a custom loss function and manually defined region of change. Our code is open-sourced, which can be found, along with supplementary results, on our project page: https://github.com/b molab/masked-gan-man ifold
翻訳日:2021-05-19 08:09:51 公開日:2021-05-15
# (参考訳) AIと計算神経科学のための動的知能の脳基盤 [全文訳有]

A brain basis of dynamical intelligence for AI and computational neuroscience ( http://arxiv.org/abs/2105.07284v1 )

ライセンス: CC BY 4.0
Joseph D. Monaco, Kanaka Rajan, Grace M. Hwang(参考訳) 現代の人工知能(AI)の深いニューラルネットは、抽象化、因果学習、エネルギー効率など、生物学的知性の定義的な特徴を達成できていない。 より大きなモデルへのスケーリングは、現在のアプリケーションの性能改善をもたらしたが、より脳的な能力は、新しい理論、モデル、そして機械学習システムを設計するための方法を必要とする可能性がある。 ここでは、脳からの洞察を再評価するこの機会は、ai研究と理論駆動計算神経科学(cn)の協力を促進するべきであると論じる。 神経計算の脳基盤を動機づけるために、我々は、ネットワーク構造、時間力学、対話的学習における空間性の概念を精査したインテリジェンスの動的視点を示す。 特に,神経同期,ネスト振動,フレキシブルシーケンスによって表現される時間ダイナミクスは,長期記憶ネットワークに分散した階層モデルを読み取って更新するためのリッチな計算層を提供することが示唆された。 さらに、AIとCNにエージェント中心のパラダイムを導入することで、有用な世界モデルを構築する複雑なダイナミクスや振る舞いの理解が加速します。 AI/CN理論と目的の収束は、脳と工学的な学習システムに対する知性の動的な原則を明らかにする。 本稿は,第6回US/NIH BRAIN Initiative Investigators Meetingにおける動的神経科学と機械学習に関するシンポジウムに触発されたものです。

The deep neural nets of modern artificial intelligence (AI) have not achieved defining features of biological intelligence, including abstraction, causal learning, and energy-efficiency. While scaling to larger models has delivered performance improvements for current applications, more brain-like capacities may demand new theories, models, and methods for designing artificial learning systems. Here, we argue that this opportunity to reassess insights from the brain should stimulate cooperation between AI research and theory-driven computational neuroscience (CN). To motivate a brain basis of neural computation, we present a dynamical view of intelligence from which we elaborate concepts of sparsity in network structure, temporal dynamics, and interactive learning. In particular, we suggest that temporal dynamics, as expressed through neural synchrony, nested oscillations, and flexible sequences, provide a rich computational layer for reading and updating hierarchical models distributed in long-term memory networks. Moreover, embracing agent-centered paradigms in AI and CN will accelerate our understanding of the complex dynamics and behaviors that build useful world models. A convergence of AI/CN theories and objectives will reveal dynamical principles of intelligence for brains and engineered learning systems. This article was inspired by our symposium on dynamical neuroscience and machine learning at the 6th Annual US/NIH BRAIN Initiative Investigators Meeting.
翻訳日:2021-05-19 08:04:57 公開日:2021-05-15
# アカウントリンクのための深層的学習手法

A Deep Metric Learning Approach to Account Linking ( http://arxiv.org/abs/2105.07263v1 )

ライセンス: Link先を確認
Aleem Khan, Elizabeth Fleming, Noah Schofield, Marcus Bishop, Nicholas Andrews(参考訳) 我々は,同一著者に属するソーシャルメディアアカウントを,対応する文書ストリームの内容とメタデータに基づいて自動でリンクするタスクについて検討する。 私たちは、単一の投稿から数ヶ月にわたるユーザアクティビティの可変サイズのサンプルを、同じ著者によるサンプルを近くのポイントにマップするベクトル空間にマッピングする埋め込みを学習することに重点を置いています。 このアプローチでは、トレーニングのために人間の注釈データを必要としないため、大量のソーシャルメディアコンテンツを活用できます。 提案モデルは、他の領域における確立された認識ベンチマークをモデルとした新しい評価フレームワークの下で、いくつかの競合ベースラインを上回る。 提案手法は, 学習時間に見られないアカウントのサンプルが小さい場合でも高いリンク精度を実現し, 提案手法の実用的適用の前提条件となる。

We consider the task of linking social media accounts that belong to the same author in an automated fashion on the basis of the content and metadata of their corresponding document streams. We focus on learning an embedding that maps variable-sized samples of user activity -- ranging from single posts to entire months of activity -- to a vector space, where samples by the same author map to nearby points. The approach does not require human-annotated data for training purposes, which allows us to leverage large amounts of social media content. The proposed model outperforms several competitive baselines under a novel evaluation framework modeled after established recognition benchmarks in other domains. Our method achieves high linking accuracy, even with small samples from accounts not seen at training time, a prerequisite for practical applications of the proposed linking framework.
翻訳日:2021-05-18 15:11:52 公開日:2021-05-15
# 文法変化の文脈における注釈の不確かさ

Annotation Uncertainty in the Context of Grammatical Change ( http://arxiv.org/abs/2105.07270v1 )

ライセンス: Link先を確認
Marie-Luis Merten, Marcel Wever, Michaela Geierhos, Doris Tophinke, Eyke H\"ullermeier(参考訳) 本稿では,大文字コーパスにおけるアノテーションの文脈における不確実性の概念について詳述する。 このような不確実性は言語の固有の性質、例えば言語の曖昧さと重複する言語記述のカテゴリーに起因する可能性があるが、アノテーションの専門知識の欠如によっても引き起こされる可能性がある。 アノテーションの不確実性をより詳細に調べ,その情報源を特定し,日々のアノテーション実践で遭遇するさまざまな不確実性や自然の理解を深める。 また, 理論的知見の実用的意義についても考察した。 最後に、この記事は、コーパスプロジェクト、言語学、コンピュータ科学に関わる主要な科学分野の視点を整理し、統一された視点を発達させ、これらの分野間の潜在的な相乗効果を強調する試みと見なすことができる。

This paper elaborates on the notion of uncertainty in the context of annotation in large text corpora, specifically focusing on (but not limited to) historical languages. Such uncertainty might be due to inherent properties of the language, for example, linguistic ambiguity and overlapping categories of linguistic description, but could also be caused by lacking annotation expertise. By examining annotation uncertainty in more detail, we identify the sources and deepen our understanding of the nature and different types of uncertainty encountered in daily annotation practice. Moreover, some practical implications of our theoretical findings are also discussed. Last but not least, this article can be seen as an attempt to reconcile the perspectives of the main scientific disciplines involved in corpus projects, linguistics and computer science, to develop a unified view and to highlight the potential synergies between these disciplines.
翻訳日:2021-05-18 15:09:31 公開日:2021-05-15
# 単一画像からの高速ボケ効果レンダリングのための階層型マルチスケール階層ネットワーク

Stacked Deep Multi-Scale Hierarchical Network for Fast Bokeh Effect Rendering from a Single Image ( http://arxiv.org/abs/2105.07174v1 )

ライセンス: Link先を確認
Saikat Dutta, Sourya Dipta Das, Nisarg A. Shah, Anil Kumar Tiwari(参考訳) ボケ効果(bokeh effect)は、芸術的および美的写真のレンダリングにおいて、最も望ましい効果の一つである。 通常、この効果を得るためには、異なる開口とシャッター設定と特定の撮影スキルを備えたDSLRカメラが必要である。 スマートフォンでは、物理レンズやセンサーの制限を克服し、そのような効果を達成するために計算方法と追加のセンサーが使用される。 既存の手法の多くは、シーンの奥行きを詳細に推定するために追加のセンサーのデータまたは事前訓練ネットワークを使用し、時にはポートレートセグメンテーション事前訓練ネットワークモジュールを使用して画像中の有能なオブジェクトを分割する。 これらの理由から、ネットワークには多くのパラメータがあり、ランタイム集約化され、ミッドレンジデバイスでは実行できない。 本稿では,モノクロカメラから撮影した画像のボケ効果の直接レンダリングに,エンドツーエンドのDeep Multi-Scale Hierarchical Network (DMSHN) モデルを用いた。 このような効果の知覚的品質をさらに向上するために、2つのdmshnモジュールからなる積み重ねモデルも提案されている。 我々のモデルは単眼深度推定や残差検出のために事前訓練されたネットワークモジュールに頼らず、モデルのサイズと実行時間を著しく削減する。 積み重ねDMSHNは、大規模EMB! HD品質画像の処理における現在の最先端モデルと比較して、実行時のデータセットは約6倍少ない。

The Bokeh Effect is one of the most desirable effects in photography for rendering artistic and aesthetic photos. Usually, it requires a DSLR camera with different aperture and shutter settings and certain photography skills to generate this effect. In smartphones, computational methods and additional sensors are used to overcome the physical lens and sensor limitations to achieve such effect. Most of the existing methods utilized additional sensor's data or pretrained network for fine depth estimation of the scene and sometimes use portrait segmentation pretrained network module to segment salient objects in the image. Because of these reasons, networks have many parameters, become runtime intensive and unable to run in mid-range devices. In this paper, we used an end-to-end Deep Multi-Scale Hierarchical Network (DMSHN) model for direct Bokeh effect rendering of images captured from the monocular camera. To further improve the perceptual quality of such effect, a stacked model consisting of two DMSHN modules is also proposed. Our model does not rely on any pretrained network module for Monocular Depth Estimation or Saliency Detection, thus significantly reducing the size of model and run time. Stacked DMSHN achieves state-of-the-art results on a large scale EBB! dataset with around 6x less runtime compared to the current state-of-the-art model in processing HD quality images.
翻訳日:2021-05-18 15:08:42 公開日:2021-05-15
# AgeFlow: 正規化フローによる条件付き年齢の進行と回帰

AgeFlow: Conditional Age Progression and Regression with Normalizing Flows ( http://arxiv.org/abs/2105.07239v1 )

ライセンス: Link先を確認
Zhizhong Huang, Shouzhen Chen, Junping Zhang, Hongming Shan(参考訳) 年齢進行と回帰は, 顔画像の光リアリスティックな外観と老化効果, 再生効果をそれぞれ合成することを目的としている。 既存のgans(generative adversarial network)ベースの手法は,1)生成した顔に強いゴーストアーティファクトを導入する不安定なトレーニング,2)性別や人種などの予期せぬ顔属性の変化につながる非ペアトレーニング,3)顔変換の不確実性を高める非単射年齢マッピング,の3つの大きな問題に苦しむ。 これらの問題を克服するために,フローベースモデルとGANの両方の利点を統合する新しいフレームワークである AgeFlow を提案する。 提案したAgeFlowは、3つの部分から構成される: 与えられた顔を非可逆ニューラルネットワークを介して潜伏空間にマッピングするエンコーダ、ソース潜伏ベクトルを目標に翻訳する新しい非可逆条件翻訳モジュール(ICTM)、同じエンコーダネットワークを用いてターゲット潜伏ベクトルから生成された顔を再構成するデコーダ。 ICTMの新規性は2倍である。 まず, 顔属性の予期せぬ変化を軽減しつつ, 年齢変化の操作方向を学習するための属性認識型知識蒸留法を提案する。 第二に、画像領域における従来のganの使用よりもはるかに簡単で、学習された潜在ベクトルが実ベクトルと区別できないことを保証するために、潜在空間でのganの使用を提案する。 実験により、2つのベンチマークデータセット上での既存のGAN法よりも優れた性能を示した。 ソースコードはhttps://github.com/h zzone/ageflowで入手できる。

Age progression and regression aim to synthesize photorealistic appearance of a given face image with aging and rejuvenation effects, respectively. Existing generative adversarial networks (GANs) based methods suffer from the following three major issues: 1) unstable training introducing strong ghost artifacts in the generated faces, 2) unpaired training leading to unexpected changes in facial attributes such as genders and races, and 3) non-bijective age mappings increasing the uncertainty in the face transformation. To overcome these issues, this paper proposes a novel framework, termed AgeFlow, to integrate the advantages of both flow-based models and GANs. The proposed AgeFlow contains three parts: an encoder that maps a given face to a latent space through an invertible neural network, a novel invertible conditional translation module (ICTM) that translates the source latent vector to target one, and a decoder that reconstructs the generated face from the target latent vector using the same encoder network; all parts are invertible achieving bijective age mappings. The novelties of ICTM are two-fold. First, we propose an attribute-aware knowledge distillation to learn the manipulation direction of age progression while keeping other unrelated attributes unchanged, alleviating unexpected changes in facial attributes. Second, we propose to use GANs in the latent space to ensure the learned latent vector indistinguishable from the real ones, which is much easier than traditional use of GANs in the image domain. Experimental results demonstrate superior performance over existing GANs-based methods on two benchmarked datasets. The source code is available at https://github.com/H zzone/AgeFlow.
翻訳日:2021-05-18 15:08:21 公開日:2021-05-15
# ポーズ推定のための複合位置推定

Composite Localization for Human Pose Estimation ( http://arxiv.org/abs/2105.07245v1 )

ライセンス: Link先を確認
ZiFan Chen, Xin Qin, Chao Yang, Li Zhang(参考訳) 既存の人間のポーズ推定手法は、複雑な学習目的のために不正確な長距離回帰や高い計算コストに直面している。 本研究では,複雑な学習対象を,キーポイントの近似位置を求めるスパースヒートマップと,その最終的な正確な座標を得るための2つの短距離オフセットマップという,2つの単純なものに分割するために,複合的位置推定と呼ばれる新しい深層学習フレームワークを提案する。 このフレームワークを実現するために,CLNet-ResNetとCLNet-Hourglassの2種類の複合ローカライゼーションネットワークを構築した。 我々は、Leeds Sports Poseデータセット、MPII Human Poseデータセット、COCOキーポイント検出データセットを含む3つのベンチマークデータセットでネットワークを評価した。 実験の結果,CLNet-ResNet50はSimpleBaselineを約1/2 GFLOPで1.14%上回っていることがわかった。 当社のCLNet-Hourglassは、COCOの4.45%を上回りました。

The existing human pose estimation methods are confronted with inaccurate long-distance regression or high computational cost due to the complex learning objectives. This work proposes a novel deep learning framework for human pose estimation called composite localization to divide the complex learning objective into two simpler ones: a sparse heatmap to find the keypoint's approximate location and two short-distance offsetmaps to obtain its final precise coordinates. To realize the framework, we construct two types of composite localization networks: CLNet-ResNet and CLNet-Hourglass. We evaluate the networks on three benchmark datasets, including the Leeds Sports Pose dataset, the MPII Human Pose dataset, and the COCO keypoints detection dataset. The experimental results show that our CLNet-ResNet50 outperforms SimpleBaseline by 1.14% with about 1/2 GFLOPs. Our CLNet-Hourglass outperforms the original stacked-hourglass by 4.45% on COCO.
翻訳日:2021-05-18 15:07:47 公開日:2021-05-15
# レジスト最小化体験リプレイ

Regret Minimization Experience Replay ( http://arxiv.org/abs/2105.07253v1 )

ライセンス: Link先を確認
Zhenghai Xue, Xu-Hui Liu, Jing-Cheng Pang, Shengyi Jiang, Feng Xu, Yang Yu(参考訳) experience replayは様々な深部オフポリシー強化学習(rl)アルゴリズムで広く使われている。 以前収集したサンプルを保存して再利用する。 これらの試料をより有効活用するために, 優先サンプリングはRL剤の性能を向上させるための有望な手法である。 時間差分(TD)誤差に基づく従来の優先順位付け手法は、RLの目的から非常にヒューリスティックで相違する。 本研究では,rl政策の後悔を最小限に抑える最適な優先順位付け戦略を理論的に分析する。 提案理論は, td誤差が高く, オンポリシティが向上し, より正確なフィードバックが得られたデータは, サンプリング時に重み付けされるべきであることを示唆する。 この理論に基づいて,RM-DisCor と RM-TCE の2つの実用的なアルゴリズムを提案する。 RM-DisCorは一般的なアルゴリズムであり、RM-TCEは状態の時間順序に依存するより効率的な変種である。 どちらのアルゴリズムも、 MuJoCo、Atari、Meta-Worldなど、競合するRLベンチマークにおいて、外部のRLアルゴリズムの性能を改善している。

Experience replay is widely used in various deep off-policy reinforcement learning (RL) algorithms. It stores previously collected samples for further reuse. To better utilize these samples, prioritized sampling is a promising technique to improve the performance of RL agents. Previous prioritization methods based on temporal-difference (TD) error are highly heuristic and divergent from the objective of RL. In this work, we analyze the optimal prioritization strategy that can minimize the regret of RL policy theoretically. Our theory suggests that the data with higher TD error, better on-policiness and more corrective feedback should be assigned with higher weights during sampling. Based on this theory, we propose two practical algorithms, RM-DisCor and RM-TCE. RM-DisCor is a general algorithm and RM-TCE is a more efficient variant relying on the temporal ordering of states. Both algorithms improve the performance of off-policy RL algorithms in challenging RL benchmarks, including MuJoCo, Atari and Meta-World.
翻訳日:2021-05-18 15:06:11 公開日:2021-05-15
# 適応勾配の分布特性について

On the Distributional Properties of Adaptive Gradients ( http://arxiv.org/abs/2105.07222v1 )

ライセンス: Link先を確認
Zhang Zhiyi, Liu Ziyin(参考訳) 適応勾配法は、様々なタスクでディープニューラルネットワークのトレーニングに顕著な成功を収めた。 しかし、この種類の手法の数学的および統計的性質についてはあまり知られていない。 この研究は、実験によって正当化された統計特性の一連の理論的解析を提供することを目的としている。 特に、基礎となる勾配が正規分布に従うとき、 \textit{update} の大きさのばらつきは時間の増減かつ有界な関数であり、分岐しないことを示す。 この研究は、分散のばらつきが、現在の文献で信じられているものとは対照的に、アダム最適化器のウォームアップの必要性の原因ではないことを示唆している。

Adaptive gradient methods have achieved remarkable success in training deep neural networks on a wide variety of tasks. However, not much is known about the mathematical and statistical properties of this family of methods. This work aims at providing a series of theoretical analyses of its statistical properties justified by experiments. In particular, we show that when the underlying gradient obeys a normal distribution, the variance of the magnitude of the \textit{update} is an increasing and bounded function of time and does not diverge. This work suggests that the divergence of variance is not the cause of the need for warm up of the Adam optimizer, contrary to what is believed in the current literature.
翻訳日:2021-05-18 15:03:49 公開日:2021-05-15
# ニューラルセルオートマトンによるテクスチャ生成

Texture Generation with Neural Cellular Automata ( http://arxiv.org/abs/2105.07299v1 )

ライセンス: Link先を確認
Alexander Mordvintsev, Eyvind Niklasson, Ettore Randazzo(参考訳) ニューラル・セル・オートマトン(nca)は、画像の「成長」、形態学の分類、セグメンテーション画像の分類、パス探索などの一般的な計算に必要な規則を学習する能力を示した。 私たちは、彼らが導入する誘導性は、テクスチャの生成に貸すものだと信じています。 自然界のテクスチャはしばしば局所的に相互作用する反応拡散系の変種によって生成される。 ヒューマンメイドのテクスチャも、ローカルな方法(例えば、テクスチャウィービング)や、ローカルな依存(正規のグリッドや幾何学的なパターン)のルールで生成されることが多い。 本稿では,単一テンプレート画像からテクスチャ生成器を学習し,生成手法を恥ずかしいほど並列にし,高速収束と出力の忠実性を示し,基礎となる状態多様体の周囲に最小限の仮定しか必要としないことを示す。 さらに,非定常ダイナミクスや損傷に対する固有のロバスト性など,有用かつ興味深い学習モデルの特性について検討する。 最後に, ncaモデルが提示する行動は, テクスチャ生成のための学習, 分散, 局所的なアルゴリズムであり, 既存のテクスチャ生成の作業とは別物であるという定性的な主張を行う。 このようなパラダイムの利点について論じる。

Neural Cellular Automata (NCA) have shown a remarkable ability to learn the required rules to "grow" images, classify morphologies, segment images, as well as to do general computation such as path-finding. We believe the inductive prior they introduce lends itself to the generation of textures. Textures in the natural world are often generated by variants of locally interacting reaction-diffusion systems. Human-made textures are likewise often generated in a local manner (textile weaving, for instance) or using rules with local dependencies (regular grids or geometric patterns). We demonstrate learning a texture generator from a single template image, with the generation method being embarrassingly parallel, exhibiting quick convergence and high fidelity of output, and requiring only some minimal assumptions around the underlying state manifold. Furthermore, we investigate properties of the learned models that are both useful and interesting, such as non-stationary dynamics and an inherent robustness to damage. Finally, we make qualitative claims that the behaviour exhibited by the NCA model is a learned, distributed, local algorithm to generate a texture, setting our method apart from existing work on texture generation. We discuss the advantages of such a paradigm.
翻訳日:2021-05-18 15:01:17 公開日:2021-05-15
# アルゴリズムフェアネスのためのコホートシェープ値

Cohort Shapley value for algorithmic fairness ( http://arxiv.org/abs/2105.07168v1 )

ライセンス: Link先を確認
Masayoshi Mase, Art B. Owen, Benjamin B. Seiler(参考訳) コホート・シェープリー値(Cohort Shapley value)は、ゲーム理論に基礎を置くモデルなしの変数重要性の方法であり、観測不能で潜在的に不可能な特徴の組み合わせは一切使わない。 アルゴリズムの公正性を評価するために,よく知られたCompASレシビズムデータを例に挙げた。 このアプローチにより、人種のような保護された属性の値に悪影響や有益な影響がある範囲のデータセット内の各個人を識別することができる。 この方法は、レースが元の予測器の1つでなかったり、予測を行ったプロプライエタリなアルゴリズムにアクセスできなかったとしても、これを行うことができる。 ゲーム理論の基盤は、対象ごとの定義と一貫してデータセットに対する集合変数の重要度を定義することである。 偽陽性予測を含むフェアネス文学における多量の関心に対する可変重要度を調べることができる。

Cohort Shapley value is a model-free method of variable importance grounded in game theory that does not use any unobserved and potentially impossible feature combinations. We use it to evaluate algorithmic fairness, using the well known COMPAS recidivism data as our example. This approach allows one to identify for each individual in a data set the extent to which they were adversely or beneficially affected by their value of a protected attribute such as their race. The method can do this even if race was not one of the original predictors and even if it does not have access to a proprietary algorithm that has made the predictions. The grounding in game theory lets us define aggregate variable importance for a data set consistently with its per subject definitions. We can investigate variable importance for multiple quantities of interest in the fairness literature including false positive predictions.
翻訳日:2021-05-18 14:59:09 公開日:2021-05-15
# 共通認知モデルの予測処理実装に向けて

Towards a Predictive Processing Implementation of the Common Model of Cognition ( http://arxiv.org/abs/2105.07308v1 )

ライセンス: Link先を確認
M. A. Kelly, Alexander Ororbia(参考訳) 本稿では,強力な,かつ単純なニューラルモデルから構築した認知的アーキテクチャを提案する。 具体的には、ニューラル生成符号化とホログラフィック連想記憶に基づく認知の共通モデルの実装について述べる。 提案システムは,多様なタスクから継続的に学習するエージェントを開発するための基盤となり,既存の認知アーキテクチャよりも大規模で人的パフォーマンスをモデル化する。

In this article, we present a cognitive architecture that is built from powerful yet simple neural models. Specifically, we describe an implementation of the common model of cognition grounded in neural generative coding and holographic associative memory. The proposed system creates the groundwork for developing agents that learn continually from diverse tasks as well as model human performance at larger scales than what is possible with existant cognitive architectures.
翻訳日:2021-05-18 14:58:54 公開日:2021-05-15
# 十分な校正

Calibrating sufficiently ( http://arxiv.org/abs/2105.07283v1 )

ライセンス: Link先を確認
Dirk Tasche(参考訳) 確率的分類器を訓練して校正する場合、キャリブレーション損失のいわゆるグループ損失成分を容易に見逃すことができる。 グルーピングロス(grouping loss)とは、観測可能な情報と実際に校正訓練で活用された情報との間のギャップを指す。 グループ化損失とsufficiencyの概念との関係について検討し,sufficiencyの有用な基準としてコモノトニック性を特定する。 langford & zadrozny (2005) の探索還元アプローチを再検討し、情報損失を減らす確率的分類器の推定子を生成することを発見した。 最後に,確率的分類器の'sufficient'キャリブレーションを支援するツールとして,ブライア曲線について論じる。

When probabilistic classifiers are trained and calibrated, the so-called grouping loss component of the calibration loss can easily be overlooked. Grouping loss refers to the gap between observable information and information actually exploited in the calibration exercise. We investigate the relation between grouping loss and the concept of sufficiency, identifying comonotonicity as a useful criterion for sufficiency. We revisit the probing reduction approach of Langford & Zadrozny (2005) and find that it produces an estimator of probabilistic classifiers that reduces information loss. Finally, we discuss Brier curves as tools to support training and `sufficient' calibration of probabilistic classifiers.
翻訳日:2021-05-18 14:58:03 公開日:2021-05-15
# Move2Hear: アクティブオーディオとビジュアルのソース分離

Move2Hear: Active Audio-Visual Source Separation ( http://arxiv.org/abs/2105.07142v1 )

ライセンス: Link先を確認
Sagnik Majumder, Ziad Al-Halah, Kristen Grauman(参考訳) 本稿では,エージェントが環境への関心の対象から発せられる音をよりよく分離するために,エージェントがインテリジェントに移動しなければならないアクティブオーディオ視覚音源分離問題を紹介する。 エージェントは、複数のオーディオソースを同時に聞き取り(例えば、騒がしい家庭でホールを下る人)、その目と耳を使ってターゲットオブジェクトから発する音を自動的に、限られた時間予算内で切り離さなければならない。 そこで本稿では,エージェントのカメラとマイクロホンの位置を時間とともに制御する動作ポリシーをトレーニングする強化学習手法を提案する。 我々は、拡張現実(システムがすでにターゲットオブジェクトと同一位置にある)とモバイルロボティクス(エージェントがターゲットオブジェクトから任意に遠ざかる)の両方に動機づけられたシナリオで、我々のアプローチを実証する。 最先端の3次元環境におけるリアルな映像シミュレーションを用いて,音源分離のための最小限の移動列を見つける能力を示す。 プロジェクト: http://vision.cs.ute xas.edu/projects/mov e2hear

We introduce the active audio-visual source separation problem, where an agent must move intelligently in order to better isolate the sounds coming from an object of interest in its environment. The agent hears multiple audio sources simultaneously (e.g., a person speaking down the hall in a noisy household) and must use its eyes and ears to automatically separate out the sounds originating from the target object within a limited time budget. Towards this goal, we introduce a reinforcement learning approach that trains movement policies controlling the agent's camera and microphone placement over time, guided by the improvement in predicted audio separation quality. We demonstrate our approach in scenarios motivated by both augmented reality (system is already co-located with the target object) and mobile robotics (agent begins arbitrarily far from the target object). Using state-of-the-art realistic audio-visual simulations in 3D environments, we demonstrate our model's ability to find minimal movement sequences with maximal payoff for audio source separation. Project: http://vision.cs.ute xas.edu/projects/mov e2hear.
翻訳日:2021-05-18 14:54:15 公開日:2021-05-15
# 文脈化単語表現の低次元線形幾何学

The Low-Dimensional Linear Geometry of Contextualized Word Representations ( http://arxiv.org/abs/2105.07109v1 )

ライセンス: Link先を確認
Evan Hernandez and Jacob Andreas(参考訳) ブラックボックス探索モデルは、事前訓練された単語表現から時制、数、構文的役割などの言語的特徴を確実に抽出することができる。 しかし、これらの特徴が表現にエンコードされる方法はあまり理解されていない。 本稿では,ELMO と BERT における文脈化語表現の線形幾何学に関する体系的研究を行う。 多様な言語的特徴(構造化依存関係を含む)が低次元部分空間に符号化されていることを示す。 次に、この幾何学的図式を洗練し、一般言語圏を符号化する部分空間とより特定の部分空間の間に階層的な関係があることを示し、低次元の特徴エンコーディングは個々のニューロンに配列するよりもむしろ分散されることを示した。 最後に、これらの線形部分空間はモデル挙動と因果関係があり、BERTの出力分布のきめ細かい操作に使用できることを示す。

Black-box probing models can reliably extract linguistic features like tense, number, and syntactic role from pretrained word representations. However, the manner in which these features are encoded in representations remains poorly understood. We present a systematic study of the linear geometry of contextualized word representations in ELMO and BERT. We show that a variety of linguistic features (including structured dependency relationships) are encoded in low-dimensional subspaces. We then refine this geometric picture, showing that there are hierarchical relations between the subspaces encoding general linguistic categories and more specific ones, and that low-dimensional feature encodings are distributed rather than aligned to individual neurons. Finally, we demonstrate that these linear subspaces are causally related to model behavior, and can be used to perform fine-grained manipulation of BERT's output distribution.
翻訳日:2021-05-18 14:53:19 公開日:2021-05-15
# 前提に基づくマルチモーダル推論:人間のような認知過程

Premise-based Multimodal Reasoning: A Human-like Cognitive Process ( http://arxiv.org/abs/2105.07122v1 )

ライセンス: Link先を確認
Qingxiu Dong, Ziwei Qin, Heming Xia, Tian Feng, Shoujie Tong, Haoran Meng, Lin Xu, Tianyu Liu, Zuifang Sui, Weidong Zhan, Sujian Li and Zhongyu Wei(参考訳) 推論はヒューマンライクなAIの主要な課題の1つであり、最近自然言語処理(NLP)研究者から注目を集めている。 しかし、クロスモーダル推論はさらなる研究が必要である。 クロスモーダル推論では、ほとんどの手法が、人間のような深い推論をすることなく、浅い特徴マッチングに陥ることを観察し、その理由は、既存のクロスモーダルタスクが画像に対して直接質問することにある。 しかし、実際の場面における人間の推論はしばしば特定の背景情報に基づいて行われ、社会心理学におけるabc理論によって研究されている。 我々は,背景情報の深い理解を確立した後,参加モデルに推論を要求できる「前提ベースマルチモーダル推論(pmr)」という共有タスクを提案する。 提案されたPMRは、人間のような深い推論に光を当てるのに役立つと信じています。

Reasoning is one of the major challenges of Human-like AI and has recently attracted intensive attention from natural language processing (NLP) researchers. However, cross-modal reasoning needs further research. For cross-modal reasoning, we observe that most methods fall into shallow feature matching without in-depth human-like reasoning.The reason lies in that existing cross-modal tasks directly ask questions for a image. However, human reasoning in real scenes is often made under specific background information, a process that is studied by the ABC theory in social psychology. We propose a shared task named "Premise-based Multimodal Reasoning" (PMR), which requires participating models to reason after establishing a profound understanding of background information. We believe that the proposed PMR would contribute to and help shed a light on human-like in-depth reasoning.
翻訳日:2021-05-18 14:53:08 公開日:2021-05-15
# BERTアダプタを用いた辞書型中国語シーケンスラベリング

Lexicon Enhanced Chinese Sequence Labelling Using BERT Adapter ( http://arxiv.org/abs/2105.07148v1 )

ライセンス: Link先を確認
Wei Liu, Xiyan Fu, Yue Zhang and Wenming Xiao(参考訳) BERTのような辞書情報と事前学習モデルを組み合わせて、それぞれの強みから中国語のシーケンスラベリングタスクを探索している。 しかし、既存の手法は、浅いランダムな初期化シーケンス層を介してレキシコン機能を融合させ、BERTの下位層に統合しない。 本稿では,外部レキシコン知識をレキシコンアダプタ層によって直接bert層に統合する,中国語シーケンスラベリングのためのレキシコン拡張bert(lebert)を提案する。 既存の手法と比較して,本モデルはBERTの下位層での深い語彙知識融合を容易にする。 Named Entity Recognition、Word Segmentation、Part-of-Speech taggingを含む3つのタスクからなる10の中国語データセットの実験は、LEBERTが最先端の結果を達成することを示す。

Lexicon information and pre-trained models, such as BERT, have been combined to explore Chinese sequence labelling tasks due to their respective strengths. However, existing methods solely fuse lexicon features via a shallow and random initialized sequence layer and do not integrate them into the bottom layers of BERT. In this paper, we propose Lexicon Enhanced BERT (LEBERT) for Chinese sequence labelling, which integrates external lexicon knowledge into BERT layers directly by a Lexicon Adapter layer. Compared with the existing methods, our model facilitates deep lexicon knowledge fusion at the lower layers of BERT. Experiments on ten Chinese datasets of three tasks including Named Entity Recognition, Word Segmentation, and Part-of-Speech tagging, show that LEBERT achieves the state-of-the-art results.
翻訳日:2021-05-18 14:52:54 公開日:2021-05-15
# DirectQE: 機械翻訳品質評価のための直接事前学習

DirectQE: Direct Pretraining for Machine Translation Quality Estimation ( http://arxiv.org/abs/2105.07149v1 )

ライセンス: Link先を確認
Qu Cui, Shujian Huang, Jiahuan Li, Xiang Geng, Zaixiang Zheng, Guoping Huang, Jiajun Chen(参考訳) 機械翻訳品質推定(英: Machine Translation Quality Estimation、QE)とは、機械翻訳の品質を基準に頼らずに予測するタスクである。 近年,予測器を特徴抽出器として訓練し,QEラベルのない余剰並列コーパスを活用し,有望なQE性能を実現する。 しかし、データ品質とトレーニング目標の両方において予測者と推定者の間にはギャップがあり、qeモデルが多数の並列コーパスから直接恩恵を受けることを妨げると主張している。 我々は、QEタスクの直接事前学習を提供するDirectQEと呼ばれる新しいフレームワークを提案する。 DirectQEでは、ジェネレータが実際のQEデータに近い擬似データを生成するように訓練され、これらのデータに対してQEタスクに似た新しい目的を持つ検出器が事前訓練される。 広く使用されているベンチマークの実験によると、DirectQEはBERTのような事前学習モデルを用いることなく、既存のメソッドよりも優れている。 また、この2つのギャップの修正が改善にどのように貢献するかを詳細に分析する。

Machine Translation Quality Estimation (QE) is a task of predicting the quality of machine translations without relying on any reference. Recently, the predictor-estimator framework trains the predictor as a feature extractor, which leverages the extra parallel corpora without QE labels, achieving promising QE performance. However, we argue that there are gaps between the predictor and the estimator in both data quality and training objectives, which preclude QE models from benefiting from a large number of parallel corpora more directly. We propose a novel framework called DirectQE that provides a direct pretraining for QE tasks. In DirectQE, a generator is trained to produce pseudo data that is closer to the real QE data, and a detector is pretrained on these data with novel objectives that are akin to the QE task. Experiments on widely used benchmarks show that DirectQE outperforms existing methods, without using any pretraining models such as BERT. We also give extensive analyses showing how fixing the two gaps contributes to our improvements.
翻訳日:2021-05-18 14:52:39 公開日:2021-05-15
# 正規メンバーシップ述語を含む文字列理論:実践から理論へ

String Theories involving Regular Membership Predicates: From Practice to Theory and Back ( http://arxiv.org/abs/2105.07220v1 )

ライセンス: Link先を確認
Murphy Berzish, Joel D. Day, Vijay Ganesh, Mitja Kulczynski, Florin Manea, Federico Mora, Dirk Nowotka(参考訳) 文字列重み付けプログラムの形式解析における文字列ソルバの広範な使用は、特に実世界のケースにおいて、この文脈で適用可能なより効率的で信頼性の高い技術への需要が高まっている。 文字列制約系に対する(一般には決定不可能な)満足度問題に対するアルゴリズムの設計には、対象のケースに存在する制約の構造を十分に理解する必要がある。 本稿では,正規表現構成述語を含む文献で提示されるベンチマークを調査し,異なる一階述語論理理論を抽出し,その決定可能性を証明する。 決定不能 実世界のベンチマークで最も一般的な理論はPSPACE完全であり、文字列制約を解決するためのより効率的なアルゴリズムの実装に直接繋がる。

Widespread use of string solvers in formal analysis of string-heavy programs has led to a growing demand for more efficient and reliable techniques which can be applied in this context, especially for real-world cases. Designing an algorithm for the (generally undecidable) satisfiability problem for systems of string constraints requires a thorough understanding of the structure of constraints present in the targeted cases. In this paper, we investigate benchmarks presented in the literature containing regular expression membership predicates, extract different first order logic theories, and prove their decidability, resp. undecidability. Notably, the most common theories in real-world benchmarks are PSPACE-complete and directly lead to the implementation of a more efficient algorithm to solving string constraints.
翻訳日:2021-05-18 14:52:22 公開日:2021-05-15
# STAGE:ニューラルテンポラル順序付けモデル強化のための意味的時間キューの自動抽出ツール

STAGE: Tool for Automated Extraction of Semantic Time Cues to Enrich Neural Temporal Ordering Models ( http://arxiv.org/abs/2105.07314v1 )

ライセンス: Link先を確認
Luke Breitfeller, Aakanksha Naik, Carolyn Rose(参考訳) イベントの時間的順序付けにおいて最先端の精度を達成するにもかかわらず、ニューラルモデルはパフォーマンスの重大なギャップを示す。 私たちの研究は、テキスト意味論の未熟な次元を活用して、これらのギャップの1つを満たそうとしています。 我々は、新しい時間的枠組みと、時間的手がかりを自動的に抽出し、それらをニューラルモデルとの統合に適した表現に変換するパーサからなるシステムstageを開発した。 本稿では,BLSTMとILP制約アーキテクチャを併用したイベントオーダリングモデルと統合することで,抽出したキューの有用性を実証する。 本稿では,3部構成の STAGE 処理手法の機能の概要と,その表現を BiLSTM-ILP モデルに統合する2つの方法について述べる。 2つのイベント順序付けデータセットで有望な結果を示し、将来の研究におけるセマンティックキュー表現と統合の重要な課題を強調した。

Despite achieving state-of-the-art accuracy on temporal ordering of events, neural models showcase significant gaps in performance. Our work seeks to fill one of these gaps by leveraging an under-explored dimension of textual semantics: rich semantic information provided by explicit textual time cues. We develop STAGE, a system that consists of a novel temporal framework and a parser that can automatically extract time cues and convert them into representations suitable for integration with neural models. We demonstrate the utility of extracted cues by integrating them with an event ordering model using a joint BiLSTM and ILP constraint architecture. We outline the functionality of the 3-part STAGE processing approach, and show two methods of integrating its representations with the BiLSTM-ILP model: (i) incorporating semantic cues as additional features, and (ii) generating new constraints from semantic cues to be enforced in the ILP. We demonstrate promising results on two event ordering datasets, and highlight important issues in semantic cue representation and integration for future research.
翻訳日:2021-05-18 14:52:09 公開日:2021-05-15
# マスケド言語モデリングから翻訳へ:ゼロショット音声言語理解を改善する非英語補助課題

From Masked Language Modeling to Translation: Non-English Auxiliary Tasks Improve Zero-shot Spoken Language Understanding ( http://arxiv.org/abs/2105.07316v1 )

ライセンス: Link先を確認
Rob van der Goot, Ibrahim Sharaf, Aizhan Imankulova, Ahmet \"Ust\"un, Marija Stepanovi\'c, Alan Ramponi, Siti Oryza Khairunnisa, Mamoru Komachi, Barbara Plank(参考訳) 低リソース言語に対する公開評価データの欠如は、Spoken Language Understanding (SLU)の進歩を制限する。 インテント分類やスロット充填といった重要なタスクは豊富なトレーニングデータを必要とするため、既存のデータを高リソース言語で再利用し、低リソースシナリオのためのモデルを開発することが望ましい。 非常に低リソースの方言を含む6言語ファミリーの13言語を対象に,言語間SlotとIntent Detectionの新しいベンチマークであるxSIDを紹介した。 この課題に対処するために,英語SLUトレーニングデータと原文,構文,翻訳の非英語補助タスクを併用した共同学習手法を提案する。 事前学習した埋め込みの型と言語によって異なる2つの設定について検討する。 その結果,マスキング言語モデルによる主タスクの学習はスロットに有効であり,機械翻訳は意図分類に最適であることがわかった。

The lack of publicly available evaluation data for low-resource languages limits progress in Spoken Language Understanding (SLU). As key tasks like intent classification and slot filling require abundant training data, it is desirable to reuse existing data in high-resource languages to develop models for low-resource scenarios. We introduce xSID, a new benchmark for cross-lingual Slot and Intent Detection in 13 languages from 6 language families, including a very low-resource dialect. To tackle the challenge, we propose a joint learning approach, with English SLU training data and non-English auxiliary tasks from raw text, syntax and translation for transfer. We study two setups which differ by type and language coverage of the pre-trained embeddings. Our results show that jointly learning the main tasks with masked language modeling is effective for slots, while machine translation transfer works best for intent classification.
翻訳日:2021-05-18 14:51:50 公開日:2021-05-15
# 薬物過剰摂取に対する多変量使用の不均一因果効果

Heterogeneous Causal Effect of Polysubstance Usage on Drug Overdose ( http://arxiv.org/abs/2105.07224v1 )

ライセンス: Link先を確認
Vaishali Mahipal, Mohammad Arif Ul Alam(参考訳) 本稿では, 効率的な共変量選択, サブグループ選択, 生成, および不均一因果効果推定からなる, 過剰摂取推定における不均質薬物使用効果を推定するシステムを提案する。 最先端の手法ではいくつかの関連研究が提案されているが、薬物使用と薬物過剰摂取問題において異種因果効果が研究されていない。 我々は「ベンゾジアゼピンとオピオイドの同時使用は、オピオイド過剰摂取の流行に不均一な因果効果をもたらすか?」という批判的な質問に答えるために、我々の枠組みを適用した。 2001年から2013年にかけて収集されたTruven MarketScanのクレームデータを用いて、提案フレームワークの有効性を大いに保証した。 オピオイドの過剰摂取に対するオピオイドとベンゾジアゼピンの同時使用に関するリスクを推定するために, 効率的な因果的推論モデルにより, 因果効果が回帰研究 (15%) よりも高い (19%) と推定した。

In this paper, we propose a system to estimate heterogeneous concurrent drug usage effects on overdose estimation, that consists of efficient co-variate selection, sub-group selection, generation of and heterogeneous causal effect estimation. Although, there has been several association studies have been proposed in the state-of-art methods, heterogeneous causal effects have never been studied in concurrent drug usage and drug overdose problem. We apply our framework to answer a critical question, "can concurrent usage of benzodiazepines and opioids has heterogeneous causal effects on opioid overdose epidemic?" Using Truven MarketScan claim data collected from 2001 to 2013 have shown significant promise of our proposed framework's efficacy. Our efficient causal inference model estimated that the causal effect is higher (19%) than the regression studies (15%) to estimate the risks associated with the concurrent usage of opioid and benzodiazepines on opioid overdose.
翻訳日:2021-05-18 14:50:20 公開日:2021-05-15
# なぜ答えが正しいのか示せ! 構成的時間的注意を用いた説明可能なAIを目指して

Show Why the Answer is Correct! Towards Explainable AI using Compositional Temporal Attention ( http://arxiv.org/abs/2105.07141v1 )

ライセンス: Link先を確認
Nihar Bendre, Kevin Desai and Peyman Najafirad(参考訳) VQA(Visual Question Answering)モデルは近年大きな成功を収めている。 VQAモデルの成功にもかかわらず、おもにブラックボックスモデルであり、予測された回答の理由を示さないため、自律システムやサイバーセキュリティなど、安全クリティカルなモデルの適用性に関する疑問が提起されている。 芸術の現在の状態は、より複雑な質問に失敗し、構成性を活用できない。 これらのモデルのブラックボックス効果を最小限に抑え、構成性をうまく活用するために、特定の疑問を理解し、モジュールのプールから比較的浅い深層学習モジュールを動的に組み立ててネットワークを形成する動的ニューラルネットワーク(DMN)を提案する。 これらの深層学習に基づくモジュールにコンポジションの時間的注意を取り入れ,コンポジションの活用性を高める。 この結果、複雑な質問をよりよく理解し、モジュールが特定の答えを予測する理由を推論する。 2つのベンチマークデータセットであるVQA2.0とCLEVRの実験分析では、私たちのモデルは、ビジュアル質問回答タスクの以前のアプローチよりも優れており、より良い推論を提供し、安全やセキュリティといったミッションクリティカルなアプリケーションに信頼性を与えている。

Visual Question Answering (VQA) models have achieved significant success in recent times. Despite the success of VQA models, they are mostly black-box models providing no reasoning about the predicted answer, thus raising questions for their applicability in safety-critical such as autonomous systems and cyber-security. Current state of the art fail to better complex questions and thus are unable to exploit compositionality. To minimize the black-box effect of these models and also to make them better exploit compositionality, we propose a Dynamic Neural Network (DMN), which can understand a particular question and then dynamically assemble various relatively shallow deep learning modules from a pool of modules to form a network. We incorporate compositional temporal attention to these deep learning based modules to increase compositionality exploitation. This results in achieving better understanding of complex questions and also provides reasoning as to why the module predicts a particular answer. Experimental analysis on the two benchmark datasets, VQA2.0 and CLEVR, depicts that our model outperforms the previous approaches for Visual Question Answering task as well as provides better reasoning, thus making it reliable for mission critical applications like safety and security.
翻訳日:2021-05-18 14:48:46 公開日:2021-05-15
# FloorPlanCAD:パノプティカルシンボルスポッティングのための大規模CAD描画データセット

FloorPlanCAD: A Large-Scale CAD Drawing Dataset for Panoptic Symbol Spotting ( http://arxiv.org/abs/2105.07147v1 )

ライセンス: Link先を確認
Zhiwen Fan, Lingjie Zhu, Honghua Li, Xiaohao Chen, Siyu Zhu, Ping Tan(参考訳) 大規模で多様なコンピュータ支援設計(CAD)図面へのアクセスは、シンボルスポッティングアルゴリズムの開発に不可欠である。 本稿では,住宅から商業ビルまで,1万以上のフロアプランを含む大規模実世界のcad描画データセットである floorplancad を提案する。 データセット内のcad描画はすべてベクターグラフィックスとして表現され、30のオブジェクトカテゴリの線分アノテーションを提供することができます。 このようなアノテーションを具備して、可算物のインスタンスだけでなく、可算物のセマンティクスも必要とする、汎視的シンボルスポッティングのタスクを導入する。 この課題を解決するために,グラフ畳み込みニューラルネットワーク(GCN)と畳み込みニューラルネットワーク(CNN)を組み合わせた新しい手法を提案する。 提案したCNN-GCN法は,意味記号スポッティングタスクにおける最先端(SOTA)性能を達成し,汎視覚記号スポッティングタスクのベースラインネットワーク構築を支援する。 提案したCAD描画データセットはその種類の第一種である; 2) モノインスタンスとモノセマンティックの両方のスポッティングを一つの認識問題とみなす; 3) セマンティックシンボルスポッティングのSOTA性能を達成した新しいCNN-GCN法に基づくパン光学シンボルスポッティングタスクのベースラインソリューションを提示した。 これらの貢献によって、関連分野の研究が促進されると考えています。

Access to large and diverse computer-aided design (CAD) drawings is critical for developing symbol spotting algorithms. In this paper, we present FloorPlanCAD, a large-scale real-world CAD drawing dataset containing over 10,000 floor plans, ranging from residential to commercial buildings. CAD drawings in the dataset are all represented as vector graphics, which enable us to provide line-grained annotations of 30 object categories. Equipped by such annotations, we introduce the task of panoptic symbol spotting, which requires to spot not only instances of countable things, but also the semantic of uncountable stuff. Aiming to solve this task, we propose a novel method by combining Graph Convolutional Networks (GCNs) with Convolutional Neural Networks (CNNs), which captures both non-Euclidean and Euclidean features and can be trained end-to-end. The proposed CNN-GCN method achieved state-of-the-art (SOTA) performance on the task of semantic symbol spotting, and help us build a baseline network for the panoptic symbol spotting task. Our contributions are three-fold: 1) to the best of our knowledge, the presented CAD drawing dataset is the first of its kind; 2) the panoptic symbol spotting task considers the spotting of both thing instances and stuff semantic as one recognition problem; and 3) we presented a baseline solution to the panoptic symbol spotting task based on a novel CNN-GCN method, which achieved SOTA performance on semantic symbol spotting. We believe that these contributions will boost research in related areas.
翻訳日:2021-05-18 14:48:26 公開日:2021-05-15
# 脳誘発物体認識システム

Brain Inspired Object Recognition System ( http://arxiv.org/abs/2105.07237v1 )

ライセンス: Link先を確認
Pinaki Roy Chowdhury, Angad Wadhwa, Antariksha Kar and Nikhil Tyagi(参考訳) 本稿では,脳の分散顔と物体認識機構のキューを用いた顔と物体の認識の効率的な計算モデルを提案する。 目的画像から抽出した直交勾配のヒストグラム,局所バイナリパターン,および主成分の3つの特徴は単純かつ有効である。 本モデルでは,これら3つの特徴を多層パーセプトロン(MLP)を用いて分類し,総和則を用いて決定レベルで融合する。 計算理論は最初に、脳の情報処理機構の概念を用いて開発された。 照明,ポーズ角,表情,背景を極端に変化させた顔や物体の認識において,提案モデルの性能を検証するために,15の公開データセットを用いて広範な実験を行った。 得られた結果は、CNNやディープラーニングに基づく手法を含む他の顔および物体認識アルゴリズムと比較して非常に有望である。 これは、単純な計算プロセスが、適切にクラブされた場合、最高のアルゴリズムと競合するパフォーマンスを生み出すことを強調する。

This paper presents a new proposal of an efficient computational model of face and object recognition which uses cues from the distributed face and object recognition mechanism of the brain, and by gathering engineering equivalent of these cues from existing literature. Three distinct and widely used features, Histogram of Oriented Gradients, Local Binary Patterns, and Principal components extracted from target images are used in a manner which is simple, and yet effective. Our model uses multi-layer perceptrons (MLP) to classify these three features and fuse them at the decision level using sum rule. A computational theory is first developed by using concepts from the information processing mechanism of the brain. Extensive experiments are carried out using fifteen publicly available datasets to validate the performance of our proposed model in recognizing faces and objects with extreme variation of illumination, pose angle, expression, and background. Results obtained are extremely promising when compared with other face and object recognition algorithms including CNN and deep learning based methods. This highlights that simple computational processes, if clubbed properly, can produce competing performance with best algorithms.
翻訳日:2021-05-18 14:47:56 公開日:2021-05-15
# 構造化ディープカーネルネットワークの普遍性と最適性

Universality and Optimality of Structured Deep Kernel Networks ( http://arxiv.org/abs/2105.07228v1 )

ライセンス: Link先を確認
Tizian Wenzel, Gabriele Santin, Bernard Haasdonk(参考訳) カーネルベースの手法は、柔軟で効率的で強力な近似モデルを生成する。 特に、彼らはデータの固定された特徴マップを利用し、しばしばその正確さを証明する強力な分析結果と関連付けられている。 一方で、機械学習手法の最近の成功は、ディープニューラルネットワーク(nns)によって推進されている。 非常に高次元のデータに対して、効率的なデータ表現やデータベースの特徴マップを学習できるという、かなりの精度を実現している。 本稿では,この2つのアプローチをつなげ,それらの相互作用を理解するために,近年のディープカーネル表現定理を利用する。 特に、特殊なタイプのカーネルを使用することで、ニューラルネットワークの深いニューラルネットワークの計算特性を享受しながら、古典的なカーネル手法の同じ理論的枠組みで構築されたニューラルネットワークを連想させるモデルが得られることを示す。 特に、導入されたStructured Deep Kernel Networks (SDKNs) は、表現定理に従う最適なアクティベーション関数を持つニューラルネットワークと見なすことができる。 解析的性質は、非有界な中心、幅、深さの異なる漸近的レジームにおけるそれらの普遍的近似特性を示す。 特に非有界深さの場合、この構造はReLUニューラルネットワークの対応する構造よりも漸近的に優れているが、これはカーネル近似の柔軟性によって可能である。

Kernel based methods yield approximation models that are flexible, efficient and powerful. In particular, they utilize fixed feature maps of the data, being often associated to strong analytical results that prove their accuracy. On the other hand, the recent success of machine learning methods has been driven by deep neural networks (NNs). They achieve a significant accuracy on very high-dimensional data, in that they are able to learn also efficient data representations or data-based feature maps. In this paper, we leverage a recent deep kernel representer theorem to connect the two approaches and understand their interplay. In particular, we show that the use of special types of kernels yield models reminiscent of neural networks that are founded in the same theoretical framework of classical kernel methods, while enjoying many computational properties of deep neural networks. Especially the introduced Structured Deep Kernel Networks (SDKNs) can be viewed as neural networks with optimizable activation functions obeying a representer theorem. Analytic properties show their universal approximation properties in different asymptotic regimes of unbounded number of centers, width and depth. Especially in the case of unbounded depth, the constructions is asymptotically better than corresponding constructions for ReLU neural networks, which is made possible by the flexibility of kernel approximation
翻訳日:2021-05-18 14:39:57 公開日:2021-05-15
# 状態空間方程式のハードウェア合成 : 浅層・深層ニューラルネットワークのfpga実装への応用

Hardware Synthesis of State-Space Equations; Application to FPGA Implementation of Shallow and Deep Neural Networks ( http://arxiv.org/abs/2105.07131v1 )

ライセンス: Link先を確認
Amir-Hossein Kiamarzi, Pezhman Torabi, Reza Sameni(参考訳) 現在、浅い深層ニューラルネットワーク(NN)には、バイオメディカルエンジニアリング、画像処理、コンピュータビジョン、音声認識など、膨大な応用がある。 多くの研究者が、高性能でエネルギー効率の良いNNを実装するためのフィールドプログラマブルゲートアレイ(FPGA)を含むハードウェアアクセラレータを開発した。 ハードウェアアーキテクチャ設計プロセスはNNごとに具体的かつ時間を要するようだ。 したがって、NNの設計、実装、最適化の体系的な方法が要求される。 本稿では,レジスタ転送レベル(rtl)における状態空間モデルの実装に関する体系的アプローチについて述べる。 提案する設計フローは,状態空間モデルの反復的性質と,状態空間の定式化と有限状態機械の類似性に基づく。 この方法は線形/非線形および時間変化/時間不変システムで使用できる。 また、本質的な反復システム(信号処理、数値解析、計算機演算、制御工学など様々な分野で広く使われている)や、等価な反復形式で書き換えられるシステムを実装するためにも使用できる。 長い短期記憶(LSTM)NNのような、本質的に状態空間を持つNNの実装は、このフレームワークのもう一つの主要な応用である。 ケーススタディとして、状態空間システムはNNの体系的実装と最適化(非線形および時間変化動的システムとして)に利用できることを示した。 RTLコード生成ソフトウェアもオンラインで提供され、任意のサイズのNNの自動生成が簡単になる。

Nowadays, shallow and deep Neural Networks (NNs) have vast applications including biomedical engineering, image processing, computer vision, and speech recognition. Many researchers have developed hardware accelerators including field-programmable gate arrays (FPGAs) for implementing high-performance and energy efficient NNs. Apparently, the hardware architecture design process is specific and time-consuming for each NN. Therefore, a systematic way to design, implement and optimize NNs is highly demanded. The paper presents a systematic approach to implement state-space models in register transfer level (RTL), with special interest for NN implementation. The proposed design flow is based on the iterative nature of state-space models and the analogy between state-space formulations and finite-state machines. The method can be used in linear/nonlinear and time-varying/time-in variant systems. It can also be used to implement either intrinsically iterative systems (widely used in various domains such as signal processing, numerical analysis, computer arithmetic, and control engineering), or systems that could be rewritten in equivalent iterative forms. The implementation of recurrent NNs such as long short-term memory (LSTM) NNs, which have intrinsic state-space forms, are another major applications for this framework. As a case study, it is shown that state-space systems can be used for the systematic implementation and optimization of NNs (as nonlinear and time-varying dynamic systems). An RTL code generating software is also provided online, which simplifies the automatic generation of NNs of arbitrary size.
翻訳日:2021-05-18 14:33:47 公開日:2021-05-15
# NeLF: ニューラルライトフィールドを用いた実用的な新しいビュー合成

NeLF: Practical Novel View Synthesis with Neural Light Field ( http://arxiv.org/abs/2105.07112v1 )

ライセンス: Link先を確認
Celong Liu, Zhong Li, Junsong Yuan, Yi Xu(参考訳) 本稿では,複雑なシーンの新しい視点合成のための実用的でロバストなディープラーニングソリューションを提案する。 我々のアプローチでは、連続的なシーンは光場、すなわち光線の集合として表現され、それぞれが対応する色を持つ。 我々は光場の4次元パラメータ化を採用する。 次に、4D座標を対応する色値にマッピングする4D関数として光場を定式化する。 この機能を最適化するために、深く接続されたネットワークを訓練します。 次に、シーン固有のモデルを用いて、新しいビューを合成する。 従来のライトフィールドアプローチでは、高品質のノベルビューを確実にレンダリングするために、密集したビューサンプリングが必要となる。 提案手法は,光線をサンプリングし,ネットワークから直接各光線の色を問い合わせることによって,新しいビューを描画することができる。 本手法は,インタラクティブなフレームレートを維持しつつ,最先端の新規ビュー合成結果を実現する。

In this paper, we present a practical and robust deep learning solution for the novel view synthesis of complex scenes. In our approach, a continuous scene is represented as a light field, i.e., a set of rays, each of which has a corresponding color. We adopt a 4D parameterization of the light field. We then formulate the light field as a 4D function that maps 4D coordinates to corresponding color values. We train a deep fully connected network to optimize this function. Then, the scene-specific model is used to synthesize novel views. Previous light field approaches usually require dense view sampling to reliably render high-quality novel views. Our method can render novel views by sampling rays and querying the color for each ray from the network directly; thus enabling fast light field rendering with a very sparse set of input images. Our method achieves state-of-the-art novel view synthesis results while maintaining an interactive frame rate.
翻訳日:2021-05-18 14:31:49 公開日:2021-05-15
# Window-Levelは強力なデノイングサロゲート

Window-Level is a Strong Denoising Surrogate ( http://arxiv.org/abs/2105.07153v1 )

ライセンス: Link先を確認
Ayaan Haque, Adam Wang, Abdullah-Al-Zubaer Imran(参考訳) CT画像の品質は放射線線量に大きく依存しており、放射線線量とその後の画像ベースの診断性能に影響を与える画像品質とのトレードオフを引き起こす。 しかし、高放射線は患者とオペレーターの両方に有害である。 いくつかの(深層学習に基づく)アプローチは、低線量画像をデノベートするために試みられている。 しかし、これらのアプローチは大規模なトレーニングセット、特に参照のためのフル線量CT画像へのアクセスを必要とするため、入手が難しい場合が多い。 自己教師付き学習は、教師なし学習を促進するための参照データ要件を下げる新しい方法である。 現在入手可能な自己監督型CT鑑定作業は、外部ドメインに依存しているか、あるいはタスク関連ではない。 上記の課題に取り組むため,我々は,新しい自己教師あり学習手法を提案する。sswl-idn (self-supervised window-leveling for image denoising) という。 SSWL-IDNは、残差学習と、知覚的損失とMSEを組み合わせたハイブリッド損失を利用する。 SSWL-IDNはCT(腹部,胸部)画像の5\%の線量レベルでのアグレッシブ・デノナイジングにおいて有効であった。

CT image quality is heavily reliant on radiation dose, which causes a trade-off between radiation dose and image quality that affects the subsequent image-based diagnostic performance. However, high radiation can be harmful to both patients and operators. Several (deep learning-based) approaches have been attempted to denoise low dose images. However, those approaches require access to large training sets, specifically the full dose CT images for reference, which can often be difficult to obtain. Self-supervised learning is an emerging alternative for lowering the reference data requirement facilitating unsupervised learning. Currently available self-supervised CT denoising works are either dependent on foreign domain or pretexts are not very task-relevant. To tackle the aforementioned challenges, we propose a novel self-supervised learning approach, namely Self-Supervised Window-Leveling for Image DeNoising (SSWL-IDN), leveraging an innovative, task-relevant, simple, yet effective surrogate -- prediction of the window-leveled equivalent. SSWL-IDN leverages residual learning and a hybrid loss combining perceptual loss and MSE, all incorporated in a VAE framework. Our extensive (in- and cross-domain) experimentation demonstrates the effectiveness of SSWL-IDN in aggressive denoising of CT (abdomen and chest) images acquired at 5\% dose level only.
翻訳日:2021-05-18 14:31:37 公開日:2021-05-15
# セグメンテーション参照のためのクロスモーダルプログレッシブ理解

Cross-Modal Progressive Comprehension for Referring Segmentation ( http://arxiv.org/abs/2105.07175v1 )

ライセンス: Link先を確認
Si Liu, Tianrui Hui, Shaofei Huang, Yunchao Wei, Bo Li, Guanbin Li(参考訳) 自然言語表現と画像/ビデオが与えられた場合、セグメンテーションの目標は、表現の対象によって記述されるエンティティのピクセルレベルのマスクを作成することである。 それまでのアプローチでは、暗黙的特徴の相互作用と視覚と言語的モダリティの融合を1段階の方法で実現していた。 しかしながら、人間は、表現中の情報的単語、すなわち、まず候補を大まかに配置し、次に対象を区別することで、参照問題を段階的に解決する傾向にある。 本稿では、人間の行動を効果的に模倣し、CMPC-I(画像)モジュールとCMPC-V(映像)モジュールとして実装し、参照画像と映像のセグメンテーションモデルを改善するためのCMPC(Cross-Modal Progressive Comprehension)スキームを提案する。 画像データについて、CMPC-Iモジュールはまず、表現によって考慮される可能性のあるすべての関連エンティティを知覚するためにエンティティと属性語を使用する。 そして、その関係語を用いて対象のエンティティをハイライトし、空間グラフ推論により他の無関係な単語を抑圧する。 ビデオデータでは、CMPC-VモジュールはさらにCMPC-Iに基づくアクションワードを利用して、時間グラフ推論によりアクションキューと一致する正しいエンティティをハイライトする。 また,CMPCに加えて,テキスト情報の指導の下で視覚バックボーンの異なるレベルに対応するマルチモーダル機能を統合するための,シンプルで効果的なテキストガイド機能交換(TGFE)モジュールも導入した。 このようにして、マルチレベル機能は相互に通信でき、テキストコンテキストに基づいて相互に洗練される。 CMPC-I と CMPC-V を TGFE と組み合わせることで,画像またはビデオのバージョンのセグメンテーションフレームワークを作成でき,このフレームワークは4つの参照画像セグメンテーションベンチマークと3つの参照ビデオセグメンテーションベンチマークでそれぞれ新しい最先端パフォーマンスを実現する。

Given a natural language expression and an image/video, the goal of referring segmentation is to produce the pixel-level masks of the entities described by the subject of the expression. Previous approaches tackle this problem by implicit feature interaction and fusion between visual and linguistic modalities in a one-stage manner. However, human tends to solve the referring problem in a progressive manner based on informative words in the expression, i.e., first roughly locating candidate entities and then distinguishing the target one. In this paper, we propose a Cross-Modal Progressive Comprehension (CMPC) scheme to effectively mimic human behaviors and implement it as a CMPC-I (Image) module and a CMPC-V (Video) module to improve referring image and video segmentation models. For image data, our CMPC-I module first employs entity and attribute words to perceive all the related entities that might be considered by the expression. Then, the relational words are adopted to highlight the target entity as well as suppress other irrelevant ones by spatial graph reasoning. For video data, our CMPC-V module further exploits action words based on CMPC-I to highlight the correct entity matched with the action cues by temporal graph reasoning. In addition to the CMPC, we also introduce a simple yet effective Text-Guided Feature Exchange (TGFE) module to integrate the reasoned multimodal features corresponding to different levels in the visual backbone under the guidance of textual information. In this way, multi-level features can communicate with each other and be mutually refined based on the textual context. Combining CMPC-I or CMPC-V with TGFE can form our image or video version referring segmentation frameworks and our frameworks achieve new state-of-the-art performances on four referring image segmentation benchmarks and three referring video segmentation benchmarks respectively.
翻訳日:2021-05-18 14:31:17 公開日:2021-05-15
# 低分解能走査病理画像のマルチスケール超解像生成

Multi-scale super-resolution generation of low-resolution scanned pathological images ( http://arxiv.org/abs/2105.07200v1 )

ライセンス: Link先を確認
Yanhua Gao (1), Ting Xie (2), Xun Wang (2), Qingqing Yang (2), Le Chen (2), Kai Sun (2), Youmin Guo (1), Gang Yu (2), Kuansong Wang (3) ((1) Department of Medical Imaging, The First Affiliated Hospital of Xi'an Jiaotong University, 277 Yanta West Road, Xi'an, 710061, China. (2) Department of Biomedical Engineering, School of Basic Medical Sciences, Central South University, 172 Tongzipo Road, Changsha, 410013, China. (3) Department of Pathology, School of Basic Medical Sciences, Central South University, 172 Tongzipo Road, Changsha, 410013, China.)(参考訳) デジタル病理スライドは保存と管理が簡単で、閲覧と送信が便利である。 しかし、デジタイズ中の40倍拡大(40x)のような高解像度スキャンのため、スライド画像全体のファイルサイズは1ギガバイトを超え、結果として大きなストレージ容量と非常に遅いネットワーク伝送に繋がる。 我々は低解像度(5X)でスライドをスキャンする手法を設計し、診断時に画像の詳細を復元する超解像法を提案する。 本手法は,10X,20X,40Xなどの高解像度画像を逐次生成するマルチスケール生成対向ネットワークに基づく。 生成画像と実画像の知覚損失、生成損失とを3つの画像解像度で比較し、最高解像度生成画像と実画像の差を判別器を用いて評価する。 10種類のヒト組織から10万の病理画像からなるデータセットをネットワークのトレーニングおよびテストのために実施する。 生成した画像は、高いピーク信号-雑音比(PSNR)と構造相似指数(SSIM)を有する。 10Xから40X画像のPSNRは24.16, 22.27, 20.44であり、SSIMは0.845, 0.680, 0.512であり、DBPN, ESPCN, RDN, EDSR, MDSRなどの超高解像度ネットワークよりも優れている。 また,視覚検査では,ネットワークが生成する高解像度画像には,診断や色再現,実画像に近い詳細情報があり,他の5つのネットワークは著しくぼやけたり,局所的な変形や重要な詳細を見逃したりする。 また, 生成画像と実画像による病理診断では有意な差は認められなかった。 提案するマルチスケールネットワークは,優れた高解像度の病理像を生成でき,低コストのストレージ(約15MB/image on 5X)と高速な画像共有方式を提供する。

Digital pathology slide is easy to store and manage, convenient to browse and transmit. However, because of the high-resolution scan for example 40 times magnification(40X) during the digitization, the file size of each whole slide image exceeds 1Gigabyte, which eventually leads to huge storage capacity and very slow network transmission. We design a strategy to scan slides with low resolution (5X) and a super-resolution method is proposed to restore the image details when in diagnosis. The method is based on a multi-scale generative adversarial network, which sequentially generate three high-resolution images such as 10X, 20X and 40X. The perceived loss, generator loss of the generated images and real images are compared on three image resolutions, and a discriminator is used to evaluate the difference of highest-resolution generated image and real image. A dataset consisting of 100,000 pathological images from 10 types of human tissues is performed for training and testing the network. The generated images have high peak-signal-to-noise -ratio (PSNR) and structural-similarit y-index (SSIM). The PSNR of 10X to 40X image are 24.16, 22.27 and 20.44, and the SSIM are 0.845, 0.680 and 0.512, which are better than other super-resolution networks such as DBPN, ESPCN, RDN, EDSR and MDSR. Moreover, visual inspections show that the generated high-resolution images by our network have enough details for diagnosis, good color reproduction and close to real images, while other five networks are severely blurred, local deformation or miss important details. Moreover, no significant differences can be found on pathological diagnosis based on the generated and real images. The proposed multi-scale network can generate good high-resolution pathological images, and will provide a low-cost storage (about 15MB/image on 5X), faster image sharing method for digital pathology.
翻訳日:2021-05-18 14:30:42 公開日:2021-05-15
# 音楽レコメンデーションのための画像解析

Analyzing Images for Music Recommendation ( http://arxiv.org/abs/2105.07135v1 )

ライセンス: Link先を確認
Anant Baijal, Vivek Agarwal and Danny Hyun(参考訳) 適切な音楽でイメージを体験することで、ユーザエクスペリエンス全体が大幅に向上する。 提案する画像解析方法は、写真画像とは異なるアートワーク画像を処理する。 ディープラーニングに基づくモデルを用いて,画像の自動分類を行う。 美術品を分類する際の知覚的特徴を自然に学習し活用する深層モデルの能力を示すイラストレーション分析も提示する。 各画像および推奨音楽ペアの主観評価から得られた平均意見スコア(mos)は,提案手法の有効性を裏付けるものである。

Experiencing images with suitable music can greatly enrich the overall user experience. The proposed image analysis method treats an artwork image differently from a photograph image. Automatic image classification is performed using deep-learning based models. An illustrative analysis showcasing the ability of our deep-models to inherently learn and utilize perceptually relevant features when classifying artworks is also presented. The Mean Opinion Score (MOS) obtained from subjective assessments of the respective image and recommended music pairs supports the effectiveness of our approach.
翻訳日:2021-05-18 14:28:38 公開日:2021-05-15
# コラボレーションインテリジェンスのための中間ニューラルネットワーク特徴の軽量圧縮

Lightweight Compression of Intermediate Neural Network Features for Collaborative Intelligence ( http://arxiv.org/abs/2105.07102v1 )

ライセンス: Link先を確認
Robert A. Cohen, Hyomin Choi, Ivan V. Baji\'c(参考訳) コラボレーティブインテリジェンスアプリケーションでは、ディープニューラルネットワーク(dnn)の一部が携帯電話やエッジデバイスなどの軽量デバイスにデプロイされ、dnnの残りの部分は、クラウドのようなより多くのコンピューティングリソースが利用可能な場所で処理される。 本稿では,ネットワーク重みの再トレーニングを必要とせず,分割dnnの中間層から出力される特徴を量子化し圧縮する,新しい軽量圧縮手法を提案する。 この中間層におけるreluのクリッピングと量子化誤差を推定するための数理モデルを開発し,粗量子化の最適クリッピング範囲の算出に用いた。 また,クリップ型アクティベーションを定量化するための改良エントロピー制約設計アルゴリズムを提案する。 一般的な物体検出と分類DNNに適用すると、32ビット浮動小数点中間活性化を0.6から0.8ビットまで圧縮し、精度を1%以下に抑えることができた。 HEVCと比較すると、軽量コーデックは推論精度を最大1.3%向上させることができた。 この軽量圧縮技術の性能と単純さは、エッジ/クラウドアプリケーションのための分割ニューラルネットワークの中間層をコーディングする魅力的な選択肢となる。

In collaborative intelligence applications, part of a deep neural network (DNN) is deployed on a lightweight device such as a mobile phone or edge device, and the remaining portion of the DNN is processed where more computing resources are available, such as in the cloud. This paper presents a novel lightweight compression technique designed specifically to quantize and compress the features output by the intermediate layer of a split DNN, without requiring any retraining of the network weights. Mathematical models for estimating the clipping and quantization error of ReLU and leaky-ReLU activations at this intermediate layer are developed and used to compute optimal clipping ranges for coarse quantization. We also present a modified entropy-constrained design algorithm for quantizing clipped activations. When applied to popular object-detection and classification DNNs, we were able to compress the 32-bit floating point intermediate activations down to 0.6 to 0.8 bits, while keeping the loss in accuracy to less than 1%. When compared to HEVC, we found that the lightweight codec consistently provided better inference accuracy, by up to 1.3%. The performance and simplicity of this lightweight compression technique makes it an attractive option for coding an intermediate layer of a split neural network for edge/cloud applications.
翻訳日:2021-05-18 14:27:30 公開日:2021-05-15
# 物理インフォームド深層学習によるマイクロバブルダイナミクスの推定

Inferring micro-bubble dynamics with physics-informed deep learning ( http://arxiv.org/abs/2105.07179v1 )

ライセンス: Link先を確認
Hanfeng Zhai, Guohui Hu(参考訳) マイクロバブルと気泡流は広く観察され、医学に応用され、変形、破裂、気泡、相混合などの衝突を伴う。 本研究では, マイクロチューブ内に閉じ込められた単一気泡と複数気泡の気泡流と, 医療的背景に応じたパラメーターの2つの数値シミュレーションケースを設置し, 気泡動態について検討した。 どちらの症例にも医学的背景がある。 多相流シミュレーションは、計算中にスパースメッシュによって引き起こされる可能性のあるコンポーネント損失のため、高い計算精度を必要とする。 したがって、データ駆動メソッドは便利なツールとして採用できる。 本稿では,物理インフォームドニューラルネットワーク(PINN)に基づく新しいディープラーニングフレームワークBubbleNetを提案する。このフレームワークは,物理場を予測するためのサブネットを備えたディープニューラルネットワーク(DNN),流体連続体条件を符号化した物理インフォーム部分,時間離散化正規化器(TDN),トレーニング前の時間ステップ毎のフィールドデータを正規化するためのアルゴリズムである。 従来のDNNとBubbleNetを用いてシミュレーションデータをトレーニングし、両方の気泡流の場合の物理場を予測する。 その結果,より正確な物理フィールド予測が可能となり,絶対誤差の予測が可能となった。 提案するネットワークは他の多くの工学分野に適用できる可能性がある。

Micro-bubbles and bubbly flows are widely observed and applied to medicine, involves deformation, rupture, and collision of bubbles, phase mixture, etc. We study bubble dynamics by setting up two numerical simulation cases: bubbly flow with a single bubble and multiple bubbles, both confined in the microtube, with parameters corresponding to their medical backgrounds. Both the cases have their medical background applications. Multiphase flow simulation requires high computation accuracy due to possible component losses that may be caused by sparse meshing during the computation. Hence, data-driven methods can be adopted as a useful tool. Based on physics-informed neural networks (PINNs), we propose a novel deep learning framework BubbleNet, which entails three main parts: deep neural networks (DNN) with sub nets for predicting different physics fields; the physics-informed part, with the fluid continuum condition encoded within; the time discretized normalizer (TDN), an algorithm to normalize field data per time step before training. We apply the traditional DNN and our BubbleNet to train the simulation data and predict the physics fields of both the two bubbly flow cases. Results indicate our framework can predict the physics fields more accurately, estimating the prediction absolute errors. The proposed network can potentially be applied to many other engineering fields.
翻訳日:2021-05-18 14:27:10 公開日:2021-05-15
# バイレベルプログラミングとディープラーニング:推論学習法に関する統一的見解

Bilevel Programming and Deep Learning: A Unifying View on Inference Learning Methods ( http://arxiv.org/abs/2105.07231v1 )

ライセンス: Link先を確認
Christopher Zach(参考訳) 本研究では,規則的誤りバックプロパゲーションに基づく手法に対して,代替訓練アルゴリズムとして文献に提案されている推論学習手法を整理した。 これらの推論学習法は非常に多様なモチベーションを持って開発され、主に深層ニューラルネットワークの生物学的可視性を高め、訓練方法の本質的な並列性を改善することを目的としていた。 本稿では,2段階最適化プログラムを逐次適用することにより,これらの方法がすべて実現可能であることを示す。 副産物として、すべての推論学習方法は特別な場合としてバックプロパゲーションを含み、したがって典型的な設定では少なくとも近似エラーバックプロパゲーションを含むことも明らかになる。 最後に,標準バックプロパゲーションにおける無限小補正を学習信号として有限目標に置き換えたFenchelバックプロパゲーションを提案する。 したがって、フェンシェルバックプロパゲーションは、明示的な目標伝播による学習の例と見なすことができる。

In this work we unify a number of inference learning methods, that are proposed in the literature as alternative training algorithms to the ones based on regular error back-propagation. These inference learning methods were developed with very diverse motivations, mainly aiming to enhance the biological plausibility of deep neural networks and to improve the intrinsic parallelism of training methods. We show that these superficially very different methods can all be obtained by successively applying a particular reformulation of bilevel optimization programs. As a by-product it becomes also evident that all considered inference learning methods include back-propagation as a special case, and therefore at least approximate error back-propagation in typical settings. Finally, we propose Fenchel back-propagation, that replaces the propagation of infinitesimal corrections performed in standard back-propagation with finite targets as the learning signal. Fenchel back-propagation can therefore be seen as an instance of learning via explicit target propagation.
翻訳日:2021-05-18 14:26:49 公開日:2021-05-15
# Adaptive Newton Sketch:2次収束と有効ヘッセン次元を用いた線形時間最適化

Adaptive Newton Sketch: Linear-time Optimization with Quadratic Convergence and Effective Hessian Dimensionality ( http://arxiv.org/abs/2105.07291v1 )

ライセンス: Link先を確認
Jonathan Lacotte, Yifei Wang, Mert Pilanci(参考訳) 自己調和型, 複合型, 強凸目的関数を用いた凸最適化問題に対して, 2次収束率のランダム化アルゴリズムを提案する。 提案手法は, ヘッセンのランダムなプロジェクションを用いて, 近似ニュートンステップを実行することに基づく。 私たちの最初の貢献は、各反復において、埋め込み次元(またはスケッチサイズ)がヘッセン行列の有効次元と同じくらい小さいことを示すことである。 この新たな基礎的結果を利用して,実効次元に比例するスケッチサイズを持つアルゴリズムを設計し,2次収束率を示す。 この結果は、最先端のサブサンプリングニュートン法の古典線形-四次収束率を劇的に改善する。 しかし、ほとんどの実践的な場合、有効次元は事前に分かっていないため、二次収束率を維持しながら、有効次元に匹敵するスケッチサイズを選ぶ方法が疑問視される。 そこで本研究では,2次収束率を持つ適応的スケッチサイズアルゴリズムを提案し,各反復において,より小さなスケッチサイズから開始し,二次進行が達成されるまで,事前の知識や有効次元の推定を必要としない。 重要なことは、埋め込み次元は経路全体の有効次元に比例し続け、我々の手法は凸最適化プログラムを強い凸成分で解くための最先端の計算複雑性を達成できることである。

We propose a randomized algorithm with quadratic convergence rate for convex optimization problems with a self-concordant, composite, strongly convex objective function. Our method is based on performing an approximate Newton step using a random projection of the Hessian. Our first contribution is to show that, at each iteration, the embedding dimension (or sketch size) can be as small as the effective dimension of the Hessian matrix. Leveraging this novel fundamental result, we design an algorithm with a sketch size proportional to the effective dimension and which exhibits a quadratic rate of convergence. This result dramatically improves on the classical linear-quadratic convergence rates of state-of-the-art sub-sampled Newton methods. However, in most practical cases, the effective dimension is not known beforehand, and this raises the question of how to pick a sketch size as small as the effective dimension while preserving a quadratic convergence rate. Our second and main contribution is thus to propose an adaptive sketch size algorithm with quadratic convergence rate and which does not require prior knowledge or estimation of the effective dimension: at each iteration, it starts with a small sketch size, and increases it until quadratic progress is achieved. Importantly, we show that the embedding dimension remains proportional to the effective dimension throughout the entire path and that our method achieves state-of-the-art computational complexity for solving convex optimization programs with a strongly convex component.
翻訳日:2021-05-18 14:26:32 公開日:2021-05-15
# Image Super-Resolution Quality Assessment: Structure Fidelity Versus Statistical Naturalness

Image Super-Resolution Quality Assessment: Structural Fidelity Versus Statistical Naturalness ( http://arxiv.org/abs/2105.07139v1 )

ライセンス: Link先を確認
Wei Zhou, Zhou Wang, Zhibo Chen(参考訳) 単一画像超解像(SISR)アルゴリズムは、高分解能(HR)画像を低分解能(LR)で再構成する。 画像品質評価(IQA)手法の開発は,SISRアルゴリズムの評価と比較だけでなく,今後の開発を導くことが望ましい。 本稿では,SISR生成画像の品質を,構造的忠実度と統計的自然性の2次元(2次元)空間で評価する。 これにより、2次元空間におけるトレードオフとして、異なるSISRアルゴリズムの挙動を観察できる。 具体的には、SISR法は伝統的に高い構造的忠実性を達成するために設計されているが、統計的自然性を犠牲にすることが多い。 さらに、このような2次元評価をスカラー品質予測に容易に融合させることができる。 興味深いことに,素直な局所的構造的忠実度とグローバル統計的自然性尺度の単純な線形結合により,一般のsisr画像データセットを用いてテストした場合のsisr画像品質の驚くほど正確な予測が得られている。 提案されたSFSNモデルのコードは \url{https://github.com/w eizhou-geek/SFSN} で公開されている。

Single image super-resolution (SISR) algorithms reconstruct high-resolution (HR) images with their low-resolution (LR) counterparts. It is desirable to develop image quality assessment (IQA) methods that can not only evaluate and compare SISR algorithms, but also guide their future development. In this paper, we assess the quality of SISR generated images in a two-dimensional (2D) space of structural fidelity versus statistical naturalness. This allows us to observe the behaviors of different SISR algorithms as a tradeoff in the 2D space. Specifically, SISR methods are traditionally designed to achieve high structural fidelity but often sacrifice statistical naturalness, while recent generative adversarial network (GAN) based algorithms tend to create more natural-looking results but lose significantly on structural fidelity. Furthermore, such a 2D evaluation can be easily fused to a scalar quality prediction. Interestingly, we find that a simple linear combination of a straightforward local structural fidelity and a global statistical naturalness measures produce surprisingly accurate predictions of SISR image quality when tested using public subject-rated SISR image datasets. Code of the proposed SFSN model is publicly available at \url{https://github.com/w eizhou-geek/SFSN}.
翻訳日:2021-05-18 14:23:24 公開日:2021-05-15
# NeuroGen: 発見神経科学のためのアクティベーション最適化画像合成

NeuroGen: activation optimized image synthesis for discovery neuroscience ( http://arxiv.org/abs/2105.07140v1 )

ライセンス: Link先を確認
Zijin Gu, Keith W. Jamison, Meenakshi Khosla, Emily J. Allen, Yihan Wu, Thomas Naselaris, Kendrick Kay, Mert R. Sabuncu, Amy Kuceyeski(参考訳) 機能的MRI(Functional MRI)は視覚野の刺激に対する反応を特徴付ける強力な技術であるが、そのような実験は先天的な仮説に基づいて構築され、スキャナーの中にいる個人に提示される画像のセットに限られており、観察された脳の反応のノイズを受けており、個人に広く分散している可能性がある。 本研究では,これらの限界を克服し,人間の視覚神経科学発見のための強力なツールを開発するために,ニューロジェンと呼ばれる新しい計算戦略を提案する。 NeuroGenは、人間の視覚のfMRIで訓練されたニューラルエンコーディングモデルと深い生成ネットワークを組み合わせて、予測された画像を合成し、マクロな脳活性化のターゲットパターンを達成する。 我々は、符号化モデルが提供するノイズの低減と、高忠実度画像を生成する生成ネットワークの能力が相まって、視覚神経科学におけるロバストな発見アーキテクチャが実現されることを実証する。 我々はNeuroGenによって作成された少数の合成画像を用いて、視覚刺激に対する局所的および個々の脳反応パターンの違いを検出し、増幅できることを実証した。 次に、fMRIで測定した数千の画像応答にこれらの発見が反映されていることを検証する。 さらに,最適な自然画像では実現できない局所的応答パターンを予測できる合成画像の作成が可能であることを実証する。 NeuroGenフレームワークは、脳のエンコーディングモデルの有用性を拡張し、人間の視覚システムを探索し、正確に制御するための新たな道を開く。

Functional MRI (fMRI) is a powerful technique that has allowed us to characterize visual cortex responses to stimuli, yet such experiments are by nature constructed based on a priori hypotheses, limited to the set of images presented to the individual while they are in the scanner, are subject to noise in the observed brain responses, and may vary widely across individuals. In this work, we propose a novel computational strategy, which we call NeuroGen, to overcome these limitations and develop a powerful tool for human vision neuroscience discovery. NeuroGen combines an fMRI-trained neural encoding model of human vision with a deep generative network to synthesize images predicted to achieve a target pattern of macro-scale brain activation. We demonstrate that the reduction of noise that the encoding model provides, coupled with the generative network's ability to produce images of high fidelity, results in a robust discovery architecture for visual neuroscience. By using only a small number of synthetic images created by NeuroGen, we demonstrate that we can detect and amplify differences in regional and individual human brain response patterns to visual stimuli. We then verify that these discoveries are reflected in the several thousand observed image responses measured with fMRI. We further demonstrate that NeuroGen can create synthetic images predicted to achieve regional response patterns not achievable by the best-matching natural images. The NeuroGen framework extends the utility of brain encoding models and opens up a new avenue for exploring, and possibly precisely controlling, the human visual system.
翻訳日:2021-05-18 14:23:03 公開日:2021-05-15
# Aerial-PASS:ドローンビデオにおけるパノラマ環状シーンセグメンテーション

Aerial-PASS: Panoramic Annular Scene Segmentation in Drone Videos ( http://arxiv.org/abs/2105.07209v1 )

ライセンス: Link先を確認
Lei Sun, Jia Wang, Kailun Yang, Kaikai Wu, Xiangdong Zhou, Kaiwei Wang, Jian Bai(参考訳) uav(unmanned aerial vehicle)にとって、周囲の環境をピクセル単位で知覚することが重要な課題である。 従来の研究は主に従来のピンホールカメラや魚眼カメラを撮像装置として採用していた。 しかし、これらの撮像システムは、大視野(fov)、小サイズ、軽量を同時に達成することができない。 この目的のために,小径,低重量,360度環状FoVの特性を有するパノラマ環状レンズ(PAL)を用いたUAVシステムを設計した。 軽量パノラマアニュラセマンティクスセグメンテーションニューラルネットワークモデルは、高精度かつリアルタイムなシーン解析を実現するために設計されている。 さらに,アノテートされたトラック,フィールド,その他のラベルを付加した,最初のドローンパースペクティブなパノラマシーンセグメンテーションデータセットAerial-PASSを提案する。 総合的な実験により,設計したシステムはパノラマシーン解析において満足できる性能を示す。 特に,提案モデルでは,公共ストリートシーンと確立した航空シーンのデータセットの両方で,セグメンテーション性能と推論速度の良好なトレードオフを示す。

Aerial pixel-wise scene perception of the surrounding environment is an important task for UAVs (Unmanned Aerial Vehicles). Previous research works mainly adopt conventional pinhole cameras or fisheye cameras as the imaging device. However, these imaging systems cannot achieve large Field of View (FoV), small size, and lightweight at the same time. To this end, we design a UAV system with a Panoramic Annular Lens (PAL), which has the characteristics of small size, low weight, and a 360-degree annular FoV. A lightweight panoramic annular semantic segmentation neural network model is designed to achieve high-accuracy and real-time scene parsing. In addition, we present the first drone-perspective panoramic scene segmentation dataset Aerial-PASS, with annotated labels of track, field, and others. A comprehensive variety of experiments shows that the designed system performs satisfactorily in aerial panoramic scene parsing. In particular, our proposed model strikes an excellent trade-off between segmentation performance and inference speed suitable, validated on both public street-scene and our established aerial-scene datasets.
翻訳日:2021-05-18 14:22:36 公開日:2021-05-15
# 複数のグレンジャー因果ネットワークの合同推定:グループレベルの脳結合の推測

Joint estimation of multiple Granger causal networks: Inference of group-level brain connectivity ( http://arxiv.org/abs/2105.07196v1 )

ライセンス: Link先を確認
Parinthorn Manomaisaowapak and Jitkomut Songsiri(参考訳) 本稿では,複数の時系列にまたがる共通および微分グランガー因果構造(GC)を明らかにするために,複数のスパースグランガーグラフィカルモデルの連成学習を検討する。 これは、同質な被験者のグループからグループレベルの脳接続推定を描画したり、異質な条件下で収集された信号群間のネットワーク差を発見することに応用できる。 単一の多変量時系列のgcがベクトル自己回帰的(var)ラグ係数の共通零点によって特徴づけられることを認識して、群スパースプリアーを複数のvarモデルのジョイント正規化最小二乗推定に含める。 グループノルム法則は、グループノルム法則と融合ラッソ法則に基づいており、複数のネットワークを共通のGC構造に分解し、残りの部分は個別のネットワークで定義される。 所望のgcネットワークのスパース性やスパース性パターンに関する事前情報は相対的な重み付けとして組み込まれ、ペナルティ内の非凸群ノルムは低サンプル環境でのネットワーク推定の精度を高めるために提案されている。 シミュレーション結果から,GCネットワークの疎性回復に対する既存のスパース推定手法よりも改善したことを示す。 また,ADHD-200データセットから利用可能な静止状態fMRI時系列にも適用し,ADHDを持つ青年と発達期児の因果関係の差異を学習した。 解析の結果,両群間の因果関係の相違は,前回の研究では臨床所見とデータ駆動の結果と一致し,前頭前頭前野と辺縁系に関連する領域によく分布することが明らかとなった。

This paper considers joint learning of multiple sparse Granger graphical models to discover underlying common and differential Granger causality (GC) structures across multiple time series. This can be applied to drawing group-level brain connectivity inferences from a homogeneous group of subjects or discovering network differences among groups of signals collected under heterogeneous conditions. By recognizing that the GC of a single multivariate time series can be characterized by common zeros of vector autoregressive (VAR) lag coefficients, a group sparse prior is included in joint regularized least-squares estimations of multiple VAR models. Group-norm regularizations based on group- and fused-lasso penalties encourage a decomposition of multiple networks into a common GC structure, with other remaining parts defined in individual-specific networks. Prior information about sparseness and sparsity patterns of desired GC networks are incorporated as relative weights, while a non-convex group norm in the penalty is proposed to enhance the accuracy of network estimation in low-sample settings. Extensive numerical results on simulations illustrated our method's improvements over existing sparse estimation approaches on GC network sparsity recovery. Our methods were also applied to available resting-state fMRI time series from the ADHD-200 data sets to learn the differences of causality mechanisms, called effective brain connectivity, between adolescents with ADHD and typically developing children. Our analysis revealed that parts of the causality differences between the two groups often resided in the orbitofrontal region and areas associated with the limbic system, which agreed with clinical findings and data-driven results in previous studies.
翻訳日:2021-05-18 14:21:23 公開日:2021-05-15
# 雑音データからのデータ駆動到達可能性解析

Data-Driven Reachability Analysis from Noisy Data ( http://arxiv.org/abs/2105.07229v1 )

ライセンス: Link先を確認
Amr Alanwar, Anne Koch, Frank Allg\"ower, Karl Henrik Johansson(参考訳) 我々は,与えられたシステムモデルを用いずに,ノイズデータから直接到達可能な集合を計算する問題を考える。 いくつかのリーチビリティアルゴリズムが提示され、その精度はデータを生成する基盤システムに依存する。 まず,行列 zonotopes に基づく過近似リーチ可能集合の線形系に対する計算アルゴリズムを提案する。 制約付き行列ゾノトペは、計算コストの増加を犠牲にしてより保守的な到達可能な集合を提供し、未知のシステムモデルに関する事前知識を取り入れるために用いられる。 次に、多項式系へのアプローチを拡張し、リプシッツ連続性を非線形系に仮定する。 これらのアルゴリズムは真のリーチ可能集合を含む適切な過近似リーチ可能集合を与えるという理論的保証を与える。 複数の数値例から導入したアルゴリズムの適用性を示し,アルゴリズム間の精度比較を行う。

We consider the problem of computing reachable sets directly from noisy data without a given system model. Several reachability algorithms are presented, and their accuracy is shown to depend on the underlying system generating the data. First, an algorithm for computing over-approximated reachable sets based on matrix zonotopes is proposed for linear systems. Constrained matrix zonotopes are introduced to provide less conservative reachable sets at the cost of increased computational expenses and utilized to incorporate prior knowledge about the unknown system model. Then we extend the approach to polynomial systems and under the assumption of Lipschitz continuity to nonlinear systems. Theoretical guarantees are given for these algorithms in that they give a proper over-approximative reachable set containing the true reachable set. Multiple numerical examples show the applicability of the introduced algorithms, and accuracy comparisons are made between algorithms.
翻訳日:2021-05-18 14:20:54 公開日:2021-05-15
# 未知ltiシステムに対する分散オンラインlqr制御の後悔解析

Regret Analysis of Distributed Online LQR Control for Unknown LTI Systems ( http://arxiv.org/abs/2105.07310v1 )

ライセンス: Link先を確認
Ting-Jui Chang and Shahin Shahrampour(参考訳) オンライン学習は、最近、時間不変コストのメトリクスを超えて古典的な最適制御を再考するための道を開いた。 この一連の研究に触発されて,未知ダイナミクスを持つ線形時間不変量 (lti) システムに対する分散オンライン線形二次レギュレータ (lqr) 問題の研究を行った。 各エージェントがLTIシステムとしてモデル化されるマルチエージェントネットワークを考える。 lti系は、逐次的に現れる時変二次コストと関連している。 ネットワークの目的は、集合的に(i)未知のダイナミクスを推定し、(ii)すべてのエージェントのコストの合計を最小限に抑えながら、最適な中央集権政策と競合する局所制御シーケンスを計算することである。 この問題は「後悔」最小化として定式化されている。 本稿では,各エージェントが探索段階でシステム推定を計算するオンラインlqrアルゴリズムの分散型を提案する。 エージェントは、エージェントのシステム推定に基づいて実現可能なセットを持つ半定義プログラミング(sdp)に分散オンライン勾配降下を適用する。 提案アルゴリズムの残差は$\tilde{O}(T^{2/3})$であり、時間とともにネットワークのコンセンサスが大きくなることを示す。 理論的な保証を検証するシミュレーション結果も提供します。

Online learning has recently opened avenues for rethinking classical optimal control beyond time-invariant cost metrics, and online controllers are designed when the performance criteria changes adversarially over time. Inspired by this line of research, we study the distributed online linear quadratic regulator (LQR) problem for linear time-invariant (LTI) systems with unknown dynamics. Consider a multi-agent network where each agent is modeled as a LTI system. The LTI systems are associated with time-varying quadratic costs that are revealed sequentially. The goal of the network is to collectively (i) estimate the unknown dynamics and (ii) compute local control sequences competitive to that of the best centralized policy in hindsight that minimizes the sum of costs for all agents. This problem is formulated as a {\it regret} minimization. We propose a distributed variant of the online LQR algorithm where each agent computes its system estimate during an exploration stage. The agent then applies distributed online gradient descent on a semi-definite programming (SDP) whose feasible set is based on the agent's system estimate. We prove that the regret bound of our proposed algorithm scales $\tilde{O}(T^{2/3})$, implying the consensus of the network over time. We also provide simulation results verifying our theoretical guarantee.
翻訳日:2021-05-18 14:20:42 公開日:2021-05-15