このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211005となっている論文です。

PDF登録状況(公開日: 20211005)

TitleAuthorsAbstract論文公表日・翻訳日
# 協調型寄付応答テンソルファクターによるライブマルチストリーミングと寄付勧告

Live Multi-Streaming and Donation Recommendations via Coupled Donation-Response Tensor Factorization ( http://arxiv.org/abs/2110.06117v1 )

ライセンス: Link先を確認
Hsu-Chao Lai, Jui-Yi Tsai, Hong-Han Shuai, Jiun-Long Huang, Wang-Chien Lee, De-Nian Yang(参考訳) 従来のオンラインビデオとは対照的に、ライブマルチストリーミングは、寄付など複数のストリーマーと視聴者のリアルタイムなソーシャルインタラクションをサポートする。 しかし、複雑なストリーマーと視聴者の関係、非対称なコミュニケーション、個人的関心事とグループ間相互作用のトレードオフにより、寄付やマルチストリーミングチャネルレコメンデーションは困難である。 本稿では,Multi-Stream Party (MSP)を導入し,Donation and MSP Recommendation (DAMRec)と呼ばれる新しいマルチストリーミングレコメンデーション問題を定式化する。 提案するマルチストリーム・パーティ・レコメンダ・システム(MARS)は,寄付とMSPの推薦のために,社会的・時間的結合型寄付応答型テンソル・ファクター化を通じて潜在特徴を抽出する。 twitchとdouyuの実験結果によると、火星はヒット率と平均精度で、既存のレコメンダを38.8%上回っている。

In contrast to traditional online videos, live multi-streaming supports real-time social interactions between multiple streamers and viewers, such as donations. However, donation and multi-streaming channel recommendations are challenging due to complicated streamer and viewer relations, asymmetric communications, and the tradeoff between personal interests and group interactions. In this paper, we introduce Multi-Stream Party (MSP) and formulate a new multi-streaming recommendation problem, called Donation and MSP Recommendation (DAMRec). We propose Multi-stream Party Recommender System (MARS) to extract latent features via socio-temporal coupled donation-response tensor factorization for donation and MSP recommendations. Experimental results on Twitch and Douyu manifest that MARS significantly outperforms existing recommenders by at least 38.8% in terms of hit ratio and mean average precision.
翻訳日:2021-10-17 05:13:27 公開日:2021-10-05
# Convex-Concave Min-Max Stackelberg Games

Convex-Concave Min-Max Stackelberg Games ( http://arxiv.org/abs/2110.05192v1 )

ライセンス: Link先を確認
Denizalp Goktas and Amy Greenwald(参考訳) min-max最適化問題(即ちmin-maxゲーム)は、幅広い機械学習問題に適用可能であるため、多くの注目を集めている。 近年は大きな進歩を遂げているものの、文献は独立した戦略セットを持つゲームに焦点を当てており、依存戦略セットによるゲームの解決についてはほとんど知られていない。 コンベックス・コンケーブ min-max Stackelberg のゲーム群を解く2つの一階法を導入し,この方法が多項式時間で収束することを示す。 Min-max Stackelberg ゲームは Wald によって最初に研究され、ウォルドの Maximin モデル(英語版) の追随名の下で、その変種はロバスト最適化で使用される主要なパラダイムであり、これは、我々の方法が同様に多くの凸性最適化問題を解くことができることを意味する。 フィッシャーマーケットにおける競争均衡の計算は,min-max stackelbergゲームも構成している。 さらに,様々なユーティリティ構造を持つフィッシャー市場の競争均衡を計算し,実運用におけるアルゴリズムの有効性と効率を実証する。 実験は,アルゴリズムの収束率に異なる平滑性特性がどう影響するかを示すことにより,理論的結果を拡張する可能性を示唆する。

Min-max optimization problems (i.e., min-max games) have been attracting a great deal of attention because of their applicability to a wide range of machine learning problems. Although significant progress has been made recently, the literature to date has focused on games with independent strategy sets; little is known about solving games with dependent strategy sets, which can be characterized as min-max Stackelberg games. We introduce two first-order methods that solve a large class of convex-concave min-max Stackelberg games, and show that our methods converge in polynomial time. Min-max Stackelberg games were first studied by Wald, under the posthumous name of Wald's maximin model, a variant of which is the main paradigm used in robust optimization, which means that our methods can likewise solve many convex robust optimization problems. We observe that the computation of competitive equilibria in Fisher markets also comprises a min-max Stackelberg game. Further, we demonstrate the efficacy and efficiency of our algorithms in practice by computing competitive equilibria in Fisher markets with varying utility structures. Our experiments suggest potential ways to extend our theoretical results, by demonstrating how different smoothness properties can affect the convergence rate of our algorithms.
翻訳日:2021-10-17 05:13:07 公開日:2021-10-05
# bi-rads-net:乳房超音波画像における癌診断のためのマルチタスク学習手法

BI-RADS-Net: An Explainable Multitask Learning Approach for Cancer Diagnosis in Breast Ultrasound Images ( http://arxiv.org/abs/2110.04069v1 )

ライセンス: Link先を確認
Boyu Zhang, Aleksandar Vakanski, Min Xian(参考訳) 医療においては、臨床医の信頼性を確立するために、機械学習モデルの意思決定プロセスを説明することが不可欠である。 本稿では,乳房超音波画像における癌検出のための新しい深層学習手法であるBI-RADS-Netを紹介する。 提案手法は,臨床診断に関連する特徴表現を学習することにより,乳腺腫瘍の説明と分類を行うタスクを組み込んだものである。 予測(良性または悪性)の説明は、臨床医が医療における診断および報告に使用する形態学的特徴の観点から提供される。 採用されている機能は、形状、方位、マージン、エコーパターン、後部特徴のBI-RADS記述子である。 また, 臨床医が報告したBI-RADSアセスメントカテゴリーに関連し, 本症例の悪性度を予測した。 1,192枚の画像からなるデータセットに対する実験的検証は、BI-RADSレキシコンを用いた臨床用語による説明により、モデル精度の向上を示す。

In healthcare, it is essential to explain the decision-making process of machine learning models to establish the trustworthiness of clinicians. This paper introduces BI-RADS-Net, a novel explainable deep learning approach for cancer detection in breast ultrasound images. The proposed approach incorporates tasks for explaining and classifying breast tumors, by learning feature representations relevant to clinical diagnosis. Explanations of the predictions (benign or malignant) are provided in terms of morphological features that are used by clinicians for diagnosis and reporting in medical practice. The employed features include the BI-RADS descriptors of shape, orientation, margin, echo pattern, and posterior features. Additionally, our approach predicts the likelihood of malignancy of the findings, which relates to the BI-RADS assessment category reported by clinicians. Experimental validation on a dataset consisting of 1,192 images indicates improved model accuracy, supported by explanations in clinical terms using the BI-RADS lexicon.
翻訳日:2021-10-17 04:44:42 公開日:2021-10-05
# データセット構造指標:機械の視覚データへの視点を理解する

Dataset Structural Index: Understanding a machine's perspective towards visual data ( http://arxiv.org/abs/2110.04070v1 )

ライセンス: Link先を確認
Dishant Parikh(参考訳) 視覚と知覚アーキテクチャの進歩により、私たちは、データを扱うことがアルゴリズムよりも重要であることに気づきました。 今日、私たちは世界の知識と視点に基づいて機械を訓練しました。 Dataset Structure Index(DSI)の概念は、データセットに対するマシンの視点を理解することを中心に展開されている。 DSIでは、ビジュアルデータセット上でより多くの情報を取得し、それをデータ最適化に使用し、より良いアーキテクチャを作成し、どのモデルが最もうまく機能するかを推測できる2つのメタ値を示します。 これら2つの値は、多様性寄与率と類似度行列である。 論文では、DSIの多くの応用例を示し、その1つは、少ないデータ量でトレーニングされた同じモデルアーキテクチャで、同じレベルの精度を実現する方法である。

With advances in vision and perception architectures, we have realized that working with data is equally crucial, if not more, than the algorithms. Till today, we have trained machines based on our knowledge and perspective of the world. The entire concept of Dataset Structural Index(DSI) revolves around understanding a machine`s perspective of the dataset. With DSI, I show two meta values with which we can get more information over a visual dataset and use it to optimize data, create better architectures, and have an ability to guess which model would work best. These two values are the Variety contribution ratio and Similarity matrix. In the paper, I show many applications of DSI, one of which is how the same level of accuracy can be achieved with the same model architectures trained over less amount of data.
翻訳日:2021-10-17 04:44:25 公開日:2021-10-05
# 健康に配慮したスマート看護の機械学習による調査

Investigating Health-Aware Smart-Nudging with Machine Learning to Help People Pursue Healthier Eating-Habits ( http://arxiv.org/abs/2110.07045v1 )

ライセンス: Link先を確認
Mansura A Khan, Khalil Muhammad, Barry Smyth, David Coyle(参考訳) 食物選択と食生活は、我々の長期的な健康に直接貢献する。 これにより、食品推奨システムは、肥満と栄養失調の世界的な危機に対処する潜在的なツールとなる。 過去10年間で、人工知能と医学の研究者は、人々が食べ物や食事に関する健康的かつ思慮深い意思決定を指導し、支援するツールの研究により多くの投資をした。 多くの一般的な(Recommender System)RSドメインにおいて、スマートナッジはユーザの消費パターンを形作るのに有効であることが証明されている。 近年、食品分野でも知識のあるヌードやインセンティブの選択が注目されるようになった。 より健康的な食品選択を促進するためのスマートヌージングを開発するために,我々は,世界保健機関,食品基準局,英国国民保健サービスなどの認定保健機関の食品健康ガイドラインと機械学習とRS技術を組み合わせた。 本稿では,推奨レシピの健全さをユーザに知らしめるための,説得力のある可視化に関する研究について論じる。 本稿では,ユーザがより健康的なレシピを選択することを奨励する,WHO-BubbleSlider,FS A-ColorCoading,DRCI- MLCPの3つの新しいヌード技術を提案する。 また,トピックモデリングに基づく部分サイズレコメンデーションアルゴリズムを提案する。 提案したスマートナッジを評価するために,96名の参加者と92250名のレシピを用いたオンラインユーザスタディを行った。 その結果、食品の意思決定プロセスの間、適切な健康対策により、ユーザーはより健康的なレシピをクリックし、閲覧し、選択しやすくなった。

Food-choices and eating-habits directly contribute to our long-term health. This makes the food recommender system a potential tool to address the global crisis of obesity and malnutrition. Over the past decade, artificial-intellige nce and medical researchers became more invested in researching tools that can guide and help people make healthy and thoughtful decisions around food and diet. In many typical (Recommender System) RS domains, smart nudges have been proven effective in shaping users' consumption patterns. In recent years, knowledgeable nudging and incentifying choices started getting attention in the food domain as well. To develop smart nudging for promoting healthier food choices, we combined Machine Learning and RS technology with food-healthiness guidelines from recognized health organizations, such as the World Health Organization, Food Standards Agency, and the National Health Service United Kingdom. In this paper, we discuss our research on, persuasive visualization for making users aware of the healthiness of the recommended recipes. Here, we propose three novel nudging technology, the WHO-BubbleSlider, the FSA-ColorCoading, and the DRCI-MLCP, that encourage users to choose healthier recipes. We also propose a Topic Modeling based portion-size recommendation algorithm. To evaluate our proposed smart-nudges, we conducted an online user study with 96 participants and 92250 recipes. Results showed that, during the food decision-making process, appropriate healthiness cues make users more likely to click, browse, and choose healthier recipes over less healthy ones.
翻訳日:2021-10-17 04:44:13 公開日:2021-10-05
# (参考訳) 相互情報を最大化する生物の知覚システムのための生物学的に妥当な学習規則 [全文訳有]

A Biologically Plausible Learning Rule for Perceptual Systems of organisms that Maximize Mutual Information ( http://arxiv.org/abs/2109.13102v2 )

ライセンス: CC BY 4.0
Tao Liu(参考訳) 生物の知覚システムは、露出する環境の特性に最適化されていると広く信じられている。 Infomax原則として知られるこの原理の特定の例は、早期知覚処理の目的は、ニューラルコーディングと入ってくる知覚信号の相互情報を最大化することである。 本稿では,この原理を局所的,スパイクベース,継続的な学習ルールを用いて正確に実装する手法を提案する。

It is widely believed that the perceptual system of an organism is optimized for the properties of the environment to which it is exposed. A specific instance of this principle known as the Infomax principle holds that the purpose of early perceptual processing is to maximize the mutual information between the neural coding and the incoming sensory signal. In this article, we present a method to implement this principle accurately with a local, spike-based, and continuous-time learning rule.
翻訳日:2021-10-10 16:37:13 公開日:2021-10-05
# (参考訳) フルスパイク変分オートエンコーダ [全文訳有]

Fully Spiking Variational Autoencoder ( http://arxiv.org/abs/2110.00375v2 )

ライセンス: CC BY 4.0
Hiromichi Kamata, Yusuke Mukuta, Tatsuya Harada(参考訳) スパイキングニューラルネットワーク(snn)は、そのバイナリとイベント駆動の性質から、超高速で超低エネルギーのニューロモルフィックデバイス上で動作することができる。 したがって、SNNには、高品質な画像を作成するためにエッジデバイス上で実行されている生成モデルなど、さまざまな応用が期待されている。 本研究では,SNNを用いた可変オートエンコーダ(VAE)を構築し,画像生成を実現する。 VAEは生成モデル間の安定性で知られており、最近では品質が向上している。 バニラVAEでは、潜伏空間は正規分布として表現され、サンプリングには浮動小数点計算が必要である。 しかし、SNNでは、全ての機能はバイナリ時系列データでなければならないため、これは不可能である。 そこで我々は,自己回帰SNNモデルを用いて潜時空間を構築し,その出力からランダムに選択して潜時変数をサンプリングした。 これにより潜伏変数はベルヌーイ過程に従うことができ、変分学習が可能である。 そこで我々は全モジュールをSNNで構築するフルスパイキング変分自動エンコーダを構築した。 私たちの知る限りでは、私たちは初めて、SNN層だけでVAEを構築しました。 我々は,いくつかのデータセットを実験し,従来の ann と同等かそれ以上の品質の画像を生成できることを確認した。 コードはhttps://github.com/k amata1729/fullyspiki ngvaeで入手できる。

Spiking neural networks (SNNs) can be run on neuromorphic devices with ultra-high speed and ultra-low energy consumption because of their binary and event-driven nature. Therefore, SNNs are expected to have various applications, including as generative models being running on edge devices to create high-quality images. In this study, we build a variational autoencoder (VAE) with SNN to enable image generation. VAE is known for its stability among generative models; recently, its quality advanced. In vanilla VAE, the latent space is represented as a normal distribution, and floating-point calculations are required in sampling. However, this is not possible in SNNs because all features must be binary time series data. Therefore, we constructed the latent space with an autoregressive SNN model, and randomly selected samples from its output to sample the latent variables. This allows the latent variables to follow the Bernoulli process and allows variational learning. Thus, we build the Fully Spiking Variational Autoencoder where all modules are constructed with SNN. To the best of our knowledge, we are the first to build a VAE only with SNN layers. We experimented with several datasets, and confirmed that it can generate images with the same or better quality compared to conventional ANNs. The code is available at https://github.com/k amata1729/FullySpiki ngVAE
翻訳日:2021-10-10 13:27:48 公開日:2021-10-05
# 教師なし機械学習による複雑な実験の設計

Designing Complex Experiments by Applying Unsupervised Machine Learning ( http://arxiv.org/abs/2110.01458v2 )

ライセンス: Link先を確認
Alex Glushkovsky(参考訳) 実験の設計(DOE)は、さまざまなオブジェクトやプロセスの学習と改善に不可欠な役割を担っている。 本稿では、複雑な実験の実用的設計を支援するための教師なし機械学習の適用について論じる。 複雑な実験は、多くの要因、混合レベル設計を持ち、様々な理由から実現不可能な試行を除外する制約を受けることが特徴である。 このような特性を持つことで、経済的、運用的、タイムリーな健全な実践的な実験を設計することは極めて困難である。 これは、決定された目的を達成するために、必要な試行回数を完全な因子設計から大幅に減少させることを意味する。 ベータ変分オートエンコーダ (beta-VAE) は、低次元ラテント空間における不可能な試行をフィルタリングした後、初期完全因子設計の試行を表現するために応用されている。 可視化と解釈性については,2次元表現に限る。 β-vaeは、(1)潜在空間次元の直交性、(2)潜在空間上の表現の等方性多変量標準正規分布、(3)要因のレベルによる潜在空間表現の不等角化、(4)初期設計の潜在空間への適用制約の伝播、(5)潜在空間点のデコードによる試行の生成をサポートする。 そのような性質を持つ潜在空間に初期設計表現を持つことで、四角格子や極格子のような潜在空間における試行回数とそのパターンを指定することで、実験の実用的設計(g-doe)を生成できる。 クラスタリングと集約された勾配メトリクスがグリッド仕様のガイドとして示されている。

Design of experiments (DOE) is playing an essential role in learning and improving a variety of objects and processes. The article discusses the application of unsupervised machine learning to support the pragmatic designs of complex experiments. Complex experiments are characterized by having a large number of factors, mixed-level designs, and may be subject to constraints that eliminate some unfeasible trials for various reasons. Having such attributes, it is very challenging to design pragmatic experiments that are economically, operationally, and timely sound. It means a significant decrease in the number of required trials from a full factorial design, while still attempting to achieve the defined objectives. A beta variational autoencoder (beta-VAE) has been applied to represent trials of the initial full factorial design after filtering out unfeasible trials on the low dimensional latent space. Regarding visualization and interpretability, the paper is limited to 2D representations. Beta-VAE supports (1) orthogonality of the latent space dimensions, (2) isotropic multivariate standard normal distribution of the representation on the latent space, (3) disentanglement of the latent space representation by levels of factors, (4) propagation of the applied constraints of the initial design into the latent space, and (5) generation of trials by decoding latent space points. Having an initial design representation on the latent space with such properties, it allows for the generation of pragmatic design of experiments (G-DOE) by specifying the number of trials and their pattern on the latent space, such as square or polar grids. Clustering and aggregated gradient metrics have been shown to guide grid specification.
翻訳日:2021-10-10 09:17:05 公開日:2021-10-05
# (参考訳) 注意は常に必要か? 音声からの言語識別に関する事例研究 [全文訳有]

Is Attention always needed? A Case Study on Language Identification from Speech ( http://arxiv.org/abs/2110.03427v1 )

ライセンス: CC BY 4.0
Atanu Mandal, Santanu Pal, Indranil Dutta, Mahidas Bhattacharya, Sudip Kumar Naskar(参考訳) 言語識別(Language Identification、LID)は、音声検体から音声言語を検出するために使用される音声認識(ASR)の最初のステップである。 しかし、多言語音声処理が可能な最先端システムでは、ユーザーはそれを使う前に1つ以上の言語を明示的に設定する必要がある。 したがって、LIDは、音声認識に失敗する多言語文脈における発話言語を解析できない状況において、非常に重要な役割を果たす。 本稿では,Mel- frequency Cepstral Coefficient (MFCC) の音声標本の特徴を応用した,注意に基づく畳み込みリカレントニューラルネットワーク(CRNN with Attention)を提案する。 さらに,CNN(Convolutional Neural Network)やCRNN(Convolutional Recurrent Neural Network)といった最先端のアプローチを再現し,提案手法と比較する。 13の異なるインドの言語について広範な評価を行い、98%以上の精度で分類を行った。 我々のLIDモデルはノイズに対して堅牢であり、ノイズの多いシナリオで91.2%の精度を提供する。 提案されたモデルは、新しい言語に容易に拡張できる。

Language Identification (LID), a recommended initial step to Automatic Speech Recognition (ASR), is used to detect a spoken language from audio specimens. In state-of-the-art systems capable of multilingual speech processing, however, users have to explicitly set one or more languages before using them. LID, therefore, plays a very important role in situations where ASR based systems cannot parse the uttered language in multilingual contexts causing failure in speech recognition. We propose an attention based convolutional recurrent neural network (CRNN with Attention) that works on Mel-frequency Cepstral Coefficient (MFCC) features of audio specimens. Additionally, we reproduce some state-of-the-art approaches, namely Convolutional Neural Network (CNN) and Convolutional Recurrent Neural Network (CRNN), and compare them to our proposed method. We performed extensive evaluation on thirteen different Indian languages and our model achieves classification accuracy over 98%. Our LID model is robust to noise and provides 91.2% accuracy in a noisy scenario. The proposed model is easily extensible to new languages.
翻訳日:2021-10-09 14:25:41 公開日:2021-10-05
# (参考訳) 勧告システムのための強力なノード埋め込み生成のためのSVDの再検討 [全文訳有]

Revisiting SVD to generate powerful Node Embeddings for Recommendation Systems ( http://arxiv.org/abs/2110.03665v1 )

ライセンス: CC BY 4.0
Amar Budhiraja(参考訳) グラフ表現学習(grl)は、レコメンデーションシステムにおける近未来の有望な分野である。 本稿では,ユーザとアイテムの生成を組込むための隣接行列の特異値分解(svd)を再検討し,それらの組込みの上に2層ニューラルネットワークを用い,ユーザとアイテムのペア間の関連性を学習する。 GRLにおける高次学習の成功に触発されて,隣接行列の2次を通したSVDの2つのホップ隣人を含む手法が提案され,ワンホップ隣人のみを用いる単純なSVD法と比較して性能が向上した。 3つの一般公開されたレコメンデーションシステムのデータセットに対する実証的な検証は、提案された手法が単純であるにもかかわらず、多くの最先端の手法を破り、3つのデータセットのうち2つがそれら全てを10%のマージンまで上回っていることを示している。 本研究は, 深層学習における行列分解手法, 特にSVDの有効性を明らかにするとともに, これらの手法がレコメンデーションシステムにおいて重要なベースラインとなっていることを示すものである。

Graph Representation Learning (GRL) is an upcoming and promising area in recommendation systems. In this paper, we revisit the Singular Value Decomposition (SVD) of adjacency matrix for embedding generation of users and items and use a two-layer neural network on top of these embeddings to learn relevance between user-item pairs. Inspired by the success of higher-order learning in GRL, we further propose an extension of this method to include two-hop neighbors for SVD through the second order of the adjacency matrix and demonstrate improved performance compared with the simple SVD method which only uses one-hop neighbors. Empirical validation on three publicly available datasets of recommendation system demonstrates that the proposed methods, despite being simple, beat many state-of-the-art methods and for two of three datasets beats all of them up to a margin of 10%. Through our research, we want to shed light on the effectiveness of matrix factorization approaches, specifically SVD, in the deep learning era and show that these methods still contribute as important baselines in recommendation systems.
翻訳日:2021-10-09 14:08:06 公開日:2021-10-05
# (参考訳) 静止グラフ信号からの隠れ変数を持つ多重グラフの合同推論 [全文訳有]

Joint inference of multiple graphs with hidden variables from stationary graph signals ( http://arxiv.org/abs/2110.03666v1 )

ライセンス: CC BY 4.0
Samuel Rey, Andrei Buciulea, Madeline Navarro, Santiago Segarra, and Antonio G. Marques(参考訳) ノーダル観測の集合からグラフを学ぶことは、公式にはグラフトポロジー推論として知られる顕著な問題である。 しかし、現在のアプローチは一般に単一ネットワークの推測に重点を置いており、全てのノードからの観測が可能であると仮定している。 第一に、多くの現代のセットアップは複数の関連ネットワークを含み、第二に、ノードのサブセットのみが観測され、残りは隠れている場合が多い。 これらの事実に触発され,隠れ変数の影響をモデル化する共同グラフトポロジ推論手法を導入する。 観測された信号が探索グラフ上で定常であり、グラフが密接に関連しているという仮定の下で、複数ネットワークの合同推定により、そのような関係を利用して学習グラフの品質を向上させることができる。 さらに,隠れノードの影響をモデル化し,有害な影響を最小限に抑えるという課題に直面した。 既約のアプローチを得るには、設定の特定の構造を利用し、観測されたノードと隠れノードの両方に影響を与える異なるグラフ間の類似性を利用する。 提案手法をテストするため,合成および実世界のグラフを用いた数値シミュレーションを行った。

Learning graphs from sets of nodal observations represents a prominent problem formally known as graph topology inference. However, current approaches are limited by typically focusing on inferring single networks, and they assume that observations from all nodes are available. First, many contemporary setups involve multiple related networks, and second, it is often the case that only a subset of nodes is observed while the rest remain hidden. Motivated by these facts, we introduce a joint graph topology inference method that models the influence of the hidden variables. Under the assumptions that the observed signals are stationary on the sought graphs and the graphs are closely related, the joint estimation of multiple networks allows us to exploit such relationships to improve the quality of the learned graphs. Moreover, we confront the challenging problem of modeling the influence of the hidden nodes to minimize their detrimental effect. To obtain an amenable approach, we take advantage of the particular structure of the setup at hand and leverage the similarity between the different graphs, which affects both the observed and the hidden nodes. To test the proposed method, numerical simulations over synthetic and real-world graphs are provided.
翻訳日:2021-10-09 13:54:06 公開日:2021-10-05
# ブラックボックスの解凍:アルゴリズム決定の規制

Unpacking the Black Box: Regulating Algorithmic Decisions ( http://arxiv.org/abs/2110.03443v1 )

ライセンス: Link先を確認
Laura Blattner, Scott Nelson, Jann Spiess(参考訳) エージェントが複雑な予測関数を設計するが、プリンシパルは予測関数について学べる情報量に制限がある世界において、最適なアルゴリズムの監視を特徴付ける。 本研究は,主観と主観的選好の不一致による偏見が,世界の真の状態に関する不確実性に対して小さい限り,完全透明であるほど単純である予測関数に対するエージェントの制限は非効率であることを示す。 アルゴリズムによる監査は福祉を改善するが、その利益は監査ツールの設計に依存する。 多くのポストホックな説明ツールの焦点である、全体的な情報損失を最小化することに注力するツールは、福祉関連の結果である誤った予測源ではなく、予測関数の平均的な振る舞いを説明することに重点を置いているため、一般的に非効率である。 過度な偽陽性や人種格差といったインセンティブの不一致の源泉に焦点を絞ったツールは、最優先の解決策を提供することができる。 消費者貸出の応用による理論的知見の実証的支援を行う。

We characterize optimal oversight of algorithms in a world where an agent designs a complex prediction function but a principal is limited in the amount of information she can learn about the prediction function. We show that limiting agents to prediction functions that are simple enough to be fully transparent is inefficient as long as the bias induced by misalignment between principal's and agent's preferences is small relative to the uncertainty about the true state of the world. Algorithmic audits can improve welfare, but the gains depend on the design of the audit tools. Tools that focus on minimizing overall information loss, the focus of many post-hoc explainer tools, will generally be inefficient since they focus on explaining the average behavior of the prediction function rather than sources of mis-prediction, which matter for welfare-relevant outcomes. Targeted tools that focus on the source of incentive misalignment, e.g., excess false positives or racial disparities, can provide first-best solutions. We provide empirical support for our theoretical findings using an application in consumer lending.
翻訳日:2021-10-08 16:11:57 公開日:2021-10-05
# ランダム化SVDの効率的なGPU実装とその応用

Efficient GPU implementation of randomized SVD and its applications ( http://arxiv.org/abs/2110.03423v1 )

ライセンス: Link先を確認
{\L}ukasz Struski, Pawe{\l} Morkisz, Przemys{\l}aw Spurek, Samuel Rodriguez Bernabeu, Tomasz Trzci\'nski(参考訳) 行列分解は、次元削減、データ圧縮、ディープラーニングアルゴリズムなど、機械学習においてユビキタスである。 行列分解の典型的な解は多項式複雑性を持ち、計算コストと時間を大幅に増加させる。 本研究では, 計算機行列分解の計算負担を軽減するために, ディープラーニングなどの計算アーキテクチャである, 最新のグラフィカル処理ユニット(GPU)上で並列に動作可能な効率的な処理処理処理を利用する。 具体的には、ランダム化分解問題を再構築し、高速行列乗算演算(BLAS-3)をビルディングブロックとして組み込む。 この定式化と高速な乱数生成器を組み合わせることで、gpuに実装された並列処理の可能性を完全に活用できることを示す。 本研究は,本研究の成果を公式なCUDA実装の一部として公表する(https://docs.nvidia .com/cuda/cusolver/i ndex.html)。

Matrix decompositions are ubiquitous in machine learning, including applications in dimensionality reduction, data compression and deep learning algorithms. Typical solutions for matrix decompositions have polynomial complexity which significantly increases their computational cost and time. In this work, we leverage efficient processing operations that can be run in parallel on modern Graphical Processing Units (GPUs), predominant computing architecture used e.g. in deep learning, to reduce the computational burden of computing matrix decompositions. More specifically, we reformulate the randomized decomposition problem to incorporate fast matrix multiplication operations (BLAS-3) as building blocks. We show that this formulation, combined with fast random number generators, allows to fully exploit the potential of parallel processing implemented in GPUs. Our extensive evaluation confirms the superiority of this approach over the competing methods and we release the results of this research as a part of the official CUDA implementation (https://docs.nvidia .com/cuda/cusolver/i ndex.html).
翻訳日:2021-10-08 15:24:39 公開日:2021-10-05
# 深層学習を用いた3次元手話翻訳へのECoG信号のデコード

Decoding ECoG signal into 3D hand translation using deep learning ( http://arxiv.org/abs/2110.03528v1 )

ライセンス: Link先を確認
Maciej \'Sliwowski, Matthieu Martin, Antoine Souloumiac, Pierre Blanchart, Tetiana Aksenova(参考訳) 運動脳-コンピュータインターフェース(Motor Brain-Computer Interface、BCI)は、運動障害者が自分の環境と対話できる、有望な技術である。 リアルタイムで正確なbciを設計することは、現実の環境で患者が使用しやすく、安全で、簡単に使えるようにするために不可欠である。 エレクトロコルチコグラフィー(ECoG)に基づくBCIは、記録装置の侵入性と記録信号の空間的・時間的分解能の良好な相違として出現する。 しかし、連続手の動きを予測するために使用されるほとんどのECoG信号デコーダは線形モデルである。 これらのモデルは限られた表現能力を持ち、ECoG信号と連続手の動きの関係を捉えることができない。 ディープラーニング(DL)モデルは、多くの問題において最先端のモデルであり、この関係をよりよく捉えるための解決策になり得る。 本研究では,ECoG信号から抽出した時間周波数特徴を用いた3次元連続手話翻訳の予測法について検討した。 分析に使用されるデータセットは、長期臨床試験(clinicaltrials.gov identifier: nct02550522)の一部であり、四麻痺患者によるクローズドループ実験中に取得された。 提案アーキテクチャには、多層パーセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、長期記憶ネットワーク(LSTM)などがある。 DLモデルとマルチ線形モデルの精度をコサイン類似度を用いてオフラインで比較した。 以上の結果から,CNNアーキテクチャは現状のマルチリニアモデルよりも優れていることがわかった。 最良構造は、隣り合う電極とCNNとの空間的相関を利用しており、LSTMを用いて所望のハンドトラジェクトリのシーケンシャル特性から恩恵を受けている。 総じて、DLは左手では0.189から0.302、左手では0.157から0.249まで、マルチリニアモデルと比較して平均コサイン類似度を60%向上させた。

Motor brain-computer interfaces (BCIs) are a promising technology that may enable motor-impaired people to interact with their environment. Designing real-time and accurate BCI is crucial to make such devices useful, safe, and easy to use by patients in a real-life environment. Electrocorticography (ECoG)-based BCIs emerge as a good compromise between invasiveness of the recording device and good spatial and temporal resolution of the recorded signal. However, most ECoG signal decoders used to predict continuous hand movements are linear models. These models have a limited representational capacity and may fail to capture the relationship between ECoG signal and continuous hand movements. Deep learning (DL) models, which are state-of-the-art in many problems, could be a solution to better capture this relationship. In this study, we tested several DL-based architectures to predict imagined 3D continuous hand translation using time-frequency features extracted from ECoG signals. The dataset used in the analysis is a part of a long-term clinical trial (ClinicalTrials.gov identifier: NCT02550522) and was acquired during a closed-loop experiment with a tetraplegic subject. The proposed architectures include multilayer perceptron (MLP), convolutional neural networks (CNN), and long short-term memory networks (LSTM). The accuracy of the DL-based and multilinear models was compared offline using cosine similarity. Our results show that CNN-based architectures outperform the current state-of-the-art multilinear model. The best architecture exploited the spatial correlation between neighboring electrodes with CNN and benefited from the sequential character of the desired hand trajectory by using LSTMs. Overall, DL increased the average cosine similarity, compared to the multilinear model, by up to 60%, from 0.189 to 0.302 and from 0.157 to 0.249 for the left and right hand, respectively.
翻訳日:2021-10-08 15:24:22 公開日:2021-10-05
# データ駆動低次モデリングのためのニューラルネットワークアーキテクチャの比較

A Comparison of Neural Network Architectures for Data-Driven Reduced-Order Modeling ( http://arxiv.org/abs/2110.03442v1 )

ライセンス: Link先を確認
Anthony Gruber, Max Gunzburger, Lili Ju, Zhu Wang(参考訳) 深層畳み込みオートエンコーダ (CAEs) の人気は、大規模力学系のシミュレーションに有効な減階モデル (ROMs) を生み出している。 しかし、全てのROMシナリオにおいて深いCAEが優れた性能を提供するかどうかは不明である。 これを解明するために、自己エンコーダアーキテクチャが関連するROMに与える影響を、単純な完全連結自己エンコーダと新しいグラフ畳み込み自己エンコーダの2つの選択肢との比較により検討した。 ベンチマーク実験により, あるROMアプリケーションにおける優れたオートエンコーダアーキテクチャは, 潜在空間のサイズとスナップショットデータ構造に大きく依存していることが示され, 提案アーキテクチャは, 潜在空間が十分に大きい場合に不規則な接続性を持つデータに利点を示す。

The popularity of deep convolutional autoencoders (CAEs) has engendered effective reduced-order models (ROMs) for the simulation of large-scale dynamical systems. However, it is not known whether deep CAEs provide superior performance in all ROM scenarios. To elucidate this, the effect of autoencoder architecture on its associated ROM is studied through the comparison of deep CAEs against two alternatives: a simple fully connected autoencoder, and a novel graph convolutional autoencoder. Through benchmark experiments, it is shown that the superior autoencoder architecture for a given ROM application is highly dependent on the size of the latent space and the structure of the snapshot data, with the proposed architecture demonstrating benefits on data with irregular connectivity when the latent space is sufficiently large.
翻訳日:2021-10-08 15:20:45 公開日:2021-10-05
# (参考訳) バイナリニューラルネットワークを用いた通信効率のよい連合学習 [全文訳有]

Communication-Effici ent Federated Learning with Binary Neural Networks ( http://arxiv.org/abs/2110.02226v1 )

ライセンス: CC BY 4.0
Yuzhi Yang, Zhaoyang Zhang and Qianqian Yang(参考訳) Federated Learning(FL)は、多くのデバイスが中央サーバにデータを公開することなく、共有グローバルモデルの共同トレーニングを可能にする、プライバシ保護機械学習設定である。 しかし、FLはトレーニングを調整するすべてのクライアントとサーバの間でパラメータの頻繁な交換を伴います。 これにより、広範な通信オーバーヘッドが発生し、限られた通信リンクを持つFLの大きなボトルネックとなる可能性がある。 本稿では,無線エッジネットワークにおける拘束的遅延と効率の要求を満たすために,通常の実数値ニューラルネットワークの代わりに,FL設定のバイナリニューラルネットワーク(BNN)をトレーニングすることを検討する。 本稿では,クライアントがバイナリパラメータのみをサーバにアップロードする,bnnトレーニング用の新しいflフレームワークを提案する。 また,BNNのトレーニングに通常必要となる集約された実数値補助パラメータがなくても,BNNの性能を保たせる,ML(Maximum Likelihood)推定に基づく新しいパラメータ更新手法を提案する。 さらに,本論文で初めて,BNNの訓練が収束している条件を理論的に導出した。 {数値計算の結果,提案手法は,従来の実数値パラメータを用いたニューラルネットワークに比べて通信コストを大幅に削減し,2値化による性能損失をハイブリッド手法でさらに補償できることがわかった。

Federated learning (FL) is a privacy-preserving machine learning setting that enables many devices to jointly train a shared global model without the need to reveal their data to a central server. However, FL involves a frequent exchange of the parameters between all the clients and the server that coordinates the training. This introduces extensive communication overhead, which can be a major bottleneck in FL with limited communication links. In this paper, we consider training the binary neural networks (BNN) in the FL setting instead of the typical real-valued neural networks to fulfill the stringent delay and efficiency requirement in wireless edge networks. We introduce a novel FL framework of training BNN, where the clients only upload the binary parameters to the server. We also propose a novel parameter updating scheme based on the Maximum Likelihood (ML) estimation that preserves the performance of the BNN even without the availability of aggregated real-valued auxiliary parameters that are usually needed during the training of the BNN. Moreover, for the first time in the literature, we theoretically derive the conditions under which the training of BNN is converging. { Numerical results show that the proposed FL framework significantly reduces the communication cost compared to the conventional neural networks with typical real-valued parameters, and the performance loss incurred by the binarization can be further compensated by a hybrid method.
翻訳日:2021-10-08 14:21:59 公開日:2021-10-05
# (参考訳) 低リソース会話型ASRにおけるN-best Rescoringのための曖昧なBERT [全文訳有]

Disambiguation-BERT for N-best Rescoring in Low-Resource Conversational ASR ( http://arxiv.org/abs/2110.02267v1 )

ライセンス: CC BY 4.0
Pablo Ortiz and Simen Burud(参考訳) 我々は, BERT言語モデルによる過去の会話文脈を, N-best RescoringによるCTCに基づく自動音声認識(ASR)システムに含めることを検討した。 外部データ無しで文書の曖昧さを微調整するためのデータ効率戦略を提案する。 以上の結果から,単語誤り率を37.2%まで回復させることができた。 言語(ノルウェー語)、トーン(自発的、会話的)、トピック(連絡手続きとカスタマーサービス電話)の両方で、低リソースのデータドメインでこれを行います。 本研究では,データの性質がコンテキスト拡張N-best再構成の性能にどのように影響するかを示す。

We study the inclusion of past conversational context through BERT language models into a CTC-based Automatic Speech Recognition (ASR) system via N-best rescoring. We introduce a data-efficient strategy to fine-tune BERT on transcript disambiguation without external data. Our results show word error rate recoveries up to 37.2% with context-augmented BERT rescoring. We do this in low-resource data domains, both in language (Norwegian), tone (spontaneous, conversational), and topics (parliament proceedings and customer service phone calls). We show how the nature of the data greatly affects the performance of context-augmented N-best rescoring.
翻訳日:2021-10-08 13:39:42 公開日:2021-10-05
# (参考訳) セルインスタンスセグメンテーションのためのトランスフォーマー支援畳み込みネットワーク [全文訳有]

Transformer Assisted Convolutional Network for Cell Instance Segmentation ( http://arxiv.org/abs/2110.02270v1 )

ライセンス: CC BY 4.0
Deepanshu Pandey, Pradyumna Gupta, Sumit Bhattacharya, Aman Sinha, Rohit Agarwal(参考訳) R-CNNやFaster R-CNNのような領域提案に基づく手法は、オブジェクトの検出やセグメンテーションタスクにおいて極めて成功している。 近年、トランスフォーマーはコンピュータビジョンの分野でも人気を集めており、従来のモデルの性能向上に利用されている。 本稿では,従来の畳み込み特徴抽出器の性能を向上させるための,比較的新しいトランスベース手法を提案する。 本手法は,トランスフォーマーの自己着脱に類似した投影操作を適用することで,畳み込み特徴マップとトランスフォーマーベースのトークン埋め込みを融合する。 以上の結果から, トランスフォーマーを用いた特徴抽出器は, バニラ・コンボリューションバックボーンに比べてmIoUスコアが有意に向上することが示された。

Region proposal based methods like R-CNN and Faster R-CNN models have proven to be extremely successful in object detection and segmentation tasks. Recently, Transformers have also gained popularity in the domain of Computer Vision, and are being utilised to improve the performance of conventional models. In this paper, we present a relatively new transformer based approach to enhance the performance of the conventional convolutional feature extractor in the existing region proposal based methods. Our approach merges the convolutional feature maps with transformer-based token embeddings by applying a projection operation similar to self-attention in transformers. The results of our experiments show that transformer assisted feature extractor achieves a significant improvement in mIoU (mean Intersection over Union) scores compared to vanilla convolutional backbone.
翻訳日:2021-10-08 13:07:30 公開日:2021-10-05
# (参考訳) 微分プログラミングのための粗大化最適化 [全文訳有]

Coarsening Optimization for Differentiable Programming ( http://arxiv.org/abs/2110.02307v1 )

ライセンス: CC BY 4.0
Xipeng Shen, Guoqiang Zhang, Irene Dea, Samantha Andow, Emilio Arroyo-Fang, Neal Gafter, Johann George, Melissa Grueter, Erik Meijer, Steffi Stumpos, Alanna Tempest, Christy Warden, Shannon Yang(参考訳) 本稿では,粗化最適化という,微分可能プログラミングの新しい最適化手法を提案する。 象徴的分化とアルゴリズム的分化(AD)を統括する体系的な方法を提供する。 これにより、ADの各ステップで区別される計算の粒度は、単一の演算よりもはるかに大きくなり、ADのランタイム計算やデータアロケーションが大幅に削減される。 そこで本研究では,分岐やループを含む計算の記号的推論と微分を可能にする新しい手法であるphi-calculusを提案する。 さらに、再利用中心の関心の識別セグメントの設計を通じて、象徴的な分化と再利用のバランス、粗い粒度において「表現の膨らみ」を避ける。 実世界のアプリケーションの集合に関する実験では、粗大化最適化はADの高速化に有効であり、数倍から2桁のスピードアップを生み出す。

This paper presents a novel optimization for differentiable programming named coarsening optimization. It offers a systematic way to synergize symbolic differentiation and algorithmic differentiation (AD). Through it, the granularity of the computations differentiated by each step in AD can become much larger than a single operation, and hence lead to much reduced runtime computations and data allocations in AD. To circumvent the difficulties that control flow creates to symbolic differentiation in coarsening, this work introduces phi-calculus, a novel method to allow symbolic reasoning and differentiation of computations that involve branches and loops. It further avoids "expression swell" in symbolic differentiation and balance reuse and coarsening through the design of reuse-centric segment of interest identification. Experiments on a collection of real-world applications show that coarsening optimization is effective in speeding up AD, producing several times to two orders of magnitude speedups.
翻訳日:2021-10-08 11:56:02 公開日:2021-10-05
# (参考訳) Phoebe: 学習ベースのチェックポイント最適化 [全文訳有]

Phoebe: A Learning-based Checkpoint Optimizer ( http://arxiv.org/abs/2110.02313v1 )

ライセンス: CC0 1.0
Yiwen Zhu, Matteo Interlandi, Abhishek Roy, Krishnadhan Das, Hiren Patel, Malay Bag, Hitesh Sharma, Alekh Jindal(参考訳) クラウドスケールの処理エンジンと組み合わせた使いやすいプログラミングインターフェースにより、ビッグデータシステムユーザは、大量のデータに対して任意の複雑な分析ジョブを作成できるようになった。 しかし、分析ジョブの複雑さと規模が大きくなるにつれて、多くの予期せぬ問題、一時的なストレージ上の巨大な中間データを持つホットスポット、障害後のジョブリカバリ時間、Microsoftが直面している問題の一例であるクエリオプティマイザの推定が悪化する。 これらの問題に対処するため,我々は効率的な学習ベースのチェックポイントオプティマイザであるphoebeを提案する。 コンパイル時の制約セットと目的関数が与えられた場合、フェーベはジョブプランの分解と、その出力を耐久性のあるグローバルストレージに保存する最適なチェックポイントのセットを決定することができる。 Phoebeは3つの機械学習予測器と1つの最適化モジュールで構成される。 ジョブの各ステージについて、Phoebe氏は、(1)実行時間、(2)出力サイズ、(3)ステージ間の依存関係を考慮した開始/終了時間に関する正確な予測を行う。 これらの予測を用いて,チェックポイント最適化を整数プログラミング問題として定式化し,実運用環境のレイテンシ要求を満たすスケーラブルなヒューリスティックアルゴリズムを提案する。 プロダクションワークロードにおけるphoebeの有効性を実証し,hotspotsの一時ストレージを70%以上解放し,平均で68%高速化し,パフォーマンスへの影響を最小限に抑えることを実証した。 Phoebe氏はまた、複数のチェックポイントを追加することはコスト効率ではなく、最適化の複雑さを劇的に減らすと説明している。

Easy-to-use programming interfaces paired with cloud-scale processing engines have enabled big data system users to author arbitrarily complex analytical jobs over massive volumes of data. However, as the complexity and scale of analytical jobs increase, they encounter a number of unforeseen problems, hotspots with large intermediate data on temporary storage, longer job recovery time after failures, and worse query optimizer estimates being examples of issues that we are facing at Microsoft. To address these issues, we propose Phoebe, an efficient learning-based checkpoint optimizer. Given a set of constraints and an objective function at compile-time, Phoebe is able to determine the decomposition of job plans, and the optimal set of checkpoints to preserve their outputs to durable global storage. Phoebe consists of three machine learning predictors and one optimization module. For each stage of a job, Phoebe makes accurate predictions for: (1) the execution time, (2) the output size, and (3) the start/end time taking into account the inter-stage dependencies. Using these predictions, we formulate checkpoint optimization as an integer programming problem and propose a scalable heuristic algorithm that meets the latency requirement of the production environment. We demonstrate the effectiveness of Phoebe in production workloads, and show that we can free the temporary storage on hotspots by more than 70% and restart failed jobs 68% faster on average with minimum performance impact. Phoebe also illustrates that adding multiple sets of checkpoints is not cost-efficient, which dramatically reduces the complexity of the optimization.
翻訳日:2021-10-08 11:05:38 公開日:2021-10-05
# (参考訳) 暗黙的に定義された表現を用いた確率的プログラミングによるAIアルゴリズムの統一 [全文訳有]

Unifying AI Algorithms with Probabilistic Programming using Implicitly Defined Representations ( http://arxiv.org/abs/2110.02325v1 )

ライセンス: CC BY 4.0
Avi Pfeffer, Michael Harradon, Joseph Campolongo, Sanja Cvijic(参考訳) 確率型プログラミングを用いたaiシステム開発のための新しいフレームワークであるscruffを紹介する。 scruffは、確率的選択を伴うコード、ニューラルネットワーク、微分方程式、制約システムなど、様々な表現を含むことができる。 これらの表現は、それら上で実行できる一連の標準化された操作を使って暗黙的に定義される。 汎用アルゴリズムはこれらの操作を使って実装され、異なる表現をまたいで一般化することができる。 ゼロ、ゼロ、あるいはそれ以上の操作実装は任意の表現に対して提供でき、アルゴリズムはその目的のために最も適切な実装を使用する柔軟性を提供し、表現をその機能に適した方法で使用できるようにする。 本稿では,暗黙的に定義された表現の一般的なアプローチを説明し,抽象度の異なる表現の多種多様な例を示す。 また、比較的小さな操作セットが、さまざまなAIアルゴリズムを統合するのにどのように役立つかを示す。 最後に、アルゴリズムが実行時にどの操作実装を使うかを選択するためにポリシーを利用できるかについて議論する。

We introduce Scruff, a new framework for developing AI systems using probabilistic programming. Scruff enables a variety of representations to be included, such as code with stochastic choices, neural networks, differential equations, and constraint systems. These representations are defined implicitly using a set of standardized operations that can be performed on them. General-purpose algorithms are then implemented using these operations, enabling generalization across different representations. Zero, one, or more operation implementations can be provided for any given representation, giving algorithms the flexibility to use the most appropriate available implementations for their purposes and enabling representations to be used in ways that suit their capabilities. In this paper, we explain the general approach of implicitly defined representations and provide a variety of examples of representations at varying degrees of abstraction. We also show how a relatively small set of operations can serve to unify a variety of AI algorithms. Finally, we discuss how algorithms can use policies to choose which operation implementations to use during execution.
翻訳日:2021-10-08 10:39:21 公開日:2021-10-05
# (参考訳) 多次元データに対するタスクアウェアプライバシ保護 [全文訳有]

Task-aware Privacy Preservation for Multi-dimensional Data ( http://arxiv.org/abs/2110.02329v1 )

ライセンス: CC BY 4.0
Jiangnan Cheng, Ao Tang, Sandeep Chinchali(参考訳) プライバシー保護のための最先端技術であるlocal differential privacy(ldp)は、いくつかの実世界のアプリケーションでうまくデプロイされている。 将来的には、より高度な機械学習(ml)タスクに入力されるよりリッチなユーザーデータ属性を匿名化するために、ldpを採用することができる。 しかし、今日のldpアプローチは、ほとんどタスクに依存しず、しばしば最適以下のパフォーマンスをもたらす -- 究極のタスクに最も関係のある機能に関係なく、与えられたプライバシー予算に従って、すべてのデータ属性にノイズを注入するだけでよい。 本稿では,タスク認識型プライバシ保存問題を考慮し,多次元ユーザデータの究極のタスク性能を大幅に向上させる方法について述べる。 鍵となるアイデアは、エンコーダ・デコーダフレームワークを使用して、ユーザデータのタスク関連潜在表現を学習(および匿名化)することであり、平均二乗誤差(MSE)タスク損失を持つ線形設定に対する分析的近似解を提供する。 また,一般非線形ケースに対する学習アルゴリズムによる近似解も提供する。 大規模な実験により,我々のタスク認識アプローチは,同じレベルのプライバシを確保しつつ,標準のLCPアプローチと比較して,究極のタスク精度を著しく向上することが示された。

Local differential privacy (LDP), a state-of-the-art technique for privacy preservation, has been successfully deployed in a few real-world applications. In the future, LDP can be adopted to anonymize richer user data attributes that will be input to more sophisticated machine learning (ML) tasks. However, today's LDP approaches are largely task-agnostic and often lead to sub-optimal performance -- they will simply inject noise to all data attributes according to a given privacy budget, regardless of what features are most relevant for an ultimate task. In this paper, we address how to significantly improve the ultimate task performance for multi-dimensional user data by considering a task-aware privacy preservation problem. The key idea is to use an encoder-decoder framework to learn (and anonymize) a task-relevant latent representation of user data, which gives an analytical near-optimal solution for a linear setting with mean-squared error (MSE) task loss. We also provide an approximate solution through a learning algorithm for general nonlinear cases. Extensive experiments demonstrate that our task-aware approach significantly improves ultimate task accuracy compared to a standard benchmark LDP approach while guaranteeing the same level of privacy.
翻訳日:2021-10-08 10:19:22 公開日:2021-10-05
# (参考訳) 多視点画像からの形状認識型多人数ポーズ推定

Shape-aware Multi-Person Pose Estimation from Multi-View Images ( http://arxiv.org/abs/2110.02330v1 )

ライセンス: CC BY 4.0
Zijian Dong, Jie Song, Xu Chen, Chen Guo, Otmar Hilliges(参考訳) 本稿では,多視点画像から複数の人物の3次元ポーズを推定するための簡易かつ効果的な手法を提案する。 提案する粗粒度パイプラインは,まず複数のカメラからのノイズ2d観測を3d空間に集約し,信頼度を意識した多数決手法に基づいて個別のインスタンスに関連付ける。 高信頼マルチビュー2次元観測と3次元共同候補をリンクする新しい最適化スキームから最終的なポーズ推定を得る。 さらに, SMPL などの統計パラメトリックボディモデルは, これらの3次元関節候補の正則化前として活用される。 具体的には、3DポーズとSMPLパラメータを交互に最適化する。 ここで、パラメトリックモデルは、不明瞭な3Dポーズの推定を補正し、欠落した関節検出を補うのに役立つ。 2次元と3次元の観測をリンクすることで、最終的な3次元ポーズを人間星座から切り離し、ノイズの多い2次元検出に対してより堅牢になるため、精度が高く、異なるデータソースに一般化できる。 提案手法をパブリックデータセット上で体系的に評価し,最新性能を実現する。 コードとビデオはプロジェクトのページ(https://ait.ethz.ch /projects/2021/multi -human-pose/)で公開されている。

In this paper we contribute a simple yet effective approach for estimating 3D poses of multiple people from multi-view images. Our proposed coarse-to-fine pipeline first aggregates noisy 2D observations from multiple camera views into 3D space and then associates them into individual instances based on a confidence-aware majority voting technique. The final pose estimates are attained from a novel optimization scheme which links high-confidence multi-view 2D observations and 3D joint candidates. Moreover, a statistical parametric body model such as SMPL is leveraged as a regularizing prior for these 3D joint candidates. Specifically, both 3D poses and SMPL parameters are optimized jointly in an alternating fashion. Here the parametric models help in correcting implausible 3D pose estimates and filling in missing joint detections while updated 3D poses in turn guide obtaining better SMPL estimations. By linking 2D and 3D observations, our method is both accurate and generalizes to different data sources because it better decouples the final 3D pose from the inter-person constellation and is more robust to noisy 2D detections. We systematically evaluate our method on public datasets and achieve state-of-the-art performance. The code and video will be available on the project page: https://ait.ethz.ch/ projects/2021/multi- human-pose/.
翻訳日:2021-10-08 09:51:53 公開日:2021-10-05
# (参考訳) アスペクトベース感性分析のための条件付きテキスト生成の探索 [全文訳有]

Exploring Conditional Text Generation for Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2110.02334v1 )

ライセンス: CC BY 4.0
Siva Uday Sampreeth Chebolu, Franck Dernoncourt, Nedim Lipka, Thamar Solorio(参考訳) アスペクトベースの感情分析(ABSA)は、ユーザ生成レビューを処理して判断するNLPタスクである i) 対象が評価されていること (ii)その属するアスペクトカテゴリ、及び (iii)対象とアスペクト対に対して表現された感情。 本稿では,ABSAを抽象的な要約型条件文生成タスクに変換し,目的,側面,極性を用いて補助文を生成することを提案する。 この課題定式化と提案システムの有効性を実証するために,条件付きテキスト生成タスクのための事前学習モデルを構築し,いくつかのレストランドメインと都市近郊ドメインベンチマークデータセットで最新の結果を得る。

Aspect-based sentiment analysis (ABSA) is an NLP task that entails processing user-generated reviews to determine (i) the target being evaluated, (ii) the aspect category to which it belongs, and (iii) the sentiment expressed towards the target and aspect pair. In this article, we propose transforming ABSA into an abstract summary-like conditional text generation task that uses targets, aspects, and polarities to generate auxiliary statements. To demonstrate the efficacy of our task formulation and a proposed system, we fine-tune a pre-trained model for conditional text generation tasks to get new state-of-the-art results on a few restaurant domains and urban neighborhoods domain benchmark datasets.
翻訳日:2021-10-08 09:50:51 公開日:2021-10-05
# (参考訳) 発電機の混合による対向防御

Adversarial defenses via a mixture of generators ( http://arxiv.org/abs/2110.02364v1 )

ライセンス: CC BY 4.0
Maciej \.Zelaszczyk and Jacek Ma\'ndziuk(参考訳) ニューラルネットワークの巨大な成功にもかかわらず、敵対的な例は、ディープラーニングシステムの比較的弱い理解の特徴である。 より強力な敵攻撃の構築と、敵の例の効果に対抗するための設計方法の両方に多大な努力が払われている。 そこで本稿では, 敵攻撃による不正なクラスを回復するために, 逆入力データを発電機の混合により変換する手法を提案する。 画像の正準集合は、潜在的に複数の攻撃によって敵の例を生成するために使用される。 このような変換された画像は、初期変換を反転させるために逆向きに訓練されたジェネレータによって処理される。 我々の知る限りでは、これは防衛機構として混合ベースの敵対的訓練を受けたシステムの最初の使用である。 複数の敵の攻撃を同時に行うことで、監視なしでシステムを訓練することが可能であることを示す。 本システムでは,MNISTデータセットのアタックやデータラベルを使用せずに,未確認例のクラス情報を復元することができる。 その結果、このマルチアタックアプローチは、単一アタック設定でテストされた敵防御と競合することを示した。

In spite of the enormous success of neural networks, adversarial examples remain a relatively weakly understood feature of deep learning systems. There is a considerable effort in both building more powerful adversarial attacks and designing methods to counter the effects of adversarial examples. We propose a method to transform the adversarial input data through a mixture of generators in order to recover the correct class obfuscated by the adversarial attack. A canonical set of images is used to generate adversarial examples through potentially multiple attacks. Such transformed images are processed by a set of generators, which are trained adversarially as a whole to compete in inverting the initial transformations. To our knowledge, this is the first use of a mixture-based adversarially trained system as a defense mechanism. We show that it is possible to train such a system without supervision, simultaneously on multiple adversarial attacks. Our system is able to recover class information for previously-unseen examples with neither attack nor data labels on the MNIST dataset. The results demonstrate that this multi-attack approach is competitive with adversarial defenses tested in single-attack settings.
翻訳日:2021-10-08 09:19:16 公開日:2021-10-05
# (参考訳) 抽象テキスト推論のための大規模言語モデルの帰納バイアスの活用 [全文訳有]

Leveraging the Inductive Bias of Large Language Models for Abstract Textual Reasoning ( http://arxiv.org/abs/2110.02370v1 )

ライセンス: CC BY 4.0
Christopher Michael Rytting, David Wingate(参考訳) GPT-3やT5のような大きな自然言語モデルは、様々な一般的なNLPタスクにおいて印象的な能力を示している。 このようなモデルに埋め込まれた知識は、従来のNLPタスクだけでなく、シンボリック推論エンジンを訓練する非伝統的なタスクにも有用な帰納的バイアスをもたらすことを示す。 我々はこれらのエンジンが人間の直感を反映した自然な方法で素早く学習し、一般化することを観察する。 例えば、ブロックスタッキングをモデル化するためのそのようなシステムを訓練することは、言語によって部分的に捉えられた実世界の構造のために、自然に他の種類のオブジェクトを積み重ねることに一般化するかもしれない。 オブジェクトの操作やナビゲーションなどの抽象的なテキスト推論タスクについて検討し、新しいシナリオやそれらを構成するシンボルに対する多種類の一般化を実証する。 また,複雑なタスクを習得する学習者が,複雑なタスクに直行するのではなく,より簡単なタスクを学習することで,そのメリットを享受できる,という,‘textit{compositional learning}’の驚くべき有用性を示す。

Large natural language models (such as GPT-3 or T5) demonstrate impressive abilities across a range of general NLP tasks. Here, we show that the knowledge embedded in such models provides a useful inductive bias, not just on traditional NLP tasks, but also in the nontraditional task of training a symbolic reasoning engine. We observe that these engines learn quickly and generalize in a natural way that reflects human intuition. For example, training such a system to model block-stacking might naturally generalize to stacking other types of objects because of structure in the real world that has been partially captured by the language describing it. We study several abstract textual reasoning tasks, such as object manipulation and navigation, and demonstrate multiple types of generalization to novel scenarios and the symbols that comprise them. We also demonstrate the surprising utility of \textit{compositional learning}, where a learner dedicated to mastering a complicated task gains an advantage by training on relevant simpler tasks instead of jumping straight to the complicated task.
翻訳日:2021-10-08 09:18:18 公開日:2021-10-05
# (参考訳) モデル解釈性のための記号言語の基礎

Foundations of Symbolic Languages for Model Interpretability ( http://arxiv.org/abs/2110.02376v1 )

ライセンス: CC BY 4.0
Marcelo Arenas, Daniel Baez, Pablo Barcel\'o, Jorge P\'erez and Bernardo Subercaseaux(参考訳) MLモデルに対する個々の予測を説明するために、最近いくつかのクエリとスコアが提案されている。 mlモデルのフレキシブルで信頼性が高く、適用容易な解釈可能性メソッドの必要性から、異なる説明可能性クエリを自然に指定するための宣言型言語の開発の必要性を予見する。 このような言語を論理学でルート化するFOILは、単純だが重要な説明可能性クエリの多くを表現し、より表現力のある解釈可能性言語のコアとして機能する。 決定木とOBDDの2種類のMLモデルに対して,FOILクエリの計算複雑性について検討した。 mlモデルに対する可能な入力数はその次元において指数関数的であるため、フォイル評価問題の扱いやすさは繊細であるが、モデルの構造や評価対象のフォイルの断片を制限することで達成できる。 また,高レベル宣言型言語でラップされたfoilのプロトタイプ実装を行い,そのような言語を実際に使用できることを示す実験を行う。

Several queries and scores have recently been proposed to explain individual predictions over ML models. Given the need for flexible, reliable, and easy-to-apply interpretability methods for ML models, we foresee the need for developing declarative languages to naturally specify different explainability queries. We do this in a principled way by rooting such a language in a logic, called FOIL, that allows for expressing many simple but important explainability queries, and might serve as a core for more expressive interpretability languages. We study the computational complexity of FOIL queries over two classes of ML models often deemed to be easily interpretable: decision trees and OBDDs. Since the number of possible inputs for an ML model is exponential in its dimension, the tractability of the FOIL evaluation problem is delicate but can be achieved by either restricting the structure of the models or the fragment of FOIL being evaluated. We also present a prototype implementation of FOIL wrapped in a high-level declarative language and perform experiments showing that such a language can be used in practice.
翻訳日:2021-10-08 09:04:52 公開日:2021-10-05
# (参考訳) 推論型が言語間伝達性能に及ぼす影響の分析 [全文訳有]

Analyzing the Effects of Reasoning Types on Cross-Lingual Transfer Performance ( http://arxiv.org/abs/2110.02386v1 )

ライセンス: CC BY 4.0
Karthikeyan K, Aalok Sathe, Somak Aditya, Monojit Choudhury(参考訳) 多言語言語モデルは、自然言語推論(NLI)のような複雑なタスクにおいて、多くの言語で印象的なゼロショット精度を達成する。 NLI(および同等の複雑なタスク)の例は、しばしば様々な種類のサブタスクに関係し、異なる種類の推論を必要とする。 ある種の推論は、単言語的な文脈で学ぶことがより困難であることが証明されており、クロスリンガルな文脈では、同様の観察がゼロショット転送効率と少数ショットサンプル選択に光を当てる可能性がある。 そこで本研究では,多言語NLIデータセットをカテゴリ化して,単一言語アノテーションを複数言語に拡張する上での課題について検討する。 我々は,推論型と言語類似性の融合が転送性能に与える影響を統計的に観察する。

Multilingual language models achieve impressive zero-shot accuracies in many languages in complex tasks such as Natural Language Inference (NLI). Examples in NLI (and equivalent complex tasks) often pertain to various types of sub-tasks, requiring different kinds of reasoning. Certain types of reasoning have proven to be more difficult to learn in a monolingual context, and in the crosslingual context, similar observations may shed light on zero-shot transfer efficiency and few-shot sample selection. Hence, to investigate the effects of types of reasoning on transfer performance, we propose a category-annotated multilingual NLI dataset and discuss the challenges to scale monolingual annotations to multiple languages. We statistically observe interesting effects that the confluence of reasoning types and language similarities have on transfer performance.
翻訳日:2021-10-08 09:03:52 公開日:2021-10-05
# (参考訳) Few-Shot Learningにおける最大二部マッチングによるタスク親和性 [全文訳有]

Task Affinity with Maximum Bipartite Matching in Few-Shot Learning ( http://arxiv.org/abs/2110.02399v1 )

ライセンス: CC BY 4.0
Cat P. Le, Juncheng Dong, Mohammadreza Soltani, Vahid Tarokh(参考訳) 本稿では,あるタスクの知識を他のタスクの学習に利用する複雑さを表現するための非対称親和性スコアを提案する。 本手法は最大二成分マッチングアルゴリズムに基づき,fisher information matrixを用いた。 提案するスコアが数学的によく定義されていることを実証する理論的解析を行い,その後,親和性スコアを用いて,限定学習問題に対する新しいアルゴリズムを提案する。 特に、このスコアを用いて、テストデータに関連するトレーニングデータラベルを見つけ、検出された関連するデータを利用して、数発のモデルをエピソドミックに微調整する。 提案手法の有効性は, より小さなモデルを用いた場合であっても, 最先端手法の分類精度を向上させることで検証した。

We propose an asymmetric affinity score for representing the complexity of utilizing the knowledge of one task for learning another one. Our method is based on the maximum bipartite matching algorithm and utilizes the Fisher Information matrix. We provide theoretical analyses demonstrating that the proposed score is mathematically well-defined, and subsequently use the affinity score to propose a novel algorithm for the few-shot learning problem. In particular, using this score, we find relevant training data labels to the test data and leverage the discovered relevant data for episodically fine-tuning a few-shot model. Results on various few-shot benchmark datasets demonstrate the efficacy of the proposed approach by improving the classification accuracy over the state-of-the-art methods even when using smaller models.
翻訳日:2021-10-08 08:50:00 公開日:2021-10-05
# (参考訳) lmusを用いた言語モデリング:トランスフォーマーと比較してデータ効率やスケーリングが10倍向上 [全文訳有]

Language Modeling using LMUs: 10x Better Data Efficiency or Improved Scaling Compared to Transformers ( http://arxiv.org/abs/2110.02402v1 )

ライセンス: CC BY 4.0
Narsimha Chilkuri, Eric Hunsberger, Aaron Voelker, Gurshaant Malik, Chris Eliasmith(参考訳) 近年の研究では、言語モデリングのタスクにおけるトランスフォーマーの性能は6桁以上のモデルサイズとパワーローの関係に従うことが示されている。 変換器は素晴らしいスケーリングを示すが、その性能は大量のデータを処理し、計算とメモリの要求はシーケンス長と2倍に増加する。 これらの考慮により、シーケンス処理の一般的な事前処理を導入し、それぞれ$O(n)$と$O(n \ln n)$(またはそれ以上の)メモリと計算への依存性を示すレジェンダメモリユニットベースのモデルを構築した。 3桁以上の桁数で、我々の新しいアーキテクチャは10倍少ないトークンを持つトランスフォーマーと同じ精度を実現している。 また、同じトレーニング量で、我々のモデルはLSTMよりもトランスフォーマーが向上するのと同じくらい、トランスフォーマーの損失を改善できることを示した。 さらに,グローバル自己注意の追加が我々のアーキテクチャを補完し,拡張モデルによりさらにパフォーマンスが向上することを示す。

Recent studies have demonstrated that the performance of transformers on the task of language modeling obeys a power-law relationship with model size over six orders of magnitude. While transformers exhibit impressive scaling, their performance hinges on processing large amounts of data, and their computational and memory requirements grow quadratically with sequence length. Motivated by these considerations, we construct a Legendre Memory Unit based model that introduces a general prior for sequence processing and exhibits an $O(n)$ and $O(n \ln n)$ (or better) dependency for memory and computation respectively. Over three orders of magnitude, we show that our new architecture attains the same accuracy as transformers with 10x fewer tokens. We also show that for the same amount of training our model improves the loss over transformers about as much as transformers improve over LSTMs. Additionally, we demonstrate that adding global self-attention complements our architecture and the augmented model improves performance even further.
翻訳日:2021-10-08 08:24:21 公開日:2021-10-05
# (参考訳) 非教師なし画像異常検出のためのマルチスケールコントラリオ法 [全文訳有]

A Multi-Scale A Contrario method for Unsupervised Image Anomaly Detection ( http://arxiv.org/abs/2110.02407v1 )

ライセンス: CC BY 4.0
Matias Tailanian, Pablo Mus\'e, \'Alvaro Pardo(参考訳) 異常は正規性から逸脱する任意の非ランダム構造として定義することができる。 文献で報告されている異常検出方法は多種多様であり、通常、異常と見なされるものは特定のシナリオや応用によって異なる。 本研究では,畳み込みによって得られた特徴マップに統計的解析を適用した画像の異常を検出するためのコントラリオフレームワークを提案する。 本研究では,画像から得られたフィルタをパッチpca,gaborフィルタ,および事前学習した深層ニューラルネットワーク(resnet)から得られた特徴地図を用いて評価する。 提案手法はマルチスケールで完全に教師なしであり,様々なシナリオで異常を検出することができる。 この研究の最終的な目標は、自動車産業における革サンプルの微妙な欠陥を検出することであるが、同じアルゴリズムが、パブリックな異常データセットにおけるアート結果の状態を達成していることを示す。

Anomalies can be defined as any non-random structure which deviates from normality. Anomaly detection methods reported in the literature are numerous and diverse, as what is considered anomalous usually varies depending on particular scenarios and applications. In this work we propose an a contrario framework to detect anomalies in images applying statistical analysis to feature maps obtained via convolutions. We evaluate filters learned from the image under analysis via patch PCA, Gabor filters and the feature maps obtained from a pre-trained deep neural network (Resnet). The proposed method is multi-scale and fully unsupervised and is able to detect anomalies in a wide variety of scenarios. While the end goal of this work is the detection of subtle defects in leather samples for the automotive industry, we show that the same algorithm achieves state of the art results in public anomalies datasets.
翻訳日:2021-10-08 08:12:44 公開日:2021-10-05
# (参考訳) imaginary hindsight experience replay: まばらな報酬タスクのためのモデルベース学習 [全文訳有]

Imaginary Hindsight Experience Replay: Curious Model-based Learning for Sparse Reward Tasks ( http://arxiv.org/abs/2110.02414v1 )

ライセンス: CC BY 4.0
Robert McCarthy, Stephen J. Redmond(参考訳) モデルベース強化学習は、データ効率が向上し、モデルフリーのロボットアプリケーションにとって有望な学習戦略である。 しかし、現在の最先端のモデルベースの手法は、設計や実装が難しいような形状の報酬信号に依存している。 そこで本研究では,複雑な報酬工学の必要性を先取りする,スパース・リワード・マルチゴールタスクに適したシンプルなモデルベース手法を提案する。 このアプローチはImaginary Hindsight Experience Replayと呼ばれ、想像データをポリシー更新に組み込むことで、現実世界のインタラクションを最小化する。 スパース・リワード・セッティングにおける探索を改善するため、このポリシーは標準のヒンズート・エクスペリエンス・リプレイで訓練され、好奇心に基づく本質的な報酬が与えられる。 評価を行うと、この手法はOpenAI Gym Fetch Roboticsのベンチマークにおける最先端のモデルフリー手法と比較して、平均データ効率が桁違いに向上する。

Model-based reinforcement learning is a promising learning strategy for practical robotic applications due to its improved data-efficiency versus model-free counterparts. However, current state-of-the-art model-based methods rely on shaped reward signals, which can be difficult to design and implement. To remedy this, we propose a simple model-based method tailored for sparse-reward multi-goal tasks that foregoes the need for complicated reward engineering. This approach, termed Imaginary Hindsight Experience Replay, minimises real-world interactions by incorporating imaginary data into policy updates. To improve exploration in the sparse-reward setting, the policy is trained with standard Hindsight Experience Replay and endowed with curiosity-based intrinsic rewards. Upon evaluation, this approach provides an order of magnitude increase in data-efficiency on average versus the state-of-the-art model-free method in the benchmark OpenAI Gym Fetch Robotics tasks.
翻訳日:2021-10-08 07:56:11 公開日:2021-10-05
# (参考訳) CADA:unsupervised Optic Disc と Cup Segmentation のためのマルチスケール協調対向ドメイン適応

CADA: Multi-scale Collaborative Adversarial Domain Adaptation for Unsupervised Optic Disc and Cup Segmentation ( http://arxiv.org/abs/2110.02417v1 )

ライセンス: CC BY 4.0
Peng Liu, Charlie T. Tran, Bin Kong, Ruogu Fang(参考訳) 網膜イメージングデバイスの多様性は、ドメインシフトという大きな課題を提起する。これは、あるドメインでトレーニングされたディープラーニングモデルを新しいテスト領域に適用した場合のパフォーマンス低下につながる。 本稿では,複数領域適応器を特徴空間と出力空間の両方に階層的に適用したマルチスケール入力を提案する。 提案する訓練戦略と新しい教師なしドメイン適応フレームワークであるcollaborative adversarial domain adaptation (cada)は、この課題を効果的に克服することができる。 マルチスケール入力は特徴抽出にネットワークで使用されるプーリング層による情報損失を低減できるが,提案するCADAは,異なるネットワーク層における対角学習とアンサンブル重みの両面を通じて,最適な協調的適応を示す対話的パラダイムである。 特に,ラベルのない対象領域データのより良い予測を実現するために,ネットワーク層の異なるレベルからのマルチスケール出力における逆学習によるドメイン不変性とモデル一般化可能性を同時に達成し,トレーニング中の履歴重みの指数的移動平均(ema)を維持する。 対象ドメインからサンプルをアノテートすることなく、エンコーダ層とデコーダ層の複数の逆損失は、ドメイン分類器を混乱させるためにドメイン不変な特徴の抽出を導く。 一方、emaによる重みのセンシングは、複数の判別子学習への適応の不確実性を低減する。 包括的実験により,マルチスケール入力トレーニングを組み込んだcadaモデルが,難民,dishti-gs,rim-one-r 3データセットの眼底画像から網膜視板とカップをセグメンテーションする際の性能低下と最先端領域適応法を克服できることが実証された。

The diversity of retinal imaging devices poses a significant challenge: domain shift, which leads to performance degradation when applying the deep learning models trained on one domain to new testing domains. In this paper, we propose a multi-scale input along with multiple domain adaptors applied hierarchically in both feature and output spaces. The proposed training strategy and novel unsupervised domain adaptation framework, called Collaborative Adversarial Domain Adaptation (CADA), can effectively overcome the challenge. Multi-scale inputs can reduce the information loss due to the pooling layers used in the network for feature extraction, while our proposed CADA is an interactive paradigm that presents an exquisite collaborative adaptation through both adversarial learning and ensembling weights at different network layers. In particular, to produce a better prediction for the unlabeled target domain data, we simultaneously achieve domain invariance and model generalizability via adversarial learning at multi-scale outputs from different levels of network layers and maintaining an exponential moving average (EMA) of the historical weights during training. Without annotating any sample from the target domain, multiple adversarial losses in encoder and decoder layers guide the extraction of domain-invariant features to confuse the domain classifier. Meanwhile, the ensembling of weights via EMA reduces the uncertainty of adapting multiple discriminator learning. Comprehensive experimental results demonstrate that our CADA model incorporating multi-scale input training can overcome performance degradation and outperform state-of-the-art domain adaptation methods in segmenting retinal optic disc and cup from fundus images stemming from the REFUGE, Drishti-GS, and Rim-One-r3 datasets.
翻訳日:2021-10-08 07:43:04 公開日:2021-10-05
# (参考訳) 機構設計による特徴選択 [全文訳有]

Feature Selection by a Mechanism Design ( http://arxiv.org/abs/2110.02419v1 )

ライセンス: CC BY 4.0
Xingwei Hu(参考訳) 計量モデルや統計モデルを構築する際、多くの候補から関連する特徴や変数を選択する。 プレイヤーが候補であり、報酬関数が全ての可能なモデリングシナリオにおけるパフォーマンス測定である選択問題を研究するために連立ゲームが設定される。 したがって、理論上、無関係な特徴はゲーム内のダミープレイヤーと等価であり、全てのモデリング状況には何も寄与しない。 ゼロ平均寄与の仮説テストは、ある特徴が無関係かどうかを決定する規則である。 私たちのメカニズム設計では、最終ゴールは、期待されるモデルパフォーマンスと、期待される個々の限界効果の合計と完全に一致します。 すべてのモデリング機会の中で非形式的可能性のクラスの中で、マッチング方程式は各特徴に対する特定の評価をもたらす。 評価値とその標準偏差を見積もった後、評価値が0と大きく異なる場合、任意の候補特徴を除外します。 シミュレーション研究において,本手法はいくつかの一般的な手法よりも優れており,その精度はペイオフ関数の選択に頑健である。

In constructing an econometric or statistical model, we pick relevant features or variables from many candidates. A coalitional game is set up to study the selection problem where the players are the candidates and the payoff function is a performance measurement in all possible modeling scenarios. Thus, in theory, an irrelevant feature is equivalent to a dummy player in the game, which contributes nothing to all modeling situations. The hypothesis test of zero mean contribution is the rule to decide a feature is irrelevant or not. In our mechanism design, the end goal perfectly matches the expected model performance with the expected sum of individual marginal effects. Within a class of noninformative likelihood among all modeling opportunities, the matching equation results in a specific valuation for each feature. After estimating the valuation and its standard deviation, we drop any candidate feature if its valuation is not significantly different from zero. In the simulation studies, our new approach significantly outperforms several popular methods used in practice, and its accuracy is robust to the choice of the payoff function.
翻訳日:2021-10-08 07:41:39 公開日:2021-10-05
# 弱い監督をもつ教師なし構成パーサの共学習

Co-training an Unsupervised Constituency Parser with Weak Supervision ( http://arxiv.org/abs/2110.02283v1 )

ライセンス: Link先を確認
Nickil Maveli and Shay B. Cohen(参考訳) 文中の特定のスパンを支配しているノードを識別するために,ブートストラップ分類器に依存する教師なし解析手法を提案する。 分類器には2つのタイプがあり、内部分類器はスパン上で動作し、外部分類器は所定のスパン以外のあらゆるものに作用する。 自己学習と2つの分類器との協調学習を通じて,両者の相互作用が両者の正確性の向上に寄与することを示す。 シードブートストラップ技術は、これらの分類器を訓練するデータを準備する。 さらに、既知の言語(左/右ブランチ)の事前分岐知識と最小ヒューリスティックスを用いて、そのようなアプローチが、パーサーに強い帰納バイアスを注入し、英語(PTB)テストセットで63.1F$_1$に達することを検証した。 さらに,中国 (CTB) と日本 (KTB) のツリーバンクを評価し, 新たな最先端の成果を得ることにより, アーキテクチャの有効性を示す。 コードまたはデータについては、著者に連絡してください。 }

We introduce a method for unsupervised parsing that relies on bootstrapping classifiers to identify if a node dominates a specific span in a sentence. There are two types of classifiers, an inside classifier that acts on a span, and an outside classifier that acts on everything outside of a given span. Through self-training and co-training with the two classifiers, we show that the interplay between them helps improve the accuracy of both, and as a result, effectively parse. A seed bootstrapping technique prepares the data to train these classifiers. Our analyses further validate that such an approach in conjunction with weak supervision using prior branching knowledge of a known language (left/right-branchin g) and minimal heuristics injects strong inductive bias into the parser, achieving 63.1 F$_1$ on the English (PTB) test set. In addition, we show the effectiveness of our architecture by evaluating on treebanks for Chinese (CTB) and Japanese (KTB) and achieve new state-of-the-art results.\footnote{For code or data, please contact the authors.}
翻訳日:2021-10-07 14:47:03 公開日:2021-10-05
# オンデバイス・パーソナライズされた音声認識のためのニューラル連想記憶を用いた高速文脈適応

Fast Contextual Adaptation with Neural Associative Memory for On-Device Personalized Speech Recognition ( http://arxiv.org/abs/2110.02220v1 )

ライセンス: Link先を確認
Tsendsuren Munkhdalai, Khe Chai Sim, Angad Chandorkar, Fan Gao, Mason Chua, Trevor Strohman, Fran\c{c}oise Beaufays(参考訳) 高速な文脈適応は、まれな単語の自動音声認識(asr)の改善に有効であり、デバイス上でのパーソナライズされたトレーニングと組み合わせると、さらに優れた認識結果が得られる。 しかし、外部言語モデルに基づく従来の再描画アプローチは、パーソナライズされたトレーニング中に多様化しがちである。 本研究では,デコーダに依存しない,デバイス上のパーソナライズに適したモデルに基づくエンドツーエンドのコンテキスト適応手法を提案する。 デバイス上でのシミュレーション実験により、提案手法は従来手法よりも12%向上し、15.7%のエンティティがF1スコアを継続パーソナライズシナリオで言及している。

Fast contextual adaptation has shown to be effective in improving Automatic Speech Recognition (ASR) of rare words and when combined with an on-device personalized training, it can yield an even better recognition result. However, the traditional re-scoring approaches based on an external language model is prone to diverge during the personalized training. In this work, we introduce a model-based end-to-end contextual adaptation approach that is decoder-agnostic and amenable to on-device personalization. Our on-device simulation experiments demonstrate that the proposed approach outperforms the traditional re-scoring technique by 12% relative WER and 15.7% entity mention specific F1-score in a continues personalization scenario.
翻訳日:2021-10-07 14:45:04 公開日:2021-10-05
# Kargerのアルゴリズムの拡張:なぜ理論に失敗したのか、実際どのように役立つのか

Extensions of Karger's Algorithm: Why They Fail in Theory and How They Are Useful in Practice ( http://arxiv.org/abs/2110.02750v1 )

ライセンス: Link先を確認
Erik Jenner, Enrique Fita Sanmart\'in, Fred A. Hamprecht(参考訳) 最小グラフカットと最小$s$-$t$-cut問題は、コンピュータビジョンや機械学習を含む計算機科学における組合せ問題のモデリングにおいて重要なプリミティブである。 グローバル最小カットを見つけるための最も効率的なアルゴリズムは、カーガーの画期的な縮小アルゴリズムに基づくランダム化アルゴリズムである。 本稿では,カーガーのアルゴリズムが他のカット問題に対してうまく一般化できるかどうかを考察する。 まず、カルガーのアルゴリズムの幅広い自然な一般化は、最適性のために$s$-$t$-mincut や正規化カット問題を効率的に解くことができないことを証明した。 しかし,これらの問題に対して,カルガーのアルゴリズムの拡張が有効であることを示すために,seed segmentation / graph-based semi-supervised learningのための単純な新しいアルゴリズムを提案する。 この新しいアルゴリズムは線形漸近ランタイムを持ち、与えられた種/クラスに属するサンプルの後方確率として解釈できるポテンシャルを持つ。 森林分布におけるランダムウォーカアルゴリズムと調和エネルギーの最小化の関係を明らかにする。 画像データ上でのシード画像分割やグラフに基づく半教師付き学習といった古典的な問題に対して、この手法は少なくともランダムウォーカー/ハーモニックエネルギー最小化/ガウス過程を実行する。

The minimum graph cut and minimum $s$-$t$-cut problems are important primitives in the modeling of combinatorial problems in computer science, including in computer vision and machine learning. Some of the most efficient algorithms for finding global minimum cuts are randomized algorithms based on Karger's groundbreaking contraction algorithm. Here, we study whether Karger's algorithm can be successfully generalized to other cut problems. We first prove that a wide class of natural generalizations of Karger's algorithm cannot efficiently solve the $s$-$t$-mincut or the normalized cut problem to optimality. However, we then present a simple new algorithm for seeded segmentation / graph-based semi-supervised learning that is closely based on Karger's original algorithm, showing that for these problems, extensions of Karger's algorithm can be useful. The new algorithm has linear asymptotic runtime and yields a potential that can be interpreted as the posterior probability of a sample belonging to a given seed / class. We clarify its relation to the random walker algorithm / harmonic energy minimization in terms of distributions over spanning forests. On classical problems from seeded image segmentation and graph-based semi-supervised learning on image data, the method performs at least as well as the random walker / harmonic energy minimization / Gaussian processes.
翻訳日:2021-10-07 14:44:47 公開日:2021-10-05
# チューリング近似、トーリック等尺埋め込みおよび多様体畳み込み

Turing approximations, toric isometric embeddings & manifold convolutions ( http://arxiv.org/abs/2110.02279v1 )

ライセンス: Link先を確認
P. Su\'arez-Serrato(参考訳) 進化はディープラーニングアーキテクチャの基本要素である。 ここでは、等尺的埋め込みによる多様体の畳み込みに対する外生的および内生的アプローチを組み合わせるための理論的枠組みを提案する。 このようにして、任意の位相と次元の多様体に対する畳み込み作用素を定義する。 また、多様体上の測地路に沿ったフィルタの変換に依存する畳み込みを局所的に定義する幾何学的および位相的条件についても説明する。 1938年のアラン・チューリングの結果は、滑らかな多様体への計算可能有限距離空間近似上の畳み込みの大域的定義を達成するために、そのようなトーリック等尺埋め込みアプローチの必要性を強調している。

Convolutions are fundamental elements in deep learning architectures. Here, we present a theoretical framework for combining extrinsic and intrinsic approaches to manifold convolution through isometric embeddings into tori. In this way, we define a convolution operator for a manifold of arbitrary topology and dimension. We also explain geometric and topological conditions that make some local definitions of convolutions which rely on translating filters along geodesic paths on a manifold, computationally intractable. A result of Alan Turing from 1938 underscores the need for such a toric isometric embedding approach to achieve a global definition of convolution on computable, finite metric space approximations to a smooth manifold.
翻訳日:2021-10-07 14:44:28 公開日:2021-10-05
# EntQA: 質問応答としてのエンティティリンク

EntQA: Entity Linking as Question Answering ( http://arxiv.org/abs/2110.02369v1 )

ライセンス: Link先を確認
Wenzheng Zhang, Wenyue Hua, Karl Stratos(参考訳) エンティティリンクに対する従来のアプローチは、まず与えられたドキュメントに言及を見つけ、次にその基礎となるエンティティを知識ベースで推測する。 このアプローチのよく知られた制限は、その実体を知らずに言及を見つける必要があることである。 本稿では,この制限に悩まされない新しいモデルであるEntQAについて述べる。 EntQAは、まず高速な検索モジュールを持つ候補エンティティを提案し、それから文書を精査して、強力なリーダーモジュールで各候補の言及を見つける。 提案手法は,エンティティリンクの進展とオープンドメイン質問応答の進展を組み合わせ,エンティティ検索や読解理解のための事前学習モデルを活用する。 以前の作品とは異なり、我々は言及候補辞書や大規模な弱監督に依存していない。 EntQAはGERBILベンチマークプラットフォーム上で大きな成果を上げている。

A conventional approach to entity linking is to first find mentions in a given document and then infer their underlying entities in the knowledge base. A well-known limitation of this approach is that it requires finding mentions without knowing their entities, which is unnatural and difficult. We present a new model that does not suffer from this limitation called EntQA, which stands for Entity linking as Question Answering. EntQA first proposes candidate entities with a fast retrieval module, and then scrutinizes the document to find mentions of each candidate with a powerful reader module. Our approach combines progress in entity linking with that in open-domain question answering and capitalizes on pretrained models for dense entity retrieval and reading comprehension. Unlike in previous works, we do not rely on a mention-candidates dictionary or large-scale weak supervision. EntQA achieves strong results on the GERBIL benchmarking platform.
翻訳日:2021-10-07 14:43:09 公開日:2021-10-05
# 限定検査資源下におけるストリーミングバイナリ分類のトレードオフ

Tradeoffs in Streaming Binary Classification under Limited Inspection Resources ( http://arxiv.org/abs/2110.02403v1 )

ライセンス: Link先を確認
Parisa Hassanzadeh, Danial Dervovic, Samuel Assefa, Prashant Reddy, Manuela Veloso(参考訳) 機関は、不正、サイバー攻撃、システム障害などの異常事象を識別し警告するために、機械学習モデルにますます依存している。 これらの警告は、しばしば専門家によって手動で調査される必要がある。 手動検査の運用コストを考えると、不審なイベントは注意深く設計されたしきい値を持つアラートシステムによって選択される。 本稿では,イベントが順次到着し,疑わしいイベントの数が限られている不均衡二分分類問題について考察する。 非均質なpoissonプロセスとしてイベント到着をモデル化し、静的および適応しきい値に基づくものを含む様々な疑わしいイベント選択方法を比較する。 各手法について,少数クラス検出率と検査能力とのトレードオフをデータクラス不均衡と分類器信頼度密度の関数として解析的に特徴付ける。 実際の不正検出データセット上で選択手法を実装し,実験結果と解析的境界値を比較した。 最後に,クラス不均衡と分類器の選択がトレードオフに与える影響について検討する。

Institutions are increasingly relying on machine learning models to identify and alert on abnormal events, such as fraud, cyber attacks and system failures. These alerts often need to be manually investigated by specialists. Given the operational cost of manual inspections, the suspicious events are selected by alerting systems with carefully designed thresholds. In this paper, we consider an imbalanced binary classification problem, where events arrive sequentially and only a limited number of suspicious events can be inspected. We model the event arrivals as a non-homogeneous Poisson process, and compare various suspicious event selection methods including those based on static and adaptive thresholds. For each method, we analytically characterize the tradeoff between the minority-class detection rate and the inspection capacity as a function of the data class imbalance and the classifier confidence score densities. We implement the selection methods on a real public fraud detection dataset and compare the empirical results with analytical bounds. Finally, we investigate how class imbalance and the choice of classifier impact the tradeoff.
翻訳日:2021-10-07 14:42:55 公開日:2021-10-05
# 小点雲に対する幾何代数的注意ネットワーク

Geometric Algebra Attention Networks for Small Point Clouds ( http://arxiv.org/abs/2110.02393v1 )

ライセンス: Link先を確認
Matthew Spellings(参考訳) ディープラーニングの成功の多くは、その運用するデータの基盤となる対称性と構造を適切に尊重するアーキテクチャの構築からもたらされています。 物理科学における問題は、2次元または3次元空間における比較的小さな点の集合を扱うことが多く、翻訳、回転、置換等式は実際に有用なモデルにとって重要であるか、あるいは必要である。 本稿では,これらの小点雲上の深層学習において,幾何代数の項の積の集合と注意機構を用いてそれらの積に対する還元からなる回転および置換同値なアーキテクチャを提案する。 幾何学的代数はベクトル、スカラー、その他の幾何学的入力を体系的に組み合わせ、回転不変性や共分散を考慮し、注意は置換同分散を課す強力な方法をもたらす貴重な数学的構造を提供する。 物理, 化学, 生物学に関連するサンプル問題を, モデルを用いて解くことにより, これらのアーキテクチャの有用性を実証する。

Much of the success of deep learning is drawn from building architectures that properly respect underlying symmetry and structure in the data on which they operate - a set of considerations that have been united under the banner of geometric deep learning. Often problems in the physical sciences deal with relatively small sets of points in two- or three-dimensional space wherein translation, rotation, and permutation equivariance are important or even vital for models to be useful in practice. In this work, we present rotation- and permutation-equivari ant architectures for deep learning on these small point clouds, composed of a set of products of terms from the geometric algebra and reductions over those products using an attention mechanism. The geometric algebra provides valuable mathematical structure by which to combine vector, scalar, and other types of geometric inputs in a systematic way to account for rotation invariance or covariance, while attention yields a powerful way to impose permutation equivariance. We demonstrate the usefulness of these architectures by training models to solve sample problems relevant to physics, chemistry, and biology.
翻訳日:2021-10-07 14:38:17 公開日:2021-10-05
# 音声-視覚スタイル変換による音声の時効化

Voice Aging with Audio-Visual Style Transfer ( http://arxiv.org/abs/2110.02411v1 )

ライセンス: Link先を確認
Justin Wilson and Sunyeong Park and Seunghye J. Wilson and Ming C. Lin(参考訳) 顔の老化技術は、GAN(Generative Adversarial Network)とスタイルトランスファー学習(style transfer learning)を使用して、より若く見えるように外観を変換している。 アイデンティティは、これらの生成ネットワークをソースコンテンツの学習ベクトル表現に条件付けすることで維持される。 本研究では,同様のアプローチを話者の声の老化に適用し,音声の老化について述べる。 まず、話者の音声と顔データに基づいて畳み込みニューラルネットワーク(CNN)を訓練し、話者の年齢の分類をCommon VoiceとVoxCelebデータセットから分析する。 入力スペクトログラムを様々な年齢に変換するために,スタイル転送から老化音声を生成し,モバイルアプリでその方法を示す。

Face aging techniques have used generative adversarial networks (GANs) and style transfer learning to transform one's appearance to look younger/older. Identity is maintained by conditioning these generative networks on a learned vector representation of the source content. In this work, we apply a similar approach to age a speaker's voice, referred to as voice aging. We first analyze the classification of a speaker's age by training a convolutional neural network (CNN) on the speaker's voice and face data from Common Voice and VoxCeleb datasets. We generate aged voices from style transfer to transform an input spectrogram to various ages and demonstrate our method on a mobile app.
翻訳日:2021-10-07 14:35:52 公開日:2021-10-05
# 深層網における安定次数の影響について

On the Impact of Stable Ranks in Deep Nets ( http://arxiv.org/abs/2110.02333v1 )

ライセンス: Link先を確認
Bogdan Georgiev, Lukas Franken, Mayukh Mukherjee and Georgios Arvanitidis(参考訳) 最近の研究は、ディープニューラルネットワーク(dnn)モデルの一般化/圧縮特性といわゆる層重みの安定階数の間の興味深い関係を確立した。 直感的には、後者はネット内の有効なパラメータの数を示す指標である。 本研究では,DNNが階層の安定な階数に規定される空間について,フィードフォワードのダイナミクス,初期化,トレーニング,表現性について考察する。 そこで我々はまず,安定なランクに基づく新しいサンプリングスキームを用いたランダムDNNモデルを提案する。 次に, フィードフォワードマップが制約によってどのように影響を受けるか, および(神経接核を介して)過パラメータ構造においてトレーニングがどのように進化するかを示す。 以上の結果から,安定度は指数関数的に深度的に蓄積する線形因子として本質的に階層的に現れることが示唆された。 さらに,安定な初期化だけで収束速度が向上することを示す実験分析を行った。

A recent line of work has established intriguing connections between the generalization/compr ession properties of a deep neural network (DNN) model and the so-called layer weights' stable ranks. Intuitively, the latter are indicators of the effective number of parameters in the net. In this work, we address some natural questions regarding the space of DNNs conditioned on the layers' stable rank, where we study feed-forward dynamics, initialization, training and expressivity. To this end, we first propose a random DNN model with a new sampling scheme based on stable rank. Then, we show how feed-forward maps are affected by the constraint and how training evolves in the overparametrized regime (via Neural Tangent Kernels). Our results imply that stable ranks appear layerwise essentially as linear factors whose effect accumulates exponentially depthwise. Moreover, we provide empirical analysis suggesting that stable rank initialization alone can lead to convergence speed ups.
翻訳日:2021-10-07 14:35:10 公開日:2021-10-05
# HYPER:因子推論と適応サンプリングによるハイブリッド軌道予測

HYPER: Learned Hybrid Trajectory Prediction via Factored Inference and Adaptive Sampling ( http://arxiv.org/abs/2110.02344v1 )

ライセンス: Link先を確認
Xin Huang, Guy Rosman, Igor Gilitschenski, Ashkan Jasour, Stephen G. McGill, John J. Leonard, Brian C. Williams(参考訳) 多モード高レベルインテントのモデリングは、軌道予測における多様性を保証するために重要である。 既存のアプローチは、連続的な軌道を予測する前に人間の意図の離散的な性質を探求し、正確性を改善し説明可能性をサポートする。 しかし、これらのアプローチは、実際には問題となる予測地平線上、特に長い地平線上を固定する意図をしばしば仮定している。 この制限を克服するために、人間の意図をモデル化する汎用的で表現力豊かなハイブリッド予測フレームワークHYPERを導入する。 トラヒックエージェントをハイブリッド離散連続システムとしてモデル化することにより、時間とともに離散的意図変化を予測できる。 我々は,最大推定問題を用いて確率的ハイブリッドモデルを学習し,指数関数的に増大する離散空間から適応的にサンプリングするニューラルネットワークの提案分布を利用する。 全体的なアプローチによって、精度とカバレッジのトレードオフが向上する。 我々は,argoverseデータセット上でモデルをトレーニングし,検証し,包括的アブレーション研究と最先端モデルとの比較によりその効果を示す。

Modeling multi-modal high-level intent is important for ensuring diversity in trajectory prediction. Existing approaches explore the discrete nature of human intent before predicting continuous trajectories, to improve accuracy and support explainability. However, these approaches often assume the intent to remain fixed over the prediction horizon, which is problematic in practice, especially over longer horizons. To overcome this limitation, we introduce HYPER, a general and expressive hybrid prediction framework that models evolving human intent. By modeling traffic agents as a hybrid discrete-continuous system, our approach is capable of predicting discrete intent changes over time. We learn the probabilistic hybrid model via a maximum likelihood estimation problem and leverage neural proposal distributions to sample adaptively from the exponentially growing discrete space. The overall approach affords a better trade-off between accuracy and coverage. We train and validate our model on the Argoverse dataset, and demonstrate its effectiveness through comprehensive ablation studies and comparisons with state-of-the-art models.
翻訳日:2021-10-07 14:34:50 公開日:2021-10-05
# ニューロン:ニューラルネットワークの解釈可能性を高めるために人工ニューロンの新しい一般化

NEWRON: A New Generalization of the Artificial Neuron to Enhance the Interpretability of Neural Networks ( http://arxiv.org/abs/2110.02775v1 )

ライセンス: Link先を確認
Federico Siciliano, Maria Sofia Bucarelli, Gabriele Tolomei, Fabrizio Silvestri(参考訳) 本研究では、マカロック・ピッツニューロン構造の一般化であるNEWRONを定式化する。 この新しい枠組みは、人工ニューロンのさらなる望ましい特性を探求することを目的としている。 NEWRONの特殊化によって,ネットワークの表現性の変化を伴わずに解釈可能であることを示す。 NEWRONベースのネットワークが生成するモデルを調べるだけで、タスクを規定するルールを理解することができる。 広範な実験により、生成されたモデルの品質は、従来の解釈可能なモデルよりも、あるいは通常のニューラルネットワークよりも優れていることが示された。

In this work, we formulate NEWRON: a generalization of the McCulloch-Pitts neuron structure. This new framework aims to explore additional desirable properties of artificial neurons. We show that some specializations of NEWRON allow the network to be interpretable with no change in their expressiveness. By just inspecting the models produced by our NEWRON-based networks, we can understand the rules governing the task. Extensive experiments show that the quality of the generated models is better than traditional interpretable models and in line or better than standard neural networks.
翻訳日:2021-10-07 14:34:33 公開日:2021-10-05
# ガウス過程による文脈的組合せ揮発性帯域

Contextual Combinatorial Volatile Bandits via Gaussian Processes ( http://arxiv.org/abs/2110.02248v1 )

ライセンス: Link先を確認
Andi Nika, Sepehr Elahi, Cem Tekin(参考訳) 組み合わせ動作セットと時変ベースアームの可利用性を考慮した文脈的帯域幅問題を考える。 各ラウンドの開始時に、エージェントは利用可能なベースアームとそのコンテキストのセットを観察し、その後に利用可能なベースアームのセットの実行可能なサブセットであるアクションを選択し、長期の累積報酬を最大化する。 ベースアームの平均結果は、文脈集合 ${\cal x}$ でインデックスづけされたガウス過程のサンプルであり、期待される報酬は期待ベースアーム結果においてリプシッツ連続であると仮定する。 この設定のために、カーネル・アッパー信頼境界(O'CLOK-UCB)を用いたOptimistic Combinatorial Learning and Optimization(O'CLOK-UCB)と呼ばれるアルゴリズムを提案し、それが$\tilde{O}(K\sqrt{T\overline{\gamma}_{T}} )$ regret with high probability, where $\overline{\gamma}_{T}$は、最初の$T$ラウンドに出現したベースアームコンテキストのセットに関連する最大情報ゲインであり、$K$はすべてのラウンドにおける実行可能なアクションの最大値であることを示す。 アルゴリズムを劇的に高速化するために,スパースGPを用いたO'CLOK-UCBの変種を提案する。 最後に,両アルゴリズムがベース間arm結果相関を生かして,従来のucbベースのアルゴリズムをリアルなセットアップで圧倒的に上回ることを示す。

We consider a contextual bandit problem with a combinatorial action set and time-varying base arm availability. At the beginning of each round, the agent observes the set of available base arms and their contexts and then selects an action that is a feasible subset of the set of available base arms to maximize its cumulative reward in the long run. We assume that the mean outcomes of base arms are samples from a Gaussian Process indexed by the context set ${\cal X}$, and the expected reward is Lipschitz continuous in expected base arm outcomes. For this setup, we propose an algorithm called Optimistic Combinatorial Learning and Optimization with Kernel Upper Confidence Bounds (O'CLOK-UCB) and prove that it incurs $\tilde{O}(K\sqrt{T\overline{\gamma}_{T}} )$ regret with high probability, where $\overline{\gamma}_{T}$ is the maximum information gain associated with the set of base arm contexts that appeared in the first $T$ rounds and $K$ is the maximum cardinality of any feasible action over all rounds. To dramatically speed up the algorithm, we also propose a variant of O'CLOK-UCB that uses sparse GPs. Finally, we experimentally show that both algorithms exploit inter-base arm outcome correlation and vastly outperform the previous state-of-the-art UCB-based algorithms in realistic setups.
翻訳日:2021-10-07 14:34:25 公開日:2021-10-05
# ガウス過程と幾何学調和の対応について

On the Correspondence between Gaussian Processes and Geometric Harmonics ( http://arxiv.org/abs/2110.02296v1 )

ライセンス: Link先を確認
Felix Dietrich and Juan M. Bello-Rivas and Ioannis G. Kevrekidis(参考訳) 本稿では,ガウス過程の回帰と幾何学的調和の対応について論じる。 2つの概念を囲む研究コミュニティは、しばしば異なる目標を追求する。 双方のキャンプの結果をうまく組み合わせることで、誤差推定における不確かさの代替解釈が得られ、あるいは次元の減少によるベイズ最適化の加速につながる。

We discuss the correspondence between Gaussian process regression and Geometric Harmonics, two similar kernel-based methods that are typically used in different contexts. Research communities surrounding the two concepts often pursue different goals. Results from both camps can be successfully combined, providing alternative interpretations of uncertainty in terms of error estimation, or leading towards accelerated Bayesian Optimization due to dimensionality reduction.
翻訳日:2021-10-07 14:33:54 公開日:2021-10-05
# ミニパッチ学習による高速かつ解釈可能な合意クラスタリング

Fast and Interpretable Consensus Clustering via Minipatch Learning ( http://arxiv.org/abs/2110.02388v1 )

ライセンス: Link先を確認
Luqin Gan and Genevera I. Allen(参考訳) コンセンサスクラスタリングは、バイオインフォマティクスやその他の応用において、クラスタリング結果の正確性、安定性、信頼性を向上させるために広く利用されている。 このアプローチは、サブサンプリングされた観測に基づいて複数のクラスタリングからクラスタ共起をアンサンブルする。 例えば、シングルセルシークエンシングデータから細胞型を発見するなど、大規模バイオインフォマティクスデータへの適用には、コンセンサスクラスタリングには2つの大きな欠点がある。 (i)クラスタリングアルゴリズムの繰り返し適用による計算効率の低下、 (ii)クラスタを区別するための重要な特徴への解釈可能性の欠如。 本稿では, 解釈可能なミニパッチ適応コンセンサスクラスタリングであるimpaccを開発することで, これら2つの課題を解決する。 私たちのアプローチには3つの大きな革新があります。 ミニパッチと呼ばれる観測と特徴の両方の小さなサブセットからクラスタをアンサンブルし、計算時間を劇的に短縮する。 さらに,信頼性と計算量の削減を両立させる適応型サンプリングスキームと,クラスタを識別する最も関連性の高い特徴を迅速に学習することで,解釈可能な解法を導出する機能適応型サンプリングスキームを開発した。 本研究では, 合成データと実大規模バイオインフォマティクスデータセットについて検討し, 提案手法がより正確かつ解釈可能なクラスタソリューションをもたらすだけでなく, 標準的なコンセンサスクラスタリング手法と比較して計算効率を大幅に向上させることを示す。

Consensus clustering has been widely used in bioinformatics and other applications to improve the accuracy, stability and reliability of clustering results. This approach ensembles cluster co-occurrences from multiple clustering runs on subsampled observations. For application to large-scale bioinformatics data, such as to discover cell types from single-cell sequencing data, for example, consensus clustering has two significant drawbacks: (i) computational inefficiency due to repeatedly applying clustering algorithms, and (ii) lack of interpretability into the important features for differentiating clusters. In this paper, we address these two challenges by developing IMPACC: Interpretable MiniPatch Adaptive Consensus Clustering. Our approach adopts three major innovations. We ensemble cluster co-occurrences from tiny subsets of both observations and features, termed minipatches, thus dramatically reducing computation time. Additionally, we develop adaptive sampling schemes for observations, which result in both improved reliability and computational savings, as well as adaptive sampling schemes of features, which leads to interpretable solutions by quickly learning the most relevant features that differentiate clusters. We study our approach on synthetic data and a variety of real large-scale bioinformatics data sets; results show that our approach not only yields more accurate and interpretable cluster solutions, but it also substantially improves computational efficiency compared to standard consensus clustering approaches.
翻訳日:2021-10-07 14:33:47 公開日:2021-10-05
# 糖尿病足部潰瘍分類のためのハイブリッド古典量子法

Hybrid Classical-Quantum method for Diabetic Foot Ulcer Classification ( http://arxiv.org/abs/2110.02222v1 )

ライセンス: Link先を確認
Azadeh Alavi and Hossein Akhoundi(参考訳) 糖尿病は世界中で多くの人に影響を与えている。 糖尿病患者は、通常手足の切断につながる足の潰瘍を発症する危険性があり、致命傷や心理的苦痛を引き起こす。 自己監視型モバイルアプリケーションを開発するためには,これらの潰瘍を感染性,虚血性,無症,あるいはその両方に分類する必要がある。 本研究は,糖尿病性足部潰瘍分類作業における古典的移動学習法の性能と,ハイブリッドな古典的量子分類器の性能を比較した。 したがって、事前学習されたxceptionネットワークをマルチクラス変分分類器にマージする。 そこで,Xception ネットワークを修正・再訓練した後,中間層の出力を抽出し,与えられた画像の深層表現として利用する。 最後に、これらの深層特徴を用いて多クラス変分分類器を訓練し、各分類器を個々の変分回路上に実装する。 次に、この手法をブラインドテストセットDFUC2021で評価する。 その結果,提案手法は,xception networkの修正版をトレーニングすることで,トランスファー学習の概念のみに依存することに比べ,相当な改善が得られた。

Diabetes is a raising problem that affects many people globally. Diabetic patients are at risk of developing foot ulcer that usually leads to limb amputation, causing significant morbidity, and psychological distress. In order to develop a self monitoring mobile application, it is necessary to be able to classify such ulcers into either of the following classes: Infection, Ischaemia, None, or Both. In this work, we compare the performance of a classical transfer-learning-ba sed method, with the performance of a hybrid classical-quantum Classifier on diabetic foot ulcer classification task. As such, we merge the pre-trained Xception network with a multi-class variational classifier. Thus, after modifying and re-training the Xception network, we extract the output of a mid-layer and employ it as deep-features presenters of the given images. Finally, we use those deep-features to train multi-class variational classifier, where each classifier is implemented on an individual variational circuit. The method is then evaluated on the blind test set DFUC2021. The results proves that our proposed hybrid classical-quantum Classifier leads to considerable improvement compared to solely relying on transfer learning concept through training the modified version of Xception network.
翻訳日:2021-10-07 14:32:24 公開日:2021-10-05
# 相補性制約付き数学プログラムとしてのバイレベル画像学習問題

Bilevel Imaging Learning Problems as Mathematical Programs with Complementarity Constraints ( http://arxiv.org/abs/2110.02273v1 )

ライセンス: Link先を確認
Juan Carlos De los Reyes and David Villac\'is(参考訳) 低レベルインスタンスが第1および第2次非スムース正規化子を含む凸変分モデルに対応する2レベル画像学習問題の一群について検討する。 低次問題の初等・二次的再構成の幾何学的性質を利用し、変数の適切な変更を導入することにより、相補性制約付き数学プログラム(MPCC)として元の二次問題を再構成することができる。 後者では, 厳密な制約条件 (MPCC-MFCQと部分MPCC-LICQ) を証明し, モルドコビッチ (M-) とストロング (S-) の定常条件を導出する。 MPCCのS-定常性系も元の定式化のS-定常性条件となる。 2次最適条件も導出される。 提案された再構成は関数空間の問題にまで拡張され、MPCCは状態の勾配にさらなる制約を加えることになる。 最後に,提案したMPCC再構成と大規模非線形プログラミング解法を用いて得られた数値結果について報告する。

We investigate a family of bilevel imaging learning problems where the lower-level instance corresponds to a convex variational model involving first- and second-order nonsmooth regularizers. By using geometric properties of the primal-dual reformulation of the lower-level problem and introducing suitable changes of variables, we are able to reformulate the original bilevel problems as Mathematical Programs with Complementarity Constraints (MPCC). For the latter, we prove tight constraint qualification conditions (MPCC-MFCQ and partial MPCC-LICQ) and derive Mordukovich (M-) and Strong (S-) stationarity conditions. The S-stationarity system for the MPCC turns also into S-stationarity conditions for the original formulation. Second-order sufficient optimality conditions are derived as well. The proposed reformulation may be extended to problems in function spaces, leading to MPCC's with additional constraints on the gradient of the state. Finally, we report on some numerical results obtained by using the proposed MPCC reformulations together with available large-scale nonlinear programming solvers.
翻訳日:2021-10-07 14:32:06 公開日:2021-10-05
# ニューラル言語モデルにおける単語獲得

Word Acquisition in Neural Language Models ( http://arxiv.org/abs/2110.02406v1 )

ライセンス: Link先を確認
Tyler A. Chang, Benjamin K. Bergen(参考訳) ニューラル言語モデルが学習中に個々の単語の獲得、学習曲線の抽出、600語以上の獲得の年齢をMacArthur-Bates Communicative Development Inventory (Fenson et al., 2007)で検討した。 子どもにおける単語獲得の研究に基づき,LSTM,BERT,GPT-2における単語獲得年齢の予測因子について検討した。 子どもの言語モデルでは, 具体性, 単語長, 語彙クラスの影響が顕著に異なることが明らかとなり, 子どもの言語習得における相互作用や知覚的経験の重要性が強まった。 言語モデルは、子供よりも単語の頻度に依存するが、子供と同様に、長い発話で単語の学習が遅くなる。 興味深いことに、モデルは一方向モデルと双方向モデル、LSTMとTransformerアーキテクチャの両方のトレーニング中に一貫したパターンに従う。 モデルはトレーニングの初期にユニグラムトークンの頻度に基づいて予測し、その後緩やかにbigram確率に遷移し、最終的によりニュアンス的な予測に収束する。 これらの結果は、子どもにおける分布学習メカニズムの役割に光を当て、言語モデルにおけるより人間ライクな言語獲得のための洞察を提供した。

We investigate how neural language models acquire individual words during training, extracting learning curves and ages of acquisition for over 600 words on the MacArthur-Bates Communicative Development Inventory (Fenson et al., 2007). Drawing on studies of word acquisition in children, we evaluate multiple predictors for words' ages of acquisition in LSTMs, BERT, and GPT-2. We find that the effects of concreteness, word length, and lexical class are pointedly different in children and language models, reinforcing the importance of interaction and sensorimotor experience in child language acquisition. Language models rely far more on word frequency than children, but like children, they exhibit slower learning of words in longer utterances. Interestingly, models follow consistent patterns during training for both unidirectional and bidirectional models, and for both LSTM and Transformer architectures. Models predict based on unigram token frequencies early in training, before transitioning loosely to bigram probabilities, eventually converging on more nuanced predictions. These results shed light on the role of distributional learning mechanisms in children, while also providing insights for more human-like language acquisition in language models.
翻訳日:2021-10-07 14:29:46 公開日:2021-10-05
# ラベル伝搬によるインスタンスアノテーションのスケールアップ

Scaling up instance annotation via label propagation ( http://arxiv.org/abs/2110.02277v1 )

ライセンス: Link先を確認
Dim P. Papadopoulos, Ethan Weber, Antonio Torralba(参考訳) 手動でアノテートするオブジェクトセグメンテーションマスクは非常に時間がかかる。 対話型セグメンテーションはより効率的な代替手段を提供するが、アノテーション付きマスクの数でコストが線形に増加するため、大規模なスケールでは不可能になる。 本稿では,オブジェクトセグメンテーションマスクを用いた大規模データセット構築のための高効率アノテーション手法を提案する。 大規模な画像には、同じような外観のオブジェクトインスタンスが多数含まれている。 これらの類似性を,セグメンテーションモデルによるマスク予測に階層的クラスタリングを用いて活用する。 本稿では,クラスタ階層を効率的に探索し,どのクラスタにアノテートするかを選択する手法を提案する。 人間が手動でクラスタごとにマスクを数枚だけ検証し、ラベルはクラスタ全体に伝達される。 1Mのオブジェクトセグメンテーションマスクを80個のオブジェクトクラスに組み込んだ大規模な実験により,(1)総アノテーション時間のたった290時間で1Mのオブジェクトセグメンテーションマスクを得る,(2)手動アノテーションに比べて76倍のアノテーション時間を短縮する,(3)手動アノテーションによるデータセットと同等のセグメンテーション品質を持つ,などの結果を得た。 コード、データ、モデルはオンラインで入手できる。

Manually annotating object segmentation masks is very time-consuming. While interactive segmentation methods offer a more efficient alternative, they become unaffordable at a large scale because the cost grows linearly with the number of annotated masks. In this paper, we propose a highly efficient annotation scheme for building large datasets with object segmentation masks. At a large scale, images contain many object instances with similar appearance. We exploit these similarities by using hierarchical clustering on mask predictions made by a segmentation model. We propose a scheme that efficiently searches through the hierarchy of clusters and selects which clusters to annotate. Humans manually verify only a few masks per cluster, and the labels are propagated to the whole cluster. Through a large-scale experiment to populate 1M unlabeled images with object segmentation masks for 80 object classes, we show that (1) we obtain 1M object segmentation masks with an total annotation time of only 290 hours; (2) we reduce annotation time by 76x compared to manual annotation; (3) the segmentation quality of our masks is on par with those from manually annotated datasets. Code, data, and models are available online.
翻訳日:2021-10-07 14:27:26 公開日:2021-10-05
# 不完全データを用いた時系列ネットワーク予測

Networked Time Series Prediction with Incomplete Data ( http://arxiv.org/abs/2110.02271v1 )

ライセンス: Link先を確認
Yichen Zhu, Mengtian Zhang, Bo Jiang, Haiming Jin, Jianqiang Huang, Xinbing Wang(参考訳) networked time series (nets) は、あるグラフ上の時系列の族であり、各ノードに対して1つずつである。 インテリジェントな輸送、環境監視、モバイルネットワーク管理に至るまで、幅広いアプリケーションを見出している。 このようなアプリケーションにおける重要なタスクは、その履歴値と基礎となるグラフに基づいて、NETSの将来値を予測することである。 既存の方法の多くは、トレーニングのために完全なデータを必要とする。 しかし、現実のシナリオでは、センサーの故障や不完全な検知範囲などによってデータが失われることは珍しくない。 本稿では,不完全データを用いたNetS予測問題について検討する。 我々は、歴史と未来の両方で欠落した値を持つ不完全なデータでトレーニングできる新しいディープラーニングフレームワークであるNetS-ImpGANを提案する。 さらに,時系列相関と時間相関の両方を捉えるための注意機構を組み込んだ新しいグラフ時空間注意ネットワークを提案する。 3つの実世界のデータセットに対して、異なるパターンと欠落率で広範な実験を行う。 実験の結果,NETS-ImpGANはデータの分散度が非常に低い場合を除き,既存の手法よりも優れており,その場合も競争性能は高いことがわかった。

A networked time series (NETS) is a family of time series on a given graph, one for each node. It has found a wide range of applications from intelligent transportation, environment monitoring to mobile network management. An important task in such applications is to predict the future values of a NETS based on its historical values and the underlying graph. Most existing methods require complete data for training. However, in real-world scenarios, it is not uncommon to have missing data due to sensor malfunction, incomplete sensing coverage, etc. In this paper, we study the problem of NETS prediction with incomplete data. We propose NETS-ImpGAN, a novel deep learning framework that can be trained on incomplete data with missing values in both history and future. Furthermore, we propose novel Graph Temporal Attention Networks by incorporating the attention mechanism to capture both inter-time series correlations and temporal correlations. We conduct extensive experiments on three real-world datasets under different missing patterns and missing rates. The experimental results show that NETS-ImpGAN outperforms existing methods except when data exhibit very low variance, in which case NETS-ImpGAN still achieves competitive performance.
翻訳日:2021-10-07 14:21:18 公開日:2021-10-05
# feddq: 下降量子化を用いたコミュニケーション効率の高いフェデレーション学習

FedDQ: Communication-Effici ent Federated Learning with Descending Quantization ( http://arxiv.org/abs/2110.02291v1 )

ライセンス: Link先を確認
Linping Qu, Shenghui Song, Chi-Ying Tsui(参考訳) フェデレーション学習(federated learning、fl)は、新たなプライバシ保護型分散学習スキームである。 大きなモデルサイズと頻繁なモデル集約のため、FLは重要な通信ボトルネックに悩まされる。 モデル圧縮や量子化を含む通信量を減らすために多くの手法が提案されており、そこではレベルの増加を伴う量子化が提案されている。 本稿では,適応量子化を行うための逆アプローチを提案する。 まず, 訓練の特徴に基づいて, 上向き量子化の欠点について述べる。 第二に、量子化最適化問題を定式化し、理論解析により、レベル数が減少する量子化が望ましいことを示す。 そこで本研究では,学習損失の変化とモデル更新範囲を用いて適応量子化過程を導く2つの手法を提案する。 3組のベンチマーク実験の結果、下降-下降量子化はより多くの通信ビットを節約するだけでなく、現在の上降-下降量子化と比較した場合、FLの収束を早めることが示されている。

Federated learning (FL) is an emerging privacy-preserving distributed learning scheme. Due to the large model size and frequent model aggregation, FL suffers from critical communication bottleneck. Many techniques have been proposed to reduce the communication volume, including model compression and quantization, where quantization with increasing number of levels has been proposed. This paper proposes an opposite approach to do adaptive quantization. First, we present the drawback of ascending-trend quantization based on the characteristics of training. Second, we formulate the quantization optimization problem and theoretical analysis shows that quantization with decreasing number of levels is preferred. Then we propose two strategies to guide the adaptive quantization process by using the change in training loss and the range of model update. Experimental results on three sets of benchmarks show that descending-trend quantization not only saves more communication bits but also helps FL converge faster, when compares with current ascending-trend quantization.
翻訳日:2021-10-07 14:21:00 公開日:2021-10-05
# 構造因果解釈定理

Structural Causal Interpretation Theorem ( http://arxiv.org/abs/2110.02395v1 )

ライセンス: Link先を確認
Matej Ze\v{c}evi\'c and Devendra Singh Dhami and Constantin A. Rothkopf and Kristian Kersting(参考訳) 人間の精神過程は、興味の変数の機械的関係の観点から因果関係に関する質的な推論を可能にし、これは構造因果モデル(SCM)によって自然に記述されていると我々は主張する。 解釈は精神モデルから派生しているため、scmも同様である。 SCMの計量空間を定義することにより、精神モデルの比較に関する理論的視点を提供し、学習システムを真の因果性へと導くために解釈を使用できると結論付ける。 そこで本研究では,構造的因果解釈 (sci) と命名する因果関係と一致する可読性解釈スキームを導出する第一原理からの理論解析を行う。 さらに、既存の神経誘導法(NIM)が実際に解釈可能であることを証明する。 我々の最初の実験(E1)は、このようなNIMベースのSCIの品質を評価する。 e2) では,sciベースの学習におけるサンプル効率の向上に関する推測の証拠を観察した。 小規模なユーザスタディを行った後、(E3)では、最初の仮説を支持するために、NIMベースのSCIよりも人間ベースの優位性を観察する。

Human mental processes allow for qualitative reasoning about causality in terms of mechanistic relations of the variables of interest, which we argue are naturally described by structural causal model (SCM). Since interpretations are being derived from mental models, the same applies for SCM. By defining a metric space on SCM, we provide a theoretical perspective on the comparison of mental models and thereby conclude that interpretations can be used for guiding a learning system towards true causality. To this effect, we present a theoretical analysis from first principles that results in a human-readable interpretation scheme consistent with the provided causality that we name structural causal interpretations (SCI). Going further, we prove that any existing neural induction method (NIM) is in fact interpretable. Our first experiment (E1) assesses the quality of such NIM-based SCI. In (E2) we observe evidence for our conjecture on improved sample-efficiency for SCI-based learning. After conducting a small user study, in (E3) we observe superiority in human-based over NIM-based SCI in support of our initial hypothesis.
翻訳日:2021-10-07 14:20:44 公開日:2021-10-05
# 教師なし音響単語分類における中間畳み込み層解釈

Interpreting intermediate convolutional layers in unsupervised acoustic word classification ( http://arxiv.org/abs/2110.02375v1 )

ライセンス: Link先を確認
Ga\v{s}per Begu\v{s}, Alan Zhou(参考訳) 深層畳み込みニューラルネットワークがいかにデータを分類するかを理解することは、広範な研究の対象となっている。 本稿では,各畳み込み層における個々の特徴写像を平均化し,非線形回帰手法を用いて単語の下位分布を推定することにより,教師なし深層畳み込みニューラルネットワークの中間層を可視化・解釈する手法を提案する。 GANベースのアーキテクチャ(ciwGAN arXiv:2006.02951)は、3つの畳み込みネットワーク(ジェネレータ、ディスクリミネータ、分類器)を含む、TIMITの未ラベルの語彙項目で訓練された。 トレーニングの結果、単語を個別のクラスに分類する深層畳み込みネットワークが生成者の要求によってのみ学習され、情報データを出力する。 分類器ネットワークは、トレーニングデータ(生成されたデータのみ)にアクセスできないため、語彙学習は完全に教師なしでなければならない。 分類器内の個々の畳み込み層を可視化する手法を提案し,畳み込み層毎に高度に有意な時系列データを生成し,非観測テストデータに適用する。 非線形回帰を用いて各単語の基底分布を推定し,各単語の絶対値と形状を異なる畳み込み層で解析し,その音響特性について仮説実験を行う。 この技術により、個々の電話のコントラストと、それらが各層でどのように表現されるかをテストすることもできる。

Understanding how deep convolutional neural networks classify data has been subject to extensive research. This paper proposes a technique to visualize and interpret intermediate layers of unsupervised deep convolutional neural networks by averaging over individual feature maps in each convolutional layer and inferring underlying distributions of words with non-linear regression techniques. A GAN-based architecture (ciwGAN arXiv:2006.02951) that includes three convolutional networks (a Generator, a Discriminator, and a classifier) was trained on unlabeled sliced lexical items from TIMIT. The training results in a deep convolutional network that learns to classify words into discrete classes only from the requirement of the Generator to output informative data. The classifier network has no access to the training data -- only to the generated data -- which means lexical learning needs to emerge in a fully unsupervised manner. We propose a technique to visualize individual convolutional layers in the classifier that yields highly informative time-series data for each convolutional layer and apply it to unobserved test data. Using non-linear regression, we infer underlying distributions for each word which allows us to analyze both absolute values and shapes of individual words at different convolutional layers as well as perform hypothesis testing on their acoustic properties. The technique also allows us to tests individual phone contrasts and how they are represented at each layer.
翻訳日:2021-10-07 14:16:55 公開日:2021-10-05
# 修正超解像CNNによるアニメ画像の拡張

Enhancement of Anime Imaging Enlargement using Modified Super-Resolution CNN ( http://arxiv.org/abs/2110.02321v1 )

ライセンス: Link先を確認
Tanakit Intaniyom, Warinthorn Thananporn, and Kuntpong Woraratpanya(参考訳) アニメは映画や本に似たストーリーテリングメディアである。 アニメのイメージは一種のアートワークであり、ほとんどすべて手で描いている。 そのため、大型で高画質のアニメを再現することは高価である。 そこで我々は,畳み込みニューラルネットワークに基づくモデルを提案し,画像の特徴を抽出し,画像を拡大し,アニメ画像の品質を向上させる。 モデルを160画像のトレーニングセットと20画像の検証セットでトレーニングした。 トレーニングされたモデルを20枚の画像でテストしました。 実験結果から,既存の画像拡大法やSRCNN法と比較して,画像サイズを大きくして画像品質を向上させることができた。

Anime is a storytelling medium similar to movies and books. Anime images are a kind of artworks, which are almost entirely drawn by hand. Hence, reproducing existing Anime with larger sizes and higher quality images is expensive. Therefore, we proposed a model based on convolutional neural networks to extract outstanding features of images, enlarge those images, and enhance the quality of Anime images. We trained the model with a training set of 160 images and a validation set of 20 images. We tested the trained model with a testing set of 20 images. The experimental results indicated that our model successfully enhanced the image quality with a larger image-size when compared with the common existing image enlargement and the original SRCNN method.
翻訳日:2021-10-07 14:16:16 公開日:2021-10-05
# seannet:オブジェクトダイナミクス下の局所化のための意味理解ネットワーク

SeanNet: Semantic Understanding Network for Localization Under Object Dynamics ( http://arxiv.org/abs/2110.02276v1 )

ライセンス: Link先を確認
Xiao Li, Yidong Du, Zhen Zeng, Odest Chadwicke Jenkins(参考訳) 我々は,屋内におけるロボットの長期運用を目標としている。 ヒトの日常活動によって引き起こされる物体レベルのシーンダイナミクスの下では、ロボットはシーンの不確実性を考慮した環境にしっかりと位置決めする必要がある。 これまでは、静的環境における視覚的位置決めに取り組んできたが、オブジェクトレベルのシーンダイナミクスは、ロボットの長期展開における既存の手法に挑戦している。 本稿では,視覚面と意味面の両方において,ロボットが2つのシーン間の類似性を測定するための意味理解ネットワーク(seannet)を提案する。 さらに、視覚ナビゲーションタスクの進捗状況を監視するために、SeanNetに基づく類似性に基づくローカライズ手法を開発した。 実験では,シーン類似度測定のベースライン手法と,視覚ナビゲータと統合された視覚ナビゲーション性能について,SeanNetのベンチマークを行った。 我々は,seannetがロボットをオブジェクトダイナミクス下でロバストにローカライズすることにより,タスク状態に関する視覚的ナビゲーションを確実に知らせることで,すべてのベースラインメソッドに勝ることを実証する。

We aim for domestic robots to operate indoor for long-term service. Under the object-level scene dynamics induced by human daily activities, a robot needs to robustly localize itself in the environment subject to scene uncertainties. Previous works have addressed visual-based localization in static environments, yet the object-level scene dynamics challenge existing methods on long-term deployment of the robot. This paper proposes SEmantic understANding Network (SeanNet) that enables robots to measure the similarity between two scenes on both visual and semantic aspects. We further develop a similarity-based localization method based on SeanNet for monitoring the progress of visual navigation tasks. In our experiments, we benchmarked SeanNet against baselines methods on scene similarity measures, as well as visual navigation performance once integrated with a visual navigator. We demonstrate that SeanNet outperforms all baseline methods, by robustly localizing the robot under object dynamics, thus reliably informing visual navigation about the task status.
翻訳日:2021-10-07 14:14:52 公開日:2021-10-05
# 一度だけ評価する:オフラインRLのためのシンプルなベースラインアルゴリズム

You Only Evaluate Once: a Simple Baseline Algorithm for Offline RL ( http://arxiv.org/abs/2110.02304v1 )

ライセンス: Link先を確認
Wonjoon Goo, Scott Niekum(参考訳) オフライン強化学習(RL)の目的は、事前記録された軌跡から最適な方針を見つけることである。 現在の多くのアプローチでは、政策評価と改善が反復される既存の非政治的RLアルゴリズム、特にアクター批判アルゴリズムをカスタマイズしている。 しかし、そのような手法の収束は、複雑な非線形関数近似と相互最適化プロセスを用いることによって保証されない。 対照的に、オフラインRLのための単純なベースラインアルゴリズムを提案し、そのアルゴリズムが複雑な安定化スキームを必要としないようにポリシー評価ステップを一度だけ実行する。 提案アルゴリズムは最適ポリシーに収束する可能性が低いため,オフライン設定において反復最適化に真の価値がある場合,アクタ批判アルゴリズムは性能が向上するべきである。 驚くべきことに、提案アルゴリズムは、D4RLオフラインRLベンチマークのサブセットにおいて、競合的かつ時折最先端のパフォーマンスを示す。 この結果は、そのような手法の安定性の低下を正当化するために、反復最適化の潜在的な利点を十分に活用するために将来の作業が必要であることを示唆している。

The goal of offline reinforcement learning (RL) is to find an optimal policy given prerecorded trajectories. Many current approaches customize existing off-policy RL algorithms, especially actor-critic algorithms in which policy evaluation and improvement are iterated. However, the convergence of such approaches is not guaranteed due to the use of complex non-linear function approximation and an intertwined optimization process. By contrast, we propose a simple baseline algorithm for offline RL that only performs the policy evaluation step once so that the algorithm does not require complex stabilization schemes. Since the proposed algorithm is not likely to converge to an optimal policy, it is an appropriate baseline for actor-critic algorithms that ought to be outperformed if there is indeed value in iterative optimization in the offline setting. Surprisingly, we empirically find that the proposed algorithm exhibits competitive and sometimes even state-of-the-art performance in a subset of the D4RL offline RL benchmark. This result suggests that future work is needed to fully exploit the potential advantages of iterative optimization in order to justify the reduced stability of such methods.
翻訳日:2021-10-07 14:14:34 公開日:2021-10-05
# OTTR:強化学習を用いたオフロード軌道追跡

OTTR: Off-Road Trajectory Tracking using Reinforcement Learning ( http://arxiv.org/abs/2110.02332v1 )

ライセンス: Link先を確認
Akhil Nagariya, Dileep Kalathil, Srikanth Saripalli(参考訳) 本研究では,オフロード軌道追跡問題に対する新しい強化学習(RL)アルゴリズムを提案する。 オフロード環境には様々な地形タイプや標高があり、そのような多様な複雑な環境で特定のオフロード車両の相互作用のダイナミクスをモデル化することは困難である。 シミュレーターで訓練された標準のRLポリシーは、このような困難な現実世界の設定では動作しない。 単調なドメインランダム化アプローチを使う代わりに、sim-to-realギャップ問題を克服するための革新的な教師あり学習方式を提案する。 提案手法は,簡単なキネマティクスシミュレータを用いて得られたベースラインRLポリシーに適応するために利用可能な限られた実世界のデータを利用する。 これにより、車両とオフロード環境の多様な複雑な相互作用をモデル化する必要がなくなる。 提案アルゴリズムの性能をWarthogとMooseの2種類のオフロード車両を用いて評価した。 標準のilqrアプローチと比較すると,提案手法は実世界の運転データのみを利用して,warthogとmooseのクロストラック誤差を30%,50%削減する。

In this work, we present a novel Reinforcement Learning (RL) algorithm for the off-road trajectory tracking problem. Off-road environments involve varying terrain types and elevations, and it is difficult to model the interaction dynamics of specific off-road vehicles with such a diverse and complex environment. Standard RL policies trained on a simulator will fail to operate in such challenging real-world settings. Instead of using a naive domain randomization approach, we propose an innovative supervised-learning based approach for overcoming the sim-to-real gap problem. Our approach efficiently exploits the limited real-world data available to adapt the baseline RL policy obtained using a simple kinematics simulator. This avoids the need for modeling the diverse and complex interaction of the vehicle with off-road environments. We evaluate the performance of the proposed algorithm using two different off-road vehicles, Warthog and Moose. Compared to the standard ILQR approach, our proposed approach achieves a 30% and 50% reduction in cross track error in Warthog and Moose, respectively, by utilizing only 30 minutes of real-world driving data.
翻訳日:2021-10-07 14:14:15 公開日:2021-10-05
# 準ニュートンポリシー勾配アルゴリズム

Quasi-Newton policy gradient algorithms ( http://arxiv.org/abs/2110.02398v1 )

ライセンス: Link先を確認
Haoya Li, Samarth Gupta, Hsiangfu Yu, Lexing Ying, Inderjit Dhillon(参考訳) 近年、政策勾配アルゴリズムは強化学習(RL)問題に広く応用されている。 様々なエントロピー関数を持つ正規化は、探索と安定性の向上を促進するためにしばしば用いられる。 本稿では,エントロピー正規化を伴うポリシー勾配アルゴリズムに対する準ニュートン法を提案する。 シャノンエントロピーの場合、結果として得られるアルゴリズムは自然政策勾配 (npg) アルゴリズムを再現する。 他のエントロピー関数に対しては、この手法は新しいポリシー勾配アルゴリズムをもたらす。 これら全てのアルゴリズムが最適ポリシーに近いニュートン型二次収束を楽しむという簡単な証明を提供する。 合成および工業規模の例を用いて、提案した準ニュートン法は一般に1桁の繰り返しに収束し、しばしば他の最先端アルゴリズムよりも桁違いに高速であることを示した。

Policy gradient algorithms have been widely applied to reinforcement learning (RL) problems in recent years. Regularization with various entropy functions is often used to encourage exploration and improve stability. In this paper, we propose a quasi-Newton method for the policy gradient algorithm with entropy regularization. In the case of Shannon entropy, the resulting algorithm reproduces the natural policy gradient (NPG) algorithm. For other entropy functions, this method results in brand new policy gradient algorithms. We provide a simple proof that all these algorithms enjoy the Newton-type quadratic convergence near the optimal policy. Using synthetic and industrial-scale examples, we demonstrate that the proposed quasi-Newton method typically converges in single-digit iterations, often orders of magnitude faster than other state-of-the-art algorithms.
翻訳日:2021-10-07 14:13:56 公開日:2021-10-05
# 3D-MOV:ビデオからの複数物体の3次元再構成のためのオーディオ・ビジュアルLSTMオートエンコーダ

3D-MOV: Audio-Visual LSTM Autoencoder for 3D Reconstruction of Multiple Objects from Video ( http://arxiv.org/abs/2110.02404v1 )

ライセンス: Link先を確認
Justin Wilson and Ming C. Lin(参考訳) 透明・凹凸構造物体の3次元オブジェクト再構成は, 材料特性が推定されるが, 非構造環境におけるロボットナビゲーションのオープンな研究課題である。 本稿では,音声視覚入力を用いた3次元再構成のためのマルチモーダル・シングルフレーム・マルチフレームニューラルネットワークを提案する。 訓練されたLSTMオートエンコーダ3D-MOVは、様々な表面タイプやビューを考慮した複数の入力を受信する。 ニューラルネットワークはvoxel表現を用いた高品質な3d再構成を実現する。 iou (intersection-over-u nion) に基づいて, 衝撃音とバウンディングボックスアノテーションを用いた合成視聴覚データセット shapenet と sound20k を用いて, 他のベースライン手法に対する評価を行った。 我々の知る限りでは、我々のシングルフレームおよびマルチフレームモデルは3次元幾何学と物質表現のための最初のオーディオ視覚再構成ニューラルネットワークである。

3D object reconstructions of transparent and concave structured objects, with inferred material properties, remains an open research problem for robot navigation in unstructured environments. In this paper, we propose a multimodal single- and multi-frame neural network for 3D reconstructions using audio-visual inputs. Our trained reconstruction LSTM autoencoder 3D-MOV accepts multiple inputs to account for a variety of surface types and views. Our neural network produces high-quality 3D reconstructions using voxel representation. Based on Intersection-over-Un ion (IoU), we evaluate against other baseline methods using synthetic audio-visual datasets ShapeNet and Sound20K with impact sounds and bounding box annotations. To the best of our knowledge, our single- and multi-frame model is the first audio-visual reconstruction neural network for 3D geometry and material representation.
翻訳日:2021-10-07 14:11:18 公開日:2021-10-05
# echo-reconstruction: 音声による3次元シーンの再構成

Echo-Reconstruction: Audio-Augmented 3D Scene Reconstruction ( http://arxiv.org/abs/2110.02405v1 )

ライセンス: Link先を確認
Justin Wilson and Nicholas Rewkowski and Ming C. Lin and Henry Fuchs(参考訳) 窓、鏡、壁などの反射面とテクスチャのない面は、オブジェクトやシーンの再構築に難題である。 これらの表面は、しばしば再構成が不十分で、深さの不連続性や穴で満たされており、これらの平面不連続性を含むシーンを密に再構築することは困難である。 本研究では,音の反射を利用して,仮想会議,テレマージョン,その他のar/vr体験の幾何および音響再構成を支援する音響ビジュアル手法であるechoreconstructionを提案する。 携帯電話のプロトタイプはパルスオーディオを出力し、RGBベースの3D再構成とオーディオ視覚分類のためのビデオを記録する。 映像からの反射音と映像を音声(EchoCNN-A)と音声視覚(EchoCNN-AV)の畳み込みニューラルネットワークに入力し,音源検出,深度推定,材料分類を行う。 これらの分類からの推測は、奥行きフィルタリング、塗装、未混合音源の配置により、開放空間と反射面を含むシーン3次元再構成を促進する。 プロトタイプ,vrデモ,実世界および実世界および音環境における実験結果から,材料分類,奥行き推定,閉・開放面において高い成功率を示し,3dシーンにおける映像と音声の大幅な改善をもたらした(図1参照)。

Reflective and textureless surfaces such as windows, mirrors, and walls can be a challenge for object and scene reconstruction. These surfaces are often poorly reconstructed and filled with depth discontinuities and holes, making it difficult to cohesively reconstruct scenes that contain these planar discontinuities. We propose Echoreconstruction, an audio-visual method that uses the reflections of sound to aid in geometry and audio reconstruction for virtual conferencing, teleimmersion, and other AR/VR experience. The mobile phone prototype emits pulsed audio, while recording video for RGB-based 3D reconstruction and audio-visual classification. Reflected sound and images from the video are input into our audio (EchoCNN-A) and audio-visual (EchoCNN-AV) convolutional neural networks for surface and sound source detection, depth estimation, and material classification. The inferences from these classifications enhance scene 3D reconstructions containing open spaces and reflective surfaces by depth filtering, inpainting, and placement of unmixed sound sources in the scene. Our prototype, VR demo, and experimental results from real-world and virtual scenes with challenging surfaces and sound indicate high success rates on classification of material, depth estimation, and closed/open surfaces, leading to considerable visual and audio improvement in 3D scenes (see Figure 1).
翻訳日:2021-10-07 14:11:04 公開日:2021-10-05
# RSCAによる星の化学類似度の測定

Measuring chemical likeness of stars with RSCA ( http://arxiv.org/abs/2110.02250v1 )

ライセンス: Link先を確認
Damien de Mijolla, Melissa K. Ness(参考訳) 元素の存在量を用いた化学的に類似した恒星の同定は、銀河考古学における多くの研究の核心である。 しかし、不完全な合成スペクトルの体系的なインプリントによって、存在量の直接測定は制限される。 我々は、スペクトルのみから化学的に類似した恒星を同定できる新しいデータ駆動モデルを提案する。 これをRSCA(Relevant Scaled Component Analysis)と呼ぶ。 RSCAは、恒星スペクトルから既知のオープンクラスタのリカバリを最適化する表現へのマッピングを見つける。 設計により、RSCAは化学量変化の要因を増幅し、機器の体系のような非化学的パラメータの要素を最小化する。 したがって、恒星スペクトルの結果としての表現は、恒星間の化学的類似性の正確な測定に使用できる。 APOGEE調査では、22個の開星団に185個の星団を用いてRSCAを検証する。 我々は151,145個の星の基準セットを用いて、化学類似性の測定における我々の性能を定量化する。 我々の表現は、恒星の存在量測定よりも、既知の恒星の兄弟を効果的に識別する。 RSCAを用いると、1.8%の磁場星は、恒星の存在量ラベルを使用する場合の2.3%と比べて、出生兄弟と似ている。 RSCAによって活用されるスペクトル内のほぼ全ての情報は、[Fe/H] および α-元素量にリンクする2次元ベースに適合する。 星団への化学タグ付けは禁じられていると結論付けている。 しかし、スペクトルの利用は顕著に向上しており、我々のアプローチはより大きなデータセットと改良されたアルゴリズム設計の恩恵を受けることができる。

Identification of chemically similar stars using elemental abundances is core to many pursuits within Galactic archaeology. However, measuring the chemical likeness of stars using abundances directly is limited by systematic imprints of imperfect synthetic spectra in abundance derivation. We present a novel data-driven model that is capable of identifying chemically similar stars from spectra alone. We call this Relevant Scaled Component Analysis (RSCA). RSCA finds a mapping from stellar spectra to a representation that optimizes recovery of known open clusters. By design, RSCA amplifies factors of chemical abundance variation and minimizes those of non-chemical parameters, such as instrument systematics. The resultant representation of stellar spectra can therefore be used for precise measurements of chemical similarity between stars. We validate RSCA using 185 cluster stars in 22 open clusters in the APOGEE survey. We quantify our performance in measuring chemical similarity using a reference set of 151,145 field stars. We find that our representation identifies known stellar siblings more effectively than stellar abundance measurements. Using RSCA, 1.8% of pairs of field stars are as similar as birth siblings, compared to 2.3% when using stellar abundance labels. We find that almost all of the information within spectra leveraged by RSCA fits into a two-dimensional basis, which we link to [Fe/H] and alpha-element abundances. We conclude that chemical tagging of stars to their birth clusters remains prohibitive. However, using the spectra has noticeable gain, and our approach is poised to benefit from larger datasets and improved algorithm designs.
翻訳日:2021-10-07 14:10:04 公開日:2021-10-05
# 複素ネットワークにおけるロバスト性モジュラリティ

Robustness modularity in complex networks ( http://arxiv.org/abs/2110.02297v1 )

ライセンス: Link先を確認
Filipi N. Silva and Aiiad Albeshri and Vijey Thayananthan and Wadee Alhalabi and Santo Fortunato(参考訳) ネットワークコミュニティ検出の基本的な質問は、あるネットワークがいかにモジュール化されているかである。 これは通常、ネットワークで検出されたパーティションの品質を評価することで対処される。 GN(Girvan-Newman)モジュラリティ関数は、この評価を行う標準的な方法であるが、多くの欠点がある。 最も重要なことは、この尺度がコミュニティなしでランダムネットワークの分割に対して比較的大きな値を取ることができるため、明確に解釈できないことである。 本稿では,ロバスト性の概念に基づく新しい尺度を提案する。 モジュール性とは,ネットワークの構造がランダムに摂動するときに自明な分割を見つける確率である。 この概念は、グループ構造が欠落していることを判断できる任意のクラスタリングアルゴリズムに実装できる。 人工グラフと実グラフのテストにより、異なるネットワークのコミュニティ構造の強さを評価し比較するためにロバスト性モジュラリティが使用できることが明らかになった。 また, gnモジュラリティの適切な正規化バージョンであるモジュラリティ差, 情報圧縮に基づく距離尺度である情報モジュラリティについても紹介する。 どちらの指標もロバスト性モジュール性と強く関連しており、有望な選択肢でもある。

A basic question in network community detection is how modular a given network is. This is usually addressed by evaluating the quality of partitions detected in the network. The Girvan-Newman (GN) modularity function is the standard way to make this assessment, but it has a number of drawbacks. Most importantly, it is not clearly interpretable, given that the measure can take relatively large values on partitions of random networks without communities. Here we propose a new measure based on the concept of robustness: modularity is the probability to find trivial partitions when the structure of the network is randomly perturbed. This concept can be implemented for any clustering algorithm capable of telling when a group structure is absent. Tests on artificial and real graphs reveal that robustness modularity can be used to assess and compare the strength of the community structure of different networks. We also introduce two other quality functions: modularity difference, a suitably normalized version of the GN modularity; information modularity, a measure of distance based on information compression. Both measures are strongly correlated with robustness modularity, and are promising options as well.
翻訳日:2021-10-07 14:09:41 公開日:2021-10-05
# コンテントベーススペクトル共有のための深層強化学習フレームワーク

A Deep Reinforcement Learning Framework for Contention-Based Spectrum Sharing ( http://arxiv.org/abs/2110.02736v1 )

ライセンス: Link先を確認
Akash Doshi, Srinivas Yerramalli, Lorenzo Ferrari, Taesang Yoo, Jeffrey G. Andrews(参考訳) 非ライセンススペクトルで動作する無線デバイスの増加は、スペクトルアクセスに対するインテリジェントな適応アプローチの開発を動機付ける。 我々は、非ライセンス共有スペクトルで動作する基地局(bss)に対する分散競合ベースの媒体アクセスについて検討し、各bsは、与えられたリソースで送信するか否かを自律的に決定する。 競合決定は、独自のダウンリンクスループットではなく、ネットワーク全体の目標を最大化しようとするものだ。 我々は、この問題を、スループットの観点から長期的な比例公平性を提供する新しい報酬構造により、分散した部分観測可能なマルコフ決定プロセスとして定式化する。 次に、各タイムスロットに2段階のマルコフ決定プロセスを導入し、スペクトルセンシングと受信品質の情報を用いて媒体アクセス決定を行う。 最後に、これらの特徴を競合ベースのスペクトルアクセスのための分散強化学習フレームワークに組み込む。 提案方式は分散推論やオンライン適応性を提供し,q-learningの繰り返しを通じて環境の部分的可観測性にも寄与する。 経験的に、比例フェアネスメトリックの最大化は、チャネルフェージングや小さな競合ウィンドウに頑健でありながら、ゲニー支援の適応エネルギー検出しきい値と競合することが判明した。

The increasing number of wireless devices operating in unlicensed spectrum motivates the development of intelligent adaptive approaches to spectrum access. We consider decentralized contention-based medium access for base stations (BSs) operating on unlicensed shared spectrum, where each BS autonomously decides whether or not to transmit on a given resource. The contention decision attempts to maximize not its own downlink throughput, but rather a network-wide objective. We formulate this problem as a decentralized partially observable Markov decision process with a novel reward structure that provides long term proportional fairness in terms of throughput. We then introduce a two-stage Markov decision process in each time slot that uses information from spectrum sensing and reception quality to make a medium access decision. Finally, we incorporate these features into a distributed reinforcement learning framework for contention-based spectrum access. Our formulation provides decentralized inference, online adaptability and also caters to partial observability of the environment through recurrent Q-learning. Empirically, we find its maximization of the proportional fairness metric to be competitive with a genie-aided adaptive energy detection threshold, while being robust to channel fading and small contention windows.
翻訳日:2021-10-07 14:08:01 公開日:2021-10-05
# oracleに問い合わせる方法は? データラベルの効率的な戦略

How to Query An Oracle? Efficient Strategies to Label Data ( http://arxiv.org/abs/2110.02341v1 )

ライセンス: Link先を確認
Farshad Lahouti, Victoria Kostina, Babak Hassibi(参考訳) 我々は、機械学習でデータセットをラベル付けするためにエキスパートオラクルに問い合わせる基本的な問題を考える。 これは一般的に高価で時間のかかるプロセスであり、効率的な方法を模索しています。 従来のアプローチでは、各サンプルと各クラス(代表)を比較してマッチを見つける。 等しく可能なクラスが$N$の場合、これは平均で$N/2$ペアワイズ比較(サンプルあたりのクエリ)を行う。 k$-aryのクエリスキームと$k\ge 2$のサンプルをセット内の類似のアイテムを識別し、関連する推移的関係を効果的に活用するクエリで検討する。 サンプルをラベル付けするためにラウンドバイラウンドで動作し,クエリレートが$o(\frac{n}{k^2})$となるランダム化バッチアルゴリズムを提案する。 さらに,適応型グリージークエリ方式を提案し,三重項クエリを用いたサンプルあたりの平均値は$\approx 0.2N$である。 提案アルゴリズムでは,クエリレートの性能を解析的に,シミュレーションにより検討する。 実証的研究により、各三重項クエリは、ペアクエリと比較して、少なくとも50倍の時間でエキスパートを必要とすることが示唆され、提案された$k$-aryクエリスキームの有効性が示されている。 可能な場合、解析を非一様クラス分布に一般化する。

We consider the basic problem of querying an expert oracle for labeling a dataset in machine learning. This is typically an expensive and time consuming process and therefore, we seek ways to do so efficiently. The conventional approach involves comparing each sample with (the representative of) each class to find a match. In a setting with $N$ equally likely classes, this involves $N/2$ pairwise comparisons (queries per sample) on average. We consider a $k$-ary query scheme with $k\ge 2$ samples in a query that identifies (dis)similar items in the set while effectively exploiting the associated transitive relations. We present a randomized batch algorithm that operates on a round-by-round basis to label the samples and achieves a query rate of $O(\frac{N}{k^2})$. In addition, we present an adaptive greedy query scheme, which achieves an average rate of $\approx 0.2N$ queries per sample with triplet queries. For the proposed algorithms, we investigate the query rate performance analytically and with simulations. Empirical studies suggest that each triplet query takes an expert at most 50\% more time compared with a pairwise query, indicating the effectiveness of the proposed $k$-ary query schemes. We generalize the analyses to nonuniform class distributions when possible.
翻訳日:2021-10-07 14:06:01 公開日:2021-10-05
# 量子サプリマシーを用いた量子半教師付き学習

Quantum Semi-Supervised Learning with Quantum Supremacy ( http://arxiv.org/abs/2110.02343v1 )

ライセンス: Link先を確認
Zhou Shangnan(参考訳) 量子機械学習は重要な問題を解決することを約束する。 古典的な機械学習には、ラベル付きデータの欠如と計算能力の限界という2つの永続的な課題がある。 本稿では,量子セミ教師付き学習という,両方の問題を解決する新しいフレームワークを提案する。 さらに、量子半教師付き学習を超えて拡張可能な量子超越性を持つ量子機械学習アルゴリズムを体系的に設計するプロトコルを提供する。 提案手法では, 近接最近傍分類器と呼ばれる量子自己学習アルゴリズムと, 量子半教師付きK平均クラスタリングアルゴリズムを示す。 時間複雑性分析を行うことで、量子超越性を持っていると結論づける。

Quantum machine learning promises to efficiently solve important problems. There are two persistent challenges in classical machine learning: the lack of labeled data, and the limit of computational power. We propose a novel framework that resolves both issues: quantum semi-supervised learning. Moreover, we provide a protocol in systematically designing quantum machine learning algorithms with quantum supremacy, which can be extended beyond quantum semi-supervised learning. We showcase two concrete quantum semi-supervised learning algorithms: a quantum self-training algorithm named the propagating nearest-neighbor classifier, and the quantum semi-supervised K-means clustering algorithm. By doing time complexity analysis, we conclude that they indeed possess quantum supremacy.
翻訳日:2021-10-07 14:05:39 公開日:2021-10-05
# (参考訳) tree in tree: 決定木から決定グラフへ [全文訳有]

Tree in Tree: from Decision Trees to Decision Graphs ( http://arxiv.org/abs/2110.00392v2 )

ライセンス: CC BY 4.0
Bingzhao Zhu, Mahsa Shoaran(参考訳) 決定木は、軽量で解釈可能な決定プロセスのおかげで、多くの機械学習アプリケーションで分類器として広く使われている。 本稿では、従来の決定木をより汎用的で強力な非巡回グラフに拡張するフレームワークであるTree in Tree decision graph (TnT)を紹介する。 TnTは、内部または葉ノード内で再帰的に成長する決定木によって決定グラフを構築する。 TnTの時間複雑性はグラフ内のノード数に線形であり、大きなデータセット上の決定グラフを構築することができる。 決定木と比較すると,TnTは単独の分類器として,また,バッグング/AdaBoostアンサンブルの基底推定器として,モデルサイズを小さくすることで,より良い分類性能が得られることを示す。 提案するモデルは,広く用いられている決定木に代わる,新しい,より効率的かつ正確な代替手段である。

Decision trees have been widely used as classifiers in many machine learning applications thanks to their lightweight and interpretable decision process. This paper introduces Tree in Tree decision graph (TnT), a framework that extends the conventional decision tree to a more generic and powerful directed acyclic graph. TnT constructs decision graphs by recursively growing decision trees inside the internal or leaf nodes instead of greedy training. The time complexity of TnT is linear to the number of nodes in the graph, and it can construct decision graphs on large datasets. Compared to decision trees, we show that TnT achieves better classification performance with reduced model size, both as a stand-alone classifier and as a base estimator in bagging/AdaBoost ensembles. Our proposed model is a novel, more efficient, and accurate alternative to the widely-used decision trees.
翻訳日:2021-10-07 07:05:27 公開日:2021-10-05
# (参考訳) 微分ロボットシミュレータによる進化戦略の導出 [全文訳有]

Guiding Evolutionary Strategies by Differentiable Robot Simulators ( http://arxiv.org/abs/2110.00438v2 )

ライセンス: CC BY 4.0
Vladislav Kurenkov and Bulat Maksudov(参考訳) 近年、進化戦略は、強化学習アルゴリズムの簡単な代替手段を提供するため、ポリシー探索のためのロボットタスクで積極的に研究されている。 しかし、このアルゴリズムのクラスは、非常にサンプル効率が悪いとしばしば主張される。 一方,識別可能なロボットシミュレータ(DRS)への関心が高まっている。 しかし、結果として得られる勾配は、一階最適化に必ずしも役に立たない。 本研究では,進化的戦略とDSS勾配をどのように併用できるかを示す。 予備的な結果は、この組み合わせがシミュレーションと現実世界の両方で進化戦略のサンプルの複雑さを3倍から5倍に減らすことを示唆している。

In recent years, Evolutionary Strategies were actively explored in robotic tasks for policy search as they provide a simpler alternative to reinforcement learning algorithms. However, this class of algorithms is often claimed to be extremely sample-inefficient. On the other hand, there is a growing interest in Differentiable Robot Simulators (DRS) as they potentially can find successful policies with only a handful of trajectories. But the resulting gradient is not always useful for the first-order optimization. In this work, we demonstrate how DRS gradient can be used in conjunction with Evolutionary Strategies. Preliminary results suggest that this combination can reduce sample complexity of Evolutionary Strategies by 3x-5x times in both simulation and the real world.
翻訳日:2021-10-07 06:50:25 公開日:2021-10-05
# (参考訳) 感情行動分析のための定量的表情表現 [全文訳有]

Quantified Facial Expressiveness for Affective Behavior Analytics ( http://arxiv.org/abs/2110.01758v1 )

ライセンス: CC BY 4.0
Md Taufeeq Uddin, Shaun Canavan(参考訳) 顔の表情の定量化は、人間の感情行動の分析に不可欠である。 残念ながら、ビデオフレームレベルでの表現性定量化の方法は、離散表現の研究とは異なり、ほとんど探索されていない。 本研究では,行動単位(aus),ランドマーク,頭部ポーズ,視線などの多彩な顔特徴を用いた,有界連続表現性スコアを用いて表情表現性を定量化するアルゴリズムを提案する。 提案アルゴリズムは、高強度で時間変化が大きいAUをより重くする。 提案アルゴリズムは,表現の離散性の観点から表現性を計算し,顔の行動追跡や文脈における主観的定量化などのタスクに使用できる。 提案アルゴリズムは,時間的変化と表現性の把握,文脈の主観的差異の測定,有用な洞察の抽出に有効であることを示す。

The quantified measurement of facial expressiveness is crucial to analyze human affective behavior at scale. Unfortunately, methods for expressiveness quantification at the video frame-level are largely unexplored, unlike the study of discrete expression. In this work, we propose an algorithm that quantifies facial expressiveness using a bounded, continuous expressiveness score using multimodal facial features, such as action units (AUs), landmarks, head pose, and gaze. The proposed algorithm more heavily weights AUs with high intensities and large temporal changes. The proposed algorithm can compute the expressiveness in terms of discrete expression, and can be used to perform tasks including facial behavior tracking and subjectivity quantification in context. Our results on benchmark datasets show the proposed algorithm is effective in terms of capturing temporal changes and expressiveness, measuring subjective differences in context, and extracting useful insight.
翻訳日:2021-10-07 01:19:04 公開日:2021-10-05
# (参考訳) 医用画像の異常検出のためのプロキシブリッジ画像再構成ネットワーク [全文訳有]

Proxy-bridged Image Reconstruction Network for Anomaly Detection in Medical Images ( http://arxiv.org/abs/2110.01761v1 )

ライセンス: CC BY 4.0
Kang Zhou, Jing Li, Weixin Luo, Zhengxin Li, Jianlong Yang, Huazhu Fu, Jun Cheng, Jiang Liu and Shenghua Gao(参考訳) 医学画像における異常検出は、トレーニングセット内の正常画像のみを含む異常画像の識別を指す。 既存の手法の多くは、アイデンティティマッピングを学習し、異常に対する感受性を低下させる自己再構築フレームワークによってこの問題を解決している。 そこで本稿では,医療画像における異常検出のためのプロキシブリッジ型画像再構成ネットワーク(proxyano)を提案する。 具体的には,中間プロキシを用いて入力画像と再構成画像の橋渡しを行う。 我々は、異なるプロキシタイプを研究し、スーパーピクセルイメージ(SI)が最適であることがわかった。 各スーパーピクセル内のすべてのピクセルの強度を平均強度として設定し、この画像をsiと表現する。 提案された ProxyAno は,2つのモジュール,プロキシ抽出モジュールとイメージ再構成モジュールで構成されている。 プロキシ抽出モジュールにおいて、正規画像の特徴対応を記憶するメモリを導入して対応するsiに記憶するが、記憶対応は異常画像には適用されず、異常画像の情報損失を生じさせ、異常検出を容易にする。 画像再構成モジュールでは、siを再構成した画像にマップする。 さらに、画像からパッチを採取し、正常なSIに貼り付け、異常を模倣し、疑似異常なSIであっても正常な画像の再構成をネットワークに強制する。 このようにして,ネットワークは異常の再構成誤差を増大させる。 脳MR画像,網膜OCT画像,網膜基底画像の広範囲にわたる実験により,画像レベルおよび画素レベルの異常検出における本法の有効性が検証された。

Anomaly detection in medical images refers to the identification of abnormal images with only normal images in the training set. Most existing methods solve this problem with a self-reconstruction framework, which tends to learn an identity mapping and reduces the sensitivity to anomalies. To mitigate this problem, in this paper, we propose a novel Proxy-bridged Image Reconstruction Network (ProxyAno) for anomaly detection in medical images. Specifically, we use an intermediate proxy to bridge the input image and the reconstructed image. We study different proxy types, and we find that the superpixel-image (SI) is the best one. We set all pixels' intensities within each superpixel as their average intensity, and denote this image as SI. The proposed ProxyAno consists of two modules, a Proxy Extraction Module and an Image Reconstruction Module. In the Proxy Extraction Module, a memory is introduced to memorize the feature correspondence for normal image to its corresponding SI, while the memorized correspondence does not apply to the abnormal images, which leads to the information loss for abnormal image and facilitates the anomaly detection. In the Image Reconstruction Module, we map an SI to its reconstructed image. Further, we crop a patch from the image and paste it on the normal SI to mimic the anomalies, and enforce the network to reconstruct the normal image even with the pseudo abnormal SI. In this way, our network enlarges the reconstruction error for anomalies. Extensive experiments on brain MR images, retinal OCT images and retinal fundus images verify the effectiveness of our method for both image-level and pixel-level anomaly detection.
翻訳日:2021-10-07 01:02:03 公開日:2021-10-05
# (参考訳) 文脈モデリングとモデルに基づく政策学習による教育ビデオのプロシージャ計画 [全文訳有]

Procedure Planning in Instructional Videosvia Contextual Modeling and Model-based Policy Learning ( http://arxiv.org/abs/2110.01770v1 )

ライセンス: CC BY 4.0
Jing Bi, Jiebo Luo, Chenliang Xu(参考訳) 人間の行動を観察して新しいスキルを学ぶことは、AIの重要な能力である。 本研究では,実生活映像における目標指向行動計画モデルの構築に焦点をあて,人間の意思決定過程の学習に指導ビデオを活用する。 従来の行動認識とは対照的に、ゴール指向の行動は行動の潜在的な結果の因果的知識を必要とする結果の期待に基づいている。 したがって、この課題を解決するには、環境構造と目標の統合が不可欠である。 以前の研究は、単一の世界モデルが様々なタスクを区別できないことを学習し、その結果、あいまいな潜在空間が生まれる。 そこで本研究では, 手続き計画の新しい定式化とベイズ推論とモデルに基づく模倣学習を通じ, 人間の行動をモデル化する新しいアルゴリズムを提案する。 実世界のインストラクショナルビデオで行った実験では,提案手法が目標達成時に最先端のパフォーマンスを達成できることが示されている。 さらに,学習した文脈情報は,潜在空間における計画のための興味深い特徴を示す。

Learning new skills by observing humans' behaviors is an essential capability of AI. In this work, we leverage instructional videos to study humans' decision-making processes, focusing on learning a model to plan goal-directed actions in real-life videos. In contrast to conventional action recognition, goal-directed actions are based on expectations of their outcomes requiring causal knowledge of potential consequences of actions. Thus, integrating the environment structure with goals is critical for solving this task. Previous works learn a single world model will fail to distinguish various tasks, resulting in an ambiguous latent space; planning through it will gradually neglect the desired outcomes since the global information of the future goal degrades quickly as the procedure evolves. We address these limitations with a new formulation of procedure planning and propose novel algorithms to model human behaviors through Bayesian Inference and model-based Imitation Learning. Experiments conducted on real-world instructional videos show that our method can achieve state-of-the-art performance in reaching the indicated goals. Furthermore, the learned contextual information presents interesting features for planning in a latent space.
翻訳日:2021-10-07 00:35:34 公開日:2021-10-05
# (参考訳) 量子完全畳み込みネットワークの実現可能なアーキテクチャ [全文訳有]

Feasible Architecture for Quantum Fully Convolutional Networks ( http://arxiv.org/abs/2110.01771v1 )

ライセンス: CC BY 4.0
Yusui Chen, Wenhao Hu, Xiang Li(参考訳) 完全畳み込みネットワークは、信号処理からコンピュータビジョンまで、多くの応用を含む意味セグメンテーションの実行において堅牢である。 変動量子アルゴリズムの基本原理から,ノイズの多い中間規模量子デバイス上で動作可能な,実現可能な純粋量子アーキテクチャを提案する。 本研究では,畳み込み,プール,アップサンプリングの3層からなるパラメータ化量子回路を,生成的1量子ビットゲートと2量子ビットゲートで特徴付け,古典的最適化器で駆動する。 このアーキテクチャは、一方通行の量子コンピュータ上で動的プログラミングを実現し、計算全体を通して量子コンピューティングを最大限に活用するためのソリューションを提供する。 さらに,本アルゴリズムは多くの物理プラットフォーム上で動作し,特にアップサンプリング層では従来の量子ビットやマルチレベルシステムを利用することができる。 数値シミュレーションにより、本研究は純粋量子完全畳み込みネットワークのトレーニングを成功させ、それをハイブリッドソリューションと比較することで利点を論じる。

Fully convolutional networks are robust in performing semantic segmentation, with many applications from signal processing to computer vision. From the fundamental principles of variational quantum algorithms, we propose a feasible pure quantum architecture that can be operated on noisy intermediate-scale quantum devices. In this work, a parameterized quantum circuit consisting of three layers, convolutional, pooling, and upsampling, is characterized by generative one-qubit and two-qubit gates and driven by a classical optimizer. This architecture supplies a solution for realizing the dynamical programming on a one-way quantum computer and maximally taking advantage of quantum computing throughout the calculation. Moreover, our algorithm works on many physical platforms, and particularly the upsampling layer can use either conventional qubits or multiple-level systems. Through numerical simulations, our study represents the successful training of a pure quantum fully convolutional network and discusses advantages by comparing it with the hybrid solution.
翻訳日:2021-10-07 00:19:08 公開日:2021-10-05
# (参考訳) HighlightMe:人間中心のビデオからハイライトを検出する

HighlightMe: Detecting Highlights from Human-Centric Videos ( http://arxiv.org/abs/2110.01774v1 )

ライセンス: CC BY 4.0
Uttaran Bhattacharya and Gang Wu and Stefano Petrangeli and Viswanathan Swaminathan and Dinesh Manocha(参考訳) 我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。 本手法は,ポーズや顔などの複数の観察可能な人間中心のモダリティをグラフベースで表現する。 時空間グラフ畳み込みを具備したオートエンコーダネットワークを用いて,これらのモダリティに基づいて人的活動や相互作用を検出する。 ネットワークをトレーニングし、フレームの表現性に基づいて、異なるモダリティのアクティビティとインタラクションに基づく潜在構造表現をフレーム毎のハイライトスコアにマップします。 これらのスコアを用いて、どのフレームをハイライトし、連続したフレームを縫い合わせて抜粋を生成するかを計算する。 大規模なAVA-Kineticsアクションデータセットでネットワークをトレーニングし、DSH、TVSum、PHD2、SumMeの4つのベンチマークビデオハイライトデータセットで評価する。 ユーザが提供する好みやデータセット固有の微調整を必要とせずに、これらのデータセットにおける最先端の手法よりも、人間の注釈付きハイライトにマッチする平均的な平均精度を4-12%改善する。

We present a domain- and user-preference-agno stic approach to detect highlightable excerpts from human-centric videos. Our method works on the graph-based representation of multiple observable human-centric modalities in the videos, such as poses and faces. We use an autoencoder network equipped with spatial-temporal graph convolutions to detect human activities and interactions based on these modalities. We train our network to map the activity- and interaction-based latent structural representations of the different modalities to per-frame highlight scores based on the representativeness of the frames. We use these scores to compute which frames to highlight and stitch contiguous frames to produce the excerpts. We train our network on the large-scale AVA-Kinetics action dataset and evaluate it on four benchmark video highlight datasets: DSH, TVSum, PHD2, and SumMe. We observe a 4-12% improvement in the mean average precision of matching the human-annotated highlights over state-of-the-art methods in these datasets, without requiring any user-provided preferences or dataset-specific fine-tuning.
翻訳日:2021-10-07 00:07:53 公開日:2021-10-05
# (参考訳) ContractNLI: 契約のためのドキュメントレベルの自然言語推論のためのデータセット [全文訳有]

ContractNLI: A Dataset for Document-level Natural Language Inference for Contracts ( http://arxiv.org/abs/2110.01799v1 )

ライセンス: CC BY 4.0
Yuta Koreeda and Christopher D. Manning(参考訳) 契約の審査は時間を要する手続きであり、その費用を払えない者には企業や社会的不平等をもたらす。 本稿では,このような問題に対処するnliの新規な実世界応用である「契約のための文書レベル自然言語推論(nli)」を提案する。 この課題において、システムは一連の仮説(例えば「協定の諸義務は終了を乗り切ることができる」など)と契約を与えられ、各仮説が「関連づけられている」か、「矛盾している」か、あるいは「言及されていない」かを分類するよう求められ、また、その決定の「証拠」を契約のスパンとして特定する。 607の注釈付き契約からなる、これまでで最大のコーパスをアノテートし、リリースしました。 その結果,既存のモデルでは,開始と終了のトークンを予測しようとするのではなく,複数ラベルの分類として識別された証拠をモデル化し,長い文書を扱うために,より洗練されたコンテキストセグメンテーションを採用していることがわかった。 また,例外による否定などの契約の言語的特徴が,この課題の難しさに寄与しており,改善の余地がたくさんあることも示している。

Reviewing contracts is a time-consuming procedure that incurs large expenses to companies and social inequality to those who cannot afford it. In this work, we propose "document-level natural language inference (NLI) for contracts", a novel, real-world application of NLI that addresses such problems. In this task, a system is given a set of hypotheses (such as "Some obligations of Agreement may survive termination.") and a contract, and it is asked to classify whether each hypothesis is "entailed by", "contradicting to" or "not mentioned by" (neutral to) the contract as well as identifying "evidence" for the decision as spans in the contract. We annotated and release the largest corpus to date consisting of 607 annotated contracts. We then show that existing models fail badly on our task and introduce a strong baseline, which (1) models evidence identification as multi-label classification over spans instead of trying to predict start and end tokens, and (2) employs more sophisticated context segmentation for dealing with long documents. We also show that linguistic characteristics of contracts, such as negations by exceptions, are contributing to the difficulty of this task and that there is much room for improvement.
翻訳日:2021-10-07 00:06:39 公開日:2021-10-05
# (参考訳) ニューラルマシン翻訳における事前学習とバックトランスレーションの相補性について [全文訳有]

On the Complementarity between Pre-Training and Back-Translation for Neural Machine Translation ( http://arxiv.org/abs/2110.01811v1 )

ライセンス: CC BY 4.0
Xuebo Liu, Longyue Wang, Derek F. Wong, Liang Ding, Lidia S. Chao, Shuming Shi, Zhaopeng Tu(参考訳) プレトレーニング(PT)とバックトランスレーション(BT)は、単言語データを利用してニューラルマシン翻訳(NMT)のモデル性能を改善するための2つの単純かつ強力な方法である。 本稿は,ptとbtの相補性を検討するための第一歩である。 我々はPTとBTの2つの探索タスクを導入し、PTが主にエンコーダモジュールに寄与し、BTはデコーダにより多くの利点をもたらすことを発見した。 実験の結果,PTとBTは相互に相補的であり,WMT16の英語・ルーマニア語・英語・ロシア語のベンチマークで最先端の性能を確立した。 文の独創性と単語の頻度に関する広範囲な分析を通じて,タグ付きbtとptを組み合わせることで,その相補性が向上し,翻訳品質が向上することを示す。 ソースコードはhttps://github.com/S unbowLiu/PTvsBTで無料で入手できる。

Pre-training (PT) and back-translation (BT) are two simple and powerful methods to utilize monolingual data for improving the model performance of neural machine translation (NMT). This paper takes the first step to investigate the complementarity between PT and BT. We introduce two probing tasks for PT and BT respectively and find that PT mainly contributes to the encoder module while BT brings more benefits to the decoder. Experimental results show that PT and BT are nicely complementary to each other, establishing state-of-the-art performances on the WMT16 English-Romanian and English-Russian benchmarks. Through extensive analyses on sentence originality and word frequency, we also demonstrate that combining Tagged BT with PT is more helpful to their complementarity, leading to better translation quality. Source code is freely available at https://github.com/S unbowLiu/PTvsBT.
翻訳日:2021-10-06 23:46:29 公開日:2021-10-05
# (参考訳) 改良された遺伝的アルゴリズムに基づくニューラルネットワーク逆攻撃法 [全文訳有]

Neural Network Adversarial Attack Method Based on Improved Genetic Algorithm ( http://arxiv.org/abs/2110.01818v1 )

ライセンス: CC BY 4.0
Dingming Yang, Yanrong Cui, Hongqiang Yuan(参考訳) ディープラーニングアルゴリズムはコンピュータビジョンや自然言語処理といった分野で広く使われているが、多くの非線形関数やパラメータが内部に存在するため、敵の攻撃によるセキュリティの脅威に弱い。 本稿では,改良された遺伝的アルゴリズムに基づくニューラルネットワークの逆攻撃手法を提案する。 改良された遺伝的アルゴリズムは、元の遺伝的最適化アルゴリズムに基づくばらつきとクロスオーバーリンクを改善し、反復効率を大幅に改善し、実行時間を短縮する。 本手法では,ニューラルネットワークモデルの内部構造やパラメータ情報を必要とせず,ニューラルネットワークの分類と信頼性情報により,短時間で高い信頼性の対向サンプルを得ることができる。 実験結果から,本手法はモデルに対して幅広い適用性と高い効率性を示し,敵攻撃に対する新たな考え方を提供する。

Deep learning algorithms are widely used in fields such as computer vision and natural language processing, but they are vulnerable to security threats from adversarial attacks because of their internal presence of a large number of nonlinear functions and parameters leading to their uninterpretability. In this paper, we propose a neural network adversarial attack method based on an improved genetic algorithm. The improved genetic algorithm improves the variation and crossover links based on the original genetic optimization algorithm, which greatly improves the iteration efficiency and shortens the running time. The method does not need the internal structure and parameter information of the neural network model, and it can obtain the adversarial samples with high confidence in a short time by the classification and confidence information of the neural network. The experimental results show that the method in this paper has a wide range of applicability and high efficiency for the model, and provides a new idea for the adversarial attack.
翻訳日:2021-10-06 23:34:27 公開日:2021-10-05
# (参考訳) ブラックボックスビデオ分類器の逆攻撃:幾何変換のパワーを活用する [全文訳有]

Adversarial Attacks on Black Box Video Classifiers: Leveraging the Power of Geometric Transformations ( http://arxiv.org/abs/2110.01823v1 )

ライセンス: CC BY 4.0
Shasha Li, Abhishek Aich, Shitong Zhu, M. Salman Asif, Chengyu Song, Amit K. Roy-Chowdhury, Srikanth Krishnamurthy(参考訳) 画像分類モデルと比較すると、ビデオ分類モデルに対するブラックボックスの敵対的攻撃は概ね未検討である。 ビデオでは、時間次元が勾配推定に重大な課題をもたらすため、これは可能かもしれない。 クエリ効率の高いブラックボックス攻撃は、ターゲットビデオの誤分類の確率を最大化するために、効果的に推定された勾配に依存する。 本研究では,探索空間の時間構造を幾何変換でパラメータ化することで,そのような効果的な勾配を探索できることを実証する。 具体的には、ビデオ分類モデルを攻撃するための新しい反復アルゴリズムGeometric TRAnsformed Perturbations (GEO-TRAP) を設計する。 GEO-TRAPは標準的な幾何学変換演算を用いて、効率的な勾配の探索空間を減らし、これらの演算を定義するパラメータの小さなグループを探索する。 このパラメータ群は勾配の幾何学的進行を記述し、その結果、小さく構造化された探索空間となる。 我々のアルゴリズムは本質的に驚くほど少ないクエリで摂動を成功させる。 例えば、GEO-TRAPから生成された敵の例は、広く使われているJesterデータセットに対するビデオ敵攻撃の最先端手法と比較して、約73.55%のクエリで攻撃の成功率を改善する。 全体として,本アルゴリズムは多様なビデオ分類モデルの脆弱性を露呈し,2つの大規模データセットのブラックボックス設定下で新たな最先端結果を得る。

When compared to the image classification models, black-box adversarial attacks against video classification models have been largely understudied. This could be possible because, with video, the temporal dimension poses significant additional challenges in gradient estimation. Query-efficient black-box attacks rely on effectively estimated gradients towards maximizing the probability of misclassifying the target video. In this work, we demonstrate that such effective gradients can be searched for by parameterizing the temporal structure of the search space with geometric transformations. Specifically, we design a novel iterative algorithm Geometric TRAnsformed Perturbations (GEO-TRAP), for attacking video classification models. GEO-TRAP employs standard geometric transformation operations to reduce the search space for effective gradients into searching for a small group of parameters that define these operations. This group of parameters describes the geometric progression of gradients, resulting in a reduced and structured search space. Our algorithm inherently leads to successful perturbations with surprisingly few queries. For example, adversarial examples generated from GEO-TRAP have better attack success rates with ~73.55% fewer queries compared to the state-of-the-art method for video adversarial attacks on the widely used Jester dataset. Overall, our algorithm exposes vulnerabilities of diverse video classification models and achieves new state-of-the-art results under black-box settings on two large datasets.
翻訳日:2021-10-06 23:24:25 公開日:2021-10-05
# (参考訳) タブラリ時系列に対する注意増強畳み込み変換器 [全文訳有]

Attention Augmented Convolutional Transformer for Tabular Time-series ( http://arxiv.org/abs/2110.01825v1 )

ライセンス: CC BY 4.0
Sharath M Shankaranarayana and Davor Runje(参考訳) 時系列分類は、産業データサイエンスにおいて最も頻繁に実行されるタスクの1つであり、産業環境で最も広く使われているデータ表現の1つは表表現である。 本研究では,表形式の時系列データから表現を学習し,その後時系列分類などの下流タスクを実行するための,スケーラブルなアーキテクチャを提案する。 表現学習フレームワークは、言語モデリングにおけるトランスフォーマー(bert)からの双方向エンコーダ表現に類似しているが、時系列データの事前学習に適した新しいマスク技術を導入する。 さらに、1次元の畳み込みには時系列データセットが自然に役立ち、トランスフォーマーを付加した1次元の畳み込みも使用しています。 また,周期周期周期を異なる粒度レベルで扱う新しいタイムスタンプ埋め込み手法と,時系列データに現れる非周期的傾向を扱う手法を提案する。 提案するモデルはエンドツーエンドであり,カテゴリ的および連続的な値付き入力を処理でき,連続的な特徴の量子化やエンコーディングは不要である。

Time-series classification is one of the most frequently performed tasks in industrial data science, and one of the most widely used data representation in the industrial setting is tabular representation. In this work, we propose a novel scalable architecture for learning representations from tabular time-series data and subsequently performing downstream tasks such as time-series classification. The representation learning framework is end-to-end, akin to bidirectional encoder representations from transformers (BERT) in language modeling, however, we introduce novel masking technique suitable for pretraining of time-series data. Additionally, we also use one-dimensional convolutions augmented with transformers and explore their effectiveness, since the time-series datasets lend themselves naturally for one-dimensional convolutions. We also propose a novel timestamp embedding technique, which helps in handling both periodic cycles at different time granularity levels, and aperiodic trends present in the time-series data. Our proposed model is end-to-end and can handle both categorical and continuous valued inputs, and does not require any quantization or encoding of continuous features.
翻訳日:2021-10-06 23:02:16 公開日:2021-10-05
# (参考訳) ランゲヴィンアルゴリズムの収束時間はいつ独立か? 複合最適化の視点 [全文訳有]

When is the Convergence Time of Langevin Algorithms Dimension Independent? A Composite Optimization Viewpoint ( http://arxiv.org/abs/2110.01827v1 )

ライセンス: CC BY 4.0
Yoav Freund, Yi-An Ma, Tong Zhang(参考訳) MCMCサンプリングと最適化の橋渡し作業が急増しており、MCMCサンプリングにおいて最適化問題に対する非漸近収束保証をランゲヴィンアルゴリズムの解析に翻訳することに焦点を当てている。 ランゲヴィンサンプリングの収束解析と最適化の区別は、ランゲヴィンアルゴリズムの既知収束速度が問題の次元に依存するのに対して、最適化の収束速度は凸問題に対して次元自由である点である。 次元独立収束率がランジュバンアルゴリズムによって達成できるかどうかは、長年の未解決問題である。 本稿では、リプシッツや平滑な凸問題のいずれかの大きなクラスに対して、この問題に対する肯定的な答えを提供する。 本稿では,Langevinアルゴリズムを複合最適化とみなして,次元独立収束率を導出する新たな解析手法を提案する。

There has been a surge of works bridging MCMC sampling and optimization, with a specific focus on translating non-asymptotic convergence guarantees for optimization problems into the analysis of Langevin algorithms in MCMC sampling. A conspicuous distinction between the convergence analysis of Langevin sampling and that of optimization is that all known convergence rates for Langevin algorithms depend on the dimensionality of the problem, whereas the convergence rates for optimization are dimension-free for convex problems. Whether a dimension independent convergence rate can be achieved by Langevin algorithm is thus a long-standing open problem. This paper provides an affirmative answer to this problem for large classes of either Lipschitz or smooth convex problems with normal priors. By viewing Langevin algorithm as composite optimization, we develop a new analysis technique that leads to dimension independent convergence rates for such problems.
翻訳日:2021-10-06 22:54:16 公開日:2021-10-05
# (参考訳) AIにおける高速でスローな思考:メタ認知の役割 [全文訳有]

Thinking Fast and Slow in AI: the Role of Metacognition ( http://arxiv.org/abs/2110.01834v1 )

ライセンス: CC BY 4.0
Marianna Bergamaschi Ganapini, Murray Campbell, Francesco Fabiano, Lior Horesh, Jon Lenchner, Andrea Loreggia, Nicholas Mattei, Francesca Rossi, Biplav Srivastava and Kristen Brent Venable(参考訳) 近年、AIシステムは劇的に進歩し、日々の生活に浸透する多くのアプリケーションをもたらしている。 これらの最近の開発の多くは、画像解釈、自然言語処理、分類、予測など、非常に限られた能力と目標に重点を置いています。 さらに、これらの成功はアルゴリズムや技術の改善に寄与するが、巨大なデータセットと計算能力の可用性と密接に関連している。 最先端のAIには、(人間)インテリジェンスの概念に自然に含まれる多くの能力がない。 私たちは、人間がこれらの能力を持つことができるメカニズムをよりよく研究することで、これらの能力でAIシステムを構築する方法を理解するのに役立ちます。 特にd. kahnemanの高速かつ遅い思考の理論に焦点をあて、システム1エージェント(または「高速」エージェント)のみを利用するシステム1エージェントまたはシステム2エージェント(または「遅い」エージェント)によって、システム1エージェントが期待する以上の最適なソリューションを推論し探索する必要がある場合に故意にアクティベートされる、入ってくる問題を解決できるマルチエージェントaiアーキテクチャを提案する。 どちらのエージェントも、環境に関するドメイン知識を含む世界のモデルと、システムの過去の行動や問題解決者のスキルに関する情報を含む「自己」のモデルによって支えられている。

AI systems have seen dramatic advancement in recent years, bringing many applications that pervade our everyday life. However, we are still mostly seeing instances of narrow AI: many of these recent developments are typically focused on a very limited set of competencies and goals, e.g., image interpretation, natural language processing, classification, prediction, and many others. Moreover, while these successes can be accredited to improved algorithms and techniques, they are also tightly linked to the availability of huge datasets and computational power. State-of-the-art AI still lacks many capabilities that would naturally be included in a notion of (human) intelligence. We argue that a better study of the mechanisms that allow humans to have these capabilities can help us understand how to imbue AI systems with these competencies. We focus especially on D. Kahneman's theory of thinking fast and slow, and we propose a multi-agent AI architecture where incoming problems are solved by either system 1 (or "fast") agents, that react by exploiting only past experience, or by system 2 (or "slow") agents, that are deliberately activated when there is the need to reason and search for optimal solutions beyond what is expected from the system 1 agent. Both kinds of agents are supported by a model of the world, containing domain knowledge about the environment, and a model of "self", containing information about past actions of the system and solvers' skills.
翻訳日:2021-10-06 21:59:17 公開日:2021-10-05
# (参考訳) 深層畳み込みニューラルネットワークを用いたセルネットワーク無線伝搬モデリング [全文訳有]

Cellular Network Radio Propagation Modeling with Deep Convolutional Neural Networks ( http://arxiv.org/abs/2110.01848v1 )

ライセンス: CC BY 4.0
Xin Zhang, Xiujun Shu, Bingwen Zhang, Jie Ren, Lizhou Zhou, Xin Chen(参考訳) 無線伝搬モデリングと予測は、現代のセルネットワーク計画と最適化の基礎となる。 従来の電波伝搬モデルは2つのカテゴリーに分類される。 粗い統計に基づく経験的モデルは、単純かつ計算効率が良いが、過度に単純化されたため不正確である。 波動伝播の物理法則に基づくレイトレーシングのような決定論的モデルは、より正確でサイト固有である。 しかし、計算複雑性が高く、従来のグローバル情報システム(GIS)マップ以外のサイト情報を利用できない。 本稿では, 深部畳み込みニューラルネットワークを用いた電波伝搬のモデル化手法を提案する。 また,電波伝搬のデータ駆動モデリングの枠組みを整理し,将来研究により,衛星写真のリッチで非慣習的な情報を活用し,より正確で柔軟なモデルを提供する。

Radio propagation modeling and prediction is fundamental for modern cellular network planning and optimization. Conventional radio propagation models fall into two categories. Empirical models, based on coarse statistics, are simple and computationally efficient, but are inaccurate due to oversimplification. Deterministic models, such as ray tracing based on physical laws of wave propagation, are more accurate and site specific. But they have higher computational complexity and are inflexible to utilize site information other than traditional global information system (GIS) maps. In this article we present a novel method to model radio propagation using deep convolutional neural networks and report significantly improved performance compared to conventional models. We also lay down the framework for data-driven modeling of radio propagation and enable future research to utilize rich and unconventional information of the site, e.g. satellite photos, to provide more accurate and flexible models.
翻訳日:2021-10-06 21:51:13 公開日:2021-10-05
# (参考訳) 自然言語処理におけるデータ拡張アプローチ:調査

Data Augmentation Approaches in Natural Language Processing: A Survey ( http://arxiv.org/abs/2110.01852v1 )

ライセンス: CC BY 4.0
Bohan Li, Yutai Hou, Wanxiang Che(参考訳) 効果的な戦略として、データ拡張(DA)は、ディープラーニング技術が失敗する可能性のあるデータの不足シナリオを軽減する。 コンピュータビジョンに広く応用され、自然言語処理に導入され、多くのタスクで改善されている。 DA手法の主な焦点の1つは、トレーニングデータの多様性を改善することである。 本研究では, パラフレーズ, ノイズ, サンプリングなどの拡張データの多様性に基づいて, DA手法を3つのカテゴリに分類する。 本論文では, DA法について, 上記のカテゴリに応じて詳細に分析する。 さらに,nlpタスクにおけるアプリケーションや課題についても紹介する。

As an effective strategy, data augmentation (DA) alleviates data scarcity scenarios where deep learning techniques may fail. It is widely applied in computer vision then introduced to natural language processing and achieves improvements in many tasks. One of the main focuses of the DA methods is to improve the diversity of training data, thereby helping the model to better generalize to unseen testing data. In this survey, we frame DA methods into three categories based on the diversity of augmented data, including paraphrasing, noising, and sampling. Our paper sets out to analyze DA methods in detail according to the above categories. Further, we also introduce their applications in NLP tasks as well as the challenges.
翻訳日:2021-10-06 21:41:25 公開日:2021-10-05
# (参考訳) 半教師付き学習のためのハイパーネットワーク [全文訳有]

Hypernetworks for Continual Semi-Supervised Learning ( http://arxiv.org/abs/2110.01856v1 )

ライセンス: CC BY 4.0
Dhanajit Brahma, Vinay Kumar Verma, Piyush Rai(参考訳) 連続的なデータからの学習は、おそらくは非I.d.方法で、時間とともにタスクの分布が変化することを連続学習と呼ぶ。 これまでの継続的な学習における仕事の多くは、教師なし学習と、教師なし学習に関する最近の研究に焦点を当てている。 多くのドメインでは、各タスクにはラベル付き(典型的にはごく少数)と未学習(典型的には多用)のトレーニング例が混在しており、半教師付き学習アプローチを必要とする。 そこで本稿では,MCSSL(Meta-Consolid ation for Continual Semi-Supervised Learning)と呼ばれる,半教師付き連続学習のためのフレームワークを提案する。 本フレームワークは,半教師付き補助分類器生成逆数ネットワーク$(\textit{Semi-ACGAN})$の重みをベースネットワークとして生成するメタ分布を学習するハイパーネットワークである。 我々は,ハイパーネットワークにおけるシーケンシャルタスクの知識を集約し,ベースネットワークはセミ教師付き学習タスクを学習する。 さらに、ラベル付きおよび非ラベル付きデータのタスクが順次送られるように、$\textit{Semi-Split CIFAR-10}$データセットを変更することで得られる、継続半教師付き学習のための新しいベンチマークである$\textit{Semi-Split CIFAR-10}$を示す。 提案モデルは,半教師付き学習環境において有意な改善をもたらす。 提案したセミスプリットCIFAR-10データセットの半教師付き学習ベンチマークにおいて,既存の連続学習手法の性能を比較した。

Learning from data sequentially arriving, possibly in a non i.i.d. way, with changing task distribution over time is called continual learning. Much of the work thus far in continual learning focuses on supervised learning and some recent works on unsupervised learning. In many domains, each task contains a mix of labelled (typically very few) and unlabelled (typically plenty) training examples, which necessitates a semi-supervised learning approach. To address this in a continual learning setting, we propose a framework for semi-supervised continual learning called Meta-Consolidation for Continual Semi-Supervised Learning (MCSSL). Our framework has a hypernetwork that learns the meta-distribution that generates the weights of a semi-supervised auxiliary classifier generative adversarial network $(\textit{Semi-ACGAN})$ as the base network. We consolidate the knowledge of sequential tasks in the hypernetwork, and the base network learns the semi-supervised learning task. Further, we present $\textit{Semi-Split CIFAR-10}$, a new benchmark for continual semi-supervised learning, obtained by modifying the $\textit{Split CIFAR-10}$ dataset, in which the tasks with labelled and unlabelled data arrive sequentially. Our proposed model yields significant improvements in the continual semi-supervised learning setting. We compare the performance of several existing continual learning approaches on the proposed continual semi-supervised learning benchmark of the Semi-Split CIFAR-10 dataset.
翻訳日:2021-10-06 21:40:32 公開日:2021-10-05
# (参考訳) Permute Me Softly:グラフ表現のためのソフトな置換学習 [全文訳有]

Permute Me Softly: Learning Soft Permutations for Graph Representations ( http://arxiv.org/abs/2110.01872v1 )

ライセンス: CC BY 4.0
Giannis Nikolentzos and George Dasoulas and Michalis Vazirgiannis(参考訳) グラフニューラルネットワーク(GNN)は最近、グラフを用いた機械学習の主流パラダイムとして登場した。 GNNの研究は主に、メッセージパッシングニューラルネットワーク(MPNN)のファミリーに焦点を当てている。 アイソモルフィズムのWeisfeiler-Leman(WL) テストと同様に、これらのモデルは頂点表現を更新するための反復的な近傍集約手順に従い、頂点表現を集約することで次の計算グラフ表現を演算する。 非常に成功したものの、MPNNはここ数年で集中的に研究されている。 したがって、MPNNから離れた分野の研究を可能にする新しいアーキテクチャが必要である。 本稿では、各グラフに対する「ソフトな」置換行列(すなわち二重確率行列)を学習し、すべてのグラフを共通のベクトル空間に投影する、いわゆる$\pi$-gnnと呼ばれる新しいグラフニューラルネットワークモデルを提案する。 学習された行列は入力グラフの頂点に「ソフト」順序を課し、この順序に基づいて隣接行列はベクトルにマッピングされる。 これらのベクトルは、教師付き学習タスクに対処するために、完全連結層または畳み込み層に供給することができる。 大きなグラフの場合、実行時間とメモリの観点からモデルをより効率的にするために、さらに二重確率行列を行確率行列に緩和する。 グラフ分類とグラフ回帰データセットのモデルを実証的に評価し,最先端モデルと競合する性能を示す。

Graph neural networks (GNNs) have recently emerged as a dominant paradigm for machine learning with graphs. Research on GNNs has mainly focused on the family of message passing neural networks (MPNNs). Similar to the Weisfeiler-Leman (WL) test of isomorphism, these models follow an iterative neighborhood aggregation procedure to update vertex representations, and they next compute graph representations by aggregating the representations of the vertices. Although very successful, MPNNs have been studied intensively in the past few years. Thus, there is a need for novel architectures which will allow research in the field to break away from MPNNs. In this paper, we propose a new graph neural network model, so-called $\pi$-GNN which learns a "soft" permutation (i.e., doubly stochastic) matrix for each graph, and thus projects all graphs into a common vector space. The learned matrices impose a "soft" ordering on the vertices of the input graphs, and based on this ordering, the adjacency matrices are mapped into vectors. These vectors can be fed into fully-connected or convolutional layers to deal with supervised learning tasks. In case of large graphs, to make the model more efficient in terms of running time and memory, we further relax the doubly stochastic matrices to row stochastic matrices. We empirically evaluate the model on graph classification and graph regression datasets and show that it achieves performance competitive with state-of-the-art models.
翻訳日:2021-10-06 21:28:34 公開日:2021-10-05
# (参考訳) mlフットプリントサービスにおけるランダム行列:性能損失のない3次ランダム特徴 [全文訳有]

Random matrices in service of ML footprint: ternary random features with no performance loss ( http://arxiv.org/abs/2110.01899v1 )

ライセンス: CC BY 4.0
Hafiz Tiomoko Ali, Zhenyu Liao, Romain Couillet(参考訳) 本稿では、非線型関数 $\sigma(\cdot)$, data ${\bf x}_1, \ldots, {\bf x}_n \mathbb{R}^p$, and random vector ${\bf w} \mathbb{R}^p$, and random vector ${\bf w}^{\sf T}{\bf x}_i\right)\right]_{i,j=1}^n$, with linear function $\sigma(\cdot)$, data ${\bf x}_1, \ldots, {\bf x}_n \mathbb{R}^p$, and random vector ${\bf w}^{\sf T}{\bf x}_i\right)\right)\rig ht]_{i,j=1}^p$,。 n$ とそれらの次元 $p$ がともに大きい高次元の設定において、データのガウス混合モデルの下では、${\bf k}$ の固有スペクトルは ${\bf w}$ の i.i.d.(0-mean and unit-variance) の成分の分布とは独立であり、その(一般化された)ガウス的モーメントである $\mathbb{e}_{z\sim \mathcal n(0,1)}[\sigma'(z)]$ と $\mathbb{e}_{z\sim \mathcal n(0,1)}[\sigma'(z)]$と$\mathbb{e}_{z\sim \mathcal n(0,1)} のみに依存する。 その結果、上記の形の任意のカーネル行列${\bf K}$に対して、三次ランダム特徴(TRF)と呼ばれる新しいランダム特徴技術を提案する。 (i)漸近的に、スペクトル意味で元の${\bf k}$と同じ制限核を生じさせ、 (ii) 関数 $\sigma$ とランダムベクトル ${\bf w}$ を巧みに(データに依存して)チューニングすることで、より効率的に計算し、格納することができる。 提案されたランダムな特徴の計算は、乗算を必要とせず、ランダムなフーリエ特徴のような古典的ランダムな特徴に比べてストレージにb$のビットを要せず、完全な精度値を格納するビット数をb$とする。 さらに, 実データでは, 計算と記憶の大幅な向上が, 最先端のランダムな特徴圧縮/量子化法と比較して若干改善された性能を伴っていることが明らかとなった。

In this article, we investigate the spectral behavior of random features kernel matrices of the type ${\bf K} = \mathbb{E}_{{\bf w}} \left[\sigma\left({\bf w}^{\sf T}{\bf x}_i\right)\sigma\left ({\bf w}^{\sf T}{\bf x}_j\right)\right]_{i,j=1}^n$, with nonlinear function $\sigma(\cdot)$, data ${\bf x}_1, \ldots, {\bf x}_n \in \mathbb{R}^p$, and random projection vector ${\bf w} \in \mathbb{R}^p$ having i.i.d. entries. In a high-dimensional setting where the number of data $n$ and their dimension $p$ are both large and comparable, we show, under a Gaussian mixture model for the data, that the eigenspectrum of ${\bf K}$ is independent of the distribution of the i.i.d.(zero-mean and unit-variance) entries of ${\bf w}$, and only depends on $\sigma(\cdot)$ via its (generalized) Gaussian moments $\mathbb{E}_{z\sim \mathcal N(0,1)}[\sigma'(z)]$ and $\mathbb{E}_{z\sim \mathcal N(0,1)}[\sigma''(z)]$. As a result, for any kernel matrix ${\bf K}$ of the form above, we propose a novel random features technique, called Ternary Random Feature (TRF), that (i) asymptotically yields the same limiting kernel as the original ${\bf K}$ in a spectral sense and (ii) can be computed and stored much more efficiently, by wisely tuning (in a data-dependent manner) the function $\sigma$ and the random vector ${\bf w}$, both taking values in $\{-1,0,1\}$. The computation of the proposed random features requires no multiplication, and a factor of $b$ times less bits for storage compared to classical random features such as random Fourier features, with $b$ the number of bits to store full precision values. Besides, it appears in our experiments on real data that the substantial gains in computation and storage are accompanied with somewhat improved performances compared to state-of-the-art random features compression/quantiza tion methods.
翻訳日:2021-10-06 21:02:48 公開日:2021-10-05
# (参考訳) 確率論的論理のテーブルベース表現:予備結果 [全文訳有]

A Table-Based Representation for Probabilistic Logic: Preliminary Results ( http://arxiv.org/abs/2110.01909v1 )

ライセンス: CC BY 4.0
Simon Vandevelde, Victor Verreet, Luc De Raedt and Joost Vennekens(参考訳) 本稿では,決定モデルと表記の確率的拡張である確率的決定モデルと表記法(pdmn)を提案する。 DMNは決定論的決定論理のモデリング表記法であり、ユーザフレンドリで複雑さの低いことを意図している。 pDMNはDMNを拡張し、確率論的推論、述語、関数、定量化、新しいヒットポリシーを提供する。 同時に、DMNのユーザフレンドリさを維持し、ITスタッフの助けなしにドメインの専門家による使用を可能にすることを目指している。 pDMNモデルは、ユーザクエリに応答するために、明らかにProbLogプログラムに変換できる。 ProbLog は Prolog の確率的拡張であり、任意の pDMN モデルをモデル化および推論するのに十分な柔軟性を持つ。

We present Probabilistic Decision Model and Notation (pDMN), a probabilistic extension of Decision Model and Notation (DMN). DMN is a modeling notation for deterministic decision logic, which intends to be user-friendly and low in complexity. pDMN extends DMN with probabilistic reasoning, predicates, functions, quantification, and a new hit policy. At the same time, it aims to retain DMN's user-friendliness to allow its usage by domain experts without the help of IT staff. pDMN models can be unambiguously translated into ProbLog programs to answer user queries. ProbLog is a probabilistic extension of Prolog flexibly enough to model and reason over any pDMN model.
翻訳日:2021-10-06 20:24:20 公開日:2021-10-05
# (参考訳) Sicilian Translator:低リソースNTTのためのレシピ [全文訳有]

Sicilian Translator: A Recipe for Low-Resource NMT ( http://arxiv.org/abs/2110.01938v1 )

ライセンス: CC BY 4.0
Eryk Wdowiak(参考訳) 17,000対のシチリア英語訳文で、arba siculaはシチリア語の最初のニューラル機械翻訳機を開発した。 サブワード語彙を用いて,高いドロップアウトパラメータを持つ小型トランスフォーマーモデルを訓練し,上位20代でBLEUスコアを達成した。 そして、バックトランスレーションと多言語翻訳でデータセットを補足し、スコアを30代半ばにプッシュしました。 また、私たちの成功は、理論的情報をデータセットに組み込むことによるものです。 学習に先立って,教科書で見いだした語句に対する単語語彙の偏りについて検討した。 教科書の練習をデータセットに含めました

With 17,000 pairs of Sicilian-English translated sentences, Arba Sicula developed the first neural machine translator for the Sicilian language. Using small subword vocabularies, we trained small Transformer models with high dropout parameters and achieved BLEU scores in the upper 20s. Then we supplemented our dataset with backtranslation and multilingual translation and pushed our scores into the mid 30s. We also attribute our success to incorporating theoretical information in our dataset. Prior to training, we biased the subword vocabulary towards the desinences one finds in a textbook. And we included textbook exercises in our dataset.
翻訳日:2021-10-06 20:16:54 公開日:2021-10-05
# (参考訳) 消化器ポリプセグメンテーションのための二重エンコーダデコーダネットワーク [全文訳有]

Double Encoder-Decoder Networks for Gastrointestinal Polyp Segmentation ( http://arxiv.org/abs/2110.01939v1 )

ライセンス: CC BY 4.0
Adrian Galdran, Gustavo Carneiro, Miguel A. Gonz\'alez Ballester(参考訳) ポリープは大腸癌の発生の早期の徴候である。 検出の標準的な手順は消化管の大腸内視鏡検査である。 しかし、ポリープの形状や視覚的な外観の幅が広く、画像モダリティの品質が低下し、自動識別や計算ツールによるセグメンテーションが困難なコンピュータビジョンタスクに変わった。 本研究では,一般的なエンコーダ・デコーダネットワークを直接拡張した意味的セグメンテーションに基づく内視鏡画像から消化管ポリープをデライン化するための新しい戦略を提案する。 本手法では,2つの事前学習エンコーダ・デコーダネットワークを順次積み重ねる。第2のネットワークは,原フレームの連結と第1のネットワークが生成した初期予測を入力として受け取り,第2のネットワークが画像内の興味深い領域に集中できるようにするための注意機構として機能する。 複数のポリプセグメンテーションデータベース上で行った定量的評価によると、二重エンコーダデコーダネットワークは、すべてのケースにおいて、それぞれのエンコーダデコーダネットワークよりも明らかに優れている。 さらに,この2重エンコーダとデコーダの組み合わせは,良好なセグメンテーション精度を達成し,検討したすべてのデータセットにおいて最先端の性能向上を達成し,トレーニングに使用しないデータセットから抽出した画像の精度を著しく向上させる。

Polyps represent an early sign of the development of Colorectal Cancer. The standard procedure for their detection consists of colonoscopic examination of the gastrointestinal tract. However, the wide range of polyp shapes and visual appearances, as well as the reduced quality of this image modality, turn their automatic identification and segmentation with computational tools into a challenging computer vision task. In this work, we present a new strategy for the delineation of gastrointestinal polyps from endoscopic images based on a direct extension of common encoder-decoder networks for semantic segmentation. In our approach, two pretrained encoder-decoder networks are sequentially stacked: the second network takes as input the concatenation of the original frame and the initial prediction generated by the first network, which acts as an attention mechanism enabling the second network to focus on interesting areas within the image, thereby improving the quality of its predictions. Quantitative evaluation carried out on several polyp segmentation databases shows that double encoder-decoder networks clearly outperform their single encoder-decoder counterparts in all cases. In addition, our best double encoder-decoder combination attains excellent segmentation accuracy and reaches state-of-the-art performance results in all the considered datasets, with a remarkable boost of accuracy on images extracted from datasets not used for training.
翻訳日:2021-10-06 20:08:23 公開日:2021-10-05
# (参考訳) 公平な分類のための多目的ファウショット学習 [全文訳有]

Multi-Objective Few-shot Learning for Fair Classification ( http://arxiv.org/abs/2110.01951v1 )

ライセンス: CC BY 4.0
Ishani Mondal, Procheta Sen, Debasis Ganguly(参考訳) 本稿では,データ内の二次属性(人種,性別など)に関して,予測クラス間の差異を緩和するための汎用フレームワークを提案する。 提案手法は,データから一次クラスラベルを予測することの主目的を学習することに加えて,クラスタメンバシップに対するクラスラベル分布の差異を最小限に抑えるためにクラスタリングに基づくヒューリスティックを用いて,各クラスタが属性値の異なる組み合わせに理想的にマップすべきとする多目的関数の学習を含む。 実験は、二次属性値のアノテーション(ゼロショットの場合)や少数の属性値アノテーション(少数ショットの場合)を使用せずに、ベンチマークデータセットで認知バイアスを効果的に軽減することを示しています。

In this paper, we propose a general framework for mitigating the disparities of the predicted classes with respect to secondary attributes within the data (e.g., race, gender etc.). Our proposed method involves learning a multi-objective function that in addition to learning the primary objective of predicting the primary class labels from the data, also employs a clustering-based heuristic to minimize the disparities of the class label distribution with respect to the cluster memberships, with the assumption that each cluster should ideally map to a distinct combination of attribute values. Experiments demonstrate effective mitigation of cognitive biases on a benchmark dataset without the use of annotations of secondary attribute values (the zero-shot case) or with the use of a small number of attribute value annotations (the few-shot case).
翻訳日:2021-10-06 19:53:03 公開日:2021-10-05
# (参考訳) 生存データにおけるパターン認識のための新しいハーモニウム [全文訳有]

A new harmonium for pattern recognition in survival data ( http://arxiv.org/abs/2110.01960v1 )

ライセンス: CC BY 4.0
Hylke C. Donker and Harry J. M. Groen(参考訳) 背景: 生存分析(Survival analysis)は、興味のある出来事が観測されない(すなわち検閲された)タイムラインデータの研究に関するものである。 研究は通常、複数のイベントを記録しているが、従来の生存技術は単一のイベントタイプに焦点を当てている。 我々は、複数の独立に検閲された時間-イベント変数と、観測の欠如の両方を統合することに決めました。 方法:エネルギーに基づくアプローチは、潜在状態と可視状態の間に二部構造を持ち、一般にハーモニウム(または制限ボルツマン機械)と呼ばれる。 結果: 現在のハーモニウムは, 理論的および実験的に, 異なる時間記録間の非線形パターンを捉えている。 実世界のデータについて、単一の時間-時間変数に対して、我々のモデルは確立した手法と同等であることを示す。 さらに,追加の時間-イベント変数を利用することで,識別予測が向上することを示す。 結論: 複数の時間-イベント変数がharmoniumパラダイム内でうまくキャプチャできる。

Background: Survival analysis concerns the study of timeline data where the event of interest may remain unobserved (i.e., censored). Studies commonly record more than one type of event, but conventional survival techniques focus on a single event type. We set out to integrate both multiple independently censored time-to-event variables as well as missing observations. Methods: An energy-based approach is taken with a bi-partite structure between latent and visible states, commonly known as harmoniums (or restricted Boltzmann machines). Results: The present harmonium is shown, both theoretically and experimentally, to capture non-linear patterns between distinct time recordings. We illustrate on real world data that, for a single time-to-event variable, our model is on par with established methods. In addition, we demonstrate that discriminative predictions improve by leveraging an extra time-to-event variable. Conclusions: Multiple time-to-event variables can be successfully captured within the harmonium paradigm.
翻訳日:2021-10-06 19:43:49 公開日:2021-10-05
# (参考訳) 2倍効率強化学習のためのドロップアウトq関数 [全文訳有]

Dropout Q-Functions for Doubly Efficient Reinforcement Learning ( http://arxiv.org/abs/2110.02034v1 )

ライセンス: CC BY 4.0
Takuya Hiraoka, Takahisa Imagawa, Taisei Hashimoto, Takashi Onishi, Yoshimasa Tsuruoka(参考訳) ランダム化アンサンブル double q-learning (redq) は最近、連続アクション強化学習ベンチマークで最先端のサンプル効率を達成している。 この優れたサンプル効率は、大きなq関数アンサンブルを使用することで実現できる。 しかし、REDQはSoft Actor-Critic (SAC)のような非アンサンブルの手法よりも計算効率が低い。 REDQ の計算効率を向上するため,Dr.Q と呼ばれる小型のドロップアウト Q-関数を用いた REDQ の変種である計算効率の向上手法を提案する。 我々のドロップアウトQ関数は、ドロップアウト接続と層正規化を備えた単純なQ関数である。 実装の単純さにもかかわらず、我々の実験結果はDr.Qが2倍(サンプルで計算的に)効率的であることを示している。 REDQと同等のサンプル効率、REDQよりはるかに優れた計算効率、SACと同等の計算効率を実現した。

Randomized ensemble double Q-learning (REDQ) has recently achieved state-of-the-art sample efficiency on continuous-action reinforcement learning benchmarks. This superior sample efficiency is possible by using a large Q-function ensemble. However, REDQ is much less computationally efficient than non-ensemble counterparts such as Soft Actor-Critic (SAC). To make REDQ more computationally efficient, we propose a method of improving computational efficiency called Dr.Q, which is a variant of REDQ that uses a small ensemble of dropout Q-functions. Our dropout Q-functions are simple Q-functions equipped with dropout connection and layer normalization. Despite its simplicity of implementation, our experimental results indicate that Dr.Q is doubly (sample and computationally) efficient. It achieved comparable sample efficiency with REDQ and much better computational efficiency than REDQ and comparable computational efficiency with that of SAC.
翻訳日:2021-10-06 19:16:42 公開日:2021-10-05
# (参考訳) ur-iw-hnt at GermEval 2021: Ensembling Strategy with multiple BERT Models [全文訳有]

ur-iw-hnt at GermEval 2021: An Ensembling Strategy with Multiple BERT Models ( http://arxiv.org/abs/2110.02042v1 )

ライセンス: CC BY 4.0
Hoai Nam Tran and Udo Kruschwitz(参考訳) 本稿では,GermEval2021の共有タスクに対する我々のアプローチ(ur-iw-hnt)について述べる。 我々は、ドイツ語ベース、Twitterベース、多言語モデルという3つの異なるタイプからなる複数のBERTモデルで、多数(ハード)投票によるアンサンブル戦略を用いて、3つの実行を提出した。 すべてのアンサンブルモデルはシングルモデルより優れており、BERTweetはサブタスクごとに個々のモデルの勝者である。 Twitterベースのモデルは、 GermanBERTモデルよりもパフォーマンスが良く、マルチ言語モデルはより悪いが、マージンは小さい。

This paper describes our approach (ur-iw-hnt) for the Shared Task of GermEval2021 to identify toxic, engaging, and fact-claiming comments. We submitted three runs using an ensembling strategy by majority (hard) voting with multiple different BERT models of three different types: German-based, Twitter-based, and multilingual models. All ensemble models outperform single models, while BERTweet is the winner of all individual models in every subtask. Twitter-based models perform better than GermanBERT models, and multilingual models perform worse but by a small margin.
翻訳日:2021-10-06 18:59:55 公開日:2021-10-05
# (参考訳) 厳密なバッチ模倣学習の批判 [全文訳有]

A Critique of Strictly Batch Imitation Learning ( http://arxiv.org/abs/2110.02063v1 )

ライセンス: CC BY-SA 4.0
Gokul Swamy, Sanjiban Choudhury, J. Andrew Bagnell, Zhiwei Steven Wu(参考訳) Jarrettらによる最近の研究は、オフライン模倣学習(IL)の問題を、標準的行動クローニングよりも優れたパフォーマンスを期待して、共同エネルギーベースモデルを学ぶことの1つとして枠組み化しようとする試みである。 本稿では,著者らが提案するプシュード状態の訪問分布が,政策の$\textit{true}$状態の訪問分布からどのように切り離されるか,という問題を明らかにする。 さらに,jarrettらによって提唱されたパラメータ結合が,行動のクローニングとは異なり,専門家の方針の不整合な推定につながるような自然例も構築する。

Recent work by Jarrett et al. attempts to frame the problem of offline imitation learning (IL) as one of learning a joint energy-based model, with the hope of out-performing standard behavioral cloning. We suggest that notational issues obscure how the psuedo-state visitation distribution the authors propose to optimize might be disconnected from the policy's $\textit{true}$ state visitation distribution. We further construct natural examples where the parameter coupling advocated by Jarrett et al. leads to inconsistent estimates of the expert's policy, unlike behavioral cloning.
翻訳日:2021-10-06 18:52:33 公開日:2021-10-05
# (参考訳) 言葉を教えて、何を選ぶかを学ぶ:事前学習された生成モデルによる応答生成による教師なし知識選択 [全文訳有]

Teach Me What to Say and I Will Learn What to Pick: Unsupervised Knowledge Selection Through Response Generation with Pretrained Generative Models ( http://arxiv.org/abs/2110.02067v1 )

ライセンス: CC BY 4.0
Ehsan Lotfi, Maxime De Bruyn, Jeska Buhmann, Walter Daelemans(参考訳) 知識基盤会話モデル (KGCM) は通常、選択/検索モジュールと生成モジュールに基づいており、金の知識オプションにアクセスできるかどうかに関わらず、個別または同時に訓練される。 大規模な事前学習型生成モデルの導入により、選択と生成部はますます絡み合っており、最高の知識を選択するのではなく、(複数の情報源から)知識の定着に焦点を移している。 しかしながら、これらのアプローチは、最高のパフォーマンスのために知識ラベルと/または別々に密集したレトリバーに依存する。 本研究では,事前学習した生成モデル(例えばBART)の教師なし選択能力について検討し,エンコーダとデコーダの間にスコア・アンド・アグリゲートモジュールを追加することで,言語モデリング損失を最小化することで,適切な知識を選択することができることを示す。 このように訓練されたモデルであるK-Mineは、知識ラベルやより密集した検索者から恩恵を受けるモデルに対して、競争力のある選択と生成性能を示す。

Knowledge Grounded Conversation Models (KGCM) are usually based on a selection/retrieval module and a generation module, trained separately or simultaneously, with or without having access to a gold knowledge option. With the introduction of large pre-trained generative models, the selection and generation part have become more and more entangled, shifting the focus towards enhancing knowledge incorporation (from multiple sources) instead of trying to pick the best knowledge option. These approaches however depend on knowledge labels and/or a separate dense retriever for their best performance. In this work we study the unsupervised selection abilities of pre-trained generative models (e.g. BART) and show that by adding a score-and-aggregate module between encoder and decoder, they are capable of learning to pick the proper knowledge through minimising the language modelling loss (i.e. without having access to knowledge labels). Trained as such, our model - K-Mine - shows competitive selection and generation performance against models that benefit from knowledge labels and/or separate dense retriever.
翻訳日:2021-10-06 18:48:56 公開日:2021-10-05
# (参考訳) 光衛星画像における教師なし変化検出のための空間環境認識 [全文訳有]

Spatial Context Awareness for Unsupervised Change Detection in Optical Satellite Images ( http://arxiv.org/abs/2110.02068v1 )

ライセンス: CC BY 4.0
Lukas Kondmann, Aysim Toker, Sudipan Saha, Bernhard Sch\"olkopf, Laura Leal-Taix\'e, Xiao Xiang Zhu(参考訳) 多時期地球観測データにおける地盤変化の検出はリモートセンシングの重要な問題の一つである。 本稿では,中高分解能の光学衛星画像における変化検出のための教師なし手法であるsiroc(sirbling regression for optical change detection)を提案する。 SiROC は空間的文脈に基づく手法であり、ピクセルをその近傍の線形結合としてモデル化する。 このモデルを用いて、後続の時間における画素とその空間的文脈に基づく予測の違いを分析し、変化検出を行う。 この空間的文脈に基づく変化検出と、相互排他的近傍でのアンサンブルとを組み合わせて、形態的操作で画素からオブジェクトレベルの変化に遷移する。 SiROCは4つのデータセット上の中分解能Sentinel-2と高分解能Planetscope画像による変化検出の競合性能を実現する。 トレーニング不要な正確な予測に加えて、sirocは予測の正確な不確実性も提供する。 この手法は、擬似ラベル付けなどのアプリケーションのためのディープラーニングベースの手法と組み合わせて特に有用である。

Detecting changes on the ground in multitemporal Earth observation data is one of the key problems in remote sensing. In this paper, we introduce Sibling Regression for Optical Change detection (SiROC), an unsupervised method for change detection in optical satellite images with medium and high resolution. SiROC is a spatial context-based method that models a pixel as a linear combination of its distant neighbors. It uses this model to analyze differences in the pixel and its spatial context-based predictions in subsequent time periods for change detection. We combine this spatial context-based change detection with ensembling over mutually exclusive neighborhoods and transitioning from pixel to object-level changes with morphological operations. SiROC achieves competitive performance for change detection with medium-resolution Sentinel-2 and high-resolution Planetscope imagery on four datasets. Besides accurate predictions without the need for training, SiROC also provides a well-calibrated uncertainty of its predictions. This makes the method especially useful in conjunction with deep-learning based methods for applications such as pseudo-labeling.
翻訳日:2021-10-06 18:35:12 公開日:2021-10-05
# (参考訳) 機械学習による流体力学の研究 [全文訳有]

Applying Machine Learning to Study Fluid Mechanics ( http://arxiv.org/abs/2110.02083v1 )

ライセンス: CC BY 4.0
Steven L. Brunton(参考訳) 本稿では,機械学習を用いて流体力学でデータ駆動モデルを構築する方法について概説する。 機械学習の過程は、(1)モデルに問題を定式化し、(2)モデルに情報を提供するためのトレーニングデータを収集・キュレーションし、(3)モデルを表現するアーキテクチャを選択し、(4)モデルの性能を評価するための損失関数を設計し、(5)モデルを訓練するための最適化アルゴリズムを選択し、実装する、という5つの段階に分けられる。 それぞれの段階では,流体力学の分野の具体例とともに,事前の物理知識がプロセスにどのように埋め込まれているかについて議論する。

This paper provides a short overview of how to use machine learning to build data-driven models in fluid mechanics. The process of machine learning is broken down into five stages: (1) formulating a problem to model, (2) collecting and curating training data to inform the model, (3) choosing an architecture with which to represent the model, (4) designing a loss function to assess the performance of the model, and (5) selecting and implementing an optimization algorithm to train the model. At each stage, we discuss how prior physical knowledge may be embedding into the process, with specific examples from the field of fluid mechanics.
翻訳日:2021-10-06 18:08:39 公開日:2021-10-05
# (参考訳) Top-N: 交換性のない同変集合とグラフ生成 [全文訳有]

Top-N: Equivariant set and graph generation without exchangeability ( http://arxiv.org/abs/2110.02096v1 )

ライセンス: CC BY 4.0
Clement Vignac and Pascal Frossard(参考訳) 集合やグラフ上の分布の前にベクトル形状をマッピングするワンショット確率デコーダを考える。 これらの機能は、可変オートエンコーダ(VAE)、生成的敵ネットワーク(GAN)または正規化フローに統合することができ、薬物発見に重要な応用がある。 集合とグラフの生成は、通常分布から点(時には辺重み)を生成し、トランスフォーマー層やグラフニューラルネットワークを用いて前ベクトルと共に処理することで最も一般的に行われる。 このアーキテクチャは交換可能な分布(集合のすべての置換は等しくあり得る)を生成するように設計されているが、i.d.生成の確率性のために訓練は困難である。 等価性の新たな定義を提案し、交換性は実際にはVAEやGANでは不要であることを示す。 次に,学習可能な参照集合から最も関連性の高い点を選択することを学ぶ,決定論的で交換不能な集合生成機構top-nを導入する。 top-nは任意のvaeまたはganのi.i.d.生成を置き換えることができる。 トップnは、SetMNIST再構成で15%の効率で生成し、合成分子のようなデータセットの真の分布に64%近い集合を生成し、古典的なQM9データセットで訓練するとより多様な分子を生成することができる。 ワンショット生成における基礎の改善により,より効果的な分子生成法の設計に寄与する。

We consider one-shot probabilistic decoders that map a vector-shaped prior to a distribution over sets or graphs. These functions can be integrated into variational autoencoders (VAE), generative adversarial networks (GAN) or normalizing flows, and have important applications in drug discovery. Set and graph generation is most commonly performed by generating points (and sometimes edge weights) i.i.d. from a normal distribution, and processing them along with the prior vector using Transformer layers or graph neural networks. This architecture is designed to generate exchangeable distributions (all permutations of a set are equally likely) but it is hard to train due to the stochasticity of i.i.d. generation. We propose a new definition of equivariance and show that exchangeability is in fact unnecessary in VAEs and GANs. We then introduce Top-n, a deterministic, non-exchangeable set creation mechanism which learns to select the most relevant points from a trainable reference set. Top-n can replace i.i.d. generation in any VAE or GAN -- it is easier to train and better captures complex dependencies in the data. Top-n outperforms i.i.d generation by 15% at SetMNIST reconstruction, generates sets that are 64% closer to the true distribution on a synthetic molecule-like dataset, and is able to generate more diverse molecules when trained on the classical QM9 dataset. With improved foundations in one-shot generation, our algorithm contributes to the design of more effective molecule generation methods.
翻訳日:2021-10-06 17:52:31 公開日:2021-10-05
# (参考訳) 人間の行動と相互作用の時間にまたがる効率的なモデリング

Efficient Modelling Across Time of Human Actions and Interactions ( http://arxiv.org/abs/2110.02120v1 )

ライセンス: CC BY 4.0
Alexandros Stergiou(参考訳) この論文は、人間の行動と相互作用認識のためのビデオ理解に焦点を当てている。 まず、ビデオからのアクション認識に関する主な課題を特定し、それらが現在の方法でどのように対処されたかを確認する。 これらの課題に基づき, 行動の時間的側面に着目し, 3次元畳み込みニューラルネットワーク (cnns) における現在の固定サイズの時空間カーネルは, 入力の時間的変動をよりよく扱えるように改善できると主張する。 私たちの貢献は,映像の時空間的サイズ変化セグメントの導入による畳み込み受容領域の拡大と,映像シーケンス全体の局所的特徴の関連性の発見に基づいている。 抽出された特徴は、複数の時間的期間にわたる局所的特徴の重要性、ビデオシーケンス全体を含む情報をカプセル化する。 その後、アーキテクチャの異なる層にまたがる特徴差を強化することにより、アクションのクラス間のバリエーションをよりうまく処理する方法を検討する。 特徴量の階層的抽出は、非常に異なるクラスと同じ比較的類似したクラスのバリエーションをモデル化する。 したがって、類似クラス間の区別はモデル化されにくい。 提案手法は、処理されるビデオのクラスに対応する特徴を増幅することで特徴マップを正規化する。 我々は、クラスに依存しないネットワークから離れ、特徴増幅機構に基づいた早期予測を行う。 提案手法は,いくつかのベンチマーク行動認識データセット上で評価され,競合結果を示す。 性能面では、GFLOPの点でより効率的でありながら、最先端技術と競合する。 最後に,時空間ネットワーク上で学習した特徴を視覚的に説明することを目的とした,人間理解可能なアプローチを提案する。

This thesis focuses on video understanding for human action and interaction recognition. We start by identifying the main challenges related to action recognition from videos and review how they have been addressed by current methods. Based on these challenges, and by focusing on the temporal aspect of actions, we argue that current fixed-sized spatio-temporal kernels in 3D convolutional neural networks (CNNs) can be improved to better deal with temporal variations in the input. Our contributions are based on the enlargement of the convolutional receptive fields through the introduction of spatio-temporal size-varying segments of videos, as well as the discovery of the local feature relevance over the entire video sequence. The resulting extracted features encapsulate information that includes the importance of local features across multiple temporal durations, as well as the entire video sequence. Subsequently, we study how we can better handle variations between classes of actions, by enhancing their feature differences over different layers of the architecture. The hierarchical extraction of features models variations of relatively similar classes the same as very dissimilar classes. Therefore, distinctions between similar classes are less likely to be modelled. The proposed approach regularises feature maps by amplifying features that correspond to the class of the video that is processed. We move away from class-agnostic networks and make early predictions based on feature amplification mechanism. The proposed approaches are evaluated on several benchmark action recognition datasets and show competitive results. In terms of performance, we compete with the state-of-the-art while being more efficient in terms of GFLOPs. Finally, we present a human-understandable approach aimed at providing visual explanations for features learned over spatio-temporal networks.
翻訳日:2021-10-06 17:32:22 公開日:2021-10-05
# (参考訳) NaRLE:感情フィードバックによる強化学習を用いた自然言語モデル [全文訳有]

NaRLE: Natural Language Models using Reinforcement Learning with Emotion Feedback ( http://arxiv.org/abs/2110.02148v1 )

ライセンス: CC BY 4.0
Ruijie Zhou, Soham Deshmukh, Jeremiah Greer, Charles Lee(参考訳) 現在の対話システムの研究は、タスク指向またはオープンドメインの設定で短い会話に取り組む会話アシスタントに焦点を当てている。 本稿では,タスクベースの会話アシスタントをオンラインで改善することに焦点を当て,その内容がそのタスクと完全に関係しているか否かを問わない文書型会話(eメールなど)を主に行っている。 我々は,対話システムの自然言語理解(NLU)コンポーネントを,顧客データのラベルを収集することなく改善するための,深層強化学習(RL)フレームワーク「NARLE」を提案する。 提案手法は,ユーザの感情とアシスタントの行動とを関連付け,ポリシー勾配を用いてNLUモデルを改善する。 2つの意図分類問題に対して,強化学習を用いて事前学習した教師付き学習モデルの微調整を行うことにより,最大43%の性能が向上することを示す。 さらに,提案手法の頑健さを暗黙のフィードバックの部分的かつ雑音的に示す。

Current research in dialogue systems is focused on conversational assistants working on short conversations in either task-oriented or open domain settings. In this paper, we focus on improving task-based conversational assistants online, primarily those working on document-type conversations (e.g., emails) whose contents may or may not be completely related to the assistant's task. We propose "NARLE" a deep reinforcement learning (RL) framework for improving the natural language understanding (NLU) component of dialogue systems online without the need to collect human labels for customer data. The proposed solution associates user emotion with the assistant's action and uses that to improve NLU models using policy gradients. For two intent classification problems, we empirically show that using reinforcement learning to fine tune the pre-trained supervised learning models improves performance up to 43%. Furthermore, we demonstrate the robustness of the method to partial and noisy implicit feedback.
翻訳日:2021-10-06 17:30:52 公開日:2021-10-05
# (参考訳) 非ガウス粒子分布関数の推論と非通知:生成的モデリングアプローチ [全文訳有]

Inference and De-Noising of Non-Gaussian Particle Distribution Functions: A Generative Modeling Approach ( http://arxiv.org/abs/2110.02153v1 )

ライセンス: CC BY 4.0
John Donaghy, Kai Germaschewski(参考訳) プラズマ物理の粒子内数値法は計算コストと固有雑音とのトレードオフをバランスさせる。 これらのシミュレーションによって生成されたデータに対する推測は、一般にデータを結合して粒子分布関数を回復し、そこから物理過程を研究することができる。 ノイズを含むことに加えて、分布関数は時間的に動的であり、非ガウス的かつマルチモーダルであり、モデリングの作業は困難である。 ここでは、正規化フローを用いて、雑音粒子分布関数に対する滑らかでトラクタブルな近似を学習する。 結果として得られるデータ駆動確率は関連する物理学を保存し、分布関数の時間的発展をカプセル化するために拡張することができる。

The particle-in-cell numerical method of plasma physics balances a trade-off between computational cost and intrinsic noise. Inference on data produced by these simulations generally consists of binning the data to recover the particle distribution function, from which physical processes may be investigated. In addition to containing noise, the distribution function is temporally dynamic and can be non-gaussian and multi-modal, making the task of modeling it difficult. Here we demonstrate the use of normalizing flows to learn a smooth, tractable approximation to the noisy particle distribution function. We demonstrate that the resulting data driven likelihood conserves relevant physics and may be extended to encapsulate the temporal evolution of the distribution function.
翻訳日:2021-10-06 17:21:03 公開日:2021-10-05
# (参考訳) クラスタリングによるラベル差分プライバシー [全文訳有]

Label differential privacy via clustering ( http://arxiv.org/abs/2110.02159v1 )

ライセンス: CC BY 4.0
Hossein Esfandiari, Vahab Mirrokni, Umar Syed, Sergei Vassilvitskii(参考訳) トレーニングセット内のラベルのプライバシのみを保護する差分プライベート機械学習の緩和である,‘emph{label differential privacy} の新たなメカニズムを提案する。 当社のメカニズムでは、(非プライベートな)特徴ベクトルを使用してトレーニングセット内のサンプルをクラスタ化し、同じクラスタ内のサンプルから各ラベルをランダムに再サンプリングし、ノイズラベルを備えたトレーニングセットと真の損失関数の修正版を出力する。 クラスタが大規模かつ高品質である場合、ノイズの多いトレーニングセットにおける変更損失を最小限に抑えるモデルが、非プライベート学習の速度に匹敵する速度で小さな過剰リスクに収束することを示す。 学習セット全体を信頼できるキュレーターによって格納する集中型機構と、各ユーザが単一のラベル付きサンプルを格納し、そのラベルを同じクラスタからランダムに選択したユーザのラベルに置き換える分散機構の両方について述べる。 また,強力なプライバシと精度,リコールの両立のために,大規模クラスタが必要となる学習問題についても述べる。 実験の結果,各クラスタ内のラベルのランダム化は,ラベルに一様ランダム化応答を適用するよりも,プライバシーと精度のトレードオフを著しく改善し,DP-SGDによるモデル学習と比較した。

We present new mechanisms for \emph{label differential privacy}, a relaxation of differentially private machine learning that only protects the privacy of the labels in the training set. Our mechanisms cluster the examples in the training set using their (non-private) feature vectors, randomly re-sample each label from examples in the same cluster, and output a training set with noisy labels as well as a modified version of the true loss function. We prove that when the clusters are both large and high-quality, the model that minimizes the modified loss on the noisy training set converges to small excess risk at a rate that is comparable to the rate for non-private learning. We describe both a centralized mechanism in which the entire training set is stored by a trusted curator, and a distributed mechanism where each user stores a single labeled example and replaces her label with the label of a randomly selected user from the same cluster. We also describe a learning problem in which large clusters are necessary to achieve both strong privacy and either good precision or good recall. Our experiments show that randomizing the labels within each cluster significantly improves the privacy vs. accuracy trade-off compared to applying uniform randomized response to the labels, and also compared to learning a model via DP-SGD.
翻訳日:2021-10-06 17:10:34 公開日:2021-10-05
# (参考訳) バッファ付き非同期フェデレーション学習のためのセキュアアグリゲーション [全文訳有]

Secure Aggregation for Buffered Asynchronous Federated Learning ( http://arxiv.org/abs/2110.02177v1 )

ライセンス: CC BY-SA 4.0
Jinhyun So, Ramy E. Ali, Ba\c{s}ak G\"uler, A. Salman Avestimehr(参考訳) フェデレーション学習 (federated learning, fl) は通常、同期トレーニングに依存するが、ストラグラーによる学習は遅くなる。 非同期トレーニングはストラグラーを効率的に扱うが、セキュアなアグリゲーションプロトコルと互換性がないため、プライバシを確保することはできない。 FedBuffとして知られるバッファリング非同期トレーニングプロトコルが最近提案され、同期トレーニングと非同期トレーニングのギャップを埋めて、トラグラーを緩和し、同時にプライバシーを確保する。 fedbuffでは、更新を信頼された実行環境(tee)に保存することで、プライバシを確保しながら、更新を非同期に送信することができる。 しかし、TEEはバッファサイズを制限するメモリが限られている。 この制限により、我々は、TEEに依存しないバッファリング非同期セキュアアグリゲーション(BASecAgg)プロトコルを開発した。 従来のセキュアアグリゲーションプロトコルは、バッファが異なるラウンドに対応するローカルモデルを持つ可能性があるため、バッファ化された非同期設定では適用できないため、ユーザがモデルを保護するために使用するマスクはキャンセルできない。 BASecAggは、異なるラウンドに対応していてもキャンセルするようにマスクを慎重に設計することで、この問題に対処する。 我々の収束分析と実験は、BASecAggがTEEに頼ることなくFedBuffと同じ収束保証を持つことを示している。

Federated learning (FL) typically relies on synchronous training, which is slow due to stragglers. While asynchronous training handles stragglers efficiently, it does not ensure privacy due to the incompatibility with the secure aggregation protocols. A buffered asynchronous training protocol known as FedBuff has been proposed recently which bridges the gap between synchronous and asynchronous training to mitigate stragglers and to also ensure privacy simultaneously. FedBuff allows the users to send their updates asynchronously while ensuring privacy by storing the updates in a trusted execution environment (TEE) enabled private buffer. TEEs, however, have limited memory which limits the buffer size. Motivated by this limitation, we develop a buffered asynchronous secure aggregation (BASecAgg) protocol that does not rely on TEEs. The conventional secure aggregation protocols cannot be applied in the buffered asynchronous setting since the buffer may have local models corresponding to different rounds and hence the masks that the users use to protect their models may not cancel out. BASecAgg addresses this challenge by carefully designing the masks such that they cancel out even if they correspond to different rounds. Our convergence analysis and experiments show that BASecAgg almost has the same convergence guarantees as FedBuff without relying on TEEs.
翻訳日:2021-10-06 16:29:24 公開日:2021-10-05
# (参考訳) ノイズ機能ミックスアップ [全文訳有]

Noisy Feature Mixup ( http://arxiv.org/abs/2110.02180v1 )

ライセンス: CC BY 4.0
Soon Hoe Lim, N. Benjamin Erichson, Francisco Utrera, Winnie Xu, Michael W. Mahoney(参考訳) 本研究では,補間ベーストレーニングとノイズインジェクション方式を組み合わせた,安価かつ効果的なデータ拡張手法であるノイズ機能混合(nfm)を提案する。 例とラベルのペアの凸の組み合わせをトレーニングするのではなく、入力と特徴空間の両方で、データポイントのペアのノイズ摂動凸の組み合わせを使用する。 この方法は特別な場合として混合と多様体の混合を含むが、決定境界の平滑化やモデルロバスト性の改善など、さらなる利点がある。 我々は、nfmの暗黙の正規化効果と同様に、これを理解するための理論を提供する。 この理論は, NFMの利点を, 混合および多様体混合と比較して実証的に裏付けるものである。 NFMでトレーニングされた残差ネットワークと視覚変換器は、コンピュータビジョンベンチマークデータセットの様々な種類のデータ摂動に対して、クリーンなデータに対する予測精度とロバストさのトレードオフが好ましいことを示す。

We introduce Noisy Feature Mixup (NFM), an inexpensive yet effective method for data augmentation that combines the best of interpolation based training and noise injection schemes. Rather than training with convex combinations of pairs of examples and their labels, we use noise-perturbed convex combinations of pairs of data points in both input and feature space. This method includes mixup and manifold mixup as special cases, but it has additional advantages, including better smoothing of decision boundaries and enabling improved model robustness. We provide theory to understand this as well as the implicit regularization effects of NFM. Our theory is supported by empirical results, demonstrating the advantage of NFM, as compared to mixup and manifold mixup. We show that residual networks and vision transformers trained with NFM have favorable trade-offs between predictive accuracy on clean data and robustness with respect to various types of data perturbation across a range of computer vision benchmark datasets.
翻訳日:2021-10-06 16:11:49 公開日:2021-10-05
# (参考訳) 無担保貸出の信用リスク予測--機械学習によるアプローチ [全文訳有]

Predicting Credit Risk for Unsecured Lending: A Machine Learning Approach ( http://arxiv.org/abs/2110.02206v1 )

ライセンス: CC BY-SA 4.0
K.S. Naik(参考訳) 1990年代以降、テクノロジー分野と電子商取引分野に大きな進歩が見られ、キャッシュレス決済ソリューションの需要が急増した。 これにより、クレジットカードの需要が高まり、クレジットカードのデフォルト値が高まり、従って不適切なレートが一定期間にわたって高まる可能性がある。 本研究の目的は、機械学習技術を用いて、無担保貸付(クレディットカード)の信用デフォルトを予測するための、現代の信用評価モデルを構築することである。 クレジットのデフォルトを予測するために、融資者が利用できる顧客支払いデータの多くは、デフォルトインスタンスのサブセットが限られているため、不均衡(歪んだ)になっているため、予測モデリングの課題となる。 本研究では,このような不均衡を解き明かす手法として,smote(synthetic minor oversampling technique)を導入することで,この課題に対処した。 研究データセットを7つの異なる機械学習モデルで実行した結果、光勾配ブースティングマシン(LGBM)分類器モデルが他の6つの分類手法より優れていることが示された。 そこで本研究では,LGBM分類器モデルにより,学習速度の向上,効率の向上,データ量管理が図られている。 このモデルの導入により、商業融資機関や銀行の意思決定者に対する信用デフォルトのより良いタイムリーな予測が可能になると期待している。

Since the 1990s, there have been significant advances in the technology space and the e-Commerce area, leading to an exponential increase in demand for cashless payment solutions. This has led to increased demand for credit cards, bringing along with it the possibility of higher credit defaults and hence higher delinquency rates, over a period of time. The purpose of this research paper is to build a contemporary credit scoring model to forecast credit defaults for unsecured lending (credit cards), by employing machine learning techniques. As much of the customer payments data available to lenders, for forecasting Credit defaults, is imbalanced (skewed), on account of a limited subset of default instances, this poses a challenge for predictive modelling. In this research, this challenge is addressed by deploying Synthetic Minority Oversampling Technique (SMOTE), a proven technique to iron out such imbalances, from a given dataset. On running the research dataset through seven different machine learning models, the results indicate that the Light Gradient Boosting Machine (LGBM) Classifier model outperforms the other six classification techniques. Thus, our research indicates that the LGBM classifier model is better equipped to deliver higher learning speeds, better efficiencies and manage larger data volumes. We expect that deployment of this model will enable better and timely prediction of credit defaults for decision-makers in commercial lending institutions and banks.
翻訳日:2021-10-06 15:23:38 公開日:2021-10-05
# (参考訳) Mix3D: 3Dシーンのアウトオブコンテキストデータ拡張 [全文訳有]

Mix3D: Out-of-Context Data Augmentation for 3D Scenes ( http://arxiv.org/abs/2110.02210v1 )

ライセンス: CC BY 4.0
Alexey Nekrasov, Jonas Schult, Or Litany, Bastian Leibe, Francis Engelmann(参考訳) 大規模3Dシーンをセグメント化するためのデータ拡張手法であるMix3Dを提案する。 シーンコンテキストはオブジェクトセマンティクスの推論に役立つため、現在の作業は、入力された3Dシーンのグローバルコンテキストを完全にキャプチャできる、大きなキャパシティと受容的なフィールドを持つモデルに焦点を当てている。 しかし、強い文脈優先は、通りを横断する歩行者を車と間違えるなど、有害な意味合いを持つ可能性がある。 本研究では,グローバルシーンのコンテキストと局所幾何学のバランスをとることの重要性に焦点をあて,トレーニングセットの文脈的前提を超えた一般化を目指す。 特に,拡張シーンを2つ組み合わせて新たなトレーニングサンプルを作成する「混合」手法を提案する。 そうすることで、オブジェクトインスタンスは新しいコンテキスト外環境に暗黙的に配置されるため、モデルがシーンコンテキストのみに依存することが難しくなり、代わりにローカル構造からセマンティクスを推論する。 グローバルコンテキストの重要性,局所構造,シーン混合の効果を理解するために,詳細な分析を行う。 実験では,室内(ScanNet,S3DIS)および屋外データセット(SemanticKITTI)において,Mix3Dの収益率をトレーニングしたモデルについて検討した。 例えば、mix3dでトレーニングされたminkowskinetは、scannet test benchmark 78.1 miouで、以前のすべてのstate-of-the-artメソッドを大きく上回っている。 コードは https://nekrasov.dev /mix3d/

We present Mix3D, a data augmentation technique for segmenting large-scale 3D scenes. Since scene context helps reasoning about object semantics, current works focus on models with large capacity and receptive fields that can fully capture the global context of an input 3D scene. However, strong contextual priors can have detrimental implications like mistaking a pedestrian crossing the street for a car. In this work, we focus on the importance of balancing global scene context and local geometry, with the goal of generalizing beyond the contextual priors in the training set. In particular, we propose a "mixing" technique which creates new training samples by combining two augmented scenes. By doing so, object instances are implicitly placed into novel out-of-context environments and therefore making it harder for models to rely on scene context alone, and instead infer semantics from local structure as well. We perform detailed analysis to understand the importance of global context, local structures and the effect of mixing scenes. In experiments, we show that models trained with Mix3D profit from a significant performance boost on indoor (ScanNet, S3DIS) and outdoor datasets (SemanticKITTI). Mix3D can be trivially used with any existing method, e.g., trained with Mix3D, MinkowskiNet outperforms all prior state-of-the-art methods by a significant margin on the ScanNet test benchmark 78.1 mIoU. Code is available at: https://nekrasov.dev /mix3d/
翻訳日:2021-10-06 15:15:25 公開日:2021-10-05
# (参考訳) $\Delta$-UQ: Anchor Marginalizationによる不確かさの正確な定量化 [全文訳有]

$\Delta$-UQ: Accurate Uncertainty Quantification via Anchor Marginalization ( http://arxiv.org/abs/2110.02197v1 )

ライセンス: CC BY 4.0
Rushil Anirudh and Jayaraman J. Thiagarajan(参考訳) 予測モデルにおけるアンカーの概念を用いた新しい汎用不確実性推定器である$\Delta$-UQを提案する。 アンカリングは、まず入力を、事前分布から引き出されたアンカ点と、入力サンプルとアンカとの組み合わせからなるタプルに、プリテキスト符号化方式を用いて変換する。 このエンコーディングは、アンカーの選択にかかわらず、元の入力がタプルから完全に復元されるようにしている。 したがって、任意の予測モデルは(暗黙的に入力を表すため)タプルのみからターゲット応答を予測できるべきである。 さらに,固定標本に対するアンカーを変化させることで,単一の予測モデルのみを用いても予測の不確かさを推定できる。 この不確かさは入力データの不適切なサンプリングや固有のノイズと深く関連しており、システム全体の不確かさを推定することができる。 様々なユースケースに関する広範な実証的研究により、$\Delta$-UQ がいくつかの競争的ベースラインより優れていることを示す。 具体的には, モデルフィッティング, 逐次モデル最適化, 回帰設定におけるモデルベースインバージョン, 分布検出のアウト, 分布シフトによるキャリブレーションについて検討した。

We present $\Delta$-UQ -- a novel, general-purpose uncertainty estimator using the concept of anchoring in predictive models. Anchoring works by first transforming the input into a tuple consisting of an anchor point drawn from a prior distribution, and a combination of the input sample with the anchor using a pretext encoding scheme. This encoding is such that the original input can be perfectly recovered from the tuple -- regardless of the choice of the anchor. Therefore, any predictive model should be able to predict the target response from the tuple alone (since it implicitly represents the input). Moreover, by varying the anchors for a fixed sample, we can estimate uncertainty in the prediction even using only a single predictive model. We find this uncertainty is deeply connected to improper sampling of the input data, and inherent noise, enabling us to estimate the total uncertainty in any system. With extensive empirical studies on a variety of use-cases, we demonstrate that $\Delta$-UQ outperforms several competitive baselines. Specifically, we study model fitting, sequential model optimization, model based inversion in the regression setting and out of distribution detection, & calibration under distribution shifts for classification.
翻訳日:2021-10-06 14:45:31 公開日:2021-10-05
# 大規模事前学習の限界を探る

Exploring the Limits of Large Scale Pre-training ( http://arxiv.org/abs/2110.02095v1 )

ライセンス: Link先を確認
Samira Abnar and Mostafa Dehghani and Behnam Neyshabur and Hanie Sedghi(参考訳) 大規模機械学習の最近の進歩は、データ、モデルサイズ、トレーニング時間を適切にスケールアップすることで、事前学習の改善がほとんどの下流タスクに好適に反映されることを示唆している。 本研究では,この現象を体系的に研究し,上流の精度を高めると,下流タスクの性能が飽和することを示す。 特に,視覚トランスフォーマー,mlpミキサー,およびresnetに関する4800以上の実験を,100万から100億までのパラメータで実施し,利用可能な画像データ(jft,imagenet21k)の最大スケールでトレーニングし,20以上の下流画像認識タスクで評価した。 本研究では,飽和現象を反映した下流性能モデルを提案し,上流タスクと下流タスクのパフォーマンスにおける非線形関係を捉える。 これらの現象を引き起こす理由を深く理解するために、我々が観察する飽和挙動は、モデルの層を通して表現が進化する方法と密接に関連していることを示す。 上流と下流のパフォーマンスが互いに相反する、さらに極端なシナリオを紹介します。 つまり、下流のパフォーマンスを改善するためには、上流の精度を損なう必要があるのです。

Recent developments in large-scale machine learning suggest that by scaling up data, model size and training time properly, one might observe that improvements in pre-training would transfer favorably to most downstream tasks. In this work, we systematically study this phenomena and establish that, as we increase the upstream accuracy, the performance of downstream tasks saturates. In particular, we investigate more than 4800 experiments on Vision Transformers, MLP-Mixers and ResNets with number of parameters ranging from ten million to ten billion, trained on the largest scale of available image data (JFT, ImageNet21K) and evaluated on more than 20 downstream image recognition tasks. We propose a model for downstream performance that reflects the saturation phenomena and captures the nonlinear relationship in performance of upstream and downstream tasks. Delving deeper to understand the reasons that give rise to these phenomena, we show that the saturation behavior we observe is closely related to the way that representations evolve through the layers of the models. We showcase an even more extreme scenario where performance on upstream and downstream are at odds with each other. That is, to have a better downstream performance, we need to hurt upstream accuracy.
翻訳日:2021-10-06 14:29:21 公開日:2021-10-05
# 神経語埋め込みに関する調査研究

A Survey On Neural Word Embeddings ( http://arxiv.org/abs/2110.01804v1 )

ライセンス: Link先を確認
Erhan Sezerer and Selma Tekir(参考訳) 人間の言語を理解することは、知的な機械の道のサブカレンジだ。 自然言語処理(NLP)における意味の研究は、言語要素が文脈内で共起する単語から意味を得る分布仮説に依存している。 概念の分散表現という革命的な考え方は、単語の意味が複数のニューロンに分散し、活性化の喪失がメモリ検索プロセスにわずかに影響を及ぼすという人間の心の働きに近い。 ニューラルワード埋め込みは全てのNLPタスクを大幅に改善することでNLPの分野全体を変革した。 本稿では,神経語埋め込みに関する包括的な文献レビューを行う。 理論的基礎を与え,単語埋め込みと言語モデリングの相互作用による既存の作業を記述する。 我々は、早期単語埋め込み、特定の意味関係をターゲットとした埋め込み、感覚埋め込み、形態素埋め込み、そして最後に文脈表現を含む、ニューラルネットワークの埋め込みを広範囲にカバーする。 最後に,ワード埋め込みの性能評価とダウンストリームタスクにおけるベンチマークデータセットと,ワード埋め込みに対するパフォーマンス結果について述べる。

Understanding human language has been a sub-challenge on the way of intelligent machines. The study of meaning in natural language processing (NLP) relies on the distributional hypothesis where language elements get meaning from the words that co-occur within contexts. The revolutionary idea of distributed representation for a concept is close to the working of a human mind in that the meaning of a word is spread across several neurons, and a loss of activation will only slightly affect the memory retrieval process. Neural word embeddings transformed the whole field of NLP by introducing substantial improvements in all NLP tasks. In this survey, we provide a comprehensive literature review on neural word embeddings. We give theoretical foundations and describe existing work by an interplay between word embeddings and language modelling. We provide broad coverage on neural word embeddings, including early word embeddings, embeddings targeting specific semantic relations, sense embeddings, morpheme embeddings, and finally, contextual representations. Finally, we describe benchmark datasets in word embeddings' performance evaluation and downstream tasks along with the performance results of/due to word embeddings.
翻訳日:2021-10-06 14:29:00 公開日:2021-10-05
# FooDI-ML:食品、飲料、食料品の画像と説明の多言語データセット

FooDI-ML: a large multi-language dataset of food, drinks and groceries images and descriptions ( http://arxiv.org/abs/2110.02035v1 )

ライセンス: Link先を確認
David Amat Ol\'ondriz and Pon\c{c} Palau Puigdevall and Adri\`a Salvador Palau(参考訳) 本稿では,食品飲料・食料品画像多言語(FooDI-ML)データセットについて紹介する。 このデータセットには1.5M以上のユニークなイメージと9.5M以上のストア名、製品名の説明、Glovoアプリケーションから収集されたコレクションセクションが含まれている。 利用可能なデータは、ヨーロッパ、中東、アフリカ、ラテンアメリカの37カ国の食品、飲料、食料品製品に対応している。 このデータセットは、ウクライナやカザフといった東ヨーロッパや西アジアからの870万の言語のサンプルを含む33の言語を記述している。 データセットにはスペイン語や英語など広く話されている言語も含まれている。 さらなる研究を支援するため,既存の SotA 技術である ADAPT を用いたテキスト画像検索タスクのベンチマークを含む。

In this paper we introduce the Food Drinks and groceries Images Multi Lingual (FooDI-ML) dataset. This dataset contains over 1.5M unique images and over 9.5M store names, product names descriptions, and collection sections gathered from the Glovo application. The data made available corresponds to food, drinks and groceries products from 37 countries in Europe, the Middle East, Africa and Latin America. The dataset comprehends 33 languages, including 870K samples of languages of countries from Eastern Europe and Western Asia such as Ukrainian and Kazakh, which have been so far underrepresented in publicly available visio-linguistic datasets. The dataset also includes widely spoken languages such as Spanish and English. To assist further research, we include a benchmark over the text-image retrieval task using ADAPT, a SotA existing technique.
翻訳日:2021-10-06 14:28:45 公開日:2021-10-05
# 最適値関数の線形実現性を考慮したMDP計画のためのTensorPlanとFewアクション

TensorPlan and the Few Actions Lower Bound for Planning in MDPs under Linear Realizability of Optimal Value Functions ( http://arxiv.org/abs/2110.02195v1 )

ライセンス: Link先を確認
Gell\'ert Weisz, Csaba Szepesv\'ari, Andr\'as Gy\"orgy(参考訳) 線形関数近似を持つ固定ホライゾンマルコフ決定過程(mdps)における生成モデルを用いて,オンライン計画の最小クエリ複雑性を考える。 最近の研究の後、私たちは、どちらかが問題である幅広いクラスを考える。 i) 最適な値関数 $v^\star$ か (ii) 最適な作用値関数 $q^\star$ は、いくつかの特徴の線形スパンにある。 (iii) $v^\star$ と $q^\star$ は、開始状態から到達可能な状態に限定される場合の線形スパンにある。 最近のweisz et al. (2021b) では (ii)任意の計画アルゴリズムのminimaxクエリの複雑さは、アクションセットのサイズ$a$が$\min(d,h)$で指数関数になるように選択できる場合、水平方向$h$または特徴次元$d$において少なくとも指数関数的である。 一方、設定については (i), weisz et al. (2021a)は,アクション数が固定された場合,クエリコストが関連するすべての量の多項式となるプランナーtensorplanを導入した。 この2つの作業は、$a$が$min(d,h)$でサブ指数である場合、多項式クエリの複雑さが可能かどうかという疑問を投げかけた。 指数関数的に大きい下界は、$A=\Omega(\min(d^{1/4},H^{1/2}))$ がいずれかの下にあるときに成り立つことを示す。 (i) (ii) (iii) 特にこれは、多項式上界を証明した Du et al. (2021) の業績と比較して、おそらく驚くほどの指数関数的なクエリ複雑性の分離を意味する。 (iii)すべての州について。 さらに、テンソルプランの上限をアンダーホールドに拡張できることを示した。 (iii)及び決定論的推移及び確率的報酬を有するmdpについても (ii)

We consider the minimax query complexity of online planning with a generative model in fixed-horizon Markov decision processes (MDPs) with linear function approximation. Following recent works, we consider broad classes of problems where either (i) the optimal value function $v^\star$ or (ii) the optimal action-value function $q^\star$ lie in the linear span of some features; or (iii) both $v^\star$ and $q^\star$ lie in the linear span when restricted to the states reachable from the starting state. Recently, Weisz et al. (2021b) showed that under (ii) the minimax query complexity of any planning algorithm is at least exponential in the horizon $H$ or in the feature dimension $d$ when the size $A$ of the action set can be chosen to be exponential in $\min(d,H)$. On the other hand, for the setting (i), Weisz et al. (2021a) introduced TensorPlan, a planner whose query cost is polynomial in all relevant quantities when the number of actions is fixed. Among other things, these two works left open the question whether polynomial query complexity is possible when $A$ is subexponential in $min(d,H)$. In this paper we answer this question in the negative: we show that an exponentially large lower bound holds when $A=\Omega(\min(d^{1/4},H^{1/2}))$, under either (i), (ii) or (iii). In particular, this implies a perhaps surprising exponential separation of query complexity compared to the work of Du et al. (2021) who prove a polynomial upper bound when (iii) holds for all states. Furthermore, we show that the upper bound of TensorPlan can be extended to hold under (iii) and, for MDPs with deterministic transitions and stochastic rewards, also under (ii).
翻訳日:2021-10-06 14:28:10 公開日:2021-10-05
# MobileViT:軽量、汎用、モバイルフレンドリーなビジョントランス

MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer ( http://arxiv.org/abs/2110.02178v1 )

ライセンス: Link先を確認
Sachin Mehta and Mohammad Rastegari(参考訳) 軽量畳み込みニューラルネットワーク(CNN)は、モバイルビジョンタスクのデファクトである。 空間的帰納的バイアスにより、異なる視覚タスクでより少ないパラメータで表現を学ぶことができる。 しかし、これらのネットワークは空間的に局所的である。 グローバルな表現を学ぶために、自己注意に基づく視覚トランスフォーマー(ViT)が採用されている。 CNNとは異なり、ViTは重い。 本稿では,モバイルビジョンタスクのための軽量低レイテンシネットワークを構築するために,CNNとViTの強みを組み合わせることは可能か? この目的に向けて,モバイル機器用の軽量汎用視覚トランスフォーマであるmobilevitを紹介する。 MobileViTは、トランスフォーマー、すなわちコンボリューションとしてのトランスフォーマーによる情報のグローバルな処理に対して異なる視点を示す。 以上の結果から,MobileViT は CNN および ViT ベースのネットワークにおいて,タスクやデータセット間で著しく優れていた。 ImageNet-1kデータセットでは、MobileViTは、約600万のパラメータで78.4%のTop-1精度を達成しており、同じ数のパラメータに対してMobileNetv3(CNNベース)とDeIT(ViTベース)よりも3.2%と6.2%の精度である。 MS-COCOオブジェクト検出タスクでは、MobileViTは同様の数のパラメータに対してMo-bileNetv3よりも5.7%正確である。

Light-weight convolutional neural networks (CNNs) are the de-facto for mobile vision tasks. Their spatial inductive biases allow them to learn representations with fewer parameters across different vision tasks. However, these networks are spatially local. To learn global representations, self-attention-based vision trans-formers (ViTs) have been adopted. Unlike CNNs, ViTs are heavy-weight. In this paper, we ask the following question: is it possible to combine the strengths of CNNs and ViTs to build a light-weight and low latency network for mobile vision tasks? Towards this end, we introduce MobileViT, a light-weight and general-purpose vision transformer for mobile devices. MobileViT presents a different perspective for the global processing of information with transformers, i.e., transformers as convolutions. Our results show that MobileViT significantly outperforms CNN- and ViT-based networks across different tasks and datasets. On the ImageNet-1k dataset, MobileViT achieves top-1 accuracy of 78.4% with about 6 million parameters, which is 3.2% and 6.2% more accurate than MobileNetv3 (CNN-based) and DeIT (ViT-based) for a similar number of parameters. On the MS-COCO object detection task, MobileViT is 5.7% more accurate than Mo-bileNetv3 for a similar number of parameters.
翻訳日:2021-10-06 14:26:55 公開日:2021-10-05
# aracovid19-ssd:アラビア語の感情と皮肉の検出データセット

AraCOVID19-SSD: Arabic COVID-19 Sentiment and Sarcasm Detection Dataset ( http://arxiv.org/abs/2110.01948v1 )

ライセンス: Link先を確認
Mohamed Seghir Hadj Ameur, Hassina Aliane(参考訳) コロナウイルス(Coronavirus disease, COVID-19)は、2019年12月下旬に中国武漢で初めて発見された感染症で、その後世界中に広がった。 facebookやtwitterなどのソーシャルネットワークサイトのユーザーは、新たに出現するパンデミックに関するノベル、ツイート、記事の読み書き、公開、共有に力を入れている。 これらのユーザの多くは、自分の意図した意味をユーモラスで面白い間接的な方法で伝達するために、サルカズム(sarcasm)を使っている。 この論文は、新型コロナウイルス(COVID-19)の文脈でこのような問題に対処する注釈付きデータセットの必要性が高まっている中で、AraCOVID19-SSDを手動で注釈付けしたアラビアのCOVID-19サルカズムと5,162のツイートを含む感情検出データセットを構築しリリースする。 構築されたデータセットの実用性を確認するため、いくつかの分類モデルを用いて慎重に分析および試験を行った。

Coronavirus disease (COVID-19) is an infectious respiratory disease that was first discovered in late December 2019, in Wuhan, China, and then spread worldwide causing a lot of panic and death. Users of social networking sites such as Facebook and Twitter have been focused on reading, publishing, and sharing novelties, tweets, and articles regarding the newly emerging pandemic. A lot of these users often employ sarcasm to convey their intended meaning in a humorous, funny, and indirect way making it hard for computer-based applications to automatically understand and identify their goal and the harm level that they can inflect. Motivated by the emerging need for annotated datasets that tackle these kinds of problems in the context of COVID-19, this paper builds and releases AraCOVID19-SSD a manually annotated Arabic COVID-19 sarcasm and sentiment detection dataset containing 5,162 tweets. To confirm the practical utility of the built dataset, it has been carefully analyzed and tested using several classification models.
翻訳日:2021-10-06 14:26:02 公開日:2021-10-05
# TENT: 木学習のエンコードに基づくテキスト分類

TENT: Text Classification Based on ENcoding Tree Learning ( http://arxiv.org/abs/2110.02047v1 )

ライセンス: Link先を確認
Chong Zhang, Junran Wu, He Zhu, Ke Xu(参考訳) テキスト分類は自然言語処理(NLP)の主要な課題である。 近年,グラフニューラルネットワーク(GNN)が急速に発展し,テキスト分類タスクに応用されている。 より複雑なモデルはより良い性能を達成する傾向があるが、研究は使用するデバイスの計算能力に大きく依存する。 本稿では,テキスト分類性能の向上と,計算能力への依存を軽減するため,TENT(https://github .com/Daisean/TENT)を提案する。 具体的には、まず各テキストに対する依存分析グラフを確立し、次に各グラフを対応するエンコーディングツリーに変換する。 グラフ全体の表現は、符号化ツリー内の非リーフノードの表現を更新することによって得られる。 実験の結果,本手法は単純な構造とパラメータ数を保ったまま,複数のデータセット上の他のベースラインよりも優れていた。

Text classification is a primary task in natural language processing (NLP). Recently, graph neural networks (GNNs) have developed rapidly and been applied to text classification tasks. Although more complex models tend to achieve better performance, research highly depends on the computing power of the device used. In this article, we propose TENT (https://github.com/ Daisean/TENT) to obtain better text classification performance and reduce the reliance on computing power. Specifically, we first establish a dependency analysis graph for each text and then convert each graph into its corresponding encoding tree. The representation of the entire graph is obtained by updating the representation of the non-leaf nodes in the encoding tree. Experimental results show that our method outperforms other baselines on several datasets while having a simple structure and few parameters.
翻訳日:2021-10-06 14:25:41 公開日:2021-10-05
# MetaPix: Meta Pixel Weighting によるセマンティックセグメンテーションのためのドメイン転送

MetaPix: Domain Transfer for Semantic Segmentation by Meta Pixel Weighting ( http://arxiv.org/abs/2110.01777v1 )

ライセンス: Link先を確認
Yiren Jian, Chongyang Gao(参考訳) セマンティックセグメンテーションのためのディープニューラルネットワークモデルのトレーニングには、大量のピクセルレベルのラベル付きデータを収集する必要がある。 実世界で提示されるデータ不足問題を解決するために,ラベルの取得が容易な合成データを利用することができる。 従来の研究は,合成データに適切な重み付けを施した実例と合成例を併用して,意味セグメンテーションモデルの性能を向上させることができることを示した。 このような重み付けは、合成例と実例との類似性を最大化するためにヒューリスティックに学んだ。 私たちの研究では、メタラーニングによって合成データのピクセルレベルの重み付けを学習する代わりに、重み付けの学習は対象タスクの損失を最小化するだけであるべきです。 重み付けモデルのパラメータに目標損失を伝播させるグラデーション・オン・グレード技術によりこれを達成する。 実験により,1つのメタモジュールしか持たない手法は,逆特徴のアライメント,再構成損失,およびピクセル,領域,画像レベルにおける階層的ヒューリスティック重み付けの複雑な組み合わせよりも優れていることが示された。

Training a deep neural model for semantic segmentation requires collecting a large amount of pixel-level labeled data. To alleviate the data scarcity problem presented in the real world, one could utilize synthetic data whose label is easy to obtain. Previous work has shown that the performance of a semantic segmentation model can be improved by training jointly with real and synthetic examples with a proper weighting on the synthetic data. Such weighting was learned by a heuristic to maximize the similarity between synthetic and real examples. In our work, we instead learn a pixel-level weighting of the synthetic data by meta-learning, i.e., the learning of weighting should only be minimizing the loss on the target task. We achieve this by gradient-on-gradient technique to propagate the target loss back into the parameters of the weighting model. The experiments show that our method with only one single meta module can outperform a complicated combination of an adversarial feature alignment, a reconstruction loss, plus a hierarchical heuristic weighting at pixel, region and image levels.
翻訳日:2021-10-06 14:25:29 公開日:2021-10-05
# 意味的構造制約を持つ周波数認識型顔幻覚生成逆ネットワーク

Frequency Aware Face Hallucination Generative Adversarial Network with Semantic Structural Constraint ( http://arxiv.org/abs/2110.01880v1 )

ライセンス: Link先を確認
Shailza Sharma, Abhinav Dhall, and Vinay Kumar(参考訳) 本稿では,顔面幻覚の問題点について述べる。 現在の顔幻覚法のほとんどは、低解像度の顔画像から高解像度の顔画像を生成するために2次元の顔前処理に依存している。 これらの手法は、生成した画像にグローバル情報を同化することしかできない。 これらの手法には、局所的特徴、微妙な構造的詳細、最終的な出力画像の深度情報の欠如など、いくつかの固有の問題がある。 本研究は,GAN(Generative Adversarial Network)に基づく新しいプログレッシブ・フェイス・ハロシン化(FH)ネットワークを提案する。 提案モデルの生成装置は、FHネットワークと2つのサブネットワークから構成され、FHネットワークが高解像度画像を生成するのを補助する。 最初のサブネットワークは、モデルに高周波コンポーネントを明示的に追加することを活用する。 高周波成分を明示的に符号化するために、離散コサイン変換(DCT)の高分解能係数を生成するオートエンコーダを提案する。 ネットワークに3次元パラメトリック情報を加えるために,第2のサブネットワークを提案する。 このネットワークは3d morphable model(3dmm)の形状モデルを使用して、fhネットワークに構造的制約を追加する。 本論文では,提案モデルが最先端手法より優れていることを示す。

In this paper, we address the issue of face hallucination. Most current face hallucination methods rely on two-dimensional facial priors to generate high resolution face images from low resolution face images. These methods are only capable of assimilating global information into the generated image. Still there exist some inherent problems in these methods; such as, local features, subtle structural details and missing depth information in final output image. Present work proposes a Generative Adversarial Network (GAN) based novel progressive Face Hallucination (FH) network to address these issues present among current methods. The generator of the proposed model comprises of FH network and two sub-networks, assisting FH network to generate high resolution images. The first sub-network leverages on explicitly adding high frequency components into the model. To explicitly encode the high frequency components, an auto encoder is proposed to generate high resolution coefficients of Discrete Cosine Transform (DCT). To add three dimensional parametric information into the network, second sub-network is proposed. This network uses a shape model of 3D Morphable Models (3DMM) to add structural constraint to the FH network. Extensive experimentation results in the paper shows that the proposed model outperforms the state-of-the-art methods.
翻訳日:2021-10-06 14:25:07 公開日:2021-10-05
# 時系列データの真理条件キャプション

Truth-Conditional Captioning of Time Series Data ( http://arxiv.org/abs/2110.01839v1 )

ライセンス: Link先を確認
Harsh Jhamtani and Taylor Berg-Kirkpatrick(参考訳) 本稿では,1週間にわたる企業の株価など,時系列における健全なパターンの自然言語記述を自動的に生成する作業について検討する。 このタスクのモデルは、ピークの存在やディップのようなハイレベルなパターンを抽出することができるべきである。 注意機構を持つ典型的な現代のニューラルモデルは、このタスクのために流線型な出力記述を生成することができるが、しばしば事実的に誤った記述を生成する。 本稿では,まず入力時系列で学習したプログラムを実行し,与えられた入力に対して真となるプログラム/パターンを特定し,最後に選択された有効なプログラム(入力時系列ではなく)のみを条件として出力テキスト記述を生成する真理条件付き計算モデルを提案する。 我々のモデルにおけるプログラムは,数値的パターンと時間的情報を捉えるように設計された小さなニューラルネットワークであるモジュールから構築される。 モジュールは複数のプログラム間で共有され、モジュールパラメータの効率的な学習を可能にする。 モジュールは、モジュールの構成だけでなく、データにもオブザーバされません。私たちは、自然言語のテキスト記述に付随するトレーニング信号だけを使って、エンドツーエンドでモジュールを学習します。 提案モデルでは,モジュール型の小型かつ単純な空間を考慮した場合であっても,高精度なキャプションを生成することができる。

In this paper, we explore the task of automatically generating natural language descriptions of salient patterns in a time series, such as stock prices of a company over a week. A model for this task should be able to extract high-level patterns such as presence of a peak or a dip. While typical contemporary neural models with attention mechanisms can generate fluent output descriptions for this task, they often generate factually incorrect descriptions. We propose a computational model with a truth-conditional architecture which first runs small learned programs on the input time series, then identifies the programs/patterns which hold true for the given input, and finally conditions on only the chosen valid program (rather than the input time series) to generate the output text description. A program in our model is constructed from modules, which are small neural networks that are designed to capture numerical patterns and temporal information. The modules are shared across multiple programs, enabling compositionality as well as efficient learning of module parameters. The modules, as well as the composition of the modules, are unobserved in data, and we learn them in an end-to-end fashion with the only training signal coming from the accompanying natural language text descriptions. We find that the proposed model is able to generate high-precision captions even though we consider a small and simple space of module types.
翻訳日:2021-10-06 14:24:44 公開日:2021-10-05
# foodchem: 食品・化学関係抽出モデル

FoodChem: A food-chemical relation extraction model ( http://arxiv.org/abs/2110.02019v1 )

ライセンス: Link先を確認
Gjorgjina Cenikj, Barbara Korou\v{s}i\'c Seljak and Tome Eftimov(参考訳) 本稿では,生物医学的ピアリビュード科学文献に提供されたテキスト情報に基づいて,食品構成中の化学物質を識別するための新しい関係抽出(re)モデルであるfoodchemを提案する。 REタスクは二項分類問題として扱われ、食品化学の実体対の間に含みのある関係が存在するかどうかを識別する。 これはBERT、BioBERT、RoBERTaトランスモデルによって実現されている。 評価目的のために、金銀版において、食品・化学実体対の関係を含む注釈付き新規データセットを生成する。 これらのモデルは,個々のモデルの増補に使用するデータセットの銀版を生成するために投票方式に統合され,手動で注釈付けした黄金版が評価に使用される。 3つの評価モデルのうち、BioBERTモデルが最も良い結果が得られ、マクロ平均F1スコアは、アンバランスな拡張設定で0.902である。

In this paper, we present FoodChem, a new Relation Extraction (RE) model for identifying chemicals present in the composition of food entities, based on textual information provided in biomedical peer-reviewed scientific literature. The RE task is treated as a binary classification problem, aimed at identifying whether the contains relation exists between a food-chemical entity pair. This is accomplished by fine-tuning BERT, BioBERT and RoBERTa transformer models. For evaluation purposes, a novel dataset with annotated contains relations in food-chemical entity pairs is generated, in a golden and silver version. The models are integrated into a voting scheme in order to produce the silver version of the dataset which we use for augmenting the individual models, while the manually annotated golden version is used for their evaluation. Out of the three evaluated models, the BioBERT model achieves the best results, with a macro averaged F1 score of 0.902 in the unbalanced augmentation setting.
翻訳日:2021-10-06 14:24:22 公開日:2021-10-05
# Psuedolabelsを使ってSentiment Classifiersを訓練し、データセット間でモデルをより一般化する

Using Psuedolabels for training Sentiment Classifiers makes the model generalize better across datasets ( http://arxiv.org/abs/2110.02200v1 )

ライセンス: Link先を確認
Natesh Reddy, Muktabh Mayank Srivastava(参考訳) パブリックな感情分類APIでは、ドメイン間のデータアノテートに制限のある、さまざまなタイプのデータに対してうまく機能する分類器をどのように設定すればよいか。 異なる領域にまたがる無注データや、あるドメインから小さな注釈付きデータセットで訓練された分類器によって生成された疑似ラベルを多用すると、異なるデータセットにまたがってより一般化した感情分類器を訓練することができる。

The problem statement addressed in this work is : For a public sentiment classification API, how can we set up a classifier that works well on different types of data, having limited ability to annotate data from across domains. We show that given a large amount of unannotated data from across different domains and pseudolabels on this dataset generated by a classifier trained on a small annotated dataset from one domain, we can train a sentiment classifier that generalizes better across different datasets.
翻訳日:2021-10-06 14:24:08 公開日:2021-10-05
# リコネッサンス・ブラインドチェスにおける深いシナプスモンテカルロ計画

Deep Synoptic Monte Carlo Planning in Reconnaissance Blind Chess ( http://arxiv.org/abs/2110.01810v1 )

ライセンス: Link先を確認
Gregory Clark (Google)(参考訳) 本稿では,大規模情報ゲームのためのdsmcp(deep synoptic monte carlo planning)を提案する。 アルゴリズムは、無重み付き粒子フィルタで信念状態を構築し、信念状態から引き出されたサンプルから始まるプレイアウトを計画する。 このアルゴリズムは、情報状態の新しい確率的抽象化である「シナプス」を推論することで不確実性を説明できる。 DSMCPはPenumbraプログラムの基礎であり、2020年、33のプログラムに対して公式のブラインドチェス大会で優勝した。 本稿では,注意,パラノイア,新しいバンディットアルゴリズムを組み込んだアルゴリズムの変種について評価する。 さらに、penumbraで使用されているsynopsis機能と、ビット毎のsaliency統計を監査する。

This paper introduces deep synoptic Monte Carlo planning (DSMCP) for large imperfect information games. The algorithm constructs a belief state with an unweighted particle filter and plans via playouts that start at samples drawn from the belief state. The algorithm accounts for uncertainty by performing inference on "synopses," a novel stochastic abstraction of information states. DSMCP is the basis of the program Penumbra, which won the official 2020 reconnaissance blind chess competition versus 33 other programs. This paper also evaluates algorithm variants that incorporate caution, paranoia, and a novel bandit algorithm. Furthermore, it audits the synopsis features used in Penumbra with per-bit saliency statistics.
翻訳日:2021-10-06 14:23:21 公開日:2021-10-05
# 階層的原始構成による強化学習における解釈可能性の実現

Attaining Interpretability in Reinforcement Learning via Hierarchical Primitive Composition ( http://arxiv.org/abs/2110.01833v1 )

ライセンス: Link先を確認
Jeong-Hoon Lee and Jongeun Choi(参考訳) 深層強化学習は、様々な応用においてその効果を示し、高い複雑さでタスクを解くための有望な方向を提供する。 しかし、ほとんどの強化学習アルゴリズムでは、サンプルの非効率性とポリシーの解釈可能性という2つの大きな問題を扱う必要がある。 前者は環境が緩やかに報奨されたり、長期のクレジット割り当ての問題が発生したり、後者は学習したポリシーが顧客側製品にデプロイされたときに問題となる。 本稿では,従来の課題を階層に分解し,事前学習したプリミティブを意図と組み合わせることで,上記の問題を緩和する新しい階層型強化学習アルゴリズムを提案する。 6自由度マニピュレータによるピック・アンド・プレイス・タスクの解法により,提案手法を実際に活用する方法を示す。

Deep reinforcement learning has shown its effectiveness in various applications and provides a promising direction for solving tasks with high complexity. In most reinforcement learning algorithms, however, two major issues need to be dealt with - the sample inefficiency and the interpretability of a policy. The former happens when the environment is sparsely rewarded and/or has a long-term credit assignment problem, while the latter becomes a problem when the learned policies are deployed at the customer side product. In this paper, we propose a novel hierarchical reinforcement learning algorithm that mitigates the aforementioned issues by decomposing the original task in a hierarchy and by compounding pretrained primitives with intents. We show how the proposed scheme can be employed in practice by solving a pick and place task with a 6 DoF manipulator.
翻訳日:2021-10-06 14:23:09 公開日:2021-10-05
# スパイク共分散行列構造を用いた高次元データの分類

Classification of high-dimensional data with spiked covariance matrix structure ( http://arxiv.org/abs/2110.01950v1 )

ライセンス: Link先を確認
Yin-Jen Chen, Minh Tang(参考訳) p$ について n$ の観測値を持つ高次元データの分類問題について検討する。 $p \times p$ 共分散行列 $\sigma$ はスパイクした固有値構造を示し、ベクトル $\zeta$ は白色平均ベクトルの差によって与えられるが、最大$s$ はスパーシティでスパースである。 適応型分類器(空間の空間の分類に先立って特徴ベクトルの次元還元を行う)を提案する。つまり、分類器はデータを白くし、次に、$\zeta$の最大座標に対応するものだけを保持して特徴を遮蔽し、最終的に選択した特徴に対してフィッシャー線形判別法を適用する。 共分散行列に対するエントリワイズ行列摂動境界に関する最近の結果を利用して、n \rightarrow \infty$ と $s \sqrt{n^{-1} \ln p} \rightarrow 0$ のとき、結果の分類器はベイズ最適であることを示した。 実データおよび合成データを用いた実験結果から,提案手法は既存手法と競合する一方で,少数の特徴も選択できることがわかった。

We study the classification problem for high-dimensional data with $n$ observations on $p$ features where the $p \times p$ covariance matrix $\Sigma$ exhibits a spiked eigenvalues structure and the vector $\zeta$, given by the difference between the whitened mean vectors, is sparse with sparsity at most $s$. We propose an adaptive classifier (adaptive with respect to the sparsity $s$) that first performs dimension reduction on the feature vectors prior to classification in the dimensionally reduced space, i.e., the classifier whitened the data, then screen the features by keeping only those corresponding to the $s$ largest coordinates of $\zeta$ and finally apply Fisher linear discriminant on the selected features. Leveraging recent results on entrywise matrix perturbation bounds for covariance matrices, we show that the resulting classifier is Bayes optimal whenever $n \rightarrow \infty$ and $s \sqrt{n^{-1} \ln p} \rightarrow 0$. Experimental results on real and synthetic data sets indicate that the proposed classifier is competitive with existing state-of-the-art methods while also selecting a smaller number of features.
翻訳日:2021-10-06 14:22:14 公開日:2021-10-05
# 自己回帰拡散モデル

Autoregressive Diffusion Models ( http://arxiv.org/abs/2110.02037v1 )

ライセンス: Link先を確認
Emiel Hoogeboom and Alexey A. Gritsenko and Jasmijn Bastings and Ben Poole and Rianne van den Berg and Tim Salimans(参考訳) 我々は,順序非依存な自己回帰モデル(uria et al., 2014)を包含し一般化するモデルクラスである自己回帰拡散モデル(ardms)と,軽度仮定下でのardmの特別な場合を示す離散拡散モデル(austin et al., 2021)を紹介する。 ARDMは実装が簡単で、トレーニングも簡単です。 標準ARMとは異なり、それらはモデル表現の因果マスキングを必要とせず、高次元データに好適にスケールする現代の確率拡散モデルに似た効率的な目的を用いて訓練することができる。 テスト時には、ARDMは並列生成をサポートし、任意の世代予算に適合できる。 我々はARDMが同じ性能を達成するために離散拡散モデルよりもはるかに少ないステップを必要とすることを発見した。 最後に、損失のない圧縮にARDMを適用し、このタスクに特に適していることを示す。 ビットバックコーディングに基づく既存のアプローチとは対照的に、ARDMは完全なデータセットだけでなく、単一のデータポイントの圧縮にも有効な結果が得られる。 さらに、モデルの適応可能な並列生成のため、(de)圧縮のためのネットワーク呼び出しを控えめに行うこともできる。

We introduce Autoregressive Diffusion Models (ARDMs), a model class encompassing and generalizing order-agnostic autoregressive models (Uria et al., 2014) and absorbing discrete diffusion (Austin et al., 2021), which we show are special cases of ARDMs under mild assumptions. ARDMs are simple to implement and easy to train. Unlike standard ARMs, they do not require causal masking of model representations, and can be trained using an efficient objective similar to modern probabilistic diffusion models that scales favourably to highly-dimensional data. At test time, ARDMs support parallel generation which can be adapted to fit any given generation budget. We find that ARDMs require significantly fewer steps than discrete diffusion models to attain the same performance. Finally, we apply ARDMs to lossless compression, and show that they are uniquely suited to this task. Contrary to existing approaches based on bits-back coding, ARDMs obtain compelling results not only on complete datasets, but also on compressing single data points. Moreover, this can be done using a modest number of network calls for (de)compression due to the model's adaptable parallel generation.
翻訳日:2021-10-06 14:21:50 公開日:2021-10-05
# NeurWIN:レストレスバンドのためのニューラルネットワークWhittle Index Network

NeurWIN: Neural Whittle Index Network For Restless Bandits Via Deep RL ( http://arxiv.org/abs/2110.02128v1 )

ライセンス: Link先を確認
Khaled Nakhleh, Santosh Ganji, Ping-Chun Hsieh, I-Hong Hou, Srinivas Shakkottai(参考訳) ホイットル・インデックス・ポリシーは、restless banditsの悪名高い難解な問題に対して漸近的に最適な解を得るための強力なツールである。 しかし、ウィトル指数の発見は、複雑な遷移カーネルを持つ多くの実用的なレストレスバンドイットにとって難しい問題である。 本稿では,神経ウィットル指数ネットワークであるneurwinを提案する。ウィットル指数の数学的性質を利用して,任意のレストレスバンディットのウィットルインデックスを学習することを目指す。 また、Whittleインデックスを生成するニューラルネットワークは、マルコフ決定問題の集合に対する最適制御を生成するニューラルネットワークでもあることを示す。 この性質は、NeurWINのトレーニングに深い強化学習を使用する動機となっている。 我々は最近研究された3つのレスレス・バンディット問題に対するNeurWINの有効性を実証した。 実験の結果,NeurWINの性能は他のRLアルゴリズムよりも優れていた。

Whittle index policy is a powerful tool to obtain asymptotically optimal solutions for the notoriously intractable problem of restless bandits. However, finding the Whittle indices remains a difficult problem for many practical restless bandits with convoluted transition kernels. This paper proposes NeurWIN, a neural Whittle index network that seeks to learn the Whittle indices for any restless bandits by leveraging mathematical properties of the Whittle indices. We show that a neural network that produces the Whittle index is also one that produces the optimal control for a set of Markov decision problems. This property motivates using deep reinforcement learning for the training of NeurWIN. We demonstrate the utility of NeurWIN by evaluating its performance for three recently studied restless bandit problems. Our experiment results show that the performance of NeurWIN is significantly better than other RL algorithms.
翻訳日:2021-10-06 14:21:29 公開日:2021-10-05
# 連続環境における指導誘導ナビゲーションのためのウェイポイントモデル

Waypoint Models for Instruction-guided Navigation in Continuous Environments ( http://arxiv.org/abs/2110.02207v1 )

ライセンス: Link先を確認
Jacob Krantz, Aaron Gokaslan, Dhruv Batra, Stefan Lee, Oleksandr Maksymets(参考訳) 言語誘導視覚ナビゲーションにおける行動空間の役割については、ナビゲーションの成功に対する効果や、ロボットエージェントが結果の軌道を実行できる効率の観点から、ほとんど調査されていない。 連続環境における命令追従のためのvln-ce設定に基づいて,言語条件付きウェイポイント予測ネットワークを開発した。 低レベルなアクションと連続的なウェイポイント予測のスペクトルを調べるために、これらのモデルの表現性は異なります。 プロファイラ型ロボットlocobotのタスク性能と推定実行時間を測定した。 より表現力のあるモデルは、よりシンプルで、より高速に軌道を実行できますが、より低いレベルのアクションは、最短経路を近似することで、より良いナビゲーションメトリクスを達成できます。 さらに、当社のモデルは、VLN-CEにおける以前の作業よりも優れており、公開リーダボードに新たな最先端の技術を新たに設定しています。

Little inquiry has explicitly addressed the role of action spaces in language-guided visual navigation -- either in terms of its effect on navigation success or the efficiency with which a robotic agent could execute the resulting trajectory. Building on the recently released VLN-CE setting for instruction following in continuous environments, we develop a class of language-conditioned waypoint prediction networks to examine this question. We vary the expressivity of these models to explore a spectrum between low-level actions and continuous waypoint prediction. We measure task performance and estimated execution time on a profiled LoCoBot robot. We find more expressive models result in simpler, faster to execute trajectories, but lower-level actions can achieve better navigation metrics by approximating shortest paths better. Further, our models outperform prior work in VLN-CE and set a new state-of-the-art on the public leaderboard -- increasing success rate by 4% with our best model on this challenging task.
翻訳日:2021-10-06 14:21:12 公開日:2021-10-05
# Confusion-based Logit Compression を用いたボトムアップ階層分類

Bottom-up Hierarchical Classification Using Confusion-based Logit Compression ( http://arxiv.org/abs/2110.01756v1 )

ライセンス: Link先を確認
Tong Liang and Jim Davis and Roman Ilin(参考訳) 本研究では,ボトムアップ階層推論フレームワークにおける検証例が少ない場合に,ベースフラット分類器のラベル後段を効率的に計算する手法を提案する。 ベース分類器の訓練に使用しないスタンドアローン検証セットは、ベース分類器の過度な適合を避けるために後方推定に好まれるが、小さな検証セットは有効に使用できる機能の数を制限する。 本稿では,階層分類の文脈におけるラベル後方推定タスクに対する一般化ロジットとラベル混乱に基づく,単純かつ堅牢なロジットベクトル圧縮手法を提案する。 また,他の圧縮手法との比較実験を複数種類の検証セットで実施し,関連する階層分類手法との比較を行った。 提案手法は, 高い階層的分類性能を維持しつつ, 信頼性の高い後続推定に十分な検証例を持たないという問題を緩和する。

In this work, we propose a method to efficiently compute label posteriors of a base flat classifier in the presence of few validation examples within a bottom-up hierarchical inference framework. A stand-alone validation set (not used to train the base classifier) is preferred for posterior estimation to avoid overfitting the base classifier, however a small validation set limits the number of features one can effectively use. We propose a simple, yet robust, logit vector compression approach based on generalized logits and label confusions for the task of label posterior estimation within the context of hierarchical classification. Extensive comparative experiments with other compression techniques are provided across multiple sized validation sets, and a comparison with related hierarchical classification approaches is also conducted. The proposed approach mitigates the problem of not having enough validation examples for reliable posterior estimation while maintaining strong hierarchical classification performance.
翻訳日:2021-10-06 14:20:55 公開日:2021-10-05
# 深部ニューラルネットワークにおけるロバスト性向上のための分布ミスマッチ補正

Distribution Mismatch Correction for Improved Robustness in Deep Neural Networks ( http://arxiv.org/abs/2110.01955v1 )

ライセンス: Link先を確認
Alexander Fuchs, Christian Knoll, Franz Pernkopf(参考訳) ディープニューラルネットワークは、パフォーマンスと学習行動を改善するために正規化手法に大きく依存している。 正規化手法はますます深く効率的なアーキテクチャの開発を促したが、ノイズや入力の破損に関しても脆弱性を増大させた。 しかし、ほとんどのアプリケーションではノイズはユビキタスで多様であり、トレーニング中の入力分布とテスト時間の間のミスマッチに対処できないため、機械学習システムの完全な失敗につながることが多い。 最も一般的な正規化手法であるバッチ正規化は、トレーニング中の分布シフトを低減するが、テスト時の入力分布の変化には依存しない。 これにより、テスト期間中にノイズが発生すると、バッチの正規化がパフォーマンスの劣化を引き起こす。 サンプルベース正規化法は、活性化分布の線形変換を補正できるが、分布形状の変化を軽減できないため、正規化パラメータに反映できない分布変化に対してネットワークが脆弱になる。 各層の活性化分布を適応させる非教師なし非パラメトリック分布補正法を提案する。 これにより、1次元のwasserstein距離を最小化することで、トレーニングとテスト時間分布のミスマッチを低減することができる。 実験の結果,提案手法は画像劣化の影響を効果的に低減し,モデルの再トレーニングや微調整を必要とせず,分類性能を向上させることが実証された。

Deep neural networks rely heavily on normalization methods to improve their performance and learning behavior. Although normalization methods spurred the development of increasingly deep and efficient architectures, they also increase the vulnerability with respect to noise and input corruptions. In most applications, however, noise is ubiquitous and diverse; this can often lead to complete failure of machine learning systems as they fail to cope with mismatches between the input distribution during training- and test-time. The most common normalization method, batch normalization, reduces the distribution shift during training but is agnostic to changes in the input distribution during test time. This makes batch normalization prone to performance degradation whenever noise is present during test-time. Sample-based normalization methods can correct linear transformations of the activation distribution but cannot mitigate changes in the distribution shape; this makes the network vulnerable to distribution changes that cannot be reflected in the normalization parameters. We propose an unsupervised non-parametric distribution correction method that adapts the activation distribution of each layer. This reduces the mismatch between the training and test-time distribution by minimizing the 1-D Wasserstein distance. In our experiments, we empirically show that the proposed method effectively reduces the impact of intense image corruptions and thus improves the classification performance without the need for retraining or fine-tuning the model.
翻訳日:2021-10-06 14:20:41 公開日:2021-10-05
# 畳み込みニューラルネットワークを用いた視覚認識における認識ギャップの同定手法

A Methodology to Identify Cognition Gaps in Visual Recognition Applications Based on Convolutional Neural Networks ( http://arxiv.org/abs/2110.02080v1 )

ライセンス: Link先を確認
Hannes Vietz, Tristan Rauch, Andreas L\"ocklin, Nasser Jazdi and Michael Weyrich(参考訳) 畳み込みニューラルネットワーク(例えば、自律運転)に基づく視覚認識アプリケーションを一貫して開発することは、非常に困難である。 発達中の障害の1つは、認知行動の不透明さである。 訓練されたCNNの非合理な行動が認識のギャップを示すという、かなりの量の文献が出版されている。 本稿では,画像拡張技術を用いて最悪の画像を生成する手法を提案する。 このような画像上でのCNNの認知能力が弱く、増強技術が無害であるとされる場合、認識の潜在的なギャップが発見されている。 提示された最悪の画像生成装置は、最も困難な画像を効率よく識別するために、逆探索手法を用いている。 これは、典型的な運転シナリオを描いた画像を用いて、よく知られたAlexNet CNNで評価される。

Developing consistently well performing visual recognition applications based on convolutional neural networks, e.g. for autonomous driving, is very challenging. One of the obstacles during the development is the opaqueness of their cognitive behaviour. A considerable amount of literature has been published which describes irrational behaviour of trained CNNs showcasing gaps in their cognition. In this paper, a methodology is presented that creates worstcase images using image augmentation techniques. If the CNN's cognitive performance on such images is weak while the augmentation techniques are supposedly harmless, a potential gap in the cognition has been found. The presented worst-case image generator is using adversarial search approaches to efficiently identify the most challenging image. This is evaluated with the well-known AlexNet CNN using images depicting a typical driving scenario.
翻訳日:2021-10-06 14:20:21 公開日:2021-10-05
# $\textit{FacialFilmroll}$: 高解像度マルチショットビデオ編集

$\textit{FacialFilmroll}$: High-resolution multi-shot video editing ( http://arxiv.org/abs/2110.02124v1 )

ライセンス: Link先を確認
Bharath Bhushan Damodaran, Emmanuel Jolly, Gilles Puy, Philippe Henri Gosselin, C\'edric Th\'ebault, Junghyun Ahn, Tim Christensen, Paul Ghezzo, Pierre Hellier(参考訳) 1枚または複数のショットで顔の空間的かつ時間的に一貫した編集を行うソリューションである$\textit{FacialFilmroll}$を提示する。 我々は、顔に特化してunwrap mosaic[rav-acha et al. 2008]を構築する。 我々は最近の技術を活用して、モノクロビデオに3次元顔モデルを適用する。 (i)版モザイクの品質向上及び (ii)同一俳優の1ショットから他のショットへの編集の自動転送を許可する。 $\textit{FacialFilmroll}$がポストプロダクション機能に統合される方法について説明する。 最後に、高解像度ビデオに$\textit{FacialFilmroll}$を使ってビデオ編集結果を示す。

We present $\textit{FacialFilmroll}$, a solution for spatially and temporally consistent editing of faces in one or multiple shots. We build upon unwrap mosaic [Rav-Acha et al. 2008] by specializing it to faces. We leverage recent techniques to fit a 3D face model on monocular videos to (i) improve the quality of the mosaic for edition and (ii) permit the automatic transfer of edits from one shot to other shots of the same actor. We explain how $\textit{FacialFilmroll}$ is integrated in post-production facility. Finally, we present video editing results using $\textit{FacialFilmroll}$ on high resolution videos.
翻訳日:2021-10-06 14:20:09 公開日:2021-10-05
# RASA: CPU用の効率的なレジスタ対応シストリックアレイ行列エンジン

RASA: Efficient Register-Aware Systolic Array Matrix Engine for CPU ( http://arxiv.org/abs/2110.01752v1 )

ライセンス: Link先を確認
Geonhwa Jeong, Eric Qin, Ananda Samajdar, Christopher J. Hughes, Sreenivas Subramoney, Hyesoon Kim, Tushar Krishna(参考訳) AIベースのアプリケーションが普及するにつれて、CPUベンダはデータパスにマトリックスエンジンを組み込んで効率を向上し始めている。 シストリックアレイは、オフロード加速器のマトリックスエンジンとして重要なアーキテクチャ選択である。 しかし,これらをcpu内に組み込むことで,レジスタストレージが制限され,メモリ不足やストールが発生し,配列の充填時間やドレイン時間が短縮されることを実証する。 そこで我々はRASA, Register-Aware Systolic Arrayを提案する。 我々は,実行段階を複数のサブステージに分割し,命令を重複させてオーバーヘッドを隠蔽し,同時に実行する手法を開発した。 RASAベースの設計は、無視できる面積と電力オーバーヘッドで性能を大幅に改善した。

As AI-based applications become pervasive, CPU vendors are starting to incorporate matrix engines within the datapath to boost efficiency. Systolic arrays have been the premier architectural choice as matrix engines in offload accelerators. However, we demonstrate that incorporating them inside CPUs can introduce under-utilization and stalls due to limited register storage to amortize the fill and drain times of the array. To address this, we propose RASA, Register-Aware Systolic Array. We develop techniques to divide an execution stage into several sub-stages and overlap instructions to hide overheads and run them concurrently. RASA-based designs improve performance significantly with negligible area and power overhead.
翻訳日:2021-10-06 14:19:45 公開日:2021-10-05
# Deep Kernel Shapingを用いたスキップ接続や正規化レイヤのないディープニューラルネットワークの高速トレーニング

Rapid training of deep neural networks without skip connections or normalization layers using Deep Kernel Shaping ( http://arxiv.org/abs/2110.01765v1 )

ライセンス: Link先を確認
James Martens, Andy Ballard, Guillaume Desjardins, Grzegorz Swirszcz, Valentin Dalibard, Jascha Sohl-Dickstein, Samuel S. Schoenholz(参考訳) poole et al.(2016)のq/cマップ解析の拡張版とニューラルネットワークの接点カーネル理論を用いて、深層ネットワークに存在する主要な病理を同定し、それらを高速に訓練し、未発見のデータに一般化することを防ぎ、ネットワークの初期化時間カーネル関数の「形」を慎重に制御することにより、これらを回避する方法を示す。 次に,Deep Kernel Shaping (DKS) と呼ばれる手法を開発し,パラメータの初期化,アクティベーション関数変換,およびモデルクラスを保存した小さなアーキテクチャ変更を組み合わせた手法を提案する。 実験の結果,DKSは標準ResNetV2およびワイドResNetモデルに匹敵する速度で,ImagenetおよびCIFAR-10分類タスク上で正規化レイヤを使わずに,残余ネットワークのSGDトレーニングを可能にした。 また、K-FACをオプティマイザとして使用すると、接続をスキップせずに同様の結果が得られる。 本研究は,ロジスティックシグモイドなど,伝統的に非常に悪い機能を示す機能を含む,多種多様なアクティベーション関数に適用した。 DKSに加えて、スキップ接続、正規化層、RELUやSELUのような特別なアクティベーション関数、および様々な初期化スキームの詳細な解析に寄与し、ネットワークの初期化時間カーネルを「形作る」代替(そして最終的に不完全な)方法としての有効性を説明する。

Using an extended and formalized version of the Q/C map analysis of Poole et al. (2016), along with Neural Tangent Kernel theory, we identify the main pathologies present in deep networks that prevent them from training fast and generalizing to unseen data, and show how these can be avoided by carefully controlling the "shape" of the network's initialization-time kernel function. We then develop a method called Deep Kernel Shaping (DKS), which accomplishes this using a combination of precise parameter initialization, activation function transformations, and small architectural tweaks, all of which preserve the model class. In our experiments we show that DKS enables SGD training of residual networks without normalization layers on Imagenet and CIFAR-10 classification tasks at speeds comparable to standard ResNetV2 and Wide-ResNet models, with only a small decrease in generalization performance. And when using K-FAC as the optimizer, we achieve similar results for networks without skip connections. Our results apply for a large variety of activation functions, including those which traditionally perform very badly, such as the logistic sigmoid. In addition to DKS, we contribute a detailed analysis of skip connections, normalization layers, special activation functions like RELU and SELU, and various initialization schemes, explaining their effectiveness as alternative (and ultimately incomplete) ways of "shaping" the network's initialization-time kernel.
翻訳日:2021-10-06 14:19:34 公開日:2021-10-05
# 糖尿病性足部潰瘍の半教師付きマルチラベル分類のための深部サブスペース解析

Deep Subspace analysing for Semi-Supervised multi-label classification of Diabetic Foot Ulcer ( http://arxiv.org/abs/2110.01795v1 )

ライセンス: Link先を確認
Azadeh Alavi(参考訳) 糖尿病は世界的なパンデミックです。 糖尿病患者は、通常手足の切断につながる足の潰瘍を発症するリスクがある。 本研究では, 自己監視型モバイルアプリケーションを開発するために, 半教師付き糖尿病性足部潰瘍粘膜分類のための深部領域解析パイプラインを提案する。 art deep semi-supervised methodの最近の状況とは異なり、過剰フィッティングの可能性を避けるため、提案されたパイプライン線量にはデータ拡張が含まれない。 一方、深部の特徴を抽出した後、表現シフトを不変にするため、各画像に様々なデータ拡張手法を採用し、画像集合を生成し、それを線形部分空間にマッピングする。 さらに,提案するパイプラインでは,新たにラベルなしのデータが利用可能になった場合に再トレーニングするコストが削減される。 したがって、パイプラインの第1段階では、xceptionとして知られる深い畳み込みネットワークアーキテクトの修正と再トレーニングを通じて、特徴抽出のための転送学習という概念を採用している。 そして、中間層の出力を抽出し、データ拡張方法の助けを借りて、任意の画像のイメージセット表現器を生成する。 この段階では、各像はグラスマン多様体位相空間上の点である線型部分空間に移される。 したがって、それらの解析を行うには、そのような多様体の幾何学を考える必要がある。 このように、各ラベル付き画像は、グラスマン多様体上の測地線距離を用いて、非ラベル付き画像の数に対する距離のベクトルとして表現される。 最後に,糖尿病性足部潰瘍の画像のマルチラベル分類のためにランダムフォレストを訓練する。 次に、DFU2021コンペティションによって提供されるブラインドテストセットに基づいて評価を行い、データ拡張による古典的トランスファー学習と比較して大幅に改善した。

Diabetes is a global raising pandemic. Diabetes patients are at risk of developing foot ulcer that usually leads to limb amputation. In order to develop a self monitoring mobile application, in this work, we propose a novel deep subspace analysis pipeline for semi-supervised diabetic foot ulcer mulit-label classification. To avoid any chance of over-fitting, unlike recent state of the art deep semi-supervised methods, the proposed pipeline dose not include any data augmentation. Whereas, after extracting deep features, in order to make the representation shift invariant, we employ variety of data augmentation methods on each image and generate an image-sets, which is then mapped into a linear subspace. Moreover, the proposed pipeline reduces the cost of retraining when more new unlabelled data become available. Thus, the first stage of the pipeline employs the concept of transfer learning for feature extraction purpose through modifying and retraining a deep convolutional network architect known as Xception. Then, the output of a mid-layer is extracted to generate an image set representer of any given image with help of data augmentation methods. At this stage, each image is transferred to a linear subspace which is a point on a Grassmann Manifold topological space. Hence, to perform analyse them, the geometry of such manifold must be considered. As such, each labelled image is represented as a vector of distances to number of unlabelled images using geodesic distance on Grassmann manifold. Finally, Random Forest is trained for multi-label classification of diabetic foot ulcer images. The method is then evaluated on the blind test set provided by DFU2021 competition, and the result considerable improvement compared to using classical transfer learning with data augmentation.
翻訳日:2021-10-06 14:18:38 公開日:2021-10-05
# 無人航空システムのための深層学習アンサンブルを用いた多対象追跡

Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications ( http://arxiv.org/abs/2110.02044v1 )

ライセンス: Link先を確認
Wanlin Xie, Jaime Ide, Daniel Izadi, Sean Banger, Thayne Walker, Ryan Ceresani, Dylan Spagnuolo, Christopher Guagliano, Henry Diaz, Jason Twedt(参考訳) 多目的追跡(MOT)は、軍事防衛分野における状況認識の重要な構成要素である。 無人航空機システム(uass)の普及に伴い、航空監視のためのmot手法が需要が高まっている。 uasにおけるmotの適用は、移動センサー、ズームレベルの変更、ダイナミック背景、照明変化、ぼけ、小さな物体など、特定の課題を示している。 本稿では,リアルタイム環境における雑音に対応するためのロバストなオブジェクトトラッキングアーキテクチャを提案する。 本稿では,遅延空間における実体軌道の予測にシーケンス・ツー・シーケンス・アーキテクチャを用いる,Deep Extended Kalman Filter (DeepEKF) と呼ばれるキネマティックな予測モデルを提案する。 deepekfは学習した画像埋め込みと、画像内の領域の重要性を強調して将来の状態を予測できるように訓練された注意機構を利用する。 視覚的スコアリングのために,siameseネットワークを用いて事前学習した畳み込みニューラルネットワーク(cnn)エンコーダを含む,エンティティの出現に基づいて距離を計算するための類似度尺度を実験した。 初期評価実験では,MHTフレームワーク内での運動モデルと視覚モデルのスコアリング構造を組み合わせた手法により,実体運動が予測不可能なエッジケースや,大きなギャップを持つフレームを提示する場合に,特に性能が向上したことを示す。

Multi-object tracking (MOT) is a crucial component of situational awareness in military defense applications. With the growing use of unmanned aerial systems (UASs), MOT methods for aerial surveillance is in high demand. Application of MOT in UAS presents specific challenges such as moving sensor, changing zoom levels, dynamic background, illumination changes, obscurations and small objects. In this work, we present a robust object tracking architecture aimed to accommodate for the noise in real-time situations. We propose a kinematic prediction model, called Deep Extended Kalman Filter (DeepEKF), in which a sequence-to-sequence architecture is used to predict entity trajectories in latent space. DeepEKF utilizes a learned image embedding along with an attention mechanism trained to weight the importance of areas in an image to predict future states. For the visual scoring, we experiment with different similarity measures to calculate distance based on entity appearances, including a convolutional neural network (CNN) encoder, pre-trained using Siamese networks. In initial evaluation experiments, we show that our method, combining scoring structure of the kinematic and visual models within a MHT framework, has improved performance especially in edge cases where entity motion is unpredictable, or the data presents frames with significant gaps.
翻訳日:2021-10-06 14:18:11 公開日:2021-10-05
# コピー検出パターンに対する機械学習攻撃: 1x1パターンはクローン可能か?

Machine learning attack on copy detection patterns: are 1x1 patterns cloneable? ( http://arxiv.org/abs/2110.02176v1 )

ライセンス: Link先を確認
Roman Chaban, Olga Taran, Joakim Tutt, Taras Holotyak, Slavi Bonev and Slava Voloshynovskiy(参考訳) 現在、現代経済は、大衆市場における製品偽造に対する信頼性が高く安価な保護ソリューションを必要としている。 コピー検出パターン(cdp)は、いくつかのアプリケーションにおいてそのようなソリューションと考えられている。 最小のシンボルサイズ1x1要素を有する工業用プリンタの印刷解像度の最大到達限界で印刷されるため、cdpを十分な精度でコピーすることは不可能であり、不可能である。 本稿では,この仮説に挑戦し,機械学習に基づくCDPに対するコピー攻撃を検討する。 2つの産業用プリンタで作成されたサンプルに基づいて実験したところ、CDP認証で使用される単純な検出基準は、元のCDPと偽造品を確実に区別できないことがわかった。 そこで本研究では,CDPのクローン性を慎重に再検討し,新たな認証手法とCDP最適化を提案する。

Nowadays, the modern economy critically requires reliable yet cheap protection solutions against product counterfeiting for the mass market. Copy detection patterns (CDP) are considered as such solution in several applications. It is assumed that being printed at the maximum achievable limit of a printing resolution of an industrial printer with the smallest symbol size 1x1 elements, the CDP cannot be copied with sufficient accuracy and thus are unclonable. In this paper, we challenge this hypothesis and consider a copy attack against the CDP based on machine learning. The experimental based on samples produced on two industrial printers demonstrate that simple detection metrics used in the CDP authentication cannot reliably distinguish the original CDP from their fakes. Thus, the paper calls for a need of careful reconsideration of CDP cloneability and search for new authentication techniques and CDP optimization because of the current attack.
翻訳日:2021-10-06 14:17:48 公開日:2021-10-05
# 肺超音波セグメンテーションのための移動学習U-Net深層学習

Transfer Learning U-Net Deep Learning for Lung Ultrasound Segmentation ( http://arxiv.org/abs/2110.02196v1 )

ライセンス: Link先を確認
Dorothy Cheng, Edmund Y. Lam(参考訳) 医用画像セグメンテーションのための伝達学習(TL)は、深層学習モデルが医療画像が少ない場合により正確なパフォーマンスを達成するのに役立つ。 本研究は,肺超音波画像からのリブのセグメンテーションの完了と,高精度・高速画像セグメンテーションのための畳み込みニューラルネットワークu-netを用いた最善のtl手法の探索に焦点を当てた。 TLの2つのアプローチは、訓練済みのVGG16モデルを用いてU-Net(V-Unet)を構築し、グレースケールの自然真性オブジェクトデータセット(X-Unet)で事前学習するU-Netネットワークを構築した。 モデルの視覚的結果とダイス係数(DICE)を比較した。 X-Unetは、V-UnetよりもDICEが低いにもかかわらず、実際のマスク予測よりも正確でアーチファクトのない視覚性能を示した。 また、X-Unetでは、各層がネットワークの凍結部分よりわずかに優れるFT戦略を比較するために、部分凍結型ネットワークファインチューニング(FT)技術が適用された。 データセットサイズの影響も評価され,TLとデータ拡張の組合せの重要性が示された。

Transfer learning (TL) for medical image segmentation helps deep learning models achieve more accurate performances when there are scarce medical images. This study focuses on completing segmentation of the ribs from lung ultrasound images and finding the best TL technique with U-Net, a convolutional neural network for precise and fast image segmentation. Two approaches of TL were used, using a pre-trained VGG16 model to build the U-Net (V-Unet) and pre-training U-Net network with grayscale natural salient object dataset (X-Unet). Visual results and dice coefficients (DICE) of the models were compared. X-Unet showed more accurate and artifact-free visual performances on the actual mask prediction, despite its lower DICE than V-Unet. A partial-frozen network fine-tuning (FT) technique was also applied to X-Unet to compare results between different FT strategies, which FT all layers slightly outperformed freezing part of the network. The effect of dataset sizes was also evaluated, showing the importance of the combination between TL and data augmentation.
翻訳日:2021-10-06 14:17:34 公開日:2021-10-05
# 熱グリッドワールドにおけるqラーニングによる初歩時間最小化に関する研究

A study of first-passage time minimization via Q-learning in heated gridworlds ( http://arxiv.org/abs/2110.02129v1 )

ライセンス: Link先を確認
M.A. Larchenko, P. Osinenko, G. Yaremenko, V.V. Palyulin(参考訳) ナノボットのナビゲーションから市場取引まで、アプリケーションではファーストパスタイムの最適化が求められる。 このような環境では、環境全体に均等に分布するノイズレベルに遭遇することが多い。 本研究では, 学習エージェントが, 温度分布が不均一な1次元および2次元のグリッドワールドにおいて, どのように振舞うかを広く研究する。 その結果,単純な表型q-learning,sarsa,期待sarsa,ダブルq-learningを用いて訓練したエージェントのバイアス効果が示された。 高い学習速度は、高温領域の探索を妨げるが、そのような領域におけるエージェントの存在を十分に増大させる。 時間差に基づく強化学習法の特徴とバイアスは,実世界の物理応用やエージェント設計において考慮すべきである。

Optimization of first-passage times is required in applications ranging from nanobots navigation to market trading. In such settings, one often encounters unevenly distributed noise levels across the environment. We extensively study how a learning agent fares in 1- and 2- dimensional heated gridworlds with an uneven temperature distribution. The results show certain bias effects in agents trained via simple tabular Q-learning, SARSA, Expected SARSA and Double Q-learning. While high learning rate prevents exploration of regions with higher temperature, low enough rate increases the presence of agents in such regions. The discovered peculiarities and biases of temporal-difference- based reinforcement learning methods should be taken into account in real-world physical applications and agent design.
翻訳日:2021-10-06 14:17:12 公開日:2021-10-05
# MoEfication:効率的な推論のための変圧器モデルの条件計算

MoEfication: Conditional Computation of Transformer Models for Efficient Inference ( http://arxiv.org/abs/2110.01786v1 )

ライセンス: Link先を確認
Zhengyan Zhang, Yankai Lin, Zhiyuan Liu, Peng Li, Maosong Sun, Jie Zhou(参考訳) トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。 幸いなことに、実験によって、ほとんどの入力は推論中に小さな神経細胞の割合しか活性化しないことがわかった。 そこで本研究では,スパースアクティベーション現象に基づく条件計算により,大規模モデル推論の高速化を図る。 そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。 Model MoEficationは、(1)フィードフォワードニューラルネットワーク(FFN)のパラメータを専門家として複数の部分に分割し、(2)エキスパートルータを構築して、各入力にどの専門家が使用されるかを決定する。 MoEfiedモデルの性能をさらに向上するために、下流タスク、すなわちパラメータキャリブレーションでモデルを微調整することもできる。 実験結果から,MoEfiedモデルは,テキスト分類や読解理解などの下流タスクの性能低下を伴わずに,700万パラメータモデルの20%FFNパラメータを活性化するなど,計算コストを大幅に削減できることがわかった。

Transformer-based pre-trained language models can achieve superior performance on most NLP tasks due to large parameter capacity, but also lead to huge computation cost. Fortunately, we find by empirical study that, most inputs only activate a tiny ratio of neurons during inference. Hence, we explore to accelerate large-model inference by conditional computation based on the sparse activation phenomenon. We propose to transform a large model into its mixture-of-experts (MoE) version with equal model size, namely MoEfication. Model MoEfication consists of two steps: (1) splitting the parameters of feed-forward neural networks (FFNs) into multiple parts as experts, and (2) building expert routers to decide which experts will be used for each input. To further improve the performance of MoEfied models, we can also fine-tune the models on downstream tasks, namely parameter calibration. Experimental results show that the MoEfied models can significantly reduce computation cost, e.g., only activating 20% FFN parameters of a 700-million-paramete r model without performance degradation on several downstream tasks including text classification and reading comprehension.
翻訳日:2021-10-06 14:16:24 公開日:2021-10-05
# 事前学習言語モデルがダイアログ評価に及ぼす影響の検討

Investigating the Impact of Pre-trained Language Models on Dialog Evaluation ( http://arxiv.org/abs/2110.01895v1 )

ライセンス: Link先を確認
Chen Zhang, Luis Fernando D'Haro, Yiming Chen, Thomas Friedrichs, Haizhou Li(参考訳) 近年,自動オープンドメインダイアログ評価における事前学習言語モデル(Pr-LM)の適用への関心が高まっている。 Pr-LMはマルチドメイン評価問題に対処するための有望な方向を提供する。 しかし、異なるPr-LMが自動メトリクスのパフォーマンスに与える影響はよく理解されていない。 本稿では8種類のpr-lmについて検討し、3つの異なるダイアログ評価ベンチマークにおける3つの典型的なダイアログ評価指標への影響について検討する。 具体的には,Pr-LMの選択が自動メトリクスの性能に与える影響を分析する。 各指標の総合的相関分析を行い、事前学習目標、対話評価基準、モデルサイズ、データセット間の堅牢性など、様々な軸に沿って異なるPr-LMの効果を評価する。 本研究は,異なるPr-LMが自動ダイアログ評価に与える影響を総合的に評価する最初の試みである。

Recently, there is a surge of interest in applying pre-trained language models (Pr-LM) in automatic open-domain dialog evaluation. Pr-LMs offer a promising direction for addressing the multi-domain evaluation challenge. Yet, the impact of different Pr-LMs on the performance of automatic metrics is not well-understood. This paper examines 8 different Pr-LMs and studies their impact on three typical automatic dialog evaluation metrics across three different dialog evaluation benchmarks. Specifically, we analyze how the choice of Pr-LMs affects the performance of automatic metrics. Extensive correlation analyses on each of the metrics are performed to assess the effects of different Pr-LMs along various axes, including pre-training objectives, dialog evaluation criteria, model size, and cross-dataset robustness. This study serves as the first comprehensive assessment of the effects of different Pr-LMs on automatic dialog evaluation.
翻訳日:2021-10-06 14:16:01 公開日:2021-10-05
# 終端オピニオンロールラベリングのためのニューラルトランジションシステム

Neural Transition System for End-to-End Opinion Role Labeling ( http://arxiv.org/abs/2110.02001v1 )

ライセンス: Link先を確認
Shengqiong Wu and Donghong Ji(参考訳) Unified opinion role labeling (ORL) は、テキストから1ショットで‘opinion-holder-targe t’の可能なすべての意見構造を検出することを目的としている。 既存のトランジッションベースの統一メソッドは、残念ながら、長い意見条件の対象となるため、重複問題という用語は解決できない。 現在のトップパフォーマンスは、スパンベースのグラフモデルを使用することで達成されているが、それでも高いモデルの複雑さと意見や役割間の相互作用が不十分である。 本研究では、遷移アーキテクチャを再検討し、ポインタネットワーク(PointNet)で拡張することで、新しいソリューションについて検討する。 このフレームワークは線形時間複雑性ですべての意見構造を解析し、一方pointnetの項長の制限を突破する。 明示的なオピニオン・ロール相互作用を実現するために,我々はさらに,構文依存構造と部分的オピニオン・ロール構造を共モデリングした統一依存-オピニオングラフ(udog)を提案する。 次に、関係中心グラフアグリゲータ(RCGA)を考案し、重回帰 UDOG を符号化し、その結果の高次表現を用いてバニラ遷移系の予測を促進する。 我々のモデルはMPQAベンチマークで新しい最先端結果を達成する。 分析により,提案手法の有効性と効率性に優れることが示された。

Unified opinion role labeling (ORL) aims to detect all possible opinion structures of `opinion-holder-targe t' in one shot, given a text. The existing transition-based unified method, unfortunately, is subject to longer opinion terms and fails to solve the term overlap issue. Current top performance has been achieved by employing the span-based graph model, which however still suffers from both high model complexity and insufficient interaction among opinions and roles. In this work, we investigate a novel solution by revisiting the transition architecture, and augment it with a pointer network (PointNet). The framework parses out all opinion structures in linear-time complexity, meanwhile breaks through the limitation of any length of terms with PointNet. To achieve the explicit opinion-role interactions, we further propose a unified dependency-opinion graph (UDOG), co-modeling the syntactic dependency structure and the partial opinion-role structure. We then devise a relation-centered graph aggregator (RCGA) to encode the multi-relational UDOG, where the resulting high-order representations are used to promote the predictions in the vanilla transition system. Our model achieves new state-of-the-art results on the MPQA benchmark. Analyses further demonstrate the superiority of our methods on both efficacy and efficiency.
翻訳日:2021-10-06 14:15:49 公開日:2021-10-05
# セマンティック・センテンス・エンベディングのための巨大な類似のペアのソースとしてTwitterを爆発させる

Exploiting Twitter as Source of Large Corpora of Weakly Similar Pairs for Semantic Sentence Embeddings ( http://arxiv.org/abs/2110.02030v1 )

ライセンス: Link先を確認
Marco Di Giovanni and Marco Brambilla(参考訳) 意味的文埋め込みは通常、アノテーションによって意味的に類似したラベルが付けられた文の組間の距離を最小化するために教師によって構築される。 ビッグラベル付きデータセットは、特に非英語言語では珍しく、高価であるため、近年の研究は、ペアなしの入力文を必要とする教師なしのアプローチに焦点を当てている。 代わりに、言語に依存しないアプローチを提案し、手動の人的努力なしに、大量の非公式テキストのデータセットを構築することで、Twitterの本質的な強力な関連性信号であるツイートの返信と引用を利用する。 収集したペアを使って三重項構造を持つTransformerモデルをトレーニングし、Twitter NLP類似タスク(PITとTURL)とSTSb上で生成された埋め込みをテストする。 また,ツイートの最初の集合から注意深く抽出した非公式テキストの文ランク評価ベンチマークを4つ導入し,古典的意味的文の類似性を学習するだけでなく,文対が正確なパラフレーズではないタスクにも優れていることを示した。 アブレーション研究は、コーパスサイズの増加が2mのサンプルでも結果にどのように影響するかを明らかにし、さらに大きなツイートのコレクションには意味的類似性に関する冗長な情報が含まれていないことを示唆している。

Semantic sentence embeddings are usually supervisedly built minimizing distances between pairs of embeddings of sentences labelled as semantically similar by annotators. Since big labelled datasets are rare, in particular for non-English languages, and expensive, recent studies focus on unsupervised approaches that require not-paired input sentences. We instead propose a language-independent approach to build large datasets of pairs of informal texts weakly similar, without manual human effort, exploiting Twitter's intrinsic powerful signals of relatedness: replies and quotes of tweets. We use the collected pairs to train a Transformer model with triplet-like structures, and we test the generated embeddings on Twitter NLP similarity tasks (PIT and TURL) and STSb. We also introduce four new sentence ranking evaluation benchmarks of informal texts, carefully extracted from the initial collections of tweets, proving not only that our best model learns classical Semantic Textual Similarity, but also excels on tasks where pairs of sentences are not exact paraphrases. Ablation studies reveal how increasing the corpus size influences positively the results, even at 2M samples, suggesting that bigger collections of Tweets still do not contain redundant information about semantic similarities.
翻訳日:2021-10-06 14:15:14 公開日:2021-10-05
# 文脈付き単語埋め込みをプロキシとして用いた感覚特異な静的埋め込みの学習

Learning Sense-Specific Static Embeddings using Contextualised Word Embeddings as a Proxy ( http://arxiv.org/abs/2110.02204v1 )

ライセンス: Link先を確認
Yi Zhou and Danushka Bollegala(参考訳) bertのようなニューラルネットワークモデル(nlms)から生成された文脈化された単語埋め込みは、対象語の意味とその文脈を考慮したベクターを持つ単語を表す。 一方、GloVeのような静的な単語埋め込みは、比較的低次元、メモリ、計算効率のベクトルによる単語を表現するが、単語の異なる感覚に敏感ではない。 本研究では,文脈依存型埋め込みから感覚関連情報を抽出し,それを静的な埋め込みに注入し,感覚特異的な静的な埋め込みを生成する手法である,知覚のコンテキスト派生型埋め込み(CDES)を提案する。 単語感覚の曖昧さと知覚の識別タスクのための複数のベンチマークによる実験結果から,CDESは現在の最先端感の埋め込みに匹敵する性能を示す感覚特異的な静的埋め込みを正確に学習できることが示された。

Contextualised word embeddings generated from Neural Language Models (NLMs), such as BERT, represent a word with a vector that considers the semantics of the target word as well its context. On the other hand, static word embeddings such as GloVe represent words by relatively low-dimensional, memory- and compute-efficient vectors but are not sensitive to the different senses of the word. We propose Context Derived Embeddings of Senses (CDES), a method that extracts sense related information from contextualised embeddings and injects it into static embeddings to create sense-specific static embeddings. Experimental results on multiple benchmarks for word sense disambiguation and sense discrimination tasks show that CDES can accurately learn sense-specific static embeddings reporting comparable performance to the current state-of-the-art sense embeddings.
翻訳日:2021-10-06 14:14:50 公開日:2021-10-05
# データとモデリングへの豊富なアプローチ

An Ample Approach to Data and Modeling ( http://arxiv.org/abs/2110.01776v1 )

ライセンス: Link先を確認
Luciano da F. Costa(参考訳) 本稿では,様々な分野の概念やメソッドを統合したモデルの構築をモデル化するためのフレームワークについて述べる。 実世界と個々の情報処理エージェントによって収集・検討できる情報構造を特徴付け議論し、モデリング手法を開発しながら適用された一連の要件を提示する。 その後、データセットからモデルへのマッピングの問題に対処し、それぞれが困難と制限を暗示している。 これらの考察に基づき、モデルの構築方法に関するメタモデリングのアプローチが徐々に開発される。 まず、参照M^*メタモデルフレームワークを提示し、厳密な同値関係の観点からデータセットと各モデルの関連付けに批判的に依存する。 このモデルの興味深い特徴の1つは、データとモデリングのギャップを橋渡しする能力と、モデルを階層的な方法で結合するために使用できるデータとモデルの両方の代数への道を開く能力である。 正規格子から派生したパターンの観点からm*モデルを例示した後、報告されたモデリングアプローチでは、サンプリング問題やエラー、見落とされるデータの扱い方について議論し、$m^{<\epsilon>}$変種に繋がる。 次に、各確率密度の観点からデータを表現する必要がある状況が処理され、M^{<\sigma>}$メタモデルが得られ、実世界のデータセット(虹花データ)にそれぞれ説明される。 開発フレームワークがデータクラスタリング、複雑性、共同研究、ディープラーニング、クリエイティビティに関する洞察をどのように提供するかについて、いくつかの考察がなされている。

In the present work, we describe a framework for modeling how models can be built that integrates concepts and methods from a wide range of fields. The information schism between the real-world and that which can be gathered and considered by any individual information processing agent is characterized and discussed, which is followed by the presentation of a series of the adopted requisites while developing the modeling approach. The issue of mapping from datasets into models is subsequently addressed, as well as some of the respectively implied difficulties and limitations. Based on these considerations, an approach to meta modeling how models are built is then progressively developed. First, the reference M^* meta model framework is presented, which relies critically in associating whole datasets and respective models in terms of a strict equivalence relation. Among the interesting features of this model are its ability to bridge the gap between data and modeling, as well as paving the way to an algebra of both data and models which can be employed to combine models into hierarchical manner. After illustrating the M* model in terms of patterns derived from regular lattices, the reported modeling approach continues by discussing how sampling issues, error and overlooked data can be addressed, leading to the $M^{<\epsilon>}$ variant. The situation in which the data needs to be represented in terms of respective probability densities is treated next, yielding the $M^{<\sigma>}$ meta model, which is then illustrated respectively to a real-world dataset (iris flowers data). Several considerations about how the developed framework can provide insights about data clustering, complexity, collaborative research, deep learning, and creativity are then presented, followed by overall conclusions.
翻訳日:2021-10-06 14:14:34 公開日:2021-10-05
# 人工知能:論理学者、創始者、そして普遍主義者による人工知能へのアプローチ

The Artificial Scientist: Logicist, Emergentist, and Universalist Approaches to Artificial General Intelligence ( http://arxiv.org/abs/2110.01831v1 )

ライセンス: Link先を確認
Michael Timothy Bennett, Yoshihiro Maruyama(参考訳) 我々は、人工科学者の構築に必要なものを定義し、これを促進する人工知能(AGI)へのいくつかのアプローチを探求し、評価し、統一的あるいはハイブリッドなアプローチが必要であると結論付け、この要件をある程度満たす2つの理論を探求する。

We attempt to define what is necessary to construct an Artificial Scientist, explore and evaluate several approaches to artificial general intelligence (AGI) which may facilitate this, conclude that a unified or hybrid approach is necessary and explore two theories that satisfy this requirement to some degree.
翻訳日:2021-10-06 14:14:03 公開日:2021-10-05
# 圧縮, フェルミパラドックスと人工超知能

Compression, The Fermi Paradox and Artificial Super-Intelligence ( http://arxiv.org/abs/2110.01835v1 )

ライセンス: Link先を確認
Michael Timothy Bennett(参考訳) 以下は、The Fermi Paradoxの説明と、シンボルの出現と人工知能に関する先行研究に基づいて、AGI(Artificial General Intelligence)との通信と制御の難しさを簡潔に論じたものである。 後者は、ある人の意味を推測するために、エージェントが他者の観察された行動の理論的根拠を構築することを示唆する。 コミュニケーションには2人のエージェントが同様の強制下で労働し、同様の経験を持つ(同様のタスクに類似した解決策を構築する)。 あらゆる非人間知性は、その行動(つまりその信号の意味)の理論的根拠が、人間が気付き、理解しようとするものの範囲外にあるような解を構築することができる。 さらに、信号がより圧縮されると、その信号がランダムなノイズに近くなる。 別の知性は、我々にとって、その信号がノイズと区別できないような程度に情報を圧縮する能力を持っているかもしれない(The Fermi Paradoxの説明)。 予測精度を高めるために、AGIは世界のより圧縮された表現をしがちであり、それらの行動に対する理性は、同じ理由から理解することがより困難である。 AGIとのコミュニケーションと制御は、人間のような衝動や経験だけでなく、認知障害を課す。

The following briefly discusses possible difficulties in communication with and control of an AGI (artificial general intelligence), building upon an explanation of The Fermi Paradox and preceding work on symbol emergence and artificial general intelligence. The latter suggests that to infer what someone means, an agent constructs a rationale for the observed behaviour of others. Communication then requires two agents labour under similar compulsions and have similar experiences (construct similar solutions to similar tasks). Any non-human intelligence may construct solutions such that any rationale for their behaviour (and thus the meaning of their signals) is outside the scope of what a human is inclined to notice or comprehend. Further, the more compressed a signal, the closer it will appear to random noise. Another intelligence may possess the ability to compress information to the extent that, to us, their signals would appear indistinguishable from noise (an explanation for The Fermi Paradox). To facilitate predictive accuracy an AGI would tend to more compressed representations of the world, making any rationale for their behaviour more difficult to comprehend for the same reason. Communication with and control of an AGI may subsequently necessitate not only human-like compulsions and experiences, but imposed cognitive impairment.
翻訳日:2021-10-06 14:13:54 公開日:2021-10-05
# smproblog:problogにおける安定モデルセマンティクスとその議論への応用

SMProbLog: Stable Model Semantics in ProbLog and its Applications in Argumentation ( http://arxiv.org/abs/2110.01990v1 )

ライセンス: Link先を確認
Pietro Totis, Angelika Kimmig, Luc De Raedt(参考訳) 本稿では確率論理型プログラミング言語ProbLogの一般化であるSMProbLogを紹介する。 ProbLogプログラムは、各節に対してランダムにサンプリングされたプログラムに属する確率を指定し、論理プログラム上の分布を定義し、それらの確率は相互に独立している。 ProbLogのセマンティクスは、クエリがランダムにサンプリングされたプログラムで成功する確率に対応するクエリの成功確率によって与えられる。 それぞれのランダムサンプルが全ての論理原子の真理値を一意的に決定するときによく定義される。 しかし、議論問題は、必ずしもそうとは限らない興味深い実用的な応用である。 SMProbLogはProbLogのセマンティクスを、ランダムにサンプリングされたプログラムで複数の真理の割り当てが可能である設定に一般化し、推論と学習の両方に対応するアルゴリズムを実装している。 次に,このフレームワークを確率的議論問題の推論に利用できることを示す。 そこで本稿では,problogプログラムに対するより一般的なセマンティクス,推論とパラメータ学習のための確率的プログラミングフレームワークへの実装,およびそのようなフレームワークに基づく確率的議論問題に対する新しいアプローチについて述べる。

We introduce SMProbLog, a generalization of the probabilistic logic programming language ProbLog. A ProbLog program defines a distribution over logic programs by specifying for each clause the probability that it belongs to a randomly sampled program, and these probabilities are mutually independent. The semantics of ProbLog is given by the success probability of a query, which corresponds to the probability that the query succeeds in a randomly sampled program. It is well-defined when each random sample uniquely determines the truth values of all logical atoms. Argumentation problems, however, represent an interesting practical application where this is not always the case. SMProbLog generalizes the semantics of ProbLog to the setting where multiple truth assignments are possible for a randomly sampled program, and implements the corresponding algorithms for both inference and learning tasks. We then show how this novel framework can be used to reason about probabilistic argumentation problems. Therefore, the key contribution of this paper are: a more general semantics for ProbLog programs, its implementation into a probabilistic programming framework for both inference and parameter learning, and a novel approach to probabilistic argumentation problems based on such framework.
翻訳日:2021-10-06 14:13:32 公開日:2021-10-05
# Debiased Graph Contrastive Learning

Debiased Graph Contrastive Learning ( http://arxiv.org/abs/2110.02027v1 )

ライセンス: Link先を確認
Jun Xia, Lirong Wu, Jintao Chen, Ge Wang, Stan Z.Li(参考訳) コントラスト学習(CL)は、アンカーの強化版を互いに近く(正のサンプル)に埋め込み、他のサンプル(負のサンプル)の埋め込みを分離する教師なし表現学習の主流の手法として登場した。 最近の研究で明らかになったように、CLは強い負のサンプル(アンカーと区別が難しい負のサンプル)の恩恵を受けることができる。 しかし、グラフコントラスト学習(gcl)において、既存のハードネガティブマイニング手法を採用する場合、小さな改善やパフォーマンス低下も観察する。 アンカー点に類似した多くの強陰性試料は,コンピュータビジョンではCLと異なり,GCLでは既存の強陰性鉱業技術が不満足な性能を期待できる,偽陰性試料(アンカー点と同じクラスからのサンプル)であることがわかった。 このバイアスをなくすために、各負のサンプルが真かどうかを推定する新しい効果的な手法であるDebiased Graph Contrastive Learning (DGCL)を提案する。 この確率で、GCLの性能を高めるために、2つのスキーム(DGCL-weightとDGCL-mix)を考案する。 実証的には、DGCLはいくつかのベンチマークで以前の教師なしの最先端結果よりも優れており、教師なしの結果よりも優れている。

Contrastive learning (CL) has emerged as a dominant technique for unsupervised representation learning which embeds augmented versions of the anchor close to each other (positive samples) and pushes the embeddings of other samples (negative samples) apart. As revealed in recent works, CL can benefit from hard negative samples (negative samples that are difficult to distinguish from the anchor). However, we observe minor improvement or even performance drop when we adopt existing hard negative mining techniques in Graph Contrastive Learning (GCL). We find that many hard negative samples similar to anchor point are false negative ones (samples from the same class as anchor point) in GCL, which is different from CL in computer vision and will lead to unsatisfactory performance of existing hard negative mining techniques in GCL. To eliminate this bias, we propose Debiased Graph Contrastive Learning (DGCL), a novel and effective method to estimate the probability whether each negative sample is true or not. With this probability, we devise two schemes (i.e., DGCL-weight and DGCL-mix) to boost the performance of GCL. Empirically, DGCL outperforms or matches previous unsupervised state-of-the-art results on several benchmarks and even exceeds the performance of supervised ones.
翻訳日:2021-10-06 14:13:11 公開日:2021-10-05
# UHP-SOT: 教師なし高性能シングルオブジェクトトラッカー

UHP-SOT: An Unsupervised High-Performance Single Object Tracker ( http://arxiv.org/abs/2110.01812v1 )

ライセンス: Link先を確認
Zhiruo Zhou, Hongyu Fu, Suya You, Christoph C. Borel-Donohue and C.-C. Jay Kuo(参考訳) 本研究では, 前景と背景の相関を利用した教師なしオンラインオブジェクト追跡手法を提案し,UHP-SOT (Unsupervised High-Performance Single Object Tracker) と名付けた。 UHP-SOTは3つのモジュールから構成される。 1)外観モデル更新, 2)背景運動モデリング、及び 3)軌道ベースボックス予測。 最先端の識別相関フィルタ(DCF)ベースのトラッカーをUHP-SOTで第1モジュールとして採用する。 我々は,オブジェクトボックス適応における追跡損失の回復の失敗や柔軟性の欠如など,第1のモジュール単独使用の欠点を指摘し,これらを克服するための第2のモジュールと第3のモジュールを提案する。 どちらもシングルオブジェクト追跡(SOT)において新規である。 UHP-SOTをTB-50とTB-100の2つの一般的なオブジェクト追跡ベンチマークでテストし、従来の教師なしSOTメソッドよりも優れており、最高の教師付きディープラーニングベースのSOTメソッドに匹敵する性能を実現し、高速(CPUでは22.7-32.0 FPS)で動作することを示す。

An unsupervised online object tracking method that exploits both foreground and background correlations is proposed and named UHP-SOT (Unsupervised High-Performance Single Object Tracker) in this work. UHP-SOT consists of three modules: 1) appearance model update, 2) background motion modeling, and 3) trajectory-based box prediction. A state-of-the-art discriminative correlation filters (DCF) based tracker is adopted by UHP-SOT as the first module. We point out shortcomings of using the first module alone such as failure in recovering from tracking loss and inflexibility in object box adaptation and then propose the second and third modules to overcome them. Both are novel in single object tracking (SOT). We test UHP-SOT on two popular object tracking benchmarks, TB-50 and TB-100, and show that it outperforms all previous unsupervised SOT methods, achieves a performance comparable with the best supervised deep-learning-based SOT methods, and operates at a fast speed (i.e. 22.7-32.0 FPS on a CPU).
翻訳日:2021-10-06 14:12:00 公開日:2021-10-05
# スタイリッシュテキストのデレンダリング

De-rendering Stylized Texts ( http://arxiv.org/abs/2110.01890v1 )

ライセンス: Link先を確認
Wataru Shimoda, Daichi Haraguchi, Seiichi Uchida, Kota Yamaguchi(参考訳) ラスターテキストの編集は有望だが難しい作業だ。 本稿では,ポスター,Webページ,広告などの表示メディアにおけるラスタテキスト編集作業にテキストベクトル化を適用することを提案する。 提案手法では,ラスタ領域に画像変換や生成を適用する代わりに,テキスト,位置,サイズ,フォント,スタイル,エフェクト,隠れた背景を含むすべてのレンダリングパラメータを解析するテキストベクトル化モデルを学習し,それらのパラメータを再構成や編集作業に利用する。 テキストベクタライゼーションはテキストの異なるレンダリングを利用して、解像度のないパラメトリックフォーマットで入力されたラスタテキストを正確に再現する。 実験では,本手法を用いてテキスト,スタイリング,背景情報を統一されたモデルで解析し,ラスタベースラインと比較してアーティファクトフリーなテキスト編集を実現する。

Editing raster text is a promising but challenging task. We propose to apply text vectorization for the task of raster text editing in display media, such as posters, web pages, or advertisements. In our approach, instead of applying image transformation or generation in the raster domain, we learn a text vectorization model to parse all the rendering parameters including text, location, size, font, style, effects, and hidden background, then utilize those parameters for reconstruction and any editing task. Our text vectorization takes advantage of differentiable text rendering to accurately reproduce the input raster text in a resolution-free parametric format. We show in the experiments that our approach can successfully parse text, styling, and background information in the unified model, and produces artifact-free text editing compared to a raster baseline.
翻訳日:2021-10-06 14:11:38 公開日:2021-10-05
# ラピッドAI4EO:高空間・時間共振用コーパス

RapidAI4EO: A Corpus for Higher Spatial and Temporal Reasoning ( http://arxiv.org/abs/2110.01919v1 )

ライセンス: Link先を確認
Giovanni Marchisio (1), Patrick Helber (3), Benjamin Bischke (3), Timothy Davis (2), Caglar Senaras (2), Daniele Zanaga (4), Ruben Van De Kerchove (4), Annett Wania (2) ((1) Planet Labs Inc., USA, (2) Planet Labs GmbH, Germany, (3) Vision Impulse GmbH and DFKI, Germany, (4) VITO NV, Belgium)(参考訳) 欧州連合(eu)のhorizon 2020プログラムのスポンサーの下で、rapidai4eoは次世代のcopernicus land monitoring service(clms)製品の基盤を確立する。 プロジェクトの目的は、土地利用(LU)、土地被覆(LC)、およびLUの変化を、現在よりはるかに高い詳細かつ時間的周期で監視することである。 構造の変化から表現学を遠ざけ、コペルニクスのコミュニティと生態系の発展を促進するために重要な訓練データを提供することに重点を置いている。 この目的のために我々は、欧州の50万箇所のパッチでPlanet画像と衛星データを融合し、あらゆる場所で高解像度の日時データを配信することで、最も密集した時空間トレーニングセットを作成しています。 リモートセンシングコミュニティ全体の利益のために、これらのデータセットをオープンソース化する予定です。

Under the sponsorship of the European Union Horizon 2020 program, RapidAI4EO will establish the foundations for the next generation of Copernicus Land Monitoring Service (CLMS) products. The project aims to provide intensified monitoring of Land Use (LU), Land Cover (LC), and LU change at a much higher level of detail and temporal cadence than it is possible today. Focus is on disentangling phenology from structural change and in providing critical training data to drive advancement in the Copernicus community and ecosystem well beyond the lifetime of this project. To this end we are creating the densest spatiotemporal training sets ever by fusing open satellite data with Planet imagery at as many as 500,000 patch locations over Europe and delivering high resolution daily time series at all locations. We plan to open source these datasets for the benefit of the entire remote sensing community.
翻訳日:2021-10-06 14:11:21 公開日:2021-10-05
# オブジェクト検出のためのアンカーフリー指向型提案生成器

Anchor-free Oriented Proposal Generator for Object Detection ( http://arxiv.org/abs/2110.01931v1 )

ライセンス: Link先を確認
Gong Cheng and Jiabao Wang and Ke Li and Xingxing Xie and Chunbo Lang and Yanqing Yao and Junwei Han(参考訳) オブジェクト指向物体検出はリモートセンシング画像解釈において実用的で困難な課題である。 今日では、指向検出器は主に水平の箱を中間体として使用し、それらから指向の箱を導出している。 しかし、水平の箱は、基底真理との小さな交点(ious)を得る傾向にあり、冗長なノイズの導入、基底真理とのミスマッチ、検出器の頑健さからの逸脱など、いくつかの望ましくない効果がある。 本稿では,ネットワークアーキテクチャから水平ボックス関連操作を放棄する,AOPG(Anchor-free Oriented Proposal Generator)を提案する。 AOPGはまず、粗い位置モジュール(CLM)によって、アンカーのない方法で粗い指向のボックスを生成し、その後、それらを高品質な指向のプロポーザルに洗練する。 AOPG後、最終検出結果を生成するためにFast R-CNNヘッドを適用する。 さらに、大規模なデータセットの不足は、オブジェクト指向オブジェクト検出の開発の障害でもある。 データ不足を軽減するため、DIORデータセットに基づいて新しいデータセットをリリースし、DIOR-Rと名付ける。 大規模な実験はAOPGの有効性を示す。 特に、ベルとホイッスルなしでは、それぞれDIOR-R、DOTA、HRSC2016データセット上で64.41$\%$、75.24$\%$、96.22$\%$mAPの精度が得られる。 コードとモデルはhttps://github.com/j bwang 1997/aopgで入手できる。

Oriented object detection is a practical and challenging task in remote sensing image interpretation. Nowadays, oriented detectors mostly use horizontal boxes as intermedium to derive oriented boxes from them. However, the horizontal boxes are inclined to get a small Intersection-over-Un ions (IoUs) with ground truths, which may have some undesirable effects, such as introducing redundant noise, mismatching with ground truths, detracting from the robustness of detectors, etc. In this paper, we propose a novel Anchor-free Oriented Proposal Generator (AOPG) that abandons the horizontal boxes-related operations from the network architecture. AOPG first produces coarse oriented boxes by Coarse Location Module (CLM) in an anchor-free manner and then refines them into high-quality oriented proposals. After AOPG, we apply a Fast R-CNN head to produce the final detection results. Furthermore, the shortage of large-scale datasets is also a hindrance to the development of oriented object detection. To alleviate the data insufficiency, we release a new dataset on the basis of our DIOR dataset and name it DIOR-R. Massive experiments demonstrate the effectiveness of AOPG. Particularly, without bells and whistles, we achieve the highest accuracy of 64.41$\%$, 75.24$\%$ and 96.22$\%$ mAP on the DIOR-R, DOTA and HRSC2016 datasets respectively. Code and models are available at https://github.com/j bwang1997/AOPG.
翻訳日:2021-10-06 14:11:05 公開日:2021-10-05
# オンボード画像からの鳥の目視トラヒックシーンの理解

Structured Bird's-Eye-View Traffic Scene Understanding from Onboard Images ( http://arxiv.org/abs/2110.01997v1 )

ライセンス: Link先を確認
Yigit Baran Can, Alexander Liniger, Danda Pani Paudel, Luc Van Gool(参考訳) 自律ナビゲーションには、道路網の構造化表現と、他の交通機関のインスタンス単位での識別が必要である。 交通シーンは地上平面上で定義されるので、これは鳥の目視(BEV)におけるシーン理解に相当する。 しかし、自律走行車の搭載カメラは、周囲をよりよく見るために水平に取り付けられるため、この作業は非常に困難である。 本研究では,BEV座標における局所道路網を表す有向グラフを,単眼カメラ画像から抽出する問題について検討する。 さらに,BEV平面上の動的物体を検出するために,提案手法を拡張可能であることを示す。 検出されたオブジェクトのセマンティクス、位置、方向と道路グラフは、シーンの包括的な理解を促進する。 このような理解は、経路計画やナビゲーションといった下流タスクの基盤となる。 我々は、強力なベースラインに対するアプローチを検証するとともに、ネットワークが優れたパフォーマンスを達成することを示す。 また,様々な設計選択の効果をアブレーション研究によって実証する。 コード:https://github.com/ ybarancan/STSU

Autonomous navigation requires structured representation of the road network and instance-wise identification of the other traffic agents. Since the traffic scene is defined on the ground plane, this corresponds to scene understanding in the bird's-eye-view (BEV). However, the onboard cameras of autonomous cars are customarily mounted horizontally for a better view of the surrounding, making this task very challenging. In this work, we study the problem of extracting a directed graph representing the local road network in BEV coordinates, from a single onboard camera image. Moreover, we show that the method can be extended to detect dynamic objects on the BEV plane. The semantics, locations, and orientations of the detected objects together with the road graph facilitates a comprehensive understanding of the scene. Such understanding becomes fundamental for the downstream tasks, such as path planning and navigation. We validate our approach against powerful baselines and show that our network achieves superior performance. We also demonstrate the effects of various design choices through ablation studies. Code: https://github.com/y barancan/STSU
翻訳日:2021-10-06 14:10:38 公開日:2021-10-05
# ワンショット医用画像分割のための自己監督型生成スタイル転送

Self-Supervised Generative Style Transfer for One-Shot Medical Image Segmentation ( http://arxiv.org/abs/2110.02117v1 )

ライセンス: Link先を確認
Devavrat Tomar, Behzad Bozorgtabar, Manana Lortkipanidze, Guillaume Vray, Mohammad Saeed Rad, Jean-Philippe Thiran(参考訳) 医療画像セグメンテーションでは、教師付きディープネットワークの成功は、豊富なラベル付きデータを必要とするコストで達成される。 ドメインの専門家にコホートのイメージの1つか数つだけアノテートするよう求めることは実現不可能だが、利用可能なすべてのイメージにアノテートすることは現実的ではない。 この問題は、未熟な分布からトレーニング済みのディープネットワークが新しいイメージデータセットに露出した場合、さらに悪化する。 アドホックな転送学習に利用可能なオープンソースデータや、データ拡張のための手調整技術を使用することは、最適化されたソリューションのみを提供する。 アトラスに基づくセグメンテーションを動機として,単一のラベル付きアトラスからラベルなしデータへの学習変換を通じて,ボリューム画像分割ペアを合成可能な,データ拡張のための新しいボリューム自己教師型学習を提案する。 研究の中心的な特徴は、ワンショット生成学習と、類似したスタイルでラベルなしのボリュームイメージをクラスタリングする自己教師付きトレーニング戦略の併用による。 従来の手法とは異なり,新しい画像の合成には推定時に入力ボリュームを必要としない。 代わりに、単一または複数サイトデータセットが与えられた事前分布から、多様化されたボリュームイメージセグメンテーションペアを生成することができる。 セグメント化ネットワークのトレーニングに使用した本手法により生成された拡張データにより,脳MRIセグメント化作業における最先端の深層ワンショット学習法よりも大幅に改善された。 アブレーション研究は,既存の医用登録法と比較して,外見モデルと共同訓練が現実的な例を合成するために重要であることをさらに実証した。 コード、データ、モデルはhttps://github.com/d evavratTomar/SSTで入手できる。

In medical image segmentation, supervised deep networks' success comes at the cost of requiring abundant labeled data. While asking domain experts to annotate only one or a few of the cohort's images is feasible, annotating all available images is impractical. This issue is further exacerbated when pre-trained deep networks are exposed to a new image dataset from an unfamiliar distribution. Using available open-source data for ad-hoc transfer learning or hand-tuned techniques for data augmentation only provides suboptimal solutions. Motivated by atlas-based segmentation, we propose a novel volumetric self-supervised learning for data augmentation capable of synthesizing volumetric image-segmentation pairs via learning transformations from a single labeled atlas to the unlabeled data. Our work's central tenet benefits from a combined view of one-shot generative learning and the proposed self-supervised training strategy that cluster unlabeled volumetric images with similar styles together. Unlike previous methods, our method does not require input volumes at inference time to synthesize new images. Instead, it can generate diversified volumetric image-segmentation pairs from a prior distribution given a single or multi-site dataset. Augmented data generated by our method used to train the segmentation network provide significant improvements over state-of-the-art deep one-shot learning methods on the task of brain MRI segmentation. Ablation studies further exemplified that the proposed appearance model and joint training are crucial to synthesize realistic examples compared to existing medical registration methods. The code, data, and models are available at https://github.com/d evavratTomar/SST.
翻訳日:2021-10-06 14:10:22 公開日:2021-10-05
# ELECTRAを用いたASR再構成と信頼度推定

ASR Rescoring and Confidence Estimation with ELECTRA ( http://arxiv.org/abs/2110.01857v1 )

ライセンス: Link先を確認
Hayato Futami, Hirofumi Inaguma, Masato Mimura, Shinsuke Sakai, Tatsuya Kawahara(参考訳) 自動音声認識(ASR)では,最少誤差の仮説を言語モデル(LM)を用いてn-bestリストから選択する必要がある。 しかし、LMは通常、正しい単語列の確率を最大化するために訓練され、ASRエラーを検出できない。 NLPタスクの事前学習手法であるELECTRAを用いてエラーを直接検出するASR再構成手法を提案する。 ELECTRAは、大きなテキストコーパス上でのASRエラー検出をシミュレート可能な、各単語がBERTに置き換えられたかどうかを予測するために事前訓練される。 さらに,この事前学習をASRエラー検出に近づけるために,電話注意型ELECTRA (P-ELECTRA) と呼ばれるELECTRAの拡張版を提案する。 p-electraの事前学習では、各単語は電話から単語への変換モデルに置き換えられ、電話情報を利用して音響的に類似した単語を生成する。 本手法は誤り検出に最適化されているため,単語レベルの信頼度推定にも利用できる。 Librispeech および TED-Lium2 コーパスを用いた実験により, ELECTRA を用いた再構成法は, より高速な推論法と競合することが示された。 ELECTRAは、微調整だけでなく事前学習においても不適切な単語を検出することができるため、BERTよりも信頼性が向上する。

In automatic speech recognition (ASR) rescoring, the hypothesis with the fewest errors should be selected from the n-best list using a language model (LM). However, LMs are usually trained to maximize the likelihood of correct word sequences, not to detect ASR errors. We propose an ASR rescoring method for directly detecting errors with ELECTRA, which is originally a pre-training method for NLP tasks. ELECTRA is pre-trained to predict whether each word is replaced by BERT or not, which can simulate ASR error detection on large text corpora. To make this pre-training closer to ASR error detection, we further propose an extended version of ELECTRA called phone-attentive ELECTRA (P-ELECTRA). In the pre-training of P-ELECTRA, each word is replaced by a phone-to-word conversion model, which leverages phone information to generate acoustically similar words. Since our rescoring method is optimized for detecting errors, it can also be used for word-level confidence estimation. Experimental evaluations on the Librispeech and TED-LIUM2 corpora show that our rescoring method with ELECTRA is competitive with conventional rescoring methods with faster inference. ELECTRA also performs better in confidence estimation than BERT because it can learn to detect inappropriate words not only in fine-tuning but also in pre-training.
翻訳日:2021-10-06 14:09:54 公開日:2021-10-05
# DistilHuBERT:隠れユニットBERTの層ワイド蒸留による音声表現学習

DistilHuBERT: Speech Representation Learning by Layer-wise Distillation of Hidden-unit BERT ( http://arxiv.org/abs/2110.01900v1 )

ライセンス: Link先を確認
Heng-Jui Chang, Shu-wen Yang, Hung-yi Lee(参考訳) wav2vec 2.0 や Hidden-unit BERT (HuBERT) のような自己教師付き音声表現学習手法では、事前学習にラベル付き音声データを活用し、多くの音声処理タスクに優れた表現を提供する。 これらの手法の成功にもかかわらず、大きなメモリと高い事前学習コストを必要としており、アカデミックや小規模企業の研究者には利用できない。 そこで本稿では,HuBERTモデルから直接隠れ表現を抽出する,新しいマルチタスク学習フレームワークであるDistilHuBERTを紹介する。 この方法は、HuBERTのサイズを75%と73%速くし、10種類のタスクでほとんどのパフォーマンスを維持する。 さらに、DistilHuBERTはトレーニング時間とデータが少なく、音声のためのパーソナルおよびオンデバイスSSLモデルを事前トレーニングする可能性を開く。

Self-supervised speech representation learning methods like wav2vec 2.0 and Hidden-unit BERT (HuBERT) leverage unlabeled speech data for pre-training and offer good representations for numerous speech processing tasks. Despite the success of these methods, they require large memory and high pre-training costs, making them inaccessible for researchers in academia and small companies. Therefore, this paper introduces DistilHuBERT, a novel multi-task learning framework to distill hidden representations from a HuBERT model directly. This method reduces HuBERT's size by 75% and 73% faster while retaining most performance in ten different tasks. Moreover, DistilHuBERT required little training time and data, opening the possibilities of pre-training personal and on-device SSL models for speech.
翻訳日:2021-10-06 14:09:31 公開日:2021-10-05
# 消費者レビューからみた新型コロナウイルスの経済への影響分析

Analyzing the Impact of COVID-19 on Economy from the Perspective of Users Reviews ( http://arxiv.org/abs/2110.02198v1 )

ライセンス: Link先を確認
Fatemeh Salmani, Hamed Vahdat-Nejad, Hamideh Hajiabadi(参考訳) 2020年の世界で最も重要な事件の1つは、コロナウイルスの流行である。 ソーシャルネットワークのユーザーは、このイベントに関する多くのコメントを公開している。 これらのコメントには、このパンデミックに関する世論に関する重要な情報が含まれている。 本研究では,多くのコロナウイルス関連ツイートを自然言語処理と情報検索科学を用いて検討・分析した。 当初、ツイートの位置はジオ・ネームズ(Geo-Names)の地理データベースで作成された辞書で決定され、市名、通り、郵便番号などの詳細かつ完全な情報を含んでいる。 そして、経済的な観点から作成した大辞典を用いて、関連するつぶやきを抽出し、RoBERTa言語モデルを用いて、ツイートに対応する感情を分析し、高い精度と優れた性能を有する。 最後に、経済に関連するツイートの頻度チャートとその感情スコア(肯定的かつ否定的なツイート)が、世界全体とトップ10経済に時間をかけてプロットされる。 分析の結果,経済的なツイートを公表する理由は,コロナウイルス感染者の増加だけでなく,国内における規制やロックダウンも課されていることが判明した。 これらの制限の結果、数百万人の雇用が失われ、経済が下降した。

One of the most important incidents in the world in 2020 is the outbreak of the Coronavirus. Users on social networks publish a large number of comments about this event. These comments contain important hidden information of public opinion regarding this pandemic. In this research, a large number of Coronavirus-related tweets are considered and analyzed using natural language processing and information retrieval science. Initially, the location of the tweets is determined using a dictionary prepared through the Geo-Names geographic database, which contains detailed and complete information of places such as city names, streets, and postal codes. Then, using a large dictionary prepared from the terms of economics, related tweets are extracted and sentiments corresponded to tweets are analyzed with the help of the RoBERTa language-based model, which has high accuracy and good performance. Finally, the frequency chart of tweets related to the economy and their sentiment scores (positive and negative tweets) is plotted over time for the entire world and the top 10 economies. From the analysis of the charts, we learn that the reason for publishing economic tweets is not only the increase in the number of people infected with the Coronavirus but also imposed restrictions and lockdowns in countries. The consequences of these restrictions include the loss of millions of jobs and the economic downturn.
翻訳日:2021-10-06 14:08:56 公開日:2021-10-05
# スパースイベントデータのマルチ軸注意予測:犯罪予測への応用

Multi-axis Attentive Prediction for Sparse EventData: An Application to Crime Prediction ( http://arxiv.org/abs/2110.01794v1 )

ライセンス: Link先を確認
Yi Sui, Ga Wu, Scott Sanner(参考訳) イベントデータの時空間予測は、長い研究の歴史を持つ困難な課題である。 時空間予測における最近の研究は、古典的アプローチよりも大幅に改善された深部連続モデルを活用しているが、これらのモデルは、犯罪事象予測のタスクのように、観察が極めて疎いときに過度に適合する傾向にある。 これらのスパーシティの問題を克服するために、スパースイベントデータ(mapsed)に対する多軸注意予測を提案する。 2つの観察角度を通して事象伝播の短期的ダイナミクスと長期的意味論の両方を抽出するための純粋に注意深いアプローチを提案する。 主に時間次元に沿って潜伏情報を伝播する既存の時間予測モデルとは異なり、MAPSEDは埋め込みデータテンソルのすべての軸(時間、2次元空間、イベントタイプ)を同時に操作する。 さらに,潜在表現一般化を改善するために,新しいフロベニウス規範に基づくコントラスト学習目標を導入する。例えば,公にアクセス可能な2つの都市犯罪データセットの地図を,時空間スパースイベント予測のために検証する。 提案したコントラスト学習の目的は,MAPSEDがイベントの意味やダイナミクスを捉える能力を著しく向上させ,スパース観測に対処する一般化能力を向上させる。

Spatiotemporal prediction of event data is a challenging task with a long history of research. While recent work in spatiotemporal prediction has leveraged deep sequential models that substantially improve over classical approaches, these models are prone to overfitting when the observation is extremely sparse, as in the task of crime event prediction. To overcome these sparsity issues, we present Multi-axis Attentive Prediction for Sparse Event Data (MAPSED). We propose a purely attentional approach to extract both short-term dynamics and long-term semantics of event propagation through two observation angles. Unlike existing temporal prediction models that propagate latent information primarily along the temporal dimension, the MAPSED simultaneously operates over all axes (time, 2D space, event type) of the embedded data tensor. We additionally introduce a novel Frobenius norm-based contrastive learning objective to improve latent representational generalization.Empir ically, we validate MAPSED on two publicly accessible urban crime datasets for spatiotemporal sparse event prediction, where MAPSED outperforms both classical and state-of-the-art deep learning models. The proposed contrastive learning objective significantly enhances the MAPSED's ability to capture the semantics and dynamics of the events, resulting in better generalization ability to combat sparse observations.
翻訳日:2021-10-06 14:07:45 公開日:2021-10-05
# ストリームデータを用いた立方体サンプリングによる効率的な異常検出手法

An Efficient Anomaly Detection Approach using Cube Sampling with Streaming Data ( http://arxiv.org/abs/2110.01813v1 )

ライセンス: Link先を確認
Seemandhar Jain, Prarthi Jain, Abhishek Srivastava(参考訳) 異常検出は侵入検知、健康モニタリング、故障診断、センサネットワークイベント検出など様々な分野で重要である。 孤立林(アイフォレスト)アプローチは異常を検出する技術としてよく知られている。 しかし、最近の様々なアプリケーション領域でますます普及している動的ストリーミングデータを扱う場合、それは効果がない。 本研究では,ストリーミングデータに有効である立方体サンプリングを用いた異常検出のための効率的なiforestに基づく手法を提案する。 キューブサンプリングは初期段階でほぼバランスの取れたサンプルを選択するために使われ、効率を保ちながらストレージ要件を大幅に削減する。 その後、データのストリーミング特性はスライディングウインドウ技術によって対処され、システマティック処理のための連続的なチャンクデータを生成する。 本論文の新規性は,iForestにおけるCubeサンプリングの適用と包摂確率の算出である。 提案手法は、既存の最先端アプローチと同様に異常を検出するのに等しく成功し、ストレージと時間の複雑さを著しく低減する。 提案手法を標準データセットを用いて実証評価し,ROC曲線(AUC-ROC)において従来の手法よりも優れ,高次元ストリーミングデータを扱うことができることを示す。

Anomaly detection is critical in various fields, including intrusion detection, health monitoring, fault diagnosis, and sensor network event detection. The isolation forest (or iForest) approach is a well-known technique for detecting anomalies. It is, however, ineffective when dealing with dynamic streaming data, which is becoming increasingly prevalent in a wide variety of application areas these days. In this work, we extend our previous work by proposed an efficient iForest based approach for anomaly detection using cube sampling that is effective on streaming data. Cube sampling is used in the initial stage to choose nearly balanced samples, significantly reducing storage requirements while preserving efficiency. Following that, the streaming nature of data is addressed by a sliding window technique that generates consecutive chunks of data for systematic processing. The novelty of this paper is in applying Cube sampling in iForest and calculating inclusion probability. The proposed approach is equally successful at detecting anomalies as existing state-of-the-art approaches, requiring significantly less storage and time complexity. We undertake empirical evaluations of the proposed approach using standard datasets and demonstrate that it outperforms traditional approaches in terms of Area Under the ROC Curve (AUC-ROC) and can handle high-dimensional streaming data.
翻訳日:2021-10-06 14:07:18 公開日:2021-10-05
# 深層ニューラルネットワークと表データ:調査

Deep Neural Networks and Tabular Data: A Survey ( http://arxiv.org/abs/2110.01889v1 )

ライセンス: Link先を確認
Vadim Borisov, Tobias Leemann, Kathrin Se{\ss}ler, Johannes Haug, Martin Pawelczyk, Gjergji Kasneci(参考訳) 不均一な表型データは最も一般的に使用されるデータ形式であり、多くの臨界および計算に要求されるアプリケーションに必須である。 均一データセットでは、ディープニューラルネットワークは繰り返し優れた性能を示しており、広く採用されている。 しかし、表データ(推論や生成)のモデリングへの応用は依然として非常に難しい。 本研究は,表データに対する最先端のディープラーニング手法の概要を提供する。 データ変換、特殊なアーキテクチャ、正規化モデルという3つのグループに分類することから始めます。 次に、各グループにおける主要なアプローチの概要を説明します。 表型データを生成するための深層学習手法に関する議論は,表型データ上での深層モデルを説明する戦略によって補完される。 私たちの主な貢献は、この分野の主要な研究の流れと既存の方法論に対処し、関連する課題とオープンリサーチの質問に焦点をあてることです。 私たちの知る限りでは、これは表データに対するディープラーニングアプローチを詳細に見る最初の方法です。 この研究は、表データの深層学習に関心のある研究者や実践者にとって、貴重な出発点となり得る。

Heterogeneous tabular data are the most commonly used form of data and are essential for numerous critical and computationally demanding applications. On homogeneous data sets, deep neural networks have repeatedly shown excellent performance and have therefore been widely adopted. However, their application to modeling tabular data (inference or generation) remains highly challenging. This work provides an overview of state-of-the-art deep learning methods for tabular data. We start by categorizing them into three groups: data transformations, specialized architectures, and regularization models. We then provide a comprehensive overview of the main approaches in each group. A discussion of deep learning approaches for generating tabular data is complemented by strategies for explaining deep models on tabular data. Our primary contribution is to address the main research streams and existing methodologies in this area, while highlighting relevant challenges and open research questions. To the best of our knowledge, this is the first in-depth look at deep learning approaches for tabular data. This work can serve as a valuable starting point and guide for researchers and practitioners interested in deep learning with tabular data.
翻訳日:2021-10-06 14:06:57 公開日:2021-10-05
# マルチプレックスネットワークのための半スーパービジョン深層学習

Semi-Supervised Deep Learning for Multiplex Networks ( http://arxiv.org/abs/2110.02038v1 )

ライセンス: Link先を確認
Anasua Mitra, Priyesh Vijayan, Ranbir Sanasam, Diganta Goswami, Srinivasan Parthasarathy, Balaraman Ravindran(参考訳) 多重ネットワークは複雑なグラフ構造であり、エンティティの集合が複数のタイプの関係を通して相互に接続され、それぞれの関係は異なる層を表す。 このようなグラフは、多くの複雑な生物学的、社会的、技術的システムを調べるために使われる。 本研究では,マルチプレックスネットワーク上の構造認識表現学習のための,新しい半教師付きアプローチを提案する。 本手法は,局所ノード毎のパッチ表現とラベル相関構造を考慮したグローバルグラフ表現の相互情報を最大化し,ノードとクラスタ構造を協調的にモデル化する。 具体的には、新しいクラスタ対応のノードコンテキスト化グローバルグラフサマリー生成戦略を利用して、マルチプレックスネットワークのレイヤ間でノードとクラスタの表現を効果的に共同モデリングする。 実験により,提案アーキテクチャは,実世界の7つの多重ネットワーク上での分類,クラスタリング,可視化,類似性探索など,さまざまなタスクにおいて最先端の手法よりも優れていることを示す。

Multiplex networks are complex graph structures in which a set of entities are connected to each other via multiple types of relations, each relation representing a distinct layer. Such graphs are used to investigate many complex biological, social, and technological systems. In this work, we present a novel semi-supervised approach for structure-aware representation learning on multiplex networks. Our approach relies on maximizing the mutual information between local node-wise patch representations and label correlated structure-aware global graph representations to model the nodes and cluster structures jointly. Specifically, it leverages a novel cluster-aware, node-contextualized global graph summary generation strategy for effective joint-modeling of node and cluster representations across the layers of a multiplex network. Empirically, we demonstrate that the proposed architecture outperforms state-of-the-art methods in a range of tasks: classification, clustering, visualization, and similarity search on seven real-world multiplex networks for various experiment settings.
翻訳日:2021-10-06 14:06:44 公開日:2021-10-05
# グラフカラー化:クラスタグラフとファクタグラフの比較

Graph Coloring: Comparing Cluster Graphs to Factor Graphs ( http://arxiv.org/abs/2110.02048v1 )

ライセンス: Link先を確認
Simon Streicher and Johan du Preez(参考訳) 本稿では,確率的グラフィカルモデルを用いたグラフカラー化問題の定式化と解法を提案する。 この目的のために因子グラフを使用する一般的な文献とは対照的に、クラスタグラフの観点からアプローチする。 有効なクラスタグラフを自動構築するアルゴリズムが存在しないため、そのようなアルゴリズム(LTRIP)を提供する。 本実験は,精度と計算効率の両面で,因子グラフよりもクラスタグラフの方が有利であることを示す。

We present a means of formulating and solving graph coloring problems with probabilistic graphical models. In contrast to the prevalent literature that uses factor graphs for this purpose, we instead approach it from a cluster graph perspective. Since there seems to be a lack of algorithms to automatically construct valid cluster graphs, we provide such an algorithm (termed LTRIP). Our experiments indicate a significant advantage for preferring cluster graphs over factor graphs, both in terms of accuracy as well as computational efficiency.
翻訳日:2021-10-06 14:06:28 公開日:2021-10-05
# carl: コンテキストと適応的な強化学習のためのベンチマーク

CARL: A Benchmark for Contextual and Adaptive Reinforcement Learning ( http://arxiv.org/abs/2110.02102v1 )

ライセンス: Link先を確認
Carolin Benjamins, Theresa Eimer, Frederik Schubert, Andr\'e Biedenkapp, Bodo Rosenhahn, Frank Hutter, Marius Lindauer(参考訳) 強化学習は、これまで以上に複雑なタスクを解決する上で大きな進歩を遂げてきたが、多くのアルゴリズムは、環境のわずかな変化でさえも脆弱である。 これは実世界のRL応用の制限因子である。 研究コミュニティは、RLアルゴリズムの堅牢性と一般化の両方の改善を継続的に目標としているが、残念なことに、一貫性のある理論的なフレームワークに基づいた、明確なベンチマーク問題のオープンソースセットはいまだに欠けている。 このギャップを埋めるために、一般化を研究するためにコンテキストRL問題に拡張されたよく知られたRL環境の集合であるCARLを提案する。 我々は,このタスクの異なるコンテキストインスタンスを考慮しなければならない場合,汎用的なアプローチでは,単純な玩具環境でさえも困難になることを示すことで,このようなベンチマークを緊急に必要とすることを示す。 さらに、CARLは、政策学習から状態の表現学習を分離することで、より一般化しやすいことを示す最初の証拠を提供することができる。 古典的な制御、物理シミュレーション、ゲーム、RNA設計の現実的な応用から様々なベンチマークを提供することで、CARLはコミュニティがしっかりとした経験的基礎に関する多くの知見を導き出すことができる。

While Reinforcement Learning has made great strides towards solving ever more complicated tasks, many algorithms are still brittle to even slight changes in their environment. This is a limiting factor for real-world applications of RL. Although the research community continuously aims at improving both robustness and generalization of RL algorithms, unfortunately it still lacks an open-source set of well-defined benchmark problems based on a consistent theoretical framework, which allows comparing different approaches in a fair, reliable and reproducibleway. To fill this gap, we propose CARL, a collection of well-known RL environments extended to contextual RL problems to study generalization. We show the urgent need of such benchmarks by demonstrating that even simple toy environments become challenging for commonly used approaches if different contextual instances of this task have to be considered. Furthermore, CARL allows us to provide first evidence that disentangling representation learning of the states from the policy learning with the context facilitates better generalization. By providing variations of diverse benchmarks from classic control, physical simulations, games and a real-world application of RNA design, CARL will allow the community to derive many more such insights on a solid empirical foundation.
翻訳日:2021-10-06 14:06:19 公開日:2021-10-05
# 人工知能による地域コミュニティの強化

Empowering Local Communities Using Artificial Intelligence ( http://arxiv.org/abs/2110.02007v1 )

ライセンス: Link先を確認
Yen-Chia Hsu, Ting-Hao 'Kenneth' Huang, Himanshu Verma, Andrea Mauri, Illah Nourbakhsh, Alessandro Bozzon(参考訳) 多くの強力な人工知能(AI)技術は、高い性能と精度を目標に設計されている。 近年、AIアルゴリズムは多様な実世界のアプリケーションに統合されている。 aiが社会に与える影響を人間中心の視点から探究する上で重要なトピックとなっている。 市民科学におけるこれまでの研究は、AIを使って研究に参加する方法を特定してきた。例えば、参加の持続、データ品質の検証、オブジェクトの分類とラベル付け、ユーザの興味の予測、データパターンの説明などだ。 これらの研究は、科学者が市民が大規模に研究プロジェクトに参加するために、どのようにAIシステムを設計するかに関する課題を調査した。 対照的に、我々は、科学者がコミュニティベースの参加プロジェクトのような特定の地理的地域に影響を与えるために、地域社会と共にAIシステムを"どのように"設計するかという、はるかに少ない関心を持つ別の分野に興味を持っている。 具体的には,コミュニティ市民科学にAIを適用する上での課題について論じる。 我々は、科学的研究を社会問題や市民のニーズと密接に結び付けるために、この未調査領域の洞察を提供する。

Many powerful Artificial Intelligence (AI) techniques have been engineered with the goals of high performance and accuracy. Recently, AI algorithms have been integrated into diverse and real-world applications. It has become an important topic to explore the impact of AI on society from a people-centered perspective. Previous works in citizen science have identified methods of using AI to engage the public in research, such as sustaining participation, verifying data quality, classifying and labeling objects, predicting user interests, and explaining data patterns. These works investigated the challenges regarding how scientists design AI systems for citizens to participate in research projects at a large geographic scale in a generalizable way, such as building applications for citizens globally to participate in completing tasks. In contrast, we are interested in another area that receives significantly less attention: how scientists co-design AI systems "with" local communities to influence a particular geographical region, such as community-based participatory projects. Specifically, this article discusses the challenges of applying AI in Community Citizen Science, a framework to create social impact through community empowerment at an intensely place-based local scale. We provide insights in this under-explored area of focus to connect scientific research closely to social issues and citizen needs.
翻訳日:2021-10-06 14:05:57 公開日:2021-10-05
# s2 reducer: 分散ディープラーニングを高速化する高性能スパース通信

S2 Reducer: High-Performance Sparse Communication to Accelerate Distributed Deep Learning ( http://arxiv.org/abs/2110.02140v1 )

ライセンス: Link先を確認
Keshi Ge, Yongquan Fu, Zhiquan Lai, Xiaoge Deng, Dongsheng Li(参考訳) 分散確率勾配勾配(SGD)アプローチは大規模深層学習において広く用いられており,分散深層学習システムのトレーニングスケーラビリティを確保するために,勾配集団法が不可欠である。 AllReduceのような集団通信は分散SGDプロセスに広く採用されており、通信時間を短縮している。 しかし、多くの勾配値がゼロであり、帯域節約のために効率的に圧縮されるべきであるため、allreduceは大きな帯域幅リソースを伴います。 疎勾配通信のオーバーヘッドを低減するために,新しいスケッチ型疎勾配集約法であるsparse-sketch reducer (s2 reducer)を提案する。 S2Reduceerは、非ゼロ勾配をカウントスケッチとビットマップで圧縮するだけで通信コストを削減し、並列SGDトレーニングのための効率的なAllReduce演算子を実現する。 5つのトレーニングモデルに対して4つの最先端手法に対して広範な評価を行う。 以上の結果から,S2reduceerは同じ精度に収束し,81 %の疎通信オーバーヘッドを低減し,最先端手法と比較して1.8$ \times $ Speedupを実現した。

Distributed stochastic gradient descent (SGD) approach has been widely used in large-scale deep learning, and the gradient collective method is vital to ensure the training scalability of the distributed deep learning system. Collective communication such as AllReduce has been widely adopted for the distributed SGD process to reduce the communication time. However, AllReduce incurs large bandwidth resources while most gradients are sparse in many cases since many gradient values are zeros and should be efficiently compressed for bandwidth saving. To reduce the sparse gradient communication overhead, we propose Sparse-Sketch Reducer (S2 Reducer), a novel sketch-based sparse gradient aggregation method with convergence guarantees. S2 Reducer reduces the communication cost by only compressing the non-zero gradients with count-sketch and bitmap, and enables the efficient AllReduce operators for parallel SGD training. We perform extensive evaluation against four state-of-the-art methods over five training models. Our results show that S2 Reducer converges to the same accuracy, reduces 81\% sparse communication overhead, and achieves 1.8$ \times $ speedup compared to state-of-the-art approaches.
翻訳日:2021-10-06 14:05:29 公開日:2021-10-05
# ブロックチェーンベースの連合学習 - 包括的な調査

Blockchain-based Federated Learning: A Comprehensive Survey ( http://arxiv.org/abs/2110.02182v1 )

ライセンス: Link先を確認
Zhilin Wang, Qin Hu(参考訳) 機械学習の技術的進歩により、実生活で生成された膨大なデータを処理する効果的な方法が利用できる。 しかし、プライバシとスケーラビリティの問題により、機械学習の開発が制限される。 フェデレートラーニング(FL)は、複数のクライアントにトレーニングタスクを割り当て、中央サーバをローカルデバイスから分離することで、プライバシーの漏洩を防止する。 しかし、FLはシングルポイント障害や悪意のあるデータといった欠点に悩まされている。 ブロックチェーンの出現は、FLをデプロイするためのセキュアで効率的なソリューションを提供する。 本稿では,ブロックチェーンFL(BCFL)に関する文献を包括的に調査する。 まず,システム構成の観点から,ブロックチェーンを連邦学習に適用する方法について検討する。 次に,メカニズム設計の観点からBCFLの具体的機能を分析し,FLに特有のブロックチェーンの問題について説明する。 BCFLの実際の応用についても調査する。 最後に,課題と今後の研究方向性について論じる。

With the technological advances in machine learning, effective ways are available to process the huge amount of data generated in real life. However, issues of privacy and scalability will constrain the development of machine learning. Federated learning (FL) can prevent privacy leakage by assigning training tasks to multiple clients, thus separating the central server from the local devices. However, FL still suffers from shortcomings such as single-point-failure and malicious data. The emergence of blockchain provides a secure and efficient solution for the deployment of FL. In this paper, we conduct a comprehensive survey of the literature on blockchained FL (BCFL). First, we investigate how blockchain can be applied to federal learning from the perspective of system composition. Then, we analyze the concrete functions of BCFL from the perspective of mechanism design and illustrate what problems blockchain addresses specifically for FL. We also survey the applications of BCFL in reality. Finally, we discuss some challenges and future research directions.
翻訳日:2021-10-06 14:05:06 公開日:2021-10-05
# モバイル画像に基づく食事評価統合システム

An Integrated System for Mobile Image-Based Dietary Assessment ( http://arxiv.org/abs/2110.01754v1 )

ライセンス: Link先を確認
Zeman Shao, Yue Han, Jiangpeng He, Runyu Mao, Janine Wright, Deborah Kerr, Carol Boushey, Fengqing Zhu(参考訳) 食事摂取の正確な評価には、ユーザの負担や測定誤差を含む現在の方法の限界を克服するための改善ツールが必要である。 高度な機械学習技術と広く利用可能なモバイルデバイスを組み合わせた画像ベースアプローチのような新興技術は、コスト効率、利便性、タイムリーな食事評価の精度を向上させる新たな機会を提供する。 しかし,画像の自動解析には,データセットの品質と量が不可欠である。 栄養情報の提供やドメイン知識を持つ訓練された栄養士による検証が必要となるため、特に食品画像において、高品質な地中アノテーションを用いた大規模画像データセットの構築は難しい課題である。 そこで,本稿では,本研究では,移動型イメージベースの食事アセスメントシステムの設計と開発について紹介する。 本システムでは,高品質な食品イメージを自然条件下で収集し,新たな計算手法開発のための基礎的アノテーションを提供する。

Accurate assessment of dietary intake requires improved tools to overcome limitations of current methods including user burden and measurement error. Emerging technologies such as image-based approaches using advanced machine learning techniques coupled with widely available mobile devices present new opportunities to improve the accuracy of dietary assessment that is cost-effective, convenient and timely. However, the quality and quantity of datasets are essential for achieving good performance for automated image analysis. Building a large image dataset with high quality groundtruth annotation is a challenging problem, especially for food images as the associated nutrition information needs to be provided or verified by trained dietitians with domain knowledge. In this paper, we present the design and development of a mobile, image-based dietary assessment system to capture and analyze dietary intake, which has been deployed in both controlled-feeding and community-dwelling dietary studies. Our system is capable of collecting high quality food images in naturalistic settings and provides groundtruth annotations for developing new computational approaches.
翻訳日:2021-10-06 14:04:00 公開日:2021-10-05
# 高分解能自動車レーダを用いたディープインスタンスセグメンテーション

Deep Instance Segmentation with High-Resolution Automotive Radar ( http://arxiv.org/abs/2110.01775v1 )

ライセンス: Link先を確認
Jianan Liu, Weiyi Xiong, Liping Bai, Yuxuan Xia, Bing Zhu(参考訳) 自動車用レーダーは現代の先進運転支援システム(adas)や自動運転システムで広く使われており、低コストで全天候環境に信頼できる環境認識を提供する。 しかし、レーダー検出ポイントの間隔のため、意味や幾何学的な情報をほとんど供給しないため、自動車レーダーは補助センサーとしてのみ機能する。 しかし、近年の高分解能自動車レーダーの発展に伴い、リダ点雲で十分に調査されているインスタンスセグメンテーションのようなより高度な認識機能は、自動車レーダを使用することで可能になる。 そのデータはレーダークロスセクション(RCS)やマイクロドップラー効果のようなリッチなコンテキストを伴い、視野が完全に見えなくなると検出することもある。 したがって、レーダ検出点データの有効利用は、自動車認識の不可欠な部分である。 インスタンスセグメンテーションの結果はクラスタリングの結果に匹敵するものと見なすことができ、ターゲットを追跡するトラッカーのインプットとして使用できる可能性がある。 本稿では,レーダ検出点を用いた2つの効率的なセグメント化手法を提案し,その1つはPointNet++フレームワークを用いてエンドツーエンドのディープラーニング駆動方式で実装し,もう1つはセマンティック情報を用いたレーダ検出点のクラスタリングに基づく。 両方のアプローチは、視覚的多層パーセプトロン(MLP)を実装することでさらに改善できる。 提案手法の有効性を最近のRadarScenesデータセットを用いて実験的に検証した。

Automotive radar has been widely used in the modern advanced driver assistance systems (ADAS) and autonomous driving system as it provides reliable environmental perception in all-weather conditions with affordable cost. However, automotive radar usually only plays as an auxiliary sensor since it hardly supplies semantic and geometry information due to the sparsity of radar detection points. Nonetheless, as development of high-resolution automotive radar in recent years, more advanced perception functionality like instance segmentation which has only been well explored using Lidar point clouds, becomes possible by using automotive radar. Its data comes with rich contexts such as Radar Cross Section (RCS) and micro-doppler effects which may potentially be pertinent, and sometimes can even provide detection when the field of view is completely obscured. Therefore, the effective utilization of radar detection points data is an integral part of automotive perception. The outcome from instance segmentation could be seen as comparable result of clustering, and could be potentially used as the input of tracker for tracking the targets. In this paper, we propose two efficient methods for instance segmentation with radar detection points, one is implemented in an end-to-end deep learning driven fashion using PointNet++ framework, and the other is based on clustering of the radar detection points with semantic information. Both approaches can be further improved by implementing visual multi-layer perceptron (MLP). The effectiveness of the proposed methods is verified using experimental results on the recent RadarScenes dataset.
翻訳日:2021-10-06 14:03:44 公開日:2021-10-05
# 映像圧縮のための知覚的最適ブロック運動推定の自己教師付き学習

Self-Supervised Learning of Perceptually Optimized Block Motion Estimates for Video Compression ( http://arxiv.org/abs/2110.01805v1 )

ライセンス: Link先を確認
Somdyuti Paul, Andrey Norkin, Alan C. Bovik(参考訳) ハイブリッドビデオコーデックで実行される相互予測プロセスにはブロックベース動作推定が不可欠である。 ブロック運動ベクトル(MV)の計算に使用されるブロックマッチングに基づく一般的な手法は、計算集約的な探索手順に依存する。 また、ブロックサイズが小さくなるにつれて、開口の問題も悪化する。 さらに、典型的なコーデックで使用されるブロックマッチング基準は、復号時に生成される動き補償画像の知覚品質のレベルを考慮しない。 本研究では,多段畳み込みニューラルネットワークを用いて,複数のブロックサイズで同時に3重のフレームを入力として動作推定を行うことのできる探索自由なブロック運動推定フレームワークを提案する。 この複合ブロック翻訳ネットワーク(CBT-Net)は、公開されていないビデオコンテンツから作成した大規模データベース上で、自己教師型で訓練されている。 動作補償フレームの知覚品質を最適化するために,マルチスケール構造類似度(MS-SSIM)損失関数をデプロイする。 実験の結果,従来のブロックマッチングに基づく動き推定アルゴリズムと比較して,予測誤差に匹敵する計算効率が示された。 さらに、AV1で相互予測を行う際には、SVT-AV1エンコーダで使用されるブロックマッチングに基づく動き推定システムと比較して、平均BD-デルタレート(BD-rate)の改善はMS-SSIMとビデオマルチメソッドアセスメントフュージョン(VMAF)の品質指標に対して-1.70%、-1.52%となる。

Block based motion estimation is integral to inter prediction processes performed in hybrid video codecs. Prevalent block matching based methods that are used to compute block motion vectors (MVs) rely on computationally intensive search procedures. They also suffer from the aperture problem, which can worsen as the block size is reduced. Moreover, the block matching criteria used in typical codecs do not account for the resulting levels of perceptual quality of the motion compensated pictures that are created upon decoding. Towards achieving the elusive goal of perceptually optimized motion estimation, we propose a search-free block motion estimation framework using a multi-stage convolutional neural network, which is able to conduct motion estimation on multiple block sizes simultaneously, using a triplet of frames as input. This composite block translation network (CBT-Net) is trained in a self-supervised manner on a large database that we created from publicly available uncompressed video content. We deploy the multi-scale structural similarity (MS-SSIM) loss function to optimize the perceptual quality of the motion compensated predicted frames. Our experimental results highlight the computational efficiency of our proposed model relative to conventional block matching based motion estimation algorithms, for comparable prediction errors. Further, when used to perform inter prediction in AV1, the MV predictions of the perceptually optimized model result in average Bjontegaard-delta rate (BD-rate) improvements of -1.70% and -1.52% with respect to the MS-SSIM and Video Multi-Method Assessment Fusion (VMAF) quality metrics, respectively as compared to the block matching based motion estimation system employed in the SVT-AV1 encoder.
翻訳日:2021-10-06 14:03:19 公開日:2021-10-05
# da-drn:低光度画像強調のための分解対応ディープレチネックスネットワーク

DA-DRN: Degradation-Aware Deep Retinex Network for Low-Light Image Enhancement ( http://arxiv.org/abs/2110.01809v1 )

ライセンス: Link先を確認
Xinxu Wei, Xianshi Zhang, Shisen Wang, Cheng Cheng, Yanlin Huang, Kaifu Yang, and Yongjie Li(参考訳) 実世界の低照度条件で得られた画像は明るさが低いだけでなく、色歪、未知のノイズ、細部損失、haloアーティファクトなど、他の多くの種類の劣化も抱えている。 本稿では,低照度画像強調のための劣化対応深部網膜ネットワーク(DA-DRN)を提案する。 レチネックス理論に基づき、このモデルにおける分解ネットは、低光度画像を反射率および照明写像に分解し、分解相中の反射率の劣化を直接扱うことができる。 そこで本研究では, 分解器の学習過程を誘導し, 試験段階での計算コストを増すことなく, 学習段階での復元機となることを可能にする分解対応モジュール(daモジュール)を提案する。 DAモジュールは、照明マップに詳細な情報を保持しながらノイズ除去の目的を達成するとともに、色歪みやハロアーティファクトに取り組むことができる。 本稿では,人間の視覚知覚に合致した輝度改善照明マップを生成するために,強調ネットワークを訓練するために知覚損失を導入する。 我々は、LOL実世界およびLOL合成データセット上で提案したモデルの性能を訓練し、評価し、また、Ground-Truth(LIME、DICM、MEF、NPEデータセット)を使わずに、使用頻度の高い複数のデータセット上でモデルをテストする。 我々は,本手法が優れたルバスト性および一般化によって有望な効果を達成し,他の多くの最先端手法を質的かつ定量的に上回ることを示すための広範な実験を行った。 TITAN Xp GPU上で600×400の解像度で画像を処理するには7ミリ秒しかかからない。

Images obtained in real-world low-light conditions are not only low in brightness, but they also suffer from many other types of degradation, such as color distortion, unknown noise, detail loss and halo artifacts. In this paper, we propose a Degradation-Aware Deep Retinex Network (denoted as DA-DRN) for low-light image enhancement and tackle the above degradation. Based on Retinex Theory, the decomposition net in our model can decompose low-light images into reflectance and illumination maps and deal with the degradation in the reflectance during the decomposition phase directly. We propose a Degradation-Aware Module (DA Module) which can guide the training process of the decomposer and enable the decomposer to be a restorer during the training phase without additional computational cost in the test phase. DA Module can achieve the purpose of noise removal while preserving detail information into the illumination map as well as tackle color distortion and halo artifacts. We introduce Perceptual Loss to train the enhancement network to generate the brightness-improved illumination maps which are more consistent with human visual perception. We train and evaluate the performance of our proposed model over the LOL real-world and LOL synthetic datasets, and we also test our model over several other frequently used datasets without Ground-Truth (LIME, DICM, MEF and NPE datasets). We conduct extensive experiments to demonstrate that our approach achieves a promising effect with good rubustness and generalization and outperforms many other state-of-the-art methods qualitatively and quantitatively. Our method only takes 7 ms to process an image with 600x400 resolution on a TITAN Xp GPU.
翻訳日:2021-10-06 14:02:47 公開日:2021-10-05
# 冠動脈ファントムにおけるガイドワイヤナビゲーションの深部強化学習

Deep reinforcement learning for guidewire navigation in coronary artery phantom ( http://arxiv.org/abs/2110.01840v1 )

ライセンス: Link先を確認
Jihoon Kweon, Kyunghwan Kim, Chaehyuk Lee, Hwi Kwon, Jinwoo Park, Kyoseok Song, Young In Kim, Jeeone Park, Inwook Back, Jae-Hyung Roh, Youngjin Moon, Jaesoon Choi, and Young-Hak Kim(参考訳) 冠動脈プラークに対する経皮的治療では、ガイドワイヤーナビゲーションがステントデリバリーの主要な手順である。 冠動脈内の柔軟なガイドワイヤを操るにはかなりの訓練が必要であり、制御操作とガイドワイヤの動きの非線形性は正確な操作を困難にする。 本稿では,ロボットによる冠動脈インターベンションにおける自律ガイドワイヤナビゲーションのための深部強化学習(RL)フレームワークを提案する。 Rainbowを用いて、DQfD(Deep Q-learning from Demos)、転送学習(Transfer Learning)、および重み初期化(weight initialization)を用いて、人間の実演をいかに加速するかを決定する。 RLの「状態」はガイドワイヤ先端付近のフォーカスウィンドウとしてカスタマイズされ、スパース報酬問題を緩和するためにサブゴールが置かれる。 RLエージェントはパフォーマンスを改善し、最終的にガイドワイヤが `stable' フェーズで有効なすべてのターゲットに到達できるようにする。 機械的疲労を伴う物理的空間において,ロボットによる介入を自動化するための新たな方向性を提示する。

In percutaneous intervention for treatment of coronary plaques, guidewire navigation is a primary procedure for stent delivery. Steering a flexible guidewire within coronary arteries requires considerable training, and the non-linearity between the control operation and the movement of the guidewire makes precise manipulation difficult. Here, we introduce a deep reinforcement learning(RL) framework for autonomous guidewire navigation in a robot-assisted coronary intervention. Using Rainbow, a segment-wise learning approach is applied to determine how best to accelerate training using human demonstrations with deep Q-learning from demonstrations (DQfD), transfer learning, and weight initialization. `State' for RL is customized as a focus window near the guidewire tip, and subgoals are placed to mitigate a sparse reward problem. The RL agent improves performance, eventually enabling the guidewire to reach all valid targets in `stable' phase. Our framework opens anew direction in the automation of robot-assisted intervention, providing guidance on RL in physical spaces involving mechanical fatigue.
翻訳日:2021-10-06 14:02:14 公開日:2021-10-05
# cnnを用いた捜索救助用uavの人間検出

CNN-based Human Detection for UAVs in Search and Rescue ( http://arxiv.org/abs/2110.01930v1 )

ライセンス: Link先を確認
Nikite Mesvan(参考訳) 無人航空機(uavs)を一般の車両の代替として、捜索救助の用途に使用することは、その柔軟な移動性と、捜索救助という2つの主なタスクを含む障害が少ないため、世界中で研究されている。 本稿では,UAVの一種であるQuadcopterハードウェアプラットフォームを用いた畳み込みニューラルネットワーク技術であるSingle Shot Detector (SSD)モデルを用いて,犠牲者の探索と検出を行うためのアプローチを提案する。 この研究で使用されたモデルは、事前訓練されたモデルで、クワッドコプターに取り付けられたraspberry pi model bでテストするために使用され、クワッドコプターの下部には1台のカメラが取り付けられ、上から探索と検出を行う。 本研究のクワッドコプターは、加速度計とジャイロスコープセンサと超音波センサを制御のバランスに不可欠な要素とするdiyハードウェアモデルであるが、これらのセンサは、モータの振動などのモデルにおける駆動力によるノイズに影響を受けやすいため、pidコントローラやセンサのノイズ処理に関する問題も論文に記載されている。 実験の結果、クワッドコプターは安定して飛行でき、ssdモデルは処理速度3 fpsのraspberry pi model bでうまく動作し、1mから20mの距離で最高の検出結果が得られることがわかった。

The use of Unmanned Aerial Vehicles (UAVs) as a substitute for ordinary vehicles in applications of search and rescue is being studied all over the world due to its flexible mobility and less obstruction, including two main tasks: search and rescue. This paper proposes an approach for the first task of searching and detecting victims using a type of convolutional neural network technique, the Single Shot Detector (SSD) model, with the Quadcopter hardware platform, a type of UAVs. The model used in the research is a pre-trained model and is applied to test on a Raspberry Pi model B, which is attached on a Quadcopter, while a single camera is equipped at the bottom of the Quadcopter to look from above for search and detection. The Quadcopter in this research is a DIY hardware model that uses accelerometer and gyroscope sensors and ultrasonic sensor as the essential components for balancing control, however, these sensors are susceptible to noise caused by the driving forces on the model, such as the vibration of the motors, therefore, the issues about the PID controller, noise processing for the sensors are also mentioned in the paper. Experimental results proved that the Quadcopter is able to stably flight and the SSD model works well on the Raspberry Pi model B with a processing speed of 3 fps and produces the best detection results at the distance of 1 to 20 meters to objects.
翻訳日:2021-10-06 14:01:55 公開日:2021-10-05
# 量子アニーラを用いた統計データの損失圧縮

Lossy compression of statistical data using quantum annealer ( http://arxiv.org/abs/2110.02142v1 )

ライセンス: Link先を確認
Boram Yoon, Nga T.T. Nguyen, Chia Cheng Chang, Ermal Rrapaj(参考訳) 本稿では,統計浮動小数点データに対して,バイナリ変数を用いた表現学習による新しい損失圧縮アルゴリズムを提案する。 アルゴリズムは、元のデータを正確に再構成する基底ベクトルとそのバイナリ係数の集合を見つける。 基底ベクトルの最適化は古典的に行われ、二進係数はシミュレートと量子アニーリングの両方で比較される。 また,統計データ解析における損失圧縮の不正確な再構成から生じる誤差とバイアスを推定し除去するために,バイアス補正法を提案する。 圧縮アルゴリズムは格子量子色力学シミュレーションの2つの異なるデータセットで実証される。 その結果, ニューラルネットワークオートエンコーダと主成分分析に基づくアルゴリズムよりも3.5倍の圧縮性能が得られた。 量子アニーリングを用いた計算も有望な結果を示すが、量子処理ユニットの統合制御誤差によって性能が制限され、バイアスや結合パラメータに大きな不確実性が生じる。 さらに,従来のD-Wave 2000Qと現在のD-Waveアドバンテージシステムとのハードウェア比較を行った。 本研究は,2000qよりも低エネルギーの解を得る方が有利であることを示す。

We present a new lossy compression algorithm for statistical floating-point data through a representation learning with binary variables. The algorithm finds a set of basis vectors and their binary coefficients that precisely reconstruct the original data. The optimization for the basis vectors is performed classically, while binary coefficients are retrieved through both simulated and quantum annealing for comparison. A bias correction procedure is also presented to estimate and eliminate the error and bias introduced from the inexact reconstruction of the lossy compression for statistical data analyses. The compression algorithm is demonstrated on two different datasets of lattice quantum chromodynamics simulations. The results obtained using simulated annealing show 3.5 times better compression performance than the algorithms based on a neural-network autoencoder and principal component analysis. Calculations using quantum annealing also show promising results, but performance is limited by the integrated control error of the quantum processing unit, which yields large uncertainties in the biases and coupling parameters. Hardware comparison is further studied between the previous generation D-Wave 2000Q and the current D-Wave Advantage system. Our study shows that the Advantage system is more likely to obtain low-energy solutions for the problems than the 2000Q.
翻訳日:2021-10-06 14:01:28 公開日:2021-10-05
# dataset:ddos攻撃エミュレーションのための大規模都市iotアクティビティデータ

Dataset: Large-scale Urban IoT Activity Data for DDoS Attack Emulation ( http://arxiv.org/abs/2110.01842v1 )

ライセンス: Link先を確認
Arvin Hekmati, Eugenio Grippo, Bhaskar Krishnamachari(参考訳) スマートシティなどのアプリケーションにおけるIoTデプロイメントの規模拡大に伴い、サイバーセキュリティの脅威が増大する。 特に、有名なMiraiインシデントやその他の継続的な脅威によって証明されているように、大規模なIoTデバイスネットワークは、特にハイジャックされ、ボットネットとして使用され、分散サービス拒否(DDoS)攻撃を起動する可能性がある。 深層ニューラルネットワークなどの機械学習アルゴリズムを使用して、ddos攻撃の検出と防御を行うには、実際の大規模データセットが必要となる。 良質な条件下での時空間活動を示す4060ノードの都市IoTデプロイメントのデータセットを提示する。 また,攻撃対象ノード数や攻撃継続時間などの可変パラメータに基づいて,データセットに攻撃アクティビティを注入する合成ddos攻撃生成器を提供する。 我々は、データセットのいくつかの機能について議論する。 また,攻撃対象ノードの特定を目的とした,単純なマルチラベルフィードフォワードニューラルネットワークのトレーニングと評価に使用することで,データセットとddos攻撃生成器の有用性を実証する。

As IoT deployments grow in scale for applications such as smart cities, they face increasing cyber-security threats. In particular, as evidenced by the famous Mirai incident and other ongoing threats, large-scale IoT device networks are particularly susceptible to being hijacked and used as botnets to launch distributed denial of service (DDoS) attacks. Real large-scale datasets are needed to train and evaluate the use of machine learning algorithms such as deep neural networks to detect and defend against such DDoS attacks. We present a dataset from an urban IoT deployment of 4060 nodes describing their spatio-temporal activity under benign conditions. We also provide a synthetic DDoS attack generator that injects attack activity into the dataset based on tunable parameters such as number of nodes attacked and duration of attack. We discuss some of the features of the dataset. We also demonstrate the utility of the dataset as well as our synthetic DDoS attack generator by using them for the training and evaluation of a simple multi-label feed-forward neural network that aims to identify which nodes are under attack and when.
翻訳日:2021-10-06 14:00:16 公開日:2021-10-05
# 物理とディープラーニングを組み合わせて連続時間ダイナミクスモデルを学ぶ

Combining Physics and Deep Learning to learn Continuous-Time Dynamics Models ( http://arxiv.org/abs/2110.01894v1 )

ライセンス: Link先を確認
Michael Lutter and Jan Peters(参考訳) ディープラーニングはロボット工学の学習アルゴリズムで広く使われている。 ディープネットワークの欠点の一つは、これらのネットワークがブラックボックス表現であることだ。 したがって、学習した近似は物理学やロボット工学の既存の知識を無視している。 特に学習ダイナミクスモデルでは、基盤となる原則が十分に理解されており、標準ディープネットワークがこれらの原則に違反するダイナミクスを学ぶことができるため、これらのブラックボックスモデルは望ましくない。 物理的に可算な力学を保証するディープ・ネットワークを用いた力学モデルを学ぶために,物理から第一原理を取り入れた物理に着想を得たディープ・ネットワークを導入する。 ラグランジアン力学をモデル学習に組み入れ、すべての近似モデルが物理学の法則と保存エネルギーに従属するようにする。 DeLaN(Deep Lagrangian Networks)は、2つのネットワークを用いてシステムエネルギーをパラメータ化する。 パラメータはオイラー・ラグランジュ微分方程式の平方残差を最小化することによって得られる。 したがって、結果として得られるモデルは個々のシステムの特定の知識を必要とせず、解釈可能であり、前方、逆、およびエネルギーモデルとして使用できる。 従来はキネマティック構造の知識を必要とするシステム識別技術を用いてのみ得られた。 DeLaNを動的モデルの学習に適用し、これらのモデルをシミュレーションおよび物理剛体系の制御に適用する。 提案手法は,実時間制御のための物理システムに適用可能な動力学モデルが得られることを示す。 通常のディープネットワークと比較して、物理に触発されたモデルはより良いモデルを学び、ダイナミクスの基盤となる構造を捉える。

Deep learning has been widely used within learning algorithms for robotics. One disadvantage of deep networks is that these networks are black-box representations. Therefore, the learned approximations ignore the existing knowledge of physics or robotics. Especially for learning dynamics models, these black-box models are not desirable as the underlying principles are well understood and the standard deep networks can learn dynamics that violate these principles. To learn dynamics models with deep networks that guarantee physically plausible dynamics, we introduce physics-inspired deep networks that combine first principles from physics with deep learning. We incorporate Lagrangian mechanics within the model learning such that all approximated models adhere to the laws of physics and conserve energy. Deep Lagrangian Networks (DeLaN) parametrize the system energy using two networks. The parameters are obtained by minimizing the squared residual of the Euler-Lagrange differential equation. Therefore, the resulting model does not require specific knowledge of the individual system, is interpretable, and can be used as a forward, inverse, and energy model. Previously these properties were only obtained when using system identification techniques that require knowledge of the kinematic structure. We apply DeLaN to learning dynamics models and apply these models to control simulated and physical rigid body systems. The results show that the proposed approach obtains dynamics models that can be applied to physical systems for real-time control. Compared to standard deep networks, the physics-inspired models learn better models and capture the underlying structure of the dynamics.
翻訳日:2021-10-06 13:59:57 公開日:2021-10-05
# ロバストなポリシーのための連続時間適合価値イテレーション

Continuous-Time Fitted Value Iteration for Robust Policies ( http://arxiv.org/abs/2110.01954v1 )

ライセンス: Link先を確認
Michael Lutter, Boris Belousov, Shie Mannor, Dieter Fox, Animesh Garg, Jan Peters(参考訳) ハミルトン・ヤコビ・ベルマン方程式の解法は制御、ロボット工学、経済学など多くの分野において重要である。 特に連続制御の場合、この微分方程式とその拡張であるハミルトン・ヤコビ・イザックス方程式は、与えられたタスクに対する最大報酬を達成する最適なポリシーをもたらすため重要である。 環境を制御し、報酬を最小化する敵を含むハミルトン・ヤコビ・isaacs方程式の場合、得られるポリシーは力学の摂動にも頑健である。 本稿では, 連続適合値反復 (cFVI) とロバスト適合値反復 (rFVI) を提案する。 これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィン力学と分離可能な状態と作用報酬を利用して、閉形式の最適ポリシーと最適逆数を引き出す。 この解析式は微分方程式を単純化し、連続的な動作や状態に対する値反復と逆の場合の最適値関数を解くことができる。 特に、結果のアルゴリズムは状態やアクションの離散化を必要としない。 結果のアルゴリズムを古田振り子とカートポールに適用する。 両者のアルゴリズムが最適方針を得ることを示す。 物理システムにおけるロバスト性 Sim2Real 実験により, 実世界の課題の実現に成功していることが示された。 振り子の質量を変化させる際,強化学習アルゴリズムや非ロバスト版のアルゴリズムに比べてロバストな値反復がより頑健であることを観察する。 実験のビデオはhttps://sites.google .com/view/rfviで見ることができる。

Solving the Hamilton-Jacobi-Bell man equation is important in many domains including control, robotics and economics. Especially for continuous control, solving this differential equation and its extension the Hamilton-Jacobi-Isaa cs equation, is important as it yields the optimal policy that achieves the maximum reward on a give task. In the case of the Hamilton-Jacobi-Isaa cs equation, which includes an adversary controlling the environment and minimizing the reward, the obtained policy is also robust to perturbations of the dynamics. In this paper we propose continuous fitted value iteration (cFVI) and robust fitted value iteration (rFVI). These algorithms leverage the non-linear control-affine dynamics and separable state and action reward of many continuous control problems to derive the optimal policy and optimal adversary in closed form. This analytic expression simplifies the differential equations and enables us to solve for the optimal value function using value iteration for continuous actions and states as well as the adversarial case. Notably, the resulting algorithms do not require discretization of states or actions. We apply the resulting algorithms to the Furuta pendulum and cartpole. We show that both algorithms obtain the optimal policy. The robustness Sim2Real experiments on the physical systems show that the policies successfully achieve the task in the real-world. When changing the masses of the pendulum, we observe that robust value iteration is more robust compared to deep reinforcement learning algorithm and the non-robust version of the algorithm. Videos of the experiments are shown at https://sites.google .com/view/rfvi
翻訳日:2021-10-06 13:59:34 公開日:2021-10-05
# グループフェアモデル学習のためのフェデレーション

Federating for Learning Group Fair Models ( http://arxiv.org/abs/2110.01999v1 )

ライセンス: Link先を確認
Afroditi Papadaki, Natalia Martinez, Martin Bertran, Guillermo Sapiro, Miguel Rodrigues(参考訳) フェデレーション学習(federated learning)は、多数のエンティティが協力してよりよいモデルを学ぶことを可能にする、ますますポピュラーなパラダイムである。 本研究では,学習段階において,異なる参加団体が集団のサブセットにしかアクセスできないパラダイムにおけるminmaxグループフェアネスについて検討する。 我々は,このフェアネスの目的が,人口集団ではなく,参加者間で同様のパフォーマンスを課す既存のフェデレーション学習フェアネス基準とどのように異なるのかを,正式に分析する。 我々は、集中学習アルゴリズムの性能保証を確実に享受する提案された問題を解決する最適化アルゴリズム、FedMinMaxを提供する。 本稿では,グループフェアネスの観点から,他の手法に対する提案手法を実験的に比較した。

Federated learning is an increasingly popular paradigm that enables a large number of entities to collaboratively learn better models. In this work, we study minmax group fairness in paradigms where different participating entities may only have access to a subset of the population groups during the training phase. We formally analyze how this fairness objective differs from existing federated learning fairness criteria that impose similar performance across participants instead of demographic groups. We provide an optimization algorithm -- FedMinMax -- for solving the proposed problem that provably enjoys the performance guarantees of centralized learning algorithms. We experimentally compare the proposed approach against other methods in terms of group fairness in various federated learning setups.
翻訳日:2021-10-06 13:59:11 公開日:2021-10-05
# 制約学習による最適化:枠組みと調査

Optimization with Constraint Learning: A Framework and Survey ( http://arxiv.org/abs/2110.02121v1 )

ライセンス: Link先を確認
Adejuyigbe Fajemisin, Donato Maragno, Dick den Hertog(参考訳) 現実の最適化問題の多くは、明示的な公式が存在しない1つ以上の制約や目的を含むことが多い。 しかし、データが利用可能であれば、これらのデータは制約を学ぶために使用できる。 このアプローチの利点は明らかだが、構造化された方法でこのプロセスを実行する必要がある。 そこで本稿では,データから制約を学習する過程を形式化し,指示する上で有効な,制約学習(OCL)による最適化フレームワークを提案する。 このフレームワークには以下のステップが含まれる。 (i)概念最適化モデルのセットアップ (二)データの収集及び前処理 (iii)予測モデルの選定・訓練 (iv)最適化モデルの分解能、及び (v)最適化モデルの検証と改善。 次に,最近のocl文献をこの枠組みに照らしてレビューし,現在の動向と今後の研究分野について注目する。

Many real-life optimization problems frequently contain one or more constraints or objectives for which there are no explicit formulas. If data is however available, these data can be used to learn the constraints. The benefits of this approach are clearly seen, however there is a need for this process to be carried out in a structured manner. This paper therefore provides a framework for Optimization with Constraint Learning (OCL) which we believe will help to formalize and direct the process of learning constraints from data. This framework includes the following steps: (i) setup of the conceptual optimization model, (ii) data gathering and preprocessing, (iii) selection and training of predictive models, (iv) resolution of the optimization model, and (v) verification and improvement of the optimization model. We then review the recent OCL literature in light of this framework, and highlight current trends, as well as areas for future research.
翻訳日:2021-10-06 13:58:37 公開日:2021-10-05
# テネシー・イーストマン工場のカオス理論に基づく制御変数の選択

Controlled-Variable Selection based on Chaos Theory for the Tennessee Eastman Plant ( http://arxiv.org/abs/2110.01759v1 )

ライセンス: Link先を確認
S. F. Yapur(参考訳) 本研究は、プラント全体の制御系設計におけるカオス信号と制御変数の選択との関係を考察する。 いくつかの結果はテネシー州のイーストマン工場で示されており、植物全体の管理の分野では困難なプロセスであることが知られている。 この記事では、どの変数を制御するべきかを選択するための、体系的でデータ駆動の方法を提供します。 しかし、プラント全体の制御問題は本質的に複雑であるため、この研究は明確な解決策を提供するのではなく、最終的な制御システム設計に考慮すべき補完的な分析を意図している。 議論は、カオス理論に隠された可能性を強調し、結果として生じる制御システムの複雑さを減少させる。

This work explores a link between chaotic signals and the selection of controlled variables for plantwide control system design. Some results are shown for the Tennessee Eastman plant, which is well-known for being a challenging process in the field of plant-wide control. This article provides a systematic, data-driven method to select which variables should be controlled. However, since plantwide control problems are inherently complex, this work does not intend to provide a definite solution, but a complementary analysis to take into account towards the final control system design. The discussion highlights the potential hidden in the chaos theory to reduce the complexity of the resulting control system.
翻訳日:2021-10-06 13:57:24 公開日:2021-10-05
# 組合せ共役ゲームにおけるスタックルバーグモデルに対する決定ダイアグラムを用いた微分平衡計算

Differentiable Equilibrium Computation with Decision Diagrams for Stackelberg Models of Combinatorial Congestion Games ( http://arxiv.org/abs/2110.01773v1 )

ライセンス: Link先を確認
Shinsaku Sakaue and Kengo Nakamura(参考訳) 組合せ共役ゲーム(CCG)のStackelbergモデルに対処し、CCGのパラメータを最適化し、非原子的プレイヤーの利己的な振る舞いが望ましい均衡を達成することを目指す。 このモデルは、交通や通信ネットワークのような社会基盤を設計するのに不可欠である。 しかしながら、モデルに対する計算的アプローチは、(I)バイレベルプログラミング構造と(II)CCGの組合せの性質という2つの困難のために、十分に研究されていない。 I) <textit{differentiable} 最適化のアイデアと (II) 組合せ戦略の集合をコンパクトに表現できる \textit{zero-suppressed binary decision diagrams} (ZDDs) と呼ばれるデータ構造を慎重に組み合わせることで、それらに取り組む。 本アルゴリズムはCCGの平衡を数値的に近似し,自動微分によりCCGのパラメータを微分することができる。 その結果、ccgsのstackelbergモデルに勾配に基づく手法を適用することができる。 本手法はNesterovの加速を誘導するために調整され,ZDDの実証的コンパクト性を完全に活用できる。 これらの技術的アドバンテージにより、多数の組合せ戦略でCGを扱うことができます。 実世界のネットワーク設計事例実験により,本手法の実用性が実証された。

We address Stackelberg models of combinatorial congestion games (CCGs); we aim to optimize the parameters of CCGs so that the selfish behavior of non-atomic players attains desirable equilibria. This model is essential for designing such social infrastructures as traffic and communication networks. Nevertheless, computational approaches to the model have not been thoroughly studied due to two difficulties: (I) bilevel-programming structures and (II) the combinatorial nature of CCGs. We tackle them by carefully combining (I) the idea of \textit{differentiable} optimization and (II) data structures called \textit{zero-suppressed binary decision diagrams} (ZDDs), which can compactly represent sets of combinatorial strategies. Our algorithm numerically approximates the equilibria of CCGs, which we can differentiate with respect to parameters of CCGs by automatic differentiation. With the resulting derivatives, we can apply gradient-based methods to Stackelberg models of CCGs. Our method is tailored to induce Nesterov's acceleration and can fully utilize the empirical compactness of ZDDs. These technical advantages enable us to deal with CCGs with a vast number of combinatorial strategies. Experiments on real-world network design instances demonstrate the practicality of our method.
翻訳日:2021-10-06 13:57:14 公開日:2021-10-05
# 深層学習による短期降水予測

Short-term precipitation prediction using deep learning ( http://arxiv.org/abs/2110.01843v1 )

ライセンス: Link先を確認
Guoxing Chen and Wei-Chyung Wang(参考訳) 正確な天気予報は人生の多くの側面、特に暴風雨などの極端な気象事象の早期警戒に不可欠である。 これらの事象の短期予測は、過去数十年で大幅に改善されたにもかかわらず、モデルの不確実性や計算や記憶資源の需要の増加に関する注目すべき問題が残っている数値気象モデルからの予測に依存する。 近年、ディープラーニングの進歩は、実行可能な代替手段を提供する。 本稿では,1フレームの気象場を入力として用いた3次元畳み込みニューラルネットワークが,降水空間分布を予測可能であることを示す。 39年(1980-2018年)の気象データとアメリカ大陸の日降水量データに基づいて開発された。 結果は天気予報の基本的な進歩をもたらす。 まず、トレーニングされたネットワークは、日々の降水量の予測において最先端の気象モデルよりも優れており、ネットワークの優位性は予測まで最大5日間続く。 第2に、ネットワーク予測と気象モデル予測を組み合わせることで、モデル予測の精度が大幅に向上する。 第三に、ネットワークのミリ秒スケールの推論時間は、さらなる精度向上のために大規模なアンサンブル予測を促進する。 これらの結果は短期気象予報におけるディープラーニングの利用を強く支持している。

Accurate weather prediction is essential for many aspects of life, notably the early warning of extreme weather events such as rainstorms. Short-term predictions of these events rely on forecasts from numerical weather models, in which, despite much improvement in the past decades, outstanding issues remain concerning model uncertainties, and increasing demands for computation and storage resources. In recent years, the advance of deep learning offers a viable alternative approach. Here, we show that a 3D convolutional neural network using a single frame of meteorology fields as input is capable of predicting the precipitation spatial distribution. The network is developed based on 39-years (1980-2018) data of meteorology and daily precipitation over the contiguous United States. The results bring fundamental advancements in weather prediction. First, the trained network alone outperforms the state-of-the-art weather models in predicting daily total precipitation, and the superiority of the network extends to forecast leads up to 5 days. Second, combining the network predictions with the weather-model forecasts significantly improves the accuracy of model forecasts, especially for heavy-precipitation events. Third, the millisecond-scale inference time of the network facilitates large ensemble predictions for further accuracy improvement. These findings strongly support the use of deep-learning in short-term weather predictions.
翻訳日:2021-10-06 13:56:51 公開日:2021-10-05
# DeepEdge:エッジコンピューティングのための深層強化学習ベースのタスクオーケストレーション

DeepEdge: A Deep Reinforcement Learning based Task Orchestrator for Edge Computing ( http://arxiv.org/abs/2110.01863v1 )

ライセンス: Link先を確認
Baris Yamansavascilar, Ahmet Cihat Baktir, Cagatay Sonmez, Atay Ozgovde, and Cem Ersoy(参考訳) エッジコンピューティング技術の改善は、リアルタイムインタラクションを必要とする多様なアプリケーションへの道を開く。 しかし,エンドユーザの移動性や動的エッジ環境のため,タスクオフロードを高い性能で処理することが困難になる。 さらに,モバイル機器の各アプリケーションには異なる特性があるため,タスクオーケストレータは適応的であり,環境のダイナミクスを学習する能力を有する必要がある。 この目的のために我々は,モバイルユーザやアプリケーションの観点から,高負荷の確率的ネットワーク条件下でもヒューマンインタラクションを必要とせずに,異なるタスク要件を満たすことを学ぶ,深層強化型タスクオーケストレータdeepedgeを開発した。 動的オフロード要求と時間変化通信条件を考慮し、マルコフプロセスとしてこの問題をモデル化し、DeepEdgeを実装するためにDouble Deep Q-Network (DDQN)アルゴリズムを適用した。 deepedgeのロバスト性を評価するために、画像レンダリング、インフォテインメント、広汎性ヘルス、ネットワーク内の拡張現実の4つのアプリケーションを様々な負荷で実験した。 さらに,本論文では,エージェントの性能を4つの異なるタスクオフロードアプローチと比較した。 以上の結果から,DeepEdgeは完成度の高いタスクの割合で競合他社を上回っていることがわかった。

The improvements in the edge computing technology pave the road for diversified applications that demand real-time interaction. However, due to the mobility of the end-users and the dynamic edge environment, it becomes challenging to handle the task offloading with high performance. Moreover, since each application in mobile devices has different characteristics, a task orchestrator must be adaptive and have the ability to learn the dynamics of the environment. For this purpose, we develop a deep reinforcement learning based task orchestrator, DeepEdge, which learns to meet different task requirements without needing human interaction even under the heavily-loaded stochastic network conditions in terms of mobile users and applications. Given the dynamic offloading requests and time-varying communication conditions, we successfully model the problem as a Markov process and then apply the Double Deep Q-Network (DDQN) algorithm to implement DeepEdge. To evaluate the robustness of DeepEdge, we experiment with four different applications including image rendering, infotainment, pervasive health, and augmented reality in the network under various loads. Furthermore, we compare the performance of our agent with the four different task offloading approaches in the literature. Our results show that DeepEdge outperforms its competitors in terms of the percentage of satisfactorily completed tasks.
翻訳日:2021-10-06 13:56:31 公開日:2021-10-05
# 新型コロナウイルス関連ツイートの主要トピックの抽出

Extracting Major Topics of COVID-19 Related Tweets ( http://arxiv.org/abs/2110.01876v1 )

ライセンス: Link先を確認
Faezeh Azizi, Hamed Vahdat-Nejad, Hamideh Hajiabadi, Mohammad Hossein Khosravi(参考訳) 新型コロナウイルスの感染拡大に伴い、Twitter上のユーザーの活動は大幅に増加した。 この時期のつぶやきの話題を調査する研究もあるが、Covid-19の話題の空間的・時間的傾向を提示・分析するためにはほとんど注目されていない。 本研究では,2020年3月23日から6月23日にかけての全国検疫期間におけるグローバルトピックの抽出にトピックモデリング手法を用いた。 潜在ディリクレ割当 (latent dirichlet allocation, lda) アルゴリズムを実装し,トピックを抽出して "reopening", "death cases", "telecommuting", "protests", "anger expression", "masking", "medication", "social distance", "second wave", "peak of the disease" と命名する。 さらに、世界と4カ国におけるトピックの時間的傾向についても分析する。 グラフの分析により、ユーザのトピックに対するフォーカスを時間とともに変更することで、興味深い結果が得られる。

With the outbreak of the Covid-19 virus, the activity of users on Twitter has significantly increased. Some studies have investigated the hot topics of tweets in this period; however, little attention has been paid to presenting and analyzing the spatial and temporal trends of Covid-19 topics. In this study, we use the topic modeling method to extract global topics during the nationwide quarantine periods (March 23 to June 23, 2020) on Covid-19 tweets. We implement the Latent Dirichlet Allocation (LDA) algorithm to extract the topics and then name them with the "reopening", "death cases", "telecommuting", "protests", "anger expression", "masking", "medication", "social distance", "second wave", and "peak of the disease" titles. We additionally analyze temporal trends of the topics for the whole world and four countries. By analyzing the graphs, fascinating results are obtained from altering users' focus on topics over time.
翻訳日:2021-10-06 13:56:09 公開日:2021-10-05
# 力学系におけるスペクトル部分多様体へのデータ駆動非線形モデル還元

Data-driven Nonlinear Model Reduction to Spectral Submanifolds in Mechanical Systems ( http://arxiv.org/abs/2110.01929v1 )

ライセンス: Link先を確認
Mattia Cenedese, Joar Ax{\aa}s, Haocheng Yang, Melih Eriten and George Haller(参考訳) データ駆動モデル還元手法は線形化機械システムではよく確立されているが、複数の共存定常状態を持つ非線形化システムを減らす一般的なアプローチは利用できない。 本稿では,スペクトル部分多様体(SSM)に基づくデータ駆動非線形モデル削減手法について概説する。 入力として、この手法は非力の非線形振動を観測して、力学の正規形式を非常に低次元不変多様体に還元する。 これらの正規形式は振幅依存特性を捕捉し、外部強制の付加の下で非線形系の応答を予測するのに十分正確である。 合成データと実験データの両方を特徴とする構造振動の例を示す。

While data-driven model reduction techniques are well-established for linearizable mechanical systems, general approaches to reducing non-linearizable systems with multiple coexisting steady states have been unavailable. In this paper, we review such a data-driven nonlinear model reduction methodology based on spectral submanifolds (SSMs). As input, this approach takes observations of unforced nonlinear oscillations to construct normal forms of the dynamics reduced to very low dimensional invariant manifolds. These normal forms capture amplitude-dependent properties and are accurate enough to provide predictions for non-linearizable system response under the additions of external forcing. We illustrate these results on examples from structural vibrations, featuring both synthetic and experimental data.
翻訳日:2021-10-06 13:55:50 公開日:2021-10-05
# 音響イベント検出トランス : 音響イベント検出のためのイベントベースエンド・ツー・エンドモデル

Sound Event Detection Transformer: An Event-based End-to-End Model for Sound Event Detection ( http://arxiv.org/abs/2110.02011v1 )

ライセンス: Link先を確認
Zhirong Ye, Xiangdong Wang, Hong Liu, Yueliang Qian, Rui Tao, Long Yan, Kazushige Ouchi(参考訳) 音のイベント検出(SED)は、監視、ビデオインデックス作成等に広く応用され、注目を集めている。 SEDの既存のモデルは、主にフレームレベルの予測を生成し、それをシーケンスマルチラベル分類問題に変換し、弱いラベル付きデータを使用してモデルを訓練する際に、イベント境界検出とオーディオタグのトレードオフを必然的に引き起こす。 さらに、処理後も必要で、エンドツーエンドでトレーニングすることはできません。 本稿ではまず,1次元検出変換器 (1D-DETR) について述べる。 さらに、sedの特性を考慮し、モデルを微調整するための音声クエリと1対1のマッチング戦略を1d-detrに追加して、イベントレベルの予測、エンドツーエンド検出を生成する音響イベント検出トランス(sedt)モデルを形成する。 URBAN-SEDデータセットとDCASE2019 Task4データセットで実験を行い、両方の実験はSOTAモデルと比較して競合的な結果を得た。 SEDへのSEDTの適用は、1次元信号検出のフレームワークとして使用でき、他の類似タスクにも拡張可能であることを示している。

Sound event detection (SED) has gained increasing attention with its wide application in surveillance, video indexing, etc. Existing models in SED mainly generate frame-level predictions, converting it into a sequence multi-label classification problem, which inevitably brings a trade-off between event boundary detection and audio tagging when using weakly labeled data to train the model. Besides, it needs post-processing and cannot be trained in an end-to-end way. This paper firstly presents the 1D Detection Transformer (1D-DETR), inspired by Detection Transformer. Furthermore, given the characteristics of SED, the audio query and a one-to-many matching strategy for fine-tuning the model are added to 1D-DETR to form the model of Sound Event Detection Transformer (SEDT), which generates event-level predictions, end-to-end detection. Experiments are conducted on the URBAN-SED dataset and the DCASE2019 Task4 dataset, and both experiments have achieved competitive results compared with SOTA models. The application of SEDT on SED shows that it can be used as a framework for one-dimensional signal detection and may be extended to other similar tasks.
翻訳日:2021-10-06 13:55:38 公開日:2021-10-05
# 計算流体力学強化のための機械学習の可能性

The Potential of Machine Learning to Enhance Computational Fluid Dynamics ( http://arxiv.org/abs/2110.02085v1 )

ライセンス: Link先を確認
Ricardo Vinuesa and Steven L. Brunton(参考訳) 機械学習は、計算流体力学の分野を前進させる多くの機会を持つ、科学計算のコア技術になりつつある。 本稿では, 直接数値シミュレーションの高速化, 乱流閉包モデルの改善, 改良された減数次モデルの開発など, 潜在的影響の最も大きい分野について紹介する。 これらの領域において、物理をプロセスに組み込むことで機械学習能力を向上させることができ、さらに流体のシミュレーションを改善して新しい物理理解を明らかにすることができる。 ここで説明する機械学習の約束にもかかわらず、古典的な手法は多くの場合、多くのタスクに対して効率的である。 また、機械学習の可能性を最大限に活用して計算流体力学を改善するためには、コミュニティがオープンソースソフトウェアやデータ共有、再現可能な研究のためのベンチマークシステムやベストプラクティスを確立し続けることが不可欠であることを強調する。

Machine learning is rapidly becoming a core technology for scientific computing, with numerous opportunities to advance the field of computational fluid dynamics. This paper highlights some of the areas of highest potential impact, including to accelerate direct numerical simulations, to improve turbulence closure modelling, and to develop enhanced reduced-order models. In each of these areas, it is possible to improve machine learning capabilities by incorporating physics into the process, and in turn, to improve the simulation of fluids to uncover new physical understanding. Despite the promise of machine learning described here, we also note that classical methods are often more efficient for many tasks. We also emphasize that in order to harness the full potential of machine learning to improve computational fluid dynamics, it is essential for the community to continue to establish benchmark systems and best practices for open-source software, data sharing, and reproducible research.
翻訳日:2021-10-06 13:55:19 公開日:2021-10-05
# アンサンブル分類のための最適N-ary ECOC行列

Optimal N-ary ECOC Matrices for Ensemble Classification ( http://arxiv.org/abs/2110.02161v1 )

ライセンス: Link先を確認
Hieu D. Nguyen and Lucas J. Lavalva and Shen-Shyang Ho and Mohammed Sarosh Khan and Nicholas Kaegi(参考訳) n$-ary エラー訂正出力コード (ecoc) のアンサンブル分類法のための再帰的構築を行い、二元アダマール行列の古典的な二重化構成を一般化した。 任意の素数 $n$ が与えられると、この決定論的構成は基数 $n$ 対称正方行列を生成し、任意の列と列の間の最小ハミング距離を持つ素数-パワー次元の m$ を生成する。 6つのデータセットに対する実験結果から、これらの決定論的符号化行列を$N$-ary ECOC分類に使用すると、ランダムに生成された符号化行列よりも高い精度が得られることが示された。 これは、$N$が適応的に選択されると、$M$の次元がデータセット内のクラス数と密接に一致し、データセットに合わせるために$M$が切り詰められたときの最小ハミング距離の損失を減らす。 これは、M$の距離公式によって検証され、これらの適応行列はランダムに生成されたものと比較して、最小ハミング距離が著しく高いことを示す。

A new recursive construction of $N$-ary error-correcting output code (ECOC) matrices for ensemble classification methods is presented, generalizing the classic doubling construction for binary Hadamard matrices. Given any prime integer $N$, this deterministic construction generates base-$N$ symmetric square matrices $M$ of prime-power dimension having optimal minimum Hamming distance between any two of its rows and columns. Experimental results for six datasets demonstrate that using these deterministic coding matrices for $N$-ary ECOC classification yields comparable and in many cases higher accuracy compared to using randomly generated coding matrices. This is particular true when $N$ is adaptively chosen so that the dimension of $M$ matches closely with the number of classes in a dataset, which reduces the loss in minimum Hamming distance when $M$ is truncated to fit the dataset. This is verified through a distance formula for $M$ which shows that these adaptive matrices have significantly higher minimum Hamming distance in comparison to randomly generated ones.
翻訳日:2021-10-06 13:55:04 公開日:2021-10-05
# KKT条件、一階と二階の最適化、分散最適化:チュートリアルとサーベイ

KKT Conditions, First-Order and Second-Order Optimization, and Distributed Optimization: Tutorial and Survey ( http://arxiv.org/abs/2110.01858v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Ali Ghodsi, Fakhri Karray, Mark Crowley(参考訳) これはKKT条件、一階・二階数値最適化、分散最適化に関するチュートリアルおよび調査論文である。 最適化の歴史を概観した後、集合の性質、ノルム、関数、最適化の概念に関するいくつかの予備論から始める。 次に、最適化問題、標準最適化問題(線形計画、二次計画、半定値計画を含む)、凸問題を紹介する。 また,不平等,等式,制約の設定,slack変数の追加,エピグラフ形式などのテクニックも導入する。 我々は,ラグランジアン関数,双対変数,kkt条件(原始実現可能性,双対実現可能性,弱双対性,強双対性,相補的スラック性,定常性条件を含む)を導入し,ラグランジ乗算法による最適化を解く。 次に,勾配降下,直線探索,勾配法の収束,運動量,最急降下,逆伝播を含む一階最適化について述べる。 その他、加速度勾配法、確率勾配降下法、ミニバッチ勾配降下法、確率平均勾配法、確率分散還元勾配法、アダグラード法、rmsprop法、adamオプティマイザ法、近位法(近位写像法、近位点法、近位勾配法を含む)、制約勾配法(投影勾配法、凸集合への投影法、フランクウルフ法を含む)などが説明されている。 また,ラッソ正則化,凸共役,フーバー関数,ソフトスレッショルド法,座標降下法,準次数法を含む非スムースおよび$\ell_1$最適化法についても取り上げる。 そこで, ニュートン法を含む二階法を非制約, 等式制約, 不等式制約問題に適用する。

This is a tutorial and survey paper on Karush-Kuhn-Tucker (KKT) conditions, first-order and second-order numerical optimization, and distributed optimization. After a brief review of history of optimization, we start with some preliminaries on properties of sets, norms, functions, and concepts of optimization. Then, we introduce the optimization problem, standard optimization problems (including linear programming, quadratic programming, and semidefinite programming), and convex problems. We also introduce some techniques such as eliminating inequality, equality, and set constraints, adding slack variables, and epigraph form. We introduce Lagrangian function, dual variables, KKT conditions (including primal feasibility, dual feasibility, weak and strong duality, complementary slackness, and stationarity condition), and solving optimization by method of Lagrange multipliers. Then, we cover first-order optimization including gradient descent, line-search, convergence of gradient methods, momentum, steepest descent, and backpropagation. Other first-order methods are explained, such as accelerated gradient method, stochastic gradient descent, mini-batch gradient descent, stochastic average gradient, stochastic variance reduced gradient, AdaGrad, RMSProp, and Adam optimizer, proximal methods (including proximal mapping, proximal point algorithm, and proximal gradient method), and constrained gradient methods (including projected gradient method, projection onto convex sets, and Frank-Wolfe method). We also cover non-smooth and $\ell_1$ optimization methods including lasso regularization, convex conjugate, Huber function, soft-thresholding, coordinate descent, and subgradient methods. Then, we explain second-order methods including Newton's method for unconstrained, equality constrained, and inequality constrained problems....
翻訳日:2021-10-06 13:54:26 公開日:2021-10-05
# 確率系における逆ロバスト性検証と攻撃合成

Adversarial Robustness Verification and Attack Synthesis in Stochastic Systems ( http://arxiv.org/abs/2110.02125v1 )

ライセンス: Link先を確認
Lisa Oakley, Alina Oprea, Stavros Tripakis(参考訳) 確率モデル検査は、ランダム化されたプロトコルや強化学習モデルの理論的基礎を含む確率システムの特性の特定と検証に有用な手法である。 しかし、これらの手法は、あるシステム遷移の仮定された構造と確率に依存する。 これらの仮定は誤りであり、敵がシステム内の一部のまたはすべてのコンポーネントを制御できる場合にさえ違反する可能性がある。 本稿では,敵対的機械学習の研究に動機づけられ,離散時間マルコフ連鎖 (dtmcs) として定義されるシステムにおいて,敵対的ロバストネスの形式的枠組みを開発し,マルコフ決定プロセス (mdps) に作用する決定論的かつメモリレスなポリシーを含むように拡張する。 我々のフレームワークは、システムを操作するための異なる機能を持つ複数の敵モデルを指定する柔軟なアプローチを含んでいる。 本論文では,元の遷移確率を囲む$\varepsilon$ ballで制約されたシステム遷移を摂動可能な脅威モデルのクラスを概説し,この脅威モデルの4つの特定のインスタンスを定義する。 我々は,3つの主要なdtmc逆ロバスト性問題を定義し,従来型およびパラメトリック確率モデルチェック手法を活用した2つの最適化ベースソリューションを提案する。 次に,2つの確率的プロトコルとGridWorldケーススタディの集合を用いて,MDPとして記述された環境下で作用するエージェントをモデル化する。 パラメトリック解は小さなパラメータ空間に対する高速な計算をもたらす。 制約の少ない(強弱な)敵の場合、パラメータの数が増加し、直接計算される特性満足度はよりスケーラブルである。 さまざまな特性,脅威モデル,ケーススタディに対するシステム結果を比較することで,定義とソリューションの有用性を示す。

Probabilistic model checking is a useful technique for specifying and verifying properties of stochastic systems including randomized protocols and the theoretical underpinnings of reinforcement learning models. However, these methods rely on the assumed structure and probabilities of certain system transitions. These assumptions may be incorrect, and may even be violated in the event that an adversary gains control of some or all components in the system. In this paper, motivated by research in adversarial machine learning on adversarial examples, we develop a formal framework for adversarial robustness in systems defined as discrete time Markov chains (DTMCs), and extend to include deterministic, memoryless policies acting in Markov decision processes (MDPs). Our framework includes a flexible approach for specifying several adversarial models with different capabilities to manipulate the system. We outline a class of threat models under which adversaries can perturb system transitions, constrained by an $\varepsilon$ ball around the original transition probabilities and define four specific instances of this threat model. We define three main DTMC adversarial robustness problems and present two optimization-based solutions, leveraging traditional and parametric probabilistic model checking techniques. We then evaluate our solutions on two stochastic protocols and a collection of GridWorld case studies, which model an agent acting in an environment described as an MDP. We find that the parametric solution results in fast computation for small parameter spaces. In the case of less restrictive (stronger) adversaries, the number of parameters increases, and directly computing property satisfaction probabilities is more scalable. We demonstrate the usefulness of our definitions and solutions by comparing system outcomes over various properties, threat models, and case studies.
翻訳日:2021-10-06 13:53:45 公開日:2021-10-05
# ランダムグラフにおける隠れ構造の推定

Inferring Hidden Structures in Random Graphs ( http://arxiv.org/abs/2110.01901v1 )

ライセンス: Link先を確認
Wasim Huleihel(参考訳) 本研究では,無作為グラフに埋もれた<emph{ General} 構造の孤立したコミュニティを検出し,回復する2つの推論問題について検討する。 検出問題は仮説テスト問題として定式化され、このグラフは null 仮説の下では Erd\H{o}s-R\'{e}nyi random graph $\mathcal{G}(n,q)$ with edge density $q\in(0,1)$; その代わり、$k$ノード上の未知の構造 $\Gamma_k$ が $\mathcal{G}(n,q)$ に植えられている。 検出が成功した場合、対応する構造を回収するタスクに関係しています。 これらの問題に対して,統計学と計算学の両方の観点から基礎的限界を考察する。 具体的には、パラメータ $(n,k,q)$ や $\Gamma_k$ の特定の性質の観点から、構造を検出・復元するための下界を導出し、これらの下界を達成するための計算的に非有界な最適アルゴリズムを示す。 また,多項式時間におけるテストの問題についても検討する。 多くの類似した構造的高次元問題でよく見られるように、我々のモデルは「簡単なハード・イポーザブル」相転移を行い、計算の制約は統計的性能を著しく罰することができる。 この現象の証拠を提供するため,低次多項式アルゴリズムのクラスは,我々が開発した多項式時間アルゴリズムの統計的性能と一致することを示す。

We study the two inference problems of detecting and recovering an isolated community of \emph{general} structure planted in a random graph. The detection problem is formalized as a hypothesis testing problem, where under the null hypothesis, the graph is a realization of an Erd\H{o}s-R\'{e}nyi random graph $\mathcal{G}(n,q)$ with edge density $q\in(0,1)$; under the alternative, there is an unknown structure $\Gamma_k$ on $k$ nodes, planted in $\mathcal{G}(n,q)$, such that it appears as an \emph{induced subgraph}. In case of a successful detection, we are concerned with the task of recovering the corresponding structure. For these problems, we investigate the fundamental limits from both the statistical and computational perspectives. Specifically, we derive lower bounds for detecting/recovering the structure $\Gamma_k$ in terms of the parameters $(n,k,q)$, as well as certain properties of $\Gamma_k$, and exhibit computationally unbounded optimal algorithms that achieve these lower bounds. We also consider the problem of testing in polynomial-time. As is customary in many similar structured high-dimensional problems, our model undergoes an "easy-hard-impossible " phase transition and computational constraints can severely penalize the statistical performance. To provide an evidence for this phenomenon, we show that the class of low-degree polynomials algorithms match the statistical performance of the polynomial-time algorithms we develop.
翻訳日:2021-10-06 13:53:16 公開日:2021-10-05
# (参考訳) 探索的RLとフラグメントに基づく分子生成によるヒット・リード発見 [全文訳有]

Hit and Lead Discovery with Explorative RL and Fragment-based Molecule Generation ( http://arxiv.org/abs/2110.01219v2 )

ライセンス: CC BY 4.0
Soojung Yang and Doyeong Hwang and Seul Lee and Seongok Ryu and Sung Ju Hwang(参考訳) 近年, 強化学習(RL)を用いて, 望ましい性質を持つ分子を生成することが, 医薬品設計の有望な戦略として注目されている。 分子ドッキングプログラム(タンパク質-小分子結合親和性を推定する物理シミュレーション)は、治療電位の直接的なプロキシであるため、RLにとって理想的な報酬スコアリング機能である。 しかし、この課題には2つの課題が存在する。 第一に、モデルはしばしば化学的に現実的で薬理学的に許容される分子を生成できない。 第二に、ドッキングスコアの最適化は、分子構造に関して多くの局所最適かつより滑らかな表面を含む難しい探索問題である。 これらの課題に対処するために,ドッキングスコアが大きい薬理学的に許容される分子を生成する新しいRLフレームワークを提案する。 創薬経験リプレイ(freed: fragment-based generative rl with explorative experience replay for drug design) - 生成した分子をリアルで適格な化学空間に制限し、フラグメントベースの生成法と新しいエラー優先体験リプレイ(per)を結合して薬物発見の空間を効果的に探索する。 また,本モデルがデノボと足場に基づくスキームの両方で良好に動作することを示す。 本モデルでは, 既存の手法と比較して高い品質の分子を生成でき, 生成した分子のドッキングスコアの観点から, 3つの目標のうち2つにおいて最先端の性能を実現する。 さらに,提案手法である予測誤差PER(FREED(PE))がモデル性能を大幅に向上することを示す。

Recently, utilizing reinforcement learning (RL) to generate molecules with desired properties has been highlighted as a promising strategy for drug design. A molecular docking program - a physical simulation that estimates protein-small molecule binding affinity - can be an ideal reward scoring function for RL, as it is a straightforward proxy of the therapeutic potential. Still, two imminent challenges exist for this task. First, the models often fail to generate chemically realistic and pharmacochemically acceptable molecules. Second, the docking score optimization is a difficult exploration problem that involves many local optima and less smooth surfaces with respect to molecular structure. To tackle these challenges, we propose a novel RL framework that generates pharmacochemically acceptable molecules with large docking scores. Our method - Fragment-based generative RL with Explorative Experience replay for Drug design (FREED) - constrains the generated molecules to a realistic and qualified chemical space and effectively explores the space to find drugs by coupling our fragment-based generation method and a novel error-prioritized experience replay (PER). We also show that our model performs well on both de novo and scaffold-based schemes. Our model produces molecules of higher quality compared to existing methods while achieving state-of-the-art performance on two of three targets in terms of the docking scores of the generated molecules. We further show with ablation studies that our method, predictive error-PER (FREED(PE)), significantly improves the model performance.
翻訳日:2021-10-06 11:10:47 公開日:2021-10-05
# ローサム:インドの法律文書要約に関する弱い監督的アプローチ

LawSum: A weakly supervised approach for Indian Legal Document Summarization ( http://arxiv.org/abs/2110.01188v2 )

ライセンス: Link先を確認
Vedant Parikh, Vidit Mathur, Parth Metha, Namita Mittal, Prasenjit Majumder(参考訳) 西側諸国の裁判所とは異なり、インド司法の公的な記録は完全に非構造的でうるさい。 インドの法律文書の注釈付きデータセットは、現在まで存在しない。 これは法的分析研究の範囲を制限する。 本研究では,インド最高裁判所とそれに対応する手書き要約による1万件以上の判決からなる新たなデータセットを提案する。 提案されたデータセットは、一般的な法的略語を標準化し、名前付きエンティティの綴りのバリエーションを扱い、悪い句読点を扱い、正確な文のトークン化を行う。 各文は修辞的役割でタグ付けされる。 また、判決には日付、原告の名前、被告人、その代表者、判決を提出した裁判官、引用される行為・法令、そして判決を引用する最も一般的な引用など、いくつかの属性を注釈付けします。 さらに,要約に値する情報を持つ文を識別する自動ラベリング手法を提案する。 この自動ラベル付きデータは、弱教師付き文抽出器を高精度に訓練するのに有効であることを示す。 このデータセットの法的な文書要約以外のいくつかの応用は、特定の裁判官による決定の検索、引用分析、予測に応用できる。

Unlike the courts in western countries, public records of Indian judiciary are completely unstructured and noisy. No large scale publicly available annotated datasets of Indian legal documents exist till date. This limits the scope for legal analytics research. In this work, we propose a new dataset consisting of over 10,000 judgements delivered by the supreme court of India and their corresponding hand written summaries. The proposed dataset is pre-processed by normalising common legal abbreviations, handling spelling variations in named entities, handling bad punctuations and accurate sentence tokenization. Each sentence is tagged with their rhetorical roles. We also annotate each judgement with several attributes like date, names of the plaintiffs, defendants and the people representing them, judges who delivered the judgement, acts/statutes that are cited and the most common citations used to refer the judgement. Further, we propose an automatic labelling technique for identifying sentences which have summary worthy information. We demonstrate that this auto labeled data can be used effectively to train a weakly supervised sentence extractor with high accuracy. Some possible applications of this dataset besides legal document summarization can be in retrieval, citation analysis and prediction of decisions by a particular judge.
翻訳日:2021-10-06 10:50:29 公開日:2021-10-05
# 多様性Qアンサンブルを用いた不確実性に基づくオフライン強化学習

Uncertainty-Based Offline Reinforcement Learning with Diversified Q-Ensemble ( http://arxiv.org/abs/2110.01548v2 )

ライセンス: Link先を確認
Gaon An, Seungyong Moon, Jang-Hyun Kim, Hyun Oh Song(参考訳) オフライン強化学習(オフラインRL)は、以前に収集した静的データセットから最適なポリシーを見つけることを目的としており、オフ・オブ・ディストリビューション(OOD)データポイントからの関数近似誤差によるアルゴリズム上の困難を伴っている。 この目的のために、オフラインrlアルゴリズムは、与えられたデータセットに近づくようにポリシーを明示的に指示する制約またはペナルティ用語を採用する。 しかし、従来の手法では、行動ポリシーの正確な推定やoodデータポイントからのサンプリングが必要であり、それ自体は非自明な問題である。 さらに、これらの手法はディープニューラルネットワークの一般化能力を過小評価し、しばしば与えられたデータセットに近すぎる最適なサブ最適解に陥る。 本研究では,q値予測の信頼性を考慮し,データ分布の推定やサンプリングを必要としない,不確実性に基づくオフラインrl手法を提案する。 オンラインRLで広く使われているクリッピングQ-ラーニングは,高い予測不確実性を伴うOODデータポイントのペナルティ化に有効であることを示す。 意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。 そこで本研究では,d4rlベンチマークのほとんどにおいて最先端性能を実現しつつ,必要なアンサンブルネットワーク数を10分の1まで削減するアンサンブル分散アクタ-クリティックアルゴリズムを提案する。

Offline reinforcement learning (offline RL), which aims to find an optimal policy from a previously collected static dataset, bears algorithmic difficulties due to function approximation errors from out-of-distribution (OOD) data points. To this end, offline RL algorithms adopt either a constraint or a penalty term that explicitly guides the policy to stay close to the given dataset. However, prior methods typically require accurate estimation of the behavior policy or sampling from OOD data points, which themselves can be a non-trivial problem. Moreover, these methods under-utilize the generalization ability of deep neural networks and often fall into suboptimal solutions too close to the given dataset. In this work, we propose an uncertainty-based offline RL method that takes into account the confidence of the Q-value prediction and does not require any estimation or sampling of the data distribution. We show that the clipped Q-learning, a technique widely used in online RL, can be leveraged to successfully penalize OOD data points with high prediction uncertainties. Surprisingly, we find that it is possible to substantially outperform existing offline RL methods on various tasks by simply increasing the number of Q-networks along with the clipped Q-learning. Based on this observation, we propose an ensemble-diversified actor-critic algorithm that reduces the number of required ensemble networks down to a tenth compared to the naive ensemble while achieving state-of-the-art performance on most of the D4RL benchmarks considered.
翻訳日:2021-10-06 10:50:09 公開日:2021-10-05
# SimとReal: より良く連携する

Sim and Real: Better Together ( http://arxiv.org/abs/2110.00445v2 )

ライセンス: Link先を確認
Shirli Di Castro Shashua, Dotan Di Castro, Shie Mannor(参考訳) シミュレーションは自律システム、特にロボット操作で広く使われている。 これまでのところ、最も一般的なアプローチは、シミュレーションでコントローラをトレーニングし、それを実際のシステムの開始点として使うことである。 シミュレーションと実環境とのインタラクションの両方から同時に学習する方法を実証する。 本研究では,高スループットだがシミュレーション精度の低い多数のサンプルと,実環境からの低スループット・高忠実・高コストサンプルのバランスをとるアルゴリズムを提案する。 エージェントが相互作用する環境ごとにリプレイバッファを維持させることで、これを実現する。 このようなマルチ環境相互作用を理論的に解析し,新しい理論リプレイバッファ解析により収束特性を提供する。 実環境における本手法の有効性を実証する。

Simulation is used extensively in autonomous systems, particularly in robotic manipulation. By far, the most common approach is to train a controller in simulation, and then use it as an initial starting point for the real system. We demonstrate how to learn simultaneously from both simulation and interaction with the real environment. We propose an algorithm for balancing the large number of samples from the high throughput but less accurate simulation and the low-throughput, high-fidelity and costly samples from the real environment. We achieve that by maintaining a replay buffer for each environment the agent interacts with. We analyze such multi-environment interaction theoretically, and provide convergence properties, through a novel theoretical replay buffer analysis. We demonstrate the efficacy of our method on a sim-to-real environment.
翻訳日:2021-10-06 10:49:43 公開日:2021-10-05
# ブラックボックス学習アルゴリズムのための情報理論一般化境界

Information-theoreti c generalization bounds for black-box learning algorithms ( http://arxiv.org/abs/2110.01584v2 )

ライセンス: Link先を確認
Hrayr Harutyunyan, Maxim Raginsky, Greg Ver Steeg, Aram Galstyan(参考訳) 学習アルゴリズムの出力ではなく、予測に含まれる情報に基づいて教師付き学習アルゴリズムにおける情報理論的一般化境界を導出する。 これらの境界は、既存の情報理論境界よりも改善され、より広い範囲のアルゴリズムに適用でき、2つの重要な課題を解決する。 a)決定論的アルゴリズムに有意義な結果を与え (b)推定は極めて容易である。 深層学習における実用シナリオにおいて,提案する境界は一般化ギャップに密接に従っていることを実験的に示す。

We derive information-theoreti c generalization bounds for supervised learning algorithms based on the information contained in predictions rather than in the output of the training algorithm. These bounds improve over the existing information-theoreti c bounds, are applicable to a wider range of algorithms, and solve two key challenges: (a) they give meaningful results for deterministic algorithms and (b) they are significantly easier to estimate. We show experimentally that the proposed bounds closely follow the generalization gap in practical scenarios for deep learning.
翻訳日:2021-10-06 10:49:32 公開日:2021-10-05
# TLDR9+:ソーシャルメディア投稿の極端要約のための大規模リソース

TLDR9+: A Large Scale Resource for Extreme Summarization of Social Media Posts ( http://arxiv.org/abs/2110.01159v2 )

ライセンス: Link先を確認
Sajad Sotudeh, Hanieh Deilamsalehy, Franck Dernoncourt, Nazli Goharian(参考訳) 要約システムの開発における最近のモデルは、数百万のパラメータで構成されており、モデルの性能は、トレーニングデータの存在量に大きく依存している。 多くの既存の要約コーパスは数千万から100万のデータを格納しているが、大規模な要約データセットの生成は、まだ調査されていない。 実際、より多くのデータがトレーニングパターンを一般化し、見当たらないデータになる。 本稿では,reddit議論フォーラム(https://github.com/ sajastu/reddit_colle ctor)から抽出された900万以上のトレーニングインスタンスを含む,大規模な要約データセットであるtldr9+を紹介する。 このデータセットは、特に極端な要約を行うために収集され(例えば、高い圧縮と抽象化で1セント要約を生成する)、以前提案されたデータセットより2倍以上大きい。 さらに一歩進んで、人間のアノテーションの助けを借りて、TLDR9+からHigh-Qualityインスタンスをサンプリングし、TLDRHQデータセットと呼ぶことによって、よりきめ細かいデータセットを抽出します。 さらに,提案するデータセットに異なる最先端の要約モデルを示す。

Recent models in developing summarization systems consist of millions of parameters and the model performance is highly dependent on the abundance of training data. While most existing summarization corpora contain data in the order of thousands to one million, generation of large-scale summarization datasets in order of couple of millions is yet to be explored. Practically, more data is better at generalizing the training patterns to unseen data. In this paper, we introduce TLDR9+ -- a large-scale summarization dataset -- containing over 9 million training instances extracted from Reddit discussion forum (https://github.com/ sajastu/reddit_colle ctor). This dataset is specifically gathered to perform extreme summarization (i.e., generating one-sentence summary in high compression and abstraction) and is more than twice larger than the previously proposed dataset. We go one step further and with the help of human annotations, we distill a more fine-grained dataset by sampling High-Quality instances from TLDR9+ and call it TLDRHQ dataset. We further pinpoint different state-of-the-art summarization models on our proposed datasets.
翻訳日:2021-10-06 10:49:24 公開日:2021-10-05
# 鉱業地区と地域影響による時間ネットワークにおける帰納的表現学習

Inductive Representation Learning in Temporal Networks via Mining Neighborhood and Community Influences ( http://arxiv.org/abs/2110.00267v2 )

ライセンス: Link先を確認
Meng Liu, Yong Liu(参考訳) ネットワーク表現学習は、ノード分類やリンク予測などの下流機械学習タスクを容易にするネットワーク内の各ノードへの埋め込みを生成することを目的としている。 現在の研究は主にトランスダクティブネットワーク表現学習(すなわち、実世界のアプリケーションには適さない固定ノード埋め込みの生成)に焦点を当てている。 そこで本研究では,マイニング地区と時間ネットワークにおけるコミュニティの影響から,MNCIと呼ばれる新しい帰納的ネットワーク表現学習手法を提案する。 本研究では,地域の影響をコミュニティの影響と統合してノード埋め込みを生成するアグリゲータ関数を提案する。 複数の実世界のデータセットについて広範な実験を行い、ノード分類やネットワーク可視化など、様々なタスクにおけるmnciと最先端のベースライン手法を比較した。 実験の結果,MNCIはベースラインよりも優れた性能を示した。

Network representation learning aims to generate an embedding for each node in a network, which facilitates downstream machine learning tasks such as node classification and link prediction. Current work mainly focuses on transductive network representation learning, i.e. generating fixed node embeddings, which is not suitable for real-world applications. Therefore, we propose a new inductive network representation learning method called MNCI by mining neighborhood and community influences in temporal networks. We propose an aggregator function that integrates neighborhood influence with community influence to generate node embeddings at any time. We conduct extensive experiments on several real-world datasets and compare MNCI with several state-of-the-art baseline methods on various tasks, including node classification and network visualization. The experimental results show that MNCI achieves better performance than baselines.
翻訳日:2021-10-06 10:49:07 公開日:2021-10-05
# 低光画像強調のための適応展開全変分ネットワーク

Adaptive Unfolding Total Variation Network for Low-Light Image Enhancement ( http://arxiv.org/abs/2110.00984v2 )

ライセンス: Link先を確認
Chuanjun Zheng, Daming Shi, Wentian Shi(参考訳) 現実の低照度画像は、2つの大きな劣化、すなわち避けられないノイズと視界の低下に悩まされる。 ノイズは異なるレベルを示すため、生のバイエル空間から低光度画像を強調する最近の研究でその推定が実装されている。 sRGB色空間に関しては、画像処理パイプラインの影響によりノイズ推定がより複雑になる。 それでも、sRGB空間の既存の拡張アルゴリズムのほとんどは、低可視性の問題にのみ焦点をあてたり、仮説的雑音レベルの下でノイズを抑えることで、ロバスト性の欠如により非現実的となった。 この問題に対処するため,本研究では,モデルベースデノナイジング法において,全変分正則化を用いてバランスパラメータを学習することにより,実sRGB低照度画像からの雑音レベルを近似する適応展開全変分ネットワーク(UTVNet)を提案する。 一方,スムースネスと忠実度制約の推論を提供するために,対応する最小化プロセスを展開することで,雑音レベルマップを学習する。 ノイズレベルマップに導かれたutvnetは、より細かいディテールを復元でき、実際に撮影された低照度シーンでノイズを抑えることができます。 実世界の低照度画像に対する大規模な実験は、最先端の手法よりもUTVNetの優れた性能を示している。

Real-world low-light images suffer from two main degradations, namely, inevitable noise and poor visibility. Since the noise exhibits different levels, its estimation has been implemented in recent works when enhancing low-light images from raw Bayer space. When it comes to sRGB color space, the noise estimation becomes more complicated due to the effect of the image processing pipeline. Nevertheless, most existing enhancing algorithms in sRGB space only focus on the low visibility problem or suppress the noise under a hypothetical noise level, leading them impractical due to the lack of robustness. To address this issue,we propose an adaptive unfolding total variation network (UTVNet), which approximates the noise level from the real sRGB low-light image by learning the balancing parameter in the model-based denoising method with total variation regularization. Meanwhile, we learn the noise level map by unrolling the corresponding minimization process for providing the inferences of smoothness and fidelity constraints. Guided by the noise level map, our UTVNet can recover finer details and is more capable to suppress noise in real captured low-light scenes. Extensive experiments on real-world low-light images clearly demonstrate the superior performance of UTVNet over state-of-the-art methods.
翻訳日:2021-10-06 10:48:55 公開日:2021-10-05
# 情報理論変分グラフオートエンコーダを用いた分極ネットワークにおける教師なし信念表現学習

Unsupervised Belief Representation Learning in Polarized Networks with Information-Theoreti c Variational Graph Auto-Encoders ( http://arxiv.org/abs/2110.00210v2 )

ライセンス: Link先を確認
Jinning Li, Huajie Shao, Dachun Sun, Ruijie Wang, Jinyang Li, Shengzhong Liu, Hanghang Tong, Tarek Abdelzaher(参考訳) 本稿では、偏極ネットワークにおける信念表現学習のための新しい教師なしアルゴリズムを開発する。 (i)根底にある信仰空間の潜在次元を明らかにすることと 二 ユーザとコンテンツアイテム(それらと相互作用する)を共同でその空間に埋め込むことにより、姿勢検出、姿勢予測、イデオロギーマッピングなどの下流業務を容易にする。 情報理論における全相関に着想を得て,ユーザとコンテンツ項目(例えば,ユーザビューを表すポスト)を適切な不連続潜在空間に投影することを学ぶ情報理論的変分グラフ自動エンコーダ(infovgae)を提案する。 この空間の直交潜伏変数をよりよく非角化するために、全相関正則化、PI制御モジュールを開発し、潜伏空間に対して正則ガウス分布を採用する。 ユーザとコンテンツの潜在表現は、イデオロギー的な傾きを定量化し、問題に対するスタンスを検出/予測するために使うことができる。 提案したInfoVGAEを実世界の3つのデータセットで評価し,そのうち2つはTwitterから,1つは米国議会の投票記録から収集した。 評価の結果,我々のモデルは最先端の教師なしモデルよりも優れており,教師付きモデルと同等の結果が得られた。 また,イデオロギーグループ内での姿勢予測やユーザランキングについても論じる。

This paper develops a novel unsupervised algorithm for belief representation learning in polarized networks that (i) uncovers the latent dimensions of the underlying belief space and (ii) jointly embeds users and content items (that they interact with) into that space in a manner that facilitates a number of downstream tasks, such as stance detection, stance prediction, and ideology mapping. Inspired by total correlation in information theory, we propose a novel Information-Theoreti c Variational Graph Auto-Encoder (InfoVGAE) that learns to project both users and content items (e.g., posts that represent user views) into an appropriate disentangled latent space. In order to better disentangle orthogonal latent variables in that space, we develop total correlation regularization, PI control module, and adopt rectified Gaussian Distribution for the latent space. The latent representation of users and content can then be used to quantify their ideological leaning and detect/predict their stances on issues. We evaluate the performance of the proposed InfoVGAE on three real-world datasets, of which two are collected from Twitter and one from U.S. Congress voting records. The evaluation results show that our model outperforms state-of-the-art unsupervised models and produce comparable result with supervised models. We also discuss stance prediction and user ranking within ideological groups.
翻訳日:2021-10-06 10:48:32 公開日:2021-10-05
# 新型コロナウイルスパンデミック時のスマートフォン使用状況の変化とアプリ利用嗜好との関連性の解析

Analysis of the relation between smartphone usage changes during the COVID-19 pandemic and usage preferences on apps ( http://arxiv.org/abs/2110.01331v2 )

ライセンス: Link先を確認
Yuxuan Yang and Maiko Shigeno(参考訳) 世界保健機関(who)は2020年3月に新型コロナウイルス(covid-19)パンデミック(covid-19)を発表した。 人々の生活に多大な影響を与えた。 本稿では,スマートフォンのアプリケーション利用の変化を利用して,パンデミックが人々の生活に与える影響を観察し分析する。 まず、パンデミック中の全利用者の日次利用変化傾向を観察することにより、パンデミック時の制限措置や政策が人々の生活に与える影響を理解し、分析することができる。 また、将来的なパンデミックの場合には、政府や保健省がより適切な規制措置を取ることも有益である。 第2に,使用変化の特徴を定義した上で,パンデミック時の使用変化パターンを,クラスタ毎に9つに分類し,日常的利用変化の多様性を示す。 パンデミックの異なる影響を理解し分析し、異なるタイプの人々に対する制限的な措置をより詳細に分析するのに役立つ。 最後に, 予測モデルにより, 利用者の好みや人口統計情報から, 各利用変化タイプの主な関連要因を見出す。 今後パンデミックや他の制限措置が実施されれば、スマートフォンのアクティビティの変化を予測するのに役立ち、措置やイベントのリスクを判断し、管理する新たな指標となる可能性がある。

Since the World Health Organization announced the COVID-19 pandemic in March 2020, curbing the spread of the virus has become an international priority. It has greatly affected people's lifestyles. In this article, we observe and analyze the impact of the pandemic on people's lives using changes in smartphone application usage. First, through observing the daily usage change trends of all users during the pandemic, we can understand and analyze the effects of restrictive measures and policies during the pandemic on people's lives. In addition, it is also helpful for the government and health departments to take more appropriate restrictive measures in the case of future pandemics. Second, we defined the usage change features and found 9 different usage change patterns during the pandemic according to clusters of users and show the diversity of daily usage changes. It helps to understand and analyze the different impacts of the pandemic and restrictive measures on different types of people in more detail. Finally, according to prediction models, we discover the main related factors of each usage change type from user preferences and demographic information. It helps to predict changes in smartphone activity during future pandemics or when other restrictive measures are implemented, which may become a new indicator to judge and manage the risks of measures or events.
翻訳日:2021-10-06 10:48:06 公開日:2021-10-05
# 分極調整畳み込み(PAC)符号のレートプロファイリングのための修正Q学習アルゴリズム

A Modified Q-Learning Algorithm for Rate-Profiling of Polarization Adjusted Convolutional (PAC) Codes ( http://arxiv.org/abs/2110.01563v2 )

ライセンス: Link先を確認
Samir Kumar Mishra, Digvijay Katyal and Sarvesha Anegundi Ganapathi(参考訳) 本稿では,arikanの分極支援畳み込み符号(pac)のレートプロファイル構築のための強化学習に基づくアルゴリズムを提案する。 この方法は、逐次キャンセルリスト(SCL)デコードおよび畳み込みプリコーディング多項式の任意のブロック長、レート、リストサイズに使用できる。 我々の知識を最大限に活用するために、我々は、強化学習エージェントが既存の文献よりもはるかに優れた利率を見出すのに役立つ新しい報酬と更新戦略を初めて提示する。 シミュレーションの結果,提案アルゴリズムを用いて構築したPAC符号は,様々なリスト長に対して,現代のレートプロファイリング設計で構築したPAC符号と比較して,フレーム消去率(FER)の点で優れていた。 さらに、(64, 32)のPAC符号を例として使用することにより、畳み込みプリコーディング多項式の選択がPAC符号のレートに顕著な影響があることが示されている。

In this paper, we propose a reinforcement learning based algorithm for rate-profile construction of Arikan's Polarization Assisted Convolutional (PAC) codes. This method can be used for any blocklength, rate, list size under successive cancellation list (SCL) decoding and convolutional precoding polynomial. To the best of our knowledge, we present, for the first time, a set of new reward and update strategies which help the reinforcement learning agent discover much better rate-profiles than those present in existing literature. Simulation results show that PAC codes constructed with the proposed algorithm perform better in terms of frame erasure rate (FER) compared to the PAC codes constructed with contemporary rate profiling designs for various list lengths. Further, by using a (64, 32) PAC code as an example, it is shown that the choice of convolutional precoding polynomial can have a significant impact on rate-profile construction of PAC codes.
翻訳日:2021-10-06 10:47:44 公開日:2021-10-05
# クエリを用いたランダムサブグラフ検出

Random Subgraph Detection Using Queries ( http://arxiv.org/abs/2110.00744v2 )

ライセンス: Link先を確認
Wasim Huleihel and Arya Mazumdar and Soumyabrata Pal(参考訳) 植込み高密度部分グラフ検出問題は、与えられた(ランダム)グラフに異常に密度の高い部分グラフが存在するかどうかをテストするタスクを指す。 具体的には、$n$ノード上の非方向および非重み付きグラフを観察します。 ヌル仮説の下で、グラフは erd\h{o}s-r\'{e}nyi グラフのエッジ確率(または密度) $q$ による実現である。 代替案として、k$頂点にエッジ確率$p>q$のサブグラフがある。 この問題の統計的および計算的障壁は、広範囲のエッジパラメーター $p$ と $q$ についてよく理解されている。 本稿では,適応的なエッジクエリを用いて,グラフのごく一部しか観測できない,上記の問題の自然な変形について考察する。 そこで,本モデルでは,植込みされたサブグラフの存在を検出するのに必要なクエリ数が決定される。 具体的には、任意の(確率的にランダム化された)アルゴリズムは、$\mathsf{Q} = \Omega(\frac{n^2}{k^2\chi^4(p||q)}\log^2n)$のグラフの隣接行列への適応的クエリを1/2$以上の確率で検出し、$\chi^2(p||q)$がChi-Square距離であることを示す。 一方,準多項時間アルゴリズムを考案し,$\mathsf{q} = o(\frac{n^2}{k^2\chi^4(p||q)}\log^2n)$適応クエリを用いて,高い確率で植込み部分グラフを求める。 次に,$\mathsf{q} = o(\frac{n^4}{k^4\chi^2(p||q)}\log n)$クエリを用いて植込み部分グラフを検出する多項式時間アルゴリズムを提案する。 我々は、$\frac{n^2}{k^2}\ll\mathsf{Q}\ll \frac{n^4}{k^4}$の場合、多項式時間アルゴリズムは存在しないと推測する。 本研究は, 植樹されたクランクを適応的に検出し, 回収する特別のケースを考慮し, 以下の3つの疑問を解決した。

The planted densest subgraph detection problem refers to the task of testing whether in a given (random) graph there is a subgraph that is unusually dense. Specifically, we observe an undirected and unweighted graph on $n$ nodes. Under the null hypothesis, the graph is a realization of an Erd\H{o}s-R\'{e}nyi graph with edge probability (or, density) $q$. Under the alternative, there is a subgraph on $k$ vertices with edge probability $p>q$. The statistical as well as the computational barriers of this problem are well-understood for a wide range of the edge parameters $p$ and $q$. In this paper, we consider a natural variant of the above problem, where one can only observe a small part of the graph using adaptive edge queries. For this model, we determine the number of queries necessary and sufficient for detecting the presence of the planted subgraph. Specifically, we show that any (possibly randomized) algorithm must make $\mathsf{Q} = \Omega(\frac{n^2}{k^2\chi^4(p||q)}\log^2n)$ adaptive queries (on expectation) to the adjacency matrix of the graph to detect the planted subgraph with probability more than $1/2$, where $\chi^2(p||q)$ is the Chi-Square distance. On the other hand, we devise a quasi-polynomial-tim e algorithm that finds the planted subgraph with high probability by making $\mathsf{Q} = O(\frac{n^2}{k^2\chi^4(p||q)}\log^2n)$ adaptive queries. We then propose a polynomial-time algorithm which is able to detect the planted subgraph using $\mathsf{Q} = O(\frac{n^4}{k^4\chi^2(p||q)}\log n)$ queries. We conjecture that in the leftover regime, where $\frac{n^2}{k^2}\ll\mathsf{Q}\ll \frac{n^4}{k^4}$, no polynomial-time algorithms exist; we give an evidence for this hypothesis using the planted clique conjecture. Our results resolve three questions posed in \cite{racz2020finding}, where the special case of adaptive detection and recovery of a planted clique was considered.
翻訳日:2021-10-06 10:47:28 公開日:2021-10-05