このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210510となっている論文です。

PDF登録状況(公開日: 20210510)

TitleAuthorsAbstract論文公表日・翻訳日
# レジリエント配電系統における実時間サービス復旧のためのハイブリッド模倣学習

Hybrid Imitation Learning for Real-Time Service Restoration in Resilient Distribution Systems ( http://arxiv.org/abs/2011.14458v3 )

ライセンス: Link先を確認
Yichen Zhang and Feng Qiu and Tianqi Hong and Zhaoyu Wang and Fangxing Li(参考訳) 自己修復能力は、ネットワーク再構成やリアクティブ電源のディスパッチなど、インテリジェントエージェントがオンラインで再利用可能なアクションを自動的に実行する必要があるレジリエントな分散システムにとって、最も重要な要素の1つだ。 これらのエージェントは、リアルタイム要件を満たし、非常に複雑な$N-k$シナリオを処理するために、事前に設計された決定ポリシーを備えるべきである。 乱れランダム性は、従来の強化学習(rl)のような探索優位アルゴリズムの適用を妨げ、n-k$シナリオのエージェントトレーニング問題は、完全には解決されていない。 本稿では,エージェントが専門家と対話してその最適方針を学習し,RL法と比較してトレーニング効率を著しく向上する,このような政策を訓練するための模倣学習(IL)フレームワークを提案する。 タイライン操作とリアクティブ電力供給を同時に扱うために,このような離散連続ハイブリッドアクション空間のためのハイブリッドポリシネットワークを設計する。 提案手法の検証には,33ノードを$N-k$外乱で行う。

Self-healing capability is one of the most critical factors for a resilient distribution system, which requires intelligent agents to automatically perform restorative actions online, including network reconfiguration and reactive power dispatch. These agents should be equipped with a predesigned decision policy to meet real-time requirements and handle highly complex $N-k$ scenarios. The disturbance randomness hampers the application of exploration-dominant algorithms like traditional reinforcement learning (RL), and the agent training problem under $N-k$ scenarios has not been thoroughly solved. In this paper, we propose the imitation learning (IL) framework to train such policies, where the agent will interact with an expert to learn its optimal policy, and therefore significantly improve the training efficiency compared with the RL methods. To handle tie-line operations and reactive power dispatch simultaneously, we design a hybrid policy network for such a discrete-continuous hybrid action space. We employ the 33-node system under $N-k$ disturbances to verify the proposed framework.
翻訳日:2021-06-07 08:54:38 公開日:2021-05-10
# (参考訳) 波浪負荷予測のためのグレイボックスモデル [全文訳有]

Grey-box models for wave loading prediction ( http://arxiv.org/abs/2105.13813v1 )

ライセンス: CC BY 4.0
Daniel J Pitchforth, Timothy J Rogers, Ulf T Tygesen, Elizabeth J Cross(参考訳) 沖合構造物および構成要素の波浪荷重の定量化は,その有効余命の評価において重要な要素である。 多くの応用において、よく知られたモリソン方程式は、粒子速度と加速度を仮定した波からの強制を推定するために用いられる。 本稿では,構造部材の力の予測を改善するため,グレーボックスモデリング手法を開発した。 グレーボックスモデルは、システムの振る舞いに関する物理的な洞察を維持しながら、データベースのモデリングの強化された予測能力を活用することを目的としている。 グレーボックスモデルを確立するための方法はいくつか考えられる。 本稿では、物理(ホワイトボックス)とデータベース(ブラックボックス)を組み合わせる2つの方法を示す。1つは、モデルが2つのコンポーネントの単純な総和であり、もう1つは、ホワイトボックス予測が追加入力としてブラックボックスに供給される方法である。 ここでモリソンの方程式は、よりよく知られたガウス過程回帰の動的変種であるデータベースのガウス過程 NARX と組み合わせて物理学ベースの成分として用いられる。 ここで取り組まれるgp-narx定式化を用いる際の2つの重要な課題は、適切なラグ項の選択と動的gp内の不確実性伝播の適切な処理である。 最高のグレーボックスモデルである残差モデルGP-NARXは、データセットのカバレッジが低い状況下で、モデルの外挿能力に大きな利点とともに、モリソン方程式とブラックボックスGP-NARXよりもNMSEの29.13\%と5.48\%の相対的な減少を達成することができた。

The quantification of wave loading on offshore structures and components is a crucial element in the assessment of their useful remaining life. In many applications the well-known Morison's equation is employed to estimate the forcing from waves with assumed particle velocities and accelerations. This paper develops a grey-box modelling approach to improve the predictions of the force on structural members. A grey-box model intends to exploit the enhanced predictive capabilities of data-based modelling whilst retaining physical insight into the behaviour of the system; in the context of the work carried out here, this can be considered as physics-informed machine learning. There are a number of possible approaches to establish a grey-box model. This paper demonstrates two means of combining physics (white box) and data-based (black box) components; one where the model is a simple summation of the two components, the second where the white-box prediction is fed into the black box as an additional input. Here Morison's equation is used as the physics-based component in combination with a data-based Gaussian process NARX - a dynamic variant of the more well-known Gaussian process regression. Two key challenges with employing the GP-NARX formulation that are addressed here are the selection of appropriate lag terms and the proper treatment of uncertainty propagation within the dynamic GP. The best performing grey-box model, the residual modelling GP-NARX, was able to achieve a 29.13\% and 5.48\% relative reduction in NMSE over Morison's Equation and a black-box GP-NARX respectively, alongside significant benefits in extrapolative capabilities of the model, in circumstances of low dataset coverage.
翻訳日:2021-06-06 11:41:50 公開日:2021-05-10
# ニューラルネットワークによるビデオ分析システムの性能最適化に関する調査

A Survey of Performance Optimization in Neural Network-Based Video Analytics Systems ( http://arxiv.org/abs/2105.14195v1 )

ライセンス: Link先を確認
Nada Ibrahim, Preeti Maurya, Omid Jafari, Parth Nagarkar(参考訳) ビデオ分析システムは、ビデオ内で自動イベント、動き、アクション認識を実行し、ビデオ上でクエリを実行可能にする。 大量のビデオデータを処理する必要があるため、ビデオ分析システムの性能を最適化することが重要な研究課題となっている。 ニューラルネットワークは、ビデオアノテーションやオブジェクト検出などのビデオ分析タスクを実行するための最先端技術である。 先行調査では,結果の精度を向上させるためのアプリケーション固有のビデオ分析技術を検討するが,本研究ではニューラルネットワークに基づくビデオ分析システムの性能最適化に重点を置く技術について概説する。

Video analytics systems perform automatic events, movements, and actions recognition in a video and make it possible to execute queries on the video. As a result of a large number of video data that need to be processed, optimizing the performance of video analytics systems has become an important research topic. Neural networks are the state-of-the-art for performing video analytics tasks such as video annotation and object detection. Prior survey papers consider application-specific video analytics techniques that improve accuracy of the results; however, in this survey paper, we provide a review of the techniques that focus on optimizing the performance of Neural Network-Based Video Analytics Systems.
翻訳日:2021-06-06 08:49:29 公開日:2021-05-10
# (参考訳) 決定論における量子不確かさ [全文訳有]

Quantum Uncertainty in Decision Theory ( http://arxiv.org/abs/2105.07877v1 )

ライセンス: CC BY 4.0
V.I. Yukalov(参考訳) 決定理論を量子技術に基づく確率論として扱うアプローチが提示される。 正確な定義が与えられ、異なる選択肢の選択を記述する量子確率、条件付き量子確率を特徴付ける逐次的代替、意思決定の合理的-非理的双対性を考慮した行動的量子確率について徹底的な解析が行われる。 量子確率と古典確率の比較について述べる。 この分析は、量子確率が、心理的行動の影響を含む様々な意思決定状況を特徴づける、本質的により強力なツールであることを示した。

An approach is presented treating decision theory as a probabilistic theory based on quantum techniques. Accurate definitions are given and thorough analysis is accomplished for the quantum probabilities describing the choice between separate alternatives, sequential alternatives characterizing conditional quantum probabilities, and behavioral quantum probabilities taking into account rational-irrational duality of decision making. The comparison between quantum and classical probabilities is explained. The analysis demonstrates that quantum probabilities serve as an essentially more powerful tool of characterizing various decision-making situations including the influence of psychological behavioral effects.
翻訳日:2021-05-20 07:23:59 公開日:2021-05-10
# (参考訳) 新型コロナウイルス(covid-19)世界における小売業の課題と現実 : 機械学習(austriaを事例として)による危機キーワードの識別

The challenges and realities of retailing in a COVID-19 world: Identifying trending and Vital During Crisis keywords during Covid-19 using Machine Learning (Austria as a case study) ( http://arxiv.org/abs/2105.07876v1 )

ライセンス: CC BY 4.0
Reda Mastouri Et Al., Joseph Gilkey(参考訳) 世界的なパンデミックから地政学的な混乱まで、物流、製品配分、調達、運用のリーダーたちは、サプライチェーンの脆弱性から組織を守ることの難しさに直面している。 将来予測の監査は季節性を重視しているため、トレンドベースのベンチマークに対する予測を選択することが推奨されている。 予測モデルは、サプライチェーン全体をエンドツーエンドでリアルタイムに監視し、予測分析と人工知能を活用して、発生前の潜在的破壊を識別する。 内部と外部のデータポイントを組み合わせることで、AI対応のモデリングエンジンが登場すれば、小売企業が供給と需要の変動に積極的に対応できるようにすることで、リスクを大幅に削減できる。 本研究は、サプライチェーン、製品アロケーション、トレンド、季節性に対するCOVID-19の影響に対処する、巧妙な方法の創出に焦点をあてる。 主な言葉:サプライチェーン、コビッド-19、予測、新型コロナウイルス、製造、季節性、トレンド、小売。

From global pandemics to geopolitical turmoil, leaders in logistics, product allocation, procurement and operations are facing increasing difficulty with safeguarding their organizations against supply chain vulnerabilities. It is recommended to opt for forecasting against trending based benchmark because auditing a future forecast puts more focus on seasonality. The forecasting models provide with end-to-end, real time oversight of the entire supply chain, while utilizing predictive analytics and artificial intelligence to identify potential disruptions before they occur. By combining internal and external data points, coming up with an AI-enabled modelling engine can greatly reduce risk by helping retail companies proactively respond to supply and demand variability. This research paper puts focus on creating an ingenious way to tackle the impact of COVID19 on Supply chain, product allocation, trending and seasonality. Key words: Supply chain, covid-19, forecasting, coronavirus, manufacturing, seasonality, trending, retail.
翻訳日:2021-05-20 07:13:04 公開日:2021-05-10
# (参考訳) Digital Gimbal: 学習可能な露光時間によるエンドツーエンドの深部画像安定化 [全文訳有]

Digital Gimbal: End-to-end Deep Image Stabilization with Learnable Exposure Times ( http://arxiv.org/abs/2012.04515v3 )

ライセンス: CC BY 4.0
Omer Dahary, Matan Jacoby, Alex M. Bronstein(参考訳) アクティベーションジンバルを用いた機械的画像安定化により、カメラの動きによるぼやけに苦しむことなく長時間露光撮影が可能となる。 しかし、これらのデバイスは物理的に煩雑で高価であり、使用が制限されることが多い。 本研究では,高速非安定化カメラの入力から機械的に安定化したシステムをディジタルエミュレートすることを提案する。 長時間露光時の動きのぼかしと短時間露光時の低SNRとの間のトレードオフを生かし、未知の動きに関連するノイズの多い短露光フレームのバーストを集約することにより、鋭い高SNR像を推定するCNNを訓練する。 さらに,バーストの露光時間をエンドツーエンドで学習し,フレーム間のノイズとぼやきのバランスをとることを提案する。 本手法は,合成データと実データの両方に固定露光バーストを付与する従来の手法よりも優れていることを示す。

Mechanical image stabilization using actuated gimbals enables capturing long-exposure shots without suffering from blur due to camera motion. These devices, however, are often physically cumbersome and expensive, limiting their widespread use. In this work, we propose to digitally emulate a mechanically stabilized system from the input of a fast unstabilized camera. To exploit the trade-off between motion blur at long exposures and low SNR at short exposures, we train a CNN that estimates a sharp high-SNR image by aggregating a burst of noisy short-exposure frames, related by unknown motion. We further suggest learning the burst's exposure times in an end-to-end manner, thus balancing the noise and blur across the frames. We demonstrate this method's advantage over the traditional approach of deblurring a single image or denoising a fixed-exposure burst on both synthetic and real data.
翻訳日:2021-05-17 04:31:10 公開日:2021-05-10
# ニューラルマシン翻訳のための書き直し-評価器アーキテクチャ

Rewriter-Evaluator Architecture for Neural Machine Translation ( http://arxiv.org/abs/2012.05414v4 )

ライセンス: Link先を確認
Yangming Li, Kaisheng Yao(参考訳) エンコーダデコーダはneural machine translation (nmt) で広く使われている。 複数のデコードで改善する手法が提案されている。 しかし、それらの潜在能力は適切な終了政策の欠如によって制限される。 本稿では,新しいアーキテクチャであるRewriter-Evaluatorを提案する。 リライターと評価者で構成される。 原文の翻訳には複数のパスが含まれる。 毎回、書き換え者は過去の翻訳を改善するために新しい翻訳を作成し、評価者は翻訳品質を推定し、書き換えプロセスを終了させるかどうかを決定する。 また,リライタと評価器を協調的にトレーニングするための優先順位付け勾配降下(PGD)を提案する。 複数パスの復号を行うが,提案したPGD法による復号器は,エンコーダ・復号器モデルの訓練と同様の時間で訓練することができる。 提案したアーキテクチャを一般的なNMTモデル(Transformerなど)の改善に適用する。 我々は、中国語と英語とドイツ語の2つの翻訳タスクについて広範な実験を行い、提案アーキテクチャがNTTモデルの性能を著しく改善し、以前のベースラインを大幅に上回っていることを示す。

Encoder-decoder has been widely used in neural machine translation (NMT). A few methods have been proposed to improve it with multiple passes of decoding. However, their full potential is limited by a lack of appropriate termination policies. To address this issue, we present a novel architecture, Rewriter-Evaluator. It consists of a rewriter and an evaluator. Translating a source sentence involves multiple passes. At every pass, the rewriter produces a new translation to improve the past translation and the evaluator estimates the translation quality to decide whether to terminate the rewriting process. We also propose prioritized gradient descent (PGD) that facilitates training the rewriter and the evaluator jointly. Though incurring multiple passes of decoding, Rewriter-Evaluator with the proposed PGD method can be trained with a similar time to that of training encoder-decoder models. We apply the proposed architecture to improve the general NMT models (e.g., Transformer). We conduct extensive experiments on two translation tasks, Chinese-English and English-German, and show that the proposed architecture notably improves the performances of NMT models and significantly outperforms previous baselines.
翻訳日:2021-05-15 06:28:49 公開日:2021-05-10
# 計量空間における弱凸集合の学習

Learning Weakly Convex Sets in Metric Spaces ( http://arxiv.org/abs/2105.06251v1 )

ライセンス: Link先を確認
Eike Stadtl\"ander, Tam\'as Horv\'ath, Stefan Wrobel(参考訳) 本稿では,機械学習においてよく用いられる一般凸性の一般化である距離空間における弱凸の概念を紹介する。 弱凸集合は閉作用素によって特徴づけられ、一意な分解をペアワイズ不連結ブロックの集合に持つことが示されている。 弱凸概念を学習し、それらの形式的性質を研究するために、拡張型とインテンション型という2つの汎用的効率的なアルゴリズムを与える。 頂点分類に関する実験結果から,拡張アルゴリズムの優れた予測性能が明らかとなった。 インテンショナルアルゴリズムの多項式PAC学習性に対する2つの非自明な応用を示す。 最初の1つは$k$-convex boolean関数の学習を扱っており、これは既にpac-learnableとして知られている。 汎用インテンションアルゴリズムを用いて, この正の結果を比較的容易に導出する方法を示す。 2つ目は、マンハッタン距離を備えたユークリッド空間に関するものである。 この距離空間に対して、弱凸集合は対に非随伴な軸方向の超矩形からなる和である。 弱凸集合が一組の例と一致し、多項式時間内に最小数の超矩形を含むことを示す。 対照的に、超矩形が重なり合う場合、この問題はNP完全であることが知られている。

We introduce the notion of weak convexity in metric spaces, a generalization of ordinary convexity commonly used in machine learning. It is shown that weakly convex sets can be characterized by a closure operator and have a unique decomposition into a set of pairwise disjoint connected blocks. We give two generic efficient algorithms, an extensional and an intensional one for learning weakly convex concepts and study their formal properties. Our experimental results concerning vertex classification clearly demonstrate the excellent predictive performance of the extensional algorithm. Two non-trivial applications of the intensional algorithm to polynomial PAC-learnability are presented. The first one deals with learning $k$-convex Boolean functions, which are already known to be efficiently PAC-learnable. It is shown how to derive this positive result in a fairly easy way by the generic intensional algorithm. The second one is concerned with the Euclidean space equipped with the Manhattan distance. For this metric space, weakly convex sets are a union of pairwise disjoint axis-aligned hyperrectangles. We show that a weakly convex set that is consistent with a set of examples and contains a minimum number of hyperrectangles can be found in polynomial time. In contrast, this problem is known to be NP-complete if the hyperrectangles may be overlapping.
翻訳日:2021-05-14 14:12:50 公開日:2021-05-10
# 信頼できないクライアントによるフェデレーション学習:パフォーマンス分析とメカニズム設計

Federated Learning with Unreliable Clients: Performance Analysis and Mechanism Design ( http://arxiv.org/abs/2105.06256v1 )

ライセンス: Link先を確認
Chuan Ma, Jun Li, Ming Ding, Kang Wei, Wen Chen and H. Vincent Poor(参考訳) 通信コストの低減とプライバシの促進のため、フェデレートラーニング(FL)は分散クライアント間で効果的な機械学習モデルをトレーニングするための有望なツールとなっている。 しかし、分散アーキテクチャでは、低品質のモデルを信頼性の低いクライアントによってアグリゲータサーバにアップロードすることができ、劣化やトレーニングの失敗につながる。 本稿では,クライアントの信頼できない動作をモデル化し,このようなセキュリティリスクを緩和するための防御メカニズムを提案する。 具体的には,勾配降下更新に基づく損失関数の収束上限を導出することにより,信頼できないクライアントによるモデルへの影響を最初に検討する。 我々の理論的境界は、総計算資源の固定量により、収束性能の点で最適な局所訓練繰り返し数が存在することを示している。 さらに、ディープニューラルネットワークに基づくセキュアアグリゲーション(DeepSA)という新しい防御機構を設計する。 実験結果は理論解析を検証する。 また,DeepSAの有効性は,他の最先端防御機構との比較により検証した。

Owing to the low communication costs and privacy-promoting capabilities, Federated Learning (FL) has become a promising tool for training effective machine learning models among distributed clients. However, with the distributed architecture, low quality models could be uploaded to the aggregator server by unreliable clients, leading to a degradation or even a collapse of training. In this paper, we model these unreliable behaviors of clients and propose a defensive mechanism to mitigate such a security risk. Specifically, we first investigate the impact on the models caused by unreliable clients by deriving a convergence upper bound on the loss function based on the gradient descent updates. Our theoretical bounds reveal that with a fixed amount of total computational resources, there exists an optimal number of local training iterations in terms of convergence performance. We further design a novel defensive mechanism, named deep neural network based secure aggregation (DeepSA). Our experimental results validate our theoretical analysis. In addition, the effectiveness of DeepSA is verified by comparing with other state-of-the-art defensive mechanisms.
翻訳日:2021-05-14 13:47:54 公開日:2021-05-10
# (参考訳) 深層マルチインスタンス学習による細胞形態に基づくsars-cov-2に対する薬効評価 [全文訳有]

DEEMD: Drug Efficacy Estimation against SARS-CoV-2 based on cell Morphology with Deep multiple instance learning ( http://arxiv.org/abs/2105.05758v1 )

ライセンス: CC BY-SA 4.0
M.Sadegh Saberian, Kathleen P. Moriarty, Andrea D. Olmstead, Ivan R. Nabi, Fran\c{c}ois Jean, Maxwell W. Libbrecht, Ghassan Hamarneh(参考訳) 薬物再精製はSARS-CoV-2に対する有効化合物の同定を加速し、既存の臨床安全データと確立されたサプライチェーンの利点を生かす。 SARS-CoV-2のようなRNAウイルスは細胞経路を操作し、そのライフサイクルを支えるために細胞内構造を再編成する。 これらの形態変化はバイオイメージング技術を用いて定量化することができる。 本研究では、複数のインスタンス学習(MIL)フレームワーク内でディープニューラルネットワークモデルを用いた計算パイプラインDEMDを開発し、公開されているRxRx19aデータセットの形態解析に基づいて、SARS-CoV-2に対して有効な仮定的処理を同定した。 このデータセットは、SARS-CoV-2非感染細胞と感染細胞の蛍光顕微鏡画像と、薬物治療の有無による。 deemdはまず識別的形態学的特徴を抽出し、非感染細胞および感染細胞から細胞形態学的プロファイルを生成する。 これらの形態学的プロファイルは、非感染細胞との類似性に基づいて、感染した細胞に対する治療効果を推定するために統計モデルで使用される。 DEEMDは、高価なピクセルレベルのアノテーションを使わずに、弱い監視によって感染した細胞をローカライズすることができる。 DEEMDはRemdesivirやAloxistatinなどのSARS-CoV-2阻害剤を同定し、我々のアプローチの有効性を裏付ける。 DEEMDは何千もの治療法を並列に処理し、スクリーニングするスケーラブルで、他の新興ウイルスやデータセットを探索して、将来的には候補となる抗ウイルス治療を迅速に特定することができる。

Drug repurposing can accelerate the identification of effective compounds for clinical use against SARS-CoV-2, with the advantage of pre-existing clinical safety data and an established supply chain. RNA viruses such as SARS-CoV-2 manipulate cellular pathways and induce reorganization of subcellular structures to support their life cycle. These morphological changes can be quantified using bioimaging techniques. In this work, we developed DEEMD: a computational pipeline using deep neural network models within a multiple instance learning (MIL) framework, to identify putative treatments effective against SARS-CoV-2 based on morphological analysis of the publicly available RxRx19a dataset. This dataset consists of fluorescence microscopy images of SARS-CoV-2 non-infected cells and infected cells, with and without drug treatment. DEEMD first extracts discriminative morphological features to generate cell morphological profiles from the non-infected and infected cells. These morphological profiles are then used in a statistical model to estimate the applied treatment efficacy on infected cells based on similarities to non-infected cells. DEEMD is capable of localizing infected cells via weak supervision without any expensive pixel-level annotations. DEEMD identifies known SARS-CoV-2 inhibitors, such as Remdesivir and Aloxistatin, supporting the validity of our approach. DEEMD is scalable to process and screen thousands of treatments in parallel and can be explored for other emerging viruses and datasets to rapidly identify candidate antiviral treatments in the future.
翻訳日:2021-05-14 02:57:15 公開日:2021-05-10
# (参考訳) ランダムな温度再起動機構とNesterov運動量改善に基づく逆例攻撃 [全文訳有]

Adversarial examples attack based on random warm restart mechanism and improved Nesterov momentum ( http://arxiv.org/abs/2105.05029v1 )

ライセンス: CC BY 4.0
Tiangang Li(参考訳) 深層学習アルゴリズムはコンピュータビジョンの分野で大きな成功を収めているが、いくつかの研究は、深層学習モデルは敵の例を攻撃し、誤った判断に弱いことを指摘している。 このことは深層学習のさらなる発展に挑戦し、敵の事例攻撃と深層学習のセキュリティとの関係により多くの注意を払うよう研究者に促す。 本研究は, 対向例に着目し, 対向ロバスト性の観点から対向例の生成を最適化し, 対向例に付加される摂動を最適化パラメータとする。 本稿では,ランダムウォームリスタート機構に基づくrwr-nm-pgd攻撃アルゴリズムと勾配最適化の観点からのネステロフ運動量の改善を提案する。 このアルゴリズムは、収束を加速する特性と、逆例生成を高速化する最適化アルゴリズムにおける勾配更新方向の改善を用いて、ネステロフ運動量の改善を導入する。 さらに、ランダムなウォームリスタート機構を最適化に使用し、投射された勾配降下アルゴリズムを用いて、各ウォームリスタートで発生する摂動範囲を制限することにより、より優れた攻撃効果が得られる。 2つの公開データセットにおける実験により、本研究で提案するアルゴリズムは、余分な時間的コストなしで深層学習モデルへの攻撃の成功率を向上させることができることを示した。 ベンチマーク攻撃法と比較して,本研究で提案するアルゴリズムは,通常の訓練モデルと防御モデルの両方において,攻撃成功率を向上できる。 攻撃成功率は平均46.3077%であり,I-FGSMより27.19%,PGDより9.27%高い。 本研究で提案した攻撃アルゴリズムは,攻撃普遍性と伝達可能性において,ベンチマークアルゴリズムよりも優れていることを示す。

The deep learning algorithm has achieved great success in the field of computer vision, but some studies have pointed out that the deep learning model is vulnerable to attacks adversarial examples and makes false decisions. This challenges the further development of deep learning, and urges researchers to pay more attention to the relationship between adversarial examples attacks and deep learning security. This work focuses on adversarial examples, optimizes the generation of adversarial examples from the view of adversarial robustness, takes the perturbations added in adversarial examples as the optimization parameter. We propose RWR-NM-PGD attack algorithm based on random warm restart mechanism and improved Nesterov momentum from the view of gradient optimization. The algorithm introduces improved Nesterov momentum, using its characteristics of accelerating convergence and improving gradient update direction in optimization algorithm to accelerate the generation of adversarial examples. In addition, the random warm restart mechanism is used for optimization, and the projected gradient descent algorithm is used to limit the range of the generated perturbations in each warm restart, which can obtain better attack effect. Experiments on two public datasets show that the algorithm proposed in this work can improve the success rate of attacking deep learning models without extra time cost. Compared with the benchmark attack method, the algorithm proposed in this work can achieve better attack success rate for both normal training model and defense model. Our method has average attack success rate of 46.3077%, which is 27.19% higher than I-FGSM and 9.27% higher than PGD. The attack results in 13 defense models show that the attack algorithm proposed in this work is superior to the benchmark algorithm in attack universality and transferability.
翻訳日:2021-05-13 09:14:48 公開日:2021-05-10
# (参考訳) 半教師付きメトリック学習:深い復活 [全文訳有]

Semi-Supervised Metric Learning: A Deep Resurrection ( http://arxiv.org/abs/2105.05061v1 )

ライセンス: CC0 1.0
Ujjal Kr Dutta, Mehrtash Harandi, Chellu Chandra Sekhar(参考訳) 距離メトリックラーニング(DML)は、類似の例が近づき、異なる例が別々にある差別的な埋め込みを学ぼうとする。 本稿では,いくつかのラベル付き例と豊富なラベル付き例を用いてメトリクスを学習しようとするSemi-Supervised DML(SSDML)の問題に対処する。 SSDMLは、大規模なデータセットに存在するすべての例を手動でアノテートすることができないため、重要である。 驚くべきことに、線形マハラノビス計量を学習する古典的なアプローチはいくつかあるが、SSDMLは近年研究されておらず、深いSSDMLシナリオにはアプローチがない。 本稿では,この課題に対処し,ディープラーニングに関してSSDMLを改良する。 特に,ラベル付きデータからラベル付きペアまでの例のペア間の親和性を最初に伝播する確率的グラフベースアプローチを提案する。 伝播親和性は、計量学習のための三重項に基づく制約をマイニングするために用いられる。 メトリクスパラメータに直交性制約を課すことで、モデルの崩壊を避けることでパフォーマンスが向上します。

Distance Metric Learning (DML) seeks to learn a discriminative embedding where similar examples are closer, and dissimilar examples are apart. In this paper, we address the problem of Semi-Supervised DML (SSDML) that tries to learn a metric using a few labeled examples, and abundantly available unlabeled examples. SSDML is important because it is infeasible to manually annotate all the examples present in a large dataset. Surprisingly, with the exception of a few classical approaches that learn a linear Mahalanobis metric, SSDML has not been studied in the recent years, and lacks approaches in the deep SSDML scenario. In this paper, we address this challenging problem, and revamp SSDML with respect to deep learning. In particular, we propose a stochastic, graph-based approach that first propagates the affinities between the pairs of examples from labeled data, to that of the unlabeled pairs. The propagated affinities are used to mine triplet based constraints for metric learning. We impose orthogonality constraint on the metric parameters, as it leads to a better performance by avoiding a model collapse.
翻訳日:2021-05-13 08:59:46 公開日:2021-05-10
# (参考訳) グラフニューラルネットワークによるエピデミクス拡散状態の推定 [全文訳有]

Estimating the State of Epidemics Spreading with Graph Neural Networks ( http://arxiv.org/abs/2105.05060v1 )

ライセンス: CC BY 4.0
Abhishek Tomy, Matteo Razzanelli, Francesco Di Lauro, Daniela Rus, Cosimo Della Santina(参考訳) 疫病が集団に広まると、関連するすべての被験者を継続的に監視することは、しばしば非実践的または不可能である。 代替案として、アルゴリズム解は限られた量の措置から人口全体の状態を推測するために使うことができる。 この課題を解決するために,深層ニューラルネットワークの能力を分析する。 提案するアーキテクチャはグラフ畳み込みニューラルネットワークに基づいている。 そのため、感染拡大の主要因として認識されている、基盤となるソーシャルネットワーク構造の影響を理にかなっている。 提案アーキテクチャは,CoVid-19パンデミックをモデルとした2つのシナリオ,一般的な同種集団とボストン大都市圏のおもちゃモデルを用いて検証した。

When an epidemic spreads into a population, it is often unpractical or impossible to have a continuous monitoring of all subjects involved. As an alternative, algorithmic solutions can be used to infer the state of the whole population from a limited amount of measures. We analyze the capability of deep neural networks to solve this challenging task. Our proposed architecture is based on Graph Convolutional Neural Networks. As such it can reason on the effect of the underlying social network structure, which is recognized as the main component in the spreading of an epidemic. We test the proposed architecture with two scenarios modeled on the CoVid-19 pandemic: a generic homogeneous population, and a toy model of Boston metropolitan area.
翻訳日:2021-05-13 08:41:13 公開日:2021-05-10
# (参考訳) 紛争を引き起こした決定を深く掘り下げる [全文訳有]

A Deep Dive into Conflict Generating Decisions ( http://arxiv.org/abs/2105.04595v1 )

ライセンス: CC BY 4.0
Md Solimul Chowdhury, Martin M\"uller, Jia You(参考訳) ブール満足度(SAT)はよく知られたNP完全問題である。 このような理論的難しさにもかかわらず、CDCL(Conflict Driven Clause Learning)に基づくSATソルバは、多くの重要なドメインから大きなSATインスタンスを解くことができる。 cdclはコンフリクト(コンフリクト)から節を学習する。 CDCLにおける選択ヒューリスティックは、近年の紛争に関わる変数を優先している。 決定のごく一部が矛盾を発生させるが、多くは複数の衝突を発生させる。 本稿では,cdclにおける紛争発生決定を詳細に検討する。 単一紛争(single conflict,sc)決定は1つの紛争のみを発生させ,複数紛争(multi-conflict,mc)決定は2つ以上の紛争を発生させる。 我々は,これらの2種類の意思決定を,各タイプの意思決定によって生成された学習節の品質に基づいて実証的に特徴付ける。 また,同一のmc決定で学習される連続した節間の重要な関係を示し,学習された節が次の節の連鎖を形成する学習をトリガーすることを示す。 これは紛争間の類似性を考慮し、類似度尺度として対立確率の概念を定式化する。 mc決定における衝突は、sc決定から生じる連続的な衝突よりも密接に関連していることを示す。 最後に,いくつかの変数の選択優先度をmc決定の学習節から減少させる新しい決定戦略として,共通理由変数削減(crvr)を開発した。 3つのリーディングソルバに実装したcrvrの実証評価により,satコンペティション-2020のメイントラックからベンチマークのパフォーマンス向上が示された。

Boolean Satisfiability (SAT) is a well-known NP-complete problem. Despite this theoretical hardness, SAT solvers based on Conflict Driven Clause Learning (CDCL) can solve large SAT instances from many important domains. CDCL learns clauses from conflicts, a technique that allows a solver to prune its search space. The selection heuristics in CDCL prioritize variables that are involved in recent conflicts. While only a fraction of decisions generate any conflicts, many generate multiple conflicts. In this paper, we study conflict-generating decisions in CDCL in detail. We investigate the impact of single conflict (sc) decisions, which generate only one conflict, and multi-conflict (mc) decisions which generate two or more. We empirically characterize these two types of decisions based on the quality of the learned clauses produced by each type of decision. We also show an important connection between consecutive clauses learned within the same mc decision, where one learned clause triggers the learning of the next one forming a chain of clauses. This leads to the consideration of similarity between conflicts, for which we formulate the notion of conflictsproximity as a similarity measure. We show that conflicts in mc decisions are more closely related than consecutive conflicts generated from sc decisions. Finally, we develop Common Reason Variable Reduction (CRVR) as a new decision strategy that reduces the selection priority of some variables from the learned clauses of mc decisions. Our empirical evaluation of CRVR implemented in three leading solvers demonstrates performance gains in benchmarks from the main track of SAT Competition-2020.
翻訳日:2021-05-13 08:25:46 公開日:2021-05-10
# (参考訳) 超解像memristorクロスバーを用いたアナログニューラルコンピューティング [全文訳有]

Analog Neural Computing with Super-resolution Memristor Crossbars ( http://arxiv.org/abs/2105.04614v1 )

ライセンス: CC BY-SA 4.0
A. P. James, L. O. Chua(参考訳) Memristorクロスバーアレイは、幅広いインメモリおよびニューロモルフィックコンピューティングアプリケーションで使用されている。 しかし、メムリスタデバイスは、導電状態の変動をもたらす非イデアル性に悩まされ、デバイス年齢とともに望ましいアナログコンダクタンス値にプログラミングすることが極めて困難になる。 理論上、メムリスタは無限抵抗状態を取ることができるメモリ特性を持つ非線形プログラマブルアナログ抵抗である。 実際にはそのような中間子を作るのは困難であり、クロスバーでは安定伝導値の限られたセットに制限される。 クロスバーのノードで利用可能なコンダクタンスレベル数は、クロスバーの分解能として定義される。 本稿では,複数のメムリスタを持つノードを持つ超高分解能メムリスタクロスバーを構築し,一意なコンダクタンス値の r-simplicial シーケンスを生成する手法を提案する。 伝導値の範囲と数が大きくなればなるほど、クロスバーの解像度は高くなる。 これは特にアナログニューラルネットワーク(ANN)層の構築に有用であり、ニューロモルフィック計算を実装する際にニューラルネットワーク層を形成するためのゴートアプローチの1つであることが証明されている。

Memristor crossbar arrays are used in a wide range of in-memory and neuromorphic computing applications. However, memristor devices suffer from non-idealities that result in the variability of conductive states, making programming them to a desired analog conductance value extremely difficult as the device ages. In theory, memristors can be a nonlinear programmable analog resistor with memory properties that can take infinite resistive states. In practice, such memristors are hard to make, and in a crossbar, it is confined to a limited set of stable conductance values. The number of conductance levels available for a node in the crossbar is defined as the crossbar's resolution. This paper presents a technique to improve the resolution by building a super-resolution memristor crossbar with nodes having multiple memristors to generate r-simplicial sequence of unique conductance values. The wider the range and number of conductance values, the higher the crossbar's resolution. This is particularly useful in building analog neural network (ANN) layers, which are proven to be one of the go-to approaches for forming a neural network layer in implementing neuromorphic computations.
翻訳日:2021-05-13 08:11:55 公開日:2021-05-10
# (参考訳) 差分的半教師伝達学習

Differentially Private Semi-Supervised Transfer Learning ( http://arxiv.org/abs/2105.04615v1 )

ライセンス: CC BY 4.0
Mohit Kumar(参考訳) 本稿では,微分的半教師付き伝達学習の問題を考察する。 ファジィメンバシップ関数を用いてデータ表現を学習するために,測度理論に基づくメンバシップマッピングの概念を開発した。 ディープ・オートエンコーダの代替概念として、コンディション・ディープ・メンバーシップ・マッピング・オートエンコーダ(CDMMA: Conditionally Deep Membership-Mapping Autoencoder)がある。 実践指向の環境では,CDMFAの学習における解析的解法は変分最適化によって導出することができる。 本稿では、CDMMAと調整されたノイズ付加機構を組み合わせた転送学習手法を提案する。 MNIST、USPS、Office、Caltech256のデータセットを用いて、提案手法の競争力のある性能を検証した。

This paper considers the problem of differentially private semi-supervised transfer learning. The notion of membership-mapping is developed using measure theory basis to learn data representation via a fuzzy membership function. An alternative conception of deep autoencoder, referred to as Conditionally Deep Membership-Mapping Autoencoder (CDMMA) (that consists of a nested compositions of membership-mappings) , is considered. Under practice-oriented settings, an analytical solution for the learning of CDMFA can be derived by means of variational optimization. The paper proposes a transfer learning approach that combines CDMMA with a tailored noise adding mechanism to achieve a given level of privacy-loss bound with the minimum perturbation of the data. Numerous experiments were carried out using MNIST, USPS, Office, and Caltech256 datasets to verify the competitive robust performance of the proposed methodology.
翻訳日:2021-05-13 07:46:35 公開日:2021-05-10
# (参考訳) 人間翻訳と機械翻訳の自動分類:語彙多様性の観点から [全文訳有]

Automatic Classification of Human Translation and Machine Translation: A Study from the Perspective of Lexical Diversity ( http://arxiv.org/abs/2105.04616v1 )

ライセンス: CC BY 4.0
Yingxue Fu, Mark-Jan Nederhof(参考訳) トリグラムモデルと事前学習されたbertモデルを用いてシーケンス分類を微調整することにより,機械翻訳と人間の翻訳を確率レベル以上の精度で分類できることを示し,機械翻訳と人間の翻訳が系統的に異なることを示唆する。 機械翻訳の分類精度は人間の翻訳よりもはるかに高い。 このことは機械翻訳と人間の翻訳の語彙的多様性の違いによって説明できる可能性がある。 機械翻訳が人間の翻訳から独立したパターンを持つ場合、人間の翻訳から機械翻訳の逸脱を測定する自動メトリクスは、品質との違いを説明できる。 本実験では,2種類の自動測定値を用いて,分類作業の結果と相関関係を示す。 そこで本研究では,機械翻訳評価において,機械翻訳と人間翻訳の語彙的多様性の違いが注目されている。

By using a trigram model and fine-tuning a pretrained BERT model for sequence classification, we show that machine translation and human translation can be classified with an accuracy above chance level, which suggests that machine translation and human translation are different in a systematic way. The classification accuracy of machine translation is much higher than of human translation. We show that this may be explained by the difference in lexical diversity between machine translation and human translation. If machine translation has independent patterns from human translation, automatic metrics which measure the deviation of machine translation from human translation may conflate difference with quality. Our experiment with two different types of automatic metrics shows correlation with the result of the classification task. Therefore, we suggest the difference in lexical diversity between machine translation and human translation be given more attention in machine translation evaluation.
翻訳日:2021-05-13 07:45:34 公開日:2021-05-10
# (参考訳) アナロジカル推論のための記述論理 [全文訳有]

A Description Logic for Analogical Reasoning ( http://arxiv.org/abs/2105.04620v1 )

ライセンス: CC BY 4.0
Steven Schockaert, Yazm\'in Ib\'a\~nez-Garc\'ia, V\'ictor Guti\'errez-Basulto(参考訳) オントロジーは、あるドメインの概念がどのように相互に関連しているかを定式化する。 説明可能なAIのバックボーンとしての可能性は明白だが、既存のオントロジは非常に不完全であり、より広く採用される上で重要な障壁となる。 この問題を軽減するため,我々は,類推による推論に依拠する,妥当な知識の欠如を推測するメカニズムを提案する。 我々の知る限りでは、この論文は記述論理オントロジーの設定の中で類推論を研究する最初の論文である。 この設定において、類比例の標準形式化に重要な制限があることを示し、特徴集合間の単射写像に基づく代替意味論を導入する。 次に,提案する意味論に基づくアナロジーの性質を解析し,規則翻訳と規則外挿という2つの妥当な推論パターンを可能にする方法を示す。

Ontologies formalise how the concepts from a given domain are interrelated. Despite their clear potential as a backbone for explainable AI, existing ontologies tend to be highly incomplete, which acts as a significant barrier to their more widespread adoption. To mitigate this issue, we present a mechanism to infer plausible missing knowledge, which relies on reasoning by analogy. To the best of our knowledge, this is the first paper that studies analogical reasoning within the setting of description logic ontologies. After showing that the standard formalisation of analogical proportion has important limitations in this setting, we introduce an alternative semantics based on bijective mappings between sets of features. We then analyse the properties of analogies under the proposed semantics, and show among others how it enables two plausible inference patterns: rule translation and rule extrapolation.
翻訳日:2021-05-13 07:34:33 公開日:2021-05-10
# (参考訳) 教師なし単語埋め込み法による経済政策の不確実性の測定 [全文訳有]

Measuring Economic Policy Uncertainty Using an Unsupervised Word Embedding-based Method ( http://arxiv.org/abs/2105.04631v1 )

ライセンス: CC BY-SA 4.0
Fatemeh Kaveh-Yazdy, Sajjad Zarifzadeh(参考訳) 経済政策の不確実性(epu)は経済研究において重要な指標であるが、不況を予測するために使用できる。 不確実性が高まる中で、企業のオーナーは投資を削減し、レセプション後の回復が長くなる。 EPUインデックスは、政策作成と経済に関連する事前定義されたキーワードを含むニュース記事を数え、不確実性を伝えることで計算される。 残念ながら、この方法は元のキーワードセット、その豊かさ、ニュースカバレッジに敏感である。 したがって、異なる国で結果を再現することは困難である。 本稿では,単語埋め込み表現空間を用いて関連するキーワードを選択する教師なしテキストマイニング手法を提案する。 この方法は、単語埋め込みベクトルに適用される意味的類似性閾値に厳密に敏感ではなく、予め定義された辞書を必要としない。 提案手法によって計算されたepu系列は,イラン経済に影響を及ぼす主要な事象を正確に追従し,イランの世界不確実性指数(wui)と適合することを示す。

Economic Policy Uncertainty (EPU) is a critical indicator in economic studies, while it can be used to forecast a recession. Under higher levels of uncertainty, firms' owners cut their investment, which leads to a longer post-recession recovery. EPU index is computed by counting news articles containing pre-defined keywords related to policy-making and economy and convey uncertainty. Unfortunately, this method is sensitive to the original keyword set, its richness, and the news coverage. Thus, reproducing its results for different countries is challenging. In this paper, we propose an unsupervised text mining method that uses word-embedding representation space to select relevant keywords. This method is not strictly sensitive to the semantic similarity threshold applied to the word embedding vectors and does not require a pre-defined dictionary. Our experiments using a massive repository of Persian news show that the EPU series computed by the proposed method precisely follows major events affecting Iran's economy and is compatible with the World Uncertainty Index (WUI) of Iran.
翻訳日:2021-05-13 06:57:46 公開日:2021-05-10
# (参考訳) 言語習得は身体的、インタラクティブ、動機的:研究提案 [全文訳有]

Language Acquisition is Embodied, Interactive, Emotive: a Research Proposal ( http://arxiv.org/abs/2105.04633v1 )

ライセンス: CC BY 4.0
Casey Kennington(参考訳) 人類の世界の経験は、最初から非常に多様であり、なぜ既存の最先端言語モデルは、意味を学習し表現するためのモダリティとしてのみテキストを使用するのか? 本稿では, 言語学習の必要条件として, 音声対話の対話的設定におけるエンボディメントと感情の役割について, 子どもが年をとるにつれて, 子どもの言葉がいかに具体的か, より抽象的になるか, といった文献を概説する。 我々は,現在のトランスフォーマーモデルと単語レベルの接地モデルを活用した意味論のモデルをスケッチし,その意味モデルを利用したロボット対話システム,言語学習のためのシステム設定,評価のための既存のベンチマークについて説明する。

Humans' experience of the world is profoundly multimodal from the beginning, so why do existing state-of-the-art language models only use text as a modality to learn and represent semantic meaning? In this paper we review the literature on the role of embodiment and emotion in the interactive setting of spoken dialogue as necessary prerequisites for language learning for human children, including how words in child vocabularies are largely concrete, then shift to become more abstract as the children get older. We sketch a model of semantics that leverages current transformer-based models and a word-level grounded model, then explain the robot-dialogue system that will make use of our semantic model, the setting for the system to learn language, and existing benchmarks for evaluation.
翻訳日:2021-05-13 06:42:02 公開日:2021-05-10
# (参考訳) 事象予測のためのアレルギー性Prediction GAN [全文訳有]

SUrgical PRediction GAN for Events Anticipation ( http://arxiv.org/abs/2105.04642v1 )

ライセンス: CC BY 4.0
Yutong Ban and Guy Rosman and Thomas Ward and Daniel Hashimoto and Taisei Kondo and Hidekazu Iwaki and Ozanan Meireles and Daniela Rus(参考訳) 手術ワークフローの理解は、コンピュータが手術の理解を構築する基盤である。 本研究は, 手術段階の同定に留まらず, 将来の手術段階と手術段階間の遷移を予測した。 過去の腹腔鏡下ビデオフレームで, 将来の外科的経過を観察するための新しいGAN定式化法を用い, 外科的ビデオ解析および代替予測法に対する最先端のアプローチと比較した。 腹腔鏡下胆嚢摘出術の経過を推測し,予後を予測した。 地平線精度のトレードオフを定量化し, 相間の相転移がより困難かつ臨床的に重要であることを示す。 最後に,これらの予測軌跡の妥当性を評価するために,外科医を調査した。

Comprehension of surgical workflow is the foundation upon which computers build the understanding of surgery. In this work, we moved beyond just the identification of surgical phases to predict future surgical phases and the transitions between them. We used a novel GAN formulation that sampled the future surgical phases trajectory conditioned, on past laparoscopic video frames, and compared it to state-of-the-art approaches for surgical video analysis and alternative prediction methods. We demonstrated its effectiveness in inferring and predicting the progress of laparoscopic cholecystectomy videos. We quantified the horizon-accuracy trade-off and explored average performance as well as the performance on the more difficult, and clinically important, transitions between phases. Lastly, we surveyed surgeons to evaluate the plausibility of these predicted trajectories.
翻訳日:2021-05-13 06:34:19 公開日:2021-05-10
# (参考訳) GroupLink:フォーム理解における単語グループ化と関係抽出のためのエンドツーエンドマルチタスク手法 [全文訳有]

GroupLink: An End-to-end Multitask Method for Word Grouping and Relation Extraction in Form Understanding ( http://arxiv.org/abs/2105.04650v1 )

ライセンス: CC BY 4.0
Zilong Wang, Mingjie Zhan, Houxing Ren, Zhaohui Hou, Yuwei Wu, Xingyan Zhang, Ding Liang(参考訳) 形式は実生活における一般的なタイプの文書であり、テキストの内容や組織構造を通じて豊富な情報を運ぶ。 光文字読取装置(OCR)の予備処理後、形態の自動処理を実現するために、単語分類と関係抽出は2つの基本的かつ重要なステップである。 単語分類は、同じ意味エンティティに属する単語を集約することであり、関係抽出は、意味エンティティ間のリンクを予測することである。 既存の作業では2つのタスクとして扱われるが、これら2つのタスクは相互に関連付けられ、相互に強化することができる。 グループ化プロセスは対応するエンティティの統合表現を洗練させ、リンクプロセスはグループ化のパフォーマンスにフィードバックを与える。 この目的のために,テキストデータとレイアウト情報の両方からマルチモーダルな特徴を取得し,各タスクの性能を高めるために,単語グループ化と関係抽出を組み合わせたマルチタスクトレーニングによるエンドツーエンドモデルを構築する。 本手法の有効性を実証するために本手法の有効性を検証し,提案手法の有効性を検証した。

Forms are a common type of document in real life and carry rich information through textual contents and the organizational structure. To realize automatic processing of forms, word grouping and relation extraction are two fundamental and crucial steps after preliminary processing of optical character reader (OCR). Word grouping is to aggregate words that belong to the same semantic entity, and relation extraction is to predict the links between semantic entities. Existing works treat them as two individual tasks, but these two tasks are correlated and can reinforce each other. The grouping process will refine the integrated representation of the corresponding entity, and the linking process will give feedback to the grouping performance. For this purpose, we acquire multimodal features from both textual data and layout information and build an end-to-end model through multitask training to combine word grouping and relation extraction to enhance performance on each task. We validate our proposed method on a real-world, fully-annotated, noisy-scanned benchmark, FUNSD, and extensive experiments demonstrate the effectiveness of our method.
翻訳日:2021-05-13 06:26:35 公開日:2021-05-10
# (参考訳) 不確かさを考慮した多目的制御器の合成 [全文訳有]

Multi-Objective Controller Synthesis with Uncertain Human Preferences ( http://arxiv.org/abs/2105.04662v1 )

ライセンス: CC BY 4.0
Shenghui Chen, Kayla Boggess, David Parker, and Lu Feng(参考訳) 多目的コントローラ合成は、複数の(おそらく矛盾する)目的特性を考慮した最適コントローラの計算の問題に対処する。 目標の相対的重要性は、しばしば人間の意思決定者によって規定される。 しかし、人間の嗜好には本質的な不確実性がある(例えば、好みの選好方法が異なるため)。 本稿では,不確定な人間の選好の概念を定式化し,マルコフ決定過程(mdps)の多目的コントローラ合成における不確実性を考慮した新しいアプローチを提案する。 提案手法は混合整数線形プログラミング(MILP)に基づいて,多目的性および不確実な人間の嗜好に対して最適に許容されるマルチストラテジーを合成する。 大規模事例実験の結果,mdpに基づくアプローチは,mdpモデルサイズや人間の好みの不確実性レベルが変化し,音を最適に許容するマルチストラテジーを合成する上で,実現可能かつスケーラブルであることが判明した。 オンラインユーザスタディによる評価は、合成された(複数)ストラテジーの品質とメリットも示す。

Multi-objective controller synthesis concerns the problem of computing an optimal controller subject to multiple (possibly conflicting) objective properties. The relative importance of objectives is often specified by human decision-makers. However, there is inherent uncertainty in human preferences (e.g., due to different preference elicitation methods). In this paper, we formalize the notion of uncertain human preferences and present a novel approach that accounts for uncertain human preferences in the multi-objective controller synthesis for Markov decision processes (MDPs). Our approach is based on mixed-integer linear programming (MILP) and synthesizes a sound, optimally permissive multi-strategy with respect to a multi-objective property and an uncertain set of human preferences. Experimental results on a range of large case studies show that our MILP-based approach is feasible and scalable to synthesize sound, optimally permissive multi-strategies with varying MDP model sizes and uncertainty levels of human preferences. Evaluation via an online user study also demonstrates the quality and benefits of synthesized (multi-)strategies.
翻訳日:2021-05-13 06:14:56 公開日:2021-05-10
# (参考訳) 1時間のデータで何をしましょうか。 共通音声の未使用言語に対する音声認識 [全文訳有]

What shall we do with an hour of data? Speech recognition for the un- and under-served languages of Common Voice ( http://arxiv.org/abs/2105.04674v1 )

ライセンス: CC BY-SA 4.0
Francis M. Tyers and Josh Meyer(参考訳) 本報告では,共通音声プロジェクトの31言語を対象に,デプロイ可能な音声認識モデルを作成するための3週間のスプリントの方法と結果について述べる。 事前処理の手順、ハイパーパラメータの選択、その結果の公式テストセットの精度について概説する。 さらに,複数タスクのモデルとして,クローズドボキャブラリ音声認識,事前転写,強制アライメント,キーワードスポッティングなどを評価する。 次の実験では、ニューラル音声テキストモデルのトレーニングとデプロイのためのツールキットであるCoqui STTを使用している。

This technical report describes the methods and results of a three-week sprint to produce deployable speech recognition models for 31 under-served languages of the Common Voice project. We outline the preprocessing steps, hyperparameter selection, and resulting accuracy on official testing sets. In addition to this we evaluate the models on multiple tasks: closed-vocabulary speech recognition, pre-transcription, forced alignment, and key-word spotting. The following experiments use Coqui STT, a toolkit for training and deployment of neural Speech-to-Text models.
翻訳日:2021-05-13 05:54:04 公開日:2021-05-10
# (参考訳) 効率的な画像アノテーションのためのサンプル選択 [全文訳有]

Sample selection for efficient image annotation ( http://arxiv.org/abs/2105.04678v1 )

ライセンス: CC BY 4.0
Bishwo Adhikari, Esa Rahtu, Heikki Huttunen(参考訳) 監視対象検出は、人間レベルのパフォーマンスを達成する多くのベンチマークデータセットで成功したことが証明されている。 しかし、教師付き検出訓練のための大量のラベル付き画像サンプルを取得するのは面倒で、時間もかかり、コストもかかる。 本稿では,ラベルのないデータセットから最も有益な画像を抽出し,反復的なトレインアノテートループで人間と機械の協調を利用する効率的な画像選択手法を提案する。 CNNネットワークで画像の特徴を抽出し、類似度スコア計算、ユークリッド距離を求める。 ラベルのない画像は、類似度スコアに基づいて異なるアプローチにサンプリングされる。 提案手法は単純で単純で,サンプリングはネットワークトレーニング前に行われる。 データセットを用いた実験により,本手法は,完全な手動ラベリング設定と比較して,手作業の最大80%を削減でき,ランダムサンプリングよりも優れた性能を示す。

Supervised object detection has been proven to be successful in many benchmark datasets achieving human-level performances. However, acquiring a large amount of labeled image samples for supervised detection training is tedious, time-consuming, and costly. In this paper, we propose an efficient image selection approach that samples the most informative images from the unlabeled dataset and utilizes human-machine collaboration in an iterative train-annotate loop. Image features are extracted by the CNN network followed by the similarity score calculation, Euclidean distance. Unlabeled images are then sampled into different approaches based on the similarity score. The proposed approach is straightforward, simple and sampling takes place prior to the network training. Experiments on datasets show that our method can reduce up to 80% of manual annotation workload, compared to full manual labeling setting, and performs better than random sampling.
翻訳日:2021-05-13 05:26:19 公開日:2021-05-10
# (参考訳) LLVM/Pollyの合成可能なループ最適化のためのモンテカルロ木探索 [全文訳有]

Customized Monte Carlo Tree Search for LLVM/Polly's Composable Loop Optimization Transformations ( http://arxiv.org/abs/2105.04555v1 )

ライセンス: CC BY 4.0
Jaehoon Koo, Prasanna Balaprakash, Michael Kruse, Xingfu Wu, Paul Hovland, Mary Hall(参考訳) PollyはLLVMプロジェクトのpolyhedralループネストオプティマイザである。 近年,LLVM/Clang と Polly に基づくユーザ指向のループ変換法が提案されている。 変換プラグマによって露出される探索空間は木であり、各ノードは親ノードのループ変換から得られるコードに適用可能なループ変換の特定の組み合わせを表す。 我々は,モンテカルロ木探索(MCTS)に基づく探索アルゴリズムを開発し,ループ変換の最適組み合わせを求める。 本アルゴリズムは,木深度の異なるループ変換を探索し,木探索空間内の有望な領域を同定し,局所探索を行うことによりそれらの領域を利用する。 さらに、MCTSが局所溶液に閉じ込められるのを避けるために再起動機構が使用される。 最善のソリューションと最悪のソリューションは、検索履歴を活用するために再起動前のフェーズから転送される。 提案手法を,PolyBenchカーネルおよびECPプロキシアプリケーション上でのランダム,強欲,広義の探索手法と比較した。 実験の結果,mtsアルゴリズムは平均でポリーのヒューリスティック最適化よりも2.3倍の速度アップでpragmaの組み合わせを見出した。

Polly is the LLVM project's polyhedral loop nest optimizer. Recently, user-directed loop transformation pragmas were proposed based on LLVM/Clang and Polly. The search space exposed by the transformation pragmas is a tree, wherein each node represents a specific combination of loop transformations that can be applied to the code resulting from the parent node's loop transformations. We have developed a search algorithm based on Monte Carlo tree search (MCTS) to find the best combination of loop transformations. Our algorithm consists of two phases: exploring loop transformations at different depths of the tree to identify promising regions in the tree search space and exploiting those regions by performing a local search. Moreover, a restart mechanism is used to avoid the MCTS getting trapped in a local solution. The best and worst solutions are transferred from the previous phases of the restarts to leverage the search history. We compare our approach with random, greedy, and breadth-first search methods on PolyBench kernels and ECP proxy applications. Experimental results show that our MCTS algorithm finds pragma combinations with a speedup of 2.3x over Polly's heuristic optimizations on average.
翻訳日:2021-05-13 05:16:11 公開日:2021-05-10
# (参考訳) 強化学習における適応的政策伝達 [全文訳有]

Adaptive Policy Transfer in Reinforcement Learning ( http://arxiv.org/abs/2105.04699v1 )

ライセンス: CC BY 4.0
Girish Joshi, Girish Chowdhary(参考訳) 効率的で堅牢な政策移行は、強化学習が現実のロボットに有効になるための鍵となる課題である。 温かい初期化、模倣、あるいはランダム化されたインスタンスを持つ多数のエージェントの相互作用による政策伝達は、様々な強化学習タスクの解決に一般的に応用されている。 人間と動物は、類似したタスク間で学習した行動に迅速に適応し、新しい状況で提示された新しいスキルを学ぶことができる。 適応と探索を組み合わせた学習は、ドメイン間のポリシーのより効率的な移行につながるだろうか? 本稿では,「適応学習」を基本方針に適応させ,目標課題の解決を重要な遷移の相違と不確実性で学べる原理的メカニズムを提案する。 提案手法は適応と探索からの学習をシームレスに組み合わせて学習し、関連するタスク間の伝達スキルのサンプルの複雑さを著しく低減した堅牢なポリシー伝達アルゴリズムを実現する。

Efficient and robust policy transfer remains a key challenge for reinforcement learning to become viable for real-wold robotics. Policy transfer through warm initialization, imitation, or interacting over a large set of agents with randomized instances, have been commonly applied to solve a variety of Reinforcement Learning tasks. However, this seems far from how skill transfer happens in the biological world: Humans and animals are able to quickly adapt the learned behaviors between similar tasks and learn new skills when presented with new situations. Here we seek to answer the question: Will learning to combine adaptation and exploration lead to a more efficient transfer of policies between domains? We introduce a principled mechanism that can "Adapt-to-Learn", that is adapt the source policy to learn to solve a target task with significant transition differences and uncertainties. We show that the presented method learns to seamlessly combine learning from adaptation and exploration and leads to a robust policy transfer algorithm with significantly reduced sample complexity in transferring skills between related tasks.
翻訳日:2021-05-13 04:58:28 公開日:2021-05-10
# (参考訳) 説明責任エラーのキャラクタリゼーション [全文訳有]

Accountable Error Characterization ( http://arxiv.org/abs/2105.04707v1 )

ライセンス: CC BY 4.0
Amita Misra, Zhe Liu and Jalal Mahmud(参考訳) 機械学習システムの顧客は、様々な予測タスクにこれらのアルゴリズムを使用している企業から説明責任を要求する。 顧客はしばしば誤った予測を理解することに興味を持ち、モデル開発者は既存のシステムにインクリメンタルな改善を施すために使用できる方法を見つけることに夢中になっているため、説明責任はシステムの限界と誤った予測の条件を理解する必要がある。 そこで本研究では,既存のブラックボックスモデルにおけるエラー発生時期と発生場所を理解するため,aecを提案する。 AECは人間の理解可能な言語機能で構築されており、モデル開発者が与えられた分類システムの主要なエラーソースを自動的に識別することができる。 また、次のトレーニングラウンドで最も情報性の高い入力ポイントのセットをサンプリングするためにも使用できる。 aecを用いた感情分析タスクの誤り検出をケーススタディとして実施する。 サンプル感情タスクの結果から,AECは誤予測を人間の理解可能なカテゴリに特徴付けることができ,不確実性に基づくサンプリングと比較した場合の誤サンプル選択において有望な結果が得られることが示された。

Customers of machine learning systems demand accountability from the companies employing these algorithms for various prediction tasks. Accountability requires understanding of system limit and condition of erroneous predictions, as customers are often interested in understanding the incorrect predictions, and model developers are absorbed in finding methods that can be used to get incremental improvements to an existing system. Therefore, we propose an accountable error characterization method, AEC, to understand when and where errors occur within the existing black-box models. AEC, as constructed with human-understandable linguistic features, allows the model developers to automatically identify the main sources of errors for a given classification system. It can also be used to sample for the set of most informative input points for a next round of training. We perform error detection for a sentiment analysis task using AEC as a case study. Our results on the sample sentiment task show that AEC is able to characterize erroneous predictions into human understandable categories and also achieves promising results on selecting erroneous samples when compared with the uncertainty-based sampling.
翻訳日:2021-05-13 04:33:10 公開日:2021-05-10
# (参考訳) 効率的な顔検出のためのサンプルと計算再分配 [全文訳有]

Sample and Computation Redistribution for Efficient Face Detection ( http://arxiv.org/abs/2105.04714v1 )

ライセンス: CC BY 4.0
Jia Guo and Jiankang Deng and Alexandros Lattas and Stefanos Zafeiriou(参考訳) 制御不能な顔検出では大きな進歩があったが、計算コストの低い効率的な顔検出と高精度な顔検出は依然として未解決の課題である。 本稿では,トレーニングデータサンプリングと計算分散戦略が,効率的かつ正確な顔検出の鍵であることを示す。 これらの知見に動機づけられて,(1)ベンチマークデータセットの統計に基づいて,最も必要な段階のトレーニングサンプルを増強するサンプル再分配 (sr) と,(2)精細に定義された探索手法に基づいてモデルのバックボーン,ネック,ヘッド間の計算を再配置する計算再分配 (cr) という2つの簡易かつ効果的な手法を導入した。 WIDER FACEで実施された大規模な実験は、幅広い計算系で提案された \scrfd ファミリーの最先端の効率-精度トレードオフを実証している。 特に、 \scrfdf{34} は、VGA解像度のイメージを持つGPU上での \emph{3$\times$ faster} よりも高いが、最大の競合である TinaFace を$3.86\%$ (AP at hard set) で上回っている。 また、将来の研究を促進するためにコードをリリースします。

Although tremendous strides have been made in uncontrolled face detection, efficient face detection with a low computation cost as well as high precision remains an open challenge. In this paper, we point out that training data sampling and computation distribution strategies are the keys to efficient and accurate face detection. Motivated by these observations, we introduce two simple but effective methods (1) Sample Redistribution (SR), which augments training samples for the most needed stages, based on the statistics of benchmark datasets; and (2) Computation Redistribution (CR), which reallocates the computation between the backbone, neck and head of the model, based on a meticulously defined search methodology. Extensive experiments conducted on WIDER FACE demonstrate the state-of-the-art efficiency-accuracy trade-off for the proposed \scrfd family across a wide range of compute regimes. In particular, \scrfdf{34} outperforms the best competitor, TinaFace, by $3.86\%$ (AP at hard set) while being more than \emph{3$\times$ faster} on GPUs with VGA-resolution images. We also release our code to facilitate future research.
翻訳日:2021-05-13 04:25:19 公開日:2021-05-10
# Tsetlin マシンを用いた新しいテキスト検出のための単語レベルの人間解釈型スコーリング機構

Word-level Human Interpretable Scoring Mechanism for Novel Text Detection Using Tsetlin Machines ( http://arxiv.org/abs/2105.04708v1 )

ライセンス: Link先を確認
Bimal Bhattarai, Ole-Christoffer Granmo, Lei Jiao(参考訳) 近年の新規性検出の研究は、ディープニューラルネットワーク(DNN)を用いた文書レベルの分類に重点を置いている。 しかし、DNNのブラックボックスの性質は、文書がなぜ新しいものと考えられるのかを正確に説明することは困難である。 さらに、単語レベルでの新規性を扱うことは、ドキュメントレベルで利用可能なものよりもきめ細かい分析を提供するのに不可欠である。 本研究では,新奇性への貢献度に応じて個々の単語を評価できるTsetlin Machine (TM) アーキテクチャを提案する。 本手法はtm節で捉えた言語パターンを用いて,新しい文書の記述を符号化する。 次に、この記述を採用し、ある単語が文書のノベル化にどの程度貢献しているかを測定する。 実験の結果,新奇性を解釈可能な句に分解し,新奇性を測定することに成功した。

Recent research in novelty detection focuses mainly on document-level classification, employing deep neural networks (DNN). However, the black-box nature of DNNs makes it difficult to extract an exact explanation of why a document is considered novel. In addition, dealing with novelty at the word-level is crucial to provide a more fine-grained analysis than what is available at the document level. In this work, we propose a Tsetlin machine (TM)-based architecture for scoring individual words according to their contribution to novelty. Our approach encodes a description of the novel documents using the linguistic patterns captured by TM clauses. We then adopt this description to measure how much a word contributes to making documents novel. Our experimental results demonstrate how our approach breaks down novelty into interpretable phrases, successfully measuring novelty.
翻訳日:2021-05-12 14:11:19 公開日:2021-05-10
# 極端に偏ったオフ・ポリティ・インターバル推定

Deeply-Debiased Off-Policy Interval Estimation ( http://arxiv.org/abs/2105.04646v1 )

ライセンス: Link先を確認
Chengchun Shi and Runzhe Wan and Victor Chernozhukov and Rui Song(参考訳) オフ政治評価は、異なる行動ポリシーによって生成された過去のデータセットでターゲットポリシーの価値を学習する。 点推定に加えて、多くのアプリケーションは点推定の不確かさを定量化する信頼区間(CI)を持つことで大きな恩恵を受けるだろう。 本稿では,目標政策の価値に基づいて,効率的で堅牢で柔軟なCIを構築するための新しい手法を提案する。 本手法は理論的結果と数値実験によって正当化される。 提案されたプロシージャのPython実装はhttps://github.com/R unzheStat/D2OPEで公開されている。

Off-policy evaluation learns a target policy's value with a historical dataset generated by a different behavior policy. In addition to a point estimate, many applications would benefit significantly from having a confidence interval (CI) that quantifies the uncertainty of the point estimate. In this paper, we propose a novel procedure to construct an efficient, robust, and flexible CI on a target policy's value. Our method is justified by theoretical results and numerical experiments. A Python implementation of the proposed procedure is available at https://github.com/R unzheStat/D2OPE.
翻訳日:2021-05-12 14:10:25 公開日:2021-05-10
# フォトリアリズムの強化

Enhancing Photorealism Enhancement ( http://arxiv.org/abs/2105.04619v1 )

ライセンス: Link先を確認
Stephan R. Richter and Hassan Abu AlHaija and Vladlen Koltun(参考訳) 本稿では,合成画像のリアリズムを高める手法を提案する。 画像は、従来のレンダリングパイプラインによって生成された中間表現を利用する畳み込みネットワークによって強化される。 ネットワークは、複数の知覚レベルで強力な監視を提供する、新しい敵の目標を通じて訓練される。 我々は,一般的なデータセットにおけるシーンレイアウト分布を分析し,それらが重要な方法で異なることを確認する。 我々は、これが多くの先行手法の結果で観察できる強い人工物の原因の1つであると仮定する。 そこで我々は,トレーニング中に画像パッチをサンプリングする新しい手法を提案する。 また,フォトリアリズム拡張に使用されるディープネットワークモジュールにおいて,複数のアーキテクチャ改善も導入する。 制御実験における我々の貢献の利点を確認し,最近の画像から画像への翻訳法や様々なベースラインと比較して,安定性とリアリズムの実質的な向上を報告した。

We present an approach to enhancing the realism of synthetic images. The images are enhanced by a convolutional network that leverages intermediate representations produced by conventional rendering pipelines. The network is trained via a novel adversarial objective, which provides strong supervision at multiple perceptual levels. We analyze scene layout distributions in commonly used datasets and find that they differ in important ways. We hypothesize that this is one of the causes of strong artifacts that can be observed in the results of many prior methods. To address this we propose a new strategy for sampling image patches during training. We also introduce multiple architectural improvements in the deep network modules used for photorealism enhancement. We confirm the benefits of our contributions in controlled experiments and report substantial gains in stability and realism in comparison to recent image-to-image translation methods and a variety of other baselines.
翻訳日:2021-05-12 14:10:17 公開日:2021-05-10
# 質問応答による抽象要約の実態整合性の改善

Improving Factual Consistency of Abstractive Summarization via Question Answering ( http://arxiv.org/abs/2105.04623v1 )

ライセンス: Link先を確認
Feng Nan, Cicero Nogueira dos Santos, Henghui Zhu, Patrick Ng, Kathleen McKeown, Ramesh Nallapati, Dejiao Zhang, Zhiguo Wang, Andrew O. Arnold, Bing Xiang(参考訳) 最先端の抽象要約モデルの一般的な問題は、生成された要約が実際に入力された文書と矛盾することがあることである。 自動要約が妥当だが不正確な要約を生み出す可能性があるという事実は、その幅広い応用を制限する主要な関心事である。 本稿では,要約における事実整合性に対処する手法を提案する。 本稿では,まず,実測的一貫性を測定するための効率的な自動評価指標を提案し,次に,モデル学習中に提案手法を最大化する新しい学習アルゴリズムを提案する。 実験により,本手法は,自動測定と人的評価の両方で判断されるように,事実整合性の向上や要約の全体的な品質向上に有効であることを確認した。

A commonly observed problem with the state-of-the art abstractive summarization models is that the generated summaries can be factually inconsistent with the input documents. The fact that automatic summarization may produce plausible-sounding yet inaccurate summaries is a major concern that limits its wide application. In this paper we present an approach to address factual consistency in summarization. We first propose an efficient automatic evaluation metric to measure factual consistency; next, we propose a novel learning algorithm that maximizes the proposed metric during model training. Through extensive experiments, we confirm that our method is effective in improving factual consistency and even overall quality of the summaries, as judged by both automatic metrics and human evaluation.
翻訳日:2021-05-12 14:08:50 公開日:2021-05-10
# Speech2Slot: 音声によるエンドツーエンドの知識ベーススロット

Speech2Slot: An End-to-End Knowledge-based Slot Filling from Speech ( http://arxiv.org/abs/2105.04719v1 )

ライセンス: Link先を確認
Pengwei Wang, Xin Ye, Xiaohuan Zhou, Jinghui Xie, Hao Wang(参考訳) 音声認識(ASR)と自然言語理解(NLU)で構成される従来のパイプラインであるSpoken Language Understanding(SLU)とは対照的に、エンドツーエンドのSLUは、音声から直接意味を推測し、ASRによるエラー伝搬を克服する。 音声の終端スロットフィリング(SF)は、エンドツーエンドSLUの重要な構成要素であり、通常、ASRの言語モデルの性能に大きく依存するシーケンス・ツー・シーケンス生成問題と見なされる。 しかし、訓練データにおいてスロットが外語彙(OOV)である場合、特にスロットが文法規則のない反言語的エンティティである場合には、正しいスロットを生成することは困難である。 画像から物体を検出するコンピュータビジョンにおける物体検出に着想を得て,sfを音声からのスロット検出の課題として捉えた。 本稿では,SFタスクをマッチングタスクとして定式化し,音声からスロットの境界を検出するために,Speech2Slot(Speech2 Slot)と呼ばれるエンドツーエンドの知識ベースSFモデルを提案する。 また,830,000以上のサンプルを含む,スロット充填のための中国語音声の大規模データセットもリリースした。 実験の結果,従来のパイプラインsluアプローチよりも著しく優れており,精度が12.51%向上し,最先端のエンドツーエンドsfアプローチよりも優れていることがわかった。

In contrast to conventional pipeline Spoken Language Understanding (SLU) which consists of automatic speech recognition (ASR) and natural language understanding (NLU), end-to-end SLU infers the semantic meaning directly from speech and overcomes the error propagation caused by ASR. End-to-end slot filling (SF) from speech is an essential component of end-to-end SLU, and is usually regarded as a sequence-to-sequence generation problem, heavily relied on the performance of language model of ASR. However, it is hard to generate a correct slot when the slot is out-of-vovabulary (OOV) in training data, especially when a slot is an anti-linguistic entity without grammatical rule. Inspired by object detection in computer vision that is to detect the object from an image, we consider SF as the task of slot detection from speech. In this paper, we formulate the SF task as a matching task and propose an end-to-end knowledge-based SF model, named Speech-to-Slot (Speech2Slot), to leverage knowledge to detect the boundary of a slot from the speech. We also release a large-scale dataset of Chinese speech for slot filling, containing more than 830,000 samples. The experiments show that our approach is markedly superior to the conventional pipeline SLU approach, and outperforms the state-of-the-art end-to-end SF approach with 12.51% accuracy improvement.
翻訳日:2021-05-12 14:07:07 公開日:2021-05-10
# Deep Bandits Show-Off:Deep Networksによるシンプルで効率的な探索

Deep Bandits Show-Off: Simple and Efficient Exploration with Deep Networks ( http://arxiv.org/abs/2105.04683v1 )

ライセンス: Link先を確認
Mattia Rigotti, Rong Zhu(参考訳) 効率的な探査を設計することは、探索-探索ジレンマによる根本的な問題のために強化学習の中心である。 トンプソンサンプリングのようなベイズ探検戦略は、行動-値関数のパラメータの分布、環境の結果モデルをモデル化し、更新することで、このトレードオフを原理的に解決する。 しかし, この手法は, 複雑な結果モデルのパラメータ上での確率分布の表現と更新が困難であるため, 複雑な環境において実現不可能となる。 さらに、この問題を緩和するために導入された近似手法は、深層バンディットのシナリオで過小評価された近似的な後方法を持つ深層ニューラルネットワークモデルで観察されるように、探索・爆発のトレードオフの低さをもたらす。 本稿では,文脈的包帯に対する簡易かつ効率的な不確実性尺度であるSample Average Uncertainty(SAU)を紹介する。 トンプソンサンプリングのようなベイズ的アプローチは、まず結果モデルのパラメータに対する変数を定量化することで、不確実性を間接的に推定するが、SAUは値予測に基づいて結果の不確実性を直接推定する頻繁なアプローチである。 理論上は, sau が漸近的に推定する不確実性測度は, トンプソンサンプリングによる不確実性と後悔の限界と一致することが示されている。 単純さのため、SAUはエプシロン・グレディ探索の非常にスケーラブルなドロップイン代替として、深い文脈の包帯にシームレスに適用できる。 最後に,本理論を実証的に検証し,sauに基づく探索が,いくつかの実世界のデータセットにおける最先端のディープベイズ・バンディット法をわずかに計算コストで上回ることを示した。

Designing efficient exploration is central to Reinforcement Learning due to the fundamental problem posed by the exploration-exploita tion dilemma. Bayesian exploration strategies like Thompson Sampling resolve this trade-off in a principled way by modeling and updating the distribution of the parameters of the the action-value function, the outcome model of the environment. However, this technique becomes infeasible for complex environments due to the difficulty of representing and updating probability distributions over parameters of outcome models of corresponding complexity. Moreover, the approximation techniques introduced to mitigate this issue typically result in poor exploration-exploita tion trade-offs, as observed in the case of deep neural network models with approximate posterior methods that have been shown to underperform in the deep bandit scenario. In this paper we introduce Sample Average Uncertainty (SAU), a simple and efficient uncertainty measure for contextual bandits. While Bayesian approaches like Thompson Sampling estimate outcomes uncertainty indirectly by first quantifying the variability over the parameters of the outcome model, SAU is a frequentist approach that directly estimates the uncertainty of the outcomes based on the value predictions. Importantly, we show theoretically that the uncertainty measure estimated by SAU asymptotically matches the uncertainty provided by Thompson Sampling, as well as its regret bounds. Because of its simplicity SAU can be seamlessly applied to deep contextual bandits as a very scalable drop-in replacement for epsilon-greedy exploration. Finally, we empirically confirm our theory by showing that SAU-based exploration outperforms current state-of-the-art deep Bayesian bandit methods on several real-world datasets at modest computation cost.
翻訳日:2021-05-12 14:06:41 公開日:2021-05-10
# マルチラベルランキングにおける不平等損失の再考と重み付け:一貫性と一般化

Rethinking and Reweighting the Univariate Losses for Multi-Label Ranking: Consistency and Generalization ( http://arxiv.org/abs/2105.05026v1 )

ライセンス: Link先を確認
Guoqiang Wu, Chongxuan Li, Kun Xu, Jun Zhu(参考訳) (部分)ランキング損失は多ラベル分類において一般的に用いられる評価尺度であり、通常は計算効率のために凸サロゲートで最適化される。 マルチラベルランキングに関する以前の理論的研究は、主に(フィッシャー)一貫性解析に焦点を当てていた。 しかし、既存の理論と実践の間にはギャップがある -- いくつかの対の損失は有望なパフォーマンスをもたらすが、一貫性に欠ける。 本稿では,学習アルゴリズムの一貫性と一般化誤差境界の2つの相補的な観点から体系的な研究を通して,このギャップを埋めることを試みる。 以上の結果から,不整合損失のある学習アルゴリズムは誤差値がo(c)$ (c$ is the number of labels) であるのに対し,不整合なペアワイズ損失の学習アルゴリズムは先行研究で示した$o(\sqrt{c})$に依存することがわかった。 これにより、後者は、実際には前者よりも優れたパフォーマンスを達成できる。 さらに,有望な性能と非有意な損失の計算効率のために$o(\sqrt{c})$の誤差境界を享受する不整合再重み付き不定損失ベース学習アルゴリズムを提案する。 最後に,実験結果が理論解析の妥当性を検証した。

(Partial) ranking loss is a commonly used evaluation measure for multi-label classification, which is usually optimized with convex surrogates for computational efficiency. Prior theoretical work on multi-label ranking mainly focuses on (Fisher) consistency analyses. However, there is a gap between existing theory and practice -- some pairwise losses can lead to promising performance but lack consistency, while some univariate losses are consistent but usually have no clear superiority in practice. In this paper, we attempt to fill this gap through a systematic study from two complementary perspectives of consistency and generalization error bounds of learning algorithms. Our results show that learning algorithms with the consistent univariate loss have an error bound of $O(c)$ ($c$ is the number of labels), while algorithms with the inconsistent pairwise loss depend on $O(\sqrt{c})$ as shown in prior work. This explains that the latter can achieve better performance than the former in practice. Moreover, we present an inconsistent reweighted univariate loss-based learning algorithm that enjoys an error bound of $O(\sqrt{c})$ for promising performance as well as the computational efficiency of univariate losses. Finally, experimental results validate our theoretical analyses.
翻訳日:2021-05-12 14:04:57 公開日:2021-05-10
# オープンワールドGAN生成画像の発見と貢献に向けて

Towards Discovery and Attribution of Open-world GAN Generated Images ( http://arxiv.org/abs/2105.04580v1 )

ライセンス: Link先を確認
Sharath Girish, Saksham Suri, Saketh Rambhatla, Abhinav Shrivastava(参考訳) GAN(Generative Adversarial Networks)の最近の進歩により、メディアと視覚の法医学は、それらを生成するモデルに画像を特定し、属性付けできる検出器を開発することが不可欠である。 既存の作品では、画像を対応するganソースに高い精度でアトリビュートすることが示されている。 しかし、これらの作品はクローズド・セットのシナリオに限られており、列車の時間帯に見つからないGANに一般化できないため、新しいGANが定常的に流入しても拡張性がない。 我々は,すべてのganが生成した画像に異なる指紋を残しているという事実を生かして,これまで見つからなかったganから生成した画像を検出する反復アルゴリズムを提案する。 アルゴリズムはネットワークトレーニング,分散検出,クラスタリング,マージ,洗練といった複数のコンポーネントで構成されている。 広範にわたる実験により,我々のアルゴリズムは,未知のGANを高精度に発見し,実データに基づいて訓練されたGANに一般化することを示した。 さらに,このアルゴリズムを,オンライン形式でのganの帰属と発見に加えて,より標準的なリアル/フェイク検出タスクにも適用する。 私たちの実験は、新しいganを発見し、オープンワールドのセットアップで使用できるアプローチの有効性を示しています。

With the recent progress in Generative Adversarial Networks (GANs), it is imperative for media and visual forensics to develop detectors which can identify and attribute images to the model generating them. Existing works have shown to attribute images to their corresponding GAN sources with high accuracy. However, these works are limited to a closed set scenario, failing to generalize to GANs unseen during train time and are therefore, not scalable with a steady influx of new GANs. We present an iterative algorithm for discovering images generated from previously unseen GANs by exploiting the fact that all GANs leave distinct fingerprints on their generated images. Our algorithm consists of multiple components including network training, out-of-distribution detection, clustering, merge and refine steps. Through extensive experiments, we show that our algorithm discovers unseen GANs with high accuracy and also generalizes to GANs trained on unseen real datasets. We additionally apply our algorithm to attribution and discovery of GANs in an online fashion as well as to the more standard task of real/fake detection. Our experiments demonstrate the effectiveness of our approach to discover new GANs and can be used in an open-world setup.
翻訳日:2021-05-12 14:04:18 公開日:2021-05-10
# 局所周波数領域トランスフォーマネットワークによる映像予測

Local Frequency Domain Transformer Networks for Video Prediction ( http://arxiv.org/abs/2105.04637v1 )

ライセンス: Link先を確認
Hafez Farazi, Jan Nogga, Sven Behnke(参考訳) ビデオ予測は、複数の過去のフレームを備えたビデオシーケンスの将来のフレームを予測するためによく用いられる。 視覚的なシーンは、カメラの自我中心的な動きや、個々の物体ごとに異なる運動性など、複雑な基盤となるダイナミクスに従って進化する。 これらは主に観察者から隠され、連続するビデオフレーム間の高い非線形変換として表される。 したがって、映像予測は、現実世界の視覚的変化を予想するだけでなく、観察された環境の形成とダイナミクスをターゲットとした教師なし学習規則として出現した。 ビデオ予測のためのディープラーニングベースの最先端モデルの多くは、Long Short-Term Memory (LSTM) や Gated Recurrent Units (GRU) といった、モデルの中心にあるある種の繰り返しレイヤを利用している。 これらのモデルは将来のフレームを予測できるが、これら再帰的な構造に完全に依存して、変換の抽出、未来への投影、現在のフレームの変換という3つの異なるタスクを同時に実行する。 生成した内部表現を完全に解釈するには、これらのタスクを分離することが不可欠である。 本稿では,解釈性を維持しつつ,これらすべてのタスクを個別に実行できる,完全に微分可能なビルディングブロックを提案する。 関連する理論的基礎を導出し、実データと同様に合成結果を示す。 本手法は,動きのセグメンテーションやシーンの構成を考慮するために容易に拡張でき,ラベルなしの映像データのみを観察することで,完全に解釈可能な方法で信頼できる予測を作成できることを実証する。

Video prediction is commonly referred to as forecasting future frames of a video sequence provided several past frames thereof. It remains a challenging domain as visual scenes evolve according to complex underlying dynamics, such as the camera's egocentric motion or the distinct motility per individual object viewed. These are mostly hidden from the observer and manifest as often highly non-linear transformations between consecutive video frames. Therefore, video prediction is of interest not only in anticipating visual changes in the real world but has, above all, emerged as an unsupervised learning rule targeting the formation and dynamics of the observed environment. Many of the deep learning-based state-of-the-art models for video prediction utilize some form of recurrent layers like Long Short-Term Memory (LSTMs) or Gated Recurrent Units (GRUs) at the core of their models. Although these models can predict the future frames, they rely entirely on these recurrent structures to simultaneously perform three distinct tasks: extracting transformations, projecting them into the future, and transforming the current frame. In order to completely interpret the formed internal representations, it is crucial to disentangle these tasks. This paper proposes a fully differentiable building block that can perform all of those tasks separately while maintaining interpretability. We derive the relevant theoretical foundations and showcase results on synthetic as well as real data. We demonstrate that our method is readily extended to perform motion segmentation and account for the scene's composition, and learns to produce reliable predictions in an entirely interpretable manner by only observing unlabeled video data.
翻訳日:2021-05-12 14:03:57 公開日:2021-05-10
# HuMoR:ロバストな姿勢推定のための3次元人体運動モデル

HuMoR: 3D Human Motion Model for Robust Pose Estimation ( http://arxiv.org/abs/2105.04668v1 )

ライセンス: Link先を確認
Davis Rempe, Tolga Birdal, Aaron Hertzmann, Jimei Yang, Srinath Sridhar, Leonidas J. Guibas(参考訳) 時間的ポーズと形状をロバストに推定する3次元人間の運動モデルであるmobiを紹介する。 ダイナミックな観察から3次元の人間の動きや形状を推定する上では大きな進歩があったが、騒音や咬合の存在下での可能なポーズシーケンスの復元は依然として課題である。 この目的のために,条件付き変分オートエンコーダの形式で表現的生成モデルを提案し,動き列の各ステップにおけるポーズの変化の分布を学習する。 さらに,HuMoRを動作として活用したフレキシブルな最適化手法を導入し,不明瞭な観測から可視的なポーズと形状を頑健に推定する。 広汎な評価により,本モデルは大規模なモーションキャプチャーデータセットのトレーニング後に多様な動きや体形に一般化し,3DキーポイントやRGB(-D)ビデオを含む複数の入力モードからの動作再構成を可能にする。

We introduce HuMoR: a 3D Human Motion Model for Robust Estimation of temporal pose and shape. Though substantial progress has been made in estimating 3D human motion and shape from dynamic observations, recovering plausible pose sequences in the presence of noise and occlusions remains a challenge. For this purpose, we propose an expressive generative model in the form of a conditional variational autoencoder, which learns a distribution of the change in pose at each step of a motion sequence. Furthermore, we introduce a flexible optimization-based approach that leverages HuMoR as a motion prior to robustly estimate plausible pose and shape from ambiguous observations. Through extensive evaluations, we demonstrate that our model generalizes to diverse motions and body shapes after training on a large motion capture dataset, and enables motion reconstruction from multiple input modalities including 3D keypoints and RGB(-D) videos.
翻訳日:2021-05-12 14:03:30 公開日:2021-05-10
# オフラインロボット学習のための効率的な自己監視データ収集

Efficient Self-Supervised Data Collection for Offline Robot Learning ( http://arxiv.org/abs/2105.04607v1 )

ライセンス: Link先を確認
Shadi Endrawis, Gal Leibovich, Guy Jacob, Gal Novik and Aviv Tamar(参考訳) ロボット強化学習の実践的なアプローチは、まず、データ収集ポリシを使用して、実またはシミュレーションされたロボットインタラクションデータの大規模なバッチを収集し、次にオフライン学習アルゴリズムを使用して、このデータからさまざまなタスクを実行することである。 これまでの作業は、データ収集ポリシーを手動で設計することや、オブジェクトの把握に関するデータを収集するためのランダムな選択ポリシーなど、適切なポリシーを簡単に設計できるタスクに重点を置いていた。 しかし、より複雑なタスクでは、効果的に環境を探索し、下流タスクに十分な多様性のあるデータを生成するデータ収集ポリシーを見つけるのは難しいかもしれない。 本研究では,多様なデータ収集環境を積極的に探究し,データ収集ポリシーを提案する。 特に,新しいデータ収集に積極的に焦点を合わせ,多種多様なデータセットを収集する,目標条件付き強化学習手法を開発した。 視覚入力を用いたロボット操作タスクのシミュレーションについて評価し、アクティブデータ収集の多様性の向上が下流学習タスクの大幅な改善につながっていることを示す。

A practical approach to robot reinforcement learning is to first collect a large batch of real or simulated robot interaction data, using some data collection policy, and then learn from this data to perform various tasks, using offline learning algorithms. Previous work focused on manually designing the data collection policy, and on tasks where suitable policies can easily be designed, such as random picking policies for collecting data about object grasping. For more complex tasks, however, it may be difficult to find a data collection policy that explores the environment effectively, and produces data that is diverse enough for the downstream task. In this work, we propose that data collection policies should actively explore the environment to collect diverse data. In particular, we develop a simple-yet-effective goal-conditioned reinforcement-learni ng method that actively focuses data collection on novel observations, thereby collecting a diverse data-set. We evaluate our method on simulated robot manipulation tasks with visual inputs and show that the improved diversity of active data collection leads to significant improvements in the downstream learning tasks.
翻訳日:2021-05-12 14:02:49 公開日:2021-05-10
# 標本分割を伴わないヒストグラムの分布自由校正保証

Distribution-free calibration guarantees for histogram binning without sample splitting ( http://arxiv.org/abs/2105.04656v1 )

ライセンス: Link先を確認
Chirag Gupta, Aaditya K. Ramdas(参考訳) 我々は,zadrozny と elkan [2001] の一般的なヒストグラム双対法(一様質量双対法とも呼ばれる)の校正保証を証明した。 ヒストグラムのバイナリ化は強力な実用的性能を示しているが、データの「ダブルディッピング」を避けるサンプル分割バージョンでは理論的保証しか示されていない。 サンプル分割の統計的コストは、クレジットデフォルトデータセットにおいて実質的に重要であることを示す。 次に、順序統計の特定のマルコフ特性を用いて、データを二重化する元の手法の校正保証を証明する。 以上の結果に基づいて,ヒストグラムのビン数を選択するための実用的な推奨を行う。 シミュレーションでは,ece推定よりも多くの情報を提供するキャリブレーション-妥当性プロットを評価するための新しいツールを提案する。

We prove calibration guarantees for the popular histogram binning (also called uniform-mass binning) method of Zadrozny and Elkan [2001]. Histogram binning has displayed strong practical performance, but theoretical guarantees have only been shown for sample split versions that avoid 'double dipping' the data. We demonstrate that the statistical cost of sample splitting is practically significant on a credit default dataset. We then prove calibration guarantees for the original method that double dips the data, using a certain Markov property of order statistics. Based on our results, we make practical recommendations for choosing the number of bins in histogram binning. In our illustrative simulations, we propose a new tool for assessing calibration -- validity plots -- which provide more information than an ECE estimate.
翻訳日:2021-05-12 14:02:13 公開日:2021-05-10
# r2d2: トランスフォーマーによるリレーショナルテキストデコーディング

R2D2: Relational Text Decoding with Transformers ( http://arxiv.org/abs/2105.04645v1 )

ライセンス: Link先を確認
Aryan Arbabi, Mingqiu Wang, Laurent El Shafey, Nan Du, Izhak Shafran(参考訳) グラフ構造とそれらのノードとエッジに関連する自然言語テキストとの相互作用をモデル化する新しいフレームワークを提案する。 既存のアプローチは通常2つのカテゴリに分類される。 on 群は関係構造を線形列に変換して無視し、非常に成功した seq2seq モデルを利用する。 他方では、テキストを固定次元ベクトルとして表現し、グラフニューラルネットワークを適用することで、テキストのシーケンシャルな性質を無視する。 どちらの単純化も情報損失につながる。 提案手法は,図形構造とテキストの逐次的性質の両方を利用する。 我々のモデルへの入力は、グラフのノードとエッジに関連付けられた一連のテキストセグメントであり、その後、トランスフォーマエンコーダ-デコーダモデルで処理され、セグメントを含むノード間のグラフィカルな関係を認識する自己対応機構を備えている。 これにより、すでに大量のテキストでトレーニングされているBERTのようなモデルも使用できます。 提案モデルには幅広い応用があるが,データ・テキスト生成タスクにおけるその機能を示す。 提案手法は, モデルアーキテクチャをカスタマイズすることなく, 4つのタスクにおける最先端の手法と比較した。 また,臨床訪問中に言及された医療機関から臨床ノートを作成できる新しい実践的応用の早期のデモンストレーションも提供する。

We propose a novel framework for modeling the interaction between graphical structures and the natural language text associated with their nodes and edges. Existing approaches typically fall into two categories. On group ignores the relational structure by converting them into linear sequences and then utilize the highly successful Seq2Seq models. The other side ignores the sequential nature of the text by representing them as fixed-dimensional vectors and apply graph neural networks. Both simplifications lead to information loss. Our proposed method utilizes both the graphical structure as well as the sequential nature of the texts. The input to our model is a set of text segments associated with the nodes and edges of the graph, which are then processed with a transformer encoder-decoder model, equipped with a self-attention mechanism that is aware of the graphical relations between the nodes containing the segments. This also allows us to use BERT-like models that are already trained on large amounts of text. While the proposed model has wide applications, we demonstrate its capabilities on data-to-text generation tasks. Our approach compares favorably against state-of-the-art methods in four tasks without tailoring the model architecture. We also provide an early demonstration in a novel practical application -- generating clinical notes from the medical entities mentioned during clinical visits.
翻訳日:2021-05-12 14:00:40 公開日:2021-05-10
# トランスフォーマーに基づく多言語言語モデルの構文能力評価

Assessing the Syntactic Capabilities of Transformer-based Multilingual Language Models ( http://arxiv.org/abs/2105.04688v1 )

ライセンス: Link先を確認
Laura P\'erez-Mayos, Alba T\'aboas Garc\'ia, Simon Mille, Leo Wanner(参考訳) 通常100以上の言語で事前訓練された多言語トランスフォーマーベースの言語モデルは、幅広い言語間変換タスクにおいて優れた結果が得られることが示されている。 しかし、異なる言語に対する最適化が、構文構造よりも一般化するモデルの能力と、異なる複雑さの構文現象を持つ言語がどのように影響を受けるかは、まだ不明である。 本研究では,BERT と RoBERTa の単言語版と多言語版の構文一般化機能について検討する。 より具体的には、同一言語(英語)における単言語モデルと多言語モデルの統語能力の比較と、2つの異なる言語(英語とスペイン語)における多言語モデルの統語的一般化ポテンシャルを評価する。 英語では、SyntaxGymテストスイートを使用し、スペイン語では、SyntaxGymオンラインプラットフォームを通じて、言語モデルの構文一般化能力を評価するために設計された、ターゲットとした構文テストの新しいアンサンブルであるSyntaxGymESを導入します。

Multilingual Transformer-based language models, usually pretrained on more than 100 languages, have been shown to achieve outstanding results in a wide range of cross-lingual transfer tasks. However, it remains unknown whether the optimization for different languages conditions the capacity of the models to generalize over syntactic structures, and how languages with syntactic phenomena of different complexity are affected. In this work, we explore the syntactic generalization capabilities of the monolingual and multilingual versions of BERT and RoBERTa. More specifically, we evaluate the syntactic generalization potential of the models on English and Spanish tests, comparing the syntactic abilities of monolingual and multilingual models on the same language (English), and of multilingual models on two different languages (English and Spanish). For English, we use the available SyntaxGym test suite; for Spanish, we introduce SyntaxGymES, a novel ensemble of targeted syntactic tests in Spanish, designed to evaluate the syntactic generalization capabilities of language models through the SyntaxGym online platform.
翻訳日:2021-05-12 14:00:21 公開日:2021-05-10
# 健康分析における因果推論入門

An introduction to causal reasoning in health analytics ( http://arxiv.org/abs/2105.04655v1 )

ライセンス: Link先を確認
Wenhao Zhang, Ramin Ramezani, Arash Naeim(参考訳) データサイエンスのタスクは、データの意味付けや、それに関する仮説の検証と見なすことができる。 データから推測される結論は、情報的な決定を下すのに大いに役立ちます。 ビッグデータによって、特定の疾患に苦しむ高リスク患者を特定したり、予防措置をとるなど、機械学習と連携して無数の予測タスクを実行することが可能になった。 しかし、医療実践者は単なる予測に満足せず、入力特徴と臨床結果の因果関係にも興味を持っている。 このような関係を理解することで、医師は患者を治療し、リスクを効果的に軽減できる。 因果性は典型的にはランダム化制御試験によって同定される。 このような試みは、科学者や研究者が観察的な研究に目を向けて推論を試みると実現できないことが多い。 しかし、観察的研究は、誤った因果的結論をもたらすバイアスの選択と/または結合に影響される可能性がある。 この章では、従来の機械学習や統計的アプローチ、特に医療データ分析分野における観察データの分析で生じる欠点をいくつか強調する。 医療分野における観察的研究から因果推論と因果効果を見出す方法について考察する。 さらに,データ欠落やモデル転送可能性といった一般的な機械学習問題に取り組む上で,因果推論の応用例を示す。 最後に,共起バイアスに対抗する手段として,強化学習と因果関係を統合する可能性について議論する。

A data science task can be deemed as making sense of the data and/or testing a hypothesis about it. The conclusions inferred from data can greatly guide us to make informative decisions. Big data has enabled us to carry out countless prediction tasks in conjunction with machine learning, such as identifying high risk patients suffering from a certain disease and taking preventable measures. However, healthcare practitioners are not content with mere predictions - they are also interested in the cause-effect relation between input features and clinical outcomes. Understanding such relations will help doctors treat patients and reduce the risk effectively. Causality is typically identified by randomized controlled trials. Often such trials are not feasible when scientists and researchers turn to observational studies and attempt to draw inferences. However, observational studies may also be affected by selection and/or confounding biases that can result in wrong causal conclusions. In this chapter, we will try to highlight some of the drawbacks that may arise in traditional machine learning and statistical approaches to analyze the observational data, particularly in the healthcare data analytics domain. We will discuss causal inference and ways to discover the cause-effect from observational studies in healthcare domain. Moreover, we will demonstrate the applications of causal inference in tackling some common machine learning issues such as missing data and model transportability. Finally, we will discuss the possibility of integrating reinforcement learning with causality as a way to counter confounding bias.
翻訳日:2021-05-12 13:52:29 公開日:2021-05-10
# マルチエージェントコンセンサスにおける記憶の影響

The Influence of Memory in Multi-Agent Consensus ( http://arxiv.org/abs/2105.04666v1 )

ライセンス: Link先を確認
David Kohan Marzag\~ao, Luciana Basualdo Bonatto, Tiago Madeira, Marcelo Matheus Gauy, Peter McBurney(参考訳) マルチエージェントのコンセンサス問題は、有限個の決定オプション間の自律的および独立的なローカルな選択の連続と見なされ、それぞれのローカルな選択は同時に行われ、グローバルなコンセンサス状態を達成するという共通の目標を持つ。 異なる結果の確率を推定し、コンセンサスを形成するのにどのくらいの時間を要するかを予測できるというのは、そのようなプロトコルの中核的な問題である。 エージェントが過去のまたは時代遅れの状態を記憶できるプロトコルにはほとんど注目されていない。 本稿では, \emph{memory consensus protocol} と呼ぶものを研究するフレームワークを提案する。 メモリの利用により、そのようなプロセスは常に収束し、サイクルのようないくつかのシナリオではより早く収束することが示される。 エージェントが表現した最初の意見に基づいて、各オプションが最終的にそのようなプロセスに勝つ確率を理論的に分析する。 さらに,コンセンサスに必要な期待時間について,エージェントがメモリから恩恵を受けるネットワークトポロジを調べる実験を行う。

Multi-agent consensus problems can often be seen as a sequence of autonomous and independent local choices between a finite set of decision options, with each local choice undertaken simultaneously, and with a shared goal of achieving a global consensus state. Being able to estimate probabilities for the different outcomes and to predict how long it takes for a consensus to be formed, if ever, are core issues for such protocols. Little attention has been given to protocols in which agents can remember past or outdated states. In this paper, we propose a framework to study what we call \emph{memory consensus protocol}. We show that the employment of memory allows such processes to always converge, as well as, in some scenarios, such as cycles, converge faster. We provide a theoretical analysis of the probability of each option eventually winning such processes based on the initial opinions expressed by agents. Further, we perform experiments to investigate network topologies in which agents benefit from memory on the expected time needed for consensus.
翻訳日:2021-05-12 13:50:55 公開日:2021-05-10
# 予算制約付き連立戦略と割引

Budget-Constrained Coalition Strategies with Discounting ( http://arxiv.org/abs/2105.04692v1 )

ライセンス: Link先を確認
Lia Bozzone and Pavel Naumov(参考訳) 将来のコストと報酬を計算することは、会計、ゲーム理論、機械学習において一般的な慣習である。 それにもかかわらず、コストとリソース制約のある戦略を推論する既存のロジックは割引を考慮しない。 本稿では,割引を意味に組み込んだ予算制約型戦略能力の推論のための,健全で完全な論理体系を提案する。

Discounting future costs and rewards is a common practice in accounting, game theory, and machine learning. In spite of this, existing logics for reasoning about strategies with cost and resource constraints do not account for discounting. The paper proposes a sound and complete logical system for reasoning about budget-constrained strategic abilities that incorporates discounting into its semantics.
翻訳日:2021-05-12 13:49:37 公開日:2021-05-10
# 模倣と構造を用いたパーソナライズされたポピュラー音楽生成

Personalized Popular Music Generation Using Imitation and Structure ( http://arxiv.org/abs/2105.04709v1 )

ライセンス: Link先を確認
Shuqi Dai, Xichu Ma, Ye Wang, Roger B. Dannenberg(参考訳) 最近は音楽業界で多くの実践がなされている。 深層学習技術を用いたスタイリスティックな音楽生成が主流となっているが、これらのモデルは高い音楽性、異なるレベルの音楽構造、制御性を持つ音楽の生成に苦慮している。 さらに、音楽セラピーのようなアプリケーションシナリオでは、大規模なデータコーパスの全体的なジャンルスタイルを捉えるのではなく、いくつかの特定の音楽例から特定の音楽スタイルを模倣する必要がある。 現在のディープラーニング手法に挑戦する要件に対処するために,与えられたサンプル種歌から構造,メロディ,和音,バススタイルをキャプチャし,模倣できる統計的機械学習モデルを提案する。 10曲のポップソングを用いた評価では,新たな表現や手法によって,与えられた入力歌に類似した高品質なスタイル音楽が作成できることが示されている。 また,音楽評価や音楽療法におけるアプローチの可能性についても論じる。

Many practices have been presented in music generation recently. While stylistic music generation using deep learning techniques has became the main stream, these models still struggle to generate music with high musicality, different levels of music structure, and controllability. In addition, more application scenarios such as music therapy require imitating more specific musical styles from a few given music examples, rather than capturing the overall genre style of a large data corpus. To address requirements that challenge current deep learning methods, we propose a statistical machine learning model that is able to capture and imitate the structure, melody, chord, and bass style from a given example seed song. An evaluation using 10 pop songs shows that our new representations and methods are able to create high-quality stylistic music that is similar to a given input song. We also discuss potential uses of our approach in music evaluation and music therapy.
翻訳日:2021-05-12 13:49:32 公開日:2021-05-10
# TransPose:6つの慣性センサーによるリアルタイム3D翻訳と詩推定

TransPose: Real-time 3D Human Translation and Pose Estimation with Six Inertial Sensors ( http://arxiv.org/abs/2105.04605v1 )

ライセンス: Link先を確認
Xinyu Yi, Yuxiao Zhou, Feng Xu(参考訳) モーションキャプチャーは、視覚ベースのソリューションのように閉塞性や広帯域記録に苦しむことのない慣性センシング技術によってもたらされる新しい可能性に直面している。 しかし、記録された信号は希少で騒々しいため、オンラインのパフォーマンスとグローバル翻訳推定は2つの重要な問題となった。 本稿では,6慣性計測ユニット(IMU)を90fps以上でフルモーションキャプチャー(グローバル翻訳とボディポーズの両方)を実現するための,DNNベースのTransPoseを提案する。 身体のポーズ推定には, 葉間関節位置を中間結果として推定する多段階ネットワークを提案する。 この設計はポーズ推定をはるかに容易にし、精度と計算コストの低減を両立させる。 グローバル翻訳推定のために,信頼度に基づく融合手法を用いて,グローバル翻訳を堅牢に解くためのサポートフット法とRNN法を提案する。 定量的および定性的な比較により,本手法は最先端の学習法や最適化法よりも精度と効率の両面で優れていることが示された。 純粋に慣性センサに基づくアプローチでは, 環境条件(固定カメラなど)に制限されず, 広視野の動作空間や強い咬合など, 一般的な困難を回避できる。

Motion capture is facing some new possibilities brought by the inertial sensing technologies which do not suffer from occlusion or wide-range recordings as vision-based solutions do. However, as the recorded signals are sparse and quite noisy, online performance and global translation estimation turn out to be two key difficulties. In this paper, we present TransPose, a DNN-based approach to perform full motion capture (with both global translations and body poses) from only 6 Inertial Measurement Units (IMUs) at over 90 fps. For body pose estimation, we propose a multi-stage network that estimates leaf-to-full joint positions as intermediate results. This design makes the pose estimation much easier, and thus achieves both better accuracy and lower computation cost. For global translation estimation, we propose a supporting-foot-base d method and an RNN-based method to robustly solve for the global translations with a confidence-based fusion technique. Quantitative and qualitative comparisons show that our method outperforms the state-of-the-art learning- and optimization-based methods with a large margin in both accuracy and efficiency. As a purely inertial sensor-based approach, our method is not limited by environmental settings (e.g., fixed cameras), making the capture free from common difficulties such as wide-range motion space and strong occlusion.
翻訳日:2021-05-12 13:49:17 公開日:2021-05-10
# GSPMD:ML計算グラフのための汎用的でスケーラブルな並列化

GSPMD: General and Scalable Parallelization for ML Computation Graphs ( http://arxiv.org/abs/2105.04663v1 )

ライセンス: Link先を確認
Yuanzhong Xu, HyoukJoong Lee, Dehao Chen, Blake Hechtman, Yanping Huang, Rahul Joshi, Maxim Krikun, Dmitry Lepikhin, Andy Ly, Marcello Maggioni, Ruoming Pang, Noam Shazeer, Shibo Wang, Tao Wang, Yonghui Wu, Zhifeng Chen(参考訳) 本稿では,共通機械学習計算グラフの自動並列化システムgspmdを提案する。 ユーザは単一のデバイスと同じようにプログラムを書くことができ、GSPMDが計算を並列化するテンソルの配布方法に関するいくつかのアノテーションを通じてヒントを与えることができる。 パーティショニングの表現は単純だが一般的なものであり、様々なモデルで異なるあるいは混合した並列性のパラダイムを表現できる。 GSPMDは、制限されたユーザアノテーションに基づいて、グラフ内のすべてのオペレータのパーティショニングを推論するので、既存の単一デバイスプログラムをスケールアップするのに便利である。 静的な形状制約、均一なパーティショニング、ハロデータの交換、ネストされたオペレータパーティショニングなど、プロダクション使用に関するいくつかの技術的課題を解決する。 これらの技術により、gspmdは最大1兆のパラメータを持つモデルで、128から2048のクラウドtpuv3コアで50%から62%の計算利用を達成できる。 GSPMDは、実行時のパーティションIDに基づいて動作を調整し、クロスデバイス通信に集合演算子を使用する全デバイス向けの単一のプログラムを生成する。 この特性により、システム自体のスケーラビリティが向上し、コンパイル時間はデバイス数の増加とともに一定に保たれる。

We present GSPMD, an automatic, compiler-based parallelization system for common machine learning computation graphs. It allows users to write programs in the same way as for a single device, then give hints through a few annotations on how to distribute tensors, based on which GSPMD will parallelize the computation. Its representation of partitioning is simple yet general, allowing it to express different or mixed paradigms of parallelism on a wide variety of models. GSPMD infers the partitioning for every operator in the graph based on limited user annotations, making it convenient to scale up existing single-device programs. It solves several technical challenges for production usage, such as static shape constraints, uneven partitioning, exchange of halo data, and nested operator partitioning. These techniques allow GSPMD to achieve 50% to 62% compute utilization on 128 to 2048 Cloud TPUv3 cores for models with up to one trillion parameters. GSPMD produces a single program for all devices, which adjusts its behavior based on a run-time partition ID, and uses collective operators for cross-device communication. This property allows the system itself to be scalable: the compilation time stays constant with increasing number of devices.
翻訳日:2021-05-12 13:47:17 公開日:2021-05-10
# 継続的行動、状態、時間における価値反復

Value Iteration in Continuous Actions, States and Time ( http://arxiv.org/abs/2105.04682v1 )

ライセンス: Link先を確認
Michael Lutter and Shie Mannor and Jan Peters and Dieter Fox and Animesh Garg(参考訳) 古典的な価値反復アプローチは、連続した状態とアクションを持つ環境では適用できない。 このような環境では、状態と行動は通常離散化され、計算複雑性が指数関数的に増加する。 本稿では,連続適合値反復(cFVI)を提案する。 このアルゴリズムは、既知のダイナミクスモデルによる連続状態とアクションに対する動的プログラミングを可能にする。 連続時間定式化を利用すると、最適方針は非線形制御-アフィン力学に導出することができる。 このクローズドフォームソリューションは、継続的な環境に対する価値反復の効率的な拡張を可能にします。 非線形制御実験では, 動的計画法が深層強化学習法と同じ量的性能をシミュレーションで得るが, 物理系に移管した場合に優れていることを示す。 cfviによって得られたポリシーは、決定論的モデルのみを使用しても、最適化に堅牢性を明示的に組み込むことなく、ダイナミクスの変化に対してより堅牢である。 物理システムのビデオは \url{https://sites.google .com/view/value-iter ation} で見ることができる。

Classical value iteration approaches are not applicable to environments with continuous states and actions. For such environments, the states and actions are usually discretized, which leads to an exponential increase in computational complexity. In this paper, we propose continuous fitted value iteration (cFVI). This algorithm enables dynamic programming for continuous states and actions with a known dynamics model. Leveraging the continuous-time formulation, the optimal policy can be derived for non-linear control-affine dynamics. This closed-form solution enables the efficient extension of value iteration to continuous environments. We show in non-linear control experiments that the dynamic programming solution obtains the same quantitative performance as deep reinforcement learning methods in simulation but excels when transferred to the physical system. The policy obtained by cFVI is more robust to changes in the dynamics despite using only a deterministic model and without explicitly incorporating robustness in the optimization. Videos of the physical system are available at \url{https://sites.google .com/view/value-iter ation}.
翻訳日:2021-05-12 13:44:32 公開日:2021-05-10
# ランベック前群は序列のフロベニウスクモである

Lambek pregroups are Frobenius spiders in preorders ( http://arxiv.org/abs/2105.03038v2 )

ライセンス: Link先を確認
Dusko Pavlovic(参考訳) スパイダー(Spider)は、数学、物理学、計算機科学の基本構造である*特殊フロベニウス代数*のあだ名である。 ※前群*は言語学の基本構造である。 プリグループとスパイダーは自然言語処理で一緒に使われてきた:一つは構文、もう一つは意味論である。 先行群自体が、文法から自然に生じる事前順序付き関係の圏における尖ったクモとして特徴づけられることが判明した。 一般の順序付きクモ環の周りの別の方法は、前群の和として特徴づけることができる。 これは関係的なスパイダー代数を群の不連結和として特徴づける。 その結果から,機械学習とデータ解析の基盤構造を理解し,適用するための新たな手法が示唆された。

"Spider" is a nickname of *special Frobenius algebras*, a fundamental structure from mathematics, physics, and computer science. *Pregroups* are a fundamental structure from linguistics. Pregroups and spiders have been used together in natural language processing: one for syntax, the other for semantics. It turns out that pregroups themselves can be characterized as pointed spiders in the category of preordered relations, where they naturally arise from grammars. The other way around preordered spider algebras in general can be characterized as unions of pregroups. This extends the characterization of relational spider algebras as disjoint unions of groups. The compositional framework that emerged with the results suggests new ways to understand and apply the basis structures in machine learning and data analysis.
翻訳日:2021-05-12 11:16:52 公開日:2021-05-10
# (参考訳) スパースグラフのデータセットに対する近似fr\'echet平均 [全文訳有]

Approximate Fr\'echet Mean for Data Sets of Sparse Graphs ( http://arxiv.org/abs/2105.04062v1 )

ライセンス: CC BY 4.0
Daniel Ferguson and Fran\c{c}ois G. Meyer(参考訳) グラフの集合の位置(平均、中央値)を特徴づけるためには、グラフ集合はユークリッド空間ではないので、計量空間に適合する中心性の概念が必要である。 標準的なアプローチはfr\'echet平均を考えることである。 本研究では、各隣接行列の固有値の間に、$\ell_2$ norm で定義される擬メトリックとグラフの集合を同値化する。 編集距離とは異なり、この擬メトリックは複数のスケールでの構造変化を示し、グラフの集合上の様々な統計問題の研究によく適合している。 一定の大きさの非有向非重み付きグラフの集合のfr\'echet平均の近似を計算するアルゴリズムについて述べる。

To characterize the location (mean, median) of a set of graphs, one needs a notion of centrality that is adapted to metric spaces, since graph sets are not Euclidean spaces. A standard approach is to consider the Fr\'echet mean. In this work, we equip a set of graph with the pseudometric defined by the $\ell_2$ norm between the eigenvalues of their respective adjacency matrix . Unlike the edit distance, this pseudometric reveals structural changes at multiple scales, and is well adapted to studying various statistical problems on sets of graphs. We describe an algorithm to compute an approximation to the Fr\'echet mean of a set of undirected unweighted graphs with a fixed size.
翻訳日:2021-05-12 02:24:55 公開日:2021-05-10
# (参考訳) 自然変換を用いたロバストトレーニング [全文訳有]

Robust Training Using Natural Transformation ( http://arxiv.org/abs/2105.04070v1 )

ライセンス: CC BY 4.0
Shuo Wang, Lingjuan Lyu, Surya Nepal, Carsten Rudolph, Marthie Grobler, Kristen Moore(参考訳) データ変換や逆行訓練によるデータ拡張技術などのディープラーニングモデルの従来の堅牢性アプローチでは、照明条件の変化など、入力の意味を保った実世界の変動を捉えることはできない。 このギャップを埋めるために,画像分類アルゴリズムのロバスト性向上を目的とした対角的トレーニングスキームであるNaTraを提案する。 クラス識別に依存しない入力画像の属性をターゲットとし、それらの属性を操作して入力の現実世界の自然な変換(NaTra)を模倣し、画像分類器のトレーニングデータセットを増強する。 具体的には、与えられた画像のバッチを、よく訓練された生成モデルの対応する非絡み合った潜在コードにマッピングするために、textit{Batch Inverse Encoding and Shifting} を適用する。 \textit{latent codes expansion} は拡張特徴マップの導入を通じて画像再構成の品質を高めるために使用される。 \textit{Unsupervised Attribute Directing and Manipulation} は特定の属性変化に対応する遅延方向を識別し、それらの属性の解釈可能な操作を生成し、入力データに自然な変換を生成する。 本手法は,実世界の自然変化(照明条件や髪型など)に類似した画像の変換を模倣し,これらの自然変換に不変なモデルを構築するために,訓練されたganから導出される不連続な潜在表現を用いて,その効果を実証する。 広範な実験により,本手法は分類モデルの一般化を改善し,実世界の歪みに対して頑健性を高めることを示した。

Previous robustness approaches for deep learning models such as data augmentation techniques via data transformation or adversarial training cannot capture real-world variations that preserve the semantics of the input, such as a change in lighting conditions. To bridge this gap, we present NaTra, an adversarial training scheme that is designed to improve the robustness of image classification algorithms. We target attributes of the input images that are independent of the class identification, and manipulate those attributes to mimic real-world natural transformations (NaTra) of the inputs, which are then used to augment the training dataset of the image classifier. Specifically, we apply \textit{Batch Inverse Encoding and Shifting} to map a batch of given images to corresponding disentangled latent codes of well-trained generative models. \textit{Latent Codes Expansion} is used to boost image reconstruction quality through the incorporation of extended feature maps. \textit{Unsupervised Attribute Directing and Manipulation} enables identification of the latent directions that correspond to specific attribute changes, and then produce interpretable manipulations of those attributes, thereby generating natural transformations to the input data. We demonstrate the efficacy of our scheme by utilizing the disentangled latent representations derived from well-trained GANs to mimic transformations of an image that are similar to real-world natural variations (such as lighting conditions or hairstyle), and train models to be invariant to these natural transformations. Extensive experiments show that our method improves generalization of classification models and increases its robustness to various real-world distortions
翻訳日:2021-05-12 01:59:28 公開日:2021-05-10
# (参考訳) インパルス不変法に基づく畳み込み層を用いたサンプリング周波数非依存音源分離 [全文訳有]

Sampling-Frequency-I ndependent Audio Source Separation Using Convolution Layer Based on Impulse Invariant Method ( http://arxiv.org/abs/2105.04079v1 )

ライセンス: CC BY-SA 4.0
Koichi Saito, Tomohiko Nakamura, Kohei Yatabe, Yuma Koizumi, Hiroshi Saruwatari(参考訳) 音源分離は様々なアプリケーションの前処理としてよく用いられ、その最終的な目的の1つは、様々なオーディオ信号を扱うことのできる単一の汎用モデルを構築することである。 音声信号の種類の一つであるサンプリング周波数は通常アプリケーション固有であるため、先行するオーディオソース分離モデルは、ターゲットアプリケーションで指定された全てのサンプリング周波数の音声信号を処理可能であるべきである。 しかし、ディープニューラルネットワーク(DNN)に基づく従来のモデルは、トレーニングデータによって指定されたサンプリング周波数でのみ訓練されており、未知のサンプリング周波数で動作する保証はない。 本稿では,任意のサンプリング周波数を単一のdnnで処理可能な畳み込み層を提案する。 音源分離実験により,提案層の導入により,従来の音源分離モデルではサンプリング周波数が不明瞭である場合も一貫して動作可能であることを示す。

Audio source separation is often used as preprocessing of various applications, and one of its ultimate goals is to construct a single versatile model capable of dealing with the varieties of audio signals. Since sampling frequency, one of the audio signal varieties, is usually application specific, the preceding audio source separation model should be able to deal with audio signals of all sampling frequencies specified in the target applications. However, conventional models based on deep neural networks (DNNs) are trained only at the sampling frequency specified by the training data, and there are no guarantees that they work with unseen sampling frequencies. In this paper, we propose a convolution layer capable of handling arbitrary sampling frequencies by a single DNN. Through music source separation experiments, we show that the introduction of the proposed layer enables a conventional audio source separation model to consistently work with even unseen sampling frequencies.
翻訳日:2021-05-12 01:43:32 公開日:2021-05-10
# (参考訳) 大規模正準多進分解に対する結合ランダム射影法 [全文訳有]

A Coupled Random Projection Approach to Large-Scale Canonical Polyadic Decomposition ( http://arxiv.org/abs/2105.04084v1 )

ライセンス: CC BY 4.0
Lu-Ming Wang, Ya-Nan Wang, Xiao-Feng Gong, Qiu-Hua Lin, Fei Xiang(参考訳) 大規模テンソルの正準多進分解(CPD)計算のための新しいアルゴリズムを提案する。 提案アルゴリズムは、1つの単射から複数の結合したランダム射影(CoRAP)までの大規模な分解を計算するためにしばしば使用されるランダム射影(RAP)手法を一般化する。 提案したCoRAP法は、結合CPD(C-CPD)とC-CPDアルゴリズムを併用してこれらのテンソルを共同分解するテンソルの集合を生成する。 C-CPDの結果は最終的に融合され、元の大規模データテンソルの係数行列が得られる。 C-CPDを介してより多くのデータサンプルを併用するので、提案したCoRAPベースのPDはRAPベースのPDよりも正確である。 提案手法の性能を示す実験が提供されている。

We propose a novel algorithm for the computation of canonical polyadic decomposition (CPD) of large-scale tensors. The proposed algorithm generalizes the random projection (RAP) technique, which is often used to compute large-scale decompositions, from one single projection to multiple but coupled random projections (CoRAP). The proposed CoRAP technique yields a set of tensors that together admits a coupled CPD (C-CPD) and a C-CPD algorithm is then used to jointly decompose these tensors. The results of C-CPD are finally fused to obtain factor matrices of the original large-scale data tensor. As more data samples are jointly exploited via C-CPD, the proposed CoRAP based CPD is more accurate than RAP based CPD. Experiments are provided to illustrate the performance of the proposed approach.
翻訳日:2021-05-12 01:33:12 公開日:2021-05-10
# (参考訳) コンソーシアムブロックチェーン連合学習のレイテンシ解析 [全文訳有]

Latency Analysis of Consortium Blockchained Federated Learning ( http://arxiv.org/abs/2105.04087v1 )

ライセンス: CC BY 4.0
Pengcheng Ren and Tongjiang Yan(参考訳) 本稿では,このコンソーシアムブロックチェーンを導入して,ビジネスとビジネスのシナリオに適用するための分散型フェデレーション学習アーキテクチャを提案する。 参加者が訓練したローカルモデルの品質を保証するためのモデル検証機構を提案する。 システムのレイテンシを分析するために,アーキテクチャの作業フローを考慮した遅延モデルを構築した。 最後に、実験結果から、遅延モデルは実際の遅延の定量化に有効であることが示された。

A decentralized federated learning architecture is proposed to apply to the Businesses-to-Busine sses scenarios by introducing the consortium blockchain in this paper. We introduce a model verification mechanism to ensure the quality of local models trained by participators. To analyze the latency of the system, a latency model is constructed by considering the work flow of the architecture. Finally the experiment results show that our latency model does well in quantifying the actual delays.
翻訳日:2021-05-12 01:20:11 公開日:2021-05-10
# (参考訳) MuseMorphose: 1つのトランスフォーマーVAEでフルソングとファイングラインド音楽スタイルのトランスファー [全文訳有]

MuseMorphose: Full-Song and Fine-Grained Music Style Transfer with Just One Transformer VAE ( http://arxiv.org/abs/2105.04090v1 )

ライセンス: CC BY 4.0
Shih-Lun Wu, Yi-Hsuan Yang(参考訳) トランスフォーマーと変分オートエンコーダ(VAE)は、シンボリックな(例えばMIDI)ドメイン音楽生成に広く使われている。 前者は長いシーケンスのモデリングにおいて印象的な能力を持っているが、後者はユーザーが自由に音楽の異なる部分(例えばバー)を制御できるようにする。 本稿では,両強みを示す単一のモデルを構築するために,この2つをまとめることに興味がある。 タスクは2つのステップに分割される。 まず,トランスフォーマーデコーダをシーケンス生成中にセグメントレベル,時間変化条件を受信する機能を備える。 その後、開発したインタテンション・デコーダとトランスフォーマエンコーダを組み合わせることで、得られたミューズモルフォースモデルとvaeの目的を訓練し、長い楽曲のスタイル転送を実現し、ユーザが望むリズミカル強度やポリフォニー(ハーモニック・フルネス)などの音楽属性をバーレベルまで指定できるようにする。 実験により、musemorphoseはrecurrent neural network(rnn)よりも多くのスタイル転送タスクで広く使われているメトリクスを先行技術で上回っていることが示されている。

Transformers and variational autoencoders (VAE) have been extensively employed for symbolic (e.g., MIDI) domain music generation. While the former boast an impressive capability in modeling long sequences, the latter allow users to willingly exert control over different parts (e.g., bars) of the music to be generated. In this paper, we are interested in bringing the two together to construct a single model that exhibits both strengths. The task is split into two steps. First, we equip Transformer decoders with the ability to accept segment-level, time-varying conditions during sequence generation. Subsequently, we combine the developed and tested in-attention decoder with a Transformer encoder, and train the resulting MuseMorphose model with the VAE objective to achieve style transfer of long musical pieces, in which users can specify musical attributes including rhythmic intensity and polyphony (i.e., harmonic fullness) they desire, down to the bar level. Experiments show that MuseMorphose outperforms recurrent neural network (RNN) based prior art on numerous widely-used metrics for style transfer tasks.
翻訳日:2021-05-12 01:12:28 公開日:2021-05-10
# (参考訳) EWC(Elastic Weight Consolidation) : ナットとボルト [全文訳有]

Elastic Weight Consolidation (EWC): Nuts and Bolts ( http://arxiv.org/abs/2105.04093v1 )

ライセンス: CC BY 4.0
Abhishek Aich(参考訳) 本稿では,「ニューラルネットワークにおける破滅的忘れ」という題名の論文で紹介された連続学習手法「textbf{Elastic Weight Consolidation」の理論的支援について述べる。 連続学習における正規化手法における最も引用された論文の1つとして,提案する目的関数の基本的な概念を整理する。 読者は継続学習の基本的な用語を認識していると仮定する。

In this report, we present a theoretical support of the continual learning method \textbf{Elastic Weight Consolidation}, introduced in paper titled `Overcoming catastrophic forgetting in neural networks'. Being one of the most cited paper in regularized methods for continual learning, this report disentangles the underlying concept of the proposed objective function. We assume that the reader is aware of the basic terminologies of continual learning.
翻訳日:2021-05-12 00:38:16 公開日:2021-05-10
# (参考訳) SRLF:ソーシャルメディア上でのコンテンツに基づく騒音検出のためのスタンス対応強化学習フレームワーク [全文訳有]

SRLF: A Stance-aware Reinforcement Learning Framework for Content-based Rumor Detection on Social Media ( http://arxiv.org/abs/2105.04098v1 )

ライセンス: CC BY 4.0
Chunyuan Yuan, Wanhui Qian, Qianwen Ma, Wei Zhou, Songlin Hu(参考訳) ソーシャルメディアの急速な発展は人々の生活様式を変え、同時に、社会パニックを悪化させ、社会的信頼の危機を引き起こす噂を公表し広めるための理想的な場所を提供する。 初期のコンテンツベースの手法は、噂検出のためのテキストとユーザプロファイルからヒントを見つけることに焦点を当てていた。 近年の研究では、ユーザのコメントとニュースコンテンツを組み合わせて、真実と偽の噂の違いを捉えている。 ユーザのスタンスはうわさ検出に有効であるが,手動ラベリングプロセスは時間と労力がかかるため,うわさ検出に利用することの制限がある。 本稿では,まず,学習済みBERTモデルを小さなラベル付きデータセット上に微調整し,このモデルを利用してユーザのコメントデータに対する弱いスタンスラベルを注釈付けして,上記の問題を克服する。 そこで本研究では,モデルトレーニングと噂検出のための高品質なラベル付きスタンスデータを選択するための,SRLF(Stance-Aware Reinforcement Learning Framework)を提案する。 姿勢選択と噂検出タスクを同時に最適化し、双方のタスクを相互に促進する。 我々は2つのよく使われる実世界のデータセットで実験を行う。 実験の結果,本フレームワークは最先端モデルよりも優れた性能を示し,提案フレームワークの有効性を確認した。

The rapid development of social media changes the lifestyle of people and simultaneously provides an ideal place for publishing and disseminating rumors, which severely exacerbates social panic and triggers a crisis of social trust. Early content-based methods focused on finding clues from the text and user profiles for rumor detection. Recent studies combine the stances of users' comments with news content to capture the difference between true and false rumors. Although the user's stance is effective for rumor detection, the manual labeling process is time-consuming and labor-intensive, which limits the application of utilizing it to facilitate rumor detection. In this paper, we first finetune a pre-trained BERT model on a small labeled dataset and leverage this model to annotate weak stance labels for users' comment data to overcome the problem mentioned above. Then, we propose a novel Stance-aware Reinforcement Learning Framework (SRLF) to select high-quality labeled stance data for model training and rumor detection. Both the stance selection and rumor detection tasks are optimized simultaneously to promote both tasks mutually. We conduct experiments on two commonly used real-world datasets. The experimental results demonstrate that our framework outperforms the state-of-the-art models significantly, which confirms the effectiveness of the proposed framework.
翻訳日:2021-05-12 00:32:55 公開日:2021-05-10
# (参考訳) Z-GCNETs: 時系列予測のためのグラフ畳み込みネットワークにおける時間ジグザグ [全文訳有]

Z-GCNETs: Time Zigzags at Graph Convolutional Networks for Time Series Forecasting ( http://arxiv.org/abs/2105.04100v1 )

ライセンス: CC BY 4.0
Yuzhou Chen, Ignacio Segovia-Dominguez, Yulia R. Gel(参考訳) 近年,学習機構と表現機構の基本的な構成要素として明示的な時間次元を統合する,新しいタイプのディープラーニング(DL)アーキテクチャの開発への関心が高まっている。 その結果, 観測データのトポロジ的記述は, データの持続的ホモロジーである異なるスケールの空間におけるデータセットの形状の情報を符号化することで, DLの性能と堅牢性を向上し, 重要な相補的情報を含む可能性が示唆された。 本稿では,この2つのアイデアの収束として,データの時間条件の優れたトポロジ情報を用いたDLアーキテクチャの強化と,時間対応グラフ畳み込みネットワーク(GCN)へのジグザグ永続性の概念の導入を提案する。 zigzag persistenceは、観察されたデータの最も重要な位相的特徴を追跡するための体系的かつ数学的に厳密なフレームワークを提供する。 抽出した時間条件トポロジカル記述子をDLに統合するために,新しいトポロジカル要約,ジグザグの持続画像を開発し,その理論的安定性を保証する。 トラフィック予測やEthereumブロックチェーンの価格予測への応用として,時間対応のZigzagトポロジ層(Z-GCNET)で新しいGCNを検証する。 以上の結果から,Z-GCNETは4つの時系列データセット上で13の最先端手法より優れていた。

There recently has been a surge of interest in developing a new class of deep learning (DL) architectures that integrate an explicit time dimension as a fundamental building block of learning and representation mechanisms. In turn, many recent results show that topological descriptors of the observed data, encoding information on the shape of the dataset in a topological space at different scales, that is, persistent homology of the data, may contain important complementary information, improving both performance and robustness of DL. As convergence of these two emerging ideas, we propose to enhance DL architectures with the most salient time-conditioned topological information of the data and introduce the concept of zigzag persistence into time-aware graph convolutional networks (GCNs). Zigzag persistence provides a systematic and mathematically rigorous framework to track the most important topological features of the observed data that tend to manifest themselves over time. To integrate the extracted time-conditioned topological descriptors into DL, we develop a new topological summary, zigzag persistence image, and derive its theoretical stability guarantees. We validate the new GCNs with a time-aware zigzag topological layer (Z-GCNETs), in application to traffic forecasting and Ethereum blockchain price prediction. Our results indicate that Z-GCNET outperforms 13 state-of-the-art methods on 4 time series datasets.
翻訳日:2021-05-12 00:18:37 公開日:2021-05-10
# (参考訳) appealNet: DNN推論のための効率的かつ高精度なエッジ/クラウドコラボレーションアーキテクチャ [全文訳有]

AppealNet: An Efficient and Highly-Accurate Edge/Cloud Collaborative Architecture for DNN Inference ( http://arxiv.org/abs/2105.04104v1 )

ライセンス: CC BY 4.0
Min Li, Yu Li, Ye Tian, Li Jiang and Qiang Xu(参考訳) 本稿では,最先端ソリューションよりもディープラーニング(dl)タスクを効率的に実行する新しいエッジ/クラウド協調アーキテクチャである appealnet を提案する。 与えられた入力に対して、 appealnetは、リソース制約のあるエッジデバイスにデプロイされたdlモデルによってうまく処理できるかどうかを正確に予測し、そうでなければ、クラウドにデプロイされるより強力なdlモデルにアピールする。 これは、エッジ/クラウド協調アーキテクチャの精度と計算/通信コストのトレードオフを最適化し、推論の難しさを明示的に考慮した、双方向のニューラルネットワークアーキテクチャを採用することで実現される。 いくつかの画像分類データセットの実験結果は、既存の手法と比較して40%以上の省エネ効果が得られた。

This paper presents AppealNet, a novel edge/cloud collaborative architecture that runs deep learning (DL) tasks more efficiently than state-of-the-art solutions. For a given input, AppealNet accurately predicts on-the-fly whether it can be successfully processed by the DL model deployed on the resource-constrained edge device, and if not, appeals to the more powerful DL model deployed at the cloud. This is achieved by employing a two-head neural network architecture that explicitly takes inference difficulty into consideration and optimizes the tradeoff between accuracy and computation/communic ation cost of the edge/cloud collaborative architecture. Experimental results on several image classification datasets show up to more than 40% energy savings compared to existing techniques without sacrificing accuracy.
翻訳日:2021-05-11 23:58:01 公開日:2021-05-10
# (参考訳) wiki-reliability: wikipediaにおけるコンテンツ信頼性のための大規模データセット [全文訳有]

Wiki-Reliability: A Large Scale Dataset for Content Reliability on Wikipedia ( http://arxiv.org/abs/2105.04117v1 )

ライセンス: CC BY-SA 4.0
KayYen Wong, Miriam Redi, Diego Saez-Trumper(参考訳) Wikipediaは最大のオンライン百科事典であり、アルゴリズムやウェブユーザーがウェブ上の信頼できる情報のハブとして使っている。 Wikipediaコンテンツの品質と信頼性はボランティア編集者のコミュニティによって維持されている。 機械学習と情報検索アルゴリズムは、wikipediaコンテンツの信頼性に関する編集者の手作業のスケールアップに役立つ。 しかし、そのような研究の発展を支援する大規模なデータが不足している。 このギャップを埋めるために,本論文では,ウィキ・信頼性(Wiki-Reliability)について述べる。 このデータセットを構築するには、Wikipediaの"テンプレート"に頼っています。 テンプレートは、ウィキペディアの編集者が「中立的でない視点」や「矛盾する記事」といったコンテンツ問題を示すために使うタグであり、リビジョンにおける信頼性の問題を検出する強力なシグナルとして機能する。 ウィキペディア上で最も人気のある信頼性関連テンプレートを10種類選び、ウィキペディア記事リビジョンのほぼ100万のサンプルを各テンプレートに対して肯定的あるいは否定的にラベル付けする効果的な方法を提案する。 データセット内の各ポジティブ/ネガティブな例には、全記事テキストとリビジョンのメタデータから20の機能が含まれている。 本稿では,このようなデータによって可能となるダウンストリームタスクの概要と,コンテンツ信頼性予測のための大規模モデルのトレーニングにWiki-Reliabilityを使用できることを示す。 すべてのデータとコードを公開しています。

Wikipedia is the largest online encyclopedia, used by algorithms and web users as a central hub of reliable information on the web. The quality and reliability of Wikipedia content is maintained by a community of volunteer editors. Machine learning and information retrieval algorithms could help scale up editors' manual efforts around Wikipedia content reliability. However, there is a lack of large-scale data to support the development of such research. To fill this gap, in this paper, we propose Wiki-Reliability, the first dataset of English Wikipedia articles annotated with a wide set of content reliability issues. To build this dataset, we rely on Wikipedia "templates". Templates are tags used by expert Wikipedia editors to indicate content issues, such as the presence of "non-neutral point of view" or "contradictory articles", and serve as a strong signal for detecting reliability issues in a revision. We select the 10 most popular reliability-related templates on Wikipedia, and propose an effective method to label almost 1M samples of Wikipedia article revisions as positive or negative with respect to each template. Each positive/negative example in the dataset comes with the full article text and 20 features from the revision's metadata. We provide an overview of the possible downstream tasks enabled by such data, and show that Wiki-Reliability can be used to train large-scale models for content reliability prediction. We release all data and code for public use.
翻訳日:2021-05-11 23:44:29 公開日:2021-05-10
# (参考訳) ニューラルネットワークによるFAIDの多様性 [全文訳有]

FAID Diversity via Neural Networks ( http://arxiv.org/abs/2105.04118v1 )

ライセンス: CC BY 4.0
Xin Xiao, Nithin Raveendran, Bane Vasic, Shu Lin, and Ravi Tandon(参考訳) デコーダの多様性は、デコーダのコレクションが協調してエラーパターンのセットを補正する強力なエラー修正フレームワークである。 本稿では,二元対称チャネル(bsc)上の低密度パリティチェック(ldpc)符号のための有限アルファベット反復デコーダ(faids)のデコーダ多様性を設計するための新しい手法を提案する。 提案するデコーダの多様性は、繰り返し量子化ニューラルネットワーク(RQNN)をトレーニングしてFAIDを学習・設計することで達成される。 我々は,機械駆動のデコーダが,同じ複雑性を持つ人工デコーダの性能を上回ることができることを初めて実証した。 RQNNは幅広い種類のFAIDをモデル化できるため、任意のFAIDを学習することができる。 エラーフロアの十分な知識をRQNNに提供するため、トレーニングセットは最も問題の多いエラーパターンのセットであるトラップセットからサンプリングすることで構築される。 損失関数としてクロスエントロピー関数を用いる既存の手法とは対照的に,ビット誤り率(BER)を下げるのではなく,特定のエラーパターンを補正する目的で,フレームエラーレート(FER)に基づく損失関数を導入している。 実例とシミュレーションの結果,rqnn支援デコーダの多様性はldpc符号の誤り訂正能力を高め,エラーフロアを低下させることがわかった。

Decoder diversity is a powerful error correction framework in which a collection of decoders collaboratively correct a set of error patterns otherwise uncorrectable by any individual decoder. In this paper, we propose a new approach to design the decoder diversity of finite alphabet iterative decoders (FAIDs) for Low-Density Parity Check (LDPC) codes over the binary symmetric channel (BSC), for the purpose of lowering the error floor while guaranteeing the waterfall performance. The proposed decoder diversity is achieved by training a recurrent quantized neural network (RQNN) to learn/design FAIDs. We demonstrated for the first time that a machine-learned decoder can surpass in performance a man-made decoder of the same complexity. As RQNNs can model a broad class of FAIDs, they are capable of learning an arbitrary FAID. To provide sufficient knowledge of the error floor to the RQNN, the training sets are constructed by sampling from the set of most problematic error patterns - trapping sets. In contrast to the existing methods that use the cross-entropy function as the loss function, we introduce a frame-error-rate (FER) based loss function to train the RQNN with the objective of correcting specific error patterns rather than reducing the bit error rate (BER). The examples and simulation results show that the RQNN-aided decoder diversity increases the error correction capability of LDPC codes and lowers the error floor.
翻訳日:2021-05-11 23:34:21 公開日:2021-05-10
# (参考訳) expmrc: 機械読解における説明可能性評価 [全文訳有]

ExpMRC: Explainability Evaluation for Machine Reading Comprehension ( http://arxiv.org/abs/2105.04126v1 )

ライセンス: CC BY-SA 4.0
Yiming Cui, Ting Liu, Wanxiang Che, Zhigang Chen, Shijin Wang(参考訳) Machine Reading Comprehension(MRC)データセットの一部で人間レベルのパフォーマンスを達成することは、強力な事前学習言語モデル(PLM)の助けを借りて、もはや困難ではない。 しかし,特に実生活におけるmrcシステムの信頼性をさらに向上させるためには,回答予測と説明の両方を提供することが必要である。 本稿では,MRCシステムの説明可能性を評価するためのExpMRCと呼ばれる新しいベンチマークを提案する。 ExpMRC には SQuAD, CMRC 2018, RACE$^+$, C$^3$ の4つのサブセットが含まれている。 MRCシステムは正しい答えだけでなく、その説明を与える必要がある。 我々は、最先端の事前訓練言語モデルを用いてベースラインシステムを構築し、人間の注釈のないトレーニングセットなしで証拠を抽出するための様々な教師なしアプローチを採用する。 実験の結果、これらのモデルはまだヒトの性能に遠く及ばず、expmrcは困難であることが示唆された。 リソースはhttps://github.com/y mcui/expmrcから入手できる。

Achieving human-level performance on some of Machine Reading Comprehension (MRC) datasets is no longer challenging with the help of powerful Pre-trained Language Models (PLMs). However, it is necessary to provide both answer prediction and its explanation to further improve the MRC system's reliability, especially for real-life applications. In this paper, we propose a new benchmark called ExpMRC for evaluating the explainability of the MRC systems. ExpMRC contains four subsets, including SQuAD, CMRC 2018, RACE$^+$, and C$^3$ with additional annotations of the answer's evidence. The MRC systems are required to give not only the correct answer but also its explanation. We use state-of-the-art pre-trained language models to build baseline systems and adopt various unsupervised approaches to extract evidence without a human-annotated training set. The experimental results show that these models are still far from human performance, suggesting that the ExpMRC is challenging. Resources will be available through https://github.com/y mcui/expmrc
翻訳日:2021-05-11 23:18:13 公開日:2021-05-10
# (参考訳) CREPO: クレーダルネットワークアルゴリズムのベンチマークのためのオープンリポジトリ [全文訳有]

CREPO: An Open Repository to Benchmark Credal Network Algorithms ( http://arxiv.org/abs/2105.04158v1 )

ライセンス: CC BY 4.0
Rafael Caba\~nas and Alessandro Antonucci(参考訳) クレダルネットワークは、確率質量関数の集合であるクレダルに基づくベイズネットワークの一般化として得られる不正確な確率的グラフィカルモデルの一般的なクラスである。 CREMAと呼ばれるJavaライブラリが最近リリースされ、クレダルネットワークをモデル化し、処理し、クエリする。 NP-hardness of the (exact) task にもかかわらず、多くのアルゴリズムがクレダルネットワークの推測を近似することができる。 本稿では,合成クレダルネットワークのオープンリポジトリである crepo と,これらのモデルに対する推論タスクの正確な結果について述べる。 これらのデータをロードしてcromaとやり取りするpythonツールも提供されており、既存の推論アルゴリズムや新しい推論アルゴリズムを非常に簡単に評価し比較することができる。 このようなベンチマークスキームを実証するために,変数除去スキームの内部で使用する近似ヒューリスティックを提案する。 CRMAにおける線形化と正確な手法に基づく近似手順に対するCREPOに基づく検証について論じる。

Credal networks are a popular class of imprecise probabilistic graphical models obtained as a Bayesian network generalization based on, so-called credal, sets of probability mass functions. A Java library called CREMA has been recently released to model, process and query credal networks. Despite the NP-hardness of the (exact) task, a number of algorithms is available to approximate credal network inferences. In this paper we present CREPO, an open repository of synthetic credal networks, provided together with the exact results of inference tasks on these models. A Python tool is also delivered to load these data and interact with CREMA, thus making extremely easy to evaluate and compare existing and novel inference algorithms. To demonstrate such benchmarking scheme, we propose an approximate heuristic to be used inside variable elimination schemes to keep a bound on the maximum number of vertices generated during the combination step. A CREPO-based validation against approximate procedures based on linearization and exact techniques performed in CREMA is finally discussed.
翻訳日:2021-05-11 23:01:21 公開日:2021-05-10
# (参考訳) イントラGPS:形式言語とシンボリック推論を用いた解釈幾何学問題の解法 [全文訳有]

Inter-GPS: Interpretable Geometry Problem Solving with Formal Language and Symbolic Reasoning ( http://arxiv.org/abs/2105.04165v1 )

ライセンス: CC BY 4.0
Pan Lu, Ran Gong, Shibiao Jiang, Liang Qiu, Siyuan Huang, Xiaodan Liang, Song-Chun Zhu(参考訳) 幾何学的問題解決は近年,NLPコミュニティで注目されている。 この課題は、抽象的な問題理解と公理的知識によるシンボリック推論を必要とするため、難しい。 しかし、現在のデータセットは規模が小さいか、あるいは公開されていない。 そこで我々は,3,002の幾何問題と,形式言語における濃密なアノテーションからなる大規模ベンチマークGeometry3Kを構築した。 さらに,形式言語と記号推論を用いた新しい幾何学的解法,Interpretable Geometry Problem Solver (Inter-GPS)を提案する。 インターgpsはまず問題テキストとダイアグラムをルールベースのテキスト解析とニューラルオブジェクト検出によって自動的に形式言語に解析する。 既存の手法の暗黙的な学習とは異なり、Inter-GPSは定理知識を条件付き規則として取り入れ、段階的に記号的推論を行う。 定理予測器は、より効率的で合理的な探索経路のためにシンボリックソルバに供給された定理の適用シーケンスを推測するように設計されている。 Geometry3KとGEOSデータセットの大規模な実験は、Inter-GPSが既存の方法よりも大幅に改善されていることを示している。

Geometry problem solving has attracted much attention in the NLP community recently. The task is challenging as it requires abstract problem understanding and symbolic reasoning with axiomatic knowledge. However, current datasets are either small in scale or not publicly available. Thus, we construct a new large-scale benchmark, Geometry3K, consisting of 3,002 geometry problems with dense annotation in formal language. We further propose a novel geometry solving approach with formal language and symbolic reasoning, called Interpretable Geometry Problem Solver (Inter-GPS). Inter-GPS first parses the problem text and diagram into formal language automatically via rule-based text parsing and neural object detecting, respectively. Unlike implicit learning in existing methods, Inter-GPS incorporates theorem knowledge as conditional rules and performs symbolic reasoning step by step. A theorem predictor is also designed to infer the theorem application sequence fed to the symbolic solver for the more efficient and reasonable searching path. Extensive experiments on the Geometry3K and GEOS datasets demonstrate Inter-GPS achieves significant improvements over existing methods.
翻訳日:2021-05-11 22:53:19 公開日:2021-05-10
# (参考訳) マルチエージェントマルチタスク強化学習による小隊型c-v2xネットワークのaoi-awareリソース割り当て [全文訳有]

AoI-Aware Resource Allocation for Platoon-Based C-V2X Networks via Multi-Agent Multi-Task Reinforcement Learning ( http://arxiv.org/abs/2105.04196v1 )

ライセンス: CC BY 4.0
Mohammad Parvini, Mohammad Reza Javan, Nader Mokari, Bijan Abbasi, and Eduard A. Jorswieck(参考訳) 本稿は,小隊の無線リソース管理を意識した情報年齢(AoI)の問題について検討する。 複数の自律型プラトンは、携帯電話無線通信技術(C-V2X)を利用して、協力的認識メッセージ(CAM)をフォロワーに広め、道路側ユニット(RSU)に安全クリティカルメッセージをタイムリーに届ける。 動的チャネル条件の課題のため、グローバル情報を必要とする集中型リソース管理スキームは効率が悪く、大きなシグナルのオーバーヘッドにつながる。 そこで我々は,多エージェント強化学習(MARL)に基づく分散資源配分フレームワークを活用し,各小隊指導者(PL)がエージェントとして行動し,環境と対話して最適な政策を学ぶ。 既存のMARLアルゴリズムは、グループ全体の成功に対する総体的な報酬関数を考慮し、しばしば不満足な結果となり、各エージェントに対して最適なポリシーを保証できない。 その結果,RL の既存文献をモチベーションとした新たな MARL フレームワークを提案する。グローバルな批評家はグローバルな期待する報酬を推定し,エージェントを協調行動に動機付け,ローカルな報酬を推定する各エージェントに対して排他的ローカルな批評家はローカルな報酬を推定する。 さらに、各エージェントが行うべきタスクに基づいて、各エージェントの個々の報酬を複数のサブリワード関数に分解し、タスクワイドバリュー関数を個別に学習する。 この領域で適用された従来のRL法と比較して,提案アルゴリズムの有効性が示唆された。

This paper investigates the problem of age of information (AoI) aware radio resource management for a platooning system. Multiple autonomous platoons exploit the cellular wireless vehicle-to-everythin g (C-V2X) communication technology to disseminate the cooperative awareness messages (CAMs) to their followers while ensuring timely delivery of safety-critical messages to the Road-Side Unit (RSU). Due to the challenges of dynamic channel conditions, centralized resource management schemes that require global information are inefficient and lead to large signaling overheads. Hence, we exploit a distributed resource allocation framework based on multi-agent reinforcement learning (MARL), where each platoon leader (PL) acts as an agent and interacts with the environment to learn its optimal policy. Existing MARL algorithms consider a holistic reward function for the group's collective success, which often ends up with unsatisfactory results and cannot guarantee an optimal policy for each agent. Consequently, motivated by the existing literature in RL, we propose a novel MARL framework that trains two critics with the following goals: A global critic which estimates the global expected reward and motivates the agents toward a cooperating behavior and an exclusive local critic for each agent that estimates the local individual reward. Furthermore, based on the tasks each agent has to accomplish, the individual reward of each agent is decomposed into multiple sub-reward functions where task-wise value functions are learned separately. Numerical results indicate our proposed algorithm's effectiveness compared with the conventional RL methods applied in this area.
翻訳日:2021-05-11 22:33:46 公開日:2021-05-10
# (参考訳) 深層強化学習を用いた産業用IoTにおけるVNFスケジューリング [全文訳有]

Age of Information Aware VNF Scheduling in Industrial IoT Using Deep Reinforcement Learning ( http://arxiv.org/abs/2105.04207v1 )

ライセンス: CC BY 4.0
Mohammad Akbari, Mohammad Reza Abedi, Roghayeh Joda, Mohsen Pourghasemian, Nader Mokari, and Melike Erol-Kantarci(参考訳) 遅延に敏感な産業用モノのインターネット(IIoT)アプリケーションでは、情報の鮮度を特徴付けるために情報時代(AoI)が使用される。 一方、新たなネットワーク機能仮想化は、サービスプロバイダが仮想ネットワーク機能(vnfs)のシーケンスを使用して、所定のネットワークサービスを配信する柔軟性と俊敏性を提供します。 しかしながら、これらのスキームにおける適切なvnf配置とスケジューリングはnpハードであり、伝統的なアプローチによるグローバル最適解を見つけることは複雑である。 近年, 深層強化学習 (DRL) が課題解決の有効な方法として現れている。 本稿では、まず、単一エージェントの低コンプレックスなアクションアクタークリティカルRLを用いて、離散的かつ連続的なアクションの両方をカバーし、サービス品質制約下でのネットワークリソースの観点からVNFコストとAoIを両立させる。 学習のための単一エージェント容量制限を克服するため、エージェントが互いに協調するマルチエージェントDRLスキームにソリューションを拡張します。 シミュレーションの結果、シングルエージェント方式は平均ネットワークコストとAoIでグリーディアルゴリズムを著しく上回ることがわかった。 さらに, エージェント間のタスク分割により, マルチエージェントソリューションの平均コストを低減させる。 しかし、エージェントのコラボレーションの必要性から学ぶには、より多くのイテレーションが必要です。

In delay-sensitive industrial internet of things (IIoT) applications, the age of information (AoI) is employed to characterize the freshness of information. Meanwhile, the emerging network function virtualization provides flexibility and agility for service providers to deliver a given network service using a sequence of virtual network functions (VNFs). However, suitable VNF placement and scheduling in these schemes is NP-hard and finding a globally optimal solution by traditional approaches is complex. Recently, deep reinforcement learning (DRL) has appeared as a viable way to solve such problems. In this paper, we first utilize single agent low-complex compound action actor-critic RL to cover both discrete and continuous actions and jointly minimize VNF cost and AoI in terms of network resources under end-to end Quality of Service constraints. To surmount the single-agent capacity limitation for learning, we then extend our solution to a multi-agent DRL scheme in which agents collaborate with each other. Simulation results demonstrate that single-agent schemes significantly outperform the greedy algorithm in terms of average network cost and AoI. Moreover, multi-agent solution decreases the average cost by dividing the tasks between the agents. However, it needs more iterations to be learned due to the requirement on the agents collaboration.
翻訳日:2021-05-11 22:07:33 公開日:2021-05-10
# (参考訳) 線形モデルに対する厳密な導入

A rigorous introduction for linear models ( http://arxiv.org/abs/2105.04240v1 )

ライセンス: CC BY 4.0
Jun Lu(参考訳) このノートは線形モデルとその背後にある理論について紹介することを目的としている。 私たちのゴールは、通常の最小二乗に先立って読者に厳格な紹介を行うことです。 機械学習では、出力は通常、入力の非線形関数である。 ディープラーニングは、大量の計算を必要とする多数の層を持つ非線形依存を見つけることでさえも目指している。 しかし、これらのアルゴリズムのほとんどは単純な線形モデルに基づいている。 次に、異なる視点から線形モデルを記述し、モデルの背後にある特性と理論を見つける。 線形モデルは回帰問題の主要な手法であり、その主なツールは最小二乗近似であり、二乗誤差の総和を最小化する。 これは、対応する2乗誤差を最小限に抑える回帰関数を見つけることに関心がある場合、自然な選択です。 まず、ランダムノイズとガウス雑音でモデルを乱す3つの異なる視点から、通常の最小二乗を記述する。 ガウス雑音により、モデルが最大確率推定子を導入するように確率を与える。 また、このガウスの混乱を通じて、いくつかの分布理論を発展させている。 最小二乗の分布理論は、様々な質問に答え、関連する応用を導入するのに役立つ。 次に、最小二乗法が平均二乗誤差の意味で最良の偏りのない線形モデルであることを証明し、最も重要なことは、実際に理論上の極限に近づくことである。 ベイズ的アプローチとそれ以上の線形モデルに終止符を打つ。

This note is meant to provide an introduction to linear models and the theories behind them. Our goal is to give a rigorous introduction to the readers with prior exposure to ordinary least squares. In machine learning, the output is usually a nonlinear function of the input. Deep learning even aims to find a nonlinear dependence with many layers which require a large amount of computation. However, most of these algorithms build upon simple linear models. We then describe linear models from different views and find the properties and theories behind the models. The linear model is the main technique in regression problems and the primary tool for it is the least squares approximation which minimizes a sum of squared errors. This is a natural choice when we're interested in finding the regression function which minimizes the corresponding expected squared error. We first describe ordinary least squares from three different points of view upon which we disturb the model with random noise and Gaussian noise. By Gaussian noise, the model gives rise to the likelihood so that we introduce a maximum likelihood estimator. It also develops some distribution theories for it via this Gaussian disturbance. The distribution theory of least squares will help us answer various questions and introduce related applications. We then prove least squares is the best unbiased linear model in the sense of mean squared error and most importantly, it actually approaches the theoretical limit. We end up with linear models with the Bayesian approach and beyond.
翻訳日:2021-05-11 21:36:21 公開日:2021-05-10
# (参考訳) ReadTwice: 非常に大きなドキュメントを思い出で読む [全文訳有]

ReadTwice: Reading Very Large Documents with Memories ( http://arxiv.org/abs/2105.04241v1 )

ライセンス: CC BY 4.0
Yury Zemlyanskiy, Joshua Ainslie, Michiel de Jong, Philip Pham, Ilya Eckstein, Fei Sha(参考訳) 質問応答のような知識集約的なタスクは、書籍や記事コレクションのような大きな入力の異なるセクションからの情報を同化する必要があることが多い。 トランスフォーマーと長距離依存性をモデル化するために,事前アプローチのいくつかの長所を組み合わせる,シンプルで効果的な手法であるreadtwuceを提案する。 主なアイデアは、テキストを小さなセグメントで並列に読み、各セグメントを1つのメモリテーブルに要約して、テキストの2番目の読み出しに使用することである。 本手法は,いくつかの質問応答(QA)データセットにおいて,同等の大きさのモデルよりも優れており,課題であるナラティブQAタスク上で,本全体に関する質問に対して,新たな技術状況を設定する。 ReadTwiceのソースコードと事前トレーニングされたチェックポイントはhttps://goo.gle/rese arch-readtwice.comで見ることができる。

Knowledge-intensive tasks such as question answering often require assimilating information from different sections of large inputs such as books or article collections. We propose ReadTwuce, a simple and effective technique that combines several strengths of prior approaches to model long-range dependencies with Transformers. The main idea is to read text in small segments, in parallel, summarizing each segment into a memory table to be used in a second read of the text. We show that the method outperforms models of comparable size on several question answering (QA) datasets and sets a new state of the art on the challenging NarrativeQA task, with questions about entire books. Source code and pre-trained checkpoints for ReadTwice can be found at https://goo.gle/rese arch-readtwice.
翻訳日:2021-05-11 21:35:20 公開日:2021-05-10
# (参考訳) 量子化トレーニングのための後方量子化範囲推定 [全文訳有]

In-Hindsight Quantization Range Estimation for Quantized Training ( http://arxiv.org/abs/2105.04246v1 )

ライセンス: CC BY 4.0
Marios Fournarakis, Markus Nagel(参考訳) ディープニューラルネットワークの推論に適用される量子化技術により、リソース制約デバイス上での高速かつ効率的な実行が可能になった。 推論における量子化の成功は、完全に量子化されたトレーニング、すなわち、学術コミュニティを動機付けている。 バックプロパゲーションの定量化。 しかし、効果的な勾配量子化は依然として未解決の問題である。 勾配は非有界であり、トレーニング中に分布が大きく変化するため、動的量子化の必要性が生じる。 示すように、動的量子化はメモリオーバーヘッドを大幅に増加させ、トレーニングを遅くするデータトラフィックを増やします。 本稿では,前回の反復で推定された量子化範囲を用いて現在を量子化する,動的量子化の簡易な代替案を提案する。 今回のアプローチでは,勾配とアクティベーションの高速静的量子化を可能にしつつ,オンライン形式で出力統計を追跡するためにニューラルネットワークアクセラレータによる最小限のハードウェアサポートしか必要としない。 量子化範囲の推定のためのドロップイン代替として意図されており、他の量子化トレーニングの進歩と併用することができる。 画像分類ベンチマーク (tiny imagenet & imagenet) において,本手法を数値化学習文献から推定する既存の手法と比較し,mobilenetv2を含む各種アーキテクチャの有効性を示す。

Quantization techniques applied to the inference of deep neural networks have enabled fast and efficient execution on resource-constraint devices. The success of quantization during inference has motivated the academic community to explore fully quantized training, i.e. quantizing back-propagation as well. However, effective gradient quantization is still an open problem. Gradients are unbounded and their distribution changes significantly during training, which leads to the need for dynamic quantization. As we show, dynamic quantization can lead to significant memory overhead and additional data traffic slowing down training. We propose a simple alternative to dynamic quantization, in-hindsight range estimation, that uses the quantization ranges estimated on previous iterations to quantize the present. Our approach enables fast static quantization of gradients and activations while requiring only minimal hardware support from the neural network accelerator to keep track of output statistics in an online fashion. It is intended as a drop-in replacement for estimating quantization ranges and can be used in conjunction with other advances in quantized training. We compare our method to existing methods for range estimation from the quantized training literature and demonstrate its effectiveness with a range of architectures, including MobileNetV2, on image classification benchmarks (Tiny ImageNet & ImageNet).
翻訳日:2021-05-11 21:22:33 公開日:2021-05-10
# (参考訳) 品質多様性探索におけるパラメータ化表現とデータ駆動表現の表現性 [全文訳有]

Expressivity of Parameterized and Data-driven Representations in Quality Diversity Search ( http://arxiv.org/abs/2105.04247v1 )

ライセンス: CC BY 4.0
Alexander Hagg, Sebastian Berns, Alexander Asteroth, Simon Colton, Thomas B\"ack(参考訳) 多様なアーティファクトの生成と新しい解の発見のために,マルチソリューション最適化と生成モデルを考える。 ドメインの変動要因が未知あるいは複雑すぎて手動で符号化できない場合、生成モデルはこれらの因子を近似するために学習された潜在空間を提供することができる。 しかし、探索空間として使われる場合、可能な出力の範囲と多様性は学習モデルの表現性と生成能力に制限される。 本研究では,(1)事前定義されたパラメータ化空間,2)変分自己エンコーダモデルの潜時空間の2つの異なる探索空間で行った品質多様性進化探索の出力多様性を比較した。 明示的なパラメトリック符号化の探索は、潜在空間を探索するよりも多種多様なアーティファクト集合を生成する。 学習モデルは、未知の例への外挿や拡大よりも、既知のデータポイント間の補間が優れている。 生成モデルの潜在空間を用いて、検索や生成ではなく、アーティファクト間の類似度を測定することを推奨する。 パラメトリック符号化が取得可能な場合、より多様な解を生成するため、学習された表現よりも好まれる。

We consider multi-solution optimization and generative models for the generation of diverse artifacts and the discovery of novel solutions. In cases where the domain's factors of variation are unknown or too complex to encode manually, generative models can provide a learned latent space to approximate these factors. When used as a search space, however, the range and diversity of possible outputs are limited to the expressivity and generative capabilities of the learned model. We compare the output diversity of a quality diversity evolutionary search performed in two different search spaces: 1) a predefined parameterized space and 2) the latent space of a variational autoencoder model. We find that the search on an explicit parametric encoding creates more diverse artifact sets than searching the latent space. A learned model is better at interpolating between known data points than at extrapolating or expanding towards unseen examples. We recommend using a generative model's latent space primarily to measure similarity between artifacts rather than for search and generation. Whenever a parametric encoding is obtainable, it should be preferred over a learned representation as it produces a higher diversity of solutions.
翻訳日:2021-05-11 21:11:08 公開日:2021-05-10
# (参考訳) アルゴリズム判別におけるモデル不確かさの会計 [全文訳有]

Accounting for Model Uncertainty in Algorithmic Discrimination ( http://arxiv.org/abs/2105.04249v1 )

ライセンス: CC BY 4.0
Junaid Ali, Preethi Lahoti, Krishna P. Gummadi(参考訳) アルゴリズム決定におけるグループフェアネスを保証する伝統的なアプローチは、集団内の異なるサブグループに対して ``total'' エラー率を等化することを目的としている。 対照的に、フェアネスアプローチは、モデルの不確実性(つまり、疫学的な不確実性)によって生じるエラーの等化にのみ焦点をあてるべきであり、最良のモデルに関する知識の欠如やデータの欠如によって引き起こされるものである。 言い換えれば、我々の提案は、データに固有の不確実性、すなわちアレータティック不確実性によって生じるエラーを無視することを要求する。 予測多重度とモデル不確実性の関係を考察し,モデル不確実性に起因する誤差の同定に予測多重度を用いた手法が有用であると主張する。 予測多重度を示す分類器を考案するために,スケーラブルな凸プロキシを提案し,提案手法が性能に匹敵し,現在の最先端技術よりも最大4桁高速であることを示す。 さらに,アルゴリズム的意思決定におけるモデル不確実性に起因するグループ誤り率の均等化を目標とし,合成データと実世界データを用いた手法の有効性を実証する。

Traditional approaches to ensure group fairness in algorithmic decision making aim to equalize ``total'' error rates for different subgroups in the population. In contrast, we argue that the fairness approaches should instead focus only on equalizing errors arising due to model uncertainty (a.k.a epistemic uncertainty), caused due to lack of knowledge about the best model or due to lack of data. In other words, our proposal calls for ignoring the errors that occur due to uncertainty inherent in the data, i.e., aleatoric uncertainty. We draw a connection between predictive multiplicity and model uncertainty and argue that the techniques from predictive multiplicity could be used to identify errors made due to model uncertainty. We propose scalable convex proxies to come up with classifiers that exhibit predictive multiplicity and empirically show that our methods are comparable in performance and up to four orders of magnitude faster than the current state-of-the-art. We further propose methods to achieve our goal of equalizing group error rates arising due to model uncertainty in algorithmic decision making and demonstrate the effectiveness of these methods using synthetic and real-world datasets.
翻訳日:2021-05-11 20:57:03 公開日:2021-05-10
# (参考訳) 多解最適化における現象型多様性の解析 [全文訳有]

An Analysis of Phenotypic Diversity in Multi-Solution Optimization ( http://arxiv.org/abs/2105.04252v1 )

ライセンス: CC BY 4.0
Alexander Hagg, Mike Preuss, Alexander Asteroth, Thomas B\"ack(参考訳) 様々な解集合を見つけるために最適化法が益々用いられる。 我々は,多目的最適化,マルチモーダル最適化,品質多様性におけるソリューションの多様性を,単純なドメインで比較する。 マルチオブジェクト最適化は必ずしも多様性を生んでいるわけではなく、マルチモーダル最適化はより高い適合性ソリューションを生み出し、品質の多様性は遺伝的中立性に敏感ではない。 オートエンコーダは表現型特徴を自動的に発見するために使用され、品質の多様性を備えたさらに多様なソリューションセットを生成する。 最後に、そのアプローチをいつ使うべきかを推奨します。

More and more, optimization methods are used to find diverse solution sets. We compare solution diversity in multi-objective optimization, multimodal optimization, and quality diversity in a simple domain. We show that multiobjective optimization does not always produce much diversity, multimodal optimization produces higher fitness solutions, and quality diversity is not sensitive to genetic neutrality and creates the most diverse set of solutions. An autoencoder is used to discover phenotypic features automatically, producing an even more diverse solution set with quality diversity. Finally, we make recommendations about when to use which approach.
翻訳日:2021-05-11 20:08:31 公開日:2021-05-10
# (参考訳) Loss-Aversively Fair 分類 [全文訳有]

Loss-Aversively Fair Classification ( http://arxiv.org/abs/2105.04273v1 )

ライセンス: CC BY 4.0
Junaid Ali, Muhammad Bilal Zafar, Adish Singla, Krishna P. Gummadi(参考訳) 人間の生活に影響を与えるシナリオにおけるアルゴリズムによる(学習に基づく)意思決定の使用は、性別や人種などの繊細な特徴に基づいて被験者を差別するなど、潜在的な不公平性に対する意思決定システムの研究を動機付けている。 しかし、新たに設計された意思決定システムの公平性を評価する際、これらの研究は人々の公平性に対する認識に重要な影響を見落としており、新しいアルゴリズムが現状、すなわち既存の意思決定システムの決定を変える方法である。 行動経済学と行動心理学(プロスペクト理論)の広範な文献に動機づけられ、我々は「損失回避更新」と呼ぶ公正な更新の概念を提案する。 Loss-averseアップデートは、ステータスクォーと比較して、改善された(より有益な)結果をもたらす更新を主題に制限する。 我々は,この概念を様々な線形および非線形分類器の訓練に組み込むことのできる,扱いやすい代理尺度を提案する。 非識別的分類器を訓練するための既存の尺度と、我々のプロキシ対策をどのように組み合わせることができるかを示す。 合成および実世界のデータセットを用いた評価は,提案手法が望ましいタスクに有効であることを示す。

The use of algorithmic (learning-based) decision making in scenarios that affect human lives has motivated a number of recent studies to investigate such decision making systems for potential unfairness, such as discrimination against subjects based on their sensitive features like gender or race. However, when judging the fairness of a newly designed decision making system, these studies have overlooked an important influence on people's perceptions of fairness, which is how the new algorithm changes the status quo, i.e., decisions of the existing decision making system. Motivated by extensive literature in behavioral economics and behavioral psychology (prospect theory), we propose a notion of fair updates that we refer to as loss-averse updates. Loss-averse updates constrain the updates to yield improved (more beneficial) outcomes to subjects compared to the status quo. We propose tractable proxy measures that would allow this notion to be incorporated in the training of a variety of linear and non-linear classifiers. We show how our proxy measures can be combined with existing measures for training nondiscriminatory classifiers. Our evaluation using synthetic and real-world datasets demonstrates that the proposed proxy measures are effective for their desired tasks.
翻訳日:2021-05-11 19:59:07 公開日:2021-05-10
# (参考訳) 変圧器による視覚接地 [全文訳有]

Visual Grounding with Transformers ( http://arxiv.org/abs/2105.04281v1 )

ライセンス: CC BY 4.0
Ye Du, Zehua Fu, Qingjie Liu, Yunhong Wang(参考訳) 本稿では,視覚的接地のためのトランスフォーマーに基づくアプローチを提案する。 事前学習された物体検出器や既定の1段検出器をテキスト埋め込みでアップグレードするプロポーザル・アンド・ランクのフレームワークとは異なり、本手法はトランスフォーマエンコーダ・デコーダ上に構築されており、任意の事前学習された検出器や単語埋め込みモデルとは独立している。 VGTR(Visual Grounding with TRansformers)と呼ばれるこの手法は,テキスト記述の指導の下で,位置情報を損なうことなく,意味識別的な視覚特徴を学習するように設計されている。 この情報フローにより、VGTRは、視覚と言語モダリティの両方の文脈レベルのセマンティクスをキャプチャする強力な能力を持つことができます。 実験により,提案手法は高速な推論速度を維持しつつ,5つのベンチマークにおいて,最先端の提案不要手法よりもかなり優れた性能を示した。

In this paper, we propose a transformer based approach for visual grounding. Unlike previous proposal-and-rank frameworks that rely heavily on pretrained object detectors or proposal-free frameworks that upgrade an off-the-shelf one-stage detector by fusing textual embeddings, our approach is built on top of a transformer encoder-decoder and is independent of any pretrained detectors or word embedding models. Termed VGTR -- Visual Grounding with TRansformers, our approach is designed to learn semantic-discriminat ive visual features under the guidance of the textual description without harming their location ability. This information flow enables our VGTR to have a strong capability in capturing context-level semantics of both vision and language modalities, rendering us to aggregate accurate visual clues implied by the description to locate the interested object instance. Experiments show that our method outperforms state-of-the-art proposal-free approaches by a considerable margin on five benchmarks while maintaining fast inference speed.
翻訳日:2021-05-11 19:45:42 公開日:2021-05-10
# (参考訳) ニューラルネットワークはどのようにプログラムを理解するのか? [全文訳有]

How could Neural Networks understand Programs? ( http://arxiv.org/abs/2105.04297v1 )

ライセンス: CC BY-SA 4.0
Dinglan Peng, Shuxin Zheng, Yatao Li, Guolin Ke, Di He, Tie-Yan Liu(参考訳) プログラムの意味理解は、プログラミング言語処理(plp)の基本的な問題である。 NLPにおける事前学習技術に基づいてコード表現を学習する最近の研究は、フロンティアをこの方向に押し上げている。 しかし、PLとNLのセマンティクスには重要な違いがある。 これらのことは無視され、既製のNLP事前学習技術をソースコードに直接適用するか、ヒューリスティックな手法でモデルに機能を追加することで、プログラムをよりよく理解するモデルを構築するのは難しいと信じている。 実際、プログラムの意味論はPL理論の形式的意味論によって厳密に定義することができる。 例えば、オペレーショナルセマンティクスでは、有効なプログラムの意味を、メモリI/Oや条件分岐といった基本的な操作を通じて環境(メモリアドレス値関数)を更新することとして記述している。 そこで,本研究では,(1)操作意味論における基本操作に適合する表現,(2)プログラム理解に欠かせない環境遷移の情報からなる情報から学習すべき,新たなプログラム意味論学習パラダイムを提案する。 提案手法を検証するため,OSCARと呼ばれる階層型トランスフォーマーを用いた事前学習モデルを提案する。 OSCARは、静的解析から導出される中間表現(IR)と符号化表現から学習し、それぞれが基本的な操作を表現し、環境遷移を近似する。 OSCARは、多くの実用的なソフトウェアエンジニアリングタスクにおいて、プログラムセマンティクスが理解できることを実証的に示す。

Semantic understanding of programs is a fundamental problem for programming language processing (PLP). Recent works that learn representations of code based on pre-training techniques in NLP have pushed the frontiers in this direction. However, the semantics of PL and NL have essential differences. These being ignored, we believe it is difficult to build a model to better understand programs, by either directly applying off-the-shelf NLP pre-training techniques to the source code, or adding features to the model by the heuristic. In fact, the semantics of a program can be rigorously defined by formal semantics in PL theory. For example, the operational semantics, describes the meaning of a valid program as updating the environment (i.e., the memory address-value function) through fundamental operations, such as memory I/O and conditional branching. Inspired by this, we propose a novel program semantics learning paradigm, that the model should learn from information composed of (1) the representations which align well with the fundamental operations in operational semantics, and (2) the information of environment transition, which is indispensable for program understanding. To validate our proposal, we present a hierarchical Transformer-based pre-training model called OSCAR to better facilitate the understanding of programs. OSCAR learns from intermediate representation (IR) and an encoded representation derived from static analysis, which are used for representing the fundamental operations and approximating the environment transitions respectively. OSCAR empirically shows the outstanding capability of program semantics understanding on many practical software engineering tasks.
翻訳日:2021-05-11 19:30:09 公開日:2021-05-10
# (参考訳) 漸減レグレットによるベイズ最適化 [全文訳有]

Bayesian Optimistic Optimisation with Exponentially Decaying Regret ( http://arxiv.org/abs/2105.04332v1 )

ライセンス: CC BY 4.0
Hung Tran-The, Sunil Gupta, Santu Rana, Svetha Venkatesh(参考訳) ベイズ最適化 (bayesian optimization, bo) は、高価なブラックボックス関数のグローバル最適を求めるための、よく知られた効率的なアルゴリズムである。 現在の実用的なboアルゴリズムは、$\mathcal{o}(\frac{logn}{\sqrt{n}})$から$\mathcal o(e^{-\sqrt{n}})$までの後悔の限界を持ち、ここで$n$は評価の数である。 本稿では,探索空間の分割に基づくBOの概念と木に基づく楽観的最適化を交互に組み合わせることで,雑音のない環境における後悔関係を改善する可能性を検討する。 BOOアルゴリズムは,次数$\mathcal O(N^{-\sqrt{N}})$で指数的再帰を達成できる最初の実用的手法であり,目的関数が滑らか度パラメータ$\nu > 4 +\frac{D}{2}$のMat\'ernカーネルを持つガウス過程からサンプリングされるという仮定の下で,D$は次元数である。 各種合成関数の最適化と機械学習ハイパーパラメータチューニングタスクの実験を行い,アルゴリズムがベースラインより優れていることを示す。

Bayesian optimisation (BO) is a well-known efficient algorithm for finding the global optimum of expensive, black-box functions. The current practical BO algorithms have regret bounds ranging from $\mathcal{O}(\frac{logN}{\sqrt{N}})$ to $\mathcal O(e^{-\sqrt{N}})$, where $N$ is the number of evaluations. This paper explores the possibility of improving the regret bound in the noiseless setting by intertwining concepts from BO and tree-based optimistic optimisation which are based on partitioning the search space. We propose the BOO algorithm, a first practical approach which can achieve an exponential regret bound with order $\mathcal O(N^{-\sqrt{N}})$ under the assumption that the objective function is sampled from a Gaussian process with a Mat\'ern kernel with smoothness parameter $\nu > 4 +\frac{D}{2}$, where $D$ is the number of dimensions. We perform experiments on optimisation of various synthetic functions and machine learning hyperparameter tuning tasks and show that our algorithm outperforms baselines.
翻訳日:2021-05-11 18:59:35 公開日:2021-05-10
# (参考訳) Poolingformer:poolin g Attentionによる長期ドキュメントモデリング [全文訳有]

Poolingformer: Long Document Modeling with Pooling Attention ( http://arxiv.org/abs/2105.04371v1 )

ライセンス: CC BY 4.0
Hang Zhang, Yeyun Gong, Yelong Shen, Weisheng Li, Jiancheng Lv, Nan Duan, Weizhu Chen(参考訳) 本稿では,長期文書モデリングのための2レベルアテンションスキーマであるPoolingformerを提案する。 最初のレベルは、より小さなスライディングウィンドウパターンを使用して、隣人からの情報を集約する。 その第2レベルは、より大きなウィンドウを使用して受容フィールドを増加させ、計算コストとメモリ消費の両方を減らすことに注意を向けている。 我々はまず,モノリンガルNQとマルチリンガルTyDiQAという2つの長いシーケンスQAタスクでPoolingformerを評価する。 実験の結果、PoolingformerはF1によって測定された3つの公式リーダーボードの上に座っており、NQ長解では1.9ポイント(79.8対77.9)、TyDi QA通過解では1.9ポイント(79.5対77.6)、TyDi QA最小解では1.6ポイント(67.6対66.0)を上回っている。 さらに,長いシーケンス要約タスクにおける poolingformer の評価を行う。 arXivベンチマークの実験結果は、その優れた性能を示し続けている。

In this paper, we introduce a two-level attention schema, Poolingformer, for long document modeling. Its first level uses a smaller sliding window pattern to aggregate information from neighbors. Its second level employs a larger window to increase receptive fields with pooling attention to reduce both computational cost and memory consumption. We first evaluate Poolingformer on two long sequence QA tasks: the monolingual NQ and the multilingual TyDi QA. Experimental results show that Poolingformer sits atop three official leaderboards measured by F1, outperforming previous state-of-the-art models by 1.9 points (79.8 vs. 77.9) on NQ long answer, 1.9 points (79.5 vs. 77.6) on TyDi QA passage answer, and 1.6 points (67.6 vs. 66.0) on TyDi QA minimal answer. We further evaluate Poolingformer on a long sequence summarization task. Experimental results on the arXiv benchmark continue to demonstrate its superior performance.
翻訳日:2021-05-11 18:26:50 公開日:2021-05-10
# (参考訳) 相互情報下界を用いた入射モデルの勾配に基づくベイズ実験設計

Gradient-based Bayesian Experimental Design for Implicit Models using Mutual Information Lower Bounds ( http://arxiv.org/abs/2105.04379v1 )

ライセンス: CC BY 4.0
Steven Kleinegesse and Michael U. Gutmann(参考訳) 我々は,データ生成分布が難解であるが,そこからサンプリングできる暗黙のモデルを用いたベイズ実験設計(bed)のためのフレームワークを提案する。 このようなモデルに対する最適実験設計を見つけるために,ニューラルネットワークによってパラメトリされる相互情報の下位境界を最大化する。 ニューラルネットワークをサンプルデータ上でトレーニングすることにより,確率勾配法によるネットワークパラメータと設計を同時に更新する。 このフレームワークは、様々な顕著な下界を持つ実験的な設計を可能にし、パラメータ推定、モデル判別、将来の予測の改善など、幅広い科学的タスクに適用することができる。 難解な玩具モデルを用いて,上述のタスクに適用した著明な下界の包括的経験的比較を行う。 さらに, 疫学における確率微分方程式の挑戦的な系に関する枠組みを検証した。

We introduce a framework for Bayesian experimental design (BED) with implicit models, where the data-generating distribution is intractable but sampling from it is still possible. In order to find optimal experimental designs for such models, our approach maximises mutual information lower bounds that are parametrised by neural networks. By training a neural network on sampled data, we simultaneously update network parameters and designs using stochastic gradient-ascent. The framework enables experimental design with a variety of prominent lower bounds and can be applied to a wide range of scientific tasks, such as parameter estimation, model discrimination and improving future predictions. Using a set of intractable toy models, we provide a comprehensive empirical comparison of prominent lower bounds applied to the aforementioned tasks. We further validate our framework on a challenging system of stochastic differential equations from epidemiology.
翻訳日:2021-05-11 18:04:59 公開日:2021-05-10
# (参考訳) 深層学習に基づく対話システムの最新動向

Recent Advances in Deep Learning-based Dialogue Systems ( http://arxiv.org/abs/2105.04387v1 )

ライセンス: CC BY 4.0
Jinjie Ni, Tom Young, Vlad Pandelea, Fuzhao Xue, Vinay Adiga, Erik Cambria(参考訳) 対話システムは、実際のアプリケーションで有望な自然言語処理(NLP)タスクとして人気がある。 多くのNLPタスクが研究に関わっているため、これは複雑なタスクでもある。 その結果、この課題に関する数多くの新しい研究が行われ、そのほとんどは卓越した性能のため、深層学習に基づくものである。 本研究では,深層学習に基づく対話システムに着目した。 対話システムにおける最先端の研究成果を総合的にレビューし,モデルタイプとシステムタイプという2つの角度から分析する。 具体的には,対話システムにおいて広く用いられている異なるモデルの原理,特徴,応用について述べる。 これは、研究者がこれらのモデルを知り、それが最先端のフレームワークにどのように適用されているかを確認するのに役立つ。 システムタイプの角度から,タスク指向とオープンドメインの対話システムを2つの研究の流れとして論じ,関連する話題について考察する。 さらに,対話システムの評価手法とデータセットを概観的に検討し,今後の研究の道を開く。 最後に、最近の研究成果に基づいて、いくつかの研究トレンドが特定される。 私たちの知る限りでは、この調査は対話システムや対話関連タスクの領域で現在最も包括的で最新のもので、人気のあるフレームワーク、トピック、データセットを幅広くカバーしています。

Dialogue systems are a popular Natural Language Processing (NLP) task as it is promising in real-life applications. It is also a complicated task since many NLP tasks deserving study are involved. As a result, a multitude of novel works on this task are carried out, and most of them are deep learning-based due to the outstanding performance. In this survey, we mainly focus on the deep learning-based dialogue systems. We comprehensively review state-of-the-art research outcomes in dialogue systems and analyze them from two angles: model type and system type. Specifically, from the angle of model type, we discuss the principles, characteristics, and applications of different models that are widely used in dialogue systems. This will help researchers acquaint these models and see how they are applied in state-of-the-art frameworks, which is rather helpful when designing a new dialogue system. From the angle of system type, we discuss task-oriented and open-domain dialogue systems as two streams of research, providing insight into the hot topics related. Furthermore, we comprehensively review the evaluation methods and datasets for dialogue systems to pave the way for future research. Finally, some possible research trends are identified based on the recent research outcomes. To the best of our knowledge, this survey is the most comprehensive and up-to-date one at present in the area of dialogue systems and dialogue-related tasks, extensively covering the popular frameworks, topics, and datasets.
翻訳日:2021-05-11 18:03:41 公開日:2021-05-10
# (参考訳) 粗地における安定制約移動マニピュレーション計画 [全文訳有]

Stability Constrained Mobile Manipulation Planning on Rough Terrain ( http://arxiv.org/abs/2105.04396v1 )

ライセンス: CC BY 4.0
Jiazhi Song, Inna Sharf(参考訳) 本稿では, 移動マニピュレータロボットの動特性に制約のある最適軌道計画を行うためのフレームワークを提案する。 まず,移動マニピュレータロボットの運動モデルとゼロモーメントポイント(zmp)安定性尺度を理論的背景として提示する。 そこで,連続運動における安定性保証とトラクション最適化のために修正されたサンプリングベース準静的計画アルゴリズムを数学的証明とともに提示する。 ロボットの準静的経路は、非線型最適制御解法を温めるための最初の推算として使用され、そうでなければ、安定性に制約された定式化の解を見つけるのに苦労する可能性がある。 このフレームワークの性能と計算効率は、様々な地形で作業する模擬木材収穫移動マニピュレータマシンに適用することで実証される。 その結果, 動的安定性制約を満たしながら, 様々な地形におけるオンライン軌道計画が可能となった。

This paper presents a framework that allows online dynamic-stability-co nstrained optimal trajectory planning of a mobile manipulator robot working on rough terrain. First, the kinematics model of a mobile manipulator robot, and the Zero Moment Point (ZMP) stability measure are presented as theoretical background. Then, a sampling-based quasi-static planning algorithm modified for stability guarantee and traction optimization in continuous dynamic motion is presented along with a mathematical proof. The robot's quasi-static path is then used as an initial guess to warm-start a nonlinear optimal control solver which may otherwise have difficulties finding a solution to the stability-constraine d formulation efficiently. The performance and computational efficiency of the framework are demonstrated through an application to a simulated timber harvesting mobile manipulator machine working on varying terrain. The results demonstrate feasibility of online trajectory planning on varying terrain while satisfying the dynamic stability constraint.
翻訳日:2021-05-11 18:02:31 公開日:2021-05-10
# (参考訳) 無人航空機画像における列キャクタ認識のためのランダム初期化畳み込みニューラルネットワーク [全文訳有]

An Enhanced Randomly Initialized Convolutional Neural Network for Columnar Cactus Recognition in Unmanned Aerial Vehicle Imagery ( http://arxiv.org/abs/2105.04430v1 )

ライセンス: CC BY 4.0
Safa Ben Atitallah, Maha Driss, Wadii Boulila, Anis Koubaa, Nesrine Atitallah, Henda Ben Gh\'ezala(参考訳) 近年,畳み込みニューラルネットワーク (CNN) はリモートセンシング画像分類において優れた性能を発揮している。 CNNを用いた植物認識は、様々な分野、特に環境保全と自然保護の付加価値から、活発な深層学習研究のトピックの1つである。 保護地域における植物の自動認識は、これらの地域の監視プロセスを支援し、生態系の持続性を保証する。 本研究では,メキシコ南東部のtehuac\'an-cuicatl\'an谷に分布する固有植物である列状サボテンの認識のための拡張されたランダム初期化畳み込みニューラルネットワーク(eri-cnn)を提案する。 20000以上のリモートセンシング画像からなる研究者グループによって作成された公開データセットを使用した。 InceptionV3や修正LeNet-5 CNNなどの文献で報告されている他のモデルと比較して,提案モデルの有効性を確認した。 ERI-CNNは精度98%、精度97%、リコール97%、f1スコア97.5%、損失0.056である。

Recently, Convolutional Neural Networks (CNNs) have made a great performance for remote sensing image classification. Plant recognition using CNNs is one of the active deep learning research topics due to its added-value in different related fields, especially environmental conservation and natural areas preservation. Automatic recognition of plants in protected areas helps in the surveillance process of these zones and ensures the sustainability of their ecosystems. In this work, we propose an Enhanced Randomly Initialized Convolutional Neural Network (ERI-CNN) for the recognition of columnar cactus, which is an endemic plant that exists in the Tehuac\'an-Cuicatl\'an Valley in southeastern Mexico. We used a public dataset created by a group of researchers that consists of more than 20000 remote sensing images. The experimental results confirm the effectiveness of the proposed model compared to other models reported in the literature like InceptionV3 and the modified LeNet-5 CNN. Our ERI-CNN provides 98% of accuracy, 97% of precision, 97% of recall, 97.5% as f1-score, and 0.056 loss.
翻訳日:2021-05-11 17:19:17 公開日:2021-05-10
# (参考訳) 深層学習による高次元デコンボリューションのための足場シミュレーション [全文訳有]

Scaffolding Simulations with Deep Learning for High-dimensional Deconvolution ( http://arxiv.org/abs/2105.04448v1 )

ライセンス: CC BY 4.0
Anders Andreassen, Patrick T. Komiske, Eric M. Metodiev, Benjamin Nachman, Adi Suresh, and Jesse Thaler(参考訳) 科学的推論の一般的な設定は、データの明示的な確率密度を持つことなく、高忠実度フォワードモデル(シミュレーション)からサンプリングする能力である。 本稿では,OmniFold という手法を用いてシミュレーションに基づく最大解法を提案する。 ディープラーニングは、このアプローチを自然に非結合で(可変で)高次元にすることができる。 モデルパラメータ推定とは対照的に、デコンボリューションの目的は、様々な下流推論タスクを可能にするために検出器歪みを取り除くことである。 我々のアプローチは、粒子物理学における反復ベイズ展開とも呼ばれる、共通リチャードソン-ルーシーアプローチのディープラーニング一般化である。 我々は,OmniFoldが検出歪みを除去できるだけでなく,ノイズ処理や受入効果も考慮できることを示す。

A common setting for scientific inference is the ability to sample from a high-fidelity forward model (simulation) without having an explicit probability density of the data. We propose a simulation-based maximum likelihood deconvolution approach in this setting called OmniFold. Deep learning enables this approach to be naturally unbinned and (variable-, and) high-dimensional. In contrast to model parameter estimation, the goal of deconvolution is to remove detector distortions in order to enable a variety of down-stream inference tasks. Our approach is the deep learning generalization of the common Richardson-Lucy approach that is also called Iterative Bayesian Unfolding in particle physics. We show how OmniFold can not only remove detector distortions, but it can also account for noise processes and acceptance effects.
翻訳日:2021-05-11 17:10:51 公開日:2021-05-10
# (参考訳) マルチスピーカー環境における音声ナビゲーションへの深層強化学習手法 [全文訳有]

A Deep Reinforcement Learning Approach to Audio-Based Navigation in a Multi-Speaker Environment ( http://arxiv.org/abs/2105.04488v1 )

ライセンス: CC BY 4.0
Petros Giannakopoulos, Aggelos Pikrakis, Yannis Cotronis(参考訳) 本研究では,深層強化学習を用いて,環境からの生の聴覚情報のみを用いて,二次元空間をナビゲートできる自律エージェントを構築する。 実験の結果, エージェントは, 室内で予め定義された1組のN$話者の中から特定のターゲット話者を識別し, 他話者との衝突や部屋の境界外への移動を避けながら, その話者に向かって移動することができることがわかった。 エージェントは、話者ピッチシフトに対して堅牢であり、各話者に対して限られた数の訓練発話が利用できる場合でも、環境をナビゲートすることができる。

In this work we use deep reinforcement learning to create an autonomous agent that can navigate in a two-dimensional space using only raw auditory sensory information from the environment, a problem that has received very little attention in the reinforcement learning literature. Our experiments show that the agent can successfully identify a particular target speaker among a set of $N$ predefined speakers in a room and move itself towards that speaker, while avoiding collision with other speakers or going outside the room boundaries. The agent is shown to be robust to speaker pitch shifting and it can learn to navigate the environment, even when a limited number of training utterances are available for each speaker.
翻訳日:2021-05-11 17:03:14 公開日:2021-05-10
# (参考訳) 超低解像度テキスト画像に対するエンドツーエンド光学文字認識手法 [全文訳有]

An end-to-end Optical Character Recognition approach for ultra-low-resolution printed text images ( http://arxiv.org/abs/2105.04515v1 )

ライセンス: CC BY-SA 4.0
Julian D. Gilbey, Carola-Bibiane Sch\"onlieb(参考訳) 歴史的、より最近の印刷物の中には60dpiなど、非常に低い解像度でスキャンまたは保存されているものもある。 このようなスキャンは人間が読むのが比較的容易であるが、光学文字認識(OCR)システムにはまだ大きな課題がある。 現在の最先端技術は、高解像度画像の近似を再構築するために超解像を使い、これを標準のOCRシステムに供給することである。 我々の新しいエンドツーエンド手法は、超解像ステップをバイパスし、より良いOCR結果を生成する。 このアプローチは、人間の視覚システムに対する理解から着想を得て、OCRを実行するための確立されたニューラルネットワークを構築します。 実験の結果,60dpiスキャンした60dpiのテキストに対してOCRを実行することができ,その解像度は最先端のテキストに比べてかなり低く,平均文字レベル精度(CLA)は99.7%,単語レベル精度(WLA)は98.9%であった。 75dpi画像の場合、平均CLAは99.9%、平均WLAは99.4%である。 この分野での今後の作業のベンチマークとして、コードとデータ(基礎となる真実を持つ低解像度画像を含む)を公開しています。

Some historical and more recent printed documents have been scanned or stored at very low resolutions, such as 60 dpi. Though such scans are relatively easy for humans to read, they still present significant challenges for optical character recognition (OCR) systems. The current state-of-the art is to use super-resolution to reconstruct an approximation of the original high-resolution image and to feed this into a standard OCR system. Our novel end-to-end method bypasses the super-resolution step and produces better OCR results. This approach is inspired from our understanding of the human visual system, and builds on established neural networks for performing OCR. Our experiments have shown that it is possible to perform OCR on 60 dpi scanned images of English text, which is a significantly lower resolution than the state-of-the-art, and we achieved a mean character level accuracy (CLA) of 99.7% and word level accuracy (WLA) of 98.9% across a set of about 1000 pages of 60 dpi text in a wide range of fonts. For 75 dpi images, the mean CLA was 99.9% and the mean WLA was 99.4% on the same sample of texts. We make our code and data (including a set of low-resolution images with their ground truths) publicly available as a benchmark for future work in this field.
翻訳日:2021-05-11 16:55:21 公開日:2021-05-10
# (参考訳) 自動運転車の非線形操舵動力学の同定 [全文訳有]

Identification of the nonlinear steering dynamics of an autonomous vehicle ( http://arxiv.org/abs/2105.04529v1 )

ライセンス: CC BY 4.0
G. R\"od\"onyi, G. I. Beintema, R. T\'oth, M. Schoukens, D. Pup, \'A. Kisari, Zs. V\'igh, P. K\H{o}r\"os, A. Soumelidis and J. Bokor(参考訳) 自動走行アプリケーションは、運動力学を正確に予測し制御するために正確な車両固有モデルを必要とする。 しかし、現代の車両は、モデル化が困難である幅広いデジタル・メカトロニクス部品を備えており、製造者はモデリングに必要な詳細をすべて開示していない。 したがって、データ駆動モデリングを使用して関連する車両のダイナミクスを捉え、モデルに基づく制御ソリューションを合成することは魅力的である。 本稿では,実測データに基づく自律走行車のステアリングシステムの同定について述べる。 学習の近似能力と動的システム同定の効率を融合させるデータ駆動手法を必要とせず、基礎となる力学は非常に非線形であり、キャプチャが困難であることを示す。 このようなニューラルネットワークに基づくサブスペースエンコーダ法は,基礎となるダイナミックスを捕捉し,他の手法では信頼性の高い結果が得られないことを示す。

Automated driving applications require accurate vehicle specific models to precisely predict and control the motion dynamics. However, modern vehicles have a wide array of digital and mechatronic components that are difficult to model, manufactures do not disclose all details required for modelling and even existing models of subcomponents require coefficient estimation to match the specific characteristics of each vehicle and their change over time. Hence, it is attractive to use data-driven modelling to capture the relevant vehicle dynamics and synthesise model-based control solutions. In this paper, we address identification of the steering system of an autonomous car based on measured data. We show that the underlying dynamics are highly nonlinear and challenging to be captured, necessitating the use of data-driven methods that fuse the approximation capabilities of learning and the efficiency of dynamic system identification. We demonstrate that such a neural network based subspace-encoder method can successfully capture the underlying dynamics while other methods fall short to provide reliable results.
翻訳日:2021-05-11 16:40:30 公開日:2021-05-10
# (参考訳) ロスレスデバイアスによるAIシステムの公正性向上 [全文訳有]

Improving Fairness of AI Systems with Lossless De-biasing ( http://arxiv.org/abs/2105.04534v1 )

ライセンス: CC BY 4.0
Yan Zhou, Murat Kantarcioglu, Chris Clifton(参考訳) 今日の社会では、信用スコアや患者トリアージといった重要な意思決定にAIシステムがますます使われています。 しかし、AIシステムによってもたらされる大きな利便性は、少数派グループに対する偏見の波及に悩まされる。 AIシステムのバイアスを緩和して全体的な公正性を高めることが重要な課題となっている。 AIシステムにおけるバイアス軽減に関する既存の研究は、データに埋め込まれたセンシティブな人口統計情報の排除に焦点を当てている。 公平性の概念化の時間的および文脈的複雑さを考えると、人口統計情報の損失処理は、特に人口統計属性とクラスラベルが関連付けられている場合、正確性と公平性の間の不必要なトレードオフをもたらす可能性がある。 本稿では,不利グループにおけるデータの不足を対象とする情報損失のない脱バイアス手法を提案する。 既存の研究と異なり、理論的にも経験的にも、過度に表現されているグループをオーバーサンプリングすることは、特定のグループに有利な結果を常に予測するAIシステムにおけるアルゴリズムバイアスを軽減するだけでなく、多数派への偏見をもたらすデータ内のクラス不均衡を緩和することで全体的な精度を向上させることができる。 様々なフェアネス指標を用いて実データセット上での手法の有効性を実証する。

In today's society, AI systems are increasingly used to make critical decisions such as credit scoring and patient triage. However, great convenience brought by AI systems comes with troubling prevalence of bias against underrepresented groups. Mitigating bias in AI systems to increase overall fairness has emerged as an important challenge. Existing studies on mitigating bias in AI systems focus on eliminating sensitive demographic information embedded in data. Given the temporal and contextual complexity of conceptualizing fairness, lossy treatment of demographic information may contribute to an unnecessary trade-off between accuracy and fairness, especially when demographic attributes and class labels are correlated. In this paper, we present an information-lossless de-biasing technique that targets the scarcity of data in the disadvantaged group. Unlike the existing work, we demonstrate, both theoretically and empirically, that oversampling underrepresented groups can not only mitigate algorithmic bias in AI systems that consistently predict a favorable outcome for a certain group, but improve overall accuracy by mitigating class imbalance within data that leads to a bias towards the majority class. We demonstrate the effectiveness of our technique on real datasets using a variety of fairness metrics.
翻訳日:2021-05-11 16:28:50 公開日:2021-05-10
# (参考訳) カーネルを用いた近位因果学習:2段階推定とモーメント制限

Proximal Causal Learning with Kernels: Two-Stage Estimation and Moment Restriction ( http://arxiv.org/abs/2105.04544v1 )

ライセンス: CC BY 4.0
Afsaneh Mastouri, Yuchen Zhu, Limor Gultchin, Anna Korba, Ricardo Silva, Matt J. Kusner, Arthur Gretton, Krikamol Muandet(参考訳) 本研究では, 未観測の共起の存在下での因果効果推定の問題に対処するが, 潜伏した共同設立者(s)のプロキシが観察される。 本稿では,2段階回帰法と最大モーメント制限法という2つのカーネルに基づく非線形因果効果推定手法を提案する。 我々は近位因果学習の設定に焦点をあてるが、本手法はフレドホルム積分方程式によって特徴づけられるより広い逆問題のクラスを解くのに使うことができる。 特に,この問題を非線形な設定で解くために,二段階およびモーメント制限アプローチの統一的視点を提供する。 我々は,各アルゴリズムに一貫性の保証を提供し,これらの手法が合成データと実世界のタスクをシミュレートしたデータにおいて競争的な結果をもたらすことを示す。 特に,提案手法は,プロキシ変数の活用に適さない従来の手法よりも優れている。

We address the problem of causal effect estimation in the presence of unobserved confounding, but where proxies for the latent confounder(s) are observed. We propose two kernel-based methods for nonlinear causal effect estimation in this setting: (a) a two-stage regression approach, and (b) a maximum moment restriction approach. We focus on the proximal causal learning setting, but our methods can be used to solve a wider class of inverse problems characterised by a Fredholm integral equation. In particular, we provide a unifying view of two-stage and moment restriction approaches for solving this problem in a nonlinear setting. We provide consistency guarantees for each algorithm, and we demonstrate these approaches achieve competitive results on synthetic data and data simulating a real-world task. In particular, our approach outperforms earlier methods that are not suited to leveraging proxy variables.
翻訳日:2021-05-11 16:15:34 公開日:2021-05-10
# (参考訳) スイニングトランスを用いた自己指導型学習 [全文訳有]

Self-Supervised Learning with Swin Transformers ( http://arxiv.org/abs/2105.04553v1 )

ライセンス: CC BY 4.0
Zhenda Xie, Yutong Lin, Zhuliang Yao, Zheng Zhang, Qi Dai, Yue Cao, Han Hu(参考訳) 我々はコンピュータビジョンにおけるCNNからトランスフォーマーへのモデリングシフトを目撃している。 本稿では,ビジョントランスフォーマーをバックボーンアーキテクチャとする,MoBYと呼ばれる自己教師型学習手法を提案する。 このアプローチは基本的にはMoCo v2とBYOLの組み合わせで、ImageNet-1Kの線形評価において、DeiT-SとSwin-Tを使ってそれぞれ72.8%と75.0%のTop-1の精度を300-epochのトレーニングで達成するように調整されている。 このパフォーマンスは、最近のMoCo v3やDINOのバックボーンとしてDeiTを採用したものよりも若干優れていますが、もっと軽いトリックがあります。 さらに、汎用Swin Transformerのバックボーンにより、オブジェクト検出やセマンティックセグメンテーションといった下流タスクの学習表現を評価できるが、ViT/DeiTでは、これらの密接な予測タスクに慣れていないために、ImageNet-1K上で線形評価結果しか報告しない、ViT/DeiT上に構築された最近のアプローチとは対照的である。 我々は,トランスフォーマーアーキテクチャ用に設計された自己教師あり学習手法をより包括的に評価できることを願っている。 私たちのコードとモデルはhttps://github.com/S winTransformer/Trans former-SSLで利用可能です。

We are witnessing a modeling shift from CNN to Transformers in computer vision. In this paper, we present a self-supervised learning approach called MoBY, with Vision Transformers as its backbone architecture. The approach is basically a combination of MoCo v2 and BYOL, tuned to achieve reasonably high accuracy on ImageNet-1K linear evaluation: 72.8% and 75.0% top-1 accuracy using DeiT-S and Swin-T, respectively, by 300-epoch training. The performance is slightly better than recent works of MoCo v3 and DINO which adopt DeiT as the backbone, but with much lighter tricks. More importantly, the general-purpose Swin Transformer backbone enables us to also evaluate the learnt representations on downstream tasks such as object detection and semantic segmentation, in contrast to a few recent approaches built on ViT/DeiT which only report linear evaluation results on ImageNet-1K due to ViT/DeiT not tamed for these dense prediction tasks. We hope our results can facilitate more comprehensive evaluation of self-supervised learning methods designed for Transformer architectures. Our code and models are available at https://github.com/S winTransformer/Trans former-SSL, which will be continually enriched.
翻訳日:2021-05-11 16:14:25 公開日:2021-05-10
# (参考訳) ニューラルネットワーク翻訳のための自己指導型カリキュラム学習 [全文訳有]

Self-Guided Curriculum Learning for Neural Machine Translation ( http://arxiv.org/abs/2105.04475v1 )

ライセンス: CC0 1.0
Lei Zhou, Liang Ding, Kevin Duh, Ryohei Sasano, Koichi Takeda(参考訳) 機械学習の分野では、よく訓練されたモデルがトレーニングラベル、すなわちトレーニングラベルを復元できると仮定される。 モデルによって予測される合成ラベルは可能な限り接地ラベルに近いはずである。 そこで我々は,ニューラルネットワーク翻訳(NMT)モデルの学習を上記の回復基準に従って促進する自己指導型カリキュラム戦略を提案し,各学習例の回復度を学習難度として評価した。 具体的には,回復度の指標として文レベルBLEUスコアを採用する。 言語前知識や第三者言語モデルに依存する既存のカリキュラムとは異なり,選択した学習難易度は,nmtモデルの知識熟達度を測定するのに適している。 WMT14 English$\Rightarrow$ German や WMT17 Chinese$\Rightarrow$ English といった翻訳ベンチマークの実験は、我々のアプローチが強力なベースライン変換器に対する翻訳性能を一貫して改善できることを実証している。

In the field of machine learning, the well-trained model is assumed to be able to recover the training labels, i.e. the synthetic labels predicted by the model should be as close to the ground-truth labels as possible. Inspired by this, we propose a self-guided curriculum strategy to encourage the learning of neural machine translation (NMT) models to follow the above recovery criterion, where we cast the recovery degree of each training example as its learning difficulty. Specifically, we adopt the sentence level BLEU score as the proxy of recovery degree. Different from existing curricula relying on linguistic prior knowledge or third-party language models, our chosen learning difficulty is more suitable to measure the degree of knowledge mastery of the NMT models. Experiments on translation benchmarks, including WMT14 English$\Rightarrow$ German and WMT17 Chinese$\Rightarrow$ English, demonstrate that our approach can consistently improve translation performance against strong baseline Transformer.
翻訳日:2021-05-11 15:35:23 公開日:2021-05-10
# T-EMDE:クロスモーダル検索のためのスケッチに基づくグローバルな類似性

T-EMDE: Sketching-based global similarity for cross-modal retrieval ( http://arxiv.org/abs/2105.04242v1 )

ライセンス: Link先を確認
Barbara Rychalska, Mikolaj Wieczorek, Jacek Dabrowski(参考訳) クロスモーダル検索の鍵となる課題は、画像やテキストなど、異なるモダリティで表されるオブジェクト間の類似性を見つけることである。 しかし、各モダリティ埋め込みは非関連特徴空間に由来するため、悪名高い「異質性ギャップ」を引き起こす。 現在、多くのクロスモーダルシステムは自己注意でギャップを埋めようとしている。 しかし、自己注意はその二次的な複雑さで広く批判されており、多くの実生活の応用を妨げている。 これに対応して,最近導入された高効率マニフォールド密度推定器(EMDE)にインスパイアされたニューラルネットワーク密度推定器T-EMDEを提案する。 EMDEはスケッチ(特にマルチモーダル操作に適した表現)で動作する。 しかし、EMDEは非微分可能であり、事前計算された静的な埋め込みを取り込みます。 T-EMDEでは、エンドツーエンドのトレーニングを可能にするEMDEのトレーニング可能なバージョンを導入しました。 自己注意とは対照的に、ソリューションの複雑さはトークン/セグメントの数に線形である。 したがって、t-emdeはセルフアテンションモジュールのドロップイン代替であり、クロスモーダル設定における速度とメトリックパフォーマンスの両方に有益である。 各グローバルテキスト/画像表現は、基礎となるモダリティに関係なく同じ多様体構造を表す標準化されたスケッチヒストグラムで表現されるので、モダリティ間のコミュニケーションが容易になる。 我々は、T-EMDEを最近の2つのクロスモーダルSOTAモデルに導入し、複数のデータセット上で新しい最先端結果を実現し、モデル遅延を最大20%削減することで評価する。

The key challenge in cross-modal retrieval is to find similarities between objects represented with different modalities, such as image and text. However, each modality embeddings stem from non-related feature spaces, which causes the notorious 'heterogeneity gap'. Currently, many cross-modal systems try to bridge the gap with self-attention. However, self-attention has been widely criticized for its quadratic complexity, which prevents many real-life applications. In response to this, we propose T-EMDE - a neural density estimator inspired by the recently introduced Efficient Manifold Density Estimator (EMDE) from the area of recommender systems. EMDE operates on sketches - representations especially suitable for multimodal operations. However, EMDE is non-differentiable and ingests precomputed, static embeddings. With T-EMDE we introduce a trainable version of EMDE which allows full end-to-end training. In contrast to self-attention, the complexity of our solution is linear to the number of tokens/segments. As such, T-EMDE is a drop-in replacement for the self-attention module, with beneficial influence on both speed and metric performance in cross-modal settings. It facilitates communication between modalities, as each global text/image representation is expressed with a standardized sketch histogram which represents the same manifold structures irrespective of the underlying modality. We evaluate T-EMDE by introducing it into two recent cross-modal SOTA models and achieving new state-of-the-art results on multiple datasets and decreasing model latency by up to 20%.
翻訳日:2021-05-11 15:23:30 公開日:2021-05-10
# 雑音ラベル学習のための一般化jensen-shannon divergence loss

Generalized Jensen-Shannon Divergence Loss for Learning with Noisy Labels ( http://arxiv.org/abs/2105.04522v1 )

ライセンス: Link先を確認
Erik Englesson, Hossein Azizpour(参考訳) ラベル雑音下での学習のためのjensen-shannon divergenceに基づく2つの新しい損失関数を提案する。 Ghoshらの業績に倣った。 (2017) 理論的ロバスト性について議論する。 さらに, クロスエントロピー, 平均絶対誤差, 一般化クロスエントロピー, 対称クロスエントロピー, ラベルの平滑化, および最も重要な整合正則化など, 様々な損失関数に対する情報的接続を描くことで, その他の望ましい性質を明らかにする。 合成(CIFAR)と実(WebVision)の両方のノイズを用いて広範かつ系統的な実験を行い、他の損失関数よりも顕著で一貫した改善を示す。 また, 異なる理論特性を強調する有益な側面実験を複数実施した。

We propose two novel loss functions based on Jensen-Shannon divergence for learning under label noise. Following the work of Ghosh et al. (2017), we argue about their theoretical robustness. Furthermore, we reveal several other desirable properties by drawing informative connections to various loss functions, e.g., cross entropy, mean absolute error, generalized cross entropy, symmetric cross entropy, label smoothing, and most importantly consistency regularization. We conduct extensive and systematic experiments using both synthetic (CIFAR) and real (WebVision) noise and demonstrate significant and consistent improvements over other loss functions. Also, we conduct several informative side experiments that highlight the different theoretical properties.
翻訳日:2021-05-11 15:23:08 公開日:2021-05-10
# グラフニューラルネットワークの最適化:スキップ接続によるインプシット加速と深度向上

Optimization of Graph Neural Networks: Implicit Acceleration by Skip Connections and More Depth ( http://arxiv.org/abs/2105.04550v1 )

ライセンス: Link先を確認
Keyulu Xu, Mozhi Zhang, Stefanie Jegelka, Kenji Kawaguchi(参考訳) グラフニューラルネットワーク(GNN)は、表現力と一般化のレンズから研究されている。 しかし、それらの最適化特性はよく分かっていない。 本研究は,GNNの勾配ダイナミクスを学習することで,GNNトレーニングの分析に向けての第一歩を踏み出す。 まず,線形化gnnを分析し,非凸性にも拘わらず,実世界のグラフ上で検証する軽度仮定の下では,線形レートでのグローバル最小値への収束が保証されることを示す。 第2に、GNNのトレーニング速度に影響を及ぼす可能性のあるものについて検討する。 その結果、GNNのトレーニングは、スキップ接続、深度、および/または良質なラベル分布によって暗黙的に加速されることがわかった。 線形化GNNの理論的結果は非線形GNNのトレーニング行動と一致していることを確認した。 この結果から, スキップ接続によるGNNの成功に対する理論的支援として, スキップ接続による深いGNNの実現が期待できる可能性が示唆された。

Graph Neural Networks (GNNs) have been studied from the lens of expressive power and generalization. However, their optimization properties are less well understood. We take the first step towards analyzing GNN training by studying the gradient dynamics of GNNs. First, we analyze linearized GNNs and prove that despite the non-convexity of training, convergence to a global minimum at a linear rate is guaranteed under mild assumptions that we validate on real-world graphs. Second, we study what may affect the GNNs' training speed. Our results show that the training of GNNs is implicitly accelerated by skip connections, more depth, and/or a good label distribution. Empirical results confirm that our theoretical results for linearized GNNs align with the training behavior of nonlinear GNNs. Our results provide the first theoretical support for the success of GNNs with skip connections in terms of optimization, and suggest that deep GNNs with skip connections would be promising in practice.
翻訳日:2021-05-11 15:22:55 公開日:2021-05-10
# Spoken Moments:ビデオ記述から共同視覚表現を学習する

Spoken Moments: Learning Joint Audio-Visual Representations from Video Descriptions ( http://arxiv.org/abs/2105.04489v1 )

ライセンス: Link先を確認
Mathew Monfort, SouYoung Jin, Alexander Liu, David Harwath, Rogerio Feris, James Glass, Aude Oliva(参考訳) イベントを観察すると、重要な情報を抽象化し、何が起きているのかを簡潔に要約することができる。 これらの要約には、観察された事象の重要なハイレベルな詳細(どこで、どこで、どのように)を記述した文脈的および意味的情報が含まれ、観察者にとって重要でないと思われる背景情報を排除する。 このことを念頭に置いて、異なるダイナミックイベントのビデオに対して人々が生成する記述は、各ビデオに対する重要な情報に対する理解を大幅に改善する。 これらの記述は、ビデオラベリングのための拡張属性を提供するキャプションでキャプチャできる(例)。 action/objects/scene s/sentiment/etc.) 特定のイベントをまとめるために何が重要か、必要なのか、新たな洞察を得ることができます。 既存のビデオ理解用キャプションデータセットは、スケールが小さいか、特定のドメインに限定されている。 そこで本稿では,500kの音声キャプションからなるSpoken Moments(S-MiT)データセットについて述べる。 音声記録を用いて記述を収集し、それらが可能な限り自然で簡潔でありながら、大規模な分類データセットのサイズをスケールできるようにする。 提案するデータセットを活用するために,コントラスト学習のための新しい適応平均マージン(amm)アプローチを提案し,複数のデータセットにおける映像/キャプチャ検索に関するモデルを評価する。 我々のAMMアプローチは、我々の結果を継続的に改善し、Spken Momentsデータセットでトレーニングされたモデルは、他のビデオキャプチャデータセットでトレーニングされたモデルよりも一般化されていることを示す。

When people observe events, they are able to abstract key information and build concise summaries of what is happening. These summaries include contextual and semantic information describing the important high-level details (what, where, who and how) of the observed event and exclude background information that is deemed unimportant to the observer. With this in mind, the descriptions people generate for videos of different dynamic events can greatly improve our understanding of the key information of interest in each video. These descriptions can be captured in captions that provide expanded attributes for video labeling (e.g. actions/objects/scen es/sentiment/etc.) while allowing us to gain new insight into what people find important or necessary to summarize specific events. Existing caption datasets for video understanding are either small in scale or restricted to a specific domain. To address this, we present the Spoken Moments (S-MiT) dataset of 500k spoken captions each attributed to a unique short video depicting a broad range of different events. We collect our descriptions using audio recordings to ensure that they remain as natural and concise as possible while allowing us to scale the size of a large classification dataset. In order to utilize our proposed dataset, we present a novel Adaptive Mean Margin (AMM) approach to contrastive learning and evaluate our models on video/caption retrieval on multiple datasets. We show that our AMM approach consistently improves our results and that models trained on our Spoken Moments dataset generalize better than those trained on other video-caption datasets.
翻訳日:2021-05-11 15:22:39 公開日:2021-05-10
# ビデオ要約のための再構成シーケンスグラフネットワーク

Reconstructive Sequence-Graph Network for Video Summarization ( http://arxiv.org/abs/2105.04066v1 )

ライセンス: Link先を確認
Bin Zhao, Haopeng Li, Xiaoqiang Lu, Xuelong Li(参考訳) キーショットベースのビデオ要約には,インナーショットとインショット間の依存関係の活用が不可欠だ。 現在のアプローチは主に、リカレントニューラルネットワークによるフレームシーケンスとしてビデオのモデリングに費やされている。 しかし、シーケンスモデルの潜在的な制限の1つは、長距離の高次依存関係が完全に悪用されていない間、ローカルな近所の依存関係を捉えることに焦点を当てることである。 一般的に、各ショットのフレームは特定のアクティビティを記録し、時間とともにスムーズに変化するが、複数ホップの関係はショット間で頻繁に発生する。 この場合、ローカルおよびグローバルの依存関係はビデオコンテンツを理解する上で重要である。 そこで我々は,フレームとショットをシーケンスとグラフの階層的にエンコードするReconstructive Sequence-Graph Network (RSGN)を提案し,フレームレベルの依存関係をLong Short-Term Memory (LSTM) でエンコードし,ショットレベルの依存関係を Graph Convolutional Network (GCN) でキャプチャする。 次に、ビデオは、ショット間のローカルとグローバルの両方の依存関係を利用して要約される。 また、要約生成器に報酬を与える再構成器を開発し、教師なしの最適化が可能で、ビデオ要約における注釈付きデータの欠如を回避することができる。 さらに,コンストラクションロスの指導のもと,予測された要約は,主映像コンテンツとショットレベルの依存関係をよりよく保存することができる。 実際、一般的な3つのデータセット(summe、tvsum、vtw)の実験結果は、提案手法の要約タスクに対する優越性を示している。

Exploiting the inner-shot and inter-shot dependencies is essential for key-shot based video summarization. Current approaches mainly devote to modeling the video as a frame sequence by recurrent neural networks. However, one potential limitation of the sequence models is that they focus on capturing local neighborhood dependencies while the high-order dependencies in long distance are not fully exploited. In general, the frames in each shot record a certain activity and vary smoothly over time, but the multi-hop relationships occur frequently among shots. In this case, both the local and global dependencies are important for understanding the video content. Motivated by this point, we propose a Reconstructive Sequence-Graph Network (RSGN) to encode the frames and shots as sequence and graph hierarchically, where the frame-level dependencies are encoded by Long Short-Term Memory (LSTM), and the shot-level dependencies are captured by the Graph Convolutional Network (GCN). Then, the videos are summarized by exploiting both the local and global dependencies among shots. Besides, a reconstructor is developed to reward the summary generator, so that the generator can be optimized in an unsupervised manner, which can avert the lack of annotated data in video summarization. Furthermore, under the guidance of reconstruction loss, the predicted summary can better preserve the main video content and shot-level dependencies. Practically, the experimental results on three popular datasets i.e., SumMe, TVsum and VTW) have demonstrated the superiority of our proposed approach to the summarization task.
翻訳日:2021-05-11 15:21:00 公開日:2021-05-10
# 変形形状テンプレートを用いた教師なしポーズ推定

Unsupervised Human Pose Estimation through Transforming Shape Templates ( http://arxiv.org/abs/2105.04154v1 )

ライセンス: Link先を確認
Luca Schmidtke, Athanasios Vlontzos, Simon Ellershaw, Anna Lukens, Tomoki Arichi, Bernhard Kainz(参考訳) 人間のポーズ推定は、拡張現実やビデオキャプチャーから監視や動き追跡まで幅広い応用において主要なコンピュータビジョン問題である。 医学的文脈では、後者は幼児の神経障害にとって重要なバイオマーカーである。 多くの方法が存在するが、それらの応用は、よく注釈された大きなデータセットの必要性や、異なる形状や体組成を持つ人間に一般化できないことなどによって制限されている。 子供と幼児。 本稿では,成人および乳幼児のポーズ推定を教師なしで学習するための新しい手法を提案する。 深層特徴抽出器による学習可能なテンプレートマッチング問題としてこの問題にアプローチする。 2次元ガウス分布を特徴とする予め定義された身体部分からなるテンプレートを変換して、人間の解釈可能なランドマークを推定する。 接続先を強制することは、モデルを有意義な人間の形状表現に導く。 成人と幼児を含む2つの異なるデータセットに対するアプローチの有効性を示す。

Human pose estimation is a major computer vision problem with applications ranging from augmented reality and video capture to surveillance and movement tracking. In the medical context, the latter may be an important biomarker for neurological impairments in infants. Whilst many methods exist, their application has been limited by the need for well annotated large datasets and the inability to generalize to humans of different shapes and body compositions, e.g. children and infants. In this paper we present a novel method for learning pose estimators for human adults and infants in an unsupervised fashion. We approach this as a learnable template matching problem facilitated by deep feature extractors. Human-interpretable landmarks are estimated by transforming a template consisting of predefined body parts that are characterized by 2D Gaussian distributions. Enforcing a connectivity prior guides our model to meaningful human shape representations. We demonstrate the effectiveness of our approach on two different datasets including adults and infants.
翻訳日:2021-05-11 15:20:37 公開日:2021-05-10
# SCTN: シーンフロー推定のためのスパース畳み込み変圧器ネットワーク

SCTN: Sparse Convolution-Transfor mer Network for Scene Flow Estimation ( http://arxiv.org/abs/2105.04447v1 )

ライセンス: Link先を確認
Bing Li, Cheng Zheng, Silvio Giancola, Bernard Ghanem(参考訳) 点雲から3次元運動を捕捉・推定するための新しいシーンフロー推定手法を提案する。 点雲は非秩序であり、その密度は著しく一様ではないため、点雲の3次元運動の推定は困難である。 このような非構造化データは、ポイントクラウド間の対応するポイントのマッチングに困難をもたらし、不正確なフロー推定につながる。 本稿では,sparse convolution-transfor mer network (sctn) という新しいアーキテクチャを提案する。 具体的には、スパース畳み込みを利用して、SCTNは不規則点雲を局所的に一貫したフロー特徴に変換し、オブジェクト/局所オブジェクト部分内の連続かつ一貫した動きを推定する。 さらに,点変換モジュールを用いて点関係を明示的に学習する手法を提案する。 学習した関係に基づく文脈情報が豊富で,対応点の一致に役立ち,シーンフローの推定に有効であることを示す。 さらに,特徴の類似性に応じて流れの整合性を適応的に促進する新しい損失関数を提案する。 大規模な実験により,提案手法がシーンフロー推定における新たな手法を実現することを示す。 提案手法は,FlyingThings3DとKITTI Scene Flowでそれぞれ0.038と0.037(EPE3D)の誤差を実現する。

We propose a novel scene flow estimation approach to capture and infer 3D motions from point clouds. Estimating 3D motions for point clouds is challenging, since a point cloud is unordered and its density is significantly non-uniform. Such unstructured data poses difficulties in matching corresponding points between point clouds, leading to inaccurate flow estimation. We propose a novel architecture named Sparse Convolution-Transfor mer Network (SCTN) that equips the sparse convolution with the transformer. Specifically, by leveraging the sparse convolution, SCTN transfers irregular point cloud into locally consistent flow features for estimating continuous and consistent motions within an object/local object part. We further propose to explicitly learn point relations using a point transformer module, different from exiting methods. We show that the learned relation-based contextual information is rich and helpful for matching corresponding points, benefiting scene flow estimation. In addition, a novel loss function is proposed to adaptively encourage flow consistency according to feature similarity. Extensive experiments demonstrate that our proposed approach achieves a new state of the art in scene flow estimation. Our approach achieves an error of 0.038 and 0.037 (EPE3D) on FlyingThings3D and KITTI Scene Flow respectively, which significantly outperforms previous methods by large margins.
翻訳日:2021-05-11 15:20:25 公開日:2021-05-10
# パラメータフリー勾配時間差学習

Parameter-free Gradient Temporal Difference Learning ( http://arxiv.org/abs/2105.04129v1 )

ライセンス: Link先を確認
Andrew Jacobsen, Alan Chan(参考訳) 強化学習はいくつかの課題の交点にある。 興味のある多くの応用は、非常に大きな状態空間を含み、扱いやすい計算を可能にするために関数近似を必要とする。 さらに、学習者は単一の経験の流れしか持たず、多種多様なアクション・コースを評価できるため、非政治的学習が可能なアルゴリズムを必要とする。 しかし、オフ・ポリシー学習と関数近似の組み合わせは時間差法の違いにつながる。 勾配に基づく時間差法に関する最近の研究は、安定性への道を約束しているが、高価なハイパーパラメータチューニングのコストがかかる。 オンライン学習の進歩は、対数項まで最小限の保証を実現するパラメータフリーな手法を提供してきたが、強化学習への応用はまだ検討されていない。 本研究では、パラメータフリーで勾配に基づく時間差アルゴリズムを導出した2つの攻撃列を組み合わせる。 我々のアルゴリズムは線形時間で動作し、GTD2の値と最大$\log$因子の一致を保証する。 本実験は,本手法が完全に調整されたベースラインに対して高い予測性能を維持していることを示す。

Reinforcement learning lies at the intersection of several challenges. Many applications of interest involve extremely large state spaces, requiring function approximation to enable tractable computation. In addition, the learner has only a single stream of experience with which to evaluate a large number of possible courses of action, necessitating algorithms which can learn off-policy. However, the combination of off-policy learning with function approximation leads to divergence of temporal difference methods. Recent work into gradient-based temporal difference methods has promised a path to stability, but at the cost of expensive hyperparameter tuning. In parallel, progress in online learning has provided parameter-free methods that achieve minimax optimal guarantees up to logarithmic terms, but their application in reinforcement learning has yet to be explored. In this work, we combine these two lines of attack, deriving parameter-free, gradient-based temporal difference algorithms. Our algorithms run in linear time and achieve high-probability convergence guarantees matching those of GTD2 up to $\log$ factors. Our experiments demonstrate that our methods maintain high prediction performance relative to fully-tuned baselines, with no tuning whatsoever.
翻訳日:2021-05-11 15:18:18 公開日:2021-05-10
# 概念ボトルネックモデルは意図的に学習するか?

Do Concept Bottleneck Models Learn as Intended? ( http://arxiv.org/abs/2105.04289v1 )

ライセンス: Link先を確認
Andrei Margeloiu, Matthew Ashman, Umang Bhatt, Yanzhi Chen, Mateja Jamnik, Adrian Weller(参考訳) 概念ボトルネックモデルは、生の入力から概念へ、そして概念からターゲットへマップします。 このようなモデルは、事前に規定された高レベルの概念を学習手順に取り入れることを目的としており、解釈可能性、予測可能性、インターベンタビリティの3つのデシダータを満たすために動機付けられている。 しかし、概念ボトルネックモデルはこれらの目標を達成するのに苦労している。 ポストホック解釈法を用いて,概念が入力空間において意味的に意味のあるものとは対応しないことを実証し,概念ボトルネックモデルの有用性に疑問を呈する。

Concept bottleneck models map from raw inputs to concepts, and then from concepts to targets. Such models aim to incorporate pre-specified, high-level concepts into the learning procedure, and have been motivated to meet three desiderata: interpretability, predictability, and intervenability. However, we find that concept bottleneck models struggle to meet these goals. Using post hoc interpretability methods, we demonstrate that concepts do not correspond to anything semantically meaningful in input space, thus calling into question the usefulness of concept bottleneck models in their current form.
翻訳日:2021-05-11 15:18:00 公開日:2021-05-10
# グラフ特徴ゲーティングネットワーク

Graph Feature Gating Networks ( http://arxiv.org/abs/2105.04493v1 )

ライセンス: Link先を確認
Wei Jin, Xiaorui Liu, Yao Ma, Tyler Derr, Charu Aggarwal, Jiliang Tang(参考訳) グラフニューラルネットワーク(GNN)は、グラフの効率的な表現を学習する能力によって大きな注目を集めている。 ほとんどのGNNは、近隣から情報を集約して変換することでノード表現を更新するメッセージパッシングスキームに従う。 一方、異なる特徴次元から情報を集約するのと同じ戦略を採用している。 しかし、社会次元理論とスペクトル埋め込みによって示唆されるように、凝集過程の間、次元を異なるものにする潜在的な利点がある。 本研究では,GNNにおける特徴次元の不均一な寄与を実現するために検討する。 特に,グラフ信号記述問題に基づく汎用グラフ特徴ゲーティングネットワーク(GFGN)を提案し,それに対応する3つのグラフフィルタを導入し,特徴量から異なるレベルのコントリビューションを可能にする。 様々な実世界のデータセットに対する大規模な実験は、提案したフレームワークの有効性と堅牢性を示している。

Graph neural networks (GNNs) have received tremendous attention due to their power in learning effective representations for graphs. Most GNNs follow a message-passing scheme where the node representations are updated by aggregating and transforming the information from the neighborhood. Meanwhile, they adopt the same strategy in aggregating the information from different feature dimensions. However, suggested by social dimension theory and spectral embedding, there are potential benefits to treat the dimensions differently during the aggregation process. In this work, we investigate to enable heterogeneous contributions of feature dimensions in GNNs. In particular, we propose a general graph feature gating network (GFGN) based on the graph signal denoising problem and then correspondingly introduce three graph filters under GFGN to allow different levels of contributions from feature dimensions. Extensive experiments on various real-world datasets demonstrate the effectiveness and robustness of the proposed frameworks.
翻訳日:2021-05-11 15:17:50 公開日:2021-05-10
# 画像パラグラフキャプションにおける視覚特徴と階層的セマンティックトピックのマッチング

Matching Visual Features to Hierarchical Semantic Topics for Image Paragraph Captioning ( http://arxiv.org/abs/2105.04143v1 )

ライセンス: Link先を確認
Dandan Guo, Ruiying Lu, Bo Chen, Zequn Zeng, Mingyuan Zhou(参考訳) 画像の集合とそれに対応する段落を観察するには,画像の視覚的内容を記述するために意味的に一貫性のある段落を生成する方法を学ぶことが課題である。 本稿では,このタスクに意味的トピックを統合することの最近の成功に触発されて,視覚的抽出器と深いトピックモデルとを結合して言語モデルの学習を導く,階層的トピック誘導画像段落生成フレームワークを開発した。 複数の抽象レベルで画像とテキストの相関関係を捉え,画像から意味的トピックを学習するために,画像特徴からテキストキャプションへのマッピングを構築するための変分推論ネットワークを設計する。 段落生成を導くために、学習した階層的トピックと視覚的特徴をLong Short-Term Memory (LSTM)やTransformerなどの言語モデルに統合し、共同最適化する。 パブリックデータセットにおける実験は、標準評価メトリクスの観点から多くの最先端のアプローチと競合する、提案モデルが、解釈可能な多層トピックを蒸留し、多様で一貫性のあるキャプションを生成するのに使用できることを示した。

Observing a set of images and their corresponding paragraph-captions, a challenging task is to learn how to produce a semantically coherent paragraph to describe the visual content of an image. Inspired by recent successes in integrating semantic topics into this task, this paper develops a plug-and-play hierarchical-topic-g uided image paragraph generation framework, which couples a visual extractor with a deep topic model to guide the learning of a language model. To capture the correlations between the image and text at multiple levels of abstraction and learn the semantic topics from images, we design a variational inference network to build the mapping from image features to textual captions. To guide the paragraph generation, the learned hierarchical topics and visual features are integrated into the language model, including Long Short-Term Memory (LSTM) and Transformer, and jointly optimized. Experiments on public dataset demonstrate that the proposed models, which are competitive with many state-of-the-art approaches in terms of standard evaluation metrics, can be used to both distill interpretable multi-layer topics and generate diverse and coherent captions.
翻訳日:2021-05-11 15:17:39 公開日:2021-05-10
# SigGPDE:シーケンスデータに基づくスパースガウスプロセスのスケーリング

SigGPDE: Scaling Sparse Gaussian Processes on Sequential Data ( http://arxiv.org/abs/2105.04211v1 )

ライセンス: Link先を確認
Maud Lemercier, Cristopher Salvi, Thomas Cass, Edwin V. Bonilla, Theodoros Damoulas, Terry Lyons(参考訳) 入力データがシーケンシャルな場合の予測と不確かさの定量化は基本的な学習課題であり、近年は注目を集めている。 SigGPDEは,ガウス過程(GP)を逐次データに基づいて拡張可能な分散変動推論フレームワークである。 私たちの貢献は2倍です。 まず、スパース近似の根底にある変数を誘導し、その結果のエビデンスの下限(ELBO)が行列反転を必要としないように構成する。 次に,GPシグネチャカーネルの勾配は双曲偏微分方程式(PDE)の解であることを示す。 この理論的洞察により、ELBOを最適化する効率的なバックプロパゲーションアルゴリズムを構築することができる。 本稿では,SigGPDEの計算精度を既存手法と比較し,最大100万個の多変量時系列の大規模データセット上での分類タスクの最先端性能を示す。

Making predictions and quantifying their uncertainty when the input data is sequential is a fundamental learning challenge, recently attracting increasing attention. We develop SigGPDE, a new scalable sparse variational inference framework for Gaussian Processes (GPs) on sequential data. Our contribution is twofold. First, we construct inducing variables underpinning the sparse approximation so that the resulting evidence lower bound (ELBO) does not require any matrix inversion. Second, we show that the gradients of the GP signature kernel are solutions of a hyperbolic partial differential equation (PDE). This theoretical insight allows us to build an efficient back-propagation algorithm to optimize the ELBO. We showcase the significant computational gains of SigGPDE compared to existing methods, while achieving state-of-the-art performance for classification tasks on large datasets of up to 1 million multivariate time series.
翻訳日:2021-05-11 15:15:21 公開日:2021-05-10
# meta-cal:ランキングによるポストホックキャリブレーション

Meta-Cal: Well-controlled Post-hoc Calibration by Ranking ( http://arxiv.org/abs/2105.04290v1 )

ライセンス: Link先を確認
Xingchen Ma, Matthew B. Blaschko(参考訳) 多くのアプリケーションでは、分類器が正確な予測を行うだけでなく、校正された確率も出力することが望ましい。 しかし、多くの既存の分類器、特にディープニューラルネットワーク分類器は校正されない傾向にある。 ポストホック校正はモデルを校正する技法であり、その目標は校正マップを学ぶことである。 既存のアプローチは主に、キャリブレーション誤差の低いキャリブレーションマップの構築に重点を置いている。 これらの方法とは対照的に,制約下でのマルチクラス分類のポストホックキャリブレーションは,キャリブレーションエラーの少ないキャリブレータは必ずしも実用的ではない。 本稿では,検討すべき2つの実践的制約について紹介する。 次に、ベースキャリブレータとランキングモデルから構築したMeta-Calを紹介する。 いくつかの穏やかな仮定の下では、これらの制約に関して2つの高確率境界が与えられる。 CIFAR-10, CIFAR-100, ImageNetの実証実験の結果, 提案手法は, ポストホックなマルチクラス分類校正技術において, 高い性能を示した。

In many applications, it is desirable that a classifier not only makes accurate predictions, but also outputs calibrated probabilities. However, many existing classifiers, especially deep neural network classifiers, tend not to be calibrated. Post-hoc calibration is a technique to recalibrate a model, and its goal is to learn a calibration map. Existing approaches mostly focus on constructing calibration maps with low calibration errors. Contrary to these methods, we study post-hoc calibration for multi-class classification under constraints, as a calibrator with a low calibration error does not necessarily mean it is useful in practice. In this paper, we introduce two practical constraints to be taken into consideration. We then present Meta-Cal, which is built from a base calibrator and a ranking model. Under some mild assumptions, two high-probability bounds are given with respect to these constraints. Empirical results on CIFAR-10, CIFAR-100 and ImageNet and a range of popular network architectures show our proposed method significantly outperforms the current state of the art for post-hoc multi-class classification calibration.
翻訳日:2021-05-11 15:15:03 公開日:2021-05-10
# 資源配分のための組合せ多腕バンディット

Combinatorial Multi-armed Bandits for Resource Allocation ( http://arxiv.org/abs/2105.04373v1 )

ライセンス: Link先を確認
Jinhang Zuo, Carlee Joe-Wong(参考訳) 意思決定者がリソース間で予算を割当する逐次的資源割当問題について検討する。 モチベーションの例としては、限られたコンピューティング時間や無線スペクトル帯域を複数のユーザ(すなわちリソース)に割り当てることがある。 各段階において、意思決定者は利用可能な予算を様々なリソースに分配し、期待される報酬を最大化する。 意思決定者は、各ユーザの報酬に対するフィードバックから、各ユーザに割り当てられたリソースの価値を学習すべきである。 例えば、ユーザは無線スペクトル帯域上で異なる緊急性のメッセージを送信し、スペクトルをユーザに割り当てることで発生する報酬は、メッセージの緊急性に依存する。 各ユーザの報酬は、当初未知のランダムなプロセスに従うと仮定する。 我々は,この問題を離散的あるいは連続的な予算で解くために,コンビネート型多武装バンディットアルゴリズムを設計する。 提案アルゴリズムは半帯域フィードバックの下で対数的後悔を実現する。

We study the sequential resource allocation problem where a decision maker repeatedly allocates budgets between resources. Motivating examples include allocating limited computing time or wireless spectrum bands to multiple users (i.e., resources). At each timestep, the decision maker should distribute its available budgets among different resources to maximize the expected reward, or equivalently to minimize the cumulative regret. In doing so, the decision maker should learn the value of the resources allocated for each user from feedback on each user's received reward. For example, users may send messages of different urgency over wireless spectrum bands; the reward generated by allocating spectrum to a user then depends on the message's urgency. We assume each user's reward follows a random process that is initially unknown. We design combinatorial multi-armed bandit algorithms to solve this problem with discrete or continuous budgets. We prove the proposed algorithms achieve logarithmic regrets under semi-bandit feedback.
翻訳日:2021-05-11 15:14:46 公開日:2021-05-10
# 自然後部ネットワーク:特定家族分布における深ベイズ予測不確かさ

Natural Posterior Network: Deep Bayesian Predictive Uncertainty for Exponential Family Distributions ( http://arxiv.org/abs/2105.04471v1 )

ライセンス: Link先を確認
Bertrand Charpentier, Oliver Borchert, Daniel Z\"ugner, Simon Geisler, Stephan G\"unnemann(参考訳) 不確実性認識は、信頼できる機械学習モデルを開発するために不可欠である。 本研究では,目標分布が指数族に属するタスクに対して,高速かつ高品質な不確実性を推定するためのNatural Posterior Network(NatPN)を提案する。 したがって、NatPNは分類と一般的な回帰設定の両方に適用できる。 従来の多くのアプローチとは異なり、NatPNはトレーニング時にアウト・オブ・ディストリビューション(OOD)データを必要としない。 その代わり、正規化フローを利用して学習された低次元およびタスク依存の潜在空間に1つの密度を適合させる。 任意の入力サンプルに対して、NatPNは予測確率を使用して、ターゲット分布に対してベイズ更新を実行する。 理論的には、NatPNはトレーニングデータから遠く離れたところで高い不確実性を割り当てる。 キャリブレーションとOOD検出の広範な実験により,NatPNは分類,回帰,カウント予測タスクにおいて高い競争力を発揮することが示された。

Uncertainty awareness is crucial to develop reliable machine learning models. In this work, we propose the Natural Posterior Network (NatPN) for fast and high-quality uncertainty estimation for any task where the target distribution belongs to the exponential family. Thus, NatPN finds application for both classification and general regression settings. Unlike many previous approaches, NatPN does not require out-of-distribution (OOD) data at training time. Instead, it leverages Normalizing Flows to fit a single density on a learned low-dimensional and task-dependent latent space. For any input sample, NatPN uses the predicted likelihood to perform a Bayesian update over the target distribution. Theoretically, NatPN assigns high uncertainty far away from training data. Empirically, our extensive experiments on calibration and OOD detection show that NatPN delivers highly competitive performance for classification, regression and count prediction tasks.
翻訳日:2021-05-11 15:14:34 公開日:2021-05-10
# 深いガウス過程のポイント推定としてのディープニューラルネットワーク

Deep Neural Networks as Point Estimates for Deep Gaussian Processes ( http://arxiv.org/abs/2105.04504v1 )

ライセンス: Link先を確認
Vincent Dutordoir, James Hensman, Mark van der Wilk, Carl Henrik Ek, Zoubin Ghahramani, Nicolas Durrande(参考訳) ディープガウス過程 (DGP) はベイズ推論に関連する問題とコストのため、応用の関連性に苦慮している。 本稿では,DGPの近似後部平均がDeep Neural Network (DNN) と同じ数学的構造を持つ部分変動近似法を提案する。 我々は、GP後方平均をReLU基底関数の和として表すドメイン間変換を求めることで、ReLU DNNと同等のDGPを前方通過させる。 この統合により、ニューラルネットワークとしてのdgpの初期化とトレーニングが可能になり、ディープラーニングコミュニティで確立されたプラクティスを活用して、推論タスクを大いに支援する。 実験では、現在のDGP法と比較して精度の向上と訓練の高速化が示された。

Deep Gaussian processes (DGPs) have struggled for relevance in applications due to the challenges and cost associated with Bayesian inference. In this paper we propose a sparse variational approximation for DGPs for which the approximate posterior mean has the same mathematical structure as a Deep Neural Network (DNN). We make the forward pass through a DGP equivalent to a ReLU DNN by finding an interdomain transformation that represents the GP posterior mean as a sum of ReLU basis functions. This unification enables the initialisation and training of the DGP as a neural network, leveraging the well established practice in the deep learning community, and so greatly aiding the inference task. The experiments demonstrate improved accuracy and faster training compared to current DGP methods, while retaining favourable predictive uncertainties.
翻訳日:2021-05-11 15:14:21 公開日:2021-05-10
# 畳み込みニューラルネットワークを用いたデホモジェナイゼーション

De-homogenization using Convolutional Neural Networks ( http://arxiv.org/abs/2105.04232v1 )

ライセンス: Link先を確認
Martin O. Elingaard, Niels Aage, J. Andreas B{\ae}rentzen, Ole Sigmund(参考訳) 本稿では,構造コンプライアンス最小化のための深層学習に基づく非均質化手法を提案する。 畳み込みニューラルネットワークを用いて粗いメッシュ上のラミネートパラメータのセットから細かいメッシュ上のワンスケール設計へのマッピングをパラメータ化することで、従来の非ホモゲン化アプローチに関連する最小二乗問題の解決を回避し、対応する時間を節約する。 ニューラルネットワークをトレーニングするために、局所的な積層方向に従う周期的な出力フィールドを保証する2段階のカスタム損失関数が開発された。 提案手法の鍵となる特徴は,提案手法を頑健かつ無感なwrtで表現する構造最適化問題の利用や参照を伴わない訓練を行うことである。 ドメインのサイズ、境界条件、ロード。 出力フィールドスケルトン上の距離変換を利用した後処理手順を用いて、所望のラミネート幅を予め定義された最小長スケールと体積率を確保しつつ出力フィールドに投影する。 ディープラーニングアプローチが一般化性に優れたことを示すために,いくつかの異なる負荷条件と境界条件について数値例を示す。 パラメータの適切な選択のために、非ホモジナイズド設計は、計算コストのごく一部で、均質化ベースのソリューションの7~25セント以内で実行される。 さらなる改善のためのいくつかのオプションにより、このスキームは将来のインタラクティブな高解像度トポロジー最適化の基礎を提供することができる。

This paper presents a deep learning-based de-homogenization method for structural compliance minimization. By using a convolutional neural network to parameterize the mapping from a set of lamination parameters on a coarse mesh to a one-scale design on a fine mesh, we avoid solving the least square problems associated with traditional de-homogenization approaches and save time correspondingly. To train the neural network, a two-step custom loss function has been developed which ensures a periodic output field that follows the local lamination orientations. A key feature of the proposed method is that the training is carried out without any use of or reference to the underlying structural optimization problem, which renders the proposed method robust and insensitive wrt. domain size, boundary conditions, and loading. A post-processing procedure utilizing a distance transform on the output field skeleton is used to project the desired lamination widths onto the output field while ensuring a predefined minimum length-scale and volume fraction. To demonstrate that the deep learning approach has excellent generalization properties, numerical examples are shown for several different load and boundary conditions. For an appropriate choice of parameters, the de-homogenized designs perform within $7-25\%$ of the homogenization-based solution at a fraction of the computational cost. With several options for further improvements, the scheme may provide the basis for future interactive high-resolution topology optimization.
翻訳日:2021-05-11 15:13:24 公開日:2021-05-10
# DocReader: 文書情報抽出モデルのバウンディングボックスフリートレーニング

DocReader: Bounding-Box Free Training of a Document Information Extraction Model ( http://arxiv.org/abs/2105.04313v1 )

ライセンス: Link先を確認
Shachar Klaiman and Marius Lehne(参考訳) ドキュメントからの情報抽出は、多くのビジネスアプリケーションにおいて、ユビキタスな第一歩です。 このステップでは、さまざまなフィールドのエントリをまずスキャンされたドキュメントのイメージから読み込み、その後処理し、対応するデータベースに挿入する必要があります。 上記の抽出手順を自動化するために、ここ数年、様々な方法が開発されてきたが、いずれもトレーニング文書のバウンディングボックスやテキストセグメントアノテーションの要件を共有している。 本稿では,画像と読み込む対象値のみを使用してトレーニング可能な,エンドツーエンドのニューラルネットワークに基づく情報抽出ソリューションであるdocreaderを提案する。 これによりDocReaderは、既存の履歴抽出データを活用することができ、既存のヒューマンオペレーションサービスセンターで自然に利用できるもの以外の追加アノテーションの必要性を完全に排除できる。 我々はDocReaderが、トレーニングのためにバウンディングボックスを必要とする他のメソッドに到達し、また、本番環境へのデプロイ中に継続的学習の明確なパスを提供することができることを示した。

Information extraction from documents is a ubiquitous first step in many business applications. During this step, the entries of various fields must first be read from the images of scanned documents before being further processed and inserted into the corresponding databases. While many different methods have been developed over the past years in order to automate the above extraction step, they all share the requirement of bounding-box or text segment annotations of their training documents. In this work we present DocReader, an end-to-end neural-network-based information extraction solution which can be trained using solely the images and the target values that need to be read. The DocReader can thus leverage existing historical extraction data, completely eliminating the need for any additional annotations beyond what is naturally available in existing human-operated service centres. We demonstrate that the DocReader can reach and surpass other methods which require bounding-boxes for training, as well as provide a clear path for continual learning during its deployment in production.
翻訳日:2021-05-11 15:13:03 公開日:2021-05-10
# 潜時ニューラルフォッカー・プランクカーネルを用いた高次元分布の学習

Learning High-Dimensional Distributions with Latent Neural Fokker-Planck Kernels ( http://arxiv.org/abs/2105.04538v1 )

ライセンス: Link先を確認
Yufan Zhou, Changyou Chen, Jinhui Xu(参考訳) 高次元分布の学習は、さまざまな領域で応用される機械学習において重要な課題である。 本稿では,高次元データ空間における課題を軽減すべく,低次元潜在空間におけるfokker-planck方程式の解法として問題を定式化する新しい手法を提案する。 提案モデルでは,潜在分散モーフィング,ジェネレータ,パラメータ化Fokker-Planckカーネル関数からなる。 このモデルの興味深い特性の1つは、潜在分布モーフィングの任意のステップで、あるいはモーフィングなしでも訓練できることであり、これは生成的敵ネットワーク(gans)と同じくらい柔軟で効率的である。 さらに、この特性により、潜在分布の変形を効率的なプラグ・アンド・プレイ方式とし、任意のGANを改善するために使用することができ、より興味深いことに、GANモデルの障害ケースを効果的に修正することができる。 拡張実験は,提案手法の既存モデルに対する利点を実証するものである。

Learning high-dimensional distributions is an important yet challenging problem in machine learning with applications in various domains. In this paper, we introduce new techniques to formulate the problem as solving Fokker-Planck equation in a lower-dimensional latent space, aiming to mitigate challenges in high-dimensional data space. Our proposed model consists of latent-distribution morphing, a generator and a parameterized Fokker-Planck kernel function. One fascinating property of our model is that it can be trained with arbitrary steps of latent distribution morphing or even without morphing, which makes it flexible and as efficient as Generative Adversarial Networks (GANs). Furthermore, this property also makes our latent-distribution morphing an efficient plug-and-play scheme, thus can be used to improve arbitrary GANs, and more interestingly, can effectively correct failure cases of the GAN models. Extensive experiments illustrate the advantages of our proposed method over existing models.
翻訳日:2021-05-11 15:12:46 公開日:2021-05-10
# 可制御音声合成のためのロバスト遅延表現の学習

Learning Robust Latent Representations for Controllable Speech Synthesis ( http://arxiv.org/abs/2105.04458v1 )

ライセンス: Link先を確認
Shakti Kumar, Jithin Pradeep, Hussain Zaidi(参考訳) ゆがみのある潜在表現を学習するための最先端の変分自動エンコーダ(VAE)は、音声データにおけるピッチ、停止時間、アクセントなどの特徴を発見し、高い制御可能な音声合成をもたらす。 しかしながら、これらのLSTMベースのVAEは、制限されたデータセットまたはノイズの多いデータセットでトレーニングされた場合、話者属性の潜在クラスタを学習することができない。 さらに、異なる潜在変数が同じ特徴をエンコードし始め、音声合成中の制御と表現性を制限する。 そこで本研究では,異なる潜在変数間の相互情報を最小限に抑えるrti-vae(reordered transformer with information reduction vae)を提案する。 RTI-VAEは、LSTM-VAEの少なくとも30倍、バニラトランスフォーマー-VAEの少なくとも7倍の話者属性のクラスタオーバーラップを低減する。

State-of-the-art Variational Auto-Encoders (VAEs) for learning disentangled latent representations give impressive results in discovering features like pitch, pause duration, and accent in speech data, leading to highly controllable text-to-speech (TTS) synthesis. However, these LSTM-based VAEs fail to learn latent clusters of speaker attributes when trained on either limited or noisy datasets. Further, different latent variables start encoding the same features, limiting the control and expressiveness during speech synthesis. To resolve these issues, we propose RTI-VAE (Reordered Transformer with Information reduction VAE) where we minimize the mutual information between different latent variables and devise a modified Transformer architecture with layer reordering to learn controllable latent representations in speech data. We show that RTI-VAE reduces the cluster overlap of speaker attributes by at least 30\% over LSTM-VAE and by at least 7\% over vanilla Transformer-VAE.
翻訳日:2021-05-11 15:11:52 公開日:2021-05-10
# モデルデバッグにおける説明の有用性のベンチマークに向けて

Towards Benchmarking the Utility of Explanations for Model Debugging ( http://arxiv.org/abs/2105.04505v1 )

ライセンス: Link先を確認
Maximilian Idahl, Lijun Lyu, Ujwal Gadiraju, Avishek Anand(参考訳) ポストホックな説明法は、訓練されたモデルの決定の根拠を理解するための重要なアプローチのクラスである。 しかし、エンドユーザーが特定のタスクを達成するのにどれくらい役に立つか? 本稿では,ポストホックな説明手法の有効性を評価するためのベンチマークの必要性を論じる。 この目的の最初のステップとして、そのようなベンチマークがテキスト分類器をデバッグするタスクのために持つべき望ましいプロパティを列挙する。 さらに,このようなベンチマークは,説明の有効性を評価するだけでなく,その効率性を評価するのに役立つことを強調する。

Post-hoc explanation methods are an important class of approaches that help understand the rationale underlying a trained model's decision. But how useful are they for an end-user towards accomplishing a given task? In this vision paper, we argue the need for a benchmark to facilitate evaluations of the utility of post-hoc explanation methods. As a first step to this end, we enumerate desirable properties that such a benchmark should possess for the task of debugging text classifiers. Additionally, we highlight that such a benchmark facilitates not only assessing the effectiveness of explanations but also their efficiency.
翻訳日:2021-05-11 15:10:17 公開日:2021-05-10
# 弱教師付きパン・カンサーセグメンテーションツール

Weakly supervised pan-cancer segmentation tool ( http://arxiv.org/abs/2105.04269v1 )

ライセンス: Link先を確認
Marvin Lerousseau and Marion Classe and Enzo Battistella and Th\'eo Estienne and Th\'eophraste Henry and Amaury Leroy and Roger Sun and Maria Vakalopoulou and Jean-Yves Scoazec and Eric Deutsch and Nikos Paragios(参考訳) セマンティクスのセグメンテーションのアプローチのほとんどが、時間と手間がかかる退屈なピクセルレベルのアノテーションに依存しています。 これらの問題に対処するために、最近のアプローチでは、概して堅牢性と一般化に苦しむスライドレベルで分類アノテーションを活用している。 本稿では,クリニカルルーチンに高速かつ定期的に存在する定量的なスライドレベルのアノテーションを解読する,弱教師付きマルチインスタンス学習手法を提案する。 提案手法の極端なポテンシャルは, 固形癌サブタイプの腫瘍分節化に有効である。 提案手法は,アウトオブディストリビューション,アウトオブロケーション,ドメイン外テストセットにおいて優れたパフォーマンスを実現する。

The vast majority of semantic segmentation approaches rely on pixel-level annotations that are tedious and time consuming to obtain and suffer from significant inter and intra-expert variability. To address these issues, recent approaches have leveraged categorical annotations at the slide-level, that in general suffer from robustness and generalization. In this paper, we propose a novel weakly supervised multi-instance learning approach that deciphers quantitative slide-level annotations which are fast to obtain and regularly present in clinical routine. The extreme potentials of the proposed approach are demonstrated for tumor segmentation of solid cancer subtypes. The proposed approach achieves superior performance in out-of-distribution, out-of-location, and out-of-domain testing sets.
翻訳日:2021-05-11 15:06:35 公開日:2021-05-10
# マスク領域を用いた畳み込みニューラルネットワークによる空中画像のココナッツ木検出とセグメンテーション

Coconut trees detection and segmentation in aerial imagery using mask region-based convolution neural network ( http://arxiv.org/abs/2105.04356v1 )

ライセンス: Link先を確認
Muhammad Shakaib Iqbal, Hazrat Ali, Son N. Tran, Talha Iqbal(参考訳) 食料資源は地震、サイクロン、津波などの異常な災害で深刻な被害を受ける。 このようなシナリオでは,被災地の援助活動を支援するため,農地からの食料資源の迅速評価が重要である。 本稿では,OpenAerialMapとWeRoboticsと共同で世界銀行が主催するAIコンペティションを通じて,空中画像中のココナッツトレースの検出とセグメンテーションを行うためのディープラーニング手法を提案する。 Maked Region-based Convolutional Neural Network approach was used identified and segmentation of coconut trees。 セグメンテーションタスクでは、ResNet50とResNet1010をベースとしたMask R-CNNモデルが使用された。 構成パラメータの異なるいくつかの実験を行い,90%以上の信頼度を有するココナッツ樹の検出に最適な構成を報告した。 評価のために、Microsoft COCOデータセット評価基準、すなわち平均平均精度(mAP)を使用した。 全体の91%がココナッツ樹検出の平均精度であった。

Food resources face severe damages under extraordinary situations of catastrophes such as earthquakes, cyclones, and tsunamis. Under such scenarios, speedy assessment of food resources from agricultural land is critical as it supports aid activity in the disaster hit areas. In this article, a deep learning approach is presented for the detection and segmentation of coconut tress in aerial imagery provided through the AI competition organized by the World Bank in collaboration with OpenAerialMap and WeRobotics. Maked Region-based Convolutional Neural Network approach was used identification and segmentation of coconut trees. For the segmentation task, Mask R-CNN model with ResNet50 and ResNet1010 based architectures was used. Several experiments with different configuration parameters were performed and the best configuration for the detection of coconut trees with more than 90% confidence factor was reported. For the purpose of evaluation, Microsoft COCO dataset evaluation metric namely mean average precision (mAP) was used. An overall 91% mean average precision for coconut trees detection was achieved.
翻訳日:2021-05-11 15:06:09 公開日:2021-05-10
# 二次元テンソルネットワークとしてのボルツマンマシン

Boltzmann machines as two-dimensional tensor networks ( http://arxiv.org/abs/2105.04130v1 )

ライセンス: Link先を確認
Sujie Li, Feng Pan, Pengfei Zhou, Pan Zhang(参考訳) 制限ボルツマンマシン(rbm)とディープボルツマンマシン(dbm)は機械学習の重要なモデルであり、最近量子多体物理学において多くの応用が発見された。 これらとテンソルネットワークの間には基本的な接続があることを示す。 特に、任意の RBM と DBM が2次元テンソルネットワークとして正確に表現可能であることを示す。 この表現は、テンソルネットワークの絡み合い構造を用いて、RBMとDBMの表現力を理解し、RBMとDBMの計算分割関数に対する効率的なテンソルネットワーク収縮アルゴリズムを提供する。 数値実験により,提案アルゴリズムは制限されたボルツマンマシンとディープボルツマンマシンの分割関数を推定する最先端の機械学習手法よりもはるかに正確であり,一般的な機械学習タスクにおけるディープボルツマンマシンのトレーニングに潜在的に応用できることを示した。

Restricted Boltzmann machines (RBM) and deep Boltzmann machines (DBM) are important models in machine learning, and recently found numerous applications in quantum many-body physics. We show that there are fundamental connections between them and tensor networks. In particular, we demonstrate that any RBM and DBM can be exactly represented as a two-dimensional tensor network. This representation gives an understanding of the expressive power of RBM and DBM using entanglement structures of the tensor networks, also provides an efficient tensor network contraction algorithm for the computing partition function of RBM and DBM. Using numerical experiments, we demonstrate that the proposed algorithm is much more accurate than the state-of-the-art machine learning methods in estimating the partition function of restricted Boltzmann machines and deep Boltzmann machines, and have potential applications in training deep Boltzmann machines for general machine learning tasks.
翻訳日:2021-05-11 15:05:55 公開日:2021-05-10
# 自己教師型深層学習によるマルチスライス機能MRIの改良

Improved Simultaneous Multi-Slice Functional MRI Using Self-supervised Deep Learning ( http://arxiv.org/abs/2105.04532v1 )

ライセンス: Link先を確認
Omer Burak Demirel, Burhaneddin Yaman, Logan Dowdle, Steen Moeller, Luca Vizioli, Essa Yacoub, John Strupp, Cheryl A. Olman, K\^amil U\u{g}urbil and Mehmet Ak\c{c}akaya(参考訳) 機能MRI(Functional MRI)は、脳全体の神経活動の解釈に一般的に用いられる。 多くの加速fMRI技術は時空間分解能の向上を目的としている。 これらのうち、同時マルチスライス(sms)イメージングは強力な戦略として登場し、ヒトコネクトームプロジェクトのような大規模研究の一部となった。 しかし、sms画像と面内加速度を組み合わせると、従来のsms再構成法ではノイズ増幅などのアーチファクトが発生することがある。 近年, 深層学習(DL)技術はMRIの再建に注目されている。 しかし、これらの手法は通常、フルサンプリングされた参照データを必要とする教師ありの方法で訓練される。 近年,完全サンプルデータを必要としない自己教師付き学習が提案され,教師付き学習と同じような性能を示している。 しかし、これは平面内加速にのみ適用されている。 さらに, DL再建がその後のfMRI解析に与える影響は明らかでない。 本研究では,自己教師型DL再構成をSMS画像に拡張する。 予測10倍加速7T fMRIデータを用いた結果,自己教師型DLは再建ノイズを低減し,遺物を抑制することが示された。 その後のfMRI解析はDL処理によって変更されず、時間信号-雑音比の改善はタスク実行間のコヒーレンス推定を高くする。

Functional MRI (fMRI) is commonly used for interpreting neural activities across the brain. Numerous accelerated fMRI techniques aim to provide improved spatiotemporal resolutions. Among these, simultaneous multi-slice (SMS) imaging has emerged as a powerful strategy, becoming a part of large-scale studies, such as the Human Connectome Project. However, when SMS imaging is combined with in-plane acceleration for higher acceleration rates, conventional SMS reconstruction methods may suffer from noise amplification and other artifacts. Recently, deep learning (DL) techniques have gained interest for improving MRI reconstruction. However, these methods are typically trained in a supervised manner that necessitates fully-sampled reference data, which is not feasible in highly-accelerated fMRI acquisitions. Self-supervised learning that does not require fully-sampled data has recently been proposed and has shown similar performance to supervised learning. However, it has only been applied for in-plane acceleration. Furthermore the effect of DL reconstruction on subsequent fMRI analysis remains unclear. In this work, we extend self-supervised DL reconstruction to SMS imaging. Our results on prospectively 10-fold accelerated 7T fMRI data show that self-supervised DL reduces reconstruction noise and suppresses residual artifacts. Subsequent fMRI analysis remains unaltered by DL processing, while the improved temporal signal-to-noise ratio produces higher coherence estimates between task runs.
翻訳日:2021-05-11 15:05:38 公開日:2021-05-10
# 言語生成における社会バイアス:進歩と課題

Societal Biases in Language Generation: Progress and Challenges ( http://arxiv.org/abs/2105.04054v1 )

ライセンス: Link先を確認
Emily Sheng, Kai-Wei Chang, Premkumar Natarajan, and Nanyun Peng(参考訳) 言語生成技術は、大量のデータに対する大規模モデルの事前訓練の進展と、知的エージェントによる自然なコミュニケーションの必要性により、急速に進歩している。 技術は流動的なテキストを効果的に生成できるが、それはまた望ましくない社会的偏見を生み出すことができる。 言語生成は、直接ユーザインタラクションと復号化技術の構造の観点から、ユニークな課題を提示している。 これらの課題をより深く理解するため,我々は言語生成における社会的バイアスに関する調査を行い,手法がバイアスに対してどのように寄与するか,バイアス分析と緩和に向けた進歩に焦点をあてた。 復号化技術によるバイアスの研究の欠如により,これらの手法の効果を定量化するための実験も行った。 一般的な傾向とオープンな課題をさらに議論することで、研究に有望な方向性と、言語生成アプリケーションにおける公平性と排他的考慮の重要性に注意を向ける。

Technology for language generation has advanced rapidly, spurred by advancements in pre-training large models on massive amounts of data and the need for intelligent agents to communicate in a natural manner. While techniques can effectively generate fluent text, they can also produce undesirable societal biases that can have a disproportionately negative impact on marginalized populations. Language generation presents unique challenges in terms of direct user interaction and the structure of decoding techniques. To better understand these challenges, we present a survey on societal biases in language generation, focusing on how techniques contribute to biases and on progress towards bias analysis and mitigation. Motivated by a lack of studies on biases from decoding techniques, we also conduct experiments to quantify the effects of these techniques. By further discussing general trends and open challenges, we call to attention promising directions for research and the importance of fairness and inclusivity considerations for language generation applications.
翻訳日:2021-05-11 15:02:43 公開日:2021-05-10
# REPT:ブリッジ言語モデルと検索に基づく事前学習による機械読解

REPT: Bridging Language Models and Machine Reading Comprehensionvia Retrieval-Based Pre-training ( http://arxiv.org/abs/2105.04201v1 )

ライセンス: Link先を確認
Fangkai Jiao, Yangyang Guo, Yilin Niu, Feng Ji, Feng-Lin Li, Liqiang Nie(参考訳) プレトレーニング言語モデル(PLM)は、ここ数年でMachine Reading Comprehension(MRC)で大きな成功を収めています。 大規模コーパスから学んだ一般的な言語表現はmrcに利益をもたらすが、複数の文にまたがる推論を必要とする証拠抽出の貧弱なサポートはplmのさらなる進歩を妨げる。 一般PLMとRCのギャップを埋めるため,REPT(retrieval-base d pre-Training approach)を提案する。 特に,事前学習中のエビデンス抽出を強化するための2つの自己教師型タスクを導入し,一貫した検索操作とモデルアーキテクチャを通じて下流MCCタスクによってさらに継承される。 提案手法を評価するために,複数の文から証拠の収集と推論を必要とする5つのMRCデータセットについて広範な実験を行った。 実験の結果,前訓練法の有効性が示された。 さらに,本手法は明示的な監督なしに証拠抽出能力を向上させることができることを示す。

Pre-trained Language Models (PLMs) have achieved great success on Machine Reading Comprehension (MRC) over the past few years. Although the general language representation learned from large-scale corpora does benefit MRC, the poor support in evidence extraction which requires reasoning across multiple sentences hinders PLMs from further advancing MRC. To bridge the gap between general PLMs and MRC, we present REPT, a REtrieval-based Pre-Training approach. In particular, we introduce two self-supervised tasks to strengthen evidence extraction during pre-training, which is further inherited by downstream MRC tasks through the consistent retrieval operation and model architecture. To evaluate our proposed method, we conduct extensive experiments on five MRC datasets that require collecting evidence from and reasoning across multiple sentences. Experimental results demonstrate the effectiveness of our pre-training approach. Moreover, further analysis shows that our approach is able to enhance the capacity of evidence extraction without explicit supervision.
翻訳日:2021-05-11 15:02:27 公開日:2021-05-10
# アラビア方言の類似性:地理的近縁性を探る

Similarities between Arabic Dialects: Investigating Geographical Proximity ( http://arxiv.org/abs/2105.04221v1 )

ライセンス: Link先を確認
Abdulkareem Alsudais, Wafa Alotaibi, Faye Alomary(参考訳) アラビア方言の自動分類は、都市や州のような限られた地域に基づいて方言を定義する最近の研究で検討されている研究課題である。 本稿では,アラブ諸国に位置する都市の地理的近接性が方言的類似性に及ぼす影響について考察する。 1)コサイン類似度を用いて方言間のテキスト類似度を比較し,2)位置間の地理的距離を測定した。 我々は、多くの都市や県のアラビア方言で確立された2つのデータセットであるMADARとNADIを研究した。 以上の結果から,異なる国に位置する都市は,地理的近接度によって,同一国の都市よりも方言的類似性が高いことが示唆された。 弁証的類似性と都市近接性との相関は、国境にかかわらず、互いに近い都市は弁証的特質を共有する傾向にあることを示唆している。 このニュアンスは、アラビア方言の識別の問題を理解するために、より粒度の細かい方言分類へのアプローチが不可欠であることを示すため、アラビア方言研究において重要な進歩をもたらす可能性がある。

The automatic classification of Arabic dialects is an ongoing research challenge, which has been explored in recent work that defines dialects based on increasingly limited geographic areas like cities and provinces. This paper focuses on a related yet relatively unexplored topic: the effects of the geographical proximity of cities located in Arab countries on their dialectical similarity. Our work is twofold, reliant on: 1) comparing the textual similarities between dialects using cosine similarity and 2) measuring the geographical distance between locations. We study MADAR and NADI, two established datasets with Arabic dialects from many cities and provinces. Our results indicate that cities located in different countries may in fact have more dialectical similarity than cities within the same country, depending on their geographical proximity. The correlation between dialectical similarity and city proximity suggests that cities that are closer together are more likely to share dialectical attributes, regardless of country borders. This nuance provides the potential for important advancements in Arabic dialect research because it indicates that a more granular approach to dialect classification is essential to understanding how to frame the problem of Arabic dialects identification.
翻訳日:2021-05-11 15:02:12 公開日:2021-05-10
# ゼロショット横断対話状態追跡のためのスロット記述の活用

Leveraging Slot Descriptions for Zero-Shot Cross-Domain Dialogue State Tracking ( http://arxiv.org/abs/2105.04222v1 )

ライセンス: Link先を確認
Zhaojiang Lin, Bing Liu, Seungwhan Moon, Paul Crook, Zhenpeng Zhou, Zhiguang Wang, Zhou Yu, Andrea Madotto, Eunjoon Cho, Rajen Subba(参考訳) ゼロショットクロスドメイン状態追跡(DST)により、ドメイン内のデータを収集することなく、見えないドメインでのタスク指向対話を処理できる。 本稿では,ゼロショットクロスドメインDSTのためのスロット記述拡張生成手法を提案する。 具体的には、まず対話コンテキストとスロットを事前学習した自己注意エンコーダで符号化し、自動回帰的にスロット値を生成する。 さらに,スロット間の共有情報をキャプチャするスロット型インフォームド記述を組み込んで,ドメイン間の知識伝達を容易にする。 マルチウォズデータセットにおける実験結果から,提案手法はゼロショットクロスドメイン設定において既存の最先端結果を大幅に改善することを示した。

Zero-shot cross-domain dialogue state tracking (DST) enables us to handle task-oriented dialogue in unseen domains without the expense of collecting in-domain data. In this paper, we propose a slot description enhanced generative approach for zero-shot cross-domain DST. Specifically, our model first encodes dialogue context and slots with a pre-trained self-attentive encoder, and generates slot values in an auto-regressive manner. In addition, we incorporate Slot Type Informed Descriptions that capture the shared information across slots to facilitate cross-domain knowledge transfer. Experimental results on the MultiWOZ dataset show that our proposed method significantly improves existing state-of-the-art results in the zero-shot cross-domain setting.
翻訳日:2021-05-11 15:01:54 公開日:2021-05-10
# DocOIE: OpenIE用のドキュメントレベルのコンテキスト認識データセット

DocOIE: A Document-level Context-Aware Dataset for OpenIE ( http://arxiv.org/abs/2105.04271v1 )

ライセンス: Link先を確認
Kuicai Dong, Yilin Zhao, Aixin Sun, Jung-Jae Kim, Xiaoli Li(参考訳) Open Information extract (OpenIE) は、文から構造化されたリレーショナルタプル(オブジェクト、リレーショナル、オブジェクト)を抽出し、多くの下流NLPアプリケーションにおいて重要な役割を果たすことを目的としている。 既存のソリューションは、追加の文脈情報を参照することなく、文レベルで抽出を行う。 しかし、実際には、文はスタンドアローンではなく文書の一部として存在し、それを正確に解釈する前に、文の周りの関連する文脈情報にアクセスする必要があることが多い。 文書レベルのコンテキスト対応のOpenIEデータセットが存在しないため、2つのドメイン(ヘルスケアと交通)の80のドキュメントから800の文を手動で注釈付けして、評価のためのDocOIEデータセットを作成します。 さらに,新しい文書レベルの文脈対応OpenIEモデルであるDocIEを提案する。 ドキュメントレベルのコンテキストの導入がopenieのパフォーマンス向上に有効であることを示す。 DocOIEデータセットとDocIEモデルの両方が一般公開されている。

Open Information Extraction (OpenIE) aims to extract structured relational tuples (subject, relation, object) from sentences and plays critical roles for many downstream NLP applications. Existing solutions perform extraction at sentence level, without referring to any additional contextual information. In reality, however, a sentence typically exists as part of a document rather than standalone; we often need to access relevant contextual information around the sentence before we can accurately interpret it. As there is no document-level context-aware OpenIE dataset available, we manually annotate 800 sentences from 80 documents in two domains (Healthcare and Transportation) to form a DocOIE dataset for evaluation. In addition, we propose DocIE, a novel document-level context-aware OpenIE model. Our experimental results based on DocIE demonstrate that incorporating document-level context is helpful in improving OpenIE performance. Both DocOIE dataset and DocIE model are released for public.
翻訳日:2021-05-11 15:01:44 公開日:2021-05-10
# DefSent: 定義文を用いた文埋め込み

DefSent: Sentence Embeddings using Definition Sentences ( http://arxiv.org/abs/2105.04339v1 )

ライセンス: Link先を確認
Hayato Tsukagoshi, Ryohei Sasano, Koichi Takeda(参考訳) 自然言語推論(NLI)データセットを用いた文埋め込み手法は,様々なタスクにうまく適用されている。 しかし、これらの手法は大きなNLIデータセットに大きく依存するため、限られた言語でしか利用できない。 本稿では,単語辞書の定義文を用いた文埋め込み法であるdefsentを提案する。 多くの言語で辞書が利用できるため、DefSentは追加のデータセットを構築することなくNLIデータセットを使用するメソッドよりも広く適用できる。 我々は、DefSentが教師なしセマンティクスのテキスト類似性(STS)タスクで比較可能であり、大きなNLIデータセットを用いたメソッドよりもSentEvalタスクの方が若干優れていることを示した。

Sentence embedding methods using natural language inference (NLI) datasets have been successfully applied to various tasks. However, these methods are only available for limited languages due to relying heavily on the large NLI datasets. In this paper, we propose DefSent, a sentence embedding method that uses definition sentences from a word dictionary. Since dictionaries are available for many languages, DefSent is more broadly applicable than methods using NLI datasets without constructing additional datasets. We demonstrate that DefSent performs comparably on unsupervised semantics textual similarity (STS) tasks and slightly better on SentEval tasks to the methods using large NLI datasets.
翻訳日:2021-05-11 15:01:28 公開日:2021-05-10
# 文法的誤り訂正のための複数の仮説を用いた神経質推定

Neural Quality Estimation with Multiple Hypotheses for Grammatical Error Correction ( http://arxiv.org/abs/2105.04443v1 )

ライセンス: Link先を確認
Zhenghao Liu, Xiaoyuan Yi, Maosong Sun, Liner Yang and Tat-Seng Chua(参考訳) 文法的誤り訂正(GEC)は、誤りの訂正と言語学習者の書き方の改善を目的としている。 しかし、既存のgecモデルは、スプリアスな修正や大量のエラーの検出に失敗する傾向がある。 品質推定モデルは、学習者が正確なgec結果を得るのを保証し、不正確な文からの誤解を避けるために必要である。 十分に訓練されたGECモデルは、ビームサーチのような復号化によっていくつかの高品質な仮説を生成できる。 しかし、既存のモデルは異なる仮説によるgecの証拠を無視している。 本稿では,複数の仮説を用いたGEC品質評価のためのニューラルネットワーク(VERNet)を提案する。 vernetは推論グラフと仮説間の相互作用を確立し、gecの証拠を伝播して生成仮説の品質を検証する2種類の注意機構を行う。 GECデータセットの4つの実験により、VERNetは最先端の文法的誤り検出性能を達成し、最高の品質推定結果を得た。 すべてのデータとソースコードはhttps://github.com/t hunlp/VERNetで入手できる。

Grammatical Error Correction (GEC) aims to correct writing errors and help language learners improve their writing skills. However, existing GEC models tend to produce spurious corrections or fail to detect lots of errors. The quality estimation model is necessary to ensure learners get accurate GEC results and avoid misleading from poorly corrected sentences. Well-trained GEC models can generate several high-quality hypotheses through decoding, such as beam search, which provide valuable GEC evidence and can be used to evaluate GEC quality. However, existing models neglect the possible GEC evidence from different hypotheses. This paper presents the Neural Verification Network (VERNet) for GEC quality estimation with multiple hypotheses. VERNet establishes interactions among hypotheses with a reasoning graph and conducts two kinds of attention mechanisms to propagate GEC evidence to verify the quality of generated hypotheses. Our experiments on four GEC datasets show that VERNet achieves state-of-the-art grammatical error detection performance, achieves the best quality estimation results, and significantly improves GEC performance by reranking hypotheses. All data and source codes are available at https://github.com/t hunlp/VERNet.
翻訳日:2021-05-11 15:01:19 公開日:2021-05-10
# IWSLT 2021のためのUPC音声翻訳システム

UPC's Speech Translation System for IWSLT 2021 ( http://arxiv.org/abs/2105.04512v1 )

ライセンス: Link先を確認
Gerard I. G\'allego, Ioannis Tsiamas, Carlos Escolano, Jos\'e A. R. Fonollosa, Marta R. Costa-juss\`a(参考訳) 本稿では,UPC 機械翻訳グループによる IWSLT 2021 オフライン音声翻訳タスクの提出について述べる。 タスクは、tedトークから抽出された英語の音声録音をドイツ語のテキストに翻訳できるシステムを構築することにある。 送信されたシステムはカスケードまたはエンドツーエンドで、カスタムまたは所定のセグメンテーションを使用することができる。 提案手法は,事前学習したモデル(Wav2Vec 2.0とmBART)とエンコーダとデコーダの結合モジュールを組み合わせたエンドツーエンド音声翻訳システムである。 システムにアダプタを追加して事前学習することにより、収束速度と最終的な結果が向上し、 MuST-C テストセットで BLEU スコアが 27.3 となることを示す。 最後のモデルは、同じセットで28.22 BLEUスコアを得るアンサンブルです。 また,本提案では,事前学習したwav2vec 2.0を用いたセグメンテーションアルゴリズムも採用し,iwslt 2019テストセットにおいて,セグメンテーション結果と比較して2.5~3 bleuスコアの改善が期待できる。

This paper describes the submission to the IWSLT 2021 offline speech translation task by the UPC Machine Translation group. The task consists of building a system capable of translating English audio recordings extracted from TED talks into German text. Submitted systems can be either cascade or end-to-end and use a custom or given segmentation. Our submission is an end-to-end speech translation system, which combines pre-trained models (Wav2Vec 2.0 and mBART) with coupling modules between the encoder and decoder, and uses an efficient fine-tuning technique, which trains only 20% of its total parameters. We show that adding an Adapter to the system and pre-training it, can increase the convergence speed and the final result, with which we achieve a BLEU score of 27.3 on the MuST-C test set. Our final model is an ensemble that obtains 28.22 BLEU score on the same set. Our submission also uses a custom segmentation algorithm that employs pre-trained Wav2Vec 2.0 for identifying periods of untranscribable text and can bring improvements of 2.5 to 3 BLEU score on the IWSLT 2019 test set, as compared to the result with the given segmentation.
翻訳日:2021-05-11 15:00:58 公開日:2021-05-10
# pearl: シーン再配置計画のための並列化エキスパート支援強化学習

PEARL: Parallelized Expert-Assisted Reinforcement Learning for Scene Rearrangement Planning ( http://arxiv.org/abs/2105.04088v1 )

ライセンス: Link先を確認
Hanqing Wang, Zan Wang, Wei Liang, Lap-Fai Yu(参考訳) SRP(Scene Rearrangement Planning)は、最近提案されたインテリアタスクである。 これまでの作業では,手作りの粗い粗いアクションをシーンの配置の変換に使用でき,実際に展開する難易度の高いアクションで,このタスクのアクション空間を定義していた。 さらに,本課題では,一般的なデータ収集学習手法を取り入れ,定量的評価の必要性を満たすために,リアルな屋内シーン再構成データを欠いている。 これらの問題に対処するために,srpの細粒度アクション定義を提案し,大規模シーン再配置データセットを提案する。 また,事前知識を必要とせず,自己演奏を通してエージェントを効果的に訓練するための新しい学習パラダイムを提案する。 本手法を用いて訓練したエージェントは,ベースラインエージェントと比較して,導入データセットの性能が優れている。 実験では,提案手法の設計に関する詳細な分析を行った。

Scene Rearrangement Planning (SRP) is an interior task proposed recently. The previous work defines the action space of this task with handcrafted coarse-grained actions that are inflexible to be used for transforming scene arrangement and intractable to be deployed in practice. Additionally, this new task lacks realistic indoor scene rearrangement data to feed popular data-hungry learning approaches and meet the needs of quantitative evaluation. To address these problems, we propose a fine-grained action definition for SRP and introduce a large-scale scene rearrangement dataset. We also propose a novel learning paradigm to efficiently train an agent through self-playing, without any prior knowledge. The agent trained via our paradigm achieves superior performance on the introduced dataset compared to the baseline agents. We provide a detailed analysis of the design of our approach in our experiments.
翻訳日:2021-05-11 15:00:36 公開日:2021-05-10
# 制約満足度問題の高速解法と学習ベースアルゴリズム

Fast constraint satisfaction problem and learning-based algorithm for solving Minesweeper ( http://arxiv.org/abs/2105.04120v1 )

ライセンス: Link先を確認
Yash Pratyush Sinha, Pranshu Malviya, Rupaj Kumar Nayak(参考訳) minesweeperは不完全な情報を扱う一般的な空間ベースの意思決定ゲームだ。 模範的なnp完全問題として、様々な人工知能パラダイムを用いた研究の主要な分野である。 本研究は,このゲームを,制約満足度問題 (CSP) とマルコフ決定プロセス (MDP) としてモデル化する。 決定論的解探索(DSScsp)を用いて,CSPベースのMinesweeperゲームの全解を高速に列挙し,ヒューリスティックスを導入して結果を改善する手法を提案する。 MDPを用いてこれらのヒューリスティックスに機械学習手法を実装した。 CSPの定式化の結果を用いてスパースデータに基づく分類モデルを訓練する。 また,Minesweeperゲームにおいて,改良された深層Q-ラーニングを精度良く多目的学習に応用するための新たな報奨手法を提案する。 総合的な結果は異なる種類のミネズウィーパーゲームで分析され、その精度が記録されている。 これらの結果から, MDP を用いた分類モデルと深層Q-ラーニングの手法が, 与えられたマイニング密度を持つゲームに最適な手法であることが示唆された。

Minesweeper is a popular spatial-based decision-making game that works with incomplete information. As an exemplary NP-complete problem, it is a major area of research employing various artificial intelligence paradigms. The present work models this game as Constraint Satisfaction Problem (CSP) and Markov Decision Process (MDP). We propose a new method named as dependents from the independent set using deterministic solution search (DSScsp) for the faster enumeration of all solutions of a CSP based Minesweeper game and improve the results by introducing heuristics. Using MDP, we implement machine learning methods on these heuristics. We train the classification model on sparse data with results from CSP formulation. We also propose a new rewarding method for applying a modified deep Q-learning for better accuracy and versatile learning in the Minesweeper game. The overall results have been analyzed for different kinds of Minesweeper games and their accuracies have been recorded. Results from these experiments show that the proposed method of MDP based classification model and deep Q-learning overall is the best methods in terms of accuracy for games with given mine densities.
翻訳日:2021-05-11 15:00:23 公開日:2021-05-10
# スケッチを用いた古典的計画領域の共通部分構造表現と展開:拡張版

Expressing and Exploiting the Common Subgoal Structure of Classical Planning Domains Using Sketches: Extended Version ( http://arxiv.org/abs/2105.04250v1 )

ライセンス: Link先を確認
Dominik Drexler and Jendrik Seipp and Hector Geffner(参考訳) 幅ベースの計画手法では、結合目標を用いて問題を低幅の下位問題に分解する。 しかし、SIWのようなアルゴリズムは、ゴールがシリアライズできないときに失敗する。 本稿では,boint と geffner が最近導入した問題分解を表現するための単純かつ強力な言語である policy sketches を用いて,siw のこの制限に対処する。 ポリシースケッチRは、Booleanと数値的特徴のセットと、これらの特徴の値がどのように変化するかを表現するスケッチルールのセットで構成される。 一般的なポリシーと同様に、ポリシースケッチはドメイン一般であるが、ポリシーとは異なり、スケッチルールによって取得された変更は単一のステップで達成される必要はない。 siwによって解決できない多くの計画領域は、ユーザが提供するポリシースケッチを用いたsiw_rアルゴリズムによって、低多項式時間で証明可能であることが示されている。 したがって、ポリシースケッチはドメイン固有の知識をシンプルでコンパクトな方法で表現するための強力な言語であり、htnや時相論理のような言語に対する便利な代替手段であることが示されています。 さらに、ポリシースケッチにより、一般的な問題分解の表現や、複雑さや幅といった重要な特性の証明が容易になる。

Width-based planning methods exploit the use of conjunctive goals for decomposing problems into subproblems of low width. However, algorithms like SIW fail when the goal is not serializable. In this work, we address this limitation of SIW by using a simple but powerful language for expressing problem decompositions introduced recently by Bonet and Geffner, called policy sketches. A policy sketch R consists of a set of Boolean and numerical features and a set of sketch rules that express how the values of these features are supposed to change. Like general policies, policy sketches are domain general, but unlike policies, the changes captured by sketch rules do not need to be achieved in a single step. We show that many planning domains that cannot be solved by SIW are provably solvable in low polynomial time with the SIW_R algorithm, the version of SIW that employs user-provided policy sketches. Policy sketches are thus shown to be a powerful language for expressing domain-specific knowledge in a simple and compact way and a convenient alternative to languages such as HTNs or temporal logics. Furthermore, policy sketches make it easy to express general problem decompositions and prove key properties like their complexity and width.
翻訳日:2021-05-11 15:00:02 公開日:2021-05-10
# Micro RollerCoaster Tycoonによるオープンエンドゲームプレイ機能の探索

Exploring open-ended gameplay features with Micro RollerCoaster Tycoon ( http://arxiv.org/abs/2105.04342v1 )

ライセンス: Link先を確認
Michael Cerny Green, Victoria Yen, Sam Earle, Dipika Rajesh, Maria Edwards, L. B. Soros(参考訳) 本稿では,テーマパークのサンドボックスゲームRollerCoaster Tycoonに触発された,新しいオープンソースシミュレータMicroRCTを紹介する。 MicroRCTの目標は、公園の客から得られる利益を最大化するために、遊園地で乗車や買い物をすることです。 したがって、ゲームAIの課題は、ハイアーニングアトラクションを選択し、ゲストにとって便利な場所に配置することである。 本稿では、MAP-Elitesアルゴリズムを用いて、進化アルゴリズムとゲームデザインに関する2つの理論的疑問を探索し、公園レイアウトの多様性を生成する。 2)資源制限が創造性と最適化に及ぼす影響は何か。 その結果, コストを伴わずにスクラッチから構築すると, 高い性能を有する設計の多様性が最も大きいことが示唆された。

This paper introduces MicroRCT, a novel open source simulator inspired by the theme park sandbox game RollerCoaster Tycoon. The goal in MicroRCT is to place rides and shops in an amusement park to maximize profit earned from park guests. Thus, the challenges for game AI include both selecting high-earning attractions and placing them in locations that are convenient to guests. In this paper, the MAP-Elites algorithm is used to generate a diversity of park layouts, exploring two theoretical questions about evolutionary algorithms and game design: 1) Is there a benefit to starting from a minimal starting point for evolution and complexifying incrementally? and 2) What are the effects of resource limitations on creativity and optimization? Results indicate that building from scratch with no costs results in the widest diversity of high-performing designs.
翻訳日:2021-05-11 14:59:42 公開日:2021-05-10
# 超スペクトルターゲット検出のための自己教師付きスペクトルマッチングネットワーク

Self-supervised spectral matching network for hyperspectral target detection ( http://arxiv.org/abs/2105.04078v1 )

ライセンス: Link先を確認
Can Yao, Yuan Yuan, Zhiyu Jiang(参考訳) ハイパースペクトル目標検出はピクセルレベルの認識問題である。 いくつかのターゲットサンプルが与えられた場合、ハイパースペクトル画像全体から、飛行機、乗り物、船などの特定のターゲットピクセルを識別することを目的としている。 一般的に、背景画素は画像の大部分を取り、複雑に分散する。 その結果、データセットは弱く、非常に不均衡になる。 これらの問題に対処するために、スペクトル混合に基づく自己監督パラダイムがハイパースペクトルデータのために設計され、効果的な特徴表現が得られる。 このモデルはスペクトル類似性に基づくマッチングネットワークフレームワークを採用する。 より識別的な特徴を学ぶために、ターゲットと背景の距離を最大化しつつ、ターゲットピクセル間の距離を最小化するためにペアベースロスが採用されている。 さらに、背景分離ステップを経て、複雑なラベルのないスペクトルを異なるサブカテゴリにダウンサンプリングする。 3つの実超スペクトルデータセットの実験結果は、提案フレームワークが既存の検出器よりも優れた結果を得ることを示している。

Hyperspectral target detection is a pixel-level recognition problem. Given a few target samples, it aims to identify the specific target pixels such as airplane, vehicle, ship, from the entire hyperspectral image. In general, the background pixels take the majority of the image and complexly distributed. As a result, the datasets are weak annotated and extremely imbalanced. To address these problems, a spectral mixing based self-supervised paradigm is designed for hyperspectral data to obtain an effective feature representation. The model adopts a spectral similarity based matching network framework. In order to learn more discriminative features, a pair-based loss is adopted to minimize the distance between target pixels while maximizing the distances between target and background. Furthermore, through a background separated step, the complex unlabeled spectra are downsampled into different sub-categories. The experimental results on three real hyperspectral datasets demonstrate that the proposed framework achieves better results compared with the existing detectors.
翻訳日:2021-05-11 14:54:35 公開日:2021-05-10
# rgb-dセマンティクスセグメンテーションのための深層特徴選択・融合

Deep feature selection-and-fusion for RGB-D semantic segmentation ( http://arxiv.org/abs/2105.04102v1 )

ライセンス: Link先を確認
Yuejiao Su, Yuan Yuan, Zhiyu Jiang(参考訳) シーン深度情報は、より正確なセマンティックセグメンテーションのための視覚情報に役立つ。 しかし、マルチモダリティ情報を代表的機能に効果的に統合する方法はまだ未解決の問題である。 既存の作業の多くはDCNNを使って暗黙的に多モード情報を融合している。 しかしネットワークが深まるにつれて、いくつかの重要な識別機能が失われ、セグメンテーション性能が低下する可能性がある。 本稿では,マルチモダリティ情報の明示的な融合に用いられる対称クロスモダリティ残差融合モジュールを含む,統一的で効率的な特徴選択・融合ネットワーク(fsfnet)を提案する。 さらにネットワークには,ネットワークの前処理中に低レベルの詳細な情報を維持するために使用される,詳細な機能伝搬モジュールが含まれている。 現状の手法と比較して,提案モデルが2つの公開データセット上で競合性能を達成することを示す実験的評価を行った。

Scene depth information can help visual information for more accurate semantic segmentation. However, how to effectively integrate multi-modality information into representative features is still an open problem. Most of the existing work uses DCNNs to implicitly fuse multi-modality information. But as the network deepens, some critical distinguishing features may be lost, which reduces the segmentation performance. This work proposes a unified and efficient feature selectionand-fusion network (FSFNet), which contains a symmetric cross-modality residual fusion module used for explicit fusion of multi-modality information. Besides, the network includes a detailed feature propagation module, which is used to maintain low-level detailed information during the forward process of the network. Compared with the state-of-the-art methods, experimental evaluations demonstrate that the proposed model achieves competitive performance on two public datasets.
翻訳日:2021-05-11 14:54:23 公開日:2021-05-10
# ロングテールと浅面学習のためのマルチエージェントセミシャムトレーニング

Multi-Agent Semi-Siamese Training for Long-tail and Shallow Face Learning ( http://arxiv.org/abs/2105.04113v1 )

ライセンス: Link先を確認
Hailin Shi, Dan Zeng, Yichun Tai, Hang Du, Yibo Hu, Tao Mei(参考訳) 近年の深層畳み込みニューラルネットワークや大規模データセットの開発により、深層顔認識は著しく進歩し、様々な用途で広く用いられている。 しかし、既存の公開顔データセットとは異なり、顔認識の現実的なシナリオでは、トレーニングデータセットの深さは浅いため、ID毎に2つの顔イメージしか利用できない。 不均一なサンプルの増加により、このような問題はより一般的なケース、すなわちデータの不均衡とクラス内多様性を同時に抱えるロングテールフェイスラーニングに変換される。 これらの悪条件がトレーニングを損傷し、モデルの性能が低下する。 sst(semi-siamese training)に基づいて,これらの問題に対処するために,マルチエージェントセミシャムトレーニング(masst)という高度なソリューションを導入する。 MASSTはプローブネットワークと複数のギャラリーエージェントを含み、前者はプローブ機能をエンコードすることを目的としており、後者はプロトタイプ(ギャラリー機能)をエンコードするネットワークのスタックを構成する。 各トレーニングイテレーションでは、スタックから順次回転するギャラリーネットワークと、プローブネットワークが1対のセミシャムネットワークを形成する。 我々は、長尾(または浅尾)のデータとトレーニング損失を考慮に入れ、MASSTはロスランドスケープを滑らかにし、複数のエージェントと更新ギャラリーキューの助けを借りてリプシッツ連続性を満足する、理論的および実証的な分析を行う。 提案手法は外部依存性を欠いているため,既存の損失関数やネットワークアーキテクチャと容易に統合できる。 トレーニングには複数のギャラリーエージェントが使用されているが、推論コストを増加させることなく、推論にはプローブネットワークのみが必要である点に注意が必要だ。 広範囲な実験と比較により,MASSTの長身・浅身学習の利点が示された。

With the recent development of deep convolutional neural networks and large-scale datasets, deep face recognition has made remarkable progress and been widely used in various applications. However, unlike the existing public face datasets, in many real-world scenarios of face recognition, the depth of training dataset is shallow, which means only two face images are available for each ID. With the non-uniform increase of samples, such issue is converted to a more general case, a.k.a long-tail face learning, which suffers from data imbalance and intra-class diversity dearth simultaneously. These adverse conditions damage the training and result in the decline of model performance. Based on the Semi-Siamese Training (SST), we introduce an advanced solution, named Multi-Agent Semi-Siamese Training (MASST), to address these problems. MASST includes a probe network and multiple gallery agents, the former aims to encode the probe features, and the latter constitutes a stack of networks that encode the prototypes (gallery features). For each training iteration, the gallery network, which is sequentially rotated from the stack, and the probe network form a pair of semi-siamese networks. We give theoretical and empirical analysis that, given the long-tail (or shallow) data and training loss, MASST smooths the loss landscape and satisfies the Lipschitz continuity with the help of multiple agents and the updating gallery queue. The proposed method is out of extra-dependency, thus can be easily integrated with the existing loss functions and network architectures. It is worth noting that, although multiple gallery agents are employed for training, only the probe network is needed for inference, without increasing the inference cost. Extensive experiments and comparisons demonstrate the advantages of MASST for long-tail and shallow face learning.
翻訳日:2021-05-11 14:54:10 公開日:2021-05-10
# 超高分解能リモートセンシング画像のセマンティクスセグメンテーションのための注意融合ネットワーク

An Attention-Fused Network for Semantic Segmentation of Very-High-Resolution Remote Sensing Imagery ( http://arxiv.org/abs/2105.04132v1 )

ライセンス: Link先を確認
Xuan Yang, Shanshan Li, Zhengchao Chen, Jocelyn Chanussot, Xiuping Jia, Bing Zhang, Baipeng Li, Pan Chen(参考訳) セマンティックセグメンテーションは深層学習の重要な部分である。 近年,リモートセンシングビッグデータの開発に伴い,セマンティックセグメンテーションがリモートセンシングに利用されるようになった。 超高解像度のリモートセンシング画像 マルチソースデータフュージョンは、dcnnによってターゲットオブジェクトを正しく分類することを可能にするネットワークの学習可能な情報を増やすことができると同時に、高レベルの抽象的特徴と低レベルの空間的特徴の融合は、ターゲットオブジェクト間の境界における分類精度を向上させることができる。 本稿では,マルチパス入力の特徴を抽出するマルチパスエンコーダ構造,マルチパス特徴を融合するマルチパスアテンション融合ブロックモジュール,高レベル抽象特徴と低レベル空間特徴を融合する改良されたアテンション融合ブロックモジュールを提案する。 さらに,注目融合ネットワーク (AFNet) と呼ばれる新しい畳み込みニューラルネットワークアーキテクチャを提案する。 AFNetに基づいて,ISPRS Vaihingen 2Dデータセットの平均F1スコアは91.7%,ISPRS Vaihingen 2Dデータセットの平均F1スコアは90.96%,ISPRS Potsdam 2Dデータセットの平均F1スコアは92.1%,そして平均F1スコアは93.44%である。

Semantic segmentation is an essential part of deep learning. In recent years, with the development of remote sensing big data, semantic segmentation has been increasingly used in remote sensing. Deep convolutional neural networks (DCNNs) face the challenge of feature fusion: very-high-resolution remote sensing image multisource data fusion can increase the network's learnable information, which is conducive to correctly classifying target objects by DCNNs; simultaneously, the fusion of high-level abstract features and low-level spatial features can improve the classification accuracy at the border between target objects. In this paper, we propose a multipath encoder structure to extract features of multipath inputs, a multipath attention-fused block module to fuse multipath features, and a refinement attention-fused block module to fuse high-level abstract features and low-level spatial features. Furthermore, we propose a novel convolutional neural network architecture, named attention-fused network (AFNet). Based on our AFNet, we achieve state-of-the-art performance with an overall accuracy of 91.7% and a mean F1 score of 90.96% on the ISPRS Vaihingen 2D dataset and an overall accuracy of 92.1% and a mean F1 score of 93.44% on the ISPRS Potsdam 2D dataset.
翻訳日:2021-05-11 14:53:39 公開日:2021-05-10
# 歩行者横断行動予測のための結合意図と行動

Coupling Intent and Action for Pedestrian Crossing Behavior Prediction ( http://arxiv.org/abs/2105.04133v1 )

ライセンス: Link先を確認
Yu Yao, Ella Atkins, Matthew Johnson Roberson, Ram Vasudevan, Xiaoxiao Du(参考訳) 自動運転車による歩行者横断行動の正確な予測は、交通安全を著しく向上させることができる。 既存のアプローチはしばしば、軌跡やポーズを使って歩行者の行動をモデル化するが、人の行動や将来の歩行者の意図にどのように影響するかについて深い意味論的解釈を与えない。 本研究は, 歩行者横断行動について, 観察されていない内意(横断意図と横断意図の確率的表現)と, 多種の行動(歩行, 立位など)の組み合わせとして定義する, 神経科学と心理学の文献に従う。 インテントはアクションを生成し、将来のアクションはインテントを反映します。 本稿では,将来の歩行者行動を予測する新しいマルチタスクネットワークを提案する。 また,外的環境条件を組み込んだ注意関係ネットワークも設計し,意図と行動検出性能をさらに向上させた。 我々は,PIEとJAADという2つの自然主義運転データセットに対するアプローチを評価し,最先端のアプローチに対する意図検出と行動予測の両面で,大幅な改善と説明可能な結果を示した。 私たちのコードは、https://github.com/u mautobots/pedestrian _intent_action_detec tionで利用可能です。

Accurate prediction of pedestrian crossing behaviors by autonomous vehicles can significantly improve traffic safety. Existing approaches often model pedestrian behaviors using trajectories or poses but do not offer a deeper semantic interpretation of a person's actions or how actions influence a pedestrian's intention to cross in the future. In this work, we follow the neuroscience and psychological literature to define pedestrian crossing behavior as a combination of an unobserved inner will (a probabilistic representation of binary intent of crossing vs. not crossing) and a set of multi-class actions (e.g., walking, standing, etc.). Intent generates actions, and the future actions in turn reflect the intent. We present a novel multi-task network that predicts future pedestrian actions and uses predicted future action as a prior to detect the present intent and action of the pedestrian. We also designed an attention relation network to incorporate external environmental contexts thus further improve intent and action detection performance. We evaluated our approach on two naturalistic driving datasets, PIE and JAAD, and extensive experiments show significantly improved and more explainable results for both intent detection and action prediction over state-of-the-art approaches. Our code is available at: https://github.com/u mautobots/pedestrian _intent_action_detec tion.
翻訳日:2021-05-11 14:53:15 公開日:2021-05-10
# KDExplainer:知識蒸留を説明するタスク指向の注意モデル

KDExplainer: A Task-oriented Attention Model for Explaining Knowledge Distillation ( http://arxiv.org/abs/2105.04181v1 )

ライセンス: Link先を確認
Mengqi Xue, Jie Song, Xinchao Wang, Ying Chen, Xingen Wang, Mingli Song(参考訳) 知識蒸留(KD)は、最近、コンパクトディープニューラルネットワーク(DNN)を学習するための効果的なスキームとして登場した。 有望な結果が得られたにも拘わらず、KDの振る舞いを解釈する根拠はまだほとんど検討されていない。 本稿では,KDExplainerと呼ばれる新しいタスク指向のアテンションモデルを紹介し,バニラKDを支える動作機構について光を当てる。 kdexplainerの核心には、階層的な専門家の混合(hme)があり、マルチクラス分類をマルチタスクバイナリに再構成する。 自由形式のDNNからKDExplainerへの知識の抽出を通じて、KDは異なるサブタスク間の知識衝突を暗黙的に変調し、実際にはラベルスムース化よりもずっと多くのものを提供する。 そこで本研究では,仮想アテンションモジュール(Virtual attention Module, VAM)と呼ばれる,様々なDNNとシームレスに統合して,KD下での性能を向上させるポータブルツールについても紹介する。 実験の結果,vamを搭載した学生モデルが,評価値の異なる非vamモデルよりも高い値を示した。 さらに、他のKD法と組み合わせた場合、VAMはバニラKDによってのみ動機付けられているにもかかわらず、結果の促進に長けている。

Knowledge distillation (KD) has recently emerged as an efficacious scheme for learning compact deep neural networks (DNNs). Despite the promising results achieved, the rationale that interprets the behavior of KD has yet remained largely understudied. In this paper, we introduce a novel task-oriented attention model, termed as KDExplainer, to shed light on the working mechanism underlying the vanilla KD. At the heart of KDExplainer is a Hierarchical Mixture of Experts (HME), in which a multi-class classification is reformulated as a multi-task binary one. Through distilling knowledge from a free-form pre-trained DNN to KDExplainer, we observe that KD implicitly modulates the knowledge conflicts between different subtasks, and in reality has much more to offer than label smoothing. Based on such findings, we further introduce a portable tool, dubbed as virtual attention module (VAM), that can be seamlessly integrated with various DNNs to enhance their performance under KD. Experimental results demonstrate that with a negligible additional cost, student models equipped with VAM consistently outperform their non-VAM counterparts across different benchmarks. Furthermore, when combined with other KD methods, VAM remains competent in promoting results, even though it is only motivated by vanilla KD.
翻訳日:2021-05-11 14:52:55 公開日:2021-05-10
# 一つの表現しか学べない:複数タスクのための統一ネットワーク

You Only Learn One Representation: Unified Network for Multiple Tasks ( http://arxiv.org/abs/2105.04206v1 )

ライセンス: Link先を確認
Chien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao(参考訳) 人々は、視覚、聴覚、触覚、そして過去の経験を通して世界を「理解する」。 人間の経験は、通常の学習(明示的な知識と呼ぶ)や、潜在意識的な学習(暗黙的な知識と呼ぶ)を通じて学べる。 通常の学習を通じて学んだ経験は、脳にコード化され、記憶される。 これらの豊富な経験を巨大なデータベースとして利用することで、人間がデータを効果的に処理することができる。 本稿では,人間の脳が通常の学習や潜在意識学習から知識を学習できるように,暗黙的な知識と明示的な知識を同時にエンコードする統一ネットワークを提案する。 統一ネットワークは、様々なタスクを同時に実行する統一表現を生成することができる。 畳み込みニューラルネットワークでは,カーネル空間アライメント,予測精度の向上,マルチタスク学習を行うことができる。 その結果、暗黙の知識がニューラルネットワークに導入されると、すべてのタスクのパフォーマンスが向上することを示した。 さらに,提案した統合ネットワークから学習した暗黙の表現を解析し,様々なタスクの物理的意味を捉える能力を示す。 この作業のソースコードはhttps://github.com/w ongkinyiu/yolor。

People ``understand'' the world via vision, hearing, tactile, and also the past experience. Human experience can be learned through normal learning (we call it explicit knowledge), or subconsciously (we call it implicit knowledge). These experiences learned through normal learning or subconsciously will be encoded and stored in the brain. Using these abundant experience as a huge database, human beings can effectively process data, even they were unseen beforehand. In this paper, we propose a unified network to encode implicit knowledge and explicit knowledge together, just like the human brain can learn knowledge from normal learning as well as subconsciousness learning. The unified network can generate a unified representation to simultaneously serve various tasks. We can perform kernel space alignment, prediction refinement, and multi-task learning in a convolutional neural network. The results demonstrate that when implicit knowledge is introduced into the neural network, it benefits the performance of all tasks. We further analyze the implicit representation learnt from the proposed unified network, and it shows great capability on catching the physical meaning of different tasks. The source code of this work is at : https://github.com/W ongKinYiu/yolor.
翻訳日:2021-05-11 14:52:34 公開日:2021-05-10
# 弱教師付き時空間定位に対する行動シャッフル

Action Shuffling for Weakly Supervised Temporal Localization ( http://arxiv.org/abs/2105.04208v1 )

ライセンス: Link先を確認
Xiao-Yu Zhang, Haichao Shi, Changsheng Li, Xinchu Shi(参考訳) 弱い教師付きアクションローカライゼーションは、ビデオレベルのアノテーションのみを使用して、アクションと対応する時間間隔を識別することを目的として、広範囲のアプリケーションで難しいタスクである。 本稿では,行動の順序に敏感で位置に敏感な特性を解析し,これらを自己拡張学習フレームワークに具体化し,弱制御された行動ローカライゼーション性能を向上させる。 具体的には、ActShufNetと呼ばれるインターアクションシャッフルを用いた2分岐ネットワークアーキテクチャを提案する。 イントラアクションシャッフルブランチは、インナービデオ関連で映像表現を増強するセルフ教師付き順序予測タスクを配置する一方、インターアクションシャッフルブランチは、既存のアクション内容に再構成戦略を課し、外部リソースに頼らずにトレーニングセットを増強する。 さらに、無関係雑音に対するモデルの堅牢性を高めるために、グローバルローカルな対向訓練を行う。 3つのベンチマークデータセットを用いて実験を行い,提案手法の有効性を明らかにした。

Weakly supervised action localization is a challenging task with extensive applications, which aims to identify actions and the corresponding temporal intervals with only video-level annotations available. This paper analyzes the order-sensitive and location-insensitive properties of actions, and embodies them into a self-augmented learning framework to improve the weakly supervised action localization performance. To be specific, we propose a novel two-branch network architecture with intra/inter-action shuffling, referred to as ActShufNet. The intra-action shuffling branch lays out a self-supervised order prediction task to augment the video representation with inner-video relevance, whereas the inter-action shuffling branch imposes a reorganizing strategy on the existing action contents to augment the training set without resorting to any external resources. Furthermore, the global-local adversarial training is presented to enhance the model's robustness to irrelevant noises. Extensive experiments are conducted on three benchmark datasets, and the results clearly demonstrate the efficacy of the proposed method.
翻訳日:2021-05-11 14:52:17 公開日:2021-05-10
# ビデオ・サリエンシ検出のための時間空間特徴ピラミッド

Temporal-Spatial Feature Pyramid for Video Saliency Detection ( http://arxiv.org/abs/2105.04213v1 )

ライセンス: Link先を確認
Qinyao Chang, Shiping Zhu, Lanyun Zhu(参考訳) 本稿では,ビデオサリエンシ・モデリングのためのスケール・空間・時間情報を組み合わせた,ビデオサリエンシ検出のための3次元完全畳み込みエンコーダ・デコーダ・アーキテクチャを提案する。 エンコーダは入力された連続ビデオフレームからマルチスケールの時間空間特徴を抽出し、時間空間畳み込みとトップダウン特徴統合により時間空間特徴ピラミッドを構築する。 デコーダは、異なるスケールから時間空間的特徴を階層的にデコードし、最終的に複数のビデオフレームの統合からサリエンシーマップを生成する。 私たちのモデルはシンプルかつ効果的で、リアルタイムで実行できます。 実験は豊富に実施し, 良好な設計により, 映像塩分検出精度が大幅に向上することを示す。 3つの純粋ビジュアルビデオサリエンシーベンチマークと6つのオーディオビデオサリエンシーベンチマークの実験結果から,本手法が最先端の性能を達成できることが確認された。

In this paper, we propose a 3D fully convolutional encoder-decoder architecture for video saliency detection, which combines scale, space and time information for video saliency modeling. The encoder extracts multi-scale temporal-spatial features from the input continuous video frames, and then constructs temporal-spatial feature pyramid through temporal-spatial convolution and top-down feature integration. The decoder performs hierarchical decoding of temporal-spatial features from different scales, and finally produces a saliency map from the integration of multiple video frames. Our model is simple yet effective, and can run in real time. We perform abundant experiments, and the results indicate that the well-designed structure can improve the precision of video saliency detection significantly. Experimental results on three purely visual video saliency benchmarks and six audio-video saliency benchmarks demonstrate that our method achieves state-of-theart performance.
翻訳日:2021-05-11 14:51:55 公開日:2021-05-10
# event-lstm: 教師なしかつ非同期なイベントベースのデータ表現

Event-LSTM: An Unsupervised and Asynchronous Learning-based Representation for Event-based Data ( http://arxiv.org/abs/2105.04216v1 )

ライセンス: Link先を確認
Lakshmi Annamalai, Vignesh Ramanathan, Chetan Singh Thakur(参考訳) イベントカメラは、アクティビティ駆動のバイオインスパイアされた視覚センサであり、その結果、空間性、高時間分解能、低レイテンシ、消費電力などの利点をもたらす。 イベントカメラのセンシングモードの違いと従来のビジョンパラダイムの高品質を考えると、イベント処理は主にスパースと非同期のイベントを2dグリッドに変換し、それから標準的なビジョンパイプラインを適用することで解決される。 2次元グリッド生成における教師付き学習手法による有望な結果にもかかわらず,これらの手法は教師付き方法でタスクを処理している。 ラベル付きタスク特定グランド真理イベントデータを取得するのは困難である。 この制限を克服するために、イベントシーケンスから2Dグリッド表現を学ぶための有望な代替手段として、LSTM層からなる教師なしオートエンコーダアーキテクチャであるEvent-LSTMを提案する。 競合する教師付きアプローチと比較すると、タスク固有のラベル付きデータが不足しているイベントドメインに適したタスクに依存しないアプローチである。 また,イベントストリームの非同期性を活用するために提案手法を調整し,速度不変性やエネルギー効率のよい2dグリッド生成といった,望ましい特性を提供する。 さらに、私たちは、Denoisingプロセスにメモリを導入することで、最先端のイベントを先送りします。 動作認識とジェスチャ認識の評価は,最先端のアプローチよりも改善をもたらすと同時に,ラベルなしのデータから学習する柔軟性も提供することを実証する。

Event cameras are activity-driven bio-inspired vision sensors, thereby resulting in advantages such as sparsity,high temporal resolution, low latency, and power consumption. Given the different sensing modality of event camera and high quality of conventional vision paradigm, event processing is predominantly solved by transforming the sparse and asynchronous events into 2D grid and subsequently applying standard vision pipelines. Despite the promising results displayed by supervised learning approaches in 2D grid generation, these approaches treat the task in supervised manner. Labeled task specific ground truth event data is challenging to acquire. To overcome this limitation, we propose Event-LSTM, an unsupervised Auto-Encoder architecture made up of LSTM layers as a promising alternative to learn 2D grid representation from event sequence. Compared to competing supervised approaches, ours is a task-agnostic approach ideally suited for the event domain, where task specific labeled data is scarce. We also tailor the proposed solution to exploit asynchronous nature of event stream, which gives it desirable charateristics such as speed invariant and energy-efficient 2D grid generation. Besides, we also push state-of-the-art event de-noising forward by introducing memory into the de-noising process. Evaluations on activity recognition and gesture recognition demonstrate that our approach yields improvement over state-of-the-art approaches, while providing the flexibilty to learn from unlabelled data.
翻訳日:2021-05-11 14:51:38 公開日:2021-05-10
# カメラトラップ距離サンプリングにおける距離推定ボトルネックの克服

Overcoming the Distance Estimation Bottleneck in Camera Trap Distance Sampling ( http://arxiv.org/abs/2105.04244v1 )

ライセンス: Link先を確認
Timm Haucke, Hjalmar S. K\"uhl, Jacqueline Hoyer, Volker Steinhage(参考訳) 生物多様性の危機はまだ加速している。 動物の存在量の推定は、例えば、土地利用の変化と侵入種が種組成に及ぼす影響や、保全介入の有効性を評価する上で重要である。 カメラトラップ距離サンプリング(CTDS)は,最近開発されたモニタリング手法であり,野生生物の密度と個体数の信頼性を推定する。 しかし、CTDSの現在の応用においては、必要なカメラ対動物距離の測定は、精力的、手動的、主観的推定法によって導かれる。 この距離推定ボトルネックをCTDSで克服するために,画像処理とパターン認識の最先端手法を利用した完全自動化ワークフローを提案する。

Biodiversity crisis is still accelerating. Estimating animal abundance is of critical importance to assess, for example, the consequences of land-use change and invasive species on species composition, or the effectiveness of conservation interventions. Camera trap distance sampling (CTDS) is a recently developed monitoring method providing reliable estimates of wildlife population density and abundance. However, in current applications of CTDS, the required camera-to-animal distance measurements are derived by laborious, manual and subjective estimation methods. To overcome this distance estimation bottleneck in CTDS, this study proposes a completely automatized workflow utilizing state-of-the-art methods of image processing and pattern recognition.
翻訳日:2021-05-11 14:51:15 公開日:2021-05-10
# シーンテキスト認識のための原始表現学習

Primitive Representation Learning for Scene Text Recognition ( http://arxiv.org/abs/2105.04286v1 )

ライセンス: Link先を確認
Ruijie Yan, Liangrui Peng, Shanyu Xiao, Gang Yao(参考訳) シーンテキスト認識は、自然のシーン画像におけるテキストインスタンスの多様性のために難しい課題である。 注意機構を有するcnn-rnn-ctcやエンコーダ-デコーダに基づく従来の手法では、マルチ指向シーンテキストの安定かつ効率的な特徴表現を完全には検討できない。 本論文では,シーンテキスト画像の本質的な表現を活用することを目的とした,原始表現学習手法を提案する。 特徴マップの要素を無向グラフのノードとしてモデル化する。 プールアグリゲータと重み付けアグリゲータはプリミティブ表現を学習するために提案され、グラフ畳み込みネットワークによって高レベルなビジュアルテキスト表現に変換される。 プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。 さらに,2次元注意機構を持つエンコーダ・デコーダモデルにビジュアルテキスト表現を統合することで,注意に基づく手法における不一致問題を緩和するpren2dというフレームワークを提案する。 英語と中国語のテキスト認識タスクにおける実験結果は、pren2dが最先端のパフォーマンスを達成しているのに対して、prenは正確性と効率のバランスを保っていることを示している。

Scene text recognition is a challenging task due to diverse variations of text instances in natural scene images. Conventional methods based on CNN-RNN-CTC or encoder-decoder with attention mechanism may not fully investigate stable and efficient feature representations for multi-oriented scene texts. In this paper, we propose a primitive representation learning method that aims to exploit intrinsic representations of scene text images. We model elements in feature maps as the nodes of an undirected graph. A pooling aggregator and a weighted aggregator are proposed to learn primitive representations, which are transformed into high-level visual text representations by graph convolutional networks. A Primitive REpresentation learning Network (PREN) is constructed to use the visual text representations for parallel decoding. Furthermore, by integrating visual text representations into an encoder-decoder model with the 2D attention mechanism, we propose a framework called PREN2D to alleviate the misalignment problem in attention-based methods. Experimental results on both English and Chinese scene text recognition tasks demonstrate that PREN keeps a balance between accuracy and efficiency, while PREN2D achieves state-of-the-art performance.
翻訳日:2021-05-11 14:51:05 公開日:2021-05-10
# 正規性付与光流の双対性による映像異常検出

Video Anomaly Detection By The Duality Of Normality-Granted Optical Flow ( http://arxiv.org/abs/2105.04302v1 )

ライセンス: Link先を確認
Hongyong Wang, Xinjian Zhang, Su Yang, Weishan Zhang(参考訳) ビデオ異常検出は多様な異常事象のために難しい課題である。 本課題は, 正規データに基づく学習において, 異常を通常のパターン, すなわち, エラーの少ない異常を再現・予測できないという仮定に基づいて, 再構成と予測に基づく手法が近年, 盛んに行われていることである。 本稿では,通常のフレームを予測できるが,異常フレームに悪影響を及ぼす光学的流れの双対性により,通常のフレームと異常を識別する手法を提案する。 通常のパターンに着目した動きの知識を維持するため、通常の光フローは単一のフレームから予測される。 一方,物体の出現や相関運動に関する知識を学習するだけでなく,運動が出現間の変換であるという事実を満たすために,フレーム再構成から予測まで,出現-運動対応方式を拡張した。 また,フレーム予測の学習を促進するためにマージン損失を導入する。 標準ベンチマークデータセットの実験は、我々のアプローチの素晴らしいパフォーマンスを示しています。

Video anomaly detection is a challenging task because of diverse abnormal events. To this task, methods based on reconstruction and prediction are wildly used in recent works, which are built on the assumption that learning on normal data, anomalies cannot be reconstructed or predicated as good as normal patterns, namely the anomaly result with more errors. In this paper, we propose to discriminate anomalies from normal ones by the duality of normality-granted optical flow, which is conducive to predict normal frames but adverse to abnormal frames. The normality-granted optical flow is predicted from a single frame, to keep the motion knowledge focused on normal patterns. Meanwhile, We extend the appearance-motion correspondence scheme from frame reconstruction to prediction, which not only helps to learn the knowledge about object appearances and correlated motion, but also meets the fact that motion is the transformation between appearances. We also introduce a margin loss to enhance the learning of frame prediction. Experiments on standard benchmark datasets demonstrate the impressive performance of our approach.
翻訳日:2021-05-11 14:50:45 公開日:2021-05-10
# RelationTrack: 疎結合表現を用いた関係認識型複数物体追跡

RelationTrack: Relation-aware Multiple Object Tracking with Decoupled Representation ( http://arxiv.org/abs/2105.04322v1 )

ライセンス: Link先を確認
En Yu, Zhuoling Li, Shoudong Han and Hongwei Wang(参考訳) 既存のオンライン多重オブジェクト追跡(MOT)アルゴリズムは、しばしば2つのサブタスク、検出と再識別(ReID)から構成される。 推論速度を高め、複雑さを減らすため、現在の手法ではこれらの二重サブタスクを統一されたフレームワークに統合するのが一般的である。 それでも検出とReIDは多様な機能を必要とする。 この問題は、トレーニング手順中に最適化の矛盾をもたらす。 この矛盾を緩和する目的で、GCD(Global Context Disentangling)と呼ばれるモジュールを考案し、学習した表現を検出専用およびReID固有の埋め込みに分離する。 したがって、このモジュールは2つのサブタスクの異なる要求のバランスをとるために暗黙の方法を提供する。 さらに,従来のMOT手法では,検出対象を関連付けるためにローカル情報を利用するのが一般的であり,グローバルな意味的関係を考慮しない。 この制約を解決するために,トランスコーダの強力な推論能力と変形可能な注意を組み合わせることで,誘導トランスコーダ(gte)と呼ばれるモジュールを開発した。 以前の作業とは異なり、GTEはすべてのピクセルの分析を避け、クエリノードといくつかの自己適応的に選択されたキーサンプルの間の関係をキャプチャするためにのみ参加する。 そのため、計算効率が良い。 提案したMOTフレームワークであるRelationTrackの優位性を示すため、MOT16、MOT17、MOT20ベンチマークで大規模な実験が行われた。 実験の結果,リレーショナルトラックは先行手法を大幅に上回り,mot20ではidf1が70.5%,motaが67.2%という新たな最先端性能を確立した。

Existing online multiple object tracking (MOT) algorithms often consist of two subtasks, detection and re-identification (ReID). In order to enhance the inference speed and reduce the complexity, current methods commonly integrate these double subtasks into a unified framework. Nevertheless, detection and ReID demand diverse features. This issue would result in an optimization contradiction during the training procedure. With the target of alleviating this contradiction, we devise a module named Global Context Disentangling (GCD) that decouples the learned representation into detection-specific and ReID-specific embeddings. As such, this module provides an implicit manner to balance the different requirements of these two subtasks. Moreover, we observe that preceding MOT methods typically leverage local information to associate the detected targets and neglect to consider the global semantic relation. To resolve this restriction, we develop a module, referred to as Guided Transformer Encoder (GTE), by combining the powerful reasoning ability of Transformer encoder and deformable attention. Unlike previous works, GTE avoids analyzing all the pixels and only attends to capture the relation between query nodes and a few self-adaptively selected key samples. Therefore, it is computationally efficient. Extensive experiments have been conducted on the MOT16, MOT17 and MOT20 benchmarks to demonstrate the superiority of the proposed MOT framework, namely RelationTrack. The experimental results indicate that RelationTrack has surpassed preceding methods significantly and established a new state-of-the-art performance, e.g., IDF1 of 70.5% and MOTA of 67.2% on MOT20.
翻訳日:2021-05-11 14:50:28 公開日:2021-05-10
# 空飛ぶ光分断を用いた森林の探索・救助のための自律ドローン

An Autonomous Drone for Search and Rescue in Forests using Airborne Optical Sectioning ( http://arxiv.org/abs/2105.04328v1 )

ライセンス: Link先を確認
D.C. Schedl, I. Kurmi, and O. Bimber(参考訳) ドローンは、将来の捜索救助(SAR)ミッションにおいて、人間と機械のチームで重要な役割を果たす。 密集した森林で完全に自律的に人を見つける最初のプロトタイプを提示する。 様々な森林タイプおよび異なる飛行条件下で実施した17のフィールド実験で、42人の隠れた人のうち38人が発見され、事前定義された飛行経路の平均精度は86%で、適応経路計画(潜在的な発見が二重チェックされた)は15%の信頼度を上げた。 画像処理、分類、動的飛行経路適応は、飛行中にリアルタイムで計算される。 深層学習に基づく人格分類は, 1次元合成開口におけるスパースサンプリングやエラー・プロンサンプリングの影響を受けないことから, 飛行時間を短縮し, 記録要求を2次元合成開口を用いたサンプリングに必要な画像の10分の1に短縮できることがわかった。 適応的なパス計画の目標は、SARのような時間クリティカルなアプリケーションに不可欠な、可能な限り確実かつ迅速に人々を見つけることです。 私たちのドローンは、安定したネットワークカバレッジのない遠隔地でのsar操作を可能にします。救助チームへの送信は、検出を示す分類結果のみであり、断続的な最小限の帯域幅接続(例えば衛星による)で動作します。 受信すると、これらの結果を視覚的に拡張してリモートモバイルデバイスで解釈することができる。

Drones will play an essential role in human-machine teaming in future search and rescue (SAR) missions. We present a first prototype that finds people fully autonomously in densely occluded forests. In the course of 17 field experiments conducted over various forest types and under different flying conditions, our drone found 38 out of 42 hidden persons; average precision was 86% for predefined flight paths, while adaptive path planning (where potential findings are double-checked) increased confidence by 15%. Image processing, classification, and dynamic flight-path adaptation are computed onboard in real-time and while flying. Our finding that deep-learning-based person classification is unaffected by sparse and error-prone sampling within one-dimensional synthetic apertures allows flights to be shortened and reduces recording requirements to one-tenth of the number of images needed for sampling using two-dimensional synthetic apertures. The goal of our adaptive path planning is to find people as reliably and quickly as possible, which is essential in time-critical applications, such as SAR. Our drone enables SAR operations in remote areas without stable network coverage, as it transmits to the rescue team only classification results that indicate detections and can thus operate with intermittent minimal-bandwidth connections (e.g., by satellite). Once received, these results can be visually enhanced for interpretation on remote mobile devices.
翻訳日:2021-05-11 14:50:00 公開日:2021-05-10
# AFINet:画像分類のための注意機能統合ネットワーク

AFINet: Attentive Feature Integration Networks for Image Classification ( http://arxiv.org/abs/2105.04354v1 )

ライセンス: Link先を確認
Xinglin Pan, Jing Xu, Yu Pan, liangjian Wen, WenXiang Lin, Kun Bai, Zenglin Xu(参考訳) 畳み込みニューラルネットワーク(CNN)は、画像分類を含む多くの学習タスクで大きな成功を収めている。 ResNetsのような最近のCNNの高度なモデルは、勾配の消滅を避けるために主にスキップ接続に焦点を当てている。 DenseNetの設計は、ネットワーク設計における代替戦略として、機能を転送するための追加のバイパスを作成することを提案している。 本稿では,最新のネットワークアーキテクチャに適用可能なAFI(Attentive Feature Integration)モジュールを設計し,新しいアーキテクチャであるAFI-Netsを提案する。 AFI-ResNet-152はImageNetデータセットに対して1.24%の相対的な改善を実現し、FLOPを約10%削減し、パラメータの数をResNet-152と比較して約9.2%削減する。

Convolutional Neural Networks (CNNs) have achieved tremendous success in a number of learning tasks including image classification. Recent advanced models in CNNs, such as ResNets, mainly focus on the skip connection to avoid gradient vanishing. DenseNet designs suggest creating additional bypasses to transfer features as an alternative strategy in network design. In this paper, we design Attentive Feature Integration (AFI) modules, which are widely applicable to most recent network architectures, leading to new architectures named AFI-Nets. AFI-Nets explicitly model the correlations among different levels of features and selectively transfer features with a little overhead.AFI-ResNet- 152 obtains a 1.24% relative improvement on the ImageNet dataset while decreases the FLOPs by about 10% and the number of parameters by about 9.2% compared to ResNet-152.
翻訳日:2021-05-11 14:49:37 公開日:2021-05-10
# ノイズロバスト性を考慮した半監督型顔認識

Boosting Semi-Supervised Face Recognition with Noise Robustness ( http://arxiv.org/abs/2105.04431v1 )

ライセンス: Link先を確認
Yuchi Liu, Hailin Shi, Hang Du, Rui Zhu, Jun Wang, Liang Zheng, and Tao Mei(参考訳) 深部顔認識は大規模トレーニングデータから大きなメリットがあるが、現在のボトルネックはラベル付けコストである。 この問題に対する実現可能な解決策は半教師付き学習であり、ラベル付きデータのごく一部と大量の未ラベルデータを利用する。 しかしながら、最大の課題は、自動ラベリングによるラベルエラーの蓄積と、トレーニングの妥協である。 本稿では,自動ラベルによるラベル雑音に対して頑健な半教師付き顔認識に対する効果的な解法を提案する。 具体的には,グループネット(GN)と呼ばれるマルチエージェント手法を導入し,不正にラベル付けされたサンプルを識別し,クリーンなサンプルを保存する。 ノイズラベルがトレーニングデータの50%以上を占める場合においても,従来の教師付き顔認証において,GNだけで先行精度を達成できることを示す。 さらに,GNによって強化された堅牢な学習能力に基づいて,ノイズロバスト学習ラベル(NRoLL)と呼ばれる半教師付き顔認識ソリューションを開発した。 少量のラベル付きデータから始まり、その結果、大量のラベル付きデータに対して高信頼のラベル付けを行い、さらなるトレーニングを促進する。 データがnrollによってラベル付けされるほど、データセット内のラベルに高い信頼性が与えられる。 提案手法の競合性を評価するため,ラベル付きmscelebの5分の1しか利用できず,残りをラベル付きデータとして使用することを条件としてnrollを実行する。 幅広いベンチマークにおいて,本手法は最先端手法と好適に比較できる。

Although deep face recognition benefits significantly from large-scale training data, a current bottleneck is the labelling cost. A feasible solution to this problem is semi-supervised learning, exploiting a small portion of labelled data and large amounts of unlabelled data. The major challenge, however, is the accumulated label errors through auto-labelling, compromising the training. This paper presents an effective solution to semi-supervised face recognition that is robust to the label noise aroused by the auto-labelling. Specifically, we introduce a multi-agent method, named GroupNet (GN), to endow our solution with the ability to identify the wrongly labelled samples and preserve the clean samples. We show that GN alone achieves the leading accuracy in traditional supervised face recognition even when the noisy labels take over 50\% of the training data. Further, we develop a semi-supervised face recognition solution, named Noise Robust Learning-Labelling (NRoLL), which is based on the robust training ability empowered by GN. It starts with a small amount of labelled data and consequently conducts high-confidence labelling on a large amount of unlabelled data to boost further training. The more data is labelled by NRoLL, the higher confidence is with the label in the dataset. To evaluate the competitiveness of our method, we run NRoLL with a rough condition that only one-fifth of the labelled MSCeleb is available and the rest is used as unlabelled data. On a wide range of benchmarks, our method compares favorably against the state-of-the-art methods.
翻訳日:2021-05-11 14:49:24 公開日:2021-05-10
# ICON: 逆一貫性による正規マップ学習

ICON: Learning Regular Maps Through Inverse Consistency ( http://arxiv.org/abs/2105.04459v1 )

ライセンス: Link先を確認
Hastings Greer, Roland Kwitt, Francois-Xavier Vialard, Marc Niethammer(参考訳) データサンプル間のマップの学習は基本です。 応用は、表現学習、画像翻訳、生成モデリングから空間的変形の推定まで様々である。 このような写像は特徴ベクトル、あるいは特徴空間間の写像を関連付ける。 適切に処理されたマップは正規であり、明示的に課せられるか、データ自身から発散する可能性がある。 画像登録の計算など空間変換の正則性をもたらすものについて検討する。 古典的な最適化に基づくモデルは、サンプルペア間のマップを計算し、適切な正規化子に依存する。 近年の深層学習のアプローチは、サンプル人口に依存して、そのような正規化器を全く使わないよう試みられている。 逆整合損失のみを用いて空間正則性を得ることができ、そのような文脈でマップ正則性を説明するものを解明できるかを検討する。 ディープネットワークと逆一貫性損失とランダムなオフグリッド補間が組み合わさって、概2相の空間変換がうまく振る舞うことが判明した。 このアプローチの単純さにもかかわらず、我々の実験は、合成データと実データの両方において、明示的な正規化器と競合登録性能を慎重に調整せずに正則写像を得ることができることを示す。

Learning maps between data samples is fundamental. Applications range from representation learning, image translation and generative modeling, to the estimation of spatial deformations. Such maps relate feature vectors, or map between feature spaces. Well-behaved maps should be regular, which can be imposed explicitly or may emanate from the data itself. We explore what induces regularity for spatial transformations, e.g., when computing image registrations. Classical optimization-based models compute maps between pairs of samples and rely on an appropriate regularizer for well-posedness. Recent deep learning approaches have attempted to avoid using such regularizers altogether by relying on the sample population instead. We explore if it is possible to obtain spatial regularity using an inverse consistency loss only and elucidate what explains map regularity in such a context. We find that deep networks combined with an inverse consistency loss and randomized off-grid interpolation yield well behaved, approximately diffeomorphic, spatial transformations. Despite the simplicity of this approach, our experiments present compelling evidence, on both synthetic and real data, that regular maps can be obtained without carefully tuned explicit regularizers and competitive registration performance.
翻訳日:2021-05-11 14:48:58 公開日:2021-05-10
# cINNを用いた確率的画像合成

Stochastic Image-to-Video Synthesis using cINNs ( http://arxiv.org/abs/2105.04551v1 )

ライセンス: Link先を確認
Michael Dorkenwald, Timo Milbich, Andreas Blattmann, Robin Rombach, Konstantinos G. Derpanis, Bj\"orn Ommer(参考訳) 映像理解は、静的シーンコンテンツとそのダイナミクスの間の特徴的相互作用を学習するためのモデルを要求する: 画像が与えられたとき、モデルは、描写されたシーンの将来の進行を予測できなければならない。 これは当然、ビデオ領域と静的コンテンツ、および残余情報の間の単射的マッピングを示唆する。 一般的な確率的画像合成とは対照的に、そのようなモデルは初期画像の進行する任意のビデオを生成するだけではない。 この画像を考えると、サンプリング時に確率的な結果を伴う残留ベクトルとビデオの間の1対1のマッピングを提供する。 この手法は条件付き可逆ニューラルネットワーク(cINN)を用いて自然に実装され、静的および他のビデオ特性を独立にモデル化することにより、制御されたビデオ合成の基礎となる。 4つの多様なビデオデータセットに関する実験は、合成結果の品質と多様性の両方の観点から、このアプローチの有効性を示している。 私たちのプロジェクトページはhttps://bit.ly/3t66b nuで閲覧できます。

Video understanding calls for a model to learn the characteristic interplay between static scene content and its dynamics: Given an image, the model must be able to predict a future progression of the portrayed scene and, conversely, a video should be explained in terms of its static image content and all the remaining characteristics not present in the initial frame. This naturally suggests a bijective mapping between the video domain and the static content as well as residual information. In contrast to common stochastic image-to-video synthesis, such a model does not merely generate arbitrary videos progressing the initial image. Given this image, it rather provides a one-to-one mapping between the residual vectors and the video with stochastic outcomes when sampling. The approach is naturally implemented using a conditional invertible neural network (cINN) that can explain videos by independently modelling static and other video characteristics, thus laying the basis for controlled video synthesis. Experiments on four diverse video datasets demonstrate the effectiveness of our approach in terms of both the quality and diversity of the synthesized results. Our project page is available at https://bit.ly/3t66b nU.
翻訳日:2021-05-11 14:48:39 公開日:2021-05-10
# BIMハイパーリアリティ:深層学習のためのBIMと超現実的レンダリングを用いたデータ合成

BIM Hyperreality: Data Synthesis Using BIM and Hyperrealistic Rendering for Deep Learning ( http://arxiv.org/abs/2105.04103v1 )

ライセンス: Link先を確認
Mohammad Alawadhi and Wei Yan(参考訳) ディープラーニングは新しい機会とアーキテクチャ分野の新しいパラダイムを提供すると期待されている。 そのような機会の1つは、構築された環境からアーキテクチャ要素を視覚的に理解するようにニューラルネットワークに教えることです。 しかしながら、大規模なトレーニングデータセットの可用性は、ニューラルネットワークの最大の制限のひとつだ。 また、視覚認識タスクのトレーニングデータの大部分は、人間によってアノテートされている。 このボトルネックを解決するために、構築情報モデリング(BIM)と超現実的(フォトリアリスティック)レンダリングの両方を用いて、画像内の物体認識を構築するためにニューラルネットワークをトレーニングするためのデータセットを合成するハイブリッドシステムの概念を提案する。 トレーニングデータセットBIMrAIを生成するために、既存のBIMモデルと、同じ建物のフォトリアリスティックなレンダリングモデルを使用した。 そこで我々は,レンダリングを用いてディープラーニングモデルを訓練し,これらの手法を用いてGANモデルを訓練し,実世界の写真で出力モデルを検証した。 本稿では,合成データを用いてトレーニングしたニューラルネットワーク,すなわちフォトリアリスティックレンダリングとBIMに基づくセマンティックラベルを用いて,写真から構築したオブジェクトをトレーニングデータに使用せずに識別できることを示す。 今後の作業は、利用可能なBIMモデルとレンダリングを使用して、写真構築環境のより一般化されたマッピングと記述を可能にする。

Deep learning is expected to offer new opportunities and a new paradigm for the field of architecture. One such opportunity is teaching neural networks to visually understand architectural elements from the built environment. However, the availability of large training datasets is one of the biggest limitations of neural networks. Also, the vast majority of training data for visual recognition tasks is annotated by humans. In order to resolve this bottleneck, we present a concept of a hybrid system using both building information modeling (BIM) and hyperrealistic (photorealistic) rendering to synthesize datasets for training a neural network for building object recognition in photos. For generating our training dataset BIMrAI, we used an existing BIM model and a corresponding photo-realistically rendered model of the same building. We created methods for using renderings to train a deep learning model, trained a generative adversarial network (GAN) model using these methods, and tested the output model on real-world photos. For the specific case study presented in this paper, our results show that a neural network trained with synthetic data; i.e., photorealistic renderings and BIM-based semantic labels, can be used to identify building objects from photos without using photos in the training data. Future work can enhance the presented methods using available BIM models and renderings for more generalized mapping and description of photographed built environments.
翻訳日:2021-05-11 14:45:04 公開日:2021-05-10
# 実データから合成データへの遷移:モデルのバイアスの定量化

Transitioning from Real to Synthetic data: Quantifying the bias in model ( http://arxiv.org/abs/2105.04144v1 )

ライセンス: Link先を確認
Aman Gupta, Deepak Bhatt and Anubha Pandey(参考訳) 生成的モデリング技術の出現とともに、合成データとその使用は、画像、テキストから構造化データセットモデリング医療結果、金融ドメインにおけるリスク決定など、さまざまな領域に浸透してきた。 トレーニングデータ制限、クラス不均衡、プライバシー問題によるデータセットへのアクセス制限など、さまざまな課題を克服する。 自動意思決定の目的で使用されるトレーニングされたモデルを確実にするために、これらの問題を定量化し緩和するための事前作業が存在する。 本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。 差分プライベートな生成手法を含むバイアス増幅を理解するために, 合成データ生成技術の多様性を検討した。 表付きデータセットの実験を通して、合成データを用いて訓練されたモデルに様々なレベルのバイアスの影響があることを実証する。 相関性の低い特徴を生成する手法は,dpdの94\%,82\%,88\%,eod(e quality of odds),eop(equality of opportunity),drp(dem ographic parity ratio)の相対的低下率,実データセットに対する24\%の相対的改善,といった公平度指標によっても明らかである。 我々の研究結果は、データサイエンスの実践者が合成データの使用のバイアスを理解するのに役立つと信じています。

With the advent of generative modeling techniques, synthetic data and its use has penetrated across various domains from unstructured data such as image, text to structured dataset modeling healthcare outcome, risk decisioning in financial domain, and many more. It overcomes various challenges such as limited training data, class imbalance, restricted access to dataset owing to privacy issues. To ensure the trained model used for automated decisioning purposes makes a fair decision there exist prior work to quantify and mitigate those issues. This study aims to establish a trade-off between bias and fairness in the models trained using synthetic data. Variants of synthetic data generation techniques were studied to understand bias amplification including differentially private generation schemes. Through experiments on a tabular dataset, we demonstrate there exist a varying levels of bias impact on models trained using synthetic data. Techniques generating less correlated feature performs well as evident through fairness metrics with 94\%, 82\%, and 88\% relative drop in DPD (demographic parity difference), EoD (equality of odds) and EoP (equality of opportunity) respectively, and 24\% relative improvement in DRP (demographic parity ratio) with respect to the real dataset. We believe the outcome of our research study will help data science practitioners understand the bias in the use of synthetic data.
翻訳日:2021-05-11 14:44:43 公開日:2021-05-10
# クラスタモデル更新による連合学習における通信トラフィックの削減

Slashing Communication Traffic in Federated Learning by Transmitting Clustered Model Updates ( http://arxiv.org/abs/2105.04153v1 )

ライセンス: Link先を確認
Laizhong Cui and Xiaoxin Su and Yipeng Zhou and Yi Pan(参考訳) Federated Learning(FL)は、複数のクライアントが協調して学習モデルをトレーニングできる、新たな分散型学習フレームワークである。 しかしながら、flの広範な展開を妨げる大きな障害は、大規模な通信トラフィックにある。 高次元機械学習モデル(cnnモデルなど)をトレーニングするには、クライアントとパラメータサーバ(ps)間のインターネットを介してモデル更新を交換することで、ネットワークリソースが容易に使い果たせることを示すことによって、大量の通信トラフィックを発生させることができる。 モデル更新の圧縮は、トラフィック量を減らす効果的な方法である。 しかし、flにおけるアップリンクとダウンリンクの両方に適用可能な柔軟な偏りのない圧縮アルゴリズムは、まだ既存の作業に欠けている。 本研究では,ソフトウェアクラスタリング(MUCSC)によるモデル更新圧縮を考案し,クライアントとPS間で送信されるモデル更新を圧縮する。 MUCSCでは、各モデル更新のクラスタセントロイドとクラスタIDを送信するだけでよい。 さらに,(1)圧縮モデル更新は,圧縮モデル更新による収束率が変化しないように,原値の偏りのない推定であり,2)mucscは,圧縮誤差の影響がモデル精度に与える影響を最小化できることを示す。 さらに,超クラスタに非有意なモデル更新をグループ化することで,非常に高い圧縮率を達成可能なバイアス圧縮アルゴリズムであるboosted mucsc (b-mucsc) アルゴリズムを提案する。 B-MUCSCはネットワークリソースの少ないシナリオに適している。 最終的に、我々はCIFAR-10とFEMNISTデータセットを用いて広範な実験を行い、我々のアルゴリズムがFLにおける通信トラフィックを大幅に削減できるだけでなく、実用的なネットワークにおけるトレーニング効率を向上させることができることを示した。

Federated Learning (FL) is an emerging decentralized learning framework through which multiple clients can collaboratively train a learning model. However, a major obstacle that impedes the wide deployment of FL lies in massive communication traffic. To train high dimensional machine learning models (such as CNN models), heavy communication traffic can be incurred by exchanging model updates via the Internet between clients and the parameter server (PS), implying that the network resource can be easily exhausted. Compressing model updates is an effective way to reduce the traffic amount. However, a flexible unbiased compression algorithm applicable for both uplink and downlink compression in FL is still absent from existing works. In this work, we devise the Model Update Compression by Soft Clustering (MUCSC) algorithm to compress model updates transmitted between clients and the PS. In MUCSC, it is only necessary to transmit cluster centroids and the cluster ID of each model update. Moreover, we prove that: 1) The compressed model updates are unbiased estimation of their original values so that the convergence rate by transmitting compressed model updates is unchanged; 2) MUCSC can guarantee that the influence of the compression error on the model accuracy is minimized. Then, we further propose the boosted MUCSC (B-MUCSC) algorithm, a biased compression algorithm that can achieve an extremely high compression rate by grouping insignificant model updates into a super cluster. B-MUCSC is suitable for scenarios with very scarce network resource. Ultimately, we conduct extensive experiments with the CIFAR-10 and FEMNIST datasets to demonstrate that our algorithms can not only substantially reduce the volume of communication traffic in FL, but also improve the training efficiency in practical networks.
翻訳日:2021-05-11 14:44:15 公開日:2021-05-10
# 圧縮ニューラルネットワークにおけるテンソルランクの弾性の爆発

Exploiting Elasticity in Tensor Ranks for Compressing Neural Networks ( http://arxiv.org/abs/2105.04218v1 )

ライセンス: Link先を確認
Jie Ran, Rui Lin, Hayden K.H. So, Graziano Chesi, Ngai Wong(参考訳) ディープニューラルネットワーク(DNN)の圧縮において、深さ、幅、カーネルサイズ、解像度の弾力性を検討した。 畳み込みニューラルネットワーク(CNN)のカーネルが4方向テンソルであることを認識し、入力出力チャネルに沿った新しい弾性次元を更に活用する。 特に,新しい核ノルム階数最小化因子分解 (nrmf) 法を提案し,訓練中のテンソル階数の減少を動的かつグローバルに探索する。 複数の層にわたるテンソルランクの相関関係を明らかにし、モデルサイズと精度の優雅なトレードオフを求める。 実験により、従来の非弾性変動ベイズ行列分解法(VBMF)よりもNRMFの方が優れていることが示された。

Elasticities in depth, width, kernel size and resolution have been explored in compressing deep neural networks (DNNs). Recognizing that the kernels in a convolutional neural network (CNN) are 4-way tensors, we further exploit a new elasticity dimension along the input-output channels. Specifically, a novel nuclear-norm rank minimization factorization (NRMF) approach is proposed to dynamically and globally search for the reduced tensor ranks during training. Correlation between tensor ranks across multiple layers is revealed, and a graceful tradeoff between model size and accuracy is obtained. Experiments then show the superiority of NRMF over the previous non-elastic variational Bayesian matrix factorization (VBMF) scheme.
翻訳日:2021-05-11 14:43:46 公開日:2021-05-10
# MTNet:低コスト空気モニタリングセンサのオンフィールド校正のためのマルチタスクニューラルネットワーク

MTNet: A Multi-Task Neural Network for On-Field Calibration of Low-Cost Air Monitoring Sensors ( http://arxiv.org/abs/2105.04425v1 )

ライセンス: Link先を確認
Haomin Yu and Yangli-ao Geng and Yingjun Zhang and Qingyong Li and Jiayu Zhou(参考訳) センサ技術の進歩により、人々は広く分散した低コストセンサーを通して空気の質をモニターできる。 しかし、これらのセンサーからの計測は通常、高いバイアスに遭遇し、ダウンストリーム分析タスクで許容できる性能に達するためにキャリブレーションステップを必要とする。 既存のキャリブレーション手法のほとんどは、単一タスクキャリブレーションと呼ばれる、一度に1種類のセンサーをキャリブレーションする。 このシングルタスクスキーマの人気にもかかわらず、キャリブレーション性能を促進する基礎となる情報を含む、異なるセンサーのキャリブレーションタスク間の相互作用を無視する可能性がある。 本稿では,複数のセンサ(一酸化炭素,酸化窒素センサなど)を同時に校正し,タスク間のインタラクションをモデル化するマルチタスクキャリブレーションネットワーク(mtnet)を提案する。 MTNetは単一の共有モジュールといくつかのタスク固有のモジュールで構成されている。 具体的には、共有モジュールにおいて、タスク間のコンフリクトと相関を調和させるために、マルチゲート・オブ・エキスパート構造を拡張し、各タスク固有のモジュールにおいて、特定のタスクに対する入力をカスタマイズするための特徴選択戦略を導入する。 これらの改善により、MTNetは異なるタスク間で共有されるインタラクション情報や、各キャリブレーションタスクのタスク固有の情報も学習できる。 MTNetを実世界の3つのデータセットで評価し,既存のベースラインと比較した。 実験の結果,MTNetは最先端の性能を実現することがわかった。

The advances of sensor technology enable people to monitor air quality through widely distributed low-cost sensors. However, measurements from these sensors usually encounter high biases and require a calibration step to reach an acceptable performance in down-streaming analytical tasks. Most existing calibration methods calibrate one type of sensor at a time, which we call single-task calibration. Despite the popularity of this single-task schema, it may neglect interactions among calibration tasks of different sensors, which encompass underlying information to promote calibration performance. In this paper, we propose a multi-task calibration network (MTNet) to calibrate multiple sensors (e.g., carbon monoxide and nitrogen oxide sensors) simultaneously, modeling the interactions among tasks. MTNet consists of a single shared module, and several task-specific modules. Specifically, in the shared module, we extend the multi-gate mixture-of-experts structure to harmonize the task conflicts and correlations among different tasks; in each task-specific module, we introduce a feature selection strategy to customize the input for the specific task. These improvements allow MTNet to learn interaction information shared across different tasks, and task-specific information for each calibration task as well. We evaluate MTNet on three real-world datasets and compare it with several established baselines. The experimental results demonstrate that MTNet achieves the state-of-the-art performance.
翻訳日:2021-05-11 14:43:36 公開日:2021-05-10
# ビットレベル情報保存による連続学習

Continual Learning via Bit-Level Information Preserving ( http://arxiv.org/abs/2105.04444v1 )

ライセンス: Link先を確認
Yujun Shi, Li Yuan, Yunpeng Chen, Jiashi Feng(参考訳) 連続学習は、異なるタスクを順次学習する設定に取り組む。 以前のソリューションは数多くありましたが、ほとんどの場合、忘れたり、高価なメモリコストに悩まされています。 本研究は,これらの課題を対象とし,まず,情報理論のレンズを通して連続学習過程を考察し,新しいタスクを学習する際のパラメーターに対する\emph{information gain} の損失がモデルを忘れることに起因することを観察する。 そこで本研究では,パラメータをビットレベルで更新することで,モデルパラメータに対する情報ゲインを保存し,パラメータの量子化を便利に実装する,ビットレベル情報保存(BLIP)と呼ばれる新しい連続学習手法を提案する。 より具体的には、blipはまず、新しい入力タスクの重み量子化を伴うニューラルネットワークをトレーニングし、タスクデータが提供する各パラメータの情報ゲインを推定して、凍結すべきビットを判断して忘れないようにする。 我々は,分類タスクから強化学習タスクまで幅広い実験を行い,本手法が従来の最先端技術と比較して,より良い結果が得られることを示す。 実際、BLIPは、連続的な学習を通して一定のメモリオーバーヘッドしか必要とせず、ほとんど忘れることができない。

Continual learning tackles the setting of learning different tasks sequentially. Despite the lots of previous solutions, most of them still suffer significant forgetting or expensive memory cost. In this work, targeted at these problems, we first study the continual learning process through the lens of information theory and observe that forgetting of a model stems from the loss of \emph{information gain} on its parameters from the previous tasks when learning a new task. From this viewpoint, we then propose a novel continual learning approach called Bit-Level Information Preserving (BLIP) that preserves the information gain on model parameters through updating the parameters at the bit level, which can be conveniently implemented with parameter quantization. More specifically, BLIP first trains a neural network with weight quantization on the new incoming task and then estimates information gain on each parameter provided by the task data to determine the bits to be frozen to prevent forgetting. We conduct extensive experiments ranging from classification tasks to reinforcement learning tasks, and the results show that our method produces better or on par results comparing to previous state-of-the-arts. Indeed, BLIP achieves close to zero forgetting while only requiring constant memory overheads throughout continual learning.
翻訳日:2021-05-11 14:43:13 公開日:2021-05-10
# チャネルプルーニングを用いた大規模リアルタイムGNN推論の高速化

Accelerating Large Scale Real-Time GNN Inference using Channel Pruning ( http://arxiv.org/abs/2105.04528v1 )

ライセンス: Link先を確認
Hongkuan Zhou and Ajitesh Srivastava and Hanqing Zeng and Rajgopal Kannan and Viktor Prasanna(参考訳) グラフニューラルネットワーク(GNN)は、下流アプリケーションにノード埋め込みを生成する強力なモデルであることが証明されている。 しかし,GNN推論の計算複雑性が高いため,大規模アプリケーションやリアルタイムアプリケーションにGNNをデプロイすることは困難である。 本稿では,各層内の次元を精度損失なく刈り取ることで,gnn推定を高速化することを提案する。 我々のプルーニングフレームワークは、GNNのための新しいLASSO回帰定式化を使用して、出力アクティベーションに大きな影響を及ぼす特徴次元(チャネル)を識別する。 計算量とメモリ使用量に基づいて,2つの推論シナリオと設計プルーニングスキームを同定する。 推論の複雑さをさらに軽減するため、訪問ノードの隠れた特徴を効果的に保存・再利用し、ターゲット埋め込みを計算するのに必要なサポートノードの数を大幅に削減する。 提案手法を,5つの人気データセットとリアルタイムスパム検出アプリケーションを用いてノード分類問題を用いて評価する。 本稿では,pruned gnnモデルが計算量とメモリ使用量を大幅に削減し,精度を低下させることを示す。 提案手法は,GPU上でのF1-Microの0.002ドロップで平均3.27倍の高速化を実現する。 バッチ推論では、CPU上のF1-Microの0.003ドロップで平均6.67倍の高速化を実現する。 我々の知る限り、我々はチャネルプルーニングによる大規模リアルタイムGNN推論を初めて加速した。

Graph Neural Networks (GNNs) are proven to be powerful models to generate node embedding for downstream applications. However, due to the high computation complexity of GNN inference, it is hard to deploy GNNs for large-scale or real-time applications. In this paper, we propose to accelerate GNN inference by pruning the dimensions in each layer with negligible accuracy loss. Our pruning framework uses a novel LASSO regression formulation for GNNs to identify feature dimensions (channels) that have high influence on the output activation. We identify two inference scenarios and design pruning schemes based on their computation and memory usage for each. To further reduce the inference complexity, we effectively store and reuse hidden features of visited nodes, which significantly reduces the number of supporting nodes needed to compute the target embedding. We evaluate the proposed method with the node classification problem on five popular datasets and a real-time spam detection application. We demonstrate that the pruned GNN models greatly reduce computation and memory usage with little accuracy loss. For full inference, the proposed method achieves an average of 3.27x speedup with only 0.002 drop in F1-Micro on GPU. For batched inference, the proposed method achieves an average of 6.67x speedup with only 0.003 drop in F1-Micro on CPU. To the best of our knowledge, we are the first to accelerate large scale real-time GNN inference through channel pruning.
翻訳日:2021-05-11 14:42:52 公開日:2021-05-10
# ニューラルグラフマッチングに基づく協調フィルタリング

Neural Graph Matching based Collaborative Filtering ( http://arxiv.org/abs/2105.04067v1 )

ライセンス: Link先を確認
Yixin Su and Rui Zhang and Sarah Erfani and Junhao Gan(参考訳) ユーザとアイテムの属性は必須の情報であり、その相互作用(サンプルデータにおける共起)は様々な推奨システムにおいて予測精度を大幅に向上させる。 内的相互作用はユーザー属性のみ、またはアイテム属性のみの相互作用であり、内的相互作用はユーザー属性とアイテム属性の間の相互作用である。 既存のモデルはこれらの2種類の属性相互作用を区別しないが、これは相互作用によってもたらされる情報を利用する最も効果的な方法ではないかもしれない。 この欠点に対処するために,我々は,グラフマッチング構造における属性インタラクションのモデル化と集約を通じて,属性インタラクションの2つのタイプを効果的にキャプチャする,ニューラルネットワークを用いた協調フィルタリングモデル(gmcf)を提案する。 本モデルでは,特徴学習と嗜好マッチングという2つの重要な推奨手順を,グラフ学習(内的相互作用に基づく)とノードマッチング(相互相互作用に基づく)によって明確に行う。 実験の結果,本モデルは最先端モデルよりも優れていた。 さらなる研究により、gmcfの推奨精度向上効果が検証された。

User and item attributes are essential side-information; their interactions (i.e., their co-occurrence in the sample data) can significantly enhance prediction accuracy in various recommender systems. We identify two different types of attribute interactions, inner interactions and cross interactions: inner interactions are those between only user attributes or those between only item attributes; cross interactions are those between user attributes and item attributes. Existing models do not distinguish these two types of attribute interactions, which may not be the most effective way to exploit the information carried by the interactions. To address this drawback, we propose a neural Graph Matching based Collaborative Filtering model (GMCF), which effectively captures the two types of attribute interactions through modeling and aggregating attribute interactions in a graph matching structure for recommendation. In our model, the two essential recommendation procedures, characteristic learning and preference matching, are explicitly conducted through graph learning (based on inner interactions) and node matching (based on cross interactions), respectively. Experimental results show that our model outperforms state-of-the-art models. Further studies verify the effectiveness of GMCF in improving the accuracy of recommendation.
翻訳日:2021-05-11 14:41:39 公開日:2021-05-10
# 知識グラフ埋め込みを用いた一発タスク実行のロバスト化

Towards Robust One-shot Task Execution using Knowledge Graph Embeddings ( http://arxiv.org/abs/2105.04484v1 )

ライセンス: Link先を確認
Angel Daruna, Lakshmi Nair, Weiyu Liu, Sonia Chernova(参考訳) タスクプランの複数のデモを必要とすることは、ロボットのエンドユーザに負担をもたらす。 しかし、単一のエンドユーザーによるデモからタスク計画をしっかりと実行することは、ロボティクスにおける継続的な課題である。 ロボットがタスク計画の1つのデモンストレーションやプロトタイプの例を新しい実行環境に一般化しなければならない、ワンショットタスク実行の問題に対処する。 提案手法はタスク計画とドメイン知識を統合し,新しい実行環境のためのタスク計画構成を推論する。 実験評価の結果,我々の知識表現は,テストベースラインよりも有意に高い成功率をもたらす,より関連性の高い一般化を行っていることがわかった。 このアプローチを物理的プラットフォーム上で検証し,自律ロボット操作によるエラーを含む50の実行環境のうち38に初期タスクプランを一般化することに成功した。

Requiring multiple demonstrations of a task plan presents a burden to end-users of robots. However, robustly executing tasks plans from a single end-user demonstration is an ongoing challenge in robotics. We address the problem of one-shot task execution, in which a robot must generalize a single demonstration or prototypical example of a task plan to a new execution environment. Our approach integrates task plans with domain knowledge to infer task plan constituents for new execution environments. Our experimental evaluations show that our knowledge representation makes more relevant generalizations that result in significantly higher success rates over tested baselines. We validated the approach on a physical platform, which resulted in the successful generalization of initial task plans to 38 of 50 execution environments with errors resulting from autonomous robot operation included.
翻訳日:2021-05-11 14:40:58 公開日:2021-05-10
# 時系列関数予測のための投影法について

On projection methods for functional time series forecasting ( http://arxiv.org/abs/2105.04399v1 )

ライセンス: Link先を確認
Antonio El\'ias (1) and Ra\'ul Jim\'enez (2) and Hanlin Shang (3) ((1) OASYS group, Department of Applied Mathematics, Universidad de M\'alaga, M\'alaga, Spain, (2) Department of Statistics, Universidad Carlos III de Madrid, Madrid, Spain, (3) Department of Actuarial Studies and Business Analytics, Macquarie University, Sydney, Australia)(参考訳) 関数時系列(FTS)を予測するための2つの非パラメトリックな方法を示す。 私たちが観測するFTSは離散時間点における曲線である。 一段階予測と動的更新の両方に対処する。 動的更新は、最新の曲線の観測されていないセグメントの前方予測である。 2つの提案手法のうち1つは、単変量時系列予測のための$k$-nearest neighbors法のFTSへの直接適応である。 第二の曲線は「emph{the curve envelope}」と呼ばれる曲線の選び方に基づいており、これは直近の関数的観測の形状と大きさを表すことを目的としており、曲線全体または部分的に観察された曲線の観察部分である。 時系列予測に有効な$k$-nearestの隣人や他のプロジェクションメソッドと同様の方法で、$k$-nearestの隣人や予測のためのエンベロープ内の曲線を ``project'' にする。 そうすることで、曲線の次の周期的な進化を追跡するのです。 これらの手法は、シミュレーションデータ、日々の電力需要、NOx排出に応用され、いくつかのベンチマーク予測よりも優れた競合結果を提供する。 このアプローチは、多くのftsの周期的または季節的挙動を研究するために、ftsモデリングに基づく統計手法のモデルフリーな代替を提供する。

Two nonparametric methods are presented for forecasting functional time series (FTS). The FTS we observe is a curve at a discrete-time point. We address both one-step-ahead forecasting and dynamic updating. Dynamic updating is a forward prediction of the unobserved segment of the most recent curve. Among the two proposed methods, the first one is a straightforward adaptation to FTS of the $k$-nearest neighbors methods for univariate time series forecasting. The second one is based on a selection of curves, termed \emph{the curve envelope}, that aims to be representative in shape and magnitude of the most recent functional observation, either a whole curve or the observed part of a partially observed curve. In a similar fashion to $k$-nearest neighbors and other projection methods successfully used for time series forecasting, we ``project'' the $k$-nearest neighbors and the curves in the envelope for forecasting. In doing so, we keep track of the next period evolution of the curves. The methods are applied to simulated data, daily electricity demand, and NOx emissions and provide competitive results with and often superior to several benchmark predictions. The approach offers a model-free alternative to statistical methods based on FTS modeling to study the cyclic or seasonal behavior of many FTS.
翻訳日:2021-05-11 14:39:47 公開日:2021-05-10
# ロボット工学における神経科学による知覚--状態推定、制御、自己知覚に能動的推論を適用する

Neuroscience-inspire d perception-action in robotics: applying active inference for state estimation, control and self-perception ( http://arxiv.org/abs/2105.04261v1 )

ライセンス: Link先を確認
Pablo Lanillos, Marcel van Gerven(参考訳) ロボットとは異なり、人間は世界と対話することで体を学び、適応し、知覚する。 脳が身体をどのように表現し、行動を生み出すかを発見することは、ロボティクスと人工知能にとって重要なことです。 本稿では、神経科学がロボット工学における現在の推定と制御アルゴリズムを改善する機会をどのように開けるかについて議論する。 特に、脳が障害の自然な傾向にどのように抵抗するかを数学的に定式化した能動的推論は、適応性、ロバスト性、柔軟性、一般化、安全な相互作用といったロボティクスの主要な課題を潜在的に解決するための統一的なレシピを提供する。 本稿では, ヒューマノイドロボットや産業用ロボットなど, 実具体プラットフォーム上での計算モデル開発から得られた実験と教訓を要約する。 最後に、ロボットに人間のような知覚を与えるための限界と課題を紹介します。

Unlike robots, humans learn, adapt and perceive their bodies by interacting with the world. Discovering how the brain represents the body and generates actions is of major importance for robotics and artificial intelligence. Here we discuss how neuroscience findings open up opportunities to improve current estimation and control algorithms in robotics. In particular, how active inference, a mathematical formulation of how the brain resists a natural tendency to disorder, provides a unified recipe to potentially solve some of the major challenges in robotics, such as adaptation, robustness, flexibility, generalization and safe interaction. This paper summarizes some experiments and lessons learned from developing such a computational model on real embodied platforms, i.e., humanoid and industrial robots. Finally, we showcase the limitations and challenges that we are still facing to give robots human-like perception
翻訳日:2021-05-11 14:39:29 公開日:2021-05-10
# ルールブックを用いた意図運転行動の安全性

Safety of the Intended Driving Behavior Using Rulebooks ( http://arxiv.org/abs/2105.04472v1 )

ライセンス: Link先を確認
Anne Collin, Artur Bilka, Scott Pendleton, Radboud Duintjer Tebbens(参考訳) 自律走行車 (AVs) は、不確実な環境で運転し、予期せぬ状況をナビゲートする複雑なシステムである。 これらのシステムの安全性は、誤動作の欠如だけでなく、多くの異なるシナリオにおいて高い性能の関数を必要とする。 ISO/PAS 21448 [1] のガイダンスでは、道路車両の意図的機能(SOTIF)の安全性を保証するプロセスが推奨されている。 このプロセスは、意図した機能を完全に記述した機能仕様から始まり、さらにAVがこの仕様を満たす検証と検証を含む。 経路計画関数では、全ての潜在的な運転状況において各車両の制御動作の正しい順序を定義することは困難である。 本稿では、[2]によって提示されるルールブックフレームワークとSOTIFプロセスの関連性について述べる。 本稿では,ルールブックがAV内の経路計画タスクの機能的記述を提供し,検証と検証のための手法の可能性について論じる。

Autonomous Vehicles (AVs) are complex systems that drive in uncertain environments and potentially navigate unforeseeable situations. Safety of these systems requires not only an absence of malfunctions but also high performance of functions in many different scenarios. The ISO/PAS 21448 [1] guidance recommends a process to ensure the Safety of the Intended Functionality (SOTIF) for road vehicles. This process starts with a functional specification that fully describes the intended functionality and further includes the verification and validation that the AV meets this specification. For the path planning function, defining the correct sequence of control actions for each vehicle in all potential driving situations is intractable. In this paper, the authors provide a link between the Rulebooks framework, presented by [2], and the SOTIF process. We establish that Rulebooks provide a functional description of the path planning task in an AV and discuss the potential usage of the method for verification and validation.
翻訳日:2021-05-11 14:39:13 公開日:2021-05-10
# CFPNet-M:マルチモーダルバイオメディカル画像リアルタイム分割のための軽量エンコーダデコーダネットワーク

CFPNet-M: A Light-Weight Encoder-Decoder Based Network for Multimodal Biomedical Image Real-Time Segmentation ( http://arxiv.org/abs/2105.04075v1 )

ライセンス: Link先を確認
Ange Lou, Shuyue Guan and Murray Loew(参考訳) 現在、深層学習技術の発展は、医療画像のパターンを識別、分類、定量化するための道具を提供している。 セグメンテーションは医療画像解析における重要な応用の1つである。 この点において、U-Netは医用画像分割タスクにおける主要なアプローチである。 しかし、これらのU-Netベースのモデルにはいくつかの面で制限があることが判明した。例えば、U-Net内の数百万のパラメータが相当な計算資源とメモリを消費し、グローバルな情報が不足し、厳しいオブジェクトが不足している。 そこで我々は,U-Netモデルを改善するために2つの改良を加え,1)拡張チャネルワイドCNNモジュールを設計・追加し,2)U字形ネットワークを単純化した。 これら2つの変更に基づき、チャネルワイド・フィーチャーピラミッド・ネットワーク・フォー・メディカル(CFPNet-M)という新しい軽量アーキテクチャを提案する。 この方法を評価するために, 温度, 電子顕微鏡, 内視鏡, 皮膚内視鏡, およびデジタル網膜画像の5種類のデータを選択した。 そして、その性能を異なるパラメータスケールを持つ複数のモデルと比較した。 本論文では,dc-unet と光重み付きニューラルネットワークの先行研究についても述べる。 灰色レベル画像計測にjaccardインデックスの代わりに谷本類似性を適用した。 CFPNet-Mは、U-Netの約2%と8.8MBのメモリを持つわずか0.65万のパラメータを持つ5つの医療データセットに対して、同等のセグメンテーション結果を達成する。 一方、推論速度は、256×192ピクセルの入力サイズを持つ単一のRTX 2070Ti GPU上で80FPSに達する。

Currently, developments of deep learning techniques are providing instrumental to identify, classify, and quantify patterns in medical images. Segmentation is one of the important applications in medical image analysis. In this regard, U-Net is the predominant approach to medical image segmentation tasks. However, we found that those U-Net based models have limitations in several aspects, for example, millions of parameters in the U-Net consuming considerable computation resource and memory, lack of global information, and missing some tough objects. Therefore, we applied two modifications to improve the U-Net model: 1) designed and added the dilated channel-wise CNN module, 2) simplified the U shape network. Based on these two modifications, we proposed a novel light-weight architecture -- Channel-wise Feature Pyramid Network for Medicine (CFPNet-M). To evaluate our method, we selected five datasets with different modalities: thermography, electron microscopy, endoscopy, dermoscopy, and digital retinal images. And we compared its performance with several models having different parameter scales. This paper also involves our previous studies of DC-UNet and some commonly used light-weight neural networks. We applied the Tanimoto similarity instead of the Jaccard index for gray-level image measurements. By comparison, CFPNet-M achieves comparable segmentation results on all five medical datasets with only 0.65 million parameters, which is about 2% of U-Net, and 8.8 MB memory. Meanwhile, the inference speed can reach 80 FPS on a single RTX 2070Ti GPU with the 256 by 192 pixels input size.
翻訳日:2021-05-11 14:36:44 公開日:2021-05-10
# 負画像を用いた畳み込みニューラルネットワークにおけるカーネル飽和度の検討と緩和

Examining and Mitigating Kernel Saturation in Convolutional Neural Networks using Negative Images ( http://arxiv.org/abs/2105.04128v1 )

ライセンス: Link先を確認
Nidhi Gowdra, Roopak Sinha and Stephen MacDonell(参考訳) 深層ニューラルネットワーク(dnn)の神経飽和度は広く研究されているが、畳み込みニューラルネットワーク(cnns)では、比較的未解明のままである。 畳み込み核飽和の効果の理解と緩和は、cnnモデルの分類精度を高めるために重要である。 本稿では,cnnにおける畳み込み核飽和の影響を分析し,トレーニングデータセットに負のイメージを補足することにより,飽和を緩和し,分類精度を向上させるための簡易データ拡張手法を提案する。 標準画像と同じ構造情報を持つが、データ表現が異なるため、負の画像を用いて意味的特徴情報を抽出することができると仮定する。 異なるデータ表現は、カーネル飽和の確率を減少させ、カーネル重み更新の有効性を高める。 この仮説を評価するために選択された2つのデータセットは、類似した画像クラスを持つcifar-10とstl-10であった。 MNISTデータセットは線形分離可能データの非効率性を強調するために用いられた。 ResNet CNNアーキテクチャは、ネットワーク内のスキップ接続が、分類精度に最も寄与する最も重要な特徴を維持するために選ばれた。 その結果,cnnは畳み込み型カーネル飽和の影響を受けやすく,トレーニングデータセットに負のイメージを補足することで,元のデータセットでトレーニングされたモデルと比較した場合の分類精度が統計的に有意に向上することが示された。 その結果,STL-10データセットとCIFAR-10データセットでは,それぞれ6.98%,3.16%の精度が得られた。

Neural saturation in Deep Neural Networks (DNNs) has been studied extensively, but remains relatively unexplored in Convolutional Neural Networks (CNNs). Understanding and alleviating the effects of convolutional kernel saturation is critical for enhancing CNN models classification accuracies. In this paper, we analyze the effect of convolutional kernel saturation in CNNs and propose a simple data augmentation technique to mitigate saturation and increase classification accuracy, by supplementing negative images to the training dataset. We hypothesize that greater semantic feature information can be extracted using negative images since they have the same structural information as standard images but differ in their data representations. Varied data representations decrease the probability of kernel saturation and thus increase the effectiveness of kernel weight updates. The two datasets selected to evaluate our hypothesis were CIFAR- 10 and STL-10 as they have similar image classes but differ in image resolutions thus making for a better understanding of the saturation phenomenon. MNIST dataset was used to highlight the ineffectiveness of the technique for linearly separable data. The ResNet CNN architecture was chosen since the skip connections in the network ensure the most important features contributing the most to classification accuracy are retained. Our results show that CNNs are indeed susceptible to convolutional kernel saturation and that supplementing negative images to the training dataset can offer a statistically significant increase in classification accuracies when compared against models trained on the original datasets. Our results present accuracy increases of 6.98% and 3.16% on the STL-10 and CIFAR-10 datasets respectively.
翻訳日:2021-05-11 14:36:16 公開日:2021-05-10
# PillarSegNet:スパースLiDARデータを用いたPillarベースのセマンティックグリッドマップ推定

PillarSegNet: Pillar-based Semantic Grid Map Estimation using Sparse LiDAR Data ( http://arxiv.org/abs/2105.04169v1 )

ライセンス: Link先を確認
Juncong Fei, Kunyu Peng, Philipp Heidenreich, Frank Bieder and Christoph Stiller(参考訳) 環境のセマンティックな理解は自動走行車にとって不可欠である。 SemanticKITTIデータセットの最近の発表は、都市シナリオにおけるLiDAR点雲のセマンティックセグメンテーションの研究を刺激している。 既存のほとんどのアプローチでは、スパース入力LiDARスキャンのためのスパースポイントワイズセマンティッククラスを予測しているが、PillarSegNetでは、密接なセマンティックグリッドマップを出力できる。 以前提案されたグリッドマップとは対照的に、PillarSegNetはPointNetを使用して3Dポイントクラウドから直接機能を学習し、トップビューで2Dセマンティックセマンティックセグメンテーションを実行する。 提案手法の訓練と評価には,複数の重ね合わせスキャンから高密度地盤真理が得られるスパースと高密度地盤真理の両方を用いる。 SemanticKITTIデータセットの実験結果は、PillarSegNetが最先端グリッドマップ法よりも約10%mIoUの性能向上を達成したことを示している。

Semantic understanding of the surrounding environment is essential for automated vehicles. The recent publication of the SemanticKITTI dataset stimulates the research on semantic segmentation of LiDAR point clouds in urban scenarios. While most existing approaches predict sparse pointwise semantic classes for the sparse input LiDAR scan, we propose PillarSegNet to be able to output a dense semantic grid map. In contrast to a previously proposed grid map method, PillarSegNet uses PointNet to learn features directly from the 3D point cloud and then conducts 2D semantic segmentation in the top view. To train and evaluate our approach, we use both sparse and dense ground truth, where the dense ground truth is obtained from multiple superimposed scans. Experimental results on the SemanticKITTI dataset show that PillarSegNet achieves a performance gain of about 10% mIoU over the state-of-the-art grid map method.
翻訳日:2021-05-11 14:35:50 公開日:2021-05-10
# コンピュータビジョンシステムのテスト自動化のためのフレームワーク

A framework for the automation of testing computer vision systems ( http://arxiv.org/abs/2105.04383v1 )

ライセンス: Link先を確認
Franz Wotawa and Lorenz Klampfl and Ledio Jahaj(参考訳) 視覚システム、すなわち画像内の物体の検出と追跡を可能にするシステムは、過去数十年間で大きな重要性を増してきた。 品質保証アプリケーション(例えば、製造中の製品の表面欠陥の発見、監視、そして信頼性の高い行動を必要とする自動運転など)で使用される。 興味深いことに、品質保証や、特にビジョンシステム全般をテストする作業は少ない。 本稿では,視覚ソフトウェアのテスト領域にコントリビュートし,視覚と画像認識に基づくシステムの自動テスト生成のためのフレームワークを提案する。 このフレームワークでは、既存のライブラリを使用して、オリジナルイメージの修正と、オリジナルイメージと修正イメージの類似性を取得する。 このようなフレームワークがリブレット表面の欠陥を識別する特定の産業アプリケーションをテストするのにどのように使えるかを示し、画像分類領域から予備的な結果を示す。

Vision systems, i.e., systems that allow to detect and track objects in images, have gained substantial importance over the past decades. They are used in quality assurance applications, e.g., for finding surface defects in products during manufacturing, surveillance, but also automated driving, requiring reliable behavior. Interestingly, there is only little work on quality assurance and especially testing of vision systems in general. In this paper, we contribute to the area of testing vision software, and present a framework for the automated generation of tests for systems based on vision and image recognition. The framework makes use of existing libraries allowing to modify original images and to obtain similarities between the original and modified images. We show how such a framework can be used for testing a particular industrial application on identifying defects on riblet surfaces and present preliminary results from the image classification domain.
翻訳日:2021-05-11 14:35:31 公開日:2021-05-10
# MDA-Net:3次元画像分割のための多次元注意ベースニューラルネットワーク

MDA-Net: Multi-Dimensional Attention-Based Neural Network for 3D Image Segmentation ( http://arxiv.org/abs/2105.04508v1 )

ライセンス: Link先を確認
Rutu Gandhi and Yi Hong(参考訳) 対照的に、スライス・バイ・スライス方式でボリュームセグメンテーションを行うことは効率的であるが、3Dデータを完全に活用することはできない。 そこで本研究では,slice-wise, spatial, channel-wiseをu-netベースのネットワークに効率的に統合する多次元アテンションネットワーク(mda-net)を提案する。 我々はMICCAI iSeg と IBSR のデータセットを用いてモデルを評価し,実験結果から既存の手法よりも一貫した改善が示された。

Segmenting an entire 3D image often has high computational complexity and requires large memory consumption; by contrast, performing volumetric segmentation in a slice-by-slice manner is efficient but does not fully leverage the 3D data. To address this challenge, we propose a multi-dimensional attention network (MDA-Net) to efficiently integrate slice-wise, spatial, and channel-wise attention into a U-Net based network, which results in high segmentation accuracy with a low computational cost. We evaluate our model on the MICCAI iSeg and IBSR datasets, and the experimental results demonstrate consistent improvements over existing methods.
翻訳日:2021-05-11 14:35:18 公開日:2021-05-10
# 異常検出分析を用いた新しいハイブリッド分解法によるcovid-19の予測に関する気象・人の移動データ:ブラジルの首都における事例研究

Meteorological and human mobility data on predicting COVID-19 cases by a novel hybrid decomposition method with anomaly detection analysis: a case study in the capitals of Brazil ( http://arxiv.org/abs/2105.04072v1 )

ライセンス: Link先を確認
Tiago Tiburcio da Silva and Rodrigo Francisquini and Mari\'a C. V. Nascimento(参考訳) 2020年、ブラジルは中南米で新型コロナウイルスの流行でトップの国となり、首都は新型コロナウイルスの影響で最も深刻な国となった。 ブラジルの気候は、ブラジルの領土拡大、その救済、地理、その他の要因によって様々である。 最も一般的なcovid-19の症状は呼吸器系に関連しているため、多くの研究者はcovid-19の感染者数と気温、湿度、降雨などの気象変数の相関について研究している。 また、感染率が高いことから、ウイルス感染のダイナミクスに対する人間の移動性の影響を分析した研究者もいる。 新型コロナウイルスの感染拡大を予測する際にこの2つの変数を考慮に入れる文献が多数存在する。 本稿では,ブラジルの首都におけるcovid-19感染者数と人の移動率,気象データとの相関について検討した。 これらの変数の相関は, 都市が位置する地域によって異なることがわかった。 ブラジル全都道府県で発生したCOVID-19感染数の予測には, 有意な相関がみられた変数を用いており, 自己回帰統合的統合的平均外因性入力(ARIMAX)法とEnsemble Empirical Mode Decomposition(EEMD)法を組み合わせた予測手法を提案し, これをEEMD-ARIMAXと呼ぶ。 さらに, 信号処理による異常検出手法を用いて, 予測精度の低下について検討した。 計算テストの結果、EEMD-ARIMAXはARIMAXよりも26.73%良い予測を達成した。 また,異常検出後に正常化したデータにEEMD-ARIMAX法を適用した場合,平均根平均二乗誤差(RMSE)が30.69%向上した。

In 2020, Brazil was the leading country in COVID-19 cases in Latin America, and capital cities were the most severely affected by the outbreak. Climates vary in Brazil due to the territorial extension of the country, its relief, geography, and other factors. Since the most common COVID-19 symptoms are related to the respiratory system, many researchers have studied the correlation between the number of COVID-19 cases with meteorological variables like temperature, humidity, rainfall, etc. Also, due to its high transmission rate, some researchers have analyzed the impact of human mobility on the dynamics of COVID-19 transmission. There is a dearth of literature that considers these two variables when predicting the spread of COVID-19 cases. In this paper, we analyzed the correlation between the number of COVID-19 cases and human mobility, and meteorological data in Brazilian capitals. We found that the correlation between such variables depends on the regions where the cities are located. We employed the variables with a significant correlation with COVID-19 cases to predict the number of COVID-19 infections in all Brazilian capitals and proposed a prediction method combining the Ensemble Empirical Mode Decomposition (EEMD) method with the Autoregressive Integrated Moving Average Exogenous inputs (ARIMAX) method, which we called EEMD-ARIMAX. After analyzing the results poor predictions were further investigated using a signal processing-based anomaly detection method. Computational tests showed that EEMD-ARIMAX achieved a forecast 26.73% better than ARIMAX. Moreover, an improvement of 30.69% in the average root mean squared error (RMSE) was noticed when applying the EEMD-ARIMAX method to the data normalized after the anomaly detection.
翻訳日:2021-05-11 14:31:30 公開日:2021-05-10
# マルチエージェント強化学習による動的マルチチャネルアクセス:スループットと公正保証

Dynamic Multichannel Access via Multi-agent Reinforcement Learning: Throughput and Fairness Guarantees ( http://arxiv.org/abs/2105.04077v1 )

ライセンス: Link先を確認
Muhammad Sohaib, Jongjin Jeong, and Sang-Woon Jeon(参考訳) 各ユーザがアクセスポイント(ap)と通信するために各タイムスロットで1つのチャネルにアクセスするマルチチャネルランダムアクセスシステムについて検討する。 ユーザはランダムにシステムに到着し、一定期間のタイムスロットで起動し、その後システムから消えます。 このような動的ネットワーク環境下では,マルチエージェント強化学習(RL)に基づく分散マルチチャネルアクセスプロトコルを提案し,アクティブユーザ間のスループットと公平性を改善する。 チャネルアクセス確率を各時間スロットで調整する従来の手法とは異なり、提案したRLアルゴリズムは、連続する時間スロットに対する一連のチャネルアクセスポリシーを決定的に選択する。 提案するrlアルゴリズムの複雑さを効果的に低減するために,分岐因果qネットワークアーキテクチャを採用し,時間変動ユーザ集合上で適切なq値を生成するための効率的なトレーニング手法を提案する。 提案手法は,実際の交通環境を広範囲にシミュレーションし,従来のrl手法や集中型スケジューリング手法と比較して,スループットと公平性が向上することを示す。

We consider a multichannel random access system in which each user accesses a single channel at each time slot to communicate with an access point (AP). Users arrive to the system at random and be activated for a certain period of time slots and then disappear from the system. Under such dynamic network environment, we propose a distributed multichannel access protocol based on multi-agent reinforcement learning (RL) to improve both throughput and fairness between active users. Unlike the previous approaches adjusting channel access probabilities at each time slot, the proposed RL algorithm deterministically selects a set of channel access policies for several consecutive time slots. To effectively reduce the complexity of the proposed RL algorithm, we adopt a branching dueling Q-network architecture and propose an efficient training methodology for producing proper Q-values over time-varying user sets. We perform extensive simulations on realistic traffic environments and demonstrate that the proposed online learning improves both throughput and fairness compared to the conventional RL approaches and centralized scheduling policies.
翻訳日:2021-05-11 14:30:59 公開日:2021-05-10
# AutoDebias: 推奨のためにデバイアスを学ぶ

AutoDebias: Learning to Debias for Recommendation ( http://arxiv.org/abs/2105.04170v1 )

ライセンス: Link先を確認
Jiawei Chen, Hande Dong, Yang Qiu, Xiangnan He, Xin Xin, Liang Chen, Guli Lin, Keping Yang(参考訳) レコメンダシステムは、パーソナライズモデルを構築するために、評価やクリックのようなユーザーの行動データに依存する。 しかし、収集されたデータは実験よりも観察的であり、学習モデルに大きく影響を及ぼす様々なバイアスを引き起こす。 インバース・プロペンシリティ・スコアリングやインプテーション・アプローチのような、既存のレコメンデーション・デバイアスのための研究のほとんどは、1つまたは2つの特定のバイアスに焦点を当てており、データの混合や未知のバイアスを考慮できる普遍的な能力が欠如している。 この研究のギャップに向けて,我々はまず,期待する経験的リスクと真のリスクとの差を表す \textit{risk discrepancy} の観点からバイアスの起源を分析する。 注目すべきは、一般的なフレームワークのパラメータを指定することによって、既存のデバイアスング戦略をよく要約する一般的な学習フレームワークを導出する。 これは、データからデバイアスパラメータを学習することによってデバイアスのための普遍的なソリューションを開発する貴重な機会を提供する。 しかし、トレーニングデータには、データのバイアスやバイアスのないデータの見た目に関する重要なシグナルが欠けている。 このアイデアを前進させるために、メタラーニングによる二段階最適化問題を解くことでデバイアスパラメータを最適化するために、別の(小さな)一様データのセットを利用する \textit{aotodebias} を提案する。 理論解析を通じて、オートデビアスに対する一般化を導出し、適切なデバイアス戦略を得る能力を証明する。 2つの実際のデータセットとシミュレーションデータセットに関する大規模な実験は、AutoDebiasの有効性を実証した。 コードは \url{https://github.com/d onghande/autodebias} で入手できる。

Recommender systems rely on user behavior data like ratings and clicks to build personalization model. However, the collected data is observational rather than experimental, causing various biases in the data which significantly affect the learned model. Most existing work for recommendation debiasing, such as the inverse propensity scoring and imputation approaches, focuses on one or two specific biases, lacking the universal capacity that can account for mixed or even unknown biases in the data. Towards this research gap, we first analyze the origin of biases from the perspective of \textit{risk discrepancy} that represents the difference between the expectation empirical risk and the true risk. Remarkably, we derive a general learning framework that well summarizes most existing debiasing strategies by specifying some parameters of the general framework. This provides a valuable opportunity to develop a universal solution for debiasing, e.g., by learning the debiasing parameters from data. However, the training data lacks important signal of how the data is biased and what the unbiased data looks like. To move this idea forward, we propose \textit{AotoDebias} that leverages another (small) set of uniform data to optimize the debiasing parameters by solving the bi-level optimization problem with meta-learning. Through theoretical analyses, we derive the generalization bound for AutoDebias and prove its ability to acquire the appropriate debiasing strategy. Extensive experiments on two real datasets and a simulated dataset demonstrated effectiveness of AutoDebias. The code is available at \url{https://github.com/D ongHande/AutoDebias}.
翻訳日:2021-05-11 14:30:42 公開日:2021-05-10
# ネットワークにおけるGAN(Generative Adversarial Networks)の総合的調査と評価

Generative Adversarial Networks (GANs) in Networking: A Comprehensive Survey & Evaluation ( http://arxiv.org/abs/2105.04184v1 )

ライセンス: Link先を確認
Hojjat Navidan, Parisa Fard Moshiri, Mohammad Nabati, Reza Shahbazian, Seyed Ali Ghorashi, Vahid Shah-Mansouri and David Windridge(参考訳) GAN(Generative Adversarial Networks)は、その概念の正しさにもかかわらず、深層生成モデリングを通じて合成データを作成するための機械学習サブフィールドである。 その結果、GANは様々な領域、特にコンピュータビジョンに応用され、一般的に合成画像の生成や変換に用いられる。 比較的使いやすさを考えると、ネットワーク分野の研究者(ディープラーニングの手法を広範囲に応用した研究者)がganベースのアプローチに関心を持つのは当然である。 このような活動の包括的な調査の必要性は緊急である。 本稿では、この機械学習の分野が、モバイルネットワーク、ネットワーク分析、物のインターネット、物理層、サイバーセキュリティなど、コンピュータと通信ネットワークの様々な面にどのように役立つかを実証する。 そこで我々は、画像以外のアプリケーションで異なるモデルの性能を比較するための新しい評価フレームワークを提供し、これを複数の参照ネットワークデータセットに適用する。

Despite the recency of their conception, Generative Adversarial Networks (GANs) constitute an extensively researched machine learning sub-field for the creation of synthetic data through deep generative modeling. GANs have consequently been applied in a number of domains, most notably computer vision, in which they are typically used to generate or transform synthetic images. Given their relative ease of use, it is therefore natural that researchers in the field of networking (which has seen extensive application of deep learning methods) should take an interest in GAN-based approaches. The need for a comprehensive survey of such activity is therefore urgent. In this paper, we demonstrate how this branch of machine learning can benefit multiple aspects of computer and communication networks, including mobile networks, network analysis, internet of things, physical layer, and cybersecurity. In doing so, we shall provide a novel evaluation framework for comparing the performance of different models in non-image applications, applying this to a number of reference network datasets.
翻訳日:2021-05-11 14:30:13 公開日:2021-05-10
# Wassersteinの不確かさ下でのロバストグラフ学習

Robust Graph Learning Under Wasserstein Uncertainty ( http://arxiv.org/abs/2105.04210v1 )

ライセンス: Link先を確認
Xiang Zhang, Yinfei Xu, Qinghe Liu, Zhicheng Liu, Jian Lu and Qiao Wang(参考訳) グラフは信号間の内在的な関係を明らかにする強力なツールであるため、さまざまな分野で重要な役割を果たす。 多くのシナリオでは、信号を表す正確なグラフ構造は全く利用できず、観察した信号から直接信頼できるグラフ構造を学ぶ動機となる。 しかし,実生活では,ノイズ測定や観測可能性の制限により観測信号に不確実性が存在することが避けられないため,学習グラフの信頼性が低下する。 そこで本研究では,wasserstein distributionally robust optimization (wdro) を用いたグラフ学習フレームワークを提案する。 具体的には、2つのモデルが開発され、1つは不確かさ集合のすべての分布がガウス分布であると仮定し、もう1つは事前分布仮定を持たない。 インテリアポイント法を直接使用する代わりに,対応するモデルを解くための2つのアルゴリズムを提案し,アルゴリズムがより時間節約されていることを示す。 さらに,2つのモデルをSDP(Semi-Definite Programming)に再構成し,大規模グラフのシナリオにおいてそれらが難解であることを示す。 提案手法が不確実性の文脈で信頼性のあるグラフを学習できることを実証するために, 合成データと実世界のデータの両方を用いて実験を行った。

Graphs are playing a crucial role in different fields since they are powerful tools to unveil intrinsic relationships among signals. In many scenarios, an accurate graph structure representing signals is not available at all and that motivates people to learn a reliable graph structure directly from observed signals. However, in real life, it is inevitable that there exists uncertainty in the observed signals due to noise measurements or limited observability, which causes a reduction in reliability of the learned graph. To this end, we propose a graph learning framework using Wasserstein distributionally robust optimization (WDRO) which handles uncertainty in data by defining an uncertainty set on distributions of the observed data. Specifically, two models are developed, one of which assumes all distributions in uncertainty set are Gaussian distributions and the other one has no prior distributional assumption. Instead of using interior point method directly, we propose two algorithms to solve the corresponding models and show that our algorithms are more time-saving. In addition, we also reformulate both two models into Semi-Definite Programming (SDP), and illustrate that they are intractable in the scenario of large-scale graph. Experiments on both synthetic and real world data are carried out to validate the proposed framework, which show that our scheme can learn a reliable graph in the context of uncertainty.
翻訳日:2021-05-11 14:29:58 公開日:2021-05-10
# ADASYN-Random Forest による侵入検知モデル

ADASYN-Random Forest Based Intrusion Detection Model ( http://arxiv.org/abs/2105.04301v1 )

ライセンス: Link先を確認
Zhewei Chen, Linyue Zhou, Wenwen Yu(参考訳) 侵入検知はサイバーセキュリティの分野で重要な話題であり、近年のネットワークの脅威は多様性とバリエーションの特徴を持っている。 本論文では,侵入検出データセットの深刻な不均衡を考慮すると,小規模サンプルサイズの攻撃行動の分類性能が低く,ネットワーク攻撃を正確にかつ効率的に検出することが困難になると考えられる。 さらに、ランダムフォレストアルゴリズムは侵入検知分類器の訓練に用いられた。 cicids 2017データセットにおける侵入検出の比較実験により,ランダムフォレストを用いたadasynの性能が向上した。 実験結果に基づいて、ADASYN後の精度、リコール、F1値の改善を解析する。 実験により,提案手法は大規模データによる侵入検知に適用でき,ネットワーク攻撃行動の分類精度を効果的に向上できることが示された。 従来の機械学習モデルと比較して、パフォーマンス、一般化能力、堅牢性が向上している。

Intrusion detection has been a key topic in the field of cyber security, and the common network threats nowadays have the characteristics of varieties and variation. Considering the serious imbalance of intrusion detection datasets will result in low classification performance on attack behaviors of small sample size and difficulty to detect network attacks accurately and efficiently, using ADASYN oversampling method to balance datasets was proposed in this paper. In addition, random forest algorithm was used to train intrusion detection classifiers. Through the comparative experiment of Intrusion detection on CICIDS 2017 dataset, it is found that ADASYN with Random Forest performs better. Based on the experimental results, the improvement of precision, recall and F1 values after ADASYN is then analyzed. Experiments show that the proposed method can be applied to intrusion detection with large data, and can effectively improve the classification accuracy of network attack behaviors. Compared with traditional machine learning models, it has better performance, generalization ability and robustness.
翻訳日:2021-05-11 14:29:36 公開日:2021-05-10
# tFold-TR:テンプレートに基づくモデリング構造再構成のためのディープラーニング強化ハイブリッドポテンシャルエネルギーの組み合わせ

tFold-TR: Combining Deep Learning Enhanced Hybrid Potential Energy for Template-Based Modelling Structure Refinement ( http://arxiv.org/abs/2105.04350v1 )

ライセンス: Link先を確認
Liangzhen Zheng, Haidong Lan, Tao Shen, Jiaxiang Wu, Sheng Wang, Wei Liu, Junzhou Huang(参考訳) タンパク質の構造予測は、委員会の科学的・応用的関心から、過去50年間にわたって大きな課題だった。 テンプレートフリーモデリングとテンプレートベースモデリングの2つの主要なモデリングアルゴリズムがあり、予測の容易なタスクに適しており、薬物設計やスクリーニングのためのコンピュータ支援薬物発見に広く使われている。 1) テンプレート・クエリ列アライメントには欠落領域が多く, 2) テンプレートの異なる領域からの距離ペアの精度は様々であり,この情報はモデリングにはあまり導入されていない。 この2つの問題を解決するために、テンプレートモデリングに基づく構造最適化プロセスを提案し、2つのニューラルネットワークモデルを用いて、テンプレートモデリング構造における欠落領域の距離情報と異なる領域の距離ペアの精度を予測する。 構造最適化のためのポテンシャルエネルギー関数には、予測距離と残余対方向の特定精度情報が組み込まれ、元のテンプレートモデリングデコイの品質が著しく向上する。

Proteins structure prediction has long been a grand challenge over the past 50 years, owing to its board scientific and application interests. There are two major types of modelling algorithm, template-free modelling and template-based modelling, which is suitable for easy prediction tasks, and is widely adopted in computer aided drug discoveries for drug design and screening. Although it has been several decades since its first edition, the current template-based modeling approach suffers from two important problems: 1) there are many missing regions in the template-query sequence alignment, and 2) the accuracy of the distance pairs from different regions of the template varies, and this information is not well introduced into the modeling. To solve the two problems, we propose a structural optimization process based on template modelling, introducing two neural network models predict the distance information of the missing regions and the accuracy of the distance pairs of different regions in the template modeling structure. The predicted distances and residue pairwise specific accuracy information are incorporated into the potential energy function for structural optimization, which significantly improves the qualities of the original template modelling decoys.
翻訳日:2021-05-11 14:29:22 公開日:2021-05-10
# モジュラーラドン変換:理論、アルゴリズムおよび応用

The Modulo Radon Transform: Theory, Algorithms and Applications ( http://arxiv.org/abs/2105.04194v1 )

ライセンス: Link先を確認
Matthias Beckmann, Ayush Bhandari and Felix Krahmer(参考訳) 近年、複数の断層投影を融合させて高ダイナミックレンジ(HDR)トモグラフィーをヒューリスティックに行う実験が報告されている。 HDRトモグラフィーに対するこのアプローチは、HDR写真にインスパイアされ、同じ欠点を継承している。 本稿では,HDRトモグラフィー問題に対する計算画像のアプローチとして,MRT(Modulo Radon Transform)に基づく新しいモデルを提案する。 ハードウェアとアルゴリズムのジョイントデザインを活用することで,我々の知る限りでは,数学的保証によって裏付けられる唯一のアプローチである単発hdrトモグラフィー手法を提案する。 ハードウェア面では、私が飽和する可能性のあるラドン変換プロジェクションを記録する代わりに、同じ変調値を測定することを提案する。 これにより、HDRの測定値が低いダイナミックレンジに折り畳まれることが保証される。 アルゴリズム面では, 折り畳み測定からHDR画像の再構成を行う。 帯域制限やほぼコンパクトな画像を含む様々なシナリオに対するMDRの射影率や反転といった数学的側面の他に、概念実証の第1弾も提供する。 そこで我々は,我々の設計したモジュロハードウェアを用いて,オープンソースデータセットとして利用可能なトモグラフィ計測を実験的に折り畳み,MDRを実装した。 実験データに対する我々のアプローチの利点を明確に示す。 このようにして、我々のMRTベースのソリューションは、多くの関連画像問題においてHDR獲得の道を開く。

Recently, experiments have been reported where researchers were able to perform high dynamic range (HDR) tomography in a heuristic fashion, by fusing multiple tomographic projections. This approach to HDR tomography has been inspired by HDR photography and inherits the same disadvantages. Taking a computational imaging approach to the HDR tomography problem, we here suggest a new model based on the Modulo Radon Transform (MRT), which we rigorously introduce and analyze. By harnessing a joint design between hardware and algorithms, we present a single-shot HDR tomography approach, which to our knowledge, is the only approach that is backed by mathematical guarantees. On the hardware front, instead of recording the Radon Transform projections that my potentially saturate, we propose to measure modulo values of the same. This ensures that the HDR measurements are folded into a lower dynamic range. On the algorithmic front, our recovery algorithms reconstruct the HDR images from folded measurements. Beyond mathematical aspects such as injectivity and inversion of the MRT for different scenarios including band-limited and approximately compactly supported images, we also provide a first proof-of-concept demonstration. To do so, we implement MRT by experimentally folding tomographic measurements available as an open source data set using our custom designed modulo hardware. Our reconstruction clearly shows the advantages of our approach for experimental data. In this way, our MRT based solution paves a path for HDR acquisition in a number of related imaging problems.
翻訳日:2021-05-11 14:29:04 公開日:2021-05-10
# 3次元再構成における最小問題を分解するガロア・モノドロミー群

Galois/monodromy groups for decomposing minimal problems in 3D reconstruction ( http://arxiv.org/abs/2105.04460v1 )

ライセンス: Link先を確認
Timothy Duff, Viktor Korotynskiy, Tomas Pajdla, Margaret H. Regan(参考訳) コンピュータビジョン応用におけるガロア群とモノドロミー群について,より効率的な多項式解法の構築をめざして検討する。 ガロア/モノドロミー群は、与えられた問題が代数的部分問題に分解されるか、それが対称性を持つかどうかを決定できる。 数値代数幾何学と計算群論のツールにより、この枠組みを古典的および新しい再構成問題に適用することができる。 3点絶対ポーズ、5点相対ポーズ、4点ホモグラフィーによるキャリブレーションカメラの分解と対称性をガロア群とモノドロミー群で自然に理解できる3つの古典的ケースを考える。 次に,我々のフレームワークを絶対的および相対的ポーズ推定から新たな問題に適用する方法を示す。 例えば、点と線の特徴の混合を含む絶対ポーズ問題に対する新しい対称性を見つける。 また,3つの画像間の一対の校正ホモグラフを推定する問題についても述べる。 次数 64 のこの問題に対して、次数は 16 に縮めることができ、後者は代数的に解くことの本質的な困難を反映している。 副産物として、互換性のあるホモグラフィーに対する新たな制約が得られ、これは独立した関心を持つかもしれない。

We consider Galois/monodromy groups arising in computer vision applications, with a view towards building more efficient polynomial solvers. The Galois/monodromy group allows us to decide when a given problem decomposes into algebraic subproblems, and whether or not it has any symmetries. Tools from numerical algebraic geometry and computational group theory allow us to apply this framework to classical and novel reconstruction problems. We consider three classical cases--3-point absolute pose, 5-point relative pose, and 4-point homography estimation for calibrated cameras--where the decomposition and symmetries may be naturally understood in terms of the Galois/monodromy group. We then show how our framework can be applied to novel problems from absolute and relative pose estimation. For instance, we discover new symmetries for absolute pose problems involving mixtures of point and line features. We also describe a problem of estimating a pair of calibrated homographies between three images. For this problem of degree 64, we can reduce the degree to 16; the latter better reflecting the intrinsic difficulty of algebraically solving the problem. As a byproduct, we obtain new constraints on compatible homographies, which may be of independent interest.
翻訳日:2021-05-11 14:28:39 公開日:2021-05-10
# 階層的基底から見たReLUディープニューラルネットワーク

ReLU Deep Neural Networks from the Hierarchical Basis Perspective ( http://arxiv.org/abs/2105.04156v1 )

ライセンス: Link先を確認
Juncai He, Lin Li, Jinchao Xu(参考訳) 有限要素法において,ReLUディープニューラルネットワーク(DNN)の階層的基礎法との関係を調べた。 まず、ReLU DNNの$x^2$と$xy$の近似スキームは、これらの2つの関数の階層基底近似の合成バージョンであることを示す。 この事実に基づいて,多項式に対するReLU DNNの近似結果の幾何学的解釈と体系的証明が得られ,最近のReLU DNNの指数関数近似結果のシリーズにおいて重要な役割を担っている。 ReLU DNN と $x^2$ および $xy$ の階層基底近似の関連性の調査を通じて、この特別な構造を持つ ReLU DNN が近似二次函数にのみ適用可能であることを示す。 さらに, 2つの隠れ層のみを持つrelu dnnを用いて, 2次元一様メッシュ上の任意の線形有限要素関数を明示的に再現する簡潔な表現を得る。

We study ReLU deep neural networks (DNNs) by investigating their connections with the hierarchical basis method in finite element methods. First, we show that the approximation schemes of ReLU DNNs for $x^2$ and $xy$ are composition versions of the hierarchical basis approximation for these two functions. Based on this fact, we obtain a geometric interpretation and systematic proof for the approximation result of ReLU DNNs for polynomials, which plays an important role in a series of recent exponential approximation results of ReLU DNNs. Through our investigation of connections between ReLU DNNs and the hierarchical basis approximation for $x^2$ and $xy$, we show that ReLU DNNs with this special structure can be applied only to approximate quadratic functions. Furthermore, we obtain a concise representation to explicitly reproduce any linear finite element function on a two-dimensional uniform mesh by using ReLU DNNs with only two hidden layers.
翻訳日:2021-05-11 14:24:45 公開日:2021-05-10
# ベイズ学習における最小余剰リスクの速度歪み解析

Rate-Distortion Analysis of Minimum Excess Risk in Bayesian Learning ( http://arxiv.org/abs/2105.04180v1 )

ライセンス: Link先を確認
Hassan Hafez-Kolahi, Behrad Moniri, Shohreh Kasaei, Mahdieh Soleymani Baghshah(参考訳) ベイズ学習における最小余剰リスク(MER)は、データから学ぶ際に達成可能な最小損失と、基礎パラメータ$W$が観測された場合に達成できる最小損失との差として定義される。 本稿では,ベイズ学習におけるMERの分析と情報理論的バウンダリの導出を目的として,最近の成果(Xu & Raginsky, 2020)を構築し,拡張する。 この問題を(制約された)レート・ディストリビュート最適化として定式化し、解を研究しやすい他の2つのレート・ディストリビュート関数で上下にバインドする方法を示す。 下限は、パラメータ$W$から$R$ビットの情報を使用して \emph{any} プロセスで達成可能な最小限の過剰リスクを表す。 上限の場合、最適化はトレーニングセットから$r$bitを使用することにさらに制約される。これは、頻繁に学習する一般化ギャップに関する情報理論上の境界にmerを関連付ける設定である。 我々は、これらの上界と下界の差に関する情報理論的境界を導出し、それらがMERに対して秩序的に厳密なレートを提供できることを示す。 この分析は、ベイズ学習の情報理論的な性質と、新しい境界を提供する深い洞察を与える。

Minimum Excess Risk (MER) in Bayesian learning is defined as the difference between the minimum expected loss achievable when learning from data and the minimum expected loss that could be achieved if the underlying parameter $W$ was observed. In this paper, we build upon and extend the recent results of (Xu & Raginsky, 2020) to analyze the MER in Bayesian learning and derive information-theoreti c bounds on it. We formulate the problem as a (constrained) rate-distortion optimization and show how the solution can be bounded above and below by two other rate-distortion functions that are easier to study. The lower bound represents the minimum possible excess risk achievable by \emph{any} process using $R$ bits of information from the parameter $W$. For the upper bound, the optimization is further constrained to use $R$ bits from the training set, a setting which relates MER to information-theoreti c bounds on the generalization gap in frequentist learning. We derive information-theoreti c bounds on the difference between these upper and lower bounds and show that they can provide order-wise tight rates for MER. This analysis gives more insight into the information-theoreti c nature of Bayesian learning as well as providing novel bounds.
翻訳日:2021-05-11 14:24:30 公開日:2021-05-10
# 情報分解に基づく特徴選択における冗長性と関連性の厳密な情報理論的定義

A Rigorous Information-Theoreti c Definition of Redundancy and Relevancy in Feature Selection Based on (Partial) Information Decomposition ( http://arxiv.org/abs/2105.04187v1 )

ライセンス: Link先を確認
Patricia Wollstadt and Sebastian Schmitt and Michael Wibral(参考訳) ターゲット変数について最大限に情報を提供する最小の機能セットを選択することは、機械学習と統計の中心的なタスクである。 情報理論は、機能選択アルゴリズムを定式化する強力なフレームワークを提供するが、冗長や相乗的コントリビュートなどの機能インタラクションを考慮した、厳密で情報理論的な機能関連の定義は、いまだ欠落している。 この欠如は古典的な情報理論に固有のものであり、変数の集合が対象に関する情報をユニークで冗長でシナジスティックな貢献に分解する手段を提供していない。 このような分解は、最近になって部分情報分解(PID)フレームワークによってのみ導入された。 PIDを用いて情報理論を用いた場合,特徴選択が概念的に難しい問題である理由を明らかにし,PID用語における特徴の関連性と冗長性の新たな定義を提供する。 この定義から,条件付き相互情報(CMI)は冗長性を最小化しながら関連性を最大化し,実用的な特徴選択のための反復的CMIベースのアルゴリズムを提案する。 我々は,CMIに基づくアルゴリズムのパワーを,ベンチマーク例における無条件の相互情報と比較し,PIDが特徴と特徴選択問題における相互作用の情報提供を定量化できることを示す。

Selecting a minimal feature set that is maximally informative about a target variable is a central task in machine learning and statistics. Information theory provides a powerful framework for formulating feature selection algorithms -- yet, a rigorous, information-theoreti c definition of feature relevancy, which accounts for feature interactions such as redundant and synergistic contributions, is still missing. We argue that this lack is inherent to classical information theory which does not provide measures to decompose the information a set of variables provides about a target into unique, redundant, and synergistic contributions. Such a decomposition has been introduced only recently by the partial information decomposition (PID) framework. Using PID, we clarify why feature selection is a conceptually difficult problem when approached using information theory and provide a novel definition of feature relevancy and redundancy in PID terms. From this definition, we show that the conditional mutual information (CMI) maximizes relevancy while minimizing redundancy and propose an iterative, CMI-based algorithm for practical feature selection. We demonstrate the power of our CMI-based algorithm in comparison to the unconditional mutual information on benchmark examples and provide corresponding PID estimates to highlight how PID allows to quantify information contribution of features and their interactions in feature-selection problems.
翻訳日:2021-05-11 14:24:08 公開日:2021-05-10
# SIRNN:セキュアなRNN推論のための数学ライブラリ

SIRNN: A Math Library for Secure RNN Inference ( http://arxiv.org/abs/2105.04236v1 )

ライセンス: Link先を確認
Deevashwer Rathee, Mayank Rathee, Rahul Kranti Kiran Goli, Divya Gupta, Rahul Sharma, Nishanth Chandran, Aseem Rastogi(参考訳) リカレントニューラルネットワーク(RNN)のような複雑な機械学習(ML)推論アルゴリズムは、指数、シグモノイド、タン、平方根の逆数といった数学ライブラリの標準関数を使用する。 セキュアな2パーティ推論は、畳み込みニューラルネットワーク(CNN)のための特別なプロトコルを提供するが、これらの数学演算子の既存の安全な実装は、高い通信に苦しむ汎用2パーティ計算(2PC)プロトコルに依存している。 私たちは、このパフォーマンス上のオーバーヘッドに対処するためにルックアップテーブルと混合ビット幅に依存する、数学関数のための新しい特別な2pcプロトコルを提供しています。 我々の数学実装で使われる混合ビット幅演算のいくつかは、(ゼロおよび符号付き)拡張、異なる形式の切断、混合ビット幅のオペランドの乗算、および(より大きい桁へのビット分解の一般化)デジット分解である。 これらのプリミティブ操作毎に、汎用2pcよりも通信効率が良く、独立した関心を持つ特殊な2pcプロトコルを構築します。 さらに,本実装は数値的に正確であり,セキュアな実装がクリアテキストのモデル精度を維持することを保証する。 このライブラリは,時系列センサデータで動作するRNN,音声データで動作するRNN,およびCNNとRNNを組み合わせて画像に存在するすべての頭部を識別する最先端のMLアーキテクチャの最初のセキュアな実装を提供する。 評価の結果,既存の2pcフレームワークを用いたモデル推論と比較して,sirnnは最大3桁のパフォーマンス向上を達成していることがわかった。

Complex machine learning (ML) inference algorithms like recurrent neural networks (RNNs) use standard functions from math libraries like exponentiation, sigmoid, tanh, and reciprocal of square root. Although prior work on secure 2-party inference provides specialized protocols for convolutional neural networks (CNNs), existing secure implementations of these math operators rely on generic 2-party computation (2PC) protocols that suffer from high communication. We provide new specialized 2PC protocols for math functions that crucially rely on lookup-tables and mixed-bitwidths to address this performance overhead; our protocols for math functions communicate up to 423x less data than prior work. Some of the mixed bitwidth operations used by our math implementations are (zero and signed) extensions, different forms of truncations, multiplication of operands of mixed-bitwidths, and digit decomposition (a generalization of bit decomposition to larger digits). For each of these primitive operations, we construct specialized 2PC protocols that are more communication efficient than generic 2PC, and can be of independent interest. Furthermore, our math implementations are numerically precise, which ensures that the secure implementations preserve model accuracy of cleartext. We build on top of our novel protocols to build SIRNN, a library for end-to-end secure 2-party DNN inference, that provides the first secure implementations of an RNN operating on time series sensor data, an RNN operating on speech data, and a state-of-the-art ML architecture that combines CNNs and RNNs for identifying all heads present in images. Our evaluation shows that SIRNN achieves up to three orders of magnitude of performance improvement when compared to inference of these models using an existing state-of-the-art 2PC framework.
翻訳日:2021-05-11 14:23:45 公開日:2021-05-10
# 音楽スコア追従のためのマルチモーダル条件付きバウンディングボックス回帰

Multi-modal Conditional Bounding Box Regression for Music Score Following ( http://arxiv.org/abs/2105.04309v1 )

ライセンス: Link先を確認
Florian Henkel and Gerhard Widmer(参考訳) 本稿では,シート画像に基づくオンラインオーディオ・スコアアライメントの問題に対処する。 物体検出からインスピレーションを得た条件付きニューラルネットワークアーキテクチャは、与えられた演奏のそれぞれの時点における完全なスコアシート画像における一致する位置のx,y座標を直接予測する。 合成ポリフォニックピアノベンチマークデータセットを用いて実験を行い、新しい手法は、シート画像に基づくスコア追従のための文献と、光学的音楽認識ベースラインとの既存のアプローチと比較する。 提案手法は,新たな最先端結果を得るとともに,インパルス応答をデータ拡張手法として適用することにより,実世界のピアノ録音のアライメント性能をさらに向上させる。

This paper addresses the problem of sheet-image-based on-line audio-to-score alignment also known as score following. Drawing inspiration from object detection, a conditional neural network architecture is proposed that directly predicts x,y coordinates of the matching positions in a complete score sheet image at each point in time for a given musical performance. Experiments are conducted on a synthetic polyphonic piano benchmark dataset and the new method is compared to several existing approaches from the literature for sheet-image-based score following as well as an Optical Music Recognition baseline. The proposed approach achieves new state-of-the-art results and furthermore significantly improves the alignment performance on a set of real-world piano recordings by applying Impulse Responses as a data augmentation technique.
翻訳日:2021-05-11 14:23:15 公開日:2021-05-10
# スパースニューラルネットワークのためのBregman学習フレームワーク

A Bregman Learning Framework for Sparse Neural Networks ( http://arxiv.org/abs/2105.04319v1 )

ライセンス: Link先を確認
Leon Bungert, Tim Roith, Daniel Tenbrinck, Martin Burger(参考訳) 逆スケール空間アプローチを用いてスパースニューラルネットワークを学習するための確率論的ブレグマン反復に基づく学習フレームワークを提案する。 我々は、モーメントを用いた高速化版であるLinBregと、Adamアルゴリズムのブレグマン一般化であるAdaBregというベースラインアルゴリズムを導出する。 スパーストレーニングの確立された方法とは対照的に、提案されたアルゴリズム群は、追加のヒューリスティックを伴わない最適化に基づくニューラルネットワークの再成長戦略を構成する。 私たちのBregman学習フレームワークは、ごく少数の初期パラメータでトレーニングを開始し、スパースで表現力のあるネットワークを得るために、重要なパラメータのみを連続的に追加します。 提案手法は非常に簡単で効率的であるが、逆スケール空間法(英語版)のリッチな数学的理論によって支持されている。 統計的に深いスパースパラメータの初期化戦略を導出し、損失減衰の厳密な確率収束解析と凸系における追加収束証明を提供する。 ResNet-18のパラメータの3.4%しか使用せず、CIFAR-10で90.2%の精度を達成した。 提案アルゴリズムは,雑音処理のためのオートエンコーダアーキテクチャも提示する。 提案フレームワークはまた、スパースバックプロパゲーションとリソースフレンドリなトレーニングを統合する大きな可能性を持っている。

We propose a learning framework based on stochastic Bregman iterations to train sparse neural networks with an inverse scale space approach. We derive a baseline algorithm called LinBreg, an accelerated version using momentum, and AdaBreg, which is a Bregmanized generalization of the Adam algorithm. In contrast to established methods for sparse training the proposed family of algorithms constitutes a regrowth strategy for neural networks that is solely optimization-based without additional heuristics. Our Bregman learning framework starts the training with very few initial parameters, successively adding only significant ones to obtain a sparse and expressive network. The proposed approach is extremely easy and efficient, yet supported by the rich mathematical theory of inverse scale space methods. We derive a statistically profound sparse parameter initialization strategy and provide a rigorous stochastic convergence analysis of the loss decay and additional convergence proofs in the convex regime. Using only 3.4% of the parameters of ResNet-18 we achieve 90.2% test accuracy on CIFAR-10, compared to 93.6% using the dense network. Our algorithm also unveils an autoencoder architecture for a denoising task. The proposed framework also has a huge potential for integrating sparse backpropagation and resource-friendly training.
翻訳日:2021-05-11 14:23:01 公開日:2021-05-10
# 希少拡散力学の強化学習

Reinforcement learning of rare diffusive dynamics ( http://arxiv.org/abs/2105.04321v1 )

ライセンス: Link先を確認
Avishek Das, Dominic C. Rose, Juan P. Garrahan, David T. Limmer(参考訳) 本稿では,レアな分子動力学軌道を直接探索する手法を提案する。 本研究では, 有限時間における構成空間の領域間の遷移を条件として, 反応性事象の研究や, 時間積分量の経時的変動を示す軌道, 大偏差関数の計算等について考察する。 いずれの場合も、強化学習技術を用いて、条件付き軌道アンサンブルと駆動型軌道とのクルバック・リーバの発散を最小限に抑える付加力の最適化を行う。 最適化された付加力の下で、システムは典型的に稀なゆらぎを進化させ、元の軌道アンサンブルの確率を変動的に推定する。 値関数を用いた低分散勾配は、最適力の収束性を高めるために提案される。 これらの勾配を用いた手法は, 種々のモデルシステムにおいて, 最適力と希少事象の可能性の両方を効率的かつ高精度に推定できる。

We present a method to probe rare molecular dynamics trajectories directly using reinforcement learning. We consider trajectories that are conditioned to transition between regions of configuration space in finite time, like those relevant in the study of reactive events, as well as trajectories exhibiting rare fluctuations of time-integrated quantities in the long time limit, like those relevant in the calculation of large deviation functions. In both cases, reinforcement learning techniques are used to optimize an added force that minimizes the Kullback-Leibler divergence between the conditioned trajectory ensemble and a driven one. Under the optimized added force, the system evolves the rare fluctuation as a typical one, affording a variational estimate of its likelihood in the original trajectory ensemble. Low variance gradients employing value functions are proposed to increase the convergence of the optimal force. The method we develop employing these gradients leads to efficient and accurate estimates of both the optimal force and the likelihood of the rare event for a variety of model systems.
翻訳日:2021-05-11 14:22:41 公開日:2021-05-10
# (参考訳) 非定常力学環境に対する文脈ベースソフトアクター批判 [全文訳有]

Context-Based Soft Actor Critic for Environments with Non-stationary Dynamics ( http://arxiv.org/abs/2105.03310v2 )

ライセンス: CC BY 4.0
Yuan Pu, Shaochen Wang, Xin Yao, Bin Li(参考訳) 非定常動的環境に適用すると,深層強化学習法の性能は低下する傾向にあった。 本稿では,近年のMeta-RL材料に動機づけられた潜在コンテキスト再帰エンコーダを用いて,上記の問題に対処するための潜在コンテキストベースのソフトアクター批判(LC-SAC)手法を提案する。 コントラスト予測損失関数を最小化することにより、学習されたコンテキスト変数は、環境ダイナミクスとエージェントの最近の振る舞いに関する情報をキャプチャする。 そして、ソフトポリシー反復パラダイムと組み合わさって、lc-sac法は、ソフトポリシー評価とソフトポリシー改善を、最適なポリシーに収束するまで交互に行う。 実験の結果, LC-SACは, 異なるエピソード間で動的に変化するメタワールドML1タスクにおいて, SACアルゴリズムよりも有意に優れており, 動的変化が遅い, 異なるエピソード間で変化しない, 連続制御ベンチマークタスクMuJoCo上でのSACと同等であることがわかった。 さらに,様々なハイパーパラメータ設定がlc-sacアルゴリズムの性能に与える影響を判定するための関連する実験を行い,ハイパーパラメータ設定の合理的な提案を行う。

The performance of deep reinforcement learning methods prone to degenerate when applied to environments with non-stationary dynamics. In this paper, we utilize the latent context recurrent encoders motivated by recent Meta-RL materials, and propose the Latent Context-based Soft Actor Critic (LC-SAC) method to address aforementioned issues. By minimizing the contrastive prediction loss function, the learned context variables capture the information of the environment dynamics and the recent behavior of the agent. Then combined with the soft policy iteration paradigm, the LC-SAC method alternates between soft policy evaluation and soft policy improvement until it converges to the optimal policy. Experimental results show that the performance of LC-SAC is significantly better than the SAC algorithm on the MetaWorld ML1 tasks whose dynamics changes drasticly among different episodes, and is comparable to SAC on the continuous control benchmark task MuJoCo whose dynamics changes slowly or doesn't change between different episodes. In addition, we also conduct relevant experiments to determine the impact of different hyperparameter settings on the performance of the LC-SAC algorithm and give the reasonable suggestions of hyperparameter setting.
翻訳日:2021-05-11 11:45:07 公開日:2021-05-10