このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200720となっている論文です。

PDF登録状況(公開日: 20200720)

TitleAuthorsAbstract論文公表日・翻訳日
# 部分的に観察可能な確率環境における構造的健康情報の価値

Value of structural health information in partially observable stochastic environments ( http://arxiv.org/abs/1912.12534v2 )

ライセンス: Link先を確認
C.P. Andriotis, K.G. Papakonstantinou, E.N. Chatzi(参考訳) 不確定な観察と意思決定の最適化の効率的な統合は、インフォームド・インフォームメント・インベンション・アクションを規定し、劣化するエンジニアリングシステムの構造的安全性を保てるための鍵である。 この目的のためには、情報の価値(VoI)や構造健康モニタリングの価値(VoSHM)といった定量的指標を反映した、期待値に基づく検査・監視戦略を客観的に実施する必要がある。 本研究では, 部分観測可能なマルコフ決定過程(POMDP)の文脈において, 上記の指標の理論的, 計算的基礎を考察し, 部分的に観測可能な確率劣化環境において, POMDPとしてモデル化可能な幅広い意思決定問題に言及する。 ステップワイズおよびライフサイクルvoiおよびvoshmの定義を考案し、その境界をベルマン方程式とその結果得られる最適値関数に由来する性質に基づいて解析する。 本報告では,pomdp政策がvoiの概念を生かして,各決定段階における観察行動の指針として活用し,shmやインスペクション・インスペクションによって提供される永続的あるいは断続的な情報は,組織やインフラの意思決定において一般的に採用される,局所的最適政策の下では必ずしも当てはまらない,長期的にのみこの政策のコストを改善することができることを示した。 POMDPの解は点ベースの値反復法に基づいて導出され、様々な定義は、有限の計画地平線と有限の計画地平線を持つ定常および非定常の劣化環境で定量化される。

Efficient integration of uncertain observations with decision-making optimization is key for prescribing informed intervention actions, able to preserve structural safety of deteriorating engineering systems. To this end, it is necessary that scheduling of inspection and monitoring strategies be objectively performed on the basis of their expected value-based gains that, among others, reflect quantitative metrics such as the Value of Information (VoI) and the Value of Structural Health Monitoring (VoSHM). In this work, we introduce and study the theoretical and computational foundations of the above metrics within the context of Partially Observable Markov Decision Processes (POMDPs), thus alluding to a broad class of decision-making problems of partially observable stochastic deteriorating environments that can be modeled as POMDPs. Step-wise and life-cycle VoI and VoSHM definitions are devised and their bounds are analyzed as per the properties stemming from the Bellman equation and the resulting optimal value function. It is shown that a POMDP policy inherently leverages the notion of VoI to guide observational actions in an optimal way at every decision step, and that the permanent or intermittent information provided by SHM or inspection visits, respectively, can only improve the cost of this policy in the long-term, something that is not necessarily true under locally optimal policies, typically adopted in decision-making of structures and infrastructure. POMDP solutions are derived based on point-based value iteration methods, and the various definitions are quantified in stationary and non-stationary deteriorating environments, with both infinite and finite planning horizons, featuring single- or multi-component engineering systems.
翻訳日:2023-01-17 12:35:28 公開日:2020-07-20
# 深部二次ネットワークにおける純粋局所最小化の回避

Avoiding Spurious Local Minima in Deep Quadratic Networks ( http://arxiv.org/abs/2001.00098v2 )

ライセンス: Link先を確認
Abbas Kazemipour, Brett W. Larsen and Shaul Druckmann(参考訳) その実用的成功にもかかわらず、ニューラルネットワークの損失景観に関する理論的理解は、高次元、非凸、高非線形構造のために困難であることが証明されている。 本稿では,2次活性化関数を持つニューラルネットワークにおける平均二乗誤差損失のトレーニング環境を特徴付ける。 入力次元よりもニューロンの数が多く、トレーニングサンプルのノルムが回帰器として使用される場合、確率1で容易に脱出できる急激な局所最小値とサドル点の存在を証明した。 2次活性化を持つ深層パラメータ付きニューラルネットワークは、類似の優れたランドスケープ特性の恩恵を受ける。 理論結果はデータ分布に依存せず、2層2次ニューラルネットワークの理論上のギャップを埋める。 最後に、これらの問題に対する世界最小値への収束を実証的に示す。

Despite their practical success, a theoretical understanding of the loss landscape of neural networks has proven challenging due to the high-dimensional, non-convex, and highly nonlinear structure of such models. In this paper, we characterize the training landscape of the mean squared error loss for neural networks with quadratic activation functions. We prove existence of spurious local minima and saddle points which can be escaped easily with probability one when the number of neurons is greater than or equal to the input dimension and the norm of the training samples is used as a regressor. We prove that deep overparameterized neural networks with quadratic activations benefit from similar nice landscape properties. Our theoretical results are independent of data distribution and fill the existing gap in theory for two-layer quadratic neural networks. Finally, we empirically demonstrate convergence to a global minimum for these problems.
翻訳日:2023-01-16 20:32:41 公開日:2020-07-20
# 修正自己分類のための2つの異なる戦略を用いた解釈可能な半教師付き分類器

An interpretable semi-supervised classifier using two different strategies for amended self-labeling ( http://arxiv.org/abs/2001.09502v2 )

ライセンス: Link先を確認
Isel Grau, Dipankar Sengupta, Maria M. Garcia Lorenzo, Ann Nowe(参考訳) 一部の機械学習アプリケーションでは、データインスタンスの取得は比較的簡単なプロセスだが、ラベル付けは高価で退屈な作業になる可能性がある。 このようなシナリオは、ラベル付きインスタンスが少なく、ラベルなしインスタンスの数が多いデータセットにつながる。 半教師付き分類手法は、分類器の一般化能力を高めるために学習段階でラベル付きデータとラベルなしデータを組み合わせる。 確実に、最も成功した半教師付き分類器は結果の説明を許さず、ブラックボックスのように振る舞う。 しかし、専門家が決定プロセスを明確に理解するよう要求する問題領域が増えている。 本稿では,ブラックボックスを用いてクラスラベルの欠落を推定し,ホワイトボックスを用いて最終予測を説明する,解釈可能な自己ラベルグレーボックス分類器に関する実験結果について報告する。 ブラックボックスの信頼度に基づく最初のものと粗い集合論の尺度に基づく後者の2つのアプローチについて考察した。 拡張実験の結果は,本論文で報告されている最先端の自己ラベル分類器と比較して,より優れた予測率を得るとともに,分類器の透明性と簡易性による解釈可能性を支持した。

In the context of some machine learning applications, obtaining data instances is a relatively easy process but labeling them could become quite expensive or tedious. Such scenarios lead to datasets with few labeled instances and a larger number of unlabeled ones. Semi-supervised classification techniques combine labeled and unlabeled data during the learning phase in order to increase the classifier's generalization capability. Regrettably, most successful semi-supervised classifiers do not allow explaining their outcome, thus behaving like black boxes. However, there is an increasing number of problem domains in which experts demand a clear understanding of the decision process. In this paper, we report on an extended experimental study presenting an interpretable self-labeling grey-box classifier that uses a black box to estimate the missing class labels and a white box to explain the final predictions. Two different approaches for amending the self-labeling process are explored: a first one based on the confidence of the black box and the latter one based on measures from Rough Set Theory. The results of the extended experimental study support the interpretability by means of transparency and simplicity of our classifier, while attaining superior prediction rates when compared with state-of-the-art self-labeling classifiers reported in the literature.
翻訳日:2023-01-06 19:16:33 公開日:2020-07-20
# 強化学習を操作する - コスト信号に対する毒殺攻撃

Manipulating Reinforcement Learning: Poisoning Attacks on Cost Signals ( http://arxiv.org/abs/2002.03827v2 )

ライセンス: Link先を確認
Yunhan Huang and Quanyan Zhu(参考訳) 本章は、強化学習(RL)におけるサイバー攻撃の出現について研究し、RLの脆弱性を分析するための定量的アプローチを紹介する。 コスト信号の逆操作に着目し,td($\lambda$)と$q$-learningアルゴリズムの性能劣化を解析した。 TD($\lambda$)の場合、操作されたコストから得られた近似は、攻撃の大きさに比例する近似誤差を持つ。 境界に対する逆攻撃の効果は、$\lambda$の選択に依存しない。 Q$-learningでは、$Q$-learningアルゴリズムがステルス攻撃とコスト信号の有界なファルシフィケーションの下に収束していることを示す。 我々は, ファリシファイドコストと$Q$-factorsの関係と, 攻撃的かつ防御的行動の基本的な限界を提供する学習エージェントの学習方針を特徴付ける。 我々は,敵が目標とする政策を達成できないようなコストの観点から,堅牢な領域を提案する。 我々は,敵の好意的な政策を学ぶためにエージェントを誤解させるおそれのある偽装コストの条件を提供する。 TD($\lambda$)学習のケーススタディは、結果を相関付けるために提供される。

This chapter studies emerging cyber-attacks on reinforcement learning (RL) and introduces a quantitative approach to analyze the vulnerabilities of RL. Focusing on adversarial manipulation on the cost signals, we analyze the performance degradation of TD($\lambda$) and $Q$-learning algorithms under the manipulation. For TD($\lambda$), the approximation learned from the manipulated costs has an approximation error bound proportional to the magnitude of the attack. The effect of the adversarial attacks on the bound does not depend on the choice of $\lambda$. In $Q$-learning, we show that $Q$-learning algorithms converge under stealthy attacks and bounded falsifications on cost signals. We characterize the relation between the falsified cost and the $Q$-factors as well as the policy learned by the learning agent which provides fundamental limits for feasible offensive and defensive moves. We propose a robust region in terms of the cost within which the adversary can never achieve the targeted policy. We provide conditions on the falsified cost which can mislead the agent to learn an adversary's favored policy. A case study of TD($\lambda$) learning is provided to corroborate the results.
翻訳日:2023-01-03 04:45:40 公開日:2020-07-20
# VIFB: 可視で赤外線の画像融合ベンチマーク

VIFB: A Visible and Infrared Image Fusion Benchmark ( http://arxiv.org/abs/2002.03322v4 )

ライセンス: Link先を確認
Xingchen Zhang, Ping Ye, Gang Xiao(参考訳) 可視・赤外線画像融合は、その多くの応用により、画像処理において最も重要な領域の1つである。 近年、フュージョンアルゴリズムの開発で多くの進展が見られたが、最先端を計測できるコードライブラリやベンチマークが不足している。 本稿では,可視・赤外線画像融合の最近の進歩を概観し,21のイメージペア,20の融合アルゴリズムのコードライブラリ,13の評価指標からなる可視・赤外線画像融合ベンチマーク(vifb)を提案する。 また、これらのアルゴリズムの性能を理解するため、ベンチマーク内で大規模な実験を行う。 質的・定量的な結果を分析し,ロバストな画像融合のための効果的なアルゴリズムを特定し,この分野の現状と今後の展望について考察する。

Visible and infrared image fusion is one of the most important areas in image processing due to its numerous applications. While much progress has been made in recent years with efforts on developing fusion algorithms, there is a lack of code library and benchmark which can gauge the state-of-the-art. In this paper, after briefly reviewing recent advances of visible and infrared image fusion, we present a visible and infrared image fusion benchmark (VIFB) which consists of 21 image pairs, a code library of 20 fusion algorithms and 13 evaluation metrics. We also carry out large scale experiments within the benchmark to understand the performance of these algorithms. By analyzing qualitative and quantitative results, we identify effective algorithms for robust image fusion and give some observations on the status and future prospects of this field.
翻訳日:2023-01-02 14:53:48 公開日:2020-07-20
# ローカルSGDはミニバッチSGDより優れているか?

Is Local SGD Better than Minibatch SGD? ( http://arxiv.org/abs/2002.07839v2 )

ライセンス: Link先を確認
Blake Woodworth, Kumar Kshitij Patel, Sebastian U. Stich, Zhen Dai, Brian Bullins, H. Brendan McMahan, Ohad Shamir, Nathan Srebro(参考訳) 局所sgd (parallel sgd, federated averaging) は確率的分散最適化手法である。 現在、その理論的基盤は欠如しており、凸設定における既存のエラー保証が、いかに単純なベースラインであるミニバッチSGDによって支配されているかを強調している。 1) 局所SGDがミニバッチSGDを厳密に支配し, 局所SGDの加速が二次性に最適であることを示す; (2) 一般凸目的のためには, 局所SGDがミニバッチSGDよりも少なくとも時々改善されることを第一保証する; (3) 実際に局所SGDがミニバッチSGDよりも悪い局所SGDの性能の低い境界を示すことによって, 局所SGDがミニバッチSGDを支配できないことを示す。

We study local SGD (also known as parallel SGD and federated averaging), a natural and frequently used stochastic distributed optimization method. Its theoretical foundations are currently lacking and we highlight how all existing error guarantees in the convex setting are dominated by a simple baseline, minibatch SGD. (1) For quadratic objectives we prove that local SGD strictly dominates minibatch SGD and that accelerated local SGD is minimax optimal for quadratics; (2) For general convex objectives we provide the first guarantee that at least sometimes improves over minibatch SGD; (3) We show that indeed local SGD does not dominate minibatch SGD by presenting a lower bound on the performance of local SGD that is worse than the minibatch SGD guarantee.
翻訳日:2022-12-30 19:51:17 公開日:2020-07-20
# ランダム化平滑化によるバックドア攻撃に対するロバスト性証明について

On Certifying Robustness against Backdoor Attacks via Randomized Smoothing ( http://arxiv.org/abs/2002.11750v4 )

ライセンス: Link先を確認
Binghui Wang, Xiaoyu Cao, Jinyuan jia, and Neil Zhenqiang Gong(参考訳) バックドア攻撃はディープニューラルネットワーク(DNN)に対する深刻なセキュリティ脅威である。 我々は、敵対的な例のように、バックドア攻撃のための猫とマウスのゲーム、すなわち、バックドア攻撃を防御するために新しい経験的防御が開発されるが、それらはすぐに強力な適応的バックドア攻撃によって壊れると予想する。 このようなキャット・アンド・ムースゲームを防止するため,バックドア攻撃に対する認証防御に向けて第一歩を踏み出す。 具体的には,近年のランダム化平滑化技術を用いて,バックドア攻撃に対するロバスト性検証の有効性と有効性を検討した。 ランダムな平滑化は、元来、敵の例に対する堅牢性を証明するために開発された。 バックドア攻撃に対する防御のため,ランダムなスムーシングを一般化する。 その結果,バックドア攻撃に対するロバスト性を証明するためにランダム化平滑化を用いた理論的実現可能性を示した。 しかし, 既存のランダム化平滑化手法は, バックドア攻撃に対する防御効果に限界があり, バックドア攻撃に対するロバスト性を証明する新たな理論や手法の必要性が浮き彫りになっている。

Backdoor attack is a severe security threat to deep neural networks (DNNs). We envision that, like adversarial examples, there will be a cat-and-mouse game for backdoor attacks, i.e., new empirical defenses are developed to defend against backdoor attacks but they are soon broken by strong adaptive backdoor attacks. To prevent such cat-and-mouse game, we take the first step towards certified defenses against backdoor attacks. Specifically, in this work, we study the feasibility and effectiveness of certifying robustness against backdoor attacks using a recent technique called randomized smoothing. Randomized smoothing was originally developed to certify robustness against adversarial examples. We generalize randomized smoothing to defend against backdoor attacks. Our results show the theoretical feasibility of using randomized smoothing to certify robustness against backdoor attacks. However, we also find that existing randomized smoothing methods have limited effectiveness at defending against backdoor attacks, which highlight the needs of new theory and methods to certify robustness against backdoor attacks.
翻訳日:2022-12-28 15:55:08 公開日:2020-07-20
# 自動運転のための歩行者モデル 第1報:センシングから追跡まで,低レベルモデル

Pedestrian Models for Autonomous Driving Part I: Low-Level Models, from Sensing to Tracking ( http://arxiv.org/abs/2002.11669v2 )

ライセンス: Link先を確認
Fanta Camara, Nicola Bellotto, Serhan Cosar, Dimitris Nathanael, Matthias Althoff, Jingyuan Wu, Johannes Ruenz, Andr\'e Dietrich and Charles W. Fox(参考訳) 自動走行車(AV)は、歩行者が横断する車のような車道のケースや、歩行者化された高層道路で群衆を通り抜ける配達車のようなオフカージュウェイのケースの両方において、歩行者と空間を共有しなければならない。 静的な障害物とは異なり、歩行者は複雑なインタラクティブな動きを持つアクティブエージェントである。 歩行者の存在下でのAV行動の計画には、将来の行動のモデル化と検出と追跡が必要である。 この物語レビューの記事はペアのパートiであり、このプロセスに関わる現在の技術スタックを調査し、avデザイナーの観点から、低レベル画像検出から高レベル心理学モデルまで、階層的分類法に関する最近の研究を組織している。 この自己完結型パートiは、センシングから検出と認識、歩行者の追跡まで、このスタックの低レベルをカバーする。 これらのレベルの技術は成熟しており、振る舞いモデリングや予測、インタラクション制御など、ハイレベルなシステムで使用される基盤として利用可能である。

Autonomous vehicles (AVs) must share space with pedestrians, both in carriageway cases such as cars at pedestrian crossings and off-carriageway cases such as delivery vehicles navigating through crowds on pedestrianized high-streets. Unlike static obstacles, pedestrians are active agents with complex, interactive motions. Planning AV actions in the presence of pedestrians thus requires modelling of their probable future behaviour as well as detecting and tracking them. This narrative review article is Part I of a pair, together surveying the current technology stack involved in this process, organising recent research into a hierarchical taxonomy ranging from low-level image detection to high-level psychology models, from the perspective of an AV designer. This self-contained Part I covers the lower levels of this stack, from sensing, through detection and recognition, up to tracking of pedestrians. Technologies at these levels are found to be mature and available as foundations for use in high-level systems, such as behaviour modelling, prediction and interaction control.
翻訳日:2022-12-28 15:01:44 公開日:2020-07-20
# 剛体位置制御ロボットを用いたコンタクトリッチマニピュレーションタスクの学習力制御

Learning Force Control for Contact-rich Manipulation Tasks with Rigid Position-controlled Robots ( http://arxiv.org/abs/2003.00628v3 )

ライセンス: Link先を確認
Cristian Camilo Beltran-Hernandez, Damien Petit, Ixchel G. Ramirez-Alpizar, Takayuki Nishi, Shinichi Kikuchi, Takamitsu Matsubara, Kensuke Harada(参考訳) 強化学習(Reinforcement Learning, RL)法は, 作業の自律的解決に成功している。 しかし、実際のハードウェアで作業する場合、特に剛体位置制御マニピュレータを使用する場合、追加の課題が伴うため、rlはまだ実際のロボットシステムで広く採用されていない。 これらの課題には、望ましくない行動を避けるための堅牢なコントローラーの必要性、ロボットとその環境を損なうリスク、そして人間のオペレーターからの継続的な監督などが含まれる。 この研究の主な貢献は、まず、RL技術と従来の力制御を組み合わせた学習に基づく力制御フレームワークを提案することである。 この制御方式では, 位置制御ロボットによる力制御を実現するために, 位置/力制御を改良した並列制御と, アドミタンス制御の2つの方法を実装した。 第2に、RLエージェントの作用空間として用いる際の制御方式を実証的に検討する。 第3に,実剛性ロボットマニピュレータを用いた操作作業において,RLエージェントを安全に訓練するためのフェールセーフ機構を開発した。 提案手法はシミュレーションと実ロボットであるur3 eシリーズロボットアーム上で検証される。

Reinforcement Learning (RL) methods have been proven successful in solving manipulation tasks autonomously. However, RL is still not widely adopted on real robotic systems because working with real hardware entails additional challenges, especially when using rigid position-controlled manipulators. These challenges include the need for a robust controller to avoid undesired behavior, that risk damaging the robot and its environment, and constant supervision from a human operator. The main contributions of this work are, first, we proposed a learning-based force control framework combining RL techniques with traditional force control. Within said control scheme, we implemented two different conventional approaches to achieve force control with position-controlled robots; one is a modified parallel position/force control, and the other is an admittance control. Secondly, we empirically study both control schemes when used as the action space of the RL agent. Thirdly, we developed a fail-safe mechanism for safely training an RL agent on manipulation tasks using a real rigid robot manipulator. The proposed methods are validated on simulation and a real robot, an UR3 e-series robotic arm.
翻訳日:2022-12-27 05:07:22 公開日:2020-07-20
# 動的システムのレンズによるニューラルネットワークの奥行きトレードオフの改善

Better Depth-Width Trade-offs for Neural Networks through the lens of Dynamical Systems ( http://arxiv.org/abs/2003.00777v2 )

ライセンス: Link先を確認
Vaggos Chatziafratis and Sai Ganesh Nagarajan and Ioannis Panageas(参考訳) ニューラルネットワークの深度、幅、活性化単位のタイプとしての表現性は、深層学習理論において重要な問題となっている。 近年、連続写像 $f$ の不動点の一般化概念である周期点を用いて、reluネットワークの深さ分離結果が力学系との新たな接続によって得られた。 本研究では,動的システムとの接続を強化し,既存の幅下限をいくつかの面に沿って改善する。 最初の結果は、より弱い分類誤差の代わりに、$L^1$-近似誤差というより強い概念のもとに保持される周期的幅の低い境界である。 第2の貢献は、以前の結果が適用されない状況において、より鋭い幅の低限を提供し、有意義な指数的深さ-幅分離をもたらすことです。 我々の結果の副産物は、f$が奇数の周期を持つ限り、深さ幅のトレードオフを特徴づける普遍定数が存在することである。 理論的には、以下の3種類の関数(周期、リプシッツ定数、それ自身との関数$f$ の合成下で生じる振動数の増加率)の間により密接な関係を明かした。

The expressivity of neural networks as a function of their depth, width and type of activation units has been an important question in deep learning theory. Recently, depth separation results for ReLU networks were obtained via a new connection with dynamical systems, using a generalized notion of fixed points of a continuous map $f$, called periodic points. In this work, we strengthen the connection with dynamical systems and we improve the existing width lower bounds along several aspects. Our first main result is period-specific width lower bounds that hold under the stronger notion of $L^1$-approximation error, instead of the weaker classification error. Our second contribution is that we provide sharper width lower bounds, still yielding meaningful exponential depth-width separations, in regimes where previous results wouldn't apply. A byproduct of our results is that there exists a universal constant characterizing the depth-width trade-offs, as long as $f$ has odd periods. Technically, our results follow by unveiling a tighter connection between the following three quantities of a given function: its period, its Lipschitz constant and the growth rate of the number of oscillations arising under compositions of the function $f$ with itself.
翻訳日:2022-12-27 04:38:33 公開日:2020-07-20
# PULSE: 生成モデルの潜在空間探索による自己監督型写真アップサンプリング

PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models ( http://arxiv.org/abs/2003.03808v3 )

ライセンス: Link先を確認
Sachit Menon, Alexandru Damian, Shijia Hu, Nikhil Ravi, Cynthia Rudin(参考訳) 単一像超解像の主な目的は、対応する低解像度(LR)入力から高解像度(HR)画像を構築することである。 従来は一般に監督されていた手法では、訓練目的は通常、超解像(SR)とHR画像の間の画素平均距離を測定する。 このようなメトリクスを最適化することは、特に高分散(詳細)領域において、しばしばぼやけにつながる。 本稿では,現実的なSR画像のダウンスケールに基づいて,超解像問題の定式化を提案する。 本稿では,この問題を解決するアルゴリズムであるPULSE(Photo Upsampling via Latent Space Exploration)を提案する。 これは完全に自己監督的な方法で達成され、トレーニング中に使用される特定の劣化演算子に限定されない(LR-HRイメージペアのデータベースの教師付きトレーニングを必要とする)。 LR画像から始めて徐々に詳細を追加する代わりに、PULSEは高解像度の自然画像多様体を横切り、元のLR画像にダウンスケールされた画像を探す。 これは「スケールダウン」によって形式化され、生成モデルの潜在空間での探索を導く。 高次元ガウスの性質を利用することで、現実的な出力を保証するために探索空間を制限する。 これにより、PULSEは現実的かつダウンスケールな超解像を生成する。 顔超解像領域(すなわち、顔幻覚)における我々のアプローチの概念の証明を示す。 また,現在実装されている手法の制約とバイアスについて,関連する指標を付したモデルカードで議論する。 本手法は,従来よりも高分解能,スケール係数の知覚的品質において最先端の手法を上回っている。

The primary aim of single-image super-resolution is to construct high-resolution (HR) images from corresponding low-resolution (LR) inputs. In previous approaches, which have generally been supervised, the training objective typically measures a pixel-wise average distance between the super-resolved (SR) and HR images. Optimizing such metrics often leads to blurring, especially in high variance (detailed) regions. We propose an alternative formulation of the super-resolution problem based on creating realistic SR images that downscale correctly. We present an algorithm addressing this problem, PULSE (Photo Upsampling via Latent Space Exploration), which generates high-resolution, realistic images at resolutions previously unseen in the literature. It accomplishes this in an entirely self-supervised fashion and is not confined to a specific degradation operator used during training, unlike previous methods (which require supervised training on databases of LR-HR image pairs). Instead of starting with the LR image and slowly adding detail, PULSE traverses the high-resolution natural image manifold, searching for images that downscale to the original LR image. This is formalized through the "downscaling loss," which guides exploration through the latent space of a generative model. By leveraging properties of high-dimensional Gaussians, we restrict the search space to guarantee realistic outputs. PULSE thereby generates super-resolved images that both are realistic and downscale correctly. We show proof of concept of our approach in the domain of face super-resolution (i.e., face hallucination). We also present a discussion of the limitations and biases of the method as currently implemented with an accompanying model card with relevant metrics. Our method outperforms state-of-the-art methods in perceptual quality at higher resolutions and scale factors than previously possible.
翻訳日:2022-12-25 14:16:47 公開日:2020-07-20
# 知識グラフのための埋め込みに基づくエンティティアライメントのベンチマーク研究

A Benchmarking Study of Embedding-based Entity Alignment for Knowledge Graphs ( http://arxiv.org/abs/2003.07743v2 )

ライセンス: Link先を確認
Zequn Sun and Qingheng Zhang and Wei Hu and Chengming Wang and Muhao Chen and Farahnaz Akrami and Chengkai Li(参考訳) エンティティアライメントは、同じ現実世界のオブジェクトを参照する異なる知識グラフ(KG)内のエンティティを見つけようとする。 KG埋め込みの最近の進歩は、連続的な埋め込み空間にエンティティをエンコードし、学習された埋め込みに基づいてエンティティ類似度を測定する、埋め込みに基づくエンティティアライメントの出現を示唆している。 本稿では,この新興分野の包括的実験研究を行う。 最近の組込み型エンティティアライメントアプローチ23について調査し,その技術と特徴に基づいて分類した。 また,KGサンプリングアルゴリズムを新たに提案し,様々なヘテロジニティと分布を持つ専用ベンチマークデータセットを生成し,現実的な評価を行う。 我々は,組込み型エンティティアライメントアプローチを代表する12のオープンソースライブラリを開発し,それらの強みと限界を理解するために,これらのアプローチを広範囲に評価する。 また,現在検討されていないいくつかの方向について,探索実験を行い,今後の研究に向けた予備的な知見を報告する。 ベンチマークデータセット、オープンソースライブラリ、実験結果はすべてオンラインでアクセス可能で、完全にメンテナンスされる。

Entity alignment seeks to find entities in different knowledge graphs (KGs) that refer to the same real-world object. Recent advancement in KG embedding impels the advent of embedding-based entity alignment, which encodes entities in a continuous embedding space and measures entity similarities based on the learned embeddings. In this paper, we conduct a comprehensive experimental study of this emerging field. We survey 23 recent embedding-based entity alignment approaches and categorize them based on their techniques and characteristics. We also propose a new KG sampling algorithm, with which we generate a set of dedicated benchmark datasets with various heterogeneity and distributions for a realistic evaluation. We develop an open-source library including 12 representative embedding-based entity alignment approaches, and extensively evaluate these approaches, to understand their strengths and limitations. Additionally, for several directions that have not been explored in current approaches, we perform exploratory experiments and report our preliminary findings for future studies. The benchmark datasets, open-source library and experimental results are all accessible online and will be duly maintained.
翻訳日:2022-12-24 20:18:47 公開日:2020-07-20
# laxary:外傷後ストレス障害評価のための信頼できるtwitter分析モデル

LAXARY: A Trustworthy Explainable Twitter Analysis Model for Post-Traumatic Stress Disorder Assessment ( http://arxiv.org/abs/2003.07433v2 )

ライセンス: Link先を確認
Mohammad Arif Ul Alam and Dhawal Kapadia(参考訳) 退役軍人のメンタルヘルスは、イラクでの戦争から帰還し、アフガニスタンで軍事活動を続ける退役軍人の多くにとって重要な国家的問題である。 有意義な研究がtwitter post-based post traumatic stress disorder (ptsd) の評価をブラックボックス機械学習技術を用いて調査しているが、これらの枠組みは臨床説明の欠如により臨床医には信頼できない。 臨床医の信頼を得るために,我々は,従来臨床医が信頼していたptsd評価調査を満たすのに十分な情報を提供することができるか,という大きな疑問を探求する。 この疑問に答えるために, LAXARY(Linguistic Analysis-based Exaplainable Inquiry)モデルと, 改良された言語問合せと単語カウント(LIWC)分析を用いて, twitterユーザのPTSDアセスメントを検出し, 表現するための新しい人工知能(XAI)モデルを提案する。 まず,臨床検査ツールを用いて実Twitter利用者のPTSD評価データを収集し,PTSD評価結果を用いたPTSD言語辞書を作成する。 次に,ptsd言語辞書と機械学習モデルを用いて,ptsd状況検出のための調査ツールと,それに対応するtwitterユーザの強度を満たした。 臨床的に検証された210名のベテランTwitterユーザを対象に,PTSD分類と強度推定の両面で有望な精度を提供する実験を行った。 また,開発したptsd言語辞書の信頼性と妥当性も評価した。

Veteran mental health is a significant national problem as large number of veterans are returning from the recent war in Iraq and continued military presence in Afghanistan. While significant existing works have investigated twitter posts-based Post Traumatic Stress Disorder (PTSD) assessment using blackbox machine learning techniques, these frameworks cannot be trusted by the clinicians due to the lack of clinical explainability. To obtain the trust of clinicians, we explore the big question, can twitter posts provide enough information to fill up clinical PTSD assessment surveys that have been traditionally trusted by clinicians? To answer the above question, we propose, LAXARY (Linguistic Analysis-based Exaplainable Inquiry) model, a novel Explainable Artificial Intelligent (XAI) model to detect and represent PTSD assessment of twitter users using a modified Linguistic Inquiry and Word Count (LIWC) analysis. First, we employ clinically validated survey tools for collecting clinical PTSD assessment data from real twitter users and develop a PTSD Linguistic Dictionary using the PTSD assessment survey results. Then, we use the PTSD Linguistic Dictionary along with machine learning model to fill up the survey tools towards detecting PTSD status and its intensity of corresponding twitter users. Our experimental evaluation on 210 clinically validated veteran twitter users provides promising accuracies of both PTSD classification and its intensity estimation. We also evaluate our developed PTSD Linguistic Dictionary's reliability and validity.
翻訳日:2022-12-23 02:37:28 公開日:2020-07-20
# ファウショット分類のための多領域表現からの関連特徴の選択

Selecting Relevant Features from a Multi-domain Representation for Few-shot Classification ( http://arxiv.org/abs/2003.09338v2 )

ライセンス: Link先を確認
Nikita Dvornik, Cordelia Schmid, Julien Mairal(参考訳) 少数ショット分類の一般的なアプローチは、まず大きな注釈付きデータセットに基づいてジェネリックデータ表現を学習し、その後にラベル付きサンプルが与えられた新しいクラスに表現を適用する。 本研究では,従来の機能適応アプローチよりもシンプルで効果的である特徴選択に基づく新しい戦略を提案する。 まず、意味的に異なる特徴抽出器の集合を訓練することにより、多領域表現を得る。 そして、数ショットの学習タスクから、最も関連性の高い表現を自動的に選択するために、マルチドメイン機能バンクを使用します。 このような機能の上に構築された単純な非パラメトリック分類器は、トレーニング中に見られない領域に高い精度で一般化し、MetaDatasetの最先端結果とmini-ImageNetの精度の向上をもたらすことを示す。

Popular approaches for few-shot classification consist of first learning a generic data representation based on a large annotated dataset, before adapting the representation to new classes given only a few labeled samples. In this work, we propose a new strategy based on feature selection, which is both simpler and more effective than previous feature adaptation approaches. First, we obtain a multi-domain representation by training a set of semantically different feature extractors. Then, given a few-shot learning task, we use our multi-domain feature bank to automatically select the most relevant representations. We show that a simple non-parametric classifier built on top of such features produces high accuracy and generalizes to domains never seen during training, which leads to state-of-the-art results on MetaDataset and improved accuracy on mini-ImageNet.
翻訳日:2022-12-21 22:42:46 公開日:2020-07-20
# 深層ニューラルネットワークからの成分物体検出の空間的融合による地対空ミサイル地点の広域探索と検出

Broad Area Search and Detection of Surface-to-Air Missile Sites Using Spatial Fusion of Component Object Detections from Deep Neural Networks ( http://arxiv.org/abs/2003.10566v3 )

ライセンス: Link先を確認
Alan B. Cannaday II, Curt H. Davis, Grant J. Scott, Blake Ruprecht, Derek T. Anderson(参考訳) 本稿では、より大きく、より複雑で包含的な複数の構成的またはコンポーネントオブジェクトのディープニューラルネットワーク(DNN)検出を空間的に融合して、より大きな複雑な特徴の探索、検出、検索(ランク付け)を改善する方法を示す。 まず、空間クラスタリングアルゴリズムから計算したスコアを基準空間に正規化し、画像解像度とDNN入力チップサイズに依存しないようにする。 次に、様々なコンポーネントオブジェクトからのマルチスケールDNN検出を融合して、より大規模な複雑な特徴のDNN検出と検索を改善する。 本手法は,中国の約90,000km^2研究地域において,非常に低い発生率(わずか16箇所)の地表面対空ミサイル(sam)地点の広域探索および検出に有用であることを示す。 その結果,マルチスケールコンポーネントオブジェクトDNN検出の空間融合により,SAMサイトの検出エラー率を,100%リコールを維持しながら$85%削減できることがわかった。 ここで実証された新しい空間融合アプローチは、大規模なリモートセンシング画像データセットにおいて、様々な難解な物体探索および検出問題に容易に拡張できる。

Here we demonstrate how Deep Neural Network (DNN) detections of multiple constitutive or component objects that are part of a larger, more complex, and encompassing feature can be spatially fused to improve the search, detection, and retrieval (ranking) of the larger complex feature. First, scores computed from a spatial clustering algorithm are normalized to a reference space so that they are independent of image resolution and DNN input chip size. Then, multi-scale DNN detections from various component objects are fused to improve the detection and retrieval of DNN detections of a larger complex feature. We demonstrate the utility of this approach for broad area search and detection of Surface-to-Air Missile (SAM) sites that have a very low occurrence rate (only 16 sites) over a ~90,000 km^2 study area in SE China. The results demonstrate that spatial fusion of multi-scale component-object DNN detections can reduce the detection error rate of SAM Sites by $>$85% while still maintaining a 100% recall. The novel spatial fusion approach demonstrated here can be easily extended to a wide variety of other challenging object search and detection problems in large-scale remote sensing image datasets.
翻訳日:2022-12-21 00:35:03 公開日:2020-07-20
# 変形可能なスタイル転送

Deformable Style Transfer ( http://arxiv.org/abs/2003.11038v2 )

ライセンス: Link先を確認
Sunnie S. Y. Kim, Nicholas Kolkin, Jason Salavon, Gregory Shakhnarovich(参考訳) 幾何学とテクスチャはどちらもビジュアルスタイルの基本要素である。 しかし、既存のスタイル伝達法は主にテクスチャに焦点を当てており、ほとんど完全に幾何学を無視している。 本稿では,コンテンツ画像のテクスチャと形状を協調的にスタイリングし,スタイル画像に合致させる最適化方式であるdeformable style transfer (dst)を提案する。 従来の幾何学的スタイル化法とは異なり、我々のアプローチは特定のドメイン(例えば人間の顔)に限定されたり、マッチングスタイル/コンテンツペアのトレーニングセットを必要としない。 本手法は,肖像画,動物,物,風景,絵画など,多種多様な内容や様式の画像に対して実証する。 コードはhttps://github.com/sunniesuhyoung/DSTで公開されている。

Both geometry and texture are fundamental aspects of visual style. Existing style transfer methods, however, primarily focus on texture, almost entirely ignoring geometry. We propose deformable style transfer (DST), an optimization-based approach that jointly stylizes the texture and geometry of a content image to better match a style image. Unlike previous geometry-aware stylization methods, our approach is neither restricted to a particular domain (such as human faces), nor does it require training sets of matching style/content pairs. We demonstrate our method on a diverse set of content and style images including portraits, animals, objects, scenes, and paintings. Code has been made publicly available at https://github.com/sunniesuhyoung/DST.
翻訳日:2022-12-20 08:49:34 公開日:2020-07-20
# 自律運転のための歩行者モデル その2:人間行動の高レベルモデル

Pedestrian Models for Autonomous Driving Part II: High-Level Models of Human Behavior ( http://arxiv.org/abs/2003.11959v2 )

ライセンス: Link先を確認
Fanta Camara, Nicola Bellotto, Serhan Cosar, Florian Weber, Dimitris Nathanael, Matthias Althoff, Jingyuan Wu, Johannes Ruenz, Andr\'e Dietrich, Gustav Markkula, Anna Schieben, Fabio Tango, Natasha Merat and Charles W. Fox(参考訳) 自動走行車(AV)は、歩行者が横断する車のような車道のケースや、歩行者化された高層道路で群衆を通り抜ける配達車のようなオフカージュウェイのケースの両方において、歩行者と空間を共有しなければならない。 静的な障害物とは異なり、歩行者は複雑なインタラクティブな動きを持つアクティブエージェントである。 歩行者の存在下でのAV行動の計画には、将来の行動のモデル化と検出と追跡が必要である。 本論文は,av設計者の視点から,低レベル画像検出から高レベル心理学モデルまで,階層分類学に関する最近の研究を組織し,このプロセスに関わる現在の技術スタックを調査したペアのパートiiである。 この自己完結型パートIIは、歩行者の行動モデルから、歩行者の目的地や道の予測、歩行者と自動運転車の間の相互作用のゲーム理論モデルまで、このスタックのより高いレベルをカバーする。 この調査は、最適な歩行行動には良いモデルが存在するが、歩行者行動の高レベル心理学的・社会的モデリングは、多くの概念的問題を解明する必要があるオープンな研究課題のままであることを示している。 初期の研究は記述的および定性的な行動モデルで行われているが、実用的なAV制御のための定量的アルゴリズムに翻訳するためにはまだ多くの作業が必要である。

Autonomous vehicles (AVs) must share space with pedestrians, both in carriageway cases such as cars at pedestrian crossings and off-carriageway cases such as delivery vehicles navigating through crowds on pedestrianized high-streets. Unlike static obstacles, pedestrians are active agents with complex, interactive motions. Planning AV actions in the presence of pedestrians thus requires modelling of their probable future behaviour as well as detecting and tracking them. This narrative review article is Part II of a pair, together surveying the current technology stack involved in this process, organising recent research into a hierarchical taxonomy ranging from low-level image detection to high-level psychological models, from the perspective of an AV designer. This self-contained Part II covers the higher levels of this stack, consisting of models of pedestrian behaviour, from prediction of individual pedestrians' likely destinations and paths, to game-theoretic models of interactions between pedestrians and autonomous vehicles. This survey clearly shows that, although there are good models for optimal walking behaviour, high-level psychological and social modelling of pedestrian behaviour still remains an open research question that requires many conceptual issues to be clarified. Early work has been done on descriptive and qualitative models of behaviour, but much work is still needed to translate them into quantitative algorithms for practical AV control.
翻訳日:2022-12-19 22:14:28 公開日:2020-07-20
# 画像修復とマニピュレーションのための深部生成前処理

Exploiting Deep Generative Prior for Versatile Image Restoration and Manipulation ( http://arxiv.org/abs/2003.13659v4 )

ライセンス: Link先を確認
Xingang Pan, Xiaohang Zhan, Bo Dai, Dahua Lin, Chen Change Loy, Ping Luo(参考訳) 優れた画像の事前学習は、画像の復元と操作の長期的な目標である。 deep image prior (dip)のような既存の手法は低レベルの画像統計をキャプチャするが、色、空間的コヒーレンス、テクスチャ、ハイレベルな概念を含む豊かな画像セマンティクスをキャプチャする画像には、まだギャップがある。 本研究は, 大規模自然画像に基づいて学習したGAN(Generative Adversarial Network)により, 得られた画像の有効利用方法を示す。 図1に示すように、深層生成前駆体(DGP)は、様々な劣化した画像の色、パッチ、解像度などの欠落した意味を復元するための魅力的な結果を提供する。 また、ランダムジッタリング、画像モーフィング、カテゴリ転送など、多様な画像操作も可能である。 このような高度に柔軟な復元と操作は、ジェネレータを固定する傾向がある既存のGAN反転法の仮定を緩和することで可能となる。 特に、GANの識別器によって得られる特徴距離によって、プログレッシブな方法で、ジェネレータをオンザフライで微調整できるようにする。 これらの実装が容易で実践的な変化は自然画像の多様体に残るように再構築を保ち、実画像のより正確で忠実な再構築に繋がることを示す。 コードはhttps://github.com/xingangpan/deep-generative-priorで入手できる。

Learning a good image prior is a long-term goal for image restoration and manipulation. While existing methods like deep image prior (DIP) capture low-level image statistics, there are still gaps toward an image prior that captures rich image semantics including color, spatial coherence, textures, and high-level concepts. This work presents an effective way to exploit the image prior captured by a generative adversarial network (GAN) trained on large-scale natural images. As shown in Fig.1, the deep generative prior (DGP) provides compelling results to restore missing semantics, e.g., color, patch, resolution, of various degraded images. It also enables diverse image manipulation including random jittering, image morphing, and category transfer. Such highly flexible restoration and manipulation are made possible through relaxing the assumption of existing GAN-inversion methods, which tend to fix the generator. Notably, we allow the generator to be fine-tuned on-the-fly in a progressive manner regularized by feature distance obtained by the discriminator in GAN. We show that these easy-to-implement and practical changes help preserve the reconstruction to remain in the manifold of nature image, and thus lead to more precise and faithful reconstruction for real images. Code is available at https://github.com/XingangPan/deep-generative-prior.
翻訳日:2022-12-18 08:30:25 公開日:2020-07-20
# 人間のデモのない障害物タワー:強化学習による深層フィードフォワードネットワークの走行距離

Obstacle Tower Without Human Demonstrations: How Far a Deep Feed-Forward Network Goes with Reinforcement Learning ( http://arxiv.org/abs/2004.00567v2 )

ライセンス: Link先を確認
Marco Pleines, Jenia Jitsev, Mike Preuss, and Frank Zimmer(参考訳) オブスタークルタワーチャレンジ(Obstacle Tower Challenge)は、手続き的に生成されたレベルのチェーンをマスターするタスクである。 去年のコンペでは、人間のデモや報酬のシェイピングを使って課題の対処法を学んでいるが、本論文では、比較的単純なフィードフォワード深層ネットワーク構造による深層強化学習によって、競争力(第7位)で完全にスクラッチからスタートするアプローチを提案する。 特に,競争後に利用可能になった種や様々な視覚テーマに関する取組アプローチの一般化性能を考察し,エージェントがどこで失敗したのか,その理由について検討する。 我々のアプローチは、繰り返し発生する隠蔽状態を採用するような短期記憶を持っていないことに注意。 この研究により、抽象的なタスク構造自体がかなり単純である複雑な3D視覚入力を含む環境での学習に応用できる比較的単純で柔軟なソリューションで、何ができるかをよりよく理解できるようになることを期待する。

The Obstacle Tower Challenge is the task to master a procedurally generated chain of levels that subsequently get harder to complete. Whereas the most top performing entries of last year's competition used human demonstrations or reward shaping to learn how to cope with the challenge, we present an approach that performed competitively (placed 7th) but starts completely from scratch by means of Deep Reinforcement Learning with a relatively simple feed-forward deep network structure. We especially look at the generalization performance of the taken approach concerning different seeds and various visual themes that have become available after the competition, and investigate where the agent fails and why. Note that our approach does not possess a short-term memory like employing recurrent hidden states. With this work, we hope to contribute to a better understanding of what is possible with a relatively simple, flexible solution that can be applied to learning in environments featuring complex 3D visual input where the abstract task structure itself is still fairly simple.
翻訳日:2022-12-17 17:43:07 公開日:2020-07-20
# 画像から画像への変換のためのモデルベースオクルージョン・ディアングルメント

Model-based occlusion disentanglement for image-to-image translation ( http://arxiv.org/abs/2004.01071v2 )

ライセンス: Link先を確認
Fabio Pizzati, Pietro Cerri, Raoul de Charette(参考訳) 画像から画像への変換は、雨滴や汚れなどの咬合を包含するターゲットデータの場合、絡み合い現象によって影響を受ける。 教師なしモデルに基づく学習は, 咬合モデルの物理的パラメータを後退させる逆パイプラインの利点を享受しながら, 情景と咬合の対立を解消する。 実験により,本手法は様々な種類のオクルージョンを処理し,質的かつ定量的に複数のデータセット上で最先端の精度を達成できることを示す。

Image-to-image translation is affected by entanglement phenomena, which may occur in case of target data encompassing occlusions such as raindrops, dirt, etc. Our unsupervised model-based learning disentangles scene and occlusions, while benefiting from an adversarial pipeline to regress physical parameters of the occlusion model. The experiments demonstrate our method is able to handle varying types of occlusions and generate highly realistic translations, qualitatively and quantitatively outperforming the state-of-the-art on multiple datasets.
翻訳日:2022-12-17 10:03:28 公開日:2020-07-20
# DSA: 分散化によるより効率的な予算削減

DSA: More Efficient Budgeted Pruning via Differentiable Sparsity Allocation ( http://arxiv.org/abs/2004.02164v5 )

ライセンス: Link先を確認
Xuefei Ning, Tianchen Zhao, Wenshuo Li, Peng Lei, Yu Wang, Huazhong Yang(参考訳) 予算プルーニングは資源制約下でのプルーニングの問題である。 予算化されたプルーニングでは、リソースをレイヤ(すなわちスパーシティアロケーション)に分散させる方法が重要な問題です。 従来の方法では、効率に欠ける層毎の刈り取り比を離散的に探索することで解決する。 本稿では,効率的なエンドツーエンドのプルーニングフローである分散スパシティアロケーション(DSA)を提案する。 新たな微分可能なプルーニングプロセスを用いることで、DSAは勾配に基づく最適化による階層的プルーニング比を求める。 連続空間における空間の空間性は、離散的な評価と探索に基づく手法よりも効率的である。 さらに、DSAはpruning-from-scratch方式で動作し、従来の予算付きプルーニング方式は事前訓練されたモデルに適用される。 CIFAR-10 と ImageNet の実験結果から,DSA は現行の反復型刈り込み法よりも優れた性能を達成でき,その間に全刈り工程の時間コストを少なくとも1.5倍短縮できることがわかった。

Budgeted pruning is the problem of pruning under resource constraints. In budgeted pruning, how to distribute the resources across layers (i.e., sparsity allocation) is the key problem. Traditional methods solve it by discretely searching for the layer-wise pruning ratios, which lacks efficiency. In this paper, we propose Differentiable Sparsity Allocation (DSA), an efficient end-to-end budgeted pruning flow. Utilizing a novel differentiable pruning process, DSA finds the layer-wise pruning ratios with gradient-based optimization. It allocates sparsity in continuous space, which is more efficient than methods based on discrete evaluation and search. Furthermore, DSA could work in a pruning-from-scratch manner, whereas traditional budgeted pruning methods are applied to pre-trained models. Experimental results on CIFAR-10 and ImageNet show that DSA could achieve superior performance than current iterative budgeted pruning methods, and shorten the time cost of the overall pruning process by at least 1.5x in the meantime.
翻訳日:2022-12-16 11:58:42 公開日:2020-07-20
# 集束型フィルターcnnによる組織像の回転対称性の活用

Dense Steerable Filter CNNs for Exploiting Rotational Symmetry in Histology Images ( http://arxiv.org/abs/2004.03037v2 )

ライセンス: Link先を確認
Simon Graham, David Epstein and Nasir Rajpoot(参考訳) 組織像は本質的に回転下で対称であり、それぞれの方向が等しく現れる。 しかし、この回転対称性は現代の畳み込みニューラルネットワーク(cnns)の事前知識として広くは使われておらず、それぞれの方向で独立した特徴を学ぶデータ飢えたモデルを生み出している。 CNNを回転同変にすることで、データからこの変換セットを学習する必要がなくなり、代わりにモデルのキャパシティが解放され、より差別的な特徴が学習できるようになる。 この要求パラメータ数の削減は、オーバーフィッティングのリスクを減少させる。 本稿では,各フィルタの複数の回転コピーを持つ群畳み込みを,密結合した枠組みで用いる,密集したステアブルフィルタcnn (dsf-cnns) を提案する。 各フィルタは、ステアブル基底フィルタの線形結合として定義され、標準フィルタと比較して正確な回転とトレーニング可能なパラメータの数を減らすことができる。 また, 異なる回転同値cnnのヒストロジー画像解析における最初の詳細な比較を行い, 回転対称性を現代のアーキテクチャにエンコードする利点を実証した。 dsf-cnnsは,乳腺の分類,大腸腺分画,多施設核分画という3つの計算病理領域の異なる課題に適用することで,極めて少ないパラメータで最先端のパフォーマンスを達成できることを示した。

Histology images are inherently symmetric under rotation, where each orientation is equally as likely to appear. However, this rotational symmetry is not widely utilised as prior knowledge in modern Convolutional Neural Networks (CNNs), resulting in data hungry models that learn independent features at each orientation. Allowing CNNs to be rotation-equivariant removes the necessity to learn this set of transformations from the data and instead frees up model capacity, allowing more discriminative features to be learned. This reduction in the number of required parameters also reduces the risk of overfitting. In this paper, we propose Dense Steerable Filter CNNs (DSF-CNNs) that use group convolutions with multiple rotated copies of each filter in a densely connected framework. Each filter is defined as a linear combination of steerable basis filters, enabling exact rotation and decreasing the number of trainable parameters compared to standard filters. We also provide the first in-depth comparison of different rotation-equivariant CNNs for histology image analysis and demonstrate the advantage of encoding rotational symmetry into modern architectures. We show that DSF-CNNs achieve state-of-the-art performance, with significantly fewer parameters, when applied to three different tasks in the area of computational pathology: breast tumour classification, colon gland segmentation and multi-tissue nuclear segmentation.
翻訳日:2022-12-16 07:30:11 公開日:2020-07-20
# Monte Carlo シミュレーションによる SQL データベースをストレージとした sstudy パッケージを用いた Python のシミュレーション

Monte Carlo simulation studies on Python using the sstudy package with SQL databases as storage ( http://arxiv.org/abs/2004.14479v3 )

ライセンス: Link先を確認
Marco H A In\'acio(参考訳) パフォーマンスアセスメントは、新しい機械学習/統計推定器を提案するプロセスにおける重要な問題である。 そのようなタスクを完了するための可能な方法は、真の分布が与えられた多くの複製を平均化することで、推定器(および他の統計)の特性(予測力など)を推定・比較する手順として、シミュレーション研究を用いて定義できる。 本稿では,ストレージシステムとしてsqlデータベースエンジンを用いたシミュレーション研究の簡易化を目的としたpythonパッケージであるsstudyについて述べる。 また,シミュレーション研究の手順を統計的に簡潔に記述し,それによる推定を簡易に説明するとともに,いくつかの応用例を示す。

Performance assessment is a key issue in the process of proposing new machine learning/statistical estimators. A possible method to complete such task is by using simulation studies, which can be defined as the procedure of estimating and comparing properties (such as predictive power) of estimators (and other statistics) by averaging over many replications given a true distribution; i.e.: generating a dataset, fitting the estimator, calculating and storing the predictive power, and then repeating the procedure many times and finally averaging over the stored predictive powers. Given that, in this paper, we present sstudy: a Python package designed to simplify the preparation of simulation studies using SQL database engines as the storage system; more specifically, we present its basic features, usage examples and references to the its documentation. We also present a short statistical description of the simulation study procedure with a simplified explanation of what is being estimated by it, as well as some examples of applications.
翻訳日:2022-12-09 06:15:49 公開日:2020-07-20
# kungfupanda at semeval-2020 task 12: bert-based multi-task learning for offensive language detection

Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for Offensive Language Detection ( http://arxiv.org/abs/2004.13432v2 )

ライセンス: Link先を確認
Wenliang Dai, Tiezheng Yu, Zihan Liu, Pascale Fung(参考訳) 近年,ソーシャルメディアにおける攻撃的コンテンツは深刻な問題となり,攻撃的言語の自動検出が重要な課題となっている。 本稿では,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築する。 BERTのような事前学習された言語モデルを用いて,ソーシャルメディアにおけるノイズの多いテキストの表現を効果的に学習することができる。 さらに、攻撃的言語検出の性能を高めるために、他の関連するタスクからの監視信号を活用する。 OffensEval-2020では、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位(92.23%F1)に匹敵する。 提案手法の有効性を説明するための実証分析を行った。

Nowadays, offensive content in social media has become a serious problem, and automatically detecting offensive language is an essential task. In this paper, we build an offensive language detection system, which combines multi-task learning with BERT-based models. Using a pre-trained language model such as BERT, we can effectively learn the representations for noisy text in social media. Besides, to boost the performance of offensive language detection, we leverage the supervision signals from other related tasks. In the OffensEval-2020 competition, our model achieves 91.51% F1 score in English Sub-task A, which is comparable to the first place (92.23%F1). An empirical analysis is provided to explain the effectiveness of our approaches.
翻訳日:2022-12-08 22:05:57 公開日:2020-07-20
# エンドツーエンド手話生成のためのプログレッシブトランス

Progressive Transformers for End-to-End Sign Language Production ( http://arxiv.org/abs/2004.14874v2 )

ライセンス: Link先を確認
Ben Saunders and Necati Cihan Camgoz and Richard Bowden(参考訳) 自動手話生成(automatic sign language production, slp)の目標は、音声言語を人間の翻訳者と同等のレベルで手話ビデオの連続ストリームに変換することである。 もしこれが達成できたら、聴覚障害者のコミュニケーションに革命をもたらすだろう。 主に孤立したSLPに関する以前の研究は、完全な符号列の連続領域により適したアーキテクチャの必要性を示している。 そこで,本稿では,個別音声文から連続3次元スケルトン文に手話を表す出力を変換できる新しいアーキテクチャであるprogressive transformersを提案する。 本稿では,テキストから直接署名を生成するエンドツーエンドネットワークと,光沢仲介を利用するスタックネットワークの2つのモデル構成を提案する。 我々のトランスネットワークアーキテクチャは、トレーニングと推論における連続シーケンス生成を可能にするカウンタを導入している。 また, ドリフトの問題を克服し, SLPモデルの性能を向上させるために, いくつかのデータ拡張プロセスも提供する。 本稿では,SLPの逆変換評価機構を提案し,RWTH-PHOENIX-Weather-2014T(PHOENIX14T)データセットのベンチマーク結果と今後の研究のベースラインの設定を行う。

The goal of automatic Sign Language Production (SLP) is to translate spoken language to a continuous stream of sign language video at a level comparable to a human translator. If this was achievable, then it would revolutionise Deaf hearing communications. Previous work on predominantly isolated SLP has shown the need for architectures that are better suited to the continuous domain of full sign sequences. In this paper, we propose Progressive Transformers, a novel architecture that can translate from discrete spoken language sentences to continuous 3D skeleton pose outputs representing sign language. We present two model configurations, an end-to-end network that produces sign direct from text and a stacked network that utilises a gloss intermediary. Our transformer network architecture introduces a counter that enables continuous sequence generation at training and inference. We also provide several data augmentation processes to overcome the problem of drift and improve the performance of SLP models. We propose a back translation evaluation mechanism for SLP, presenting benchmark quantitative results on the challenging RWTH-PHOENIX-Weather-2014T(PHOENIX14T) dataset and setting baselines for future research.
翻訳日:2022-12-08 02:55:50 公開日:2020-07-20
# 深部生成モデルを用いた語彙データのマイノリティクラスオーバーサンプリング

Minority Class Oversampling for Tabular Data with Deep Generative Models ( http://arxiv.org/abs/2005.03773v2 )

ライセンス: Link先を確認
Ramiro Camino, Christian Hammerschmidt, Radu State(参考訳) 実際、機械学習の専門家は、しばしば不均衡なデータに直面します。 不均衡を考慮せずに、一般的な分類器は性能が悪く、標準評価基準はモデルのパフォーマンスを実践者に誤解させる。 不均衡なデータセットを扱う一般的な方法はアンダーサンプリングとオーバーサンプリングである。 このプロセスでは、サンプルが多数派クラスから削除されるか、少数派クラスに合成サンプルを追加する。 本稿では,近年の深層学習の発展について述べる。 筆者らは, 自己を含む深層生成モデルの提案を行い, オーバーサンプリングによる非バランスな分類タスクの性能向上を図るために, これらの手法の有効性について検討する。 160k以上の実験で、新しい手法はすべてsmoteのような単純なベースラインメソッドよりもパフォーマンスが良い傾向を示した。 実験の結果,サンプリング手法は品質に影響を与えないが,実行環境は様々であることがわかった。 また、性能指標の点でも、メソッドのランク付けにおいて重要であるが、特に必要な労力と比較して、絶対的な用語では小さいことがよく見られる。 さらに,改善の大部分はオーバーサンプリングではなく,オーバーサンプリングによるものであることも分かりました。 コードとテストフレームワークを利用可能にします。

In practice, machine learning experts are often confronted with imbalanced data. Without accounting for the imbalance, common classifiers perform poorly and standard evaluation metrics mislead the practitioners on the model's performance. A common method to treat imbalanced datasets is under- and oversampling. In this process, samples are either removed from the majority class or synthetic samples are added to the minority class. In this paper, we follow up on recent developments in deep learning. We take proposals of deep generative models, including our own, and study the ability of these approaches to provide realistic samples that improve performance on imbalanced classification tasks via oversampling. Across 160K+ experiments, we show that all of the new methods tend to perform better than simple baseline methods such as SMOTE, but require different under- and oversampling ratios to do so. Our experiments show that the way the method of sampling does not affect quality, but runtime varies widely. We also observe that the improvements in terms of performance metric, while shown to be significant when ranking the methods, often are minor in absolute terms, especially compared to the required effort. Furthermore, we notice that a large part of the improvement is due to undersampling, not oversampling. We make our code and testing framework available.
翻訳日:2022-12-05 22:49:04 公開日:2020-07-20
# Naive-Student: 都市シーンセグメンテーションのためのビデオシーケンスにおける半教師付き学習の活用

Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences for Urban Scene Segmentation ( http://arxiv.org/abs/2005.10266v4 )

ライセンス: Link先を確認
Liang-Chieh Chen, Raphael Gontijo Lopes, Bowen Cheng, Maxwell D. Collins, Ekin D. Cubuk, Barret Zoph, Hartwig Adam, Jonathon Shlens(参考訳) 大規模識別モデルにおける教師付き学習は、現代のコンピュータビジョンの主流である。 このようなアプローチは、最先端の成果を得るために、大規模な人間の注釈付きデータセットへの投資を必要とする。 教師付き学習の有効性は、人間の注釈付きデータセットのサイズによって制限される可能性がある。 この制限は、人間のアノテーションのコストが特に大きいが、ラベルのない大量のデータが存在しているイメージセグメンテーションタスクで特に顕著である。 本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を活用して,都市シーンセグメンテーションの性能向上,セマンティックス,パノプティックスセグメンテーションの同時対応,などを提案する。 この研究の目的は、ラベルの伝搬(例えば、パッチマッチングと光の流れ)に特化した洗練された学習されたアーキテクチャの構築を避けることである。 代わりに、ラベルなしデータの擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。 この手順は何度も繰り返される。 その結果、単純な、かつ効果的な半教師付き学習で訓練されたnaive-sudentモデルは、3つのcityscapesベンチマーク全てで最先端の結果を達成し、テストセットで67.8%のpq、42.6%のap、85.2%のmiouの性能に達した。 我々は、この作業が、未ラベルのビデオシーケンスと余分な画像を利用して、コアコンピュータビジョンタスクにおける最先端のパフォーマンスを上回る簡単な手順を構築するための注目すべきステップであると考えている。

Supervised learning in large discriminative models is a mainstay for modern computer vision. Such an approach necessitates investing in large-scale human-annotated datasets for achieving state-of-the-art results. In turn, the efficacy of supervised learning may be limited by the size of the human annotated dataset. This limitation is particularly notable for image segmentation tasks, where the expense of human annotation is especially large, yet large amounts of unlabeled data may exist. In this work, we ask if we may leverage semi-supervised learning in unlabeled video sequences and extra images to improve the performance on urban scene segmentation, simultaneously tackling semantic, instance, and panoptic segmentation. The goal of this work is to avoid the construction of sophisticated, learned architectures specific to label propagation (e.g., patch matching and optical flow). Instead, we simply predict pseudo-labels for the unlabeled data and train subsequent models with both human-annotated and pseudo-labeled data. The procedure is iterated for several times. As a result, our Naive-Student model, trained with such simple yet effective iterative semi-supervised learning, attains state-of-the-art results at all three Cityscapes benchmarks, reaching the performance of 67.8% PQ, 42.6% AP, and 85.2% mIOU on the test set. We view this work as a notable step towards building a simple procedure to harness unlabeled video sequences and extra images to surpass state-of-the-art performance on core computer vision tasks.
翻訳日:2022-12-01 05:50:25 公開日:2020-07-20
# 局所グラフクラスタリングのための$p$-norm Flow Diffusion

$p$-Norm Flow Diffusion for Local Graph Clustering ( http://arxiv.org/abs/2005.09810v3 )

ライセンス: Link先を確認
Kimon Fountoulakis, Di Wang, Shenghao Yang(参考訳) ローカルグラフクラスタリングと密接に関連するシードセット拡張問題は、ローカルクラスタリング、コミュニティ検出、ノードランキング、特徴推論など、幅広い分析および学習タスクの中心となるグラフ上のプリミティブである。 局所グラフクラスタリングの先行研究は、それぞれ数値と組合せの根を持つ2つのカテゴリに分類される。 本研究では,両分野から着想を得て,p-ノルムネットワークフローを用いた拡散の考え方に基づく凸最適化の一群を,$p\in (1,\infty)$で提案する。 局所クラスタリングの文脈において,これらの最適化問題に対する最適解を特徴付け,入力シード集合周辺の低コンダクタンスカットを求める際に有用性を示す。 特に、スペクトル法のチーガー型境界に類似した$p=2$の場合のコンダクタンスの2次近似、最大フロー法に類似した$p\rightarrow\infty$の定数係数近似、および一般の$p$値に対する滑らかな遷移を達成する。 したがって,この最適化定式化は数値的手法と組合せ的手法の橋渡しと見なすことができ,速度と雑音のロバスト性の観点から両世界のベストを実現できる。 提案手法は,p\ge 2$に対して強い局所実行時間で解くことができ,実世界のグラフと合成グラフの双方で実験的な評価を行い,既存の手法とよく比較できることを示す。

Local graph clustering and the closely related seed set expansion problem are primitives on graphs that are central to a wide range of analytic and learning tasks such as local clustering, community detection, nodes ranking and feature inference. Prior work on local graph clustering mostly falls into two categories with numerical and combinatorial roots respectively. In this work, we draw inspiration from both fields and propose a family of convex optimization formulations based on the idea of diffusion with p-norm network flow for $p\in (1,\infty)$. In the context of local clustering, we characterize the optimal solutions for these optimization problems and show their usefulness in finding low conductance cuts around input seed set. In particular, we achieve quadratic approximation of conductance in the case of $p=2$ similar to the Cheeger-type bounds of spectral methods, constant factor approximation when $p\rightarrow\infty$ similar to max-flow based methods, and a smooth transition for general $p$ values in between. Thus, our optimization formulation can be viewed as bridging the numerical and combinatorial approaches, and we can achieve the best of both worlds in terms of speed and noise robustness. We show that the proposed problem can be solved in strongly local running time for $p\ge 2$ and conduct empirical evaluations on both synthetic and real-world graphs to illustrate our approach compares favorably with existing methods.
翻訳日:2022-12-01 05:16:04 公開日:2020-07-20
# ニューラルマシン翻訳における教師なし品質推定

Unsupervised Quality Estimation for Neural Machine Translation ( http://arxiv.org/abs/2005.10608v2 )

ライセンス: Link先を確認
Marina Fomicheva, Shuo Sun, Lisa Yankovskaya, Fr\'ed\'eric Blain, Francisco Guzm\'an, Mark Fishel, Nikolaos Aletras, Vishrav Chaudhary, Lucia Specia(参考訳) QE(Quality Estimation)は,実世界のアプリケーションにおいて,テスト時のMT出力の品質をユーザに知らせることを目的として,機械翻訳(MT)を有用にするための重要なコンポーネントである。 既存のアプローチでは、大量の専門家アノテートデータ、計算、トレーニング時間が必要です。 代替として、MTシステム自体以外に、トレーニングや追加リソースへのアクセスが不要な、教師なしのQEアプローチを考案する。 MTシステムをブラックボックスとして扱う現在の作業と異なり、翻訳の副産物としてMTシステムから抽出できる有用な情報を探索する。 不確実性定量化の手法を用いることで、品質の人間の判断と非常によく相関し、最先端の教師付きQEモデルと競合する。 アプローチを評価するために、最初のデータセットを収集し、QEに対するブラックボックスとガラスボックスの両方のアプローチで作業できるようにしました。

Quality Estimation (QE) is an important component in making Machine Translation (MT) useful in real-world applications, as it is aimed to inform the user on the quality of the MT output at test time. Existing approaches require large amounts of expert annotated data, computation and time for training. As an alternative, we devise an unsupervised approach to QE where no training or access to additional resources besides the MT system itself is required. Different from most of the current work that treats the MT system as a black box, we explore useful information that can be extracted from the MT system as a by-product of translation. By employing methods for uncertainty quantification, we achieve very good correlation with human judgments of quality, rivalling state-of-the-art supervised QE models. To evaluate our approach we collect the first dataset that enables work on both black-box and glass-box approaches to QE.
翻訳日:2022-11-30 23:29:15 公開日:2020-07-20
# 関節バーテブラ検出のためのキーポイント定位と破壊重大度定量化

Keypoints Localization for Joint Vertebra Detection and Fracture Severity Quantification ( http://arxiv.org/abs/2005.11960v2 )

ライセンス: Link先を確認
Maxim Pisov, Vladimir Kondratenko, Alexey Zakharov, Alexey Petraikin, Victor Gombolevskiy, Sergey Morozov, Mikhail Belyaev(参考訳) 椎体圧迫骨折は骨粗しょう症の早期徴候である。 これらの骨折はCT(CT)画像で見られるが、臨床環境では放射線医にしばしば見逃される。 椎骨骨折の自動分類法に関する以前の研究は、その信頼性の高い品質を証明しているが、既存の方法では解釈が困難であり、高度に病的な椎骨や脊柱症のような重度の異常のある症例を処理できない場合もある。 3次元CT画像で脊椎を局所化し,同時に個々の脊椎を検出し,2次元で骨折を定量化する新しい2段階のアルゴリズムを提案する。 我々は、単純な6キーポイントベースのアノテーションスキームを用いて、両方のステップでニューラルネットワークをトレーニングする。 アルゴリズムには除外基準がなく、1つのGPUで2秒で3D CTを処理し、直感的で検証可能な出力を提供する。 この方法はエキスパートレベルの性能に接近し、椎骨3dの局在(平均誤差は1mm)、椎骨2dの検出(精度は0.99、リコールは1)、骨折同定(患者レベルのroc aucは0.93)の最先端結果を示す。

Vertebral body compression fractures are reliable early signs of osteoporosis. Though these fractures are visible on Computed Tomography (CT) images, they are frequently missed by radiologists in clinical settings. Prior research on automatic methods of vertebral fracture classification proves its reliable quality; however, existing methods provide hard-to-interpret outputs and sometimes fail to process cases with severe abnormalities such as highly pathological vertebrae or scoliosis. We propose a new two-step algorithm to localize the vertebral column in 3D CT images and then to simultaneously detect individual vertebrae and quantify fractures in 2D. We train neural networks for both steps using a simple 6-keypoints based annotation scheme, which corresponds precisely to current medical recommendation. Our algorithm has no exclusion criteria, processes 3D CT in 2 seconds on a single GPU, and provides an intuitive and verifiable output. The method approaches expert-level performance and demonstrates state-of-the-art results in vertebrae 3D localization (the average error is 1 mm), vertebrae 2D detection (precision is 0.99, recall is 1), and fracture identification (ROC AUC at the patient level is 0.93).
翻訳日:2022-11-29 06:22:49 公開日:2020-07-20
# IVFのためのヒト胚の形態的特徴の自動計測

Automated Measurements of Key Morphological Features of Human Embryos for IVF ( http://arxiv.org/abs/2006.00067v2 )

ライセンス: Link先を確認
Brian D. Leahy, Won-Dong Jang, Helen Y. Yang, Robbert Struyven, Donglai Wei, Zhe Sun, Kylie R. Lee, Charlotte Royston, Liz Cam, Yael Kalma, Foad Azem, Dalit Ben-Yosef, Hanspeter Pfister, Daniel Needleman(参考訳) In-Vitro Fertilization (IVF) における大きな課題は、妊娠を期待して、患者に最も高品質な胚を移植することである。 タイムラプス顕微鏡は、胚を選択するための豊富な情報を提供する。 しかし、その結果得られた胚の映画は現在手作業で分析されており、これは時間と主観的なものである。 本稿では,5つの畳み込みニューラルネットワーク(CNN)の機械学習パイプラインを用いて,ヒト胚の時間分解顕微鏡の特徴抽出を自動化する。 本パイプラインは,(1) 胚の領域のセマンティックセグメンテーション,(2) フラグメント重大度の回帰予測,(3) 発達段階の分類,(4) 細胞と(5) プロヌクレイのオブジェクトインスタンスセグメンテーションから構成される。 我々の手法は、胚の選別に役立つ量的、生物学的な特徴の測定を大幅に高速化する。

A major challenge in clinical In-Vitro Fertilization (IVF) is selecting the highest quality embryo to transfer to the patient in the hopes of achieving a pregnancy. Time-lapse microscopy provides clinicians with a wealth of information for selecting embryos. However, the resulting movies of embryos are currently analyzed manually, which is time consuming and subjective. Here, we automate feature extraction of time-lapse microscopy of human embryos with a machine-learning pipeline of five convolutional neural networks (CNNs). Our pipeline consists of (1) semantic segmentation of the regions of the embryo, (2) regression predictions of fragment severity, (3) classification of the developmental stage, and object instance segmentation of (4) cells and (5) pronuclei. Our approach greatly speeds up the measurement of quantitative, biologically relevant features that may aid in embryo selection.
翻訳日:2022-11-26 23:12:04 公開日:2020-07-20
# GRNet:Dense Point Cloud Completionのためのグリッド残留ネットワーク

GRNet: Gridding Residual Network for Dense Point Cloud Completion ( http://arxiv.org/abs/2006.03761v4 )

ライセンス: Link先を確認
Haozhe Xie, Hongxun Yao, Shangchen Zhou, Jiageng Mao, Shengping Zhang, Wenxiu Sun(参考訳) 不完全なものから完全な3dポイントクラウドを推定することは、多くのビジョンとロボティクスアプリケーションにおいて重要な問題である。 主流の手法(pcnやtopnetなど)は、ポイントクラウドを直接処理するために多層パーセプトロン(mlps)を使用しており、ポイントクラウドの構造やコンテキストが十分に考慮されていないため、詳細が失われる可能性がある。 この問題を解決するため、3次元グリッドを中間表現として、無順序点雲を正則化する。 そこで我々は,ポイントクラウド補完のための新しいGridding Residual Network (GRNet)を提案する。 特に、GriddingとGridding Reverseという2つの新しい異なる層を考案し、構造情報を失うことなくポイントクラウドと3Dグリッドを変換する。 また,コンテキスト情報を保存する隣接点の特徴を抽出するために,微分可能な立方体特徴サンプリング層を提案する。 さらに,新たな損失関数,すなわちグリッドロスを設計し,予測された3次元グリッドと地上の真理点雲との間のl1距離を計算し,詳細を復元する。 実験結果から,提案したGRNetはShapeNet,Completion3D,KITTIベンチマークの最先端手法に対して良好に動作することがわかった。

Estimating the complete 3D point cloud from an incomplete one is a key problem in many vision and robotics applications. Mainstream methods (e.g., PCN and TopNet) use Multi-layer Perceptrons (MLPs) to directly process point clouds, which may cause the loss of details because the structural and context of point clouds are not fully considered. To solve this problem, we introduce 3D grids as intermediate representations to regularize unordered point clouds. We therefore propose a novel Gridding Residual Network (GRNet) for point cloud completion. In particular, we devise two novel differentiable layers, named Gridding and Gridding Reverse, to convert between point clouds and 3D grids without losing structural information. We also present the differentiable Cubic Feature Sampling layer to extract features of neighboring points, which preserves context information. In addition, we design a new loss function, namely Gridding Loss, to calculate the L1 distance between the 3D grids of the predicted and ground truth point clouds, which is helpful to recover details. Experimental results indicate that the proposed GRNet performs favorably against state-of-the-art methods on the ShapeNet, Completion3D, and KITTI benchmarks.
翻訳日:2022-11-24 21:31:49 公開日:2020-07-20
# 機械学習と制御工学: モデルフリーの場合

Machine learning and control engineering: The model-free case ( http://arxiv.org/abs/2006.05738v3 )

ライセンス: Link先を確認
Michel Fliess, C\'edric Join(参考訳) 本稿では、モデルフリー強化学習と混同してはならないモデルフリー制御(MFC)が機械学習(ML)の新しいツールであることを述べる。 mfcは実装が容易であり、人工ニューラルネットワークや強化学習を通じて制御工学をmlに置き換えるべきである。 この点を確かめるために、今日のML技術で既に研究されている実験室実験が報告されている。

This paper states that Model-Free Control (MFC), which must not be confused with Model-Free Reinforcement Learning, is a new tool for Machine Learning (ML). MFC is easy to implement and should be substituted in control engineering to ML via Artificial Neural Networks and/or Reinforcement Learning. A laboratory experiment, which was already investigated via today's ML techniques, is reported in order to confirm this viewpoint.
翻訳日:2022-11-23 06:34:35 公開日:2020-07-20
# 音楽生成のための連続データセット拡張における音楽知識の導入

Incorporating Music Knowledge in Continual Dataset Augmentation for Music Generation ( http://arxiv.org/abs/2006.13331v4 )

ライセンス: Link先を確認
Alisa Liu, Alexander Fang, Ga\"etan Hadjeres, Prem Seetharaman, Bryan Pardo(参考訳) 深層学習は急速に音楽生成の最先端のアプローチになりつつある。 しかし、深層モデルの訓練には、通常大きなトレーニングセットが必要であり、特定の音楽スタイルでは使用できないことが多い。 本稿では,資源制約領域で学習した音楽生成システムにおいて,データ拡張の手法である拡張生成(aug-gen)を提案する。 この方法の重要な直感は、生成システムのトレーニングデータが、トレーニング中にシステムが生成する例によって拡張可能であることであり、これらの例が十分に高品質で多様なものであることを前提としている。 我々は、Aug-Gen をトランスフォーマーベースのコラール生成に J.S. Bach のスタイルで適用し、これによりより長いトレーニングが可能となり、より優れた生成出力が得られることを示す。

Deep learning has rapidly become the state-of-the-art approach for music generation. However, training a deep model typically requires a large training set, which is often not available for specific musical styles. In this paper, we present augmentative generation (Aug-Gen), a method of dataset augmentation for any music generation system trained on a resource-constrained domain. The key intuition of this method is that the training data for a generative system can be augmented by examples the system produces during the course of training, provided these examples are of sufficiently high quality and variety. We apply Aug-Gen to Transformer-based chorale generation in the style of J.S. Bach, and show that this allows for longer training and results in better generative output.
翻訳日:2022-11-17 22:43:22 公開日:2020-07-20
# グラフニューラルネットワークによる可変次元時系列処理

Handling Variable-Dimensional Time Series with Graph Neural Networks ( http://arxiv.org/abs/2007.00411v5 )

ライセンス: Link先を確認
Vibhor Gupta, Jyoti Narwariya, Pankaj Malhotra, Lovekesh Vig, Gautam Shroff(参考訳) IoT(Internet of Things)テクノロジのいくつかのアプリケーションは、複数のセンサからデータをキャプチャして、複数のセンサ時系列を生成する。 既存のニューラルネットワークに基づくマルチセンサや多変量時系列モデリングのアプローチは、一定の入力次元やセンサーの数を想定している。 このようなアプローチは、モバイル、ウェアラブル、エンジンなど、同じデバイスや機器の異なるインスタンスが、インストールされたセンサーの異なる組み合わせで提供されるような現実的な状況で苦労する可能性がある。 我々は、時系列のソースごとに異なるセンサーのサブセットの可用性やインストールにより、時系列が入力次元の異なるマルチセンサ時系列からニューラルネットワークモデルをトレーニングすることを検討する。 本研究では,テスト時に利用可能な次元やセンサの組み合わせが事前に見つからなかった多変量時系列に対して頑健な推論を可能にする,ゼロショット変換学習に適したニューラルネットワークアーキテクチャを提案する。 このような組合せ一般化は、コアニューラルネットワークベースの時系列モデルの層を、各時系列毎に利用可能なセンサーの組み合わせの情報を運ぶ「コンディショニングベクター」で条件付けすることで達成される。 この条件付ベクトルは、利用可能なセンサに対応する学習された「センサ埋め込みベクトル」のセットをグラフニューラルネットワークを介して時系列に要約して得られる。 提案手法は, 利用可能な活動認識と機器の予後データセットに対するアプローチを評価し, 提案手法により, ディープゲートリカレントニューラルネットワークベースラインと比較して, より一般化できることを示す。

Several applications of Internet of Things (IoT) technology involve capturing data from multiple sensors resulting in multi-sensor time series. Existing neural networks based approaches for such multi-sensor or multivariate time series modeling assume fixed input dimension or number of sensors. Such approaches can struggle in the practical setting where different instances of the same device or equipment such as mobiles, wearables, engines, etc. come with different combinations of installed sensors. We consider training neural network models from such multi-sensor time series, where the time series have varying input dimensionality owing to availability or installation of a different subset of sensors at each source of time series. We propose a novel neural network architecture suitable for zero-shot transfer learning allowing robust inference for multivariate time series with previously unseen combination of available dimensions or sensors at test time. Such a combinatorial generalization is achieved by conditioning the layers of a core neural network-based time series model with a "conditioning vector" that carries information of the available combination of sensors for each time series. This conditioning vector is obtained by summarizing the set of learned "sensor embedding vectors" corresponding to the available sensors in a time series via a graph neural network. We evaluate the proposed approach on publicly available activity recognition and equipment prognostics datasets, and show that the proposed approach allows for better generalization in comparison to a deep gated recurrent neural network baseline.
翻訳日:2022-11-14 22:45:16 公開日:2020-07-20
# 注意の数学的理論

A Mathematical Theory of Attention ( http://arxiv.org/abs/2007.02876v2 )

ライセンス: Link先を確認
James Vuckovic, Aristide Baratin, Remi Tachet des Combes(参考訳) 注意は、様々な領域にわたる現代のニューラルネットワークの強力なコンポーネントである。 しかし、機械学習におけるユビキタスさにもかかわらず、理論的観点からの注意の理解にはギャップがある。 本稿では,測度理論を用いた数学的に等価な注意モデルを構築し,このギャップを埋める枠組みを提案する。 このモデルにより、自己相互作用粒子の系として自己アテンションを解釈することができ、最大エントロピーの観点から自己アテンションに光を当て、適切な仮定の下で、注意が実際にリプシッツ連続性(適切な計量を持つ)であることを示す。 そして、これらの洞察を、不特定な入力データの問題、無限に深く、重みを共有できる自己アテンションネットワーク、そしてより一般的なリプシッツ推定に適用する。

Attention is a powerful component of modern neural networks across a wide variety of domains. However, despite its ubiquity in machine learning, there is a gap in our understanding of attention from a theoretical point of view. We propose a framework to fill this gap by building a mathematically equivalent model of attention using measure theory. With this model, we are able to interpret self-attention as a system of self-interacting particles, we shed light on self-attention from a maximum entropy perspective, and we show that attention is actually Lipschitz-continuous (with an appropriate metric) under suitable assumptions. We then apply these insights to the problem of mis-specified input data; infinitely-deep, weight-sharing self-attention networks; and more general Lipschitz estimates for a specific type of attention studied in concurrent work.
翻訳日:2022-11-13 01:43:24 公開日:2020-07-20
# Euler Neural-NetworksによるSyllogismの学習

Learning Syllogism with Euler Neural-Networks ( http://arxiv.org/abs/2007.07320v2 )

ライセンス: Link先を確認
Tiansi Dong, Chengjiang Li, Christian Bauckhage, Juanzi Li, Stefan Wrobel, Armin B. Cremers(参考訳) 従来のニューラルネットワークは、すべてをベクトルとして表現し、論理推論のサブセットをある程度近似することができる。 基本論理関係は領域間のトポロジ的関係によりより良く表現されるので、全てのことを球として表現し、オイラー図として位相的構成を学習できる新しいニューラルネットワークを提案する。 略称はEuler Neural-Network(ENN)。 ボールの中心ベクトルは、従来のニューラルネットワークの表現力を継承できるベクトルである。 ENNは、ボール間で4つの空間的状態、すなわち切断され、部分的に重なり合い、一部が逆部分である。 各状態において、理想値は効率的な推論のために定義される。 6つのRectified Space Unit (ReSU) を持つ新しいバックプロパゲーションアルゴリズムは、論理的前提を表すオイラー図を最適化し、論理的結論を導出することができる。 従来のニューラルネットワークとは対照的に、ennは24の異なるシルロジズム構造をすべて正確に表現することができる。 WordNet-3.0から抽出された1つは全ての種類のシロジズム推論をカバーし、もう1つはDBpediaからすべての家族関係を抽出する。 実験結果は、論理表現と推論において、ENNの優れたパワーを承認する。 要求に応じてデータセットとソースコードが利用可能だ。

Traditional neural networks represent everything as a vector, and are able to approximate a subset of logical reasoning to a certain degree. As basic logic relations are better represented by topological relations between regions, we propose a novel neural network that represents everything as a ball and is able to learn topological configuration as an Euler diagram. So comes the name Euler Neural-Network (ENN). The central vector of a ball is a vector that can inherit representation power of traditional neural network. ENN distinguishes four spatial statuses between balls, namely, being disconnected, being partially overlapped, being part of, being inverse part of. Within each status, ideal values are defined for efficient reasoning. A novel back-propagation algorithm with six Rectified Spatial Units (ReSU) can optimize an Euler diagram representing logical premises, from which logical conclusion can be deduced. In contrast to traditional neural network, ENN can precisely represent all 24 different structures of Syllogism. Two large datasets are created: one extracted from WordNet-3.0 covers all types of Syllogism reasoning, the other extracted all family relations from DBpedia. Experiment results approve the superior power of ENN in logical representation and reasoning. Datasets and source code are available upon request.
翻訳日:2022-11-10 13:21:28 公開日:2020-07-20
# マルチタスクガウス過程を用いた非均一量子化スキームの探索

Finding Non-Uniform Quantization Schemes using Multi-Task Gaussian Processes ( http://arxiv.org/abs/2007.07743v2 )

ライセンス: Link先を確認
Marcelo Gennari do Nascimento, Theo W. Costain, Victor Adrian Prisacariu(参考訳) 本稿では,ニューラルネットワークの量子化手法を提案する。ニューラルネットワークの探索問題をハイパーパラメータ探索の1つとして,CNNの層全体に一様でないビット分布を求める。 問題を複数のタスクに分割し、それぞれ異なるトレーニング期間に対応するマルチタスクガウス処理を前提とした探索を行い、最大情報が得られる構成をサンプリングして空間を探索する。 次に、最後のレイヤで大幅に精度を下げることで、メモリの節約を達成できる精度の低下が最小限に抑えられることを示す。 我々は、VGG、ResNet、GoogLeNetアーキテクチャを用いて、CIFAR10およびImageNetデータセット上で実験を行った。

We propose a novel method for neural network quantization that casts the neural architecture search problem as one of hyperparameter search to find non-uniform bit distributions throughout the layers of a CNN. We perform the search assuming a Multi-Task Gaussian Processes prior, which splits the problem to multiple tasks, each corresponding to different number of training epochs, and explore the space by sampling those configurations that yield maximum information. We then show that with significantly lower precision in the last layers we achieve a minimal loss of accuracy with appreciable memory savings. We test our findings on the CIFAR10 and ImageNet datasets using the VGG, ResNet and GoogLeNet architectures.
翻訳日:2022-11-10 06:02:07 公開日:2020-07-20
# 画素レベルでの自動画像ラベリング

Automatic Image Labelling at Pixel Level ( http://arxiv.org/abs/2007.07415v2 )

ライセンス: Link先を確認
Xiang Zhang, Wei Zhang, Jinye Peng, Jianping Fan(参考訳) セマンティックイメージセグメンテーションのためのディープネットワークの性能は、ピクセルレベルでラベル付けされた大規模トレーニングイメージの可用性に大きく依存する。 通常、そのようなピクセルレベルの画像ラベリングは、労働集約プロセスによって手動で得られる。 手動画像ラベリングの負担を軽減するため,画素レベルの画像ラベリングを自動的に生成する興味深い学習手法を提案する。 誘導フィルタネットワーク(gfn)は、まず、ソースドメインからセグメンテーション知識を学習するために開発され、その後、そのようなセグメンテーション知識を転送して対象ドメイン内の粗いオブジェクトマスクを生成する。 このような粗いオブジェクトマスクは擬似ラベルとして扱われ、ターゲットドメインで反復的にgfnを最適化/再定義するためにさらに統合される。 6つの画像集合に対する実験により,提案手法により,手作業による被写体に非常に匹敵する微細な被写体マスク(ピクセルレベルの被写体ラベル)を生成できることが実証された。 提案手法は,既存の弱教師付きアプローチよりもセマンティックイメージセグメンテーションの性能が向上する。

The performance of deep networks for semantic image segmentation largely depends on the availability of large-scale training images which are labelled at the pixel level. Typically, such pixel-level image labellings are obtained manually by a labour-intensive process. To alleviate the burden of manual image labelling, we propose an interesting learning approach to generate pixel-level image labellings automatically. A Guided Filter Network (GFN) is first developed to learn the segmentation knowledge from a source domain, and such GFN then transfers such segmentation knowledge to generate coarse object masks in the target domain. Such coarse object masks are treated as pseudo labels and they are further integrated to optimize/refine the GFN iteratively in the target domain. Our experiments on six image sets have demonstrated that our proposed approach can generate fine-grained object masks (i.e., pixel-level object labellings), whose quality is very comparable to the manually-labelled ones. Our proposed approach can also achieve better performance on semantic image segmentation than most existing weakly-supervised approaches.
翻訳日:2022-11-10 05:44:28 公開日:2020-07-20
# 任意の領域上の最小二乗曲面再構成

Least squares surface reconstruction on arbitrary domains ( http://arxiv.org/abs/2007.08661v2 )

ライセンス: Link先を確認
Dizhong Zhu, William A P Smith(参考訳) コンピュータビジョンでは、表面微分が必要な場合、それらは1次精度の有限差分近似を用いて計算される。 2D Savitzky-GolayフィルタとK-nearest近傍カーネルに基づく数値微分の計算法を提案する。 導関数行列は、大きな雑音の存在下で任意の(あるいは切断された)領域上の最小二乗曲面再構成に使用することができ、高次多項式局所曲面近似を可能にする。 これらは、通常の深度(表面微分)、高さから正規度(表面積分)、形状からxまで、様々なタスクに有用である。 同じ定式化を用いた線形最小二乗問題として、また、視点の場合の変数の非線形な変化を避けるために、正書法と遠近法の両方を記述する方法を示す。 我々は,これらのタスクに対して,合成データと実データの両方に比較して性能を向上し,我々の手法のオープンソース実装を利用可能にしている。

Almost universally in computer vision, when surface derivatives are required, they are computed using only first order accurate finite difference approximations. We propose a new method for computing numerical derivatives based on 2D Savitzky-Golay filters and K-nearest neighbour kernels. The resulting derivative matrices can be used for least squares surface reconstruction over arbitrary (even disconnected) domains in the presence of large noise and allowing for higher order polynomial local surface approximations. They are useful for a range of tasks including normal-from-depth (i.e. surface differentiation), height-from-normals (i.e. surface integration) and shape-from-x. We show how to write both orthographic or perspective height-from-normals as a linear least squares problem using the same formulation and avoiding a nonlinear change of variables in the perspective case. We demonstrate improved performance relative to state-of-the-art across these tasks on both synthetic and real data and make available an open source implementation of our method.
翻訳日:2022-11-09 23:42:09 公開日:2020-07-20
# SAILenv: 仮想ビジュアル環境での学習はシンプルに

SAILenv: Learning in Virtual Visual Environments Made Simple ( http://arxiv.org/abs/2007.08224v2 )

ライセンス: Link先を確認
Enrico Meloni, Luca Pasqualini, Matteo Tiezzi, Marco Gori, Stefano Melacci(参考訳) 近年、機械学習アルゴリズム、コンピュータビジョン科学者、エンジニアなどの研究者は、現実世界と非常に近い実験的な設定を人工的に作成する手段として、3dシミュレータへの関心が高まっていることを示した。 しかし、既存の3D環境とアルゴリズムをインターフェースするプラットフォームの多くは、ナビゲーション関連の実験をセットアップしたり、物理的相互作用を研究したり、カスタマイズされていないと思われるアドホックケースを扱うために設計されている。 本稿では,簡易かつカスタマイズ可能な新しいプラットフォームであるsailenvを提案する。これにより研究者は仮想3dシーンで視覚認識を実験できる。 すべてのアルゴリズムを仮想世界とインターフェースするためには数行のコードが必要であり、非3Dグラフィックの専門家は簡単に3D環境自体をカスタマイズでき、フォトリアリスティックなオブジェクトのコレクションを利用することができる。 我々のフレームワークはピクセルレベルのセマンティクスとインスタンスのラベル付け、深さ、そして私たちの知る限り、それは3Dエンジンから直接受け継がれるモーション関連情報を提供する唯一のものである。 クライアントサーバ間の通信は低レベルで動作し、HTTPベースのデータ交換のオーバーヘッドを回避する。 実世界の画像で訓練された最先端の物体検出器を用いて実験を行い、我々の環境の光実物的3dオブジェクトを認識できることを示した。 光フローの計算負荷は、現代のgpuベースの畳み込みネットワークやより古典的な実装を用いた推定と好適に比較できる。 私たちは、科学コミュニティが、新しく提案されたアルゴリズムを独自のリアルな条件で評価するための、フレームワークの容易さと高品質の恩恵を受けると信じています。

Recently, researchers in Machine Learning algorithms, Computer Vision scientists, engineers and others, showed a growing interest in 3D simulators as a mean to artificially create experimental settings that are very close to those in the real world. However, most of the existing platforms to interface algorithms with 3D environments are often designed to setup navigation-related experiments, to study physical interactions, or to handle ad-hoc cases that are not thought to be customized, sometimes lacking a strong photorealistic appearance and an easy-to-use software interface. In this paper, we present a novel platform, SAILenv, that is specifically designed to be simple and customizable, and that allows researchers to experiment visual recognition in virtual 3D scenes. A few lines of code are needed to interface every algorithm with the virtual world, and non-3D-graphics experts can easily customize the 3D environment itself, exploiting a collection of photorealistic objects. Our framework yields pixel-level semantic and instance labeling, depth, and, to the best of our knowledge, it is the only one that provides motion-related information directly inherited from the 3D engine. The client-server communication operates at a low level, avoiding the overhead of HTTP-based data exchanges. We perform experiments using a state-of-the-art object detector trained on real-world images, showing that it is able to recognize the photorealistic 3D objects of our environment. The computational burden of the optical flow compares favourably with the estimation performed using modern GPU-based convolutional networks or more classic implementations. We believe that the scientific community will benefit from the easiness and high-quality of our framework to evaluate newly proposed algorithms in their own customized realistic conditions.
翻訳日:2022-11-09 23:25:58 公開日:2020-07-20
# CoNES: コンベックスの自然進化戦略

CoNES: Convex Natural Evolutionary Strategies ( http://arxiv.org/abs/2007.08601v2 )

ライセンス: Link先を確認
Sushant Veer, Anirudha Majumdar(参考訳) 我々は,凸最適化と情報幾何学のツールを活用することで,高次元ブラックボックス関数を最適化するための新しいアルゴリズム,凸自然進化戦略(CoNES)を提案する。 CoNESは、進化戦略(ES)勾配推定に適応して高速収束を促進する効率よく解決可能な凸プログラムとして定式化されている。 結果のアルゴリズムは、信念分布のパラメータ化に不変である。 その結果,ブラックボックスオプティマイザのベンチマークにおいて,従来のブラックボックス最適化法を大きく上回っていることがわかった。 さらに、CoNESは、OpenAIのMuJoCo強化学習タスクの選択において、従来のブラックボックスメソッドよりも早く収束できることを実証している。

We present a novel algorithm -- convex natural evolutionary strategies (CoNES) -- for optimizing high-dimensional blackbox functions by leveraging tools from convex optimization and information geometry. CoNES is formulated as an efficiently-solvable convex program that adapts the evolutionary strategies (ES) gradient estimate to promote rapid convergence. The resulting algorithm is invariant to the parameterization of the belief distribution. Our numerical results demonstrate that CoNES vastly outperforms conventional blackbox optimization methods on a suite of functions used for benchmarking blackbox optimizers. Furthermore, CoNES demonstrates the ability to converge faster than conventional blackbox methods on a selection of OpenAI's MuJoCo reinforcement learning tasks for locomotion.
翻訳日:2022-11-09 22:48:59 公開日:2020-07-20
# SummPip: 文グラフ圧縮による教師なしマルチドキュメント要約

SummPip: Unsupervised Multi-Document Summarization with Sentence Graph Compression ( http://arxiv.org/abs/2007.08954v2 )

ライセンス: Link先を確認
Jinming Zhao, Ming Liu, Longxiang Gao, Yuan Jin, Lan Du, He Zhao, He Zhang and Gholamreza Haffari(参考訳) マルチドキュメント要約(MDS)のためのトレーニングデータを取得するのは時間を要するため、最近のニューラルモデルは限られたドメインに対してのみトレーニングすることができる。 本稿では,原文書を文グラフに変換し,言語表現と深部表現の両方を考慮に入れ,スペクトルクラスタリングを適用して複数の文のクラスタを取得し,最後に各クラスタを圧縮して最終要約を生成する,多文書要約の教師なし手法であるSummPipを提案する。 マルチニューズおよびDUC-2004データセットの実験により、我々の手法は従来の教師なし手法と競合し、ニューラルネットワークによるアプローチに匹敵することを示した。 また,人間による評価の結果から,本システムでは人による要約に比べて一貫した完全要約が得られている。

Obtaining training data for multi-document summarization (MDS) is time consuming and resource-intensive, so recent neural models can only be trained for limited domains. In this paper, we propose SummPip: an unsupervised method for multi-document summarization, in which we convert the original documents to a sentence graph, taking both linguistic and deep representation into account, then apply spectral clustering to obtain multiple clusters of sentences, and finally compress each cluster to generate the final summary. Experiments on Multi-News and DUC-2004 datasets show that our method is competitive to previous unsupervised methods and is even comparable to the neural supervised approaches. In addition, human evaluation shows our system produces consistent and complete summaries compared to human written ones.
翻訳日:2022-11-09 13:31:52 公開日:2020-07-20
# 光子計数検出器を用いたスペクトルctからの新しい深層学習に基づく単色画像合成法

A novel deep learning-based method for monochromatic image synthesis from spectral CT using photon-counting detectors ( http://arxiv.org/abs/2007.09870v1 )

ライセンス: Link先を確認
Ao Zheng, Hongkai Yang, Li Zhang and Yuxiang Xing(参考訳) 光子計数検出器(pcd)の普及に伴い、スペクトルctは物質分化の可能性を秘めている。 しかし、クロストークやパルス蓄積のようないくつかの非理想的要因により、検出されたスペクトルからの直接再構成は補正なしでは間違った結果が得られる。 従来の手法では、キャリブレーションを用いてこれらの因子をモデル化し、適切な補正を試みるが、モデルの正確性に依存する。 そこで本研究では,シングラム領域で動作する深層学習に基づく単色画像合成手法を提案する。 この問題を目的とした従来のディープラーニングベースの手法とは異なり,クロストークの物理モデルに基づいた新たなネットワークアーキテクチャを設計した。 本手法は,PCDを装着したコーンビームCT(CBCT)システムを用いて検討した。 補正された投影にfdkアルゴリズムを用いた結果,ノイズが少なく精度が向上し,単色画像合成が可能となった。

With the growing technology of photon-counting detectors (PCD), spectral CT is a widely concerned topic which has the potential of material differentiation. However, due to some non-ideal factors such as cross talk and pulse pile-up of the detectors, direct reconstruction from detected spectrum without any corrections will get a wrong result. Conventional methods try to model these factors using calibration and make corrections accordingly, but depend on the preciseness of the model. To solve this problem, in this paper, we proposed a novel deep learning-based monochromatic image synthesis method working in sinogram domain. Different from previous deep learning-based methods aimed at this problem, we designed a novel network architecture according to the physical model of cross talk, and it can solve this problem better in an ingenious way. Our method was tested on a cone-beam CT (CBCT) system equipped with a PCD. After using FDK algorithm on the corrected projection, we got quite more accurate results with less noise, which showed the feasibility of monochromatic image synthesis by our method.
翻訳日:2022-11-08 14:53:38 公開日:2020-07-20
# ボリューム可視化のための学習適応サンプリングと再構成

Learning Adaptive Sampling and Reconstruction for Volume Visualization ( http://arxiv.org/abs/2007.10093v1 )

ライセンス: Link先を確認
Sebastian Weiss, Mustafa I\c{s}{\i}k, Justus Thies, R\"udiger Westermann(参考訳) データ視覚化における中心的な課題は、関連する情報がエンコードされたデータセットのイメージを生成するためにどのデータサンプルが必要なのかを理解することである。 本研究では,データ,サンプリングパターン,生成した画像の対応関係を学習することにより,人工知能が高密度または低密度のサンプルデータの場所を予測できるかどうか,という疑問に答える第一歩を踏み出す。 与えられた低解像度入力画像からスパース適応サンプリング構造を生成するためにエンドツーエンドを訓練した新しいニューラルネットワークレンダリングパイプラインを導入し、スパースサンプルセットから高分解能画像を再構成する。 はじめに、私たちの知る限りでは、最終的な視覚表現に関連する構造の選択は、これらの構造からこの表現を再構築すると共に、共同で学習できることが示される。 そこで本研究では,最終画像のみに基づく教師付き損失に基づくバックプロパゲーションを活用可能な,異なるサンプリングおよび再構築段階を提案する。 我々は,ネットワークパイプラインが生成する適応サンプリングパターンに光を当て,アイソサーフェスや直接ボリュームレンダリングを含むボリュームビジュアライゼーションの用途を分析する。

A central challenge in data visualization is to understand which data samples are required to generate an image of a data set in which the relevant information is encoded. In this work, we make a first step towards answering the question of whether an artificial neural network can predict where to sample the data with higher or lower density, by learning of correspondences between the data, the sampling patterns and the generated images. We introduce a novel neural rendering pipeline, which is trained end-to-end to generate a sparse adaptive sampling structure from a given low-resolution input image, and reconstructs a high-resolution image from the sparse set of samples. For the first time, to the best of our knowledge, we demonstrate that the selection of structures that are relevant for the final visual representation can be jointly learned together with the reconstruction of this representation from these structures. Therefore, we introduce differentiable sampling and reconstruction stages, which can leverage back-propagation based on supervised losses solely on the final image. We shed light on the adaptive sampling patterns generated by the network pipeline and analyze its use for volume visualization including isosurface and direct volume rendering.
翻訳日:2022-11-08 14:52:18 公開日:2020-07-20
# モバイルエッジコンピューティングネットワークにおけるタスクとリソース割り当てのための機械学習アプローチ

A Machine Learning Approach for Task and Resource Allocation in Mobile Edge Computing Based Networks ( http://arxiv.org/abs/2007.10102v1 )

ライセンス: Link先を確認
Sihua Wang, Mingzhe Chen, Xuanlin Liu, Changchuan Yin, Shuguang Cui, H. Vincent Poor(参考訳) 本稿では,基地局(BS)が移動エッジコンピューティング(MEC)サーバを搭載し,利用者に計算・通信サービスを共同で提供する無線ネットワークにおいて,共同作業,スペクトル,送信電力配分問題について検討する。 各ユーザーは3種類の計算タスクから1つの計算タスクを要求できる。 各計算タスクのデータサイズが異なるため、要求された計算タスクが異なるため、BSはリソース(サブキャリアと送信電力)とタスク割り当てスキームを調整し、効果的にユーザに提供する必要がある。 この問題は、最大計算および送信遅延を最小化する最適化問題として定式化されている。 この問題を解決するためにマルチスタック強化学習(RL)アルゴリズムを開発した。 提案アルゴリズムを用いて、各BSは、履歴リソース割り当てスキームとユーザの情報を複数のスタックに記録し、同じリソース割り当てスキームとユーザの状態の学習を回避し、収束速度と学習効率を向上させる。 シミュレーションの結果、提案アルゴリズムは、標準Q-ラーニングアルゴリズムと比較して、収束に必要なイテレーション数と全ユーザの最大遅延を最大18%、11.1%削減できることを示した。

In this paper, a joint task, spectrum, and transmit power allocation problem is investigated for a wireless network in which the base stations (BSs) are equipped with mobile edge computing (MEC) servers to jointly provide computational and communication services to users. Each user can request one computational task from three types of computational tasks. Since the data size of each computational task is different, as the requested computational task varies, the BSs must adjust their resource (subcarrier and transmit power) and task allocation schemes to effectively serve the users. This problem is formulated as an optimization problem whose goal is to minimize the maximal computational and transmission delay among all users. A multi-stack reinforcement learning (RL) algorithm is developed to solve this problem. Using the proposed algorithm, each BS can record the historical resource allocation schemes and users' information in its multiple stacks to avoid learning the same resource allocation scheme and users' states, thus improving the convergence speed and learning efficiency. Simulation results illustrate that the proposed algorithm can reduce the number of iterations needed for convergence and the maximal delay among all users by up to 18% and 11.1% compared to the standard Q-learning algorithm.
翻訳日:2022-11-08 14:51:59 公開日:2020-07-20
# wav2shape:ドラムマシンの形状を聴く

wav2shape: Hearing the Shape of a Drum Machine ( http://arxiv.org/abs/2007.10299v1 )

ライセンス: Link先を確認
Han Han and Vincent Lostanlen(参考訳) いくつかの波形の例から、形状や素材などの物理的属性を分離して復元することは、オーディオ信号処理において難しい逆問題であり、音楽音響や構造工学にも多くの応用がある。 本稿では,時間周波数解析と教師あり機械学習を組み合わせることでこの問題に対処することを提案する。 まず,関数変換法を用いて音のデータセットを合成する。 そして,その時間不変な散乱変換係数を用いて各パーカッシブ音を表現し,共振器のパラメトリック推定を深部畳み込みニューラルネットワークによる多次元回帰として定式化する。 我々は,ドラムの表面上の散乱係数を潜在的に欠落するデータに対する代理として補間し,補間標本に対するニューラルネットワークの応答について検討した。 最後に,散乱係数からドラム音を合成することで,潜在変数が物理的に解釈可能なドラム音の深い生成モデルへの道を開く。

Disentangling and recovering physical attributes, such as shape and material, from a few waveform examples is a challenging inverse problem in audio signal processing, with numerous applications in musical acoustics as well as structural engineering. We propose to address this problem via a combination of time--frequency analysis and supervised machine learning. We start by synthesizing a dataset of sounds using the functional transformation method. Then, we represent each percussive sound in terms of its time-invariant scattering transform coefficients and formulate the parametric estimation of the resonator as multidimensional regression with a deep convolutional neural network. We interpolate scattering coefficients over the surface of the drum as a surrogate for potentially missing data, and study the response of the neural network to interpolated samples. Lastly, we resynthesize drum sounds from scattering coefficients, therefore paving the way towards a deep generative model of drum sounds whose latent variables are physically interpretable.
翻訳日:2022-11-08 14:50:43 公開日:2020-07-20
# 超圧縮符号化」を用いた量子ネットワークを用いた教師あり学習:アルゴリズムと量子ハードウエアによる実装

Supervised Learning Using a Dressed Quantum Network with "Super Compressed Encoding": Algorithm and Quantum-Hardware-Based Implementation ( http://arxiv.org/abs/2007.10242v1 )

ライセンス: Link先を確認
Saurabh Kumar, Siddharth Dangwal and Debanjan Bhowmik(参考訳) ノイズ中規模量子(NISQ)デバイス上での変分量子機械学習(QML)アルゴリズムの実装は、必要となるキュービット数とマルチキュービットゲートに関連するノイズに関連する問題があることが知られている。 本稿では,これらの問題に対処するための量子ネットワークを用いた変分QMLアルゴリズムを提案する。 ここで従う「超圧縮符号化」スキームを用いて、我々の服装ネットワークの古典的なエンコーディング層は、入力を変分量子回路に送る前に、入力-次元を劇的に縮小する。 したがって、量子回路に必要な量子ビットの数は劇的に減少する。 また、既存のQMLアルゴリズムとは異なり、我々の量子回路は単一量子ビットゲートのみで構成されており、ノイズに対して堅牢である。 これらの要因は,NISQハードウェアの実装に適したアルゴリズムである。 この議論をサポートするため,本アルゴリズムを実際のnisqハードウェアに実装し,fisherのiris,ウィスコンシンの乳がん(wbc),abaloneなどの一般的な機械学習データセットを用いて正確な分類を行う。 次に,我々のアルゴリズムの動作を直感的に説明するために,Bloch球上で異なる出力クラスの入力サンプルに対応する量子状態のクラスタリングを実演する(WBCとMNISTのデータセットを用いて)。 このクラスタリングは、アルゴリズムに追従したトレーニングプロセスの結果発生します。 このブロッホ・スフィアに基づく表現を通して、古典符号化層の調整可能なパラメータと変動量子回路の調整可能なパラメータによって(訓練中)演じられる異なる役割を示す。 これらのパラメータは、損失最小化によるトレーニング中に反復的に調整される。

Implementation of variational Quantum Machine Learning (QML) algorithms on Noisy Intermediate-Scale Quantum (NISQ) devices is known to have issues related to the high number of qubits needed and the noise associated with multi-qubit gates. In this paper, we propose a variational QML algorithm using a dressed quantum network to address these issues. Using the "super compressed encoding" scheme that we follow here, the classical encoding layer in our dressed network drastically scales down the input-dimension, before feeding the input to the variational quantum circuit. Hence, the number of qubits needed in our quantum circuit goes down drastically. Also, unlike in most other existing QML algorithms, our quantum circuit consists only of single-qubit gates, making it robust against noise. These factors make our algorithm suitable for implementation on NISQ hardware. To support our argument, we implement our algorithm on real NISQ hardware and thereby show accurate classification using popular machine learning data-sets like Fisher's Iris, Wisconsin's Breast Cancer (WBC), and Abalone. Then, to provide an intuitive explanation for our algorithm's working, we demonstrate the clustering of quantum states, which correspond to the input-samples of different output-classes, on the Bloch sphere (using WBC and MNIST data-sets). This clustering happens as a result of the training process followed in our algorithm. Through this Bloch-sphere-based representation, we also show the distinct roles played (in training) by the adjustable parameters of the classical encoding layer and the adjustable parameters of the variational quantum circuit. These parameters are adjusted iteratively during training through loss-minimization.
翻訳日:2022-11-08 14:44:39 公開日:2020-07-20
# SHEARer: ソフトウェアハードウェアによるマルチフォールド近似による高効率超次元計算

SHEARer: Highly-Efficient Hyperdimensional Computing by Software-Hardware Enabled Multifold Approximation ( http://arxiv.org/abs/2007.10330v1 )

ライセンス: Link先を確認
Behnam Khaleghi, Sahand Salamat, Anthony Thomas, Fatemeh Asgarinejad, Yeseong Kim, and Tajana Rosing(参考訳) 超次元コンピューティング(HD)は、高次元の分散されたデータ表現に基づいて脳が計算する証拠に基づく機械学習の新しいパラダイムである。 hdの主な操作はエンコーディングであり、各入力特徴をハイパーベクトルにマッピングすることで、入力データをハイパー空間に転送する。 HDの操作は非常に並列化可能であるが、大量の操作は組み込みドメインにおけるHDの効率を損なう。 本稿では,HDコンピューティングの性能とエネルギー消費を改善するアルゴリズム-ハードウェア協調最適化であるSHEARerを提案する。 我々は、HDの固有のエラー回復力のおかげで、ハードウェア最適化の見通しを高く保ちながら、精度に最小限の影響を及ぼす超ベクトルを近似する巧妙なスキームから洞察を得る。 符号化ハイパーベクトルを完全精度で生成し、その後量子化する以前の研究とは対照的に、符号化ハイパーベクトルを近似的に計算し、大量のリソースを節約しながら高精度に計算する。 また,低消費電力の並列処理により性能を向上するFPGAの実装を提案する。 さらに,提案する近似符号化をエミュレートしてhdモデルを訓練するソフトウェアフレームワークを開発した。 FPGAによるSHEARerの実装は、実用的な機械学習データセットを使用してRaspberry Pi 3(GeForce GTX 1080 Ti)に実装された最先端の符号化手法と比較して、104,904x (15.7x)の平均スループット向上と56,044x (301x)の省エネを実現している。

Hyperdimensional computing (HD) is an emerging paradigm for machine learning based on the evidence that the brain computes on high-dimensional, distributed, representations of data. The main operation of HD is encoding, which transfers the input data to hyperspace by mapping each input feature to a hypervector, accompanied by so-called bundling procedure that simply adds up the hypervectors to realize encoding hypervector. Although the operations of HD are highly parallelizable, the massive number of operations hampers the efficiency of HD in embedded domain. In this paper, we propose SHEARer, an algorithm-hardware co-optimization to improve the performance and energy consumption of HD computing. We gain insight from a prudent scheme of approximating the hypervectors that, thanks to inherent error resiliency of HD, has minimal impact on accuracy while provides high prospect for hardware optimization. In contrast to previous works that generate the encoding hypervectors in full precision and then ex-post quantizing, we compute the encoding hypervectors in an approximate manner that saves a significant amount of resources yet affords high accuracy. We also propose a novel FPGA implementation that achieves striking performance through massive parallelism with low power consumption. Moreover, we develop a software framework that enables training HD models by emulating the proposed approximate encodings. The FPGA implementation of SHEARer achieves an average throughput boost of 104,904x (15.7x) and energy savings of up to 56,044x (301x) compared to state-of-the-art encoding methods implemented on Raspberry Pi 3 (GeForce GTX 1080 Ti) using practical machine learning datasets.
翻訳日:2022-11-08 14:43:48 公開日:2020-07-20
# 非線形等式制約付き確率最適化のための逐次二次最適化

Sequential Quadratic Optimization for Nonlinear Equality Constrained Stochastic Optimization ( http://arxiv.org/abs/2007.10525v1 )

ライセンス: Link先を確認
Albert Berahas, Frank E. Curtis, Daniel P. Robinson, Baoyu Zhou(参考訳) 等式制約のある滑らかな非線形最適化問題を解くために, 逐次2次最適化アルゴリズムを提案する。 主な焦点は、制約関数が決定論的であり、制約関数と微分値が明示的に計算できる場合に提案されるアルゴリズムであるが、目的関数は確率的である。 この設定では、確率関数と勾配推定を計算できるが、客観的関数と微分値を明示的に計算することは困難であると仮定される。 この確率的設定の出発点として、ライン探索の代わりにリプシッツ定数(または適応的に推定されるリプシッツ定数)に基づくステップサイズ選択スキームを用いて、最先端のライン探索SQPアルゴリズムをモデルとした決定論的設定のためのアルゴリズムを提案する。 これにより、線形探索が難解であると仮定した確率的設定のための提案アルゴリズムのステージが設定される。 合理的な仮定の下では、提案する決定論的アルゴリズム (resp.,~stochastic) に対して、リモートスタート点からの収束(期待の収束)が証明される。 数値実験の結果は,提案手法の実用性を示すものである。

Sequential quadratic optimization algorithms are proposed for solving smooth nonlinear optimization problems with equality constraints. The main focus is an algorithm proposed for the case when the constraint functions are deterministic, and constraint function and derivative values can be computed explicitly, but the objective function is stochastic. It is assumed in this setting that it is intractable to compute objective function and derivative values explicitly, although one can compute stochastic function and gradient estimates. As a starting point for this stochastic setting, an algorithm is proposed for the deterministic setting that is modeled after a state-of-the-art line-search SQP algorithm, but uses a stepsize selection scheme based on Lipschitz constants (or adaptively estimated Lipschitz constants) in place of the line search. This sets the stage for the proposed algorithm for the stochastic setting, for which it is assumed that line searches would be intractable. Under reasonable assumptions, convergence (resp.,~convergence in expectation) from remote starting points is proved for the proposed deterministic (resp.,~stochastic) algorithm. The results of numerical experiments demonstrate the practical performance of our proposed techniques.
翻訳日:2022-11-08 14:42:42 公開日:2020-07-20
# long short term memory(lstm)ニューラルネットワークによるインサイダー脅威の検出

Detecting the Insider Threat with Long Short Term Memory (LSTM) Neural Networks ( http://arxiv.org/abs/2007.11956v1 )

ライセンス: Link先を確認
Eduardo Lopez, Kamran Sartipi(参考訳) 情報システムはあらゆる産業において多くの組織プロセスを可能にする。 情報技術の利用における効率性と有効性は、意図しない副産物を生み出します。 電子ログを徹底的に分析し、ユーザの振る舞いを捉えると、インサイダーの脅威を検出することができる。 しかしながら、ログは通常非常に大きく、非構造的であり、組織にとって重要な課題である。 本研究では,深層学習,特にlong short term memory (lstm) のリカレントネットワークを用いて検出を行う。 我々は、LSTMが検索空間を減らし、セキュリティアナリストの仕事をより効果的にするために、データのシーケンシャルな性質をどのように利用するかを示す。

Information systems enable many organizational processes in every industry. The efficiencies and effectiveness in the use of information technologies create an unintended byproduct: misuse by existing users or somebody impersonating them - an insider threat. Detecting the insider threat may be possible if thorough analysis of electronic logs, capturing user behaviors, takes place. However, logs are usually very large and unstructured, posing significant challenges for organizations. In this study, we use deep learning, and most specifically Long Short Term Memory (LSTM) recurrent networks for enabling the detection. We demonstrate through a very large, anonymized dataset how LSTM uses the sequenced nature of the data for reducing the search space and making the work of a security analyst more effective.
翻訳日:2022-11-08 14:42:23 公開日:2020-07-20
# ResNet生成ニューラルネットワークに基づくフォトニック構造の多目的・カテゴリー大域最適化

Multi-objective and categorical global optimization of photonic structures based on ResNet generative neural networks ( http://arxiv.org/abs/2007.12551v1 )

ライセンス: Link先を確認
Jiaqi Jiang and Jonathan A. Fan(参考訳) グローバルトポロジ最適化ネットワーク(GLOnets)に基づく深層生成ニューラルネットワークは,光デバイスを多目的かつカテゴリー的にグローバルに最適化するために構成可能であることを示す。 残余のネットワークスキームにより、GLOnetは最適化プロセスの早い段階で完全な設計空間を適切に探索するために必要となる深いアーキテクチャから、グローバルな最適デバイスの狭い分布を生成する浅いネットワークへと進化することができる。 概念実証実験として,複数の材料からなる薄膜スタックの設計に本手法を適用した。 グローバルに最適化された反反射構造を持つベンチマークでは、GLOnetは従来のアルゴリズムに比べて桁違いに速い速度でグローバルな最適化を見つけることができる。 また, 複雑な設計タスクにおける本手法の有用性を, 蛍光光フィルタへの応用により実証する。 これらの結果は、深層学習における高度な概念がフォトニクスの逆設計アルゴリズムの能力を推し進めることができることを示している。

We show that deep generative neural networks, based on global topology optimization networks (GLOnets), can be configured to perform the multi-objective and categorical global optimization of photonic devices. A residual network scheme enables GLOnets to evolve from a deep architecture, which is required to properly search the full design space early in the optimization process, to a shallow network that generates a narrow distribution of globally optimal devices. As a proof-of-concept demonstration, we adapt our method to design thin film stacks consisting of multiple material types. Benchmarks with known globally-optimized anti-reflection structures indicate that GLOnets can find the global optimum with orders of magnitude faster speeds compared to conventional algorithms. We also demonstrate the utility of our method in complex design tasks with its application to incandescent light filters. These results indicate that advanced concepts in deep learning can push the capabilities of inverse design algorithms for photonics.
翻訳日:2022-11-08 14:42:12 公開日:2020-07-20
# PowerGAN: 生成逆ネットワークを用いたアプライアンスパワーシグナチャの合成

PowerGAN: Synthesizing Appliance Power Signatures Using Generative Adversarial Networks ( http://arxiv.org/abs/2007.13645v1 )

ライセンス: Link先を確認
Alon Harell, Richard Jones, Stephen Makonin, Ivan V. Bajic(参考訳) non-intrusive load monitoring (nilm) により、ユーザとエネルギープロバイダは、建物のスマートメータのみを使用して、家電の電力消費量に関する洞察を得ることができる。 NILMの現在の技術のほとんどは、大量のラベル付アプライアンス電力データを用いて訓練されている。 このようなデータの収集は困難であり、nilmソリューションをよく一般化する上で、データのボトルネックとなる。 データ制限を緩和するために、最初の真に合成されたアプライアンス電源シグネチャジェネレータを提案する。 我々のソリューションであるPowerGANは、条件付き、徐々に成長する1-D Wasserstein 生成対向ネットワーク(GAN)に基づいている。 PowerGANを用いて、真にランダムで現実的なアプライアンス・パワーデータシグネチャを合成できる。 Inception scoreのような従来のGAN評価手法を用いて,PowerGANが生成したサンプルを定性的に,数値的に評価する。

Non-intrusive load monitoring (NILM) allows users and energy providers to gain insight into home appliance electricity consumption using only the building's smart meter. Most current techniques for NILM are trained using significant amounts of labeled appliances power data. The collection of such data is challenging, making data a major bottleneck in creating well generalizing NILM solutions. To help mitigate the data limitations, we present the first truly synthetic appliance power signature generator. Our solution, PowerGAN, is based on conditional, progressively growing, 1-D Wasserstein generative adversarial network (GAN). Using PowerGAN, we are able to synthesise truly random and realistic appliance power data signatures. We evaluate the samples generated by PowerGAN in a qualitative way as well as numerically by using traditional GAN evaluation methods such as the Inception score.
翻訳日:2022-11-08 14:41:55 公開日:2020-07-20
# 素晴らしい埋め込みとその調整方法:マルチショップシナリオにおけるゼロショット推論

Fantastic Embeddings and How to Align Them: Zero-Shot Inference in a Multi-Shop Scenario ( http://arxiv.org/abs/2007.14906v1 )

ライセンス: Link先を確認
Federico Bianchi, Jacopo Tagliabue, Bingqing Yu, Luca Bigon and Ciro Greco(参考訳) 本稿では,マルチショップパーソナライズに複数の埋め込み空間を活用することの課題に対処し,手動による介入なしにショッピング意図を別のウェブサイトに転送することで,ゼロショット推論が可能であることを証明した。 まず、店内への埋め込みをトレーニングし、最適化するための機械学習パイプラインを詳述し、質的な洞察を付加して定量的発見をサポートする。 異なるショップの製品が同じベクトル空間に住んでいれば、この領域のリージョンによって代表されるユーザインテントが、Webサイト全体でゼロショットの方法で転送されます。 我々は,データ量と品質を前提とした,埋め込み空間間の"トラベリング"を行う,教師なしおよび教師なしの手法を提案し,ベンチマークする。 2つのダウンストリームタスク、イベント予測とタイプアヘッド提案で共有埋め込み空間をテストすることで、ゼロショットのパーソナライゼーションが実際に実現可能であることを示す。 最後に、この重要なビジネスシナリオに関する包括的議論を促進するために、クロスショップ匿名の埋め込みデータセットをキュレートする。

This paper addresses the challenge of leveraging multiple embedding spaces for multi-shop personalization, proving that zero-shot inference is possible by transferring shopping intent from one website to another without manual intervention. We detail a machine learning pipeline to train and optimize embeddings within shops first, and support the quantitative findings with additional qualitative insights. We then turn to the harder task of using learned embeddings across shops: if products from different shops live in the same vector space, user intent - as represented by regions in this space - can then be transferred in a zero-shot fashion across websites. We propose and benchmark unsupervised and supervised methods to "travel" between embedding spaces, each with its own assumptions on data quantity and quality. We show that zero-shot personalization is indeed possible at scale by testing the shared embedding space with two downstream tasks, event prediction and type-ahead suggestions. Finally, we curate a cross-shop anonymized embeddings dataset to foster an inclusive discussion of this important business scenario.
翻訳日:2022-11-08 14:41:37 公開日:2020-07-20
# Sep-Stereo:アソシエイト音源分離による視覚誘導ステレオオーディオ生成

Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating Source Separation ( http://arxiv.org/abs/2007.09902v1 )

ライセンス: Link先を確認
Hang Zhou, Xudong Xu, Dahua Lin, Xiaogang Wang, Ziwei Liu(参考訳) ステレオフォニックオーディオは、人間の聴覚経験を高めるために欠かせない要素である。 近年,ステレオ・インフォメーションを持つモノからバイノーラル・アンビソニック・オーディオを生成するためのガイダンスとしての視覚情報の利用について検討している。 しかし、この完全に監督されたパラダイムは固有の欠点に悩まされている。ステレオオーディオの録音は通常、幅広いアクセシビリティーのために高価な繊細なデバイスを必要とする。 この課題を克服するため,我々は,広く利用可能なmonoデータを活用してステレオ音声の生成を容易にすることを提案する。 視覚的に指示された音声分離のタスクは、独立した音声を対応する視覚位置にマッピングする作業であり、ステレオ音声生成と同じような目的を持つ。 ステレオ生成と音源分離を一体化したフレームワークであるSep-Stereoに統合し、音源分離を特定のタイプの音響空間化として検討する。 特に、新しい連想ピラミッドネットワークアーキテクチャは、音声-視覚的特徴融合のために慎重に設計されている。 広汎な実験により,共用バックボーンを用いて正確な音源分離を行いながら,ステレオ音声生成結果を改善することができることが示された。

Stereophonic audio is an indispensable ingredient to enhance human auditory experience. Recent research has explored the usage of visual information as guidance to generate binaural or ambisonic audio from mono ones with stereo supervision. However, this fully supervised paradigm suffers from an inherent drawback: the recording of stereophonic audio usually requires delicate devices that are expensive for wide accessibility. To overcome this challenge, we propose to leverage the vastly available mono data to facilitate the generation of stereophonic audio. Our key observation is that the task of visually indicated audio separation also maps independent audios to their corresponding visual positions, which shares a similar objective with stereophonic audio generation. We integrate both stereo generation and source separation into a unified framework, Sep-Stereo, by considering source separation as a particular type of audio spatialization. Specifically, a novel associative pyramid network architecture is carefully designed for audio-visual feature fusion. Extensive experiments demonstrate that our framework can improve the stereophonic audio generation results while performing accurate sound separation with a shared backbone.
翻訳日:2022-11-08 14:41:18 公開日:2020-07-20
# GAN生成画像の検出・属性・位置化

Detection, Attribution and Localization of GAN Generated Images ( http://arxiv.org/abs/2007.10466v1 )

ライセンス: Link先を確認
Michael Goebel, Lakshmanan Nataraj, Tejaswi Nanjundaswamy, Tajuddin Manhar Mohammed, Shivkumar Chandrasekaran and B.S. Manjunath(参考訳) GAN(Generative Adversarial Networks)の最近の進歩は、人間やコンピュータによる検出に大きな課題となる現実的なデジタル画像の作成につながっている。 GANは、画像の小さな属性の変更(StarGAN [14])、画像ペア間の属性の転送(CycleGAN [91])、全く新しい画像の生成(ProGAN [36]、StyleGAN [37]、SPADE/GauGAN [64])など、幅広いタスクで使用される。 本稿では,画像特徴とディープラーニング手法を組み合わせたGAN生成画像の検出,属性化,ローカライズを行う新しい手法を提案する。 すべての画像に対して、共起行列はrgbチャネルの近傍画素上で異なる方向(水平、垂直、対角)で計算される。 深層学習ネットワークはこれらの特徴に基づいてトレーニングされ、これらのGAN生成/操作された画像を検出し、属性付けし、ローカライズする。 276万枚以上の画像(ProGAN、StarGAN、CycleGAN、StyleGAN、SPADE/GauGAN)からなる5つのGANデータセットに対するアプローチを大規模に評価したところ、GAN生成画像の検出には有望な結果が得られた。

Recent advances in Generative Adversarial Networks (GANs) have led to the creation of realistic-looking digital images that pose a major challenge to their detection by humans or computers. GANs are used in a wide range of tasks, from modifying small attributes of an image (StarGAN [14]), transferring attributes between image pairs (CycleGAN [91]), as well as generating entirely new images (ProGAN [36], StyleGAN [37], SPADE/GauGAN [64]). In this paper, we propose a novel approach to detect, attribute and localize GAN generated images that combines image features with deep learning methods. For every image, co-occurrence matrices are computed on neighborhood pixels of RGB channels in different directions (horizontal, vertical and diagonal). A deep learning network is then trained on these features to detect, attribute and localize these GAN generated/manipulated images. A large scale evaluation of our approach on 5 GAN datasets comprising over 2.76 million images (ProGAN, StarGAN, CycleGAN, StyleGAN and SPADE/GauGAN) shows promising results in detecting GAN generated images.
翻訳日:2022-11-08 14:34:33 公開日:2020-07-20
# Burrows Wheeler変換によるクラウド上のシーケンスインデックス作成のためのビッグデータアプローチ

A Big Data Approach for Sequences Indexing on the Cloud via Burrows Wheeler Transform ( http://arxiv.org/abs/2007.10095v1 )

ライセンス: Link先を確認
Mario Randazzo, Simona E. Rombo(参考訳) インデクシングシーケンスデータは、患者を分類し、最も効果的な治療を識別するために、大量の‘omics’データを毎日収集して分析する必要がある精密医学の文脈において重要である。 本稿では,ビッグデータ技術,すなわちApache SparkとHadoopに依存するBurrows Wheeler変換の計算アルゴリズムを提案する。 当社のアプローチは,入力データセットだけでなく,インデックス計算を分散する最初の方法です。

Indexing sequence data is important in the context of Precision Medicine, where large amounts of ``omics'' data have to be daily collected and analyzed in order to categorize patients and identify the most effective therapies. Here we propose an algorithm for the computation of Burrows Wheeler transform relying on Big Data technologies, i.e., Apache Spark and Hadoop. Our approach is the first that distributes the index computation and not only the input dataset, allowing to fully benefit of the available cloud resources.
翻訳日:2022-11-08 14:33:54 公開日:2020-07-20
# クレジットスコアリングのための機械学習アプローチ

Machine Learning approach for Credit Scoring ( http://arxiv.org/abs/2008.01687v1 )

ライセンス: Link先を確認
A. R. Provenzano, D. Trifir\`o, A. Datteo, L. Giada, N. Jean, A. Riciputi, G. Le Pera, M. Spadaccino, L. Massaron and C. Nordio(参考訳) 本研究では、最先端のクレジットレーティングとデフォルト予測システムの構築を目的とした機械学習モデルスタックを構築し、優れたサンプル性能を得る。 我々のアプローチは、近年のML/AIの概念の抽出であり、例えば、埋め込みとオートエンコーダ(AE)を用いた経済セクターの(テキスト)記述に適用された自然言語プロセス(NLP)から、グラデーション・ブースティング・マシン(GBM)を用いた幅広い経済特徴に基づいて、デフォルト可能な企業の分類を経て、不均衡なサンプルの処理に注意を払う確率を調整している。 最後に、遺伝的アルゴリズム(差分進化、DE)を用いて信用格付けを割り当てる。 モデル解釈可能性は、特徴空間内の局所的な予測を説明するSHAPやLIMEのような最近の技術を実装することで達成される。

In this work we build a stack of machine learning models aimed at composing a state-of-the-art credit rating and default prediction system, obtaining excellent out-of-sample performances. Our approach is an excursion through the most recent ML / AI concepts, starting from natural language processes (NLP) applied to economic sectors' (textual) descriptions using embedding and autoencoders (AE), going through the classification of defaultable firms on the base of a wide range of economic features using gradient boosting machines (GBM) and calibrating their probabilities paying due attention to the treatment of unbalanced samples. Finally we assign credit ratings through genetic algorithms (differential evolution, DE). Model interpretability is achieved by implementing recent techniques such as SHAP and LIME, which explain predictions locally in features' space.
翻訳日:2022-11-08 14:33:44 公開日:2020-07-20
# ジニブル行列生成物の混合モーメント

Mixed Moments for the Product of Ginibre Matrices ( http://arxiv.org/abs/2007.10181v1 )

ライセンス: Link先を確認
Nick Halmagyi and Shailesh Lal(参考訳) 我々は n 個の複素ガウス行列の積のアンサンブルを研究する。 このアンサンブルは、マルチウィッシュアートアンサンブル上で平均化される分散行列を持つガウス的である。 混合モーメントを計算し、大きな n$ で、それらはファス・カタルーニャ数で重みづけられた非交差対の列挙によって与えられる。

We study the ensemble of a product of n complex Gaussian i.i.d. matrices. We find this ensemble is Gaussian with a variance matrix which is averaged over a multi-Wishart ensemble. We compute the mixed moments and find that at large $N$, they are given by an enumeration of non-crossing pairings weighted by Fuss-Catalan numbers.
翻訳日:2022-11-08 14:33:26 公開日:2020-07-20
# 3次元医用画像分割における病変サイズ不平等に対するユニバーサル損失の軽減

Universal Loss Reweighting to Balance Lesion Size Inequality in 3D Medical Image Segmentation ( http://arxiv.org/abs/2007.10033v1 )

ライセンス: Link先を確認
Boris Shirokikh, Alexey Shevtsov, Anvar Kurmukov, Alexandra Dalechina, Egor Krivov, Valery Kostjuchenko, Andrey Golanov, Mikhail Belyaev(参考訳) ターゲット不均衡は、多くの医用画像分割タスクにおける近年のディープラーニング手法の性能に影響を及ぼす。 これは2つの問題である: クラス不均衡 - 負のクラス(非競合)サイズと比較した場合の正のクラス(競合)サイズ、病変サイズ不均衡 - 大きな病変は小さなもの(画像毎に複数の病変がある場合)を覆っている。 前者は複数の作品で取り組んだが、後者は調査を欠いている。 ネットワークの小さな病変の検出能力を高めるために,損失再重み付け手法を提案する。 学習過程において,各画像のボクセルに重みを割り当てる。 割り当てられた重量は病変の体積に逆比例するので、より小さな病変はより大きな重量になる。 Dice Loss, Focal Loss, Asymmetric similarity Lossなど,よく知られた損失関数に対する本手法の利点を報告する。 さらに,重み付きクロスエントロピーと一般化Dice Lossという,他の再重み付け手法との比較を行った。 実験の結果, 逆重み付けは検出品質を大幅に向上させるが, 表示品質は最先端のレベルに保たれることがわかった。 LiTSとLUNA16(https://github.com/neuro-ml/inverse_weighting)という2つのCT画像の公開データセットに対する完全な実験パイプラインを公開しています。 また,複数の脳転移の課題に対してmr画像のプライベートデータベース上で結果を示す。

Target imbalance affects the performance of recent deep learning methods in many medical image segmentation tasks. It is a twofold problem: class imbalance - positive class (lesion) size compared to negative class (non-lesion) size; lesion size imbalance - large lesions overshadows small ones (in the case of multiple lesions per image). While the former was addressed in multiple works, the latter lacks investigation. We propose a loss reweighting approach to increase the ability of the network to detect small lesions. During the learning process, we assign a weight to every image voxel. The assigned weights are inversely proportional to the lesion volume, thus smaller lesions get larger weights. We report the benefit from our method for well-known loss functions, including Dice Loss, Focal Loss, and Asymmetric Similarity Loss. Additionally, we compare our results with other reweighting techniques: Weighted Cross-Entropy and Generalized Dice Loss. Our experiments show that inverse weighting considerably increases the detection quality, while preserves the delineation quality on a state-of-the-art level. We publish a complete experimental pipeline for two publicly available datasets of CT images: LiTS and LUNA16 (https://github.com/neuro-ml/inverse_weighting). We also show results on a private database of MR images for the task of multiple brain metastases delineation.
翻訳日:2022-11-08 14:32:51 公開日:2020-07-20
# 計量空間とユークリッド空間におけるフェアクラスタリングのためのコアセットとその応用について

On Coresets for Fair Clustering in Metric and Euclidean Spaces and Their Applications ( http://arxiv.org/abs/2007.10137v1 )

ライセンス: Link先を確認
Sayan Bandyapadhyay, Fedor V. Fomin, Kirill Simonov(参考訳) フェアクラスタリング(fair clustering)は、クラスタ内の任意の色のポイントの割合が、データセット内のこの色のポイントの分数にほぼ等しいように、色付きポイントの集合を分割することを目的とした、クラスタリングの制約付き変種である。 この変種はChierichettiらによって最近導入された。 [NeurIPS, 2017]は叙述的な作品であり、クラスタリング文学で広く普及した。 本稿では,ランダムサンプリングに基づく公平なクラスタリングのためのコアセットの新規構築を提案する。 新しい構成により、一般計量空間における公正クラスタリングのための最初のコアセットが得られる。 ユークリッド空間に対して、サイズが指数関数的に次元に依存しない最初のコアセットを得る。 私たちのコアセットの結果はschmidtらによって提案されたオープンな質問を解決します。 [WAOA, 2019]とHuangら。 [NeurIPS, 2019] 新しいコアセット構成は、いくつかの新しい近似とストリーミングアルゴリズムの設計に役立つ。 特に,実行時間が固定パラメータトラクタブル(FPT)である計量フェアクラスタリングのための,最初の真の定数近似アルゴリズムを得る。 ユークリッドの場合、時間複雑性がほぼ直線であり、空間の次元に指数関数的に依存しないフェアクラスタリングのための最初の$(1+\epsilon)$-approximationアルゴリズムを導出する。 さらに、コアセットの構成スキームは比較的一般的であり、幅広い制約付きクラスタリング問題に対してコアセットが発生する。 これにより、一般の計量におけるこれらの問題に対する定数近似やユークリッド計量における近線形時間(1+\epsilon)$近似が改善される。

Fair clustering is a constrained variant of clustering where the goal is to partition a set of colored points, such that the fraction of points of any color in every cluster is more or less equal to the fraction of points of this color in the dataset. This variant was recently introduced by Chierichetti et al. [NeurIPS, 2017] in a seminal work and became widely popular in the clustering literature. In this paper, we propose a new construction of coresets for fair clustering based on random sampling. The new construction allows us to obtain the first coreset for fair clustering in general metric spaces. For Euclidean spaces, we obtain the first coreset whose size does not depend exponentially on the dimension. Our coreset results solve open questions proposed by Schmidt et al. [WAOA, 2019] and Huang et al. [NeurIPS, 2019]. The new coreset construction helps to design several new approximation and streaming algorithms. In particular, we obtain the first true constant-approximation algorithm for metric fair clustering, whose running time is fixed-parameter tractable (FPT). In the Euclidean case, we derive the first $(1+\epsilon)$-approximation algorithm for fair clustering whose time complexity is near-linear and does not depend exponentially on the dimension of the space. Besides, our coreset construction scheme is fairly general and gives rise to coresets for a wide range of constrained clustering problems. This leads to improved constant-approximations for these problems in general metrics and near-linear time $(1+\epsilon)$-approximations in the Euclidean metric.
翻訳日:2022-11-08 14:32:30 公開日:2020-07-20
# 知識コンパイルにおける相転移挙動

Phase Transition Behavior in Knowledge Compilation ( http://arxiv.org/abs/2007.10400v1 )

ライセンス: Link先を確認
Rahul Gupta, Subhajit Roy, Kuldeep S. Meel(参考訳) SATにおける相転移挙動の研究は、現代のSATソルバの深い理解とアルゴリズム的改善につながった。 SATにおける相転移に関するこれらの先行研究に触発され、我々は知識コンパイルの文脈におけるランダムk-CNF式のサイズとコンパイル時の挙動について研究する。 複数のツールとコンパイルアルゴリズムをまたいだd-dnnfs、sds、obddといった異なる知識コンパイル形式(およびそれに対応するコンパイルアルゴリズム)のサイズと実行時の振る舞いに関する厳密な実証研究と分析を行う。 我々は,様々な生成パラメータを持つランダムk-CNFモデルから生成されたインスタンスを用いて,これらの言語に対するサイズとコンパイル時間の予測と中央値の挙動を実証的に推論する。 我々の研究は、SAT/CSPの相転移挙動に関するCSPコミュニティの初期の研究と精神的に類似している。 類似の精神では、異なるパラメータに関する興味深い振る舞いを識別する:節密度と解密度、知識コンパイルの文脈における相転移の振る舞いの研究のために識別される新しい制御パラメータ。 さらに、我々は2つの具体的な予想の観点から経験的研究を要約し、これらの予想の厳密な研究はおそらく新しい理論ツールを必要とするだろう。

The study of phase transition behaviour in SAT has led to deeper understanding and algorithmic improvements of modern SAT solvers. Motivated by these prior studies of phase transitions in SAT, we seek to study the behaviour of size and compile-time behaviour for random k-CNF formulas in the context of knowledge compilation. We perform a rigorous empirical study and analysis of the size and runtime behavior for different knowledge compilation forms (and their corresponding compilation algorithms): d-DNNFs, SDDs and OBDDs across multiple tools and compilation algorithms. We employ instances generated from the random k-CNF model with varying generation parameters to empirically reason about the expected and median behavior of size and compilation-time for these languages. Our work is similar in spirit to the early work in CSP community on phase transition behavior in SAT/CSP. In a similar spirit, we identify the interesting behavior with respect to different parameters: clause density and solution density, a novel control parameter that we identify for the study of phase transition behavior in the context of knowledge compilation. Furthermore, we summarize our empirical study in terms of two concrete conjectures; a rigorous study of these conjectures will possibly require new theoretical tools.
翻訳日:2022-11-08 14:25:26 公開日:2020-07-20
# ロボットビンピッキングにおけるシーケンシャル障害を軽減する非マルコフポリシー

Non-Markov Policies to Reduce Sequential Failures in Robot Bin Picking ( http://arxiv.org/abs/2007.10420v1 )

ライセンス: Link先を確認
Kate Sanders, Michael Danielczuk, Jeffrey Mahler, Ajay Tanwani, Ken Goldberg(参考訳) ディープラーニングを用いた新しい世代の自動ビンピックシステムは、電子商取引の需要増加をサポートするために進化している。 幅広い製品に対応するため、多くの自動化システムには複数のグリッパータイプやツールチェンジャーが含まれる。 しかし、いくつかの物体では、連続的な把持の失敗が一般的であり、計算された把持が物体を持ち上げて取り外すのに失敗した場合、ビンはそのまま残されることが多く、センサ入力が一貫しているため、システムは同じ把持を何度も繰り返し、結果として平均ピック毎時間(mpph)が大幅に減少する。 逐次的障害に関する実証的研究に基づき、新しい分類法に基づく「逐次的障害オブジェクト」(SFO)のクラスを特徴付ける。 次に,過去の失敗の記憶を組み込んだ3つの非マルコフ選択ポリシーを提案する。 SFOモデルとEGADデータセットのシミュレーション実験により、非マルコフポリシーは逐次故障率とMPPHの点でマルコフポリシーを著しく上回っていることが示唆された。 12個のSFOの50ヒープの物理実験では、最も効果的な非マルコフ政策により、デックスネットマルコフ政策よりもMPPHが107%増加した。

A new generation of automated bin picking systems using deep learning is evolving to support increasing demand for e-commerce. To accommodate a wide variety of products, many automated systems include multiple gripper types and/or tool changers. However, for some objects, sequential grasp failures are common: when a computed grasp fails to lift and remove the object, the bin is often left unchanged; as the sensor input is consistent, the system retries the same grasp over and over, resulting in a significant reduction in mean successful picks per hour (MPPH). Based on an empirical study of sequential failures, we characterize a class of "sequential failure objects" (SFOs) -- objects prone to sequential failures based on a novel taxonomy. We then propose three non-Markov picking policies that incorporate memory of past failures to modify subsequent actions. Simulation experiments on SFO models and the EGAD dataset suggest that the non-Markov policies significantly outperform the Markov policy in terms of the sequential failure rate and MPPH. In physical experiments on 50 heaps of 12 SFOs the most effective Non-Markov policy increased MPPH over the Dex-Net Markov policy by 107%.
翻訳日:2022-11-08 14:25:05 公開日:2020-07-20
# 人工知能は愚かで因果推論は解決しない

Artificial Intelligence is stupid and causal reasoning won't fix it ( http://arxiv.org/abs/2008.07371v1 )

ライセンス: Link先を確認
John Mark Bishop(参考訳) 人工ニューラルネットワークは、完璧情報(Goなど)を含むものから不完全情報(Starcraftなど)を含むものまで、さまざまなゲームでグランドマスターや超人的なパフォーマンスに達している。 AI-labsによるこのような技術開発は、ビジネスの世界で共用的なアプリケーションを生み出している — AIブランドタグが急速に普及している。 自動運転車がクラッシュする、チャットボットが人種差別的行動を示す、クレジット自動スコア付けのプロセスが性別などを差別するなど、aiが間違った状況に陥ると、経済的、法的、ブランド的な影響が大きくなり、インシデントが大きなニュースになる。 ジュデア・パール(Judea Pearl)が見ているように、そのようなミスの根底にある理由は、「深層学習の素晴らしい成果は、ただのカーブフィッティングである」ということである。 Judea Pearl氏が示唆する鍵は、因果推論(因果推論)と関連づけることで推論を置き換えることだ。 ニューヨーク・タイムズの最近の記事で、ゲイリー・マーカスとアーネスト・デイビス(Ernest Davis)が「我々はデータセットの統計的パターン(しばしばDeep Learningと呼ばれるアプローチを使って)をより良く、より良く検出するコンピュータシステムの構築を止め、組み立ての瞬間から、時間、空間、因果性という3つの基本的な概念を自然に把握するコンピュータシステムの構築を開始する必要がある」と記している。 本稿では,1949年にギルバート・ライル(Gilbert Ryle)が「カテゴリーミス」と呼んだことを前提として,AIの誤りに対する別の説明を行う。

Artificial Neural Networks have reached Grandmaster and even super-human performance across a variety of games: from those involving perfect-information (such as Go) to those involving imperfect-information (such as Starcraft). Such technological developments from AI-labs have ushered concomitant applications across the world of business - where an AI brand tag is fast becoming ubiquitous. A corollary of such widespread commercial deployment is that when AI gets things wrong - an autonomous vehicle crashes; a chatbot exhibits racist behaviour; automated credit scoring processes discriminate on gender etc. - there are often significant financial, legal and brand consequences and the incident becomes major news. As Judea Pearl sees it, the underlying reason for such mistakes is that, 'all the impressive achievements of deep learning amount to just curve fitting'. The key, Judea Pearl suggests, is to replace reasoning by association with causal-reasoning - the ability to infer causes from observed phenomena. It is a point that was echoed by Gary Marcus and Ernest Davis in a recent piece for the New York Times: 'we need to stop building computer systems that merely get better and better at detecting statistical patterns in data sets - often using an approach known as Deep Learning - and start building computer systems that from the moment of their assembly innately grasp three basic concepts: time, space and causality'. In this paper, foregrounding what in 1949 Gilbert Ryle termed a category mistake, I will offer an alternative explanation for AI errors: it is not so much that AI machinery cannot grasp causality, but that AI machinery - qua computation - cannot understand anything at all.
翻訳日:2022-11-08 14:24:43 公開日:2020-07-20
# un-scene: ルームナビゲーションのためのamodal semantic mapの学習

Seeing the Un-Scene: Learning Amodal Semantic Maps for Room Navigation ( http://arxiv.org/abs/2007.09841v1 )

ライセンス: Link先を確認
Medhini Narasimhan, Erik Wijmans, Xinlei Chen, Trevor Darrell, Dhruv Batra, Devi Parikh, Amanpreet Singh(参考訳) セマンティックマップを用いた室内ナビゲーションのための学習型アプローチを提案する。 提案アーキテクチャは,住宅における建築と様式の整合性をモデル化しながら,エージェントの視野を超えた地域のトップダウン信頼マップを予測できることを学習する。 まず,室内の建築パターンを学習することにより,部屋の位置,大きさ,形状の信念を示すアモーダルなセマンティクストップダウンマップを生成するモデルを訓練する。 次に、これらのマップを使用して、対象の部屋にある点を予測し、その点に向かうためのポリシーを訓練します。 我々は,セマンティックマップの予測により,住宅における共通相関を学習し,新しい環境に一般化することを示す。 また,部屋ナビゲーションのタスクをポイントナビゲーションに削減することで,さらにパフォーマンスが向上することを示す。

We introduce a learning-based approach for room navigation using semantic maps. Our proposed architecture learns to predict top-down belief maps of regions that lie beyond the agent's field of view while modeling architectural and stylistic regularities in houses. First, we train a model to generate amodal semantic top-down maps indicating beliefs of location, size, and shape of rooms by learning the underlying architectural patterns in houses. Next, we use these maps to predict a point that lies in the target room and train a policy to navigate to the point. We empirically demonstrate that by predicting semantic maps, the model learns common correlations found in houses and generalizes to novel environments. We also demonstrate that reducing the task of room navigation to point navigation improves the performance further.
翻訳日:2022-11-08 14:23:48 公開日:2020-07-20
# 半監督医用画像分割のための新しい擬似ラベル

Self-Loop Uncertainty: A Novel Pseudo-Label for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2007.09854v1 )

ライセンス: Link先を確認
Yuexiang Li, Jiawei Chen, Xinpeng Xie, Kai Ma, Yefeng Zheng(参考訳) 自然画像処理におけるディープラーニングニューラルネットワークの成功を目の当たりにし、医学的画像分割のためのディープラーニングベースのフレームワークを開発するための研究が増えている。 しかし、医用画像のピクセル単位でのアノテーションは手間と費用がかかるため、注釈付きデータの量はニューラルネットワークをうまく訓練するには不十分である。 本稿では,医療画像セグメント化のためのラベル付きデータと大量のラベル付き画像を用いてニューラルネットワークを訓練するための半教師付きアプローチを提案する。 ニューラルネットワークを自己教師付きタスクで繰り返し最適化した新たな擬似ラベル(すなわち自己ループ不確実性)を、ラベルなし画像の基盤として採用し、トレーニングセットを強化し、セグメンテーション精度を高める。 提案した自己ループ不確実性は, 推定時間を大幅に短縮した複数のモデルを組み込んだ不確実性推定の近似とみなすことができる。 2つの公開データセットに対する実験結果は、我々の半超越的アプローチの有効性を示す。

Witnessing the success of deep learning neural networks in natural image processing, an increasing number of studies have been proposed to develop deep-learning-based frameworks for medical image segmentation. However, since the pixel-wise annotation of medical images is laborious and expensive, the amount of annotated data is usually deficient to well-train a neural network. In this paper, we propose a semi-supervised approach to train neural networks with limited labeled data and a large quantity of unlabeled images for medical image segmentation. A novel pseudo-label (namely self-loop uncertainty), generated by recurrently optimizing the neural network with a self-supervised task, is adopted as the ground-truth for the unlabeled images to augment the training set and boost the segmentation accuracy. The proposed self-loop uncertainty can be seen as an approximation of the uncertainty estimation yielded by ensembling multiple models with a significant reduction of inference time. Experimental results on two publicly available datasets demonstrate the effectiveness of our semi-supervied approach.
翻訳日:2022-11-08 14:23:35 公開日:2020-07-20
# 深部反射量:多視点測光画像からの再現性

Deep Reflectance Volumes: Relightable Reconstructions from Multi-View Photometric Images ( http://arxiv.org/abs/2007.09892v1 )

ライセンス: Link先を確認
Sai Bi, Zexiang Xu, Kalyan Sunkavalli, Milo\v{s} Ha\v{s}an, Yannick Hold-Geoffroy, David Kriegman, Ravi Ramamoorthi(参考訳) 位置決め点照明下で撮影された非構造画像からシーンの外観を再構築する深層学習手法を提案する。 深い反射ボリュームの中心には、不透明性、表面正規性、反射性ボクセルグリッドからなる新しいボリュームシーン表現がある。 任意の視点と照明下でこれらのシーンのボリュームを描画する物理ベース微分可能体積線マーチングフレームワークを提案する。 これにより、シーンボリュームを最適化し、レンダリングされた画像とキャプチャされた画像との誤差を最小限に抑えることができます。 本手法は,非ランバート反射や複雑な幾何学に挑戦し,オクルージョンやシャドーイングを用いて実際のシーンを再現することができる。 さらに、非凝集照明や、最先端メッシュベースの方法よりもはるかに優れたフォトリアリスティックな画像をレンダリングするなど、新しい視点や照明に正確に一般化する。 また,学習した反射率ボリュームは編集可能であり,撮影シーンの資料を編集できることを示した。

We present a deep learning approach to reconstruct scene appearance from unstructured images captured under collocated point lighting. At the heart of Deep Reflectance Volumes is a novel volumetric scene representation consisting of opacity, surface normal and reflectance voxel grids. We present a novel physically-based differentiable volume ray marching framework to render these scene volumes under arbitrary viewpoint and lighting. This allows us to optimize the scene volumes to minimize the error between their rendered images and the captured images. Our method is able to reconstruct real scenes with challenging non-Lambertian reflectance and complex geometry with occlusions and shadowing. Moreover, it accurately generalizes to novel viewpoints and lighting, including non-collocated lighting, rendering photorealistic images that are significantly better than state-of-the-art mesh-based methods. We also show that our learned reflectance volumes are editable, allowing for modifying the materials of the captured scenes.
翻訳日:2022-11-08 14:23:19 公開日:2020-07-20
# クロスドメインな人物再同定のための共同解離と適応

Joint Disentangling and Adaptation for Cross-Domain Person Re-Identification ( http://arxiv.org/abs/2007.10315v1 )

ライセンス: Link先を確認
Yang Zou, Xiaodong Yang, Zhiding Yu, B.V.K. Vijaya Kumar, Jan Kautz(参考訳) 監視された人物再識別(re-id)では大きな進展が見られたが、ドメインのギャップが大きいため、新しいドメインに再識別モデルを一般化することは依然として困難である。 最近、このスケーラビリティ問題に対処するために教師なしのドメイン適応を使うことへの関心が高まっている。 既存の手法は通常、id関連要素とid関連要素の両方を含む表現空間に適応するので、必然的にid関連特徴の適応効果を損なう。 本稿では,適応すべき表現空間を清浄することにより適応性の向上を図る。 そこで本研究では,id関連/非関連特徴を分離し,id関連特徴空間への適応を強制する共同学習フレームワークを提案する。 我々のモデルは、ドメイン間の画像を共有外観空間と2つの別々の構造空間にエンコードするアンタングルモジュールと、共有外観空間上で対角アライメントと自己学習を行う適応モジュールを含む。 2つのモジュールは相互に有益であるように設計されている。 広範な実験により,提案手法が最先端手法をクリアマージンで上回っていることが示された。

Although a significant progress has been witnessed in supervised person re-identification (re-id), it remains challenging to generalize re-id models to new domains due to the huge domain gaps. Recently, there has been a growing interest in using unsupervised domain adaptation to address this scalability issue. Existing methods typically conduct adaptation on the representation space that contains both id-related and id-unrelated factors, thus inevitably undermining the adaptation efficacy of id-related features. In this paper, we seek to improve adaptation by purifying the representation space to be adapted. To this end, we propose a joint learning framework that disentangles id-related/unrelated features and enforces adaptation to work on the id-related feature space exclusively. Our model involves a disentangling module that encodes cross-domain images into a shared appearance space and two separate structure spaces, and an adaptation module that performs adversarial alignment and self-training on the shared appearance space. The two modules are co-designed to be mutually beneficial. Extensive experiments demonstrate that the proposed joint learning framework outperforms the state-of-the-art methods by clear margins.
翻訳日:2022-11-08 14:17:28 公開日:2020-07-20
# Points2Surf: Point Cloudのパッチから不適切な表面を学ぶ

Points2Surf: Learning Implicit Surfaces from Point Cloud Patches ( http://arxiv.org/abs/2007.10453v1 )

ライセンス: Link先を確認
Philipp Erler, Paul Guerrero, Stefan Ohrhallinger, Michael Wimmer, Niloy J. Mitra(参考訳) スキャンベースのアセット生成ワークフローにおける重要なステップは、順序のないポイントクラウドをサーフェスに変換することだ。 古典的な方法(例えばポアソン再構成)はノイズや部分的なスキャンによって劣化し始める。 したがって、部分的なスキャンからでも完全な表面を生成するために、ディープラーニングベースの手法が最近提案されている。 しかし、このようなデータ駆動手法は、幾何学的および位相的な大きなバリエーションを持つ新しい形状への一般化に苦しむ。 Points2Surfはパッチベースの新しい学習フレームワークで、正常なスキャンから正確な表面を直接生成する。 詳細なローカルパッチと粗いグローバル情報の組み合わせによる事前学習は、一般化性能と再構築精度を向上させる。 筆者らによる合成データと実データの比較により,従来の未発見のクラスにおける最先端の代替手法(平均値として,points2surfはsprよりも30\%,ディープラーニングベースのsoma法では270\%+)に対して,計算時間の長いコストと小規模のトポロジカルノイズの増加という明確な利点が示された。 私たちのソースコード、事前トレーニングされたモデル、データセットは、https://github.com/ErlerPhilipp/points2surfで利用可能です。

A key step in any scanning-based asset creation workflow is to convert unordered point clouds to a surface. Classical methods (e.g., Poisson reconstruction) start to degrade in the presence of noisy and partial scans. Hence, deep learning based methods have recently been proposed to produce complete surfaces, even from partial scans. However, such data-driven methods struggle to generalize to new shapes with large geometric and topological variations. We present Points2Surf, a novel patch-based learning framework that produces accurate surfaces directly from raw scans without normals. Learning a prior over a combination of detailed local patches and coarse global information improves generalization performance and reconstruction accuracy. Our extensive comparison on both synthetic and real data demonstrates a clear advantage of our method over state-of-the-art alternatives on previously unseen classes (on average, Points2Surf brings down reconstruction error by 30\% over SPR and by 270\%+ over deep learning based SotA methods) at the cost of longer computation times and a slight increase in small-scale topological noise in some cases. Our source code, pre-trained model, and dataset are available on: https://github.com/ErlerPhilipp/points2surf
翻訳日:2022-11-08 14:15:42 公開日:2020-07-20
# AdvFoolGen: 深い分類のための永続的なトラブルの作成

AdvFoolGen: Creating Persistent Troubles for Deep Classifiers ( http://arxiv.org/abs/2007.10485v1 )

ライセンス: Link先を確認
Yuzhen Ding, Nupur Thakur, Baoxin Li(参考訳) 研究によると、ディープニューラルネットワークは悪意のある攻撃に弱いことが示されており、敵画像は、たとえ画像が人間の目によって全く異なるラベルを生み出したとしても、ネットワークを不正に分類するために敵画像を作成する。 このような攻撃に対してディープネットワークをより強固にするために、文献では多くの防御機構が提案されており、それらの一部は典型的な攻撃に対する防御に非常に効果的である。 本稿では,AdvFoolGenと呼ばれる新たなブラックボックス攻撃手法を提案する。これは,最先端の防御機構が適用されている場合でも,ネットワークをバッフルし続けるために,自然画像と同じ特徴空間から攻撃画像を生成する。 我々は,確立した攻撃アルゴリズムとの比較により,モデルを評価する。 実験により,最先端の防御技術に直面する攻撃の有効性と頑健性を実証し,原理分析による攻撃効果の可能性を明らかにした。 そのため、AdvFoolGenは新しい視点からディープネットワークの脆弱性を理解することに貢献し、その結果、新しい防御メカニズムの開発と評価に役立てることができる。

Researches have shown that deep neural networks are vulnerable to malicious attacks, where adversarial images are created to trick a network into misclassification even if the images may give rise to totally different labels by human eyes. To make deep networks more robust to such attacks, many defense mechanisms have been proposed in the literature, some of which are quite effective for guarding against typical attacks. In this paper, we present a new black-box attack termed AdvFoolGen, which can generate attacking images from the same feature space as that of the natural images, so as to keep baffling the network even though state-of-the-art defense mechanisms have been applied. We systematically evaluate our model by comparing with well-established attack algorithms. Through experiments, we demonstrate the effectiveness and robustness of our attack in the face of state-of-the-art defense techniques and unveil the potential reasons for its effectiveness through principled analysis. As such, AdvFoolGen contributes to understanding the vulnerability of deep networks from a new perspective and may, in turn, help in developing and evaluating new defense mechanisms.
翻訳日:2022-11-08 14:15:19 公開日:2020-07-20
# GarNet++: 曲率損失による高速で正確な静的3Dドレーピングの改善

GarNet++: Improving Fast and Accurate Static3D Cloth Draping by Curvature Loss ( http://arxiv.org/abs/2007.10867v1 )

ライセンス: Link先を確認
Erhan Gundogdu, Victor Constantin, Shaifali Parashar, Amrollah Seifoddini, Minh Dang, Mathieu Salzmann, and Pascal Fua(参考訳) 本稿では,仮想人体上に浮かぶ静的な3D布の問題に対処する。 本稿では,仮想3d体上にテンプレート布を視覚的に再現する2ストリーム深層ネットワークモデルを提案する。 我々のネットワークは、計算時間を2桁少なくしながら、物理シミュレーション(PBS)法を模倣することを学ぶ。 ネットワークをトレーニングするために、PBSにインスパイアされた損失項を導入し、妥当な結果を生成し、モデル衝突を認識させる。 そこで本研究では,布の曲率とPBSとの差をペナルティ化する2つの損失関数を提案する。 特に,平均曲率正規値と新しい細部保存損失の影響を定性的および定量的に検討した。 我々の新しい曲率損失は3次元点の局所的共分散行列を計算し、予測のレイリー商とPBSを比較する。 これにより、3次元三角メッシュにおける平均曲率正規ベクトルを考える損失に対して、より有利または比較可能な結果が得られる。 身体形状とポーズの異なる4種類の衣服の枠組みを検証した。 最後に,最近提案したデータ駆動方式に対して優れた性能を実現する。

In this paper, we tackle the problem of static 3D cloth draping on virtual human bodies. We introduce a two-stream deep network model that produces a visually plausible draping of a template cloth on virtual 3D bodies by extracting features from both the body and garment shapes. Our network learns to mimic a Physics-Based Simulation (PBS) method while requiring two orders of magnitude less computation time. To train the network, we introduce loss terms inspired by PBS to produce plausible results and make the model collision-aware. To increase the details of the draped garment, we introduce two loss functions that penalize the difference between the curvature of the predicted cloth and PBS. Particularly, we study the impact of mean curvature normal and a novel detail-preserving loss both qualitatively and quantitatively. Our new curvature loss computes the local covariance matrices of the 3D points, and compares the Rayleigh quotients of the prediction and PBS. This leads to more details while performing favorably or comparably against the loss that considers mean curvature normal vectors in the 3D triangulated meshes. We validate our framework on four garment types for various body shapes and poses. Finally, we achieve superior performance against a recently proposed data-driven method.
翻訳日:2022-11-08 14:15:00 公開日:2020-07-20
# 書籍に関するQAの難解な証拠検索

Frustratingly Hard Evidence Retrieval for QA Over Books ( http://arxiv.org/abs/2007.09878v1 )

ライセンス: Link先を確認
Xiangyang Mou, Mo Yu, Bingsheng Yao, Chenghao Yang, Xiaoxiao Guo, Saloni Potdar, Hui Su(参考訳) 近年,質問応答(QA)の改善に多くの進展がみられてきたが,物語の物語に対するQAの特別な問題は深くは調査されていない。 我々は、証拠検索に類似しているため、オープンドメインQAタスクとしてBookQAを定式化する。 さらに、最先端のオープンドメインQAアプローチがBookQAにどのように役立つかについても検討する。 ナラティブQAベンチマークの最先端化に加えて,本研究は,書籍における証拠検索の難しさも明らかにしている。

A lot of progress has been made to improve question answering (QA) in recent years, but the special problem of QA over narrative book stories has not been explored in-depth. We formulate BookQA as an open-domain QA task given its similar dependency on evidence retrieval. We further investigate how state-of-the-art open-domain QA approaches can help BookQA. Besides achieving state-of-the-art on the NarrativeQA benchmark, our study also reveals the difficulty of evidence retrieval in books with a wealth of experiments and analysis - which necessitates future effort on novel solutions for evidence retrieval in BookQA.
翻訳日:2022-11-08 14:14:40 公開日:2020-07-20
# 気分はどうですか。 ストレスに基づくテキスト調整の導入

How are you? Introducing stress-based text tailoring ( http://arxiv.org/abs/2007.09970v1 )

ライセンス: Link先を確認
Simone Balloccu, Ehud Reiter, Alexandra Johnstone, Claire Fyfe(参考訳) ストレスは人生だけでなく、テキストを読み、解釈する方法にも影響しますか? この短い論文では、ユーザのエンゲージメントや行動の変化に関して重要な要因となる可能性があるため、ユーザのストレスレベルに基づいたテキストのカスタマイズについて論じる。 まず, ユーザの行動がストレスの影響を受けやすい実例を示し, 評価と評価にどのツールを使用できるかについて議論した後, 複雑さの低減と強制力への影響を生かして文書を調整するための初期手法を提案する。 その結果、読みやすくて励ましやすいテキストとなり、読みやすく理解しやすくなります。 現在進行中のこの作業は、NLGでしばしば見過ごされるトピックに関する興味深い疑問を提起する可能性があると考えています。

Can stress affect not only your life but also how you read and interpret a text? Healthcare has shown evidence of such dynamics and in this short paper we discuss customising texts based on user stress level, as it could represent a critical factor when it comes to user engagement and behavioural change. We first show a real-world example in which user behaviour is influenced by stress, then, after discussing which tools can be employed to assess and measure it, we propose an initial method for tailoring the document by exploiting complexity reduction and affect enforcement. The result is a short and encouraging text which requires less commitment to be read and understood. We believe this work in progress can raise some interesting questions on a topic that is often overlooked in NLG.
翻訳日:2022-11-08 14:14:30 公開日:2020-07-20
# 深層学習深度からの相対詩と単一アフィン対応

Relative Pose from Deep Learned Depth and a Single Affine Correspondence ( http://arxiv.org/abs/2007.10082v1 )

ライセンス: Link先を確認
Ivan Eichhardt, Daniel Barath(参考訳) そこで本研究では,2つのキャリブレーションカメラの相対姿勢を単一の対応から推定するために,奥行き非メトリック単眼深度とアフィン対応(acs)を組み合わせた新しいアプローチを提案する。 深度情報とアフィンの特徴を考慮すると、カメラのポーズに関する2つの新しい制約が導かれる。 提案手法は1点RANSACアプローチで利用可能である。 したがって、ロバスト推定の処理時間は対応数において線形であり、従来の手法よりも桁違いに高速である。 提案した1AC+Dソルバは、合成データと110395個の公開画像ペアの両方でテストされる。 提案された1AC+Dは従来のアプローチと同様の精度で、より高速である。 例えば、Structure-from-Motion (SfM)パイプラインのポーズグラフ初期化のような大規模な問題を解決するとき、ACとモノクル深さを得るオーバーヘッドは、ペアの幾何的検証で得られるスピードアップ、すなわち相対的なポーズ推定よりも無視できる。 これは、最先端のグローバルSfMアルゴリズムを用いて、1DSfMデータセットのシーンで実証される。 ソースコード: https://github.com/eivan/one-ac-pose

We propose a new approach for combining deep-learned non-metric monocular depth with affine correspondences (ACs) to estimate the relative pose of two calibrated cameras from a single correspondence. Considering the depth information and affine features, two new constraints on the camera pose are derived. The proposed solver is usable within 1-point RANSAC approaches. Thus, the processing time of the robust estimation is linear in the number of correspondences and, therefore, orders of magnitude faster than by using traditional approaches. The proposed 1AC+D solver is tested both on synthetic data and on 110395 publicly available real image pairs where we used an off-the-shelf monocular depth network to provide up-to-scale depth per pixel. The proposed 1AC+D leads to similar accuracy as traditional approaches while being significantly faster. When solving large-scale problems, e.g., pose-graph initialization for Structure-from-Motion (SfM) pipelines, the overhead of obtaining ACs and monocular depth is negligible compared to the speed-up gained in the pairwise geometric verification, i.e., relative pose estimation. This is demonstrated on scenes from the 1DSfM dataset using a state-of-the-art global SfM algorithm. Source code: https://github.com/eivan/one-ac-pose
翻訳日:2022-11-08 14:08:50 公開日:2020-07-20
# スケール拡張とドロップアテンションによる注意に基づく手書き数式認識の改善

Improving Attention-Based Handwritten Mathematical Expression Recognition with Scale Augmentation and Drop Attention ( http://arxiv.org/abs/2007.10092v1 )

ライセンス: Link先を確認
Zhe Li, Lianwen Jin, Songxuan Lai, Yecheng Zhu(参考訳) 手書き数式認識(HMER)は手書き数式認識において重要な研究方向である。 HMERの性能は数式(ME)の2次元構造に悩まされている。 この問題に対処するため,本稿では,スケール拡張と注意の低下を伴う高性能hmerモデルを提案する。 具体的には、水平方向と垂直方向の両方で不安定なスケールで私に取り組み、スケール拡張は様々なスケールのmesにおけるモデルの性能を向上させる。 注意に基づくエンコーダデコーダネットワークを用いて特徴を抽出し,予測を生成する。 さらに,デコーダの注意分布が正確でない場合に,さらなる性能向上を図るために,ドロップアテンションを提案する。 従来の手法と比較して, CROHME 2014 と CROHME 2016 の2つの公開データセットに対して, 最先端の性能を実現する。

Handwritten mathematical expression recognition (HMER) is an important research direction in handwriting recognition. The performance of HMER suffers from the two-dimensional structure of mathematical expressions (MEs). To address this issue, in this paper, we propose a high-performance HMER model with scale augmentation and drop attention. Specifically, tackling ME with unstable scale in both horizontal and vertical directions, scale augmentation improves the performance of the model on MEs of various scales. An attention-based encoder-decoder network is used for extracting features and generating predictions. In addition, drop attention is proposed to further improve performance when the attention distribution of the decoder is not precise. Compared with previous methods, our method achieves state-of-the-art performance on two public datasets of CROHME 2014 and CROHME 2016.
翻訳日:2022-11-08 14:08:27 公開日:2020-07-20
# 効率的な点雲生成のための離散点流ネットワーク

Discrete Point Flow Networks for Efficient Point Cloud Generation ( http://arxiv.org/abs/2007.10170v1 )

ライセンス: Link先を確認
Roman Klokov, Edmond Boyer, Jakob Verbeek(参考訳) 生成モデルは、3次元形状とその統計変動のモデル化に有効であることが証明されている。 本稿では,コンピュータビジョンにおいて広く用いられている3次元形状表現である点雲への応用について検討するが,生成モデルはまだほとんど提案されていない。 本稿では,アフィン結合層を用いた正規化フローに基づく潜在変数モデルを導入し,任意の大きさの3次元点雲を生成する。 形状モデリングの利点を評価するために、このモデルを生成、自動エンコード、および単視点形状再構成タスクに適用する。 我々は、生成と自動エンコーディングを評価するほとんどの指標の観点から、最近のGANモデルよりも改善する。 連続フローに基づく最近の作業と比較して、我々のモデルは、類似またはより良いパフォーマンスのためのトレーニング時間と推論時間の両方において、大幅なスピードアップを提供します。 単一ビュー形状再構成では、最先端のボクセル、ポイントクラウド、メッシュベースの手法と同等の結果が得られる。

Generative models have proven effective at modeling 3D shapes and their statistical variations. In this paper we investigate their application to point clouds, a 3D shape representation widely used in computer vision for which, however, only few generative models have yet been proposed. We introduce a latent variable model that builds on normalizing flows with affine coupling layers to generate 3D point clouds of an arbitrary size given a latent shape representation. To evaluate its benefits for shape modeling we apply this model for generation, autoencoding, and single-view shape reconstruction tasks. We improve over recent GAN-based models in terms of most metrics that assess generation and autoencoding. Compared to recent work based on continuous flows, our model offers a significant speedup in both training and inference times for similar or better performance. For single-view shape reconstruction we also obtain results on par with state-of-the-art voxel, point cloud, and mesh-based methods.
翻訳日:2022-11-08 14:08:15 公開日:2020-07-20
# パンオプティカルセグメンテーションによる視覚障害者のナビゲーション認知ニーズをカバーできるか?

Can we cover navigational perception needs of the visually impaired by panoptic segmentation? ( http://arxiv.org/abs/2007.10202v1 )

ライセンス: Link先を確認
Wei Mao, Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen(参考訳) 視覚障害者のナビゲーション認知は、古典的・深層学習に基づくセグメンテーション手法によって著しく促進されている。 古典的な視覚認識法では、セグメンテーションモデルは主にオブジェクト依存であり、興味のある対象に対して特定のアルゴリズムを考案する必要がある。 対照的に、インスタンスセグメンテーションやセマンティクスセグメンテーションといったディープラーニングベースのモデルでは、視覚障害者のためのシーン全体、すなわち物や物の一部を個々に認識することができる。 しかし、両者とも視覚障害者の周囲を総合的に理解することはできない。 panoptic segmentationは、セマンティックセグメンテーションとインスタンスセグメンテーションを統合する目的で新しく提案されたビジュアルモデルである。 そこで本研究では,視覚障がい者に対して,視覚障がい者に近い物と物を認識することにより,視覚障がい者をナビゲートするためのアプローチとしてpanoptic segmentationの利用を提案する。 汎視分節は,視覚障害者に,ウェアラブル・アシスト・システムを通じて,全体像的実世界シーン知覚を付与できることを実証する。

Navigational perception for visually impaired people has been substantially promoted by both classic and deep learning based segmentation methods. In classic visual recognition methods, the segmentation models are mostly object-dependent, which means a specific algorithm has to be devised for the object of interest. In contrast, deep learning based models such as instance segmentation and semantic segmentation allow to individually recognize part of the entire scene, namely things or stuff, for blind individuals. However, both of them can not provide a holistic understanding of the surroundings for the visually impaired. Panoptic segmentation is a newly proposed visual model with the aim of unifying semantic segmentation and instance segmentation. Motivated by that, we propose to utilize panoptic segmentation as an approach to navigating visually impaired people by offering both things and stuff awareness in the proximity of the visually impaired. We demonstrate that panoptic segmentation is able to equip the visually impaired with a holistic real-world scene perception through a wearable assistive system.
翻訳日:2022-11-08 14:07:32 公開日:2020-07-20
# 対ホミン:人間安全のための距離に基づくリスク推定

Inter-Homines: Distance-Based Risk Estimation for Human Safety ( http://arxiv.org/abs/2007.10243v1 )

ライセンス: Link先を確認
Matteo Fabbri, Fabio Lanzi, Riccardo Gasparini, Simone Calderara, Lorenzo Baraldi, Rita Cucchiara(参考訳) 本稿では,rgbカメラが監視する特定の領域において,人が自由に移動・相互作用する危険をモデル化するための提案を行う。 本システムでは,3次元空間における人物の特定,対人距離の算出,監視領域の動的地図の構築によるリスクレベルの予測など,映像ストリームの分析により,監視領域における感染リスクをリアルタイムに評価する。 インターホミンは、公共と民間の混み合った場所で、屋内と屋外の両方で機能する。 このソフトウェアは、産業用PCに既に設置されているカメラや低コストのカメラに適用でき、一時的に測定するための組み込みエッジAIシステムを備えている。 ai側では、最先端のコンピュータビジョンアルゴリズムに基づくホモグラフィック変換による地上面のリアルタイム人物検出と位置推定にロバストなパイプラインを活用し、人物検出器とポーズ推定器の組み合わせである。 リスクモデリングの側面から,空間的動的リスク推定のためのパラメトリックモデルを提案する。これは疫学者によって検証され,現場のリスクレベルを予測して社会的距離防止対策の受容を安全監視するのに有用である。

In this document, we report our proposal for modeling the risk of possible contagiousity in a given area monitored by RGB cameras where people freely move and interact. Our system, called Inter-Homines, evaluates in real-time the contagion risk in a monitored area by analyzing video streams: it is able to locate people in 3D space, calculate interpersonal distances and predict risk levels by building dynamic maps of the monitored area. Inter-Homines works both indoor and outdoor, in public and private crowded areas. The software is applicable to already installed cameras or low-cost cameras on industrial PCs, equipped with an additional embedded edge-AI system for temporary measurements. From the AI-side, we exploit a robust pipeline for real-time people detection and localization in the ground plane by homographic transformation based on state-of-the-art computer vision algorithms; it is a combination of a people detector and a pose estimator. From the risk modeling side, we propose a parametric model for a spatio-temporal dynamic risk estimation, that, validated by epidemiologists, could be useful for safety monitoring the acceptance of social distancing prevention measures by predicting the risk level of the scene.
翻訳日:2022-11-08 14:07:14 公開日:2020-07-20
# ビデオインペインティングのための共同空間時間変換の学習

Learning Joint Spatial-Temporal Transformations for Video Inpainting ( http://arxiv.org/abs/2007.10247v1 )

ライセンス: Link先を確認
Yanhong Zeng, Jianlong Fu, Hongyang Chao(参考訳) ビデオフレームの欠落した領域を仕上げる高品質なビデオ塗装は、有望だが難しい課題だ。 State-of-the-artアプローチでは、参照フレームから欠落したコンテンツを検索してフレームを完了し、フレーム単位で全ビデオフレームを補完するアテンションモデルを採用している。 しかし、これらのアプローチは空間的・時間的次元に沿った不整合な注意結果に悩まされ、しばしばビデオの曖昧さや時間的アーティファクトにつながる。 本稿では,ビデオインペイントのためのSTTN(Spatial-Temporal Transformer Network)について述べる。 具体的には,全入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間的対角損失によるSTTNの最適化を提案する。 提案モデルの優位性を示すため,標準定常マスクとより現実的な移動物体マスクを用いて定量的および定性的評価を行う。 デモビデオはhttps://github.com/researchmm/sttnで見ることができる。

High-quality video inpainting that completes missing regions in video frames is a promising yet challenging task. State-of-the-art approaches adopt attention models to complete a frame by searching missing contents from reference frames, and further complete whole videos frame by frame. However, these approaches can suffer from inconsistent attention results along spatial and temporal dimensions, which often leads to blurriness and temporal artifacts in videos. In this paper, we propose to learn a joint Spatial-Temporal Transformer Network (STTN) for video inpainting. Specifically, we simultaneously fill missing regions in all input frames by self-attention, and propose to optimize STTN by a spatial-temporal adversarial loss. To show the superiority of the proposed model, we conduct both quantitative and qualitative evaluations by using standard stationary masks and more realistic moving object masks. Demo videos are available at https://github.com/researchmm/STTN.
翻訳日:2022-11-08 14:06:56 公開日:2020-07-20
# 関連性のある衣服:人と衣服の視覚的関係を検出する

Relatable Clothing: Detecting Visual Relationships between People and Clothing ( http://arxiv.org/abs/2007.10283v1 )

ライセンス: Link先を確認
Thomas Truong and Svetlana Yanushkevich(参考訳) 画像中の人物と衣服の視覚的関係を検出することは、コンピュータビジョンとバイオメトリクスの分野で比較的未解決の問題である。 `worn'' と ``unworn'' の分類のための公開データセットが不足しているため、この問題に対するソリューションの開発が遅れている。 本稿では,「ウーン」と「ウーン」の分類モデルを開発するために,35287対のパーソナライズマスクとセグメンテーションマスクを備えるRelatable Clothing Datasetのリリースについて述べる。 さらに,深層ニューラルネットワークを用いた「worn」と「unworn」の分類を行う新しいソフトアテンションユニットを提案する。 提案するソフトアテンションモデルは,可読性のある衣料品のデータセット上で9.8.55\% \pm 0.35\%$ の精度を有し,高い汎用性を示し,高視認性衣料品の「worn」や「unworn」と分類できる。

Detecting visual relationships between people and clothing in an image has been a relatively unexplored problem in the field of computer vision and biometrics. The lack readily available public dataset for ``worn'' and ``unworn'' classification has slowed the development of solutions for this problem. We present the release of the Relatable Clothing Dataset which contains 35287 person-clothing pairs and segmentation masks for the development of ``worn'' and ``unworn'' classification models. Additionally, we propose a novel soft attention unit for performing ``worn'' and ``unworn'' classification using deep neural networks. The proposed soft attention models have an accuracy of upward $98.55\% \pm 0.35\%$ on the Relatable Clothing Dataset and demonstrate high generalizable, allowing us to classify unseen articles of clothing such as high visibility vests as ``worn'' or ``unworn''.
翻訳日:2022-11-08 14:06:39 公開日:2020-07-20
# 微分可能な特徴クラスタリングに基づく画像分割の教師なし学習

Unsupervised Learning of Image Segmentation Based on Differentiable Feature Clustering ( http://arxiv.org/abs/2007.09990v1 )

ライセンス: Link先を確認
Wonjik Kim, Asako Kanezaki, and Masayuki Tanaka(参考訳) 本研究では、教師なし画像分割における畳み込みニューラルネットワーク(CNN)の利用について検討した。 提案手法では,次の基準を満たすために,ラベル予測とネットワークパラメータ学習を交互に反復する。 (a)類似した特徴の画素は同じラベルを割り当てるべきである。 (b)空間連続画素は同じラベルを付与すべきであり、 (c) ユニークなラベルの数は大きいはずである。 これらの基準は相容れないが,提案手法は類似性損失と空間連続性損失の組合せを最小化して,上記の基準をうまくバランスさせるラベル割り当ての有効な解を求める。 本研究の貢献は4倍である。 まず,分類可能なクラスタリングのための正規化とargmax関数からなる,教師なし画像セグメンテーションのエンドツーエンドネットワークを提案する。 第2に,従来の作業が持つ固定セグメント境界の制限を緩和する空間連続性損失関数を導入する。 第3に,ユーザ入力としてスクリブルを用いたセグメンテーション手法の拡張を行い,効率を保ちながら既存の手法よりも精度が向上した。 最後に,本手法の新たな拡張として,いくつかの参照画像で事前学習したネットワークを用いて,ネットワークの再トレーニングを行わずに画像分割を行う方法を提案する。 画像セグメンテーションのベンチマークデータセットを用いて,提案手法の有効性を検討した。

The usage of convolutional neural networks (CNNs) for unsupervised image segmentation was investigated in this study. In the proposed approach, label prediction and network parameter learning are alternately iterated to meet the following criteria: (a) pixels of similar features should be assigned the same label, (b) spatially continuous pixels should be assigned the same label, and (c) the number of unique labels should be large. Although these criteria are incompatible, the proposed approach minimizes the combination of similarity loss and spatial continuity loss to find a plausible solution of label assignment that balances the aforementioned criteria well. The contributions of this study are four-fold. First, we propose a novel end-to-end network of unsupervised image segmentation that consists of normalization and an argmax function for differentiable clustering. Second, we introduce a spatial continuity loss function that mitigates the limitations of fixed segment boundaries possessed by previous work. Third, we present an extension of the proposed method for segmentation with scribbles as user input, which showed better accuracy than existing methods while maintaining efficiency. Finally, we introduce another extension of the proposed method: unseen image segmentation by using networks pre-trained with a few reference images without re-training the networks. The effectiveness of the proposed approach was examined on several benchmark datasets of image segmentation.
翻訳日:2022-11-08 13:59:42 公開日:2020-07-20
# AS-OCT組織セグメンテーションのためのマクロマイクロ弱制御フレームワーク

A Macro-Micro Weakly-supervised Framework for AS-OCT Tissue Segmentation ( http://arxiv.org/abs/2007.10007v1 )

ライセンス: Link先を確認
Munan Ning, Cheng Bian, Donghuan Lu, Hong-Yu Zhou, Shuang Yu, Chenglang Yuan, Yang Guo, Yaohua Wang, Kai Ma, Yefeng Zheng(参考訳) アジア人では, 一次角閉鎖緑内障(PACG)が不可逆性失明の原因となっている。 PACGの早期検出は、タイムリーな治療を提供し、視力喪失を最小限に抑えるために不可欠である。 臨床では, PACGは, 角膜と虹彩の角度を, 視床前部光コヒーレンス断層撮影(AS-OCT)で解析することにより診断される。 ディープラーニング技術の急速な発展は、角膜と虹彩組織の迅速かつ正確なセグメンテーションのためのコンピュータ支援システムの構築を可能にする。 しかし, 医用画像領域における深層学習法の適用は, 十分な完全注釈標本の欠如によって制限されている。 本稿では,AS-OCT画像に対して,弱いアノテート画像(多義性)と完全アノテート画像(マイノリティ)を組み合わせて,ターゲット組織を正確に分割する枠組みを提案する。 提案するフレームワークは,相互に信頼性の高いガイダンスを提供する2つのモデルで構成されている。 また、ガイダンスの精度と安定性を高めるため、不確実性誘導戦略を採用した。 公開年齢データセットに関する詳細な実験は、提案されたフレームワークが最先端のセミ教師付きメソッドよりも優れており、完全に教師付きメソッドと同等の性能を持つことを示している。 そこで,提案手法は,弱アノテート画像に含まれる情報の利用に有効であり,アノテーションの作業負荷を強制的に軽減する能力を有することを示す。

Primary angle closure glaucoma (PACG) is the leading cause of irreversible blindness among Asian people. Early detection of PACG is essential, so as to provide timely treatment and minimize the vision loss. In the clinical practice, PACG is diagnosed by analyzing the angle between the cornea and iris with anterior segment optical coherence tomography (AS-OCT). The rapid development of deep learning technologies provides the feasibility of building a computer-aided system for the fast and accurate segmentation of cornea and iris tissues. However, the application of deep learning methods in the medical imaging field is still restricted by the lack of enough fully-annotated samples. In this paper, we propose a novel framework to segment the target tissues accurately for the AS-OCT images, by using the combination of weakly-annotated images (majority) and fully-annotated images (minority). The proposed framework consists of two models which provide reliable guidance for each other. In addition, uncertainty guided strategies are adopted to increase the accuracy and stability of the guidance. Detailed experiments on the publicly available AGE dataset demonstrate that the proposed framework outperforms the state-of-the-art semi-/weakly-supervised methods and has a comparable performance as the fully-supervised method. Therefore, the proposed method is demonstrated to be effective in exploiting information contained in the weakly-annotated images and has the capability to substantively relieve the annotation workload.
翻訳日:2022-11-08 13:58:58 公開日:2020-07-20
# カメラ幾何計算におけるアフィン対応の動作

Making Affine Correspondences Work in Camera Geometry Computation ( http://arxiv.org/abs/2007.10032v1 )

ライセンス: Link先を確認
Daniel Barath, Michal Polic, Wolfgang F\"orstner, Torsten Sattler, Tomas Pajdla, Zuzana Kukelova(参考訳) 局所的な特徴、例えばsiftとそのアフィンおよび学習された変種は、ポイント・ツー・ポイント対応ではなく、地域から地域への対応を提供する。 これは最近、ホモグラフィ、本質的および基本行列推定のような古典的問題に対する新しい最小解法を作成するために利用されている。 そのようなソルバの主な利点は、そのサンプルサイズが小さいことである。例えば、ホモグラフィを推定するには、4つのマッチではなく2つしかない。 このような解決方法を提案する作業は、RANSACのイテレーションが少ないため、実行時の大幅な改善を主張することが多い。 この議論は, 解決者が否定的に用いられる場合, 実際に有効ではないことを示す。 そこで本研究では,全モデル推定パイプラインにおいて,地域間マッチングを効果的に活用するためのガイドラインを提案する。 対称強度に基づくマッチングによる局所特徴幾何学を精錬し,ransac内の不確実性伝播とプリエンプティブモデル検証を組み合わせる方法を提案し,最小解法結果の不確実性を計算するための一般的なスキームを示し,ホモグラフィ推定のためのサンプルキイロリティチェックを適用する。 実験の結果,アフィンソルバはガイドラインに従うと,より高速な実行でポイントベースソルバに匹敵する精度を達成できることがわかった。 コードはhttps://github.com/danini/affine-correspondences-for-camera-geometryで利用可能です。

Local features e.g. SIFT and its affine and learned variants provide region-to-region rather than point-to-point correspondences. This has recently been exploited to create new minimal solvers for classical problems such as homography, essential and fundamental matrix estimation. The main advantage of such solvers is that their sample size is smaller, e.g., only two instead of four matches are required to estimate a homography. Works proposing such solvers often claim a significant improvement in run-time thanks to fewer RANSAC iterations. We show that this argument is not valid in practice if the solvers are used naively. To overcome this, we propose guidelines for effective use of region-to-region matches in the course of a full model estimation pipeline. We propose a method for refining the local feature geometries by symmetric intensity-based matching, combine uncertainty propagation inside RANSAC with preemptive model verification, show a general scheme for computing uncertainty of minimal solvers results, and adapt the sample cheirality check for homography estimation. Our experiments show that affine solvers can achieve accuracy comparable to point-based solvers at faster run-times when following our guidelines. We make code available at https://github.com/danini/affine-correspondences-for-camera-geometry.
翻訳日:2022-11-08 13:58:33 公開日:2020-07-20
# 深度完了のための非局所空間伝搬ネットワーク

Non-Local Spatial Propagation Network for Depth Completion ( http://arxiv.org/abs/2007.10042v1 )

ライセンス: Link先を確認
Jinsun Park, Kyungdon Joo, Zhe Hu, Chi-Kuei Liu, In So Kweon(参考訳) 本稿では,奥行き完了のための堅牢で効率的な非局所空間伝搬ネットワークを提案する。 提案ネットワークは,RGBとスパース深度画像を入力とし,各画素の非局所的隣人とその親和性を推定し,画素単位の信頼度を持つ初期深度マップを作成する。 初期深度予測は、予測された非局所近傍と対応する親和性に基づいて、その信頼度と非局所空間伝播手順により反復的に洗練される。 固定局所近傍を利用する従来のアルゴリズムとは異なり、提案手法は非関係な局所近傍を効果的に回避し、伝播中に関連する非局所近傍に集中する。 さらに,学習可能な親和性正規化を導入し,親和性の組み合わせをよりよく学習する。 提案アルゴリズムは,既存の深度推定/補完アルゴリズムの主要な問題の一つである深度境界の混合深度問題に対して本質的に堅牢である。 室内および屋外のデータセットにおける実験結果から,提案アルゴリズムは混合深度問題に対する深度完了精度とロバスト性の観点から従来のアルゴリズムよりも優れていることが示された。 私たちの実装はプロジェクトページで公開されています。

In this paper, we propose a robust and efficient end-to-end non-local spatial propagation network for depth completion. The proposed network takes RGB and sparse depth images as inputs and estimates non-local neighbors and their affinities of each pixel, as well as an initial depth map with pixel-wise confidences. The initial depth prediction is then iteratively refined by its confidence and non-local spatial propagation procedure based on the predicted non-local neighbors and corresponding affinities. Unlike previous algorithms that utilize fixed-local neighbors, the proposed algorithm effectively avoids irrelevant local neighbors and concentrates on relevant non-local neighbors during propagation. In addition, we introduce a learnable affinity normalization to better learn the affinity combinations compared to conventional methods. The proposed algorithm is inherently robust to the mixed-depth problem on depth boundaries, which is one of the major issues for existing depth estimation/completion algorithms. Experimental results on indoor and outdoor datasets demonstrate that the proposed algorithm is superior to conventional algorithms in terms of depth completion accuracy and robustness to the mixed-depth problem. Our implementation is publicly available on the project page.
翻訳日:2022-11-08 13:57:44 公開日:2020-07-20
# 3次元CTデータを用いた畳み込みニューラルネットワークによるケパロメトリランドマークの回帰

Cephalometric Landmark Regression with Convolutional Neural Networks on 3D Computed Tomography Data ( http://arxiv.org/abs/2007.10052v1 )

ライセンス: Link先を確認
Dmitry Lachinov, Alexandra Getmanskaya and Vadim Turlapov(参考訳) 本稿では,3次元脳波自動解析の問題点に対処する。 側方X線写真におけるケパロメトリ解析では, 横面への投射による3次元物体の構造を十分に利用していない。 ctなどの3次元イメージング技術の開発により,3次元に拡張した解析法がいくつか提案されている。 これらの方法に基づく解析は回転や変換に不変であり、頭蓋骨の変形の困難さを記述できる。 本稿では,脳波のランドマーク回帰に対する既存のアプローチについて概説する。 さらに, art 3d convolutional neural network (cnn) を用いたキーポイント回帰法について, 直接回帰法, ヒートマップ回帰法, softargmax回帰法などの実験を行った。 本研究は,高度頭蓋骨変形症例を対象としたFrankfort Horizontal and cephalometric points position の評価において,本法の有効性を広く評価した。 本研究では,HeatmapおよびSoftargmax回帰モデルが医療応用(4mm未満)に十分な回帰誤差を与えることを示した。 さらに、Softargmaxモデルはフランクフォート水平方向の1.15o傾斜誤差を達成する。 先行技術との公平な比較のために, 横面に投影された結果も報告する。

In this paper, we address the problem of automatic three-dimensional cephalometric analysis. Cephalometric analysis performed on lateral radiographs doesn't fully exploit the structure of 3D objects due to projection onto the lateral plane. With the development of three-dimensional imaging techniques such as CT, several analysis methods have been proposed that extend to the 3D case. The analysis based on these methods is invariant to rotations and translations and can describe difficult skull deformation, where 2D cephalometry has no use. In this paper, we provide a wide overview of existing approaches for cephalometric landmark regression. Moreover, we perform a series of experiments with state of the art 3D convolutional neural network (CNN) based methods for keypoint regression: direct regression with CNN, heatmap regression and Softargmax regression. For the first time, we extensively evaluate the described methods and demonstrate their effectiveness in the estimation of Frankfort Horizontal and cephalometric points locations for patients with severe skull deformations. We demonstrate that Heatmap and Softargmax regression models provide sufficient regression error for medical applications (less than 4 mm). Moreover, the Softargmax model achieves 1.15o inclination error for the Frankfort horizontal. For the fair comparison with the prior art, we also report results projected on the lateral plane.
翻訳日:2022-11-08 13:57:25 公開日:2020-07-20
# 大型倉庫におけるウェアラブルカメラによる人間絶対位置推定

Wearable camera-based human absolute localization in large warehouses ( http://arxiv.org/abs/2007.10066v1 )

ライセンス: Link先を確認
Ga\"el \'Ecorchard and Karel Ko\v{s}nar and Libor P\v{r}eu\v{c}il(参考訳) ロボット化された倉庫では、ロボットが自律的に動く場所において、ロボットの作業領域に介入する際、人間のオペレーターの位置や検出が大きな問題となる。 本稿では、自動誘導車両(AGV)のローカライズに使用するプリインストールされたインフラを利用する大型倉庫用ウェアラブル人体ローカライズシステムを提案する。 単眼のダウンルックカメラは、地上ノードを検出し、それらを識別し、人間の絶対位置を計算し、同じワークスペースにおける人間とagvの安全な協力と共存を可能にする。 人間の操作者周辺の仮想安全エリアが設定され、この領域内のAGVは直ちに停止される。 ロボットとオペレーターの間の距離が短いために緊急停止を引き起こすのを避けるために、ロボットの軌道が人間に干渉しないように修正する必要がある。 本研究の目的は,光の強度が低く,環境が大きく変化する自動倉庫において,人体に設置した単眼カメラのみを用いた絶対的な視覚的位置決め方式を実証することである。

In a robotised warehouse, as in any place where robots move autonomously, a major issue is the localization or detection of human operators during their intervention in the work area of the robots. This paper introduces a wearable human localization system for large warehouses, which utilize preinstalled infrastructure used for localization of automated guided vehicles (AGVs). A monocular down-looking camera is detecting ground nodes, identifying them and computing the absolute position of the human to allow safe cooperation and coexistence of humans and AGVs in the same workspace. A virtual safety area around the human operator is set up and any AGV in this area is immediately stopped. In order to avoid triggering an emergency stop because of the short distance between robots and human operators, the trajectories of the robots have to be modified so that they do not interfere with the human. The purpose of this paper is to demonstrate an absolute visual localization method working in the challenging environment of an automated warehouse with low intensity of light, massively changing environment and using solely monocular camera placed on the human body.
翻訳日:2022-11-08 13:57:07 公開日:2020-07-20
# コンテキスト対応RCNN:ビデオにおけるアクション検出のベースライン

Context-Aware RCNN: A Baseline for Action Detection in Videos ( http://arxiv.org/abs/2007.09861v1 )

ライセンス: Link先を確認
Jianchao Wu, Zhanghui Kuang, Limin Wang, Wayne Zhang, Gangshan Wu(参考訳) ビデオアクション検出アプローチは通常、Faster-RCNNの標準的なパイプラインに続くRoIプール機能に対してアクター中心のアクション認識を実行する。 本研究では,まず認識精度がアクターのバウンディングボックスサイズと高い相関関係があることを実証的に確認し,アクターの高解像度化がパフォーマンスの向上に寄与することを示す。 しかし、ビデオモデルは正確な認識を達成するのに時間をかけて密集したサンプリングを必要とする。 GPUメモリに適合するためには、バックボーンネットワークへのフレームの解像度を低く保ち、結果としてRoI-Pooling層に粗い特徴マップが作られる必要がある。 そこで我々は,i3d deep networkを用いた特徴抽出に先立ち,アクタまわりの画像パッチの切り抜きと再サイズを行い,アクタ中心のアクション認識のためのrcnnを再検討する。 さらに,アクターバウンディングボックスをわずかに拡張し,コンテキスト機能を融合することで,パフォーマンスをさらに向上できることがわかった。 そこで本研究では,AVA と JHMDB の2つの動作検出ベンチマークにおいて,より効果的なベースライン (Context-Aware RCNN) を構築した。 我々の観察は、従来のRoI-Poolingベースのパイプラインの知恵に挑戦し、研究者はアクター中心のアクション認識における解決の重要性を再考する。 当社のアプローチは,ビデオアクション検出の強力なベースラインとして機能し,新たなアイデアの創出が期待できる。 コードは \url{https://github.com/mcg-nju/crcnn-action} で入手できる。

Video action detection approaches usually conduct actor-centric action recognition over RoI-pooled features following the standard pipeline of Faster-RCNN. In this work, we first empirically find the recognition accuracy is highly correlated with the bounding box size of an actor, and thus higher resolution of actors contributes to better performance. However, video models require dense sampling in time to achieve accurate recognition. To fit in GPU memory, the frames to backbone network must be kept low-resolution, resulting in a coarse feature map in RoI-Pooling layer. Thus, we revisit RCNN for actor-centric action recognition via cropping and resizing image patches around actors before feature extraction with I3D deep network. Moreover, we found that expanding actor bounding boxes slightly and fusing the context features can further boost the performance. Consequently, we develop a surpringly effective baseline (Context-Aware RCNN) and it achieves new state-of-the-art results on two challenging action detection benchmarks of AVA and JHMDB. Our observations challenge the conventional wisdom of RoI-Pooling based pipeline and encourage researchers rethink the importance of resolution in actor-centric action recognition. Our approach can serve as a strong baseline for video action detection and is expected to inspire new ideas for this filed. The code is available at \url{https://github.com/MCG-NJU/CRCNN-Action}.
翻訳日:2022-11-08 13:50:44 公開日:2020-07-20
# Deep Realistic Taxonomic Classifier を用いたロングテール認識の解法

Solving Long-tailed Recognition with Deep Realistic Taxonomic Classifier ( http://arxiv.org/abs/2007.09898v1 )

ライセンス: Link先を確認
Tz-Ying Wu, Pedro Morgado, Pei Wang, Chih-Hui Ho, and Nuno Vasconcelos(参考訳) ロングテール認識は、現実世界のシナリオにおける自然な非一様分散データに取り組む。 現代の分類器は人口密集したクラスでうまく機能するが、その性能はテールクラスで著しく低下する。 しかし人間は、不確実な例に直面した場合、単に粗い予測を行うことを選んだため、この影響を受けない。 これに触発されたDeep-RTC(Deep-RTC)は、現実主義と階層的予測を組み合わせたロングテール問題の解法として提案される。 モデルには、望ましいパフォーマンスを保証できないと、分類の異なるレベルでのサンプルの分類を拒否するオプションがある。 Deep-RTCはトレーニング中に確率木サンプリングを用いて実装され、より微細または粗いレベルでのあらゆる分類条件と推論時の拒絶機構をシミュレートする。 CIFAR100、AWA2、Imagenet、iNaturalistの4つのデータセットの長い尾を持つバージョンの実験は、提案手法が人気レベルが異なるすべてのクラスの情報を保存することを実証している。 Deep-RTCは、提案した正確な予測ビット(CPB)メトリックを用いて、長い認識、階層分類、拒絶文学による学習において最先端の手法よりも優れている。

Long-tail recognition tackles the natural non-uniformly distributed data in real-world scenarios. While modern classifiers perform well on populated classes, its performance degrades significantly on tail classes. Humans, however, are less affected by this since, when confronted with uncertain examples, they simply opt to provide coarser predictions. Motivated by this, a deep realistic taxonomic classifier (Deep-RTC) is proposed as a new solution to the long-tail problem, combining realism with hierarchical predictions. The model has the option to reject classifying samples at different levels of the taxonomy, once it cannot guarantee the desired performance. Deep-RTC is implemented with a stochastic tree sampling during training to simulate all possible classification conditions at finer or coarser levels and a rejection mechanism at inference time. Experiments on the long-tailed version of four datasets, CIFAR100, AWA2, Imagenet, and iNaturalist, demonstrate that the proposed approach preserves more information on all classes with different popularity levels. Deep-RTC also outperforms the state-of-the-art methods in longtailed recognition, hierarchical classification, and learning with rejection literature using the proposed correctly predicted bits (CPB) metric.
翻訳日:2022-11-08 13:49:15 公開日:2020-07-20
# 敵攻撃に対する防御策としての簡易訓練戦略の評価

Evaluating a Simple Retraining Strategy as a Defense Against Adversarial Attacks ( http://arxiv.org/abs/2007.09916v1 )

ライセンス: Link先を確認
Nupur Thakur, Yuzhen Ding, Baoxin Li(参考訳) ディープニューラルネットワーク(DNN)は、コンピュータビジョン、自然言語処理、ロボット工学といった主要分野の他の技術よりも優れているが、最近は敵の攻撃に弱いことが証明されている。 元の入力画像にシンプルで小さく、ほとんど見えない摂動を加えることで、DNNを騙して間違った判断を下すことができる。 より多くの攻撃アルゴリズムが設計されると、そのような攻撃からニューラルネットワークを守る必要性が生じる。 敵画像によるネットワークのリトレーニングは最も簡単な手法の1つである。 本稿では,このような再訓練戦略が敵攻撃に対する防御に有効であることを示す。 また、KNNのような単純なアルゴリズムを用いて、再トレーニングに必要な逆画像のラベルを決定する方法を示す。 CIFAR-10とTinyImageNetという2つの標準データセットで結果を示す。

Though deep neural networks (DNNs) have shown superiority over other techniques in major fields like computer vision, natural language processing, robotics, recently, it has been proven that they are vulnerable to adversarial attacks. The addition of a simple, small and almost invisible perturbation to the original input image can be used to fool DNNs into making wrong decisions. With more attack algorithms being designed, a need for defending the neural networks from such attacks arises. Retraining the network with adversarial images is one of the simplest techniques. In this paper, we evaluate the effectiveness of such a retraining strategy in defending against adversarial attacks. We also show how simple algorithms like KNN can be used to determine the labels of the adversarial images needed for retraining. We present the results on two standard datasets namely, CIFAR-10 and TinyImageNet.
翻訳日:2022-11-08 13:48:53 公開日:2020-07-20
# MotionSqueeze:ビデオ理解のためのニューラルモーション特徴学習

MotionSqueeze: Neural Motion Feature Learning for Video Understanding ( http://arxiv.org/abs/2007.09933v1 )

ライセンス: Link先を確認
Heeseung Kwon, Manjin Kim, Suha Kwak, and Minsu Cho(参考訳) 動画分類のための最先端のニューラルモデルでは、通常、別個のオフ・ザ・棚法で抽出された光学的流れを用いて、動き情報が組み込まれている。 フレーム・バイ・フレームの光学フローは重い計算を必要とするため、動画理解のための重要な計算ボトルネックとなっている。 本研究では,光学フローの外部計算と重計算を,動作特徴の学習と軽量学習に置き換える。 運動特徴抽出のためのトレーニング可能なニューラルモジュールであるMotionSqueezeを提案する。 ニューラルネットワークの中央に挿入され、フレーム間の対応性を確立し、それらをモーション機能に変換することを学び、それを次の下流層に簡単に送って予測を改善する。 提案手法は,アクション認識のための標準的な4つのベンチマークに対して,少量の追加コストで大幅に向上することを示し,Something-V1&V2データセットにおける技術状況よりも優れていることを示した。

Motion plays a crucial role in understanding videos and most state-of-the-art neural models for video classification incorporate motion information typically using optical flows extracted by a separate off-the-shelf method. As the frame-by-frame optical flows require heavy computation, incorporating motion information has remained a major computational bottleneck for video understanding. In this work, we replace external and heavy computation of optical flows with internal and light-weight learning of motion features. We propose a trainable neural module, dubbed MotionSqueeze, for effective motion feature extraction. Inserted in the middle of any neural network, it learns to establish correspondences across frames and convert them into motion features, which are readily fed to the next downstream layer for better prediction. We demonstrate that the proposed method provides a significant gain on four standard benchmarks for action recognition with only a small amount of additional cost, outperforming the state of the art on Something-Something-V1&V2 datasets.
翻訳日:2022-11-08 13:48:23 公開日:2020-07-20
# 機械誘導・人間主導型説明対話型学習を目指して

Toward Machine-Guided, Human-Initiated Explanatory Interactive Learning ( http://arxiv.org/abs/2007.10018v1 )

ライセンス: Link先を確認
Teodora Popordanoska, Mohit Kumar, and Stefano Teso(参考訳) 最近の研究は、ブラックボックスモデルの理解と監視のために、局所的な説明と活発な学習を組み合わせることを実証している。 ここでは、特定の条件下では、これらのアルゴリズムが学習されるモデルの質を誤って表現する可能性があることを示す。 その理由は、マシンがクエリインスタンスのラベルを予測し、説明することによって、その信念を表現しているからである。 これは、ユーザに対して機械が提示する「物語」に偏りを生じさせ、説明的指導型学習を導入することで、この物語バイアスに対処する。 一 管理人は、クエリーインスタンスの選択を任されている間、 二 機械は、グローバルな説明を用いて、その全体的行動を説明し、かつ、困難かつ情報のある事例を選択するよう監督官に指示する。 この戦略は説明的相互作用の重要な利点を保ちながら、物語バイアスを避け、サンプル複雑性の観点からアクティブラーニングと比較する。 クラスタリングベースのプロトタイプによる最初の経験的評価は、私たちのアプローチの約束を強調します。

Recent work has demonstrated the promise of combining local explanations with active learning for understanding and supervising black-box models. Here we show that, under specific conditions, these algorithms may misrepresent the quality of the model being learned. The reason is that the machine illustrates its beliefs by predicting and explaining the labels of the query instances: if the machine is unaware of its own mistakes, it may end up choosing queries on which it performs artificially well. This biases the "narrative" presented by the machine to the user.We address this narrative bias by introducing explanatory guided learning, a novel interactive learning strategy in which: i) the supervisor is in charge of choosing the query instances, while ii) the machine uses global explanations to illustrate its overall behavior and to guide the supervisor toward choosing challenging, informative instances. This strategy retains the key advantages of explanatory interaction while avoiding narrative bias and compares favorably to active learning in terms of sample complexity. An initial empirical evaluation with a clustering-based prototype highlights the promise of our approach.
翻訳日:2022-11-08 13:40:42 公開日:2020-07-20
# マルチバースでのショッピング: インセッション属性に対する対実的アプローチ

Shopping in the Multiverse: A Counterfactual Approach to In-Session Attribution ( http://arxiv.org/abs/2007.10087v1 )

ライセンス: Link先を確認
Jacopo Tagliabue and Bingqing Yu(参考訳) 我々は,eコマースにおける現場検索エンジンの収益化の課題に取り組む。 問題を因果的反事実推論として表現し,マルチタッチ帰属文献から業界設定と予測モデルからルールベースシステムへアプローチを対比する。 特に,prod2vec埋め込みによって引き起こされる潜在空間を活用して,ターゲットショップ上で生成的ブラウジングモデルを学ぶことを提案し,自然言語クエリを同じ空間で効果的に表現する方法と,因果貢献を評価するために「検索介入」をどのように行うかを示す。 最後に,この手法を合成データセット上で検証し,顧客面接や質的分析で出現する重要なパターンを模倣し,パートナーショップからの産業データセットについて予備的な知見を提示する。

We tackle the challenge of in-session attribution for on-site search engines in eCommerce. We phrase the problem as a causal counterfactual inference, and contrast the approach with rule-based systems from industry settings and prediction models from the multi-touch attribution literature. We approach counterfactuals in analogy with treatments in formal semantics, explicitly modeling possible outcomes through alternative shopper timelines; in particular, we propose to learn a generative browsing model over a target shop, leveraging the latent space induced by prod2vec embeddings; we show how natural language queries can be effectively represented in the same space and how "search intervention" can be performed to assess causal contribution. Finally, we validate the methodology on a synthetic dataset, mimicking important patterns emerged in customer interviews and qualitative analysis, and we present preliminary findings on an industry dataset from a partnering shop.
翻訳日:2022-11-08 13:40:25 公開日:2020-07-20
# HTTPインタラクションのオントロジーに向けて

Towards an ontology of HTTP interactions ( http://arxiv.org/abs/2007.13475v1 )

ライセンス: Link先を確認
Mathieu Lirzin (BDTLN), B\'eatrice Markhoff (BDTLN)(参考訳) 企業情報システムは異種プログラム間の交換にWebベースの基盤を採用している。 これらのプログラムは、URIによって識別されたリソースをWeb APIを通じて提供し、消費する。 さらにHTTPは、すべてのWeb開発の中心にある(セマンティックWeb、リンクデータ、IoT...)。 したがって、プログラムがHTTPインタラクション(要求-応答)について推論できなければならない状況が乗じている。 これはこれらの相互作用の共有概念化の明示的な公式な仕様を必要とする。 RDF語彙の提案は、Webアプリケーションの適合性テストを実行し、テスト出力を記録するために開発された。 この語彙はすでに再利用されている。 本稿では,再利用可能なものにするための適応と拡張を提案する。

Enterprise information systems have adopted Web-based foundations for exchanges between heterogeneous programmes. These programs provide and consume via Web APIs some resources identified by URIs, whose representations are transmitted via HTTP. Furthermore HTTP remains at the heart of all Web developments (Semantic Web, linked data, IoT...). Thus, situations where a program must be able to reason about HTTP interactions (request-response) are multiplying. This requires an explicit formal specification of a shared conceptualization of those interactions. A proposal for an RDF vocabulary exists, developed with a view to carrying out web application conformity tests and record the tests outputs. This vocabulary has already been reused. In this paper we propose to adapt and extend it for making it more reusable.
翻訳日:2022-11-08 13:40:09 公開日:2020-07-20
# 文書画像デワープのための拡張および分岐型スタックドU-Netモジュール

A Gated and Bifurcated Stacked U-Net Module for Document Image Dewarping ( http://arxiv.org/abs/2007.09824v1 )

ライセンス: Link先を確認
Hmrishav Bandyopadhyay, Tanmoy Dasgupta, Nibaran Das, Mita Nasipuri(参考訳) ドキュメントのイメージをキャプチャすることは、記録する最も簡単で最もよく使われる方法の1つです。 しかし、これらの画像はハンドヘルドデバイスの助けを借りて撮影され、しばしば取り外すのが困難な歪みを引き起こす。 本稿では,分岐格子を予測し,入力から歪みのない画像を生成するための教師付きゲート型および分岐型スタック型u-netモジュールを提案する。 ネットワークは合成された文書画像に基づいて訓練されているが、結果は実世界画像に基づいて計算される。 我々の手法の新規性は、グリッド座標の混在を排除するためにU-Netの分岐部に存在するだけでなく、モデルに境界やその他の分線レベルを付加するゲートネットワークの利用にも有効である。 我々の提案したエンドツーエンドパイプラインは、DocUNetデータセット上で、以前の方法で使用されるデータのわずか8%でトレーニングされた後に、最先端のパフォーマンスを達成する。

Capturing images of documents is one of the easiest and most used methods of recording them. These images however, being captured with the help of handheld devices, often lead to undesirable distortions that are hard to remove. We propose a supervised Gated and Bifurcated Stacked U-Net module to predict a dewarping grid and create a distortion free image from the input. While the network is trained on synthetically warped document images, results are calculated on the basis of real world images. The novelty in our methods exists not only in a bifurcation of the U-Net to help eliminate the intermingling of the grid coordinates, but also in the use of a gated network which adds boundary and other minute line level details to the model. The end-to-end pipeline proposed by us achieves state-of-the-art performance on the DocUNet dataset after being trained on just 8 percent of the data used in previous methods.
翻訳日:2022-11-08 13:40:00 公開日:2020-07-20
# モノクロ3次元物体検出のための物体認識型セントロイド投票

Object-Aware Centroid Voting for Monocular 3D Object Detection ( http://arxiv.org/abs/2007.09836v1 )

ライセンス: Link先を確認
Wentao Bao and Qi Yu and Yu Kong(参考訳) モノクロ3Dオブジェクト検出は、単一のカメラから3D物理世界の物体を検出することを目的としている。 しかし、近年のアプローチは高価なLiDARデバイスに依存するか、あるいは計算コストを抑えるようなピクセル単位の深度推定に頼っている。 本稿では,深度を学習することなく,エンドツーエンドのトレーニング可能なモノクル3次元物体検出器を提案する。 具体的には、2Dボックスのグリッド座標は、3Dセントロイドの提案としてピンホールモデルで最初に3D空間に投影される。 次に,3次元オブジェクトローカライズのための3次元セントロイド提案を投票するために,領域的外観注意と幾何学的投影分布の両方を考慮した新しいオブジェクト認識投票手法を提案する。 遅延融合と予測される3D方向と次元により、オブジェクトの3D境界ボックスは単一のRGB画像から検出できる。 この手法は他の単分子法よりもはるかに優れている。 KITTIベンチマークの大規模な実験結果により,提案手法の有効性が検証された。

Monocular 3D object detection aims to detect objects in a 3D physical world from a single camera. However, recent approaches either rely on expensive LiDAR devices, or resort to dense pixel-wise depth estimation that causes prohibitive computational cost. In this paper, we propose an end-to-end trainable monocular 3D object detector without learning the dense depth. Specifically, the grid coordinates of a 2D box are first projected back to 3D space with the pinhole model as 3D centroids proposals. Then, a novel object-aware voting approach is introduced, which considers both the region-wise appearance attention and the geometric projection distribution, to vote the 3D centroid proposals for 3D object localization. With the late fusion and the predicted 3D orientation and dimension, the 3D bounding boxes of objects can be detected from a single RGB image. The method is straightforward yet significantly superior to other monocular-based methods. Extensive experimental results on the challenging KITTI benchmark validate the effectiveness of the proposed method.
翻訳日:2022-11-08 13:39:42 公開日:2020-07-20
# 変形可能な畳み込みと注意機構を用いたクロスビュー画像合成

Cross-View Image Synthesis with Deformable Convolution and Attention Mechanism ( http://arxiv.org/abs/2007.09858v1 )

ライセンス: Link先を確認
Hao Ding, Songsong Wu, Hao Tang, Fei Wu, Guangwei Gao and Xiao-Yuan Jing(参考訳) 自然のシーンを作り出すことを学ぶことは、コンピュータビジョンにおいて常に厄介なタスクでした。 異なるビューで画像を生成する場合、これはさらに手間がかかります。 ビューが非常に異なる場合、ビューフィールドはオーバーラップがほとんどなく、オブジェクトが隠されているため、タスクは非常に難しい。 本稿では、変形可能な畳み込みと注意機構に基づくGAN(Generative Adversarial Networks)を用いて、クロスビュー画像合成の問題を解決することを提案する(図1参照)。 シーンの外観や意味情報を他の視点から理解し、変換することは困難であり、U-netネットワークにおける変形畳み込みを用いて、異なるスケールのオブジェクトの特徴を抽出するネットワークの能力を向上させる。 さらに、異なる視点から画像間の対応をよりよく学習するために、中間特徴マップを洗練するために注意機構を適用し、より現実的な画像を生成する。 デイトンデータセットの異なるサイズの画像に関する多数の実験[1]は、我々のモデルが最先端の手法よりも優れた結果が得られることを示している。

Learning to generate natural scenes has always been a daunting task in computer vision. This is even more laborious when generating images with very different views. When the views are very different, the view fields have little overlap or objects are occluded, leading the task very challenging. In this paper, we propose to use Generative Adversarial Networks(GANs) based on a deformable convolution and attention mechanism to solve the problem of cross-view image synthesis (see Fig.1). It is difficult to understand and transform scenes appearance and semantic information from another view, thus we use deformed convolution in the U-net network to improve the network's ability to extract features of objects at different scales. Moreover, to better learn the correspondence between images from different views, we apply an attention mechanism to refine the intermediate feature map thus generating more realistic images. A large number of experiments on different size images on the Dayton dataset[1] show that our model can produce better results than state-of-the-art methods.
翻訳日:2022-11-08 13:39:27 公開日:2020-07-20
# 画像処理技術を用いたhuモーメントを用いたリアルタイム手話コミュニケーションのための新しい手法

Novel Approach to Use HU Moments with Image Processing Techniques for Real Time Sign Language Communication ( http://arxiv.org/abs/2007.09859v1 )

ライセンス: Link先を確認
Matheesha Fernando and Janaka Wijayanayake(参考訳) 手話は、言語障害や聴覚障害に苦しむ人々の基本的なコミュニケーション方法である。 世界の他の地域は手話の明確なアイデアを持っていません。 sign language communicator (slc) は、手話利用者と世界の他の人々との間の言語障壁を解決するために設計された。 本研究の主な目的は,手話解釈の低コストな手話解釈方法を提供することである。 このシステムは、手話学習者にとって非常に有用であり、手話の練習も可能である。 調査期間中,姿勢認識における人間のコンピュータインタラクション技術を検証するとともに,評価を行った。 Hu-moment分類を用いた一連の画像処理手法が最適手法として同定された。 システムの精度を向上させるため,Hu-momentsとともに新しいアプローチ高さと幅比濾過を行った。 微調整による背景制御なしで84%の精度で選択した手話記号を認識できるシステム

Sign language is the fundamental communication method among people who suffer from speech and hearing defects. The rest of the world doesn't have a clear idea of sign language. "Sign Language Communicator" (SLC) is designed to solve the language barrier between the sign language users and the rest of the world. The main objective of this research is to provide a low cost affordable method of sign language interpretation. This system will also be very useful to the sign language learners as they can practice the sign language. During the research available human computer interaction techniques in posture recognition was tested and evaluated. A series of image processing techniques with Hu-moment classification was identified as the best approach. To improve the accuracy of the system, a new approach height to width ratio filtration was implemented along with Hu-moments. System is able to recognize selected Sign Language signs with the accuracy of 84% without a controlled background with small light adjustments
翻訳日:2022-11-08 13:39:13 公開日:2020-07-20
# 点雲におけるガウスインスタンスセグメンテーションの学習

Learning Gaussian Instance Segmentation in Point Clouds ( http://arxiv.org/abs/2007.09860v1 )

ライセンス: Link先を確認
Shih-Hung Liu, Shang-Yi Yu, Shao-Chi Wu, Hwann-Tzong Chen, Tyng-Luh Liu(参考訳) 本稿では,3次元点雲の例分割法を提案する。 提案手法はGaussian Instance Center Network (GICN) と呼ばれ, 現場全体に散在するインスタンス中心の分布をガウス中心ヒートマップとして近似することができる。 予測されたヒートマップに基づいて、後続の予測に対して、効率性を含む少数の中心候補を容易に選択できる。 一 特徴抽出の範囲を決定するために各センターのインスタンスサイズを予測すること。 二 センターのバウンディングボックスの作成、及び 三 最終例マスクの作成 GICNはシングルステージ、アンカーフリー、エンドツーエンドのアーキテクチャで、トレーニングが容易で、推論を効率的に行うことができる。 ScanNetおよびS3DISデータセット上での3Dインスタンスセグメンテーションのタスクにおいて,適応型インスタンスサイズ選択を伴う中心決定機構を応用し,最先端の性能を実現する。

This paper presents a novel method for instance segmentation of 3D point clouds. The proposed method is called Gaussian Instance Center Network (GICN), which can approximate the distributions of instance centers scattered in the whole scene as Gaussian center heatmaps. Based on the predicted heatmaps, a small number of center candidates can be easily selected for the subsequent predictions with efficiency, including i) predicting the instance size of each center to decide a range for extracting features, ii) generating bounding boxes for centers, and iii) producing the final instance masks. GICN is a single-stage, anchor-free, and end-to-end architecture that is easy to train and efficient to perform inference. Benefited from the center-dictated mechanism with adaptive instance size selection, our method achieves state-of-the-art performance in the task of 3D instance segmentation on ScanNet and S3DIS datasets.
翻訳日:2022-11-08 13:39:01 公開日:2020-07-20
# ロバスト照明推定のためのモンテカルロドロップアウトアンサンブル

Monte Carlo Dropout Ensembles for Robust Illumination Estimation ( http://arxiv.org/abs/2007.10114v1 )

ライセンス: Link先を確認
Firas Laakom, Jenni Raitoharju, Alexandros Iosifidis, Jarno Nikkanen and Moncef Gabbouj(参考訳) 計算色コンステンシーは、多くのカメラシステムで使われる前処理ステップである。 主な目的は、照明がシーンの色に与える影響を減らし、オブジェクトのオリジナル色を復元することである。 近年,この問題を解決するために,深層学習に基づく手法がいくつか提案されている。 しかし、極端なサンプルの場合、これらの手法は失敗し、高いエラーを引き起こす。 本稿では,その出力不確実性に応じて異なる深層学習手法を集約することを提案する。 モンテカルロドロップアウトを用いて各アプローチの相対的不確かさを推定し,それらの不確かさの対数逆によって重みづけられた異なるモデル推定の和として最終照明推定を求める。 提案フレームワークはINTEL-TAUデータセット上での最先端のパフォーマンスを実現する。

Computational color constancy is a preprocessing step used in many camera systems. The main aim is to discount the effect of the illumination on the colors in the scene and restore the original colors of the objects. Recently, several deep learning-based approaches have been proposed to solve this problem and they often led to state-of-the-art performance in terms of average errors. However, for extreme samples, these methods fail and lead to high errors. In this paper, we address this limitation by proposing to aggregate different deep learning methods according to their output uncertainty. We estimate the relative uncertainty of each approach using Monte Carlo dropout and the final illumination estimate is obtained as the sum of the different model estimates weighted by the log-inverse of their corresponding uncertainties. The proposed framework leads to state-of-the-art performance on INTEL-TAU dataset.
翻訳日:2022-11-08 13:32:45 公開日:2020-07-20
# 深部畳み込みニューラルネットワークを用いた合成スケールからメソスケールへの温度分布の統計的ダウンスケーリング

Statistical Downscaling of Temperature Distributions from the Synoptic Scale to the Mesoscale Using Deep Convolutional Neural Networks ( http://arxiv.org/abs/2007.10839v1 )

ライセンス: Link先を確認
Tsuyoshi Thomas Sekiyama(参考訳) 深層学習、特に画像認識のための畳み込みニューラルネットワークは、近年気象学で使用されている。 有望な応用の1つは、低解像度動的モデルの出力画像を高分解能画像に変換する統計代理モデルを開発することである。 本研究は,6時間毎のメソスケール温度場への合成温度場をダウンスケールするモデルの性能を評価する予備実験である。 深層学習モデルでは,22kmのグリッド状大域的解析面の風と温度を入力として,5kmのグリッド状地域分析面の温度を所望の出力として,対象領域を対象とした。 その結果, 深部畳み込みニューラルネットワーク(DCNN)は, 入力に保持されていない海岸線や山頂の位置を詳細に推定し, 高分解能表面温度分布を提供できることを確認した。 例えば、平均根平均二乗誤差(RMSE)は、高度1000m以上の大域的および地域的分析の間の2.7Kであるが、RMSEは1.0Kに減少し、相関係数は代理モデルにより0.6から0.9に改善される。 本研究は表面温度のみに代理モデルを評価するが, ダウンスケーリング変数と垂直プロファイルを増大させることで改善できると考えられる。 DCNNのサロゲートモデルは、トレーニングが完了すると、少量の計算能力しか必要としない。 したがって、サロゲートモデルが短時間で実施されれば、高解像度の天気予報ガイダンスや環境緊急警報を低コストで提供する。

Deep learning, particularly convolutional neural networks for image recognition, has been recently used in meteorology. One of the promising applications is developing a statistical surrogate model that converts the output images of low-resolution dynamic models to high-resolution images. Our study exhibits a preliminary experiment that evaluates the performance of a model that downscales synoptic temperature fields to mesoscale temperature fields every 6 hours. The deep learning model was trained with operational 22-km gridded global analysis surface winds and temperatures as the input, operational 5-km gridded regional analysis surface temperatures as the desired output, and a target domain covering central Japan. The results confirm that our deep convolutional neural network (DCNN) is capable of estimating the locations of coastlines and mountain ridges in great detail, which are not retained in the inputs, and providing high-resolution surface temperature distributions. For instance, while the average root-mean-square error (RMSE) is 2.7 K between the global and regional analyses at altitudes greater than 1000 m, the RMSE is reduced to 1.0 K, and the correlation coefficient is improved from 0.6 to 0.9 by the surrogate model. Although this study evaluates a surrogate model only for surface temperature, it probably can be improved by augmenting the downscaling variables and vertical profiles. Surrogate models of DCNNs require only a small amount of computational power once their training is finished. Therefore, if the surrogate models are implemented at short time intervals, they will provide high-resolution weather forecast guidance or environment emergency alerts at low cost.
翻訳日:2022-11-08 13:31:16 公開日:2020-07-20
# ソーシャルメディアのメッセージ検証評価に画像を含める

Including Images into Message Veracity Assessment in Social Media ( http://arxiv.org/abs/2008.01196v1 )

ライセンス: Link先を確認
Abderrazek Azri (ERIC), C\'ecile Favre (ERIC), Nouria Harbi (ERIC), J\'er\^ome Darmont (ERIC)(参考訳) 情報の拡散におけるソーシャルメディアの広範囲な利用は、噂の拡散の余地を築いており、ソーシャルメディアの信頼性に大きな影響を与える可能性がある。 テキストに加えて、画像やビデオなどのマルチメディアデータを含むニュースを投稿するユーザーが増えている。 しかし、このようなマルチメディアコンテンツは、単純で効果的な画像およびビデオ処理ツールが広く利用可能であるため、編集が容易である。 ソーシャルネットワーク投稿の正確性を評価するという問題は近年,研究者の注目を集めている。 しかし、以前の作品のほとんどがテキストの内容を分析して真偽を判断することに集中しているが、視覚内容、特に画像は、文学において無視されているか、あまり悪用されていない。 本稿では,テキストコンテンツと視覚コンテンツの両方の信頼性を解析し,ソーシャルネットワーク上で公開するメッセージの妥当性を評価する2つの新しい手法を提案する。

The extensive use of social media in the diffusion of information has also laid a fertile ground for the spread of rumors, which could significantly affect the credibility of social media. An ever-increasing number of users post news including, in addition to text, multimedia data such as images and videos. Yet, such multimedia content is easily editable due to the broad availability of simple and effective image and video processing tools. The problem of assessing the veracity of social network posts has attracted a lot of attention from researchers in recent years. However, almost all previous works have focused on analyzing textual contents to determine veracity, while visual contents, and more particularly images, remains ignored or little exploited in the literature. In this position paper, we propose a framework that explores two novel ways to assess the veracity of messages published on social networks by analyzing the credibility of both their textual and visual contents.
翻訳日:2022-11-08 13:30:49 公開日:2020-07-20
# 強化学習による解釈制御

Interpretable Control by Reinforcement Learning ( http://arxiv.org/abs/2007.09964v1 )

ライセンス: Link先を確認
Daniel Hein, Steffen Limmer, Thomas A. Runkler(参考訳) 本稿では,最近導入された3つの強化学習(rl)手法を用いて,カートポールバランスベンチマークのためのヒューマンコンタプリタブルなポリシを生成する。 新しいRL法は、コンパクトファジィコントローラと単純な代数方程式の形式で人間解釈可能なポリシーを学習する。 この表現と制御性能は、2つの古典的コントローラ設計法と3つの非解釈可能なRL法と比較される。 8つのメソッドはすべて、以前生成された同じデータバッチを使用して、実際のベンチマークダイナミックスと対話することなく、コントローラをオフラインにします。 実験の結果,新規なRL法は人為的解釈と同時に高い性能のポリシーを自動生成できることが判明した。 さらに,本手法の1つは,人プレイヤ生成バッチデータのみを用いて,ハードウェアカートポールデモレータの方程式ベースのポリシを自動学習する手法である。 最初の試みで生成されたソリューションは、実世界の問題に適用可能な方法を示すバランシングポリシとしてすでに成功しています。

In this paper, three recently introduced reinforcement learning (RL) methods are used to generate human-interpretable policies for the cart-pole balancing benchmark. The novel RL methods learn human-interpretable policies in the form of compact fuzzy controllers and simple algebraic equations. The representations as well as the achieved control performances are compared with two classical controller design methods and three non-interpretable RL methods. All eight methods utilize the same previously generated data batch and produce their controller offline - without interaction with the real benchmark dynamics. The experiments show that the novel RL methods are able to automatically generate well-performing policies which are at the same time human-interpretable. Furthermore, one of the methods is applied to automatically learn an equation-based policy for a hardware cart-pole demonstrator by using only human-player-generated batch data. The solution generated in the first attempt already represents a successful balancing policy, which demonstrates the methods applicability to real-world problems.
翻訳日:2022-11-08 13:30:18 公開日:2020-07-20
# データ拡張を用いたQAアプローチによるマルチモーダル対話状態追跡

Multimodal Dialogue State Tracking By QA Approach with Data Augmentation ( http://arxiv.org/abs/2007.09903v1 )

ライセンス: Link先を確認
Xiangyang Mou, Brandyn Sigouin, Ian Steenstra, Hui Su(参考訳) 近年、より困難な状態追跡タスクであるAudio-Video Scene-Aware Dialogue (AVSD)が研究者の間で注目を集めている。 純粋にテキストベースの対話状態追跡とは異なり、AVSDの対話にはビデオに関する一連の質問対が含まれており、与えられた質問に対する最終回答には、ビデオのさらなる理解が必要である。 本稿では、オープンドメイン質問回答(QA)の観点からAVSDタスクを解釈し、この問題に対処するためのマルチモーダルなオープンドメインQAシステムを提案する。 提案するQAシステムは,マルチモーダル融合とアテンションを備えた共通エンコーダデコーダフレームワークを用いる。 教師の強制は自然言語生成器の訓練に適用される。 また,QA仮定に基づく新たなデータ拡張手法を提案する。 実験の結果,DSTC7-AVSDデータセットのベースラインモデルに対して,我々のモデルと手法が大幅に改善され,データ拡張技術の可能性が示された。

Recently, a more challenging state tracking task, Audio-Video Scene-Aware Dialogue (AVSD), is catching an increasing amount of attention among researchers. Different from purely text-based dialogue state tracking, the dialogue in AVSD contains a sequence of question-answer pairs about a video and the final answer to the given question requires additional understanding of the video. This paper interprets the AVSD task from an open-domain Question Answering (QA) point of view and proposes a multimodal open-domain QA system to deal with the problem. The proposed QA system uses common encoder-decoder framework with multimodal fusion and attention. Teacher forcing is applied to train a natural language generator. We also propose a new data augmentation approach specifically under QA assumption. Our experiments show that our model and techniques bring significant improvements over the baseline model on the DSTC7-AVSD dataset and demonstrate the potentials of our data augmentation techniques.
翻訳日:2022-11-08 13:30:04 公開日:2020-07-20
# 薬物発見のための深部グラフ生成モデルの可視化

Visualizing Deep Graph Generative Models for Drug Discovery ( http://arxiv.org/abs/2007.10333v1 )

ライセンス: Link先を確認
Karan Yang, Chengxi Zang, Fei Wang(参考訳) 創薬の目的は、臨床試験に特有の特性を持つ新規な分子を設計することである。 過去数十年間、医薬品の発見と開発はコストと時間のかかるプロセスだった。 ビッグデータとAIによって駆動される深層生成モデルは、薬物発見プロセスを加速する大きな可能性を示している。 既存の研究は分子生成のための異なる深層生成フレームワークを調査しているが、モデルの結果をすばやくデモし評価するための可視化ツールにはあまり注意が払われていない。 本稿では,ディープグラフ生成モデルの符号化・復号処理中に生成された分子を可視化するインタラクティブ可視化ツールを提供し,リアルタイム分子最適化機能を提供する可視化フレームワークを提案する。 私たちの研究は、ブラックボックスAIによる薬物発見モデルに視覚的解釈能力を持たせることを目的としています。

Drug discovery aims at designing novel molecules with specific desired properties for clinical trials. Over past decades, drug discovery and development have been a costly and time consuming process. Driven by big chemical data and AI, deep generative models show great potential to accelerate the drug discovery process. Existing works investigate different deep generative frameworks for molecular generation, however, less attention has been paid to the visualization tools to quickly demo and evaluate model's results. Here, we propose a visualization framework which provides interactive visualization tools to visualize molecules generated during the encoding and decoding process of deep graph generative models, and provide real time molecular optimization functionalities. Our work tries to empower black box AI driven drug discovery models with some visual interpretabilities.
翻訳日:2022-11-08 13:22:58 公開日:2020-07-20
# キャッチフレーズの取引秘密を理解する : 識別・追跡・影響

Identification, Tracking and Impact: Understanding the trade secret of catchphrases ( http://arxiv.org/abs/2007.13520v1 )

ライセンス: Link先を確認
Jagriti Jalal, Mayank Singh, Arindam Pal, Lipika Dey, Animesh Mukherjee(参考訳) 産業革新における話題の進化を理解することは難しい問題である。 特許文書の形でデジタルリポジトリが進歩するにつれ、組織の「キャッチフレーズ」であるイノベーションの秘密を理解することがますます現実化しつつある。 しかし、この膨大なテキスト情報の検索と理解は自然のボトルネックである。 本稿では,米国特許商標庁が長年にわたって付与してきた特許の要約から,キャッチフレーズを抽出するための教師なし手法を提案する。 提案システムは,最先端技術に対する精度とリコールの両面で,大幅な改善を実現している。 第2の目的として、様々な組織にわたるキャッチフレーズの時間的進化を理解するための広範な実証的研究を行った。 また、組織の特許に新たなキャッチフレーズを導入するという形での全体的なイノベーションが、その団体が出願した特許によって受け取った将来の引用とどのように相関するかを示す。 私たちのコードとデータセットは間もなくパブリックドメインに置かれる予定です。

Understanding the topical evolution in industrial innovation is a challenging problem. With the advancement in the digital repositories in the form of patent documents, it is becoming increasingly more feasible to understand the innovation secrets -- "catchphrases" of organizations. However, searching and understanding this enormous textual information is a natural bottleneck. In this paper, we propose an unsupervised method for the extraction of catchphrases from the abstracts of patents granted by the U.S. Patent and Trademark Office over the years. Our proposed system achieves substantial improvement, both in terms of precision and recall, against state-of-the-art techniques. As a second objective, we conduct an extensive empirical study to understand the temporal evolution of the catchphrases across various organizations. We also show how the overall innovation evolution in the form of introduction of newer catchphrases in an organization's patents correlates with the future citations received by the patents filed by that organization. Our code and data sets will be placed in the public domain soon.
翻訳日:2022-11-08 13:22:36 公開日:2020-07-20
# 自己回帰画像生成における強化逆学習の導入

Incorporating Reinforced Adversarial Learning in Autoregressive Image Generation ( http://arxiv.org/abs/2007.09923v1 )

ライセンス: Link先を確認
Kenan E. Ak, Ning Xu, Zhe Lin, Yilin Wang(参考訳) 自動回帰モデルは、Vector Quantized Variational AutoEncoders (VQ-VAE)の助けを借りて、最先端のGAN(Generative Adversarial Networks)と同等の結果を得た。 しかし、自己回帰モデルには露出バイアスのようないくつかの制限があり、その訓練目的は視覚的忠実さを保証しない。 これらの制約に対処するために,自己回帰モデルに対するポリシー勾配最適化に基づく強化適応学習(RAL)を提案する。 RALを適用することで、同様のトレーニングとテストのプロセスで、露出バイアスの問題に対処できます。 さらに、視覚的忠実度は、強い相手であるGANにインスパイアされた敵対的損失によってさらに最適化されている。 自己回帰モデルのサンプリング速度が遅いため,より高速なトレーニングに部分生成を用いることを提案する。 RALはまた、VQ-VAEフレームワークの異なるモジュール間のコラボレーションを強化する。 提案手法は,画像生成のための自己回帰モデルにおいて,まず敵対学習を可能にする。 合成および実世界のデータセットの実験は、MLEトレーニングモデルよりも改善されている。 提案手法は,NLLとFr'echet Inception Distance(FID)の両方を改善し,視覚的品質と多様性の向上を示す。 提案手法は,64$\times$64の画像解像度でCelebaの最先端化を実現し,大規模画像生成の実現を約束する。

Autoregressive models recently achieved comparable results versus state-of-the-art Generative Adversarial Networks (GANs) with the help of Vector Quantized Variational AutoEncoders (VQ-VAE). However, autoregressive models have several limitations such as exposure bias and their training objective does not guarantee visual fidelity. To address these limitations, we propose to use Reinforced Adversarial Learning (RAL) based on policy gradient optimization for autoregressive models. By applying RAL, we enable a similar process for training and testing to address the exposure bias issue. In addition, visual fidelity has been further optimized with adversarial loss inspired by their strong counterparts: GANs. Due to the slow sampling speed of autoregressive models, we propose to use partial generation for faster training. RAL also empowers the collaboration between different modules of the VQ-VAE framework. To our best knowledge, the proposed method is first to enable adversarial learning in autoregressive models for image generation. Experiments on synthetic and real-world datasets show improvements over the MLE trained models. The proposed method improves both negative log-likelihood (NLL) and Fr\'echet Inception Distance (FID), which indicates improvements in terms of visual quality and diversity. The proposed method achieves state-of-the-art results on Celeba for 64 $\times$ 64 image resolution, showing promise for large scale image generation.
翻訳日:2022-11-08 13:21:45 公開日:2020-07-20
# ワンショット学習のための畳み込みネットワークにおけるSorted Pooling

Sorted Pooling in Convolutional Networks for One-shot Learning ( http://arxiv.org/abs/2007.10495v1 )

ライセンス: Link先を確認
Andr\'as Horv\'ath(参考訳) 一般に使用される最大プーリング操作の一般化バージョンを示す: $k$th maximum および sorted pooling 操作は、各プーリング領域で$k$th の応答を選択し、入力画像の局所的一貫性のある特徴を選択する。 この方法はネットワークの一般化能力を高めることができ、ネットワークのトレーニング時間やエラー率を低減でき、ワンショット学習シナリオのような利用可能なデータ量が限られているトレーニングシナリオにおいて、精度を大幅に向上させることができる。

We present generalized versions of the commonly used maximum pooling operation: $k$th maximum and sorted pooling operations which selects the $k$th largest response in each pooling region, selecting locally consistent features of the input images. This method is able to increase the generalization power of a network and can be used to decrease training time and error rate of networks and it can significantly improve accuracy in case of training scenarios where the amount of available data is limited, like one-shot learning scenarios
翻訳日:2022-11-08 13:15:35 公開日:2020-07-20
# 文書検索のためのクエリ項独立型コンバータカーネル

Conformer-Kernel with Query Term Independence for Document Retrieval ( http://arxiv.org/abs/2007.10434v1 )

ライセンス: Link先を確認
Bhaskar Mitra, Sebastian Hofstatter, Hamed Zamani and Nick Craswell(参考訳) Transformer-Kernel (TK) モデルは TREC Deep Learning ベンチマークで高いランク付け性能を示しており、BERT ベースのランキングモデルに代わる効率的な(わずかに効果の低い)代替品とみなすことができる。 本研究では,クエリ項独立仮定を組み込むことで,TKアーキテクチャを完全な検索設定に拡張する。 さらに、入力シーケンス長に関してトランスフォーマー層のメモリ複雑性を低減するために、新しいコンフォーマー層を提案する。 コンフォーメータのgpuメモリ要求は入力シーケンス長と線形にスケールするので、長いドキュメントのランク付けにおいてより有効な選択肢となる。 最後に,モデルに明示的な項マッチング信号を組み込むことが,全検索において特に有用であることを示す。 本稿では,本研究の予備的成果について述べる。

The Transformer-Kernel (TK) model has demonstrated strong reranking performance on the TREC Deep Learning benchmark---and can be considered to be an efficient (but slightly less effective) alternative to BERT-based ranking models. In this work, we extend the TK architecture to the full retrieval setting by incorporating the query term independence assumption. Furthermore, to reduce the memory complexity of the Transformer layers with respect to the input sequence length, we propose a new Conformer layer. We show that the Conformer's GPU memory requirement scales linearly with input sequence length, making it a more viable option when ranking long documents. Finally, we demonstrate that incorporating explicit term matching signal into the model can be particularly useful in the full retrieval setting. We present preliminary results from our work in this paper.
翻訳日:2022-11-08 13:15:26 公開日:2020-07-20
# 適応移動目標防御のためのベイジアン・スタックルバーグ・マルコフゲームにおけるマルチエージェント強化学習

Multi-agent Reinforcement Learning in Bayesian Stackelberg Markov Games for Adaptive Moving Target Defense ( http://arxiv.org/abs/2007.10457v1 )

ライセンス: Link先を確認
Sailik Sengupta, Subbarao Kambhampati(参考訳) サイバーセキュリティの分野は、主に猫とマウスによるゲームであり、新たな攻撃が進行中だ。 攻撃者の偵察の利点を取り除くため、研究者は移動目標防衛(MTD)のような積極的な防御方法を提案した。 優れた動き戦略を見つけるために、研究者はmddを、ディフェンダーとサイバー敵の間のリーダーフォローゲームとしてモデル化した。 我々は、合理的な逆境に関する不完全な情報が存在し、最適でない動作戦略をもたらす場合、既存のモデルが逐次的な設定では不十分であると主張する。 さらに、サイバーセキュリティのシーケンシャルな設定で防衛政策を学習する作業は数多く存在するが、不完全な情報から生じるスケーラビリティの問題や、単一エージェント強化学習技術を使用するシナリオを単純化する敵の戦略的性質を無視する傾向があるため、不人気である。 これらの問題に対処するため,(1)BSMG(Bayesian Stackelberg Markov Games)と呼ばれる,攻撃型とMTDシステムのニュアンスに対する不確実性をモデル化可能な統一ゲーム理論モデルを提案し,(2)BSS-Q(Bayesian Strong Stackelberg Q-learning)アプローチを提案する。 不完全情報マルコフゲームの世界にBSMGを配置し、それらにSSE(Strong Stackelberg Equilibrium)の概念を特徴付ける。 我々は,学習アプローチがBSMGのSSEに収束し,(1)WebアプリケーションセキュリティのためのMTDの最先端性を向上し,(2)報酬や移行に関する事前情報がない場合でも,敵に関する不完全な情報を持つMTDドメインの最適ポリシーに収束することを明らかにする。

The field of cybersecurity has mostly been a cat-and-mouse game with the discovery of new attacks leading the way. To take away an attacker's advantage of reconnaissance, researchers have proposed proactive defense methods such as Moving Target Defense (MTD). To find good movement strategies, researchers have modeled MTD as leader-follower games between the defender and a cyber-adversary. We argue that existing models are inadequate in sequential settings when there is incomplete information about a rational adversary and yield sub-optimal movement strategies. Further, while there exists an array of work on learning defense policies in sequential settings for cyber-security, they are either unpopular due to scalability issues arising out of incomplete information or tend to ignore the strategic nature of the adversary simplifying the scenario to use single-agent reinforcement learning techniques. To address these concerns, we propose (1) a unifying game-theoretic model, called the Bayesian Stackelberg Markov Games (BSMGs), that can model uncertainty over attacker types and the nuances of an MTD system and (2) a Bayesian Strong Stackelberg Q-learning (BSS-Q) approach that can, via interaction, learn the optimal movement policy for BSMGs within a reasonable time. We situate BSMGs in the landscape of incomplete-information Markov games and characterize the notion of Strong Stackelberg Equilibrium (SSE) in them. We show that our learning approach converges to an SSE of a BSMG and then highlight that the learned movement policy (1) improves the state-of-the-art in MTD for web-application security and (2) converges to an optimal policy in MTD domains with incomplete information about adversaries even when prior information about rewards and transitions is absent.
翻訳日:2022-11-08 13:15:11 公開日:2020-07-20
# deepco:ディープラーニングを活用したオフラインコンビネート最適化フレームワーク

DeepCO: Offline Combinatorial Optimization Framework Utilizing Deep Learning ( http://arxiv.org/abs/2007.09881v1 )

ライセンス: Link先を確認
Wenpeng Wei, Toshiko Aizono(参考訳) 組合せ最適化は、現代の多くの産業アプリケーションにおいて不可欠な部分である。 多くの問題は、安全性やコストの問題によるオフライン設定である。 シミュレーションに基づくアプローチは複雑なシステムでは実現が難しいが,本研究では,ディープラーニングを利用したオフライン組合せ最適化フレームワークであるDeepCOを提案する。 また,TSP(Travelling Salesman Problem)をオフラインで設計し,倉庫運用順序最適化問題をモデル化した。 分布正規化最適化法は,限られた履歴データのみで,オフラインTSP実験において,経路長を平均5.7%削減し,実世界の問題に大きな可能性を示す。

Combinatorial optimization serves as an essential part in many modern industrial applications. A great number of the problems are offline setting due to safety and/or cost issues. While simulation-based approaches appear difficult to realise for complicated systems, in this research, we propose DeepCO, an offline combinatorial optimization framework utilizing deep learning. We also design an offline variation of Travelling Salesman Problem (TSP) to model warehouse operation sequence optimization problem for evaluation. With only limited historical data, novel proposed distribution regularized optimization method outperforms existing baseline method in offline TSP experiment reducing route length by 5.7% averagely and shows great potential in real world problems.
翻訳日:2022-11-08 13:14:34 公開日:2020-07-20
# 顔刺激の自動設計のためのベイズ最適化

Bayesian optimization for automatic design of face stimuli ( http://arxiv.org/abs/2007.09989v1 )

ライセンス: Link先を確認
Pedro F. da Costa, Romy Lorenz, Ricardo Pio Monti, Emily Jones, Robert Leech(参考訳) 顔処理に関わる認知と神経のメカニズムを調べることは、現代の神経科学と心理学の基本的な課題である。 これまで、これらの研究の大部分は、選択された刺激の使用に焦点を当ててきた。 パーソナライズされた刺激の欠如は、個々の顔処理システムが文化的埋め込みにどう調整されるか、病気でどのように混乱するかを考慮できないため、深刻な限界を示す。 本稿では,様々な顔に対する個々の応答パターンを識別するために,gansとベイズ最適化を組み合わせた新しい枠組みを提案する。 形式的には、ベイズ最適化を用いて最先端のGANモデルの潜在空間を効率的に探索し、新しい顔を自動的に生成し、個々の被験者の反応を最大化する。 GANの潜伏空間上でベイズ最適化を行うことにより、参加者が生成した自身の画像を評価した、Webベースの実証・実証研究の結果を報告する。 顔の異なるセマンティック・トランスフォーメーションにまたがって反応をマッピングしながら、アルゴリズムが個人の最適な顔を効率的に見つけ出す方法を示す。

Investigating the cognitive and neural mechanisms involved with face processing is a fundamental task in modern neuroscience and psychology. To date, the majority of such studies have focused on the use of pre-selected stimuli. The absence of personalized stimuli presents a serious limitation as it fails to account for how each individual face processing system is tuned to cultural embeddings or how it is disrupted in disease. In this work, we propose a novel framework which combines generative adversarial networks (GANs) with Bayesian optimization to identify individual response patterns to many different faces. Formally, we employ Bayesian optimization to efficiently search the latent space of state-of-the-art GAN models, with the aim to automatically generate novel faces, to maximize an individual subject's response. We present results from a web-based proof-of-principle study, where participants rated images of themselves generated via performing Bayesian optimization over the latent space of a GAN. We show how the algorithm can efficiently locate an individual's optimal face while mapping out their response across different semantic transformations of a face; inter-individual analyses suggest how the approach can provide rich information about individual differences in face processing.
翻訳日:2022-11-08 13:14:21 公開日:2020-07-20
# ニューラルネットワークを用いた固有問題解法

Solving the functional Eigen-Problem using Neural Networks ( http://arxiv.org/abs/2007.10205v1 )

ライセンス: Link先を確認
Ido Ben-Shaul, Leah Bar and Nir Sochen(参考訳) 本研究では、通常の微分方程式の固有ペアを見つけるためのツールとして、NN(Neural Networks)の能力を探求する。 私たちが取り組もうとしている問題は、自己共役作用素が与えられたとき、固有函数とそれらの固有値が一致するかどうかである。 固有確率の解法は画像処理において広く議論されており、多くの画像処理アルゴリズムはそのような演算子と考えることができる。 より強固な可能性があり、より複雑な問題を解決する能力を持つ固有パイアを見つけるための数値的方法の代替案を提案する。 本研究では,解析解が知られている単純な問題に焦点をあてる。 このようにして、指定された環境でのDNN(Deep Neural Networks)の機能と欠点を発見するための最初のステップを行うことができる。

In this work, we explore the ability of NN (Neural Networks) to serve as a tool for finding eigen-pairs of ordinary differential equations. The question we aime to address is whether, given a self-adjoint operator, we can learn what are the eigenfunctions, and their matching eigenvalues. The topic of solving the eigen-problem is widely discussed in Image Processing, as many image processing algorithms can be thought of as such operators. We suggest an alternative to numeric methods of finding eigenpairs, which may potentially be more robust and have the ability to solve more complex problems. In this work, we focus on simple problems for which the analytical solution is known. This way, we are able to make initial steps in discovering the capabilities and shortcomings of DNN (Deep Neural Networks) in the given setting.
翻訳日:2022-11-08 13:13:14 公開日:2020-07-20
# マルチクラスグラフ記述によるネットワーク埋め込みとコミュニティアウトレイラ検出の統合

Integrating Network Embedding and Community Outlier Detection via Multiclass Graph Description ( http://arxiv.org/abs/2007.10231v1 )

ライセンス: Link先を確認
Sambaran Bandyopadhyay, Saley Vishal Vivek, M. N. Murty(参考訳) ネットワーク(またはグラフ)埋め込みは、グラフのノードを低次元のベクトル空間にマッピングするタスクであり、グラフの特性を保持し、下流のネットワークマイニングタスクを容易にする。 現実世界のネットワークは、しばしばコミュニティの通常のノードとは異なる振る舞いをする(コミュニティ)外れのノードを伴います。 これらの異常ノードは、慎重に扱わなければ、通常のノードの埋め込みに影響を与える可能性がある。 本稿では,非教師なしグラフ埋め込み手法(DMGD)を提案する。 本稿では,与えられたネットワーク内に複数のコミュニティが存在する場合,グラフ埋め込みの枠組みにディープサポートベクトルデータ記述の考え方を拡張し,そのコミュニティに対する外れ値の特徴を特徴付ける。 また, DMGDにより検出された外れ値の数に関する理論的境界を示す。 我々の定式化は、外れ値、コミュニティ割り当て、ノード埋め込み関数の間の興味深いミニマックスゲームに起因する。 また,この最適化フレームワークを効率的に解くアルゴリズムを提案する。 合成および実世界のネットワークにおける実験結果は,最先端技術と比較して,我々のアプローチのメリットを示している。

Network (or graph) embedding is the task to map the nodes of a graph to a lower dimensional vector space, such that it preserves the graph properties and facilitates the downstream network mining tasks. Real world networks often come with (community) outlier nodes, which behave differently from the regular nodes of the community. These outlier nodes can affect the embedding of the regular nodes, if not handled carefully. In this paper, we propose a novel unsupervised graph embedding approach (called DMGD) which integrates outlier and community detection with node embedding. We extend the idea of deep support vector data description to the framework of graph embedding when there are multiple communities present in the given network, and an outlier is characterized relative to its community. We also show the theoretical bounds on the number of outliers detected by DMGD. Our formulation boils down to an interesting minimax game between the outliers, community assignments and the node embedding function. We also propose an efficient algorithm to solve this optimization framework. Experimental results on both synthetic and real world networks show the merit of our approach compared to state-of-the-arts.
翻訳日:2022-11-08 13:13:01 公開日:2020-07-20
# 構造化データに対するバッチアクティブ検索の階層的アプローチ

A Hierarchical Approach to Scaling Batch Active Search Over Structured Data ( http://arxiv.org/abs/2007.10263v1 )

ライセンス: Link先を確認
Vivek Myers and Peyton Greenside(参考訳) アクティブサーチ(active search)は、大きくてしばしば高次元のパラメータ空間において、高い値のデータポイントを識別するプロセスである。 ベイズ最適化のような伝統的な活発な探索手法は、連続的な評価よりも探索と搾取をトレードオフし、歴史的にラウンド毎に評価される単一または小さな例(5)に焦点を合わせてきた。 現代のデータセットが大きくなるにつれて、アクティブ検索を大規模なデータセットやバッチサイズにスケールする必要がある。 本稿では,各データセットのユニークな構造から得られる情報を最大化することにより,アクティブサーチを大規模バッチサイズに拡張するbanditアルゴリズムに基づく汎用階層型フレームワークを提案する。 階層的バッチ帯域探索(Hierarchical Batch Bandit Search, HBBS)は、データセット内のさまざまな構造要素の広範な探索を容易にすることによって、学習された埋め込み空間にバッチ選択を戦略的に分散します。 hbbsの応用は、大規模なバッチ実験が研究プロセスの基本となる現代生物学に焦点をあて、生物配列(タンパク質とdna)のバッチ設計を実証する。 また、多様な生物配列を容易にシミュレートし、異種データセット間の能動探索手法をより包括的に評価できる新しいGym環境を提案する。 hbbsフレームワークは、粗いパーティションにまたがる広範な探索戦略と構造化データの各パーティション内のきめ細かいエクスプロイトを使用することで、バッチ検索の標準性能、壁時計、スケーラビリティのベンチマークを改善します。

Active search is the process of identifying high-value data points in a large and often high-dimensional parameter space that can be expensive to evaluate. Traditional active search techniques like Bayesian optimization trade off exploration and exploitation over consecutive evaluations, and have historically focused on single or small (<5) numbers of examples evaluated per round. As modern data sets grow, so does the need to scale active search to large data sets and batch sizes. In this paper, we present a general hierarchical framework based on bandit algorithms to scale active search to large batch sizes by maximizing information derived from the unique structure of each dataset. Our hierarchical framework, Hierarchical Batch Bandit Search (HBBS), strategically distributes batch selection across a learned embedding space by facilitating wide exploration of different structural elements within a dataset. We focus our application of HBBS on modern biology, where large batch experimentation is often fundamental to the research process, and demonstrate batch design of biological sequences (protein and DNA). We also present a new Gym environment to easily simulate diverse biological sequences and to enable more comprehensive evaluation of active search methods across heterogeneous data sets. The HBBS framework improves upon standard performance, wall-clock, and scalability benchmarks for batch search by using a broad exploration strategy across coarse partitions and fine-grained exploitation within each partition of structured data.
翻訳日:2022-11-08 13:12:21 公開日:2020-07-20
# DeepNNK:ポリトープ補間を用いたディープモデルとその一般化

DeepNNK: Explaining deep models and their generalization using polytope interpolation ( http://arxiv.org/abs/2007.10505v1 )

ライセンス: Link先を確認
Sarath Shekkizhar, Antonio Ortega(参考訳) ニューラルネットワークに基づく現代の機械学習システムは、複雑なデータパターンを学習し、目に見えないデータポイントについて良い予測をすることができる。 しかし、これらのシステムの限られた解釈性は、現実世界のいくつかの領域へのさらなる進歩と応用を妨げる。 この傾向は, モデル選択に要する時間と, 予測可能性に直面する困難, 特に敵対例の存在によって実証される。 本稿では,局所的なポリトープ補間法を導入することにより,ニューラルネットワークの理解を深める。 深部非負核回帰(nnk)補間フレームワークは非パラメトリックであり、理論的に単純であり、幾何学的に直感的である。 深層学習モデルのインスタンスベース説明可能性を示し, 1 つの推定値を用いた一般化特性のよいモデル同定手法を開発した。 最後に,機械学習の補間的視点では避けられない,逆行例と生成例の合理化について述べる。

Modern machine learning systems based on neural networks have shown great success in learning complex data patterns while being able to make good predictions on unseen data points. However, the limited interpretability of these systems hinders further progress and application to several domains in the real world. This predicament is exemplified by time consuming model selection and the difficulties faced in predictive explainability, especially in the presence of adversarial examples. In this paper, we take a step towards better understanding of neural networks by introducing a local polytope interpolation method. The proposed Deep Non Negative Kernel regression (NNK) interpolation framework is non parametric, theoretically simple and geometrically intuitive. We demonstrate instance based explainability for deep learning models and develop a method to identify models with good generalization properties using leave one out estimation. Finally, we draw a rationalization to adversarial and generative examples which are inevitable from an interpolation view of machine learning.
翻訳日:2022-11-08 13:05:48 公開日:2020-07-20
# タブラルデータにおける地中真理説明可能性に向けて

Towards Ground Truth Explainability on Tabular Data ( http://arxiv.org/abs/2007.10532v1 )

ライセンス: Link先を確認
Brian Barr, Ke Xu, Claudio Silva, Enrico Bertini, Robert Reilly, C. Bayan Bruss, Jason D. Wittenbach(参考訳) データサイエンスでは、メソッド開発、特徴選択、特徴工学に合成データを使うことには長い歴史がある。 現在、合成データへの関心は、最近の説明可能性の研究から来ている。 今日のデータセットは一般的に大きく、より複雑で、解釈可能なモデルが少ない。 textit{post hoc} の説明可能性の設定では、説明の根拠は存在しません。 基礎的真理を提供する画像分類器の説明に関する最近の研究に触発されて,表データに対する類似のソリューションを提案する。 データセットの望ましい統計特性の簡潔な仕様である copulas を使うことで、ユーザーは制御されたデータセットと実験を使用して説明可能性に関する直感を構築することができる。 現在の能力は、一次元ロジスティック回帰、情報的特徴からの相関の影響、冗長変数からの相関の影響の3つのユースケースで実証されている。

In data science, there is a long history of using synthetic data for method development, feature selection and feature engineering. Our current interest in synthetic data comes from recent work in explainability. Today's datasets are typically larger and more complex - requiring less interpretable models. In the setting of \textit{post hoc} explainability, there is no ground truth for explanations. Inspired by recent work in explaining image classifiers that does provide ground truth, we propose a similar solution for tabular data. Using copulas, a concise specification of the desired statistical properties of a dataset, users can build intuition around explainability using controlled data sets and experimentation. The current capabilities are demonstrated on three use cases: one dimensional logistic regression, impact of correlation from informative features, impact of correlation from redundant variables.
翻訳日:2022-11-08 13:05:20 公開日:2020-07-20
# カテゴリ表現を用いた深部画像クラスタリング

Deep Image Clustering with Category-Style Representation ( http://arxiv.org/abs/2007.10004v1 )

ライセンス: Link先を確認
Junjie Zhao, Donghuan Lu, Kai Ma, Yu Zhang, Yefeng Zheng(参考訳) 近年,ディープニューラルネットワークを用いてクラスタリングの最適な表現を得るディープクラスタリングが広く研究されている。 本稿では,カテゴリ情報をイメージスタイルから切り離し,クラスタ割り当てとして直接使用できるカテゴリスタイルの潜在表現を学習するための,新しいディープ・イメージ・クラスタリング・フレームワークを提案する。 この目的を達成するために、潜在表現に関連情報を埋め込むために相互情報最大化を適用する。 さらに、その表現をカテゴリ部とスタイル部とに切り離すために拡張不変損失を用いる。 最後に、最後に、カテゴリベクトルの要素がクラスタ上の確率として使用できることを保証するために、潜在表現に事前分布が課される。 総合的な実験により、提案手法は5つの公開データセット上で最先端の手法を大幅に上回ることを示した。

Deep clustering which adopts deep neural networks to obtain optimal representations for clustering has been widely studied recently. In this paper, we propose a novel deep image clustering framework to learn a category-style latent representation in which the category information is disentangled from image style and can be directly used as the cluster assignment. To achieve this goal, mutual information maximization is applied to embed relevant information in the latent representation. Moreover, augmentation-invariant loss is employed to disentangle the representation into category part and style part. Last but not least, a prior distribution is imposed on the latent representation to ensure the elements of the category vector can be used as the probabilities over clusters. Comprehensive experiments demonstrate that the proposed approach outperforms state-of-the-art methods significantly on five public datasets.
翻訳日:2022-11-08 13:04:50 公開日:2020-07-20
# 好きなものを検索する: バリアパネルのnas: 混合精度量子化

Search What You Want: Barrier Panelty NAS for Mixed Precision Quantization ( http://arxiv.org/abs/2007.10026v1 )

ライセンス: Link先を確認
Haibao Yu, Qi Han, Jianbo Li, Jianping Shi, Guangliang Cheng, Bin Fan(参考訳) 創発ハードウェアは、異なるレイヤに異なるビット幅を割り当てる混合精度cnnモデル推論をサポートすることができる。 混合精度モデルと可能なビット量子化の巨大な空間の訓練が困難であるため、精度を保ち、モデルサイズと計算の具体的な制約を満たすことのできる最適混合精度モデルを見つけることは極めて困難である。 本稿では,複雑な制約によって定義された有効な領域内に,探索された全てのモデルが存在することを保証し,探索を1回だけ行えば,与えられた制約の下で最適なモデルを返却できる,混合精度量子化のためのソフトバリアペナルティに基づくNAS(BP-NAS)を提案する。 提案するソフトバリアペナルティは微分可能であり、有効領域外のモデルに非常に大きな損失を課すことができるが、有効領域内のモデルに対する罰はほとんどない。 さらに、NASによる学習が妥当であるように、微分可能な Prob-1 正規化器が提案されている。 訓練をより安定させるためには、分布再構成訓練戦略も用いられる。 BP-NASは、分類(Cifar-10, ImageNet)と検出(COCO)の両方に基づいて、手動および自動で設計された全ての効率的な混合精度メソッドを超越した新しい芸術状態を設定する。 特にBP-NASは、COCO検出における既存の最良の混合精度モデルと比較して、高いmAP(最大2.7 % mAPの改善)と低いビット計算コストを達成する。

Emergent hardwares can support mixed precision CNN models inference that assign different bitwidths for different layers. Learning to find an optimal mixed precision model that can preserve accuracy and satisfy the specific constraints on model size and computation is extremely challenge due to the difficult in training a mixed precision model and the huge space of all possible bit quantizations. In this paper, we propose a novel soft Barrier Penalty based NAS (BP-NAS) for mixed precision quantization, which ensures all the searched models are inside the valid domain defined by the complexity constraint, thus could return an optimal model under the given constraint by conducting search only one time. The proposed soft Barrier Penalty is differentiable and can impose very large losses to those models outside the valid domain while almost no punishment for models inside the valid domain, thus constraining the search only in the feasible domain. In addition, a differentiable Prob-1 regularizer is proposed to ensure learning with NAS is reasonable. A distribution reshaping training strategy is also used to make training more stable. BP-NAS sets new state of the arts on both classification (Cifar-10, ImageNet) and detection (COCO), surpassing all the efficient mixed precision methods designed manually and automatically. Particularly, BP-NAS achieves higher mAP (up to 2.7\% mAP improvement) together with lower bit computation cost compared with the existing best mixed precision model on COCO detection.
翻訳日:2022-11-08 13:04:36 公開日:2020-07-20
# Lifelong VAEGAN を用いた複数のデータ領域にまたがる潜在表現の学習

Learning latent representations across multiple data domains using Lifelong VAEGAN ( http://arxiv.org/abs/2007.10221v1 )

ライセンス: Link先を確認
Fei Ye and Adrian G. Bors(参考訳) 破滅的な忘れの問題は、複数のデータベースで逐次訓練されたディープラーニングモデルに発生する。 近年, 忘れを減らそうとする学習知識を再現するために, 生成的再生機構 (GRM) が提案されている。 しかし、そのようなアプローチには適切な推論モデルがないため、データの潜在表現は提供できない。 本稿では,強力な生成的リプレイネットワークを誘導するだけでなく,有意義な潜在表現を学習し,表現学習の恩恵を受ける,生涯のvaegan(l-vaegan)という新しい学習手法を提案する。 L-VAEGANは、異なるデータドメイン間で意味的に意味のある共有潜在変数をキャプチャしながら、異なるドメインに関連する情報を複数のクラスタに潜在空間に自動的に埋め込むことができる。 提案モデルは、異なるデータドメイン間の補間や推論を含む、従来の生成リプレイ法ではできない多くのダウンストリームタスクをサポートする。

The problem of catastrophic forgetting occurs in deep learning models trained on multiple databases in a sequential manner. Recently, generative replay mechanisms (GRM), have been proposed to reproduce previously learned knowledge aiming to reduce the forgetting. However, such approaches lack an appropriate inference model and therefore can not provide latent representations of data. In this paper, we propose a novel lifelong learning approach, namely the Lifelong VAEGAN (L-VAEGAN), which not only induces a powerful generative replay network but also learns meaningful latent representations, benefiting representation learning. L-VAEGAN can allow to automatically embed the information associated with different domains into several clusters in the latent space, while also capturing semantically meaningful shared latent variables, across different data domains. The proposed model supports many downstream tasks that traditional generative replay methods can not, including interpolation and inference across different data domains.
翻訳日:2022-11-08 13:04:11 公開日:2020-07-20
# ソースデータの欠如における教師なし領域適応

Unsupervised Domain Adaptation in the Absence of Source Data ( http://arxiv.org/abs/2007.10233v1 )

ライセンス: Link先を確認
Roshni Sahoo, Divya Shanmugam, John Guttag(参考訳) 現在の教師なしドメイン適応手法は、様々な種類の分散シフトに対処できるが、ソースドメインからのデータは自由に利用できると仮定する。 事前訓練されたモデルの使用が普及するにつれて、ソースデータが利用できないと仮定することは妥当である。 本稿では,輝度やコントラストなどの自然な軸に沿ったソース領域から変化するターゲット領域に,ソース分類器を適応させる教師なしの手法を提案する。 このメソッドはラベルなしのターゲットインスタンスとソース分類子へのアクセスのみを必要とする。 分布シフトが輝度,コントラスト,回転を伴うシナリオにおいて,本手法を検証し,制限されたラベル付きデータを用いたシナリオにおいて,微調整ベースラインよりも優れることを示す。

Current unsupervised domain adaptation methods can address many types of distribution shift, but they assume data from the source domain is freely available. As the use of pre-trained models becomes more prevalent, it is reasonable to assume that source data is unavailable. We propose an unsupervised method for adapting a source classifier to a target domain that varies from the source domain along natural axes, such as brightness and contrast. Our method only requires access to unlabeled target instances and the source classifier. We validate our method in scenarios where the distribution shift involves brightness, contrast, and rotation and show that it outperforms fine-tuning baselines in scenarios with limited labeled data.
翻訳日:2022-11-08 13:03:56 公開日:2020-07-20
# グラフニューラルネットワークの2次プーリング

Second-Order Pooling for Graph Neural Networks ( http://arxiv.org/abs/2007.10467v1 )

ライセンス: Link先を確認
Zhengyang Wang and Shuiwang Ji(参考訳) グラフニューラルネットワークは、ノード分類やリンク予測といったグラフタスクのノード表現を学習することに成功した。 グラフ表現学習はノード表現からグラフ表現を得るためにグラフプーリングを必要とする。 グラフの変数サイズと同型構造のためにグラフプーリング法を開発することは困難である。 本研究では,2次プールをグラフプーリングとして用いることを提案する。 さらに、既存のグラフプーリング法と比較して、二階プーリングはすべてのノードの情報を使用し、二階統計を収集できるため、より強力になる。 グラフニューラルネットワークによる2次プールの直接利用は、実用的な問題を引き起こすことを示す。 これらの問題を解決するために,2次プールに基づく2つの新しいグローバルグラフプーリング手法を提案する。 さらに、GNNにおいてより柔軟な使用のために、注目の二次プールを階層的なグラフプールに拡張する。 提案手法の有効性と優位性を示すために,グラフ分類タスクの徹底的な実験を行った。 実験結果から,本手法は性能を著しく一貫的に改善することが示された。

Graph neural networks have achieved great success in learning node representations for graph tasks such as node classification and link prediction. Graph representation learning requires graph pooling to obtain graph representations from node representations. It is challenging to develop graph pooling methods due to the variable sizes and isomorphic structures of graphs. In this work, we propose to use second-order pooling as graph pooling, which naturally solves the above challenges. In addition, compared to existing graph pooling methods, second-order pooling is able to use information from all nodes and collect second-order statistics, making it more powerful. We show that direct use of second-order pooling with graph neural networks leads to practical problems. To overcome these problems, we propose two novel global graph pooling methods based on second-order pooling; namely, bilinear mapping and attentional second-order pooling. In addition, we extend attentional second-order pooling to hierarchical graph pooling for more flexible use in GNNs. We perform thorough experiments on graph classification tasks to demonstrate the effectiveness and superiority of our proposed methods. Experimental results show that our methods improve the performance significantly and consistently.
翻訳日:2022-11-08 13:03:24 公開日:2020-07-20
# Covid-19薬物再資源化のためのグラフニューラルネットワークによるリンク予測

Few-shot link prediction via graph neural networks for Covid-19 drug-repurposing ( http://arxiv.org/abs/2007.10261v1 )

ライセンス: Link先を確認
Vassilis N. Ioannidis, Da Zheng, George Karypis(参考訳) 異種グラフ構造データ間の相互作用の予測には、知識グラフ補完、レコメンデーションシステム、薬物発見など多くの応用がある。 しばしば、予測されるリンクは、新しい疾患の薬剤を再導入するケースのような稀なタイプに属する。 これは、リンク数予測のタスクを動機付ける。 典型的には、GCNはそのような稀なリンクタイプを学習するのに不適当である。 本稿では,情報的関係の埋め込みを学習するためのインダクティブなrgcnを提案する。 提案したインダクティブモデルは、数ショットの学習タスクにおいて、RGCNと最先端のKGEモデルを大幅に上回る。 さらに,コビッド19の薬物発見のための薬物回収知識グラフ(DRKG)に本手法を適用した。 薬物発見タスクをリンク予測として,DRKGに含まれる生物学的実体の埋め込みを学習する。 最初の結果から, 臨床治験で使用した薬剤を薬剤候補として同定した。 本稿では,効率的な深層グラフ学習(dgl)を用いて実装する。

Predicting interactions among heterogenous graph structured data has numerous applications such as knowledge graph completion, recommendation systems and drug discovery. Often times, the links to be predicted belong to rare types such as the case in repurposing drugs for novel diseases. This motivates the task of few-shot link prediction. Typically, GCNs are ill-equipped in learning such rare link types since the relation embedding is not learned in an inductive fashion. This paper proposes an inductive RGCN for learning informative relation embeddings even in the few-shot learning regime. The proposed inductive model significantly outperforms the RGCN and state-of-the-art KGE models in few-shot learning tasks. Furthermore, we apply our method on the drug-repurposing knowledge graph (DRKG) for discovering drugs for Covid-19. We pose the drug discovery task as link prediction and learn embeddings for the biological entities that partake in the DRKG. Our initial results corroborate that several drugs used in clinical trials were identified as possible drug candidates. The method in this paper are implemented using the efficient deep graph learning (DGL)
翻訳日:2022-11-08 12:57:08 公開日:2020-07-20
# バンディット問題におけるソフトマックスと政策勾配について

A Short Note on Soft-max and Policy Gradients in Bandits Problems ( http://arxiv.org/abs/2007.10297v1 )

ライセンス: Link先を確認
Neil Walton(参考訳) これは、バンドイット問題におけるソフトマックスに対するリャプノフ関数引数の短い通信である。 agarwal2019optimality,bhandari2019global,mei2020global} 強化学習におけるポリシー勾配アルゴリズムの微分方程式を用いた優れた論文が数多く出されている。 我々は、バンドイット問題に対するソフトマックス常微分方程式に対する後悔を与える短い議論を与える。 我々は、またもやバンディット問題に対して、異なるポリシー勾配アルゴリズムに対して同様の結果を得る。 この第二のアルゴリズムでは、確率ケース \cite{dw20} における後悔の境界を証明することができる。 最後に、政策勾配の確率的後悔の境界を導出するいくつかのアイデアと課題を要約する。

This is a short communication on a Lyapunov function argument for softmax in bandit problems. There are a number of excellent papers coming out using differential equations for policy gradient algorithms in reinforcement learning \cite{agarwal2019optimality,bhandari2019global,mei2020global}. We give a short argument that gives a regret bound for the soft-max ordinary differential equation for bandit problems. We derive a similar result for a different policy gradient algorithm, again for bandit problems. For this second algorithm, it is possible to prove regret bounds in the stochastic case \cite{DW20}. At the end, we summarize some ideas and issues on deriving stochastic regret bounds for policy gradients.
翻訳日:2022-11-08 12:56:53 公開日:2020-07-20
# 階層的経験ベイズを用いた変分オートエンコーダの一般化

Generalizing Variational Autoencoders with Hierarchical Empirical Bayes ( http://arxiv.org/abs/2007.10389v1 )

ライセンス: Link先を確認
Wei Cheng, Gregory Darnell, Sohini Ramachandran, Lorin Crawford(参考訳) 変分オートエンコーダ(VAE)は、ハイパーパラメータの大幅な微調整を必要としない単純なアーキテクチャを用いて、データ生成モデルとして最近成功している。 しかし、VAEは過正規化に悩まされ、局所的な極大化を逃れることができないことが知られている。 この現象は後方崩壊と呼ばれ、データの有意義な潜在性エンコーディングを学ぶことを妨げる。 近年の手法では, 集約された後続分布を先行集合に決定的にマッチングすることでこの問題を緩和している。 しかし、確率的フレームワークを捨てる(したがって点推定に依存する)と不連続な潜在空間を導き、非現実的なサンプルを生成する。 本稿では,確率的生成モデルのための計算安定なフレームワークである階層的経験的ベイズオートエンコーダ(hebae)を提案する。 私たちの重要な貢献は2つです。 まず、符号化分布を階層的に優先することで、再構成損失関数の最小化と過正規化の回避とのトレードオフを適応的にバランスさせることができる。 第二に、潜在空間内の変数間の一般的な依存性構造を仮定すると、後進推論を改善する平均場仮定への収束性が向上することを示す。 全体として、EBAEは類似のVAEよりも広い範囲のハイパーパラメータ初期化に対して堅牢である。 MNISTとCelebAのデータを用いて、既存のオートエンコーダベースのアプローチよりも高品質なサンプルを生成する能力について説明する。

Variational Autoencoders (VAEs) have experienced recent success as data-generating models by using simple architectures that do not require significant fine-tuning of hyperparameters. However, VAEs are known to suffer from over-regularization which can lead to failure to escape local maxima. This phenomenon, known as posterior collapse, prevents learning a meaningful latent encoding of the data. Recent methods have mitigated this issue by deterministically moment-matching an aggregated posterior distribution to an aggregate prior. However, abandoning a probabilistic framework (and thus relying on point estimates) can both lead to a discontinuous latent space and generate unrealistic samples. Here we present Hierarchical Empirical Bayes Autoencoder (HEBAE), a computationally stable framework for probabilistic generative models. Our key contributions are two-fold. First, we make gains by placing a hierarchical prior over the encoding distribution, enabling us to adaptively balance the trade-off between minimizing the reconstruction loss function and avoiding over-regularization. Second, we show that assuming a general dependency structure between variables in the latent space produces better convergence onto the mean-field assumption for improved posterior inference. Overall, HEBAE is more robust to a wide-range of hyperparameter initializations than an analogous VAE. Using data from MNIST and CelebA, we illustrate the ability of HEBAE to generate higher quality samples based on FID score than existing autoencoder-based approaches.
翻訳日:2022-11-08 12:56:42 公開日:2020-07-20
# 機能勾配降下によるシンクホーンバリセンタ

Sinkhorn Barycenter via Functional Gradient Descent ( http://arxiv.org/abs/2007.10449v1 )

ライセンス: Link先を確認
Zebang Shen, Zhenfu Wang, Alejandro Ribeiro, Hamed Hassani(参考訳) 本稿では、シンクホーンの発散の下で確率分布の集合のバリ中心を計算する問題を考える。 この問題は、知識を集約する意味のあるメカニズムを提供するため、最近、グラフィック、学習、ビジョンを含む様々な領域にまたがるアプリケーションを発見した。 確率測度の空間で直接作用する従来の手法とは異なり, 制約のない関数最適化の例として, シンクホーン・バリセンタ問題を再キャストし, シンクホーン降下法 (sd) という新しい関数勾配降下法を開発した。 SD が準線形速度で定常点に収束することを証明し、合理的な仮定の下ではシンクホルン・バリセンター問題の大域的最小化を漸近的に発見する。 さらに,平均場解析を行うことにより,sdは経験的測度の弱い収束を保っていることを示す。 重要なことに、SDの計算複雑性は次元$d$で線形にスケールし、100ドルのSinkhorn Barycenter問題を解くことでそのスケーラビリティを実証する。

In this paper, we consider the problem of computing the barycenter of a set of probability distributions under the Sinkhorn divergence. This problem has recently found applications across various domains, including graphics, learning, and vision, as it provides a meaningful mechanism to aggregate knowledge. Unlike previous approaches which directly operate in the space of probability measures, we recast the Sinkhorn barycenter problem as an instance of unconstrained functional optimization and develop a novel functional gradient descent method named Sinkhorn Descent (SD). We prove that SD converges to a stationary point at a sublinear rate, and under reasonable assumptions, we further show that it asymptotically finds a global minimizer of the Sinkhorn barycenter problem. Moreover, by providing a mean-field analysis, we show that SD preserves the weak convergence of empirical measures. Importantly, the computational complexity of SD scales linearly in the dimension $d$ and we demonstrate its scalability by solving a $100$-dimensional Sinkhorn barycenter problem.
翻訳日:2022-11-08 12:55:17 公開日:2020-07-20
# 連続体上のフィルタ付きポアソンプロセスバンディット

Filtered Poisson Process Bandit on a Continuum ( http://arxiv.org/abs/2007.09966v1 )

ライセンス: Link先を確認
James A. Grant, and Roberto Szechtman(参考訳) 動作が非均一なポアソン過程のフィルタリング実現を誘導する連続武装バンドイットのバージョンを考える。 次に、フィルタされたサンプル中のポイントデータを意思決定者に開示し、そのポイントの総数を報酬とする。 フィルタリングを統括する関数の知識を用いるが、ポアソン強度関数の知識がなければ、決定者はTラウンド上での明らかな点の期待数を最大化しようと試みる。 本稿では,行動空間のデータ適応的離散化を利用した高信頼バウンドアルゴリズムを提案する。 このアプローチは、報酬関数に対するリプシッツの仮定の下でのO(T^(2/3))後悔を楽しむ。 我々は,関連する有限腕バンディットに対する新たな下限を通じて,この問題に対するアルゴリズムの後悔に対する下限を与え,上限と下限の順序が対数係数に一致することを示す。

We consider a version of the continuum armed bandit where an action induces a filtered realisation of a non-homogeneous Poisson process. Point data in the filtered sample are then revealed to the decision-maker, whose reward is the total number of revealed points. Using knowledge of the function governing the filtering, but without knowledge of the Poisson intensity function, the decision-maker seeks to maximise the expected number of revealed points over T rounds. We propose an upper confidence bound algorithm for this problem utilising data-adaptive discretisation of the action space. This approach enjoys O(T^(2/3)) regret under a Lipschitz assumption on the reward function. We provide lower bounds on the regret of any algorithm for the problem, via new lower bounds for related finite-armed bandits, and show that the orders of the upper and lower bounds match up to a logarithmic factor.
翻訳日:2022-11-08 12:48:01 公開日:2020-07-20
# オフマンド洗剤によるフェアウォッシングの説明

Fairwashing Explanations with Off-Manifold Detergent ( http://arxiv.org/abs/2007.09969v1 )

ライセンス: Link先を確認
Christopher J. Anders, Plamen Pasliev, Ann-Kathrin Dombrowski, Klaus-Robert M\"uller and Pan Kessel(参考訳) 説明方法はブラックボックス分類器をより透明にすることを約束する。 その結果、アルゴリズムの賢明で公平で信頼できる意思決定プロセスの証明として機能し、それによってエンドユーザの受け入れを増加させることが期待されている。 本稿では,理論的および実験的に,これらの希望が現在未確立であることを示す。 具体的には、任意の分類子 $g$ に対して、データ(同じトレイン、バリデーション、テストエラー)上で同じ振る舞いを持つが任意に操作された説明マップを持つ別の分類子 $\tilde{g}$ を常に構築できることを示す。 本稿では, 微分幾何学を用いて理論的に導出し, 様々な説明手法, アーキテクチャ, データセットについて実験的に実証する。 理論的な洞察に触発され、既存の説明法を改良し、より堅牢にすることを提案する。

Explanation methods promise to make black-box classifiers more transparent. As a result, it is hoped that they can act as proof for a sensible, fair and trustworthy decision-making process of the algorithm and thereby increase its acceptance by the end-users. In this paper, we show both theoretically and experimentally that these hopes are presently unfounded. Specifically, we show that, for any classifier $g$, one can always construct another classifier $\tilde{g}$ which has the same behavior on the data (same train, validation, and test error) but has arbitrarily manipulated explanation maps. We derive this statement theoretically using differential geometry and demonstrate it experimentally for various explanation methods, architectures, and datasets. Motivated by our theoretical insights, we then propose a modification of existing explanation methods which makes them significantly more robust.
翻訳日:2022-11-08 12:47:45 公開日:2020-07-20
# MKLpy: マルチカーネル学習のためのpythonベースのフレームワーク

MKLpy: a python-based framework for Multiple Kernel Learning ( http://arxiv.org/abs/2007.09982v1 )

ライセンス: Link先を確認
Ivano Lauriola and Fabio Aiolli(参考訳) マルチカーネル学習は、データからカーネル関数を学ぶための、最近で強力なパラダイムである。 本稿では,マルチカーネル学習のためのpythonベースのフレームワークであるmklpyを紹介する。 このライブラリは、分類タスクのための多重カーネル学習アルゴリズム、異なるデータ型のためのカーネル関数を計算するメカニズム、評価戦略を提供する。 このライブラリは、ユーザビリティを最大化し、新しいソリューションの開発を簡単にすることを目的としている。

Multiple Kernel Learning is a recent and powerful paradigm to learn the kernel function from data. In this paper, we introduce MKLpy, a python-based framework for Multiple Kernel Learning. The library provides Multiple Kernel Learning algorithms for classification tasks, mechanisms to compute kernel functions for different data types, and evaluation strategies. The library is meant to maximize the usability and to simplify the development of novel solutions.
翻訳日:2022-11-08 12:47:30 公開日:2020-07-20
# electre tree : electre tri bパラメータを推論する機械学習アプローチ

Electre Tree A Machine Learning Approach to Infer Electre Tri B Parameters ( http://arxiv.org/abs/2007.10047v1 )

ライセンス: Link先を確認
Gabriela Montenegro de Barros (Federal Fluminense University) and Valdecy Pereira (Federal Fluminense University)(参考訳) 目的: 本論文では, ELECTRE Tri-Bパラメータの任意の組み合わせを(推論する)アルゴリズムを提案する。 例えば、意思決定者は、無関心、嗜好、vetoしきい値の値を維持することができ、我々のアルゴリズムは、基準重み、参照プロファイル、ラムダカットレベルを見つけることができる。 我々のアプローチは、機械学習アンサンブル技術であるランダムフォレストにインスパイアされ、そのために、我々のアプローチをELECTRE Treeアルゴリズムと名付けた。 方法論: まずELECTRE Tri-Bモデルを生成し,各モデルが基準と代替品のランダムなサンプルを解く。 各サンプルは少なくとも2つの基準を持ち、代替品の10%から25%が代替品である。 各モデルは、そのパラメータを遺伝的アルゴリズムによって最適化し、順序付けられたクラスタまたは最適化への参照として割り当ての例を使用できる。 最後に、最適化フェーズの後に、2つの手順を実行し、最初の1つは全てのモデルをマージし、この方法でエリシットパラメータを見つけ、2番目の手順では各選択肢を分離したモデルによって分類(投票)し、多数決が最終クラスを決定する。 発見: 投票手続きに関して, 非線形決定境界が生成され, 同一の性質の問題を解析するのに適している点に留意した。 対照的に、合併モデルは線形決定境界を生成する。 オリジナル性: ELECTRE Tri-Bパラメータの帰納は、ロバストな解の生成に携わる複数の基準モデルからなるアンサンブル手法によってなされる。

Purpose: This paper presents an algorithm that can elicitate (infer) all or any combination of ELECTRE Tri-B parameters. For example, a decision-maker can maintain the values for indifference, preference, and veto thresholds, and our algorithm can find the criteria weights, reference profiles, and the lambda cutting level. Our approach is inspired by a Machine Learning ensemble technique, the Random Forest, and for that, we named our approach as ELECTRE Tree algorithm. Methodology: First, we generate a set of ELECTRE Tri-B models, where each model solves a random sample of criteria and alternatives. Each sample is made with replacement, having at least two criteria and between 10% to 25% of alternatives. Each model has its parameters optimized by a genetic algorithm that can use an ordered cluster or an assignment example as a reference to the optimization. Finally, after the optimization phase, two procedures can be performed, the first one will merge all models, finding in this way the elicitated parameters, and in the second procedure each alternative is classified (voted) by each separated model, and the majority vote decides the final class. Findings: We have noted that concerning the voting procedure, non-linear decision boundaries are generated, and they can be suitable in analyzing problems with the same nature. In contrast, the merged model generates linear decision boundaries. Originality: The elicitation of ELECTRE Tri-B parameters is made by an ensemble technique that is composed of a set of multicriteria models that are engaged in generating robust solutions.
翻訳日:2022-11-08 12:47:24 公開日:2020-07-20
# DiffRNN: リカレントニューラルネットワークの差分検証

DiffRNN: Differential Verification of Recurrent Neural Networks ( http://arxiv.org/abs/2007.10135v1 )

ライセンス: Link先を確認
Sara Mohammadinejad, Brandon Paulsen, Chao Wang, Jyotirmoy V. Deshmukh(参考訳) LSTM(Long Short Term Memory)ネットワークのようなリカレントニューラルネットワーク(RNN)は、画像処理、データ分類、音声認識、自律システムにおけるコントローラなどの様々なアプリケーションで人気を集めている。 実際の環境では、携帯電話や組み込みデバイスのようなリソース制約のあるプラットフォームにそのようなRNNをデプロイする必要があることが多い。 このようなコンポーネントのメモリフットプリントとエネルギー消費がボトルネックになるにつれて、様々なヒューリスティックな技術を使ってネットワークを圧縮し最適化することに関心が向けられる。 しかし、これらの手法は、例えば、敵の入力に対する最適化されたネットワークの安全性や、最適化された元のネットワークの等価性を保証するものではない。 そこで本研究では,構造的に類似する2つのニューラルネットワークの等価性を検証するための最初の差分検証手法であるdiffrnnを提案する。 ReLUに基づくフィードフォワードニューラルネットワークの差分検証に関する既存の研究は、SigmoidやTanhのような非線形活性化関数を回避できないRNNには適用されない。 RNNはまた、シーケンシャルな入力の処理、複雑なフィードバック構造、ゲートと状態間の相互作用など、ユニークな課題も抱えている。 DIFFRNNでは、非線形活性化関数を線形制約で有界にすることでこれらの課題を克服し、高次元空間における非線形曲面上の厳密な有界ボックスを計算するために制約付き最適化問題を解く。 これらの境界箱の音質は、dReal SMTソルバを用いて証明される。 各種ベンチマークにおいて本手法の有効性を実証し,DIFFRNNがPOPQORNのような最先端のRNN検証ツールより優れていることを示す。

Recurrent neural networks (RNNs) such as Long Short Term Memory (LSTM) networks have become popular in a variety of applications such as image processing, data classification, speech recognition, and as controllers in autonomous systems. In practical settings, there is often a need to deploy such RNNs on resource-constrained platforms such as mobile phones or embedded devices. As the memory footprint and energy consumption of such components become a bottleneck, there is interest in compressing and optimizing such networks using a range of heuristic techniques. However, these techniques do not guarantee the safety of the optimized network, e.g., against adversarial inputs, or equivalence of the optimized and original networks. To address this problem, we propose DIFFRNN, the first differential verification method for RNNs to certify the equivalence of two structurally similar neural networks. Existing work on differential verification for ReLUbased feed-forward neural networks does not apply to RNNs where nonlinear activation functions such as Sigmoid and Tanh cannot be avoided. RNNs also pose unique challenges such as handling sequential inputs, complex feedback structures, and interactions between the gates and states. In DIFFRNN, we overcome these challenges by bounding nonlinear activation functions with linear constraints and then solving constrained optimization problems to compute tight bounding boxes on nonlinear surfaces in a high-dimensional space. The soundness of these bounding boxes is then proved using the dReal SMT solver. We demonstrate the practical efficacy of our technique on a variety of benchmarks and show that DIFFRNN outperforms state-of-the-art RNN verification tools such as POPQORN.
翻訳日:2022-11-08 12:46:22 公開日:2020-07-20
# スローフローによる時系列音源分離

Time Series Source Separation with Slow Flows ( http://arxiv.org/abs/2007.10182v1 )

ライセンス: Link先を確認
Edouard Pineau, S\'ebastien Razakarivony, Thomas Bonald(参考訳) 本稿では,一般時系列分解法であるslow feature analysis (sfa) が,インバータブル・ニューラル・潜在変数モデルの一種であるflow-based models (fbm) フレームワークに自然に適合することを示す。 ブラインドソース分離の最近の進歩に基づいて、このような適合性は時系列分解を識別可能であることを示す。

In this paper, we show that slow feature analysis (SFA), a common time series decomposition method, naturally fits into the flow-based models (FBM) framework, a type of invertible neural latent variable models. Building upon recent advances on blind source separation, we show that such a fit makes the time series decomposition identifiable.
翻訳日:2022-11-08 12:45:53 公開日:2020-07-20
# EHR時系列データを用いたマルチタスク学習とマルチタスク事前学習の総合評価

A Comprehensive Evaluation of Multi-task Learning and Multi-task Pre-training on EHR Time-series Data ( http://arxiv.org/abs/2007.10185v1 )

ライセンス: Link先を確認
Matthew B.A. McDermott (1), Bret Nestor (2), Evan Kim (1), Wancong Zhang (3), Anna Goldenberg (2, 4, 5), Peter Szolovits (1), Marzyeh Ghassemi (2, 4) ((1) CSAIL, MIT, (2) University of Toronto, (3) NYU, (4) Vector Institute, (5) SickKids)(参考訳) MTL(Multi-task Learning)は、多くのタスクにまたがる情報を活用することにより、モデルパフォーマンスを改善する機械学習技術である。 電子健康記録(EHR)データなど、さまざまなデータモダリティで広く使用されている。 しかし, EHRデータにかなりの利用があるにもかかわらず, 医療分野の様々なタスクやトレーニングスキームにおいて, MTLの有用性について体系的な調査は行われていない。 本研究では,EMH時系列データに基づくタスクの電池間MTLについて検討する。 MTLは一般的な負の伝達に苦しむが、MTL事前学習と単一タスクの微調整を併用することで大きな効果が得られる。 これらの成果をタスクに依存しない方法で達成できることを実証し,従来の学習下でのマイナーな改善だけでなく,少数の学習コンテキストでも注目すべき改善を提供する。

Multi-task learning (MTL) is a machine learning technique aiming to improve model performance by leveraging information across many tasks. It has been used extensively on various data modalities, including electronic health record (EHR) data. However, despite significant use on EHR data, there has been little systematic investigation of the utility of MTL across the diverse set of possible tasks and training schemes of interest in healthcare. In this work, we examine MTL across a battery of tasks on EHR time-series data. We find that while MTL does suffer from common negative transfer, we can realize significant gains via MTL pre-training combined with single-task fine-tuning. We demonstrate that these gains can be achieved in a task-independent manner and offer not only minor improvements under traditional learning, but also notable gains in a few-shot learning context, thereby suggesting this could be a scalable vehicle to offer improved performance in important healthcare contexts.
翻訳日:2022-11-08 12:45:45 公開日:2020-07-20
# ThriftyNets : Tinyパラメータ予算を持つ畳み込みニューラルネットワーク

ThriftyNets : Convolutional Neural Networks with Tiny Parameter Budget ( http://arxiv.org/abs/2007.10106v1 )

ライセンス: Link先を確認
Guillaume Coiffier, Ghouthi Boukli Hacene, Vincent Gripon(参考訳) 典型的な深層畳み込みアーキテクチャでは,ネットワークの深層化に伴って特徴マップの数が増加する一方,ダウンサンプリング操作によって入力の空間分解能は低下する。 これは、ほとんどのパラメータが最終層に配置され、計算の大部分が第1層のパラメータのごく一部によって実行されることを意味する。 ネットワークのパラメータを最大化するために、ThriftyNetと呼ばれる新しい畳み込みニューラルネットワークアーキテクチャを提案する。 ThriftyNetでは、1つの畳み込み層のみが再帰的に定義され、最大パラメータ分解をもたらす。 補数において、正規化、非線形性、ダウンサンプリング、近道はモデルの十分な表現性を保証する。 ThriftyNetは、CIFAR-10で40K未満のパラメータで91%の精度で、CIFAR-100で74.3%のパラメータで600K未満のパラメータで競争性能を達成している。

Typical deep convolutional architectures present an increasing number of feature maps as we go deeper in the network, whereas spatial resolution of inputs is decreased through downsampling operations. This means that most of the parameters lay in the final layers, while a large portion of the computations are performed by a small fraction of the total parameters in the first layers. In an effort to use every parameter of a network at its maximum, we propose a new convolutional neural network architecture, called ThriftyNet. In ThriftyNet, only one convolutional layer is defined and used recursively, leading to a maximal parameter factorization. In complement, normalization, non-linearities, downsamplings and shortcut ensure sufficient expressivity of the model. ThriftyNet achieves competitive performance on a tiny parameters budget, exceeding 91% accuracy on CIFAR-10 with less than 40K parameters in total, and 74.3% on CIFAR-100 with less than 600K parameters.
翻訳日:2022-11-08 12:41:09 公開日:2020-07-20
# xmixup:クロスドメインミックスアップによる補助サンプルによる効率的な転送学習

XMixup: Efficient Transfer Learning with Auxiliary Samples by Cross-domain Mixup ( http://arxiv.org/abs/2007.10252v1 )

ライセンス: Link先を確認
Xingjian Li, Haoyi Xiong, Haozhe An, Chengzhong Xu, Dejing Dou(参考訳) 大規模ソースデータセットから知識を転送することは、ターゲットタスクのディープニューラルネットワークを小さなサンプルサイズで微調整する効果的な方法である。 ディープトランスファー学習を容易にするアルゴリズムが多数提案されており、これらのテクニックは一般的に、ソースデータセットから事前トレーニングされたモデルを使用して、ターゲットタスクの正規化学習(Regularized Learning)と、ソースとターゲットの両方のデータセットによるマルチタスク学習(Multitask Learning)という2つのグループに分類される。 本研究では,クロスドメインミックスアップ(xmixup)による深層伝達学習のためのマルチタスクパラダイムの改善を目指す。 既存のマルチタスク学習アルゴリズムは、ソースデータセットとターゲットデータセットの両方でバックプロパゲーションを実行し、通常より高い勾配の複雑さを消費する必要があるが、XMixupはソースからターゲットタスクへの知識の転送をより効率的に行う: ターゲットタスクのクラス毎に、XMixupはソースデータセットから補助サンプルを選択し、単純なミックスアップ戦略を通じてトレーニングサンプルを増強する。 XMixupを6つの実世界移動学習データセットで評価する。 実験の結果、XMixupは平均で1.9%精度が向上した。 他の最先端のトランスファー学習アプローチと比較して、XMixupはトレーニング時間を大幅に削減し、高い精度が得られる。

Transferring knowledge from large source datasets is an effective way to fine-tune the deep neural networks of the target task with a small sample size. A great number of algorithms have been proposed to facilitate deep transfer learning, and these techniques could be generally categorized into two groups - Regularized Learning of the target task using models that have been pre-trained from source datasets, and Multitask Learning with both source and target datasets to train a shared backbone neural network. In this work, we aim to improve the multitask paradigm for deep transfer learning via Cross-domain Mixup (XMixup). While the existing multitask learning algorithms need to run backpropagation over both the source and target datasets and usually consume a higher gradient complexity, XMixup transfers the knowledge from source to target tasks more efficiently: for every class of the target task, XMixup selects the auxiliary samples from the source dataset and augments training samples via the simple mixup strategy. We evaluate XMixup over six real world transfer learning datasets. Experiment results show that XMixup improves the accuracy by 1.9% on average. Compared with other state-of-the-art transfer learning approaches, XMixup costs much less training time while still obtains higher accuracy.
翻訳日:2022-11-08 12:40:51 公開日:2020-07-20
# 群衆、貸出、機械、バイアス

Crowd, Lending, Machine, and Bias ( http://arxiv.org/abs/2008.04068v1 )

ライセンス: Link先を確認
Runshan Fu, Yan Huang and Param Vir Singh(参考訳) ビッグデータと機械学習(ml)アルゴリズムは多くのフィンテックイノベーションの鍵となる。 人間を機械に置き換えることで効率が上がることは明らかだが、機械が人間よりも優れた決定を下せるかどうかは不明だ。 我々は、伝統的に多くの投資家が意思決定を行うクラウド融資の文脈で、この質問に答える。 Prosper.comのデータを用いて、合理的に洗練されたMLアルゴリズムがデフォルト確率をクラウド投資家よりも正確に予測することを示した。 群衆に対するマシンの優位性は、非常に危険なリストでより顕著である。 そして、機械を使って投資決定を行い、機械が貸主だけでなく借主にも利益をもたらすことを発見します。 機械予測がローンの選択に使用されると、投資家のリターン率が高くなり、代替資金の選択肢がほとんどない借主への資金提供機会が増える。 また、性別や人種情報を入力として用いなくても、マシンが性別や人種に偏っているという示唆的な証拠も見出す。 我々は,予測に焦点をあてたmlアプリケーションに適用可能な汎用的かつ効果的な"デバスティング"手法を提案し,その利用例を示す。 予測精度の低下に苦しむデバイアスmlアルゴリズムが,それでもなお,クラウドに対する投資判断の改善につながることを示す。 これらの結果は, クラウドレンディングプラットフォームが, 少人数の個人に対して金融資源へのアクセスを提供し, 資源配分の公平性を確保するという約束を果たす上で, mlが有効であることを示している。

Big data and machine learning (ML) algorithms are key drivers of many fintech innovations. While it may be obvious that replacing humans with machine would increase efficiency, it is not clear whether and where machines can make better decisions than humans. We answer this question in the context of crowd lending, where decisions are traditionally made by a crowd of investors. Using data from Prosper.com, we show that a reasonably sophisticated ML algorithm predicts listing default probability more accurately than crowd investors. The dominance of the machine over the crowd is more pronounced for highly risky listings. We then use the machine to make investment decisions, and find that the machine benefits not only the lenders but also the borrowers. When machine prediction is used to select loans, it leads to a higher rate of return for investors and more funding opportunities for borrowers with few alternative funding options. We also find suggestive evidence that the machine is biased in gender and race even when it does not use gender and race information as input. We propose a general and effective "debasing" method that can be applied to any prediction focused ML applications, and demonstrate its use in our context. We show that the debiased ML algorithm, which suffers from lower prediction accuracy, still leads to better investment decisions compared with the crowd. These results indicate that ML can help crowd lending platforms better fulfill the promise of providing access to financial resources to otherwise underserved individuals and ensure fairness in the allocation of these resources.
翻訳日:2022-11-08 12:40:08 公開日:2020-07-20
# l1/l2擬似ノルムを用いた深部畳み込みニューラルネットワークにおけるスパースフィルタの学習

Learning Sparse Filters in Deep Convolutional Neural Networks with a l1/l2 Pseudo-Norm ( http://arxiv.org/abs/2007.10022v1 )

ライセンス: Link先を確認
Anthony Berthelier, Yongzhe Yan, Thierry Chateau, Christophe Blanc, Stefan Duffner, Christophe Garcia(参考訳) ディープニューラルネットワーク(DNN)は多くのタスクで効率的であることが証明されているが、メモリと計算コストが高いため、リソース制限されたデバイスでは実用的ではない。 しかし、これらのネットワークは多数のパラメータを含むことが知られている。 近年の研究では、その構造は性能を損なうことなくよりコンパクトであることが示されている。 本稿では,フィルタ係数で定義されるl1/l2擬似ノルム比に基づくスパーシティ誘導正規化項を提案する。 この擬似ノルムを異なるフィルタカーネルに適切に定義し、無関係なフィルタを除去することにより、各レイヤ内のカーネルの数を劇的に削減し、非常にコンパクトなディープ畳み込みニューラルネットワーク(DCNN)構造へと導くことができる。 既存の多くの手法とは異なり,本手法では反復的再訓練プロセスは必要とせず,この正規化項を用いて,トレーニングプロセス中にスパースモデルを直接生成する。 さらに、我々のアプローチは既存の方法よりもずっと簡単で、実装も簡単です。 MNIST と CIFAR-10 の実験結果から,本手法はベースラインモデルと同等あるいはそれ以上の精度で,LeNet や VGG などの古典モデルのフィルタ数を大幅に削減することを示した。 さらに、sparsity と精度とのトレードオフを l1 や l2 のノルムや ssl, nisp, gal の手法に基づく他の損失正規化項と比較し、我々のアプローチがそれらを上回っていることを示す。

While deep neural networks (DNNs) have proven to be efficient for numerous tasks, they come at a high memory and computation cost, thus making them impractical on resource-limited devices. However, these networks are known to contain a large number of parameters. Recent research has shown that their structure can be more compact without compromising their performance. In this paper, we present a sparsity-inducing regularization term based on the ratio l1/l2 pseudo-norm defined on the filter coefficients. By defining this pseudo-norm appropriately for the different filter kernels, and removing irrelevant filters, the number of kernels in each layer can be drastically reduced leading to very compact Deep Convolutional Neural Networks (DCNN) structures. Unlike numerous existing methods, our approach does not require an iterative retraining process and, using this regularization term, directly produces a sparse model during the training process. Furthermore, our approach is also much easier and simpler to implement than existing methods. Experimental results on MNIST and CIFAR-10 show that our approach significantly reduces the number of filters of classical models such as LeNet and VGG while reaching the same or even better accuracy than the baseline models. Moreover, the trade-off between the sparsity and the accuracy is compared to other loss regularization terms based on the l1 or l2 norm as well as the SSL, NISP and GAL methods and shows that our approach is outperforming them.
翻訳日:2022-11-08 12:39:44 公開日:2020-07-20
# ビデオからの知識グラフ抽出

Knowledge Graph Extraction from Videos ( http://arxiv.org/abs/2007.10040v1 )

ライセンス: Link先を確認
Louis Mahon, Eleonora Giunchiglia, Bowen Li, Thomas Lukasiewicz(参考訳) ビデオの自動アノテーション(またはキャプション)は、ほとんどすべての既存の技術で自然言語によるビデオを記述する。 しかし、いくつかの欠点がある。 (i) 自動データ処理において生成した自然言語アノテーションをさらに利用するのは難しい。 (ii)自然言語アノテーションの生成は、意味的に正確で構文的に正しい自然言語文を生成するという難しいサブタスクを解決しなければならない。 (iii)標準メトリクス(精度やf1-scoreなど)が適用できないため、性能を定量的に測定することは困難である。 (iv)アノテーションは言語固有のものです。 本稿では,ビデオから知識グラフを抽出する新しいタスク,すなわち,与えられたビデオの内容の知識グラフの形で記述を作成することを提案する。 このタスクにはデータセットが存在しないので、ビデオに自然言語をアノテートしたデータセットから、自動生成するメソッドも含んでいます。 次に、ビデオから知識グラフを抽出するための初期ディープラーニングモデルを記述し、MSVD*とMSR-VTT*の2つのデータセットであるMSVD*とMSR-VTT*について報告する。

Nearly all existing techniques for automated video annotation (or captioning) describe videos using natural language sentences. However, this has several shortcomings: (i) it is very hard to then further use the generated natural language annotations in automated data processing, (ii) generating natural language annotations requires to solve the hard subtask of generating semantically precise and syntactically correct natural language sentences, which is actually unrelated to the task of video annotation, (iii) it is difficult to quantitatively measure performance, as standard metrics (e.g., accuracy and F1-score) are inapplicable, and (iv) annotations are language-specific. In this paper, we propose the new task of knowledge graph extraction from videos, i.e., producing a description in the form of a knowledge graph of the contents of a given video. Since no datasets exist for this task, we also include a method to automatically generate them, starting from datasets where videos are annotated with natural language. We then describe an initial deep-learning model for knowledge graph extraction from videos, and report results on MSVD* and MSR-VTT*, two datasets obtained from MSVD and MSR-VTT using our method.
翻訳日:2022-11-08 12:39:17 公開日:2020-07-20
# ディープ・カウンターファクトラル・バリュー・ネットワークの可能性を解き放つ

Unlocking the Potential of Deep Counterfactual Value Networks ( http://arxiv.org/abs/2007.10442v1 )

ライセンス: Link先を確認
Ryan Zarick, Bryan Pellegrino, Noam Brown, Caleb Banister(参考訳) ディープ・ファクトファクト・バリュー・ネットワークと連続解法を組み合わせることで、不完全情報ゲームにおいて深度制限探索を行うことができる。 しかし、DeepStackのポーカーAIの導入以来、ディープ・カウンターファクト・バリュー・ネットワークは広く採用されていない。 本稿では, 深い反事実的価値ネットワークの改善, および反事実的後悔の最小化について紹介し, 各変化の影響を解析する。 これらの改善を組み合わせて、ポーカーのAI Supremusを作りました。 我々は、deepstackの再実装は、強力なベンチマークエージェントであるslumbotに対して頭から頭へと負けるが、supremusは、slumbotを非常に大きなマージンで破ることに成功した。 これらの結果と合わせて,我々の重要な改善点として,ディープ・カウンターファクト・バリュー・ネットワークが最先端のパフォーマンスを達成できることが示されています。

Deep counterfactual value networks combined with continual resolving provide a way to conduct depth-limited search in imperfect-information games. However, since their introduction in the DeepStack poker AI, deep counterfactual value networks have not seen widespread adoption. In this paper we introduce several improvements to deep counterfactual value networks, as well as counterfactual regret minimization, and analyze the effects of each change. We combined these improvements to create the poker AI Supremus. We show that while a reimplementation of DeepStack loses head-to-head against the strong benchmark agent Slumbot, Supremus successfully beats Slumbot by an extremely large margin and also achieves a lower exploitability than DeepStack against a local best response. Together, these results show that with our key improvements, deep counterfactual value networks can achieve state-of-the-art performance.
翻訳日:2022-11-08 12:38:10 公開日:2020-07-20
# 生活予測を継続する機械のシーケンスモデルへの注意シーケンス

Attention Sequence to Sequence Model for Machine Remaining Useful Life Prediction ( http://arxiv.org/abs/2007.09868v1 )

ライセンス: Link先を確認
Mohamed Ragab, Zhenghua Chen, Min Wu, Chee-Keong Kwoh, Ruqiang Yan, and Xiaoli Li(参考訳) 工業機器の有効寿命(RUL)の正確な推定は、保守の高度化、設備の可用性の向上、運用コストの削減を可能にする。 しかし、RUL予測のための既存のディープラーニング手法は、以下の2つの理由から完全には成功していない。 まず、RULを推定するために単一の目的関数に依存すると、学習した表現を制限し、予測精度に影響を与える。 第二に、より長いシーケンスは機器のセンサーダイナミクスをモデル化するのにより有益であるが、既存の手法は最新の情報に重点を置いているため、非常に長いシーケンスを扱うのにあまり効果的ではない。 これら2つの問題に対処するため,AtS2Sモデルを用いた新しいアテンションベースシーケンスを開発した。 特に, このモデルでは, 予測能力を有するモデルと, 予測されたRULと実際のRULとの差を最小限に抑えるためのRUL予測損失を共同で最適化する。 さらに、より長いシーケンスをうまく処理するために、トレーニングプロセスにおいて重要な入力情報すべてにフォーカスするアテンション機構を用いる。 最後に、エンコーダ機能とデコーダ隠蔽状態を統合し、データ中のリッチなセマンティック情報をキャプチャする、新しいデュアル遅延特徴表現を提案する。 提案手法の有効性を評価するために,4つの実データについて広範な実験を行った。 実験の結果,提案手法は13種類の最先端手法よりも優れた性能が得られることがわかった。

Accurate estimation of remaining useful life (RUL) of industrial equipment can enable advanced maintenance schedules, increase equipment availability and reduce operational costs. However, existing deep learning methods for RUL prediction are not completely successful due to the following two reasons. First, relying on a single objective function to estimate the RUL will limit the learned representations and thus affect the prediction accuracy. Second, while longer sequences are more informative for modelling the sensor dynamics of equipment, existing methods are less effective to deal with very long sequences, as they mainly focus on the latest information. To address these two problems, we develop a novel attention-based sequence to sequence with auxiliary task (ATS2S) model. In particular, our model jointly optimizes both reconstruction loss to empower our model with predictive capabilities (by predicting next input sequence given current input sequence) and RUL prediction loss to minimize the difference between the predicted RUL and actual RUL. Furthermore, to better handle longer sequence, we employ the attention mechanism to focus on all the important input information during training process. Finally, we propose a new dual-latent feature representation to integrate the encoder features and decoder hidden states, to capture rich semantic information in data. We conduct extensive experiments on four real datasets to evaluate the efficacy of the proposed method. Experimental results show that our proposed method can achieve superior performance over 13 state-of-the-art methods consistently.
翻訳日:2022-11-08 12:37:08 公開日:2020-07-20
# 経済ハイパーパラメータ最適化のためのマルチレベルトレーニングとベイズ最適化

Multi-level Training and Bayesian Optimization for Economical Hyperparameter Optimization ( http://arxiv.org/abs/2007.09953v1 )

ライセンス: Link先を確認
Yang Yang, Ke Deng, Michael Zhu(参考訳) ハイパーパラメータは多くの機械学習メソッドのパフォーマンスにおいて重要な役割を果たす。 最高の設定を決定するか、ハイパーパラメータ最適化(HPO)は、大量のハイパーパラメータと過度のトレーニング時間によって生じる困難に直面します。 本稿では,HPOに必要なトレーニング時間の総量を削減するための効果的な手法を開発する。 初期化において、ネストしたラテンハイパーキューブの設計は、それぞれ重度トレーニングと軽度トレーニングの2種類のトレーニングのためのハイパーパラメータ構成を選択するために使用される。 そこで本研究では,重度トレーニングによって発生する高精度な性能測定を用いて,光トレーニングによって生成された近似性能測定をキャリブレーションする,トラッピング付加型ガウスプロセスモデルを提案する。 このモデルに基づいて,構成空間の性能プロファイル生成と最適な評価を行うために,逐次モデルに基づくアルゴリズムを開発した。 提案手法は,合成例の最適化,ベクトルマシンのサポート,完全連結ネットワーク,畳み込みニューラルネットワークなどの競合性能を示す。

Hyperparameters play a critical role in the performances of many machine learning methods. Determining their best settings or Hyperparameter Optimization (HPO) faces difficulties presented by the large number of hyperparameters as well as the excessive training time. In this paper, we develop an effective approach to reducing the total amount of required training time for HPO. In the initialization, the nested Latin hypercube design is used to select hyperparameter configurations for two types of training, which are, respectively, heavy training and light training. We propose a truncated additive Gaussian process model to calibrate approximate performance measurements generated by light training, using accurate performance measurements generated by heavy training. Based on the model, a sequential model-based algorithm is developed to generate the performance profile of the configuration space as well as find optimal ones. Our proposed approach demonstrates competitive performance when applied to optimize synthetic examples, support vector machines, fully connected networks and convolutional neural networks.
翻訳日:2022-11-08 12:36:30 公開日:2020-07-20
# NSGANetV2:進化的多目的サロゲート支援ニューラルネットワーク探索

NSGANetV2: Evolutionary Multi-Objective Surrogate-Assisted Neural Architecture Search ( http://arxiv.org/abs/2007.10396v1 )

ライセンス: Link先を確認
Zhichao Lu and Kalyanmoy Deb and Erik Goodman and Wolfgang Banzhaf and Vishnu Naresh Boddeti(参考訳) 本論文では,複数の競合対象下で競合するタスク固有モデルを生成するための効率的なNASアルゴリズムを提案する。 2つのサロゲートで構成され、1つはサンプル効率を改善するためにアーキテクチャレベルで、1つはスーパーネットを介して重量レベルで、勾配降下訓練効率を改善する。 標準ベンチマークデータセット(C10, C100, ImageNet)では、NSGANetV2と呼ばれる結果のモデルが既存のアプローチのモデルにマッチするか、あるいは性能が良くなり、検索の精度は桁違いに向上した。 さらに,stl-10,flowers102,oxford pets,fgvc aircraftsなど6種類の非標準データセットにおいて,提案手法の有効性と汎用性を示す。 すべてのケースにおいて、NSGANetV2は最先端(モバイル環境下で)を改善し、NASは小規模なデータセットやきめ細かなデータセットなどの多様なシナリオを扱う上で、従来の移行学習アプローチの代替となる可能性があることを示唆している。 コードはhttps://github.com/mikelzc1990/nsganetv2で入手できる。

In this paper, we propose an efficient NAS algorithm for generating task-specific models that are competitive under multiple competing objectives. It comprises of two surrogates, one at the architecture level to improve sample efficiency and one at the weights level, through a supernet, to improve gradient descent training efficiency. On standard benchmark datasets (C10, C100, ImageNet), the resulting models, dubbed NSGANetV2, either match or outperform models from existing approaches with the search being orders of magnitude more sample efficient. Furthermore, we demonstrate the effectiveness and versatility of the proposed method on six diverse non-standard datasets, e.g. STL-10, Flowers102, Oxford Pets, FGVC Aircrafts etc. In all cases, NSGANetV2s improve the state-of-the-art (under mobile setting), suggesting that NAS can be a viable alternative to conventional transfer learning approaches in handling diverse scenarios such as small-scale or fine-grained datasets. Code is available at https://github.com/mikelzc1990/nsganetv2
翻訳日:2022-11-08 10:12:43 公開日:2020-07-20
# 大学メールアプリケーションのためのニューラルマシン翻訳モデル

Neural Machine Translation model for University Email Application ( http://arxiv.org/abs/2007.16011v1 )

ライセンス: Link先を確認
Sandhya Aneja and Siti Nur Afikah Bte Abdul Mazid and Nagender Aneja(参考訳) 機械翻訳にはニュース翻訳、電子メール翻訳、公式文字翻訳など多くの応用がある。 例えば、Google翻訳のような商業翻訳者は、地域語彙のラグがあり、ソースのバイリンガルテキストと入力内のターゲット言語を学習できない。 本稿では,大学における3年間のコミュニケーションに使用する電子メールのデータセットに対して,地域語彙に基づくアプリケーション指向ニューラルマシン翻訳(nmt)モデルを提案する。 ml -> en と en -> ml 翻訳のための最先端のシーケンシャル・ツー・シーケンスニューラルネットワークを,アテンションデコーダを用いたゲート型リカレントユニットリカレントニューラルネットワーク機械翻訳モデルを用いてgoogle translateと比較した。 Google Translationの低いBLEUスコアは、我々のモデルと比較すると、アプリケーションベースの地域モデルの方が優れていることを示している。 我々のモデルとGoogle翻訳の低BLEUスコアは、マレー語が英語に対応する複雑な言語特徴を持っていることを示している。

Machine translation has many applications such as news translation, email translation, official letter translation etc. Commercial translators, e.g. Google Translation lags in regional vocabulary and are unable to learn the bilingual text in the source and target languages within the input. In this paper, a regional vocabulary-based application-oriented Neural Machine Translation (NMT) model is proposed over the data set of emails used at the University for communication over a period of three years. A state-of-the-art Sequence-to-Sequence Neural Network for ML -> EN and EN -> ML translations is compared with Google Translate using Gated Recurrent Unit Recurrent Neural Network machine translation model with attention decoder. The low BLEU score of Google Translation in comparison to our model indicates that the application based regional models are better. The low BLEU score of EN -> ML of our model and Google Translation indicates that the Malay Language has complex language features corresponding to English.
翻訳日:2022-11-08 10:12:00 公開日:2020-07-20
# 波動・波動2波間の変換

Translation Between Waves, wave2wave ( http://arxiv.org/abs/2007.10394v1 )

ライセンス: Link先を確認
Tsuyoshi Okita and Hirotaka Hachiya and Sozo Inoue and Naonori Ueda(参考訳) ビッグデータを用いた高度なディープラーニング手法により,センサデータの理解が大幅に向上している。 しかし、現実世界で利用可能なセンサーデータはまだ限られており、機会センサ問題と呼ばれる。 本稿では,ウェーブの一部形状を適応的に表現するウィンドウベース(逆-)表現と高次元データに対する反復的バックトランスレーションモデルを導入することで,連続的な信号波に対処するニューラルマシン翻訳セク2seqの新たな変種を提案する。 実生活データとして,地震と活動翻訳の2つの実験結果が得られた。 1次元データの性能改善はテスト損失が約46%、高次元データの性能改善はオリジナルのSeq2seqに対して約1625%であった。

The understanding of sensor data has been greatly improved by advanced deep learning methods with big data. However, available sensor data in the real world are still limited, which is called the opportunistic sensor problem. This paper proposes a new variant of neural machine translation seq2seq to deal with continuous signal waves by introducing the window-based (inverse-) representation to adaptively represent partial shapes of waves and the iterative back-translation model for high-dimensional data. Experimental results are shown for two real-life data: earthquake and activity translation. The performance improvements of one-dimensional data was about 46% in test loss and that of high-dimensional data was about 1625% in perplexity with regard to the original seq2seq.
翻訳日:2022-11-08 10:11:13 公開日:2020-07-20
# Battlesnake Challenge: マルチエージェント強化学習プレイグラウンド

Battlesnake Challenge: A Multi-agent Reinforcement Learning Playground with Human-in-the-loop ( http://arxiv.org/abs/2007.10504v1 )

ライセンス: Link先を確認
Jonathan Chung, Anna Luo, Xavier Raffin, Scott Perry(参考訳) 本稿では,Human-In-the-Loop Learning(HILL)を用いたマルチエージェント強化学習のためのフレームワークであるBattlesnake Challengeを紹介する。 従来のスネークゲームのマルチプレイヤー拡張であるBattlesnakeに基づいて開発され、2つ以上のヘビが最後の生存を競う。 battlesnake challengeは、モデルトレーニング用のオフラインモジュールと、ライブコンペティション用のオンラインモジュールで構成されている。 本研究では,オフラインマルチエージェントモデル学習のためのシミュレーションゲーム環境を開発し,学習を改善するためのベースラインヒューリスティックのセットを同定する。 私たちのフレームワークはエージェント非依存でヒューリスティックス非依存なので、研究者は独自のアルゴリズムを設計し、モデルをトレーニングし、オンラインバトルスネークコンペティションでデモンストレーションすることができます。 予備実験でフレームワークとベースラインヒューリスティックスを検証する。 その結果,提案手法を用いたエージェントはHILLを使わずにエージェントよりも常に優れていた。 さらに報酬操作のヒューリスティックスはオンライン競争で最高のパフォーマンスを示した。 私たちはフレームワークをhttps://github.com/awslabs/sagemaker-battlesnake-aiでオープンソースにしています。

We present the Battlesnake Challenge, a framework for multi-agent reinforcement learning with Human-In-the-Loop Learning (HILL). It is developed upon Battlesnake, a multiplayer extension of the traditional Snake game in which 2 or more snakes compete for the final survival. The Battlesnake Challenge consists of an offline module for model training and an online module for live competitions. We develop a simulated game environment for the offline multi-agent model training and identify a set of baseline heuristics that can be instilled to improve learning. Our framework is agent-agnostic and heuristics-agnostic such that researchers can design their own algorithms, train their models, and demonstrate in the online Battlesnake competition. We validate the framework and baseline heuristics with our preliminary experiments. Our results show that agents with the proposed HILL methods consistently outperform agents without HILL. Besides, heuristics of reward manipulation had the best performance in the online competition. We open source our framework at https://github.com/awslabs/sagemaker-battlesnake-ai.
翻訳日:2022-11-08 10:10:59 公開日:2020-07-20
# HMQ: CNN用のハードウェアフレンドリーな精密量子化ブロック

HMQ: Hardware Friendly Mixed Precision Quantization Block for CNNs ( http://arxiv.org/abs/2007.09952v1 )

ライセンス: Link先を確認
Hai Victor Habi, Roy H. Jennings, Arnon Netzer(参考訳) 最近のネットワーク量子化の研究は、混合精度量子化を用いた最先端の結果を生み出した。 多くの効率的なエッジデバイスハードウェア実装の必須要件は、量子化器が均一であり、2つのしきい値を持つことである。 本稿では,この要件を満たすために,ハードウェアフレンドリな混合精度量子化ブロック(hmq)を導入する。 hmqは、gumbel-softmax推定器をビット幅としきい値という2つの量子化パラメータの滑らかな推定器に再利用する混合精度量子化ブロックである。 HMQ はこれを使って量子化スキームの有限空間を探索する。 CIFAR10 と ImageNet で訓練された分類モデルの定量化に HMQ を適用する。 ImageNetでは、4つの異なるアーキテクチャを定量化し、量子化スキームに制限を加えたにもかかわらず、競争力があり、場合によっては最先端の結果が得られることを示す。

Recent work in network quantization produced state-of-the-art results using mixed precision quantization. An imperative requirement for many efficient edge device hardware implementations is that their quantizers are uniform and with power-of-two thresholds. In this work, we introduce the Hardware Friendly Mixed Precision Quantization Block (HMQ) in order to meet this requirement. The HMQ is a mixed precision quantization block that repurposes the Gumbel-Softmax estimator into a smooth estimator of a pair of quantization parameters, namely, bit-width and threshold. HMQs use this to search over a finite space of quantization schemes. Empirically, we apply HMQs to quantize classification models trained on CIFAR10 and ImageNet. For ImageNet, we quantize four different architectures and show that, in spite of the added restrictions to our quantization scheme, we achieve competitive and, in some cases, state-of-the-art results.
翻訳日:2022-11-08 10:10:23 公開日:2020-07-20