このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200811となっている論文です。

PDF登録状況(公開日: 20200811)

TitleAuthorsAbstract論文公表日・翻訳日
# 軌道に対するベルの定理

Bell's theorem for trajectories ( http://arxiv.org/abs/2001.00681v3 )

ライセンス: Link先を確認
Dragoljub Go\v{c}anin, Aleksandra Dimi\'c, Flavio Del Santo and Borivoje Daki\'c(参考訳) 古典理論において、粒子の軌道は力学法則による初期条件の完全な集合によって完全に決められる。 これに基づいて古典粒子の力学、すなわち軌道に対するベルの不等式に対するno-go定理を定式化し、量子シナリオにおいてその違反の可能性について議論する。 しかし、軌跡は量子測度の結果ではなく、観測可能でないという意味では、ベルの不等式が軌道に対して「直接」実験されることはない。 それにもかかわらず、時間毎に実験的にテスト可能な汎用的不等式を特別に考慮し、この問題を克服する方法を示す。 そのような不等式は量子力学によって実際に破られ、違反は特定の特異な瞬間だけでなく、時間全体にわたって持続する。 我々は、局所現実論において、軌跡(またはその少なくとも一部)が所定の存在できないことを示すために違反を解釈する。

In classical theory, the trajectory of a particle is entirely predetermined by the complete set of initial conditions via dynamical laws. Based on this, we formulate a no-go theorem for the dynamics of classical particles, i.e., a Bell's inequality for trajectories, and discuss its possible violation in a quantum scenario. A trajectory, however, is not an outcome of a quantum measurement, in the sense that there is no observable associated with it, and thus there is no "direct" experimental test of the Bell's inequality for trajectories. Nevertheless, we show how to overcome this problem by considering a special case of our generic inequality that can be experimentally tested point-by-point in time. Such inequality is indeed violated by quantum mechanics, and the violation persists during an entire interval of time and not just at a particular singular instant. We interpret the violation to imply that trajectories (or at least pieces thereof) cannot exist predetermined, within a local-realistic theory.
翻訳日:2023-01-14 17:45:05 公開日:2020-08-11
# 病的空間パターンの逆学習による領域適応型医用画像分割

Domain Adaptive Medical Image Segmentation via Adversarial Learning of Disease-Specific Spatial Patterns ( http://arxiv.org/abs/2001.09313v3 )

ライセンス: Link先を確認
Hongwei Li, Timo Loehr, Anjany Sekuboyina, Jianguo Zhang, Benedikt Wiestler, and Bjoern Menze(参考訳) 医用画像におけるマルチセントデータの異質性は、ディープラーニングベースの手法の適用性を阻害し、新しいセンターやスキャナーなど、目に見えないデータ領域でモデルを適用する場合、大幅な性能低下をもたらす。 本稿では,新しい対象領域からの手動アノテーションを使わずに,対象領域から少数の画像に対してネットワークを再調整することにより,複数の領域にまたがる画像分割性能を向上させるための教師なしドメイン適応フレームワークを提案する。 これを実現するために,不適切なセグメンテーションパターンを拒絶し,意味情報や境界情報を通じて暗黙的に学習することで,新たなデータに適応するようにアーキテクチャを強制する。 適応プロセスには連続的な監視が必要であるが,対象領域に対する地中マスクの存在を想定できないため,適応プロセスを監視するための2つの新しい指標と,セグメンテーションアルゴリズムを安定的に学習するための戦略を提案する。 我々は、よく確立された2Dおよび3Dアーキテクチャを構築し、多中心のパブリックデータセットと社内データセットを含む3つの横断的な脳病変セグメンテーションタスクについて広範な実験を行った。 対象領域の未ラベル画像でディープネットワークを再調整することで,セグメント化精度が大幅に向上することを示す。

In medical imaging, the heterogeneity of multi-centre data impedes the applicability of deep learning-based methods and results in significant performance degradation when applying models in an unseen data domain, e.g. a new centreor a new scanner. In this paper, we propose an unsupervised domain adaptation framework for boosting image segmentation performance across multiple domains without using any manual annotations from the new target domains, but by re-calibrating the networks on few images from the target domain. To achieve this, we enforce architectures to be adaptive to new data by rejecting improbable segmentation patterns and implicitly learning through semantic and boundary information, thus to capture disease-specific spatial patterns in an adversarial optimization. The adaptation process needs continuous monitoring, however, as we cannot assume the presence of ground-truth masks for the target domain, we propose two new metrics to monitor the adaptation process, and strategies to train the segmentation algorithm in a stable fashion. We build upon well-established 2D and 3D architectures and perform extensive experiments on three cross-centre brain lesion segmentation tasks, involving multicentre public and in-house datasets. We demonstrate that recalibrating the deep networks on a few unlabeled images from the target domain improves the segmentation accuracy significantly.
翻訳日:2023-01-07 00:17:39 公開日:2020-08-11
# emg信号を用いた手の動き分類における分析ウィンドウと特徴選択の影響

Effect of Analysis Window and Feature Selection on Classification of Hand Movements Using EMG Signal ( http://arxiv.org/abs/2002.00461v4 )

ライセンス: Link先を確認
Asad Ullah, Sarwan Ali, Imdadullah Khan, Muhammad Asad Khan, Safiullah Faizullah(参考訳) 筋電図(EMG)信号は、単度または二重自由度の義肢の駆動に成功している。 この原理は、EMG信号の振幅を使って、1つまたは2つの単純な動きを決定する。 この方法は機械工学、電子工学、ロボティクスの分野で行われた現代の進歩と比べても劣るが、直観に欠ける。 近年,パターン認識(PR)に基づく筋電制御の研究は,機械学習分類器の助けを借りて有望な結果を示した。 EMG-PRと呼ばれる手法を用いて、EMG信号を解析窓に分割し、各窓の特徴を抽出する。 これらの機能は入力として機械学習分類器に送られる。 複数のクラスの動きと直感的な制御を提供することで、日常的な生活運動を行うために切断対象に電力を供給することができる。 本稿では,分析ウィンドウと特徴選択が,時間領域特徴を用いた手指運動の分類精度に及ぼす影響について検討する。 我々は,手の動きの分類精度向上に有効なデータ前処理と最適特徴選択が有効であることを示す。 実験には40ドル(約4400円)で手や手首のジェスチャーデータセットを公開しています。 異なる分類アルゴリズムを用いて計算された結果は,提案する前処理と特徴選択がベースラインを上回り,最大98%の分類精度を達成していることを示している。

Electromyography (EMG) signals have been successfully employed for driving prosthetic limbs of a single or double degree of freedom. This principle works by using the amplitude of the EMG signals to decide between one or two simpler movements. This method underperforms as compare to the contemporary advances done at the mechanical, electronics, and robotics end, and it lacks intuition. Recently, research on myoelectric control based on pattern recognition (PR) shows promising results with the aid of machine learning classifiers. Using the approach termed as, EMG-PR, EMG signals are divided into analysis windows, and features are extracted for each window. These features are then fed to the machine learning classifiers as input. By offering multiple class movements and intuitive control, this method has the potential to power an amputated subject to perform everyday life movements. In this paper, we investigate the effect of the analysis window and feature selection on classification accuracy of different hand and wrist movements using time-domain features. We show that effective data preprocessing and optimum feature selection helps to improve the classification accuracy of hand movements. We use publicly available hand and wrist gesture dataset of $40$ intact subjects for experimentation. Results computed using different classification algorithms show that the proposed preprocessing and features selection outperforms the baseline and achieve up to $98\%$ classification accuracy.
翻訳日:2023-01-04 20:22:56 公開日:2020-08-11
# ランダム化平滑化によるラベルフリッピング攻撃に対する認定ロバスト性

Certified Robustness to Label-Flipping Attacks via Randomized Smoothing ( http://arxiv.org/abs/2002.03018v4 )

ライセンス: Link先を確認
Elan Rosenfeld, Ezra Winston, Pradeep Ravikumar, J. Zico Kolter(参考訳) 機械学習アルゴリズムは、敵がトレーニングデータを操作して結果の分類器のパフォーマンスを低下させるデータ中毒攻撃の影響を受けやすいことが知られている。 本研究では,任意の関数に対するランダム化平滑化の統一的視点を提示し,この特徴を活用し,汎用データ中毒攻撃に対してポイントワイズに堅牢な分類器を構築するための新しい戦略を提案する。 特定のインスタンス化として、私たちはこのフレームワークを使用して、各テスト例を独立してターゲットとする、強力なラベルフリップの変種に対して堅牢な線形分類器を構築します。 言い換えれば、各テストポイントに対して、我々の分類器は、いくつかのトレーニングラベルが反対に変更された場合、その予測が同じになるという認証を含んでいる。 ランダム化平滑化は、以前は、分類器への入力の逆操作に対して、高い確率でテスト時の堅牢性を保証するために用いられてきた。 さらに、標準分類よりもランタイムの複雑さが最小限に抑えられ、列車やテスト分布の仮定が不要な、これらの認定境界を得る。 その結果をマルチクラスケースに一般化し,ラベルフリッピング攻撃に頑健な,最初のマルチクラス分類アルゴリズムを提供する。

Machine learning algorithms are known to be susceptible to data poisoning attacks, where an adversary manipulates the training data to degrade performance of the resulting classifier. In this work, we present a unifying view of randomized smoothing over arbitrary functions, and we leverage this novel characterization to propose a new strategy for building classifiers that are pointwise-certifiably robust to general data poisoning attacks. As a specific instantiation, we utilize our framework to build linear classifiers that are robust to a strong variant of label flipping, where each test example is targeted independently. In other words, for each test point, our classifier includes a certification that its prediction would be the same had some number of training labels been changed adversarially. Randomized smoothing has previously been used to guarantee---with high probability---test-time robustness to adversarial manipulation of the input to a classifier; we derive a variant which provides a deterministic, analytical bound, sidestepping the probabilistic certificates that traditionally result from the sampling subprocedure. Further, we obtain these certified bounds with minimal additional runtime complexity over standard classification and no assumptions on the train or test distributions. We generalize our results to the multi-class case, providing the first multi-class classification algorithm that is certifiably robust to label-flipping attacks.
翻訳日:2023-01-03 03:23:57 公開日:2020-08-11
# BitPruning: 攻撃的で正確な量子化のためのビット長学習

BitPruning: Learning Bitlengths for Aggressive and Accurate Quantization ( http://arxiv.org/abs/2002.03090v2 )

ライセンス: Link先を確認
Milo\v{s} Nikoli\'c, Ghouthi Boukli Hacene, Ciaran Bannon, Alberto Delmas Lascorz, Matthieu Courbariaux, Yoshua Bengio, Vincent Gripon and Andreas Moshovos(参考訳) ニューラルネットワークは、低ビット長整数量子化による最先端の精度を実証的に達成し、短いビット長をサポートする既存のハードウェア設計に対して実行時間とエネルギーの利点をもたらす。 しかし、所望の精度で最小ビット長を求める問題は未解決のままである。 精度を維持しつつ,任意の粒度で推論ビット長を最小化するためのトレーニング手法を提案する。 すなわち、アーキテクチャ全体にわたって大きなビット長表現をペナライズする正規化器を提案し、演算数やメモリフットプリントなど、他の定量化基準を最小化するための修正方法を示す。 本手法は精度を保ちながらスリフティ表現を学習できることを実証する。 ImageNetでは、平均4.13ビット、3.76ビット、4.36ビットをAlexNet、ResNet18、MobileNet V2で生成し、ベースTOP-1の精度の2.0%、0.5%、0.5%に留まる。

Neural networks have demonstrably achieved state-of-the art accuracy using low-bitlength integer quantization, yielding both execution time and energy benefits on existing hardware designs that support short bitlengths. However, the question of finding the minimum bitlength for a desired accuracy remains open. We introduce a training method for minimizing inference bitlength at any granularity while maintaining accuracy. Namely, we propose a regularizer that penalizes large bitlength representations throughout the architecture and show how it can be modified to minimize other quantifiable criteria, such as number of operations or memory footprint. We demonstrate that our method learns thrifty representations while maintaining accuracy. With ImageNet, the method produces an average per layer bitlength of 4.13, 3.76 and 4.36 bits on AlexNet, ResNet18 and MobileNet V2 respectively, remaining within 2.0%, 0.5% and 0.5% of the base TOP-1 accuracy.
翻訳日:2023-01-02 22:20:51 公開日:2020-08-11
# 高速流動遷移による強化学習における解釈可能なオフポリティ評価

Interpretable Off-Policy Evaluation in Reinforcement Learning by Highlighting Influential Transitions ( http://arxiv.org/abs/2002.03478v3 )

ライセンス: Link先を確認
Omer Gottesman, Joseph Futoma, Yao Liu, Sonali Parbhoo, Leo Anthony Celi, Emma Brunskill, Finale Doshi-Velez(参考訳) 強化学習におけるオフポリシー評価は、医療や教育といった分野における将来の成果を改善するために観察データを使用する機会を提供するが、高い利害関係者の安全な配置には、その妥当性を評価する方法が必要である。 信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である。 本稿では,人間とAIのハイブリッドシステムとして機能する手法を開発し,政策評価評価の妥当性について分析する。 これは、OPEの推定値に大きな影響を及ぼすであろうデータの観察を強調し、検証のためにドメインの専門家に提示すべきものを選択するための一連のルールを定式化することで達成される。 我々はカーネルベースと線形最小二乗という2つの異なる関数クラスで適合Q-評価を行うための影響関数を正確に計算する手法を開発した。 医療シミュレーションと実世界の集中治療ユニットデータを用いた実験により,評価プロセスの限界を特定し,より堅牢に評価できることを示す。

Off-policy evaluation in reinforcement learning offers the chance of using observational data to improve future outcomes in domains such as healthcare and education, but safe deployment in high stakes settings requires ways of assessing its validity. Traditional measures such as confidence intervals may be insufficient due to noise, limited data and confounding. In this paper we develop a method that could serve as a hybrid human-AI system, to enable human experts to analyze the validity of policy evaluation estimates. This is accomplished by highlighting observations in the data whose removal will have a large effect on the OPE estimate, and formulating a set of rules for choosing which ones to present to domain experts for validation. We develop methods to compute exactly the influence functions for fitted Q-evaluation with two different function classes: kernel-based and linear least squares, as well as importance sampling methods. Experiments on medical simulations and real-world intensive care unit data demonstrate that our method can be used to identify limitations in the evaluation process and make evaluation more robust.
翻訳日:2023-01-02 07:31:18 公開日:2020-08-11
# 政治ツイートの固有認識と感性分析におけるクラウドワーカーとNLPツールのパフォーマンス比較

Performance Comparison of Crowdworkers and NLP Tools on Named-Entity Recognition and Sentiment Analysis of Political Tweets ( http://arxiv.org/abs/2002.04181v2 )

ライセンス: Link先を確認
Mona Jalal, Kate K. Mays, Lei Guo, Margrit Betke(参考訳) 本研究では,NLPの2つの課題,NER(name-entity recognition)とELS( entity-level sentiment)分析における,クラウドワーカーと自然言語処理(NLP)ツールキットの精度の比較結果について報告する。 ここでは、2016年2月の米大統領選挙で収集された1000の政治的ツイートに関する挑戦的なデータセットに焦点を当てる。 各ツイートは4人の大統領候補のうち少なくとも1人、すなわち4人の名前を冠した人物を指す。 政治コミュニケーションの専門家が設立した土台は、ツイートで言及された候補者ごとにエンティティレベルの感情情報を持っている。 いくつかの商用およびオープンソースツールをテストしました。 我々の実験によると、私たちの政治的ツイートのデータセットでは、最も正確なNERシステムであるGoogle Cloud NLが、クラウドワーカーとほぼ同等に実行されましたが、最も正確なESS分析システムであるTensiStrengthは、クラウドワーカーの精度を30%以上の大きなマージンで一致させませんでした。

We report results of a comparison of the accuracy of crowdworkers and seven Natural Language Processing (NLP) toolkits in solving two important NLP tasks, named-entity recognition (NER) and entity-level sentiment (ELS) analysis. We here focus on a challenging dataset, 1,000 political tweets that were collected during the U.S. presidential primary election in February 2016. Each tweet refers to at least one of four presidential candidates, i.e., four named entities. The groundtruth, established by experts in political communication, has entity-level sentiment information for each candidate mentioned in the tweet. We tested several commercial and open-source tools. Our experiments show that, for our dataset of political tweets, the most accurate NER system, Google Cloud NL, performed almost on par with crowdworkers, but the most accurate ELS analysis system, TensiStrength, did not match the accuracy of crowdworkers by a large margin of more than 30 percent points.
翻訳日:2023-01-02 01:46:10 公開日:2020-08-11
# 内視鏡視下手術器具の分節化を目指して--多角的特徴集合と輪郭監督

Towards Better Surgical Instrument Segmentation in Endoscopic Vision: Multi-Angle Feature Aggregation and Contour Supervision ( http://arxiv.org/abs/2002.10675v2 )

ライセンス: Link先を確認
Fangbo Qin, Shan Lin, Yangming Li, Randall A. Bly, Kris S. Moe, Blake Hannaford(参考訳) ロボット支援手術の内視鏡視において,精密かつリアルタイムな手術器具分割が重要であり,頻繁な器質接触と観察視点の連続的変化によって大きな課題が生じる。 これらの課題に対して、近年、より深いニューラルネットワーク(DNN)モデルが設計されている。 モデルパラメータを増大させることなく、現在のDNNセグメンテーションモデルを改善する汎用的な埋め込み可能なアプローチを提案する。 まず, dnnの限定的な回転非分散性能を観測し, アクティブな回転を利用してよりリッチな視覚手がかりを得て, 計測方向の変化に対してより頑健な予測を行うマルチアングル特徴集約 (mafa) 法を提案した。 第二に、エンド・ツー・エンドのトレーニング段階では、補助輪郭監督を利用してモデルに境界認識を学習させ、セグメンテーションマスクの輪郭形状をより正確にする。 提案手法は,外科医の手術から収集したSinus-Surgeryデータセットのアブレーション実験により検証され,da Vinci Xi Robotで収集した公開データセットの既存手法と比較された。

Accurate and real-time surgical instrument segmentation is important in the endoscopic vision of robot-assisted surgery, and significant challenges are posed by frequent instrument-tissue contacts and continuous change of observation perspective. For these challenging tasks more and more deep neural networks (DNN) models are designed in recent years. We are motivated to propose a general embeddable approach to improve these current DNN segmentation models without increasing the model parameter number. Firstly, observing the limited rotation-invariance performance of DNN, we proposed the Multi-Angle Feature Aggregation (MAFA) method, leveraging active image rotation to gain richer visual cues and make the prediction more robust to instrument orientation changes. Secondly, in the end-to-end training stage, the auxiliary contour supervision is utilized to guide the model to learn the boundary awareness, so that the contour shape of segmentation mask is more precise. The proposed method is validated with ablation experiments on the novel Sinus-Surgery datasets collected from surgeons' operations, and is compared to the existing methods on a public dataset collected with a da Vinci Xi Robot.
翻訳日:2022-12-28 21:47:11 公開日:2020-08-11
# マルチエージェントマルチアームバンドにおける分散協調決定

Distributed Cooperative Decision Making in Multi-agent Multi-armed Bandits ( http://arxiv.org/abs/2003.01312v2 )

ライセンス: Link先を確認
Peter Landgren, Vaibhav Srivastava, and Naomi Ehrich Leonard(参考訳) 本研究では,複数のエージェントが同一のマルチアーム・バンディット(mab)に対面し,各エージェントがそれぞれの報酬を最大化するために武器間で順次選択する分散意思決定問題について検討する。 エージェントは、固定された通信グラフ上で見積を共有して協力する。 2人以上のエージェントが同じ腕を選択し、独立した報酬を収集できる、制約のない報酬モデルを考える。 同時に同じ腕を選択するエージェントが報酬を受け取らないような、制約付きの報酬モデルも検討する。 各アームの平均報酬を協調的に推定するための動的コンセンサスに基づく分散推定アルゴリズムを設計した。 我々は,このアルゴリズムによる推定を活用し,coop-ucb2とcoop-ucb2-selective-learningの2つの分散アルゴリズムを開発した。 両アルゴリズムが集中型核融合センターの性能に近いグループ性能を達成することを示す。 さらに,通信グラフ構造が性能に与える影響についても検討する。 本稿では,コミュニケーショングラフを用いてグループ間の相対的なパフォーマンスを予測する新しいグラフ探索探索指数を提案し,コミュニケーショングラフ内のエージェント位置からエージェント間の相対的なパフォーマンスを予測する新しいノード探索探索探索探索中心性指数を提案する。

We study a distributed decision-making problem in which multiple agents face the same multi-armed bandit (MAB), and each agent makes sequential choices among arms to maximize its own individual reward. The agents cooperate by sharing their estimates over a fixed communication graph. We consider an unconstrained reward model in which two or more agents can choose the same arm and collect independent rewards. And we consider a constrained reward model in which agents that choose the same arm at the same time receive no reward. We design a dynamic, consensus-based, distributed estimation algorithm for cooperative estimation of mean rewards at each arm. We leverage the estimates from this algorithm to develop two distributed algorithms: coop-UCB2 and coop-UCB2-selective-learning, for the unconstrained and constrained reward models, respectively. We show that both algorithms achieve group performance close to the performance of a centralized fusion center. Further, we investigate the influence of the communication graph structure on performance. We propose a novel graph explore-exploit index that predicts the relative performance of groups in terms of the communication graph, and we propose a novel nodal explore-exploit centrality index that predicts the relative performance of agents in terms of the agent locations in the communication graph.
翻訳日:2022-12-26 22:25:51 公開日:2020-08-11
# グラフ上の信号のサンプリング:理論から応用まで

Sampling Signals on Graphs: From Theory to Applications ( http://arxiv.org/abs/2003.03957v4 )

ライセンス: Link先を確認
Yuichi Tanaka, Yonina C. Eldar, Antonio Ortega, and Gene Cheung(参考訳) グラフ上のサンプリング信号の研究は、時間と空間領域における標準信号のサンプリングのアナログを構築することを目的としており、近年注目されている。 グラフ信号処理(gsp)の増大する理論に加え、グラフのサンプリングには様々な有望な応用がある。 本稿では,理論と潜在的応用に注目したグラフのサンプリングに関する最近の進歩を概観する。 グラフ信号サンプリングにおけるほとんどの手法は標準信号のサンプリングに使用される手法と平行に設計されているが、グラフ信号のサンプリング理論はシャノン-ニキスト理論とシフト不変サンプリング理論とは大きく異なる。 これは、シフト不変性や帯域制限性といったいくつかの重要な性質の定義がgspシステムでは異なるという事実による。 本稿では,標準信号とグラフ信号の類似点と相違点について検討し,オープン問題と課題を強調する。

The study of sampling signals on graphs, with the goal of building an analog of sampling for standard signals in the time and spatial domains, has attracted considerable attention recently. Beyond adding to the growing theory on graph signal processing (GSP), sampling on graphs has various promising applications. In this article, we review current progress on sampling over graphs focusing on theory and potential applications. Although most methodologies used in graph signal sampling are designed to parallel those used in sampling for standard signals, sampling theory for graph signals significantly differs from the theory of Shannon--Nyquist and shift-invariant sampling. This is due in part to the fact that the definitions of several important properties, such as shift invariance and bandlimitedness, are different in GSP systems. Throughout this review, we discuss similarities and differences between standard and graph signal sampling and highlight open problems and challenges.
翻訳日:2022-12-25 09:28:12 公開日:2020-08-11
# 台風強度予測のための意味に基づくエンドツーエンド学習

Semantic-based End-to-End Learning for Typhoon Intensity Prediction ( http://arxiv.org/abs/2003.13779v2 )

ライセンス: Link先を確認
Hamada M. Zahera and Mohamed Ahmed Sherif, and Axel Ngonga(参考訳) 災害予知は,災害監視と防災への最重要課題の一つである。 既存の技術では、過去の環境データから来る災害を予測するために、さまざまな機械学習アプローチを採用している。 しかし、短期的な災害(地震など)の場合、歴史的データだけでは予測能力は限られている。 したがって、正確な予測には追加の警告源が必要である。 我々は,ソーシャルメディアを,歴史的環境データに加えて,知識の補助的な源と捉えている。 しかし、ソーシャルメディアの投稿(例えば、つぶやき)は非常に非公式であり、限られたコンテンツしか含まない。 そこで,これらの制約を緩和するために,ツイート中のエンティティを表す意味的エンリッチな単語埋め込みモデルと,従来のword2vecで計算された意味的表現の組み合わせを提案する。 さらに、ソーシャルメディア投稿と台風(インテンシティとも呼ばれる)の相関関係について、ツイートの量と感情の観点から検討した。 これらの知見に基づいて,災害関連つぶやきや環境データから学習し,台風の震度予測を改善するためのエンドツーエンドフレームワークを提案する。 本論文は,K-CAP 2019 [32]で最初に発表された論文の拡張である。 この論文を拡張して,最先端のディープニューラルモデルによる枠組みを構築し,新たな台風と最新のツイートによるデータセットを改良し,災害予測における最近のベースラインに対するアプローチをベンチマークした。 実験結果から,本手法はf1-scoreと (cnn by12.1%, bilstm bilstm by3.1%) による前実験と比較して精度が向上した。

Disaster prediction is one of the most critical tasks towards disaster surveillance and preparedness. Existing technologies employ different machine learning approaches to predict incoming disasters from historical environmental data. However, for short-term disasters (e.g., earthquakes), historical data alone has a limited prediction capability. Therefore, additional sources of warnings are required for accurate prediction. We consider social media as a supplementary source of knowledge in addition to historical environmental data. However, social media posts (e.g., tweets) is very informal and contains only limited content. To alleviate these limitations, we propose the combination of semantically-enriched word embedding models to represent entities in tweets with their semantic representations computed with the traditionalword2vec. Moreover, we study how the correlation between social media posts and typhoons magnitudes (also called intensities)-in terms of volume and sentiments of tweets-. Based on these insights, we propose an end-to-end based framework that learns from disaster-related tweets and environmental data to improve typhoon intensity prediction. This paper is an extension of our work originally published in K-CAP 2019 [32]. We extended this paper by building our framework with state-of-the-art deep neural models, up-dated our dataset with new typhoons and their tweets to-date and benchmark our approach against recent baselines in disaster prediction. Our experimental results show that our approach outperforms the accuracy of the state-of-the-art baselines in terms of F1-score with (CNN by12.1%and BiLSTM by3.1%) improvement compared with last experiments
翻訳日:2022-12-21 05:06:57 公開日:2020-08-11
# 構造化知識伝達による効率的な集団カウント

Efficient Crowd Counting via Structured Knowledge Transfer ( http://arxiv.org/abs/2003.10120v3 )

ライセンス: Link先を確認
Lingbo Liu, Jiaqi Chen, Hefeng Wu, Tianshui Chen, Guanbin Li, Liang Lin(参考訳) クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。 しかしながら、以前のほとんどの作業はヘビーバックボーンネットワークに依存しており、実行時の消費を制限し、デプロイメントのスコープを厳しく制限し、スケーラビリティを損なうことになる。 そこで我々は,これらの群集カウントモデルを解放するために,教師ネットワークの構造的知識をフル活用して,軽量かつ高効率な学生ネットワークを生成する,構造化知識伝達(Structured Knowledge Transfer, SKT)フレームワークを提案する。 Specifically, it is integrated with two complementary transfer modules, including an Intra-Layer Pattern Transfer which sequentially distills the knowledge embedded in layer-wise features of the teacher network to guide feature learning of the student network and an Inter-Layer Relation Transfer which densely distills the cross-layer correlation knowledge of the teacher to regularize the student's feature evolutio Consequently, our student network can derive the layer-wise and cross-layer knowledge from the teacher network to learn compact yet effective features. 3つのベンチマークの大規模な評価は、広範囲な群集カウントモデルに対するSKTの有効性をよく示している。 特に、オリジナルのモデルのパラメータと計算コストの約6\%$のみを使用して、蒸留vggベースのモデルは、nvidia 1080 gpu上で少なくとも6.5$\times$のスピードアップを得て、最先端のパフォーマンスを実現しています。 私たちのコードとモデルは {\url{https://github.com/HCPLab-SYSU/SKT}}で利用可能です。

Crowd counting is an application-oriented task and its inference efficiency is crucial for real-world applications. However, most previous works relied on heavy backbone networks and required prohibitive run-time consumption, which would seriously restrict their deployment scopes and cause poor scalability. To liberate these crowd counting models, we propose a novel Structured Knowledge Transfer (SKT) framework, which fully exploits the structured knowledge of a well-trained teacher network to generate a lightweight but still highly effective student network. Specifically, it is integrated with two complementary transfer modules, including an Intra-Layer Pattern Transfer which sequentially distills the knowledge embedded in layer-wise features of the teacher network to guide feature learning of the student network and an Inter-Layer Relation Transfer which densely distills the cross-layer correlation knowledge of the teacher to regularize the student's feature evolutio Consequently, our student network can derive the layer-wise and cross-layer knowledge from the teacher network to learn compact yet effective features. Extensive evaluations on three benchmarks well demonstrate the effectiveness of our SKT for extensive crowd counting models. In particular, only using around $6\%$ of the parameters and computation cost of original models, our distilled VGG-based models obtain at least 6.5$\times$ speed-up on an Nvidia 1080 GPU and even achieve state-of-the-art performance. Our code and models are available at {\url{https://github.com/HCPLab-SYSU/SKT}}.
翻訳日:2022-12-21 00:17:14 公開日:2020-08-11
# EikoNet: ディープニューラルネットワークによるアイコン方程式の解法

EikoNet: Solving the Eikonal equation with Deep Neural Networks ( http://arxiv.org/abs/2004.00361v3 )

ライセンス: Link先を確認
Jonathan D. Smith, Kamyar Azizzadenesheli and Zachary E. Ross(参考訳) 最近のディープラーニング革命は、物理ベースのシミュレーションの文脈で計算能力を加速する巨大な機会を生み出した。 本稿では,等質な3次元速度構造における最初の時間場を特徴付ける,Ekonal方程式の深層学習手法であるEikoNetを提案する。 我々のグリッドフリーアプローチは連続した3次元領域内の任意の2点間の移動時間を素早く決定できる。 これらの旅行時間解は微分方程式(最適化の1つ)に違反することを許されており、方程式が違反する程度を最小化するネットワークパラメータを見つけることを目的としている。 この方法では、ニューラルネットワークの微分可能性を利用して空間勾配を解析的に計算する。つまり、ネットワークは有限差分アルゴリズムの解を必要とせずに、単独で訓練することができる。 EikoNetは、堅牢性と汎用性を示すために、いくつかの速度モデルとサンプリングメソッドで厳格にテストされている。 トレーニングと推論は高度に並列化されており、アプローチはGPUに適している。 EikoNetはメモリオーバーヘッドが低く、旅行時のルックアップテーブルを必要としない。 発達したアプローチは,地震震源のインバージョン,レイマルチパス,トモグラフィモデリング,およびレイトレーシングが不可欠である地震学以外の分野にも重要な応用を行っている。

The recent deep learning revolution has created an enormous opportunity for accelerating compute capabilities in the context of physics-based simulations. Here, we propose EikoNet, a deep learning approach to solving the Eikonal equation, which characterizes the first-arrival-time field in heterogeneous 3D velocity structures. Our grid-free approach allows for rapid determination of the travel time between any two points within a continuous 3D domain. These travel time solutions are allowed to violate the differential equation - which casts the problem as one of optimization - with the goal of finding network parameters that minimize the degree to which the equation is violated. In doing so, the method exploits the differentiability of neural networks to calculate the spatial gradients analytically, meaning the network can be trained on its own without ever needing solutions from a finite difference algorithm. EikoNet is rigorously tested on several velocity models and sampling methods to demonstrate robustness and versatility. Training and inference are highly parallelized, making the approach well-suited for GPUs. EikoNet has low memory overhead, and further avoids the need for travel-time lookup tables. The developed approach has important applications to earthquake hypocenter inversion, ray multi-pathing, and tomographic modeling, as well as to other fields beyond seismology where ray tracing is essential.
翻訳日:2022-12-20 03:13:47 公開日:2020-08-11
# デュアルマルチラベル予測による適応物体検出

Adaptive Object Detection with Dual Multi-Label Prediction ( http://arxiv.org/abs/2003.12943v2 )

ライセンス: Link先を確認
Zhen Zhao, Yuhong Guo, Haifeng Shen, Jieping Ye(参考訳) 本稿では,複数ラベルオブジェクト認識を2つの補助タスクとして活用することにより,適応オブジェクト検出のためのエンドツーエンドの非教師付き深部ドメイン適応モデルを提案する。 このモデルはマルチラベル予測を利用して各画像のオブジェクトカテゴリ情報を明らかにし、その予測結果を用いて条件付き逆大域的特徴のアライメントを行い、画像特徴のマルチモーダル構造に取り組み、特徴の識別性を保ちながら、大域的特徴レベルでの領域の多様性を橋渡しする。 さらに,複数ラベル予測結果を補助正規化情報として用い,物体認識タスクと物体検出タスクとの一貫した物体カテゴリ発見を保証する,物体検出を支援する予測一貫性正規化機構を提案する。 いくつかのベンチマークデータセットで実験を行い、提案したモデルが最先端比較法より優れていることを示す。

In this paper, we propose a novel end-to-end unsupervised deep domain adaptation model for adaptive object detection by exploiting multi-label object recognition as a dual auxiliary task. The model exploits multi-label prediction to reveal the object category information in each image and then uses the prediction results to perform conditional adversarial global feature alignment, such that the multi-modal structure of image features can be tackled to bridge the domain divergence at the global feature level while preserving the discriminability of the features. Moreover, we introduce a prediction consistency regularization mechanism to assist object detection, which uses the multi-label prediction results as an auxiliary regularization information to ensure consistent object category discoveries between the object recognition task and the object detection task. Experiments are conducted on a few benchmark datasets and the results show the proposed model outperforms the state-of-the-art comparison methods.
翻訳日:2022-12-18 13:31:31 公開日:2020-08-11
# 不平衡長ペアを用いた短発話話者認識のためのメタラーニング

Meta-Learning for Short Utterance Speaker Recognition with Imbalance Length Pairs ( http://arxiv.org/abs/2004.02863v5 )

ライセンス: Link先を確認
Seong Min Kye, Youngmoon Jung, Hae Beom Lee, Sung Ju Hwang, Hoirin Kim(参考訳) 実践的な設定では、話者認識システムは短い発話の話者を識別する必要があるが、登録発話は比較的長い場合もある。 しかし、既存の話者認識モデルはそのような短い発話では不十分である。 この問題を解決するために,不均衡長ペアのためのメタラーニングフレームワークを提案する。 具体的には、プロトタイプネットワークを使用して、長い発話と様々な長さの短い発話のクエリセットからなるサポートセットでトレーニングする。 さらに、各エピソードのクラスのみを最適化することは、未確認のクラスに対する識別的埋め込みを学習するには不十分である可能性があるため、トレーニングセット内のクラス全体に対するサポートとクエリセットの両方を分類するために、モデルをさらに強制する。 これら2つの学習スキームを組み合わせることで,voxcelebデータセットの短い発話(1-2秒)に関する標準教師付き学習フレームワークで学習した,既存の最先端話者検証モデルよりも優れる。 また,提案した話者識別モデルの有効性を検証し,既存手法よりも高い性能向上を実現した。 コードはhttps://github.com/seongmin-kye/meta-srで入手できる。

In practical settings, a speaker recognition system needs to identify a speaker given a short utterance, while the enrollment utterance may be relatively long. However, existing speaker recognition models perform poorly with such short utterances. To solve this problem, we introduce a meta-learning framework for imbalance length pairs. Specifically, we use a Prototypical Networks and train it with a support set of long utterances and a query set of short utterances of varying lengths. Further, since optimizing only for the classes in the given episode may be insufficient for learning discriminative embeddings for unseen classes, we additionally enforce the model to classify both the support and the query set against the entire set of classes in the training set. By combining these two learning schemes, our model outperforms existing state-of-the-art speaker verification models learned with a standard supervised learning framework on short utterance (1-2 seconds) on the VoxCeleb datasets. We also validate our proposed model for unseen speaker identification, on which it also achieves significant performance gains over the existing approaches. The codes are available at https://github.com/seongmin-kye/meta-SR.
翻訳日:2022-12-16 06:09:57 公開日:2020-08-11
# 交互最小化による線形回帰の超線形化

Alternating Minimization Converges Super-Linearly for Mixed Linear Regression ( http://arxiv.org/abs/2004.10914v2 )

ライセンス: Link先を確認
Avishek Ghosh, Kannan Ramchandran(参考訳) 我々は混合ランダム線形方程式の解法について論じる。 我々は、複数の線形回帰から得られるラベルなしの観測を行い、それぞれの観測は回帰モデルのちょうど1つに対応する。 目標は、観測から線形回帰器を学習することである。 古典的には、この問題を解決するために Alternating Minimization (AM) (期待最小化 (EM) の変種である) が用いられる。 AMはラベルの推定と回帰問題を推定ラベルで繰り返し交互に解く。 実験的に、混合線形回帰を含む様々な非凸問題に対して、AMは勾配に基づくアルゴリズムよりもはるかに高速な速度で収束することが観察された。 しかし、既存の理論は、am法と勾配法で同様の収束率を示しており、この経験的振る舞いを捉えられなかった。 本稿では,2ドルの線形回帰の混合の特別な場合に対する理論と実践のギャップを閉じる。 初期化が適切に行われると、am は特定のパラメータレジームにおける収束率 \emph{super-linear} を享受できる。 私たちの知る限りでは、これは理論上 am に対してそのような速度を確立する最初の仕事です。 したがって、未知の回帰器を$\epsilon$のエラー($\ell_2$ norm)まで回復したい場合、AMは$\mathcal{O}(\log \log (1/\epsilon))$イテレーションのみを取る。 さらに、AMと勾配に基づくヒューリスティックアルゴリズムを経験的に比較し、AMが繰り返しの複雑さと壁時計時間で支配的であることを示す。

We address the problem of solving mixed random linear equations. We have unlabeled observations coming from multiple linear regressions, and each observation corresponds to exactly one of the regression models. The goal is to learn the linear regressors from the observations. Classically, Alternating Minimization (AM) (which is a variant of Expectation Maximization (EM)) is used to solve this problem. AM iteratively alternates between the estimation of labels and solving the regression problems with the estimated labels. Empirically, it is observed that, for a large variety of non-convex problems including mixed linear regression, AM converges at a much faster rate compared to gradient based algorithms. However, the existing theory suggests similar rate of convergence for AM and gradient based methods, failing to capture this empirical behavior. In this paper, we close this gap between theory and practice for the special case of a mixture of $2$ linear regressions. We show that, provided initialized properly, AM enjoys a \emph{super-linear} rate of convergence in certain parameter regimes. To the best of our knowledge, this is the first work that theoretically establishes such rate for AM. Hence, if we want to recover the unknown regressors upto an error (in $\ell_2$ norm) of $\epsilon$, AM only takes $\mathcal{O}(\log \log (1/\epsilon))$ iterations. Furthermore, we compare AM with a gradient based heuristic algorithm empirically and show that AM dominates in iteration complexity as well as wall-clock time.
翻訳日:2022-12-10 09:02:37 公開日:2020-08-11
# 立方体空間前置によるニューラルシンボリック記述計画モデルの学習--ボイジャーホーム(ストリップ)

Learning Neural-Symbolic Descriptive Planning Models via Cube-Space Priors: The Voyage Home (to STRIPS) ( http://arxiv.org/abs/2004.12850v3 )

ライセンス: Link先を確認
Masataro Asai and Christian Muise(参考訳) エージェントが自律的に環境について学習できるようにするという困難なタスクにおいて、新たなマイルストーンを達成しました。 私たちのニューロシンボリックアーキテクチャは、画像のみから簡潔で効果的な離散状態遷移モデルを作成するためにエンドツーエンドで訓練されています。 当社のターゲット表現(計画ドメイン定義言語)は,既定のソルバが利用可能な形式であり,現代的なヒューリスティック検索機能の豊富な配列への扉を開くものです。 学習過程に前置する洗練された自然言語は学習表現の複雑さを著しく減少させ、「キューブ的グラフ」のグラフ理論的な概念とのつながりを明らかにし、学習記号表現の理想的性質のより深い理解への扉を開く。 強力なドメイン非依存ヒューリスティックは,視覚障害者探索の到達範囲を超えている視覚15-puzzleインスタンスを,ドメイン依存報酬情報に対する膨大なトレーニングを必要とする強化学習アプローチに頼らずに解決できることを示す。

We achieved a new milestone in the difficult task of enabling agents to learn about their environment autonomously. Our neuro-symbolic architecture is trained end-to-end to produce a succinct and effective discrete state transition model from images alone. Our target representation (the Planning Domain Definition Language) is already in a form that off-the-shelf solvers can consume, and opens the door to the rich array of modern heuristic search capabilities. We demonstrate how the sophisticated innate prior we place on the learning process significantly reduces the complexity of the learned representation, and reveals a connection to the graph-theoretic notion of "cube-like graphs", thus opening the door to a deeper understanding of the ideal properties for learned symbolic representations. We show that the powerful domain-independent heuristics allow our system to solve visual 15-Puzzle instances which are beyond the reach of blind search, without resorting to the Reinforcement Learning approach that requires a huge amount of training on the domain-dependent reward information.
翻訳日:2022-12-09 04:26:59 公開日:2020-08-11
# VoicePrivacy Initiativeの紹介

Introducing the VoicePrivacy Initiative ( http://arxiv.org/abs/2005.01387v3 )

ライセンス: Link先を確認
Natalia Tomashenko, Brij Mohan Lal Srivastava, Xin Wang, Emmanuel Vincent, Andreas Nautsch, Junichi Yamagishi, Nicholas Evans, Jose Patino, Jean-Fran\c{c}ois Bonastre, Paul-Gauthier No\'e, Massimiliano Todisco(参考訳) VoicePrivacyイニシアチブは、興味のあるタスクと評価方法論を定義するために新しいコミュニティを集め、一連の課題を通じてソリューションをベンチマークすることで、音声技術のプライバシ保護ツールの開発を促進することを目的としている。 本稿では,VoicePrivacy 2020 Challengeで選択された音声匿名化タスクを定式化し,システム開発と評価に使用するデータセットについて述べる。 また,攻撃モデルと関連する客観的・主観的評価指標を提示する。 本稿では,2つの匿名化ベースラインと客観的評価結果を紹介する。

The VoicePrivacy initiative aims to promote the development of privacy preservation tools for speech technology by gathering a new community to define the tasks of interest and the evaluation methodology, and benchmarking solutions through a series of challenges. In this paper, we formulate the voice anonymization task selected for the VoicePrivacy 2020 Challenge and describe the datasets used for system development and evaluation. We also present the attack models and the associated objective and subjective evaluation metrics. We introduce two anonymization baselines and report objective evaluation results.
翻訳日:2022-12-07 00:46:31 公開日:2020-08-11
# オーディオ・ビジュアル・キュースの使い勝手:バイモーダル・トランスを用いた高精細ビデオ・キャプション

A Better Use of Audio-Visual Cues: Dense Video Captioning with Bi-modal Transformer ( http://arxiv.org/abs/2005.08271v2 )

ライセンス: Link先を確認
Vladimir Iashin and Esa Rahtu(参考訳) 濃密なビデオキャプションは、未撮影の動画で重要なイベントをローカライズし、記述することを目的としている。 既存の手法は主に視覚的特徴のみを活用しながら、音声トラックを完全に無視することでこの課題に対処する。 両方のモダリティを利用したのはほんの少し前の作業だが、結果が悪かったり、特定のドメインを持つデータセットの重要性を示したりしている。 本稿では,バイモーダル入力のためのトランスフォーマーアーキテクチャを一般化したバイモーダル変換器を提案する。 提案手法は,映像キャプションタスクにおける音声と視覚のモダリティを有するモデルの有効性を示すが,このモジュールはシーケンシャル・トゥ・シーケンスタスクにおいて任意の2つのモダリティを消化することができる。 また,バイモーダル変換器の一部として事前学習したバイモーダルエンコーダを,単純な提案生成モジュールの機能抽出器として使用できることを示す。 この性能は、我々のモデルが優れたパフォーマンスを達成するための挑戦的なActivityNet Captionsデータセットで実証されます。 コードはv-iashin.github.io/bmt

Dense video captioning aims to localize and describe important events in untrimmed videos. Existing methods mainly tackle this task by exploiting only visual features, while completely neglecting the audio track. Only a few prior works have utilized both modalities, yet they show poor results or demonstrate the importance on a dataset with a specific domain. In this paper, we introduce Bi-modal Transformer which generalizes the Transformer architecture for a bi-modal input. We show the effectiveness of the proposed model with audio and visual modalities on the dense video captioning task, yet the module is capable of digesting any two modalities in a sequence-to-sequence task. We also show that the pre-trained bi-modal encoder as a part of the bi-modal transformer can be used as a feature extractor for a simple proposal generation module. The performance is demonstrated on a challenging ActivityNet Captions dataset where our model achieves outstanding performance. The code is available: v-iashin.github.io/bmt
翻訳日:2022-12-02 05:07:04 公開日:2020-08-11
# 残留深層畳み込みニューラルネットワークを用いた麻疹ラシュ同定

Measles Rash Identification Using Residual Deep Convolutional Neural Network ( http://arxiv.org/abs/2005.09112v4 )

ライセンス: Link先を確認
Kimberly Glock, Charlie Napier, Andre Louie, Todd Gary, Joseph Gigante, William Schaffner, Qingguo Wang(参考訳) 麻疹は非常に伝染性が高く、発展途上国でワクチン予防可能な病気や死亡の原因の1つであり、毎年10万人以上の命を奪っている。 アメリカでは2000年に麻疹の予防接種が何十年にもわたって成功し、麻疹は排除された。 その結果、米国の医療専門家や一般市民がこの病気を見たことはない。 残念ながら、麻疹は2019年に米国で1282件確認されたケースで復活した。 麻疹の診断を支援するため,様々な皮膚疾患の画像1300枚以上を収集し,他の皮膚疾患との鑑別に残留深部畳み込みニューラルネットワークを用いて,将来的な携帯電話の応用を目指して検討した。 画像データセットでは、分類精度95.2%、感度81.7%、特異度97.1%に達し、麻疹の発生を正確に検出する上で有効であることを示す。

Measles is extremely contagious and is one of the leading causes of vaccine-preventable illness and death in developing countries, claiming more than 100,000 lives each year. Measles was declared eliminated in the US in 2000 due to decades of successful vaccination for the measles. As a result, an increasing number of US healthcare professionals and the public have never seen the disease. Unfortunately, the Measles resurged in the US in 2019 with 1,282 confirmed cases. To assist in diagnosing measles, we collected more than 1300 images of a variety of skin conditions, with which we employed residual deep convolutional neural network to distinguish measles rash from other skin conditions, in an aim to create a phone application in the future. On our image dataset, our model reaches a classification accuracy of 95.2%, sensitivity of 81.7%, and specificity of 97.1%, indicating the model is effective in facilitating an accurate detection of measles to help contain measles outbreaks.
翻訳日:2022-12-02 00:50:01 公開日:2020-08-11
# 大規模音声認識のためのトランスフォーマーの検討

Exploring Transformers for Large-Scale Speech Recognition ( http://arxiv.org/abs/2005.09684v2 )

ライセンス: Link先を確認
Liang Lu, Changliang Liu, Jinyu Li and Yifan Gong(参考訳) リカレントニューラルネットワークは依然として最先端の音声認識システムを定義しているが、Transformerネットワークは特にオフライン環境では競争力のある代替手段であることが証明されている。 トランスフォーマーを用いたほとんどの研究は比較的小規模な環境での制約を受けており、データ疎結合問題に対処するためには、いくつかの形式のデータ議論アプローチが適用されている。 本稿では,約65,000時間の訓練データを用いた大規模音声認識環境において,トランスフォーマーの動作を理解することを目的とする。 モデル初期化,ウォームアップトレーニング,レイヤ正規化戦略など,トランスフォーマーのスケールアップに関するさまざまな側面を検討した。 ストリーミング環境では,注目マスクを用いた将来のコンテキストルックアヘッドアプローチとTransformer-XLネットワークを比較した。 実験の結果,Transformer-XLは800ミリ秒の遅延制約でLC-BLSTMに匹敵するが,オフライン方式ではBLSTMベースラインに比べて約6%の単語誤り率(WER)の低減を実現可能であることがわかった。

While recurrent neural networks still largely define state-of-the-art speech recognition systems, the Transformer network has been proven to be a competitive alternative, especially in the offline condition. Most studies with Transformers have been constrained in a relatively small scale setting, and some forms of data argumentation approaches are usually applied to combat the data sparsity issue. In this paper, we aim at understanding the behaviors of Transformers in the large-scale speech recognition setting, where we have used around 65,000 hours of training data. We investigated various aspects on scaling up Transformers, including model initialization, warmup training as well as different Layer Normalization strategies. In the streaming condition, we compared the widely used attention mask based future context lookahead approach to the Transformer-XL network. From our experiments, we show that Transformers can achieve around 6% relative word error rate (WER) reduction compared to the BLSTM baseline in the offline fashion, while in the streaming fashion, Transformer-XL is comparable to LC-BLSTM with 800 millisecond latency constraint.
翻訳日:2022-12-01 14:24:24 公開日:2020-08-11
# 瞬時・統計的制約付きワイヤレスシステムの最適化のための教師なしディープラーニング

Unsupervised Deep Learning for Optimizing Wireless Systems with Instantaneous and Statistic Constraints ( http://arxiv.org/abs/2006.01641v2 )

ライセンス: Link先を確認
Chengjian Sun, Changyang She, Chenyang Yang(参考訳) 環境パラメータから最適化問題の解へのマッピングを近似することにより、ワイヤレスポリシを設計するためにディープニューラルネットワーク(dnn)が導入された。 ラベル付きトレーニングサンプルは入手が難しいため,近年,統計的制約のある関数最適化問題を解くために教師なしディープラーニングが提案されている。 しかし、無線通信における既存の問題のほとんどは変数最適化であり、多くの問題は瞬時に制約される。 本稿では,教師なし深層学習を用いて,瞬時および統計的制約をともなう2種類の問題を解決するための統一的な枠組みを確立する。 制約付き変数最適化では、まずすぐに制約のある等価な関数最適化問題に変換する。 そして,機能最適化問題の瞬時的制約を保証するために,DNNを用いてラグランジュ乗算関数を近似し,DNNと併用してポリシーを近似する。 超信頼性および低レイテンシ通信における2つのリソース割り当て問題を、フレームワークによる複雑で厳格なqos(quality-of-service)制約の保証方法の例に挙げる。 シミュレーションの結果,教師なし学習はQoS違反確率と最適ポリシーの近似精度で教師なし学習よりも優れており,事前学習と迅速に収束できることがわかった。

Deep neural networks (DNNs) have been introduced for designing wireless policies by approximating the mappings from environmental parameters to solutions of optimization problems. Considering that labeled training samples are hard to obtain, unsupervised deep learning has been proposed to solve functional optimization problems with statistical constraints recently. However, most existing problems in wireless communications are variable optimizations, and many problems are with instantaneous constraints. In this paper, we establish a unified framework of using unsupervised deep learning to solve both kinds of problems with both instantaneous and statistic constraints. For a constrained variable optimization, we first convert it into an equivalent functional optimization problem with instantaneous constraints. Then, to ensure the instantaneous constraints in the functional optimization problems, we use DNN to approximate the Lagrange multiplier functions, which is trained together with a DNN to approximate the policy. We take two resource allocation problems in ultra-reliable and low-latency communications as examples to illustrate how to guarantee the complex and stringent quality-of-service (QoS) constraints with the framework. Simulation results show that unsupervised learning outperforms supervised learning in terms of QoS violation probability and approximation accuracy of the optimal policy, and can converge rapidly with pre-training.
翻訳日:2022-11-26 18:16:28 公開日:2020-08-11
# 中間観測による非定常遅延帯域

Non-Stationary Delayed Bandits with Intermediate Observations ( http://arxiv.org/abs/2006.02119v2 )

ライセンス: Link先を確認
Claire Vernade, Andras Gyorgy, and Timothy Mann(参考訳) オンラインレコメンデータシステムは、特に長期的なメトリクスを最適化する場合、フィードバックを受け取るのに長い遅延に直面します。 学習における遅延の影響を緩和することは定常環境ではよく理解されているが、環境が変化すると問題はさらに難しくなる。 実際、変更のタイムスケールが遅延と同等であれば、利用可能な観測はすでに時代遅れであるため、環境について学ぶことは不可能である。 しかし、中間信号が遅延なく利用可能である場合、システムの長期動作が定常であるような問題に対処することができる。 この状況をモデル化するために,中間観測による確率的,非定常的,遅延的バンディットの問題を紹介する。 UCRLに基づく計算効率の良いアルゴリズムを開発し,その性能に対するサブ線形後悔保証を証明した。 実験の結果,既存手法が故障した非定常遅延環境で学習できることが判明した。

Online recommender systems often face long delays in receiving feedback, especially when optimizing for some long-term metrics. While mitigating the effects of delays in learning is well-understood in stationary environments, the problem becomes much more challenging when the environment changes. In fact, if the timescale of the change is comparable to the delay, it is impossible to learn about the environment, since the available observations are already obsolete. However, the arising issues can be addressed if intermediate signals are available without delay, such that given those signals, the long-term behavior of the system is stationary. To model this situation, we introduce the problem of stochastic, non-stationary, delayed bandits with intermediate observations. We develop a computationally efficient algorithm based on UCRL, and prove sublinear regret guarantees for its performance. Experimental results demonstrate that our method is able to learn in non-stationary delayed environments where existing methods fail.
翻訳日:2022-11-25 17:29:23 公開日:2020-08-11
# 遠隔学習と領域検証による胸部疾患の同定と位置同定

Thoracic Disease Identification and Localization using Distance Learning and Region Verification ( http://arxiv.org/abs/2006.04203v2 )

ライセンス: Link先を確認
Cheng Zhang, Francine Chen, Yan-Ying Chen(参考訳) 近年,深層学習モデルを用いた医用画像中の疾患の同定と局在化が注目されている。 既存の手法では、各画像でネットワークを個別にトレーニングすることのみを考慮し、最も多くが疾患のローカライズにアクティベーションマップを利用する。 本稿では,画像三重項と巡回列車の領域特徴の識別的特徴を学習し,注意領域に疾患を示す情報が含まれているかどうかを検証する方法を提案する。 具体的には,マルチラベル疾患分類のための遠隔学習フレームワークを用いて,微妙な疾患の特徴を識別する。 さらに,学習中に予測されたクラス固有領域の特徴を別個の分類器にフィードバックし,局所性疾患をよりよく検証する。 本モデルは,胸部x線14データセット上で最先端の分類性能を実現することができ,また,遠隔学習と領域検証の両方が全体的な分類性能に寄与することを示す。 さらに、距離学習および領域検証モジュールは、これらのモジュールなしでは、ベースラインモデルよりも適切なローカライゼーションのための必須情報を取得することができる。

The identification and localization of diseases in medical images using deep learning models have recently attracted significant interest. Existing methods only consider training the networks with each image independently and most leverage an activation map for disease localization. In this paper, we propose an alternative approach that learns discriminative features among triplets of images and cyclically trains on region features to verify whether attentive regions contain information indicative of a disease. Concretely, we adapt a distance learning framework for multi-label disease classification to differentiate subtle disease features. Additionally, we feed back the features of the predicted class-specific regions to a separate classifier during training to better verify the localized diseases. Our model can achieve state-of-the-art classification performance on the challenging ChestX-ray14 dataset, and our ablation studies indicate that both distance learning and region verification contribute to overall classification performance. Moreover, the distance learning and region verification modules can capture essential information for better localization than baseline models without these modules.
翻訳日:2022-11-24 08:23:15 公開日:2020-08-11
# Little Ball of Fur: グラフサンプリングのためのPythonライブラリ

Little Ball of Fur: A Python Library for Graph Sampling ( http://arxiv.org/abs/2006.04311v2 )

ライセンス: Link先を確認
Benedek Rozemberczki, Oliver Kiss, Rik Sarkar(参考訳) サンプリンググラフはデータマイニングにおいて重要なタスクである。 本稿では,20以上のグラフサンプリングアルゴリズムを含むPythonライブラリであるLittle Ball of Furについて述べる。 我々のゴールは、ノード、エッジ、探索に基づくネットワークサンプリング技術が、多くの専門家、研究者、学生に単一の合理化フレームワークでアクセスできるようにすることです。 私たちは、便利な設計、汎用的な入力データ要求、アルゴリズムの合理的なベースライン設定を備えたコヒーレントなアプリケーション公開インターフェースにフォーカスして、このフレームワークを作成しました。 ここでは、これらのフレームワークの設計基盤を、図示的なコードスニペットで詳細に概説する。 ソーシャルネットワークやウェブグラフのグローバルな統計を推定することにより,図書館の実用性を示す。 実験により、小さな毛皮の玉は、蒸留された特徴の予測値を緩やかに低下させることで、ノードとグラフの埋め込み技術をかなり高速化できることが示されている。

Sampling graphs is an important task in data mining. In this paper, we describe Little Ball of Fur a Python library that includes more than twenty graph sampling algorithms. Our goal is to make node, edge, and exploration-based network sampling techniques accessible to a large number of professionals, researchers, and students in a single streamlined framework. We created this framework with a focus on a coherent application public interface which has a convenient design, generic input data requirements, and reasonable baseline settings of algorithms. Here we overview these design foundations of the framework in detail with illustrative code snippets. We show the practical usability of the library by estimating various global statistics of social networks and web graphs. Experiments demonstrate that Little Ball of Fur can speed up node and whole graph embedding techniques considerably with mildly deteriorating the predictive value of distilled features.
翻訳日:2022-11-24 02:37:29 公開日:2020-08-11
# 一般化されたスケーラブルな最適スパース決定木

Generalized and Scalable Optimal Sparse Decision Trees ( http://arxiv.org/abs/2006.08690v3 )

ライセンス: Link先を確認
Jimmy Lin, Chudi Zhong, Diane Hu, Cynthia Rudin, Margo Seltzer(参考訳) 決定木最適化は計算の観点からは難しいが、解釈可能な機械学習の分野には不可欠である。 過去40年にわたる努力にもかかわらず、実用的なアルゴリズムが最適な決定木を見つけることができる最適化のブレークスルーは、最近しか行われていない。 これらの新しい技術はパラダイムシフトを起こす可能性があり、疎い決定木を構築して、しばしば最適でない解につながる欲張りな分割や散逸するヒューリスティックに依存することなく、様々な目的関数を効率的に最適化することができる。 この研究の貢献は、この分野における2つの重要なオープン問題、すなわち不均衡なデータの処理と、連続変数に対する完全な最適化に対処する、意思決定ツリー最適化の一般的なフレームワークを提供することである。 本研究では, Fスコア, AUC, ROC凸船体下部分領域など, 様々な目的に対して最適な決定木を生成する手法を提案する。 また,連続変数の存在下で最適な結果を生成するスケーラブルなアルゴリズムを導入し,最先端技術と比較して決定木構築を数桁高速化する。

Decision tree optimization is notoriously difficult from a computational perspective but essential for the field of interpretable machine learning. Despite efforts over the past 40 years, only recently have optimization breakthroughs been made that have allowed practical algorithms to find optimal decision trees. These new techniques have the potential to trigger a paradigm shift where it is possible to construct sparse decision trees to efficiently optimize a variety of objective functions without relying on greedy splitting and pruning heuristics that often lead to suboptimal solutions. The contribution in this work is to provide a general framework for decision tree optimization that addresses the two significant open problems in the area: treatment of imbalanced data and fully optimizing over continuous variables. We present techniques that produce optimal decision trees over a variety of objectives including F-score, AUC, and partial area under the ROC convex hull. We also introduce a scalable algorithm that produces provably optimal results in the presence of continuous variables and speeds up decision tree construction by several orders of magnitude relative to the state-of-the art.
翻訳日:2022-11-21 03:24:49 公開日:2020-08-11
# ブーメランサンプリング機

The Boomerang Sampler ( http://arxiv.org/abs/2006.13777v2 )

ライセンス: Link先を確認
Joris Bierkens, Sebastiano Grazzi, Kengo Kamatani, Gareth Roberts(参考訳) 本稿では,連続時間非可逆マルコフ連鎖モンテカルロアルゴリズムの新しいクラスとしてboomerang samplerを提案する。 この方法論は、所定の(通常)ガウス測度に関して、ターゲット密度を密度として$e^{-U}$と表現し、片方向楕円経路からなる連続軌跡を構築することから始まる。 この方法は、1つの楕円軌道から、$U$で書くことができるレート関数に従って別の楕円軌道へと移動する。 提案手法は実装が容易であり,既存のベンチマーク決定論的マルコフプロセス,例えば弾力性粒子サンプリング器やZig-Zagよりも優れていることを示す。 ベイズ統計学の文脈では、これらの競合するアルゴリズムは、正確なデータサブサンプリング技術(定常分布に誤差は生じない)を適用できるという事実から、大きなデータコンテキストにかなりの関心を持っている。 理論上, 経験的にも, 制御変数のサブサンプリングであるboomerang samplerを構築できることを示し, 大規模データ制限において顕著なスケーリング特性を有することを示した。 さらに, 拡散橋のシミュレーションにおける因子化バージョンについて述べる。

This paper introduces the Boomerang Sampler as a novel class of continuous-time non-reversible Markov chain Monte Carlo algorithms. The methodology begins by representing the target density as a density, $e^{-U}$, with respect to a prescribed (usually) Gaussian measure and constructs a continuous trajectory consisting of a piecewise elliptical path. The method moves from one elliptical orbit to another according to a rate function which can be written in terms of $U$. We demonstrate that the method is easy to implement and demonstrate empirically that it can out-perform existing benchmark piecewise deterministic Markov processes such as the bouncy particle sampler and the Zig-Zag. In the Bayesian statistics context, these competitor algorithms are of substantial interest in the large data context due to the fact that they can adopt data subsampling techniques which are exact (ie induce no error in the stationary distribution). We demonstrate theoretically and empirically that we can also construct a control-variate subsampling boomerang sampler which is also exact, and which possesses remarkable scaling properties in the large data limit. We furthermore illustrate a factorised version on the simulation of diffusion bridges.
翻訳日:2022-11-17 13:25:46 公開日:2020-08-11
# gpu効率ネットワークのためのニューラルアーキテクチャ設計

Neural Architecture Design for GPU-Efficient Networks ( http://arxiv.org/abs/2006.14090v4 )

ライセンス: Link先を確認
Ming Lin, Hesen Chen, Xiuyu Sun, Qi Qian, Hao Li, Rong Jin(参考訳) 多くのミッションクリティカルシステムは推論のためのGPUに基づいている。 高い認識精度だけでなく、応答時間における低レイテンシも要求される。 多くの研究は、効率的な推論のためにディープモデルの構造を最適化することに専念しているが、そのほとんどは高速な推論のために \textbf{ Modern GPU} のアーキテクチャを利用せず、最適以下の性能をもたらす。 そこで本研究では,GPU効率のよいネットワークを設計するための一般的な原理を提案する。 この設計原理により、複雑な計算コストのかかるほとんどのneural architecture search (nas) メソッドとは対照的に、単純で軽量な方法で、gpu効率のよいネットワーク構造を効果的に探索することができる。 提案するフレームワークをベースとして,GPU効率の良いネットワーク群(genets)を簡潔に設計する。 複数のGPUプラットフォームと推論エンジンについて広範な評価を行った。 ImageNetで$\geq 81.3\%$ Top-1精度を達成する一方で、genetはGPUでEfficienNetよりも最大6.4$高速である。 また、高精度なレシエーションでは、EfficientNetよりも効率的である最先端のモデルよりも優れています。 我々のソースコードと事前訓練済みモデルは、 \url{https://github.com/idstcv/GPU-Efficient-Networks}から入手できる。

Many mission-critical systems are based on GPU for inference. It requires not only high recognition accuracy but also low latency in responding time. Although many studies are devoted to optimizing the structure of deep models for efficient inference, most of them do not leverage the architecture of \textbf{modern GPU} for fast inference, leading to suboptimal performance. To address this issue, we propose a general principle for designing GPU-efficient networks based on extensive empirical studies. This design principle enables us to search for GPU-efficient network structures effectively by a simple and lightweight method as opposed to most Neural Architecture Search (NAS) methods that are complicated and computationally expensive. Based on the proposed framework, we design a family of GPU-Efficient Networks, or GENets in short. We did extensive evaluations on multiple GPU platforms and inference engines. While achieving $\geq 81.3\%$ top-1 accuracy on ImageNet, GENet is up to $6.4$ times faster than EfficienNet on GPU. It also outperforms most state-of-the-art models that are more efficient than EfficientNet in high precision regimes. Our source code and pre-trained models are available from \url{https://github.com/idstcv/GPU-Efficient-Networks}.
翻訳日:2022-11-17 13:08:50 公開日:2020-08-11
# 物体姿勢推定のための学習方向分布

Learning Orientation Distributions for Object Pose Estimation ( http://arxiv.org/abs/2007.01418v2 )

ライセンス: Link先を確認
Brian Okorn, Mengyun Xu, Martial Hebert, David Held(参考訳) ロボットが現実世界で頑健に動くためには、その不確実性に気付くべきだ。 しかし、オブジェクトポーズ推定のためのほとんどの方法は、オブジェクトポーズの単一ポイント推定を返す。 本研究では,物体の向きの分布を推定する2つの学習手法を提案する。 提案手法は,ポーズ推定における不正確性とオブジェクト対称性の両方を考慮に入れている。 深層学習機能から等方性ビンガム分布へ回帰する最初の手法は,非対称物体の配向分布推定に最適な性能を与える。 第2の方法は深部特徴を比較することを学び,非パラメータヒストグラム分布を生成する。 この方法は未知の対称性を持つオブジェクトに対して最高の性能を与え、対称性のアノテーションを必要としない対称オブジェクトと非対称オブジェクトの両方を正確にモデル化する。 これらの手法はどちらも,既存のポーズ推定器の拡張に利用できることを示す。 提案手法を,様々な種類のオブジェクトに対して不確実性評価を行うための多数のベースライン手法と比較した。

For robots to operate robustly in the real world, they should be aware of their uncertainty. However, most methods for object pose estimation return a single point estimate of the object's pose. In this work, we propose two learned methods for estimating a distribution over an object's orientation. Our methods take into account both the inaccuracies in the pose estimation as well as the object symmetries. Our first method, which regresses from deep learned features to an isotropic Bingham distribution, gives the best performance for orientation distribution estimation for non-symmetric objects. Our second method learns to compare deep features and generates a non-parameteric histogram distribution. This method gives the best performance on objects with unknown symmetries, accurately modeling both symmetric and non-symmetric objects, without any requirement of symmetry annotation. We show that both of these methods can be used to augment an existing pose estimator. Our evaluation compares our methods to a large number of baseline approaches for uncertainty estimation across a variety of different types of objects.
翻訳日:2022-11-14 14:10:41 公開日:2020-08-11
# クロスモーダル教師学習によるエンドツーエンド音声理解のためのプレトレーニング付きセマンティック音声埋め込み

Pretrained Semantic Speech Embeddings for End-to-End Spoken Language Understanding via Cross-Modal Teacher-Student Learning ( http://arxiv.org/abs/2007.01836v2 )

ライセンス: Link先を確認
Pavel Denisov, Ngoc Thang Vu(参考訳) 音声言語理解は通常、音声認識や自然言語理解ステップを含むパイプラインアーキテクチャに基づいている。 これらのコンポーネントは、利用可能なデータの使用を可能にするために独立して最適化されるが、システム全体がエラー伝搬に苦しむ。 本稿では,事前学習した文脈埋め込みによる音響特性の処理を可能にする新しい学習手法を提案する。 特に、エンドツーエンドの音声言語理解システムを構築するために、事前訓練された音声認識システムのエンコーダで拡張する。 提案手法は,音響空間と意味潜在空間を協調する音声とテキストのモダリティにまたがる教師/学生の枠組みに基づく。 3つのベンチマークで実験した結果、トレーニングデータを使用しずにパイプラインアーキテクチャに匹敵する性能に到達し、3つのベンチマークのうち2つでクラス毎に10個のサンプルを微調整した後、性能が向上することがわかった。

Spoken language understanding is typically based on pipeline architectures including speech recognition and natural language understanding steps. These components are optimized independently to allow usage of available data, but the overall system suffers from error propagation. In this paper, we propose a novel training method that enables pretrained contextual embeddings to process acoustic features. In particular, we extend it with an encoder of pretrained speech recognition systems in order to construct end-to-end spoken language understanding systems. Our proposed method is based on the teacher-student framework across speech and text modalities that aligns the acoustic and the semantic latent spaces. Experimental results in three benchmarks show that our system reaches the performance comparable to the pipeline architecture without using any training data and outperforms it after fine-tuning with ten examples per class on two out of three benchmarks.
翻訳日:2022-11-14 04:52:33 公開日:2020-08-11
# 参加は機械学習の設計修正ではない

Participation is not a Design Fix for Machine Learning ( http://arxiv.org/abs/2007.02423v3 )

ライセンス: Link先を確認
Mona Sloane, Emanuel Moss, Olaitan Awomolo, Laura Forlano(参考訳) 本稿では,設計実践と機械学習の既存の参加形態を批判的に検討する。 参加洗浄」に対する注意として、mlコミュニティは、潜在的に搾取的かつ抽出的な形のコミュニティ関与に適応し、コンテキスト非依存のスケーラビリティの前提から脱却しなければならないことを示唆する。

This paper critically examines existing modes of participation in design practice and machine learning. Cautioning against 'participation-washing', it suggests that the ML community must become attuned to possibly exploitative and extractive forms of community involvement and shift away from the prerogatives of context-independent scalability.
翻訳日:2022-11-13 08:38:06 公開日:2020-08-11
# 人間-ロボット環境における対話型フィードバックによる深層強化学習

Deep Reinforcement Learning with Interactive Feedback in a Human-Robot Environment ( http://arxiv.org/abs/2007.03363v2 )

ライセンス: Link先を確認
Ithan Moreira, Javier Rivas, Francisco Cruz, Richard Dazeley, Angel Ayala, Bruno Fernandes(参考訳) ロボットは日常的に国内環境に存在感を広げており、家庭でタスクをこなすのを見るのが一般的だ。 将来的には、ロボットがより複雑なタスクを遂行し、さまざまなソースから可能な限り早く経験を得られるようになることが期待されている。 ここでは、トレーナーが学習プロセスのスピードアップのために、特定の状態からどのアクションを取るべきかを学習者にアドバイスする。 さらに,ロボット工学における深層強化学習は,環境の学習や新たなスキルの獲得に広く利用されている。 しかしながら、深層強化学習を使用する場合のオープン問題は、生の入力画像からタスクを学ぶのに必要な過大な時間である。 本研究では,人間とロボットのシナリオで国内課題を学ぶための対話型フィードバックを用いた深層強化学習手法を提案する。 シミュレーションロボットアームを用いた3つの異なる学習手法の比較を行い,提案手法について検討した。 (i)深層強化学習(DeepRL) (ii)予め訓練された人工エージェントをアドバイザー(agent-ideeprl)として用いた対話型深層強化学習 (iii)ヒューマンアドバイザ(human-ideeprl)を用いた対話型深層強化学習 インタラクティブなアプローチが学習プロセスにメリットをもたらすことを実証する。 その結果、学習エージェントは、エージェントIDeepRLまたはヒューマンIDeepRLを使用して、与えられたタスクを早期に完了し、自律的なDeepRLアプローチと比較して誤りが少ないことがわかった。

Robots are extending their presence in domestic environments every day, being more common to see them carrying out tasks in home scenarios. In the future, robots are expected to increasingly perform more complex tasks and, therefore, be able to acquire experience from different sources as quickly as possible. A plausible approach to address this issue is interactive feedback, where a trainer advises a learner on which actions should be taken from specific states to speed up the learning process. Moreover, deep reinforcement learning has been recently widely utilized in robotics to learn the environment and acquire new skills autonomously. However, an open issue when using deep reinforcement learning is the excessive time needed to learn a task from raw input images. In this work, we propose a deep reinforcement learning approach with interactive feedback to learn a domestic task in a human-robot scenario. We compare three different learning methods using a simulated robotic arm for the task of organizing different objects; the proposed methods are (i) deep reinforcement learning (DeepRL); (ii) interactive deep reinforcement learning using a previously trained artificial agent as an advisor (agent-IDeepRL); and (iii) interactive deep reinforcement learning using a human advisor (human-IDeepRL). We demonstrate that interactive approaches provide advantages for the learning process. The obtained results show that a learner agent, using either agent-IDeepRL or human-IDeepRL, completes the given task earlier and has fewer mistakes compared to the autonomous DeepRL approach.
翻訳日:2022-11-12 20:25:45 公開日:2020-08-11
# エネルギーのエントロピー方程式

An Entropy Equation for Energy ( http://arxiv.org/abs/2007.03286v3 )

ライセンス: Link先を確認
Kieran Greer(参考訳) 本稿では,エントロピー方程式について述べるが,情報ではなくエネルギー測定に用いなければならない。 したがって、人間の脳に関して、これらの量の両方が記憶された情報を表すのに使うことができる。 人間の脳はエネルギー効率を利用して構造を作り、ニューロンの配線と結びついている可能性が高い。 このエネルギー効率は、別の論文で述べられているクラスタリングアルゴリズムの基礎としても利用することができる。 この論文は、クラスタリングアルゴリズムで使われる規則がエントロピー方程式 e = (平均 * 分散) を作成することができるような、大域的性質に関する議論である。 これは、エントロピーの「変化」によって放出されるエネルギーによって仕事が行われることを意味する。 この方程式は非常に単純で汎用的であるため、全く異なる領域の議論が可能であり、物理学やその他の分野における大域的なエネルギー特性に関する議論が終わる。 アインシュタインの相対性理論と比較し、ブラックホールが内部にゼロエネルギーを持つという大胆な提案を行う。

This paper describes an entropy equation, but one that should be used for measuring energy and not information. In relation to the human brain therefore, both of these quantities can be used to represent the stored information. The human brain makes use of energy efficiency to form its structures, which is likely to be linked to the neuron wiring. This energy efficiency can also be used as the basis for a clustering algorithm, which is described in a different paper. This paper is more of a discussion about global properties, where the rules used for the clustering algorithm can also create the entropy equation E = (mean * variance). This states that work is done through the energy released by the 'change' in entropy. The equation is so simplistic and generic that it can offer arguments for completely different domains, where the journey ends with a discussion about global energy properties in physics and beyond. A comparison with Einstein's relativity equation is made and also the audacious suggestion that a black hole has zero-energy inside.
翻訳日:2022-11-12 18:40:52 公開日:2020-08-11
# 事前学習型言語モデルを用いた純粋相関に対するロバスト性に関する実証的研究

An Empirical Study on Robustness to Spurious Correlations using Pre-trained Language Models ( http://arxiv.org/abs/2007.06778v3 )

ライセンス: Link先を確認
Lifu Tu, Garima Lalwani, Spandana Gella, He He(参考訳) 近年の研究では、BERTのような事前学習された言語モデルが、データセットの素早い相関性を改善することが示されている。 これらの結果に興味をそそられ、成功の鍵はスプリアス相関が成立しない少数の反例からの一般化であることがわかった。 このような少数例が少ない場合、事前訓練されたモデルは、スクラッチから訓練されたモデルと同じくらい性能が悪い。 極少数の場合、一般化を改善するためにマルチタスク学習(MTL)を提案する。 自然言語推論およびパラフレーズ同定実験により,適切な補助課題を持つMLLは,分配性能を損なうことなく,課題事例の性能を著しく向上することが示された。 さらに, MTL の優位性は主に, 少数例による一般化の改善によるものであることを示す。 以上の結果から,データ多様性の重要性が示唆された。

Recent work has shown that pre-trained language models such as BERT improve robustness to spurious correlations in the dataset. Intrigued by these results, we find that the key to their success is generalization from a small amount of counterexamples where the spurious correlations do not hold. When such minority examples are scarce, pre-trained models perform as poorly as models trained from scratch. In the case of extreme minority, we propose to use multi-task learning (MTL) to improve generalization. Our experiments on natural language inference and paraphrase identification show that MTL with the right auxiliary tasks significantly improves performance on challenging examples without hurting the in-distribution performance. Further, we show that the gain from MTL mainly comes from improved generalization from the minority examples. Our results highlight the importance of data diversity for overcoming spurious correlations.
翻訳日:2022-11-10 13:41:16 公開日:2020-08-11
# フェデレーション学習システムに対するデータ中毒攻撃

Data Poisoning Attacks Against Federated Learning Systems ( http://arxiv.org/abs/2007.08432v2 )

ライセンス: Link先を確認
Vale Tolpegin, Stacey Truex, Mehmet Emre Gursoy, and Ling Liu(参考訳) フェデレーション学習(federated learning, fl)は、大規模深層ニューラルネットワークの分散トレーニングのための新たなパラダイムであり、参加者のデータを自身のデバイスに残し、モデル更新のみを中央サーバと共有する。 しかし、flの分散性は潜在的に悪意のある参加者によって引き起こされる新たな脅威をもたらす。 本稿では,不正なデータから得られたモデル更新を送信することによって,参加者の悪意あるサブセットがグローバルモデルに毒を盛るFLシステムに対する標的データ中毒攻撃について検討する。 まず,このようなデータ中毒攻撃は,悪意のある参加者のごく一部でも,分類精度の低下とリコールを引き起こす可能性があることを実証する。 さらに,攻撃対象となるクラスに対して,攻撃対象のクラスに対してのみ負の影響が大きいことを示す。 また,早期・後期のラウンドトレーニングにおける攻撃長,悪意のあるアクセシビリティの影響,および両者の関係について検討した。 最後に、FLの悪意ある参加者を識別し、毒殺を回避し、その効果を実証する防衛戦略を提案する。

Federated learning (FL) is an emerging paradigm for distributed training of large-scale deep neural networks in which participants' data remains on their own devices with only model updates being shared with a central server. However, the distributed nature of FL gives rise to new threats caused by potentially malicious participants. In this paper, we study targeted data poisoning attacks against FL systems in which a malicious subset of the participants aim to poison the global model by sending model updates derived from mislabeled data. We first demonstrate that such data poisoning attacks can cause substantial drops in classification accuracy and recall, even with a small percentage of malicious participants. We additionally show that the attacks can be targeted, i.e., they have a large negative impact only on classes that are under attack. We also study attack longevity in early/late round training, the impact of malicious participant availability, and the relationships between the two. Finally, we propose a defense strategy that can help identify malicious participants in FL to circumvent poisoning attacks, and demonstrate its effectiveness.
翻訳日:2022-11-09 22:49:17 公開日:2020-08-11
# i6mA-CNN:イネゲノム中のDNAN6-メチルアデニン部位の同定のための畳み込みに基づく計算手法

i6mA-CNN: a convolution based computational approach towards identification of DNA N6-methyladenine sites in rice genome ( http://arxiv.org/abs/2007.10458v2 )

ライセンス: Link先を確認
Ruhul Amin, Chowdhury Rafeed Rahman, Md. Sadrul Islam Toaha and Swakkhar Shatabda(参考訳) アデニンヌクレオチドのDNA N6-メチル化(6mA)は複製後の修飾であり、多くの生物学的機能に関与している。 ゲノムワイド6mAサイト検出のための実験的手法は、高価で手作業による集中的なプロセスである。 自動化された正確な計算手法は、長いゲノム中の6mA部位を同定し、かなりの時間と費用を節約する。 本研究では,イネゲノム中の6mA部位を同定できる畳み込みニューラルネットワークツールi6mA-CNNを開発した。 pseaac にインスパイアされた特徴ベクトル,マルチ・ワン・ホット表現,ジヌクレオチドの物理化学的性質などの多種類の特徴のコーディネートを行う。 ベンチマークデータセットの5倍のクロスバリデーションを用いて、0.98の受信機動作特性曲線の領域を全体の精度0.94で達成する。 最後に,イネ以外の2種類の植物ゲノム6mA部位同定データセットについて検討した。 以上の結果から,本ツールが植物ゲノム上に存在する6mA部位を同定できる可能性が示唆された。 この研究のためのWebツールは、以下のとおりである。 補足データ(ベンチマークデータセット、独立テストデータセット、比較目的データセット、トレーニングモデル、物理化学的特性値、モチーフ発見のための注意メカニズムの詳細)は、https://cutt.ly/ppddedhで利用可能である。

DNA N6-methylation (6mA) in Adenine nucleotide is a post replication modification and is responsible for many biological functions. Experimental methods for genome wide 6mA site detection is an expensive and manual labour intensive process. Automated and accurate computational methods can help to identify 6mA sites in long genomes saving significant time and money. Our study develops a convolutional neural network based tool i6mA-CNN capable of identifying 6mA sites in the rice genome. Our model coordinates among multiple types of features such as PseAAC inspired customized feature vector, multiple one hot representations and dinucleotide physicochemical properties. It achieves area under the receiver operating characteristic curve of 0.98 with an overall accuracy of 0.94 using 5 fold cross validation on benchmark dataset. Finally, we evaluate our model on two other plant genome 6mA site identification datasets besides rice. Results suggest that our proposed tool is able to generalize its ability of 6mA site identification on plant genomes irrespective of plant species. Web tool for this research can be found at: https://cutt.ly/Co6KuWG. Supplementary data (benchmark dataset, independent test dataset, comparison purpose dataset, trained model, physicochemical property values, attention mechanism details for motif finding) are available at https://cutt.ly/PpDdeDH.
翻訳日:2022-11-08 14:43:12 公開日:2020-08-11
# PDO-eConvs:部分微分演算子に基づく等変畳み込み

PDO-eConvs: Partial Differential Operator Based Equivariant Convolutions ( http://arxiv.org/abs/2007.10408v2 )

ライセンス: Link先を確認
Zhengyang Shen, Lingshen He, Zhouchen Lin, Jinwen Ma(参考訳) 近年の研究では、ニューラルネットワークアーキテクチャに等分散を組み込むことが非常に有用であることが示されており、グループ行動下でのネットワークの等分散を研究する研究も行われている。 しかし、デジタル画像と特徴マップが離散メッシュグリッド上にあるため、対応する等分散保存変換群は非常に限られている。 本研究では、畳み込みと偏微分作用素(PDO)の接続からこの問題に対処する。 理論的には、入力を滑らかであると仮定し、pdoを変換し、より一般的な連続群であるn$-次元ユークリッド群に同値な系を提案する。 実装では、概等変畳み込み(pdo-econvs)を導出して、pdoの数値スキームを用いてシステムを判別する。 理論的には、PDO-eConvsの近似誤差は二次次数である。 等価性が近似されたときにエラー解析が提供されるのは初めてである。 回転MNISTと自然画像分類に関する大規模な実験により、PDO-eConvsはより効率的にパラメータを使用することができる。 特に広い再ネットと比較すると、12.6%のパラメータでより良い結果が得られる。

Recent research has shown that incorporating equivariance into neural network architectures is very helpful, and there have been some works investigating the equivariance of networks under group actions. However, as digital images and feature maps are on the discrete meshgrid, corresponding equivariance-preserving transformation groups are very limited. In this work, we deal with this issue from the connection between convolutions and partial differential operators (PDOs). In theory, assuming inputs to be smooth, we transform PDOs and propose a system which is equivariant to a much more general continuous group, the $n$-dimension Euclidean group. In implementation, we discretize the system using the numerical schemes of PDOs, deriving approximately equivariant convolutions (PDO-eConvs). Theoretically, the approximation error of PDO-eConvs is of the quadratic order. It is the first time that the error analysis is provided when the equivariance is approximate. Extensive experiments on rotated MNIST and natural image classification show that PDO-eConvs perform competitively yet use parameters much more efficiently. Particularly, compared with Wide ResNets, our methods result in better results using only 12.6% parameters.
翻訳日:2022-11-08 13:03:44 公開日:2020-08-11
# 低データレジームで不整形ラベルを追加する

Adding Seemingly Uninformative Labels Helps in Low Data Regimes ( http://arxiv.org/abs/2008.00807v2 )

ライセンス: Link先を確認
Christos Matsoukas, Albert Bou I Hernandez, Yue Liu, Karin Dembrower, Gisele Miranda, Emir Konuk, Johan Fredin Haslum, Athanasios Zouzos, Peter Lindholm, Fredrik Strand, Kevin Smith(参考訳) エビデンスによれば、大規模なデータセットでトレーニングされたネットワークは、多くのトレーニング例があるだけでなく、リッチな特徴の学習を促進するクラス多様性によって、十分に一般化されている。 これは、データが不足しているときにこれが真実であるかどうかという疑問を提起する。 本研究では,マンモグラフィ画像における腫瘍の分節化という専門的注釈を必要とする課題について考察する。 低データ設定では、専門家アノテーションと非専門家アノテーションの非形式的なラベルを補完し、タスクをマルチクラス問題にすることでパフォーマンスを向上させることができる。 専門家データが少ないとこれらの増加が増加し、さらなる研究を通じていくつかの興味深い特性が明らかになる。 ここで紹介する新しいデータセットであるcsaw-sでの発見を実証し、2つの公開データセットでそれを確認します。

Evidence suggests that networks trained on large datasets generalize well not solely because of the numerous training examples, but also class diversity which encourages learning of enriched features. This raises the question of whether this remains true when data is scarce - is there an advantage to learning with additional labels in low-data regimes? In this work, we consider a task that requires difficult-to-obtain expert annotations: tumor segmentation in mammography images. We show that, in low-data settings, performance can be improved by complementing the expert annotations with seemingly uninformative labels from non-expert annotators, turning the task into a multi-class problem. We reveal that these gains increase when less expert data is available, and uncover several interesting properties through further studies. We demonstrate our findings on CSAW-S, a new dataset that we introduce here, and confirm them on two public datasets.
翻訳日:2022-11-08 12:40:24 公開日:2020-08-11
# 目に見えない領域の認識に向けて

Towards Recognizing Unseen Categories in Unseen Domains ( http://arxiv.org/abs/2007.12256v2 )

ライセンス: Link先を確認
Massimiliano Mancini, Zeynep Akata, Elisa Ricci, Barbara Caputo(参考訳) 現在の深部視覚認識システムは、訓練中のクラスやシナリオの新たな画像に遭遇すると、パフォーマンスが著しく低下する。 したがって、ゼロショット学習(ZSL)の中核的な課題は、ドメイン適応とドメイン一般化(DG)の主な課題がドメインシフトであるのに対して、セマンティックシフトに対処することである。 歴史的に ZSL と DG のタスクは独立して取り組まれているが、この研究はそれらを共同で解決するという野心的な目標、すなわち目に見えない領域における視覚的概念を認識することで発展する。 我々は,zsl,dg,zsl+dgに対する包括的アルゴリズムであるcumix (curriculum mixup for recognition unseen categories in unseen domain) を提案する。 CuMixのキーとなるアイデアは、トレーニング中に利用可能な複数のソースドメインとカテゴリを混ぜて生成した、見えないドメインとカテゴリからの画像と機能を使用して、テスト時のドメインとセマンティックシフトをシミュレートすることだ。 さらに、カリキュラムベースの混合政策を考案し、より複雑なトレーニングサンプルを生成する。 DomainNetベンチマークを用いた標準SLおよびDGデータセットおよびZSL+DGの結果,本手法の有効性が示された。

Current deep visual recognition systems suffer from severe performance degradation when they encounter new images from classes and scenarios unseen during training. Hence, the core challenge of Zero-Shot Learning (ZSL) is to cope with the semantic-shift whereas the main challenge of Domain Adaptation and Domain Generalization (DG) is the domain-shift. While historically ZSL and DG tasks are tackled in isolation, this work develops with the ambitious goal of solving them jointly,i.e. by recognizing unseen visual concepts in unseen domains. We presentCuMix (CurriculumMixup for recognizing unseen categories in unseen domains), a holistic algorithm to tackle ZSL, DG and ZSL+DG. The key idea of CuMix is to simulate the test-time domain and semantic shift using images and features from unseen domains and categories generated by mixing up the multiple source domains and categories available during training. Moreover, a curriculum-based mixing policy is devised to generate increasingly complex training samples. Results on standard SL and DG datasets and on ZSL+DG using the DomainNet benchmark demonstrate the effectiveness of our approach.
翻訳日:2022-11-07 12:58:34 公開日:2020-08-11
# 線形逆問題を解くための深層学習法--研究の方向性とパラダイム

Deep Learning Methods for Solving Linear Inverse Problems: Research Directions and Paradigms ( http://arxiv.org/abs/2007.13290v2 )

ライセンス: Link先を確認
Yanna Bai, Wei Chen, Jie Chen, Weisi Guo(参考訳) 線形逆問題(英語版)は、様々な科学分野の発展に基礎がある。 線形逆問題の異なる変種を異なるアプリケーションで解くために、無数の試みがなされている。 現在、ディープラーニングの急速な発展は、様々なよく設計されたネットワークアーキテクチャを持つ線形逆問題を解くための新しい視点を提供し、多くのアプリケーションで最先端のパフォーマンスをもたらす。 本稿では,様々な線形逆問題を解くための深層学習開発における最近の進歩を包括的に調査する。 線形逆問題の解法としてディープラーニング手法がどのように使われているのかを概観し、従来の手法で用いられる知識を取り入れた構造化ニューラルネットワークアーキテクチャについて検討する。 さらに,この研究線に沿ったオープン課題と今後の展望を明らかにする。

The linear inverse problem is fundamental to the development of various scientific areas. Innumerable attempts have been carried out to solve different variants of the linear inverse problem in different applications. Nowadays, the rapid development of deep learning provides a fresh perspective for solving the linear inverse problem, which has various well-designed network architectures results in state-of-the-art performance in many applications. In this paper, we present a comprehensive survey of the recent progress in the development of deep learning for solving various linear inverse problems. We review how deep learning methods are used in solving different linear inverse problems, and explore the structured neural network architectures that incorporate knowledge used in traditional methods. Furthermore, we identify open challenges and potential future directions along this research line.
翻訳日:2022-11-06 11:53:45 公開日:2020-08-11
# 細粒度スケッチに基づく画像検索のためのクロスモーダル階層モデリング

Cross-Modal Hierarchical Modelling for Fine-Grained Sketch Based Image Retrieval ( http://arxiv.org/abs/2007.15103v2 )

ライセンス: Link先を確認
Aneeshan Sain, Ayan Kumar Bhunia, Yongxin Yang, Tao Xiang, Yi-Zhe Song(参考訳) 画像検索クエリとしてのSketchは、きめ細かい視覚的詳細をキャプチャするテキストに代わる理想的な方法である。 スケッチベース画像検索(FG-SBIR)の初期の成功は、例えば、時間対静的、ストローク対ピクセル対ピクセル対、抽象対ピクセル完全といった写真とは対照的に、スケッチの特徴に対処することが重要であることを示した。 本稿では,これまで見過ごされていたスケッチのさらなる特徴,すなわち,細部を階層的に表現した人物について検討する。 この階層構造はしばしば視覚的に区別される。 本稿では,スケッチ特有の階層を育成し,その階層レベルでのスケッチと写真とのマッチングを行うことのできる,新たなネットワークをデザインする。 特に、スケッチと写真の特徴は、クロスモーダルコアテンションを使用して強化され、各レベルで階層的なノード融合と結合され、より優れた埋め込み空間を形成して検索を行う。 一般的なベンチマーク実験では, 最先端技術よりも高いマージンが得られた。

Sketch as an image search query is an ideal alternative to text in capturing the fine-grained visual details. Prior successes on fine-grained sketch-based image retrieval (FG-SBIR) have demonstrated the importance of tackling the unique traits of sketches as opposed to photos, e.g., temporal vs. static, strokes vs. pixels, and abstract vs. pixel-perfect. In this paper, we study a further trait of sketches that has been overlooked to date, that is, they are hierarchical in terms of the levels of detail -- a person typically sketches up to various extents of detail to depict an object. This hierarchical structure is often visually distinct. In this paper, we design a novel network that is capable of cultivating sketch-specific hierarchies and exploiting them to match sketch with photo at corresponding hierarchical levels. In particular, features from a sketch and a photo are enriched using cross-modal co-attention, coupled with hierarchical node fusion at every level to form a better embedding space to conduct retrieval. Experiments on common benchmarks show our method to outperform state-of-the-arts by a significant margin.
翻訳日:2022-11-05 20:53:57 公開日:2020-08-11
# 制御可能なニューラルプロソディ合成

Controllable Neural Prosody Synthesis ( http://arxiv.org/abs/2008.03388v2 )

ライセンス: Link先を確認
Max Morrison, Zeyu Jin, Justin Salamon, Nicholas J. Bryan, Gautham J. Mysore(参考訳) 音声合成は、ニューラル・ヴォコーダとニューラル・プロソディ・ジェネレータの出現によって、フィデリティが大幅に改善された。 しかし、これらのシステムはプロソディに対する直感的なユーザーコントロールを欠いているため、プロソディの誤り(例えば、不適切な環境や不適切な感情)を訂正したり、様々な話者の興奮レベルや感情でプロソディを生成することができない。 ユーザ制御可能なコンテキスト認識型ニューラルプロソディジェネレータによって,これらの制限に対処する。 実際の音声記録や合成音声記録が与えられた場合、ユーザが特定の時間フレームに対する韻律制約を入力でき、入力テキストと文脈韻律から残りの時間枠を生成することができる。 また,合成韻律に適合する入力音声を修飾するピッチシフト型ニューラルボコーダを提案する。 主観的および主観的評価により,合成音声の全体的な自然性を犠牲にすることなく,ユーザ制御を韻律生成モデルに組み込むことが可能であることを示す。

Speech synthesis has recently seen significant improvements in fidelity, driven by the advent of neural vocoders and neural prosody generators. However, these systems lack intuitive user controls over prosody, making them unable to rectify prosody errors (e.g., misplaced emphases and contextually inappropriate emotions) or generate prosodies with diverse speaker excitement levels and emotions. We address these limitations with a user-controllable, context-aware neural prosody generator. Given a real or synthesized speech recording, our model allows a user to input prosody constraints for certain time frames and generates the remaining time frames from input text and contextual prosody. We also propose a pitch-shifting neural vocoder to modify input speech to match the synthesized prosody. Through objective and subjective evaluations we show that we can successfully incorporate user control into our prosody generation model without sacrificing the overall naturalness of the synthesized speech.
翻訳日:2022-11-02 02:04:50 公開日:2020-08-11
# マンモグラフィにおける乳房マスセグメンテーションと診断のための二重畳み込みニューラルネットワーク

Dual Convolutional Neural Networks for Breast Mass Segmentation and Diagnosis in Mammography ( http://arxiv.org/abs/2008.02957v2 )

ライセンス: Link先を確認
Heyi Li, Dongdong Chen, William H. Nailon, Mike E. Davies, and David Laurenson(参考訳) 深層畳み込みニューラルネットワーク(cnns)はマンモグラム診断の新しいパラダイムとして登場した。 乳がんに対するCNN-based computer-aided-diagnosis (CAD) は入力マンモグラム画像から直接潜伏する特徴を抽出し,形態学的特徴の重要性を無視する。 本稿では,マスセグメンテーションを計算し,診断結果を同時に予測する,マンモグラフィ画像処理のための新しいディープラーニングフレームワークを提案する。 具体的には、重要な形状と境界知識を付加的に考慮し、二重プロブレム方式でマッピングを解くデュアルパスアーキテクチャで構築する。 Locality Preserving Learner (LPL)と呼ばれる1つのパスは、入力の固有の特徴を階層的に抽出し、活用することを目的としている。 一方、Conditional Graph Learner(CGL)と呼ばれる他のパスは、ピクセルワイド画像からマスク相関をモデル化することで幾何学的特徴を生成することに焦点を当てている。 この2つの学習者を統合することにより、意味論と構造が良好に保存され、また、コンポーネント学習パスが相互補完され、集団分節化とがん分類問題を同時に改善する。 本手法はDDSMとINbreastの2つの公共マンモグラフィーデータセットを用いて評価した。 実験の結果,DualCoreNetはマンモグラフィーのセグメンテーションと分類を同時に達成し,最近の最先端モデルよりも優れていることがわかった。

Deep convolutional neural networks (CNNs) have emerged as a new paradigm for Mammogram diagnosis. Contemporary CNN-based computer-aided-diagnosis (CAD) for breast cancer directly extract latent features from input mammogram image and ignore the importance of morphological features. In this paper, we introduce a novel deep learning framework for mammogram image processing, which computes mass segmentation and simultaneously predict diagnosis results. Specifically, our method is constructed in a dual-path architecture that solves the mapping in a dual-problem manner, with an additional consideration of important shape and boundary knowledge. One path called the Locality Preserving Learner (LPL), is devoted to hierarchically extracting and exploiting intrinsic features of the input. Whereas the other path, called the Conditional Graph Learner (CGL) focuses on generating geometrical features via modeling pixel-wise image to mask correlations. By integrating the two learners, both the semantics and structure are well preserved and the component learning paths in return complement each other, contributing an improvement to the mass segmentation and cancer classification problem at the same time. We evaluated our method on two most used public mammography datasets, DDSM and INbreast. Experimental results show that DualCoreNet achieves the best mammography segmentation and classification simultaneously, outperforming recent state-of-the-art models.
翻訳日:2022-11-02 01:57:16 公開日:2020-08-11
# 会話検索における質問の明確化が文書ランク付けに及ぼす影響の分析

Analysing the Effect of Clarifying Questions on Document Ranking in Conversational Search ( http://arxiv.org/abs/2008.03717v2 )

ライセンス: Link先を確認
Antonios Minas Krasakis, Mohammad Aliannejadi, Nikos Voskarides, Evangelos Kanoulas(参考訳) 会話検索の最近の研究は、会話における混合開始の重要性を強調している。 混合開始を可能にするためには,ユーザに対して明確な質問を行う必要がある。 しかし、これらの明確な質問や回答を考慮に入れるための基盤となるランキングモデル(会話検索をサポートする)の能力は、概ね文書のランク付け時には分析されていない。 この目的のために,対話型検索データセット上での語彙ランキングモデルの性能を,質問を明確にして分析する。 質問と回答の明確化がランク付けの質にどのように影響するか,定量的・質的に検討した。 我々は、このような混合開始的環境に存在する明示的なフィードバックに基づいて、会話の丸ごとの明確化をきめ細かな扱いをする必要があると論じる。 以上の結果から,単純ヒューリスティックな語彙ベースラインを導入し,既存のナイーブベースラインを著しく上回る結果を得た。 本研究の目的は,この課題に対する理解を深め,より適切な対話型ランキングモデルの設計を通知することである。

Recent research on conversational search highlights the importance of mixed-initiative in conversations. To enable mixed-initiative, the system should be able to ask clarifying questions to the user. However, the ability of the underlying ranking models (which support conversational search) to account for these clarifying questions and answers has not been analysed when ranking documents, at large. To this end, we analyse the performance of a lexical ranking model on a conversational search dataset with clarifying questions. We investigate, both quantitatively and qualitatively, how different aspects of clarifying questions and user answers affect the quality of ranking. We argue that there needs to be some fine-grained treatment of the entire conversational round of clarification, based on the explicit feedback which is present in such mixed-initiative settings. Informed by our findings, we introduce a simple heuristic-based lexical baseline, that significantly outperforms the existing naive baselines. Our work aims to enhance our understanding of the challenges present in this particular task and inform the design of more appropriate conversational ranking models.
翻訳日:2022-11-01 03:58:34 公開日:2020-08-11
# 物体逆レンダリングのための可逆的ニューラルBRDF

Invertible Neural BRDF for Object Inverse Rendering ( http://arxiv.org/abs/2008.04030v2 )

ライセンス: Link先を確認
Zhe Chen, Shohei Nobuhara, and Ko Nishino(参考訳) 本稿では,新しいニューラルネットワークに基づくbrdfモデルと物体逆レンダリングのためのベイズフレームワーク,すなわち既知の幾何学的物体の単一画像からの反射率と自然照明の同時推定を提案する。 BRDFは、高次元表現の表現力、コンパクトな解析モデルの計算単純さ、実世界のBRDFの物理的妥当性を提供する、非可逆ニューラルネットワーク、すなわち正規化フローで表現される。 このモデルを条件づけることで、実世界の反射率の潜在空間を抽出し、直接的に強い反射率をもたらす。 我々は,このモデルを可逆的ニューラルBRDFモデル (iBRDF) と呼ぶ。 また,深層ニューラルネットワークの構造バイアスを活用することで,先行して深い照明を考案する。 この新しいBRDFモデルと反射率と照明前処理をMAP推定式に組み込むことにより,この関節推定が確率勾配勾配で効率的に計算可能であることを示す。 我々は,多数の計測データに対して,可逆性ニューラルBRDFモデルの精度を実験的に検証し,多数の合成画像および実画像上でのオブジェクト逆レンダリングでの使用を実証した。 その結果, 深層ニューラルネットワークが, 放射線計測逆問題を解くための新しい方法が示された。

We introduce a novel neural network-based BRDF model and a Bayesian framework for object inverse rendering, i.e., joint estimation of reflectance and natural illumination from a single image of an object of known geometry. The BRDF is expressed with an invertible neural network, namely, normalizing flow, which provides the expressive power of a high-dimensional representation, computational simplicity of a compact analytical model, and physical plausibility of a real-world BRDF. We extract the latent space of real-world reflectance by conditioning this model, which directly results in a strong reflectance prior. We refer to this model as the invertible neural BRDF model (iBRDF). We also devise a deep illumination prior by leveraging the structural bias of deep neural networks. By integrating this novel BRDF model and reflectance and illumination priors in a MAP estimation formulation, we show that this joint estimation can be computed efficiently with stochastic gradient descent. We experimentally validate the accuracy of the invertible neural BRDF model on a large number of measured data and demonstrate its use in object inverse rendering on a number of synthetic and real images. The results show new ways in which deep neural networks can help solve challenging radiometric inverse problems.
翻訳日:2022-10-31 23:05:26 公開日:2020-08-11
# KR-BERT:小型韓国特色言語モデル

KR-BERT: A Small-Scale Korean-Specific Language Model ( http://arxiv.org/abs/2008.03979v2 )

ライセンス: Link先を確認
Sangah Lee, Hansol Jang, Yunmee Baik, Suzi Park, Hyopil Shin(参考訳) BERTの出現以来、XLNetやRoBERTaといった最近の研究は、大量のコーパスと多数のパラメータによって事前訓練された文埋め込みモデルを利用している。 このようなモデルには大きなハードウェアと膨大なデータがあるため、事前トレーニングには長い時間がかかる。 そのため、比較的小さなモデルを作ることが重要である。 本稿では,より小さな語彙とデータセットを用いて,韓国固有のKR-BERTモデルを訓練した。 韓国語は非ラテン文字による資源の乏しい形態学的に豊かな言語の1つであるため、多言語BERTモデルが欠落した言語固有の言語現象を捉えることも重要である。 私たちはbidirectionalwordpieceトークンライザを含むいくつかのトークンライザをテストし、サブキャラクタレベルからキャラクタレベルまで、トークン化のためのトークンの最小スパンを調整して、モデルのためのより良い語彙を構築しました。 これらの調整により, 我々のKR-BERTモデルは, コーパスの約1/10を用いて, 既存の事前訓練モデルよりも比較可能かつ良好な性能を示した。

Since the appearance of BERT, recent works including XLNet and RoBERTa utilize sentence embedding models pre-trained by large corpora and a large number of parameters. Because such models have large hardware and a huge amount of data, they take a long time to pre-train. Therefore it is important to attempt to make smaller models that perform comparatively. In this paper, we trained a Korean-specific model KR-BERT, utilizing a smaller vocabulary and dataset. Since Korean is one of the morphologically rich languages with poor resources using non-Latin alphabets, it is also important to capture language-specific linguistic phenomena that the Multilingual BERT model missed. We tested several tokenizers including our BidirectionalWordPiece Tokenizer and adjusted the minimal span of tokens for tokenization ranging from sub-character level to character-level to construct a better vocabulary for our model. With those adjustments, our KR-BERT model performed comparably and even better than other existing pre-trained models using a corpus about 1/10 of the size.
翻訳日:2022-10-31 22:45:40 公開日:2020-08-11
# 深層強化学習によるbuck dc-dcコンバータのインテリジェント制御戦略

An Intelligent Control Strategy for buck DC-DC Converter via Deep Reinforcement Learning ( http://arxiv.org/abs/2008.04542v1 )

ライセンス: Link先を確認
Chenggang Cui, Nan Yan, Chuanlin Zhang(参考訳) 典型的なスイッチング電源として、DC-DCコンバータは直流マイクログリッドに広く応用されている。 再生可能エネルギーの変動により, 優れた動的特性を有するDC-DCコンバータ制御アルゴリズムの研究と設計は, 理論的, 実用的価値に有益である。 直流マイクログリッドにおけるバス電圧安定性の問題を軽減するため,直流-DCコンバータの深部強化学習アルゴリズムによる定電力負荷(CPL)による知的制御戦略を初めて構築した。 本稿では,DC-DCコンバータに対して,マルコフ決定プロセス(MDP)モデルとディープQネットワーク(DQN)アルゴリズムを定義する。 モデルフリーの深部強化学習(DRL)制御戦略は、名目電圧への収束を達成するための報酬/報酬機構を介してエージェント環境相互作用を調整するために適切に設計されている。 エージェントは、先行知識のない複雑な電力系統の高次元特徴を抽出して近似決定を行う。 シミュレーション比較の結果,提案するコントローラは,異なるシナリオにおいて,より強力な自己学習能力と自己最適化能力を有することが示された。

As a typical switching power supply, the DC-DC converter has been widely applied in DC microgrid. Due to the variation of renewable energy generation, research and design of DC-DC converter control algorithm with outstanding dynamic characteristics has significant theoretical and practical application value. To mitigate the bus voltage stability issue in DC microgrid, an innovative intelligent control strategy for buck DC-DC converter with constant power loads (CPLs) via deep reinforcement learning algorithm is constructed for the first time. In this article, a Markov Decision Process (MDP) model and the deep Q network (DQN) algorithm are defined for DC-DC converter. A model-free based deep reinforcement learning (DRL) control strategy is appropriately designed to adjust the agent-environment interaction through the rewards/penalties mechanism towards achieving converge to nominal voltage. The agent makes approximate decisions by extracting the high-dimensional feature of complex power systems without any prior knowledge. Eventually, the simulation comparison results demonstrate that the proposed controller has stronger self-learning and self-optimization capabilities under the different scenarios.
翻訳日:2022-10-31 12:40:58 公開日:2020-08-11
# bunched lpcnet : 低コストニューラルネットワークのためのvocoder

Bunched LPCNet : Vocoder for Low-cost Neural Text-To-Speech Systems ( http://arxiv.org/abs/2008.04574v1 )

ライセンス: Link先を確認
Ravichander Vipperla, Sangjun Park, Kihyun Choo, Samin Ishtiaq, Kyoungbo Min, Sourav Bhattacharya, Abhinav Mehrotra, Alberto Gil C. P. Ramos and Nicholas D. Lane(参考訳) LPCNetは、線形予測とディープニューラルネットワークモジュールを組み合わせて計算複雑性を低くする効率的なボコーダである。 本研究では,低コストなLPCNetボコーダベースニューラルテキスト音声合成システム(TTS)を目指して,その複雑さをさらに軽減する2つの手法を提案する。 これらのテクニックは 1)LPCNetが推論毎に複数のオーディオサンプルを生成することができるサンプルバンチ 2)ビットバンチはLPCNetの最終層における計算量を削減する。 提案手法であるlpcnetは,dctts(deep convolutional tts)音響モデルと相まって,モバイルデバイス上での実行時のベースライン実行時間に対する2.19倍の改善を示し,tts平均意見スコア(mos)を0.1未満に削減した。

LPCNet is an efficient vocoder that combines linear prediction and deep neural network modules to keep the computational complexity low. In this work, we present two techniques to further reduce it's complexity, aiming for a low-cost LPCNet vocoder-based neural Text-to-Speech (TTS) System. These techniques are: 1) Sample-bunching, which allows LPCNet to generate more than one audio sample per inference; and 2) Bit-bunching, which reduces the computations in the final layer of LPCNet. With the proposed bunching techniques, LPCNet, in conjunction with a Deep Convolutional TTS (DCTTS) acoustic model, shows a 2.19x improvement over the baseline run-time when running on a mobile device, with a less than 0.1 decrease in TTS mean opinion score (MOS).
翻訳日:2022-10-31 12:40:39 公開日:2020-08-11
# 自然災害が消費者行動に及ぼす影響--2017年のペルーのエルニーニョ現象を事例として

Impact of natural disasters on consumer behavior: case of the 2017 El Nino phenomenon in Peru ( http://arxiv.org/abs/2008.04887v1 )

ライセンス: Link先を確認
Hugo Alatrista-Salas and Vincent Gauthier and Miguel Nunez-del-Prado and Monique Becker(参考訳) エルニーノ(El Nino)は、太平洋東部の海面が異常に温まる現象である。 この現象は、被災地域の経済活動に悪影響を及ぼす大雨と洪水によって特徴づけられる。 この現象が異なる粒度レベルでの消費行動にどのように影響するかを理解することは、状況を正常化する戦略を推奨する上で不可欠である。 この目的により、クレジットカードやデビットカードを含む銀行取引に関連するデータのマルチスケール分析を行った。 粗い粒度分析により,エルニ−ノ現象の存在と特定の領域での回復時間を明らかにし,粒度解析の結果,気候事象の結果として個人の購買パターンや商人の関連性が変化していることが示される。 また, 社会は, 時間とともに構築された経済構造により自然災害を回避できたことも示唆された。 本研究では,将来の極端な事象をよりよく特徴付けるために有用な新しい手法を提案する。

El Nino is an extreme weather event featuring unusual warming of surface waters in the eastern equatorial Pacific Ocean. This phenomenon is characterized by heavy rains and floods that negatively affect the economic activities of the impacted areas. Understanding how this phenomenon influences consumption behavior at different granularity levels is essential for recommending strategies to normalize the situation. With this aim, we performed a multi-scale analysis of data associated with bank transactions involving credit and debit cards. Our findings can be summarized into two main results: Coarse-grained analysis reveals the presence of the El Ni\~no phenomenon and the recovery time in a given territory, while fine-grained analysis demonstrates a change in individuals' purchasing patterns and in merchant relevance as a consequence of the climatic event. The results also indicate that society successfully withstood the natural disaster owing to the economic structure built over time. In this study, we present a new method that may be useful for better characterizing future extreme events.
翻訳日:2022-10-31 12:39:39 公開日:2020-08-11
# トリプルトネットワークによるコンテンツベース音楽の類似性

Content-based Music Similarity with Triplet Networks ( http://arxiv.org/abs/2008.04938v1 )

ライセンス: Link先を確認
Joseph Cleveland, Derek Cheng, Michael Zhou, Thorsten Joachims, Douglass Turnbull(参考訳) 本稿では,三重項ニューラルネットワークによる楽曲埋め込みの実現可能性について検討する。 我々のネットワークは、同じアーティストの2曲が別のアーティストの3曲よりも互いに近くに埋め込まれるように、三重奏曲を用いて訓練されている。 我々は、この第3の曲を選ぶ異なる方法を用いて訓練された2つのモデルを比較した。 実験はフリーミュージックアーカイブの楽曲を用いて実施し,標準オーディオ機能を用いて実施する。 最初の結果は、浅いシームズネットワークが簡単なアーティスト検索のために音楽を埋め込むことができることを示している。

We explore the feasibility of using triplet neural networks to embed songs based on content-based music similarity. Our network is trained using triplets of songs such that two songs by the same artist are embedded closer to one another than to a third song by a different artist. We compare two models that are trained using different ways of picking this third song: at random vs. based on shared genre labels. Our experiments are conducted using songs from the Free Music Archive and use standard audio features. The initial results show that shallow Siamese networks can be used to embed music for a simple artist retrieval task.
翻訳日:2022-10-31 12:39:22 公開日:2020-08-11
# 放射基底関数に基づくGANを用いた流れ場再構成

Flow Field Reconstructions with GANs based on Radial Basis Functions ( http://arxiv.org/abs/2009.02285v1 )

ライセンス: Link先を確認
Liwei Hu, Wenyong Wang, Yu Xiang, Jun Zhang(参考訳) 非線形スパースデータレグレッションと生成は、フローフィールドの再構成を典型的な例として引用する長期的な課題である。 計算流体力学(CFD)の膨大な計算コストは、大規模CFDデータ生成に非常にコストをかかるため、従来のリダクションオーダーモデル(ROM)が期待していたような、より安価な方法が必要であり、高速なフローフィールド再構成を実現するために、大量のフルドメインフローフィールドデータ(FFD)を生成することができなかった理由である。 コンピュータビジョンの分野でのGAN(Generative Adversarial Network)の成功に触発されて,GANの最適判別器は非線形スパースFFD回帰と生成を処理しながら,放射基底関数ニューラルネットワーク(RBFNN)である,という最適な判別器定理を証明した。 この定理に基づき、回帰および生成目的のための2つの放射基底関数ベースGAN(RBF-GANとRBFC-GAN)を提案する。 モデルの有効性を検証するために、3つの異なるデータセットが適用される。 その結果,平均二乗誤差(MSE)と平均二乗誤差(MSPE)の両方を用いて,RBF-GANとRBFC-GANの性能はGANs/cGANよりも優れていた。 さらに、GANやcGANと比較して、RBF-GANとRBFC-GANの安定性はそれぞれ34.62%、72.31%向上した。 その結果,提案手法は,高精度な流れ場再構成の要求を満たすために,限定的かつスパースなデータセットから完全な領域FFDを生成するために利用できる。

Nonlinear sparse data regression and generation have been a long-term challenge, to cite the flow field reconstruction as a typical example. The huge computational cost of computational fluid dynamics (CFD) makes it much expensive for large scale CFD data producing, which is the reason why we need some cheaper ways to do this, of which the traditional reduced order models (ROMs) were promising but they couldn't generate a large number of full domain flow field data (FFD) to realize high-precision flow field reconstructions. Motivated by the problems of existing approaches and inspired by the success of the generative adversarial networks (GANs) in the field of computer vision, we prove an optimal discriminator theorem that the optimal discriminator of a GAN is a radial basis function neural network (RBFNN) while dealing with nonlinear sparse FFD regression and generation. Based on this theorem, two radial basis function-based GANs (RBF-GAN and RBFC-GAN), for regression and generation purposes, are proposed. Three different datasets are applied to verify the feasibility of our models. The results show that the performance of the RBF-GAN and the RBFC-GAN are better than that of GANs/cGANs by means of both the mean square error (MSE) and the mean square percentage error (MSPE). Besides, compared with GANs/cGANs, the stability of the RBF-GAN and the RBFC-GAN improve by 34.62% and 72.31%, respectively. Consequently, our proposed models can be used to generate full domain FFD from limited and sparse datasets, to meet the requirement of high-precision flow field reconstructions.
翻訳日:2022-10-31 12:39:12 公開日:2020-08-11
# HMT(Human-Machine Teams)のベンチマーク基準 - レビュー

Common Metrics to Benchmark Human-Machine Teams (HMT): A Review ( http://arxiv.org/abs/2008.04855v1 )

ライセンス: Link先を確認
Praveen Damacharla, Ahmad Y. Javaid, Jennie J. Gallimore, Vijay K. Devabhaktuni(参考訳) 複数の分野にわたるHMT(Human-machine Teaming)に投資している。 HMTのシステム性能を正確にかつ効果的に測定することは,これらのシステムの設計を前進させる上で重要である。 メトリクスは、任意のシステムでベンチマークを作成できるツールであり、システムの検証と検証とともに、パフォーマンスを評価するための評価プラットフォームとして機能する。 現在、HMTシステムを開発するためのベンチマークのセットは合意されていない。 したがって、HMT分野のベンチマークを作成するためには、共通メトリクスの識別と分類が不可欠である。 このレビューの主な焦点は、HMTの異なるセグメントで使用されるメトリクスの特定を目的とした詳細な調査を行い、将来HMTのベンチマークに使用できる一般的なメトリクスを決定することである。 我々は,これまでHMTで使用されていたメトリクスの識別と,機能と測定技術に基づく分類について,このレビューを整理した。 さらに、すべての特定されたメトリクスを、理論、適用、リアルタイム、非リアルタイム、測定可能、観測可能なメトリクスに分類しながら、詳細に分析する試みも行っています。 本総説では,HMTのベンチマークにおける使用状況とともに,同定された共通指標の詳細な分析を行った。

A significant amount of work is invested in human-machine teaming (HMT) across multiple fields. Accurately and effectively measuring system performance of an HMT is crucial for moving the design of these systems forward. Metrics are the enabling tools to devise a benchmark in any system and serve as an evaluation platform for assessing the performance, along with the verification and validation, of a system. Currently, there is no agreed-upon set of benchmark metrics for developing HMT systems. Therefore, identification and classification of common metrics are imperative to create a benchmark in the HMT field. The key focus of this review is to conduct a detailed survey aimed at identification of metrics employed in different segments of HMT and to determine the common metrics that can be used in the future to benchmark HMTs. We have organized this review as follows: identification of metrics used in HMTs until now, and classification based on functionality and measuring techniques. Additionally, we have also attempted to analyze all the identified metrics in detail while classifying them as theoretical, applied, real-time, non-real-time, measurable, and observable metrics. We conclude this review with a detailed analysis of the identified common metrics along with their usage to benchmark HMTs.
翻訳日:2022-10-31 12:38:43 公開日:2020-08-11
# Woodpecker-DL:ハードウェア対応多面最適化によるディープニューラルネットワークの高速化

Woodpecker-DL: Accelerating Deep Neural Networks via Hardware-Aware Multifaceted Optimizations ( http://arxiv.org/abs/2008.04567v1 )

ライセンス: Link先を確認
Yongchao Liu, Yue Jin, Yong Chen, Teng Teng, Hang Ou, Rui Zhao, Yao Zhang(参考訳) 深層モデルのトレーニングと推論の促進は、実践において不可欠である。 既存のディープラーニングフレームワークは通常、トレーニング速度の最適化に集中し、推論固有の最適化に注意を払わない。 実際には、モデル推論は計算の面ではトレーニングとは異なる。例えば、トレーニング中の勾配更新ステップごとにパラメータがリフレッシュされるが、推論の間は不変である。 モデル推論のこれらの特別な特徴は、最適化の新たな機会を開く。 本稿では,グラフ最適化,自動検索,ドメイン固有言語(DSL)コンパイラ技術,システムレベルの探索といった観点から,複数の共同最適化を活用することで,推論を高速化するハードウェア対応最適化フレームワークであるWoodpecker-DL(WPK)を提案する。 wpkでは、遺伝的アルゴリズムと強化学習に基づく2つの新しい自動探索手法を調査し、特定のハードウェアをターゲットにした最適なオペレーターコード構成を探索した。 これらの検索アルゴリズムにはカスタマイズされたdslコンパイラが付加され、効率的なコードを生成する。 最適化された推論計画を作成するため,WPKは自動生成したコードに加えて,サードパーティライブラリからの高速演算子実装を体系的に探索し,使用する演算子毎の最良の実装を抽出する。 大規模な実験では、Tesla P100 GPUではcuDNNで5.40、TVMで1.63、エンドツーエンドモデル推論でTensorRTで1.18倍の速度で動作可能であることが示された。

Accelerating deep model training and inference is crucial in practice. Existing deep learning frameworks usually concentrate on optimizing training speed and pay fewer attentions to inference-specific optimizations. Actually, model inference differs from training in terms of computation, e.g. parameters are refreshed each gradient update step during training, but kept invariant during inference. These special characteristics of model inference open new opportunities for its optimization. In this paper, we propose a hardware-aware optimization framework, namely Woodpecker-DL (WPK), to accelerate inference by taking advantage of multiple joint optimizations from the perspectives of graph optimization, automated searches, domain-specific language (DSL) compiler techniques and system-level exploration. In WPK, we investigated two new automated search approaches based on genetic algorithm and reinforcement learning, respectively, to hunt the best operator code configurations targeting specific hardware. A customized DSL compiler is further attached to these search algorithms to generate efficient codes. To create an optimized inference plan, WPK systematically explores high-speed operator implementations from third-party libraries besides our automatically generated codes and singles out the best implementation per operator for use. Extensive experiments demonstrated that on a Tesla P100 GPU, we can achieve the maximum speedup of 5.40 over cuDNN and 1.63 over TVM on individual convolution operators, and run up to 1.18 times faster than TensorRT for end-to-end model inference.
翻訳日:2022-10-31 12:30:23 公開日:2020-08-11
# holdout sgd:ビザンチン耐性連合学習

Holdout SGD: Byzantine Tolerant Federated Learning ( http://arxiv.org/abs/2008.04612v1 )

ライセンス: Link先を確認
Shahar Azulay, Lior Raz, Amir Globerson, Tomer Koren, Yehuda Afek(参考訳) 本研究は,SGD(Stochastic Gradient Descent)最適化のための,新しい分散ビザンチン耐性フェデレート学習アルゴリズムであるHoldOut SGDを提案する。 HoldOut SGDは、分散形式でホールドアウト推定というよく知られた機械学習技術を使用して、損失値の低いモデルにつながる可能性のあるパラメータ更新を選択する。 これにより、学習したモデルのパラメータ空間の外れ値を排除する既存のメソッドよりも、Byzantineのワーカー入力を破棄する方が効果的になる。 HoldOut SGDはまず、勾配更新を提案するためにプライベートデータを使用する一連のワーカーをランダムに選択する。 次に、労働者の投票委員会をランダムに選択し、各投票者は、その個人データを保留データとして、投票方式による最善の提案を選択する。 我々は, holdout sgd の分散計算における作業者の協調のための2つの可能なメカニズムを提案する。 1つ目は真面目な中央サーバーを使用し、現在の連合学習の典型的な設定に対応する。 2つ目は完全な分散化であり、中央サーバを必要とせず、完全に分散した連合学習への道を開く。 完全に分散されたバージョンでは、ブロックチェーンドメインのアイデア、特にalgorand committee選択とコンセンサスプロセスを通じてholdout sgdを実装している。 我々は, 最適モデルへの収束, ビザンチン労働者の分数に対するレジリエンスレベルの観点から, holdout sgdプロセスに対する形式的保証を提供する。 実験的な評価から,HoldOut SGD はビザンチン耐性を持ち,参加者の総数が大きく,ビザンチン労働者の比率が半分未満(1/3)である限り,ディープラーニングタスクの効果モデルに効率的に収束することが示された。

This work presents a new distributed Byzantine tolerant federated learning algorithm, HoldOut SGD, for Stochastic Gradient Descent (SGD) optimization. HoldOut SGD uses the well known machine learning technique of holdout estimation, in a distributed fashion, in order to select parameter updates that are likely to lead to models with low loss values. This makes it more effective at discarding Byzantine workers inputs than existing methods that eliminate outliers in the parameter-space of the learned model. HoldOut SGD first randomly selects a set of workers that use their private data in order to propose gradient updates. Next, a voting committee of workers is randomly selected, and each voter uses its private data as holdout data, in order to select the best proposals via a voting scheme. We propose two possible mechanisms for the coordination of workers in the distributed computation of HoldOut SGD. The first uses a truthful central server and corresponds to the typical setting of current federated learning. The second is fully distributed and requires no central server, paving the way to fully decentralized federated learning. The fully distributed version implements HoldOut SGD via ideas from the blockchain domain, and specifically the Algorand committee selection and consensus processes. We provide formal guarantees for the HoldOut SGD process in terms of its convergence to the optimal model, and its level of resilience to the fraction of Byzantine workers. Empirical evaluation shows that HoldOut SGD is Byzantine-resilient and efficiently converges to an effectual model for deep-learning tasks, as long as the total number of participating workers is large and the fraction of Byzantine workers is less than half (<1/3 for the fully distributed variant).
翻訳日:2022-10-31 12:29:55 公開日:2020-08-11
# 産業用IoTおよびスマートシティサービスのための信頼に基づくクラウド機械学習モデル選択

Trust-Based Cloud Machine Learning Model Selection For Industrial IoT and Smart City Services ( http://arxiv.org/abs/2008.05042v1 )

ライセンス: Link先を確認
Basheer Qolomany, Ihab Mohammed, Ala Al-Fuqaha, Mohsen Guizan, Junaid Qadir(参考訳) 機械学習(ML)サービスが多くのミッションクリティカルなヒューマン対面ドメインで使用されていることにより、MLモデルの完全性と信頼性がすべて重要になります。 本研究では,クラウドサービスプロバイダがリソース制約されたデバイスからビッグデータを収集し,MLベースの予測モデルを構築するパラダイムについて考察する。 提案手法は, MLモデルのサブセットをモデルスーパーセットから選択・切り替えすることで, MLモデルの信頼度を最大化し, 再構成予算・レートを尊重しつつ信頼性を最大化し, クラウド通信オーバーヘッドを低減させることにより, MLモデルの信頼度を最大化するインテリジェント多項式時間ヒューリスティックを含む。 提案するヒューリスティックの性能を2つのケーススタディで評価した。 まず、産業用IoT(IIoT)サービスについて検討し、この設定のプロキシとして、ターボファンエンジン劣化シミュレーションデータセットを使用して、エンジンの残りの有用寿命を予測する。 この設定の結果,選択したモデルの信頼度は,整数線形計画法(ILP)と比較すると0.49%から3.17%低下した。 第2に,我々はスマートシティサービスについて検討し,この設定の代理として,実験的な交通データを用いて車両数を予測する。 その結果,選択したモデルの信頼度は,ILPを用いた結果に比べて0.7%から2.53%低かった。 また,提案したヒューリスティックは多項式時間近似法において最適競合比を達成することを示す。

With Machine Learning (ML) services now used in a number of mission-critical human-facing domains, ensuring the integrity and trustworthiness of ML models becomes all-important. In this work, we consider the paradigm where cloud service providers collect big data from resource-constrained devices for building ML-based prediction models that are then sent back to be run locally on the intermittently-connected resource-constrained devices. Our proposed solution comprises an intelligent polynomial-time heuristic that maximizes the level of trust of ML models by selecting and switching between a subset of the ML models from a superset of models in order to maximize the trustworthiness while respecting the given reconfiguration budget/rate and reducing the cloud communication overhead. We evaluate the performance of our proposed heuristic using two case studies. First, we consider Industrial IoT (IIoT) services, and as a proxy for this setting, we use the turbofan engine degradation simulation dataset to predict the remaining useful life of an engine. Our results in this setting show that the trust level of the selected models is 0.49% to 3.17% less compared to the results obtained using Integer Linear Programming (ILP). Second, we consider Smart Cities services, and as a proxy of this setting, we use an experimental transportation dataset to predict the number of cars. Our results show that the selected model's trust level is 0.7% to 2.53% less compared to the results obtained using ILP. We also show that our proposed heuristic achieves an optimal competitive ratio in a polynomial-time approximation scheme for the problem.
翻訳日:2022-10-31 12:29:07 公開日:2020-08-11
# AIにおけるバイアスと差別 : 学際的視点

Bias and Discrimination in AI: a cross-disciplinary perspective ( http://arxiv.org/abs/2008.07309v1 )

ライセンス: Link先を確認
Xavier Ferrer, Tom van Nuenen, Jose M. Such, Mark Cot\'e and Natalia Criado(参考訳) 自動意思決定システムに人工知能(AI)が広く普及し、AIバイアスがより明確で問題になっている。 その否定的な結果の1つは差別であり、ある特性に基づいて個人を不公平または不平等に扱うことである。 しかし、バイアスと差別の関係は必ずしも明確ではない。 本稿では,aiにおけるバイアスと差別に関する関連文献を,技術的,法的,社会的,倫理的側面を組み込んだ学際的視点から検討する。 AIにおける偏見と差別の解決策を見つけるには、堅牢な学際的コラボレーションが必要であることを示す。

With the widespread and pervasive use of Artificial Intelligence (AI) for automated decision-making systems, AI bias is becoming more apparent and problematic. One of its negative consequences is discrimination: the unfair, or unequal treatment of individuals based on certain characteristics. However, the relationship between bias and discrimination is not always clear. In this paper, we survey relevant literature about bias and discrimination in AI from an interdisciplinary perspective that embeds technical, legal, social and ethical dimensions. We show that finding solutions to bias and discrimination in AI requires robust cross-disciplinary collaborations.
翻訳日:2022-10-31 12:28:41 公開日:2020-08-11
# Wrapper-based Decision Tree を用いた特徴選択のためのネットワーク侵入検出

Network Intrusion Detection Using Wrapper-based Decision Tree for Feature Selection ( http://arxiv.org/abs/2008.07405v1 )

ライセンス: Link先を確認
Mubarak Albarka Umar, Chen Zhanfang, Yan Liu(参考訳) 機械学習(ML)ベースの侵入検知システム(IDS)の重要な課題の1つは、IDSデータセットに含まれる冗長性、不完全性、無関係性に起因する、高価な計算複雑性である。 このような課題を克服し、効率的で正確なIDSモデルを構築するために、多くの研究者は、ハイブリッドモデリングアプローチにおいて正規化や特徴選択のような前処理技術を利用している。 本研究では,特徴選択(FS)のためのアルゴリズムと,IDSを構築するためのアルゴリズムを用いたハイブリッドIDSモデリング手法を提案する。 FSアルゴリズムは、決定木を特徴評価器とするラッパーベースである。 提案手法は選択したMLアルゴリズムと組み合わせてUNSW-NB15データセットを用いてIDSモデルを構築する。 いくつかのIDSモデルは、データセットの全機能を使用して単一のモデリングアプローチでベースラインとして構築される。 提案手法の有効性を,ベースラインモデルとの比較や最先端技術との比較により評価する。 本手法は97.95%の最適DRを達成し,最先端の工法と比較して極めて有効であることを示した。 したがって、UNSW-NB15データセットを用いたIDSモデリングでは特にその使用を推奨する。

One of the key challenges of machine learning (ML) based intrusion detection system (IDS) is the expensive computational complexity which is largely due to redundant, incomplete, and irrelevant features contain in the IDS datasets. To overcome such challenge and ensure building an efficient and more accurate IDS models, many researchers utilize preprocessing techniques such as normalization and feature selection in a hybrid modeling approach. In this work, we propose a hybrid IDS modeling approach with an algorithm for feature selection (FS) and another for building an IDS. The FS algorithm is a wrapper-based with a decision tree as the feature evaluator. The propose FS method is used in combination with some selected ML algorithms to build IDS models using the UNSW-NB15 dataset. Some IDS models are built as a baseline in a single modeling approach using the full features of the dataset. We evaluate the effectiveness of our propose method by comparing it with the baseline models and also with state-of-the-art works. Our method achieves the best DR of 97.95% and shown to be quite effective in comparison to state-of-the-art works. We, therefore, recommend its usage especially in IDS modeling with the UNSW-NB15 dataset.
翻訳日:2022-10-31 12:28:31 公開日:2020-08-11
# deepfakeビデオ検出のためのシャープマルチインスタンス学習

Sharp Multiple Instance Learning for DeepFake Video Detection ( http://arxiv.org/abs/2008.04585v1 )

ライセンス: Link先を確認
Xiaodan Li, Yining Lang, Yuefeng Chen, Xiaofeng Mao, Yuan He, Shuhui Wang, Hui Xue, Quan Lu(参考訳) 顔操作技術の急速な発展に伴い、顔偽造はセキュリティ上の懸念からマルチメディアやコンピュータビジョンのコミュニティでかなりの注目を集めている。 既存の手法は主に、正確な画像レベルのラベルで訓練された単一フレーム検出や、フレーム間の不整合をモデル化するだけでビデオレベルの予測のために設計されており、DeepFake攻撃者にとって潜在的に高いリスクが残る。 本稿では,DeepFakeビデオにおいて,ビデオレベルのラベルのみを提供するが,フェイクビデオのすべての顔が操作されるわけではない部分的な顔攻撃という新たな問題を導入する。 顔と入力ビデオをそれぞれインスタンスとバッグとして扱う,複数のインスタンス学習フレームワークによってこの問題に対処します。 インスタンスの埋め込みからバッグの予測へ、インスタンスの埋め込みからインスタンスの予測へ、そして従来のMILのバッグの予測へ、直接マッピングする鋭いMIL(S-MIL)が提案されている。 理論解析により、従来のMILの勾配はS-MILで緩和されることが示された。 部分的に操作された顔を正確に組み込むことが可能なインスタンスを生成するために、フレーム内およびフレーム間不整合を完全にモデル化するように設計され、さらに検出性能の向上を支援する。 また,DeepFakeビデオ検出のための新しいデータセットFFPMSを構築し,フレームレベルとビデオレベルの異なる手法の評価に有用であることを示す。 FFPMSと広く使われているDFDCデータセットの実験により、S-MILは部分的に攻撃されたDeepFakeビデオ検出の他の手法よりも優れていることが確認された。 さらに、S-MILは従来のDeepFakeイメージ検出タスクにも適用でき、単一のフレームデータセット上で最先端のパフォーマンスを実現することができる。

With the rapid development of facial manipulation techniques, face forgery has received considerable attention in multimedia and computer vision community due to security concerns. Existing methods are mostly designed for single-frame detection trained with precise image-level labels or for video-level prediction by only modeling the inter-frame inconsistency, leaving potential high risks for DeepFake attackers. In this paper, we introduce a new problem of partial face attack in DeepFake video, where only video-level labels are provided but not all the faces in the fake videos are manipulated. We address this problem by multiple instance learning framework, treating faces and input video as instances and bag respectively. A sharp MIL (S-MIL) is proposed which builds direct mapping from instance embeddings to bag prediction, rather than from instance embeddings to instance prediction and then to bag prediction in traditional MIL. Theoretical analysis proves that the gradient vanishing in traditional MIL is relieved in S-MIL. To generate instances that can accurately incorporate the partially manipulated faces, spatial-temporal encoded instance is designed to fully model the intra-frame and inter-frame inconsistency, which further helps to promote the detection performance. We also construct a new dataset FFPMS for partially attacked DeepFake video detection, which can benefit the evaluation of different methods at both frame and video levels. Experiments on FFPMS and the widely used DFDC dataset verify that S-MIL is superior to other counterparts for partially attacked DeepFake video detection. In addition, S-MIL can also be adapted to traditional DeepFake image detection tasks and achieve state-of-the-art performance on single-frame datasets.
翻訳日:2022-10-31 12:23:23 公開日:2020-08-11
# ニューラルネットワークを用いた3次元脳スキャンのマルチモーダルセグメンテーション

Multi-modal segmentation of 3D brain scans using neural networks ( http://arxiv.org/abs/2008.04594v1 )

ライセンス: Link先を確認
Jonathan Zopes, Moritz Platscher, Silvio Paganucci, Christian Federau(参考訳) 目的:畳み込みニューラルネットワークに基づく脳セグメンテーションパイプラインの実装。3dボリュームを27の解剖学的構造に迅速に分割する。 MRI(MRI)およびCT(CT)スキャンの様々なコントラストにおけるセグメンテーション性能の広範な比較研究を提供する。 方法: 深部畳み込みニューラルネットワークは、3D MRI(MPRAGE, DWI, FLAIR)とCTスキャンのセグメンテーションのために訓練される。 ニューラルネットワークトレーニングには、合計851のMRI/CTスキャンの大規模なデータベースが使用されている。 トレーニングラベルはmprageコントラストで取得され、他の画像モードにコア登録される。 セグメンテーションの質は、合計27の解剖学的構造に対してディース計量を用いて定量化される。 ドロップアウトサンプリングは、破損した入力スキャンや低品質のセグメンテーションを特定するために実装されている。 2百万以上のボクセルを持つ3dボリュームの完全なセグメンテーションは、グラフィカルな処理ユニット上で1秒未満の処理時間で得られる。 結果: Dice の平均スコアは$T_1$-weighted MPRAGE (85.3\pm4.6\,\%$)である。 しかし、FLAIR (80.0\pm7.1\,\%$)、DWI (78.2\pm7.9\,\%$)、CT (79.1\pm7.9\,\%$) では、ほとんどの解剖学的構造に対して良質なセグメンテーションが実現可能である。 故障した入力ボリュームや低品質セグメンテーションは、ドロップアウトサンプリングを用いて検出できる。 結論: 深層畳み込みニューラルネットワークの柔軟性と性能により、FLAIR、DWI、CTスキャンを直接リアルタイムに分割でき、T_1$-weightedスキャンを必要としない。

Purpose: To implement a brain segmentation pipeline based on convolutional neural networks, which rapidly segments 3D volumes into 27 anatomical structures. To provide an extensive, comparative study of segmentation performance on various contrasts of magnetic resonance imaging (MRI) and computed tomography (CT) scans. Methods: Deep convolutional neural networks are trained to segment 3D MRI (MPRAGE, DWI, FLAIR) and CT scans. A large database of in total 851 MRI/CT scans is used for neural network training. Training labels are obtained on the MPRAGE contrast and coregistered to the other imaging modalities. The segmentation quality is quantified using the Dice metric for a total of 27 anatomical structures. Dropout sampling is implemented to identify corrupted input scans or low-quality segmentations. Full segmentation of 3D volumes with more than 2 million voxels is obtained in less than 1s of processing time on a graphical processing unit. Results: The best average Dice score is found on $T_1$-weighted MPRAGE ($85.3\pm4.6\,\%$). However, for FLAIR ($80.0\pm7.1\,\%$), DWI ($78.2\pm7.9\,\%$) and CT ($79.1\pm 7.9\,\%$), good-quality segmentation is feasible for most anatomical structures. Corrupted input volumes or low-quality segmentations can be detected using dropout sampling. Conclusion: The flexibility and performance of deep convolutional neural networks enables the direct, real-time segmentation of FLAIR, DWI and CT scans without requiring $T_1$-weighted scans.
翻訳日:2022-10-31 12:22:53 公開日:2020-08-11
# 急性心筋梗塞検出のための能動多項式による左室壁運動推定

Left Ventricular Wall Motion Estimation by Active Polynomials for Acute Myocardial Infarction Detection ( http://arxiv.org/abs/2008.04615v1 )

ライセンス: Link先を確認
Serkan Kiranyaz, Aysen Degerli, Tahir Hamid, Rashid Mazhar, Rayyan Ahmed, Rayaan Abouhasera, Morteza Zabihi, Junaid Malik, Ridha Hamila, and Moncef Gabbouj(参考訳) 心エコー図(echo)は、心筋梗塞(MI)または通称心臓発作の診断において、局所壁運動異常(RWMA)を同定するための最も早くかつ主要なツールである。 本稿では,左室壁の大域的運動を任意のエコーから正確に,かつ高精度に推定できる新しい手法であるActive Polynomialsを提案する。 提案アルゴリズムは,急性MIの早期診断を支援するために,LV壁セグメントに発生する真の壁運動を定量化する。 さらに、医療専門家は、壁の動きとLVEF(LV Ejection-Fraction)を評価するのに役立つ「最大運動変位」プロットとともに、カラーコードされたセグメントを通してエコー画像の可視化能力を高めることができる。 この方法の出力は、エコー技術者が心エコー記録の品質を評価し改善するのに役立ちます。 この研究の主な貢献は、カタールのハマド・メディカル・コーポレーション病院で医師が作成した最初の公開エコーデータベース収集である。 いわゆるHMC-QUデータベースは、今後の研究のベンチマークとなる。 HMC-QUデータセットを用いた結果から,エコー品質が極めて低く,時間分解能が低い場合でも,MI検出の精度,感度,精度が向上することが示された。

Echocardiogram (echo) is the earliest and the primary tool for identifying regional wall motion abnormalities (RWMA) in order to diagnose myocardial infarction (MI) or commonly known as heart attack. This paper proposes a novel approach, Active Polynomials, which can accurately and robustly estimate the global motion of the Left Ventricular (LV) wall from any echo in a robust and accurate way. The proposed algorithm quantifies the true wall motion occurring in LV wall segments so as to assist cardiologists diagnose early signs of an acute MI. It further enables medical experts to gain an enhanced visualization capability of echo images through color-coded segments along with their "maximum motion displacement" plots helping them to better assess wall motion and LV Ejection-Fraction (LVEF). The outputs of the method can further help echo-technicians to assess and improve the quality of the echocardiogram recording. A major contribution of this study is the first public echo database collection composed by physicians at the Hamad Medical Corporation Hospital in Qatar. The so-called HMC-QU database will serve as the benchmark for the forthcoming relevant studies. The results over the HMC-QU dataset show that the proposed approach can achieve high accuracy, sensitivity and precision in MI detection even though the echo quality is quite poor, and the temporal resolution is low.
翻訳日:2022-10-31 12:22:23 公開日:2020-08-11
# 参照ビューレンダリングによるUAV深部位置推定

Deep UAV Localization with Reference View Rendering ( http://arxiv.org/abs/2008.04619v1 )

ライセンス: Link先を確認
Timo Hinzmann, Roland Siegwart(参考訳) 本稿では,無人航空機(UAV)の非構造環境における局所化のための枠組みについて述べる。 6自由度(dof)カメラポーズ、カメラモデル、地理参照直交画像、標高マップが与えられた、光学および深度画像を生成するリアルタイムレンダリングエンジンが導入された。 レンダリングエンジンは学習ベースの6DoF逆合成ルーカスカナーデ(ICLK)アルゴリズムに組み込まれており、UAVが撮影したレンダリングされた実世界の画像を堅牢に調整することができる。 環境変化下でのアライメントを学ぶために、アーキテクチャは高分解能で複数年にまたがる地図を用いて訓練される。 評価の結果、深部6DoF-ICLKアルゴリズムはトレーニング不能なアルゴリズムよりも大きなマージンで優れていた。 この分野での研究をさらに支援するために、リアルタイムレンダリングエンジンと付随するデータセットがこの出版物と共にリリースされている。

This paper presents a framework for the localization of Unmanned Aerial Vehicles (UAVs) in unstructured environments with the help of deep learning. A real-time rendering engine is introduced that generates optical and depth images given a six Degrees-of-Freedom (DoF) camera pose, camera model, geo-referenced orthoimage, and elevation map. The rendering engine is embedded into a learning-based six-DoF Inverse Compositional Lucas-Kanade (ICLK) algorithm that is able to robustly align the rendered and real-world image taken by the UAV. To learn the alignment under environmental changes, the architecture is trained using maps spanning multiple years at high resolution. The evaluation shows that the deep 6DoF-ICLK algorithm outperforms its non-trainable counterparts by a large margin. To further support the research in this field, the real-time rendering engine and accompanying datasets are released along with this publication.
翻訳日:2022-10-31 12:21:43 公開日:2020-08-11
# CT検査における肝病変セグメンテーション改善のためのインプラント合成病変

Implanting Synthetic Lesions for Improving Liver Lesion Segmentation in CT Exams ( http://arxiv.org/abs/2008.04690v1 )

ライセンス: Link先を確認
Dario Augusto Borges Oliveira(参考訳) Computed Tomography (CT) 試験を用いた教師付き病変分割法の成功は, トレーニング用サンプルの量と変動量に大きく依存する。 このようなデータの注釈付けは、それ自体が課題であるが、データセット内の病変の変動性は、異なる種類の病変の有病率にも依存する。 この現象は、アグレッシブなデータ拡張法を用いて、様々な可能性において減少しうる病変分割アルゴリズムに固有のバイアスを与える。 本稿では,CTスライスに現実的な病変を移植し,リッチで制御可能なトレーニングサンプルセットを提供し,最終的にはCT検診における病変を記述するためのセマンティックセグメンテーションネットワークの性能を向上させる方法を提案する。 以上の結果から, 合成病変の移植は, 異なるアーキテクチャを考慮したセグメント化性能の向上(最大12-%)のみならず, 異なる画像合成ネットワーク間で一貫した改善が得られた。 その結果,ctスライスにおける肝病変分画の分画モデルの性能は,サイズ,密度,形状,位置の点で合成的に変化し,肝病変分画モデルの性能が向上することが示唆された。

The success of supervised lesion segmentation algorithms using Computed Tomography (CT) exams depends significantly on the quantity and variability of samples available for training. While annotating such data constitutes a challenge itself, the variability of lesions in the dataset also depends on the prevalence of different types of lesions. This phenomenon adds an inherent bias to lesion segmentation algorithms that can be diminished, among different possibilities, using aggressive data augmentation methods. In this paper, we present a method for implanting realistic lesions in CT slices to provide a rich and controllable set of training samples and ultimately improving semantic segmentation network performances for delineating lesions in CT exams. Our results show that implanting synthetic lesions not only improves (up to around 12\%) the segmentation performance considering different architectures but also that this improvement is consistent among different image synthesis networks. We conclude that increasing the variability of lesions synthetically in terms of size, density, shape, and position seems to improve the performance of segmentation models for liver lesion segmentation in CT slices.
翻訳日:2022-10-31 12:21:15 公開日:2020-08-11
# 利益:サブ4ビットモバイルネットモデルの新しいトレーニング方法

PROFIT: A Novel Training Method for sub-4-bit MobileNet Models ( http://arxiv.org/abs/2008.04693v1 )

ライセンス: Link先を確認
Eunhyeok Park and Sungjoo Yoo(参考訳) 4ビット以下の精度のモバイルモデルは、モバイルデバイスのエネルギー効率向上に対する需要がますます高まっているため必要である。 本稿では,重み量子化(aiwq)による活性化不安定性が,モバイルネットワークのサブ4ビット量子化の重要な障害であることを示す。 本稿では,AIWQ問題を軽減するために,他の層よりも強い不安定性問題の影響を受けやすい層を凍結しようとするPROFIT(Progressive-Freezing Iterative Training)と呼ばれる新しいトレーニング手法を提案する。 また,h-swishのような非対称活性化関数をサポートするために,微分可能で統一的な量子化法(duq)と負のパディングアイデアを提案する。 提案手法は,ImageNet上でMobileNet-v1,v2,v3を定量化することで評価し,4ビット量子化が全精度ベースラインに匹敵する精度(トップ1精度 1.48 %)を提供することを示す。 mobilenet-v3の3ビット量子化に関するアブレーション研究において、提案手法はtop-1の精度の12.86パーセントという大きなマージンで最先端手法を上回っている。

4-bit and lower precision mobile models are required due to the ever-increasing demand for better energy efficiency in mobile devices. In this work, we report that the activation instability induced by weight quantization (AIWQ) is the key obstacle to sub-4-bit quantization of mobile networks. To alleviate the AIWQ problem, we propose a novel training method called PROgressive-Freezing Iterative Training (PROFIT), which attempts to freeze layers whose weights are affected by the instability problem stronger than the other layers. We also propose a differentiable and unified quantization method (DuQ) and a negative padding idea to support asymmetric activation functions such as h-swish. We evaluate the proposed methods by quantizing MobileNet-v1, v2, and v3 on ImageNet and report that 4-bit quantization offers comparable (within 1.48 % top-1 accuracy) accuracy to full precision baseline. In the ablation study of the 3-bit quantization of MobileNet-v3, our proposed method outperforms the state-of-the-art method by a large margin, 12.86 % of top-1 accuracy.
翻訳日:2022-10-31 12:20:57 公開日:2020-08-11
# 深層シアム畳み込みニューラルネットワークによる都市ダイナミクスの検出

Detecting Urban Dynamics Using Deep Siamese Convolutional Neural Networks ( http://arxiv.org/abs/2008.04829v1 )

ライセンス: Link先を確認
Ephrem Admasu Yekun, Petros Reda Samsom(参考訳) 変化検出はコンピュータビジョンとリモートセンシングの分野で急速に成長している分野である。 本研究では,都市化に伴う変化(建物や道路など)を検出するため,異なるタイミングで捉えたMekelle市のセンチネル2時間像から特徴を抽出する,シメセCNNと呼ばれる畳み込みニューラルネットワーク(CNN)を設計・開発した。 提案手法は, 総合的精度 (95.8), カッパ尺度 (72.5), リコール (76.5), 精度 (77.7), f1尺度 (77.1) で測定した。 このモデルはこれらの指標の大部分が優れた性能を示しており、都市化中の異なる時間帯でメケルや他の都市の変化を検出するのに利用できる。

Change detection is a fast-growing discipline in the areas of computer vision and remote sensing. In this work, we designed and developed a variant of convolutional neural network (CNN), known as Siamese CNN to extract features from pairs of Sentinel-2 temporal images of Mekelle city captured at different times and detect changes due to urbanization: buildings and roads. The detection capability of the proposed was measured in terms of overall accuracy (95.8), Kappa measure (72.5), recall (76.5), precision (77.7), F1 measure (77.1). The model has achieved a good performance in terms of most of these measures and can be used to detect changes in Mekelle and other cities at different time horizons undergoing urbanization.
翻訳日:2022-10-31 12:19:52 公開日:2020-08-11
# ニューラルネットワークを用いた局所非線形力学系の不確かさ定量化

Uncertainty Quantification of Locally Nonlinear Dynamical Systems using Neural Networks ( http://arxiv.org/abs/2008.04598v1 )

ライセンス: Link先を確認
Subhayan De(参考訳) モデルはしばしば、物理系を表す微分方程式の用語で与えられる。 不確実性が存在する場合、モデルを用いてこれらのシステムの挙動を正確に予測するには、応答における不確実性の影響を理解する必要がある。 不確実性定量化では、これらの物理系の応答の平均や分散などの統計を求める。 モンテカルロのような統計に基づく手法を推定するには、不確実性の多重実現のためにモデルの支配方程式の多くの評価が必要である。 しかし、大規模複雑な工学システムでは、これらの手法は計算量的に負担になる。 構造工学において、通常は線形構造は不確かさのある空間的局所非線形性を含む。 不確かさの定量化のためのサンプリングに基づく手法を用いた標準非線形解法では、応答の統計量の推定にかなりの計算コストがかかる。 本稿では, 大規模局所非線形力学系の不確実性定量化の計算負担を軽減するために, 応答を2つの部分に分解する手法を提案する。 この補正項は、非線形性および不確実性情報を含む擬力からの応答である。 本稿では、計算能力の向上とpytorchやtensorflowといったオープンソースパッケージの可用性により、科学的な機械学習コミュニティで最近普及したユニバーサル関数近似ツールであるneural networkを用いて、pseudoforceの推定を行う。 ニューラルネットワークを用いて非線形で不確実な疑似力のみをモデル化するため、同じネットワークを使用してシステムの異なる応答を予測することができ、異なる応答の統計が要求された場合、新しいネットワークはトレーニングする必要がない。

Models are often given in terms of differential equations to represent physical systems. In the presence of uncertainty, accurate prediction of the behavior of these systems using the models requires understanding the effect of uncertainty in the response. In uncertainty quantification, statistics such as mean and variance of the response of these physical systems are sought. To estimate these statistics sampling-based methods like Monte Carlo often require many evaluations of the models' governing equations for multiple realizations of the uncertainty. However, for large complex engineering systems, these methods become computationally burdensome. In structural engineering, often an otherwise linear structure contains spatially local nonlinearities with uncertainty present in them. A standard nonlinear solver for them with sampling-based methods for uncertainty quantification incurs significant computational cost for estimating the statistics of the response. To ease this computational burden of uncertainty quantification of large-scale locally nonlinear dynamical systems, a method is proposed herein, which decomposes the response into two parts -- response of a nominal linear system and a corrective term. This corrective term is the response from a pseudoforce that contains the nonlinearity and uncertainty information. In this paper, neural network, a recently popular tool for universal function approximation in the scientific machine learning community due to the advancement of computational capability as well as the availability of open-sourced packages like PyTorch and TensorFlow is used to estimate the pseudoforce. Since only the nonlinear and uncertain pseudoforce is modeled using the neural networks the same network can be used to predict a different response of the system and hence no new network is required to train if the statistic of a different response is sought.
翻訳日:2022-10-31 12:13:38 公開日:2020-08-11
# エンジン故障診断のための物理ベースグレイボックスリカレントニューラルネットワークによる残留生成

Residual Generation Using Physically-Based Grey-Box Recurrent Neural Networks For Engine Fault Diagnosis ( http://arxiv.org/abs/2008.04644v1 )

ライセンス: Link先を確認
Daniel Jung(参考訳) データ駆動型障害診断は、未知の障害クラスと異なる障害実現からの限られたトレーニングデータによって複雑である。 このような状況下では,従来のマルチクラス分類手法は故障診断には適さない。 一つの解決策は、名目データのみを使用してトレーニングされる異常分類器の使用である。 異常分類器は障害発生時の検出に使用することができるが、その根本原因に関する情報はほとんど得られない。 物理モデルと利用可能なトレーニングデータを組み合わせたハイブリッド断層診断手法は,故障分類性能の向上と未知の故障クラス同定に有望な結果を示した。 グレーボックスリカレントニューラルネットワークを用いた残差生成は、監視されたシステムに関する物理的洞察を機械学習アルゴリズムの設計に組み込んだ異常分類に使用できる。 本研究では,システムモデルの2部グラフ表現を用いて,グレイボックスリカレントニューラルネットワークの設計を行い,実際の産業ケーススタディを用いて評価する。 内燃機関テストベンチからのデータは、機械学習とモデルに基づく故障診断技術を組み合わせる可能性を示すために使用される。

Data-driven fault diagnosis is complicated by unknown fault classes and limited training data from different fault realizations. In these situations, conventional multi-class classification approaches are not suitable for fault diagnosis. One solution is the use of anomaly classifiers that are trained using only nominal data. Anomaly classifiers can be used to detect when a fault occurs but give little information about its root cause. Hybrid fault diagnosis methods combining physically-based models and available training data have shown promising results to improve fault classification performance and identify unknown fault classes. Residual generation using grey-box recurrent neural networks can be used for anomaly classification where physical insights about the monitored system are incorporated into the design of the machine learning algorithm. In this work, an automated residual design is developed using a bipartite graph representation of the system model to design grey-box recurrent neural networks and evaluated using a real industrial case study. Data from an internal combustion engine test bench is used to illustrate the potentials of combining machine learning and model-based fault diagnosis techniques.
翻訳日:2022-10-31 12:13:19 公開日:2020-08-11
# 連続マルチ話者記録のためのエンドツーエンド話者分散ASRの検討

Investigation of End-To-End Speaker-Attributed ASR for Continuous Multi-Talker Recordings ( http://arxiv.org/abs/2008.04546v1 )

ライセンス: Link先を確認
Naoyuki Kanda, Xuankai Chang, Yashesh Gaur, Xiaofei Wang, Zhong Meng, Zhuo Chen, Takuya Yoshioka(参考訳) 近年,単音重複音声の話者カウント,音声認識,話者識別の結合モデルとして,エンドツーエンド(e2e)話者属性自動音声認識(sa-asr)モデルが提案されている。 様々な話者からなる模擬混合音声に対する有望な結果を示した。 しかし, 話者識別を行うためには, 話者プロファイルの事前知識が必要であり, モデルの適用を著しく制限した。 本稿では,話者プロファイルが存在しない場合に対処することで,先行作業を拡張する。 具体的には、E2E SA-ASRモデルの内部話者表現を用いて話者数とクラスタリングを行い、話者在庫からプロファイルが欠落している話者の発話をダイアリゼーションする。 また、e2e sa-asrトレーニングの参照ラベルを簡易に修正し、連続マルチトーカ記録をうまく処理することを提案する。 提案手法は,もともとのE2E SA-ASRとモナウラルLibriCSSデータセットに関する包括的な研究である。 元のE2E SA-ASRと関連する話者プロファイルを比較すると,提案手法は事前の話者知識を必要とせずに近い性能が得られる。 また、E2E SA-ASRモデルにおけるソースターゲットの注意は、仮説の開始時刻と終了時刻に関する情報を提供する。

Recently, an end-to-end (E2E) speaker-attributed automatic speech recognition (SA-ASR) model was proposed as a joint model of speaker counting, speech recognition and speaker identification for monaural overlapped speech. It showed promising results for simulated speech mixtures consisting of various numbers of speakers. However, the model required prior knowledge of speaker profiles to perform speaker identification, which significantly limited the application of the model. In this paper, we extend the prior work by addressing the case where no speaker profile is available. Specifically, we perform speaker counting and clustering by using the internal speaker representations of the E2E SA-ASR model to diarize the utterances of the speakers whose profiles are missing from the speaker inventory. We also propose a simple modification to the reference labels of the E2E SA-ASR training which helps handle continuous multi-talker recordings well. We conduct a comprehensive investigation of the original E2E SA-ASR and the proposed method on the monaural LibriCSS dataset. Compared to the original E2E SA-ASR with relevant speaker profiles, the proposed method achieves a close performance without any prior speaker knowledge. We also show that the source-target attention in the E2E SA-ASR model provides information about the start and end times of the hypotheses.
翻訳日:2022-10-31 12:13:02 公開日:2020-08-11
# タコトロン型TSにおけるマルチタスク学習による韻律表現のモデル化

Modeling Prosodic Phrasing with Multi-Task Learning in Tacotron-based TTS ( http://arxiv.org/abs/2008.05284v1 )

ライセンス: Link先を確認
Rui Liu, Berrak Sisman, Feilong Bao, Guanglai Gao and Haizhou Li(参考訳) tacotronベースのエンドツーエンド音声合成は素晴らしい音声品質を示している。 しかし、合成音声における韻律のレンダリングは、特に韻律的なフレーズ誤りが頻発する長文に対して改善され続けている。 本稿では,タコトロンに基づく音声合成フレームワークを拡張し,韻律句の破れを明示的にモデル化する。 本研究では,メルスペクトルとフレーズブレークの両方を予測するために,タコトロン学習のためのマルチタスク学習手法を提案する。 我々の知る限り、これはTacotronベースのTSに対して、韻律的フレーズモデルを用いたマルチタスク学習の最初の実装である。 提案手法は,中国語とモンゴル語の音声品質を一貫して向上させることを示す。

Tacotron-based end-to-end speech synthesis has shown remarkable voice quality. However, the rendering of prosody in the synthesized speech remains to be improved, especially for long sentences, where prosodic phrasing errors can occur frequently. In this paper, we extend the Tacotron-based speech synthesis framework to explicitly model the prosodic phrase breaks. We propose a multi-task learning scheme for Tacotron training, that optimizes the system to predict both Mel spectrum and phrase breaks. To our best knowledge, this is the first implementation of multi-task learning for Tacotron based TTS with a prosodic phrasing model. Experiments show that our proposed training scheme consistently improves the voice quality for both Chinese and Mongolian systems.
翻訳日:2022-10-31 12:12:23 公開日:2020-08-11
# 2層ロスレス符号化のためのJPEG XSの拡張

Extension of JPEG XS for Two-Layer Lossless Coding ( http://arxiv.org/abs/2008.04558v1 )

ライセンス: Link先を確認
Hiroyuki Kobayashi and Hitoshi Kiya(参考訳) jpeg xs対応の2層ロスレス画像符号化方式を提案する。 JPEG XSは静止画像符号化のための新しい国際規格であり、非常に低レイテンシで非常に低複雑性である。 しかし、ロスレスコーディングはサポートしていないが、視覚的にロスレスコーディングを実現することができる。 提案手法はJPEG XTに類似した2層構造を持ち,JPEG XS符号化とロスレス符号化からなる。 その結果、JPEG XSとの互換性を維持しながら、元の画像を損失なく復元することが可能になる。

A two-layer lossless image coding method compatible with JPEG XS is proposed. JPEG XS is a new international standard for still image coding that has the characteristics of very low latency and very low complexity. However, it does not support lossless coding, although it can achieve visual lossless coding. The proposed method has a two-layer structure similar to JPEG XT, which consists of JPEG XS coding and a lossless coding method. As a result, it enables us to losslessly restore original images, while maintaining compatibility with JPEG XS.
翻訳日:2022-10-31 12:10:30 公開日:2020-08-11
# 検索ガイドによる教師なし多領域画像翻訳

Retrieval Guided Unsupervised Multi-domain Image-to-Image Translation ( http://arxiv.org/abs/2008.04991v1 )

ライセンス: Link先を確認
Raul Gomez, Yahui Liu, Marco De Nadai, Dimosthenis Karatzas, Bruno Lepri and Nicu Sebe(参考訳) 画像から画像への変換は、ある視覚領域から別の領域へ画像を変換するマッピングを学ぶことを目的としている。 最近の研究は、画像記述子をドメイン不変のコンテンツ表現とドメイン固有スタイル表現に切り離すことができると仮定している。 このように、翻訳モデルは、スタイルをターゲットの視覚領域に変更しながら、ソース画像の内容を保存する。 しかし、ネットワークがコンテンツとスタイルを合成し、複数のドメインで信頼性の高い多様な画像を生成する必要があるため、新しい画像の合成は、特に多領域翻訳において非常に困難である。 本稿では,画像から画像への変換作業を支援するための画像検索システムを提案する。 まず、画像から画像への変換モデルを訓練し、画像を複数のドメインにマップする。 そして、実画像と生成画像を用いて画像検索モデルを訓練し、コンテンツではなく異なるドメインでクエリ画像に似た画像を見つける。 最後に,画像検索システムを用いて画像間変換モデルを微調整し,高品質な画像を生成する。 本研究は,提案手法の有効性を示し,ラベルなしデータの追加による検索ネットワークの寄与を強調し,不足データの存在下での画像間翻訳モデルを支援する。

Image to image translation aims to learn a mapping that transforms an image from one visual domain to another. Recent works assume that images descriptors can be disentangled into a domain-invariant content representation and a domain-specific style representation. Thus, translation models seek to preserve the content of source images while changing the style to a target visual domain. However, synthesizing new images is extremely challenging especially in multi-domain translations, as the network has to compose content and style to generate reliable and diverse images in multiple domains. In this paper we propose the use of an image retrieval system to assist the image-to-image translation task. First, we train an image-to-image translation model to map images to multiple domains. Then, we train an image retrieval model using real and generated images to find images similar to a query one in content but in a different domain. Finally, we exploit the image retrieval system to fine-tune the image-to-image translation model and generate higher quality images. Our experiments show the effectiveness of the proposed solution and highlight the contribution of the retrieval network, which can benefit from additional unlabeled data and help image-to-image translation models in the presence of scarce data.
翻訳日:2022-10-31 12:04:38 公開日:2020-08-11
# VI-Net:人間の運動評価の視点不変品質

VI-Net: View-Invariant Quality of Human Movement Assessment ( http://arxiv.org/abs/2008.04999v1 )

ライセンス: Link先を確認
Faegheh Sardari, Adeline Paiement, Sion Hannuna, and Majid Mirmehdi(参考訳) 本研究では,骨格データに依存しない人間の動作の質を評価するためのビュー不変手法を提案する。 我々のエンドツーエンドの畳み込みニューラルネットワークは、まずRGB画像から各関節のビュー不変軌跡記述子を生成し、その後、適応された2D CNN(例えば、VGG-19やResNeXt-50)によって全ての関節の軌跡の収集処理を行い、異なる身体部位間の関係を学習し、運動品質のスコアを提供する。 公開されているのは,マルチビュー,非スケルトン,非mocap,リハビリテーションムーブメントデータセット(qmar)のみであり,このデータセット上のクロスサブジェクトとクロスビューの両方のシナリオの結果を提供する。 VI-Netは,2つの視点でのみトレーニングした場合に,横オブジェクトの平均ランク相関が0.66,未知ビューで0.65となることを示す。 また,単一視点リハビリテーションデータセット kimore における提案手法を評価し,ベースライン 0.62 に対して 0.66 ランク相関を得た。

We propose a view-invariant method towards the assessment of the quality of human movements which does not rely on skeleton data. Our end-to-end convolutional neural network consists of two stages, where at first a view-invariant trajectory descriptor for each body joint is generated from RGB images, and then the collection of trajectories for all joints are processed by an adapted, pre-trained 2D CNN (e.g. VGG-19 or ResNeXt-50) to learn the relationship amongst the different body parts and deliver a score for the movement quality. We release the only publicly-available, multi-view, non-skeleton, non-mocap, rehabilitation movement dataset (QMAR), and provide results for both cross-subject and cross-view scenarios on this dataset. We show that VI-Net achieves average rank correlation of 0.66 on cross-subject and 0.65 on unseen views when trained on only two views. We also evaluate the proposed method on the single-view rehabilitation dataset KIMORE and obtain 0.66 rank correlation against a baseline of 0.62.
翻訳日:2022-10-31 12:04:17 公開日:2020-08-11
# コーデックアバターの音声と視線による顔アニメーション

Audio- and Gaze-driven Facial Animation of Codec Avatars ( http://arxiv.org/abs/2008.05023v1 )

ライセンス: Link先を確認
Alexander Richard, Colin Lea, Shugao Ma, Juergen Gall, Fernando de la Torre, Yaser Sheikh(参考訳) コーデックアバターは、3d(つまり仮想現実)で人の形状とテクスチャを正確に表現し、ビデオとほとんど区別できない、最近の学習されたフォトリアリスティックな顔モデルである。 本稿では,これらのパラメトリックモデルをリアルタイムにアニメーション化するための最初のアプローチについて述べる。 我々の目標は、失った入力信号の潜伏した手がかりからのみ、笑いや興奮といった重要な社会的シグナルを示す個人間の表現的な会話を示すことである。 この結果から,従来の中性音声,表現的・会話的音声を含む3人の被験者を対象に,フレームレート3次元顔スキャンを5時間以上収集した。 本研究では,どのセンサエンコーディングが顔のどの部分をいつでもアニメーション化するべきかを動的に識別するマルチモーダル融合手法について検討する。 競合する作品で見られる通常中立的な唇調音をはるかに超える完全な顔の動きを生成する能力を示す補足ビデオをご覧ください。

Codec Avatars are a recent class of learned, photorealistic face models that accurately represent the geometry and texture of a person in 3D (i.e., for virtual reality), and are almost indistinguishable from video. In this paper we describe the first approach to animate these parametric models in real-time which could be deployed on commodity virtual reality hardware using audio and/or eye tracking. Our goal is to display expressive conversations between individuals that exhibit important social signals such as laughter and excitement solely from latent cues in our lossy input signals. To this end we collected over 5 hours of high frame rate 3D face scans across three participants including traditional neutral speech as well as expressive and conversational speech. We investigate a multimodal fusion approach that dynamically identifies which sensor encoding should animate which parts of the face at any time. See the supplemental video which demonstrates our ability to generate full face motion far beyond the typically neutral lip articulations seen in competing work: https://research.fb.com/videos/audio-and-gaze-driven-facial-animation-of-codec-avatars/
翻訳日:2022-10-31 12:03:56 公開日:2020-08-11
# 短文による文脈強化型ニューラルトピックモデリング

Context Reinforced Neural Topic Modeling over Short Texts ( http://arxiv.org/abs/2008.04545v1 )

ライセンス: Link先を確認
Jiachun Feng, Zusheng Zhang, Cheng Ding, Yanghui Rao and Haoran Xie(参考訳) 話題マイニングツールとして、ニューラルネットワークのトピックモデリングは、高い効率のトレーニングと強力な一般化能力の利点のために多くの関心を集めている。 しかし、各短いテキストにコンテキストが欠如しているため、既存のニューラルトピックモデルはそのような文書の特徴的疎結合に悩まされる可能性がある。 この問題を軽減するために, 以下の特徴を要約できるコンテキスト強化ニューラルトピックモデル(CRNTM)を提案する。 第一に、各短文が少数の有意なトピックのみをカバーしていると仮定することで、CRNTMは各単語のトピックを狭い範囲で推測する。 次に,学習済みの単語埋め込みを多変量ガウス分布やガウス混合分布として扱うことにより活用する。 2つのベンチマークデータセットの大規模な実験は、トピック発見とテキスト分類の両方において提案モデルの有効性を検証する。

As one of the prevalent topic mining tools, neural topic modeling has attracted a lot of interests for the advantages of high efficiency in training and strong generalisation abilities. However, due to the lack of context in each short text, the existing neural topic models may suffer from feature sparsity on such documents. To alleviate this issue, we propose a Context Reinforced Neural Topic Model (CRNTM), whose characteristics can be summarized as follows. Firstly, by assuming that each short text covers only a few salient topics, CRNTM infers the topic for each word in a narrow range. Secondly, our model exploits pre-trained word embeddings by treating topics as multivariate Gaussian distributions or Gaussian mixture distributions in the embedding space. Extensive experiments on two benchmark datasets validate the effectiveness of the proposed model on both topic discovery and text classification.
翻訳日:2022-10-31 12:03:34 公開日:2020-08-11
# 機械学習によるアカウント受信者の予測

Predicting Account Receivables with Machine Learning ( http://arxiv.org/abs/2008.07363v1 )

ライセンス: Link先を確認
Ana Paula Appel, Gabriel Louzada Malfatti, Renato Luiz de Freitas Cunha, Bruno Lima, Rogerio de Paula(参考訳) 請求書がいつ支払われるかを予測することは、複数の業界で価値があり、ほとんどの金融ワークフローで意思決定プロセスをサポートする。 しかし、請求書に関するデータの複雑さと、口座受取可能なシステムに意思決定プロセスが登録されていないという事実から、この予測を行うことが課題となる。 本稿では,請求書の支払い予測において,収集者を支援するプロトタイプを提案する。 このプロトタイプは、多国籍銀行と共同で開発されたソリューションの一部であり、予測精度の最大81%に達し、顧客の優先順位付けを改善し、コレクターの日々の作業をサポートする。 私たちのシミュレーションでは、コレクターの優先順位付けに当社のモデルを採用することで、1ヶ月あたり最大175万ドルを節約できることが示されています。 本稿では,請求書支払予測の問題に対処する研究者や実践者が,実際のデータに現れる問題への対処方法に関する洞察と事例を提供する。

Being able to predict when invoices will be paid is valuable in multiple industries and supports decision-making processes in most financial workflows. However, due to the complexity of data related to invoices and the fact that the decision-making process is not registered in the accounts receivable system, performing this prediction becomes a challenge. In this paper, we present a prototype able to support collectors in predicting the payment of invoices. This prototype is part of a solution developed in partnership with a multinational bank and it has reached up to 81% of prediction accuracy, which improved the prioritization of customers and supported the daily work of collectors. Our simulations show that the adoption of our model to prioritize the work o collectors saves up to ~1.75 million dollars per month. The methodology and results presented in this paper will allow researchers and practitioners in dealing with the problem of invoice payment prediction, providing insights and examples of how to tackle issues present in real data.
翻訳日:2022-10-31 12:03:20 公開日:2020-08-11
# 対象物の離散分布を考慮したクラッタの安全かつ効果的なピッキングパス

Safe and Effective Picking Paths in Clutter given Discrete Distributions of Object Poses ( http://arxiv.org/abs/2008.04465v1 )

ライセンス: Link先を確認
Rui Wang, Chaitanya Mitash, Shiyang Lu, Daniel Boehm, Kostas E. Bekris(参考訳) 他のオブジェクトの存在下でアイテムを選択することは、オクルージョンや部分的なビューを含むため、難しい場合があります。 オブジェクトモデルが与えられた場合、オブジェクトのポーズ推定を行い、最も可能性の高い候補のポーズを使用して衝突することなくターゲットを選択する。 しかし、このアプローチは、ターゲットと周囲の物体のポーズの両方に関して知覚過程の不確実性を無視している。 本研究は,まず6次元ポーズ推定の知覚過程を提案し,シーン内のオブジェクトポーズの離散分布を返却する。 次に,ロボットアームをピックに移動させる安全かつ効果的なソリューションを返却するために,オープンループ計画パイプラインを提案する。 (a)閉塞対象物との衝突の確率を最小化する。 (b)目標項目に到達する確率を最大化する。 計画フレームワークは、最小制約除去問題(mcr)の確率的変種としてチャレンジをモデル化する。 この手法の有効性はシミュレーションデータと実データの両方を用いて異なるシナリオで検証される。 実験は,安全実行の観点から知覚過程の不確実性を考慮することの重要性を実証した。 また、この手法は、報告された不確実性にかかわらず全ての可能な対象が成立することを避けるため、保守的なmcrアプローチよりも有効であることも示されている。

Picking an item in the presence of other objects can be challenging as it involves occlusions and partial views. Given object models, one approach is to perform object pose estimation and use the most likely candidate pose per object to pick the target without collisions. This approach, however, ignores the uncertainty of the perception process both regarding the target's and the surrounding objects' poses. This work proposes first a perception process for 6D pose estimation, which returns a discrete distribution of object poses in a scene. Then, an open-loop planning pipeline is proposed to return safe and effective solutions for moving a robotic arm to pick, which (a) minimizes the probability of collision with the obstructing objects; and (b) maximizes the probability of reaching the target item. The planning framework models the challenge as a stochastic variant of the Minimum Constraint Removal (MCR) problem. The effectiveness of the methodology is verified given both simulated and real data in different scenarios. The experiments demonstrate the importance of considering the uncertainty of the perception process in terms of safe execution. The results also show that the methodology is more effective than conservative MCR approaches, which avoid all possible object poses regardless of the reported uncertainty.
翻訳日:2022-10-31 12:03:04 公開日:2020-08-11
# モントリオールai倫理研究所がmiraのコンタクト追跡アプリの提案に応えて作成したレポート

Report prepared by the Montreal AI Ethics Institute In Response to Mila's Proposal for a Contact Tracing App ( http://arxiv.org/abs/2008.04530v1 )

ライセンス: Link先を確認
Allison Cohen (1 and 2) and Abhishek Gupta (1 and 3) ((1) Montreal AI Ethics Institute, (2) AI Global, and (3) Microsoft)(参考訳) 接触者追跡は、新型コロナウイルス(covid-19)パンデミックに対する有望な解決策として人気が高まっている。 自動連絡先追跡の利点は2つある。 接触追跡は感染数を減らすことを約束している。 1) 感染した者と接触した者をすべて体系的に識別すること,及び 2)ウイルスに感染した患者が無意識に他人に感染しないようにすること。 COVI」は、ミラが開発し、カナダで新型コロナウイルスと戦うために提案した接触追跡アプリの名前である。 このアプリは、各個人にウイルスに感染する相対的なリスクを知らせるように設計されており、miraは、市民が自分の動きについて情報に基づいて判断し、公衆衛生政策へのデータ駆動アプローチを可能にすると主張している。 この記事では、Mila氏のCOVIホワイトペーパーに批判的な反応を提供する。 具体的には、アプリの設計において多様性が考慮された範囲、ユーザとアプリのユーティリティとのインタラクションに関する仮定、透明性、説明責任、セキュリティに関する未回答の質問について論じる。 これは、COVIチームが行った優れたリスク分析を補完して、世界中で開発およびデプロイされている他のコンタクトおよび近接トレースアプリに適用可能な洞察を提示する機会であると考えています。 私たちの望みは、意味のある対話を通じて、これらのソリューションが提供しようとするコミュニティの基本的権利と価値を尊重するより良いソリューションを開発するのを最終的に支援できるということです。

Contact tracing has grown in popularity as a promising solution to the COVID-19 pandemic. The benefits of automated contact tracing are two-fold. Contact tracing promises to reduce the number of infections by being able to: 1) systematically identify all of those that have been in contact with someone who has had COVID; and, 2) ensure those that have been exposed to the virus do not unknowingly infect others. "COVI" is the name of a recent contact tracing app developed by Mila and was proposed to help combat COVID-19 in Canada. The app was designed to inform each individual of their relative risk of being infected with the virus, which Mila claimed would empower citizens to make informed decisions about their movement and allow for a data-driven approach to public health policy; all the while ensuring data is safeguarded from governments, companies, and individuals. This article will provide a critical response to Mila's COVI White Paper. Specifically, this article will discuss: the extent to which diversity has been considered in the design of the app, assumptions surrounding users' interaction with the app and the app's utility, as well as unanswered questions surrounding transparency, accountability, and security. We see this as an opportunity to supplement the excellent risk analysis done by the COVI team to surface insights that can be applied to other contact- and proximity-tracing apps that are being developed and deployed across the world. Our hope is that, through a meaningful dialogue, we can ultimately help organizations develop better solutions that respect the fundamental rights and values of the communities these solutions are meant to serve.
翻訳日:2022-10-31 12:02:47 公開日:2020-08-11
# オペレーティング・シアター・プランニングとスケジューリングのためのメタヒューリスティックス:体系的レビュー

Metaheuristics for the operating theater planning and scheduling: A systematic review ( http://arxiv.org/abs/2008.04970v1 )

ライセンス: Link先を確認
Amirhossein Moosavi and Onur Ozturk(参考訳) 劇場の計画とスケジューリングの問題を研究している多くの論文が見つかっている。 この問題の異なる変種は一般にNP完全であると認識されており、これらの複雑な問題に対処するためにいくつかの解法が文献で利用されてきた。 ソリューションアプローチの主な特徴に関する徹底したレビューの欠如は、実践者や将来の研究プロジェクトに対して実践的なガイドラインを提供できる文学(それらを別々にレビューし、研究課題の特徴について検討する)において顕著である。 本稿ではこの問題に対処することを目的とする。 異なる種類の解法は通常異なる特性を持つため、本論文はメタヒューリスティックなアルゴリズムのみに焦点をあてる。 自動探索法と手動探索法の両方を通して,28の論文を主課題と解決法について選択・レビューした。 最後に、今後の研究の方向性を紹介する。

There are found a vast number of papers studying the problem of operating theater planning and scheduling. Different variants of this problem are generally recognized to be NP-complete; thus, several solution approaches have been utilized in the literature to confront with these complicated problems. The lack of a thorough review of the main characteristics of solution approaches is tangible in the literature (reviewing them separately and with regards to the characteristics of studied problems), which can provide pragmatic guidelines for practitioners and future research projects. This paper aims to address this issue. Since different types of solution approaches usually have different characteristics, this paper focuses only on metaheuristic algorithms. Through both automatic and manual search methods, we have selected and reviewed 28 papers with respect to their main problem and solution approach features. Finally, some directions are introduced for future research.
翻訳日:2022-10-31 12:01:40 公開日:2020-08-11
# 単一画像からの注意に基づく3次元物体再構成

Attention-based 3D Object Reconstruction from a Single Image ( http://arxiv.org/abs/2008.04738v1 )

ライセンス: Link先を確認
Andrey Salvi and Nathan Gavenski and Eduardo Pooch and Felipe Tasoniero and Rodrigo Barros(参考訳) 近年,3dプリンタ,自律型ロボット,自動運転車,仮想現実,拡張現実など,最新の応用により,2d画像からの3d再構成のための学習ベースのアプローチが普及している。 コンピュータビジョンコミュニティは、オブジェクトとシーンの完全な3d幾何学を再構築する機能の開発に多大な努力を払った。 しかし、画像の特徴を抽出するためには、長距離依存を捉えない畳み込みニューラルネットワークに依存している。 本稿では,3次元物体復元のための最先端手法である占有ネットワークの大幅な改善を提案する。 そのため,ネットワークのエンコーダ内に自己アテンションという概念を適用し,局所領域に基づく入力よりも補完的な入力特徴を活用し,エンコーダによるグローバル情報抽出を支援する。 このアプローチでは,メッシュiouの5.5%,正規整合性の0.83%,chamfer-l1距離の10倍以上で元の作業を改善することができた。 我々はまた、我々のアプローチがより一貫性のあるメッシュを生成することができたことを示す定性的な研究を行い、現在の最先端技術に対する一般化能力の増大を確認した。

Recently, learning-based approaches for 3D reconstruction from 2D images have gained popularity due to its modern applications, e.g., 3D printers, autonomous robots, self-driving cars, virtual reality, and augmented reality. The computer vision community has applied a great effort in developing functions to reconstruct the full 3D geometry of objects and scenes. However, to extract image features, they rely on convolutional neural networks, which are ineffective in capturing long-range dependencies. In this paper, we propose to substantially improve Occupancy Networks, a state-of-the-art method for 3D object reconstruction. For such we apply the concept of self-attention within the network's encoder in order to leverage complementary input features rather than those based on local regions, helping the encoder to extract global information. With our approach, we were capable of improving the original work in 5.05% of mesh IoU, 0.83% of Normal Consistency, and more than 10X the Chamfer-L1 distance. We also perform a qualitative study that shows that our approach was able to generate much more consistent meshes, confirming its increased generalization power over the current state-of-the-art.
翻訳日:2022-10-31 11:55:09 公開日:2020-08-11
# HydraMix-Net: 細胞検出と分類のための深層マルチタスク半教師付き学習手法

HydraMix-Net: A Deep Multi-task Semi-supervised Learning Approach for Cell Detection and Classification ( http://arxiv.org/abs/2008.04753v1 )

ライセンス: Link先を確認
R.M. Saad Bashir, Talha Qaiser, Shan E Ahmed Raza, Nasir M. Rajpoot(参考訳) 半教師付き手法は、モデルの性能を向上させるために非ラベル付きデータを活用することで、大規模ラベリングセットの障壁を取り除く。 本稿では,ラベル付けに時間を要する医療画像の分野で,HydraMix-Netを用いた半教師付き深層マルチタスク分類とローカライズ手法を提案する。 第一に、擬似ラベルは、平均化を伴う非ラベル画像の強化セットに対するモデルの予測を用いて生成される。 高エントロピー予測はさらに研削され、エントロピーが減少し、訓練用にラベル付きセットと混合される。 このモデルは,マルチタスク学習方式で学習し,ノイズ耐性ジョイントロスを用いた分類局所化を行い,単純な深層モデルとは対照的に限られたデータを与えると性能が向上する。 DLBCLデータでは、単純なCNNとは対照的に、100個のラベル付き例しか与えられていない場合、70%の精度が得られる。

Semi-supervised techniques have removed the barriers of large scale labelled set by exploiting unlabelled data to improve the performance of a model. In this paper, we propose a semi-supervised deep multi-task classification and localization approach HydraMix-Net in the field of medical imagining where labelling is time consuming and costly. Firstly, the pseudo labels are generated using the model's prediction on the augmented set of unlabelled image with averaging. The high entropy predictions are further sharpened to reduced the entropy and are then mixed with the labelled set for training. The model is trained in multi-task learning manner with noise tolerant joint loss for classification localization and achieves better performance when given limited data in contrast to a simple deep model. On DLBCL data it achieves 80\% accuracy in contrast to simple CNN achieving 70\% accuracy when given only 100 labelled examples.
翻訳日:2022-10-31 11:54:48 公開日:2020-08-11
# 異性回帰ネットワークにおけるステレオマッチングの学習

Learning Stereo Matchability in Disparity Regression Networks ( http://arxiv.org/abs/2008.04800v1 )

ライセンス: Link先を確認
Jingyang Zhang, Yao Yao, Zixin Luo, Shiwei Li, Tianwei Shen, Tian Fang, Long Quan(参考訳) 学習ベースのステレオマッチングは、最近有望な結果を得たが、テクスチャレス、非ランバータリアン、または閉塞された弱いマッチング可能な領域における信頼性の高いマッチングを確立するのに苦慮している。 本稿では,画素間マッチング性を考慮したステレオマッチングネットワークを提案することで,この課題を解決する。 具体的には、3次元の確率体積から期待とエントロピーの操作を通じて、ネットワークは相違と整合性マップを共同で回帰させる。 次に、学習した減衰をロバスト損失関数として適用し、トレーニングにおける弱整合画素の影響を緩和する。 最後に, 弱整合領域における深さ推定を改善するため, 適合性に着目した不一致補正を導入する。 提案するdeep stereo matchability(dsm)フレームワークは、品質を保証しつつ、マッチング結果を改善したり、計算を加速することができる。 さらに、DSMフレームワークは多くの最近のステレオネットワークに移植可能である。 最先端学習に基づくステレオ手法に対する提案フレームワークの有効性を示すため,シーンフローとkittiステレオデータセットについて広範な実験を行った。

Learning-based stereo matching has recently achieved promising results, yet still suffers difficulties in establishing reliable matches in weakly matchable regions that are textureless, non-Lambertian, or occluded. In this paper, we address this challenge by proposing a stereo matching network that considers pixel-wise matchability. Specifically, the network jointly regresses disparity and matchability maps from 3D probability volume through expectation and entropy operations. Next, a learned attenuation is applied as the robust loss function to alleviate the influence of weakly matchable pixels in the training. Finally, a matchability-aware disparity refinement is introduced to improve the depth inference in weakly matchable regions. The proposed deep stereo matchability (DSM) framework can improve the matching result or accelerate the computation while still guaranteeing the quality. Moreover, the DSM framework is portable to many recent stereo networks. Extensive experiments are conducted on Scene Flow and KITTI stereo datasets to demonstrate the effectiveness of the proposed framework over the state-of-the-art learning-based stereo methods.
翻訳日:2022-10-31 11:54:06 公開日:2020-08-11
# クロスモデル対応のための統一表現学習

Unified Representation Learning for Cross Model Compatibility ( http://arxiv.org/abs/2008.04821v1 )

ライセンス: Link先を確認
Chien-Yi Wang, Ya-Liang Chang, Shang-Ta Yang, Dong Chen, Shang-Hong Lai(参考訳) 本稿では,ビジュアル検索アプリケーションのコンテキストにおいて,CMC(Cross Model Compatibility)問題に対処するための統一表現学習フレームワークを提案する。 異なる埋め込みモデル間の相互互換性により、視覚検索システムはユーザのイメージを再エンコードすることなく、アイデンティティを正しく認識し、取得することができる。 顔認証においてCMCに対処するアプローチは存在するが、埋め込みモデルの分布が劇的に変化するような、より困難な環境では機能しない。 提案手法は,軽量なResidual Bottleneck Transformation (RBT)モジュールと,埋め込み空間を最適化する新たなトレーニングスキームを導入することにより,MCC性能を向上させる。 大規模な実験により,提案手法は顔認識と人物再同定の難解な視覚検索シナリオにおいて,従来の手法よりも優れた性能を示した。

We propose a unified representation learning framework to address the Cross Model Compatibility (CMC) problem in the context of visual search applications. Cross compatibility between different embedding models enables the visual search systems to correctly recognize and retrieve identities without re-encoding user images, which are usually not available due to privacy concerns. While there are existing approaches to address CMC in face identification, they fail to work in a more challenging setting where the distributions of embedding models shift drastically. The proposed solution improves CMC performance by introducing a light-weight Residual Bottleneck Transformation (RBT) module and a new training scheme to optimize the embedding spaces. Extensive experiments demonstrate that our proposed solution outperforms previous approaches by a large margin for various challenging visual search scenarios of face recognition and person re-identification.
翻訳日:2022-10-31 11:53:49 公開日:2020-08-11
# TransNet V2: 高速ショット遷移検出のための効果的なディープネットワークアーキテクチャ

TransNet V2: An effective deep network architecture for fast shot transition detection ( http://arxiv.org/abs/2008.04838v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Sou\v{c}ek and Jakub Loko\v{c}(参考訳) 自動ショット遷移検出手法はすでに20年以上研究されてきたが、有効な普遍的人間レベルモデルはまだ提案されていない。 ハードカットや簡単な段階的な変更など、一般的なショット遷移であっても、分析されたビデオコンテンツの多様性は、偽のヒットと偽の解雇の両方につながる可能性がある。 近年,3次元畳み込みアーキテクチャと人工的なトレーニングデータを用いたショット遷移検出の精度が向上した。 とはいえ、100パーセントの精度はまだ到達不能な理想だ。 本稿では、上位ベンチマークで最先端の性能に達するディープネットワークTransNet V2の現バージョンを共有する。 トレーニングされたモデルのインスタンスが提供され、コミュニティによって即座に大きなビデオアーカイブの高効率な分析に利用することができる。 さらに、ネットワークアーキテクチャ、およびトレーニングプロセスでの我々の経験を詳述し、提案モデルの便利な利用のための簡単なコードスニペットや結果の可視化などについて述べる。

Although automatic shot transition detection approaches are already investigated for more than two decades, an effective universal human-level model was not proposed yet. Even for common shot transitions like hard cuts or simple gradual changes, the potential diversity of analyzed video contents may still lead to both false hits and false dismissals. Recently, deep learning-based approaches significantly improved the accuracy of shot transition detection using 3D convolutional architectures and artificially created training data. Nevertheless, one hundred percent accuracy is still an unreachable ideal. In this paper, we share the current version of our deep network TransNet V2 that reaches state-of-the-art performance on respected benchmarks. A trained instance of the model is provided so it can be instantly utilized by the community for a highly efficient analysis of large video archives. Furthermore, the network architecture, as well as our experience with the training process, are detailed, including simple code snippets for convenient usage of the proposed model and visualization of results.
翻訳日:2022-10-31 11:53:35 公開日:2020-08-11
# プランテーション

Planimation ( http://arxiv.org/abs/2008.04600v1 )

ライセンス: Link先を確認
Gang Chen, Yi Ding, Hugo Edwards, Chong Hin Chau, Sai Hou, Grace Johnson, Mohammed Sharukh Syed, Haoyuan Tang, Yue Wu, Ye Yan, Gil Tidhar and Nir Lipovetzky(参考訳) Planimationは、PDDLで指定された計画問題のシーケンシャルな解決策を視覚化する、モジュラーで拡張可能なオープンソースフレームワークである。 任意の初期状態と目標のアニメーションを単一のプロファイルで合成するのに十分な表現力を持つ,事前宣言型pddlライクなアニメーションプロファイル仕様を導入する。

Planimation is a modular and extensible open source framework to visualise sequential solutions of planning problems specified in PDDL. We introduce a preliminary declarative PDDL-like animation profile specification, expressive enough to synthesise animations of arbitrary initial states and goals of a benchmark with just a single profile.
翻訳日:2022-10-31 11:45:59 公開日:2020-08-11
# keypoint autoencoders: セマンティクスの関心点を学ぶ

Keypoint Autoencoders: Learning Interest Points of Semantics ( http://arxiv.org/abs/2008.04502v1 )

ライセンス: Link先を確認
Ruoxi Shi, Zhengrong Xue, Xinyang Li(参考訳) ポイントクラウドを理解することが非常に重要です。 従来の多くの手法は、点雲のアイデンティティ構造に対する有意なキーポイントの検出に重点を置いていた。 しかし、既存のメソッドは選択されたポイントの意味を無視し、下流タスクのパフォーマンスが低下する。 本稿では,キーポイント検出のための教師なし学習手法であるkeypoint autoencoderを提案する。 キーポイントから元のポイントクラウドへの再構成を強制することで、疎いセマンティックキーポイントの選択を奨励する。 スパースキーポイント選択を微分可能にするために、入力ポイント間の重み付け平均を計算することでソフトキーポイント提案を採用する。 選択したキーポイントの特異性を示すために、スパースキーポイントで形状を分類する下流タスクを行う。 意味的正確性と意味的豊かさが提案され,この2つの指標における最先端技術よりも,競争的,あるいはさらに優れたパフォーマンスが得られている。

Understanding point clouds is of great importance. Many previous methods focus on detecting salient keypoints to identity structures of point clouds. However, existing methods neglect the semantics of points selected, leading to poor performance on downstream tasks. In this paper, we propose Keypoint Autoencoder, an unsupervised learning method for detecting keypoints. We encourage selecting sparse semantic keypoints by enforcing the reconstruction from keypoints to the original point cloud. To make sparse keypoint selection differentiable, Soft Keypoint Proposal is adopted by calculating weighted averages among input points. A downstream task of classifying shape with sparse keypoints is conducted to demonstrate the distinctiveness of our selected keypoints. Semantic Accuracy and Semantic Richness are proposed and our method gives competitive or even better performance than state of the arts on these two metrics.
翻訳日:2022-10-31 11:45:39 公開日:2020-08-11
# 擬似LiDAR表現の再考

Rethinking Pseudo-LiDAR Representation ( http://arxiv.org/abs/2008.04582v1 )

ライセンス: Link先を確認
Xinzhu Ma, Shinan Liu, Zhiyi Xia, Hongwen Zhang, Xingyu Zeng and Wanli Ouyang(参考訳) 最近提案された擬似LiDARベースの3D検出器は、単分子/ステレオ3D検出タスクのベンチマークを大幅に改善した。 しかし、基礎となるメカニズムは研究コミュニティには明らかでない。 本稿では,疑似ライダー表現の有効性について,データ表現そのものではなく,座標変換による検証を行う。 この観測に基づいて、より一般化され、擬似LiDARベースの3D検出器としてインスタンス化できるPatch-Netという画像ベースのCNN検出器を設計する。 さらに,PatchNetにおける擬似LiDARデータを画像表現として整理することにより,既存の2次元CNN設計を入力データから深部特徴抽出や3次元検出性能の向上に活用することができる。 提案するpatchnetが既存の疑似ライダーベースのデータセットのすべてを上回る,挑戦的なkittiデータセットに関する広範な実験を行う。 コードはhttps://github.com/xinzhuma/patchnet.comで公開されている。

The recently proposed pseudo-LiDAR based 3D detectors greatly improve the benchmark of monocular/stereo 3D detection task. However, the underlying mechanism remains obscure to the research community. In this paper, we perform an in-depth investigation and observe that the efficacy of pseudo-LiDAR representation comes from the coordinate transformation, instead of data representation itself. Based on this observation, we design an image based CNN detector named Patch-Net, which is more generalized and can be instantiated as pseudo-LiDAR based 3D detectors. Moreover, the pseudo-LiDAR data in our PatchNet is organized as the image representation, which means existing 2D CNN designs can be easily utilized for extracting deep features from input data and boosting 3D detection performance. We conduct extensive experiments on the challenging KITTI dataset, where the proposed PatchNet outperforms all existing pseudo-LiDAR based counterparts. Code has been made available at: https://github.com/xinzhuma/patchnet.
翻訳日:2022-10-31 11:44:58 公開日:2020-08-11
# 物流環境における全自動包装構造認識

Fully-Automated Packaging Structure Recognition in Logistics Environments ( http://arxiv.org/abs/2008.04620v1 )

ライセンス: Link先を確認
Laura D\"orr, Felix Brandt, Martin Pouls, Alexander Naumann(参考訳) 物流サプライチェーン内では、多くの異なるネットワークポイントで、さまざまな輸送品を扱い、認識し、チェックする必要がある。 多くの場合、パケットのアイデンティティやパッケージング構造を認識または検証するために、大規模な手作業が関与します。 一つの画像に基づいて1つまたは複数の搬送ユニットが局所化され、各搬送ユニットの特性、総数、包装ユニットの配置が認識されるパッケージ構造認識の完全自動化手法を提案する。 我々のアルゴリズムは、深層学習モデル、より正確に畳み込みニューラルネットワーク、例えば画像のセグメンテーション、コンピュータビジョン手法やヒューリスティックコンポーネントに基づいています。 本手法の訓練と評価には,現実的な物流画像のカスタムデータセットを使用する。 テストケースの約85%でパッケージ構造を正しく認識することができ、さらに一般的なパッケージタイプに注目する場合(91%)にさらに多くのパッケージ構造を認識できることを示す。

Within a logistics supply chain, a large variety of transported goods need to be handled, recognized and checked at many different network points. Often, huge manual effort is involved in recognizing or verifying packet identity or packaging structure, for instance to check the delivery for completeness. We propose a method for complete automation of packaging structure recognition: Based on a single image, one or multiple transport units are localized and, for each of these transport units, the characteristics, the total number and the arrangement of its packaging units is recognized. Our algorithm is based on deep learning models, more precisely convolutional neural networks for instance segmentation in images, as well as computer vision methods and heuristic components. We use a custom data set of realistic logistics images for training and evaluation of our method. We show that the solution is capable of correctly recognizing the packaging structure in approximately 85% of our test cases, and even more (91%) when focusing on most common package types.
翻訳日:2022-10-31 11:44:43 公開日:2020-08-11
# 高速かつ高精度な光流れに基づく光場からの深度マップ推定

Fast and Accurate Optical Flow based Depth Map Estimation from Light Fields ( http://arxiv.org/abs/2008.04673v1 )

ライセンス: Link先を確認
Yang Chen, Martin Alain, Aljosa Smolic(参考訳) 深度マップ推定はコンピュータビジョンにおいて重要な課題であり、この新たな画像モダリティは、立体画像やマルチビューに基づく一般的なアプローチに比べて、光線の角方向に関する多くの情報を取得するため、近年、光場を利用した新しいアプローチが出現している。 本稿では,既存の光流推定法に基づく光場からの新たな深度推定法を提案する。 光流推定器は、光場の角次元に沿って撮影された一連の画像に適用され、いくつかの不均一マップ推定を生成する。 精度と効率の両面から,光学フロー推定器として特徴流法を選択する。 時空間的エッジアウェアフィルタリング特性のおかげで、我々が求めた異なるディパリティマップ推定は非常に一貫性があり、高速で単純なアグリゲーションステップで単一のディパリティマップを作成し、深度マップに変換することができる。 差点マップの推定値は一貫しているため、各差点推定値から深度マップを作成し、3d空間内の異なる深さマップを集約して、単一の密な深さマップを作成することもできる。

Depth map estimation is a crucial task in computer vision, and new approaches have recently emerged taking advantage of light fields, as this new imaging modality captures much more information about the angular direction of light rays compared to common approaches based on stereoscopic images or multi-view. In this paper, we propose a novel depth estimation method from light fields based on existing optical flow estimation methods. The optical flow estimator is applied on a sequence of images taken along an angular dimension of the light field, which produces several disparity map estimates. Considering both accuracy and efficiency, we choose the feature flow method as our optical flow estimator. Thanks to its spatio-temporal edge-aware filtering properties, the different disparity map estimates that we obtain are very consistent, which allows a fast and simple aggregation step to create a single disparity map, which can then converted into a depth map. Since the disparity map estimates are consistent, we can also create a depth map from each disparity estimate, and then aggregate the different depth maps in the 3D space to create a single dense depth map.
翻訳日:2022-10-31 11:44:07 公開日:2020-08-11
# 効率的な光電場サブサンプリングと再構成戦略に関する研究

A Study of Efficient Light Field Subsampling and Reconstruction Strategies ( http://arxiv.org/abs/2008.04694v1 )

ライセンス: Link先を確認
Yang Chen, Martin Alain, Aljosa Smolic(参考訳) 狭角分解能は光の応用における主要な障害の一つである。 角分解能を高めるために多くのアプローチが提案されているが、この領域ではビュー選択戦略が十分に研究されていない。 本稿では,光分野におけるサブサンプリングと再構築戦略について検討する。 まず,行ワイドサンプリング,列ワイドサンプリング,あるいはそれらの組み合わせなど,異なるサブサンプリング戦略を固定サンプリング比で検討する。 第2に、定期的にサンプリングされた4つの入力ビューから中間ビューを再構築するためのいくつかの戦略を検討する。 また、入力の角密度の影響も評価した。 これらの戦略を実世界と合成データの両方で評価し, 最適な選択戦略を考案した。 これらは圧縮、角超解像、カメラシステムの設計といった将来の光分野の研究に応用できる。

Limited angular resolution is one of the main obstacles for practical applications of light fields. Although numerous approaches have been proposed to enhance angular resolution, view selection strategies have not been well explored in this area. In this paper, we study subsampling and reconstruction strategies for light fields. First, different subsampling strategies are studied with a fixed sampling ratio, such as row-wise sampling, column-wise sampling, or their combinations. Second, several strategies are explored to reconstruct intermediate views from four regularly sampled input views. The influence of the angular density of the input is also evaluated. We evaluate these strategies on both real-world and synthetic datasets, and optimal selection strategies are devised from our results. These can be applied in future light field research such as compression, angular super-resolution, and design of camera systems.
翻訳日:2022-10-31 11:43:48 公開日:2020-08-11
# campus3d: 屋外シーンの階層的理解のためのフォトグラメトリーポイントクラウドベンチマーク

Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical Understanding of Outdoor Scene ( http://arxiv.org/abs/2008.04968v1 )

ライセンス: Link先を確認
Xinke Li, Chongshou Li, Zekun Tong, Andrew Lim, Junsong Yuan, Yuwei Wu, Jing Tang, Raymond Huang(参考訳) 3Dシーンベースのポイントクラウドでの学習は多くの分野において有望な応用として広く注目を集めており、十分に注釈付けされたマルチソースデータセットは、これらのデータ駆動型アプローチの開発を促進することができる。 この領域の研究を容易にするために,複数の屋外シーン理解タスクのためのリッチアノテートな3dポイントクラウドデータセットと,その階層的セグメンテーションタスクのための効果的な学習フレームワークを提案する。 データセットは、シンガポール国立大学(NUS)キャンパスの無人航空機(UAV)画像のフォトグラム処理によって生成され、階層的およびインスタンスベースのラベルでポイントワイズで注釈付けされている。 そこで我々は,3次元点雲分割のための階層的学習問題を定式化し,各階層間の整合性を評価する手法を提案する。 この問題を解決するために,マルチタスク学習(MT)と階層アンサンブル(HE)を含む2段階の手法を提案する。 実験の結果,提案手法の優位性と階層的アノテーションの潜在的な利点が示された。 さらに、データセットとすべてのソースコードでhttps://3d.dataset.siteでオンラインでアクセス可能なセグメンテーションとインスタンスセグメンテーションの結果をベンチマークする。

Learning on 3D scene-based point cloud has received extensive attention as its promising application in many fields, and well-annotated and multisource datasets can catalyze the development of those data-driven approaches. To facilitate the research of this area, we present a richly-annotated 3D point cloud dataset for multiple outdoor scene understanding tasks and also an effective learning framework for its hierarchical segmentation task. The dataset was generated via the photogrammetric processing on unmanned aerial vehicle (UAV) images of the National University of Singapore (NUS) campus, and has been point-wisely annotated with both hierarchical and instance-based labels. Based on it, we formulate a hierarchical learning problem for 3D point cloud segmentation and propose a measurement evaluating consistency across various hierarchies. To solve this problem, a two-stage method including multi-task (MT) learning and hierarchical ensemble (HE) with consistency consideration is proposed. Experimental results demonstrate the superiority of the proposed method and potential advantages of our hierarchical annotations. In addition, we benchmark results of semantic and instance segmentation, which is accessible online at https://3d.dataset.site with the dataset and all source codes.
翻訳日:2022-10-31 11:29:44 公開日:2020-08-11
# 定量的サセプティビリティマッピングのための学習した近位ネットワーク

Learned Proximal Networks for Quantitative Susceptibility Mapping ( http://arxiv.org/abs/2008.05024v1 )

ライセンス: Link先を確認
Kuo-Wei Lai, Manisha Aggarwal, Peter van Zijl, Xu Li, Jeremias Sulam(参考訳) 定量的磁化率マッピング(qsm)は、不適切な双極子反転問題を解いて、mr位相測定から組織磁化率分布を推定する。 従来の単方向QSM法では、通常、そのような逆転を安定化するために正規化戦略を用いるが、ストレートアーティファクトや過度なスムーシングに悩まされることがある。 マルチオリエンテーションサンプリング(COSMOS)による感受性の計算などのマルチオリエンテーションQSMは、よく条件付き逆転とアーティファクトフリーソリューションを提供するが、高価な買収コストがかかる。 一方、畳み込みニューラルネットワーク(cnn)は、しばしば限定的な解釈性を持つが、医用画像再構成において大きな可能性を秘めている。 本稿では,QSM双極子反転問題を反復的近位勾配勾配法で解くための学習近位畳み込みニューラルネットワーク(LP-CNN)を提案する。 このアプローチは、データ駆動修復優先の強みと、双極子畳み込みの物理モデルを考慮した反復解法の明確な解釈可能性を組み合わせたものである。 トレーニング中、LP-CNNはその近性を通して暗黙の正規化子を学習し、フォワード演算子と再構成アルゴリズムにおけるデータ駆動パラメータとの疎結合を可能にする。 さらに重要なのは、このフレームワークは、任意の位相入力測定をアドホック回転や再学習なしに自然に処理できる最初のディープラーニングQSMアプローチであると考えられている。 LP-CNNは,従来の学習法と深層学習法に比較して最先端の再構築結果を提供するとともに,再構築過程の柔軟性を高めることを実証する。

Quantitative Susceptibility Mapping (QSM) estimates tissue magnetic susceptibility distributions from Magnetic Resonance (MR) phase measurements by solving an ill-posed dipole inversion problem. Conventional single orientation QSM methods usually employ regularization strategies to stabilize such inversion, but may suffer from streaking artifacts or over-smoothing. Multiple orientation QSM such as calculation of susceptibility through multiple orientation sampling (COSMOS) can give well-conditioned inversion and an artifact free solution but has expensive acquisition costs. On the other hand, Convolutional Neural Networks (CNN) show great potential for medical image reconstruction, albeit often with limited interpretability. Here, we present a Learned Proximal Convolutional Neural Network (LP-CNN) for solving the ill-posed QSM dipole inversion problem in an iterative proximal gradient descent fashion. This approach combines the strengths of data-driven restoration priors and the clear interpretability of iterative solvers that can take into account the physical model of dipole convolution. During training, our LP-CNN learns an implicit regularizer via its proximal, enabling the decoupling between the forward operator and the data-driven parameters in the reconstruction algorithm. More importantly, this framework is believed to be the first deep learning QSM approach that can naturally handle an arbitrary number of phase input measurements without the need for any ad-hoc rotation or re-training. We demonstrate that the LP-CNN provides state-of-the-art reconstruction results compared to both traditional and deep learning methods while allowing for more flexibility in the reconstruction process.
翻訳日:2022-10-31 11:29:23 公開日:2020-08-11
# 共同学習トピックとトピック特化語埋め込みのためのニューラル生成モデル

A Neural Generative Model for Joint Learning Topics and Topic-Specific Word Embeddings ( http://arxiv.org/abs/2008.04702v1 )

ライセンス: Link先を確認
Lixing Zhu, Yulan He and Deyu Zhou(参考訳) 共同学習トピックとトピック固有の単語埋め込みのための局所的・グローバル的文脈を探索する新しい生成モデルを提案する。 特に、グローバルな潜在トピックが文書間で共有され、そのコンテキスト意味の意味をコードする隠れ意味ベクトルによって単語が生成され、そのコンテキストワードが隠れ意味ベクトルとグローバル潜在トピックの両方に条件付きで生成されると仮定する。 トピックは埋め込みという言葉と共同で訓練される。 訓練されたモデルは、単語を話題に依存した埋め込みにマッピングする。 実験結果から,単語類似度評価と単語感覚の曖昧さの両面において,単語レベルの埋め込み手法よりも優れた結果が得られた。 さらに、既存のニューラルトピックモデルや、トピックと単語埋め込みの合同学習のための他のモデルと比較して、よりコヒーレントなトピックを抽出する。 最後に、モデルが既存の深層文脈化単語埋め込み学習手法と容易に統合され、感情分類などの下流タスクのパフォーマンスがさらに向上する。

We propose a novel generative model to explore both local and global context for joint learning topics and topic-specific word embeddings. In particular, we assume that global latent topics are shared across documents, a word is generated by a hidden semantic vector encoding its contextual semantic meaning, and its context words are generated conditional on both the hidden semantic vector and global latent topics. Topics are trained jointly with the word embeddings. The trained model maps words to topic-dependent embeddings, which naturally addresses the issue of word polysemy. Experimental results show that the proposed model outperforms the word-level embedding methods in both word similarity evaluation and word sense disambiguation. Furthermore, the model also extracts more coherent topics compared with existing neural topic models or other models for joint learning of topics and word embeddings. Finally, the model can be easily integrated with existing deep contextualized word embedding learning methods to further improve the performance of downstream tasks such as sentiment classification.
翻訳日:2022-10-31 11:28:20 公開日:2020-08-11
# テキストからSQLへのハイブリッドランキングネットワーク

Hybrid Ranking Network for Text-to-SQL ( http://arxiv.org/abs/2008.04759v1 )

ライセンス: Link先を確認
Qin Lyu, Kaushik Chakrabarti, Shobhit Hathi, Souvik Kundu, Jianwen Zhang, Zheng Chen(参考訳) 本稿では,テキストからSQLへの事前学習言語モデルの活用方法について検討する。 従来の手法では,すべての列をNL質問と組み合わせ,符号化段階のベース言語モデルに入力することで,基本言語モデルを利用することができた。 そこで我々は,Hybrid Ranking Network(HydraNet)という,カラムワイドなランク付けとデコードに問題を分解し,カラムワイドな出力をSQLクエリに簡単なルールで組み立てる手法を提案する。 このアプローチでは、エンコーダにはnlの質問と1つのコラムが与えられ、bert/robertaがトレーニングした元のタスクと完全に一致するため、事前のアプローチに必要なアドホックプールや追加のエンコーディング層は避けます。 wikisqlデータセットでの実験では、提案手法は非常に効果的であり、リーダーボードの上位に到達している。

In this paper, we study how to leverage pre-trained language models in Text-to-SQL. We argue that previous approaches under utilize the base language models by concatenating all columns together with the NL question and feeding them into the base language model in the encoding stage. We propose a neat approach called Hybrid Ranking Network (HydraNet) which breaks down the problem into column-wise ranking and decoding and finally assembles the column-wise outputs into a SQL query by straightforward rules. In this approach, the encoder is given a NL question and one individual column, which perfectly aligns with the original tasks BERT/RoBERTa is trained on, and hence we avoid any ad-hoc pooling or additional encoding layers which are necessary in prior approaches. Experiments on the WikiSQL dataset show that the proposed approach is very effective, achieving the top place on the leaderboard.
翻訳日:2022-10-31 11:28:02 公開日:2020-08-11
# Sockeye 2 Neural Machine Translation Toolkit at AMTA 2020

The Sockeye 2 Neural Machine Translation Toolkit at AMTA 2020 ( http://arxiv.org/abs/2008.04885v1 )

ライセンス: Link先を確認
Tobias Domhan, Michael Denkowski, David Vilar, Xing Niu, Felix Hieber, Kenneth Heafield(参考訳) 本稿では,sockeye neural machine translation(nmt)ツールキットの近代化版であるsockeye 2を提案する。 新機能には、mxnetのgluon apiを使った単純化されたコードベース、アートモデルアーキテクチャの状態にフォーカス、分散混合精度トレーニング、そして8ビット量子化による効率的なcpuデコーディングが含まれる。 これらの改善は、より高速なトレーニングと推論、より高い自動測定スコア、研究から生産までの道の短さをもたらす。

We present Sockeye 2, a modernized and streamlined version of the Sockeye neural machine translation (NMT) toolkit. New features include a simplified code base through the use of MXNet's Gluon API, a focus on state of the art model architectures, distributed mixed precision training, and efficient CPU decoding with 8-bit quantization. These improvements result in faster training and inference, higher automatic metric scores, and a shorter path from research to production.
翻訳日:2022-10-31 11:27:29 公開日:2020-08-11
# FedSKETCH: スケッチによるコミュニケーション効率とプライベートフェデレーション学習

FedSKETCH: Communication-Efficient and Private Federated Learning via Sketching ( http://arxiv.org/abs/2008.04975v1 )

ライセンス: Link先を確認
Farzin Haddadpour, Belhal Karimi, Ping Li, Xiaoyun Li(参考訳) コミュニケーションの複雑さとプライバシは、多数のデバイスを通じて分散学習を行うことを目標とする、連合学習における2つの重要な課題である。 本研究では,federated learningにおける2つの課題を解決するためにfedsketchアルゴリズムとfeedsketchgateアルゴリズムを導入する。 重要なアイデアは、カウントスケッチを使って局所的な勾配の蓄積を圧縮することであり、したがって、サーバはプライバシを提供する勾配自身にアクセスできない。 さらに,スケッチの低次元化により,通信効率も向上した。 上記のスキームに対して、鋭い収束保証を提供する。 最後に、我々は様々な実験で理論を裏付ける。

Communication complexity and privacy are the two key challenges in Federated Learning where the goal is to perform a distributed learning through a large volume of devices. In this work, we introduce FedSKETCH and FedSKETCHGATE algorithms to address both challenges in Federated learning jointly, where these algorithms are intended to be used for homogeneous and heterogeneous data distribution settings respectively. The key idea is to compress the accumulation of local gradients using count sketch, therefore, the server does not have access to the gradients themselves which provides privacy. Furthermore, due to the lower dimension of sketching used, our method exhibits communication-efficiency property as well. We provide, for the aforementioned schemes, sharp convergence guarantees. Finally, we back up our theory with various set of experiments.
翻訳日:2022-10-31 11:14:14 公開日:2020-08-11
# 階数 1 行列完備に対する交互最小化の漸近収束速度

Asymptotic Convergence Rate of Alternating Minimization for Rank One Matrix Completion ( http://arxiv.org/abs/2008.04988v1 )

ライセンス: Link先を確認
Rui Liu and Alex Olshevsky(参考訳) 最も単純な設定で行列補完の交互最小化について検討する: エントリーの明らかな部分集合からランク1行列を完結する。 我々は、可逆コンセンサス問題の固有値の変動特性により漸近収束率を束縛する。 これにより、ノード数と明らかにされたエントリのグラフの最大の次数という観点から、漸近速度の多項式上界が導かれる。

We study alternating minimization for matrix completion in the simplest possible setting: completing a rank-one matrix from a revealed subset of the entries. We bound the asymptotic convergence rate by the variational characterization of eigenvalues of a reversible consensus problem. This leads to a polynomial upper bound on the asymptotic rate in terms of number of nodes as well as the largest degree of the graph of revealed entries.
翻訳日:2022-10-31 11:14:00 公開日:2020-08-11
# 畳み込みニューラルネットワークを用いた手術用マスク検出とスペクトログラムデータ拡張

Surgical Mask Detection with Convolutional Neural Networks and Data Augmentations on Spectrograms ( http://arxiv.org/abs/2008.04590v1 )

ライセンス: Link先を確認
Steffen Illium, Robert M\"uller, Andreas Sedlmeier and Claudia Linnhoff-Popien(参考訳) 多くの研究分野において、ラベル付きデータセットは取得が難しい。 ここでデータ拡張は、ニューラルネットワークエンジニアリングと分類タスクのコンテキストにおけるトレーニングデータの欠如を克服することを約束する。 ここでのアイデアは、小さな記述不足のトレーニングデータセットの機能分布に過剰に適合するモデルを減らすことである。 音声データのメル・スペクトログラム表現における畳み込みニューラルネットワークの性能向上に関する洞察を収集するために,このようなデータ拡張手法を評価した。 人間の声のサンプルにおける手術用マスク検出の2次分類タスクにおけるデータ拡張の影響を示す(compare challenge 2020)。 また,拡張ロバスト性を考慮した4種類のアーキテクチャも検討した。 結果、ComParEのベースラインのほとんどがパフォーマンスに優れていた。

In many fields of research, labeled datasets are hard to acquire. This is where data augmentation promises to overcome the lack of training data in the context of neural network engineering and classification tasks. The idea here is to reduce model over-fitting to the feature distribution of a small under-descriptive training dataset. We try to evaluate such data augmentation techniques to gather insights in the performance boost they provide for several convolutional neural networks on mel-spectrogram representations of audio data. We show the impact of data augmentation on the binary classification task of surgical mask detection in samples of human voice (ComParE Challenge 2020). Also we consider four varying architectures to account for augmentation robustness. Results show that most of the baselines given by ComParE are outperformed.
翻訳日:2022-10-31 11:13:49 公開日:2020-08-11
# 自律運転における重大性を考慮した意味セグメンテーションのための強化wassersteinトレーニング

Reinforced Wasserstein Training for Severity-Aware Semantic Segmentation in Autonomous Driving ( http://arxiv.org/abs/2008.04751v1 )

ライセンス: Link先を確認
Xiaofeng Liu, Yimeng Zhang, Xiongchang Liu, Song Bai, Site Li, Jane You(参考訳) セマンティックセグメンテーションは、例えば各ピクセルのクラスを予測する自動運転車など、多くの現実世界システムにとって重要である。 近年、深層ネットワークは、クロスエントロピー損失を伴う平均断面積連合(mIoU)において大きな進歩を遂げた。 しかし、クロスエントロピー損失は、誤予測ミスが異なる自動運転車の重大さの違いを基本的に無視することができる。 例えば、道路への車両の予測は、バスとして認識するよりもずっと冗長である。 この難易度を目標として,wassersteinトレーニングフレームワークを開発し,クラス間相関を探究し,その基底メトリックを誤分類重大度として定義する。 ワッサースタイン距離の基底計量は、特定のタスクにおける経験に従って事前に定義することができる。 さらに,最適化の観点から,事前定義された地上距離の増大関数として基底距離を設定することを提案する。 さらに,高忠実度carlaシミュレータを利用するために,基底行列の適応学習方式を提案する。 具体的には、強化された代替学習方式に従う。 CamVidとCityscapesのデータセットによる実験は、ワッサースタインの損失の有効性を実証した。 segnet、enet、fcn、deeplabのネットワークはプラグイン方式で適応することができる。 事前定義された重要なクラスで大幅な改善を行い、シミュレータでずっと長いプレイタイムを実現します。

Semantic segmentation is important for many real-world systems, e.g., autonomous vehicles, which predict the class of each pixel. Recently, deep networks achieved significant progress w.r.t. the mean Intersection-over Union (mIoU) with the cross-entropy loss. However, the cross-entropy loss can essentially ignore the difference of severity for an autonomous car with different wrong prediction mistakes. For example, predicting the car to the road is much more servery than recognize it as the bus. Targeting for this difficulty, we develop a Wasserstein training framework to explore the inter-class correlation by defining its ground metric as misclassification severity. The ground metric of Wasserstein distance can be pre-defined following the experience on a specific task. From the optimization perspective, we further propose to set the ground metric as an increasing function of the pre-defined ground metric. Furthermore, an adaptively learning scheme of the ground matrix is proposed to utilize the high-fidelity CARLA simulator. Specifically, we follow a reinforcement alternative learning scheme. The experiments on both CamVid and Cityscapes datasets evidenced the effectiveness of our Wasserstein loss. The SegNet, ENet, FCN and Deeplab networks can be adapted following a plug-in manner. We achieve significant improvements on the predefined important classes, and much longer continuous playtime in our simulator.
翻訳日:2022-10-31 11:13:38 公開日:2020-08-11
# 3D FLAT : 加速MRIのための学習的獲得軌跡

3D FLAT: Feasible Learned Acquisition Trajectories for Accelerated MRI ( http://arxiv.org/abs/2008.04808v1 )

ライセンス: Link先を確認
Jonathan Alush-Aben, Linor Ackerman-Schraier, Tomer Weiss, Sanketh Vedula, Ortal Senouf and Alex Bronstein(参考訳) 磁気共鳴イメージング(MRI)は、長い間、今日の診断画像のゴールド標準の一つと考えられてきた。 MRIの最も大きな欠点は、長い買収時間であり、いくつかのアプリケーションで標準での使用を禁じている。 圧縮センシング(CS)は、k-空間(空間座標の物理空間に双対するフーリエ領域)をサブサンプリングすることを提案した。 しかし、圧縮センシングの利点は十分に活用されていない。CSで得られたサンプリング密度の大部分は、実際に課されたMRIマシンの拘束的制約に従う軌跡を作らない。 近年のディープラーニングによる画像再構成手法の成功と,画像システムの学習に基づく設計に基づく計算画像のアイデアに触発されて,MRIにおける3次元非モンテカルロ加速軌道のデータ駆動設計のための新しいプロトコルである3D FLATを紹介した。 提案手法は,3次元k空間全体を利用して,物理的に実現可能な獲得軌道を再現法で同時に学習する。 概念実証として実施された実験結果から、3D FLATは、半径、スタックオブスター、または2D学習軌道(3次元に沿って完全にサンプリングしながら2次元平面内でのみ進化する軌道)のような標準軌跡と比較して、所定の読み出し時間に対して高い画質を達成することが示唆された。 さらに,非カルト系3次元軌跡をスライス的に取得した2次元非カルト系3次元軌跡を用いたMRI画像取得の意義を裏付ける証拠を示す。

Magnetic Resonance Imaging (MRI) has long been considered to be among the gold standards of today's diagnostic imaging. The most significant drawback of MRI is long acquisition times, prohibiting its use in standard practice for some applications. Compressed sensing (CS) proposes to subsample the k-space (the Fourier domain dual to the physical space of spatial coordinates) leading to significantly accelerated acquisition. However, the benefit of compressed sensing has not been fully exploited; most of the sampling densities obtained through CS do not produce a trajectory that obeys the stringent constraints of the MRI machine imposed in practice. Inspired by recent success of deep learning based approaches for image reconstruction and ideas from computational imaging on learning-based design of imaging systems, we introduce 3D FLAT, a novel protocol for data-driven design of 3D non-Cartesian accelerated trajectories in MRI. Our proposal leverages the entire 3D k-space to simultaneously learn a physically feasible acquisition trajectory with a reconstruction method. Experimental results, performed as a proof-of-concept, suggest that 3D FLAT achieves higher image quality for a given readout time compared to standard trajectories such as radial, stack-of-stars, or 2D learned trajectories (trajectories that evolve only in the 2D plane while fully sampling along the third dimension). Furthermore, we demonstrate evidence supporting the significant benefit of performing MRI acquisitions using non-Cartesian 3D trajectories over 2D non-Cartesian trajectories acquired slice-wise.
翻訳日:2022-10-31 11:13:00 公開日:2020-08-11
# 異常コモーションパターン検出によるディープフェイク映像の露出

Exposing Deep-faked Videos by Anomalous Co-motion Pattern Detection ( http://arxiv.org/abs/2008.04848v1 )

ライセンス: Link先を確認
Gengxing Wang, Jiahuan Zhou, Ying Wu(参考訳) 最近のディープラーニングベースのビデオ合成アプローチ、特に"DeepFake"のようなアイデンティティを偽造できるアプリケーションでは、セキュリティに大きな懸念が持ち上がっている。 そこで,この問題に対処するために,対応する深層法学手法を提案する。 しかし、既存の手法は説明不能なディープネットワークに基づいており、メディア法医学における主解釈可能性因子を著しく低下させるか、あるいは実世界のシナリオではデータ圧縮によって容易に劣化するノイズパターンのような脆弱な画像統計に頼っている。 本稿では,ディープフェイク映像の露出を念頭に設計した,完全に解釈可能なビデオ鑑識手法を提案する。 各種コンテンツによる映像の一般化性を高めるため,ビデオ内の複数の空間的位置の時間的動きをモデル化し,コモーションパターンと呼ばれる頑健で信頼性の高い表現を抽出する。 このような結合パターンは、映像コンテンツとは独立な局所的な動き特徴にまたがってマイニングされ、インスタンスワイドの変動も軽減される。 より重要なことに,提案するコモーションパターンは,より優れた解釈性と,ディープフェイクビデオのデータ圧縮に対する十分な頑健性を有する。 我々は,最先端の深部法医学的手法に対する分類・異常検出評価条件下でのアプローチの優位性と効果を実証的に示すために,広範な実験を行った。

Recent deep learning based video synthesis approaches, in particular with applications that can forge identities such as "DeepFake", have raised great security concerns. Therefore, corresponding deep forensic methods are proposed to tackle this problem. However, existing methods are either based on unexplainable deep networks which greatly degrades the principal interpretability factor to media forensic, or rely on fragile image statistics such as noise pattern, which in real-world scenarios can be easily deteriorated by data compression. In this paper, we propose an fully-interpretable video forensic method that is designed specifically to expose deep-faked videos. To enhance generalizability on videos with various content, we model the temporal motion of multiple specific spatial locations in the videos to extract a robust and reliable representation, called Co-Motion Pattern. Such kind of conjoint pattern is mined across local motion features which is independent of the video contents so that the instance-wise variation can also be largely alleviated. More importantly, our proposed co-motion pattern possesses both superior interpretability and sufficient robustness against data compression for deep-faked videos. We conduct extensive experiments to empirically demonstrate the superiority and effectiveness of our approach under both classification and anomaly detection evaluation settings against the state-of-the-art deep forensic methods.
翻訳日:2022-10-31 11:12:30 公開日:2020-08-11
# GeLato: ジェネレーティブな潜在テクスチャオブジェクト

GeLaTO: Generative Latent Textured Objects ( http://arxiv.org/abs/2008.04852v1 )

ライセンス: Link先を確認
Ricardo Martin-Brualla, Rohit Pandey, Sofien Bouaziz, Matthew Brown, Dan B Goldman(参考訳) 透明、反射、細い構造を示す3Dオブジェクトの正確なモデリングは非常に難しい問題である。 本稿では,コンピュータグラフィックスで使用される看板や幾何学的プロキシに触発されて,低周波幾何学を定義する粗い形状プロキシと学習された神経テクスチャを組み合わせたコンパクト表現であるgenerative latent textured objects (gelato)を提案する。 プロキシのテクスチャを生成するために,カテゴリレベルの外観と幾何学的補間が可能なジョイント潜在空間を学習する。 プロキシは、対応する神経テクスチャで独立にラスタライズされ、アルファマップを含む出力フォトリアリスティック画像を生成するU-Netを用いて合成される。 スパース・ビューから複雑なオブジェクトを再構成することで,提案手法の有効性を実証する。 眼鏡フレームの実際の画像のデータセットに結果を示すが、これは古典的手法による再構築が特に困難である。 また,これらの粗いプロキシは,眼鏡などの物体形状のモデル化が容易である場合や,車などの複雑なカテゴリに対してニューラルネットワークを用いて生成する場合に,手作りが可能であることを実証する。

Accurate modeling of 3D objects exhibiting transparency, reflections and thin structures is an extremely challenging problem. Inspired by billboards and geometric proxies used in computer graphics, this paper proposes Generative Latent Textured Objects (GeLaTO), a compact representation that combines a set of coarse shape proxies defining low frequency geometry with learned neural textures, to encode both medium and fine scale geometry as well as view-dependent appearance. To generate the proxies' textures, we learn a joint latent space allowing category-level appearance and geometry interpolation. The proxies are independently rasterized with their corresponding neural texture and composited using a U-Net, which generates an output photorealistic image including an alpha map. We demonstrate the effectiveness of our approach by reconstructing complex objects from a sparse set of views. We show results on a dataset of real images of eyeglasses frames, which are particularly challenging to reconstruct using classical methods. We also demonstrate that these coarse proxies can be handcrafted when the underlying object geometry is easy to model, like eyeglasses, or generated using a neural network for more complex categories, such as cars.
翻訳日:2022-10-31 11:12:06 公開日:2020-08-11
# 視覚模倣が容易になった

Visual Imitation Made Easy ( http://arxiv.org/abs/2008.04899v1 )

ライセンス: Link先を確認
Sarah Young, Dhiraj Gandhi, Shubham Tulsiani, Abhinav Gupta, Pieter Abbeel, Lerrel Pinto(参考訳) 視覚模倣学習は、人間のデモを利用して複雑な操作行動を学ぶためのフレームワークを提供する。 しかし,現在のキネティックな授業や遠隔操作といった模倣のためのインターフェースは,大規模データを自然界で効率的に収集する能力に制限を課している。 このような多様な実演データを得ることは、新しいシナリオへの学習スキルの一般化に最も重要である。 本稿では,ロボットへの移動を容易にしながら,データ収集プロセスを単純化した模倣インタフェースを提案する。 データ収集装置として,またロボットのエンドエフェクタとして,市販のリーチャーグラバー補助具を使用する。 これらの視覚的デモンストレーションから行動情報を抽出するために,指検出ネットワークのトレーニングに加えて,モーション(SfM)技術を用いたオフザシェルフ構造を用いる。 我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。 どちらのタスクも、標準動作クローンを使用して、以前に収集したオフラインデモから実行可能なポリシーを学習します。 学習性能を向上させるために,様々なデータ拡張を行い,その効果を広範囲に分析する。 最後に,これまで見つからなかった物体を用いた実際のロボットシナリオを評価し,プッシュ時の87%の成功率と積み重ね時の62%の成功率を達成することで,インタフェースの有用性を実証する。 ロボットビデオはhttps://dhiraj100892.github.io/visual-imitation-made-easy。

Visual imitation learning provides a framework for learning complex manipulation behaviors by leveraging human demonstrations. However, current interfaces for imitation such as kinesthetic teaching or teleoperation prohibitively restrict our ability to efficiently collect large-scale data in the wild. Obtaining such diverse demonstration data is paramount for the generalization of learned skills to novel scenarios. In this work, we present an alternate interface for imitation that simplifies the data collection process while allowing for easy transfer to robots. We use commercially available reacher-grabber assistive tools both as a data collection device and as the robot's end-effector. To extract action information from these visual demonstrations, we use off-the-shelf Structure from Motion (SfM) techniques in addition to training a finger detection network. We experimentally evaluate on two challenging tasks: non-prehensile pushing and prehensile stacking, with 1000 diverse demonstrations for each task. For both tasks, we use standard behavior cloning to learn executable policies from the previously collected offline demonstrations. To improve learning performance, we employ a variety of data augmentations and provide an extensive analysis of its effects. Finally, we demonstrate the utility of our interface by evaluating on real robotic scenarios with previously unseen objects and achieve a 87% success rate on pushing and a 62% success rate on stacking. Robot videos are available at https://dhiraj100892.github.io/Visual-Imitation-Made-Easy.
翻訳日:2022-10-31 11:11:45 公開日:2020-08-11
# 多分散噴霧火炎に対する遺伝的アルゴリズムの一検討

A Study of a Genetic Algorithm for Polydisperse Spray Flames ( http://arxiv.org/abs/2008.07397v1 )

ライセンス: Link先を確認
Daniel Engelsman(参考訳) 現代の技術進歩は、常に人間と機械の相互作用を推し進めている。 進化的アルゴリズム(Evolutionary Algorithms, EA)は、ダーウィン進化論(Darwinian Theory of Evolution)によって述べられている、自然選択の過程から着想を得た機械学習(ML)サブクラスである。 このクラスで最も注目すべきアルゴリズムは遺伝的アルゴリズム(GA)であり、最適化問題に対する高品質なソリューションの生成を可能にする強力なヒューリスティックツールである。 近年の数十年でアルゴリズムは著しく改善され、最適な解をヒューリスティックに探すことで幅広い工学的問題に適応した。 適切に定義されているにもかかわらず、多くの工学的問題は、古典的な最適化法で要求されるように、導出過程に近づく際に重い解析的絡み合いに悩まされる。 したがって、ここでの主な動機は、その障害を回避することです。 この作品では、GA機能を利用して、独特な燃焼問題に関する最適性を、これまで実施されなかった方法で検証したいと思います。 より正確に言うと、私はそれを使って質問に答えたい: 初期滴径分布(iDSD)のどの形態が最適な炎を保証できるか? この質問に答えるために、まずga法の一般的な紹介を行い、次に燃焼モデルを開発し、最終的に両方を最適化問題にマージします。

Modern technological advancements constantly push forward the human-machine interaction. Evolutionary Algorithms (EA) are an machine learning (ML) subclass inspired by the process of natural selection - Survival of the Fittest, as stated by the Darwinian Theory of Evolution. The most notable algorithm in that class is the Genetic Algorithm (GA) - a powerful heuristic tool which enables the generation of a high-quality solutions to optimization problems. In recent decades the algorithm underwent remarkable improvement, which adapted it into a wide range of engineering problems, by heuristically searching for the optimal solution. Despite being well-defined, many engineering problems may suffer from heavy analytical entanglement when approaching the derivation process, as required in classic optimization methods. Therefore, the main motivation here, is to work around that obstacle. In this piece of work, I would like to harness the GA capabilities to examine optimality with respect to a unique combustion problem, in a way that was never performed before. To be more precise, I would like to utilize it to answer the question : What form of an initial droplet size distribution (iDSD) will guarantee an optimal flame ? To answer this question, I will first provide a general introduction to the GA method, then develop the combustion model, and eventually merge both into an optimization problem.
翻訳日:2022-10-31 11:05:40 公開日:2020-08-11
# Synchrosqueezing Transformと局所定常ガウス過程回帰を用いた胸腹部運動からの気流回復

Airflow recovery from thoracic and abdominal movements using Synchrosqueezing Transform and Locally Stationary Gaussian Process Regression ( http://arxiv.org/abs/2008.04473v1 )

ライセンス: Link先を確認
Whitney K. Huang, Yu-Min Chung, Yu-Bo Wang, Jeff E. Mandel, and Hau-Tieng Wu(参考訳) 気流信号は呼吸系に関する豊富な情報を符号化する。 空気の流れを測定するための金の基準は、閉塞性アザラシを備えたスピロメーターを使用することであるが、患者の呼吸監視には実用的ではない。 センサ技術の進歩により、小型の安価な装置で胸部と腹部の動きの測定が可能となったが、これらの時系列からの気流の推定は困難である。 本稿では,非線型型時間周波数解析ツールであるシンクロスキューズ変換を用いて,局所定常ガウス過程による気流の回復に使用される胸部および腹部の運動信号を適切に表現することを提案する。 正常な睡眠条件下での呼吸信号を含むデータセットを用いて,提案したモデルを物体内および物体間両方の特徴空間に適合させることで,正確な予測が可能であることを示す。 また, 全身麻酔下の患者は, 加圧支持から無支援換気へ移行し, 提案法の有用性を実証する, より困難な症例にも本法を適用した。

Airflow signal encodes rich information about respiratory system. While the gold standard for measuring airflow is to use a spirometer with an occlusive seal, this is not practical for ambulatory monitoring of patients. Advances in sensor technology have made measurement of motion of the thorax and abdomen feasible with small inexpensive devices, but estimation of airflow from these time series is challenging. We propose to use the nonlinear-type time-frequency analysis tool, synchrosqueezing transform, to properly represent the thoracic and abdominal movement signals as the features, which are used to recover the airflow by the locally stationary Gaussian process. We show that, using a dataset that contains respiratory signals under normal sleep conditions, an accurate prediction can be achieved by fitting the proposed model in the feature space both in the intra- and inter-subject setups. We also apply our method to a more challenging case, where subjects under general anesthesia underwent transitions from pressure support to unassisted ventilation to further demonstrate the utility of the proposed method.
翻訳日:2022-10-31 11:05:16 公開日:2020-08-11
# 個人差分型ADMMに基づく分散機械学習の実現に向けて

Towards Plausible Differentially Private ADMM Based Distributed Machine Learning ( http://arxiv.org/abs/2008.04500v1 )

ライセンス: Link先を確認
Jiahao Ding and Jingyi Wang and Guannan Liang and Jinbo Bi and Miao Pan(参考訳) Alternating Direction Method of Multipliers (ADMM)とその分散バージョンは機械学習で広く使われている。 ADMMのイテレーションでは、ローカルなプライベートデータを使ったモデル更新とエージェント間のモデル交換が重要なプライバシー上の懸念を課している。 このような懸念を和らげるための先駆的な取り組みはいくつかあるが、微分プライベートADMMは依然として多くの研究課題に直面している。 例えば、差分プライバシー(DP)の保証は、各ローカル問題の最適性が各ADMMイテレーションで完全に達成可能であるという前提に依存している。 DP ADMMで訓練されたモデルは予測精度が低い。 本稿では、PP-ADMM と IPP-ADMM と呼ばれる新しい(改良されていない)プラルーシブル差分ADMM アルゴリズムを提案する。 PP-ADMMでは、各エージェントは、局所的なプライベートデータから繰り返しで定式化された摂動最適化問題をほぼ解決し、ガウス雑音で近似解を摂動し、DP保証を提供する。 モデル精度と収束性をさらに向上するため、改良版のIPP-ADMMはスパースベクトル技術(SVT)を採用し、エージェントが現在の摂動解で隣人を更新するかどうかを決定する。 エージェントは、前回のイテレーションにおける解と現在の解の差を計算し、差がしきい値よりも大きい場合は、その解を隣人に渡す。 また,ゼロ集中DP(zCDP)の下での総プライバシー損失の追跡と,一般化性能解析を提案する。 実世界のデータセットの実験では、同じプライバシ保証の下では、提案アルゴリズムはモデルの精度と収束率の観点から、最先端技術よりも優れていることが示されている。

The Alternating Direction Method of Multipliers (ADMM) and its distributed version have been widely used in machine learning. In the iterations of ADMM, model updates using local private data and model exchanges among agents impose critical privacy concerns. Despite some pioneering works to relieve such concerns, differentially private ADMM still confronts many research challenges. For example, the guarantee of differential privacy (DP) relies on the premise that the optimality of each local problem can be perfectly attained in each ADMM iteration, which may never happen in practice. The model trained by DP ADMM may have low prediction accuracy. In this paper, we address these concerns by proposing a novel (Improved) Plausible differentially Private ADMM algorithm, called PP-ADMM and IPP-ADMM. In PP-ADMM, each agent approximately solves a perturbed optimization problem that is formulated from its local private data in an iteration, and then perturbs the approximate solution with Gaussian noise to provide the DP guarantee. To further improve the model accuracy and convergence, an improved version IPP-ADMM adopts sparse vector technique (SVT) to determine if an agent should update its neighbors with the current perturbed solution. The agent calculates the difference of the current solution from that in the last iteration, and if the difference is larger than a threshold, it passes the solution to neighbors; or otherwise the solution will be discarded. Moreover, we propose to track the total privacy loss under the zero-concentrated DP (zCDP) and provide a generalization performance analysis. Experiments on real-world datasets demonstrate that under the same privacy guarantee, the proposed algorithms are superior to the state of the art in terms of model accuracy and convergence rate.
翻訳日:2022-10-31 11:04:58 公開日:2020-08-11
# 非凸最適化のためのリーマン確率的再帰運動量法

Riemannian stochastic recursive momentum method for non-convex optimization ( http://arxiv.org/abs/2008.04555v1 )

ライセンス: Link先を確認
Andi Han, Junbin Gao(参考訳) 1つのサンプルで$\epsilon$-approximate を求めるために、$\tilde{\mathcal{O}}(\epsilon^{-3})$のほぼ最適複雑性を実現するリーマン非凸最適化のための確率的再帰運動量法を提案する。 すなわち、この手法では1イテレーションあたり$\mathcal{o}(1)$勾配評価が必要であり、より速いレートを得るために一般的に使用される大きなバッチ勾配で再スタートする必要はない。 実験結果は,提案アルゴリズムの優位性を示すものである。

We propose a stochastic recursive momentum method for Riemannian non-convex optimization that achieves a near-optimal complexity of $\tilde{\mathcal{O}}(\epsilon^{-3})$ to find $\epsilon$-approximate solution with one sample. That is, our method requires $\mathcal{O}(1)$ gradient evaluations per iteration and does not require restarting with a large batch gradient, which is commonly used to obtain the faster rate. Extensive experiment results demonstrate the superiority of our proposed algorithm.
翻訳日:2022-10-31 11:04:28 公開日:2020-08-11
# 機械学習システムにおける後方互換性の実証分析

An Empirical Analysis of Backward Compatibility in Machine Learning Systems ( http://arxiv.org/abs/2008.04572v1 )

ライセンス: Link先を確認
Megha Srivastava, Besmira Nushi, Ece Kamar, Shital Shah, Eric Horvitz(参考訳) 機械学習(ML)の多くの応用において、モデル性能の向上を目標として更新が行われる。 しかしながら、現在のモデル更新のプラクティスは、独立して集約されたパフォーマンス分析にのみ依存し、重要な依存関係や期待、現実のデプロイメントの必要性を見越している。 MLモデルの改善を目的としたアップデートでは,下流システムやユーザに大きな影響を及ぼす可能性のある,新たなエラーが発生する可能性がある。 例えば、画像認識のようなクラウドベースの分類サービスで使用されるモデルの更新は、サービスを呼び出すシステムにおいて予期せぬ誤った振る舞いを引き起こす可能性がある。 以前の研究は、人間の信頼を維持するために「後方互換性」の重要性を示している。 我々は、構造化ノイズを伴うデータシフトや、推論パイプラインで使用されるMLなど、さまざまなMLアーキテクチャやデータセット間の後方互換性に関する課題について研究する。 私たちの結果は i) 最適化確率性によるデータシフトなしでも互換性の問題が発生する。 (II)大規模ノイズデータセットのトレーニングは、モデル精度が増大しても後方互換性が著しく低下することが多く、 (iii)非互換点の分布はノイズバイアスと一致し、互換性を意識した脱ノイズ法とロバストネス法の必要性を動機付ける。

In many applications of machine learning (ML), updates are performed with the goal of enhancing model performance. However, current practices for updating models rely solely on isolated, aggregate performance analyses, overlooking important dependencies, expectations, and needs in real-world deployments. We consider how updates, intended to improve ML models, can introduce new errors that can significantly affect downstream systems and users. For example, updates in models used in cloud-based classification services, such as image recognition, can cause unexpected erroneous behavior in systems that make calls to the services. Prior work has shown the importance of "backward compatibility" for maintaining human trust. We study challenges with backward compatibility across different ML architectures and datasets, focusing on common settings including data shifts with structured noise and ML employed in inferential pipelines. Our results show that (i) compatibility issues arise even without data shift due to optimization stochasticity, (ii) training on large-scale noisy datasets often results in significant decreases in backward compatibility even when model accuracy increases, and (iii) distributions of incompatible points align with noise bias, motivating the need for compatibility aware de-noising and robustness methods.
翻訳日:2022-10-31 11:03:59 公開日:2020-08-11
# ドメインシフト下でのクラスタへの学習

Learning to Cluster under Domain Shift ( http://arxiv.org/abs/2008.04646v1 )

ライセンス: Link先を確認
Willi Menapace, St\'ephane Lathuili\`ere and Elisa Ricci(参考訳) 深いアーキテクチャに基づく教師なしのドメイン適応手法は、多くのコンピュータビジョンタスクで顕著な成功を収めてきたが、それらは強い仮定、すなわちラベル付きソースデータを必要とする。 本研究では、この仮定を克服し、ソースデータとターゲットデータの両方にアノテーションがない場合に、ソースからターゲットドメインに知識を転送する問題に対処する。 深層クラスタリングに関する最近の研究から着想を得た私たちのアプローチは、複数のソースドメインから収集されたデータからの情報を活用して、ドメインに依存しないクラスタリングモデルを構築し、ターゲットデータが利用可能になると推論時に洗練する。 具体的には、トレーニング時にドメインアライメントレイヤと組み合わせて、ドメイン固有の機能を捨てながらセマンティックラベルを正しく発見することを保証する、新しい情報理論損失の最適化を提案する。 重要なことは、我々のアーキテクチャ設計は、機能アライメントとセルフスーパービジョンのおかげで、ソースデータにアクセスすることなく、結果のソースモデルをターゲットドメインに効果的に適応できることを保証する。 提案手法は,複数のドメイン適応ベンチマークを考慮し,複数のドメイン適応ベンチマークにおいて,少数のターゲットサンプルが存在する場合でも,関連する意味情報を自動的に検出し,最新の結果が得られることを示す。

While unsupervised domain adaptation methods based on deep architectures have achieved remarkable success in many computer vision tasks, they rely on a strong assumption, i.e. labeled source data must be available. In this work we overcome this assumption and we address the problem of transferring knowledge from a source to a target domain when both source and target data have no annotations. Inspired by recent works on deep clustering, our approach leverages information from data gathered from multiple source domains to build a domain-agnostic clustering model which is then refined at inference time when target data become available. Specifically, at training time we propose to optimize a novel information-theoretic loss which, coupled with domain-alignment layers, ensures that our model learns to correctly discover semantic labels while discarding domain-specific features. Importantly, our architecture design ensures that at inference time the resulting source model can be effectively adapted to the target domain without having access to source data, thanks to feature alignment and self-supervision. We evaluate the proposed approach in a variety of settings, considering several domain adaptation benchmarks and we show that our method is able to automatically discover relevant semantic information even in presence of few target samples and yields state-of-the-art results on multiple domain adaptation benchmarks.
翻訳日:2022-10-31 10:56:38 公開日:2020-08-11
# 混合精度量子化のためのハードウェア中心オートML

Hardware-Centric AutoML for Mixed-Precision Quantization ( http://arxiv.org/abs/2008.04878v1 )

ライセンス: Link先を確認
Kuan Wang, Zhijian Liu, Yujun Lin, Ji Lin, Song Han(参考訳) モデル量子化は、ディープニューラルネットワーク(DNN)推論の圧縮と高速化に広く用いられている手法である。 創発的なDNNハードウェアアクセラレータは、計算効率をさらに向上するために、混合精度(1~8ビット)をサポートし始めており、各レイヤに最適なビット幅を見つけるには、大きな課題が生じる。 従来の量子化アルゴリズムは異なるハードウェアアーキテクチャを無視し、全ての層を統一的に量子化する。 本稿では、強化学習を利用して量子化ポリシーを自動的に決定するハードウェア・アウェア自動量子化(HAQ)フレームワークを紹介し、ハードウェアアクセラレーションのフィードバックを設計ループに取り入れる。 FLOPやモデルサイズなどのプロキシ信号に頼るのではなく、ハードウェアシミュレータを用いてRLエージェントへの直接フィードバック信号(レイテンシとエネルギー)を生成する。 従来の手法と比較して、フレームワークは完全に自動化され、異なるニューラルネットワークアーキテクチャとハードウェアアーキテクチャの量子化ポリシーを専門化することができる。 本フレームワークは, 固定ビット幅(8ビット)の量子化と比較して, 遅延を1.4-1.95x, エネルギー消費を1.9x削減した。 我々のフレームワークは、異なるリソース制約(レイテンシ、エネルギー、モデルサイズ)の下で異なるハードウェアアーキテクチャ(エッジとクラウドアーキテクチャ)に対する最適なポリシーが劇的に異なることを明らかにしている。 我々は、ニューラルネットワークアーキテクチャ設計とハードウェアアーキテクチャ設計の両方に洞察を提供する、異なる量子化ポリシーの含意を解釈した。

Model quantization is a widely used technique to compress and accelerate deep neural network (DNN) inference. Emergent DNN hardware accelerators begin to support mixed precision (1-8 bits) to further improve the computation efficiency, which raises a great challenge to find the optimal bitwidth for each layer: it requires domain experts to explore the vast design space trading off among accuracy, latency, energy, and model size, which is both time-consuming and sub-optimal. Conventional quantization algorithm ignores the different hardware architectures and quantizes all the layers in a uniform way. In this paper, we introduce the Hardware-Aware Automated Quantization (HAQ) framework which leverages the reinforcement learning to automatically determine the quantization policy, and we take the hardware accelerator's feedback in the design loop. Rather than relying on proxy signals such as FLOPs and model size, we employ a hardware simulator to generate direct feedback signals (latency and energy) to the RL agent. Compared with conventional methods, our framework is fully automated and can specialize the quantization policy for different neural network architectures and hardware architectures. Our framework effectively reduced the latency by 1.4-1.95x and the energy consumption by 1.9x with negligible loss of accuracy compared with the fixed bitwidth (8 bits) quantization. Our framework reveals that the optimal policies on different hardware architectures (i.e., edge and cloud architectures) under different resource constraints (i.e., latency, energy, and model size) are drastically different. We interpreted the implication of different quantization policies, which offer insights for both neural network architecture design and hardware architecture design.
翻訳日:2022-10-31 10:55:55 公開日:2020-08-11
# クラス間相関の伝達

Transferring Inter-Class Correlation ( http://arxiv.org/abs/2008.10444v1 )

ライセンス: Link先を確認
Hui Wen, Yue Wu, Chenming Yang, Jingjing Li, Yue Zhu, Xu Jiang, Hancong Duan(参考訳) 教師-学生(T-S)フレームワークは、あるニューラルネットワーク(学生)のパフォーマンスを、別の訓練されたニューラルネットワーク(教師)から知識を伝達することによって改善することのできる分類タスクで広く利用されている。 伝達知識は教師と生徒の間のネットワーク能力と構造に関係しているため、効率的な知識を定義する方法が未解決の問題である。 この問題に対処するため,我々は,自己認識に基づくクラス間相関(ICC)マップを出力層に新たに設計し,T-Sフレームワークであるクラス間相関変換(ICCT)を提案する。

The Teacher-Student (T-S) framework is widely utilized in the classification tasks, through which the performance of one neural network (the student) can be improved by transferring knowledge from another trained neural network (the teacher). Since the transferring knowledge is related to the network capacities and structures between the teacher and the student, how to define efficient knowledge remains an open question. To address this issue, we design a novel transferring knowledge, the Self-Attention based Inter-Class Correlation (ICC) map in the output layer, and propose our T-S framework, Inter-Class Correlation Transfer (ICCT).
翻訳日:2022-10-31 10:55:13 公開日:2020-08-11
# 気道Xttention:CXR画像による肺炎検出時の人体機能低下を補償するCNN

PneumoXttention: A CNN compensating for Human Fallibility when Detecting Pneumonia through CXR images with Attention ( http://arxiv.org/abs/2008.04907v1 )

ライセンス: Link先を確認
Sanskriti Singh(参考訳) 機械によるCXR(Chest Radiograph X-ray)の自動解釈は人工知能の重要な研究課題である。 カリフォルニア・サイエンス・フェア(california science fair)での旅の中で、私はcxr画像から肺炎を検出するアルゴリズムを開発しました。 私のアルゴリズムであるPneumoXttentionは、北米放射線学会(Radiological Society of North America)が提供するデータセットRSNAデータセットに基づいてトレーニングされた2つの13層畳み込みニューラルネットワークのアンサンブルです。 このデータセットは北米の多くのプロの放射線学者によって注釈付けされた。 テストセット(rsnaデータセットの20%ランダムスプリット)で印象的なf1スコア 0.82を達成し、rsnaとnihから引き出された25のテスト画像のランダムセットで完全に人間放射線科医を補償した。 直接比較はできないが、スタンフォードのChexnetは、カテゴリーPneumoniaのNIHデータセットで0.435点のF1スコアを持っている。

Automatic Chest Radiograph X-ray (CXR) interpretation by machines is an important research topic of Artificial Intelligence. As part of my journey through the California Science Fair, I have developed an algorithm that can detect pneumonia from a CXR image to compensate for human fallibility. My algorithm, PneumoXttention, is an ensemble of two 13 layer convolutional neural network trained on the RSNA dataset, a dataset provided by the Radiological Society of North America, containing 26,684 frontal X-ray images split into the categories of pneumonia and no pneumonia. The dataset was annotated by many professional radiologists in North America. It achieved an impressive F1 score, 0.82, on the test set (20% random split of RSNA dataset) and completely compensated Human Radiologists on a random set of 25 test images drawn from RSNA and NIH. I don't have a direct comparison but Stanford's Chexnet has a F1 score of 0.435 on the NIH dataset for category Pneumonia.
翻訳日:2022-10-31 10:55:01 公開日:2020-08-11
# 音声認識用双方向デコーダ付きトランス

Transformer with Bidirectional Decoder for Speech Recognition ( http://arxiv.org/abs/2008.04481v1 )

ライセンス: Link先を確認
Xi Chen and Songyang Zhang and Dandan Song and Peng Ouyang and Shouyi Yin(参考訳) 注意に基づくモデルは近年,エンドツーエンドの自動音声認識(ASR)に大きく進歩している。 しかし、従来のトランスフォーマーベースのアプローチは通常、左から右へのトークンでシーケンス結果トークンを生成し、右から左へのコンテキストは未展開である。 本研究では,異なる方向の文脈を同時に利用する双方向音声変換器を提案する。 具体的には、提案するトランスの出力には、左右のターゲットと左右のターゲットが含まれる。 推定段階では、左右の候補を生成できるだけでなく、左右の候補を生成できる双方向ビーム探索法を導入し、スコアによって最適な仮説を決定する。 双方向デコーダ(STBD)を用いた音声変換器を提案するため,AISHELL-1データセットについて広範な実験を行った。 実験の結果、STBDは一方向の音声変換器ベースライン上で3.6\%のCER削減(CERR)を達成することがわかった。 さらに,STBD-Bigと呼ばれる最強のモデルでは,言語モデル再構成や追加データ拡張戦略を使わずに,テストセット上で6.64\%のCERを達成できる。

Attention-based models have made tremendous progress on end-to-end automatic speech recognition(ASR) recently. However, the conventional transformer-based approaches usually generate the sequence results token by token from left to right, leaving the right-to-left contexts unexploited. In this work, we introduce a bidirectional speech transformer to utilize the different directional contexts simultaneously. Specifically, the outputs of our proposed transformer include a left-to-right target, and a right-to-left target. In inference stage, we use the introduced bidirectional beam search method, which can not only generate left-to-right candidates but also generate right-to-left candidates, and determine the best hypothesis by the score. To demonstrate our proposed speech transformer with a bidirectional decoder(STBD), we conduct extensive experiments on the AISHELL-1 dataset. The results of experiments show that STBD achieves a 3.6\% relative CER reduction(CERR) over the unidirectional speech transformer baseline. Besides, the strongest model in this paper called STBD-Big can achieve 6.64\% CER on the test set, without language model rescoring and any extra data augmentation strategies.
翻訳日:2022-10-31 10:54:41 公開日:2020-08-11
# 終端話者検証のためのニューラルPLDAモデリング

Neural PLDA Modeling for End-to-End Speaker Verification ( http://arxiv.org/abs/2008.04527v1 )

ライセンス: Link先を確認
Shreyas Ramoji, Prashant Krishnan, Sriram Ganapathy(参考訳) ディープラーニングモデルは、教師付き分類問題において大きな進歩を遂げてきたが、これらのモデルの話者認識などのアウトオブセット検証タスクへの応用は、特徴埋め込みの導出に限られている。 最先端のXベクトルPLDAベースの話者検証システムは、確率線形判別分析(PLDA)に基づく生成モデルを用いて検証スコアを計算する。 近年,ニューラルPLDA(NPLDA)と呼ばれる話者検証において,生成PLDAモデルの確率比スコアを識別的類似度関数とし,学習可能なスコア関数のパラメータを検証コストを用いて最適化する,バックエンドモデリングのためのニューラルネットワークアプローチを提案している。 本稿では,NPLDAネットワークと組込みニューラルネットワーク(xベクトルネットワーク)をエンドツーエンド(E2E)方式で共同最適化するために,本研究を拡張した。 提案したエンドツーエンドモデルは,検証コスト関数を用いて音響特性から直接最適化され,試験中は,確率比スコアを直接出力する。 NIST話者認識評価(SRE)と2019データセットを用いた様々な実験により,提案したE2Eモデルは,XベクトルPLDAベースライン話者検証システムよりも大幅に改善されていることを示す。

While deep learning models have made significant advances in supervised classification problems, the application of these models for out-of-set verification tasks like speaker recognition has been limited to deriving feature embeddings. The state-of-the-art x-vector PLDA based speaker verification systems use a generative model based on probabilistic linear discriminant analysis (PLDA) for computing the verification score. Recently, we had proposed a neural network approach for backend modeling in speaker verification called the neural PLDA (NPLDA) where the likelihood ratio score of the generative PLDA model is posed as a discriminative similarity function and the learnable parameters of the score function are optimized using a verification cost. In this paper, we extend this work to achieve joint optimization of the embedding neural network (x-vector network) with the NPLDA network in an end-to-end (E2E) fashion. This proposed end-to-end model is optimized directly from the acoustic features with a verification cost function and during testing, the model directly outputs the likelihood ratio score. With various experiments using the NIST speaker recognition evaluation (SRE) 2018 and 2019 datasets, we show that the proposed E2E model improves significantly over the x-vector PLDA baseline speaker verification system.
翻訳日:2022-10-31 10:54:22 公開日:2020-08-11
# 小型スピーカー埋め込み:lrxベクトル

Compact Speaker Embedding: lrx-vector ( http://arxiv.org/abs/2008.05011v1 )

ライセンス: Link先を確認
Munir Georges, Jonathan Huang, Tobias Bocklet(参考訳) 近年、ディープニューラルネットワーク(DNN)は話者認識システムで広く使われ、様々なベンチマークで最先端のパフォーマンスを実現している。 x-vectorアーキテクチャは、優れた性能と管理可能な計算複雑性のために、この研究コミュニティで特に人気がある。 本稿では,xベクトル埋め込みネットワークの低ランク化バージョンであるlrx-vectorシステムについて述べる。 このトポロジの主な目的は、話者認識システムのメモリ要求をさらに削減することである。 我々は,lrxベクターシステムの訓練のための知識蒸留の展開について論じ,低ランク因子化とSVDとの比較を行った。 VOiCES 2019 far-field corpusでは、認識率を一定(1.83% EER)に保ちながら、フルランクのXベクターシステムと比較して重量を28%減らすことができた。

Deep neural networks (DNN) have recently been widely used in speaker recognition systems, achieving state-of-the-art performance on various benchmarks. The x-vector architecture is especially popular in this research community, due to its excellent performance and manageable computational complexity. In this paper, we present the lrx-vector system, which is the low-rank factorized version of the x-vector embedding network. The primary objective of this topology is to further reduce the memory requirement of the speaker recognition system. We discuss the deployment of knowledge distillation for training the lrx-vector system and compare against low-rank factorization with SVD. On the VOiCES 2019 far-field corpus we were able to reduce the weights by 28% compared to the full-rank x-vector system while keeping the recognition rate constant (1.83% EER).
翻訳日:2022-10-31 10:53:41 公開日:2020-08-11
# HEXと神経力学プログラミング

HEX and Neurodynamic Programming ( http://arxiv.org/abs/2008.06359v1 )

ライセンス: Link先を確認
Debangshu Banerjee(参考訳) hexは高い分岐係数を持つ複雑なゲームである。 hexは、ゲームツリー構造と関連する刈り取り方法を用いずに、初めて解決しようとする試みである。 また、ゲームの全コンピュータバージョンで以前使用されていた仮想接続や半仮想接続に関するヒューリスティックな情報も排除しています。 このような接続を見つける基礎となったH-searchアルゴリズムは、以前のHexのプレイエージェントで成功して使われてきた。 その代わりに、ニューラルネットワークによる自己プレイと近似を通じて強化学習を行い、高い分岐係数の問題を克服し、状態-作用評価のための大きなテーブルを維持する。 私たちのコードはニューロヘックスに基づいています。 インスピレーションは、AlphaGo Zeroの最近の成功から導かれる。

Hex is a complex game with a high branching factor. For the first time Hex is being attempted to be solved without the use of game tree structures and associated methods of pruning. We also are abstaining from any heuristic information about Virtual Connections or Semi Virtual Connections which were previously used in all previous known computer versions of the game. The H-search algorithm which was the basis of finding such connections and had been used with success in previous Hex playing agents has been forgone. Instead what we use is reinforcement learning through self play and approximations through neural networks to by pass the problem of high branching factor and maintaining large tables for state-action evaluations. Our code is based primarily on NeuroHex. The inspiration is drawn from the recent success of AlphaGo Zero.
翻訳日:2022-10-31 10:47:25 公開日:2020-08-11
# FedNNNN: 高速かつ正確なフェデレーション学習のためのノーム正規化ニューラルネットワーク集約

FedNNNN: Norm-Normalized Neural Network Aggregation for Fast and Accurate Federated Learning ( http://arxiv.org/abs/2008.04538v1 )

ライセンス: Link先を確認
Kenta Nagura, Song Bian and Takashi Sato(参考訳) フェデレートラーニング(Federated Learning, FL)とは、サーバが学習プロセスを進めるために学習したモデルの集合を集約する必要がある分散ラーニングプロトコルである。 現在、FedAvgとして知られるモデル平均化は、最も広く適応された集約手法の1つである。 しかし, 予測精度が低下し, 収束が遅いモデルが得られることが知られている。 本研究では,異なるクライアントのモデルの平均化によって更新ベクトルのノルムが著しく低下し,学習速度が遅く,予測精度が低くなることを明らかにする。 そこで我々はFedNNNNと呼ばれる新しいアグリゲーション手法を提案する。 単純なモデル平均化の代わりに、更新ベクトルのノルムを調整し、FLのアグリゲーション効率を改善するために運動量制御技術を導入する。 実演として、異なるニューラルネットワークモデルで複数のデータセットやシナリオ上でFedNNNNを評価し、最大5.4%の精度改善を観察する。

Federated learning (FL) is a distributed learning protocol in which a server needs to aggregate a set of models learned some independent clients to proceed the learning process. At present, model averaging, known as FedAvg, is one of the most widely adapted aggregation techniques. However, it is known to yield the models with degraded prediction accuracy and slow convergence. In this work, we find out that averaging models from different clients significantly diminishes the norm of the update vectors, resulting in slow learning rate and low prediction accuracy. Therefore, we propose a new aggregation method called FedNNNN. Instead of simple model averaging, we adjust the norm of the update vector and introduce momentum control techniques to improve the aggregation effectiveness of FL. As a demonstration, we evaluate FedNNNN on multiple datasets and scenarios with different neural network models, and observe up to 5.4% accuracy improvement.
翻訳日:2022-10-31 10:47:03 公開日:2020-08-11
# s2osc:開集合分類のための包括的半教師付きアプローチ

S2OSC: A Holistic Semi-Supervised Approach for Open Set Classification ( http://arxiv.org/abs/2008.04662v1 )

ライセンス: Link先を確認
Yang Yang, Zhen-Qiang Sun, Hui Xiong, Jian Yang(参考訳) オープンセット分類(OSC)は、トレーニング時にクラス内のサンプルのセットのみを提供する場合、データが推論中にクラス内かクラス外かを決定する問題に取り組む。 従来のosc手法は通常、クラス内データで識別モデルや生成モデルを訓練し、事前訓練されたモデルを使用してテストデータを直接分類する。 しかし、これらのメソッドは常に組み込まれている混乱問題、すなわち、クラス外のインスタンスは、類似のセマンティクスのクラス内インスタンスと混ざり合っており、分類が困難である。 この問題を解決するために,半教師付き学習を統一し,クラス外インスタンスフィルタリングとモデル再トレーニングを組み込んだ新しいoscアルゴリズムs2oscを開発した。 詳しくは、新しくやってくるテストデータのプールを考えると、s2oscは事前にトレーニングされたモデルを使用して、クラス外のインスタンスを最初にフィルタリングし、スーパークラスにアノテートする。 次に、S2OSCは、クラス内およびクラス外のラベル付きデータとラベルなしテストデータとを半教師付きパラダイムに組み合わせ、総合的な分類モデルを訓練する。 その単純さにもかかわらず、実験の結果、S2OSCは、CIFAR-10上のF1の85.4%と、300の擬似ラベルしか持たない様々なOSCタスクで最先端のパフォーマンスを達成した。 また、ストリーミングデータを用いて、S2OSCをインクリメンタルOSC設定に効果的に拡張する方法を示す。

Open set classification (OSC) tackles the problem of determining whether the data are in-class or out-of-class during inference, when only provided with a set of in-class examples at training time. Traditional OSC methods usually train discriminative or generative models with in-class data, then utilize the pre-trained models to classify test data directly. However, these methods always suffer from embedding confusion problem, i.e., partial out-of-class instances are mixed with in-class ones of similar semantics, making it difficult to classify. To solve this problem, we unify semi-supervised learning to develop a novel OSC algorithm, S2OSC, that incorporates out-of-class instances filtering and model re-training in a transductive manner. In detail, given a pool of newly coming test data, S2OSC firstly filters distinct out-of-class instances using the pre-trained model, and annotates super-class for them. Then, S2OSC trains a holistic classification model by combing in-class and out-of-class labeled data and remaining unlabeled test data in semi-supervised paradigm, which also integrates pre-trained model for knowledge distillation to further separate mixed instances. Despite its simplicity, the experimental results show that S2OSC achieves state-of-the-art performance across a variety of OSC tasks, including 85.4% of F1 on CIFAR-10 with only 300 pseudo-labels. We also demonstrate how S2OSC can be expanded to incremental OSC setting effectively with streaming data.
翻訳日:2022-10-31 10:46:46 公開日:2020-08-11
# 効率的なロボット学習のためのモデルベース品質多様性探索

Model-Based Quality-Diversity Search for Efficient Robot Learning ( http://arxiv.org/abs/2008.04589v1 )

ライセンス: Link先を確認
Leon Keller, Daniel Tanneberg, Svenja Stark, Jan Peters(参考訳) 最近のロボット学習の進歩にもかかわらず、ロボットがオープンなオブジェクト操作タスクを扱うようプログラムすることは依然として課題である。 最近、多様なスキルのレパートリーを自律的に生成するために使われたアプローチの1つは、新規性に基づく品質多様性~(QD)アルゴリズムである。 しかし、ほとんどの進化的アルゴリズムと同様に、QDはサンプル非効率に悩まされており、現実のシナリオに適用することは困難である。 本稿では,摂動パラメータの挙動を予測するニューラルネットワークを,新奇なqdアルゴリズムに統合することで,この問題に取り組む。 提案するモデルベース品質ダイバーシティサーチ(M-QD)において,ネットワークはレパートリーと並行して訓練され,新規な検索プロセスにおける不正な動作の回避に使用される。 さらに、そのスキルを異なるシナリオに一般化するために、最終レパートリーのスキルを適合させるためにも用いられる。 本実験では,このようなフォワードモデルによるqdアルゴリズムの強化により,進化過程のサンプル効率と性能,スキル適応性が向上することを示す。

Despite recent progress in robot learning, it still remains a challenge to program a robot to deal with open-ended object manipulation tasks. One approach that was recently used to autonomously generate a repertoire of diverse skills is a novelty based Quality-Diversity~(QD) algorithm. However, as most evolutionary algorithms, QD suffers from sample-inefficiency and, thus, it is challenging to apply it in real-world scenarios. This paper tackles this problem by integrating a neural network that predicts the behavior of the perturbed parameters into a novelty based QD algorithm. In the proposed Model-based Quality-Diversity search (M-QD), the network is trained concurrently to the repertoire and is used to avoid executing unpromising actions in the novelty search process. Furthermore, it is used to adapt the skills of the final repertoire in order to generalize the skills to different scenarios. Our experiments show that enhancing a QD algorithm with such a forward model improves the sample-efficiency and performance of the evolutionary process and the skill adaptation.
翻訳日:2022-10-31 10:38:25 公開日:2020-08-11
# poconet:周波数位置埋め込み、半教師あり会話データ、バイアス付き損失による音声強調

PoCoNet: Better Speech Enhancement with Frequency-Positional Embeddings, Semi-Supervised Conversational Data, and Biased Loss ( http://arxiv.org/abs/2008.04470v1 )

ライセンス: Link先を確認
Umut Isik, Ritwik Giri, Neerad Phansalkar, Jean-Marc Valin, Karim Helwani, Arvindh Krishnaswamy(参考訳) ニューラルネットワークアプリケーションは通常、より大きなモデルの恩恵を受けるが、現在の音声強調モデルでは、大規模なネットワークは、トレーニングデータで遭遇する以上のさまざまな実世界のユースケースに対する堅牢性の低下に悩まされることが多い。 音声強調のための大規模ニューラルネットワークの改善につながるいくつかのイノベーションを紹介します。 新しいpoconetアーキテクチャは畳み込みニューラルネットワークであり、周波数位置埋め込みを使うことで、初期の層で周波数依存の特徴をより効率的に構築することができる。 半教師付き手法は、ノイズの多いデータセットを事前に拡張することで会話訓練データの量を増やし、実際の録音の性能を向上させる。 音声品質の保持に偏りのある新たな損失関数は、人間の知覚的意見を音声品質に合致させるのに役立つ。 アブレーション実験と客観的評価指標は,提案する改善の利点を示す。

Neural network applications generally benefit from larger-sized models, but for current speech enhancement models, larger scale networks often suffer from decreased robustness to the variety of real-world use cases beyond what is encountered in training data. We introduce several innovations that lead to better large neural networks for speech enhancement. The novel PoCoNet architecture is a convolutional neural network that, with the use of frequency-positional embeddings, is able to more efficiently build frequency-dependent features in the early layers. A semi-supervised method helps increase the amount of conversational training data by pre-enhancing noisy datasets, improving performance on real recordings. A new loss function biased towards preserving speech quality helps the optimization better match human perceptual opinions on speech quality. Ablation experiments and objective and human opinion metrics show the benefits of the proposed improvements.
翻訳日:2022-10-31 10:38:05 公開日:2020-08-11
# ユニバーサル機械翻訳のための言語不変表現の学習について

On Learning Language-Invariant Representations for Universal Machine Translation ( http://arxiv.org/abs/2008.04510v1 )

ライセンス: Link先を確認
Han Zhao, Junjie Hu, Andrej Risteski(参考訳) 普遍機械翻訳の目標は、すべての言語対の「emph{a small subset}」のペア翻訳文書のコーパスを与えられた任意の言語間の翻訳を学ぶことである。 印象的な経験的結果と多言語モデルへの関心の高まりにもかかわらず、そのような普遍的な機械翻訳モデルによる翻訳誤りの理論解析は生まれたばかりである。 本稿では,この試みが一般に不正確であることを形式的に証明するとともに,付加的な(しかし自然な)データ構造の存在下での肯定的な結果を証明する。 前者に対しては,複数言語間の共用文表現を学習しようとするアルゴリズムが,言語構造を前提としない場合,少なくとも1つの翻訳タスクに対して大きな翻訳誤りを犯さなければならないことを示す,多対多の翻訳設定における翻訳誤差の低い境界を導出する。 後者の場合、コーパス内のペア化された文書が自然の \emph{encoder-decoder} 生成過程に従えば、「一般化」という自然な概念が期待できる。 長いパスを持つ言語は、必要な言語ペア当たりのドキュメントの総数の観点から、サンプルの複雑さを悪化させます。 我々の理論的な洞察と意味は、普遍機械翻訳のアルゴリズム設計に寄与すると考えている。

The goal of universal machine translation is to learn to translate between any pair of languages, given a corpus of paired translated documents for \emph{a small subset} of all pairs of languages. Despite impressive empirical results and an increasing interest in massively multilingual models, theoretical analysis on translation errors made by such universal machine translation models is only nascent. In this paper, we formally prove certain impossibilities of this endeavour in general, as well as prove positive results in the presence of additional (but natural) structure of data. For the former, we derive a lower bound on the translation error in the many-to-many translation setting, which shows that any algorithm aiming to learn shared sentence representations among multiple language pairs has to make a large translation error on at least one of the translation tasks, if no assumption on the structure of the languages is made. For the latter, we show that if the paired documents in the corpus follow a natural \emph{encoder-decoder} generative process, we can expect a natural notion of ``generalization'': a linear number of language pairs, rather than quadratic, suffices to learn a good representation. Our theory also explains what kinds of connection graphs between pairs of languages are better suited: ones with longer paths result in worse sample complexity in terms of the total number of documents per language pair needed. We believe our theoretical insights and implications contribute to the future algorithmic design of universal machine translation.
翻訳日:2022-10-31 10:37:26 公開日:2020-08-11
# Few-Shot Visual Storytellingのためのトピック適応とプロトタイプ符号化

Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling ( http://arxiv.org/abs/2008.04504v1 )

ライセンス: Link先を確認
Jiacheng Li, Siliang Tang, Juncheng Li, Jun Xiao, Fei Wu, Shiliang Pu, Yueting Zhuang(参考訳) ビジュアルストーリーテリング〜(VIST)は、与えられた写真ストリームに従って特定のトピックについて物語を伝えるタスクである。 既存の研究は、大量の人間の注釈データに依存する複雑なモデルの設計に焦点を当てている。 しかしながら、VISTのアノテーションは非常に高価であり、長いトピック分布のため、トレーニングデータセットでは多くのトピックがカバーできない。 本稿では,数発設定を考慮し,vistモデルの一般化能力の向上に着目する。 そこで我々は,話題間一般化の能力をモデル化するための話題適応型ストーリーテラを提案する。 実際に,マルチモーダルセク2セックモデルに勾配に基づくメタ学習アルゴリズムを適用し,トピックからトピックへすばやく適応する能力をモデルに与える。 さらに,トピック内導出能力をモデル化するプロトタイプの符号化構造も提案する。 具体的には、推論時に生成を導くための参照として、少数のトレーニングストーリーテキストをエンコードし、復元する。 実験結果から,トピック適応とプロトタイプ符号化構造がBLEUおよびMETEOR測定値の少数ショットモデルに相互に利益をもたらすことが示された。 さらなるケーススタディでは、数回の適応後に生成されたストーリーはより相対的で表現豊かであることが示されている。

Visual Storytelling~(VIST) is a task to tell a narrative story about a certain topic according to the given photo stream. The existing studies focus on designing complex models, which rely on a huge amount of human-annotated data. However, the annotation of VIST is extremely costly and many topics cannot be covered in the training dataset due to the long-tail topic distribution. In this paper, we focus on enhancing the generalization ability of the VIST model by considering the few-shot setting. Inspired by the way humans tell a story, we propose a topic adaptive storyteller to model the ability of inter-topic generalization. In practice, we apply the gradient-based meta-learning algorithm on multi-modal seq2seq models to endow the model the ability to adapt quickly from topic to topic. Besides, We further propose a prototype encoding structure to model the ability of intra-topic derivation. Specifically, we encode and restore the few training story text to serve as a reference to guide the generation at inference time. Experimental results show that topic adaptation and prototype encoding structure mutually bring benefit to the few-shot model on BLEU and METEOR metric. The further case study shows that the stories generated after few-shot adaptation are more relative and expressive.
翻訳日:2022-10-31 10:37:02 公開日:2020-08-11
# PiNet: グラフ分類のための注意プール

PiNet: Attention Pooling for Graph Classification ( http://arxiv.org/abs/2008.04575v1 )

ライセンス: Link先を確認
Peter Meltzer, Marcelo Daniel Gutierrez Mallea and Peter J. Bentley(参考訳) 本稿では,グラフレベルの分類にグラフ畳み込み処理を利用する汎用的な注目型プール機構であるPiNetを提案する。 我々は,同型グラフクラスを識別する上で,他のグラフニューラルネットワークよりも高いサンプル効率と優れた性能を示し,標準化学情報データセット上での最先端技術との競合結果を示した。

We propose PiNet, a generalised differentiable attention-based pooling mechanism for utilising graph convolution operations for graph level classification. We demonstrate high sample efficiency and superior performance over other graph neural networks in distinguishing isomorphic graph classes, as well as competitive results with state of the art methods on standard chemo-informatics datasets.
翻訳日:2022-10-31 10:36:41 公開日:2020-08-11
# climalign:ノーマライズドフローによる気候変数の教師なし統計スケール

ClimAlign: Unsupervised statistical downscaling of climate variables via normalizing flows ( http://arxiv.org/abs/2008.04679v1 )

ライセンス: Link先を確認
Brian Groenke, Luke Madaus, Claire Monteleoni(参考訳) ダウンスケーリングは気候科学と気象学において目覚ましい課題であり、そのゴールは粗いスケールと時空間のデータを使ってより細かいスケールで値を推測することである。 統計的ダウンスケーリングは、観測や物理モデルから得られる既存のダウンスケール値のデータセットから得られた統計パターンを使用して、このタスクを近似することを目的としている。 本研究では,統計的ダウンスケーリングの課題に対する潜伏変数学習の適用について検討する。 ClimAlignは、変動推論のためのフローの正規化における最近の研究の適応を用いた、教師なし、生成的ダウンスケーリングの新しい手法である。 本手法の有効性は,1日あたりの気温と降水量の値が低地 (1度/経度) と高地 (1/4, 1/8度) の2つのデータセットの異なる指標を用いて評価した。 提案手法は,高分解能および低分解能空間場上での関節分布からの条件および非条件サンプリングを同時に行うとともに,既存の教師付き統計的ダウンスケーリング手法に匹敵する予測性能を実現する。 当社のメソッドのパブリックアクセス実装と,比較に使用されるベースラインをGitHubで公開しています。

Downscaling is a landmark task in climate science and meteorology in which the goal is to use coarse scale, spatio-temporal data to infer values at finer scales. Statistical downscaling aims to approximate this task using statistical patterns gleaned from an existing dataset of downscaled values, often obtained from observations or physical models. In this work, we investigate the application of deep latent variable learning to the task of statistical downscaling. We present ClimAlign, a novel method for unsupervised, generative downscaling using adaptations of recent work in normalizing flows for variational inference. We evaluate the viability of our method using several different metrics on two datasets consisting of daily temperature and precipitation values gridded at low (1 degree latitude/longitude) and high (1/4 and 1/8 degree) resolutions. We show that our method achieves comparable predictive performance to existing supervised statistical downscaling methods while simultaneously allowing for both conditional and unconditional sampling from the joint distribution over high and low resolution spatial fields. We provide publicly accessible implementations of our method, as well as the baselines used for comparison, on GitHub.
翻訳日:2022-10-31 10:36:37 公開日:2020-08-11
# BREEDS: サブ人口シフトのベンチマーク

BREEDS: Benchmarks for Subpopulation Shift ( http://arxiv.org/abs/2008.04859v1 )

ライセンス: Link先を確認
Shibani Santurkar, Dimitris Tsipras, Aleksander Madry(参考訳) 本研究では,学習中に観察されなかった新しいデータサブポピュレーションに一般化できるモデルの有効性を評価する手法を開発した。 我々のアプローチは、既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分布を構成するデータサブポピュレーションを制御する。 これにより、既存の大規模データセット内で、正確な制御と特徴付けが可能な現実的な分布シフトを合成することができる。 imagenetデータセットにこの手法を適用することで、様々な粒度のサブポピュレーションシフトベンチマークを作成します。 次に,人的ベースラインの獲得によって,対応するシフトがトラクタブルであることを検証する。 最後に、これらのベンチマークを用いて、標準モデルアーキテクチャの感度と、市販の列車時堅牢性介入の有効性を測定する。 コードとデータはhttps://github.com/madrylab/breeds-benchmarksで入手できる。

We develop a methodology for assessing the robustness of models to subpopulation shift---specifically, their ability to generalize to novel data subpopulations that were not observed during training. Our approach leverages the class structure underlying existing datasets to control the data subpopulations that comprise the training and test distributions. This enables us to synthesize realistic distribution shifts whose sources can be precisely controlled and characterized, within existing large-scale datasets. Applying this methodology to the ImageNet dataset, we create a suite of subpopulation shift benchmarks of varying granularity. We then validate that the corresponding shifts are tractable by obtaining human baselines for them. Finally, we utilize these benchmarks to measure the sensitivity of standard model architectures as well as the effectiveness of off-the-shelf train-time robustness interventions. Code and data available at https://github.com/MadryLab/BREEDS-Benchmarks .
翻訳日:2022-10-31 10:36:15 公開日:2020-08-11
# 多クラステキスト分類のための合成オーバーサンプリング法の比較

A Comparison of Synthetic Oversampling Methods for Multi-class Text Classification ( http://arxiv.org/abs/2008.04636v1 )

ライセンス: Link先を確認
Anna Glazkova(参考訳) 著者らはマルチクラストピック分類の問題に対するオーバーサンプリング手法を比較した。 SMOTEアルゴリズムは最も人気のあるオーバーサンプリング手法の1つである。 マイノリティクラスの2つの例を選択し、それらに基づいて新しい例を生成する。 本稿では,テキスト分類タスクの例として,基本SMOTE法と2つの修正(Borderline SMOTEとADASYN)とランダムオーバーサンプリング手法を比較した。 本稿では,k-nearest 隣のアルゴリズム,サポートベクトルマシンアルゴリズム,ニューラルネットワーク(フィードフォワードネットワーク,長短期メモリ(LSTM),双方向LSTM)の3種類について論じる。 著者らはこれらの機械学習アルゴリズムを異なるテキスト表現と組み合わせ、合成オーバーサンプリング法を比較した。 ほとんどの場合、オーバーサンプリング技術を使うことは分類の質を大幅に改善することができる。 著者らは、このタスクでは、ニューラルネットワークよりもクラス不均衡により、KNNとSVMアルゴリズムの品質が影響を受けていると結論付けている。

The authors compared oversampling methods for the problem of multi-class topic classification. The SMOTE algorithm underlies one of the most popular oversampling methods. It consists in choosing two examples of a minority class and generating a new example based on them. In the paper, the authors compared the basic SMOTE method with its two modifications (Borderline SMOTE and ADASYN) and random oversampling technique on the example of one of text classification tasks. The paper discusses the k-nearest neighbor algorithm, the support vector machine algorithm and three types of neural networks (feedforward network, long short-term memory (LSTM) and bidirectional LSTM). The authors combine these machine learning algorithms with different text representations and compared synthetic oversampling methods. In most cases, the use of oversampling techniques can significantly improve the quality of classification. The authors conclude that for this task, the quality of the KNN and SVM algorithms is more influenced by class imbalance than neural networks.
翻訳日:2022-10-31 10:35:50 公開日:2020-08-11