このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200614となっている論文です。

PDF登録状況(公開日: 20200614)

TitleAuthorsAbstract論文公表日・翻訳日
# STAViS:時空間オーディオ映像配信ネットワーク

STAViS: Spatio-Temporal AudioVisual Saliency Network ( http://arxiv.org/abs/2001.03063v2 )

ライセンス: Link先を確認
Antigoni Tsiami, Petros Koutras and Petros Maragos(参考訳) STAViSは時空間の視覚的情報と聴覚的情報を組み合わせた時空間の視覚的サリエンシネットワークであり,映像中のサリエンシ推定の問題を効果的に解決する。 本手法では,視覚的サリエンシーと聴覚的特徴を組み合わせた単一ネットワークを用いて音源の局所化と2つのサリエンシーの融合を行い,最終的なサリエンシーマップを得る。 このネットワークは、さまざまなビデオの視線追跡データを含む6つの異なるデータベースで設計、訓練され、評価されている。 本手法を8種類の視覚塩分モデルと比較した。 データベース間の評価結果から、STAViSモデルは、ほとんどのケースにおいて、他の最先端モデルと同様に、視覚のみのバリエーションよりも優れています。 また、それがすべてのデータベースに対して一貫して達成する優れたパフォーマンスは、サリエンシを"夢中"に見積もるのに適切であることを示している。 コードはhttps://github.com/atsiami/STAViS.comで公開されている。

We introduce STAViS, a spatio-temporal audiovisual saliency network that combines spatio-temporal visual and auditory information in order to efficiently address the problem of saliency estimation in videos. Our approach employs a single network that combines visual saliency and auditory features and learns to appropriately localize sound sources and to fuse the two saliencies in order to obtain a final saliency map. The network has been designed, trained end-to-end, and evaluated on six different databases that contain audiovisual eye-tracking data of a large variety of videos. We compare our method against 8 different state-of-the-art visual saliency models. Evaluation results across databases indicate that our STAViS model outperforms our visual only variant as well as the other state-of-the-art models in the majority of cases. Also, the consistently good performance it achieves for all databases indicates that it is appropriate for estimating saliency "in-the-wild". The code is available at https://github.com/atsiami/STAViS.
翻訳日:2023-01-13 05:06:36 公開日:2020-06-14
# 凸低ランク行列問題に対する低ランク射影を伴う確率勾配の収束性について

On the Convergence of Stochastic Gradient Descent with Low-Rank Projections for Convex Low-Rank Matrix Problems ( http://arxiv.org/abs/2001.11668v2 )

ライセンス: Link先を確認
Dan Garber(参考訳) 確率的勾配降下 (sgd) を用いて, \textit{matrix completion} や \textit{phase retrieval} などの多くの重要な低ランク行列回復問題に対して,高人気な凸緩和となる凸最適化問題を解く。 これらの緩和を大規模に解くためにSGDを適用することの計算上の限界は、低ランク化の制約を強制するために、各イテレーションで潜在的に高ランクな特異値分解(SVD)を計算する必要があることである。 まず、これらの緩和が実際に低ランク解を許容するように、単純で自然な状態を考える。 この条件は、保持する低ランクのロバスト性の概念にも必要である。 この条件下では、最適点における勾配ベクトルの固有値を含むSGDが「ウォームスタート」点で初期化されると、高い確率で低ランクの反復を生成するため、各イテレーションで低ランクのSVD計算が必要とされる。 これは、SGDが低ランク行列回復問題の大規模凸緩和に実際に適用可能であることを示唆している。 我々の理論的結果には予備的な証拠が伴っている。 副次的な利点として、私たちの分析は非常に単純で短いです。

We revisit the use of Stochastic Gradient Descent (SGD) for solving convex optimization problems that serve as highly popular convex relaxations for many important low-rank matrix recovery problems such as \textit{matrix completion}, \textit{phase retrieval}, and more. The computational limitation of applying SGD to solving these relaxations in large-scale is the need to compute a potentially high-rank singular value decomposition (SVD) on each iteration in order to enforce the low-rank-promoting constraint. We begin by considering a simple and natural sufficient condition so that these relaxations indeed admit low-rank solutions. This condition is also necessary for a certain notion of low-rank-robustness to hold. Our main result shows that under this condition which involves the eigenvalues of the gradient vector at optimal points, SGD with mini-batches, when initialized with a "warm-start" point, produces iterates that are low-rank with high probability, and hence only a low-rank SVD computation is required on each iteration. This suggests that SGD may indeed be practically applicable to solving large-scale convex relaxations of low-rank matrix recovery problems. Our theoretical results are accompanied with supporting preliminary empirical evidence. As a side benefit, our analysis is quite simple and short.
翻訳日:2023-01-05 06:22:15 公開日:2020-06-14
# DeepSIC:マルチユーザMIMO検出のための深部ソフト干渉キャンセラ

DeepSIC: Deep Soft Interference Cancellation for Multiuser MIMO Detection ( http://arxiv.org/abs/2002.03214v2 )

ライセンス: Link先を確認
Nir Shlezinger, Rong Fu, and Yonina C. Eldar(参考訳) デジタル受信機は、送信されたシンボルを観測されたチャネル出力から回収する必要がある。 複数のシンボルが同時に送信されるマルチユーザマルチインプットマルチアウトプット(MIMO)設定では、正確なシンボル検出が困難である。 複数のシンボルを確実に復元できるアルゴリズムのファミリーは、干渉キャンセルに基づいている。 しかし、これらの手法は、チャネルが線形であり、多くの関連するチャネルを反映しないモデルであり、使用できないかもしれない正確なチャネル状態情報(CSI)を必要とする。 本研究では、特定のチャネルモデルやCSIを必要とすることなく、データ駆動方式で共同検出を学習するマルチユーザMIMO受信機を提案する。 特に,DeepSICと呼ぶ反復ソフト干渉キャンセリング(SIC)アルゴリズムの,データ駆動による実装を提案する。 得られたシンボル検出器は、専用機械学習(ML)メソッドを反復SICアルゴリズムに統合することに基づいている。 DeepSICは、チャネルが線形であることやパラメータを知っていなくても、限られたトレーニングサンプルから共同検出を行うことを学ぶ。 数値評価により, 完全CSIの線形チャネルに対してDeepSICは, 最適性能に匹敵する反復SICの性能にアプローチし, 従来提案されていたMLベースのMIMO受信機よりも優れた性能を示した。 さらに、CSIの不確実性の存在下では、DeepSICはモデルベースのアプローチよりも大幅に優れている。 最後に,DeepSICが非線形チャネルのシンボルを正確に検出し,CSIが正確な場合にも従来の反復SICが失敗することを示す。

Digital receivers are required to recover the transmitted symbols from their observed channel output. In multiuser multiple-input multiple-output (MIMO) setups, where multiple symbols are simultaneously transmitted, accurate symbol detection is challenging. A family of algorithms capable of reliably recovering multiple symbols is based on interference cancellation. However, these methods assume that the channel is linear, a model which does not reflect many relevant channels, as well as require accurate channel state information (CSI), which may not be available. In this work we propose a multiuser MIMO receiver which learns to jointly detect in a data-driven fashion, without assuming a specific channel model or requiring CSI. In particular, we propose a data-driven implementation of the iterative soft interference cancellation (SIC) algorithm which we refer to as DeepSIC. The resulting symbol detector is based on integrating dedicated machine-learning (ML) methods into the iterative SIC algorithm. DeepSIC learns to carry out joint detection from a limited set of training samples without requiring the channel to be linear and its parameters to be known. Our numerical evaluations demonstrate that for linear channels with full CSI, DeepSIC approaches the performance of iterative SIC, which is comparable to the optimal performance, and outperforms previously proposed ML-based MIMO receivers. Furthermore, in the presence of CSI uncertainty, DeepSIC significantly outperforms model-based approaches. Finally, we show that DeepSIC accurately detects symbols in non-linear channels, where conventional iterative SIC fails even when accurate CSI is available.
翻訳日:2023-01-02 22:46:29 公開日:2020-06-14
# メトポライズされたハミルトンモンテカルロの対流勾配濃度とタイターランタイム

Logsmooth Gradient Concentration and Tighter Runtimes for Metropolized Hamiltonian Monte Carlo ( http://arxiv.org/abs/2002.04121v3 )

ライセンス: Link先を確認
Yin Tat Lee, Ruoqi Shen, Kevin Tian(参考訳) 勾配ノルム $\|\nabla f(x)\|$ for $x \sim \exp(-f(x))$ ここで、$f$ は強凸かつ滑らかであり、その平均付近で密集する。 これにより、強い対数凸分布からサンプリングするためのよく研究されたハミルトニアンモンテカルロ(hmc)アルゴリズムの事前の最先端解析の障壁が取り除かれる。 条件数 $\kappa$ が大きければ$(\kappa/d)^{1/2}$ という係数で (dwivedi et. al. '18, chen et. al. '19) の$\tilde{o}(\kappa d)$ のランタイムを改善して、metropolized hmc が$\tilde{o}(\kappa d)$ で混合することを示す。 混合時間解析では,コンダクタンス挙動が良好な非凸集合に対する制限や,弱温和性仮定下での一定精度の全変動を保証できる新たな低減手法など,文献にない,独立した興味を持つ技術がいくつか紹介されている。 これは、$\kappa$に線形依存する1次関数情報のみを用いて、ログ凹分布に対する最初の高精度混合時間結果であり、標準のMetropolized 1次法には、この依存が必須であることを示す。

We show that the gradient norm $\|\nabla f(x)\|$ for $x \sim \exp(-f(x))$, where $f$ is strongly convex and smooth, concentrates tightly around its mean. This removes a barrier in the prior state-of-the-art analysis for the well-studied Metropolized Hamiltonian Monte Carlo (HMC) algorithm for sampling from a strongly logconcave distribution. We correspondingly demonstrate that Metropolized HMC mixes in $\tilde{O}(\kappa d)$ iterations, improving upon the $\tilde{O}(\kappa^{1.5}\sqrt{d} + \kappa d)$ runtime of (Dwivedi et. al. '18, Chen et. al. '19) by a factor $(\kappa/d)^{1/2}$ when the condition number $\kappa$ is large. Our mixing time analysis introduces several techniques which to our knowledge have not appeared in the literature and may be of independent interest, including restrictions to a nonconvex set with good conductance behavior, and a new reduction technique for boosting a constant-accuracy total variation guarantee under weak warmness assumptions. This is the first high-accuracy mixing time result for logconcave distributions using only first-order function information which achieves linear dependence on $\kappa$; we also give evidence that this dependence is likely to be necessary for standard Metropolized first-order methods.
翻訳日:2023-01-02 08:49:15 公開日:2020-06-14
# 勾配強化ニューラルネットワーク: grownet

Gradient Boosting Neural Networks: GrowNet ( http://arxiv.org/abs/2002.07971v2 )

ライセンス: Link先を確認
Sarkhan Badirli, Xuanqing Liu, Zhengming Xing, Avradeep Bhowmik, Khoa Doan, and Sathiya S. Keerthi(参考訳) 浅いニューラルネットワークを ‘weak learners'' として使用する新しい勾配ブースティングフレームワークが提案されている。 一般損失関数はこの統一フレームワークの下で考慮され、分類、回帰、ランクへの学習の具体例が提示される。 古典的な勾配上昇決定木を近似した欲求関数の落とし穴を修復するために、完全な補正ステップが組み込まれている。 提案モデルは,複数のデータセット上の3つのタスクすべてにおいて,最先端のブースティング手法よりも優れた結果を得た。 それぞれのモデル成分とモデルハイパーパラメータの影響について、アブレーション研究を行い、光を遮蔽する。

A novel gradient boosting framework is proposed where shallow neural networks are employed as ``weak learners''. General loss functions are considered under this unified framework with specific examples presented for classification, regression, and learning to rank. A fully corrective step is incorporated to remedy the pitfall of greedy function approximation of classic gradient boosting decision tree. The proposed model rendered outperforming results against state-of-the-art boosting methods in all three tasks on multiple datasets. An ablation study is performed to shed light on the effect of each model components and model hyperparameters.
翻訳日:2022-12-30 12:58:13 公開日:2020-06-14
# 距離空間と永田次元における$k$-nnルールの普遍的整合性

Universal consistency of the $k$-NN rule in metric spaces and Nagata dimension ( http://arxiv.org/abs/2003.00894v2 )

ライセンス: Link先を確認
Beno\^it Collins, Sushma Kumari, and Vladimir G. Pestov(参考訳) k$近くの学習規則(一様距離タイブレークの下で)は、長田の意味でのシグマ有限次元であるすべての計量空間$X$において普遍的に整合である。 これはC\'erou と Guyader (2006) によってこれらの著者の主な結果の結果として指摘され、D. Preiss (1971) による実解析の定理と組み合わせられた(そして Assouad と Quentin de Gromard (2006) によって詳細に説明されている)。 有限次元ユークリッド空間における$k$-NN分類器の普遍的整合性について、Charles J. Stone (1977) の原定理と同じ直線に沿って直接証明できることを示す。 この一般化は非ユークリッド的設定において距離関係がより広く普及しているため、非自明であり、その過程で様々な例を構築して計量の幾何学的性質と石論の限界について検討する。

The $k$ nearest neighbour learning rule (under the uniform distance tie breaking) is universally consistent in every metric space $X$ that is sigma-finite dimensional in the sense of Nagata. This was pointed out by C\'erou and Guyader (2006) as a consequence of the main result by those authors, combined with a theorem in real analysis sketched by D. Preiss (1971) (and elaborated in detail by Assouad and Quentin de Gromard (2006)). We show that it is possible to give a direct proof along the same lines as the original theorem of Charles J. Stone (1977) about the universal consistency of the $k$-NN classifier in the finite dimensional Euclidean space. The generalization is non-trivial because of the distance ties being more prevalent in the non-euclidean setting, and on the way we investigate the relevant geometric properties of the metrics and the limitations of the Stone argument, by constructing various examples.
翻訳日:2022-12-28 02:06:26 公開日:2020-06-14
# 時間的知識グラフの予測のためのグラフホークスニューラルネットワーク

Graph Hawkes Neural Network for Forecasting on Temporal Knowledge Graphs ( http://arxiv.org/abs/2003.13432v3 )

ライセンス: Link先を確認
Zhen Han, Yunpu Ma, Yuyi Wang, Stephan G\"unnemann, Volker Tresp(参考訳) hawkesプロセスは、異なるイベントタイプで自己引用イベントシーケンスをモデル化する標準的な方法となった。 最近の研究は、ホークス過程を神経的に自己調節された多変量点プロセスに一般化し、過去の出来事が将来の出来事に与える影響をより複雑で現実的なものにすることができる。 しかし、このアプローチは可能なイベントタイプの数によって制限されており、2つのノード間のそれぞれのリンクをイベントタイプとみなすことができるため、進化するグラフシーケンスのダイナミクスをモデル化することは不可能である。 リンクが方向付けされラベル付けされると、イベントタイプの数はさらに増加する。 この問題に対処するために、進化するグラフシーケンスのダイナミクスをキャプチャし、将来のインスタンスにおける事象の発生を予測するグラフホークスニューラルネットワークを提案する。 時間的知識グラフなどの大規模時間的多関係データベースに関する広範な実験により,本手法の有効性が示された。

The Hawkes process has become a standard method for modeling self-exciting event sequences with different event types. A recent work has generalized the Hawkes process to a neurally self-modulating multivariate point process, which enables the capturing of more complex and realistic impacts of past events on future events. However, this approach is limited by the number of possible event types, making it impossible to model the dynamics of evolving graph sequences, where each possible link between two nodes can be considered as an event type. The number of event types increases even further when links are directional and labeled. To address this issue, we propose the Graph Hawkes Neural Network that can capture the dynamics of evolving graph sequences and can predict the occurrence of a fact in a future time instance. Extensive experiments on large-scale temporal multi-relational databases, such as temporal knowledge graphs, demonstrate the effectiveness of our approach.
翻訳日:2022-12-18 06:40:03 公開日:2020-06-14
# 因果推論のための分類論的議論

A category theoretical argument for causal inference ( http://arxiv.org/abs/2004.09999v2 )

ライセンス: Link先を確認
R\'emy Tuy\'eras(参考訳) 本研究の目的は,因果要因間の複雑な相互作用を考慮した因果推論手法を設計することである。 提案手法は, 依存変数, 独立変数, 潜在変数の定義を, 未ラベル分割のカテゴリにおける積と矢印の観点から, カテゴリー論的に再構成した。 本稿では,環境変数や騒音などの隠れ変数について,提案手法がどのように説明されているか,および$p$-valuesで統計的に解釈できるかを示す。 この解釈は圏論から統計学まで、ANOVAの関手的性質を強調する命題の集合を通じて実装される。 これらの性質とカテゴリ理論の枠組みを組み合わせることで、音場代数的および統計的性質の両面から因果推論問題の解を提供する。 本稿では,遺伝子学の分野を対象とした組換えゲノムワイド・アソシエーション・アルゴリズムを設計するために,提案手法をどのように利用できるかを示す。

The goal of this paper is to design a causal inference method accounting for complex interactions between causal factors. The proposed method relies on a category theoretical reformulation of the definitions of dependent variables, independent variables and latent variables in terms of products and arrows in the category of unlabeled partitions. Throughout the paper, we demonstrate how the proposed method accounts for possible hidden variables, such as environmental variables or noise, and how it can be interpreted statistically in terms of $p$-values. This interpretation, from category theory to statistics, is implemented through a collection of propositions highlighting the functorial properties of ANOVA. We use these properties in combination with our category theoretical framework to provide solutions to causal inference problems with both sound algebraic and statistical properties. As an application, we show how the proposed method can be used to design a combinatorial genome-wide association algorithm for the field of genetics.
翻訳日:2022-12-15 03:31:11 公開日:2020-06-14
# ワンショット学習のためのメタメタ分類

Meta-Meta Classification for One-Shot Learning ( http://arxiv.org/abs/2004.08083v4 )

ライセンス: Link先を確認
Arkabandhu Chowdhury, Dipak Chaudhari, Swarat Chaudhuri, Chris Jermaine(参考訳) 我々は,小データ環境での学習にメタメタ分類と呼ばれる新しいアプローチを提案する。 このアプローチでは,学習者の集合を設計するために,学習者が偏見が高く,分散度が低く,特定の学習問題の解法に熟練した学習者が多数存在する。 メタメタ分類器は、与えられた学習問題の検証方法を学び、様々な学習者を組み合わせて問題解決を行う。 メタメタ学習アプローチは、学習アルゴリズムを小さなデータセットに適用することよりも、少ないデータで新しい学習問題を分類することを学ぶのが容易であるため、特に少ないショット学習タスクの解決に向いている。 提案手法は,単発・単発・全分類タスクで評価し,従来のメタラーニングよりも優れており,センセーブアプローチも優れていることを示す。

We present a new approach, called meta-meta classification, to learning in small-data settings. In this approach, one uses a large set of learning problems to design an ensemble of learners, where each learner has high bias and low variance and is skilled at solving a specific type of learning problem. The meta-meta classifier learns how to examine a given learning problem and combine the various learners to solve the problem. The meta-meta learning approach is especially suited to solving few-shot learning tasks, as it is easier to learn to classify a new learning problem with little data than it is to apply a learning algorithm to a small data set. We evaluate the approach on a one-shot, one-class-versus-all classification task and show that it is able to outperform traditional meta-learning as well as ensembling approaches.
翻訳日:2022-12-12 10:05:16 公開日:2020-06-14
# 自然言語ビデオローカライズのためのスパンベースローカライズネットワーク

Span-based Localizing Network for Natural Language Video Localization ( http://arxiv.org/abs/2004.13931v2 )

ライセンス: Link先を確認
Hao Zhang, Aixin Sun, Wei Jing, Joey Tianyi Zhou(参考訳) 非トリミングビデオとテキストクエリが与えられたとき、自然言語ビデオローカライゼーション(NLVL)は、クエリに意味的に対応するビデオからマッチングスパンを見つけることである。 既存のソリューションは、ランキングタスクとしてNLVLを定式化し、マルチモーダルマッチングアーキテクチャを適用するか、あるいは、ターゲットのビデオスパンを直接回帰する回帰タスクとして使用する。 本研究では,入力ビデオをテキストパスとして扱うことで,NLVLタスクをスパンベースのQAアプローチで処理する。 NLVLに対処するために,標準のスパンベースQAフレームワーク上にビデオスパンローカライズネットワーク(VSLNet)を提案する。 提案したVSLNetは、単純なクエリ誘導ハイライト(QGH)戦略により、NLVLとスパンベースのQAの違いに対処する。 QGHはVSLNetをガイドし、ハイライトされた領域内のマッチングビデオスパンを検索する。 3つのベンチマークデータセットに関する広範な実験を通して、提案したVSLNetは最先端の手法よりも優れており、スパンベースのQAフレームワークを採用することがNLVLを解決するための有望な方向であることを示す。

Given an untrimmed video and a text query, natural language video localization (NLVL) is to locate a matching span from the video that semantically corresponds to the query. Existing solutions formulate NLVL either as a ranking task and apply multimodal matching architecture, or as a regression task to directly regress the target video span. In this work, we address NLVL task with a span-based QA approach by treating the input video as text passage. We propose a video span localizing network (VSLNet), on top of the standard span-based QA framework, to address NLVL. The proposed VSLNet tackles the differences between NLVL and span-based QA through a simple yet effective query-guided highlighting (QGH) strategy. The QGH guides VSLNet to search for matching video span within a highlighted region. Through extensive experiments on three benchmark datasets, we show that the proposed VSLNet outperforms the state-of-the-art methods; and adopting span-based QA framework is a promising direction to solve NLVL.
翻訳日:2022-12-08 12:40:30 公開日:2020-06-14
# シミュレーション自由信頼性解析:物理インフォームド深層学習に基づくアプローチ

Simulation free reliability analysis: A physics-informed deep learning based approach ( http://arxiv.org/abs/2005.01302v3 )

ライセンス: Link先を確認
Souvik Chakraborty(参考訳) 本稿では信頼性解析問題を解くためのシミュレーションフリーフレームワークを提案する。 提案手法は、物理インフォームドニューラルネットワークと呼ばれる最近開発されたディープラーニングアプローチに根ざしている。 第一の考え方は、問題の物理からニューラルネットワークパラメータを直接学習することである。 これにより、シミュレーションとデータ生成の必要性は完全に排除される。 さらに,提案手法は,問題に関連する不変性や保存則といった物理法則も満たしている。 提案手法は3つのベンチマーク信頼性解析問題を解くために用いられる。 その結果,提案手法は精度が高いことが示された。 さらに,信頼性解析問題,すなわちデータ生成のための高価なシミュレーションを実行する際のボトルネックを,この方法で解消する。

This paper presents a simulation free framework for solving reliability analysis problems. The method proposed is rooted in a recently developed deep learning approach, referred to as the physics-informed neural network. The primary idea is to learn the neural network parameters directly from the physics of the problem. With this, the need for running simulation and generating data is completely eliminated. Additionally, the proposed approach also satisfies physical laws such as invariance properties and conservation laws associated with the problem. The proposed approach is used for solving three benchmark reliability analysis problems. Results obtained illustrates that the proposed approach is highly accurate. Moreover, the primary bottleneck of solving reliability analysis problems, i.e., running expensive simulations to generate data, is eliminated with this method.
翻訳日:2022-12-07 01:05:11 公開日:2020-06-14
# babywalk: 赤ちゃんの歩みによる視覚・言語ナビゲーションの進歩

BabyWalk: Going Farther in Vision-and-Language Navigation by Taking Baby Steps ( http://arxiv.org/abs/2005.04625v2 )

ライセンス: Link先を確認
Wang Zhu, Hexiang Hu, Jiacheng Chen, Zhiwei Deng, Vihan Jain, Eugene Ie, Fei Sha(参考訳) 指示に従うことの学習は、視覚・言語ナビゲーション(VLN)のための自律エージェントにとって基本的な重要性である。 本稿では,エージェントが短いパスからなるコーパスから学習する際に,長いパスをナビゲートする方法について検討する。 既存の最先端エージェントが十分に一般化していないことを示す。 そこで本研究では,長い命令を短い命令(babysteps)に分解し,順次処理することでナビゲートを行うことができる新しいvlnエージェントであるbabywalkを提案する。 特別設計メモリバッファはエージェントによって、過去の経験を将来のステップのコンテキストに変換するために使用される。 学習プロセスは2つのフェーズで構成される。 第1フェーズでは、エージェントはデモから模倣学習を使用してBabyStepsを達成します。 第2フェーズでは、エージェントはカリキュラムベースの強化学習を使用して、より長い命令でナビゲーションタスクの報酬を最大化する。 2つの新しいベンチマークデータセット(長いナビゲーションタスク)を作成し、既存のデータセットと組み合わせて、BabyWalkの一般化能力を調べます。 実証的な結果から、BabyWalkはいくつかのメトリクス、特に長い指示をより良く追従できることが示されている。 コードとデータセットはプロジェクトのページ https://github.com/Sha-Lab/babywalk.com で公開されています。

Learning to follow instructions is of fundamental importance to autonomous agents for vision-and-language navigation (VLN). In this paper, we study how an agent can navigate long paths when learning from a corpus that consists of shorter ones. We show that existing state-of-the-art agents do not generalize well. To this end, we propose BabyWalk, a new VLN agent that is learned to navigate by decomposing long instructions into shorter ones (BabySteps) and completing them sequentially. A special design memory buffer is used by the agent to turn its past experiences into contexts for future steps. The learning process is composed of two phases. In the first phase, the agent uses imitation learning from demonstration to accomplish BabySteps. In the second phase, the agent uses curriculum-based reinforcement learning to maximize rewards on navigation tasks with increasingly longer instructions. We create two new benchmark datasets (of long navigation tasks) and use them in conjunction with existing ones to examine BabyWalk's generalization ability. Empirical results show that BabyWalk achieves state-of-the-art results on several metrics, in particular, is able to follow long instructions better. The codes and the datasets are released on our project page https://github.com/Sha-Lab/babywalk.
翻訳日:2022-12-05 01:21:04 公開日:2020-06-14
# 複数の時間スケールを持つ動的システムのための機械学習に基づくディジタルツイン

Machine learning based digital twin for dynamical systems with multiple time-scales ( http://arxiv.org/abs/2005.05862v2 )

ライセンス: Link先を確認
Souvik Chakraborty and Sondipon Adhikari(参考訳) デジタルツイン技術は、インフラ、航空宇宙、自動車といった様々な産業分野で広く応用される可能性がある。 しかし、アプリケーション固有の詳細が欠如しているため、この技術の実践的な採用は遅かった。 本稿では,線形単一自由度構造力学系を2つの異なる操作時間スケールで進化させるデジタルツインフレームワークと,その固有な動的時間スケールに着目した。 私たちのアプローチは戦略的に2つのコンポーネントに分離します。 (a)データ処理及び応答予測のための物理に基づく名目モデル、及び (b)システムパラメータの時間発展のためのデータ駆動機械学習モデル。 物理学に基づく名目モデルはシステム固有であり、検討中の問題に基づいて選択される。 一方、データ駆動機械学習モデルは汎用的である。 システムパラメータのマルチスケール進化を追跡するために,データ駆動モデルとして専門家の混在を利用した手法を提案する。 専門家モデルの混合では、専門家モデルとしてガウス過程(gp)が用いられる。 第一の考え方は、各専門家がシステムパラメータの進化を単一の時間スケールで追跡できるようにすることである。 GPを用いた'エキスパートの混合'のハイパーパラメータの学習には、予測最大化とシーケンシャルなモンテカルロサンプリングを利用する効率的なフレームワークが使用される。 ディジタル双生児の性能は剛性および/または質量変動を有する多時間力学系で示される。 デジタル双生児は頑丈で、合理的に正確な結果が得られる。 提案されているデジタルツインのエキサイティングな特徴は、将来のタイミングで合理的な予測を提供する能力である。 データ品質とデータ量に関する側面についても検討した。

Digital twin technology has a huge potential for widespread applications in different industrial sectors such as infrastructure, aerospace, and automotive. However, practical adoptions of this technology have been slower, mainly due to a lack of application-specific details. Here we focus on a digital twin framework for linear single-degree-of-freedom structural dynamic systems evolving in two different operational time scales in addition to its intrinsic dynamic time-scale. Our approach strategically separates into two components -- (a) a physics-based nominal model for data processing and response predictions, and (b) a data-driven machine learning model for the time-evolution of the system parameters. The physics-based nominal model is system-specific and selected based on the problem under consideration. On the other hand, the data-driven machine learning model is generic. For tracking the multi-scale evolution of the system parameters, we propose to exploit a mixture of experts as the data-driven model. Within the mixture of experts model, Gaussian Process (GP) is used as the expert model. The primary idea is to let each expert track the evolution of the system parameters at a single time-scale. For learning the hyperparameters of the `mixture of experts using GP', an efficient framework the exploits expectation-maximization and sequential Monte Carlo sampler is used. Performance of the digital twin is illustrated on a multi-timescale dynamical system with stiffness and/or mass variations. The digital twin is found to be robust and yields reasonably accurate results. One exciting feature of the proposed digital twin is its capability to provide reasonable predictions at future time-steps. Aspects related to the data quality and data quantity are also investigated.
翻訳日:2022-12-03 18:23:00 公開日:2020-06-14
# 深層ニューラルネットワークを用いた移動学習に基づく多要素物理

Transfer learning based multi-fidelity physics informed deep neural network ( http://arxiv.org/abs/2005.10614v2 )

ライセンス: Link先を確認
Souvik Chakraborty(参考訳) 科学と工学の多くの系において、支配微分方程式は近似的な意味では知られていないか知られていない。 このようなシステムの分析と設計は、フィールドおよび/または実験実験から収集されたデータによって管理される。 この困難なシナリオは、データ収集が高価で時間がかかる場合にさらに悪化する。 この問題に対処するため,本稿では,mf-pidnn(multi-fidelity physics informed deep neural network)を提案する。 この枠組みは、問題の物理が近似感覚(低忠実度物理学)で知られ、少数の高忠実度データが利用できる場合に特に適している。 MF-PIDNNは、転送学習の概念を用いて、物理情報とデータ駆動型ディープラーニング技術をブレンドする。 近似支配方程式は、まず低忠実度物理情報深層ニューラルネットワークの訓練に使用される。 次に、高忠実度データを用いて低忠実度モデルを更新する転送学習を行う。 MF-PIDNNは、偏微分方程式から問題の物理に関する有用な情報を符号化することができ、データを持たないゾーンでも正確な予測を行うことができる。 さらに、このモデルのトレーニングには低忠実度データを必要としない。 MF-PIDNNの適用性と実用性は、4つのベンチマーク信頼性解析問題を解く際に説明される。 提案手法の興味深い特徴を説明するケーススタディも提示されている。

For many systems in science and engineering, the governing differential equation is either not known or known in an approximate sense. Analyses and design of such systems are governed by data collected from the field and/or laboratory experiments. This challenging scenario is further worsened when data-collection is expensive and time-consuming. To address this issue, this paper presents a novel multi-fidelity physics informed deep neural network (MF-PIDNN). The framework proposed is particularly suitable when the physics of the problem is known in an approximate sense (low-fidelity physics) and only a few high-fidelity data are available. MF-PIDNN blends physics informed and data-driven deep learning techniques by using the concept of transfer learning. The approximate governing equation is first used to train a low-fidelity physics informed deep neural network. This is followed by transfer learning where the low-fidelity model is updated by using the available high-fidelity data. MF-PIDNN is able to encode useful information on the physics of the problem from the {\it approximate} governing differential equation and hence, provides accurate prediction even in zones with no data. Additionally, no low-fidelity data is required for training this model. Applicability and utility of MF-PIDNN are illustrated in solving four benchmark reliability analysis problems. Case studies to illustrate interesting features of the proposed approach are also presented.
翻訳日:2022-12-01 13:51:30 公開日:2020-06-14
# テキストによる敵対的攻撃と防御:調査

Adversarial Attacks and Defense on Texts: A Survey ( http://arxiv.org/abs/2005.14108v3 )

ライセンス: Link先を確認
Aminul Huq, Mst. Tasnim Pervin(参考訳) 近年、ディープラーニングモデルは、物体認識、自動運転車、顔認識、音声認識、感情分析など、様々な目的で広く利用されている。 しかし、近年、これらのモデルには、モデルに誤分類を強いるノイズに対する弱さがあることが示されている。 この問題は画像領域と音声領域で深く研究されている。 テキストデータに関するこの問題についてはほとんど研究されていない。 様々な種類の攻撃や防御技術を理解するために、このトピックに関する調査はさらに少ない。 本書では,より包括的アイデアを提供するために,様々な攻撃手法と様々な防御モデルを蓄積,分析した。 その後、この分野を前進させるために克服する必要があるすべての論文や課題から興味深い発見を指摘します。

Deep learning models have been used widely for various purposes in recent years in object recognition, self-driving cars, face recognition, speech recognition, sentiment analysis, and many others. However, in recent years it has been shown that these models possess weakness to noises which force the model to misclassify. This issue has been studied profoundly in the image and audio domain. Very little has been studied on this issue concerning textual data. Even less survey on this topic has been performed to understand different types of attacks and defense techniques. In this manuscript, we accumulated and analyzed different attacking techniques and various defense models to provide a more comprehensive idea. Later we point out some of the interesting findings of all papers and challenges that need to be overcome to move forward in this field.
翻訳日:2022-11-27 05:10:26 公開日:2020-06-14
# 医用画像データを共有せずに分散非同期識別器GANから学習するシンセティックラーニング

Synthetic Learning: Learn From Distributed Asynchronized Discriminator GAN Without Sharing Medical Image Data ( http://arxiv.org/abs/2006.00080v2 )

ライセンス: Link先を確認
Qi Chang, Hui Qu, Yikai Zhang, Mert Sabuncu, Chao Chen, Tong Zhang and Dimitris Metaxas(参考訳) 本稿では,分散非同期判別器gan(asyndgan)という,データのプライバシ保護と通信効率のよい分散gan学習フレームワークを提案する。 提案フレームワークは,分散型判別器から学習した中央発電機を訓練し,生成した合成画像を用いてセグメンテーションモデルのみを訓練することを目的とした。 我々の実験は我々のアプローチが 1) 患者の生データを共有せずに複数のデータセットから実際の画像の分布を学習できる。 2) より効率的で、他の分散ディープラーニング手法よりも帯域幅が小さい。 3) 1つの実データセットでトレーニングされたモデルよりも高いパフォーマンスを実現し、すべての実データセットでトレーニングされたモデルとほぼ同じパフォーマンスを実現している。 4) ジェネレータが分散分布を非常に重要な方法で学習できることを保証できるので、偏りがない。

In this paper, we propose a data privacy-preserving and communication efficient distributed GAN learning framework named Distributed Asynchronized Discriminator GAN (AsynDGAN). Our proposed framework aims to train a central generator learns from distributed discriminator, and use the generated synthetic image solely to train the segmentation model.We validate the proposed framework on the application of health entities learning problem which is known to be privacy sensitive. Our experiments show that our approach: 1) could learn the real image's distribution from multiple datasets without sharing the patient's raw data. 2) is more efficient and requires lower bandwidth than other distributed deep learning methods. 3) achieves higher performance compared to the model trained by one real dataset, and almost the same performance compared to the model trained by all real datasets. 4) has provable guarantees that the generator could learn the distributed distribution in an all important fashion thus is unbiased.
翻訳日:2022-11-26 23:23:23 公開日:2020-06-14
# シナジー学習システム:概念,アーキテクチャ,アルゴリズム

Synergetic Learning Systems: Concept, Architecture, and Algorithms ( http://arxiv.org/abs/2006.06367v2 )

ライセンス: Link先を確認
Ping Guo, and Qian Yin(参考訳) 脳の発達は「進化+選択」のダーウィン的過程であるという考えと、現在の状態が多くの天体の局所平衡状態であり、宇宙の温度と重力によって駆動される自己組織と進化過程であるという考えを踏まえて、本研究では、'synergetic learning systems'と呼ばれる人工知能システムについて述べる。 このシステムは2つ以上のサブシステム(モデル、エージェントまたは仮想体)で構成され、オープンな複雑な巨大システムである。 ナチュラルインテリジェンスにインスパイアされたシステムは、協調的/競争的なシナジー学習を通じて、与えられた環境におけるインテリジェントな情報処理と意思決定を実現する。 人工知能システムは進化過程において「人間の選択」の法則を採用するべきであるが、「それは生き残る種の中では最強ではなく、変化に最も反応する」という自然法則によって進化した知性である。 したがって,提案システムアーキテクチャは,人間機械のシナジーやマルチエージェントのシナジーシステムにも適用できると考えられる。 また, 設計基準の下では, 長期的共進化により, 最終的には汎用的な人工知能の実現が期待できる。

Drawing on the idea that brain development is a Darwinian process of ``evolution + selection'' and the idea that the current state is a local equilibrium state of many bodies with self-organization and evolution processes driven by the temperature and gravity in our universe, in this work, we describe an artificial intelligence system called the ``Synergetic Learning Systems''. The system is composed of two or more subsystems (models, agents or virtual bodies), and it is an open complex giant system. Inspired by natural intelligence, the system achieves intelligent information processing and decision-making in a given environment through cooperative/competitive synergetic learning. The intelligence evolved by the natural law of ``it is not the strongest of the species that survives, but the one most responsive to change,'' while an artificial intelligence system should adopt the law of ``human selection'' in the evolution process. Therefore, we expect that the proposed system architecture can also be adapted in human-machine synergy or multi-agent synergetic systems. It is also expected that under our design criteria, the proposed system will eventually achieve artificial general intelligence through long term coevolution.
翻訳日:2022-11-26 12:14:20 公開日:2020-06-14
# 感度統計の反復的ランキングによるプルーニング

Pruning via Iterative Ranking of Sensitivity Statistics ( http://arxiv.org/abs/2006.00896v2 )

ライセンス: Link先を確認
Stijn Verdenius, Maarten Stol, Patrick Forr\'e(参考訳) SNIP[arXiv:1810.02340v2]の導入により、現代のニューラルネットワークがトレーニング前に効果的に切断できることが実証された。 しかし、その感度基準は、トレーニングシグナルを適切に伝播したり、層を切断したりしないことでも批判されている。 GraSP[arXiv:2002.07376v1]が導入された。 しかし、本研究では、小さなステップ(まだトレーニング前の段階)で感度基準を反復的に適用することで、実装が難しいことなしにパフォーマンスを向上できることを示す。 そのため、SNIP-itを紹介する。 次に, 構造的および非構造的プルーニング, トレーニング前および/またはトレーニング中の両方に適用し, 最先端のスパルシティ・パフォーマンストレードオフを実現する方法を示す。 つまり、最初からトレーニングプロセスでプルーニングを行うことによる計算上の利点をすでに提供しています。 さらに,本手法は,過剰フィッティング,切断,敵対攻撃に対するロバスト性を評価する。

With the introduction of SNIP [arXiv:1810.02340v2], it has been demonstrated that modern neural networks can effectively be pruned before training. Yet, its sensitivity criterion has since been criticized for not propagating training signal properly or even disconnecting layers. As a remedy, GraSP [arXiv:2002.07376v1] was introduced, compromising on simplicity. However, in this work we show that by applying the sensitivity criterion iteratively in smaller steps - still before training - we can improve its performance without difficult implementation. As such, we introduce 'SNIP-it'. We then demonstrate how it can be applied for both structured and unstructured pruning, before and/or during training, therewith achieving state-of-the-art sparsity-performance trade-offs. That is, while already providing the computational benefits of pruning in the training process from the start. Furthermore, we evaluate our methods on robustness to overfitting, disconnection and adversarial attacks as well.
翻訳日:2022-11-26 06:13:41 公開日:2020-06-14
# Linformer: 線形複雑性を伴う自己認識

Linformer: Self-Attention with Linear Complexity ( http://arxiv.org/abs/2006.04768v3 )

ライセンス: Link先を確認
Sinong Wang, Belinda Z. Li, Madian Khabsa, Han Fang, Hao Ma(参考訳) 大規模なトランスモデルは、多くの自然言語処理アプリケーションにおいて最先端の結果を達成するのに極めて成功している。 しかし、トランスフォーマーの標準的な自己保持機構は、シーケンスの長さに関して、時間と空間を$O(n^2)で使用するため、これらのモデルのトレーニングとデプロイは、非常にコストがかかる。 本稿では,低ランク行列を用いて自己認識機構を近似できることを実証する。 さらに,この知見を活かして,時間と空間の両方において,自己着脱の複雑さを$o(n^2)$から$o(n)$に削減する,新たな自己着脱機構を提案する。 結果として生じる線形変換器である \textit{Linformer} は標準の Transformer モデルと同等に動作し、メモリ効率と時間効率が向上する。

Large transformer models have shown extraordinary success in achieving state-of-the-art results in many natural language processing applications. However, training and deploying these models can be prohibitively costly for long sequences, as the standard self-attention mechanism of the Transformer uses $O(n^2)$ time and space with respect to sequence length. In this paper, we demonstrate that the self-attention mechanism can be approximated by a low-rank matrix. We further exploit this finding to propose a new self-attention mechanism, which reduces the overall self-attention complexity from $O(n^2)$ to $O(n)$ in both time and space. The resulting linear transformer, the \textit{Linformer}, performs on par with standard Transformer models, while being much more memory- and time-efficient.
翻訳日:2022-11-24 00:49:47 公開日:2020-06-14
# HausaMT v1.0: English-Hausa Neural Machine Translation

HausaMT v1.0: Towards English-Hausa Neural Machine Translation ( http://arxiv.org/abs/2006.05014v2 )

ライセンス: Link先を確認
Adewale Akinfaderin(参考訳) 低リソース言語のためのニューラルマシン翻訳(NMT)は、大量の並列データと言語多様性の欠如により、低パフォーマンスに悩まされている。 この問題の改善に寄与するため,我々は,低リソース言語のためのタスクと考えられる英語-ハウサ機械翻訳のベースラインモデルを構築した。 ハーサ語はアラビア語に次いで世界で2番目に大きなアフロ・アジア語であり、西アフリカ諸国で英語とフランス語に次いで3番目に大きな言語である。 そこで本稿では,Hausa- English parallel corpusを用いた翻訳用データセットを整理した。 標準語レベルのトークン化とByte Pair Encoding(BPE)サブワードトークン化という2つのトークン化アプローチを用いて,ベースラインモデルのトレーニングと,RecurrentおよびTransformerエンコーダデコーダアーキテクチャを用いたモデルの性能評価を行った。

Neural Machine Translation (NMT) for low-resource languages suffers from low performance because of the lack of large amounts of parallel data and language diversity. To contribute to ameliorating this problem, we built a baseline model for English-Hausa machine translation, which is considered a task for low-resource language. The Hausa language is the second largest Afro-Asiatic language in the world after Arabic and it is the third largest language for trading across a larger swath of West Africa countries, after English and French. In this paper, we curated different datasets containing Hausa-English parallel corpus for our translation. We trained baseline models and evaluated the performance of our models using the Recurrent and Transformer encoder-decoder architecture with two tokenization approaches: standard word-level tokenization and Byte Pair Encoding (BPE) subword tokenization.
翻訳日:2022-11-23 13:34:25 公開日:2020-06-14
# DNSトンネル: 深層学習に基づく語彙検出手法

DNS Tunneling: A Deep Learning based Lexicographical Detection Approach ( http://arxiv.org/abs/2006.06122v2 )

ライセンス: Link先を確認
Franco Palau, Carlos Catania, Jorge Guerra, Sebastian Garcia, and Maria Rigaki(参考訳) ドメイン名サービスは、名前解決のために作られた信頼されたプロトコルであるが、過去数年間、データ転送にそれを使うためのいくつかのアプローチが開発されてきた。 DNS Tunnelingは、DNSクエリ内にデータをエンコードし、DNSを介して情報交換を可能にする方法である。 この特徴はDNSトンネル法を利用してマルウェアに感染したマシンとの双方向通信を確立するハッカーにとって魅力的である。 本稿では,これらの脅威を迅速かつ正確に検出するために,アーキテクチャの複雑さを最小限に抑えた畳み込みニューラルネットワーク(CNN)に基づく検出手法を提案する。 DNSトンネリング接続を評価するための品質データセットが不足しているため、よく知られた5つのDNSツールで生成されたDNSトンネリングドメインを含む新しいデータセットの詳細な構築と記述も提示する。 単純なアーキテクチャにもかかわらず、結果として得られたCNNモデルは、0.8%に近い偽陽性率でトンネル領域全体の92%以上を正しく検出した。

Domain Name Service is a trusted protocol made for name resolution, but during past years some approaches have been developed to use it for data transfer. DNS Tunneling is a method where data is encoded inside DNS queries, allowing information exchange through the DNS. This characteristic is attractive to hackers who exploit DNS Tunneling method to establish bidirectional communication with machines infected with malware with the objective of exfiltrating data or sending instructions in an obfuscated way. To detect these threats fast and accurately, the present work proposes a detection approach based on a Convolutional Neural Network (CNN) with a minimal architecture complexity. Due to the lack of quality datasets for evaluating DNS Tunneling connections, we also present a detailed construction and description of a novel dataset that contains DNS Tunneling domains generated with five well-known DNS tools. Despite its simple architecture, the resulting CNN model correctly detected more than 92% of total Tunneling domains with a false positive rate close to 0.8%.
翻訳日:2022-11-22 14:23:36 公開日:2020-06-14
# オブジェクト検出のための統一サンプル重み付けネットワークの学習

Learning a Unified Sample Weighting Network for Object Detection ( http://arxiv.org/abs/2006.06568v2 )

ライセンス: Link先を確認
Qi Cai and Yingwei Pan and Yu Wang and Jingen Liu and Ting Yao and Tao Mei(参考訳) 地域サンプリングや重み付けは、現代の地域ベースの物体検出器の成功に極めて重要である。 目的関数を最適化する際にのみ「ハード」なサンプルにフォーカスする以前の研究とは異なり、サンプル重み付けはデータに依存し、タスク依存であるべきだと論じる。 目的関数最適化のためのサンプルの重要性は、オブジェクト分類と境界ボックス回帰タスクの両方の不確実性によって決定される。 この目的のために,多くの領域に基づく物体検出器を様々なサンプリング戦略でカバーする一般損失関数を考案し,それに基づいてサンプルのタスク重み付けを予測するための統一サンプル重み付けネットワークを提案する。 私たちのフレームワークはシンプルだが効果的だ。 サンプルの分類損失、回帰損失、IoU、確率スコアなどの不確実性分布を利用してサンプル重量を予測する。 私たちのアプローチにはいくつかの利点があります。 (i)。 分類タスクと回帰タスクの両方のサンプル重量を共同で学習し、従来の作業と区別する。 (ii) これはデータ駆動プロセスなので、手動のパラメータチューニングを避けます。 (iii) ほとんどの物体検出器に無力で接続でき、推論時間に影響を与えることなく顕著な性能向上を達成できる。 我々のアプローチは最近のオブジェクト検出フレームワークで徹底的に評価されており、一貫して検出精度を高めることができる。 コードは \url{https://github.com/caiqi/sample-weighting-network} で利用可能である。

Region sampling or weighting is significantly important to the success of modern region-based object detectors. Unlike some previous works, which only focus on "hard" samples when optimizing the objective function, we argue that sample weighting should be data-dependent and task-dependent. The importance of a sample for the objective function optimization is determined by its uncertainties to both object classification and bounding box regression tasks. To this end, we devise a general loss function to cover most region-based object detectors with various sampling strategies, and then based on it we propose a unified sample weighting network to predict a sample's task weights. Our framework is simple yet effective. It leverages the samples' uncertainty distributions on classification loss, regression loss, IoU, and probability score, to predict sample weights. Our approach has several advantages: (i). It jointly learns sample weights for both classification and regression tasks, which differentiates it from most previous work. (ii). It is a data-driven process, so it avoids some manual parameter tuning. (iii). It can be effortlessly plugged into most object detectors and achieves noticeable performance improvements without affecting their inference time. Our approach has been thoroughly evaluated with recent object detection frameworks and it can consistently boost the detection accuracy. Code has been made available at \url{https://github.com/caiqi/sample-weighting-network}.
翻訳日:2022-11-22 14:08:33 公開日:2020-06-14
# スケーラブル画像分解のための多次元ウェーブレット:軌道ウェーブレット

Multidimensional Wavelets for Scalable Image Decomposition: Orbital Wavelets ( http://arxiv.org/abs/2006.07920v1 )

ライセンス: Link先を確認
H. M. de Oliveira, V. V. Vermehren, R. J. Cintra(参考訳) ウェーブレットはシュル=オディンガーの波動関数とボルンの解釈と密接に関連している。 原子軌道の出現と同様に、反対称ウェーブレットと軌道ウェーブレットを組み合わせることが提案されている。 提案手法は、このプロセスを通じてウェーブレットの次元を増やすことを可能にする。 新しい軌道2dウェーブレットが静止画像の分解に導入され、2つの異なるスケールで同時に解析を行うことができる。 このような画像解析の例を示す。

Wavelets are closely related to the Schr\"odinger's wave functions and the interpretation of Born. Similarly to the appearance of atomic orbital, it is proposed to combine anti-symmetric wavelets into orbital wavelets. The proposed approach allows the increase of the dimension of wavelets through this process. New orbital 2D-wavelets are introduced for the decomposition of still images, showing that it is possible to perform an analysis simultaneous in two distinct scales. An example of such an image analysis is shown.
翻訳日:2022-11-21 13:42:05 公開日:2020-06-14
# 聴覚と視覚の予測を改善するgcc-phat機能を備えたbatvision

BatVision with GCC-PHAT Features for Better Sound to Vision Predictions ( http://arxiv.org/abs/2006.07995v1 )

ライセンス: Link先を確認
Jesper Haahr Christensen, Sascha Hornauer, Stella Yu(参考訳) 自然界で見られる洗練されたエコーロケーション能力にインスパイアされ、生成する対向ネットワークを訓練し、音から可視深度マップとグレースケールレイアウトを予測する。 そこで本研究では,バイノーラルエコーをチャープ音から処理する。 われわれのモバイルロボットと低コストのハードウェアを使って、サウンド・ツー・ビジョンモデルと自己収集したデータセットで構成されるbatvisionの以前の作業に基づいて構築した。 モデルにいくつかの変更を導入することで,先行モデルの改良を行い,奥行き,グレースケール推定,知覚品質の向上を実現した。 生のバイノーラル波形を入力として使用するのではなく、一般化された相互相関(GCC)特性を生成し、代わりに入力として使用する。 さらに,モデル生成器を変更し,残差学習をベースとし,判別器のスペクトル正規化を用いる。 従来のBatVisionモデルと比較し,定量的および定性的な改善を行った。

Inspired by sophisticated echolocation abilities found in nature, we train a generative adversarial network to predict plausible depth maps and grayscale layouts from sound. To achieve this, our sound-to-vision model processes binaural echo-returns from chirping sounds. We build upon previous work with BatVision that consists of a sound-to-vision model and a self-collected dataset using our mobile robot and low-cost hardware. We improve on the previous model by introducing several changes to the model, which leads to a better depth and grayscale estimation, and increased perceptual quality. Rather than using raw binaural waveforms as input, we generate generalized cross-correlation (GCC) features and use these as input instead. In addition, we change the model generator and base it on residual learning and use spectral normalization in the discriminator. We compare and present both quantitative and qualitative improvements over our previous BatVision model.
翻訳日:2022-11-21 13:41:58 公開日:2020-06-14
# ガウス過程回帰を用いた安定な非パラメトリック力学系の学習

Learning Stable Nonparametric Dynamical Systems with Gaussian Process Regression ( http://arxiv.org/abs/2006.07868v1 )

ライセンス: Link先を確認
Wenxin Xiao, Armin Lederer, Sandra Hirche(参考訳) 生体疾患治療のための生物学的プロセスやロボットリハビリテーションのための人間の行動といった現実世界のシステムのモデリングは、ラベル付けされたトレーニングデータがばらばらで高価である一方で、これらの力学系のモデルから高い予測精度を必要とするため、難しい問題である。 この領域における問題の非線形性が高いため、非パラメトリックモデルを特定するためにデータ駆動アプローチが注目される。 これらのモデルの予測性能を高めるために、安定性などの抽象的な事前知識を学習手法に含めるべきである。 主要な課題の1つはモデルの十分な柔軟性を保証することである。 したがって、ガウス過程の回帰に基づく非パラメトリックリアプノフ関数をデータから学習する手法を導出する。 さらに、データから非パラメトリックなガウス状態空間モデルを学び、観測されたデータを正確に再現可能であることを示す。 非パラメトリック制御Lyapunov関数に基づく名目モデルの安定化は、トレーニングサンプルにおける名目モデルの挙動を変化させないことを示す。 本手法の柔軟性と効率性は,実世界のデータセットから手書き動作を学習するベンチマーク問題において実証され,本手法はトレーニングデータのほぼ正確に再現する。

Modelling real world systems involving humans such as biological processes for disease treatment or human behavior for robotic rehabilitation is a challenging problem because labeled training data is sparse and expensive, while high prediction accuracy is required from models of these dynamical systems. Due to the high nonlinearity of problems in this area, data-driven approaches gain increasing attention for identifying nonparametric models. In order to increase the prediction performance of these models, abstract prior knowledge such as stability should be included in the learning approach. One of the key challenges is to ensure sufficient flexibility of the models, which is typically limited by the usage of parametric Lyapunov functions to guarantee stability. Therefore, we derive an approach to learn a nonparametric Lyapunov function based on Gaussian process regression from data. Furthermore, we learn a nonparametric Gaussian process state space model from the data and show that it is capable of reproducing observed data exactly. We prove that stabilization of the nominal model based on the nonparametric control Lyapunov function does not modify the behavior of the nominal model at training samples. The flexibility and efficiency of our approach is demonstrated on the benchmark problem of learning handwriting motions from a real world dataset, where our approach achieves almost exact reproduction of the training data.
翻訳日:2022-11-21 13:41:43 公開日:2020-06-14
# 強化学習に基づくインタラクティブレコメンダシステムにおける敵対的攻撃と検出

Adversarial Attacks and Detection on Reinforcement Learning-Based Interactive Recommender Systems ( http://arxiv.org/abs/2006.07934v1 )

ライセンス: Link先を確認
Yuanjiang Cao, Xiaocong Chen, Lina Yao, Xianzhi Wang and Wei Emma Zhang(参考訳) 敵意攻撃は、早期に敵意攻撃を検出する上で重要な課題となる。 強化学習に基づくインタラクティブレコメンデーションシステムにおける攻撃非依存検出を提案する。 まず,その多種多様な分布を示すために敵の例を作成し,それに基づいて深層学習に基づく分類器を用いて潜在的な攻撃を検出することで推薦システムを強化した。 最後に,敵対例の攻撃強度と頻度について検討し,複数の工法を用いて標準的なデータセット上でモデルを評価する。 広範な実験により,ほとんどの敵の攻撃は効果的であり,攻撃強度と攻撃頻度は攻撃性能に影響を及ぼすことが示された。 戦略的に時間的攻撃は、1/3から1/2の攻撃周波数で比較攻撃性能を達成する。 さらに,1つの工法で訓練したブラックボックス検出器は,複数の工法にまたがる一般化能力を有する。

Adversarial attacks pose significant challenges for detecting adversarial attacks at an early stage. We propose attack-agnostic detection on reinforcement learning-based interactive recommendation systems. We first craft adversarial examples to show their diverse distributions and then augment recommendation systems by detecting potential attacks with a deep learning-based classifier based on the crafted data. Finally, we study the attack strength and frequency of adversarial examples and evaluate our model on standard datasets with multiple crafting methods. Our extensive experiments show that most adversarial attacks are effective, and both attack strength and attack frequency impact the attack performance. The strategically-timed attack achieves comparative attack performance with only 1/3 to 1/2 attack frequency. Besides, our black-box detector trained with one crafting method has the generalization ability over several crafting methods.
翻訳日:2022-11-21 13:41:24 公開日:2020-06-14
# 貴族の代表委員会

Representative Committees of Peers ( http://arxiv.org/abs/2006.07837v1 )

ライセンス: Link先を確認
Reshef Meir, Fedor Sandomirskiy, and Moshe Tennenholtz(参考訳) 有権者の人口は、予期せぬ二項問題の連続を決定するために、その中の代表を選ばなければならない。 投票者は最終決定だけを気にし、選出された代表者ではない。 投票者の無効性は、彼の選好が決定と一致しない問題の割合に比例する。 全ての有権者が発行する投票は社会福祉を最大化するが、我々は小委員会によって人口の選好がどの程度うまく近似できるかに興味を持っている。 我々は、k-sortition(委員会内で多数投票を行う k 人のランダムな委員会)が、任意の投票者 n の最適社会的コスト 1+O(1/k) の範囲内で、任意の問題 $m$ および任意の選好プロファイルに結果をもたらすことを示す。 少数の問題mについては、委員をフォロワー数に応じて重み付けする委任手続により、社会的コストをさらに最適なものにすることができる。 しかし,大きなmでは,k-ソートが,集団全体の選好プロファイルに関する計量情報を考慮した委員会に基づく幅広い規則群の中で,最悪の最適規則であることを示す。

A population of voters must elect representatives among themselves to decide on a sequence of possibly unforeseen binary issues. Voters care only about the final decision, not the elected representatives. The disutility of a voter is proportional to the fraction of issues, where his preferences disagree with the decision. While an issue-by-issue vote by all voters would maximize social welfare, we are interested in how well the preferences of the population can be approximated by a small committee. We show that a k-sortition (a random committee of k voters with the majority vote within the committee) leads to an outcome within the factor 1+O(1/k) of the optimal social cost for any number of voters n, any number of issues $m$, and any preference profile. For a small number of issues m, the social cost can be made even closer to optimal by delegation procedures that weigh committee members according to their number of followers. However, for large m, we demonstrate that the k-sortition is the worst-case optimal rule within a broad family of committee-based rules that take into account metric information about the preference profile of the whole population.
翻訳日:2022-11-21 13:32:28 公開日:2020-06-14
# マルチ購入行動:モデリングと最適化

Multi-Purchase Behavior: Modeling and Optimization ( http://arxiv.org/abs/2006.08055v1 )

ライセンス: Link先を確認
Theja Tulabandhula, Deeksha Sinha, Prasoon Patidar(参考訳) 本稿では,複数の商品の購入をモデル化し,最適化したレコメンデーションを表示する問題について検討する。 ユーザをパーソナライズしたモデリングと、これらのモデルから得られる最適な製品の高速な計算により、収益が大幅に増加し、エンドユーザーエクスペリエンスが向上する。 本稿では,BundleMVL-Kファミリと呼ばれる類似のマルチ購入モデル群を提案し,このモデルに対して最適化されたレコメンデーションを効率的に計算する二分探索に基づく反復戦略を開発する。 これは、選択モデルのマルチ購入クラスを運用する最初の試みの1つである。 最適解の構造的特性を特徴付け、ある積が定数時間における最適分解の一部であるかどうかを決定できるようにし、計算的に解く必要があるインスタンスのサイズを小さくする。 また,最適レコメンデーションセットの計算の難しさも確立する。 複数の購入行動のモデリングと収益の獲得との間には,最初の定量的な関連性を示す。 モデル適合性, 予測収益率, 実行時間短縮など, 実世界の複数のデータセットを用いて, 競合するソリューションと比較して, モデリングおよび最適化手法の有効性を示す。 複数の購入を考慮に入れる利点は、$\sim 1500$のインスタンスのmnlモデルと比較すると、ta fengとutiショッピングデータセットの相対的な観点で6-8-%$である。 さらに、実世界のデータセット8ドルで、我々のモデルのテストログのような適合性は、相対的な観点から平均117\%以上向上しています。 モデルの単純さと最適化手法の反復的な性質により、実践者は厳しい計算制約を満たしながら、大規模に実用的な推奨アプリケーションで収益を上げられる。

We study the problem of modeling purchase of multiple items and utilizing it to display optimized recommendations, which is a central problem for online e-commerce platforms. Rich personalized modeling of users and fast computation of optimal products to display given these models can lead to significantly higher revenues and simultaneously enhance the end user experience. We present a parsimonious multi-purchase family of choice models called the BundleMVL-K family, and develop a binary search based iterative strategy that efficiently computes optimized recommendations for this model. This is one of the first attempts at operationalizing multi-purchase class of choice models. We characterize structural properties of the optimal solution, which allow one to decide if a product is part of the optimal assortment in constant time, reducing the size of the instance that needs to be solved computationally. We also establish the hardness of computing optimal recommendation sets. We show one of the first quantitative links between modeling multiple purchase behavior and revenue gains. The efficacy of our modeling and optimization techniques compared to competing solutions is shown using several real world datasets on multiple metrics such as model fitness, expected revenue gains and run-time reductions. The benefit of taking multiple purchases into account is observed to be $6-8\%$ in relative terms for the Ta Feng and UCI shopping datasets when compared to the MNL model for instances with $\sim 1500$ products. Additionally, across $8$ real world datasets, the test log-likelihood fits of our models are on average $17\%$ better in relative terms. The simplicity of our models and the iterative nature of our optimization technique allows practitioners meet stringent computational constraints while increasing their revenues in practical recommendation applications at scale.
翻訳日:2022-11-21 13:32:03 公開日:2020-06-14
# 有限流動性を持つ交換オプションの数値シミュレーション:制御変動モデル

Numerical Simulation of Exchange Option with Finite Liquidity: Controlled Variate Model ( http://arxiv.org/abs/2006.07771v1 )

ライセンス: Link先を確認
Kevin S. Zhang and Traian A. Pirvu(参考訳) 本稿では,有限流動性を持つ市場において,1対の相関資産に記述した欧州スタイル交換オプションの数値的価格決定手法を考案する。 標準的なマルチアセットのブラックスコールズフレームワークとは対照的に、市場モデルのトレーディングは資産の価格に直接的な影響を与える。 価格の影響は、大きなトレーダー流動性モデルのように、特定の取引戦略を通じて第一資産のダイナミクスに組み込まれる。 2次元ミルスタインスキームは資産価格の対をシミュレートするために実装されている。 オプション値は、マルグレーブオプションを制御変数としてモンテカルロによって数値的に推定される。 これらの数値スキームの時間的複雑さを含む。 最後に、本番環境でこのモデルを効果的に実装するためのディープラーニングフレームワークを提供する。

In this paper we develop numerical pricing methodologies for European style Exchange Options written on a pair of correlated assets, in a market with finite liquidity. In contrast to the standard multi-asset Black-Scholes framework, trading in our market model has a direct impact on the asset's price. The price impact is incorporated into the dynamics of the first asset through a specific trading strategy, as in large trader liquidity model. Two-dimensional Milstein scheme is implemented to simulate the pair of assets prices. The option value is numerically estimated by Monte Carlo with the Margrabe option as controlled variate. Time complexity of these numerical schemes are included. Finally, we provide a deep learning framework to implement this model effectively in a production environment.
翻訳日:2022-11-21 13:31:35 公開日:2020-06-14
# 学生満足度予測者に対するマイニング反応

Mining Student Responses to Infer Student Satisfaction Predictors ( http://arxiv.org/abs/2006.07860v1 )

ライセンス: Link先を確認
Farzana Afrin, Mohammad Saiedur Rahaman, Margaret Hamilton(参考訳) 学生の満足度を識別し分析することは難しい課題である。 これは、学生の満足度を測る尺度が、コースがどれほどうまく教育されているかを示す指標として取られているため、ますます重要になっている。 しかし、学生の満足度には様々な側面があるため、これは難しい問題である。 本稿では,学生満足度を予測できる予測問題として学生満足度推定を定式化し,授業やインストラクターに影響を及ぼす予測要因を推算する。 学生の満足度には5つの側面がある。 1)コース内容 2)クラス参加。 3)コースに対する当初の期待の達成 4)専門的発展への道筋,及び 5) コースがそれらをつなげ、現実世界の状況を調査するのに役立つ場合。 学生の満足度をそれぞれ予測するために、最先端の機械学習技術を用いています。 本実験では,授業とインストラクターに関する属性の異なる学生知覚を含む大規模学生評価データセットを用いた。 実験結果と包括的分析の結果,学生の満足度は教科属性よりも授業属性の影響が強いことがわかった。

The identification and analysis of student satisfaction is a challenging issue. This is becoming increasingly important since a measure of student satisfaction is taken as an indication of how well a course has been taught. However, it remains a challenging problem as student satisfaction has various aspects. In this paper, we formulate the student satisfaction estimation as a prediction problem where we predict different levels of student satisfaction and infer the influential predictors related to course and instructor. We present five different aspects of student satisfaction in terms of 1) course content, 2) class participation, 3) achievement of initial expectations about the course, 4) relevancy towards professional development, and 5) if the course connects them and helps to explore the real-world situations. We employ state-of-the-art machine learning techniques to predict each of these aspects of student satisfaction levels. For our experiment, we utilize a large student evaluation dataset which includes student perception using different attributes related to courses and the instructors. Our experimental results and comprehensive analysis reveal that student satisfaction is more influenced by course attributes in comparison to instructor related attributes.
翻訳日:2022-11-21 13:30:53 公開日:2020-06-14
# アンサンブル学習による偽レビュー検出

Fake Reviews Detection through Ensemble Learning ( http://arxiv.org/abs/2006.07912v1 )

ライセンス: Link先を確認
Luis Gutierrez-Espinoza and Faranak Abri and Akbar Siami Namin and Keith S. Jones and David R. W. Sears(参考訳) 顧客は、オンラインレビューを利用して経験を共有することで、製品を消費する満足度を表す。 いくつかの機械学習ベースのアプローチは、偽レビューや偽レビューを自動的に検出する。 近年,従来の機械学習手法と比較して,アンサンブル学習に基づく手法の性能が報告されている。 本稿では,近年のアンサンブル学習の動向に動機づけられ,オンライン情報同定のためのアンサンブル学習に基づく手法の性能評価を行った。 これらのアンサンブル学習に基づくアプローチは,従来の機械学習アルゴリズムよりも知覚情報をよりよく検出できることが,私たちが開発した偽レストランレビューの収集に,アンサンブル学習に基づくアプローチを応用した。

Customers represent their satisfactions of consuming products by sharing their experiences through the utilization of online reviews. Several machine learning-based approaches can automatically detect deceptive and fake reviews. Recently, there have been studies reporting the performance of ensemble learning-based approaches in comparison to conventional machine learning techniques. Motivated by the recent trends in ensemble learning, this paper evaluates the performance of ensemble learning-based approaches to identify bogus online information. The application of a number of ensemble learning-based approaches to a collection of fake restaurant reviews that we developed show that these ensemble learning-based approaches detect deceptive information better than conventional machine learning algorithms.
翻訳日:2022-11-21 13:30:36 公開日:2020-06-14
# イラクにおける暴力問題発見へのデータサイエンスの応用

Application of Data Science to Discover Violence-Related Issues in Iraq ( http://arxiv.org/abs/2006.07980v1 )

ライセンス: Link先を確認
Merari Gonz\'alez, Germ\'an H. Alf\'erez(参考訳) データサイエンスは、世界のいくつかの地域で社会問題を発見するのに十分使われている。 しかし、イラクなどの国でこれらの問題を発見するための政府の公開データが不足している。 イラクにオープンデータがないにもかかわらず、どのようにデータサイエンスの原則を適用して社会問題を発見するか? 利用可能なデータを使って、データのない場所で予測する方法? 私たちの貢献は、イラクにおける特定の暴力関連社会問題を発見するために、イベント、言語、トーンのグローバルデータベース(gdelt)から非政府ビッグデータを開くためのデータサイエンスの応用です。 具体的には,K-Nearest Neighbors,N\"aive Bayes,Decision Trees,Logistic Regressionの分類アルゴリズムを適用して,難民,人道支援,暴力的抗議,大砲や戦車との戦闘,大量殺人といった問題を発見した。 一番良い結果が決定木アルゴリズムで得られ、難民危機や砲兵戦のある地域を発見することができた。 この2つの事象の精度は0.7629である。 難民危機の正確な場所は0.76、リコールは0.76、F1スコアは0.76である。 また,本手法では,精度0.74,リコール0.75,F1スコア0.75で射撃戦の場所を検出する。

Data science has been satisfactorily used to discover social issues in several parts of the world. However, there is a lack of governmental open data to discover those issues in countries such as Iraq. This situation arises the following questions: how to apply data science principles to discover social issues despite the lack of open data in Iraq? How to use the available data to make predictions in places without data? Our contribution is the application of data science to open non-governmental big data from the Global Database of Events, Language, and Tone (GDELT) to discover particular violence-related social issues in Iraq. Specifically we applied the K-Nearest Neighbors, N\"aive Bayes, Decision Trees, and Logistic Regression classification algorithms to discover the following issues: refugees, humanitarian aid, violent protests, fights with artillery and tanks, and mass killings. The best results were obtained with the Decision Trees algorithm to discover areas with refugee crises and artillery fights. The accuracy for these two events is 0.7629. The precision to discover the locations of refugee crises is 0.76, the recall is 0.76, and the F1-score is 0.76. Also, our approach discovers the locations of artillery fights with a precision of 0.74, a recall of 0.75, and a F1-score of 0.75.
翻訳日:2022-11-21 13:30:27 公開日:2020-06-14
# OpenStreetMapを用いた低データ環境における道路マッピング

Road Mapping in Low Data Environments with OpenStreetMap ( http://arxiv.org/abs/2006.07993v1 )

ライセンス: Link先を確認
John Kamalu, Benjamin Choi(参考訳) 道路はあらゆる国のインフラにおいて最も重要な要素である。 人々、考え、商品の移動と交換を促進することで、地域内および国際国境内における経済的、文化的活動を支援している。 道路の地理的分布とその品質の包括的かつ最新のマッピングは、より広範な経済発展の指標として機能する可能性を秘めている。 このような指標は、特に最新のインフラ情報が入手できない農村開発プロジェクトの計画において、様々なインパクトの高い応用を持っている。 本研究は,OpenStreetMapのような高解像度衛星画像とクラウドソーシングリソースの,そのようなマッピング構築における可能性について検討する。 道路分類とセグメンテーションタスクにおけるOpenStreetMapデータの有用性を検討するために,最先端のディープラーニング手法を実験した。 また,異なるマスク閉塞シナリオにおけるモデルの性能と,国外ドメインとの比較を行った。 本比較では、画像ベースインフラストラクチャ分類タスクにおいて重要な落とし穴を生じさせ、信頼性の高いパフォーマンスのために、興味のある地域に特化したローカルトレーニングデータの必要性を示す。

Roads are among the most essential components of any country's infrastructure. By facilitating the movement and exchange of people, ideas, and goods, they support economic and cultural activity both within and across local and international borders. A comprehensive, up-to-date mapping of the geographical distribution of roads and their quality thus has the potential to act as an indicator for broader economic development. Such an indicator has a variety of high-impact applications, particularly in the planning of rural development projects where up-to-date infrastructure information is not available. This work investigates the viability of high resolution satellite imagery and crowd-sourced resources like OpenStreetMap in the construction of such a mapping. We experiment with state-of-the-art deep learning methods to explore the utility of OpenStreetMap data in road classification and segmentation tasks. We also compare the performance of models in different mask occlusion scenarios as well as out-of-country domains. Our comparison raises important pitfalls to consider in image-based infrastructure classification tasks, and shows the need for local training data specific to regions of interest for reliable performance.
翻訳日:2022-11-21 13:24:58 公開日:2020-06-14
# RasterNet: LiDARとオーバーヘッド画像を用いた自由流速のモデリング

RasterNet: Modeling Free-Flow Speed using LiDAR and Overhead Imagery ( http://arxiv.org/abs/2006.08021v1 )

ライセンス: Link先を確認
Armin Hadzic, Hunter Blanton, Weilian Song, Mei Chen, Scott Workman, Nathan Jacobs(参考訳) 道路自由流速は、低交通条件下での典型的な車両の速度をとらえる。 自由流速のモデル化は交通工学において重要な問題であり、ハイウェイシステムの様々な設計、運用、計画、政策決定への応用がある。 残念ながら、大規模な歴史的交通速度データの収集は高価で時間を要する。 従来の自由流速推定手法では, 勾配, 曲率, レーン幅, 横方向のクリアランス, アクセスポイント密度などの道路セグメントの幾何学的特性は利用できないが, 多くの道路ではそのような特徴は利用できない。 我々は,明示的な幾何学的特徴を必要とせず,自由流速を推定するための完全自動アプローチであるRasterNetを提案する。 RasterNetは、地理的に一貫したラスタ構造を使用して、大規模なオーバーヘッドイメージと空中LiDAR点雲を融合するニューラルネットワークである。 トレーニングと評価を支援するため、ケンタッキー州を横断する道路セグメント、オーバーヘッド画像、LiDAR点雲のフリーフロー速度を組み合わせた新しいデータセットを導入した。 本手法はベンチマークデータセットで最先端の結果を得る。

Roadway free-flow speed captures the typical vehicle speed in low traffic conditions. Modeling free-flow speed is an important problem in transportation engineering with applications to a variety of design, operation, planning, and policy decisions of highway systems. Unfortunately, collecting large-scale historical traffic speed data is expensive and time consuming. Traditional approaches for estimating free-flow speed use geometric properties of the underlying road segment, such as grade, curvature, lane width, lateral clearance and access point density, but for many roads such features are unavailable. We propose a fully automated approach, RasterNet, for estimating free-flow speed without the need for explicit geometric features. RasterNet is a neural network that fuses large-scale overhead imagery and aerial LiDAR point clouds using a geospatially consistent raster structure. To support training and evaluation, we introduce a novel dataset combining free-flow speeds of road segments, overhead imagery, and LiDAR point clouds across the state of Kentucky. Our method achieves state-of-the-art results on a benchmark dataset.
翻訳日:2022-11-21 13:24:42 公開日:2020-06-14
# ポット、ケトル:ノンリテラルタイトルは(自然の)科学ではない

Pot, kettle: Nonliteral titles aren't (natural) science ( http://arxiv.org/abs/2006.07849v1 )

ライセンス: Link先を確認
Mike Thelwall(参考訳) 研究者は、出版物の詩的なタイトルを通じて注目を集める誘惑を受けるかもしれない。 医学では詩の称号が一般的であることが知られているが、この慣習が他の場所で広く普及しているかどうかは定かではない。 本稿は,27のスコパス全分野の330万の論文において,1996~2019年の詩文表現の普及状況について考察する。 表現は、少なくとも25回以上発生した5語以上のフレーズを手作業でチェックし、149のストックフレーズ、イディオム、発言、文学的暗唱、映画名、曲名、歌詞を発見した。 発見される表現は、社会科学や人文科学において最も一般的である。 医学でも比較的一般的であるが、工学や自然科学や形式科学にはほとんど欠如している。 この違いは、社会科学や人文科学の階層性や多様性の低さを反映している可能性がある。 工学、自然科学、形式科学の分野では、著者は選択が適切でないと判断された場合、詩的表現に余計な注意を払うべきである。 これにはこれらの領域に重複する学際的な研究が含まれる。 逆に、社会科学に関する学際研究のレビュアーは、詩のライセンスに寛容であるべきだ。

Researchers may be tempted to attract attention through poetic titles for their publications, but would this be mistaken in some fields? Whilst poetic titles are known to be common in medicine, it is not clear whether the practice is widespread elsewhere. This article investigates the prevalence of poetic expressions in journal article titles 1996-2019 in 3.3 million articles from all 27 Scopus broad fields. Expressions were identified by manually checking all phrases with at least 5 words that occurred at least 25 times, finding 149 stock phrases, idioms, sayings, literary allusions, film names and song titles or lyrics. The expressions found are most common in the social sciences and the humanities. They are also relatively common in medicine, but almost absent from engineering and the natural and formal sciences. The differences may reflect the less hierarchical and more varied nature of the social sciences and humanities, where interesting titles may attract an audience. In engineering, natural science and formal science fields, authors should take extra care with poetic expressions, in case their choice is judged inappropriate. This includes interdisciplinary research overlapping these areas. Conversely, reviewers of interdisciplinary research involving the social sciences should be more tolerant of poetic license.
翻訳日:2022-11-21 13:24:02 公開日:2020-06-14
# 自発的抑うつ症状の予測における気分パターンの役割の検討

Examining the Role of Mood Patterns in Predicting Self-Reported Depressive symptoms ( http://arxiv.org/abs/2006.07887v1 )

ライセンス: Link先を確認
Lucia Lushi Chen, Walid Magdy, Heather Whalley, Maria Wolters(参考訳) うつ病は世界中の障害の主な原因である。 ソーシャルメディア投稿から抑うつ信号を検出する最初の取り組みは、有望な結果を示している。 高い内部的妥当性を考えると、このような分析の結果は臨床判断に潜在的に有益である。 既存の抑うつ症状の自動検出モデルは、ソーシャルメディアデータから、メンタルヘルスや薬名に対するヘルプシーキング行動など、プロキシ診断信号を学習する。 しかし、現実には、うつ病患者は通常、抑うつ感、あらゆる活動における喜びの喪失、無価値感や罪悪感、思考能力の低下を経験する。 したがって、これらのモデルで使われるプロキシ信号の多くは、うつ病症状の理論的基盤を欠いている。 臨床現場の多くの患者からのソーシャルメディア投稿はこれらのシグナルを含まないと報告されている。 本研究のギャップから,情緒障害の症状の類型として確立された症状のタイプである気分をモニタリングすることを提案する。 気分は、何時間、何日、何週間も続くことができる感覚の体験である。 本研究では,ソーシャルメディアユーザのための「ムードプロファイル」を構築することで,うつ病の症状を検出する現在の技術を強化することを試みる。

Depression is the leading cause of disability worldwide. Initial efforts to detect depression signals from social media posts have shown promising results. Given the high internal validity, results from such analyses are potentially beneficial to clinical judgment. The existing models for automatic detection of depressive symptoms learn proxy diagnostic signals from social media data, such as help-seeking behavior for mental health or medication names. However, in reality, individuals with depression typically experience depressed mood, loss of pleasure nearly in all the activities, feeling of worthlessness or guilt, and diminished ability to think. Therefore, a lot of the proxy signals used in these models lack the theoretical underpinnings for depressive symptoms. It is also reported that social media posts from many patients in the clinical setting do not contain these signals. Based on this research gap, we propose to monitor a type of signal that is well-established as a class of symptoms in affective disorders -- mood. The mood is an experience of feeling that can last for hours, days, or even weeks. In this work, we attempt to enrich current technology for detecting symptoms of potential depression by constructing a 'mood profile' for social media users.
翻訳日:2022-11-21 13:23:39 公開日:2020-06-14
# 最小記述長クラスタリングを用いた異種データのカテゴリー異常検出

Categorical anomaly detection in heterogeneous data using minimum description length clustering ( http://arxiv.org/abs/2006.07916v1 )

ライセンス: Link先を確認
James Cheney, Xavier Gombau, Ghita Berrada and Sidahmed Benabderrahmane(参考訳) 最小記述長(mdl)原理に基づく分類データに対して,高速かつ効果的な教師なし異常検出アルゴリズムが提案されている。 しかし、システムとユーザプロセスが異なる振る舞いパターンを持つセキュリティシナリオなど、異なるソースの混合を表す異種データセットの異常を検出する場合には、効果がない可能性がある。 我々は,k-meansクラスタリングの変種を用いて,混合モデルをデータに適合させて異種データを扱うため,MDLに基づく異常検出モデルを拡張するメタアルゴリズムを提案する。 実験結果から,従来の2つの異常検出アルゴリズムと比較して,離散混合モデルを用いた場合の競合性能が向上する一方,より高度なモデルの混合は,セキュリティシナリオからの合成データセットと現実的データセットの両方において,さらなる利益をもたらすことが示された。

Fast and effective unsupervised anomaly detection algorithms have been proposed for categorical data based on the minimum description length (MDL) principle. However, they can be ineffective when detecting anomalies in heterogeneous datasets representing a mixture of different sources, such as security scenarios in which system and user processes have distinct behavior patterns. We propose a meta-algorithm for enhancing any MDL-based anomaly detection model to deal with heterogeneous data by fitting a mixture model to the data, via a variant of k-means clustering. Our experimental results show that using a discrete mixture model provides competitive performance relative to two previous anomaly detection algorithms, while mixtures of more sophisticated models yield further gains, on both synthetic datasets and realistic datasets from a security scenario.
翻訳日:2022-11-21 13:22:35 公開日:2020-06-14
# 交代型ConvLSTM: 交代状態更新による学習力伝播

Alternating ConvLSTM: Learning Force Propagation with Alternate State Updates ( http://arxiv.org/abs/2006.07818v1 )

ライセンス: Link先を確認
Congyue Deng, Tai-Jiang Mu, Shi-Min Hu(参考訳) データ駆動シミュレーションは、従来の数値法がその限界を満たすとき、計算物理学において重要なステップフォワードである。 学習ベースのシミュレータは近年広く研究されてきたが、ほとんどの先行研究はシミュレーションを一般的な空間-時間予測問題として捉えており、ニューラルネットワークアーキテクチャの設計に物理的ガイダンスをほとんど用いていない。 本稿では,変形可能な物体の力伝達機構をほぼ均一な材料特性でモデル化する,交互畳み込み型長期短期記憶(alt-convlstm)を提案する。 具体的には,蓄積状態を提案し,ネットワークのセル状態と蓄積状態を交互に更新する。 数値PDE解法の前方オイラー法において,この手法が第1項と第2項の交互更新を模倣することを示す。 この利点を生かして、我々のネットワークは、シミュレーション粒子の数に依存しない少数のパラメータしか必要とせず、またConvLSTMの本質的な特徴を保ち、空間的な入力や出力を伴うシーケンシャルデータに自然に適用できる。 alt-convlstmをヒト軟組織シミュレーションで検証し,何千もの粒子と一貫した体位変化を観察した。 実験の結果,Alt-ConvLSTMは物質運動特性を効率的にモデル化し,単一の状態更新のみでバニラConvLSTMを大幅に上回ることがわかった。

Data-driven simulation is an important step-forward in computational physics when traditional numerical methods meet their limits. Learning-based simulators have been widely studied in past years; however, most previous works view simulation as a general spatial-temporal prediction problem and take little physical guidance in designing their neural network architectures. In this paper, we introduce the alternating convolutional Long Short-Term Memory (Alt-ConvLSTM) that models the force propagation mechanisms in a deformable object with near-uniform material properties. Specifically, we propose an accumulation state, and let the network update its cell state and the accumulation state alternately. We demonstrate how this novel scheme imitates the alternate updates of the first and second-order terms in the forward Euler method of numerical PDE solvers. Benefiting from this, our network only requires a small number of parameters, independent of the number of the simulated particles, and also retains the essential features in ConvLSTM, making it naturally applicable to sequential data with spatial inputs and outputs. We validate our Alt-ConvLSTM on human soft tissue simulation with thousands of particles and consistent body pose changes. Experimental results show that Alt-ConvLSTM efficiently models the material kinetic features and greatly outperforms vanilla ConvLSTM with only the single state update.
翻訳日:2022-11-21 13:21:29 公開日:2020-06-14
# PCAAE: 生成ネットワークの潜在空間を整理するための主成分分析オートエンコーダ

PCAAE: Principal Component Analysis Autoencoder for organising the latent space of generative networks ( http://arxiv.org/abs/2006.07827v1 )

ライセンス: Link先を確認
Chi-Hieu Pham and Sa\"id Ladjal and Alasdair Newson(参考訳) オートエンコーダと生成モデルは、これまでで最も素晴らしいディープラーニング結果を生み出します。 しかし、これらのモデルの潜在空間の理解と制御には大きな課題がある。 主成分分析とオートエンコーダからインスピレーションを得て,主成分分析オートエンコーダ(pcaae)を提案する。 これは、潜在空間が2つの性質を検証する新しいオートエンコーダである。 まず、目の前のデータに対する重要性を低下させるように次元を整理する。 第二に、潜在空間の成分は統計的に独立である。 我々は、トレーニング中に潜在空間を徐々に増やし、潜在コードに共分散損失を適用することでこれを達成する。 結果のオートエンコーダは、データ固有の属性を、完全に教師なしの方法で、潜在空間の異なるコンポーネントに分離する潜在空間を生成する。 我々はまた、強力で事前訓練されたGANのケースに対する我々のアプローチの拡張についても述べる。 形状の合成例と最先端のGANについて結果を示す。 例えば、私たちはラベルにアクセスすることなく、髪と肌の色合い、顔のポーズ、およびCelebAの性別を分離することができます。 我々はPCAAEを他の最先端のアプローチと比較し、特に潜在空間の属性をアンタングルする能力について述べる。 このアプローチが強力な深層生成モデルの本質的な潜在空間の理解に寄与することを期待する。

Autoencoders and generative models produce some of the most spectacular deep learning results to date. However, understanding and controlling the latent space of these models presents a considerable challenge. Drawing inspiration from principal component analysis and autoencoder, we propose the Principal Component Analysis Autoencoder (PCAAE). This is a novel autoencoder whose latent space verifies two properties. Firstly, the dimensions are organised in decreasing importance with respect to the data at hand. Secondly, the components of the latent space are statistically independent. We achieve this by progressively increasing the latent space during training, and with a covariance loss applied to the latent codes. The resulting autoencoder produces a latent space which separates the intrinsic attributes of the data into different components of the latent space, in a completely unsupervised manner. We also describe an extension of our approach to the case of powerful, pre-trained GANs. We show results on both synthetic examples of shapes and on a state-of-the-art GAN. For example, we are able to separate the color shade scale of hair and skin, pose of faces and the gender in the CelebA, without accessing any labels. We compare the PCAAE with other state-of-the-art approaches, in particular with respect to the ability to disentangle attributes in the latent space. We hope that this approach will contribute to better understanding of the intrinsic latent spaces of powerful deep generative models.
翻訳日:2022-11-21 13:14:51 公開日:2020-06-14
# マルチマイナ:弱い教師付き意味セグメンテーションのためのオブジェクト適応領域マイニング

Multi-Miner: Object-Adaptive Region Mining for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2006.07834v1 )

ライセンス: Link先を確認
Kuangqi Zhou, Qibin Hou, Zun Li, Jiashi Feng(参考訳) オブジェクト領域のマイニングは、弱い教師付きセマンティックセグメンテーションにとって重要なステップである。 最近のメソッドでは、クラスアクティベーションマップでローカライズされたシード領域を拡張してオブジェクト領域をマイニングする。 彼らは一般にオブジェクトのサイズを考慮せず、すべてのオブジェクト領域をマイニングするために単調な手順を適用する。 したがって、その採掘された地域は大きな物体の個数や規模が不足することが多く、一方、小さな物体の周囲の背景によって容易に汚染される。 本稿では,多様なオブジェクトサイズに適応し,より積分的かつ微細なオブジェクト領域をマイニングできる領域マイニングプロセスを実現するための,新しいマルチマイニングフレームワークを提案する。 具体的には、並列変調器を利用して、各オブジェクトにオブジェクト領域が残っているかどうかを確認し、カテゴリ認識ジェネレータを誘導し、各オブジェクトの領域を独立してマイニングする。 このように、マルチマイナーは、大きなオブジェクトに対してより多くのステップを、小さなオブジェクトに対しては少ないステップを適応的に取ります。 実験により, マルチマイナは地域マイニングの精度が向上し, セマンティックセマンティックセマンティックセマンティクス法よりもセマンティクス性能が向上することが示された。

Object region mining is a critical step for weakly-supervised semantic segmentation. Most recent methods mine the object regions by expanding the seed regions localized by class activation maps. They generally do not consider the sizes of objects and apply a monotonous procedure to mining all the object regions. Thus their mined regions are often insufficient in number and scale for large objects, and on the other hand easily contaminated by surrounding backgrounds for small objects. In this paper, we propose a novel multi-miner framework to perform a region mining process that adapts to diverse object sizes and is thus able to mine more integral and finer object regions. Specifically, our multi-miner leverages a parallel modulator to check whether there are remaining object regions for each single object, and guide a category-aware generator to mine the regions of each object independently. In this way, the multi-miner adaptively takes more steps for large objects and fewer steps for small objects. Experiment results demonstrate that the multi-miner offers better region mining results and helps achieve better segmentation performance than state-of-the-art weakly-supervised semantic segmentation methods.
翻訳日:2022-11-21 13:14:31 公開日:2020-06-14
# fencemask: 抽出済み画像機能のためのデータ拡張アプローチ

FenceMask: A Data Augmentation Approach for Pre-extracted Image Features ( http://arxiv.org/abs/2006.07877v1 )

ライセンス: Link先を確認
Pu Li, Xiangyang Li, Xiang Long(参考訳) 本稿では,コンピュータビジョンタスクにおいて優れた性能を示す新しいデータ拡張手法「FenceMask」を提案する。 オブジェクトの隠蔽と入力データの情報保持のバランスをとることを目的とした「オブジェクトの隠蔽のシミュレーション」戦略に基づいている。 咬合ブロックのスパース性と正則性を高めることにより,小物体の増強の難しさを克服し,ベースラインに対する性能を著しく向上した。 本手法の性能が他のシミュレート対象閉塞法よりも優れていることを示す十分な実験を行った。 粒度分類のためのcifar10, cifar100, imagenetデータセット,coco2017およびvisdroneデータセット,検出のためのoxford flowers,cornel leafおよびstanford dogsデータセットでテストした。 本手法は,細粒度視覚分類タスクとvisdroneデータセットにおいて有意な性能改善を達成した。

We propose a novel data augmentation method named 'FenceMask' that exhibits outstanding performance in various computer vision tasks. It is based on the 'simulation of object occlusion' strategy, which aim to achieve the balance between object occlusion and information retention of the input data. By enhancing the sparsity and regularity of the occlusion block, our augmentation method overcome the difficulty of small object augmentation and notably improve performance over baselines. Sufficient experiments prove the performance of our method is better than other simulate object occlusion approaches. We tested it on CIFAR10, CIFAR100 and ImageNet datasets for Coarse-grained classification, COCO2017 and VisDrone datasets for detection, Oxford Flowers, Cornel Leaf and Stanford Dogs datasets for Fine-Grained Visual Categorization. Our method achieved significant performance improvement on Fine-Grained Visual Categorization task and VisDrone dataset.
翻訳日:2022-11-21 13:13:24 公開日:2020-06-14
# Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring Sequential Events Detection for Dense Video Captioning

Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring Sequential Events Detection for Dense Video Captioning ( http://arxiv.org/abs/2006.07896v1 )

ライセンス: Link先を確認
Yuqing Song, Shizhe Chen, Yida Zhao, Qin Jin(参考訳) 非トリミングビデオで意味のあるイベントを検出することは、密集したビデオキャプションに不可欠である。 本研究では,イベントシーケンス生成のための新規でシンプルなモデルを提案し,ビデオ中のイベントシーケンスの時間的関係を探索する。 提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。 実験の結果,提案するイベントシーケンス生成モデルは,より正確かつ多様なイベントを,少数の提案の中で生成できることがわかった。 イベントキャプションについては,パイプラインシステムにイベント内キャプションモデルを採用するために,これまでの作業に従っています。 総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。

Detecting meaningful events in an untrimmed video is essential for dense video captioning. In this work, we propose a novel and simple model for event sequence generation and explore temporal relationships of the event sequence in the video. The proposed model omits inefficient two-stage proposal generation and directly generates event boundaries conditioned on bi-directional temporal dependency in one pass. Experimental results show that the proposed event sequence generation model can generate more accurate and diverse events within a small number of proposals. For the event captioning, we follow our previous work to employ the intra-event captioning models into our pipeline system. The overall system achieves state-of-the-art performance on the dense-captioning events in video task with 9.894 METEOR score on the challenge testing set.
翻訳日:2022-11-21 13:13:08 公開日:2020-06-14
# データ拡張最適化へのメタアプローチ

Meta Approach to Data Augmentation Optimization ( http://arxiv.org/abs/2006.07965v1 )

ライセンス: Link先を確認
Ryuichiro Hataya, Jan Zdenek, Kazuki Yoshizoe, Hideki Nakayama(参考訳) データ拡張ポリシーは、特に対象のデータとタスクに最適化された場合、画像認識タスクのパフォーマンスを劇的に改善する。 本稿では,画像認識モデルとデータ拡張ポリシーを同時に最適化し,勾配勾配を用いた性能向上を提案する。 従来の手法とは異なり,提案手法はプロキシタスクの使用や検索スペースの削減を回避し,検証性能を直接改善する。 本手法は,ノイマン級数近似による暗黙的勾配によるポリシーの勾配を近似することにより,効率的かつスケーラブルなトレーニングを実現する。 我々は,データセット固有のハイパーパラメータチューニングを使わずに,画像ネット分類や微粒化認識など,さまざまな画像分類タスクの性能を向上させることができることを示す。

Data augmentation policies drastically improve the performance of image recognition tasks, especially when the policies are optimized for the target data and tasks. In this paper, we propose to optimize image recognition models and data augmentation policies simultaneously to improve the performance using gradient descent. Unlike prior methods, our approach avoids using proxy tasks or reducing search space, and can directly improve the validation performance. Our method achieves efficient and scalable training by approximating the gradient of policies by implicit gradient with Neumann series approximation. We demonstrate that our approach can improve the performance of various image classification tasks, including ImageNet classification and fine-grained recognition, without using dataset-specific hyperparameter tuning.
翻訳日:2022-11-21 13:12:55 公開日:2020-06-14
# Geodesic-HOF: 3Dレコンストラクション

Geodesic-HOF: 3D Reconstruction Without Cutting Corners ( http://arxiv.org/abs/2006.07981v1 )

ライセンス: Link先を確認
Ziyun Wang, Eric A. Mitchell, Volkan Isler, Daniel D. Lee(参考訳) シングルビュー3Dオブジェクト再構成は、主に自然界におけるオブジェクトの形態的多様性のために、コンピュータビジョンにおいて難しい根本的な問題である。 特に、高曲率領域は、セットベース損失関数のみを用いて訓練された手法によって常に効果的に捕捉されるわけではない。 特に、高曲率領域は、セットベース損失関数のみを用いて訓練された手法によって常に効果的に捕捉されるわけではない。 そこで本稿では,対象の測地線距離とユークリッド距離が等しい高次元空間に対して,標準サンプリング領域から画像条件付きマッピング関数を学習することを提案する。 写像されたサンプルの最初の3次元は、その3次元座標に対応する。 追加の持ち上げされたコンポーネントは、基礎となる測地構造に関する情報を含んでいる。 以上の結果から, 学習した昇降座標を活かすと, 表面正規値の推定や表層生成に, 点雲の再構成のみを用いた場合よりも優れた性能が得られることがわかった。 さらに、この学習された測地線埋め込み空間は、教師なしオブジェクト分解のようなアプリケーションに有用な情報を提供する。

Single-view 3D object reconstruction is a challenging fundamental problem in computer vision, largely due to the morphological diversity of objects in the natural world. In particular, high curvature regions are not always captured effectively by methods trained using only set-based loss functions, resulting in reconstructions short-circuiting the surface or cutting corners. In particular, high curvature regions are not always captured effectively by methods trained using only set-based loss functions, resulting in reconstructions short-circuiting the surface or cutting corners. To address this issue, we propose learning an image-conditioned mapping function from a canonical sampling domain to a high dimensional space where the Euclidean distance is equal to the geodesic distance on the object. The first three dimensions of a mapped sample correspond to its 3D coordinates. The additional lifted components contain information about the underlying geodesic structure. Our results show that taking advantage of these learned lifted coordinates yields better performance for estimating surface normals and generating surfaces than using point cloud reconstructions alone. Further, we find that this learned geodesic embedding space provides useful information for applications such as unsupervised object decomposition.
翻訳日:2022-11-21 13:12:43 公開日:2020-06-14
# リカレント蒸留に基づく群集計数

Recurrent Distillation based Crowd Counting ( http://arxiv.org/abs/2006.07755v1 )

ライセンス: Link先を確認
Yue Gu, Wenxi Liu(参考訳) 近年,深層学習技術の進歩に伴い,群集数化が急速に進んでいる。 本研究では,様々な混み合った場面で最先端のパフォーマンスを達成できる,シンプルで効果的な群集カウントフレームワークを提案する。 特に,まず,点アノテーションから地平線密度マップを作成できる視点対応密度マップ生成手法を導入し,事前密度マップ生成手法よりも優れた性能を実現するために,群集カウントモデルを訓練する。 さらに, 密度マップ生成法を応用し, 出力密度マップの次元を著しく犠牲にすることなく, 同一のネットワーク構造で漸進的にモデルを強化する反復蒸留アルゴリズムを提案する。 実験では,提案する学習アルゴリズムによって強化された単純な畳み込みニューラルネットワークアーキテクチャを用いて,最先端の手法に匹敵する性能を持つことを示す。 さらに, アブレーション研究における密度マップ生成手法と蒸留アルゴリズムについても検討した。

In recent years, with the progress of deep learning technologies, crowd counting has been rapidly developed. In this work, we propose a simple yet effective crowd counting framework that is able to achieve the state-of-the-art performance on various crowded scenes. In particular, we first introduce a perspective-aware density map generation method that is able to produce ground-truth density maps from point annotations to train crowd counting model to accomplish superior performance than prior density map generation techniques. Besides, leveraging our density map generation method, we propose an iterative distillation algorithm to progressively enhance our model with identical network structures, without significantly sacrificing the dimension of the output density maps. In experiments, we demonstrate that, with our simple convolutional neural network architecture strengthened by our proposed training algorithm, our model is able to outperform or be comparable with the state-of-the-art methods. Furthermore, we also evaluate our density map generation approach and distillation algorithm in ablation studies.
翻訳日:2022-11-21 13:06:14 公開日:2020-06-14
# hyper rpca:ジョイント・マキシム・コレントロピー基準とラプラシアンスケール混合モデルによる移動物体検出

Hyper RPCA: Joint Maximum Correntropy Criterion and Laplacian Scale Mixture Modeling On-the-Fly for Moving Object Detection ( http://arxiv.org/abs/2006.07795v1 )

ライセンス: Link先を確認
Zerui Shao, Yifei Pu, Jiliu Zhou, Bihan Wen and Yi Zhang(参考訳) 移動物体検出は、監視追跡、ビデオ圧縮符号化など、多くの視覚関連タスクにおける自動映像解析に不可欠である。 ロバストな主成分分析(rpca)は、最も人気のある移動物体モデリング手法の1つであり、ビデオの静的背景から時間的に変化する(移動)前景オブジェクトを分離することを目的としており、前景が空間的にスパースである場合、背景フレームが低ランクであると仮定している。 Classic RPCAは、l1-normを使用してフォアグラウンドコンポーネントのスパーシリティを課し、2-normを介してモデリングエラーを最小限にする。 このような仮定は,特に動的背景,カメラジッタ,キャモフラージュされた移動物体などの動画処理において,従来のRPCAの有効性を制限しすぎていることを示す。 本稿では,高速で動く物体を検出するための新しいRPCAモデルHyper RPCAを提案する。 従来のrpcaと異なり、提案されたhyper rpcaはモデリングエラーに対して最大correntropy criterion (mcc) と前景オブジェクトに対する laplacian scale mixture (lsm) モデルを共同で適用する。 大規模な実験が行われ、提案したHyper RPCAは、いくつかのよく知られたベンチマークデータセットの最先端アルゴリズムに対する前景検出の競合性能を持つことを示した。

Moving object detection is critical for automated video analysis in many vision-related tasks, such as surveillance tracking, video compression coding, etc. Robust Principal Component Analysis (RPCA), as one of the most popular moving object modelling methods, aims to separate the temporally varying (i.e., moving) foreground objects from the static background in video, assuming the background frames to be low-rank while the foreground to be spatially sparse. Classic RPCA imposes sparsity of the foreground component using l1-norm, and minimizes the modeling error via 2-norm. We show that such assumptions can be too restrictive in practice, which limits the effectiveness of the classic RPCA, especially when processing videos with dynamic background, camera jitter, camouflaged moving object, etc. In this paper, we propose a novel RPCA-based model, called Hyper RPCA, to detect moving objects on the fly. Different from classic RPCA, the proposed Hyper RPCA jointly applies the maximum correntropy criterion (MCC) for the modeling error, and Laplacian scale mixture (LSM) model for foreground objects. Extensive experiments have been conducted, and the results demonstrate that the proposed Hyper RPCA has competitive performance for foreground detection to the state-of-the-art algorithms on several well-known benchmark datasets.
翻訳日:2022-11-21 13:05:14 公開日:2020-06-14
# 異種マップを用いた幾何型インスタンス分割

Geometry-Aware Instance Segmentation with Disparity Maps ( http://arxiv.org/abs/2006.07802v1 )

ライセンス: Link先を確認
Cho-Ying Wu, Xiaoyan Hu, Michael Happold, Qiangeng Xu, Ulrich Neumann(参考訳) イメージのアウトドアインスタンスセグメンテーションのほとんどの以前の作品は、カラー情報のみを使用する。 ステレオカメラを利用するためのセンサ融合の新たな方向を探る。 格差から得られる幾何学的情報は、同じまたは異なるクラスの重複するオブジェクトを分離するのに役立ちます。 さらに、幾何学的情報は3次元形状の可能性のある領域の提案を罰し、偽陽性検出を抑える。 マスク回帰は擬似ライダーと画像ベース表現を用いた2D,2.5D,3DROIに基づく。 これらのマスク予測はマスクスコアリングプロセスによって融合される。 しかし、パブリックデータセットは、ステレオカメラの計測範囲を制限する、ベースラインと焦点長の短いステレオシステムのみを採用する。 我々は,高解像度のベースラインと焦点長を用いて,HQDS(High-Quality Driving Stereo)データセットを収集し,活用する。 私たちの演技は芸術の状態に達する。 プロジェクトページを参照してください。 全文はここで入手できる。

Most previous works of outdoor instance segmentation for images only use color information. We explore a novel direction of sensor fusion to exploit stereo cameras. Geometric information from disparities helps separate overlapping objects of the same or different classes. Moreover, geometric information penalizes region proposals with unlikely 3D shapes thus suppressing false positive detections. Mask regression is based on 2D, 2.5D, and 3D ROI using the pseudo-lidar and image-based representations. These mask predictions are fused by a mask scoring process. However, public datasets only adopt stereo systems with shorter baseline and focal legnth, which limit measuring ranges of stereo cameras. We collect and utilize High-Quality Driving Stereo (HQDS) dataset, using much longer baseline and focal length with higher resolution. Our performance attains state of the art. Please refer to our project page. The full paper is available here.
翻訳日:2022-11-21 13:04:44 公開日:2020-06-14
# ステレオ式シャッターカメラの相対ポース推定

Relative Pose Estimation for Stereo Rolling Shutter Cameras ( http://arxiv.org/abs/2006.07807v1 )

ライセンス: Link先を確認
Ke Wang, Bin Fan, and Yuchao Dai(参考訳) 本稿では,ステレオローリングシャッター(RS)カメラの連続フレームから6DoF相対ポーズを推定する新しい線形アルゴリズムを提案する。 本手法は, ステレオカメラがベースラインの中心付近で一定の速度で動き, 左右の連続フレームに9対の対応を必要とするという仮定に基づいて導出される。 ステレオrs画像は、セミグローバルマッチング(sgm)アルゴリズムからの深度マップの復元を可能にする。 推定カメラの動きと深度マップを用いて、RS画像を補正し、シーン構造を仮定することなく、歪みのない画像を取得できる。 シミュレーション点と合成RS画像の両方の実験により,相対ポーズ推定におけるアルゴリズムの有効性が示された。

In this paper, we present a novel linear algorithm to estimate the 6 DoF relative pose from consecutive frames of stereo rolling shutter (RS) cameras. Our method is derived based on the assumption that stereo cameras undergo motion with constant velocity around the center of the baseline, which needs 9 pairs of correspondences on both left and right consecutive frames. The stereo RS images enable the recovery of depth maps from the semi-global matching (SGM) algorithm. With the estimated camera motion and depth map, we can correct the RS images to get the undistorted images without any scene structure assumption. Experiments on both simulated points and synthetic RS images demonstrate the effectiveness of our algorithm in relative pose estimation.
翻訳日:2022-11-21 13:04:33 公開日:2020-06-14
# 適応的メッシュ化ビデオ安定化

Adaptively Meshed Video Stabilization ( http://arxiv.org/abs/2006.07820v1 )

ライセンス: Link先を確認
Minda Zhao, Qiang Ling(参考訳) ビデオの安定化は、不安定なビデオの画質向上に不可欠である。 現在のビデオ安定化手法は通常、背景に特徴軌道を取り、固定メッシュに基づく1つの大域的変換行列または複数の変換行列を推定し、不安定なフレームを安定化されたビューにワープする。 しかし、これらの手法は、大きな前景や強い視差を含むシーンのような複雑なシーンではシャイなカメラの動きをうまくモデル化しない可能性があり、安定化されたビデオで目立ったビジュアルアーティファクトを生じさせる可能性がある。 上記の課題を解決するため,本研究では,すべての特徴軌跡と適応的ブロッキング戦略に基づいて,ゆらぎのある映像を安定化する適応メッシュ方式を提案する。 より具体的には、まずシェークビデオの特徴軌跡を抽出し、各フレームにおける特徴軌跡の分布に応じて三角形メッシュを生成する。 そして、メッシュの全三角形グリッド上でのシェークフレーム間の変換とその安定化ビューを算出し、シェークビデオの安定化を行う。 背景領域と前景領域の両方を含む全ての領域からより多くの特徴軌跡を抽出できるため、カメラモーション推定およびフレームワープのために、より微細なメッシュが得られる。 2段階最適化問題を解くことにより,各フレームのメッシュベース変換を推定する。 さらに、前景と背景の特徴軌跡はもはや区別されず、特に大きな前景オブジェクトや強いパララックスを持つ挑戦ビデオにおいて、従来の作業よりも優れた推定性能が得られる最適化問題において、カメラモーションの推定に寄与する。

Video stabilization is essential for improving visual quality of shaky videos. The current video stabilization methods usually take feature trajectories in the background to estimate one global transformation matrix or several transformation matrices based on a fixed mesh, and warp shaky frames into their stabilized views. However, these methods may not model the shaky camera motion well in complicated scenes, such as scenes containing large foreground objects or strong parallax, and may result in notable visual artifacts in the stabilized videos. To resolve the above issues, this paper proposes an adaptively meshed method to stabilize a shaky video based on all of its feature trajectories and an adaptive blocking strategy. More specifically, we first extract feature trajectories of the shaky video and then generate a triangle mesh according to the distribution of the feature trajectories in each frame. Then transformations between shaky frames and their stabilized views over all triangular grids of the mesh are calculated to stabilize the shaky video. Since more feature trajectories can usually be extracted from all regions, including both background and foreground regions, a finer mesh will be obtained and provided for camera motion estimation and frame warping. We estimate the mesh-based transformations of each frame by solving a two-stage optimization problem. Moreover, foreground and background feature trajectories are no longer distinguished and both contribute to the estimation of the camera motion in the proposed optimization problem, which yields better estimation performance than previous works, particularly in challenging videos with large foreground objects or strong parallax.
翻訳日:2022-11-21 13:03:58 公開日:2020-06-14
# スケールによる作業 - 密集したシーンにおける製品検出の2位ソリューション [in japanese]

Working with scale: 2nd place solution to Product Detection in Densely Packed Scenes [Technical Report] ( http://arxiv.org/abs/2006.07825v1 )

ライセンス: Link先を確認
Artem Kozlov(参考訳) 本報告では,CVPR 2020 Retail-Visionワークショップで実施されている検出課題の2番目の解決について述べる。 以前の結果をさらに検討する代わりに、この研究は、主に再実験によって観察されたテイクアウトを検証することを目的としている。 この結果の信頼性と再現性は、人気のある物体検出ツールboxmm検出を組み込むことにより達成される。 本報告では,本報告では,本論文の原案と比較した高速rcnnモデルとretinanetモデルについて,まずその結果について述べる。 次に、より高度なモデルで実験結果を説明します。 最後のセクションでは、最後の提案で使用されたfaster-rcnnモデルの2つの簡単なトリックをレビューしています。 ソースコードはhttps://github.com/tyomj/product_detectionで入手できる。

This report describes a 2nd place solution of the detection challenge which is held within CVPR 2020 Retail-Vision workshop. Instead of going further considering previous results this work mainly aims to verify previously observed takeaways by re-experimenting. The reliability and reproducibility of the results are reached by incorporating a popular object detection toolbox - MMDetection. In this report, I firstly represent the results received for Faster-RCNN and RetinaNet models, which were taken for comparison in the original work. Then I describe the experiment results with more advanced models. The final section reviews two simple tricks for Faster-RCNN model that were used for my final submission: changing default anchor scale parameter and train-time image tiling. The source code is available at https://github.com/tyomj/product_detection.
翻訳日:2022-11-21 13:03:33 公開日:2020-06-14
# CompressNet: 極低ビットレートでの生成圧縮

CompressNet: Generative Compression at Extremely Low Bitrates ( http://arxiv.org/abs/2006.08003v1 )

ライセンス: Link先を確認
Suraj Kiran Raman (1), Aditya Ramesh (1), Vijayakrishna Naganoor (1), Shubham Dash (1), Giridharan Kumaravelu (1), Honglak Lee (1) ((1) University of Michigan, Ann Arbor)(参考訳) 圧縮されたデータに割り当てられたビット数に強い制約が課されるため、再構成の品質が著しく低下するため、非常に低いビットレート(< 0.1bpp)の圧縮画像は、常に難しい課題である。 少ない帯域幅で大量の画像を転送する必要性が高まる中、画像を非常に低いサイズに圧縮することが重要な課題である。 しかし、既存の手法は極低ビットレートでは有効ではない。 そこで本研究では,スイッチ予測ネットワーク(SAE-SPN)によるスタックドオートエンコーダを拡張したCompressNetというネットワークを提案する。 これにより、これらの低ビットレート (< 0.1 bpp) での視覚的に心地よい画像の再構成に役立つ。 提案手法の性能をCityscapesデータセットにベンチマークし,極低ビットレートで異なる測定値について評価し,提案手法が他の最先端技術よりも優れていることを示す。 特に、ビットレート0.07では、deep learning sota法と比較して22%の知覚損失と55%のfrechetインセプション距離(fid)を達成している。

Compressing images at extremely low bitrates (< 0.1 bpp) has always been a challenging task since the quality of reconstruction significantly reduces due to the strong imposed constraint on the number of bits allocated for the compressed data. With the increasing need to transfer large amounts of images with limited bandwidth, compressing images to very low sizes is a crucial task. However, the existing methods are not effective at extremely low bitrates. To address this need, we propose a novel network called CompressNet which augments a Stacked Autoencoder with a Switch Prediction Network (SAE-SPN). This helps in the reconstruction of visually pleasing images at these low bitrates (< 0.1 bpp). We benchmark the performance of our proposed method on the Cityscapes dataset, evaluating over different metrics at extremely low bitrates to show that our method outperforms the other state-of-the-art. In particular, at a bitrate of 0.07, CompressNet achieves 22% lower Perceptual Loss and 55% lower Frechet Inception Distance (FID) compared to the deep learning SOTA methods.
翻訳日:2022-11-21 12:57:16 公開日:2020-06-14
# SVMによるベトナム語の単語分割:曖昧さの低減と接尾辞の獲得

Vietnamese Word Segmentation with SVM: Ambiguity Reduction and Suffix Capture ( http://arxiv.org/abs/2006.07804v1 )

ライセンス: Link先を確認
Duc-Vu Nguyen, Dang Van Thin, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen(参考訳) 本稿では,サポートベクトルマシン分類器を用いてベトナム語の単語分割を二項分類としてアプローチする。 我々は,音節のn-gram,音節タイプのn-gram,辞書の隣接音節の結合チェックなどの先行研究から特徴を継承する。 特徴抽出には, 重なりあいまいさの低減と, 接尾辞を含む未知語の予測能力の向上という2つの新しい手法を提案する。 UETsegmenterとRDRsegmenterとは違い、2つのベトナム語単語分割法は、初期処理ステップや後処理技術として、最も長いマッチングアルゴリズムを使用しない。 ベトナムのベンチマークデータを用いた実験結果によると,提案手法は従来の最先端のUETセグメンタやRDRセグメンタよりも優れたF1スコアを得た。

In this paper, we approach Vietnamese word segmentation as a binary classification by using the Support Vector Machine classifier. We inherit features from prior works such as n-gram of syllables, n-gram of syllable types, and checking conjunction of adjacent syllables in the dictionary. We propose two novel ways to feature extraction, one to reduce the overlap ambiguity and the other to increase the ability to predict unknown words containing suffixes. Different from UETsegmenter and RDRsegmenter, two state-of-the-art Vietnamese word segmentation methods, we do not employ the longest matching algorithm as an initial processing step or any post-processing technique. According to experimental results on benchmark Vietnamese datasets, our proposed method obtained a better F1-score than the prior state-of-the-art methods UETsegmenter, and RDRsegmenter.
翻訳日:2022-11-21 12:55:21 公開日:2020-06-14
# FinEst BERT と CroSloEngual BERT: より少ないのは多言語モデルである

FinEst BERT and CroSloEngual BERT: less is more in multilingual models ( http://arxiv.org/abs/2006.07890v1 )

ライセンス: Link先を確認
Matej Ul\v{c}ar and Marko Robnik-\v{S}ikonja(参考訳) マスク付き大規模言語モデルは、多くのNLP問題に対する最先端のソリューションとなっている。 しかし、研究は主に英語に焦点が当てられている。 大規模な多言語モデルが存在する一方で、単言語モデルの方がずっと良い結果をもたらすことが研究によって示されている。 私たちは、フィンランド語、エストニア語、英語、クロアチア語、スロベニア語、英語の2つの三言語bertライクなモデルを訓練します。 多言語BERTとXLM-Rをベースラインとして,NER,POSタグ,依存性解析などの下流タスクの性能評価を行った。 新しいFinEst BERTとCroSloEngual BERTは、ほとんどの単言語的・言語的状況における全てのタスクにおける結果を改善する

Large pretrained masked language models have become state-of-the-art solutions for many NLP problems. The research has been mostly focused on English language, though. While massively multilingual models exist, studies have shown that monolingual models produce much better results. We train two trilingual BERT-like models, one for Finnish, Estonian, and English, the other for Croatian, Slovenian, and English. We evaluate their performance on several downstream tasks, NER, POS-tagging, and dependency parsing, using the multilingual BERT and XLM-R as baselines. The newly created FinEst BERT and CroSloEngual BERT improve the results on all tasks in most monolingual and cross-lingual situations
翻訳日:2022-11-21 12:55:05 公開日:2020-06-14
# 肥料としての肥料の家畜農場から作物畑への移動:カタルーニャを事例として

Transfer of Manure as Fertilizer from Livestock Farms to Crop Fields: The Case of Catalonia ( http://arxiv.org/abs/2006.09122v1 )

ライセンス: Link先を確認
Andreas Kamilaris, Andries Engelbrecht, Andreas Pitsillides and Francesc X. Prenafeta-Boldu(参考訳) 家畜の集中生産は環境に悪影響を及ぼす可能性があり、大量の畜産を生産し、適切に管理しなければ、近くの水域を栄養過剰で汚染することができる。 しかし、家畜の肥料を近くの作物畑に輸出して有機肥料として利用すれば、汚染を軽減できる。 これは、家畜の肥料による作物の栄養要求を満たすロジスティクスプロセスの最良の解決策を見つけるための、単一目的の最適化問題である。 本稿では, アリの捕食行動に基づく分散化自然誘導協調手法である集中最適化アルゴリズム(COA)と, カタルーニャ州で現在行われている非協調的手法であるNBS(Naive neighbor-based method)の3つのアプローチを提案する。 その結果,COAアプローチはAIAよりも8.5%効率が高いことがわかった。 しかし、AIAのアプローチは農家にとって公平であり、各家畜農家がカバーしなければならない平均輸送距離ではバランスが取れ、NBSの1.07倍の効率である。 我々の研究は、Swarmのインテリジェンス手法がまだ解明されていない領域において、この興味深い現実世界問題に対する分散AIAの最初の応用である。

Intensive livestock production might have a negative environmental impact, by producing large amounts of animal manure, which, if not properly managed, can contaminate nearby water bodies with nutrient excess. However, if animal manure is exported to nearby crop fields, to be used as organic fertilizer, pollution can be mitigated. It is a single-objective optimization problem, in regards to finding the best solution for the logistics process of satisfying nutrient needs of crops by means of livestock manure. This paper proposes three different approaches to solve the problem: a centralized optimal algorithm (COA), a decentralized nature-inspired cooperative technique, based on the foraging behaviour of ants (AIA), as well as a naive neighbour-based method (NBS), which constitutes the existing practice used today in an ad hoc, uncoordinated manner in Catalonia. Results show that the COA approach is 8.5% more efficient than the AIA. However, the AIA approach is fairer to the farmers and more balanced in terms of average transportation distances that need to be covered by each livestock farmer, while it is 1.07 times more eefficient than the NBS. Our work constitutes the first application of a decentralized AIA to this interesting real-world problem, in a domain where swarm intelligence methods are still under-exploited.
翻訳日:2022-11-21 12:54:54 公開日:2020-06-14
# AlphaZeroライクなRanked Reinforcement Learningを用いたモーピオンソリティアのタックリング

Tackling Morpion Solitaire with AlphaZero-likeRanked Reward Reinforcement Learning ( http://arxiv.org/abs/2006.07970v1 )

ライセンス: Link先を確認
Hui Wang, Mike Preuss, Michael Emmerich and Aske Plaat(参考訳) Morpion Solitaireは、紙と鉛筆で演奏される人気シングルプレーヤーゲームである。 その大きな状態空間(ゲーム・オブ・ゴーの順)のため、mctsのような伝統的な探索アルゴリズムは良い解を見つけることができなかった。 その後のアルゴリズムであるnested rollout policy adaptationは、大規模な計算リソースを持つにもかかわらず、82ステップの新しい記録を見つけることができた。 この記録を達成した後、私たちの知る限り、約10年間、それ以上の進展は報告されていない。 本稿では,AlphaGo/AlphaZeroによる深層自己学習強化学習の成果を,Morpion Solitaireの探索者設計のインスピレーションとして捉えた。 Morpion Solitaireの課題は、状態空間が狭く、勝利/損失信号が少ないことだ。 代わりに、ランク付け報酬と呼ばれるアプローチを使って、morpion solitaireの強化学習自己プレイフレームワークを作成します。 これにより、妥当な計算努力で中質のソリューションを見つけることができる。 私たちの記録は67ステップのソリューションであり、ランク付けされた報酬を使うよりも、問題に適応せずに人間のベスト(68)に非常に近い。 改善の可能性について、さらに多くの道を挙げる。

Morpion Solitaire is a popular single player game, performed with paper and pencil. Due to its large state space (on the order of the game of Go) traditional search algorithms, such as MCTS, have not been able to find good solutions. A later algorithm, Nested Rollout Policy Adaptation, was able to find a new record of 82 steps, albeit with large computational resources. After achieving this record, to the best of our knowledge, there has been no further progress reported, for about a decade. In this paper we take the recent impressive performance of deep self-learning reinforcement learning approaches from AlphaGo/AlphaZero as inspiration to design a searcher for Morpion Solitaire. A challenge of Morpion Solitaire is that the state space is sparse, there are few win/loss signals. Instead, we use an approach known as ranked reward to create a reinforcement learning self-play framework for Morpion Solitaire. This enables us to find medium-quality solutions with reasonable computational effort. Our record is a 67 steps solution, which is very close to the human best (68) without any other adaptation to the problem than using ranked reward. We list many further avenues for potential improvement.
翻訳日:2022-11-21 12:54:31 公開日:2020-06-14
# 分類器注意機構を用いた音声分類のための深層ニューラルネットワーク

A Deep Neural Network for Audio Classification with a Classifier Attention Mechanism ( http://arxiv.org/abs/2006.09815v1 )

ライセンス: Link先を確認
Haoye Lu, Haolong Zhang, Amit Nayak(参考訳) 音声分類はパターン認識において難しい問題であると考えられている。 近年,ディープニューラルネットワークを用いたアルゴリズムが多数提案されている。 本稿では,CAB-CNN (Classifier-Attention-Based Convolutional Neural Network) と呼ばれる新しい注目型ニューラルネットワークアーキテクチャを提案する。 このアルゴリズムは、単純な分類器のリストと注意機構からなる新しく設計されたアーキテクチャを分類器セレクタとして使用する。 この設計は、分類器に必要なパラメータの数とそれらの複雑さを大幅に削減する。 このようにして、分類器の訓練が容易になり、高い安定した性能が得られる。 我々の主張は実験結果に裏付けられている。 最先端アルゴリズムと比較して,本アルゴリズムは選択したテストスコアの10%以上の改善を達成している。

Audio classification is considered as a challenging problem in pattern recognition. Recently, many algorithms have been proposed using deep neural networks. In this paper, we introduce a new attention-based neural network architecture called Classifier-Attention-Based Convolutional Neural Network (CAB-CNN). The algorithm uses a newly designed architecture consisting of a list of simple classifiers and an attention mechanism as a classifier selector. This design significantly reduces the number of parameters required by the classifiers and thus their complexities. In this way, it becomes easier to train the classifiers and achieve a high and steady performance. Our claims are corroborated by the experimental results. Compared to the state-of-the-art algorithms, our algorithm achieves more than 10% improvements on all selected test scores.
翻訳日:2022-11-21 12:48:21 公開日:2020-06-14
# TURB-Rot 乱流回転流からの3次元および2次元スナップショットの大規模データベース

TURB-Rot. A large database of 3d and 2d snapshots from turbulent rotating flows ( http://arxiv.org/abs/2006.07469v1 )

ライセンス: Link先を確認
L. Biferale and F. Bonaccorso and M. Buzzicotti and P. Clark di Leoni(参考訳) 本研究では,3次元および2次元の乱流流速場スナップショットのオープンデータベースであるTURB-Rotを,回転の有無で元のNavier-Stokes方程式のDNS(Direct Numerical Simulations)を用いて解析した。 目的は、データ同化やコンピュータビジョンに関心のあるコミュニティに、約300Kの複雑な画像とフィールドからなる新しいテストグラウンドを提供することである。 turb-rotデータの特徴は、多スケールで強い非ゲージ的特徴と、約20年間のスケールで粗く、非微分可能なフィールドである。 さらに、元の偏微分方程式の完全に解かれた数値シミュレーションから、方程式を含まないモデルから物理学に基づくモデルまで、幅広いアプローチを適用することができる。 TURB-Rot データは http://smart-turb.roma2.infn.it

We present TURB-Rot, a new open database of 3d and 2d snapshots of turbulent velocity fields, obtained by Direct Numerical Simulations (DNS) of the original Navier-Stokes equations in the presence of rotation. The aim is to provide the community interested in data-assimilation and/or computer vision with a new testing-ground made of roughly 300K complex images and fields. TURB-Rot data are characterized by multi-scales strongly non-Gaussian features and rough, non-differentiable, fields over almost two decades of scales. In addition, coming from fully resolved numerical simulations of the original partial differential equations, they offer the possibility to apply a wide range of approaches, from equation-free to physics-based models. TURB-Rot data are reachable at http://smart-turb.roma2.infn.it
翻訳日:2022-11-21 12:47:48 公開日:2020-06-14
# 識別的視覚認識のための絡み合い

Disentanglement for Discriminative Visual Recognition ( http://arxiv.org/abs/2006.07810v1 )

ライセンス: Link先を確認
Xiaofeng Liu(参考訳) 最近のディープラーニングベースの認識の成功は、メインタスクラベルに関連するコンテンツの維持に依存している。 しかし、制御可能な方法でより優れた一般化のためにノイズ信号を明示的に排除する方法は、未解決の問題である。 例えば、アイデンティティ固有の属性、ポーズ、照明、表現などのさまざまな要因が顔画像の外観に影響を与える。 識別特異的因子の識別は、表情認識(FER)に有用である可能性がある。 本章では,目的要因をタスク関連/非関連意味的変動と非特定潜在的変動として体系的に要約する。 本章では,これらの問題を,潜伏空間における深度学習問題あるいは対角的ミニマックスゲームとして論じる。 前者の選択では、一般化された適応型(n+m)-タップレットクラスタ損失関数と、id-aware hard- negative mining と online positive mining scheme を併用して、id-invariant fer に使用できる。 統合された2つの完全連結層分岐フレームワークにおいて, 深い計量損失とソフトマックス損失を結合最適化により組み合わせることで, FER性能が向上する。 後者の解では、入力サンプルを3つの相補的な部分に分解する機能を備えたエンドツーエンドの条件付き対向ネットワークを装備できる。 判別表現は、タスクの事前知識によって導かれる所望の非分散特性を継承する。 このフレームワークは、照明、化粧、変装耐性顔認証、顔属性認識など、一連のタスクにおいて最高のパフォーマンスを達成する。 本章では、より識別的な視覚認識を実現するために、乱れに対する一般的かつ実用的な解決策を体系的に要約する。

Recent successes of deep learning-based recognition rely on maintaining the content related to the main-task label. However, how to explicitly dispel the noisy signals for better generalization in a controllable manner remains an open issue. For instance, various factors such as identity-specific attributes, pose, illumination and expression affect the appearance of face images. Disentangling the identity-specific factors is potentially beneficial for facial expression recognition (FER). This chapter systematically summarize the detrimental factors as task-relevant/irrelevant semantic variations and unspecified latent variation. In this chapter, these problems are casted as either a deep metric learning problem or an adversarial minimax game in the latent space. For the former choice, a generalized adaptive (N+M)-tuplet clusters loss function together with the identity-aware hard-negative mining and online positive mining scheme can be used for identity-invariant FER. The better FER performance can be achieved by combining the deep metric loss and softmax loss in a unified two fully connected layer branches framework via joint optimization. For the latter solution, it is possible to equipping an end-to-end conditional adversarial network with the ability to decompose an input sample into three complementary parts. The discriminative representation inherits the desired invariance property guided by prior knowledge of the task, which is marginal independent to the task-relevant/irrelevant semantic and latent variations. The framework achieves top performance on a serial of tasks, including lighting, makeup, disguise-tolerant face recognition and facial attributes recognition. This chapter systematically summarize the popular and practical solution for disentanglement to achieve more discriminative visual recognition.
翻訳日:2022-11-21 12:47:17 公開日:2020-06-14
# cityscapes 3d: 9台のdof車両検出のためのデータセットとベンチマーク

Cityscapes 3D: Dataset and Benchmark for 9 DoF Vehicle Detection ( http://arxiv.org/abs/2006.07864v1 )

ライセンス: Link先を確認
Nils G\"ahlert, Nicolas Jourdan, Marius Cordts, Uwe Franke, Joachim Denzler(参考訳) 車両の検出と3次元空間における位置と方向の表現は、自動運転の重要な技術である。 近年,モノクロRGB画像のみに基づく3次元車両検出手法が普及している。 この作業を容易にし、最先端のメソッドを比較および駆動するために、いくつかの新しいデータセットとベンチマークが公開された。 車両の地上の真理アノテーションは通常ライダー点雲を用いて取得されるが、これは両方のセンサー間の不完全な校正や同期のためにしばしばエラーを引き起こす。 そこで,我々はcityscapes 3dを提案する。cityscapesデータセットを,すべての車両に3dバウンディングボックスアノテーションで拡張する。 既存のデータセットとは対照的に、3DアノテーションはステレオRGB画像のみを使用してラベル付けされ、9自由度をすべてキャプチャしました。 これにより、RGBイメージのピクセル精度が向上し、ライダーベースのアプローチよりもアノテーションの幅が大きくなる。 マルチタスク学習を容易にするため、3次元境界ボックスを用いた2次元インスタンスセグメントのペアリングを提供する。 さらに、我々はCityscapesベンチマークスイートを、新しいアノテーションに基づく3D車両検出と、この研究で提示されたメトリクスで補完する。 datasetとbenchmarkはオンラインで入手できる。

Detecting vehicles and representing their position and orientation in the three dimensional space is a key technology for autonomous driving. Recently, methods for 3D vehicle detection solely based on monocular RGB images gained popularity. In order to facilitate this task as well as to compare and drive state-of-the-art methods, several new datasets and benchmarks have been published. Ground truth annotations of vehicles are usually obtained using lidar point clouds, which often induces errors due to imperfect calibration or synchronization between both sensors. To this end, we propose Cityscapes 3D, extending the original Cityscapes dataset with 3D bounding box annotations for all types of vehicles. In contrast to existing datasets, our 3D annotations were labeled using stereo RGB images only and capture all nine degrees of freedom. This leads to a pixel-accurate reprojection in the RGB image and a higher range of annotations compared to lidar-based approaches. In order to ease multitask learning, we provide a pairing of 2D instance segments with 3D bounding boxes. In addition, we complement the Cityscapes benchmark suite with 3D vehicle detection based on the new annotations as well as metrics presented in this work. Dataset and benchmark are available online.
翻訳日:2022-11-21 12:46:50 公開日:2020-06-14
# ランダム林による偶然の正解試験例の検出

Detection of Coincidentally Correct Test Cases through Random Forests ( http://arxiv.org/abs/2006.08605v1 )

ライセンス: Link先を確認
Shuvalaxmi Dass and Xiaozhen Xue and Akbar Siami Namin(参考訳) カバレッジに基づくフォールトローカライズのパフォーマンスは、実行中のテストケースの品質に大きく依存します。 これらのテストケースは、与えられたプログラムのいくつかの行を実行し、基礎となるテストがパスされたか失敗したかを決定する。 特に、いくつかのテストケースは、不正なステートメントを実行しながら、十分に振る舞い(すなわちパス)されることがある。 これらのテストケースは偶然正しいテストケースとしても知られ、スペクトルベースのフォールトローカライゼーションのパフォーマンスに悪影響を与え、自動デバッグのためのツールとしてはあまり役に立たない。 言い換えれば、これら偶然に正しいテストケースの関与は、障害の局所化計算にノイズをもたらす可能性があり、それによって、与えられたコード内の潜在的なバグの位置を効果的にローカライズする。 本稿では,テストケースと誤ラベルされたテストケースを正しく識別する目的で,アンサンブル学習と教師付き学習アルゴリズム,すなわちランダムフォレスト(RF)を組み合わせたハイブリッドアプローチを提案する。 また、偶然の正しいテストケースを、テスト状態の反転やトリミング(すなわち、計算から排除)のコスト効率良く解析する。

The performance of coverage-based fault localization greatly depends on the quality of test cases being executed. These test cases execute some lines of the given program and determine whether the underlying tests are passed or failed. In particular, some test cases may be well-behaved (i.e., passed) while executing faulty statements. These test cases, also known as coincidentally correct test cases, may negatively influence the performance of the spectra-based fault localization and thus be less helpful as a tool for the purpose of automated debugging. In other words, the involvement of these coincidentally correct test cases may introduce noises to the fault localization computation and thus cause in divergence of effectively localizing the location of possible bugs in the given code. In this paper, we propose a hybrid approach of ensemble learning combined with a supervised learning algorithm namely, Random Forests (RF) for the purpose of correctly identifying test cases that are mislabeled to be the passing test cases. A cost-effective analysis of flipping the test status or trimming (i.e., eliminating from the computation) the coincidental correct test cases is also reported.
翻訳日:2022-11-21 12:41:56 公開日:2020-06-14
# LSTM-TrajGAN: トラジェクトリプライバシ保護のためのディープラーニングアプローチ

LSTM-TrajGAN: A Deep Learning Approach to Trajectory Privacy Protection ( http://arxiv.org/abs/2006.10521v1 )

ライセンス: Link先を確認
Jinmeng Rao, Song Gao, Yuhao Kang, Qunying Huang(参考訳) 位置情報サービスの普及は、個々のレベルの軌跡データの爆発的な成長に寄与し、プライバシー問題に対する公衆の懸念を引き起こす。 本研究では,データ共有と公開のためのプライバシー保護型合成軌道データを生成するために,エンドツーエンドのディープラーニングモデルであるLSTM-TrajGANを提案する。 モデルトレーニングと最適化のための軌道類似性損失を測定するために,損失メトリック関数trajlossを設計する。 本モデルは,実世界の意味的トラジェクトリデータセット上でのトラジェクトリ・ユーザリンクタスクに基づいて評価される。 他の一般的なジオマスキング手法と比較して,本モデルではユーザが再識別されることを防止でき,また実際の軌跡データの空間的・時間的・主題的特性も保持できる。 このモデルは、軌道上のプライバシ保護と空間的および時間的分析のためのユーティリティのバランスを改善し、GeoAIによるプライバシ保護に関する新たな洞察を提供する。

The prevalence of location-based services contributes to the explosive growth of individual-level trajectory data and raises public concerns about privacy issues. In this research, we propose a novel LSTM-TrajGAN approach, which is an end-to-end deep learning model to generate privacy-preserving synthetic trajectory data for data sharing and publication. We design a loss metric function TrajLoss to measure the trajectory similarity losses for model training and optimization. The model is evaluated on the trajectory-user-linking task on a real-world semantic trajectory dataset. Compared with other common geomasking methods, our model can better prevent users from being re-identified, and it also preserves essential spatial, temporal, and thematic characteristics of the real trajectory data. The model better balances the effectiveness of trajectory privacy protection and the utility for spatial and temporal analyses, which offers new insights into the GeoAI-powered privacy protection.
翻訳日:2022-11-21 12:41:38 公開日:2020-06-14
# 複数の非決定論的教師によるアクティブ模倣学習--定式化、挑戦、アルゴリズム

Active Imitation Learning from Multiple Non-Deterministic Teachers: Formulation, Challenges, and Algorithms ( http://arxiv.org/abs/2006.07777v1 )

ライセンス: Link先を確認
Khanh Nguyen and Hal Daum\'e III(参考訳) 対話コストを最小に抑えながら,複数の非決定性教師を模倣する学習問題を定式化する。 標準的な模倣学習のように特定の方針を学ぶのではなく、政策空間上の分布を学習することである。 まず,教師方針の連続表現を学習することにより,その分布を効率的にモデル化し,推定する汎用フレームワークを提案する。 次に,このフレームワークの学習者-教師間インタラクションコストを削減するアクティブラーニングアルゴリズムであるactive performance-based imitation learning (apil)を開発した。 今後の進捗予測に基づいてクエリ決定を行うことで,教師の行動の不確実性に直面した従来の不確実性に基づくアプローチの落とし穴を回避することができる。 トイとフォトリアリスティックの両方のナビゲーションタスクの結果から,APILはパフォーマンスを損なうことなく,教師との対話の回数を大幅に削減することが示された。 また,教師の行動の不確実性の度合いも高い。

We formulate the problem of learning to imitate multiple, non-deterministic teachers with minimal interaction cost. Rather than learning a specific policy as in standard imitation learning, the goal in this problem is to learn a distribution over a policy space. We first present a general framework that efficiently models and estimates such a distribution by learning continuous representations of the teacher policies. Next, we develop Active Performance-Based Imitation Learning (APIL), an active learning algorithm for reducing the learner-teacher interaction cost in this framework. By making query decisions based on predictions of future progress, our algorithm avoids the pitfalls of traditional uncertainty-based approaches in the face of teacher behavioral uncertainty. Results on both toy and photo-realistic navigation tasks show that APIL significantly reduces the numbers of interactions with teachers without compromising on performance. Moreover, it is robust to various degrees of teacher behavioral uncertainty.
翻訳日:2022-11-21 12:40:56 公開日:2020-06-14
# 多チャンネル時系列の動的ウィンドウレベルグランガー因果関係

Dynamic Window-level Granger Causality of Multi-channel Time Series ( http://arxiv.org/abs/2006.07788v1 )

ライセンス: Link先を確認
Zhiheng Zhang, Wenbo Hu, Tian Tian, Jun Zhu(参考訳) グランガー因果関係法は複雑な因果関係グラフを構築することなく時系列因果関係を解析する。 しかし、従来のグランジャー因果関係法は、因果関係が時系列チャネル間にあると仮定しており、時系列チャネルに沿って動的因果関係を持つ現実世界の時系列データをモデル化できない。 本稿では,マルチチャネル時系列データに対する動的ウィンドウレベルグレンジャー因果関係法(DWGC)を提案する。 我々は,スライディングウインドウの予測誤差を用いてfテストを行うことで,ウィンドウレベルで因果モデルを構築する。 そこで本研究では,dwgc法における因果性指標化手法を提案する。 本質的に因果性指標は自己相関を減少させ、相互相関因果効果を増加させ、dwgc法を改善することである。 2つの合成および1つの実世界のデータセットに関する理論的解析と実験結果から、因果インデックス付き改良DWGC法は、ウィンドウレベルの因果性をよりよく検出することを示した。

Granger causality method analyzes the time series causalities without building a complex causality graph. However, the traditional Granger causality method assumes that the causalities lie between time series channels and remain constant, which cannot model the real-world time series data with dynamic causalities along the time series channels. In this paper, we present the dynamic window-level Granger causality method (DWGC) for multi-channel time series data. We build the causality model on the window-level by doing the F-test with the forecasting errors on the sliding windows. We propose the causality indexing trick in our DWGC method to reweight the original time series data. Essentially, the causality indexing is to decrease the auto-correlation and increase the cross-correlation causal effects, which improves the DWGC method. Theoretical analysis and experimental results on two synthetic and one real-world datasets show that the improved DWGC method with causality indexing better detects the window-level causalities.
翻訳日:2022-11-21 12:40:40 公開日:2020-06-14
# 最適分布ロバストポリシ最適化

Optimistic Distributionally Robust Policy Optimization ( http://arxiv.org/abs/2006.07815v1 )

ライセンス: Link先を確認
Jun Song, Chaoyue Zhao(参考訳) 信頼領域政策最適化(trpo)と近方政策最適化(ppo)は、広く採用されているポリシーベース強化学習(rl)手法として、ポリシー表現を特定のパラメトリック分布クラスに制限するため、サブ最適ソリューションに収束しがちである。 この問題に対処するために,最適分布ロバスト最適化 (ODRPO) アルゴリズムを開発した。このアルゴリズムは,最適分布ロバスト最適化 (DRO) アプローチを効果的に活用し,ポリシをパラメータ化せずに信頼領域制約最適化問題を解く。 本アルゴリズムは,trpoとppoを高いサンプル効率で改善し,学習安定性を保ちながら最終方針の性能を向上させる。 さらに、一般的なポリシーベースのRLアルゴリズムでは約束されていない、グローバルに最適なポリシー更新を実現する。 表領域にわたる実験とロボット移動タスクは、我々のアプローチの有効性を実証する。

Trust Region Policy Optimization (TRPO) and Proximal Policy Optimization (PPO), as the widely employed policy based reinforcement learning (RL) methods, are prone to converge to a sub-optimal solution as they limit the policy representation to a particular parametric distribution class. To address this issue, we develop an innovative Optimistic Distributionally Robust Policy Optimization (ODRPO) algorithm, which effectively utilizes Optimistic Distributionally Robust Optimization (DRO) approach to solve the trust region constrained optimization problem without parameterizing the policies. Our algorithm improves TRPO and PPO with a higher sample efficiency and a better performance of the final policy while attaining the learning stability. Moreover, it achieves a globally optimal policy update that is not promised in the prevailing policy based RL algorithms. Experiments across tabular domains and robotic locomotion tasks demonstrate the effectiveness of our approach.
翻訳日:2022-11-21 12:40:02 公開日:2020-06-14
# gp3:ガウス過程のサンプリングに基づく分析フレームワーク

GP3: A Sampling-based Analysis Framework for Gaussian Processes ( http://arxiv.org/abs/2006.07871v1 )

ライセンス: Link先を確認
Armin Lederer, Markus Kessler, Sandra Hirche(参考訳) 機械学習は制御アプローチにますます適用されているが、現実のアプリケーションに必要な認証可能な安全性を保証する方法はごくわずかである。 これらのアプローチは通常、形式的な理論解析を可能にするよく理解された学習アルゴリズムに依存している。 ガウス過程の回帰はこれらの手法の顕著な例であり、ベイズの基礎が強かったために注目が集まる。 ガウス過程の解析に関する多くの問題は同様の構造を持つが、特定のアプローチは通常、計算効率に強い焦点をあてることなく、個別に調整される。 これにより、これらのアプローチの実践的適用性と性能は制限される。 この問題を克服するために,ガウス過程のグラフィックス処理ユニットの汎用計算であるGP3という新しいフレームワークを提案し,既存の問題の多くを効率的に解けるようにした。 区間解析を用いて局所リプシッツ定数を計算し、グリッド上で検証された特性を連続状態空間に拡張する。 計算は完全に並列化可能であるため、高分解能解析を可能にするため、GPU処理の計算上の利点を多分解能サンプリングと組み合わせて活用する。

Although machine learning is increasingly applied in control approaches, only few methods guarantee certifiable safety, which is necessary for real world applications. These approaches typically rely on well-understood learning algorithms, which allow formal theoretical analysis. Gaussian process regression is a prominent example among those methods, which attracts growing attention due to its strong Bayesian foundations. Even though many problems regarding the analysis of Gaussian processes have a similar structure, specific approaches are typically tailored for them individually, without strong focus on computational efficiency. Thereby, the practical applicability and performance of these approaches is limited. In order to overcome this issue, we propose a novel framework called GP3, general purpose computation on graphics processing units for Gaussian processes, which allows to solve many of the existing problems efficiently. By employing interval analysis, local Lipschitz constants are computed in order to extend properties verified on a grid to continuous state spaces. Since the computation is completely parallelizable, the computational benefits of GPU processing are exploited in combination with multi-resolution sampling in order to allow high resolution analysis.
翻訳日:2022-11-21 12:38:40 公開日:2020-06-14
# resot: 神経信号分類のための資源効率の高い斜め木

ResOT: Resource-Efficient Oblique Trees for Neural Signal Classification ( http://arxiv.org/abs/2006.07900v1 )

ライセンス: Link先を確認
Bingzhao Zhu, Masoud Farivar, Mahsa Shoaran(参考訳) 最小の計算量とメモリリソースでチップに実装できる分類器は、医療機器やiotデバイスなどの新興アプリケーションにおけるエッジコンピューティングに不可欠である。 本稿では,斜め決定木に基づく機械学習モデルを導入し,ニューラルネットワークを用いた資源効率の高い分類を実現する。 モデル圧縮を確率的ルーティングと統合し,コストを意識した学習を実現することにより,提案モデルでは,分類精度を維持しながら,最先端モデルと比較してメモリとハードウェアのコストを大幅に削減することができる。 性能,メモリ,ハードウェア要件を評価するために,資源効率の高い斜め木を3つのニューラル分類タスクで訓練した。 発作検出作業では,10例のてんかん患者の頭蓋内脳波を用いてモデルサイズを3.4倍,特徴抽出コストを14.6倍に削減することができた。 第2の実験では、深部脳刺激(dbs)装置を装着した12例の局所電界電位を用いて、パーキンソン病の震え検出に関するresot-peモデルを実験した。 モデルサイズと特徴抽出コストをそれぞれ10.6倍と6.8倍削減しつつ,最先端のブーストツリーアンサンブルと同等の分類性能を達成した。 また,9被験者のECoG記録を用いて6種類の指の動き検出を行い,モデルサイズを17.6倍,特徴計算コストを5.1倍に削減した。 提案モデルは,リアルタイム神経疾患検出とモータデコードのための分類器を低消費電力かつメモリ効率良く実装できる。

Classifiers that can be implemented on chip with minimal computational and memory resources are essential for edge computing in emerging applications such as medical and IoT devices. This paper introduces a machine learning model based on oblique decision trees to enable resource-efficient classification on a neural implant. By integrating model compression with probabilistic routing and implementing cost-aware learning, our proposed model could significantly reduce the memory and hardware cost compared to state-of-the-art models, while maintaining the classification accuracy. We trained the resource-efficient oblique tree with power-efficient regularization (ResOT-PE) on three neural classification tasks to evaluate the performance, memory, and hardware requirements. On seizure detection task, we were able to reduce the model size by 3.4X and the feature extraction cost by 14.6X compared to the ensemble of boosted trees, using the intracranial EEG from 10 epilepsy patients. In a second experiment, we tested the ResOT-PE model on tremor detection for Parkinson's disease, using the local field potentials from 12 patients implanted with a deep-brain stimulation (DBS) device. We achieved a comparable classification performance as the state-of-the-art boosted tree ensemble, while reducing the model size and feature extraction cost by 10.6X and 6.8X, respectively. We also tested on a 6-class finger movement detection task using ECoG recordings from 9 subjects, reducing the model size by 17.6X and feature computation cost by 5.1X. The proposed model can enable a low-power and memory-efficient implementation of classifiers for real-time neurological disease detection and motor decoding.
翻訳日:2022-11-21 12:38:07 公開日:2020-06-14
# マクロ経済の変化に基づく損失率予測フレームワーク:米国クレジットカード産業への応用

Loss Rate Forecasting Framework Based on Macroeconomic Changes: Application to US Credit Card Industry ( http://arxiv.org/abs/2006.07911v1 )

ライセンス: Link先を確認
Sajjad Taghiyeh, David C Lengacher and Robert B Handfield(参考訳) 米国の大手銀行のバランスシートの大部分はクレジットカードポートフォリオで構成されている。 したがって、チャージオフ率の管理はクレジットカード業界の収益性にとって極めて重要な課題である。 異なるマクロ経済条件は、負債を返済する個人の行動に影響する。 本稿では,マクロ経済指標を用いたクレジットカード業界における損失予測のエキスパートシステムを提案する。 我々は、経済、消費者、ビジネス、政府セクターのあらゆる側面を網羅する文献・専門家の意見の徹底的な見直しに基づいて、指標を選択する。 アート機械学習モデルの状況は、提案されたエキスパートシステムフレームワークの開発に使用される。 予測エキスパートシステムの2つのバージョンを開発し,各指標に付加されるラグを選択するために,異なるアプローチを用いた。 入力として使用した19のマクロ経済指標のうち、6つの指標を最適ラグモデルで使用し、7つの指標を全ラグモデルで選択した。 これらのモデルによって選択された特徴は、経済の3つのセクター全てをカバーした。 1985年第1四半期から2019年第2四半期にかけての米国銀行上位100行のチャージオフデータを用いて、最適ラグモデルと全ラグモデルを用いて平均2乗誤差値を1.15E-03および1.04E-03とする。 提案するエキスパートシステムは, クレジットカード産業の実務者に対して, 経済の全体像を与え, 異なるマクロ経済条件が将来の損失に与える影響を把握できるように支援する。

A major part of the balance sheets of the largest US banks consists of credit card portfolios. Hence, managing the charge-off rates is a vital task for the profitability of the credit card industry. Different macroeconomic conditions affect individuals' behavior in paying down their debts. In this paper, we propose an expert system for loss forecasting in the credit card industry using macroeconomic indicators. We select the indicators based on a thorough review of the literature and experts' opinions covering all aspects of the economy, consumer, business, and government sectors. The state of the art machine learning models are used to develop the proposed expert system framework. We develop two versions of the forecasting expert system, which utilize different approaches to select between the lags added to each indicator. Among 19 macroeconomic indicators that were used as the input, six were used in the model with optimal lags, and seven indicators were selected by the model using all lags. The features that were selected by each of these models covered all three sectors of the economy. Using the charge-off data for the top 100 US banks ranked by assets from the first quarter of 1985 to the second quarter of 2019, we achieve mean squared error values of 1.15E-03 and 1.04E-03 using the model with optimal lags and the model with all lags, respectively. The proposed expert system gives a holistic view of the economy to the practitioners in the credit card industry and helps them to see the impact of different macroeconomic conditions on their future loss.
翻訳日:2022-11-21 12:37:39 公開日:2020-06-14
# サンプルアーチファクトとエラーによるサポート推定

Support Estimation with Sampling Artifacts and Errors ( http://arxiv.org/abs/2006.07999v1 )

ライセンス: Link先を確認
Eli Chien, Olgica Milenkovic, Angelia Nedich(参考訳) 分布の支持を推定する問題は、機械学習、計算機科学、物理学、生物学の多くの分野において非常に重要である。 この領域における既存の作業の多くは、完全に正確なサンプリングアプローチを前提とした設定に重点を置いている。 ここでは,サンプルの繰り返しと削除を同時にキャプチャするPoissonリピートチャネルから,各サンプルが出現すると仮定されるサンプリングアーティファクトの存在下での推測を支援するための最初の方法を紹介する。 提案する推定器は正則化重み付きチェビシェフ近似に基づいており、重みはいわゆる touchard (bell) 多項式の評価によって制御される。 サンプルアーティファクトの存在下での支持は、離散化されたセミインファイトプログラミング手法を用いて計算される。 この推定手法は、SARS-Cov-2ウイルスの遺伝子における突然変異支援推定という計算生物学の新たな問題に対処するために収集されたGISAIDデータと同様に、合成データおよびテキストデータに基づいて試験される。 後の設定では、ポアソンチャネルは、多くの個体がウイルスrnaの存在のために複数回テストされているという事実を捉え、その結果、繰り返しサンプルとなるが、他の個体の結果はテストエラーのために記録されない。 全ての実験において,最先端ノイズレス支援手法の適切な修正により得られた手法と比較して,統合手法の大幅な改善が見られた。

The problem of estimating the support of a distribution is of great importance in many areas of machine learning, computer science, physics and biology. Most of the existing work in this domain has focused on settings that assume perfectly accurate sampling approaches, which is seldom true in practical data science. Here we introduce the first known approach to support estimation in the presence of sampling artifacts and errors where each sample is assumed to arise from a Poisson repeat channel which simultaneously captures repetitions and deletions of samples. The proposed estimator is based on regularized weighted Chebyshev approximations, with weights governed by evaluations of so-called Touchard (Bell) polynomials. The supports in the presence of sampling artifacts are calculated using discretized semi-infite programming methods. The estimation approach is tested on synthetic and textual data, as well as on GISAID data collected to address a new problem in computational biology: mutational support estimation in genes of the SARS-Cov-2 virus. In the later setting, the Poisson channel captures the fact that many individuals are tested multiple times for the presence of viral RNA, thereby leading to repeated samples, while other individual's results are not recorded due to test errors. For all experiments performed, we observed significant improvements of our integrated methods compared to those obtained through adequate modifications of state-of-the-art noiseless support estimation methods.
翻訳日:2022-11-21 10:11:24 公開日:2020-06-14
# ロバストカーネルハイパーパラメータチューニングの統計的コスト

The Statistical Cost of Robust Kernel Hyperparameter Tuning ( http://arxiv.org/abs/2006.08035v1 )

ライセンス: Link先を確認
Raphael A. Meyer, Christopher Musco(参考訳) 本稿では,周辺雑音下でのアクティブ回帰設定におけるカーネルハイパーパラメータチューニングの統計的複雑性について検討する。 未知のハイパーパラメータを持つカーネルのクラスから最適な補間を見つけ、ノイズが二乗可積分であると仮定する問題を考える。 問題に対する有限サンプル保証を提供し、カーネルクラスの複雑さがカーネルハイパーパラメータの学習の複雑さをいかに増加させるかを特徴付ける。 共通カーネルクラス(例えば、未知長スケールの2乗指数カーネル)では、パラメータが予め知られている設定と比較して、ハイパーパラメータ最適化が対数係数だけでサンプルの複雑さを増大させることを示す。 この結果は、複数の設計行列の下で線形回帰のサブサンプリング保証と、カーネルパラメータ化を判別するための"epsilon}-net引数を組み合わせたものである。

This paper studies the statistical complexity of kernel hyperparameter tuning in the setting of active regression under adversarial noise. We consider the problem of finding the best interpolant from a class of kernels with unknown hyperparameters, assuming only that the noise is square-integrable. We provide finite-sample guarantees for the problem, characterizing how increasing the complexity of the kernel class increases the complexity of learning kernel hyperparameters. For common kernel classes (e.g. squared-exponential kernels with unknown lengthscale), our results show that hyperparameter optimization increases sample complexity by just a logarithmic factor, in comparison to the setting where optimal parameters are known in advance. Our result is based on a subsampling guarantee for linear regression under multiple design matrices, combined with an {\epsilon}-net argument for discretizing kernel parameterizations.
翻訳日:2022-11-21 10:10:07 公開日:2020-06-14
# 効率的なモデルベースポリシー適応

Provably Efficient Model-based Policy Adaptation ( http://arxiv.org/abs/2006.08051v1 )

ライセンス: Link先を確認
Yuda Song, Aditi Mavalankar, Wen Sun, Sicun Gao(参考訳) 強化学習の高サンプル複雑さは、その実践に挑戦している。 有望なアプローチは、事前訓練されたポリシーを新しい環境に迅速に適応させることである。 このポリシー適応問題に対する既存の方法は、通常、事前訓練中のターゲット環境のいくつかの分布からサンプリングすることで、ドメインのランダム化とメタラーニングに依存している。 我々は,未学習のオンライン学習と適応制御のアイデアを組み合わせることで,未確認のターゲット環境におけるオンライン適応を可能にする新しいモデルベースメカニズムを提案する。 提案手法は, 対象環境の方針を学習し, ソース環境からの軌道を迅速に回収し, 一般設定での収束率を確立することを実証する。 我々は,様々な連続制御タスクにおけるポリシー適応手法の利点を実証し,サンプル複雑性をはるかに低減した最先端手法の性能を実現する。

The high sample complexity of reinforcement learning challenges its use in practice. A promising approach is to quickly adapt pre-trained policies to new environments. Existing methods for this policy adaptation problem typically rely on domain randomization and meta-learning, by sampling from some distribution of target environments during pre-training, and thus face difficulty on out-of-distribution target environments. We propose new model-based mechanisms that are able to make online adaptation in unseen target environments, by combining ideas from no-regret online learning and adaptive control. We prove that the approach learns policies in the target environment that can quickly recover trajectories from the source environment, and establish the rate of convergence in general settings. We demonstrate the benefits of our approach for policy adaptation in a diverse set of continuous control tasks, achieving the performance of state-of-the-art methods with much lower sample complexity.
翻訳日:2022-11-21 10:09:27 公開日:2020-06-14
# PlumeNet:畳み込みLSTMネットワークを用いた大規模空気質予測

PlumeNet: Large-Scale Air Quality Forecasting Using A Convolutional LSTM Network ( http://arxiv.org/abs/2006.09204v1 )

ライセンス: Link先を確認
Antoine All\'eon, Gr\'egoire Jauvion, Boris Quennehen, David Lissmyr(参考訳) 本稿では, 主汚染物質である窒素ジオキシド (no2) , オゾン (o3) および粒子状物質 (pm2.5, pm10, それぞれ直径2.5 um, 10 um以下の粒子) の濃度を共同で予測できるエンジンを提案する。 予測は通常のグリッド上で行われ(論文で提示された結果はヨーロッパとアメリカ合衆国に0.5{\deg}の解像度グリッドで作成される)、ニューラルネットワークは畳み込みLSTMブロックを含む。 エンジンには、利用可能な最新の大気質モニタリングステーション、天気予報、空気質物理化学モデル(AQPCM)出力が供給されている。 エンジンは長時間の地平線による大気質予測に利用することができ、本論文では4日間の予測が極めて単純なベンチマークを上回っていることを示す。 エンジンの貴重な利点は、計算能力があまり必要ないことだ。予測は標準GPU上で数分で構築できる。 したがって、新しい空気質対策が利用可能になると(一般的には毎時)非常に頻繁に更新することが可能であり、伝統的に空気品質予測に使用される aqpcms はそうではない。 本稿では,Plume Labsが展開・使用した予測エンジンと同じ原理を,個人や企業を対象とした空気質データの提供を目的としたいくつかの製品に頼っている。

This paper presents an engine able to forecast jointly the concentrations of the main pollutants harming people's health: nitrogen dioxyde (NO2), ozone (O3) and particulate matter (PM2.5 and PM10, which are respectively the particles whose diameters are below 2.5 um and 10 um respectively). The forecasts are performed on a regular grid (the results presented in the paper are produced with a 0.5{\deg} resolution grid over Europe and the United States) with a neural network whose architecture includes convolutional LSTM blocks. The engine is fed with the most recent air quality monitoring stations measures available, weather forecasts as well as air quality physical and chemical model (AQPCM) outputs. The engine can be used to produce air quality forecasts with long time horizons, and the experiments presented in this paper show that the 4 days forecasts beat very significantly simple benchmarks. A valuable advantage of the engine is that it does not need much computing power: the forecasts can be built in a few minutes on a standard GPU. Thus, they can be updated very frequently, as soon as new air quality measures are available (generally every hour), which is not the case of AQPCMs traditionally used for air quality forecasting. The engine described in this paper relies on the same principles as a prediction engine deployed and used by Plume Labs in several products aiming at providing air quality data to individuals and businesses.
翻訳日:2022-11-21 10:09:03 公開日:2020-06-14
# ファッションとアパレルのためのセグメンテーションタスク

Segmentation task for fashion and apparel ( http://arxiv.org/abs/2006.11375v1 )

ライセンス: Link先を確認
Hassler Castro and Mariana Ramirez(参考訳) ファッション産業は世界経済において強く重要な産業である。 グローバリゼーションは、ファストファッション、消費者ショッピングの嗜好の変化、競争の激化、ファッションショップや小売業者の豊かさをもたらし、ファッション業界のプロフェッショナルたちが、人々がどんなファッションアイテムを着るか、それらをどのように組み合わせたかを追跡することがより困難になっている。 本稿では,46の異なる衣服とアパレルのカテゴリを持つ45,000の画像からなるiMaterialistデータセットを用いて,いくつかのディープラーニングアーキテクチャを実装することで,この問題を解決する。

The Fashion Industry is a strong and important industry in the global economy. Globalization has brought fast fashion, quick shifting consumer shopping preferences, more competition, and abundance in fashion shops and retailers, making it more difficult for professionals in the fashion industry to keep track of what fashion items people wear and how they combine them. This paper solves this problem by implementing several Deep Learning Architectures using the iMaterialist dataset consisting of 45,000 images with 46 different clothing and apparel categories.
翻訳日:2022-11-21 10:07:34 公開日:2020-06-14
# 相互に分類・生成する:同時正定値学習と余剰データを用いた条件生成

Classify and Generate Reciprocally: Simultaneous Positive-Unlabelled Learning and Conditional Generation with Extra Data ( http://arxiv.org/abs/2006.07841v1 )

ライセンス: Link先を確認
Bing Yu, Ke Sun, He Wang, Zhouchen Lin, Zhanxing Zhu(参考訳) クラスラベルデータの不足は、幅広い機械学習問題のユビキタスなボトルネックである。 ラベルのないデータは普通に存在し、潜在的な解決策を提供するが、それらを利用するのは極めて困難である。 本稿では,分類と生成性能を向上させるために,非ラベルデータを完全に活用することを目的とした,追加の未ラベルデータ \emph{simultanely} を用いて,肯定的~(PU)分類と条件生成を活用することでこの問題に対処する。 特に, 余分なデータ, 特にラベル付されていないデータに露出する場合の, pu分類と条件生成の両方を共同でターゲットとした新しい学習枠組みを提案する。 1) 雑音ラベルに対するロバストな条件付き生成型adversarial network~(cgan)の助けを借りて, pu分類器の性能を向上させること。 2) pu分類器から予測ラベルによる余分なデータを活用して生成を支援する。 我々の重要な貢献は、PU分類器によって予測されるノイズラベルからクリーンなデータ分布を学習できる分類器-雑音不変条件GAN~(CNI-CGAN)である。 理論的には, CNI-CGANの最適条件を実証し, 多様なデータセットについて広範な評価を行い, 分類と生成の同時的改善を検証した。

The scarcity of class-labeled data is a ubiquitous bottleneck in a wide range of machine learning problems. While abundant unlabeled data normally exist and provide a potential solution, it is extremely challenging to exploit them. In this paper, we address this problem by leveraging Positive-Unlabeled~(PU) classification and conditional generation with extra unlabeled data \emph{simultaneously}, both of which aim to make full use of agnostic unlabeled data to improve classification and generation performances. In particular, we present a novel training framework to jointly target both PU classification and conditional generation when exposing to extra data, especially out-of-distribution unlabeled data, by exploring the interplay between them: 1) enhancing the performance of PU classifiers with the assistance of a novel Conditional Generative Adversarial Network~(CGAN) that is robust to noisy labels, 2) leveraging extra data with predicted labels from a PU classifier to help the generation. Our key contribution is a Classifier-Noise-Invariant Conditional GAN~(CNI-CGAN) that can learn the clean data distribution from noisy labels predicted by a PU classifier. Theoretically, we proved the optimal condition of CNI-CGAN and experimentally, we conducted extensive evaluations on diverse datasets, verifying the simultaneous improvements on both classification and generation.
翻訳日:2022-11-21 10:01:47 公開日:2020-06-14
# mixmood:deep dataset dis similarity measureを用いた半教師付き学習におけるクラス分散ミスマッチの体系的アプローチ

MixMOOD: A systematic approach to class distribution mismatch in semi-supervised learning using deep dataset dissimilarity measures ( http://arxiv.org/abs/2006.07767v1 )

ライセンス: Link先を確認
Saul Calderon-Ramirez, Luis Oala, Jordina Torrents-Barrena, Shengxiang Yang, Armaghan Moemeni, Wojciech Samek, Miguel A. Molina-Cabello(参考訳) 本研究では,半教師付き深層学習(ssdl)におけるクラス分散ミスマッチの効果を軽減するための体系的手法であるmixmoodを提案する。 この作品は2つの構成要素に分けられる。 (i)ssdl及びssl用広範なout of distribution(ood)アブレーション試験層 (ii)mixmoodと呼ばれる量的不ラベルなデータセット選択ヒューリスティック。 まず,MixMatchの精度を3つのマルチクラス分類タスクにおいて90種類の分散ミスマッチシナリオで解析する。 これらは、OODアンラベリングデータがMixMatchのパフォーマンスにどのように影響するかを体系的に理解するために設計されている。 第2部では,ラベル付きデータセットと非ラベル付きデータセットを比較するために,DeDiM(Deep dataset Dissimilarity measures)と呼ばれる効率的かつ効果的な手法を提案する。 提案したDeDiMは、評価とモデルに依存しない。 汎用的な Wide-ResNet の機能空間を使用し、学習前に適用することができる。 実験の結果,ラベル付きデータと非ラベル付きデータとのセマンティックな類似性は,非ラベル付きデータ選択には適さないことがわかった。 対照的に、MixMatch精度と提案したDeDiMsとの強い相関により、予測されたMixMatch精度に応じて、異なる非ラベルデータセットアンテホックを定量的にランク付けすることができる。 これがMixMOODと呼ばれるものです。 さらに,mixmoodアプローチは,分散データを含む実世界シナリオにおいて,様々な半教師付き学習手法の評価を標準化する上で有効である。

In this work, we propose MixMOOD - a systematic approach to mitigate effect of class distribution mismatch in semi-supervised deep learning (SSDL) with MixMatch. This work is divided into two components: (i) an extensive out of distribution (OOD) ablation test bed for SSDL and (ii) a quantitative unlabelled dataset selection heuristic referred to as MixMOOD. In the first part, we analyze the sensitivity of MixMatch accuracy under 90 different distribution mismatch scenarios across three multi-class classification tasks. These are designed to systematically understand how OOD unlabelled data affects MixMatch performance. In the second part, we propose an efficient and effective method, called deep dataset dissimilarity measures (DeDiMs), to compare labelled and unlabelled datasets. The proposed DeDiMs are quick to evaluate and model agnostic. They use the feature space of a generic Wide-ResNet and can be applied prior to learning. Our test results reveal that supposed semantic similarity between labelled and unlabelled data is not a good heuristic for unlabelled data selection. In contrast, strong correlation between MixMatch accuracy and the proposed DeDiMs allow us to quantitatively rank different unlabelled datasets ante hoc according to expected MixMatch accuracy. This is what we call MixMOOD. Furthermore, we argue that the MixMOOD approach can aid to standardize the evaluation of different semi-supervised learning techniques under real world scenarios involving out of distribution data.
翻訳日:2022-11-21 09:52:07 公開日:2020-06-14
# 多様性規則化協調探索による非局所的政策最適化

Non-local Policy Optimization via Diversity-regularized Collaborative Exploration ( http://arxiv.org/abs/2006.07781v1 )

ライセンス: Link先を確認
Zhenghao Peng, Hao Sun, Bolei Zhou(参考訳) 従来の強化学習(RL)アルゴリズムは通常、タスクを独立して解くために単一のエージェント学習を持つ。 その結果、エージェントは状態-アクション空間の限られた部分のみを探索でき、学習された動作はエージェントの以前の経験と高い相関関係にあり、トレーニングをローカルな最小値にしやすくなる。 本研究では,チームワークの能力をrlに付与し,ダイバーシティ・レギュラライズド・コラボレーティブ・エクスプロレーション(dice)と呼ばれる新しい非局所政策最適化フレームワークを提案する。 DiCEは異種エージェントのグループを利用して環境を同時に探索し、収集した経験を共有する。 正規化メカニズムはさらにチームの多様性を維持し、探査を調整できるように設計されている。 このフレームワークをオン・ポリティクスとオフ・ポリティクスの両方で実装し,実験結果から,MuJoCoロコモーションタスクのベースラインよりも大幅に改善できることが示唆された。

Conventional Reinforcement Learning (RL) algorithms usually have one single agent learning to solve the task independently. As a result, the agent can only explore a limited part of the state-action space while the learned behavior is highly correlated to the agent's previous experience, making the training prone to a local minimum. In this work, we empower RL with the capability of teamwork and propose a novel non-local policy optimization framework called Diversity-regularized Collaborative Exploration (DiCE). DiCE utilizes a group of heterogeneous agents to explore the environment simultaneously and share the collected experiences. A regularization mechanism is further designed to maintain the diversity of the team and modulate the exploration. We implement the framework in both on-policy and off-policy settings and the experimental results show that DiCE can achieve substantial improvement over the baselines in the MuJoCo locomotion tasks.
翻訳日:2022-11-21 09:51:41 公開日:2020-06-14
# patchup:畳み込みニューラルネットワークのための正規化手法

PatchUp: A Regularization Technique for Convolutional Neural Networks ( http://arxiv.org/abs/2006.07794v1 )

ライセンス: Link先を確認
Mojtaba Faramarzi, Mohammad Amini, Akilesh Badrinaaraayanan, Vikas Verma, and Sarath Chandar(参考訳) 大容量のディープラーニングモデルは、限られた量のラベル付きトレーニングデータでトレーニングする場合、高い一般化ギャップに陥ることが多い。 この問題に対処する最近の方法のクラスでは、トレーニングサンプルのペア(またはそれ以上)を混合することにより、新しいトレーニングサンプルを構築する様々な方法を使用している。 ランダムな一対のサンプルから選択した特徴写像の連続ブロックに適用可能な,畳み込みニューラルネットワーク(CNN)の隠れ状態ブロックレベルの正規化手法であるPatchUpを提案する。 本手法は,mixup や cutmix のような最先端混合手法で生じる多様体侵入問題に対する cnn モデルのロバスト性を改善する。 さらに,入力空間よりも多くの次元を持つ隠れ空間に特徴の連続したブロックを混合するので,異なる次元へのトレーニングのためにより多様なサンプルを得る。 CIFAR-10, CIFAR-100, SVHNデータセットのPreactResnet18, PreactResnet34, WideResnet-28-10モデルによる実験により, PatchUpはCNNの現在最先端の正規化器の性能を向上または同等に向上することが示された。 また、PatchUpはサンプルのアフィン変換をより一般化し、敵攻撃に対してより堅牢であることを示す。

Large capacity deep learning models are often prone to a high generalization gap when trained with a limited amount of labeled training data. A recent class of methods to address this problem uses various ways to construct a new training sample by mixing a pair (or more) of training samples. We propose PatchUp, a hidden state block-level regularization technique for Convolutional Neural Networks (CNNs), that is applied on selected contiguous blocks of feature maps from a random pair of samples. Our approach improves the robustness of CNN models against the manifold intrusion problem that may occur in other state-of-the-art mixing approaches like Mixup and CutMix. Moreover, since we are mixing the contiguous block of features in the hidden space, which has more dimensions than the input space, we obtain more diverse samples for training towards different dimensions. Our experiments on CIFAR-10, CIFAR-100, and SVHN datasets with PreactResnet18, PreactResnet34, and WideResnet-28-10 models show that PatchUp improves upon, or equals, the performance of current state-of-the-art regularizers for CNNs. We also show that PatchUp can provide better generalization to affine transformations of samples and is more robust against adversarial attacks.
翻訳日:2022-11-21 09:51:22 公開日:2020-06-14
# 騒音実演による強化学習

Reinforcement Learning with Supervision from Noisy Demonstrations ( http://arxiv.org/abs/2006.07808v1 )

ライセンス: Link先を確認
Kun-Peng Ning and Sheng-Jun Huang(参考訳) 強化学習は様々な分野で大きな成功を収めた。 エージェントの効果的なポリシーを学ぶには、通常、計算コストと時間のかかる環境と相互作用することで大量のデータを必要とする。 この課題を克服するために、専門家デモから監督を活用すべく、RLED(Reinforcement Learning with Expert Demonstrations)と呼ばれるフレームワークが提案された。 RLED法は学習の繰り返し回数を減らすことができるが、彼らは通常デモが完璧であると仮定し、実際のアプリケーションにおけるノイズの多いデモによって深刻な誤解を招く可能性がある。 本稿では,環境と協調して対話し,専門家による実証を活用し,政策を適応的に学習する新しい枠組みを提案する。 具体的には, 実演軌道の各ステップにおいて, インスタンスを作成し, 期待報酬を最大化し, エージェントの行動と実演の差異を最小化する共同損失関数を定義する。 最も重要なことは、期待される値関数のゲインを計算することで、各インスタンスにその潜在的なユーティリティを見積もるために重みを割り当て、ノイズの多いものをフィルタしながらより有用なデモを強調することができる。 複数の強化学習アルゴリズムを用いた様々な環境における実験結果から,提案手法は雑音の少ない実演で頑健に学習でき,少ないイテレーションで高い性能が得られることがわかった。

Reinforcement learning has achieved great success in various applications. To learn an effective policy for the agent, it usually requires a huge amount of data by interacting with the environment, which could be computational costly and time consuming. To overcome this challenge, the framework called Reinforcement Learning with Expert Demonstrations (RLED) was proposed to exploit the supervision from expert demonstrations. Although the RLED methods can reduce the number of learning iterations, they usually assume the demonstrations are perfect, and thus may be seriously misled by the noisy demonstrations in real applications. In this paper, we propose a novel framework to adaptively learn the policy by jointly interacting with the environment and exploiting the expert demonstrations. Specifically, for each step of the demonstration trajectory, we form an instance, and define a joint loss function to simultaneously maximize the expected reward and minimize the difference between agent behaviors and demonstrations. Most importantly, by calculating the expected gain of the value function, we assign each instance with a weight to estimate its potential utility, and thus can emphasize the more helpful demonstrations while filter out noisy ones. Experimental results in various environments with multiple popular reinforcement learning algorithms show that the proposed approach can learn robustly with noisy demonstrations, and achieve higher performance in fewer iterations.
翻訳日:2022-11-21 09:50:12 公開日:2020-06-14
# 深部正規化のための近位写像

Proximal Mapping for Deep Regularization ( http://arxiv.org/abs/2006.07822v1 )

ライセンス: Link先を確認
Mao Li, Yingyi Ma, Xinhua Zhang(参考訳) ディープラーニングの成功を支えているのは、さまざまな事前データをモデル化できる効果的な正規化である。 例えば、対向摂動に対する堅牢性、および多重モード間の相関である。 しかし、ほとんどの正規化器は、最適化変数ではない隠された層出力で指定されている。 モデル重みによって間接的に最適化する一般的な手法とは対照的に,本研究では,よく正規化された隠蔽層出力を直接的かつ明示的に生成するディープネットワークに,近位写像を新しい層として挿入することを提案する。 得られた技術はカーネルのワープとドロップアウトによく結びついており、堅牢な時間学習とマルチビューモデリングのための新しいアルゴリズムが開発された。

Underpinning the success of deep learning is effective regularizations that allow a variety of priors in data to be modeled. For example, robustness to adversarial perturbations, and correlations between multiple modalities. However, most regularizers are specified in terms of hidden layer outputs, which are not themselves optimization variables. In contrast to prevalent methods that optimize them indirectly through model weights, we propose inserting proximal mapping as a new layer to the deep network, which directly and explicitly produces well regularized hidden layer outputs. The resulting technique is shown well connected to kernel warping and dropout, and novel algorithms were developed for robust temporal learning and multiview modeling, both outperforming state-of-the-art methods.
翻訳日:2022-11-21 09:49:49 公開日:2020-06-14
# 統合的臨床・ゲノムデータに基づく多クラス疾患予測

Multiclass Disease Predictions Based on Integrated Clinical and Genomics Datasets ( http://arxiv.org/abs/2006.07879v1 )

ライセンス: Link先を確認
Moeez M. Subhani, Ashiq Anjum(参考訳) バイオインフォマティクスでは, 臨床データを用いた臨床予測が一般的である。 しかし、ゲノムデータセットからの情報を用いた臨床予測は、研究で頻繁に見られる現象ではない。 精密医療研究は、インテリジェントな臨床ソリューションを提供するために、利用可能なすべてのデータセットの情報を必要とする。 本稿では,臨床データとゲノミクスデータの両方からの情報を用いた予測モデルの構築を試みた。 機械学習を用いて臨床とゲノムの複合データセットに基づく多クラス疾患予測を実証した。 臨床(clinvar)とゲノミクス(gene expression)データセットを用いて統合データセットを作成し,インスタンスベース学習者を用いて臨床疾患を予測する訓練を行った。 出力クラス数が75であるマルチクラス分類には,革新的だがシンプルな方法が採用されている。 特徴選択には主成分分析を用いた。 分類器は、統合データセット上で73\%の精度で疾患を予測した。 結果は他の分類モデルと比較すると一貫性があり有能であった。 その結果,ゲノミクス情報は臨床予測のためのデータセットに確実に含まれ,臨床診断や精密医療に有用であることが判明した。

Clinical predictions using clinical data by computational methods are common in bioinformatics. However, clinical predictions using information from genomics datasets as well is not a frequently observed phenomenon in research. Precision medicine research requires information from all available datasets to provide intelligent clinical solutions. In this paper, we have attempted to create a prediction model which uses information from both clinical and genomics datasets. We have demonstrated multiclass disease predictions based on combined clinical and genomics datasets using machine learning methods. We have created an integrated dataset, using a clinical (ClinVar) and a genomics (gene expression) dataset, and trained it using instance-based learner to predict clinical diseases. We have used an innovative but simple way for multiclass classification, where the number of output classes is as high as 75. We have used Principal Component Analysis for feature selection. The classifier predicted diseases with 73\% accuracy on the integrated dataset. The results were consistent and competent when compared with other classification models. The results show that genomics information can be reliably included in datasets for clinical predictions and it can prove to be valuable in clinical diagnostics and precision medicine.
翻訳日:2022-11-21 09:42:20 公開日:2020-06-14
# マルチビュー低ランク保存埋め込み:マルチビュー表現のための新しい方法

Multi-view Low-rank Preserving Embedding: A Novel Method for Multi-view Representation ( http://arxiv.org/abs/2006.10520v1 )

ライセンス: Link先を確認
Xiangzhu Meng, Lin Feng, Huibing Wang(参考訳) 近年,多視点データの学習表現問題に係わる多視点表現学習への関心が高まっている。 高度に関連しているが、相互に異なる複数のビューに直面した場合、既存のマルチビューメソッドのほとんどは、マルチビュー情報を完全に統合できない可能性がある。 さらに、複数のビューの特徴間の相関は常に大きく異なり、多視点表現は困難である。 したがって、マルチビュー情報から適切な埋め込みを学習する方法は、まだ未解決の課題である。 そこで本研究では,Multi-view Low-rank Preserving Embedding (MvLPE) という新しいマルチビュー学習手法を提案する。 遠近点ビューと各ビューの間には、遠近点ビューと各ビュー間の低階再構成関係を維持しつつ、各ビュー間の距離や類似度行列に基づく不一致項を最小化することにより、1つの遠近点ビューに異なるビューを統合する。 付加パラメータを持つ既存手法とは異なり,提案手法は多視点情報融合において各ビューに適した重みを自動的に割り当てる。 しかし、MvLPEは直接解けず、提案したMvLPEは解析解を得るのが困難である。 この目的のために, 定常仮説と正規化後処理に基づいてこの解を近似し, 最適解を効率的に得る。 さらに、この多視点表現問題を解決するために反復交互戦略を提供する。 6つのベンチマークデータセットの実験では、提案手法が競合する手法よりも優れており、非常に競争力のある性能を実現している。

In recent years, we have witnessed a surge of interest in multi-view representation learning, which is concerned with the problem of learning representations of multi-view data. When facing multiple views that are highly related but sightly different from each other, most of existing multi-view methods might fail to fully integrate multi-view information. Besides, correlations between features from multiple views always vary seriously, which makes multi-view representation challenging. Therefore, how to learn appropriate embedding from multi-view information is still an open problem but challenging. To handle this issue, this paper proposes a novel multi-view learning method, named Multi-view Low-rank Preserving Embedding (MvLPE). It integrates different views into one centroid view by minimizing the disagreement term, based on distance or similarity matrix among instances, between the centroid view and each view meanwhile maintaining low-rank reconstruction relations among samples for each view, which could make more full use of compatible and complementary information from multi-view features. Unlike existing methods with additive parameters, the proposed method could automatically allocate a suitable weight for each view in multi-view information fusion. However, MvLPE couldn't be directly solved, which makes the proposed MvLPE difficult to obtain an analytic solution. To this end, we approximate this solution based on stationary hypothesis and normalization post-processing to efficiently obtain the optimal solution. Furthermore, an iterative alternating strategy is provided to solve this multi-view representation problem. The experiments on six benchmark datasets demonstrate that the proposed method outperforms its counterparts while achieving very competitive performance.
翻訳日:2022-11-21 09:41:38 公開日:2020-06-14
# ReLGAN:分散制約付きGANの一貫性の一般化と多重変換学習のための生成過程の相対学習

ReLGAN: Generalization of Consistency for GAN with Disjoint Constraints and Relative Learning of Generative Processes for Multiple Transformation Learning ( http://arxiv.org/abs/2006.07809v1 )

ライセンス: Link先を確認
Chiranjib Sur(参考訳) 画像から画像への変換は、医学を含む様々な応用に多大な影響を与えるため、さまざまな研究コミュニティから人気を集めている。 本研究では,GANアーキテクチャの整合性のための一般化されたスキームを導入し,画像変換を改良するための2つの新しい概念である変換学習(TL)と相対学習(ReL)を紹介した。 GANアーキテクチャの一貫性は、不適切な制約に悩まされ、多くの医療アプリケーションでは避けられない複数のモーダル変換を学習できなかった。 主な欠点は、細部に集中する医療アプリケーションでは許容できない、中間的で作業可能なハイブリッドを作ることに重点を置いていることだ。 もうひとつの欠点は、2つの学習フェーズ間の弱い相互関係であり、TLとReLはそれらの調整を改善した。 我々は、パブリックデータセット上の新しいネットワークフレームワークの能力を実証した。 私たちは、新しいアーキテクチャが画像のニューラルイメージ変換バージョンを改良し、医療コミュニティに受け入れられるようにしたことを強調した。 実験と実験により,前作と比較して強化したフレームワークの有効性が示された。

Image to image transformation has gained popularity from different research communities due to its enormous impact on different applications, including medical. In this work, we have introduced a generalized scheme for consistency for GAN architectures with two new concepts of Transformation Learning (TL) and Relative Learning (ReL) for enhanced learning image transformations. Consistency for GAN architectures suffered from inadequate constraints and failed to learn multiple and multi-modal transformations, which is inevitable for many medical applications. The main drawback is that it focused on creating an intermediate and workable hybrid, which is not permissible for the medical applications which focus on minute details. Another drawback is the weak interrelation between the two learning phases and TL and ReL have introduced improved coordination among them. We have demonstrated the capability of the novel network framework on public datasets. We emphasized that our novel architecture produced an improved neural image transformation version for the image, which is more acceptable to the medical community. Experiments and results demonstrated the effectiveness of our framework with enhancement compared to the previous works.
翻訳日:2022-11-21 09:41:09 公開日:2020-06-14
# 群知性に基づく風力発電機のファジィ制御の最適化

Optimization of Fuzzy Controller of a Wind Power Plant Based on the Swarm Intelligence ( http://arxiv.org/abs/2006.10523v1 )

ライセンス: Link先を確認
Vadim Manusov, Pavel Matrenin(参考訳) 本稿では,ファジィ制御とファジィルールベース生成の自動化に基づく風力発電プラントの最適制御の問題について考察する。 専門家によるファジィルールは、常に風力発電所の最大出力を提供しておらず、ファジィルールベースは、風力発電所や環境のパラメータを変更する際に調整を必要とする。 本研究では,様々な専門家が作成したファジィルールベースを最適化する手法を提案する。 この手法は粒子群最適化アルゴリズムによりファジィルールの重みをベースにバランスさせることに基づいている。 提案手法は, ファジィルールの非最適化セットから, ファジィルールベースを模範的最適ベースとして形成することができることを示した。 風力プラントのコンクリート制御ループと風力のコンクリートファジィモデルについて, 最適ファジィ則ベースを考慮に入れた。

The article considers the problem of the optimal control of a wind power plant based on fuzzy control and automation of generating the fuzzy rule base. Fuzzy rules by experts do not always provide a maximum power output of the wind plant and fuzzy rule bases require an adjustment in the case of changing the parameters of the wind power plant or the environment. This research proposes the method for optimizing the fuzzy rules base compiled by various experts. The method is based on balancing weights of fuzzy rules into the base by the Particle Swarm Optimization algorithm. The experiment has shown that the proposed method allows forming the fuzzy rule base as an exemplary optimal base from a non-optimized set of fuzzy rules. The optimal fuzzy rule base has been taken under consideration for the concrete control loop of wind power plant and the concrete fuzzy model of the wind.
翻訳日:2022-11-21 09:40:51 公開日:2020-06-14
# FFR v1.1: Fon-French Neural Machine Translation

FFR v1.1: Fon-French Neural Machine Translation ( http://arxiv.org/abs/2006.09217v1 )

ライセンス: Link先を確認
Bonaventure F. P. Dossou and Chris C. Emezue(参考訳) 世界中で、特にアフリカで、研究者は2000以上の異なる言語の大陸であるアフリカにおける言語障壁に取り組むために、ニューラルネットワーク翻訳(nmt)システムの構築に力を入れている。 しかし、アフリカの言語の低資源性、ダイアクリティカル性、声調の複雑さは大きな問題となっている。 FFRプロジェクトは、非常に低リソースでトーナルな言語であるFonから、研究と公共利用のためにフランス語への堅牢な翻訳モデルを作成するための大きなステップである。 本稿では、Fon-to- French翻訳のコーパスであるFFRデータセットを紹介し、ダイアクリティカルエンコーディングプロセスを説明し、データセットに基づいてトレーニングされたFFR v1.1モデルを紹介します。 データセットとモデルはhttps://github.com/ bonaventuredossou/ffr-v1で公開されている。

All over the world and especially in Africa, researchers are putting efforts into building Neural Machine Translation (NMT) systems to help tackle the language barriers in Africa, a continent of over 2000 different languages. However, the low-resourceness, diacritical, and tonal complexities of African languages are major issues being faced. The FFR project is a major step towards creating a robust translation model from Fon, a very low-resource and tonal language, to French, for research and public use. In this paper, we introduce FFR Dataset, a corpus of Fon-to-French translations, describe the diacritical encoding process, and introduce our FFR v1.1 model, trained on the dataset. The dataset and model are made publicly available at https://github.com/ bonaventuredossou/ffr-v1, to promote collaboration and reproducibility.
翻訳日:2022-11-21 09:40:36 公開日:2020-06-14