このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201019となっている論文です。

PDF登録状況(公開日: 20201019)

TitleAuthorsAbstract論文公表日・翻訳日
# データ分割なしでカーネルテストを学ぶ

Learning Kernel Tests Without Data Splitting ( http://arxiv.org/abs/2006.02286v3 )

ライセンス: Link先を確認
Jonas M. K\"ubler, Wittawat Jitkrittum, Bernhard Sch\"olkopf, Krikamol Muandet(参考訳) maximum mean discrepancy(mmd)やkernelized stein discrepancy(ksd)のような、現代の大規模カーネルベーステストは、データの分割を通じて保留サンプル上のカーネルハイパーパラメータを最適化し、最も強力なテスト統計を得る。 データ分割は、トラクタブルなヌル分布をもたらすが、テストサンプルサイズが小さいため、テストパワーの低下に悩まされる。 選択的推論フレームワークに着想を得て,データ分割なしにハイパーパラメータを学習し,全サンプルでテストできるアプローチを提案する。 このアプローチは、このような依存性が存在する場合にテストを正確に校正することができ、クローズドな形式でテストしきい値が得られる。 同じ重要性のレベルでは、我々のアプローチのテスト能力は、その分割割合に関係なく、データ分割アプローチよりも経験的に大きい。

Modern large-scale kernel-based tests such as maximum mean discrepancy (MMD) and kernelized Stein discrepancy (KSD) optimize kernel hyperparameters on a held-out sample via data splitting to obtain the most powerful test statistics. While data splitting results in a tractable null distribution, it suffers from a reduction in test power due to smaller test sample size. Inspired by the selective inference framework, we propose an approach that enables learning the hyperparameters and testing on the full sample without data splitting. Our approach can correctly calibrate the test in the presence of such dependency, and yield a test threshold in closed form. At the same significance level, our approach's test power is empirically larger than that of the data-splitting approach, regardless of its split proportion.
翻訳日:2022-11-25 17:28:09 公開日:2020-10-19
# 低ランク一般化線形帯域問題

Low-Rank Generalized Linear Bandit Problems ( http://arxiv.org/abs/2006.02948v2 )

ライセンス: Link先を確認
Yangyi Lu, Amirhossein Meisami, Ambuj Tewari(参考訳) 低ランク線形バンディット問題において、作用の報酬(d_1 \times d_2$ の大きさの行列で表される)は作用と未知の低ランク行列 $\theta^*$ との間の内積である。 そこで本研究では,オンラインからセットへの変換〜\citep{abbasi2012online}と指数重み付け平均予測器を組み合わせたアルゴリズムを提案する。 t$ ラウンドにおいて、このアルゴリズムは$\theta^*$: $r \ll \min\{d_1,d_2\}$のときに$\widetilde{o}((d_1+d_2)^{3/2}\sqrt{rt})$を成し、標準的な線形バンドイットの後悔を$\widetilde{o}(d_1d_2\sqrt{t})$とする。 また,本手法を一般化線形設定に拡張し,リンク関数上の正規性条件下で同様の境界を享受するアルゴリズムを得る。 カバーベースアプローチの計算の難解性を回避するために,~\citet{jun2019bilinear}の"explore-subspace-then-refine"アルゴリズムを拡張し,効率的なアルゴリズムを提案する。 我々の効率的なアルゴリズムは、アクションセット$\mathcal{X}$と$\Theta^*$の$r$-th特異値に対する穏やかな条件下で、$\widetilde{O}((d_1+d_2)^{3/2}\sqrt{rT})$ regretを達成する。 我々の上界は、低ランク線型バンディット問題のサブクラスに対する \cite{jun2019bilinear} の予想下界と一致する。 さらに,スパース線形バンディット問題に対する既存の下限は,我々の後悔の限界が改善不可能であることを強く示唆する。 また,理論的な貢献を補完するために,$\Theta^*$が低ランクである場合に,我々のアルゴリズムが標準線形帯域法の性能を大幅に上回ることを示す実験を行った。

In a low-rank linear bandit problem, the reward of an action (represented by a matrix of size $d_1 \times d_2$) is the inner product between the action and an unknown low-rank matrix $\Theta^*$. We propose an algorithm based on a novel combination of online-to-confidence-set conversion~\citep{abbasi2012online} and the exponentially weighted average forecaster constructed by a covering of low-rank matrices. In $T$ rounds, our algorithm achieves $\widetilde{O}((d_1+d_2)^{3/2}\sqrt{rT})$ regret that improves upon the standard linear bandit regret bound of $\widetilde{O}(d_1d_2\sqrt{T})$ when the rank of $\Theta^*$: $r \ll \min\{d_1,d_2\}$. We also extend our algorithmic approach to the generalized linear setting to get an algorithm which enjoys a similar bound under regularity conditions on the link function. To get around the computational intractability of covering based approaches, we propose an efficient algorithm by extending the "Explore-Subspace-Then-Refine" algorithm of~\citet{jun2019bilinear}. Our efficient algorithm achieves $\widetilde{O}((d_1+d_2)^{3/2}\sqrt{rT})$ regret under a mild condition on the action set $\mathcal{X}$ and the $r$-th singular value of $\Theta^*$. Our upper bounds match the conjectured lower bound of \cite{jun2019bilinear} for a subclass of low-rank linear bandit problems. Further, we show that existing lower bounds for the sparse linear bandit problem strongly suggest that our regret bounds are unimprovable. To complement our theoretical contributions, we also conduct experiments to demonstrate that our algorithm can greatly outperform the performance of the standard linear bandit approach when $\Theta^*$ is low-rank.
翻訳日:2022-11-25 09:24:13 公開日:2020-10-19
# 機械学習研究における産業関与の倫理的考察と統計的分析

Ethical Considerations and Statistical Analysis of Industry Involvement in Machine Learning Research ( http://arxiv.org/abs/2006.04541v2 )

ライセンス: Link先を確認
Thilo Hagendorff, Kristof Meding(参考訳) 機械学習(ML)コミュニティへの業界関与が増加しているようだ。 しかし、この影響の量的スケールと倫理的影響は、かなり不明である。 この目的のために、我々は、この分野に関する情報的倫理分析を行ったばかりでなく、過去5年間の主要なMLカンファレンスであるNeurIPS、CVPR、ICMLの全論文を調査した。 私たちの統計的アプローチは、関心の対立、イノベーション、男女平等に焦点を当てています。 1)アカデミック・コーポレート・コラボレーションの数は増加している。 同時に、関心の対立は滅多に開示されないことがわかった。 2) 産業界は,学界よりも平均2年早く,MLトピックスの動向に関する論文を公表している。 3) 産業論文は,社会的影響を考慮した学術論文よりも遅れていない。 (4) 最後に, 産業論文が男女の多様性の比率に関して, 学術論文に劣っていることを実証する。 この作業は、MLコミュニティ内外の情報的な議論の出発点であると考えています。

Industry involvement in the machine learning (ML) community seems to be increasing. However, the quantitative scale and ethical implications of this influence are rather unknown. For this purpose, we have not only carried out an informed ethical analysis of the field, but have inspected all papers of the main ML conferences NeurIPS, CVPR, and ICML of the last 5 years - almost 11,000 papers in total. Our statistical approach focuses on conflicts of interest, innovation and gender equality. We have obtained four main findings: (1) Academic-corporate collaborations are growing in numbers. At the same time, we found that conflicts of interest are rarely disclosed. (2) Industry publishes papers about trending ML topics on average two years earlier than academia does. (3) Industry papers are not lagging behind academic papers in regard to social impact considerations. (4) Finally, we demonstrate that industrial papers fall short of their academic counterparts with respect to the ratio of gender diversity. We believe that this work is a starting point for an informed debate within and outside of the ML community.
翻訳日:2022-11-24 02:36:40 公開日:2020-10-19
# FibeR-CNN:画像ベースファイバ解析を改善するマスクR-CNNの拡張

FibeR-CNN: Expanding Mask R-CNN to Improve Image-Based Fiber Analysis ( http://arxiv.org/abs/2006.04552v2 )

ライセンス: Link先を確認
Max Frei, Frank Einar Kruis(参考訳) 繊維状の材料(カーボンナノチューブなど)は、その特性だけでなく、健康上のリスクも大きいため、非常に関連性が高い。 残念なことに、ファイバーのイメージベース分析には手作業によるアノテーションがまだ必要です。 そこで本研究では,領域型畳み込みニューラルネットワーク(r-cnns)を用いたタスクの自動化を提案する。 セマンティックセグメンテーションタスクで最も広く使われているR-CNNであるMask R-CNNは、繊維状物体の解析においてエラーを起こしやすい。 そのため、FibeR-CNNと呼ばれる新しいアーキテクチャが導入され、検証される。 FibeR-CNNは、確立された2つのR-CNNアーキテクチャ(MaskとKeypoint R-CNN)を組み合わせて、ファイバー幅と長さを予測するための追加のネットワークヘッドを追加する。 その結果、FibeR-CNNは、新しいファイバー画像の試験データセットにおいて、Mask R-CNNの平均精度を33 %(11ポイント)超えることができる。

Fiber-shaped materials (e.g. carbon nano tubes) are of great relevance, due to their unique properties but also the health risk they can impose. Unfortunately, image-based analysis of fibers still involves manual annotation, which is a time-consuming and costly process. We therefore propose the use of region-based convolutional neural networks (R-CNNs) to automate this task. Mask R-CNN, the most widely used R-CNN for semantic segmentation tasks, is prone to errors when it comes to the analysis of fiber-shaped objects. Hence, a new architecture - FibeR-CNN - is introduced and validated. FibeR-CNN combines two established R-CNN architectures (Mask and Keypoint R-CNN) and adds additional network heads for the prediction of fiber widths and lengths. As a result, FibeR-CNN is able to surpass the mean average precision of Mask R-CNN by 33 % (11 percentage points) on a novel test data set of fiber images.
翻訳日:2022-11-24 02:00:32 公開日:2020-10-19
# 他の学習エージェントにインセンティブを与えるための学習

Learning to Incentivize Other Learning Agents ( http://arxiv.org/abs/2006.06051v2 )

ライセンス: Link先を確認
Jiachen Yang, Ang Li, Mehrdad Farajtabar, Peter Sunehag, Edward Hughes, Hongyuan Zha(参考訳) 近年,強力で汎用的な強化学習(RL)エージェントの開発が注目されている。 この取り組みの多くは、エージェントが事前定義されたextrinsic reward関数を最大化するシングルエージェント設定に焦点を当てている。 しかし、このような独立したエージェントは、共有マルチエージェント環境で継続的に学び、行動する場合、どのように協力するのか? 人間の行動に影響を及ぼすインセンティブをしばしば与えることから,我々は学習インセンティブ機能を用いて,各RLエージェントを他のエージェントに直接報酬を与える能力を持つマルチエージェント環境に装備することを提案する。 各エージェントは、受信者の学習に対する影響を明示的に説明し、それらを通して、自前の目的に影響を及ぼすことで、独自のインセンティブ機能を学ぶ。 実験では、このようなエージェントが一般的なマルコフゲームにおいて、しばしばほぼ最適の分業を見つけることによって、標準RLと対戦型エージェントを著しく上回っていることを示した。 私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。

The challenge of developing powerful and general Reinforcement Learning (RL) agents has received increasing attention in recent years. Much of this effort has focused on the single-agent setting, in which an agent maximizes a predefined extrinsic reward function. However, a long-term question inevitably arises: how will such independent agents cooperate when they are continually learning and acting in a shared multi-agent environment? Observing that humans often provide incentives to influence others' behavior, we propose to equip each RL agent in a multi-agent environment with the ability to give rewards directly to other agents, using a learned incentive function. Each agent learns its own incentive function by explicitly accounting for its impact on the learning of recipients and, through them, the impact on its own extrinsic objective. We demonstrate in experiments that such agents significantly outperform standard RL and opponent-shaping agents in challenging general-sum Markov games, often by finding a near-optimal division of labor. Our work points toward more opportunities and challenges along the path to ensure the common good in a multi-agent future.
翻訳日:2022-11-23 05:15:38 公開日:2020-10-19
# 1つのリングで全てのルールを定めます:アウトリーチによるロバストな幾何学的知覚

One Ring to Rule Them All: Certifiably Robust Geometric Perception with Outliers ( http://arxiv.org/abs/2006.06769v2 )

ライセンス: Link先を確認
Heng Yang, Luca Carlone(参考訳) 本稿では,多量の異常値が存在する場合にロバストな幾何知覚を行うための証明可能なアルゴリズムを設計するための,最初の汎用的かつ実用的な枠組みを提案する。 本稿では, 減算最小二乗(TLS)コスト関数の利用について検討するが, ハード, 非凸, 非平滑な最適化問題に繋がる。 我々の最初の貢献は、より広い種類の幾何学的知覚問題に対して、TLS推定は多項式環上の最適化として再計算でき、ラッサールの凸モーメント緩和の階層は最小緩和順序で経験的に厳密である(すなわち、非凸TLS問題の大域的最小値を得る)ことを示すことである。 第2の貢献は、目的多項式と制約多項式の構造的疎結合を利用して、その厳密さを損なうことなく、半定値プログラム(SDP)のサイズを大幅に削減することである。 第3の貢献は、サブオプティリティギャップを計算し、任意の候補解(例えば、ransac やgraditated non-convexity のような高速なヒューリスティックによって返される)のグローバル最適性を証明できる、sos(sums-of-squares)緩和のレンズからスケーラブルな2つの最適性証明器を開発することである。 我々の二重証明器はダグラス・ラフフォード分割を利用して凸実現可能性SDPを解く。 単一回転平均化,形状アライメント,3次元点雲とメッシュの登録,高積分衛星ポーズ推定などの異なる知覚問題に対する数値実験により,現在のSDP解法の範囲を超えて,我々の緩和の厳密さ,認証の正しさ,提案した二重証明器のスケーラビリティを大きな問題に適用できることを示した。

We propose the first general and practical framework to design certifiable algorithms for robust geometric perception in the presence of a large amount of outliers. We investigate the use of a truncated least squares (TLS) cost function, which is known to be robust to outliers, but leads to hard, nonconvex, and nonsmooth optimization problems. Our first contribution is to show that -for a broad class of geometric perception problems- TLS estimation can be reformulated as an optimization over the ring of polynomials and Lasserre's hierarchy of convex moment relaxations is empirically tight at the minimum relaxation order (i.e., certifiably obtains the global minimum of the nonconvex TLS problem). Our second contribution is to exploit the structural sparsity of the objective and constraint polynomials and leverage basis reduction to significantly reduce the size of the semidefinite program (SDP) resulting from the moment relaxation, without compromising its tightness. Our third contribution is to develop scalable dual optimality certifiers from the lens of sums-of-squares (SOS) relaxation, that can compute the suboptimality gap and possibly certify global optimality of any candidate solution (e.g., returned by fast heuristics such as RANSAC or graduated non-convexity). Our dual certifiers leverage Douglas-Rachford Splitting to solve a convex feasibility SDP. Numerical experiments across different perception problems, including single rotation averaging, shape alignment, 3D point cloud and mesh registration, and high-integrity satellite pose estimation, demonstrate the tightness of our relaxations, the correctness of the certification, and the scalability of the proposed dual certifiers to large problems, beyond the reach of current SDP solvers.
翻訳日:2022-11-22 14:43:24 公開日:2020-10-19
# 凸凸ミニマックス最適化のための改良アルゴリズム

Improved Algorithms for Convex-Concave Minimax Optimization ( http://arxiv.org/abs/2006.06359v2 )

ライセンス: Link先を確認
Yuanhao Wang and Jian Li(参考訳) ここでは、$f(x,y)$が$m_x$-strongly convexに対して$x$,$m_y$-strongly concaveに対して$y$と$(L_x,L_{xy},L_y)$-smoothに対して$f(x,y)$が$m_x$-strongly convexとなる。 Zhang et al. は、任意の一階法の勾配複雑性の以下の下界を与えた: $\Omega\Bigl(\sqrt {\frac{L_x}{m_x}+\frac{L_{xy}^2}{m_x m_y}+\frac{L_y}{m_y}}\ln(1/\epsilon)\Bigr。 この論文は、勾配複雑性の上限値$\tilde{o}\bigl(\sqrt{\frac{l_x}{m_x}+\frac{l\cdot l_{xy}}{m_x m_y}+\frac{l_y}{m_y}}\ln\left(1/\epsilon\right)\bigr)$l=\max\{l_x,l_{xy},l_y\}$を持つ新しいアルゴリズムを提案する。 これはLin et al による最もよく知られた上界 $\tilde{O}\left(\sqrt {\frac{L^2}{m_x m_y}} \ln^3\left(1/\epsilon\right)\right)$よりも改善される。 我々の境界は、特に$L_{xy}\ll L$(例えば$x$と$y$の間の相互作用が弱いとき)の条件数に対する線形収束率とより厳密な依存を達成する。 縮小により、新しい境界は、強い凸凸および凸凸ミニマックス最適化問題に対する境界の改善も含意する。 f$ が二次であるとき、より上界を改善することができ、これは下界を小さな部分多項式因子に一致する。

This paper studies minimax optimization problems $\min_x \max_y f(x,y)$, where $f(x,y)$ is $m_x$-strongly convex with respect to $x$, $m_y$-strongly concave with respect to $y$ and $(L_x,L_{xy},L_y)$-smooth. Zhang et al. provided the following lower bound of the gradient complexity for any first-order method: $\Omega\Bigl(\sqrt{\frac{L_x}{m_x}+\frac{L_{xy}^2}{m_x m_y}+\frac{L_y}{m_y}}\ln(1/\epsilon)\Bigr).$ This paper proposes a new algorithm with gradient complexity upper bound $\tilde{O}\Bigl(\sqrt{\frac{L_x}{m_x}+\frac{L\cdot L_{xy}}{m_x m_y}+\frac{L_y}{m_y}}\ln\left(1/\epsilon\right)\Bigr),$ where $L=\max\{L_x,L_{xy},L_y\}$. This improves over the best known upper bound $\tilde{O}\left(\sqrt{\frac{L^2}{m_x m_y}} \ln^3\left(1/\epsilon\right)\right)$ by Lin et al. Our bound achieves linear convergence rate and tighter dependency on condition numbers, especially when $L_{xy}\ll L$ (i.e., when the interaction between $x$ and $y$ is weak). Via reduction, our new bound also implies improved bounds for strongly convex-concave and convex-concave minimax optimization problems. When $f$ is quadratic, we can further improve the upper bound, which matches the lower bound up to a small sub-polynomial factor.
翻訳日:2022-11-22 09:52:43 公開日:2020-10-19
# deepfake検出タスクにおける前処理と予測集約の影響の検討

Investigating the Impact of Pre-processing and Prediction Aggregation on the DeepFake Detection Task ( http://arxiv.org/abs/2006.07084v3 )

ライセンス: Link先を確認
Polychronis Charitidis, Giorgos Kordopatis-Zilos, Symeon Papadopoulos, Ioannis Kompatsiaris(参考訳) 近年のコンテンツ生成技術(広くはDeepFakesと呼ばれている)の進歩とメディアコンテンツのオンライン拡散により、このような操作の検出が重要になる。 多くのDeepFake検出方法があるが、データセット前処理の影響と、フレームレベルからビデオレベルへの集約がモデルパフォーマンスに与える影響に焦点が当てられている。 本稿では,トレーニングデータの品質向上のための前処理ステップを提案し,DeepFake検出の性能への影響について検討する。 また,ビデオレベルの予測集約手法の効果を提案,評価する。 実験結果から,提案手法により検出モデルの性能が大幅に向上し,ビデオ内に複数の顔が存在する場合の検出効率がさらに向上することが示唆された。

Recent advances in content generation technologies (widely known as DeepFakes) along with the online proliferation of manipulated media content render the detection of such manipulations a task of increasing importance. Even though there are many DeepFake detection methods, only a few focus on the impact of dataset preprocessing and the aggregation of frame-level to video-level prediction on model performance. In this paper, we propose a pre-processing step to improve the training data quality and examine its effect on the performance of DeepFake detection. We also propose and evaluate the effect of video-level prediction aggregation approaches. Experimental results show that the proposed pre-processing approach leads to considerable improvements in the performance of detection models, and the proposed prediction aggregation scheme further boosts the detection efficiency in cases where there are multiple faces in a video.
翻訳日:2022-11-22 03:59:10 公開日:2020-10-19
# 雑音に類似した変分ベイズ的モンテカルロ

Variational Bayesian Monte Carlo with Noisy Likelihoods ( http://arxiv.org/abs/2006.08655v3 )

ライセンス: Link先を確認
Luigi Acerbi(参考訳) 変分ベイズ的モンテカルロ(VBMC)は、最近導入されたフレームワークであり、黒箱非チープ確率のモデルにおいて、ガウス的プロセスサロゲートを用いて近似ベイズ的推論を行う。 本研究では,VBMCを拡張して,シミュレーションモデルから生じるような,ノイズの多いログライクな評価を行う。 本稿では,ノイズに頑健で,VBMC設定内で効率よく評価可能な,期待情報ゲイン(EIG)や変動間距離(VIQR)などの新たな「グローバル」取得機能を紹介する。 計算および認知神経科学からの実データを持つ様々なモデルからなる、新しい、挑戦的で騒がしい参照ベンチマークにおいて、vbmc+viqrは、基底後部とモデル証拠の回復において最先端のパフォーマンスを達成する。 特に,本手法は,アルゴリズムのコストを小さく抑えながら,ローカルな'取得関数や他の代理ベースの推論手法を大幅に上回る。 本ベンチマークでは,ノイズモデルを用いたサンプル効率のよいブラックボックスベイズ推定のための汎用手法としてvbmcを裏付ける。

Variational Bayesian Monte Carlo (VBMC) is a recently introduced framework that uses Gaussian process surrogates to perform approximate Bayesian inference in models with black-box, non-cheap likelihoods. In this work, we extend VBMC to deal with noisy log-likelihood evaluations, such as those arising from simulation-based models. We introduce new `global' acquisition functions, such as expected information gain (EIG) and variational interquantile range (VIQR), which are robust to noise and can be efficiently evaluated within the VBMC setting. In a novel, challenging, noisy-inference benchmark comprising of a variety of models with real datasets from computational and cognitive neuroscience, VBMC+VIQR achieves state-of-the-art performance in recovering the ground-truth posteriors and model evidence. In particular, our method vastly outperforms `local' acquisition functions and other surrogate-based inference methods while keeping a small algorithmic cost. Our benchmark corroborates VBMC as a general-purpose technique for sample-efficient black-box Bayesian inference also with noisy models.
翻訳日:2022-11-21 04:19:31 公開日:2020-10-19
# パラメトリック偏微分方程式に対する多極グラフニューラルネットワーク

Multipole Graph Neural Operator for Parametric Partial Differential Equations ( http://arxiv.org/abs/2006.09535v2 )

ライセンス: Link先を確認
Zongyi Li, Nikola Kovachki, Kamyar Azizzadenesheli, Burigede Liu, Kaushik Bhattacharya, Andrew Stuart, Anima Anandkumar(参考訳) 深層学習に基づく物理システムのシミュレーションと偏微分方程式(pdes)の解法の主な課題の1つは、物理学に基づくデータをニューラルネットワークの所望の構造に定式化することである。 グラフニューラルネットワーク(GNN)は、グラフが粒子相互作用をモデル化し、連続体モデルを識別する自然な方法を提供するため、この分野で人気を集めている。 しかし、そのようなタスクを近似するために構築されたグラフは、通常、ノード数に関して計算複雑性が不利なスケーリングのために長距離相互作用を無視する。 これらの近似による誤差はシステムの離散化とともにスケールし、メッシュリファインメントの下での一般化ができない。 古典的マルチポール法に着想を得て,線形複雑度のみを用いて,あらゆる領域の相互作用を捉える,新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。 マルチレベルな定式化は、カーネルマトリックスに帰納的誘導点を付加することと同値であり、gnnをカーネルのマルチレゾリューション行列分解と統合する。 マルチグラフネットワークはpdesに離散化不変な解演算子を学習し,線形時間で評価できる。

One of the main challenges in using deep learning-based methods for simulating physical systems and solving partial differential equations (PDEs) is formulating physics-based data in the desired structure for neural networks. Graph neural networks (GNNs) have gained popularity in this area since graphs offer a natural way of modeling particle interactions and provide a clear way of discretizing the continuum models. However, the graphs constructed for approximating such tasks usually ignore long-range interactions due to unfavorable scaling of the computational complexity with respect to the number of nodes. The errors due to these approximations scale with the discretization of the system, thereby not allowing for generalization under mesh-refinement. Inspired by the classical multipole methods, we propose a novel multi-level graph neural network framework that captures interaction at all ranges with only linear complexity. Our multi-level formulation is equivalent to recursively adding inducing points to the kernel matrix, unifying GNNs with multi-resolution matrix factorization of the kernel. Experiments confirm our multi-graph network learns discretization-invariant solution operators to PDEs and can be evaluated in linear time.
翻訳日:2022-11-20 20:30:35 公開日:2020-10-19
# ChestX-Det10:胸部異常検出のための胸部X線データセット

ChestX-Det10: Chest X-ray Dataset on Detection of Thoracic Abnormalities ( http://arxiv.org/abs/2006.10550v3 )

ライセンス: Link先を確認
Jingyu Liu, Jie Lian, Yizhou Yu(参考訳) 胸部x線画像の自動診断には胸部疾患や異常のインスタンスレベル検出が不可欠である。 胸部X線に関するほとんどの研究は、疾患の分類と弱教師付き局在に焦点を当てている。 胸部x線における疾患の分類と局在に関する研究を進める。 chestx-det10と呼ばれる新しいベンチマークを提供し、病気/異常の10のカテゴリのボックスレベルのアノテーションを3500ドルの$sim$のイメージで提供する。 アノテーションはhttps://github.com/Deepwise-AILab/ChestX-Det10-Datasetにある。

Instance level detection of thoracic diseases or abnormalities are crucial for automatic diagnosis in chest X-ray images. Most existing works on chest X-rays focus on disease classification and weakly supervised localization. In order to push forward the research on disease classification and localization on chest X-rays. We provide a new benchmark called ChestX-Det10, including box-level annotations of 10 categories of disease/abnormality of $\sim$ 3,500 images. The annotations are located at https://github.com/Deepwise-AILab/ChestX-Det10-Dataset.
翻訳日:2022-11-19 21:20:10 公開日:2020-10-19
# 動的モデルのためのニューラルバリア証明書の自動および形式的合成

Automated and Formal Synthesis of Neural Barrier Certificates for Dynamical Models ( http://arxiv.org/abs/2007.03251v2 )

ライセンス: Link先を確認
Andrea Peruffo, Daniele Ahmed, Alessandro Abate(参考訳) 連続およびハイブリッド力学モデルの安全性検証のために, 自動的, 形式的, 反例ベースでバリア証明書(bc)を合成する手法を提案する。 この手法は、ニューラルネットワークとして構造化されたBCの候補を操作する学習者と、その候補の有効性を証明するか、さらに学習者を導くために反例を生成する音響検証者との間で、逐次ループとして構成される。 結果、より小さなデータセット(最大3桁以下)を必要とする一方で、特に検証エンジンの大幅な高速化(最大5桁以下)によって、音のbcsを最大2桁速く合成できることが示されています。 技術状況の改善以外にも、ハイブリッドな動的モデルと大規模モデルの新たなアプローチに挑戦し、我々のアルゴリズムとコードベースの数値的堅牢性を示す。

We introduce an automated, formal, counterexample-based approach to synthesise Barrier Certificates (BC) for the safety verification of continuous and hybrid dynamical models. The approach is underpinned by an inductive framework: this is structured as a sequential loop between a learner, which manipulates a candidate BC structured as a neural network, and a sound verifier, which either certifies the candidate's validity or generates counter-examples to further guide the learner. We compare the approach against state-of-the-art techniques, over polynomial and non-polynomial dynamical models: the outcomes show that we can synthesise sound BCs up to two orders of magnitude faster, with in particular a stark speedup on the verification engine (up to five orders less), whilst needing a far smaller data set (up to three orders less) for the learning part. Beyond improvements over the state of the art, we further challenge the new approach on a hybrid dynamical model and on larger-dimensional models, and showcase the numerical robustness of our algorithms and codebase.
翻訳日:2022-11-12 20:44:33 公開日:2020-10-19
# 帰納的分散強化学習

Implicit Distributional Reinforcement Learning ( http://arxiv.org/abs/2007.06159v2 )

ライセンス: Link先を確認
Yuguang Yue, Zhendong Wang, Mingyuan Zhou(参考訳) そこで我々は,2つのディープジェネレータネットワーク(DGN)上に構築された分布評論家と,フレキシブルなポリシ分布を利用した半単純アクタ(SIA)からなる暗黙的な分布型アクタ批判(IDAC)を提案する。 我々は、割引累積リターンの分布的視点を採用し、状態-作用対とランダムノイズを入力とするDGNによって近似された状態-作用依存型暗黙分布をモデル化する。 さらに,SIAを用いて,政策パラメータと解析密度関数に制約されない再パラメータ化可能な分布とを混合した半単純ポリシ分布を提供する。 このように、ポリシーの限界分布は暗黙的であり、共分散構造や歪性のような複雑な性質をモデル化する可能性を提供するが、そのパラメータとエントロピーは依然として推定できる。 これらの特徴を非政治的なアルゴリズムフレームワークに組み込んで、連続的なアクション空間の問題を解決するとともに、代表的OpenAI Gym環境におけるIDACと最先端のアルゴリズムを比較する。 idacは、ほとんどのタスクでこれらのベースラインよりも優れています。 pythonコードが提供される。

To improve the sample efficiency of policy-gradient based reinforcement learning algorithms, we propose implicit distributional actor-critic (IDAC) that consists of a distributional critic, built on two deep generator networks (DGNs), and a semi-implicit actor (SIA), powered by a flexible policy distribution. We adopt a distributional perspective on the discounted cumulative return and model it with a state-action-dependent implicit distribution, which is approximated by the DGNs that take state-action pairs and random noises as their input. Moreover, we use the SIA to provide a semi-implicit policy distribution, which mixes the policy parameters with a reparameterizable distribution that is not constrained by an analytic density function. In this way, the policy's marginal distribution is implicit, providing the potential to model complex properties such as covariance structure and skewness, but its parameter and entropy can still be estimated. We incorporate these features with an off-policy algorithm framework to solve problems with continuous action space and compare IDAC with state-of-the-art algorithms on representative OpenAI Gym environments. We observe that IDAC outperforms these baselines in most tasks. Python code is provided.
翻訳日:2022-11-10 22:46:21 公開日:2020-10-19
# 可視・熱・音響センサによるリアルタイムドローン検出と追跡

Real-Time Drone Detection and Tracking With Visible, Thermal and Acoustic Sensors ( http://arxiv.org/abs/2007.07396v2 )

ライセンス: Link先を確認
Fredrik Svanstrom, Cristofer Englund, Fernando Alonso-Fernandez(参考訳) 本稿では,自動マルチセンサドローン検知システムの設計プロセスについて述べる。 一般的なビデオとオーディオのセンサーに加えて、このシステムは熱赤外線カメラも備えており、ドローン検出タスクに対する実現可能な解決策であることが示されている。 解像度がわずかに低いとはいえ、その性能は可視域のカメラと同じくらいだ。 また,センサ間距離の関数としての検出器性能についても検討した。 さらに、センサー融合を使用すると、システムは個々のセンサーよりも頑丈になり、誤検出を減らすのに役立つ。 パブリックデータセットの欠如に対処するため、ドローン、鳥、飛行機、ヘリコプターの650個の注釈付き赤外線および可視ビデオを含む新しいビデオデータセットも提示されている(https://github.com/DroneDetectionThesis/Drone-detection-dataset)。 データベースには、クラスドローン、ヘリコプター、バックグラウンドノイズのオーディオデータセットが補完されている。

This paper explores the process of designing an automatic multi-sensor drone detection system. Besides the common video and audio sensors, the system also includes a thermal infrared camera, which is shown to be a feasible solution to the drone detection task. Even with slightly lower resolution, the performance is just as good as a camera in visible range. The detector performance as a function of the sensor-to-target distance is also investigated. In addition, using sensor fusion, the system is made more robust than the individual sensors, helping to reduce false detections. To counteract the lack of public datasets, a novel video dataset containing 650 annotated infrared and visible videos of drones, birds, airplanes and helicopters is also presented (https://github.com/DroneDetectionThesis/Drone-detection-dataset). The database is complemented with an audio dataset of the classes drones, helicopters and background noise.
翻訳日:2022-11-10 15:27:30 公開日:2020-10-19
# ベイズ深勾配降下による逆問題におけるモデル不確かさの定量化

Quantifying Model Uncertainty in Inverse Problems via Bayesian Deep Gradient Descent ( http://arxiv.org/abs/2007.09971v2 )

ライセンス: Link先を確認
Riccardo Barbano, Chen Zhang, Simon Arridge, Bangti Jin(参考訳) 逆問題に対する再構成手法の最近の進歩は、ディープニューラルネットワークのような強力なデータ駆動モデルを活用する。 これらの技術は、いくつかの画像処理タスクに対して最先端の性能を示すが、得られた再構成に不確実性を与えないことが多い。 本研究では,ベイズニューラルネットワークによるモデル不確実性を定量化するための,スケーラブルでデータ駆動型,知識支援型計算フレームワークを開発する。 このアプローチは、最近開発された欲深い反復トレーニングスキームであるディープグラデーション降下を基盤とし、拡張し、確率的枠組みで再キャストする。 各ブロックの最後の層だけがベイズ的であり、他の層は決定論的であり、トレーニングでは欲張りである。 このフレームワークは、スパースなビューまたは限られたビューデータを持つ、医用画像の1つの代表的なモダリティであるviz.計算トモグラフィーで展示され、最先端のベンチマーク(例えば、全変動、深い勾配降下、学習された原始双対)に関する競争性能を示す。

Recent advances in reconstruction methods for inverse problems leverage powerful data-driven models, e.g., deep neural networks. These techniques have demonstrated state-of-the-art performances for several imaging tasks, but they often do not provide uncertainty on the obtained reconstruction. In this work, we develop a scalable, data-driven, knowledge-aided computational framework to quantify the model uncertainty via Bayesian neural networks. The approach builds on, and extends deep gradient descent, a recently developed greedy iterative training scheme, and recasts it within a probabilistic framework. Scalability is achieved by being hybrid in the architecture: only the last layer of each block is Bayesian, while the others remain deterministic, and by being greedy in training. The framework is showcased on one representative medical imaging modality, viz. computed tomography with either sparse view or limited view data, and exhibits competitive performance with respect to state-of-the-art benchmarks, e.g., total variation, deep gradient descent and learned primal-dual.
翻訳日:2022-11-08 13:21:23 公開日:2020-10-19
# 単純なスキル模倣学習による複雑なスキル獲得

Complex Skill Acquisition Through Simple Skill Imitation Learning ( http://arxiv.org/abs/2007.10281v4 )

ライセンス: Link先を確認
Pranay Pasula(参考訳) 人間は複雑なタスクをより効率的に学習するために、複雑なタスクを単純なサブタスクの組み合わせと考えることが多い。 例えば、バックフリップはジャンプ、膝のタッキング、後ろ向きの転がり、腕を下向きに突き刺す4つのサブスキルの組み合わせと見なすことができる。 そこで本研究では,複雑で難解なスキルの模倣学習を加速させる潜在空間を育成するために,ニューラルネットワークのポリシーをシンプルで学習しやすいスキルで訓練するアルゴリズムを提案する。 複雑なタスクが単純なサブタスクの同時(そしておそらくはシーケンシャル)な組み合わせである場合に着目し、我々のアルゴリズムは並列階層的模倣学習の新しいアプローチと見なすことができる。 我々は,高次元環境における難易度タスクに対するアルゴリズムの評価を行い,学習速度と全体的な性能において,最先端のベースラインを一貫して上回っていることを見出した。

Humans often think of complex tasks as combinations of simpler subtasks in order to learn those complex tasks more efficiently. For example, a backflip could be considered a combination of four subskills: jumping, tucking knees, rolling backwards, and thrusting arms downwards. Motivated by this line of reasoning, we propose a new algorithm that trains neural network policies on simple, easy-to-learn skills in order to cultivate latent spaces that accelerate imitation learning of complex, hard-to-learn skills. We focus on the case in which the complex task comprises a concurrent (and possibly sequential) combination of the simpler subtasks, and therefore our algorithm can be seen as a novel approach to concurrent hierarchical imitation learning. We evaluate our algorithm on difficult tasks in a high-dimensional environment and find that it consistently outperforms a state-of-the-art baseline in training speed and overall performance.
翻訳日:2022-11-08 10:11:29 公開日:2020-10-19
# FiSSA at SemEval-2020 Task 9: Fine-tuned for Feelings

FiSSA at SemEval-2020 Task 9: Fine-tuned For Feelings ( http://arxiv.org/abs/2007.12544v3 )

ライセンス: Link先を確認
Bertelt Braaksma, Richard Scholtens, Stan van Suijlekom, Remy Wang, Ahmet \"Ust\"un(参考訳) 本稿では,スペイン英語のコード混合ソーシャルメディアデータに対する感情分類手法を,semeval-2020タスク9で紹介する。 異なる微調整戦略を用いて各種予習変圧器モデルの性能について検討する。 単言語モデルと多言語モデルの両方を標準微調整法を用いて検討する。 さらに、言語モデリングの目的を持つ場合と、タスク固有の目的を持つ場合の2つのステップで微調整を行うカスタムモデルを提案する。 2段階の微調整により、ベースモデルよりも感情分類性能が向上するが、大規模多言語XLM-RoBERTaモデルでは、開発データ0.537、テストデータ0.739の重み付きF1スコアが得られる。 このスコアで、我々のチームは総合で10位になった。

In this paper, we present our approach for sentiment classification on Spanish-English code-mixed social media data in the SemEval-2020 Task 9. We investigate performance of various pre-trained Transformer models by using different fine-tuning strategies. We explore both monolingual and multilingual models with the standard fine-tuning method. Additionally, we propose a custom model that we fine-tune in two steps: once with a language modeling objective, and once with a task-specific objective. Although two-step fine-tuning improves sentiment classification performance over the base model, the large multilingual XLM-RoBERTa model achieves best weighted F1-score with 0.537 on development data and 0.739 on test data. With this score, our team jupitter placed tenth overall in the competition.
翻訳日:2022-11-07 06:40:49 公開日:2020-10-19
# suffix生成のためのエンコーダ・デコーダ生成逆ネットとビジネスプロセスモデルの残時間予測

Encoder-Decoder Generative Adversarial Nets for Suffix Generation and Remaining Time Prediction of Business Process Models ( http://arxiv.org/abs/2007.16030v2 )

ライセンス: Link先を確認
Farbod Taymouri, Marcello La Rosa(参考訳) 本稿では,gans(generative adversarial network)を基盤としたエンコーダ・デコーダアーキテクチャを提案する。 GANは画像などの識別可能なデータでうまく機能する。 しかし、接尾辞は分類項目の列である。 この目的のために、Gumbel-Softmax分布を用いて微分可能な連続近似を得る。 このトレーニングは、あるニューラルネットワークを2人のプレイヤーのゲーム(つまり「敵対的な」性質)で相手と対戦させることで、接地真実に近い接尾辞を生成する。 実験評価から,予測された接尾辞の精度,およびそれに対応する残時間に関して,制御フローとイベント完了時間に基づく工学的特徴のみを用いていたにもかかわらず,本手法がベースラインよりも優れていることが判明した。

This paper proposes an encoder-decoder architecture grounded on Generative Adversarial Networks (GANs), that generates a sequence of activities and their timestamps in an end-to-end way. GANs work well with differentiable data such as images. However, a suffix is a sequence of categorical items. To this end, we use the Gumbel-Softmax distribution to get a differentiable continuous approximation. The training works by putting one neural network against the other in a two-player game (hence the "adversarial" nature), which leads to generating suffixes close to the ground truth. From the experimental evaluation it emerges that the approach is superior to the baselines in terms of the accuracy of the predicted suffixes and corresponding remaining times, despite using a naive feature encoding and only engineering features based on control flow and events completion time.
翻訳日:2022-11-05 13:30:30 公開日:2020-10-19
# autsl: 大規模なマルチモーダルトルコ手話データセットとベースラインメソッド

AUTSL: A Large Scale Multi-modal Turkish Sign Language Dataset and Baseline Methods ( http://arxiv.org/abs/2008.00932v2 )

ライセンス: Link先を確認
Ozge Mercanoglu Sincan and Hacer Yalim Keles(参考訳) 手話認識は、手形や方向、手の動き、体姿勢、表情など、複数のソースの同時局所的およびグローバルな調音によって、記号が識別される難易度の高い問題である。 現実の環境で記号の大きな語彙を計算的に解くことは、最先端のモデルでも依然として課題である。 本研究では,ベンチマークを用いた新しい大規模マルチモーダルトルコ手話データセット(autsl)と,パフォーマンス評価のためのベースラインモデルを提案する。 私たちのデータセットは、43の異なる署名者によって実行された226のサインと、合計で38,336の孤立したサインビデオから成り立っている。 サンプルには、屋内および屋外の環境で記録された様々な背景が含まれている。 また、記録によっては空間的位置やシグナーの姿勢も異なる。 各サンプルはMicrosoft Kinect v2で記録され、RGB、ディープ、スケルトンを含む。 モデルのユーザ独立評価のためのベンチマークトレーニングとテストセットを用意した。 我々は,複数のディープラーニングベースモデルを訓練し,ベンチマークを用いて経験的評価を行い,CNNを用いて特徴,一方向,双方向のLSTMモデルを抽出し,時間情報の特徴付けを行った。 また、機能プーリングモジュールと時間的注意をモデルに組み込んでパフォーマンスを改善しました。 AUTSLおよびMontalbanoデータセットに基づくベースラインモデルの評価を行った。 我々のモデルは、モンタルバノデータセットにおける最先端の手法、すなわち96.11%の精度で競合結果を得た。 autslのランダム列車試験では95.95%の精度で走行した。 提案したユーザ非依存のベンチマークデータセットでは,最高のベースラインモデルが62.02%の精度を達成した。 同じベースラインモデルのパフォーマンスのギャップは、ベンチマークデータセットに固有の課題を示しています。 AUTSLベンチマークデータセットはhttps://cvml.ankara.edu.tr.comで公開されている。

Sign language recognition is a challenging problem where signs are identified by simultaneous local and global articulations of multiple sources, i.e. hand shape and orientation, hand movements, body posture, and facial expressions. Solving this problem computationally for a large vocabulary of signs in real life settings is still a challenge, even with the state-of-the-art models. In this study, we present a new largescale multi-modal Turkish Sign Language dataset (AUTSL) with a benchmark and provide baseline models for performance evaluations. Our dataset consists of 226 signs performed by 43 different signers and 38,336 isolated sign video samples in total. Samples contain a wide variety of backgrounds recorded in indoor and outdoor environments. Moreover, spatial positions and the postures of signers also vary in the recordings. Each sample is recorded with Microsoft Kinect v2 and contains RGB, depth, and skeleton modalities. We prepared benchmark training and test sets for user independent assessments of the models. We trained several deep learning based models and provide empirical evaluations using the benchmark; we used CNNs to extract features, unidirectional and bidirectional LSTM models to characterize temporal information. We also incorporated feature pooling modules and temporal attention to our models to improve the performances. We evaluated our baseline models on AUTSL and Montalbano datasets. Our models achieved competitive results with the state-of-the-art methods on Montalbano dataset, i.e. 96.11% accuracy. In AUTSL random train-test splits, our models performed up to 95.95% accuracy. In the proposed user-independent benchmark dataset our best baseline model achieved 62.02% accuracy. The gaps in the performances of the same baseline models show the challenges inherent in our benchmark dataset. AUTSL benchmark dataset is publicly available at https://cvml.ankara.edu.tr.
翻訳日:2022-11-03 06:42:17 公開日:2020-10-19
# PowerGossip:分散ディープラーニングにおける実践的低レベルコミュニケーション圧縮

PowerGossip: Practical Low-Rank Communication Compression in Decentralized Deep Learning ( http://arxiv.org/abs/2008.01425v2 )

ライセンス: Link先を確認
Thijs Vogels and Sai Praneeth Karimireddy and Martin Jaggi(参考訳) 損失勾配圧縮は、機械学習モデルの集中的に調整された分散トレーニングにおける通信ボトルネックを克服するための実用的なツールとなっている。 しかしながら、任意の接続されたネットワーク上で圧縮通信を行う分散トレーニングのアルゴリズムはより複雑で、追加のメモリとハイパーパラメータを必要とする。 モデル差に適用した低ランク線形圧縮機を用いて,隣接労働者間のモデル差を直接圧縮する単純なアルゴリズムを提案する。 集中型ディープラーニングのためのpowersgdアルゴリズムにインスパイアされたこのアルゴリズムは、ビット当たりの情報転送を最大化するためにパワーイテレーションステップを使用する。 提案手法は,従来の手法よりも高速に収束し,ネットワークと圧縮とは漸近的に独立なハイパーパラメータを必要としないことを証明した。 最初からこれらの圧縮機は、一連のディープラーニングベンチマークで最先端のチューニング圧縮アルゴリズムと同等に動作する。

Lossy gradient compression has become a practical tool to overcome the communication bottleneck in centrally coordinated distributed training of machine learning models. However, algorithms for decentralized training with compressed communication over arbitrary connected networks have been more complicated, requiring additional memory and hyperparameters. We introduce a simple algorithm that directly compresses the model differences between neighboring workers using low-rank linear compressors applied on model differences. Inspired by the PowerSGD algorithm for centralized deep learning, this algorithm uses power iteration steps to maximize the information transferred per bit. We prove that our method requires no additional hyperparameters, converges faster than prior methods, and is asymptotically independent of both the network and the compression. Out of the box, these compressors perform on par with state-of-the-art tuned compression algorithms in a series of deep learning benchmarks.
翻訳日:2022-11-02 23:48:21 公開日:2020-10-19
# 輪郭とコントラストによる文書検出へのアプローチ

Approach for Document Detection by Contours and Contrasts ( http://arxiv.org/abs/2008.02615v2 )

ライセンス: Link先を確認
Daniil V. Tropin, Sergey A. Ilyuhin, Dmitry P. Nikolaev and Vladimir V. Arlazarov(参考訳) 本稿では,モバイル端末上で行う任意の文書検出について考察する。 古典的な輪郭に基づくアプローチは、しばしば閉塞、複雑な背景、ぼやけを特徴とする場合に失敗する。 オブジェクトとバックグラウンドのコントラストに依存する領域ベースのアプローチは、アプリケーションに制限はないが、その既知の実装は非常にリソースを消費している。 本研究では,境界内と外とのコントラストに応じて,競合する輪郭位置仮説をランク付けする輪郭に基づく方法の修正を提案する。 実験では、このような修正により、代替エラー順序付けの誤差が40%減少し、検出エラー全体の誤差が10%減少する。 提案手法は,open midv-500データセット上での最先端性能と,smartdocデータセットでの最先端性能に匹敵する結果を示す。

This paper considers arbitrary document detection performed on a mobile device. The classical contour-based approach often fails in cases featuring occlusion, complex background, or blur. The region-based approach, which relies on the contrast between object and background, does not have application limitations, however, its known implementations are highly resource-consuming. We propose a modification of the contour-based method, in which the competing contour location hypotheses are ranked according to the contrast between the areas inside and outside the border. In the experiments, such modification allows for the decrease of alternatives ordering errors by 40% and the decrease of the overall detection errors by 10%. The proposed method provides unmatched state-of-the-art performance on the open MIDV-500 dataset, and it demonstrates results comparable with state-of-the-art performance on the SmartDoc dataset.
翻訳日:2022-11-02 07:19:54 公開日:2020-10-19
# 合成ベンチマークによる夜間デハジング

Nighttime Dehazing with a Synthetic Benchmark ( http://arxiv.org/abs/2008.03864v3 )

ライセンス: Link先を確認
Jing Zhang and Yang Cao and Zheng-Jun Zha and Dacheng Tao(参考訳) 夜間のハズ画像の視認性の向上は、アクティブな人工光源からの均一な照明と、ヘイズ吸収・散乱により困難である。 この領域では大規模なベンチマークデータセットが欠如している。 そこで,本研究では,まずシーンの形状を再現し,光線と物体反射をシミュレートし,最後にヘイズ効果を再現する,夜間のヘイズ画像をシミュレートする3rという新しい合成手法を提案する。 そこで,先行実験分布から実世界の光色をサンプリングし,夜景画像を生成する。 合成ベンチマーク実験により, 劣化要因は画像品質を低下させることがわかった。 そこで本研究では,色補正をヘイズ除去から切り離す前に最適な最大反射率を提案する。 さらに,mobilenet-v2 バックボーンに基づくエンコーダ・デコーダ構造を持つ,シンプルかつ効果的な学習ベースラインを考案する。 実験結果は、画像の品質と実行時間の両方の観点から、最先端の手法よりも優れていることを示す。 データセットとソースコードはhttps://github.com/chaimi2013/3Rで入手できる。

Increasing the visibility of nighttime hazy images is challenging because of uneven illumination from active artificial light sources and haze absorbing/scattering. The absence of large-scale benchmark datasets hampers progress in this area. To address this issue, we propose a novel synthetic method called 3R to simulate nighttime hazy images from daytime clear images, which first reconstructs the scene geometry, then simulates the light rays and object reflectance, and finally renders the haze effects. Based on it, we generate realistic nighttime hazy images by sampling real-world light colors from a prior empirical distribution. Experiments on the synthetic benchmark show that the degrading factors jointly reduce the image quality. To address this issue, we propose an optimal-scale maximum reflectance prior to disentangle the color correction from haze removal and address them sequentially. Besides, we also devise a simple but effective learning-based baseline which has an encoder-decoder structure based on the MobileNet-v2 backbone. Experiment results demonstrate their superiority over state-of-the-art methods in terms of both image quality and runtime. Both the dataset and source code will be available at https://github.com/chaimi2013/3R.
翻訳日:2022-10-31 22:36:50 公開日:2020-10-19
# 教師なしFew-shotオブジェクト認識のための自己教師付きGAN

A Self-supervised GAN for Unsupervised Few-shot Object Recognition ( http://arxiv.org/abs/2008.06982v2 )

ライセンス: Link先を確認
Khoi Nguyen, Sinisa Todorovic(参考訳) 本稿では,すべてのトレーニング画像がラベル付きで,テスト画像がクエリといくつかのラベル付きサポート画像に分割された,教師なしのマイショットオブジェクト認識について述べる。 トレーニングとテストイメージはオブジェクトクラスを共有しません。 我々は,バニラGANを2つの損失関数で拡張し,それぞれが自己教師型学習を目的とした。 1つ目は、識別器が「フェイク」画像を生成するのに使われた確率的にサンプリングされた潜在コードの再構築を強制する再構成損失である。 2つ目は三重項損失であり、より類似した画像に近づいた画像エンコーディングを識別者に出力させる。 評価, 比較, 詳細なアブレーション研究は, 数発分類の文脈で行われている。 提案手法は,Mini-Imagenet と Tiered-Imagenet のデータセットにおいて,技術の現状を大幅に上回る。

This paper addresses unsupervised few-shot object recognition, where all training images are unlabeled, and test images are divided into queries and a few labeled support images per object class of interest. The training and test images do not share object classes. We extend the vanilla GAN with two loss functions, both aimed at self-supervised learning. The first is a reconstruction loss that enforces the discriminator to reconstruct the probabilistically sampled latent code which has been used for generating the "fake" image. The second is a triplet loss that enforces the discriminator to output image encodings that are closer for more similar images. Evaluation, comparisons, and detailed ablation studies are done in the context of few-shot classification. Our approach significantly outperforms the state of the art on the Mini-Imagenet and Tiered-Imagenet datasets.
翻訳日:2022-10-28 11:50:19 公開日:2020-10-19
# 指紋提示攻撃検出のための畳み込みオートエンコーダによる異常検出

Anomaly Detection with Convolutional Autoencoders for Fingerprint Presentation Attack Detection ( http://arxiv.org/abs/2008.07989v2 )

ライセンス: Link先を確認
Jascha Kolberg and Marcel Grimmer and Marta Gomez-Barrero and Christoph Busch(参考訳) 近年,指紋ベースの生体認証システムの普及が著しく進んでいる。 しかし、多くの利点とともに、生体認証システムはプレゼンテーションアタック(PA)に対して脆弱である。 特に、これは教師なしのアプリケーションに適用され、システムオペレーターに未知の新しい攻撃が発生する可能性がある。 したがって、提示攻撃検出(PAD)法を用いて、ボナファイド被検体由来のサンプルと、提示攻撃装置(PAI)由来のサンプルとを判定する。 この文脈では、ほとんどの研究はPADを2段階の分類問題として解くことを目的としており、これはボナフィドとPAサンプルの両方でモデルを訓練することを含む。 優れた検出率は報告されているが、これらの手法は未知の物質からPAIを検出するのに依然として困難に直面している。 この問題に対処するために,短波赤外線領域で捕捉されるボナファイドサンプル(すなわち1クラス)にのみ訓練されたオートエンコーダ(AE)に基づく新しいPAD手法を提案する。 19,711fideおよび45種のpai種を含む4,339pa画像のデータベース上での実験評価を行った結果,検出誤差率(d-eer)は2.00%であった。 さらに,AEモデルの性能向上を,さらに一級分類器(支援ベクトルマシン,ガウス混合モデル)と比較した。 その結果, aeモデルの有効性は, 提案手法を大きく上回ることがわかった。

In recent years, the popularity of fingerprint-based biometric authentication systems significantly increased. However, together with many advantages, biometric systems are still vulnerable to presentation attacks (PAs). In particular, this applies for unsupervised applications, where new attacks unknown to the system operator may occur. Therefore, presentation attack detection (PAD) methods are used to determine whether samples stem from a bona fide subject or from a presentation attack instrument (PAI). In this context, most works are dedicated to solve PAD as a two-class classification problem, which includes training a model on both bona fide and PA samples. In spite of the good detection rates reported, these methods still face difficulties detecting PAIs from unknown materials. To address this issue, we propose a new PAD technique based on autoencoders (AEs) trained only on bona fide samples (i.e. one-class), which are captured in the short wave infrared domain. On the experimental evaluation over a database of 19,711 bona fide and 4,339 PA images including 45 different PAI species, a detection equal error rate (D-EER) of 2.00% was achieved. Additionally, our best performing AE model is compared to further one-class classifiers (support vector machine, Gaussian mixture model). The results show the effectiveness of the AE model as it significantly outperforms the previously proposed methods.
翻訳日:2022-10-27 21:04:12 公開日:2020-10-19
# 3次元環境におけるインタラクション探索のための景観学習

Learning Affordance Landscapes for Interaction Exploration in 3D Environments ( http://arxiv.org/abs/2008.09241v2 )

ライセンス: Link先を確認
Tushar Nagarajan and Kristen Grauman(参考訳) 人間の空間で動作する具体化されたエージェントは、その環境がどのように機能するかを習得する必要がある。 そこで,エージェントは,新しい未熟な3d環境(不慣れなキッチンなど)を自律的に発見する,インタラクションの探索のための強化学習手法を提案する。 エゴセントリックなRGB-Dカメラと高レベルなアクション空間を与えられたエージェントは、画像ベースのアベイランスセグメンテーションモデルを同時にトレーニングしながら、良好なインタラクションを最大化する。 前者は下流のインタラクションタスクの準備のために、新しい環境で効率的に行動するためのポリシーを与え、後者は画像領域をそれぞれのアクションを許容する可能性にマッピングする畳み込みニューラルネットワークを生成し、探索のための報酬を減少させる。 AI2-iTHORで私たちのアイデアを実証します。 その結果、エージェントはインテリジェントに新しいホーム環境の使い方を学習でき、「ナイフを見つけて引き出しに入れる」といった下流の様々なタスクに素早く対処できることがわかった。 プロジェクトページ: http://vision.cs.utexas.edu/projects/interaction-exploration/

Embodied agents operating in human spaces must be able to master how their environment works: what objects can the agent use, and how can it use them? We introduce a reinforcement learning approach for exploration for interaction, whereby an embodied agent autonomously discovers the affordance landscape of a new unmapped 3D environment (such as an unfamiliar kitchen). Given an egocentric RGB-D camera and a high-level action space, the agent is rewarded for maximizing successful interactions while simultaneously training an image-based affordance segmentation model. The former yields a policy for acting efficiently in new environments to prepare for downstream interaction tasks, while the latter yields a convolutional neural network that maps image regions to the likelihood they permit each action, densifying the rewards for exploration. We demonstrate our idea with AI2-iTHOR. The results show agents can learn how to use new home environments intelligently and that it prepares them to rapidly address various downstream tasks like "find a knife and put it in the drawer." Project page: http://vision.cs.utexas.edu/projects/interaction-exploration/
翻訳日:2022-10-26 21:36:55 公開日:2020-10-19
# 貯水池のコンピュータ性能を改善するフィルタの追加

Adding Filters to Improve Reservoir Computer Performance ( http://arxiv.org/abs/2008.10633v2 )

ライセンス: Link先を確認
Thomas L. Carroll(参考訳) 貯水池コンピュータ(Reservoir computer)は、アナログシステムを構築することができる神経形コンピュータの一種で、小型で軽量で消費力の少ない強力なコンピュータを生み出す可能性がある。 通常、リザーバコンピュータは、非線形ノードの集合をネットワークに接続することで構築されるが、非線形ノードを接続することは困難または高価である。 この研究は、貯水池コンピュータが出力に関数を追加することによってどのように拡張されるかを示す。 ここで説明する特定の関数は線形フィルタであるが、他の関数も可能である。 線形フィルタの設計と構成はよく知られており、そのようなフィルタはfield programmable gate arrays (fpga) のようなハードウェアに容易に実装できる。 信号嵌合問題,予測問題,信号分類問題に対して,フィルタの追加が貯水池コンピュータ性能に与える影響をシミュレーションする。

Reservoir computers are a type of neuromorphic computer that may be built a an analog system, potentially creating powerful computers that are small, light and consume little power. Typically a reservoir computer is build by connecting together a set of nonlinear nodes into a network; connecting the nonlinear nodes may be difficult or expensive, however. This work shows how a reservoir computer may be expanded by adding functions to its output. The particular functions described here are linear filters, but other functions are possible. The design and construction of linear filters is well known, and such filters may be easily implemented in hardware such as field programmable gate arrays (FPGA's). The effect of adding filters on the reservoir computer performance is simulated for a signal fitting problem, a prediction problem and a signal classification problem.
翻訳日:2022-10-25 09:08:09 公開日:2020-10-19
# 関数データのためのカーネル2サンプルテスト

A Kernel Two-Sample Test for Functional Data ( http://arxiv.org/abs/2008.11095v2 )

ライセンス: Link先を確認
George Wynne, Andrew B. Duncan(参考訳) 本稿では,関数空間上で定義されたカーネルを用いて,関数の2つのサンプルが同じ基底分布を持つという仮説を検証するための,最大平均離散性(MMD)に基づく非パラメトリック2サンプル試験手法を提案する。 この構造は、MDDベースの次元の増大するデータセットに対する効率のスケーリング分析によって動機付けられている。 関数空間とその関連MDD上のカーネルの理論的特性を確立し, 新たに提案した試験の有効性を確認し, 離散化関数サンプルに基づく機能的再構成の有効性を評価する。 理論的結果は、様々な合成および実世界のデータセットで実証される。

We propose a nonparametric two-sample test procedure based on Maximum Mean Discrepancy (MMD) for testing the hypothesis that two samples of functions have the same underlying distribution, using kernels defined on function spaces. This construction is motivated by a scaling analysis of the efficiency of MMD-based tests for datasets of increasing dimension. Theoretical properties of kernels on function spaces and their associated MMD are established and employed to ascertain the efficacy of the newly proposed test, as well as to assess the effects of using functional reconstructions based on discretised function samples. The theoretical results are demonstrated over a range of synthetic and real world datasets.
翻訳日:2022-10-25 04:27:51 公開日:2020-10-19
# 文脈化コモンセンス知識による機械読解理解の改善

Improving Machine Reading Comprehension with Contextualized Commonsense Knowledge ( http://arxiv.org/abs/2009.05831v2 )

ライセンス: Link先を確認
Kai Sun, Dian Yu, Jianshu Chen, Dong Yu, Claire Cardie(参考訳) 本稿では,機械読解を改善するために常識知識を抽出することを目的とする。 我々は、事前定義された関係の集合に頼るのではなく、コンテキスト内で構造化された知識を暗黙的に位置づけして関係を表現することを提案し、それを文脈化された知識と呼ぶ。 文脈化された知識は、スクリプトから抽出された一対の関連した動詞と非動詞のメッセージと、それらが暗黙的に言語と非動詞のメッセージの関係を表す文脈として現れる場面から構成される。 本研究では,一種類の文脈化知識に基づく大規模弱ラベルデータを用いた2段階の微調整戦略を提案し,教師学習パラダイムを用いて,複数の文脈化知識を学生機械読取機に注入する。 実験結果から,本手法は機械読解データセットC^3の精度を4.3%向上させることで,最先端のベースラインよりも優れていることが示された。

In this paper, we aim to extract commonsense knowledge to improve machine reading comprehension. We propose to represent relations implicitly by situating structured knowledge in a context instead of relying on a pre-defined set of relations, and we call it contextualized knowledge. Each piece of contextualized knowledge consists of a pair of interrelated verbal and nonverbal messages extracted from a script and the scene in which they occur as context to implicitly represent the relation between the verbal and nonverbal messages, which are originally conveyed by different modalities within the script. We propose a two-stage fine-tuning strategy to use the large-scale weakly-labeled data based on a single type of contextualized knowledge and employ a teacher-student paradigm to inject multiple types of contextualized knowledge into a student machine reader. Experimental results demonstrate that our method outperforms a state-of-the-art baseline by a 4.3% improvement in accuracy on the machine reading comprehension dataset C^3, wherein most of the questions require unstated prior knowledge.
翻訳日:2022-10-19 08:09:15 公開日:2020-10-19
# テーマインフォームドオーディオ視覚対応学習

Themes Informed Audio-visual Correspondence Learning ( http://arxiv.org/abs/2009.06573v2 )

ライセンス: Link先を確認
Runze Su, Fei Tao, Xudong Liu, Haoran Wei, Xiaorong Mei, Zhiyao Duan, Lei Yuan, Ji Liu, Yuying Xie(参考訳) SnapchatやYoutubeのような短期ユーザー生成ビデオ(UGV)の応用は最近ブームとなり、多くのマルチモーダル機械学習タスクが生まれている。 中でも,映像から音声情報と視覚情報との対応を学習することは難しい課題である。 従来の音声-視覚対応学習(AVC)では、制約付きビデオや単純な設定しか研究されておらず、UGVの応用には適していない可能性がある。 本稿では,avcの新しい原則を提案し,ビデオのテーマに着目し,avc学習を容易にするための新しいフレームワークを提案する。 kwai-ad-audvisコーパスもリリースしました。このコーパスには85432本の短い広告ビデオ(約913時間)が含まれています。 このコーパスに対する提案したアプローチを評価し,23.15%の絶対差でベースラインを上回りました。

The applications of short-term user-generated video (UGV), such as Snapchat, and Youtube short-term videos, booms recently, raising lots of multimodal machine learning tasks. Among them, learning the correspondence between audio and visual information from videos is a challenging one. Most previous work of the audio-visual correspondence(AVC) learning only investigated constrained videos or simple settings, which may not fit the application of UGV. In this paper, we proposed new principles for AVC and introduced a new framework to set sight of videos' themes to facilitate AVC learning. We also released the KWAI-AD-AudVis corpus which contained 85432 short advertisement videos (around 913 hours) made by users. We evaluated our proposed approach on this corpus, and it was able to outperform the baseline by 23.15% absolute difference.
翻訳日:2022-10-18 11:49:48 公開日:2020-10-19
# COMET: MT評価のためのニューラルネットワークフレームワーク

COMET: A Neural Framework for MT Evaluation ( http://arxiv.org/abs/2009.09025v2 )

ライセンス: Link先を確認
Ricardo Rei, Craig Stewart, Ana C Farinha, Alon Lavie(参考訳) COMETは多言語機械翻訳評価モデルをトレーニングするためのニューラルネットワークフレームワークであり,人間の判断と新たな最先端の相関関係を得る。 我々のフレームワークは,言語間事前学習言語モデリングの最近の進歩を活用し,多言語・適応可能なMT評価モデルを作成し,MT品質をより正確に予測するために,ソース入力とターゲット言語参照翻訳の両方からの情報を活用する。 枠組みを紹介するために,我々は,人的評価,人間による翻訳編集率,多次元品質メトリクスの3つのモデルについて,異なるタイプの人的判断で訓練する。 我々のモデルは、WMT 2019 Metricsの共有タスクにおいて、新しい最先端のパフォーマンスを実現し、ハイパフォーマンスシステムに対する堅牢性を示す。

We present COMET, a neural framework for training multilingual machine translation evaluation models which obtains new state-of-the-art levels of correlation with human judgements. Our framework leverages recent breakthroughs in cross-lingual pretrained language modeling resulting in highly multilingual and adaptable MT evaluation models that exploit information from both the source input and a target-language reference translation in order to more accurately predict MT quality. To showcase our framework, we train three models with different types of human judgements: Direct Assessments, Human-mediated Translation Edit Rate and Multidimensional Quality Metrics. Our models achieve new state-of-the-art performance on the WMT 2019 Metrics shared task and demonstrate robustness to high-performing systems.
翻訳日:2022-10-17 02:59:26 公開日:2020-10-19
# 非剛性残留流と自我運動の自己教師付き学習

Self-Supervised Learning of Non-Rigid Residual Flow and Ego-Motion ( http://arxiv.org/abs/2009.10467v2 )

ライセンス: Link先を確認
Ivan Tishchenko, Sandro Lombardi, Martin R. Oswald, Marc Pollefeys(参考訳) 現在のシーンフロー法の多くは、3Dモーションの静的成分と動的成分を区別することなく、ポイント変換ベクトルとしてシーンフローをモデル化する。 本研究では,動的3次元シーンに対する非剛性残留流とエゴ運動流の連成推定によるエンドツーエンドのシーンフロー学習法を提案する。 我々は,一対の点雲から相対的剛性変換を学習し,反復的改良を行うことを提案する。 次に,変形入力からの非剛性流れを流れのデダクションされた剛性部で学習する。 さらに,点雲列の時間的一貫性特性に基づいて,自己スーパーバイザリー信号を用いた教師付きフレームワークを拡張する。 提案手法は, 自己スーパーバイザリー損失条件を補完する教師付きモードでのトレーニングと, 完全な自己教師付きモードでのトレーニングを両立させる。 シーンフローの非剛性流れとエゴモーションフローへの分解と自己監督信号の導入により、現在最先端の教師付き手法よりも優れていることを示す。

Most of the current scene flow methods choose to model scene flow as a per point translation vector without differentiating between static and dynamic components of 3D motion. In this work we present an alternative method for end-to-end scene flow learning by joint estimation of non-rigid residual flow and ego-motion flow for dynamic 3D scenes. We propose to learn the relative rigid transformation from a pair of point clouds followed by an iterative refinement. We then learn the non-rigid flow from transformed inputs with the deducted rigid part of the flow. Furthermore, we extend the supervised framework with self-supervisory signals based on the temporal consistency property of a point cloud sequence. Our solution allows both training in a supervised mode complemented by self-supervisory loss terms as well as training in a fully self-supervised mode. We demonstrate that decomposition of scene flow into non-rigid flow and ego-motion flow along with an introduction of the self-supervisory signals allowed us to outperform the current state-of-the-art supervised methods.
翻訳日:2022-10-15 21:50:12 公開日:2020-10-19
# 観光質問への回答の時空間的推論

Joint Spatio-Textual Reasoning for Answering Tourism Questions ( http://arxiv.org/abs/2009.13613v2 )

ライセンス: Link先を確認
Danish Contractor, Shashank Goel, Mausam, Parag Singla(参考訳) 私たちの目標は、poi(point-of-interest)推奨を求める現実世界の観光問題に答えることです。 このような質問は様々な空間的制約と非空間的制約を表現し、テキストと空間的推論の組み合わせを必要とする。 そこで本研究では,空間的知識とテキストコーパスの情報を組み合わせて質問に答える,最初の共同テキスト推論モデルを開発した。 まず,質問に言及されている地名と候補回答のポアのジオコーディネートを用いて,空間的制約のみを推論するモジュラー空間調整ネットワークを開発した。 次に,共同モデルにおける空間共振器とテキスト推論器を組み合わせることで,実世界のPOI推薦タスクについて実験を行う。 本報告では, 既存のモデルよりも有意な改善が見られた。

Our goal is to answer real-world tourism questions that seek Points-of-Interest (POI) recommendations. Such questions express various kinds of spatial and non-spatial constraints, necessitating a combination of textual and spatial reasoning. In response, we develop the first joint spatio-textual reasoning model, which combines geo-spatial knowledge with information in textual corpora to answer questions. We first develop a modular spatial-reasoning network that uses geo-coordinates of location names mentioned in a question, and of candidate answer POIs, to reason over only spatial constraints. We then combine our spatial-reasoner with a textual reasoner in a joint model and present experiments on a real world POI recommendation task. We report substantial improvements over existing models with-out joint spatio-textual reasoning.
翻訳日:2022-10-13 20:46:40 公開日:2020-10-19
# 疑わしいとき、質問する: 答えが取れない、理解できない質問を生成し、監督されない

When in Doubt, Ask: Generating Answerable and Unanswerable Questions, Unsupervised ( http://arxiv.org/abs/2010.01611v2 )

ライセンス: Link先を確認
Liubov Nikolenko, Pouya Rezazadeh Kalehbasti(参考訳) 質問回答(QA)は、人と機械間の堅牢なコミュニケーションを可能にするための鍵である。 QAに使用される現代言語モデルは、いくつかの重要なタスクにおいて人間のパフォーマンスを上回ってきたが、これらのモデルは、作成するのにコストと時間を要する大量の人為的なトレーニングデータを必要とする。 本稿では,この問題を克服する手段として,人工データを用いた人為的データセットの強化について検討する。 ディープ・トランスフォーマーに基づく最先端のモデルを用いて、よく知られた人造データセットを補完するために、合成可能な質問と解決不可能な質問を使用することの影響を検査する。 その結果、混合データセットで訓練された言語モデル(f1とemスコアで測定される)の性能が有意な改善を示した。 f1スコアは、元のデータセットに追加することで得られるものであり、回答可能で、回答可能で、回答可能で、質問応答を組み合わせると、それぞれ1.3%、0.0%、そして6.7%である。 [Githubリポジトリへのリンク: https://github.com/lnikolenko/EQA]

Question Answering (QA) is key for making possible a robust communication between human and machine. Modern language models used for QA have surpassed the human-performance in several essential tasks; however, these models require large amounts of human-generated training data which are costly and time-consuming to create. This paper studies augmenting human-made datasets with synthetic data as a way of surmounting this problem. A state-of-the-art model based on deep transformers is used to inspect the impact of using synthetic answerable and unanswerable questions to complement a well-known human-made dataset. The results indicate a tangible improvement in the performance of the language model (measured in terms of F1 and EM scores) trained on the mixed dataset. Specifically, unanswerable question-answers prove more effective in boosting the model: the F1 score gain from adding to the original dataset the answerable, unanswerable, and combined question-answers were 1.3%, 5.0%, and 6.7%, respectively. [Link to the Github repository: https://github.com/lnikolenko/EQA]
翻訳日:2022-10-11 03:23:35 公開日:2020-10-19
# Gauravarora@HASOC-Dravidian-CodeMix-FIRE2020:Hate音声検出のための合成生成符号混合データを用いた事前学習ULMFiT

Gauravarora@HASOC-Dravidian-CodeMix-FIRE2020: Pre-training ULMFiT on Synthetically Generated Code-Mixed Data for Hate Speech Detection ( http://arxiv.org/abs/2010.02094v2 )

ライセンス: Link先を確認
Gaurav Arora(参考訳) 本稿では,dravidian-codemix-hasoc2020: hate speech and offensive content identification in dravidian languages (tamil-english and malayalam-english) に提出されたシステムについて述べる。 このタスクは、ソーシャルメディアから収集されたdravidian languageのコメント/投稿のコード混合データセットにおける攻撃的言語を特定することを目的としている。 我々は,混合スクリプト(ネイティブスクリプトとローマ文字の混合)における攻撃的コンテンツの識別を目的としたサブタスクaと,ドラビダ語用ローマ文字における攻撃的コンテンツの識別を目的としたサブタスクbの2つに参加した。 これらの課題に対処するために,マルコフ連鎖を用いたマルコフ過程としてコード混合データ生成をモデル化して生成した,合成コード混合データに対する事前学習ULMFiTを提案する。 我々のモデルは、サブタスクBのコード混合タミル英語の重み付きF1スコア0.88を達成し、リーダーボードで2位となった。 さらに,本モデルでは,サブタスクAの混字マラヤラム英語のF1スコア(4位)とコード混在マラヤラム英語のF1スコア(5位)を0.91で達成した。

This paper describes the system submitted to Dravidian-Codemix-HASOC2020: Hate Speech and Offensive Content Identification in Dravidian languages (Tamil-English and Malayalam-English). The task aims to identify offensive language in code-mixed dataset of comments/posts in Dravidian languages collected from social media. We participated in both Sub-task A, which aims to identify offensive content in mixed-script (mixture of Native and Roman script) and Sub-task B, which aims to identify offensive content in Roman script, for Dravidian languages. In order to address these tasks, we proposed pre-training ULMFiT on synthetically generated code-mixed data, generated by modelling code-mixed data generation as a Markov process using Markov chains. Our model achieved 0.88 weighted F1-score for code-mixed Tamil-English language in Sub-task B and got 2nd rank on the leader-board. Additionally, our model achieved 0.91 weighted F1-score (4th Rank) for mixed-script Malayalam-English in Sub-task A and 0.74 weighted F1-score (5th Rank) for code-mixed Malayalam-English language in Sub-task B.
翻訳日:2022-10-10 21:31:57 公開日:2020-10-19
# 英語以外の翻訳を評価するための学習:WMT Metrics 2020共有タスクへのBLEURTの提出

Learning to Evaluate Translation Beyond English: BLEURT Submissions to the WMT Metrics 2020 Shared Task ( http://arxiv.org/abs/2010.04297v3 )

ライセンス: Link先を確認
Thibault Sellam, Amy Pu, Hyung Won Chung, Sebastian Gehrmann, Qijun Tan, Markus Freitag, Dipanjan Das, Ankur P. Parikh(参考訳) 機械翻訳システムの質はこの10年間で劇的に改善され、その結果、評価はますます難しい問題になっている。 本稿では,翻訳の自動評価のための主要なベンチマークであるWMT 2020 Metrics Shared Taskへの貢献について述べる。 我々は、転送学習に基づくメトリクスBLEURTに基づいて、いくつかの提案を行う。 我々は、このメトリクスを英語以外にも拡張し、14の言語ペア(微調整データを利用できる)と4つの「ゼロショット」言語ペア(ラベル付き例がない)で評価する。 さらに、英語とドイツ語に焦点を合わせ、BLEURTの予測とYiSiの予測を組み合わせ、代替の参照翻訳を用いて性能を向上させる方法を示す。 実証的な結果は、モデルがwmt metrics 2019の共有タスクで競争力のある結果を達成していることを示している。

The quality of machine translation systems has dramatically improved over the last decade, and as a result, evaluation has become an increasingly challenging problem. This paper describes our contribution to the WMT 2020 Metrics Shared Task, the main benchmark for automatic evaluation of translation. We make several submissions based on BLEURT, a previously published metric based on transfer learning. We extend the metric beyond English and evaluate it on 14 language pairs for which fine-tuning data is available, as well as 4 "zero-shot" language pairs, for which we have no labelled examples. Additionally, we focus on English to German and demonstrate how to combine BLEURT's predictions with those of YiSi and use alternative reference translations to enhance the performance. Empirical results show that the models achieve competitive results on the WMT Metrics 2019 Shared Task, indicating their promise for the 2020 edition.
翻訳日:2022-10-09 12:27:13 公開日:2020-10-19
# 文書レベルのニューラルマシン翻訳における談話報酬の活用

Leveraging Discourse Rewards for Document-Level Neural Machine Translation ( http://arxiv.org/abs/2010.03732v2 )

ライセンス: Link先を確認
Inigo Jauregi Unanue, Nazanin Esmaili, Gholamreza Haffari, Massimo Piccardi(参考訳) 文書レベルの機械翻訳は、ソースからターゲット言語への文書全体の翻訳に焦点を当てている。 文書内の個々の文の翻訳は、文書レベルでの談話の側面を保持する必要があるため、この課題は広く考えられている。 しかしながら、文書レベルの翻訳モデルは通常、談話の品質を明確に保証するために訓練されていない。 そこで,本稿では,強化学習目標を用いて,Lexical Cohesion(LC)とCoherence(COH)という2つの確立された談話指標を明示的に最適化する学習手法を提案する。 4つの異なる言語ペアと3つの翻訳ドメインの実験により、我々のトレーニングアプローチは、他の競争的アプローチよりも密集的で一貫性のある文書翻訳を実現することができたが、参照翻訳への忠実さを損なうことはなかった。 zh-en言語対の場合、本手法は2.46パーセンテージ点(pp)と1.17pp(coh)の改善を達成し、さらに1.63pp(bleuスコア)と0.47pp(f_bert)を達成した。

Document-level machine translation focuses on the translation of entire documents from a source to a target language. It is widely regarded as a challenging task since the translation of the individual sentences in the document needs to retain aspects of the discourse at document level. However, document-level translation models are usually not trained to explicitly ensure discourse quality. Therefore, in this paper we propose a training approach that explicitly optimizes two established discourse metrics, lexical cohesion (LC) and coherence (COH), by using a reinforcement learning objective. Experiments over four different language pairs and three translation domains have shown that our training approach has been able to achieve more cohesive and coherent document translations than other competitive approaches, yet without compromising the faithfulness to the reference translation. In the case of the Zh-En language pair, our method has achieved an improvement of 2.46 percentage points (pp) in LC and 1.17 pp in COH over the runner-up, while at the same time improving 0.63 pp in BLEU score and 0.47 pp in F_BERT.
翻訳日:2022-10-09 11:57:10 公開日:2020-10-19
# comp-syn:色付き知覚的接地語埋め込み

comp-syn: Perceptually Grounded Word Embeddings with Color ( http://arxiv.org/abs/2010.04292v2 )

ライセンス: Link先を確認
Bhargav Srinivasa Desikan, Tasker Hull, Ethan O. Nadler, Douglas Guilbeault, Aabir Abubaker Kar, Mark Chu and Donald Ruggiero Lo Sardo(参考訳) 自然言語処理に対する一般的なアプローチは、テキストの共起パターンに基づいて単語埋め込みを生成するが、しばしば言語の具体化された感覚的側面を無視している。 ここでは,画像検索結果の知覚的均一な色分布に基づく接地語埋め込みを提供するPythonパッケージcomp-synを紹介する。 comp-syn が分布意味論のモデルを大幅に強化することを示す。 特に,(1)comp-synは,低次元のワードカラー埋め込みを用いて,word2vecよりも正確かつ解釈可能な方法で単語の具体性判定を予測し,(2)comp-synはメタファとリテラルなワードペア分類タスクでword2vecと比較可能であることを示す。 comp-synはPyPi上でオープンソースであり、主流の機械学習Pythonパッケージと互換性がある。 私たちのパッケージリリースには、4万以上の英語単語に対するワードカラー埋め込みが含まれています。

Popular approaches to natural language processing create word embeddings based on textual co-occurrence patterns, but often ignore embodied, sensory aspects of language. Here, we introduce the Python package comp-syn, which provides grounded word embeddings based on the perceptually uniform color distributions of Google Image search results. We demonstrate that comp-syn significantly enriches models of distributional semantics. In particular, we show that (1) comp-syn predicts human judgments of word concreteness with greater accuracy and in a more interpretable fashion than word2vec using low-dimensional word-color embeddings, and (2) comp-syn performs comparably to word2vec on a metaphorical vs. literal word-pair classification task. comp-syn is open-source on PyPi and is compatible with mainstream machine-learning Python packages. Our package release includes word-color embeddings for over 40,000 English words, each associated with crowd-sourced word concreteness judgments.
翻訳日:2022-10-09 11:39:51 公開日:2020-10-19
# 統一機械学習予測サービスのためのテンソルコンパイラ

A Tensor Compiler for Unified Machine Learning Prediction Serving ( http://arxiv.org/abs/2010.04804v3 )

ライセンス: Link先を確認
Supun Nakandala, Karla Saur, Gyeong-In Yu, Konstantinos Karanasos, Carlo Curino, Markus Weimer, Matteo Interlandi(参考訳) 企業における機械学習(ml)の採用には、シンプルで効率的なソフトウェアインフラストラクチャが必要です。 モデルスコアリングは、トレーニングされたモデルから新しいデータに対する予測を取得するプロセスであり、モデルが一度トレーニングされるが、何度も使用されるため、インフラストラクチャの複雑さとコストに主要な貢献をする。 本稿では,モデルスコアリングのための新しいアプローチであるhummingbirdを提案する。このアプローチでは,実現演算子と従来のmlモデル(決定木など)を,テンソル演算の小さな集合にコンパイルする。 このアプローチは本質的にインフラストラクチャの複雑さを低減し、既存のニューラルネットワークコンパイラやランタイムへの投資を直接活用し、cpuとハードウェアアクセラレータの両方で効率的な計算を生成する。 命令型計算(ツリートラバーサルなど)をテンソル計算の抽象化に置き換えたものの、HUMMINGBIRDは競争力があり、CPUとGPUのマイクロベンチマーク上で手作りのカーネルよりも優れており、MLパイプラインのシームレスなエンドツーエンドアクセラレーションを実現しています。 我々はHUMMINGBIRDをオープンソースとしてリリースしました。

Machine Learning (ML) adoption in the enterprise requires simpler and more efficient software infrastructure---the bespoke solutions typical in large web companies are simply untenable. Model scoring, the process of obtaining predictions from a trained model over new data, is a primary contributor to infrastructure complexity and cost as models are trained once but used many times. In this paper we propose HUMMINGBIRD, a novel approach to model scoring, which compiles featurization operators and traditional ML models (e.g., decision trees) into a small set of tensor operations. This approach inherently reduces infrastructure complexity and directly leverages existing investments in Neural Network compilers and runtimes to generate efficient computations for both CPU and hardware accelerators. Our performance results are intriguing: despite replacing imperative computations (e.g., tree traversals) with tensor computation abstractions, HUMMINGBIRD is competitive and often outperforms hand-crafted kernels on micro-benchmarks on both CPU and GPU, while enabling seamless end-to-end acceleration of ML pipelines. We have released HUMMINGBIRD as open source.
翻訳日:2022-10-09 06:09:03 公開日:2020-10-19
# 局所線形領域知識蒸留

Locally Linear Region Knowledge Distillation ( http://arxiv.org/abs/2010.04812v2 )

ライセンス: Link先を確認
Xiang Deng and Zhongfei (Mark) Zhang(参考訳) 知識蒸留(KD)は、あるニューラルネットワーク(教師)から別の(学生)に知識を伝達する効果的な手法であり、学生のパフォーマンスを向上させる。 生徒が教師の行動をより良く模倣するために、既存の研究は、ロジットや表現を調整するために異なる基準を設計することに焦点を当てている。 これらの取り組みと異なり、新しいデータの観点から知識蒸留を扱う。 スパーストレーニングデータポイントでの知識の伝達は,教師機能の局所的な形状を十分に把握することができない,と我々は主張する。 この問題に対処するため,我々は,ローカルリニア領域における知識を教師から生徒に伝達するローカルリニア領域知識蒸留(\rm l^2$rkd)を提案する。 これは、局所的、線形的領域における教師関数の出力を模倣するように学生に強制することで達成される。 最終的に、生徒は教師機能の局所的な形状をよりよく捉え、より良いパフォーマンスを得ることができる。 その単純さにもかかわらず、広範にわたる実験により、KDと他の最先端のアプローチを大きなマージンで上回り、数ショットの条件下で頑健さと優越性を示し、既存の蒸留手法との互換性が向上し、性能が大幅に向上するなど、KDよりも多くの面において$\rm L^2$RKDの方が優れていることが示されている。

Knowledge distillation (KD) is an effective technique to transfer knowledge from one neural network (teacher) to another (student), thus improving the performance of the student. To make the student better mimic the behavior of the teacher, the existing work focuses on designing different criteria to align their logits or representations. Different from these efforts, we address knowledge distillation from a novel data perspective. We argue that transferring knowledge at sparse training data points cannot enable the student to well capture the local shape of the teacher function. To address this issue, we propose locally linear region knowledge distillation ($\rm L^2$RKD) which transfers the knowledge in local, linear regions from a teacher to a student. This is achieved by enforcing the student to mimic the outputs of the teacher function in local, linear regions. To the end, the student is able to better capture the local shape of the teacher function and thus achieves a better performance. Despite its simplicity, extensive experiments demonstrate that $\rm L^2$RKD is superior to the original KD in many aspects as it outperforms KD and the other state-of-the-art approaches by a large margin, shows robustness and superiority under few-shot settings, and is more compatible with the existing distillation approaches to further improve their performances significantly.
翻訳日:2022-10-09 04:46:49 公開日:2020-10-19
# 低データ転送学習のための深層アンサンブル

Deep Ensembles for Low-Data Transfer Learning ( http://arxiv.org/abs/2010.06866v2 )

ライセンス: Link先を確認
Basil Mustafa and Carlos Riquelme and Joan Puigcerver and Andr\'e Susano Pinto and Daniel Keysers and Neil Houlsby(参考訳) 低データ体制では、優れた教師付きモデルをゼロから訓練することは困難である。 代わりに、実践者はトランスファー学習を利用して、事前学習されたモデルに目を向ける。 組み立ては、強力な予測モデルを構築するための経験的かつ理論的に魅力的な方法であるが、異なるランダム初期化を持つ複数のディープネットワークをトレーニングする主要なアプローチは、事前訓練された重みによる転送の必要性と衝突する。 本研究では、事前学習されたモデルからアンサンブルを作成する様々な方法を研究する。 本稿では,事前学習自体が多様性の源泉であることを示し,下流データセットに対する事前学習モデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。 アプローチは単純である: 事前訓練されたモデルのランク付けに最寄りの精度を使用し、小さなハイパーパラメータスイープで最高のモデルを微調整する。 19の下流タスク(Visual Task Adaptation Benchmark)の強いベースラインとともに評価されると、2000以上の事前訓練されたモデルから選択しても、はるかに低い推論予算で最先端のパフォーマンスを達成する。 また,imagenet 変種に関するアンサンブルを評価し,分散シフトに対するロバスト性も改善した。

In the low-data regime, it is difficult to train good supervised models from scratch. Instead practitioners turn to pre-trained models, leveraging transfer learning. Ensembling is an empirically and theoretically appealing way to construct powerful predictive models, but the predominant approach of training multiple deep networks with different random initialisations collides with the need for transfer via pre-trained weights. In this work, we study different ways of creating ensembles from pre-trained models. We show that the nature of pre-training itself is a performant source of diversity, and propose a practical algorithm that efficiently identifies a subset of pre-trained models for any downstream dataset. The approach is simple: Use nearest-neighbour accuracy to rank pre-trained models, fine-tune the best ones with a small hyperparameter sweep, and greedily construct an ensemble to minimise validation cross-entropy. When evaluated together with strong baselines on 19 different downstream tasks (the Visual Task Adaptation Benchmark), this achieves state-of-the-art performance at a much lower inference budget, even when selecting from over 2,000 pre-trained models. We also assess our ensembles on ImageNet variants and show improved robustness to distribution shift.
翻訳日:2022-10-07 12:26:23 公開日:2020-10-19
# CS2-Net:医療画像における曲線構造の深層学習セグメンテーション

CS2-Net: Deep Learning Segmentation of Curvilinear Structures in Medical Imaging ( http://arxiv.org/abs/2010.07486v2 )

ライセンス: Link先を確認
Lei Mou, Yitian Zhao, Huazhu Fu, Yonghuai Liu, Jun Cheng, Yalin Zheng, Pan Su, Jianlong Yang, Li Chen, Alejandro F Frang, Masahiro Akiba, Jiang Liu(参考訳) 医学的・生医学的な画像から血管や神経繊維などのカルビリナー構造の自動検出は、多くの疾患の管理に関連する自動画像解釈における重要な初期段階である。 これらの組織構造の形態的変化の精密な測定は、臨床医に、例えば心臓血管、腎臓、眼、肺、神経疾患のメカニズム、診断、治療を理解することを知らせる。 本研究では,線形構造のセグメンテーションのための汎用的・統一的な畳み込みニューラルネットワークを提案する。 本稿では,エンコーダとデコーダに自己アテンション機構を備えた新しいカービリニア構造セグメンテーションネットワーク(CS2-Net)を導入し,カービリニア構造のリッチな階層表現を学習する。 2種類の注意モジュール(空間的注意とチャネル的注意)を用いて、クラス間識別とクラス内応答性を高め、グローバルな依存関係と正規化とを適応的に統合する。 さらに, 医用画像における曲線構造のセグメンテーションを容易にするため, 1x3と3x1畳み込みカーネルを用いて境界特徴を捉える。 ...

Automated detection of curvilinear structures, e.g., blood vessels or nerve fibres, from medical and biomedical images is a crucial early step in automatic image interpretation associated to the management of many diseases. Precise measurement of the morphological changes of these curvilinear organ structures informs clinicians for understanding the mechanism, diagnosis, and treatment of e.g. cardiovascular, kidney, eye, lung, and neurological conditions. In this work, we propose a generic and unified convolution neural network for the segmentation of curvilinear structures and illustrate in several 2D/3D medical imaging modalities. We introduce a new curvilinear structure segmentation network (CS2-Net), which includes a self-attention mechanism in the encoder and decoder to learn rich hierarchical representations of curvilinear structures. Two types of attention modules - spatial attention and channel attention - are utilized to enhance the inter-class discrimination and intra-class responsiveness, to further integrate local features with their global dependencies and normalization, adaptively. Furthermore, to facilitate the segmentation of curvilinear structures in medical images, we employ a 1x3 and a 3x1 convolutional kernel to capture boundary features. ...
翻訳日:2022-10-07 05:02:53 公開日:2020-10-19
# 原型分析の一貫性

Consistency of archetypal analysis ( http://arxiv.org/abs/2010.08148v2 )

ライセンス: Link先を確認
Braxton Osting, Dong Wang, Yiming Xu and Dominique Zosso(参考訳) Archetypal Analysisは、凸多面体を用いて多変量データを要約する教師なし学習手法である。 固定$k$の場合、この手法は、データの凸殻にポリトープが含まれ、データとポリトープの間の平均2乗距離が最小となるような、アーチタイプポイントと呼ばれる、$k$の頂点を持つ凸ポリトープを見つける。 本稿では,データが有界支持を持つ確率測度から独立にサンプリングされているかどうかを示す一貫性を証明し,その場合,アーキタイプ点が問題の連続バージョン解に収束し,いくつかの特性を特定し,確立する。 また,分布上の適切な仮定の下での最適目的値の収束率を求める。 もしデータが非有界な支持を持つ分布から独立にサンプリングされた場合、アーチタイプ点の分散をペナライズする修正方法の一貫性結果も証明する。 本解析は,ディスク内の一様分布,正規分布,環状分布,ガウス混合モデルからサンプリングしたデータに対するアーチタイプ点の詳細な計算実験によって支援されている。

Archetypal analysis is an unsupervised learning method that uses a convex polytope to summarize multivariate data. For fixed $k$, the method finds a convex polytope with $k$ vertices, called archetype points, such that the polytope is contained in the convex hull of the data and the mean squared distance between the data and the polytope is minimal. In this paper, we prove a consistency result that shows if the data is independently sampled from a probability measure with bounded support, then the archetype points converge to a solution of the continuum version of the problem, of which we identify and establish several properties. We also obtain the convergence rate of the optimal objective values under appropriate assumptions on the distribution. If the data is independently sampled from a distribution with unbounded support, we also prove a consistency result for a modified method that penalizes the dispersion of the archetype points. Our analysis is supported by detailed computational experiments of the archetype points for data sampled from the uniform distribution in a disk, the normal distribution, an annular distribution, and a Gaussian mixture model.
翻訳日:2022-10-06 21:59:53 公開日:2020-10-19
# SF-UDA$^{3D}$:LiDARに基づく3Dオブジェクト検出のためのソースフリーな非教師なし領域適応

SF-UDA$^{3D}$: Source-Free Unsupervised Domain Adaptation for LiDAR-Based 3D Object Detection ( http://arxiv.org/abs/2010.08243v2 )

ライセンス: Link先を確認
Cristiano Saltori, St\'ephane Lathuili\'ere, Nicu Sebe, Elisa Ricci, Fabio Galasso(参考訳) LiDAR点雲のみに基づく3Dオブジェクト検出器は、現代のストリートビューベンチマークの最先端を保っている。 しかし、LiDARベースの検出器はドメインシフトによってドメイン間での一般化が不十分である。 実際、LiDARの場合、ドメインシフトは、RGBカメラの視覚データのような環境やオブジェクトの外観の変化によるだけでなく、点雲の幾何学(例えば、点密度の変動)にも関係している。 本稿では、SF-UDA$^{3D}$を提案し、SF-UDAフレームワークにより、最先端のPointRCNN 3D検出器をドメインに適応させ、私たちがアノテーションを持っていないドメイン(教師なし)をターゲットにし、ソースドメインの画像もアノテーションも保持しない(ソースフリー)。 SF-UDA$^{3D}$は両面において新規である。 提案手法は擬似アノテーション,可逆的スケール変換,運動コヒーレンシに基づく。 SF-UDA$^{3D}$は、機能アライメントと最先端の3Dオブジェクト検出方法に基づく従来のドメイン適応手法と、少数ショットのターゲットアノテーションやターゲットのアノテーション統計を併用する手法の両方を上回ります。 これは、KITTIとnuScenesという2つの大規模なデータセットに関する広範な実験によって実証される。

3D object detectors based only on LiDAR point clouds hold the state-of-the-art on modern street-view benchmarks. However, LiDAR-based detectors poorly generalize across domains due to domain shift. In the case of LiDAR, in fact, domain shift is not only due to changes in the environment and in the object appearances, as for visual data from RGB cameras, but is also related to the geometry of the point clouds (e.g., point density variations). This paper proposes SF-UDA$^{3D}$, the first Source-Free Unsupervised Domain Adaptation (SF-UDA) framework to domain-adapt the state-of-the-art PointRCNN 3D detector to target domains for which we have no annotations (unsupervised), neither we hold images nor annotations of the source domain (source-free). SF-UDA$^{3D}$ is novel on both aspects. Our approach is based on pseudo-annotations, reversible scale-transformations and motion coherency. SF-UDA$^{3D}$ outperforms both previous domain adaptation techniques based on features alignment and state-of-the-art 3D object detection methods which additionally use few-shot target annotations or target annotation statistics. This is demonstrated by extensive experiments on two large-scale datasets, i.e., KITTI and nuScenes.
翻訳日:2022-10-06 21:23:51 公開日:2020-10-19
# 驚き: 極値理論による結果リストの廃止

Surprise: Result List Truncation via Extreme Value Theory ( http://arxiv.org/abs/2010.09797v1 )

ライセンス: Link先を確認
Dara Bahri, Che Zheng, Yi Tay, Donald Metzler, Andrew Tomkins(参考訳) 情報検索の仕事は、主にランク付けと関連性に焦点が当てられている: クエリが与えられたら、ユーザに関連づけられた結果を返す。 しかし、結果リストの切り離しや、ランキングリストの切り離しの問題は、様々なアプリケーションにおいて重要な問題であるにもかかわらず、あまり注目されていない。 このような切り離しは、全体の関連性、あるいは結果の有用性と、より多くの結果を処理するためのユーザコストとのバランスをとる行為である。 関連性スコアがよく校正されていないため、結果リストの切り離しは難しい。 これは、ドキュメントとクエリが同じメトリック空間に埋め込まれ、クエリの最も近いドキュメントが推論中に返される大規模なIRシステムにおいて特に当てはまる。 ここでは、関連性はクエリと候補文書の間の距離に逆比例するが、どの距離がクエリからクエリへ、またインデックスにより多くのドキュメントを追加すると動的に変化するかによって異なる。 本研究では,最大値理論に現れる一般化パレート分布を活用し,クエリ時にランク付けされたスコアのみを用いて,解釈可能かつ校正された適合度スコアを生成する統計的手法であるサプライズスコアリングを提案する。 画像,テキスト,IRデータセット間でのトランケーションタスクの結果リストにおいて,その有効性を示し,それらを古典的および最近のベースラインと比較する。 私たちは仮説テストと$p$-valuesにつながります。

Work in information retrieval has largely been centered around ranking and relevance: given a query, return some number of results ordered by relevance to the user. The problem of result list truncation, or where to truncate the ranked list of results, however, has received less attention despite being crucial in a variety of applications. Such truncation is a balancing act between the overall relevance, or usefulness of the results, with the user cost of processing more results. Result list truncation can be challenging because relevance scores are often not well-calibrated. This is particularly true in large-scale IR systems where documents and queries are embedded in the same metric space and a query's nearest document neighbors are returned during inference. Here, relevance is inversely proportional to the distance between the query and candidate document, but what distance constitutes relevance varies from query to query and changes dynamically as more documents are added to the index. In this work, we propose Surprise scoring, a statistical method that leverages the Generalized Pareto distribution that arises in extreme value theory to produce interpretable and calibrated relevance scores at query time using nothing more than the ranked scores. We demonstrate its effectiveness on the result list truncation task across image, text, and IR datasets and compare it to both classical and recent baselines. We draw connections to hypothesis testing and $p$-values.
翻訳日:2022-10-05 23:31:43 公開日:2020-10-19
# サブスクリプションベースのチャンネル埋め込みによるyoutubeコミュニティの理解

Understanding YouTube Communities via Subscription-based Channel Embeddings ( http://arxiv.org/abs/2010.09892v1 )

ライセンス: Link先を確認
Sam Clark and Anna Zaitsev(参考訳) youtubeは世界中のニュースやエンタテインメントの重要な情報源だが、このスケールはプラットフォーム上で議論されているアイデアやトピックを研究するのを難しくしている。 本稿では,従来の研究よりも桁違いに多くのチャンネルを用いて,プラットフォーム上のコミュニティやカテゴリの分析を可能にするyoutubeチャンネルの発見と分類を行う新しい手法を提案する。 他の研究者が持っているような分類機能としてチャネルデータやビデオデータを使用する代わりに、これらの方法は、コメントの公開購読ページを活用する自己教師付き学習アプローチを使用する。 我々は、youtubeニュースチャンネルの政治的リーンを予測するタスクの分類方法をテストし、そのタスクの以前のベストモデルよりも優れていることを突き止めた。 さらなる実験によって、チャンネルの発見にコメント購読を使う重要な利点があることも示されている。 サブスクリプションデータは、反復的なアプローチとともに、我々の現在の理解において、まだ分析されていない最も包括的な英語の社会政治的YouTubeチャンネルを見つけるために適用される。 我々は、以前アノテーション付きデータセットを使用して、チャネルのよりきめ細かい政治タグを予測する実験を行い、我々のモデルは、トップタグのほとんどに対して、平均的な個人レビュアーよりも優れたパフォーマンスを示す。 このきめ細かい政治タグモデルは、新たに発見された英語の社会政治チャネルに適用され、異なる政治コンテンツへのトラフィックの量を分析する新しいデータセットを作成する。 データは、最もポピュラーな社会政治チャンネルのみを見る場合、「パルチザン右派」や「陰謀」といったいくつかのタグは、明らかに下降傾向にあることを示している。 私たちの方法では、YouTube上でこれらのコミュニティのサイズをより正確に把握することができます。

YouTube is an important source of news and entertainment worldwide, but the scale makes it challenging to study the ideas and topics being discussed on the platform. This paper presents new methods to discover and classify YouTube channels which enable the analysis of communities and categories on the platform using orders of magnitude more channels than have been used in previous studies. Instead of using channel and video data as features for classification as other researchers have, these methods use a self-supervised learning approach that leverages the public subscription pages of commenters. We test the classification method on the task of predicting the political lean of YouTube news channels and find that it outperforms the previous best model on the task. Further experiments also show that there are important advantages to using commenter subscriptions to discover channels. The subscription data, along with an iterative approach, is applied to discover, to our current understanding, the most comprehensive set of English language socio-political YouTube channels yet to be analyzed. We experiment with predicting more fine grained political tags for channels using a previously annotated dataset and find that our model performs better than the average individual human reviewer for most of the top tags. This fine grained political tag model is then applied to the newly discovered English language socio-political channels to create a new dataset to analyze the amount of traffic going to different political content. The data shows that some tags, such as "Partisan Right" and "Conspiracy", are significantly under represented when looking only at the most popular socio-political channels. Through the use of our methods, we are able to get a much more accurate picture of the size of these communities on YouTube.
翻訳日:2022-10-05 23:31:18 公開日:2020-10-19
# CLAR:聴覚表現の対照的な学習

CLAR: Contrastive Learning of Auditory Representations ( http://arxiv.org/abs/2010.09542v1 )

ライセンス: Link先を確認
Haider Al-Tahan and Yalda Mohsenzadeh(参考訳) 対照的な自己教師付き学習を用いた豊かな視覚表現の学習は極めて成功した。 しかし、同様のアプローチで優れた聴覚表現を学ぶことができるかどうかについては、依然として大きな疑問である。 本稿では,先行作業(SimCLR)を拡張し,より優れた聴覚表現を学習する。 1)聴覚データに適した様々なデータ拡張を導入し,その予測性能への影響を評価し,(2)時間周波数音声特徴の訓練が生信号に比べて学習表現の質を著しく向上させ,(3)教師付きおよび対照的損失の訓練が,自己教師付き事前学習と教師付き微調整とを同時に改善することを示す。 これらの手法とラベル付きデータとを組み合わせることで,提案手法(clar)は教師付き手法に比べて予測性能が大幅に向上することを示す。 さらに、自己監督アプローチと比較して、我々のフレームワークは大幅に優れた表現でより高速に収束します。

Learning rich visual representations using contrastive self-supervised learning has been extremely successful. However, it is still a major question whether we could use a similar approach to learn superior auditory representations. In this paper, we expand on prior work (SimCLR) to learn better auditory representations. We (1) introduce various data augmentations suitable for auditory data and evaluate their impact on predictive performance, (2) show that training with time-frequency audio features substantially improves the quality of the learned representations compared to raw signals, and (3) demonstrate that training with both supervised and contrastive losses simultaneously improves the learned representations compared to self-supervised pre-training followed by supervised fine-tuning. We illustrate that by combining all these methods and with substantially less labeled data, our framework (CLAR) achieves significant improvement on prediction performance compared to supervised approach. Moreover, compared to self-supervised approach, our framework converges faster with significantly better representations.
翻訳日:2022-10-05 23:27:14 公開日:2020-10-19
# Affine 部分空間の $k$-means クラスタリングのための EPTAS

EPTAS for $k$-means Clustering of Affine Subspaces ( http://arxiv.org/abs/2010.09580v1 )

ライセンス: Link先を確認
Eduard Eiben, Fedor V. Fomin, Petr A. Golovach, William Lochet, Fahad Panolan and Kirill Simonov(参考訳) 不完全または破損したエントリを持つデータに対する基本的な$k$-meansクラスタリングの一般化を検討する。 データオブジェクトが$\mathbb{r}^d$のポイントで表現されるとき、データポイントは、そのエントリのいくつかが欠落しているか未定であるときに不完全であると言われる。 最大$\Delta$未特定成分を持つ不完全データポイントは、少なくとも$\Delta$-pointと呼ばれる次元の軸平行アフィン部分空間に対応する。 したがって、$n$ input $\Delta$-pointsを$k$クラスタに分割し、$k$-meansの目的を最小化する。 $\Delta=0$の場合、各点の座標が指定されると、これは通常の$k$-meansクラスタリングである。 f(k,\epsilon, \delta) \cdot n^2 \cdot d$ ある関数に対して、$k,\epsilon$,$\delta$ only で$(1+ \epsilon)$-approximate 解を求めるアルゴリズムを与える。

We consider a generalization of the fundamental $k$-means clustering for data with incomplete or corrupted entries. When data objects are represented by points in $\mathbb{R}^d$, a data point is said to be incomplete when some of its entries are missing or unspecified. An incomplete data point with at most $\Delta$ unspecified entries corresponds to an axis-parallel affine subspace of dimension at most $\Delta$, called a $\Delta$-point. Thus we seek a partition of $n$ input $\Delta$-points into $k$ clusters minimizing the $k$-means objective. For $\Delta=0$, when all coordinates of each point are specified, this is the usual $k$-means clustering. We give an algorithm that finds an $(1+ \epsilon)$-approximate solution in time $f(k,\epsilon, \Delta) \cdot n^2 \cdot d$ for some function $f$ of $k,\epsilon$, and $\Delta$ only.
翻訳日:2022-10-05 23:26:56 公開日:2020-10-19
# 深部再発モデルを用いた電気インピーダンストモグラフィーによる呼吸・循環パラメータの推定

Inferring respiratory and circulatory parameters from electrical impedance tomography with deep recurrent models ( http://arxiv.org/abs/2010.09622v1 )

ライセンス: Link先を確認
Nils Strodthoff, Claas Strodthoff, Tobias Becher, Norbert Weiler, In\'ez Frerichs(参考訳) 電気インピーダンストモグラフィ(EIT)は、異なる臓器の局所的生体インピーダンスの変化を連続的に評価できる非侵襲的な画像モダリティである。 最も一般的なバイオメディカル応用の1つは、集中治療室で治療された重症患者の地域換気分布のモニタリングである。 本研究では,エンド・ツー・エンドで学習した深層学習モデルを用いて,EIT画像シーケンスから同期計測された呼吸・循環パラメータを再構成する方法を実証した。 絶対容積,絶対流量,気道圧の正規化,eit信号のみからの正常血圧においても一定の限界内で正確な推定が可能であり,事前のキャリブレーションが不要な患者に一般化できることを実証した。 EITと絶対的気道圧の組み合わせによる絶対的経肺圧の再構築の可能性は, 食道圧の侵襲的測定に取って代わる可能性が示唆された。 これらの結果により,本研究の枠組み構築に向けたさらなる研究が促進されることを期待する。

Electrical impedance tomography (EIT) is a noninvasive imaging modality that allows a continuous assessment of changes in regional bioimpedance of different organs. One of its most common biomedical applications is monitoring regional ventilation distribution in critically ill patients treated in intensive care units. In this work, we put forward a proof-of-principle study that demonstrates how one can reconstruct synchronously measured respiratory or circulatory parameters from the EIT image sequence using a deep learning model trained in an end-to-end fashion. We demonstrate that one can accurately infer absolute volume, absolute flow, normalized airway pressure and within certain limitations even the normalized arterial blood pressure from the EIT signal alone, in a way that generalizes to unseen patients without prior calibration. As an outlook with direct clinical relevance, we furthermore demonstrate the feasibility of reconstructing the absolute transpulmonary pressure from a combination of EIT and absolute airway pressure, as a way to potentially replace the invasive measurement of esophageal pressure. With these results, we hope to stimulate further studies building on the framework put forward in this work.
翻訳日:2022-10-05 23:26:36 公開日:2020-10-19
# DAN -- 機械学習のリカレントネットワークに基づく最適なデータ同化フレームワーク

DAN -- An optimal Data Assimilation framework based on machine learning Recurrent Networks ( http://arxiv.org/abs/2010.09694v1 )

ライセンス: Link先を確認
Pierre Boudier and Anthony Fillion and Serge Gratton and Selime G\"urol(参考訳) データ同化アルゴリズムは、システムの数学的表現とノイズ観測を組み合わせることで、力学系の状態を予測することを目的としている。 本稿では,再帰的エルマンネットワークとデータ同化アルゴリズムを一般化した完全データ駆動型ディープラーニングアーキテクチャを提案する。 既知のロレンツ系に基づく数値実験や、系軌道のスナップショット(すなわち状態軌道のバッチ)と観測を用いて適切に訓練された場合、過去の観測に条件づけられた一定時間における系状態の確率密度関数の解析と伝播の両方をうまく再現することに成功した。

Data assimilation algorithms aim at forecasting the state of a dynamical system by combining a mathematical representation of the system with noisy observations thereof. We propose a fully data driven deep learning architecture generalizing recurrent Elman networks and data assimilation algorithms which provably reaches the same prediction goals as the latter. On numerical experiments based on the well-known Lorenz system and when suitably trained using snapshots of the system trajectory (i.e. batches of state trajectories) and observations, our architecture successfully reconstructs both the analysis and the propagation of probability density functions of the system state at a given time conditioned to past observations.
翻訳日:2022-10-05 23:25:48 公開日:2020-10-19
# 多体モデル学習のための微分可能ニュートンオイラーアルゴリズム

A Differentiable Newton Euler Algorithm for Multi-body Model Learning ( http://arxiv.org/abs/2010.09802v1 )

ライセンス: Link先を確認
Michael Lutter, Johannes Silberbauer, Joe Watson, Jan Peters(参考訳) 本研究では,多体ロボットダイナミクスの領域におけるハイブリッドモデルのスペクトルについて検討する。 ニュートン・オイラー方程式を具現化した計算グラフアーキテクチャを動機付け、力学幾何学を学習のための効率的な計算構造に変換する際にリー代数形式の有用性を強調した。 本稿では, 使用済みの仮想パラメータを用いて, 使用済みの物理プラザブルダイナミクスと使用済みアクチュエータモデルについて述べる。 実験では、26のグレーボックスモデル群を定義し、シミュレーションおよび物理のフルタ振り子とカートポールのシステム同定について評価する。 比較の結果,従来のホワイトボックスシステム同定法で要求される運動パラメータは,データから正確に推定できることがわかった。 さらに、制御不能なシステムの有界エネルギーを保証するモデルが非発散軌道を生成するのに対して、より一般的なモデルはそのような保証を持たないので、その性能はデータ分布に強く依存する。 したがって、本研究の主な貢献は、動的およびキネマティックなパラメータを共同で学習し、ブラックボックスコンポーネントと組み合わせることができるホワイトボックスモデルの導入である。 次に、グレーボックスアーキテクチャと同等のホワイトボックスモデルとブラックボックスモデルの比較性能を解明する、挑戦的なシステムと異なるデータセットに関する広範な経験的評価を提供する。

In this work, we examine a spectrum of hybrid model for the domain of multi-body robot dynamics. We motivate a computation graph architecture that embodies the Newton Euler equations, emphasizing the utility of the Lie Algebra form in translating the dynamical geometry into an efficient computational structure for learning. We describe the used virtual parameters that enable unconstrained physical plausible dynamics and the used actuator models. In the experiments, we define a family of 26 grey-box models and evaluate them for system identification of the simulated and physical Furuta Pendulum and Cartpole. The comparison shows that the kinematic parameters, required by previous white-box system identification methods, can be accurately inferred from data. Furthermore, we highlight that models with guaranteed bounded energy of the uncontrolled system generate non-divergent trajectories, while more general models have no such guarantee, so their performance strongly depends on the data distribution. Therefore, the main contributions of this work is the introduction of a white-box model that jointly learns dynamic and kinematics parameters and can be combined with black-box components. We then provide extensive empirical evaluation on challenging systems and different datasets that elucidates the comparative performance of our grey-box architecture with comparable white- and black-box models.
翻訳日:2022-10-05 23:20:15 公開日:2020-10-19
# グループインタラクションシーケンスの特徴付けのための関係イベントモデルと逆強化学習との関係

Connections between Relational Event Model and Inverse Reinforcement Learning for Characterizing Group Interaction Sequences ( http://arxiv.org/abs/2010.09810v1 )

ライセンス: Link先を確認
Congyu Wu(参考訳) 本稿では,ネットワーク科学の分野における関係イベントモデル(rem)と,機械学習の分野の逆強化学習(irl)との関係について,グループ設定における有向社会インタラクションイベントのシーケンスを特徴付ける能力について検討する。 REM はそのような問題に対処する従来の手法であるが、IRL の応用は未完成の手法である。 まず、REM と IRL の双方の数学的構成要素を調べ、二つの手法と IRL アプローチの特異な特徴の単純な類似点を求める。 我々は、IRLを用いて、共有目標を達成するために相互作用し協調する仮想現実ゲームプレーヤーのグループからの指示されたコミュニケーションイベントのシーケンスに基づいて、個別の行動選好を推測する経験的な実験と集団の社会的相互作用を特徴づけるIRLの特殊効果を実証する。 比較実験は,ソーシャル行動分析の新しい視点を導入し,ソーシャルネットワーク分析と機械学習の両分野における新たな研究機会の促進に寄与する。

In this paper we explore previously unidentified connections between relational event model (REM) from the field of network science and inverse reinforcement learning (IRL) from the field of machine learning with respect to their ability to characterize sequences of directed social interaction events in group settings. REM is a conventional approach to tackle such a problem whereas the application of IRL is a largely unbeaten path. We begin by examining the mathematical components of both REM and IRL and find straightforward analogies between the two methods as well as unique characteristics of the IRL approach. We demonstrate the special utility of IRL in characterizing group social interactions with an empirical experiment, in which we use IRL to infer individual behavioral preferences based on a sequence of directed communication events from a group of virtual-reality game players interacting and cooperating to accomplish a shared goal. Our comparison and experiment introduce fresh perspectives for social behavior analytics and help inspire new research opportunities at the nexus of social network analysis and machine learning.
翻訳日:2022-10-05 23:19:54 公開日:2020-10-19
# トポロジー対応グラフプーリングネットワーク

Topology-Aware Graph Pooling Networks ( http://arxiv.org/abs/2010.09834v1 )

ライセンス: Link先を確認
Hongyang Gao, Yi Liu, and Shuiwang Ji(参考訳) プーリング操作は、コンピュータビジョンや自然言語処理タスクに有効であることが示されている。 グラフデータでプーリング操作を実行する際の課題のひとつは、グラフ上で明確に定義されていない局所性の欠如である。 以前の研究では、グローバルランキング法を使って重要なノードのいくつかをサンプリングしていたが、ほとんどのノードはグラフトポロジーを組み込むことができない。 本研究では,グラフトポロジを明示的に考慮したトポロジ対応プーリング(TAP)層を提案する。 我々のTAP層は2段階の投票プロセスであり、グラフ内のより重要なノードを選択する。 まずローカル投票を行い、隣接するノードに各ノードが参加することで各ノードのスコアを生成する。 スコアは局所的に生成され、トポロジー情報が明示的に考慮される。 さらに、グラフトポロジーはグローバル投票に組み込まれ、グラフ全体における各ノードの重要性スコアを計算する。 また、各ノードの最終的なランキングスコアは、そのローカルとグローバルの投票スコアを組み合わせて計算される。 グラフのグラフ接続性を向上させるために,評価スコアの計算にグラフ接続性という用語を追加することを提案する。 グラフ分類タスクの結果から,本手法は従来手法よりも一貫した性能が得られることが示された。

Pooling operations have shown to be effective on computer vision and natural language processing tasks. One challenge of performing pooling operations on graph data is the lack of locality that is not well-defined on graphs. Previous studies used global ranking methods to sample some of the important nodes, but most of them are not able to incorporate graph topology. In this work, we propose the topology-aware pooling (TAP) layer that explicitly considers graph topology. Our TAP layer is a two-stage voting process that selects more important nodes in a graph. It first performs local voting to generate scores for each node by attending each node to its neighboring nodes. The scores are generated locally such that topology information is explicitly considered. In addition, graph topology is incorporated in global voting to compute the importance score of each node globally in the entire graph. Altogether, the final ranking score for each node is computed by combining its local and global voting scores. To encourage better graph connectivity in the sampled graph, we propose to add a graph connectivity term to the computation of ranking scores. Results on graph classification tasks demonstrate that our methods achieve consistently better performance than previous methods.
翻訳日:2022-10-05 23:19:32 公開日:2020-10-19
# アダプティブ・トラヒック・フィンガープリント:現実的推定に基づく大規模推論

Adaptive Traffic Fingerprinting: Large-scale Inference under Realistic Assumptions ( http://arxiv.org/abs/2010.10294v1 )

ライセンス: Link先を確認
Vasilios Mavroudis, Jamie Hayes(参考訳) 暗号化通信(TLSプロトコル、Tor匿名ネットワークなど)の普及により、いくつかの重大なセキュリティ上の欠陥が修正され、エンドユーザは送信されたデータを傍受する敵から保護された。 これらのプロトコルは、ユーザのデータの機密性(クレジットカード番号など)を保護するのに非常に効果的であるが、ユーザーのプライバシーを侵害しようとする敵に対して(異なる程度に)なりやすいことが示されている。 トラフィックフィンガープリント攻撃は、相手がユーザーの暗号化されたトラフィックのパターンのみに基づいてウェブページやウェブサイトを推測することを可能にする。 実際、最近の多くの研究は、敵の最適条件下で非常に高い分類精度を達成できた。 本稿では,これらの研究の最適性仮定を再考し,指紋認証モデルを評価する際に考慮すべきパラメータについて考察する。 様々な要因が敵の動作や操作に影響を与える可能性のある非最適フィンガープリンティング条件をシミュレートする3つの現実的なシナリオを提案する。 次に,新しい適応型フィンガープリンティング手法を導入し,その精度と動作を実験的に評価する。 本実験は, 利用者が訪問するWebページを, 相当な分散シフトの下でも確実に発見できることを示すものである(例えば, 時間とともにウェブページの内容が著しく変化する)。 そのような敵は、ユーザーがショッピングウェブサイトで閲覧する商品を推測したり、オンラインフォーラムや百科事典で州の反対者の閲覧習慣を記録できる。 本手法は,wikipedia 6,000 ページ中から訪問した記事を識別するtop-15 で90%の精度を実現し,同じモデルではトレーニングセットに含まれない 13,000 クラスのデータセットで 80% の精度を達成している。

The widespread adoption of encrypted communications (e.g., the TLS protocol, the Tor anonymity network) fixed several critical security flaws and shielded the end-users from adversaries intercepting their transmitted data. While these protocols are very effective in protecting the confidentiality of the users' data (e.g., credit card numbers), it has been shown that they are prone (to different degrees) to adversaries aiming to breach the users' privacy. Traffic fingerprinting attacks allow an adversary to infer the webpage or the website loaded by a user based only on patterns in the user's encrypted traffic. In fact, many recent works managed to achieve a very high classification accuracy under optimal conditions for the adversary. This paper revisits the optimality assumptions made by those works and discusses various additional parameters that should be considered when evaluating a fingerprinting model. We propose three realistic scenarios simulating non-optimal fingerprinting conditions where various factors could affect the adversary's performance or operation. We then introduce a novel adaptive fingerprinting adversary and experimentally evaluate its accuracy and operation. Our experiments show that adaptive adversaries can reliably uncover the webpage visited by a user among several thousand potential pages, even under considerable distributional shift (e.g., the webpage contents change significantly over time). Such adversaries could infer the products a user browses on shopping websites or log the browsing habits of state dissidents on online forums and encyclopedias. Our technique achieves ~90% accuracy in a top-15 setting where the model distinguishes the article visited out of 6,000 Wikipedia webpages, while the same model achieves ~80% accuracy in a dataset of 13,000 classes that were not included in the training set.
翻訳日:2022-10-05 23:18:36 公開日:2020-10-19
# deep convolutional koopman networkを用いたビデオデータからの離散スペクトルモードの抽出

Extraction of Discrete Spectra Modes from Video Data Using a Deep Convolutional Koopman Network ( http://arxiv.org/abs/2010.09245v1 )

ライセンス: Link先を確認
Scott Leask, Vincent McDonell(参考訳) クープマン理論の最近の深層学習拡張は、線形解析に適する非線形力学系のコンパクトで解釈可能な表現を可能にした。 ディープ・クープマン・ネットワークは座標変換を捉えるクープマン固有関数を学習し、システムダイナミクスをグローバルに線形化しようとする。 これらの固有関数は、システムの動的挙動を管理する基礎となるシステムモードにリンクすることができる。 多くの関連技術が標準系とその関連する状態変数に対して有効性を示しているが、この研究では系力学は光学的に観察される(ビデオ形式)。 離散スペクトルを持つ力学系における独立モードの自動同定における深い畳み込みクープマンネットワーク(CKN)の機能を示す。 実際、データの取得が容易な可観測変数であるため、システムデータ収集の柔軟性が得られます。 学習されたモデルは、冗長に大きな埋め込み空間であっても、システムを支配する基盤となるモードを成功かつ堅牢に識別することができる。 モーダル・ディスアグレゲーションは単純なマスキング手順を用いて推奨される。 この研究で分析された全てのシステムは同一のネットワークアーキテクチャを使用する。

Recent deep learning extensions in Koopman theory have enabled compact, interpretable representations of nonlinear dynamical systems which are amenable to linear analysis. Deep Koopman networks attempt to learn the Koopman eigenfunctions which capture the coordinate transformation to globally linearize system dynamics. These eigenfunctions can be linked to underlying system modes which govern the dynamical behavior of the system. While many related techniques have demonstrated their efficacy on canonical systems and their associated state variables, in this work the system dynamics are observed optically (i.e. in video format). We demonstrate the ability of a deep convolutional Koopman network (CKN) in automatically identifying independent modes for dynamical systems with discrete spectra. Practically, this affords flexibility in system data collection as the data are easily obtainable observable variables. The learned models are able to successfully and robustly identify the underlying modes governing the system, even with a redundantly large embedding space. Modal disaggregation is encouraged using a simple masking procedure. All of the systems analyzed in this work use an identical network architecture.
翻訳日:2022-10-05 23:17:27 公開日:2020-10-19
# 支配のない生成モデルの統計的保証

Statistical guarantees for generative models without domination ( http://arxiv.org/abs/2010.09237v1 )

ライセンス: Link先を確認
Nicolas Schreuder and Victor-Emmanuel Brunel and Arnak Dalalyan(参考訳) 本稿では,統計的観点から(逆)生成モデルを研究するための便利な枠組みを提案する。 生成装置を、周囲の空間よりもはるかに小さい次元の単位超キューブの滑らかな変換としてモデル化し、積分確率計量を用いて生成モデルの品質を測定する。 滑らか度クラスで定義される積分確率計量の特定の場合、様々なパラメータの役割を定量化するリスクを確立する。 特に,次元減少が生成モデルの誤差に与える影響を明らかにした。

In this paper, we introduce a convenient framework for studying (adversarial) generative models from a statistical perspective. It consists in modeling the generative device as a smooth transformation of the unit hypercube of a dimension that is much smaller than that of the ambient space and measuring the quality of the generative model by means of an integral probability metric. In the particular case of integral probability metric defined through a smoothness class, we establish a risk bound quantifying the role of various parameters. In particular, it clearly shows the impact of dimension reduction on the error of the generative model.
翻訳日:2022-10-05 23:10:51 公開日:2020-10-19
# 自動知識発見、抽出、融合による企業評価の改善

Improving Company Valuations with Automated Knowledge Discovery, Extraction and Fusion ( http://arxiv.org/abs/2010.09249v1 )

ライセンス: Link先を確認
Albert Weichselbraun and Philipp Kuntschik and Sandro H\"orler(参考訳) バイオテクノロジー、薬局、医療技術の分野における企業評価の実行は、特に新しい市場に参入する際にバイオテクノロジースタートアップが直面するユニークなリスクを考える場合、難しい課題である。 したがって、グローバルなバリュエーションサービスに特化した企業は、バリュエーションモデルと過去の経験と、企業のパフォーマンスに関する洞察を提供する異質な指標とインジケータを組み合わせる。 本稿では,知識発見,抽出,データ融合の自動化について述べる。 (i)会社の製品開発努力の成功に関する洞察を提供する追加指標を取得し、 (ii)労働集約型データキュレーションプロセスのサポート。 我々は,プロプライエタリな検索インターフェースの背後に隠れた臨床試験のデータを特定し収集するために,ディープウェブ知識取得手法を適用し,抽出したデータをその業界パートナーの企業評価オントロジーに統合する。 さらに、集中したWebクロールと、企業のキーパーソナライズ情報と各連絡先データに関する浅いセマンティクス解析により、業界パートナーの企業データに組み込まれる関連する変更をドメインの専門家に通知する。

Performing company valuations within the domain of biotechnology, pharmacy and medical technology is a challenging task, especially when considering the unique set of risks biotech start-ups face when entering new markets. Companies specialized in global valuation services, therefore, combine valuation models and past experience with heterogeneous metrics and indicators that provide insights into a company's performance. This paper illustrates how automated knowledge discovery, extraction and data fusion can be used to (i) obtain additional indicators that provide insights into the success of a company's product development efforts, and (ii) support labor-intensive data curation processes. We apply deep web knowledge acquisition methods to identify and harvest data on clinical trials that is hidden behind proprietary search interfaces and integrate the extracted data into the industry partner's company valuation ontology. In addition, focused Web crawls and shallow semantic parsing yield information on the company's key personnel and respective contact data, notifying domain experts of relevant changes that get then incorporated into the industry partner's company data.
翻訳日:2022-10-05 23:09:46 公開日:2020-10-19
# DeepWiPHY:IEEE 802.11axシステムのためのディープラーニングベースの受信者設計とデータセット

DeepWiPHY: Deep Learning-based Receiver Design and Dataset for IEEE 802.11ax Systems ( http://arxiv.org/abs/2010.09268v1 )

ライセンス: Link先を確認
Yi Zhang and Akash Doshi and Rob Liston and Wai-tian Tan and Xiaoqing Zhu and Jeffrey G. Andrews and Robert W. Heath(参考訳) 本研究では、チャネル推定、共通位相誤差(CPE)補正、サンプリングレートオフセット(SRO)補正、IEEE 802.11axベースの直交周波数分割多重化(OFDM)受信器の等化モジュールを置換するディープラーニングアーキテクチャであるDeepWiPHYを開発する。 まず,代表的な屋内チャネルモデルを用いて生成された合成データセットを用いてdeepwiphyを訓練し,無線システムの非線形性源である典型的なrf障害を含む。 実世界のデータを用いてDeepWiPHYをさらに訓練し評価するために,Universal Software Radio Peripherals (USRPs) と市販のIEEE 802.11ax製品からなる受動スニッフィングベースのデータ収集テストベッドを開発した。 合成および実世界のデータセットによるdeepwiphyの包括的評価(1億1000万の合成ofdmシンボルと1400万実世界のofdmシンボル)では、ニューラルネットワークのアーキテクチャパラメータを微調整しなくても、ビットエラーレート(ber)とパケットエラーレート(per)の両方において、幅広いチャネルモデル、信号対ノイズ(snr)レベル、変調スキームにおいて、deepwiphyが従来のwlan受信機に匹敵する性能を達成することが確認されている。

In this work, we develop DeepWiPHY, a deep learning-based architecture to replace the channel estimation, common phase error (CPE) correction, sampling rate offset (SRO) correction, and equalization modules of IEEE 802.11ax based orthogonal frequency division multiplexing (OFDM) receivers. We first train DeepWiPHY with a synthetic dataset, which is generated using representative indoor channel models and includes typical radio frequency (RF) impairments that are the source of nonlinearity in wireless systems. To further train and evaluate DeepWiPHY with real-world data, we develop a passive sniffing-based data collection testbed composed of Universal Software Radio Peripherals (USRPs) and commercially available IEEE 802.11ax products. The comprehensive evaluation of DeepWiPHY with synthetic and real-world datasets (110 million synthetic OFDM symbols and 14 million real-world OFDM symbols) confirms that, even without fine-tuning the neural network's architecture parameters, DeepWiPHY achieves comparable performance to or outperforms the conventional WLAN receivers, in terms of both bit error rate (BER) and packet error rate (PER), under a wide range of channel models, signal-to-noise (SNR) levels, and modulation schemes.
翻訳日:2022-10-05 23:09:27 公開日:2020-10-19
# 深部畳み込みニューラルネットワークを用いたSPECT画像再構成法

SPECT Imaging Reconstruction Method Based on Deep Convolutional Neural Network ( http://arxiv.org/abs/2010.09472v1 )

ライセンス: Link先を確認
Charalambos Chrysostomou, Loizos Koutsantonis, Christos Lemesios, Costas N. Papanicolas(参考訳) 本稿では,spect画像の分野における新しい断層画像再構成法について検討する。 深層学習手法や特に深層畳み込みニューラルネットワーク(cnn)が新しい再構成法として採用され、「cnn reconstruction - cnnr」と呼ばれている。 ソフトウェアファントムからのCNNRプロジェクションデータのトレーニングに使用された。 CNNR法の有効性を評価するために,ソフトウェアファントムとハードウェアファントムの両方を使用した。 得られたトモグラフィー画像は、フィルタバックプロジェクション(FBP)[1]、"Maximum Likelihood expectation Maximization"(MLEM)[1]および順序付きサブセット期待最大化(OSEM)[2]によって生成された画像と比較される。

In this paper, we explore a novel method for tomographic image reconstruction in the field of SPECT imaging. Deep Learning methodologies and more specifically deep convolutional neural networks (CNN) are employed in the new reconstruction method, which is referred to as "CNN Reconstruction - CNNR". For training of the CNNR Projection data from software phantoms were used. For evaluation of the efficacy of the CNNR method, both software and hardware phantoms were used. The resulting tomographic images are compared to those produced by filtered back projection (FBP) [1], the "Maximum Likelihood Expectation Maximization" (MLEM) [1] and ordered subset expectation maximization (OSEM) [2].
翻訳日:2022-10-05 23:08:37 公開日:2020-10-19
# All Odds:Evasion competition with Diversificationでディフェンスチャレンジに勝つ

Against All Odds: Winning the Defense Challenge in an Evasion Competition with Diversification ( http://arxiv.org/abs/2010.09569v1 )

ライセンス: Link先を確認
Erwin Quiring, Lukas Pirch, Michael Reimsbach, Daniel Arp, Konrad Rieck(参考訳) マルウェア検出のための機械学習ベースのシステムは、敵対的な環境で動作します。 その結果、敵は学習システムもターゲットとし、マルウェアの検出を回避するために回避攻撃を使用する。 本稿では,microsoftの回避競争におけるディフェンダーチャレンジにおいて,独立した攻撃者によるさまざまな攻撃に抵抗し,第1位となった学習ベースのシステムpeberusについて概説する。 我々のシステムは、複数の多様な防御を組み合わせる:我々は、意味的ギャップに対処し、様々な分類モデルを使用し、ステートフルな防御を適用する。 この競争は、現実のシナリオで回避攻撃を調べるユニークな機会を与えてくれます。 また、攻撃面を徹底的に分析し、敵の学習から概念を実装することで、既存の機械学習手法を攻撃に対して強固にすることができることも強調する。 我々の防衛は、セキュアな学習の研究を強化するために、将来追加のベースラインとして機能する。

Machine learning-based systems for malware detection operate in a hostile environment. Consequently, adversaries will also target the learning system and use evasion attacks to bypass the detection of malware. In this paper, we outline our learning-based system PEberus that got the first place in the defender challenge of the Microsoft Evasion Competition, resisting a variety of attacks from independent attackers. Our system combines multiple, diverse defenses: we address the semantic gap, use various classification models, and apply a stateful defense. This competition gives us the unique opportunity to examine evasion attacks under a realistic scenario. It also highlights that existing machine learning methods can be hardened against attacks by thoroughly analyzing the attack surface and implementing concepts from adversarial learning. Our defense can serve as an additional baseline in the future to strengthen the research on secure learning.
翻訳日:2022-10-05 23:08:07 公開日:2020-10-19
# 自己教師付きアグリゲーション学習によるx線異常検出

Anomaly Detection on X-Rays Using Self-Supervised Aggregation Learning ( http://arxiv.org/abs/2010.09856v1 )

ライセンス: Link先を確認
Behzad Bozorgtabar, Dwarikanath Mahapatra, Guillaume Vray, Jean-Philippe Thiran(参考訳) 教師付き学習モードを用いた深部異常検出モデルは、通常、閉じた仮定の下で動作し、トレーニングでこれまで見られた稀な異常に過度に適合し、実際のシナリオでの適用性を妨げている。 また、X線アノテーションの取得には非常に時間がかかり、放射線技師の広範な訓練が必要である。 したがって、完全教師なしまたは自己監督的な方法での異常検出の訓練は有利であり、放射線学者による報告に費やされた時間を大幅に短縮することができる。 本稿では,X線画像の異常検出のためのエンドツーエンドの自己監視手法であるSALADを提案する。 提案手法は、深層ニューラルネットワークが埋め込み空間における正規データの原型的局所パターンを表現することを推奨する最適化戦略に基づいている。 トレーニング中、メモリバンクを介して通常のトレーニングサンプルの原型パターンを記録する。 この異常スコアは, 異常パターンを使わずに, メモリバンク内の正常な原型パターンの重み付け組み合わせと類似度を計測することによって得られる。 我々はNIH Chest X-ray と mura データセットの挑戦実験を行い,我々のアルゴリズムが最先端の手法を幅広いマージンで改善することを示す。

Deep anomaly detection models using a supervised mode of learning usually work under a closed set assumption and suffer from overfitting to previously seen rare anomalies at training, which hinders their applicability in a real scenario. In addition, obtaining annotations for X-rays is very time consuming and requires extensive training of radiologists. Hence, training anomaly detection in a fully unsupervised or self-supervised fashion would be advantageous, allowing a significant reduction of time spent on the report by radiologists. In this paper, we present SALAD, an end-to-end deep self-supervised methodology for anomaly detection on X-Ray images. The proposed method is based on an optimization strategy in which a deep neural network is encouraged to represent prototypical local patterns of the normal data in the embedding space. During training, we record the prototypical patterns of normal training samples via a memory bank. Our anomaly score is then derived by measuring similarity to a weighted combination of normal prototypical patterns within a memory bank without using any anomalous patterns. We present extensive experiments on the challenging NIH Chest X-rays and MURA dataset, which indicate that our algorithm improves state-of-the-art methods by a wide margin.
翻訳日:2022-10-05 23:00:44 公開日:2020-10-19
# 魚眼レンズの歪み補正

Fisheye lens distortion correction ( http://arxiv.org/abs/2010.10295v1 )

ライセンス: Link先を確認
Dmitry Pozdnyakov(参考訳) 本研究では,等距離マッピング機能を有する魚眼レンズの歪み補正アルゴリズムについて検討した。 このアルゴリズムは、ブラウンコンラディモデルのような古典的なアプローチよりも、データロスレスで正確です。

A new distortion correction algorithm for fisheye lens with equidistant mapping function is considered in the present study. The algorithm is much more data lossless and accurate than such a classical approach like Brown-Conrady model
翻訳日:2022-10-05 23:00:23 公開日:2020-10-19
# アンロールアルゴリズムによるテレビ正規化問題の解法

Learning to solve TV regularized problems with unrolled algorithms ( http://arxiv.org/abs/2010.09545v1 )

ライセンス: Link先を確認
Hamza Cherkaoui and Jeremias Sulam and Thomas Moreau(参考訳) total variation (tv) は、推定された信号の1次微分の$\ell_1$-norm を制約することにより、断片的な定数信号を促進する一般的な正規化戦略である。 結果の最適化問題は、通常、近位勾配降下、原始双対アルゴリズム、ADMMなどの反復アルゴリズムを用いて解決される。 しかし、そのような方法は適切な解に収束するために非常に多くの反復を必要とする。 本稿では,1次元テレビ正則化問題のパラメータを学習するために,近位勾配降下ソルバを展開することにより,反復アルゴリズムを高速化する。 これは合成定式化を用いて行うことができるが、性能が遅くなることを示す。 このような手法を解析的定式化に適用することの最大の難点は、近位作用素を通じて微分を計算する方法を提案することである。 主な貢献として、我々は2つのアプローチを開発し、その利点と限界を説明し、反復的な手順よりも実際に改善できる体制について議論する。 これらを合成データと実データを用いて検証する。

Total Variation (TV) is a popular regularization strategy that promotes piece-wise constant signals by constraining the $\ell_1$-norm of the first order derivative of the estimated signal. The resulting optimization problem is usually solved using iterative algorithms such as proximal gradient descent, primal-dual algorithms or ADMM. However, such methods can require a very large number of iterations to converge to a suitable solution. In this paper, we accelerate such iterative algorithms by unfolding proximal gradient descent solvers in order to learn their parameters for 1D TV regularized problems. While this could be done using the synthesis formulation, we demonstrate that this leads to slower performances. The main difficulty in applying such methods in the analysis formulation lies in proposing a way to compute the derivatives through the proximal operator. As our main contribution, we develop and characterize two approaches to do so, describe their benefits and limitations, and discuss the regime where they can actually improve over iterative procedures. We validate those findings with experiments on synthetic and real data.
翻訳日:2022-10-05 22:53:10 公開日:2020-10-19
# 測度仮説の集中を伴うランダム方程式に対する解の集中

Concentration of solutions to random equations with concentration of measure hypotheses ( http://arxiv.org/abs/2010.09877v1 )

ライセンス: Link先を確認
Cosme Louart and Romain Couillet(参考訳) ここでは、固定点として暗黙的に定式化されるランダム対象の濃度を方程式 $Y = f(X)$ ここで、f$はランダム写像である。 測度理論の濃度から得られた仮説から始めて、そのような解の濃度を$f$のある種の縮約仮説の下で正確に表現することができる。 この文はランダム行列論に重要な意味を持ち、例えばロジスティック回帰のようないくつかの最適化手順の研究の基礎となっている。 これらの最後のケースでは、解の最初の統計値である$y$に対して正確な推定を行い、アルゴリズムの性能を予測できる。

We propose here to study the concentration of random objects that are implicitly formulated as fixed points to equations $Y = f(X)$ where $f$ is a random mapping. Starting from an hypothesis taken from the concentration of the measure theory, we are able to express precisely the concentration of such solutions, under some contractivity hypothesis on $f$. This statement has important implication to random matrix theory, and is at the basis of the study of some optimization procedures like the logistic regression for instance. In those last cases, we give precise estimations to the first statistics of the solution $Y$ which allows us predict the performances of the algorithm.
翻訳日:2022-10-05 22:52:52 公開日:2020-10-19
# 逆例の原因の検証

Verifying the Causes of Adversarial Examples ( http://arxiv.org/abs/2010.09633v1 )

ライセンス: Link先を確認
Honglin Li, Yifei Fan, Frieder Ganz, Anthony Yezzi, Payam Barnaghi(参考訳) ニューラルネットワークのロバスト性は、入力に対するほとんど知覚不能な摂動を含む敵の例によって挑戦され、高い信頼度で出力を誤ったものと誤認する。 高次元画像空間を徹底的に調べることの難しさに制限され、敵対的な例の原因の説明と正当化の研究は、攻撃と防御の研究の背後にある。 本稿では,敵対的事例の潜在的な原因の収集と,慎重に設計された制御実験による検証(あるいは部分的に検証)を行う。 逆行例の主な原因は、モデル線形性、単和制約、圏の幾何学である。 これらの原因の影響を制御するために、$L_2$正規化、損失関数の置換、参照データセットの構築、多層パーセプトロン確率ニューラルネットワーク(MLP-PNN)と密度推定(DE)を用いた新しいモデルなど、複数の手法が適用される。 実験の結果,幾何学的要因はより直接的な原因であり,統計的要因は現象を増大させる傾向を示し,特に高い予測信頼性を付与する。 本稿は,より強固なモデルを設計する上で有用なガイダンスを提供するため,逆行例の根本原因を厳格に調査するためのさらなる研究を刺激すると考えている。

The robustness of neural networks is challenged by adversarial examples that contain almost imperceptible perturbations to inputs, which mislead a classifier to incorrect outputs in high confidence. Limited by the extreme difficulty in examining a high-dimensional image space thoroughly, research on explaining and justifying the causes of adversarial examples falls behind studies on attacks and defenses. In this paper, we present a collection of potential causes of adversarial examples and verify (or partially verify) them through carefully-designed controlled experiments. The major causes of adversarial examples include model linearity, one-sum constraint, and geometry of the categories. To control the effect of those causes, multiple techniques are applied such as $L_2$ normalization, replacement of loss functions, construction of reference datasets, and novel models using multi-layer perceptron probabilistic neural networks (MLP-PNN) and density estimation (DE). Our experiment results show that geometric factors tend to be more direct causes and statistical factors magnify the phenomenon, especially for assigning high prediction confidence. We believe this paper will inspire more studies to rigorously investigate the root causes of adversarial examples, which in turn provide useful guidance on designing more robust models.
翻訳日:2022-10-05 22:44:45 公開日:2020-10-19
# KL損失を持つ距離空間における非パラメトリック二項回帰

Non-parametric Binary regression in metric spaces with KL loss ( http://arxiv.org/abs/2010.09886v1 )

ライセンス: Link先を確認
Ariel Avital, Klim Efremenko, Aryeh Kontorovich, David Toplin, Bo Waggoner(参考訳) 計量空間を [0,1] とし、損失が対数であるようなリプシッツ関数として定式化される二項回帰の非パラメトリック変種を提案する。 この設定は、新しい計算および統計的課題を示す。 計算面では、内部点法に基づく新しい効率的な最適化アルゴリズムが導出され、パラメータフリーである(すなわち、更新ステップサイズをチューニングする必要がなくなる)のが特徴である。 統計面では、非有界損失関数は被覆数とラデマッハ法に基づく古典的な一般化境界の問題を示す。 適応的トランケーションアプローチによってこの課題を回避し、また、ある意味では、そのトランケーションが必要であることを示す下界を示す。

We propose a non-parametric variant of binary regression, where the hypothesis is regularized to be a Lipschitz function taking a metric space to [0,1] and the loss is logarithmic. This setting presents novel computational and statistical challenges. On the computational front, we derive a novel efficient optimization algorithm based on interior point methods; an attractive feature is that it is parameter-free (i.e., does not require tuning an update step size). On the statistical front, the unbounded loss function presents a problem for classic generalization bounds, based on covering-number and Rademacher techniques. We get around this challenge via an adaptive truncation approach, and also present a lower bound indicating that the truncation is, in some sense, necessary.
翻訳日:2022-10-05 22:44:22 公開日:2020-10-19
# ニューラルネットワークのリアルタイム性能を考慮したロバストネスアウェア2ビット量子化

Robustness-aware 2-bit quantization with real-time performance for neural network ( http://arxiv.org/abs/2010.11271v1 )

ライセンス: Link先を確認
Xiaobin Li, Hongxu Jiang, Shuangxi Huang, Fangzheng Tian(参考訳) ビット精度を下げた量子ニューラルネットワーク(NN)は、計算とメモリリソースの要求を減らし、機械学習において重要な役割を果たす効果的なソリューションである。 しかし, 数値近似と低冗長性により, 精度が著しく低下することを避けることは依然として困難である。 本稿では,二元NNと生成逆数ネットワーク(GAN)をベースとしたNNベースに対して,新しいロバスト性を考慮した2ビット量子化手法を提案し,二元NNの情報を強化し,構造情報を効率的に抽出し,量子化NNのロバスト性を考慮した。 具体的には、シフト加算演算を用いて量子化処理魔女における乗算累積を置き換えることにより、NNを効果的に高速化することができる。 一方、元のNNと量子化NNの間の構造的損失は、量子化後のデータ構造情報を保存するように提案する。 NNから学んだ構造情報は、性能向上に重要な役割を果たすだけでなく、構造損失にリプシッツ制約を適用することにより、量子化ネットワークをさらに微調整することができる。 さらに, 量子化nnのロバスト性を初めて考慮し, スペクトルノルムの外来項を導入することにより, 非感受性摂動損失関数を提案する。 実験は、一般的なNN(MoblieNetV2、SqueezeNet、ResNet20など)を使用したCIFAR-10とImageNetデータセットで実施されている。 実験の結果,提案アルゴリズムは最先端の量子化法よりも2ビット精度で競合することがわかった。 また,提案手法はFGSM対逆サンプル攻撃下では頑健であることを示す実験結果を得た。

Quantized neural network (NN) with a reduced bit precision is an effective solution to reduces the computational and memory resource requirements and plays a vital role in machine learning. However, it is still challenging to avoid the significant accuracy degradation due to its numerical approximation and lower redundancy. In this paper, a novel robustness-aware 2-bit quantization scheme is proposed for NN base on binary NN and generative adversarial network(GAN), witch improves the performance by enriching the information of binary NN, efficiently extract the structural information and considering the robustness of the quantized NN. Specifically, using shift addition operation to replace the multiply-accumulate in the quantization process witch can effectively speed the NN. Meanwhile, a structural loss between the original NN and quantized NN is proposed to such that the structural information of data is preserved after quantization. The structural information learned from NN not only plays an important role in improving the performance but also allows for further fine tuning of the quantization network by applying the Lipschitz constraint to the structural loss. In addition, we also for the first time take the robustness of the quantized NN into consideration and propose a non-sensitive perturbation loss function by introducing an extraneous term of spectral norm. The experiments are conducted on CIFAR-10 and ImageNet datasets with popular NN( such as MoblieNetV2, SqueezeNet, ResNet20, etc). The experimental results show that the proposed algorithm is more competitive under 2-bit-precision than the state-of-the-art quantization methods. Meanwhile, the experimental results also demonstrate that the proposed method is robust under the FGSM adversarial samples attack.
翻訳日:2022-10-05 22:44:09 公開日:2020-10-19
# SMILES表現に基づく自己注意型マルチタスク学習による化学特性の予測

Predicting Chemical Properties using Self-Attention Multi-task Learning based on SMILES Representation ( http://arxiv.org/abs/2010.11272v1 )

ライセンス: Link先を確認
Sangrak Lim and Yong Oh Lee(参考訳) 化学化合物特性の計算予測では、低次元ベクトルに符号化された分子記述子と指紋を用いる。 適切な分子ディスクリプタと指紋の選択は、これらのモデルの性能がディスクリプタに大きく依存するため、重要かつ困難である。 この課題を克服するために, 簡易な分子入力線入力を入力として利用する自然言語処理モデルについて検討し, トランスフォーマティヴモデルが従来の手法と比較して優れた結果を得た。 本研究では,トランス変圧器モデルの構造的差異を考察し,新しい自己拘束型モデルを提案する。 セルフアテンションモジュールの表現学習性能を,不均衡化学データセットを用いたマルチタスク学習環境で評価した。 実験の結果,いくつかのベンチマークデータセットで比較結果が得られた。 実験のソースコードはhttps://github.com/arwhirang/sa-mtlで公開されています。

In the computational prediction of chemical compound properties, molecular descriptors and fingerprints encoded to low dimensional vectors are used. The selection of proper molecular descriptors and fingerprints is both important and challenging as the performance of such models is highly dependent on descriptors. To overcome this challenge, natural language processing models that utilize simplified molecular input line-entry system as input were studied, and several transformer-variant models achieved superior results when compared with conventional methods. In this study, we explored the structural differences of the transformer-variant model and proposed a new self-attention based model. The representation learning performance of the self-attention module was evaluated in a multi-task learning environment using imbalanced chemical datasets. The experiment results showed that our model achieved competitive outcomes on several benchmark datasets. The source code of our experiment is available at https://github.com/arwhirang/sa-mtl and the dataset is available from the same URL.
翻訳日:2022-10-05 22:43:42 公開日:2020-10-19
# 選択的近傍モデルを用いた勧告の統一モデル

A Unified Model for Recommendation with Selective Neighborhood Modeling ( http://arxiv.org/abs/2010.08547v1 )

ライセンス: Link先を確認
Jingwei Ma and Jiahui Wen and Panpan Zhang and Guangda Zhang and Xue Li(参考訳) 近隣の推奨者は、CF(Collaborative Filtering)モデルの主要なクラスである。 直感は、見当たらないユーザーとアイテムのペアを橋渡しし、データのスパースを緩和するために、類似の好みを持つ隣人を悪用することである。 既存の多くの研究は、隣人を集約し、推薦のためにユーザーの特定のサブセットにより高い重みをつけるニューラルネットワークを提案している。 しかし、近隣の情報は必ずしも情報であり、近隣の騒音はモデル性能に悪影響を及ぼす可能性がある。 この問題に対処するため、我々は、類似の隣人を異種(ノイズ)から自動的に分離し、類似の隣人を集約して近隣表現を構成するハイブリッドゲートネットワークを提案する。 近所の信頼感はまた、近所の情報に自信があるなら、その隣の表現に重みを付けて対処し、その逆にも対処します。 さらに,潜在空間内のユーザ近傍を明示的に正規化するために,ユーザ近傍コンポーネントを提案する。 これら2つのコンポーネントは、レコメンデーションタスクのために互いに補完するために、統一されたモデルに結合されます。 公開されている3つのデータセットに関する広範な実験は、提案モデルが最先端の近所ベースのレコメンダを一貫して上回っていることを示している。 また,提案モデルの異なる変種について検討し,提案するハイブリッドゲートネットワークとユーザ・neighborモデリングコンポーネントの直観を正当化する。

Neighborhood-based recommenders are a major class of Collaborative Filtering (CF) models. The intuition is to exploit neighbors with similar preferences for bridging unseen user-item pairs and alleviating data sparseness. Many existing works propose neural attention networks to aggregate neighbors and place higher weights on specific subsets of users for recommendation. However, the neighborhood information is not necessarily always informative, and the noises in the neighborhood can negatively affect the model performance. To address this issue, we propose a novel neighborhood-based recommender, where a hybrid gated network is designed to automatically separate similar neighbors from dissimilar (noisy) ones, and aggregate those similar neighbors to comprise neighborhood representations. The confidence in the neighborhood is also addressed by putting higher weights on the neighborhood representations if we are confident with the neighborhood information, and vice versa. In addition, a user-neighbor component is proposed to explicitly regularize user-neighbor proximity in the latent space. These two components are combined into a unified model to complement each other for the recommendation task. Extensive experiments on three publicly available datasets show that the proposed model consistently outperforms state-of-the-art neighborhood-based recommenders. We also study different variants of the proposed model to justify the underlying intuition of the proposed hybrid gated network and user-neighbor modeling components.
翻訳日:2022-10-05 22:43:25 公開日:2020-10-19
# COSEA:レイヤワイドアテンションによる畳み込みコード検索

COSEA: Convolutional Code Search with Layer-wise Attention ( http://arxiv.org/abs/2010.09520v1 )

ライセンス: Link先を確認
Hao Wang, Jia Zhang, Yingce Xia, Jiang Bian, Chao Zhang, Tie-Yan Liu(参考訳) 自然言語クエリに関連するコードスニペットの検索を目的としたセマンティックコード検索は,ソフトウェア開発を加速する目的で,多くの研究成果を集めている。 オンラインで公開されている大量のコードリポジトリは、最先端のコード検索モデルを構築するためにディープラーニング技術が採用されている。 特に、深層ニューラルネットワークを利用して、コードとクエリを統一されたセマンティックベクトル空間に埋め込み、コードとクエリのベクトル間の類似性を利用して、コードとクエリ間のセマンティック相関を近似する。 しかし、既存のほとんどの研究は、コード固有の構造論理を見落としており、それは実際には多くの意味情報を含んでおり、コード固有の特徴を捉えていない。 本稿では,畳み込みニューラルネットワークを利用した新しいディープラーニングアーキテクチャCOSEAを提案する。 COSEAの学習効率をさらに高めるために,コード検索モデルのトレーニングにおいて,最も類似した負のサンプルと接点の符号を区別するコントラスト損失のバリエーションを提案する。 我々はCOSEAのプロトタイプを実装した。 PythonとSQLの既存の公開データセットに対する大規模な実験は、COSEAがコード検索タスクの最先端メソッドよりも大幅に改善できることを示した。

Semantic code search, which aims to retrieve code snippets relevant to a given natural language query, has attracted many research efforts with the purpose of accelerating software development. The huge amount of online publicly available code repositories has prompted the employment of deep learning techniques to build state-of-the-art code search models. Particularly, they leverage deep neural networks to embed codes and queries into a unified semantic vector space and then use the similarity between code's and query's vectors to approximate the semantic correlation between code and the query. However, most existing studies overlook the code's intrinsic structural logic, which indeed contains a wealth of semantic information, and fails to capture intrinsic features of codes. In this paper, we propose a new deep learning architecture, COSEA, which leverages convolutional neural networks with layer-wise attention to capture the valuable code's intrinsic structural logic. To further increase the learning efficiency of COSEA, we propose a variant of contrastive loss for training the code search model, where the ground-truth code should be distinguished from the most similar negative sample. We have implemented a prototype of COSEA. Extensive experiments over existing public datasets of Python and SQL have demonstrated that COSEA can achieve significant improvements over state-of-the-art methods on code search tasks.
翻訳日:2022-10-05 22:42:29 公開日:2020-10-19
# DIME: クロスモーダル検索モデルのビジュアル比較のためのオンラインツール

DIME: An Online Tool for the Visual Comparison of Cross-Modal Retrieval Models ( http://arxiv.org/abs/2010.09641v1 )

ライセンス: Link先を確認
Tony Zhao, Jaeyoung Choi, Gerald Friedland(参考訳) クロスモーダル検索は、画像、テキスト、ビデオなどのモダリティにまたがるクエリの関連結果を取得するための正確なモデルに依存している。 本稿では,モデル評価の難しさを量的・質的・迅速に解決し,先行研究の土台を構築する。 DIME(Dataset, Index, Model, Embedding)は、マルチモーダルデータセット、トレーニング済みモデル、およびデータプリプロセッサを扱うモダリティ非依存のツールで、Webブラウザのグラフィカルユーザインタフェースとのモデル比較を簡単にサポートする。 DIMEは本来、モダリティに依存しないクエリ可能なインデックスの構築と関連する機能埋め込みの抽出をサポートし、データセットを探索し検索するための効率的なクロスモーダルツールとして効果的に倍増する。

Cross-modal retrieval relies on accurate models to retrieve relevant results for queries across modalities such as image, text, and video. In this paper, we build upon previous work by tackling the difficulty of evaluating models both quantitatively and qualitatively quickly. We present DIME (Dataset, Index, Model, Embedding), a modality-agnostic tool that handles multimodal datasets, trained models, and data preprocessors to support straightforward model comparison with a web browser graphical user interface. DIME inherently supports building modality-agnostic queryable indexes and extraction of relevant feature embeddings, and thus effectively doubles as an efficient cross-modal tool to explore and search through datasets.
翻訳日:2022-10-05 22:41:38 公開日:2020-10-19
# 遅延宇宙エネルギーに基づく分子生成の事前学習モデル

Learning Latent Space Energy-Based Prior Model for Molecule Generation ( http://arxiv.org/abs/2010.09351v1 )

ライセンス: Link先を確認
Bo Pang, Tian Han, Ying Nian Wu(参考訳) 深層生成モデルは最近分子設計に応用されている。 分子が線形スマイル文字列でコードされている場合、モデリングは便利になる。 しかし、文字列表現に依存するモデルは、無効なサンプルと重複を生成する傾向がある。 以前の研究は、化学的に有価な断片のモデルを構築したり、生成過程において化学規則を明示的に強制することでこれらの問題に対処した。 単純な文字レベルのSMILES文字列に分子をエンコードしたとしても、表現的モデルは暗黙的にかつ自動的にデータから複雑な化学規則を学習するのに十分であると主張する。 分子モデリングのためのスマイル表現を用いた潜在空間エネルギーに基づく事前モデルを学ぶことを提案する。 本手法は,最先端モデルに匹敵する有効性と一意性を有する分子を生成できることを示す。 興味深いことに、生成した分子は構造的および化学的特徴を持ち、その分布は実際の分子とほぼ完全に一致する。

Deep generative models have recently been applied to molecule design. If the molecules are encoded in linear SMILES strings, modeling becomes convenient. However, models relying on string representations tend to generate invalid samples and duplicates. Prior work addressed these issues by building models on chemically-valid fragments or explicitly enforcing chemical rules in the generation process. We argue that an expressive model is sufficient to implicitly and automatically learn the complicated chemical rules from the data, even if molecules are encoded in simple character-level SMILES strings. We propose to learn latent space energy-based prior model with SMILES representation for molecule modeling. Our experiments show that our method is able to generate molecules with validity and uniqueness competitive with state-of-the-art models. Interestingly, generated molecules have structural and chemical features whose distributions almost perfectly match those of the real molecules.
翻訳日:2022-10-05 22:34:42 公開日:2020-10-19
# 記号-ベクトル結合の潜在空間エネルギーに基づくモデルによる半教師あり学習

Semi-supervised Learning by Latent Space Energy-Based Model of Symbol-Vector Coupling ( http://arxiv.org/abs/2010.09359v1 )

ライセンス: Link先を確認
Bo Pang, Erik Nijkamp, Jiali Cui, Tian Han, Ying Nian Wu(参考訳) 本稿では,半教師付き学習のための潜在空間エネルギーに基づく事前モデルを提案する。 このモデルは、潜在ベクトルを観測例にマッピングするジェネレータネットワーク上に立っている。 先行モデルのエネルギー項は潜時ベクトルとシンボリック・ワンホットベクトルを結合し、観測された例から推測された潜時ベクトルに基づいて分類することができる。 本手法では,シンボルベクトル結合,ジェネレータネットワーク,推論ネットワークを共同で学習する。 本手法は,画像,テキスト,表データなどの様々なデータ領域における半教師付き学習に適用できる。 実験により,本手法が半教師付き学習タスクに有効であることを実証した。

This paper proposes a latent space energy-based prior model for semi-supervised learning. The model stands on a generator network that maps a latent vector to the observed example. The energy term of the prior model couples the latent vector and a symbolic one-hot vector, so that classification can be based on the latent vector inferred from the observed example. In our learning method, the symbol-vector coupling, the generator network and the inference network are learned jointly. Our method is applicable to semi-supervised learning in various data domains such as image, text, and tabular data. Our experiments demonstrate that our method performs well on semi-supervised learning tasks.
翻訳日:2022-10-05 22:34:29 公開日:2020-10-19
# ARENA - データ駆動ラジオアクセスネットワークによるフットボールイベントの解析

ARENA: A Data-driven Radio Access Networks Analysis of Football Events ( http://arxiv.org/abs/2010.09467v1 )

ライセンス: Link先を確認
Lanfranco Zanzi, Vincenzo Sciancalepore, Andres Garcia-Saavedra, Xavier Costa-Perez, Georgios Agapiou, Hans D. Schotten(参考訳) マスイベントはモバイルネットワークにとって最も困難なシナリオの1つであり、その日時が事前に分かっているが、リソースの実際の需要は様々な要因に依存するため予測が困難である。 欧州の主要キャリアが,30,000人,16の基地局セクター,1,Km$^2$エリアからなるサッカースタジアムで大規模イベントを行う際に提供したデータをもとに,これらのイベントにおける無線アクセスネットワーク基盤の動態をデータ駆動分析した。 この分析から得られた知見を踏まえて,将来的なイベントに必要なRAN容量について,ネットワーク監視データやイベントコンテキスト情報を入力としてモバイルオペレータにガイダンスを提供する,モデルフリーの深層学習無線アクセスネットワーク(RAN)キャパシティ予測ソリューションであるARENAを開発した。 データセットに含まれる実際のイベントに対して検証を行った結果,提案手法の有効性が示された。

Mass events represent one of the most challenging scenarios for mobile networks because, although their date and time are usually known in advance, the actual demand for resources is difficult to predict due to its dependency on many different factors. Based on data provided by a major European carrier during mass events in a football stadium comprising up to 30.000 people, 16 base station sectors and $1$Km$^2$ area, we performed a data-driven analysis of the radio access network infrastructure dynamics during such events. Given the insights obtained from the analysis, we developed ARENA, a model-free deep learning Radio Access Network (RAN) capacity forecasting solution that, taking as input past network monitoring data and events context information, provides guidance to mobile operators on the expected RAN capacity needed during a future event. Our results, validated against real events contained in the dataset, illustrate the effectiveness of our proposed solution.
翻訳日:2022-10-05 22:33:52 公開日:2020-10-19
# 深層学習における不確かさ校正のための定常的活性化

Stationary Activations for Uncertainty Calibration in Deep Learning ( http://arxiv.org/abs/2010.09494v1 )

ライセンス: Link先を確認
Lassi Meronen, Christabella Irwanto, Arno Solin(参考訳) 本稿では,gaussian process (gp)モデルにおいて広く使われているmat\'ernのカーネル群によって引き起こされる特性を模倣する非線形ニューラルネットワーク活性化関数の新たなファミリーを提案する。 このクラスは、様々な平均二乗微分可能性の局所定常モデルの範囲にまたがる。 ネットワークが無限に広い隠蔽層で構成されている場合、対応するGPモデルへの明示的なリンクを示す。 無限の滑らかさの極限において、Mat\'ern 族は RBF 核となり、この場合 RBF の活性化を回復する。 Mat\'ern のアクティベーション関数は,GP モデルと類似の魅力を呈し,局所定常性特性と平均二乗微分可能性の限定は,ベイズ深層学習タスクの性能と不確かさを両立させることを示した。 特に、ローカルな定常性は、分散(ood)の不確かさの校正に役立つ。 分類・回帰ベンチマークおよびレーダエミッタ分類タスクにおいて,これらの特性を示す。

We introduce a new family of non-linear neural network activation functions that mimic the properties induced by the widely-used Mat\'ern family of kernels in Gaussian process (GP) models. This class spans a range of locally stationary models of various degrees of mean-square differentiability. We show an explicit link to the corresponding GP models in the case that the network consists of one infinitely wide hidden layer. In the limit of infinite smoothness the Mat\'ern family results in the RBF kernel, and in this case we recover RBF activations. Mat\'ern activation functions result in similar appealing properties to their counterparts in GP models, and we demonstrate that the local stationarity property together with limited mean-square differentiability shows both good performance and uncertainty calibration in Bayesian deep learning tasks. In particular, local stationarity helps calibrate out-of-distribution (OOD) uncertainty. We demonstrate these properties on classification and regression benchmarks and a radar emitter classification task.
翻訳日:2022-10-05 22:33:36 公開日:2020-10-19
# 医療フォーラムにおけるエコーチャンバー効果の機械学習による評価

Machine Learning Evaluation of the Echo-Chamber Effect in Medical Forums ( http://arxiv.org/abs/2010.09574v1 )

ライセンス: Link先を確認
Marina Sokolova (IBDA@Dalhousie University and University of Ottawa) Victoria Bobicev (Technical University of Moldova)(参考訳) オンラインフォーラムのエコーチャンバー効果評価を提案する。 フォーラムの読者が感じている感情は分析の核心にある;完全なメッセージは研究の単位である。 私たちは14のモデルを構築し、それらをオンライン医療フォーラムから集めた議論の表現に適用します。 評価モデルの確率を評価するために,4つのマルチクラス感情分類アプリケーションと2つの機械学習アルゴリズムを用いた。

We propose the Echo-Chamber Effect assessment of an online forum. Sentiments perceived by the forum readers are at the core of the analysis; a complete message is the unit of the study. We build 14 models and apply those to represent discussions gathered from an online medical forum. We use four multi-class sentiment classification applications and two Machine Learning algorithms to evaluate prowess of the assessment models.
翻訳日:2022-10-05 22:32:53 公開日:2020-10-19
# 極高次条件付き雑音ラベルから学ぶためのGAN

GANs for learning from very high class conditional noisy labels ( http://arxiv.org/abs/2010.09577v1 )

ライセンス: Link先を確認
Sandhya Tripathi and N Hemachandra(参考訳) 我々は,二分分類のためのクラス条件ラベルノイズ(ccn)ロバストスキームの設計にgans(generative adversarial networks)を用いる。 まず、ノイズラベル付きデータと0.1%または1%クリーンラベルから正しいラベル付きデータポイントのセットを生成し、生成した(真)ラベル付きデータの分布が近いようにし、生成したラベル付きデータを良い分類器を学習する。 Wasserstein GANと簡易なデータ表現変化を用いて、正しい特徴ラベル対を生成しながらモード崩壊問題を回避し、スキュード特徴ラベル次元比($784:1)の問題を回避する。 新たな表現の上に情報理論的な風味を持つ WGAN も提案されている。 両方のスキームの大きな利点は、非常に高いCCNレートの存在下で、ノイズレートを推定または相互検証することなく、既存のものよりも大幅に改善されていることである。 クリーン分布とノイズ分布の間のKLのばらつきは、対称ラベル雑音モデルにおけるWr.t.ノイズ率を増加させることが証明された。 これは、我々のスキームがganの敵対的性質によってうまく機能することを意味する。 さらに,ノイズを処理しながら生成的アプローチ(クリーンな関節分布の学習)を用いることで,GLC,LDMI,GCEなどの識別的アプローチよりも優れた性能が得られる。 Friedman F test と Nemenyi posthoc test を用いて、高次元バイナリクラス合成、MNIST と Fashion MNIST のデータセットにおいて、提案手法は既存の手法より優れ、ノイズレート全体で一貫した性能を示す。

We use Generative Adversarial Networks (GANs) to design a class conditional label noise (CCN) robust scheme for binary classification. It first generates a set of correctly labelled data points from noisy labelled data and 0.1% or 1% clean labels such that the generated and true (clean) labelled data distributions are close; generated labelled data is used to learn a good classifier. The mode collapse problem while generating correct feature-label pairs and the problem of skewed feature-label dimension ratio ($\sim$ 784:1) are avoided by using Wasserstein GAN and a simple data representation change. Another WGAN with information-theoretic flavour on top of the new representation is also proposed. The major advantage of both schemes is their significant improvement over the existing ones in presence of very high CCN rates, without either estimating or cross-validating over the noise rates. We proved that KL divergence between clean and noisy distribution increases w.r.t. noise rates in symmetric label noise model; can be extended to high CCN rates. This implies that our schemes perform well due to the adversarial nature of GANs. Further, use of generative approach (learning clean joint distribution) while handling noise enables our schemes to perform better than discriminative approaches like GLC, LDMI and GCE; even when the classes are highly imbalanced. Using Friedman F test and Nemenyi posthoc test, we showed that on high dimensional binary class synthetic, MNIST and Fashion MNIST datasets, our schemes outperform the existing methods and demonstrate consistent performance across noise rates.
翻訳日:2022-10-05 22:32:47 公開日:2020-10-19
# マスキングに基づくモデル解釈法の検討と簡易化

Investigating and Simplifying Masking-based Saliency Methods for Model Interpretability ( http://arxiv.org/abs/2010.09750v1 )

ライセンス: Link先を確認
Jason Phang, Jungkyu Park and Krzysztof J. Geras(参考訳) 分類器のイメージの最も情報性の高い領域を識別する残差マップは、モデルの解釈可能性に有用である。 サリエンシーマップを作成する一般的なアプローチは、画像の一部をマスクして分類性能を最大に低下させる入力マスクや、画像内のマスクを生成して分類性能を維持することである。 このアプローチの多くの変種が文献で提案されており、例えば、反事実生成やグンベル・ソフトマックス分布の最適化がある。 マスキングに基づく敬礼法の一般的な定式化を用いて,提案手法のどの要素がパフォーマンスを有意義に向上しているかを理解するために,最近提案されている多くの変種について広範な評価を行った。 意外なことに、マスクベースのサリエンシモデルの十分に調整された比較的単純な定式化は、より複雑なアプローチよりも優れている。 その結果,(1)マスキングインとマスクアウトの両方の目的を用い,(2)マスキングモデルと並行して分類器を訓練することであった。 驚くべきことに,マスキングモデルはクラス毎に10例程度しかトレーニングできず,0.7ポイントのローカライズエラーしか発生しないサリエンシーマップを生成することができる。

Saliency maps that identify the most informative regions of an image for a classifier are valuable for model interpretability. A common approach to creating saliency maps involves generating input masks that mask out portions of an image to maximally deteriorate classification performance, or mask in an image to preserve classification performance. Many variants of this approach have been proposed in the literature, such as counterfactual generation and optimizing over a Gumbel-Softmax distribution. Using a general formulation of masking-based saliency methods, we conduct an extensive evaluation study of a number of recently proposed variants to understand which elements of these methods meaningfully improve performance. Surprisingly, we find that a well-tuned, relatively simple formulation of a masking-based saliency model outperforms many more complex approaches. We find that the most important ingredients for high quality saliency map generation are (1) using both masked-in and masked-out objectives and (2) training the classifier alongside the masking model. Strikingly, we show that a masking model can be trained with as few as 10 examples per class and still generate saliency maps with only a 0.7-point increase in localization error.
翻訳日:2022-10-05 22:26:59 公開日:2020-10-19
# LT-GAN:潜時変換検出による自己監督型GAN

LT-GAN: Self-Supervised GAN with Latent Transformation Detection ( http://arxiv.org/abs/2010.09893v1 )

ライセンス: Link先を確認
Parth Patel, Nupur Kumari, Mayank Singh, Balaji Krishnamurthy(参考訳) GAN(Generative Adversarial Networks)と自己教師付きタスクは、無条件および半教師付き画像生成において有望な結果を示す。 我々は,gan誘発変換(生成画像の潜在空間を摂動させることによる変換)を推定することにより,画像の生成品質と多様性を向上させるための自己教師付きアプローチ(lt-gan)を提案する。 具体的には、各対が生成した画像と変換されたバージョンから構成される2対の画像が与えられた場合、自己超越タスクは、与えられたペアに適用される潜時変換が他のペアと同一であるかどうかを識別することを目的とする。 したがって、補助的損失は、補助的ネットワークによって識別可能な画像を生成することを助長し、それにより潜在変換に関して意味的に一貫性のある画像の合成を促進する。 CIFAR-10, CelebA-HQ, ImageNetデータセットの条件付きおよび非条件付き設定におけるFIDによる画像生成品質の向上により, このプリテキストタスクの有効性を示す。 さらに,LT-GANがベースラインモデル上でのCelebA-HQとImageNetの制御画像編集の改善に有効であることを示す。 提案するLTセルフスーパービジョンタスクが,他の最先端のトレーニング手法と効果的に組み合わせて,付加的なメリットを享受できることを実験的に実証した。 その結果,条件付きCIFAR-10画像生成において,最新のFIDスコア9.8を達成することができた。

Generative Adversarial Networks (GANs) coupled with self-supervised tasks have shown promising results in unconditional and semi-supervised image generation. We propose a self-supervised approach (LT-GAN) to improve the generation quality and diversity of images by estimating the GAN-induced transformation (i.e. transformation induced in the generated images by perturbing the latent space of generator). Specifically, given two pairs of images where each pair comprises of a generated image and its transformed version, the self-supervision task aims to identify whether the latent transformation applied in the given pair is same to that of the other pair. Hence, this auxiliary loss encourages the generator to produce images that are distinguishable by the auxiliary network, which in turn promotes the synthesis of semantically consistent images with respect to latent transformations. We show the efficacy of this pretext task by improving the image generation quality in terms of FID on state-of-the-art models for both conditional and unconditional settings on CIFAR-10, CelebA-HQ and ImageNet datasets. Moreover, we empirically show that LT-GAN helps in improving controlled image editing for CelebA-HQ and ImageNet over baseline models. We experimentally demonstrate that our proposed LT self-supervision task can be effectively combined with other state-of-the-art training techniques for added benefits. Consequently, we show that our approach achieves the new state-of-the-art FID score of 9.8 on conditional CIFAR-10 image generation.
翻訳日:2022-10-05 22:26:17 公開日:2020-10-19
# グラフニューラルネットワークを用いたニューラルネットワークの性能予測

Neural Architecture Performance Prediction Using Graph Neural Networks ( http://arxiv.org/abs/2010.10024v1 )

ライセンス: Link先を確認
Jovita Lukasik, David Friede, Heiner Stuckenschmidt, Margret Keuper(参考訳) コンピュータビジョン研究では、アーキテクチャ工学の自動化プロセスであるneural architecture search (nas) が大きな関心を集めている。 計算コストが高いため、NASへの最近のアプローチや利用可能な数少ないベンチマークは限られた検索スペースしか提供していない。 本稿では,グラフニューラルネットワーク(GNN)に基づくニューラルネットワークの性能予測のための代理モデルを提案する。 NAS-Bench-101データセット上のいくつかの実験において、GNNを評価することにより、構造不明なアーキテクチャ(すなわちゼロショット予測)のニューラルネットワーク性能予測におけるこの代理モデルの有効性を実証する。

In computer vision research, the process of automating architecture engineering, Neural Architecture Search (NAS), has gained substantial interest. Due to the high computational costs, most recent approaches to NAS as well as the few available benchmarks only provide limited search spaces. In this paper we propose a surrogate model for neural architecture performance prediction built upon Graph Neural Networks (GNN). We demonstrate the effectiveness of this surrogate model on neural architecture performance prediction for structurally unknown architectures (i.e. zero shot prediction) by evaluating the GNN on several experiments on the NAS-Bench-101 dataset.
翻訳日:2022-10-05 22:25:56 公開日:2020-10-19
# 文字非依存オフライン手書き署名検証のための特徴選択と伝達学習の検討

An Investigation of Feature Selection and Transfer Learning for Writer-Independent Offline Handwritten Signature Verification ( http://arxiv.org/abs/2010.10025v1 )

ライセンス: Link先を確認
Victor L. F. Souza, Adriano L. I. Oliveira, Rafael M. O. Cruz and Robert Sabourin(参考訳) SigNetは手書き署名検証(HSV)に使用される特徴表現のための技術モデルである。 この表現はディープ畳み込みニューラルネットワーク(DCNN)に基づいており、2048次元を含んでいる。 書き手非依存(wi)アプローチに関連する二分法変換(dt)によって生成された不類似性空間に変換されると、これらの特徴は冗長な情報を含む可能性がある。 本稿では,バイナリ粒子群最適化(BPSO)を用いてラッパーモードで特徴選択を行う場合のオーバーフィッティングの有無について検討する。 本稿では,最も識別性の高い表現の探索中にオーバーフィットを制御するために,外部アーカイブを用いたグローバル検証戦略に基づく手法を提案する。 また、転送学習コンテキストにおける選択された特徴の使用を評価するための調査も行う。 この分析は、CEDAR、MCYT、GPDSデータセットに対して、ライターに依存しないアプローチで行われる。 実験の結果,最適化プロセス中に検証が使用されない場合のオーバーフィッティングと,外部アーカイブを用いたグローバルな検証戦略の改善が示された。 また、特徴選択後に生成された空間は、伝達学習コンテキストで使用できる。

SigNet is a state of the art model for feature representation used for handwritten signature verification (HSV). This representation is based on a Deep Convolutional Neural Network (DCNN) and contains 2048 dimensions. When transposed to a dissimilarity space generated by the dichotomy transformation (DT), related to the writer-independent (WI) approach, these features may include redundant information. This paper investigates the presence of overfitting when using Binary Particle Swarm Optimization (BPSO) to perform the feature selection in a wrapper mode. We proposed a method based on a global validation strategy with an external archive to control overfitting during the search for the most discriminant representation. Moreover, an investigation is also carried out to evaluate the use of the selected features in a transfer learning context. The analysis is carried out on a writer-independent approach on the CEDAR, MCYT and GPDS datasets. The experimental results showed the presence of overfitting when no validation is used during the optimization process and the improvement when the global validation strategy with an external archive is used. Also, the space generated after feature selection can be used in a transfer learning context.
翻訳日:2022-10-05 22:25:46 公開日:2020-10-19
# 強化学習による知識誘導オープン属性値抽出

Knowledge-guided Open Attribute Value Extraction with Reinforcement Learning ( http://arxiv.org/abs/2010.09189v1 )

ライセンス: Link先を確認
Ye Liu, Sheng Zhang, Rui Song, Suo Feng, Yanghua Xiao(参考訳) 新興エンティティに対するオープン属性値抽出は重要な課題だが難しい課題である。 以前の多くの研究は、問題をtextit{question-Awering} (QA) タスクとして定式化している。 ウェブコーパスからの記事の収集は、新しいエンティティに関する更新情報を提供するが、検索されたテキストはノイズがあり、無関係であり、不正確な回答をもたらす。 ノイズの多い記事や悪い回答を効果的にフィルタリングすることは、抽出精度を向上させる鍵となる。 知識グラフ(KG)は、エンティティについて豊富に整理された情報を含み、その課題に対処するための優れたリソースを提供する。 本研究では,オープン属性値抽出のための知識誘導型強化学習(RL)フレームワークを提案する。 kgにおける関連する知識から,抽出された回答を逐次比較して抽出精度を向上させるために,深いqネットワークを訓練した。 提案手法は異なる情報抽出システムに適用可能である。 実験の結果,本手法はベースラインを16.5~27.8\%上回った。

Open attribute value extraction for emerging entities is an important but challenging task. A lot of previous works formulate the problem as a \textit{question-answering} (QA) task. While the collections of articles from web corpus provide updated information about the emerging entities, the retrieved texts can be noisy, irrelevant, thus leading to inaccurate answers. Effectively filtering out noisy articles as well as bad answers is the key to improving extraction accuracy. Knowledge graph (KG), which contains rich, well organized information about entities, provides a good resource to address the challenge. In this work, we propose a knowledge-guided reinforcement learning (RL) framework for open attribute value extraction. Informed by relevant knowledge in KG, we trained a deep Q-network to sequentially compare extracted answers to improve extraction accuracy. The proposed framework is applicable to different information extraction system. Our experimental results show that our method outperforms the baselines by 16.5 - 27.8\%.
翻訳日:2022-10-05 22:25:26 公開日:2020-10-19
# ソフトマックスDeep Double Deterministic Policy Gradients

Softmax Deep Double Deterministic Policy Gradients ( http://arxiv.org/abs/2010.09177v1 )

ライセンス: Link先を確認
Ling Pan, Qingpeng Cai, Longbo Huang(参考訳) 連続制御のための広く使われているアクター-クリティック強化学習アルゴリズムであるdeep deterministic policy gradients (ddpg)は、過大評価問題に苦しんでおり、パフォーマンスに悪影響を及ぼす可能性がある。 最先端のツイン遅延Deep Deterministic Policy Gradient (TD3)アルゴリズムは過大評価問題を緩和するが、大きな過小評価バイアスをもたらす可能性がある。 本稿では,連続制御における値関数推定にボルツマンソフトマックス演算子を用いることを提案する。 まず, 連続作用空間におけるソフトマックス作用素を理論的に解析する。 次に、アクター-批判アルゴリズムにおけるsoftmax演算子の重要な特性、すなわち、オペレータの利点に新たな光を当てる最適化環境の円滑化に役立つことを明らかにする。 また,ソフトマックス・ディープ・Deep Deterministic Policy Gradients (SD2) とソフトマックス・ディープ・ダブル・Deterministic Policy Gradients (SD3) の2つの新しいアルゴリズムを設計した。 連続制御課題に対する広範囲な実験を行い,sd3が最先端手法を上回ることを示した。

A widely-used actor-critic reinforcement learning algorithm for continuous control, Deep Deterministic Policy Gradients (DDPG), suffers from the overestimation problem, which can negatively affect the performance. Although the state-of-the-art Twin Delayed Deep Deterministic Policy Gradient (TD3) algorithm mitigates the overestimation issue, it can lead to a large underestimation bias. In this paper, we propose to use the Boltzmann softmax operator for value function estimation in continuous control. We first theoretically analyze the softmax operator in continuous action space. Then, we uncover an important property of the softmax operator in actor-critic algorithms, i.e., it helps to smooth the optimization landscape, which sheds new light on the benefits of the operator. We also design two new algorithms, Softmax Deep Deterministic Policy Gradients (SD2) and Softmax Deep Double Deterministic Policy Gradients (SD3), by building the softmax operator upon single and double estimators, which can effectively improve the overestimation and underestimation bias. We conduct extensive experiments on challenging continuous control tasks, and results show that SD3 outperforms state-of-the-art methods.
翻訳日:2022-10-05 22:24:17 公開日:2020-10-19
# 分類器アンサンブルと制御照明を用いた多用途き裂検査携帯システム

A Versatile Crack Inspection Portable System based on Classifier Ensemble and Controlled Illumination ( http://arxiv.org/abs/2010.09557v1 )

ライセンス: Link先を確認
Milind G. Padalkar, Carlos Beltr\'an-Gonz\'alez, Matteo Bustreo, Alessio Del Bue and Vittorio Murino(参考訳) 本稿では, 陶磁器タイルの亀裂の自動検査のための新しいセットアップと, 各種分類器と高輝度照明条件の影響について検討する。 このセットアップの背景にある直感は、クラックは特定の照明条件下で他のものよりもよく視覚化できるということだ。 最大寸法に制約のあるフィールドワークを想定し,複数の照明条件を有するクラック検出用画像を複数高さに配置した照明源を用いて取得する。 次に、取得した画像から抽出したパッチをスライディングウィンドウ方式で分類してき裂検出を行う。 我々は,カスタマイズされたアーキテクチャと最先端アーキテクチャの両方に分類器を訓練し,様々な高さに配置した照明の効果を調査し,パッチレベルとイメージレベルの両方でその性能を評価し,セットアップの有効性を実証した。 さらに重要なことは、既存の最先端の分類器を用いて、高さの異なる照明条件がき裂検出にどのように影響するかを示す最初の研究である。 実世界の産業環境におけるき裂検出の改善に役立つ照明条件について考察する。

This paper presents a novel setup for automatic visual inspection of cracks in ceramic tile as well as studies the effect of various classifiers and height-varying illumination conditions for this task. The intuition behind this setup is that cracks can be better visualized under specific lighting conditions than others. Our setup, which is designed for field work with constraints in its maximum dimensions, can acquire images for crack detection with multiple lighting conditions using the illumination sources placed at multiple heights. Crack detection is then performed by classifying patches extracted from the acquired images in a sliding window fashion. We study the effect of lights placed at various heights by training classifiers both on customized as well as state-of-the-art architectures and evaluate their performance both at patch-level and image-level, demonstrating the effectiveness of our setup. More importantly, ours is the first study that demonstrates how height-varying illumination conditions can affect crack detection with the use of existing state-of-the-art classifiers. We provide an insight about the illumination conditions that can help in improving crack detection in a challenging real-world industrial environment.
翻訳日:2022-10-05 22:17:28 公開日:2020-10-19
# クロスドメインエピソディック学習によるドメイン一般化された人物再同定

Domain Generalized Person Re-Identification via Cross-Domain Episodic Learning ( http://arxiv.org/abs/2010.09561v1 )

ライセンス: Link先を確認
Ci-Siang Lin, Yuan-Chia Cheng, Yu-Chiang Frank Wang(参考訳) 同一人物の画像を異なるカメラビューで認識することを目的として、人物再識別(re-id)がコンピュータビジョンにおいて活発に研究されている。 既存のre-ID作業の多くは、興味のあるシーンから大量のラベル付き画像データを収集する必要がある。 認識すべきデータがソースドメインのトレーニングと異なる場合、いくつかのドメイン適応アプローチが提案されている。 それでも、トレーニング中にラベル付きまたはラベルなしのターゲットドメインデータを収集する必要がある。 本稿では、さらに困難で実践的なドメイン一般化(DG)パーソン・リIDに取り組む。 つまり、ラベル付きソースドメインデータセットが多数利用可能だが、ターゲットドメインのトレーニングデータにアクセスすることはできない。 対象とする領域を知らずにドメイン不変な特徴を学習するために,観測されたソースドメインラベル付きデータを活用するメタ学習戦略を推し進めるエピソード学習手法を提案する。 学習された機能は、ソースドメインデータやidラベルをオーバーフィットさせることなく、十分なドメイン不変特性を示す。 4つのベンチマークデータセットに対する実験により,最先端技術よりも提案手法の優位性が確認された。

Aiming at recognizing images of the same person across distinct camera views, person re-identification (re-ID) has been among active research topics in computer vision. Most existing re-ID works require collection of a large amount of labeled image data from the scenes of interest. When the data to be recognized are different from the source-domain training ones, a number of domain adaptation approaches have been proposed. Nevertheless, one still needs to collect labeled or unlabelled target-domain data during training. In this paper, we tackle an even more challenging and practical setting, domain generalized (DG) person re-ID. That is, while a number of labeled source-domain datasets are available, we do not have access to any target-domain training data. In order to learn domain-invariant features without knowing the target domain of interest, we present an episodic learning scheme which advances meta learning strategies to exploit the observed source-domain labeled data. The learned features would exhibit sufficient domain-invariant properties while not overfitting the source-domain data or ID labels. Our experiments on four benchmark datasets confirm the superiority of our method over the state-of-the-arts.
翻訳日:2022-10-05 22:17:11 公開日:2020-10-19
# 深層cnnに基づく分類器を用いたマルチクラス創傷画像分類

Multiclass Wound Image Classification using an Ensemble Deep CNN-based Classifier ( http://arxiv.org/abs/2010.09593v1 )

ライセンス: Link先を確認
Behrouz Rostami, D.M. Anisuzzaman, Chuanbo Wang, Sandeep Gopalakrishnan, Jeffrey Niezgoda, Zeyun Yu(参考訳) 急性傷と慢性傷は世界中の医療システムにとって挑戦であり、毎年多くの人々の生活に影響を与える。 創傷分類は、臨床医が最適な治療手順を特定するのに役立つ創傷診断の重要なステップである。 したがって、高性能な分類器を持つことは、現場の専門家が、より少ない財政的、時間的コストで傷を分類するのを助ける。 異なる機械学習と深層学習に基づく創傷分類法が文献に提案されている。 本研究では, 外科的, 糖尿病的, 静脈的潰瘍を含む創傷画像を多クラスに分類する, 深層畳み込みニューラルネットワークを用いた分類器を開発した。 2つの分類器(パッチワイズとイメージワイズ)の出力分類スコアを多層パーセプトロンに供給し、優れた分類性能を提供する。 提案手法の評価には5倍のクロスバリデーション手法を用いる。 3つの分類問題に対して,最大分類精度は96.4%,平均分類精度は94.28%,91.9\%,87.7\%であった。 その結果,本手法は創傷画像などの臨床応用の分類における意思決定支援システムとして有効であることがわかった。

Acute and chronic wounds are a challenge to healthcare systems around the world and affect many people's lives annually. Wound classification is a key step in wound diagnosis that would help clinicians to identify an optimal treatment procedure. Hence, having a high-performance classifier assists the specialists in the field to classify the wounds with less financial and time costs. Different machine learning and deep learning-based wound classification methods have been proposed in the literature. In this study, we have developed an ensemble Deep Convolutional Neural Network-based classifier to classify wound images including surgical, diabetic, and venous ulcers, into multi-classes. The output classification scores of two classifiers (patch-wise and image-wise) are fed into a Multi-Layer Perceptron to provide a superior classification performance. A 5-fold cross-validation approach is used to evaluate the proposed method. We obtained maximum and average classification accuracy values of 96.4% and 94.28% for binary and 91.9\% and 87.7\% for 3-class classification problems. The results show that our proposed method can be used effectively as a decision support system in classification of wound images or other related clinical applications.
翻訳日:2022-10-05 22:16:37 公開日:2020-10-19
# 野生における手の検出と身体接触の認識

Detecting Hands and Recognizing Physical Contact in the Wild ( http://arxiv.org/abs/2010.09676v1 )

ライセンス: Link先を確認
Supreeth Narasimhaswamy, Trung Nguyen, Minh Hoai(参考訳) 拘束のない状態で手の検出と接触状態の認識という新たな課題について検討する。 これは、ローカルな手の外観を超えて推論する必要性を考えると、難しい推論タスクである。 手が接触しているオブジェクトのオブジェクトまたは部分を示すトレーニングアノテーションの欠如は、さらにタスクを複雑にする。 本研究では,Mask-RCNNをベースとした新しい畳み込みネットワークを提案する。 ネットワークは、他のオブジェクト検出器からの出力を使用して、シーンに存在するオブジェクトの場所を取得する。 これらの出力と手の位置を使用して、2つの注意機構を用いて手の接触状態を認識する。 第1の注意機構は、手と領域の親和性に基づいて、手と対象を囲み、この領域から手領域までの特徴を密にプールする。 第2の注意モジュールは、この可愛らしい接触領域から有能な特徴を適応的に選択する。 提案手法の性能評価を行うため,手の位置や接触状態を付加した非拘束画像を含むコンタクトハンズと呼ばれる大規模データセットを導入した。 アテンションモジュールのパラメータを含む提案ネットワークは、エンドツーエンドのトレーニング可能である。 このネットワークは、バニラMask-RCNNアーキテクチャ上に構築され、手動接触状態を認識するために訓練されたベースラインネットワークに対して、約7倍の相対的な改善を実現する。

We investigate a new problem of detecting hands and recognizing their physical contact state in unconstrained conditions. This is a challenging inference task given the need to reason beyond the local appearance of hands. The lack of training annotations indicating which object or parts of an object the hand is in contact with further complicates the task. We propose a novel convolutional network based on Mask-RCNN that can jointly learn to localize hands and predict their physical contact to address this problem. The network uses outputs from another object detector to obtain locations of objects present in the scene. It uses these outputs and hand locations to recognize the hand's contact state using two attention mechanisms. The first attention mechanism is based on the hand and a region's affinity, enclosing the hand and the object, and densely pools features from this region to the hand region. The second attention module adaptively selects salient features from this plausible region of contact. To develop and evaluate our method's performance, we introduce a large-scale dataset called ContactHands, containing unconstrained images annotated with hand locations and contact states. The proposed network, including the parameters of attention modules, is end-to-end trainable. This network achieves approximately 7\% relative improvement over a baseline network that was built on the vanilla Mask-RCNN architecture and trained for recognizing hand contact states.
翻訳日:2022-10-05 22:16:05 公開日:2020-10-19
# 航空画像における複数の歩行者・車両追跡 : 総合的研究

Multiple Pedestrians and Vehicles Tracking in Aerial Imagery: A Comprehensive Study ( http://arxiv.org/abs/2010.09689v1 )

ライセンス: Link先を確認
Seyed Majid Azimi, Maximilian Kraus, Reza Bahmanyar, Peter Reinartz(参考訳) 本稿では,高精細度空中画像における複数歩行者・車両追跡の課題を,従来型および深層学習に基づく複数物体追跡手法の集中的評価により解決する。 また,Samese Neural Network,Long Short-Term Memory,Graph Convolutional Neural Networkモジュールを用いて外観,時間,図形情報を融合し,より正確かつ安定した追跡を行う,ディープラーニングに基づく多対象追跡手法であるAerialMPTNetについて述べる。 さらに,Squeeze-and-Excitation 層と Online Hard Example Mining が AerialMPTNet の性能に与える影響について検討した。 私たちの知る限りでは、回帰ベースのマルチオブジェクト追跡にこれら2つを使うのは初めてです。 さらに,L1 と Huber の損失関数について検討,比較した。 実験では,AerialMPTとKIT AIS歩行者と車両の3つの空中多目的追跡データセットに対して,AerialMPTNetを広範囲に評価した。 定性的かつ定量的な結果から、AerialMPTNetは歩行者データセットのすべての従来の手法より優れており、車両データセットの競合的な結果が得られる。 さらに、Long Short-Term MemoryとGraph Convolutional Neural Networkモジュールは、トラッキングパフォーマンスを向上させる。 さらに、Squeeze-and-Excitation と Online Hard Example Mining は、いくつかのケースで有効であり、他のケースでは結果を劣化させる。 さらに、結果によると、l1は、ほとんどのシナリオにおいて、フーバー損失に関してより良い結果をもたらす。 これらの結果は,航空多目的追跡分野の課題と機会を深く理解し,今後の研究への道を開くものである。

In this paper, we address various challenges in multi-pedestrian and vehicle tracking in high-resolution aerial imagery by intensive evaluation of a number of traditional and Deep Learning based Single- and Multi-Object Tracking methods. We also describe our proposed Deep Learning based Multi-Object Tracking method AerialMPTNet that fuses appearance, temporal, and graphical information using a Siamese Neural Network, a Long Short-Term Memory, and a Graph Convolutional Neural Network module for a more accurate and stable tracking. Moreover, we investigate the influence of the Squeeze-and-Excitation layers and Online Hard Example Mining on the performance of AerialMPTNet. To the best of our knowledge, we are the first in using these two for a regression-based Multi-Object Tracking. Additionally, we studied and compared the L1 and Huber loss functions. In our experiments, we extensively evaluate AerialMPTNet on three aerial Multi-Object Tracking datasets, namely AerialMPT and KIT AIS pedestrian and vehicle datasets. Qualitative and quantitative results show that AerialMPTNet outperforms all previous methods for the pedestrian datasets and achieves competitive results for the vehicle dataset. In addition, Long Short-Term Memory and Graph Convolutional Neural Network modules enhance the tracking performance. Moreover, using Squeeze-and-Excitation and Online Hard Example Mining significantly helps for some cases while degrades the results for other cases. In addition, according to the results, L1 yields better results with respect to Huber loss for most of the scenarios. The presented results provide a deep insight into challenges and opportunities of the aerial Multi-Object Tracking domain, paving the way for future research.
翻訳日:2022-10-05 22:15:43 公開日:2020-10-19
# 半教師付き学習のための二重未確認重み付け法

Double-Uncertainty Weighted Method for Semi-supervised Learning ( http://arxiv.org/abs/2010.09298v1 )

ライセンス: Link先を確認
Yixin Wang, Yao Zhang, Jiang Tian, Cheng Zhong, Zhongchao Shi, Yang Zhang, Zhiqiang He(参考訳) 近年、深層学習は高度なパフォーマンスを達成しているが、信頼できるラベル付きトレーニングデータを得ることは時間と費用がかかるため、医用画像の分野では難しい課題である。 本稿では教師-学生モデルに基づく半教師付きセグメンテーションのための二重不確かさ重み付き手法を提案する。 教師モデルはラベル付きデータとラベルなしデータの両方に一貫性のない予測を課すことで生徒モデルの指導を提供する。 ベイジアンディープラーニングを用いて教師モデルを訓練し,セグメンテーションの不確実性と特徴の不確実性を両立させる。 セグメンテーションの不確実性推定を特徴的不確実性に拡張した最初の例であり、チャネル間の情報をキャプチャする能力を明らかにする。 学習可能な不確実性一貫性損失は、予測と不確実性の間の対話的な方法で教師なし学習プロセスのために設計される。 教師の予測に対してより正確なインセンティブを与え、不確実な見積もりを減らすためにモデルを促進することができる。 さらに,提案する二重保証は,教師なし・教師なしの訓練プロセスのバランスと調和のために,各非一貫性ペナルティの重みとなる。 提案する特徴不確かさと損失関数を定性的・定量的解析により検証する。 実験の結果,本手法は2つの公開医療データセット上で,最先端の不確実性に基づく半教師付き手法よりも優れていた。

Though deep learning has achieved advanced performance recently, it remains a challenging task in the field of medical imaging, as obtaining reliable labeled training data is time-consuming and expensive. In this paper, we propose a double-uncertainty weighted method for semi-supervised segmentation based on the teacher-student model. The teacher model provides guidance for the student model by penalizing their inconsistent prediction on both labeled and unlabeled data. We train the teacher model using Bayesian deep learning to obtain double-uncertainty, i.e. segmentation uncertainty and feature uncertainty. It is the first to extend segmentation uncertainty estimation to feature uncertainty, which reveals the capability to capture information among channels. A learnable uncertainty consistency loss is designed for the unsupervised learning process in an interactive manner between prediction and uncertainty. With no ground-truth for supervision, it can still incentivize more accurate teacher's predictions and facilitate the model to reduce uncertain estimations. Furthermore, our proposed double-uncertainty serves as a weight on each inconsistency penalty to balance and harmonize supervised and unsupervised training processes. We validate the proposed feature uncertainty and loss function through qualitative and quantitative analyses. Experimental results show that our method outperforms the state-of-the-art uncertainty-based semi-supervised methods on two public medical datasets.
翻訳日:2022-10-05 22:09:04 公開日:2020-10-19
# 複雑な都市景観操作のためのセマンティックガイド塗装ネットワーク

Semantic-Guided Inpainting Network for Complex Urban Scenes Manipulation ( http://arxiv.org/abs/2010.09334v1 )

ライセンス: Link先を確認
Pierfrancesco Ardino, Yahui Liu, Elisa Ricci, Bruno Lepri and Marco De Nadai(参考訳) 複雑なシーンの画像を操作して、特定のオブジェクトインスタンスを再構築、挿入、削除することは、難しい作業です。 複雑なシーンには複数のセマンティクスやオブジェクトが含まれており、しばしば散らかっているか曖昧である。 従来の手法は、信頼できない結果や境界を生成する多段階アプローチにおいて、オブジェクトの輪郭のような構造情報に依存することが多い。 本研究では、画像のユーザ指定部分を除去し、そのシーンに新しい物体(車や歩行者など)をコヒーレントに挿入することにより、複雑な都市景観を変更するための新しいディープラーニングモデルを提案する。 画像インパインティングに関する最近の研究に触発されて,提案手法は意味的セグメンテーションを利用して画像の内容と構造をモデル化し,挿入対象の最適な形状と位置を学習する。 信頼性の高い結果を生成するために,セマンティックセグメンテーションと生成タスクを組み合わせた新しいデコーダブロックを設計し,画像と意味的に一貫性のある新たなオブジェクトやシーンの生成を誘導する。 都市シーンの2つの大規模データセット(都市景観とインドドライブ)で実施した実験により,提案手法が,複雑な都市シーンを意味的に誘導する問題にうまく対処できることが確認された。

Manipulating images of complex scenes to reconstruct, insert and/or remove specific object instances is a challenging task. Complex scenes contain multiple semantics and objects, which are frequently cluttered or ambiguous, thus hampering the performance of inpainting models. Conventional techniques often rely on structural information such as object contours in multi-stage approaches that generate unreliable results and boundaries. In this work, we propose a novel deep learning model to alter a complex urban scene by removing a user-specified portion of the image and coherently inserting a new object (e.g. car or pedestrian) in that scene. Inspired by recent works on image inpainting, our proposed method leverages the semantic segmentation to model the content and structure of the image, and learn the best shape and location of the object to insert. To generate reliable results, we design a new decoder block that combines the semantic segmentation and generation task to guide better the generation of new objects and scenes, which have to be semantically consistent with the image. Our experiments, conducted on two large-scale datasets of urban scenes (Cityscapes and Indian Driving), show that our proposed approach successfully address the problem of semantically-guided inpainting of complex urban scene.
翻訳日:2022-10-05 22:07:58 公開日:2020-10-19
# SD-DefSLAM : 変形性および体腔内シーンのための半直接単分子SLAM

SD-DefSLAM: Semi-Direct Monocular SLAM for Deformable and Intracorporeal Scenes ( http://arxiv.org/abs/2010.09409v1 )

ライセンス: Link先を確認
Juan J. G\'omez Rodr\'iguez, Jos\'e Lamarca, Javier Morlana, Juan D. Tard\'os, Jos\'e M. M. Montiel(参考訳) 従来のSLAM技術は、シーンの動的部分を無視して、データアソシエーションを解決するために、シーンの剛性に強く依存している。 本研究は,DefSLAM上に構築された,高度に変形する環境をマッピングできる新しいモノクルな変形可能なSLAM法であるSemi-Direct DefSLAM(SD-DefSLAM)を提案する。 SD-DefSLAMは、データアソシエーションのための改良された照明不変のLucas-Kanadeトラッカー、ポーズと変形可能なマップ推定のための幾何学的バンドル調整、カメラリロケーションのための特徴記述子に基づくバッグ・オブ・ワードといった、直接的および間接的な手法を組み合わせる。 動的オブジェクトは、特定のアプリケーションドメインのためにトレーニングされたCNNを使用して検出およびセグメントアウトされる。 我々は2つの公開データセットでシステムを完全に評価した。 マンダラデータセットは、ますますアグレッシブな変形を伴うSLAMベンチマークである。 hamlynデータセットには、弱いテクスチャ、鏡面反射、手術用具、オクルージョンといった変形を超えた深刻な現実の課題をもたらす、体内のシーケンスが含まれている。 以上の結果から,SD-DefSLAMは点追跡,再現精度,スケールドリフトにおいてDefSLAMより優れており,人体内でSLAMを堅牢に実行できる最初のシステムであることがわかった。

Conventional SLAM techniques strongly rely on scene rigidity to solve data association, ignoring dynamic parts of the scene. In this work we present Semi-Direct DefSLAM (SD-DefSLAM), a novel monocular deformable SLAM method able to map highly deforming environments, built on top of DefSLAM. To robustly solve data association in challenging deforming scenes, SD-DefSLAM combines direct and indirect methods: an enhanced illumination-invariant Lucas-Kanade tracker for data association, geometric Bundle Adjustment for pose and deformable map estimation, and bag-of-words based on feature descriptors for camera relocation. Dynamic objects are detected and segmented-out using a CNN trained for the specific application domain. We thoroughly evaluate our system in two public datasets. The mandala dataset is a SLAM benchmark with increasingly aggressive deformations. The Hamlyn dataset contains intracorporeal sequences that pose serious real-life challenges beyond deformation like weak texture, specular reflections, surgical tools and occlusions. Our results show that SD-DefSLAM outperforms DefSLAM in point tracking, reconstruction accuracy and scale drift thanks to the improvement in all the data association steps, being the first system able to robustly perform SLAM inside the human body.
翻訳日:2022-10-05 22:07:35 公開日:2020-10-19
# ゼロショット物体検出のためのunseen合成

Synthesizing the Unseen for Zero-shot Object Detection ( http://arxiv.org/abs/2010.09425v1 )

ライセンス: Link先を確認
Nasir Hayat, Munawar Hayat, Shafin Rahman, Salman Khan, Syed Waqas Zamir, Fahad Shahbaz Khan(参考訳) 既存のゼロショット検出アプローチは、見えないオブジェクトを推論中に対応するセマンティクスにマッピングしたいと願って、視覚的特徴を目に見えないオブジェクトのセマンティクスドメインに投影する。 しかしながら、未検出のオブジェクトはトレーニング中には可視化されないため、検出モデルは参照されたコンテンツに歪んで、未検出のオブジェクトを背景または参照されたクラスとしてラベル付けする。 そこで本研究では,視覚領域における視対象と視対象の両方を学習するために,視対象クラスの視覚特徴を合成する手法を提案する。 その結果、大きな課題は、クラスセマンティクスだけを使用して、正確に見えないオブジェクトを合成する方法である。 この野心的な目標に向けて,クラスセマンティクスを用いて特徴を生成するだけでなく,特徴を識別的に分離する新たな生成モデルを提案する。 さらに, 統一モデルを用いて, 検出された境界ボックス内のクラス内差異と可変局在精度を表す高い多様性を有することを検証した。 従来の手法と一般化した手法の両方において,PASCAL VOC, MSCOCO, ILSVRC検出という3つのオブジェクト検出ベンチマークを用いて本手法を検証した。 私たちのコードはhttps://github.com/nasir6/zero_shot_detectionで利用可能です。

The existing zero-shot detection approaches project visual features to the semantic domain for seen objects, hoping to map unseen objects to their corresponding semantics during inference. However, since the unseen objects are never visualized during training, the detection model is skewed towards seen content, thereby labeling unseen as background or a seen class. In this work, we propose to synthesize visual features for unseen classes, so that the model learns both seen and unseen objects in the visual domain. Consequently, the major challenge becomes, how to accurately synthesize unseen objects merely using their class semantics? Towards this ambitious goal, we propose a novel generative model that uses class-semantics to not only generate the features but also to discriminatively separate them. Further, using a unified model, we ensure the synthesized features have high diversity that represents the intra-class differences and variable localization precision in the detected bounding boxes. We test our approach on three object detection benchmarks, PASCAL VOC, MSCOCO, and ILSVRC detection, under both conventional and generalized settings, showing impressive gains over the state-of-the-art methods. Our codes are available at https://github.com/nasir6/zero_shot_detection.
翻訳日:2022-10-05 22:07:06 公開日:2020-10-19
# Noisy-LSTM:ビデオセマンティックセグメンテーションにおける時間認識の改善

Noisy-LSTM: Improving Temporal Awareness for Video Semantic Segmentation ( http://arxiv.org/abs/2010.09466v1 )

ライセンス: Link先を確認
Bowen Wang, Liangzhi Li, Yuta Nakashima, Ryo Kawasaki, Hajime Nagahara, Yasushi Yagi(参考訳) セマンティックビデオセグメンテーションは様々なアプリケーションにとって重要な課題である。 本稿では,ビデオフレームにおける時間的コヒーレンシを活用するために,畳み込みLSTM(ConvLSTM)を用いて,エンドツーエンドでトレーニング可能なNoisy-LSTMというモデルを提案する。 また,ビデオシーケンスのフレームをノイズに置き換える,シンプルで効果的なトレーニング戦略を提案する。 この戦略は、トレーニング中のビデオフレームの時間的コヒーレンシーを損なうため、ConvLSTMの時間的リンクを信頼できないものにし、これによりビデオフレームからの特徴抽出を改善し、余分なデータアノテーションや計算コストを必要とせず、オーバーフィットを避けるためのレギュレータとして機能する。 実験により,提案モデルがCityScapesとEndoVis2018データセットの両方で最先端のパフォーマンスを達成可能であることが示された。

Semantic video segmentation is a key challenge for various applications. This paper presents a new model named Noisy-LSTM, which is trainable in an end-to-end manner, with convolutional LSTMs (ConvLSTMs) to leverage the temporal coherency in video frames. We also present a simple yet effective training strategy, which replaces a frame in video sequence with noises. This strategy spoils the temporal coherency in video frames during training and thus makes the temporal links in ConvLSTMs unreliable, which may consequently improve feature extraction from video frames, as well as serve as a regularizer to avoid overfitting, without requiring extra data annotation or computational costs. Experimental results demonstrate that the proposed model can achieve state-of-the-art performances in both the CityScapes and EndoVis2018 datasets.
翻訳日:2022-10-05 22:06:43 公開日:2020-10-19
# 3次元フラストラム超音波におけるカテーテルセグメンテーションの弱教師付き学習

Weakly-supervised Learning For Catheter Segmentation in 3D Frustum Ultrasound ( http://arxiv.org/abs/2010.09525v1 )

ライセンス: Link先を確認
Hongxu Yang, Caifeng Shan, Alexander F. Kolen, Peter H. N. de With(参考訳) 3D超音波(US)の正確なカテーテルセグメンテーションは心臓の介入に不可欠である。 現在、最先端のセグメンテーションアルゴリズムは畳み込みニューラルネットワーク(CNN)に基づいており、標準のモンテカルロ体積データにおいて顕著なパフォーマンスを実現している。 それでもこれらのアプローチは、低効率とGPU非フレンドリーな画像サイズという課題に悩まされている。 したがって、そのような困難さと高価なハードウェア要件は、実際の臨床応用のための正確かつ効率的なセグメンテーションモデルを構築する上でボトルネックとなる。 本稿では,Frustum超音波を用いたカテーテル・セグメンテーション法を提案する。 具体的には、フラストム超音波は標準カルト画像と同じ情報を含む極座標画像であり、従来のカルト画像よりも効率のボトルネックを克服する大きさがはるかに小さい。 それにもかかわらず、不規則で変形したフラスタム画像は、正確なボクセルレベルのアノテーションへのさらなる取り組みに繋がる。 この制限に対処するために,cnnのトレーニングに3dバウンディングボックスアノテーションをオーバーレイさせるだけでよい,弱い教師付き学習フレームワークが提案されている。 バウンディングボックスアノテーションは、モデルにミスリードするノイズや不正確なアノテーションを含むが、提案した擬似ラベル生成方式で対処する。 トレーニングボクセルのラベルは、トレーニング中に繰り返し更新されるラインフィルタリングとクラスアクティベーションマップを組み込むことによって生成される。 実験の結果,提案手法は0.25秒の効率で最先端の性能を達成できた。 さらに重要なことは、Frustumイメージセグメンテーションは、臨床応用の要求を満たす3DUSイメージにおけるセグメンテーションのより高速で安価なソリューションを提供する。

Accurate and efficient catheter segmentation in 3D ultrasound (US) is essential for cardiac intervention. Currently, the state-of-the-art segmentation algorithms are based on convolutional neural networks (CNNs), which achieved remarkable performances in a standard Cartesian volumetric data. Nevertheless, these approaches suffer the challenges of low efficiency and GPU unfriendly image size. Therefore, such difficulties and expensive hardware requirements become a bottleneck to build accurate and efficient segmentation models for real clinical application. In this paper, we propose a novel Frustum ultrasound based catheter segmentation method. Specifically, Frustum ultrasound is a polar coordinate based image, which includes same information of standard Cartesian image but has much smaller size, which overcomes the bottleneck of efficiency than conventional Cartesian images. Nevertheless, the irregular and deformed Frustum images lead to more efforts for accurate voxel-level annotation. To address this limitation, a weakly supervised learning framework is proposed, which only needs 3D bounding box annotations overlaying the region-of-interest to training the CNNs. Although the bounding box annotation includes noise and inaccurate annotation to mislead to model, it is addressed by the proposed pseudo label generated scheme. The labels of training voxels are generated by incorporating class activation maps with line filtering, which is iteratively updated during the training. Our experimental results show the proposed method achieved the state-of-the-art performance with an efficiency of 0.25 second per volume. More crucially, the Frustum image segmentation provides a much faster and cheaper solution for segmentation in 3D US image, which meet the demands of clinical applications.
翻訳日:2022-10-05 22:06:06 公開日:2020-10-19
# フィザラム溶液の容量制限

The Capacity Constraint Physarum Solver ( http://arxiv.org/abs/2010.09280v1 )

ライセンス: Link先を確認
Yusheng Huang (1), Dong Chu (2), Yong Deng (1), Kang Hao Cheong (3 and 4) ((1) Institute of Fundamental and Frontier Science, University of Electronic Science and Technology of China, Chengdu, 610054, China, (2) Schools of Information and Communication Engineering, University of Electronic Science and Technology of China, Chengdu, 610054, China, (3) Science, Mathematics and Technology Cluster, Singapore University of Technology and Design (SUTD), S487372, Singapore, (4) SUTD-Massachusetts Institute of Technology International Design Centre, Singapore)(参考訳) PPA(Physarum polycephalum inspired algorithm)は、Physarum Solverとしても知られるアルゴリズムである。 実世界の問題をネットワークフローのあるグラフにモデル化し、グラフ内のノード間の距離を計算するための適切な方程式を適用することにより、PPAはシステムの最適化問題やユーザ均衡問題の解法に利用できる。 しかし、最大フロー問題(MF)、最小コスト最大フロー問題(MCMF)、リンク容量化トラフィック割り当て問題(CTAP)などの問題では、キャパシティ制約に従うためにリンクを流れるフローが必要である。 PPAをベースとした新しい枠組みであるCPPA(Capacitated physarum polycephalum inspired algorithm)の欠如により、PPA内のリンクフローに対するキャパシティ制約が許容される。 CPPAの有効性を証明するために,CPPA の MF 問題に対する CPPA (CPPA-MF) と MCFC 問題に対する CPPA (CPPA-CTAP) の3つの応用法を開発した。 実験では、CPPAのすべての応用がこの問題をうまく解決した。 それらのいくつかは、ベースラインアルゴリズムと比較して効率性を示している。 実験の結果,CPPAフレームワークを用いたリンクフロー制御の有効性が確認された。 CPPAは3つの異なるシナリオでうまく適用できるので、非常に堅牢で実装が容易です。 提案手法は,PPA内のリンクを流れる流れの最大値を制御できることで,CPPAは将来的により複雑な現実問題に対処できることを示す。

Physarum polycephalum inspired algorithm (PPA), also known as the Physarum Solver, has attracted great attention. By modelling real-world problems into a graph with network flow and adopting proper equations to calculate the distance between the nodes in the graph, PPA could be used to solve system optimization problems or user equilibrium problems. However, some problems such as the maximum flow (MF) problem, minimum-cost-maximum-flow (MCMF) problem, and link-capacitated traffic assignment problem (CTAP), require the flow flowing through links to follow capacity constraints. Motivated by the lack of related PPA-based research, a novel framework, the capacitated physarum polycephalum inspired algorithm (CPPA), is proposed to allow capacity constraints toward link flow in the PPA. To prove the validity of the CPPA, we developed three applications of the CPPA, i.e., the CPPA for the MF problem (CPPA-MF), the CPPA for the MCFC problem, and the CPPA for the link-capacitated traffic assignment problem (CPPA-CTAP). In the experiments, all the applications of the CPPA solve the problems successfully. Some of them demonstrate efficiency compared to the baseline algorithms. The experimental results prove the validation of using the CPPA framework to control link flow in the PPA is valid. The CPPA is also very robust and easy to implement since it could be successfully applied in three different scenarios. The proposed method shows that: having the ability to control the maximum among flow flowing through links in the PPA, the CPPA could tackle more complex real-world problems in the future.
翻訳日:2022-10-05 21:59:45 公開日:2020-10-19
# 半形式検証を用いた深層強化学習モデルの安全性評価

Evaluating the Safety of Deep Reinforcement Learning Models using Semi-Formal Verification ( http://arxiv.org/abs/2010.09387v1 )

ライセンス: Link先を確認
Davide Corsi, Enrico Marchesini, Alessandro Farinelli(参考訳) Deep Reinforcement Learning (DRL) が実践的な意思決定問題の解決に成功している。 特にロボット工学は、高価なハードウェアと人間のインタラクションを伴います。 したがって、運用環境での安全でない振る舞いを避けるために、訓練されたモデルの粗末な評価が必要となる。 しかし、標準評価パラメータ(総報酬など)は十分な情報を持たないため、ニューラルネットワークの安全性を測定するためのメトリクスの設計は、オープンな問題である。 本稿では,事前検証フレームワークの計算要求とモデルの安全性を測定するための設計指標に対処する,区間分析に基づく意思決定課題に対する半形式的検証手法を提案する。 本手法は, 計算時間を劇的に削減しつつ, 定式検証に対して, 標準ベンチマークと比較した結果を得る。 さらに,移動ロボットのマップレスナビゲーションやマニピュレータの軌道生成といった実用応用において,意思決定モデルの安全性を効率的に評価することが可能である。

Groundbreaking successes have been achieved by Deep Reinforcement Learning (DRL) in solving practical decision-making problems. Robotics, in particular, can involve high-cost hardware and human interactions. Hence, scrupulous evaluations of trained models are required to avoid unsafe behaviours in the operational environment. However, designing metrics to measure the safety of a neural network is an open problem, since standard evaluation parameters (e.g., total reward) are not informative enough. In this paper, we present a semi-formal verification approach for decision-making tasks, based on interval analysis, that addresses the computational demanding of previous verification frameworks and design metrics to measure the safety of the models. Our method obtains comparable results over standard benchmarks with respect to formal verifiers, while drastically reducing the computation time. Moreover, our approach allows to efficiently evaluate safety properties for decision-making models in practical applications such as mapless navigation for mobile robots and trajectory generation for manipulators.
翻訳日:2022-10-05 21:59:15 公開日:2020-10-19
# シーンテキスト認識のためのガウス制約注意ネットワーク

Gaussian Constrained Attention Network for Scene Text Recognition ( http://arxiv.org/abs/2010.09169v1 )

ライセンス: Link先を確認
Zhi Qiao, Xugong Qin, Yu Zhou, Fei Yang, Weiping Wang(参考訳) シーンテキスト認識はコンピュータビジョンにおいてホットな話題となっている。 近年の手法では、説得力のある結果が得られるシーケンス予測の注意機構が採用されている。 しかし,既存の注意機構は注意拡散の問題に直面しており,モデルが特定のキャラクタ領域に焦点を合わせない可能性がある。 本稿では,この問題に対処するためにガウス制約付き注意ネットワークを提案する。 これは2次元の注意に基づく手法であり、新しいガウス制約リファインメントモジュールと統合され、ガウスマスクを追加して注意重みを洗練させる。 注意重みに対する追加の監督を単純に行うのと異なり,提案手法は明示的な改良を導入する。 このように、注意重みはより集中し、注意に基づく認識ネットワークはより良いパフォーマンスを達成する。 提案するガウス制約リファインメントモジュールは柔軟であり、既存の注意に基づく手法に直接適用することができる。 いくつかのベンチマークデータセットに対する実験により,提案手法の有効性が示された。 私たちのコードはhttps://github.com/pay20y/gcan.comで利用可能です。

Scene text recognition has been a hot topic in computer vision. Recent methods adopt the attention mechanism for sequence prediction which achieve convincing results. However, we argue that the existing attention mechanism faces the problem of attention diffusion, in which the model may not focus on a certain character area. In this paper, we propose Gaussian Constrained Attention Network to deal with this problem. It is a 2D attention-based method integrated with a novel Gaussian Constrained Refinement Module, which predicts an additional Gaussian mask to refine the attention weights. Different from adopting an additional supervision on the attention weights simply, our proposed method introduces an explicit refinement. In this way, the attention weights will be more concentrated and the attention-based recognition network achieves better performance. The proposed Gaussian Constrained Refinement Module is flexible and can be applied to existing attention-based methods directly. The experiments on several benchmark datasets demonstrate the effectiveness of our proposed method. Our code has been available at https://github.com/Pay20Y/GCAN.
翻訳日:2022-10-05 21:59:00 公開日:2020-10-19
# グループ畳み込み距離学習を用いた回転不変空中画像検索

Rotation Invariant Aerial Image Retrieval with Group Convolutional Metric Learning ( http://arxiv.org/abs/2010.09202v1 )

ライセンス: Link先を確認
Hyunseung Chung, Woo-Jeoung Nam, Seong-Whan Lee(参考訳) リモートセンシング画像検索(remote sensing image retrieval、rsir)は、クエリ画像と類似度に応じてデータベース画像をランク付けするプロセスである。 リモートセンサーの撮影範囲、角度、位置の多様性によりRSIRの複雑さが増大するにつれて、これらの問題に対処し、検索性能を向上させる方法の需要が高まっている。 本研究では,群畳み込みと注意機構とメトリック学習を融合し,回転変動に対するロバスト性を実現する新しい空中画像検索手法を提案する。 重要な特徴の洗練と強調のために,各グループ畳み込み段階でチャネル注意を適用した。 グループ畳み込みの特性とチャネルワイドアテンションを利用して、回転するが同一の位置にある画像の等しさを認識することができる。 訓練手順には2つの主要なステップがある。 (i)分類のためのAID(Aerial Image Dataset)によるネットワークのトレーニング (II) Google Earth South Korea と NWPU-RESISC45 データセットによる検索のためのトリプルトロスによるネットワークの微調整。 その結果,提案手法の性能はローテーション環境とオリジナル環境の両方において,他の最先端の検索手法を上回ることがわかった。 さらに,クラスアクティベーションマップ(cam)を用いて,本手法とベースラインの主な特徴の違いを可視化し,回転環境における適応性の向上を実現した。

Remote sensing image retrieval (RSIR) is the process of ranking database images depending on the degree of similarity compared to the query image. As the complexity of RSIR increases due to the diversity in shooting range, angle, and location of remote sensors, there is an increasing demand for methods to address these issues and improve retrieval performance. In this work, we introduce a novel method for retrieving aerial images by merging group convolution with attention mechanism and metric learning, resulting in robustness to rotational variations. For refinement and emphasis on important features, we applied channel attention in each group convolution stage. By utilizing the characteristics of group convolution and channel-wise attention, it is possible to acknowledge the equality among rotated but identically located images. The training procedure has two main steps: (i) training the network with Aerial Image Dataset (AID) for classification, (ii) fine-tuning the network with triplet-loss for retrieval with Google Earth South Korea and NWPU-RESISC45 datasets. Results show that the proposed method performance exceeds other state-of-the-art retrieval methods in both rotated and original environments. Furthermore, we utilize class activation maps (CAM) to visualize the distinct difference of main features between our method and baseline, resulting in better adaptability in rotated environments.
翻訳日:2022-10-05 21:58:46 公開日:2020-10-19
# 時空間行動局所化のための教師なしドメイン適応

Unsupervised Domain Adaptation for Spatio-Temporal Action Localization ( http://arxiv.org/abs/2010.09211v1 )

ライセンス: Link先を確認
Nakul Agarwal, Yi-Ting Chen, Behzad Dariush, Ming-Hsuan Yang(参考訳) 時空間的行動ローカライゼーションはコンピュータビジョンにおける重要な問題であり、活動の場所と時期を検知するので、空間的特徴と時間的特徴の両方をモデル化する必要がある。 この問題は一般的に教師付き学習の文脈で定式化され、学習された分類器はトレーニングとテストの両方が同じ基盤となる分布からサンプリングされるという前提で動作する。 しかし、この仮定は、重要なドメインシフトがある場合には成り立たないため、テストデータに対する一般化性能は低下する。 そこで,本研究では,サンプルの時空間的動作のローカライゼーションのためのラベルにアクセスせずに,サンプルのトレーニングモデルを一般化する,エンドツーエンドの教師なしドメイン適応アルゴリズムを提案することで,その課題に焦点をあてる。 我々は,最先端オブジェクト検出フレームワークを拡張し,アクションのローカライズと分類を行う。 ドメインシフトを最小限にするために、画像レベル(時間的および空間的)とインスタンスレベル(時間的)の3つのドメイン適応モジュールを設計し統合する。 我々は,UCF-Sports,UCF-101,JHMDBベンチマークデータセット上で,提案手法と異なる適応モジュールを新たに設計し,評価する。 空間的特徴と時間的特徴を別々に適応させたり、最も効果的な結果を得るために共同で達成できることを示す。

Spatio-temporal action localization is an important problem in computer vision that involves detecting where and when activities occur, and therefore requires modeling of both spatial and temporal features. This problem is typically formulated in the context of supervised learning, where the learned classifiers operate on the premise that both training and test data are sampled from the same underlying distribution. However, this assumption does not hold when there is a significant domain shift, leading to poor generalization performance on the test data. To address this, we focus on the hard and novel task of generalizing training models to test samples without access to any labels from the latter for spatio-temporal action localization by proposing an end-to-end unsupervised domain adaptation algorithm. We extend the state-of-the-art object detection framework to localize and classify actions. In order to minimize the domain shift, three domain adaptation modules at image level (temporal and spatial) and instance level (temporal) are designed and integrated. We design a new experimental setup and evaluate the proposed method and different adaptation modules on the UCF-Sports, UCF-101 and JHMDB benchmark datasets. We show that significant performance gain can be achieved when spatial and temporal features are adapted separately, or jointly for the most effective results.
翻訳日:2022-10-05 21:58:25 公開日:2020-10-19
# MCGKT-Net:単一画像レイニングのためのマルチレベルコンテキストゲーティング知識伝達ネットワーク

MCGKT-Net: Multi-level Context Gating Knowledge Transfer Network for Single Image Deraining ( http://arxiv.org/abs/2010.09241v1 )

ライセンス: Link先を確認
Kohei Yamamichi, Xian-Hua Han(参考訳) 1枚の画像で雨を取り除くのは、本質的に不適切な性質のため、非常に難しい作業です。 近年,深層畳み込みニューラルネットワーク(DCNN)を用いたエンドツーエンド学習技術がこの課題に大きく進展している。 しかし、従来のDCNNベースのデラミニング手法は、より深くより複雑なネットワークアーキテクチャを活用してパフォーマンスを向上させるのに苦労している。 本研究では,雨天のマルチスケール属性と鮮明な画像の異なる意味構造を探索できる自然学習フレームワークである,デラミニング性能向上のための新しいMCGKT-Netを提案する。 MCGKT-Netの高機能化を目的として,異なる層間の相互作用学習を行うためのConvLSTMユニットを用いた内部知識伝達モジュールを探索し,他のタスク領域で既に学習されている知識を活用するための外部知識伝達モジュールについて検討する。 さらに,学習手順において有用な特徴を動的に選択するために,圧縮と励起ブロックを用いたマルチスケールコンテキストゲーティングモジュールを MCGKT-Net で提案する。 Rain100H、Rain100L、Rain800の3つのベンチマークデータセットの実験は、最先端の手法と比較して、素晴らしいパフォーマンスを示している。

Rain streak removal in a single image is a very challenging task due to its ill-posed nature in essence. Recently, the end-to-end learning techniques with deep convolutional neural networks (DCNN) have made great progress in this task. However, the conventional DCNN-based deraining methods have struggled to exploit deeper and more complex network architectures for pursuing better performance. This study proposes a novel MCGKT-Net for boosting deraining performance, which is a naturally multi-scale learning framework being capable of exploring multi-scale attributes of rain streaks and different semantic structures of the clear images. In order to obtain high representative features inside MCGKT-Net, we explore internal knowledge transfer module using ConvLSTM unit for conducting interaction learning between different layers and investigate external knowledge transfer module for leveraging the knowledge already learned in other task domains. Furthermore, to dynamically select useful features in learning procedure, we propose a multi-scale context gating module in the MCGKT-Net using squeeze-and-excitation block. Experiments on three benchmark datasets: Rain100H, Rain100L, and Rain800, manifest impressive performance compared with state-of-the-art methods.
翻訳日:2022-10-05 21:57:07 公開日:2020-10-19
# Dimsum @LaySumm 20: 科学的文書要約のためのBARTベースのアプローチ

Dimsum @LaySumm 20: BART-based Approach for Scientific Document Summarization ( http://arxiv.org/abs/2010.09252v1 )

ライセンス: Link先を確認
Tiezheng Yu and Dan Su and Wenliang Dai and Pascale Fung(参考訳) layの要約は、科学論文の素な要約を自動的に生成することを目的としている。 社会全体の科学の関連性を高めるための重要な課題である。 本稿では,BARTモデルに基づくレイサマリー生成システムを構築する。 文ラベルを余分な監督信号として活用し,文要約の性能を向上させる。 CL-LaySumm 2020共有タスクでは、我々のモデルは46.00\% Rouge1-F1スコアを達成した。

Lay summarization aims to generate lay summaries of scientific papers automatically. It is an essential task that can increase the relevance of science for all of society. In this paper, we build a lay summary generation system based on the BART model. We leverage sentence labels as extra supervision signals to improve the performance of lay summarization. In the CL-LaySumm 2020 shared task, our model achieves 46.00\% Rouge1-F1 score.
翻訳日:2022-10-05 21:50:35 公開日:2020-10-19
# 言語間関係分類のためのRELXデータセットと多言語ブランクのマッチング

The RELX Dataset and Matching the Multilingual Blanks for Cross-Lingual Relation Classification ( http://arxiv.org/abs/2010.09381v1 )

ライセンス: Link先を確認
Abdullatif K\"oksal, Arzucan \"Ozg\"ur(参考訳) 関係分類は情報抽出における重要な話題の1つであり、知識ベースの構築や質問応答に有用な情報の提供に利用できる。 関係分類の現在のアプローチは、主に英語に焦点を当てており、人間のアノテーションによる多くのトレーニングデータを必要とする。 低リソース言語のための大量のトレーニングデータの作成とアノテーションは非現実的で高価です。 この問題を克服するために,多言語bertに基づくベースラインモデルと,遠隔監視によりベースラインを大幅に改善する新しい多言語事前学習設定という2つの言語間関係分類モデルを提案する。 評価のために,英語,フランス語,ドイツ語,スペイン語,トルコ語の言語間関係分類のための新しいベンチマークデータセットrelxを導入する。 RELX-Distantデータセットも提供しており、ウィキペディアやウィキデータから集めた数十万の文が、これらの言語を遠方の監督によって収集されている。 私たちのコードとデータは、https://github.com/boun-tabi/RELXで利用可能です。

Relation classification is one of the key topics in information extraction, which can be used to construct knowledge bases or to provide useful information for question answering. Current approaches for relation classification are mainly focused on the English language and require lots of training data with human annotations. Creating and annotating a large amount of training data for low-resource languages is impractical and expensive. To overcome this issue, we propose two cross-lingual relation classification models: a baseline model based on Multilingual BERT and a new multilingual pretraining setup, which significantly improves the baseline with distant supervision. For evaluation, we introduce a new public benchmark dataset for cross-lingual relation classification in English, French, German, Spanish, and Turkish, called RELX. We also provide the RELX-Distant dataset, which includes hundreds of thousands of sentences with relations from Wikipedia and Wikidata collected by distant supervision for these languages. Our code and data are available at: https://github.com/boun-tabi/RELX
翻訳日:2022-10-05 21:50:28 公開日:2020-10-19
# 弾性重み統合を用いたニューラルマシン翻訳のための教師なし事前学習

Unsupervised Pretraining for Neural Machine Translation Using Elastic Weight Consolidation ( http://arxiv.org/abs/2010.09403v1 )

ライセンス: Link先を確認
Du\v{s}an Vari\v{s} and Ond\v{r}ej Bojar(参考訳) 本研究は、ニューラルネットワーク翻訳(NMT)における教師なし事前学習の現在進行中の研究である。 本手法では,1言語データで学習した2つの言語モデルを用いてエンコーダとデコーダの重みを初期化し,その重み付けを弾性重み和(ewc)を用いて並列データ上で微調整することで,元の言語モデリングタスクの忘れを回避した。 我々は、ewcによる正規化と、言語モデリングの目的による正規化に焦点を当てた以前の作業を比較する。 その結果、EWCをデコーダで使用するとBLEUスコアが以前のような結果になる。 しかし、モデルは2-3倍高速に収束し、微調整段階では元のラベルなしのトレーニングデータを必要としない。 対照的に、EWCを用いた正規化は、元のタスクと新しいタスクが密接に関連していない場合、効果が低い。 両方向のNMTエンコーダを左から右への言語モデルで初期化し、元の左から右への言語モデリングタスクを記憶させるよう強制することで、双方向コンテキスト全体に対するエンコーダの学習能力を制限することを示す。

This work presents our ongoing research of unsupervised pretraining in neural machine translation (NMT). In our method, we initialize the weights of the encoder and decoder with two language models that are trained with monolingual data and then fine-tune the model on parallel data using Elastic Weight Consolidation (EWC) to avoid forgetting of the original language modeling tasks. We compare the regularization by EWC with the previous work that focuses on regularization by language modeling objectives. The positive result is that using EWC with the decoder achieves BLEU scores similar to the previous work. However, the model converges 2-3 times faster and does not require the original unlabeled training data during the fine-tuning stage. In contrast, the regularization using EWC is less effective if the original and new tasks are not closely related. We show that initializing the bidirectional NMT encoder with a left-to-right language model and forcing the model to remember the original left-to-right language modeling task limits the learning capacity of the encoder for the whole bidirectional context.
翻訳日:2022-10-05 21:50:11 公開日:2020-10-19
# ヘッドアップ! セルフアテンションヘッドによる教師なし選挙区パーシング

Heads-up! Unsupervised Constituency Parsing via Self-Attention Heads ( http://arxiv.org/abs/2010.09517v1 )

ライセンス: Link先を確認
Bowen Li, Taeuk Kim, Reinald Kim Amplayo, Frank Keller(参考訳) トランスフォーマティブベースの事前学習言語モデル(plms)は、多くのタスクでnlpの技術を劇的に改善した。 これにより、PLMが学習する統語的知識の分析に大きな関心が寄せられている。 この問題に対する以前のアプローチは限定的であり、主にテストスイートやプローブを使用していた。 本稿では,plmアテンションヘッドから構成木を抽出する新しい完全教師なし解析手法を提案する。 我々は,その固有特性に基づいて変圧器注意ヘッドをランク付けし,最終木を生成するための高位ヘッドのアンサンブルを作成する。 本手法は,アノテートに費用がかかる開発環境に依存しないため,低リソース言語に適用可能である。 提案手法は,開発セットが存在しない場合,既存の手法を上回ることも少なくないことを示す。 PLMが暗黙的に学習する文法を解析するためのツールとしても使用できる。 このために,本手法によって誘導されるパース木を用いて,ニューラルネットワークのpcfgを学習し,人間の注釈付き木バンクから派生した文法と比較する。

Transformer-based pre-trained language models (PLMs) have dramatically improved the state of the art in NLP across many tasks. This has led to substantial interest in analyzing the syntactic knowledge PLMs learn. Previous approaches to this question have been limited, mostly using test suites or probes. Here, we propose a novel fully unsupervised parsing approach that extracts constituency trees from PLM attention heads. We rank transformer attention heads based on their inherent properties, and create an ensemble of high-ranking heads to produce the final tree. Our method is adaptable to low-resource languages, as it does not rely on development sets, which can be expensive to annotate. Our experiments show that the proposed method often outperform existing approaches if there is no development set present. Our unsupervised parser can also be used as a tool to analyze the grammars PLMs learn implicitly. For this, we use the parse trees induced by our method to train a neural PCFG and compare it to a grammar derived from a human-annotated treebank.
翻訳日:2022-10-05 21:49:50 公開日:2020-10-19
# より良いディトラクション:トランスフォーマーに基づくディトラクタ生成と複数選択質問フィルタリング

Better Distractions: Transformer-based Distractor Generation and Multiple Choice Question Filtering ( http://arxiv.org/abs/2010.09598v1 )

ライセンス: Link先を確認
Jeroen Offerijns, Suzan Verberne, Tessa Verhoef(参考訳) 教育の分野では、意味的に正しい、教育的に関連する複数の選択質問(mcqs)を生成できることは大きな影響を与える可能性がある。 質問の生成自体が活発な研究テーマであるが、注意をそそる要因(誤った複数の選択オプション)を生成することは、あまり注目されない。 この分野には改善の余地がまだたくさんあるので、機会を逃している。 本研究では,GIT-2言語モデルを用いて,与えられた質問やテキストコンテキストに対して,RACEデータセットを用いて3つのイントラクタを生成する。 次に、BERT言語モデルをトレーニングし、MCQに応答し、このモデルをフィルタとして使用し、回答可能な質問のみを選択する。 本研究は,テキスト生成の指標から始め,このモデルがトラクタ生成(DG)の先行作業より優れ,最先端のパフォーマンスを実現していることを示す。 また,質問応答能力を計算することで,ベースモデルが大きくなり性能が向上することを示す。 さらに,得られた質問の質を確認した評価実験を行ったが,QAフィルタの統計的効果は認められなかった。

For the field of education, being able to generate semantically correct and educationally relevant multiple choice questions (MCQs) could have a large impact. While question generation itself is an active research topic, generating distractors (the incorrect multiple choice options) receives much less attention. A missed opportunity, since there is still a lot of room for improvement in this area. In this work, we train a GPT-2 language model to generate three distractors for a given question and text context, using the RACE dataset. Next, we train a BERT language model to answer MCQs, and use this model as a filter, to select only questions that can be answered and therefore presumably make sense. To evaluate our work, we start by using text generation metrics, which show that our model outperforms earlier work on distractor generation (DG) and achieves state-of-the-art performance. Also, by calculating the question answering ability, we show that larger base models lead to better performance. Moreover, we conducted a human evaluation study, which confirmed the quality of the generated questions, but showed no statistically significant effect of the QA filter.
翻訳日:2022-10-05 21:49:34 公開日:2020-10-19
# 自動編集における用語制約の導入

Incorporating Terminology Constraints in Automatic Post-Editing ( http://arxiv.org/abs/2010.09608v1 )

ライセンス: Link先を確認
David Wan, Chris Kedzie, Faisal Ladhak, Marine Carpuat and Kathleen McKeown(参考訳) 機械翻訳(MT)のユーザーは、特定の語彙用語の使用を確実にしたいかもしれない。 MTの推論中に用語制約を組み込む手法は存在するが、現在のAPEアプローチでは最終翻訳にそれらが現れることは保証できない。 本稿では,語彙制限された類人猿に対する自己回帰モデルと非自己回帰モデルの両方を示し,本手法が用語の95%の保存を可能にするとともに,英独ベンチマークの翻訳品質を向上させることを実証する。 語彙的に制約されたMT出力に適用しても,本手法は用語の保存を改善することができる。 しかし,本モデルでは,制約を体系的に模倣することを学ばず,性能と堅牢性の向上につながる単純なデータ拡張手法を提案する。

Users of machine translation (MT) may want to ensure the use of specific lexical terminologies. While there exist techniques for incorporating terminology constraints during inference for MT, current APE approaches cannot ensure that they will appear in the final translation. In this paper, we present both autoregressive and non-autoregressive models for lexically constrained APE, demonstrating that our approach enables preservation of 95% of the terminologies and also improves translation quality on English-German benchmarks. Even when applied to lexically constrained MT output, our approach is able to improve preservation of the terminologies. However, we show that our models do not learn to copy constraints systematically and suggest a simple data augmentation technique that leads to improved performance and robustness.
翻訳日:2022-10-05 21:49:13 公開日:2020-10-19
# ナレッジグラフ補完のための適応型注意ネットワーク

Adaptive Attentional Network for Few-Shot Knowledge Graph Completion ( http://arxiv.org/abs/2010.09638v1 )

ライセンス: Link先を確認
Jiawei Sheng, Shu Guo, Zhenyu Chen, Juwei Yue, Lihong Wang, Tingwen Liu and Hongbo Xu(参考訳) Few-shot Knowledge Graph (KG) の完成は、現在の研究の焦点であり、各タスクは、数少ない参照エンティティペアを考えると、関係の見えない事実をクエリすることを目的としている。 最近の試みでは、エンティティと参照の静的表現を学習し、それらの動的特性を無視して、例えば、エンティティはタスク関係において様々な役割を果たし、参照はクエリに異なる貢献をする。 本研究は,適応実体と参照表現を学習することにより,数ショットKG補完のための適応的注意ネットワークを提案する。 具体的には、エンティティはタスク指向の役割を識別するためにアダプティブ隣人エンコーダによってモデル化され、参照はアダプティブクエリ対応アグリゲータによってモデル化され、コントリビューションを区別する。 注意機構を通じて、エンティティと参照の両方が細粒度の意味を捉え、より表現力のある表現を表現できる。 これは、最小限のシナリオで知識獲得をより予測するものだ。 2つの公開データセットにおけるリンク予測の評価により,提案手法は,新たな最先端の成果を少ないサイズで達成できることが示されている。

Few-shot Knowledge Graph (KG) completion is a focus of current research, where each task aims at querying unseen facts of a relation given its few-shot reference entity pairs. Recent attempts solve this problem by learning static representations of entities and references, ignoring their dynamic properties, i.e., entities may exhibit diverse roles within task relations, and references may make different contributions to queries. This work proposes an adaptive attentional network for few-shot KG completion by learning adaptive entity and reference representations. Specifically, entities are modeled by an adaptive neighbor encoder to discern their task-oriented roles, while references are modeled by an adaptive query-aware aggregator to differentiate their contributions. Through the attention mechanism, both entities and references can capture their fine-grained semantic meanings, and thus render more expressive representations. This will be more predictive for knowledge acquisition in the few-shot scenario. Evaluation in link prediction on two public datasets shows that our approach achieves new state-of-the-art results with different few-shot sizes.
翻訳日:2022-10-05 21:48:52 公開日:2020-10-19
# セグメンテーションの字幕:低音源音声翻訳パイプラインの改良

Subtitles to Segmentation: Improving Low-Resource Speech-to-Text Translation Pipelines ( http://arxiv.org/abs/2010.09693v1 )

ライセンス: Link先を確認
David Wan, Zhengping Jiang, Chris Kedzie, Elsbeth Turcan, Peter Bell and Kathleen McKeown(参考訳) 本研究では、低リソース言語音声テキスト翻訳の文脈におけるASR出力セグメンテーションの改善に焦点を当てる。 ASRの出力セグメンテーションは、純粋に音響情報を用いて入力音声をセグメンテーションするので、文のようなセグメンテーションは保証されない。 ほとんどのMTシステムは文を入力として期待するので、長い未分割の通路での給餌は準最適性能をもたらす可能性がある。 番組や映画の字幕のデータセットを用いて、より良いASRセグメンテーションモデルをトレーニングする可能性を検討する。 さらに,pos(part-of-speech)タグと依存ラベル情報(asr出力から派生した)をセグメンテーションモデルに組み込む。 このノイズのある構文情報により,モデルの精度が向上することを示す。 本研究は,言語間情報検索(clir)タスクや人間関係評価などの下流タスクと同様に,セグメンテーション品質と下流mt性能に本質的に依存するモデルを評価する。 我々のモデルは、リトアニアとブルガリアの下流作業における性能改善を示す。

In this work, we focus on improving ASR output segmentation in the context of low-resource language speech-to-text translation. ASR output segmentation is crucial, as ASR systems segment the input audio using purely acoustic information and are not guaranteed to output sentence-like segments. Since most MT systems expect sentences as input, feeding in longer unsegmented passages can lead to sub-optimal performance. We explore the feasibility of using datasets of subtitles from TV shows and movies to train better ASR segmentation models. We further incorporate part-of-speech (POS) tag and dependency label information (derived from the unsegmented ASR outputs) into our segmentation model. We show that this noisy syntactic information can improve model accuracy. We evaluate our models intrinsically on segmentation quality and extrinsically on downstream MT performance, as well as downstream tasks including cross-lingual information retrieval (CLIR) tasks and human relevance assessments. Our model shows improved performance on downstream tasks for Lithuanian and Bulgarian.
翻訳日:2022-10-05 21:48:14 公開日:2020-10-19
# カラー画像のセグメンテーションメトリクス

Color Image Segmentation Metrics ( http://arxiv.org/abs/2010.09907v1 )

ライセンス: Link先を確認
Majid Harouni and Hadi Yazdani Baghmaleki(参考訳) 自動画像分割処理は多くの画像解析とコンピュータビジョンの必然的な部分であり、システムの他の部分に深く影響しているため、インタラクティブなセグメント化評価手法のセットはシステム開発プロセスを大幅に単純化することができる。 本論文では, カラー画像分割法における定量的評価手法の現状について, 分析的, 比較的な評価を行った。 適切な評価指標を選択する際の意思決定プロセスは、ベンチマークデータセットごとに異なるセグメンテーション方法を好む傾向があるため、依然として非常に深刻である。 さらに,これらの指標の概念的比較を高い抽象レベルで提供し,画像分割結果の定量的変化を理解するために検討する。

An automatic image segmentation procedure is an inevitable part of many image analyses and computer vision which deeply affect the rest of the system; therefore, a set of interactive segmentation evaluation methods can substantially simplify the system development process. This entry presents the state of the art of quantitative evaluation metrics for color image segmentation methods by performing an analytical and comparative review of the measures. The decision-making process in selecting a suitable evaluation metric is still very serious because each metric tends to favor a different segmentation method for each benchmark dataset. Furthermore, a conceptual comparison of these metrics is provided at a high level of abstraction and is discussed for understanding the quantitative changes in different image segmentation results.
翻訳日:2022-10-05 21:43:22 公開日:2020-10-19
# ストリートシーン変化検出のための階層型チャネル融合ネットワーク

Hierarchical Paired Channel Fusion Network for Street Scene Change Detection ( http://arxiv.org/abs/2010.09925v1 )

ライセンス: Link先を確認
Yinjie Lei and Duo Peng and Pingping Zhang and Qiuhong Ke and Haifeng Li(参考訳) ストリートシーン変化検出(Street Scene Change Detection, SSCD)は、コンピュータビジョンコミュニティにおいて重要な課題である、特定のストリートビューイメージペア間の変化領域を特定することを目的としている。 SSCDタスクを解決する直感的な方法は、抽出した画像特徴対を融合し、変更マップを生成するための相似部分を直接測定することである。 したがって、sscdタスクの鍵は、対応する変更マップの精度を向上させる効果的な特徴融合法を設計することである。 この目的のために、ペアリングされた特徴チャネルの適応的融合を利用するHPCFNet(Hierarchical Paired Channel Fusion Network)を提案する。 具体的には、与えられた画像対の特徴をシームズ畳み込みニューラルネットワーク(SCNN)によって共同抽出し、複数の特徴レベルでチャネル対の融合を探索することにより階層的に組み合わせる。 また,シーン変化の分布が多様であることから,多様な変化を検出するための多部特徴学習(MPFL)戦略も提案する。 本手法は,MPFL戦略に基づいて,シーン変化領域のスケールと位置の多様性に適応するための新しいアプローチを実現する。 3つの公開データセット(PCD、VL-CMU-CD、CDnet2014)に対する大規模な実験は、提案フレームワークが優れた性能を達成し、最先端の手法よりもかなり優れたマージンを持つことを示した。

Street Scene Change Detection (SSCD) aims to locate the changed regions between a given street-view image pair captured at different times, which is an important yet challenging task in the computer vision community. The intuitive way to solve the SSCD task is to fuse the extracted image feature pairs, and then directly measure the dissimilarity parts for producing a change map. Therefore, the key for the SSCD task is to design an effective feature fusion method that can improve the accuracy of the corresponding change maps. To this end, we present a novel Hierarchical Paired Channel Fusion Network (HPCFNet), which utilizes the adaptive fusion of paired feature channels. Specifically, the features of a given image pair are jointly extracted by a Siamese Convolutional Neural Network (SCNN) and hierarchically combined by exploring the fusion of channel pairs at multiple feature levels. In addition, based on the observation that the distribution of scene changes is diverse, we further propose a Multi-Part Feature Learning (MPFL) strategy to detect diverse changes. Based on the MPFL strategy, our framework achieves a novel approach to adapt to the scale and location diversities of the scene change regions. Extensive experiments on three public datasets (i.e., PCD, VL-CMU-CD and CDnet2014) demonstrate that the proposed framework achieves superior performance which outperforms other state-of-the-art methods with a considerable margin.
翻訳日:2022-10-05 21:43:10 公開日:2020-10-19
# バイオマーカー, ボリュームラジオミクス, 3次元CNNを用いた肺結節分類

Lung Nodule Classification Using Biomarkers, Volumetric Radiomics and 3D CNNs ( http://arxiv.org/abs/2010.11682v1 )

ライセンス: Link先を確認
Kushal Mehta, Arshita Jain, Jayalakshmi Mangalagiri, Sumeet Menon, Phuong Nguyen, David R. Chapman(参考訳) 放射線科医の注記から画像バイオマーカーとctスキャンの画像分類を組み合わせた肺結節悪性度推定のためのハイブリッドアルゴリズムを提案する。 本アルゴリズムは,3次元畳み込みニューラルネットワーク(cnn)とランダムフォレストを用いて,ct画像とバイオマーカーアノテーションと体積放射能特徴を組み合わせる。 画像のみ,バイオマーカー,合成画像+バイオマーカー,複合画像+容積放射線画像,最後に画像+バイオマーカー+容積特徴の組み合わせを用いて,結節悪性腫瘍の疑い度を分類し,アルゴリズムの性能を解析・比較した。 国立がん研究所(nci)肺画像データベースコンソーシアム(lidc)idriデータセットは、分類タスクのトレーニングと評価に使用される。 K-Nearest-Neighbors (KNN) による半教師付き学習の導入により, LIDC-IDRI のトレーニングサンプルサイズを増大させることで, CNN による画像分類と容積特徴を組み合わせた場合, KNN を用いた半教師付き学習では有意な改善が得られず, 試験対象モデルの悪性度評価の精度が向上することを示した。 また,画像バイオマーカーのみを用いたモデルは,バイオマーカーとボリュームラジオミクス,3D CNN,半教師付き学習を組み合わせたモデルよりも精度が高いことを示す。 この結果はlidc-idriの認知バイアスに影響される可能性について検討する。悪性度推定はバイオマーカーと同じ放射線科医パネルで記録されたためである。

We present a hybrid algorithm to estimate lung nodule malignancy that combines imaging biomarkers from Radiologist's annotation with image classification of CT scans. Our algorithm employs a 3D Convolutional Neural Network (CNN) as well as a Random Forest in order to combine CT imagery with biomarker annotation and volumetric radiomic features. We analyze and compare the performance of the algorithm using only imagery, only biomarkers, combined imagery + biomarkers, combined imagery + volumetric radiomic features and finally the combination of imagery + biomarkers + volumetric features in order to classify the suspicion level of nodule malignancy. The National Cancer Institute (NCI) Lung Image Database Consortium (LIDC) IDRI dataset is used to train and evaluate the classification task. We show that the incorporation of semi-supervised learning by means of K-Nearest-Neighbors (KNN) can increase the available training sample size of the LIDC-IDRI thereby further improving the accuracy of malignancy estimation of most of the models tested although there is no significant improvement with the use of KNN semi-supervised learning if image classification with CNNs and volumetric features are combined with descriptive biomarkers. Unexpectedly, we also show that a model using image biomarkers alone is more accurate than one that combines biomarkers with volumetric radiomics, 3D CNNs, and semi-supervised learning. We discuss the possibility that this result may be influenced by cognitive bias in LIDC-IDRI because malignancy estimates were recorded by the same radiologist panel as biomarkers, as well as future work to incorporate pathology information over a subset of study participants.
翻訳日:2022-10-05 21:42:44 公開日:2020-10-19
# ブラインドフェデレーションエッジ学習

Blind Federated Edge Learning ( http://arxiv.org/abs/2010.10030v1 )

ライセンス: Link先を確認
Mohammad Mohammadi Amiri, Tolga M. Duman, Deniz Gunduz, Sanjeev R. Kulkarni, H. Vincent Poor(参考訳) フェデレーションエッジ学習 (FEEL) について検討し, それぞれが独自のデータセットを持つ無線エッジデバイスで, パラメータサーバ (PS) として機能する無線アクセスポイントの助けを借りて, グローバルモデルを協調的に学習する。 各イテレーションにおいて、無線デバイスはローカルデータとPSから受信した最新のグローバルモデルを使用してローカル更新を行い、ローカル更新を無線のフェージング多重アクセスチャネル(MAC)を介してPSに送信する。 PSは、無線MAC経由で受信した信号に従ってグローバルモデルを更新し、デバイスと共有する。 無線MACの付加的な性質に触発されて,デバイスがローカル更新を非コードで送信する,アナログの<over-the-air'アグリゲーション方式を提案する。 オーバー・ザ・エア・エッジ・ラーニングに関する最近の文献とは異なり、ここではデバイスがチャネル状態情報(CSI)を持っていないと仮定する。 代わりに、PSは、完全CSIの欠如により悪化するチャネルの破壊効果を軽減するために複数のアンテナを備えている。 我々は、psの受信ビームフォーミング方式を設計し、psが十分な数のアンテナを持つ場合に完全なcsiの欠如を補うことができることを示す。 また,提案アルゴリズムの収束率から,完全CSIの欠如とPSアンテナ数の影響を明らかにする。 実験結果と収束解析は,PSのアンテナ数が十分に多ければ完全CSIが欠如しているにもかかわらず,無線フェードMACが決定論的になるPSアンテナ数による提案アルゴリズムの性能向上を示す。

We study federated edge learning (FEEL), where wireless edge devices, each with its own dataset, learn a global model collaboratively with the help of a wireless access point acting as the parameter server (PS). At each iteration, wireless devices perform local updates using their local data and the most recent global model received from the PS, and send their local updates to the PS over a wireless fading multiple access channel (MAC). The PS then updates the global model according to the signal received over the wireless MAC, and shares it with the devices. Motivated by the additive nature of the wireless MAC, we propose an analog `over-the-air' aggregation scheme, in which the devices transmit their local updates in an uncoded fashion. Unlike recent literature on over-the-air edge learning, here we assume that the devices do not have channel state information (CSI), while the PS has imperfect CSI. Instead, the PS is equipped multiple antennas to alleviate the destructive effect of the channel, exacerbated due to the lack of perfect CSI. We design a receive beamforming scheme at the PS, and show that it can compensate for the lack of perfect CSI when the PS has a sufficient number of antennas. We also derive the convergence rate of the proposed algorithm highlighting the impact of the lack of perfect CSI, as well as the number of PS antennas. Both the experimental results and the convergence analysis illustrate the performance improvement of the proposed algorithm with the number of PS antennas, where the wireless fading MAC becomes deterministic despite the lack of perfect CSI when the PS has a sufficiently large number of antennas.
翻訳日:2022-10-05 21:41:04 公開日:2020-10-19
# 有限学習非有界高次元ガウスのサンプル複雑性について

On the Sample Complexity of Privately Learning Unbounded High-Dimensional Gaussians ( http://arxiv.org/abs/2010.09929v1 )

ライセンス: Link先を確認
Ishaq Aden-Ali, Hassan Ashtiani, Gautam Kamath(参考訳) 近似微分プライバシーの制約の下で多変量ガウス方程式を学習するためのサンプル複雑性上限を提供する。 これらは、分布のパラメータに制限を課さない一般ガウス群に対する最初の有限標本上界である。 我々の境界は共変性が同一性であることが知られている場合においてほぼ最適であり、一般の場合では準最適であると推測される。 技術的な観点からは、この空間の局所被覆からグローバルな「局所的に小さい」被覆の存在を論じる分析ツールを提供する。 これらは、微分プライベートな仮説選択のための最近の手法の修正を用いて悪用される。 この手法は有限被覆を持たない他の分布クラスをプライベートに学習するのに有用である。

We provide sample complexity upper bounds for agnostically learning multivariate Gaussians under the constraint of approximate differential privacy. These are the first finite sample upper bounds for general Gaussians which do not impose restrictions on the parameters of the distribution. Our bounds are near-optimal in the case when the covariance is known to be the identity, and conjectured to be near-optimal in the general case. From a technical standpoint, we provide analytic tools for arguing the existence of global "locally small" covers from local covers of the space. These are exploited using modifications of recent techniques for differentially private hypothesis selection. Our techniques may prove useful for privately learning other distribution classes which do not possess a finite cover.
翻訳日:2022-10-05 21:40:18 公開日:2020-10-19
# SciSummPip: 教師なしの科学論文要約パイプライン

SciSummPip: An Unsupervised Scientific Paper Summarization Pipeline ( http://arxiv.org/abs/2010.09190v1 )

ライセンス: Link先を確認
Jiaxin Ju, Ming Liu, Longxiang Gao and Shirui Pan(参考訳) 学術文書処理(sdp)ワークショップは、科学的タスクの自然言語理解へのさらなる取り組みを促すことを目的としている。 それは3つの共有タスクを含み、LongSumm共有タスクに参加します。 本稿では,ニュース領域におけるマルチドキュメントのための教師なしテキスト要約システムである,summpip(zhao et al., 2020)に触発されたテキスト要約システムscisummpipについて述べる。 我々のSciSummPipには、文脈表現のためのトランスフォーマーベース言語モデルSciBERT(Beltagy et al., 2019)、PageRank(Page et al., 1999)によるコンテンツ選択、深層情報と言語情報の両方を用いた文グラフ構築、文グラフクラスタリング、グラフ内要約生成が含まれている。 本研究は,コンテンツ選択において従来の手法と異なり,科学的領域に適応するために要約長制約を適用した。 学習データセットとブラインドテストデータセットの両方における実験結果は,提案手法の有効性を示し,scisummpipとbertscore(zhang et al., 2019a)を用いたモジュールのロバスト性を検証する。

The Scholarly Document Processing (SDP) workshop is to encourage more efforts on natural language understanding of scientific task. It contains three shared tasks and we participate in the LongSumm shared task. In this paper, we describe our text summarization system, SciSummPip, inspired by SummPip (Zhao et al., 2020) that is an unsupervised text summarization system for multi-document in news domain. Our SciSummPip includes a transformer-based language model SciBERT (Beltagy et al., 2019) for contextual sentence representation, content selection with PageRank (Page et al., 1999), sentence graph construction with both deep and linguistic information, sentence graph clustering and within-graph summary generation. Our work differs from previous method in that content selection and a summary length constraint is applied to adapt to the scientific domain. The experiment results on both training dataset and blind test dataset show the effectiveness of our method, and we empirically verify the robustness of modules used in SciSummPip with BERTScore (Zhang et al., 2019a).
翻訳日:2022-10-05 21:40:07 公開日:2020-10-19
# micaugment:ワンショットマイクスタイル転送

MicAugment: One-shot Microphone Style Transfer ( http://arxiv.org/abs/2010.09658v1 )

ライセンス: Link先を確認
Zal\'an Borsos, Yunpeng Li, Beat Gfeller, Marco Tagliasacchi(参考訳) オーディオベースのモデル"In-the-Wild"の展開を成功させる上で重要な側面は、異種獲得条件によって導入された変換に対する堅牢性である。 本研究では,ワンショットマイクロホン方式の転送を行う手法を提案する。 ターゲットデバイスで録音された音声のほんの数秒間を与えられたmicaugmentは、入力取得パイプラインに関連する変換を識別し、学習された変換を使用して、ターゲットオーディオと同じ条件で録音されたかのように音声を合成する。 本手法は,実際の音声にスタイル転送をうまく適用でき,下流タスクにおけるデータ拡張として使用すると,モデルのロバスト性が著しく向上することを示す。

A crucial aspect for the successful deployment of audio-based models "in-the-wild" is the robustness to the transformations introduced by heterogeneous acquisition conditions. In this work, we propose a method to perform one-shot microphone style transfer. Given only a few seconds of audio recorded by a target device, MicAugment identifies the transformations associated to the input acquisition pipeline and uses the learned transformations to synthesize audio as if it were recorded under the same conditions as the target audio. We show that our method can successfully apply the style transfer to real audio and that it significantly increases model robustness when used as data augmentation in the downstream tasks.
翻訳日:2022-10-05 21:33:22 公開日:2020-10-19
# ニューラルネットワークトレーニングでは、どの程度の進歩がありましたか? ベンチマーク最適化のための新しい評価プロトコル

How much progress have we made in neural network training? A New Evaluation Protocol for Benchmarking Optimizers ( http://arxiv.org/abs/2010.09889v1 )

ライセンス: Link先を確認
Yuanhao Xiong, Xuanqing Liu, Li-Cheng Lan, Yang You, Si Si, Cho-Jui Hsieh(参考訳) ディープニューラルネットワークのトレーニングには、多くのオプティマイザが提案されており、複数のハイパーパラメータを持つことが多いため、パフォーマンスのベンチマークが難しい。 そこで本研究では, 最適ハイパーパラメータを知らずにモデルをスクラッチからトレーニングする) とデータ付加訓練効率(新たに収集したデータで定期的にモデルを再トレーニングするために, 選択したハイパーパラメータが使用される)の両方を評価するための新しいベンチマークプロトコルを提案する。 エンド・ツー・エンドの効率性については、チューニング時間を過大に強調するランダムハイパーパラメータチューニングを前提とした従来の作業とは異なり、banditハイパーパラメータチューニング戦略を用いて評価する。 評価プロトコルがランダム検索よりも人間のチューニング行動に適合することを示すために,人間実験を行った。 データ付加訓練では,データシフトに対するハイパーパラメータ感度を評価するための新しいプロトコルを提案する。 次に,提案したベンチマークフレームワークを,コンピュータビジョン,自然言語処理,強化学習,グラフマイニングなど7つの最適化タスクに適用する。 結果は、すべてのタスクに明確な勝者がないことを示している。

Many optimizers have been proposed for training deep neural networks, and they often have multiple hyperparameters, which make it tricky to benchmark their performance. In this work, we propose a new benchmarking protocol to evaluate both end-to-end efficiency (training a model from scratch without knowing the best hyperparameter) and data-addition training efficiency (the previously selected hyperparameters are used for periodically re-training the model with newly collected data). For end-to-end efficiency, unlike previous work that assumes random hyperparameter tuning, which over-emphasizes the tuning time, we propose to evaluate with a bandit hyperparameter tuning strategy. A human study is conducted to show that our evaluation protocol matches human tuning behavior better than the random search. For data-addition training, we propose a new protocol for assessing the hyperparameter sensitivity to data shift. We then apply the proposed benchmarking framework to 7 optimizers and various tasks, including computer vision, natural language processing, reinforcement learning, and graph mining. Our results show that there is no clear winner across all the tasks.
翻訳日:2022-10-05 21:32:55 公開日:2020-10-19
# shrec 2020トラック:6dオブジェクトのポーズ推定

SHREC 2020 track: 6D Object Pose Estimation ( http://arxiv.org/abs/2010.09355v1 )

ライセンス: Link先を確認
Honglin Yuan, Remco C. Veltkamp, Georgios Albanis, Nikolaos Zioulis, Dimitrios Zarpalas, Petros Daras(参考訳) 6dポーズ推定は、拡張現実、仮想現実、ロボット操作、視覚ナビゲーションに不可欠である。 しかし、現実世界のさまざまな物体のために問題は解決していない。 異なる3次元形状を持ち、撮像された画像の外観は、センサーノイズの影響を受け、照明条件や物体間の閉塞が変化する。 異なるポーズ推定手法は、特徴表現とシーン内容によって異なる強みと弱みを持つ。 同時に、データ駆動方式で6次元ポーズを推定する既存の3Dデータセットは、視野角と低解像度しか持たない。 これらの問題に対処するため、6Dポーズ推定における形状検索チャレンジのベンチマークを編成し、対応する6Dポーズに対応する写真リアルな色と深度の画像ペアを生成できる物理的に正確なシミュレータを作成する。 撮影された色と深度の画像から、このシミュレータを用いて400枚のフォトリアリスティックな合成色と深度の画像ペアと、様々な視野角のトレーニングと、さらに100枚の撮影および合成画像をテストするための3dデータセットを生成する。 5つの研究グループがこのトラックに登録し、そのうち2つが結果を提出した。 データ駆動手法は6次元オブジェクトのポーズ推定における現在のトレンドであり、色と幾何学的特徴をフル活用するアプローチは、6次元オブジェクトとテクスチャレスオブジェクトのポーズ推定やオクルージョンにおいてより堅牢であることを示す。 このベンチマークと比較評価結果は、6次元オブジェクトのポーズ推定とその応用に関する研究をさらに強化し、促進する可能性がある。

6D pose estimation is crucial for augmented reality, virtual reality, robotic manipulation and visual navigation. However, the problem is challenging due to the variety of objects in the real world. They have varying 3D shape and their appearances in captured images are affected by sensor noise, changing lighting conditions and occlusions between objects. Different pose estimation methods have different strengths and weaknesses, depending on feature representations and scene contents. At the same time, existing 3D datasets that are used for data-driven methods to estimate 6D poses have limited view angles and low resolution. To address these issues, we organize the Shape Retrieval Challenge benchmark on 6D pose estimation and create a physically accurate simulator that is able to generate photo-realistic color-and-depth image pairs with corresponding ground truth 6D poses. From captured color and depth images, we use this simulator to generate a 3D dataset which has 400 photo-realistic synthesized color-and-depth image pairs with various view angles for training, and another 100 captured and synthetic images for testing. Five research groups register in this track and two of them submitted their results. Data-driven methods are the current trend in 6D object pose estimation and our evaluation results show that approaches which fully exploit the color and geometric features are more robust for 6D pose estimation of reflective and texture-less objects and occlusion. This benchmark and comparative evaluation results have the potential to further enrich and boost the research of 6D object pose estimation and its applications.
翻訳日:2022-10-05 21:32:19 公開日:2020-10-19
# GASNet: 新型コロナウイルス感染症対策の弱体化フレームワーク

GASNet: Weakly-supervised Framework for COVID-19 Lesion Segmentation ( http://arxiv.org/abs/2010.09456v1 )

ライセンス: Link先を確認
Zhanwei Xu, Yukun Cao, Cheng Jin, Guozhu Shao, Xiaoqing Liu, Jie Zhou, Heshui Shi, Jianjiang Feng(参考訳) 胸部CTボリュームにおける感染部位の分離は、COVID-19患者のさらなる診断と治療に非常に重要である。 複雑な形状と病変の多様な外観のため、多くのボクセルレベルラベル付きサンプルが、深層学習に基づく医用画像分割アルゴリズム開発の主要なボトルネックである病変分割ネットワークを訓練するために要求される。 本稿では,ganetと呼ばれる分節ネットワークに生成的逆行訓練プロセスを組み込むことにより,弱教師付き病変分節フレームワークを提案する。 GASNetは、セグメンタによりCOVID-19 CTの病変領域を分別し、異常な外観をジェネレータによって発生した正常な外観に置き換えるように最適化され、再生されたCTボリュームは、判別器によって健康なCTボリュームと区別できない。 GASNetは、多くの健康および新型コロナウイルス患者の胸部CTボリュームで、ボクセルレベルのアノテーションなしで管理されている。 3つの公開データベースでの実験では、1つのvoxelレベルラベル付きサンプルを使用する場合、gasnetのパフォーマンスは数十のvoxelレベルラベル付きサンプルでトレーニングされた完全な教師付きセグメンテーションアルゴリズムに匹敵する。

Segmentation of infected areas in chest CT volumes is of great significance for further diagnosis and treatment of COVID-19 patients. Due to the complex shapes and varied appearances of lesions, a large number of voxel-level labeled samples are generally required to train a lesion segmentation network, which is a main bottleneck for developing deep learning based medical image segmentation algorithms. In this paper, we propose a weakly-supervised lesion segmentation framework by embedding the Generative Adversarial training process into the Segmentation Network, which is called GASNet. GASNet is optimized to segment the lesion areas of a COVID-19 CT by the segmenter, and to replace the abnormal appearance with a generated normal appearance by the generator, so that the restored CT volumes are indistinguishable from healthy CT volumes by the discriminator. GASNet is supervised by chest CT volumes of many healthy and COVID-19 subjects without voxel-level annotations. Experiments on three public databases show that when using as few as one voxel-level labeled sample, the performance of GASNet is comparable to fully-supervised segmentation algorithms trained on dozens of voxel-level labeled samples.
翻訳日:2022-10-05 21:31:52 公開日:2020-10-19
# 3Dオブジェクトの再構成とセグメンテーションの学習

Learning to Reconstruct and Segment 3D Objects ( http://arxiv.org/abs/2010.09582v1 )

ライセンス: Link先を確認
Bo Yang(参考訳) 人間のように3次元の表現で現実世界を知覚する能力を持つ機械を育むことは、人工知能の基本的な、長年の話題である。 2d/3dセンサーによって取得された画像や点雲のような異なる種類の視覚入力を考えると、重要な目標は3d環境の幾何学的構造と意味を理解することである。 伝統的なアプローチは、通常手作りの特徴を利用して、オブジェクトやシーンの形状や意味を推定する。 しかし、新しい物体やシナリオに一般化することは困難であり、視覚的閉塞による致命的な問題を克服するのは難しい。 それとは対照的に,大規模実世界の3dデータに基づいてトレーニングされた深層ニューラルネットワークを用いて,汎用的かつ堅牢な表現を学習することで,シーンとその中のオブジェクトを理解することを目指している。 これらの目的を達成するために、この論文は、単一または複数ビューからのオブジェクトレベルの3次元形状推定からシーンレベルのセマンティック理解までの3つの中核となる貢献を行う。

To endow machines with the ability to perceive the real-world in a three dimensional representation as we do as humans is a fundamental and long-standing topic in Artificial Intelligence. Given different types of visual inputs such as images or point clouds acquired by 2D/3D sensors, one important goal is to understand the geometric structure and semantics of the 3D environment. Traditional approaches usually leverage hand-crafted features to estimate the shape and semantics of objects or scenes. However, they are difficult to generalize to novel objects and scenarios, and struggle to overcome critical issues caused by visual occlusions. By contrast, we aim to understand scenes and the objects within them by learning general and robust representations using deep neural networks, trained on large-scale real-world 3D data. To achieve these aims, this thesis makes three core contributions from object-level 3D shape estimation from single or multiple views to scene-level semantic understanding.
翻訳日:2022-10-05 21:31:12 公開日:2020-10-19
# 微小粒子径推定のためのマルチモード超解像

Multi-Modal Super Resolution for Dense Microscopic Particle Size Estimation ( http://arxiv.org/abs/2010.09594v1 )

ライセンス: Link先を確認
Sarvesh Patil, Chava Y P D Phani Rajanish, and Naveen Margankunte(参考訳) 粒径分析(PSA)は,多くの産業において重要なプロセスであり,最終製品の性質に大きな影響を及ぼす可能性がある。 この目的のためのユビキタス機器は光学顕微鏡(OM)である。 しかし、OMは低分解能、小さな焦点深度、回折によって隠蔽されるエッジといった欠点がしばしば起こる。 我々は,2つの条件付き生成共振器ネットワーク(cGAN)の組み合わせによる,走査型電子顕微鏡(SEM)画像のように見えるスーパーリゾルバOM画像の強力な応用を提案する。 さらに,高分解能粒子のPSAを高密度かつ疎結合の画像上で効率的に行うことのできる,カスタムオブジェクト検出モジュールの利用を実証する。 超解像から得られたPSA結果は、ヒトアノテータに対してベンチマークされ、対応するSEM画像から得られた。 提案したモデルは, 高精度な粒子径推定のための多モード画像変換と超解像の一般化可能な方法を示す。

Particle Size Analysis (PSA) is an important process carried out in a number of industries, which can significantly influence the properties of the final product. A ubiquitous instrument for this purpose is the Optical Microscope (OM). However, OMs are often prone to drawbacks like low resolution, small focal depth, and edge features being masked due to diffraction. We propose a powerful application of a combination of two Conditional Generative Adversarial Networks (cGANs) that Super Resolve OM images to look like Scanning Electron Microscope (SEM) images. We further demonstrate the use of a custom object detection module that can perform efficient PSA of the super-resolved particles on both, densely and sparsely packed images. The PSA results obtained from the super-resolved images have been benchmarked against human annotators, and results obtained from the corresponding SEM images. The proposed models show a generalizable way of multi-modal image translation and super-resolution for accurate particle size estimation.
翻訳日:2022-10-05 21:30:53 公開日:2020-10-19
# gamesh: ディープポイントネットワークのための誘導および拡張メッシュ

GAMesh: Guided and Augmented Meshing for Deep Point Networks ( http://arxiv.org/abs/2010.09774v1 )

ライセンス: Link先を確認
Nitin Agarwal and M Gopi(参考訳) 本稿では、GAMeshと呼ばれる新しいメッシュアルゴリズムを提案する。これは、メッシュを使用して、ポイントネットワークの出力ポイントの表面を生成する。 この先に出力ポイントを投影し、その結果のメッシュを単純化することにより、GAMeshはメッシュと同じトポロジを持つ表面を予め確保するが、その幾何学的忠実度はポイントネットワークによって制御される。 これによりgameshは、従来の表面再構成アルゴリズムにおいて共通のアーティファクトである出力点の密度と分布の両方に依存しない。 このような幾何学とトポロジーの分離は、特に単視点形状予測、ポイントネットワークの公正な評価、スパースポイント雲を出力するネットワークの再構成面において、いくつかの利点がある。 さらに, GAMeshを用いて点ネットワークをトレーニングすることにより, 頂点位置を直接最適化し, 任意のトポロジを持つ適応メッシュを生成することができることを示す。

We present a new meshing algorithm called guided and augmented meshing, GAMesh, which uses a mesh prior to generate a surface for the output points of a point network. By projecting the output points onto this prior and simplifying the resulting mesh, GAMesh ensures a surface with the same topology as the mesh prior but whose geometric fidelity is controlled by the point network. This makes GAMesh independent of both the density and distribution of the output points, a common artifact in traditional surface reconstruction algorithms. We show that such a separation of geometry from topology can have several advantages especially in single-view shape prediction, fair evaluation of point networks and reconstructing surfaces for networks which output sparse point clouds. We further show that by training point networks with GAMesh, we can directly optimize the vertex positions to generate adaptive meshes with arbitrary topologies.
翻訳日:2022-10-05 21:30:35 公開日:2020-10-19
# インテリジェント車両システムとスマートシティのための5G適応型ネットワークスライシングのための深層強化学習

Deep Reinforcement Learning for Adaptive Network Slicing in 5G for Intelligent Vehicular Systems and Smart Cities ( http://arxiv.org/abs/2010.09916v1 )

ライセンス: Link先を確認
Almuthanna Nassar, and Yasin Yilmaz(参考訳) intelligent vehicular systemsとsmart city applicationsは、iot(internet of things, モノのインターネット)実装の最大成長率であり、年間成長率は30%である。 IoTデバイスの最近の進歩と人工知能(AI)によって駆動される新たなタイプのIoTアプリケーションを考えると、クラウドRAN(C-RAN)のレイテンシ制限を克服するために、第5世代(5G)無線通信のためにフォグラジオアクセスネットワーク(F-RAN)が最近導入された。 ネットワークエッジ(フォグノード)に限られたリソースを割り当てるネットワークスライシングの問題について検討する。 本稿では、エッジコントローラ(ec)と協調するフォグノード(fns)のクラスタに基づくネットワークスライシングモデルを開発し、ネットワークエッジの限られた資源を効率的に活用する。 クラスタ内の各サービス要求に対して、ECはどのFNでタスクを実行するか、すなわち、エッジでローカルにリクエストをサーブするか、あるいはタスクを拒否してクラウドに参照するかを決定する。 無限水平マルコフ決定過程(MDP)として問題を定式化し、最適スライシングポリシーを適応的に学習するための深部強化学習(DRL)ソリューションを提案する。 DRLに基づくスライシング法の性能評価は,動的環境における他のスライシング手法との比較や,設計目的の異なるシナリオについて行った。 総合シミュレーションの結果から,提案したDRLベースのECは環境との相互作用を通じて迅速に最適方針を学習し,動的車両およびスマートシティ環境における効率的な資源配分を実現する。

Intelligent vehicular systems and smart city applications are the fastest growing Internet of things (IoT) implementations at a compound annual growth rate of 30%. In view of the recent advances in IoT devices and the emerging new breed of IoT applications driven by artificial intelligence (AI), fog radio access network (F-RAN) has been recently introduced for the fifth generation (5G) wireless communications to overcome the latency limitations of cloud-RAN (C-RAN). We consider the network slicing problem of allocating the limited resources at the network edge (fog nodes) to vehicular and smart city users with heterogeneous latency and computing demands in dynamic environments. We develop a network slicing model based on a cluster of fog nodes (FNs) coordinated with an edge controller (EC) to efficiently utilize the limited resources at the network edge. For each service request in a cluster, the EC decides which FN to execute the task, i.e., locally serve the request at the edge, or to reject the task and refer it to the cloud. We formulate the problem as infinite-horizon Markov decision process (MDP) and propose a deep reinforcement learning (DRL) solution to adaptively learn the optimal slicing policy. The performance of the proposed DRL-based slicing method is evaluated by comparing it with other slicing approaches in dynamic environments and for different scenarios of design objectives. Comprehensive simulation results corroborate that the proposed DRL-based EC quickly learns the optimal policy through interaction with the environment, which enables adaptive and automated network slicing for efficient resource allocation in dynamic vehicular and smart city environments.
翻訳日:2022-10-05 21:24:31 公開日:2020-10-19
# SATを用いた最適決定リスト

Optimal Decision Lists using SAT ( http://arxiv.org/abs/2010.09919v1 )

ライセンス: Link先を確認
Jinqiang Yu, Alexey Ignatiev, Pierre Le Bodic, Peter J. Stuckey(参考訳) 決定リストは最も簡単に説明できる機械学習モデルの1つである。 説明可能な機械学習の決定が新たに強調されたことを踏まえると、この機械学習モデルはますます魅力的になり、小さなサイズと明確な説明可能性を組み合わせている。 本稿では,最新のSAT問題解決技術を用いて,トレーニングデータに対して完全かつ最小限の精度で最適な「完全」決定リストを構築する方法について,初めて述べる。 また,サイズと精度をトレードオフする最適なスパース決定リストを決定する新しい手法を提案する。 最適な決定リストと最適な決定セットのサイズとテストの正確さ、および最適な決定リストを決定するための他の最先端の方法を比較した。 また、意思決定と決定リストによって生成される平均説明のサイズについても検討する。

Decision lists are one of the most easily explainable machine learning models. Given the renewed emphasis on explainable machine learning decisions, this machine learning model is increasingly attractive, combining small size and clear explainability. In this paper, we show for the first time how to construct optimal "perfect" decision lists which are perfectly accurate on the training data, and minimal in size, making use of modern SAT solving technology. We also give a new method for determining optimal sparse decision lists, which trade off size and accuracy. We contrast the size and test accuracy of optimal decisions lists versus optimal decision sets, as well as other state-of-the-art methods for determining optimal decision lists. We also examine the size of average explanations generated by decision sets and decision lists.
翻訳日:2022-10-05 21:24:01 公開日:2020-10-19
# 正規化条件付き図形を用いた潜在変数を持つ指数族図形モデルの学習

Learning Exponential Family Graphical Models with Latent Variables using Regularized Conditional Likelihood ( http://arxiv.org/abs/2010.09386v1 )

ライセンス: Link先を確認
Armeen Taeb, Parikshit Shah, Venkat Chandrasekaran(参考訳) サンプル変数の集合にグラフィカルモデルを適用することは、観測変数が潜伏変数の影響を受けている場合、観察変数間の統計的依存性が著しく矛盾する可能性がある場合、難しい課題である。 本稿では,潜在変数に条件づけられた観測変数の条件分布を指数関数系グラフィカルモデルにより与えた,潜在変数モデルに対する正規化条件付き確率に基づく新しい凸緩和フレームワークを提案する。 観測された変数の周縁分布を特徴付けることにより進行する従属的手法と比較して,本手法は潜在変数の特定の分布形式に関する知識を必要とせず,観測データがガウス型としてよくモデル化されていない問題に対して従属的アプローチを課すことができるため,より広い範囲に適用できる。 我々は,実データと合成に関する数値実験を通じて,フレームワークの有用性と柔軟性を実証する。

Fitting a graphical model to a collection of random variables given sample observations is a challenging task if the observed variables are influenced by latent variables, which can induce significant confounding statistical dependencies among the observed variables. We present a new convex relaxation framework based on regularized conditional likelihood for latent-variable graphical modeling in which the conditional distribution of the observed variables conditioned on the latent variables is given by an exponential family graphical model. In comparison to previously proposed tractable methods that proceed by characterizing the marginal distribution of the observed variables, our approach is applicable in a broader range of settings as it does not require knowledge about the specific form of distribution of the latent variables and it can be specialized to yield tractable approaches to problems in which the observed data are not well-modeled as Gaussian. We demonstrate the utility and flexibility of our framework via a series of numerical experiments on synthetic as well as real data.
翻訳日:2022-10-05 21:22:21 公開日:2020-10-19
# バイレベル最適化による半教師付きバッチアクティブラーニング

Semi-supervised Batch Active Learning via Bilevel Optimization ( http://arxiv.org/abs/2010.09654v1 )

ライセンス: Link先を確認
Zal\'an Borsos, Marco Tagliasacchi, Andreas Krause(参考訳) アクティブラーニングは、データ効率を向上させることでラベリングコストを削減する効果的な手法である。 本研究では,モデルトレーニングを半教師付きで実施する環境で,アクティブラーニングのための新しいバッチ取得戦略を提案する。 ここでは、クエリされたバッチが、ラベルのないデータプールを最もよく要約するポイントから成り立っている、二段階最適化によるデータ要約問題として、我々のアプローチを定式化する。 本手法は,ラベル付きサンプルがほとんどない場合,レジーム内のキーワード検出タスクにおいて極めて有効であることを示す。

Active learning is an effective technique for reducing the labeling cost by improving data efficiency. In this work, we propose a novel batch acquisition strategy for active learning in the setting where the model training is performed in a semi-supervised manner. We formulate our approach as a data summarization problem via bilevel optimization, where the queried batch consists of the points that best summarize the unlabeled data pool. We show that our method is highly effective in keyword detection tasks in the regime when only few labeled samples are available.
翻訳日:2022-10-05 21:21:15 公開日:2020-10-19
# 教師なし表現規則は説明可能性を提供し、新しいドメインを把握できる人間専門家を支援する

Unsupervised Expressive Rules Provide Explainability and Assist Human Experts Grasping New Domains ( http://arxiv.org/abs/2010.09459v1 )

ライセンス: Link先を確認
Eyal Shnarch, Leshem Choshen, Guy Moshkowich, Noam Slonim, Ranit Aharonov(参考訳) 新しいデータへのアプローチは、かなり抑止的になりがちです。一般的に、ラベル付きデータがなく、ドメイン適応メソッドのパフォーマンスが不十分です。 ドメインエキスパートが新しいコーパスに対する新しいタスクへの第一歩として,探索されていないコーパスを顕著なカテゴリ(あるいはファセット)でクラスタ化する複雑なルールを明らかにするための,教師なしのアプローチを提案する。 これらのルールは、人間が読めるので、最近不足している重要な要素である説明可能性を提供する。 各ルールは、クラスタ化されたすべてのテキストの共通性を説明する。 本稿では,対象カテゴリーの識別におけるこれらのルールの有用性を広範囲に評価するとともに,その解釈可能性を評価するユーザ調査を行った。

Approaching new data can be quite deterrent; you do not know how your categories of interest are realized in it, commonly, there is no labeled data at hand, and the performance of domain adaptation methods is unsatisfactory. Aiming to assist domain experts in their first steps into a new task over a new corpus, we present an unsupervised approach to reveal complex rules which cluster the unexplored corpus by its prominent categories (or facets). These rules are human-readable, thus providing an important ingredient which has become in short supply lately - explainability. Each rule provides an explanation for the commonality of all the texts it clusters together. We present an extensive evaluation of the usefulness of these rules in identifying target categories, as well as a user study which assesses their interpretability.
翻訳日:2022-10-05 21:14:59 公開日:2020-10-19
# Lexicographic Deep Reinforcement Learning を用いたチャンス制約制御

Chance-Constrained Control with Lexicographic Deep Reinforcement Learning ( http://arxiv.org/abs/2010.09468v1 )

ライセンス: Link先を確認
Alessandro Giuseppi, Antonio Pietrabissa(参考訳) 本稿では,制約を満たす確率が与えられた閾値を超えていることを保証するために,確率制約付きマルコフ決定プロセスに対する語彙学的深層強化学習(deeprl)に基づくアプローチを提案する。 標準DeepRLアプローチの必要性 一 費用関数において、多目的方式で追加の重み付き用語として含めなければならない制約 二 Deep Neural Network(DNN)のトレーニング期間中に導入したウェイトを、確率閾値に応じて調整すること。 提案手法では,各制約に関連付けられた制約のないDNNと1つのDNNを個別に学習し,各タイミングでシステム観測状態に応じてどのDNNを使用するかを選択する必要がある。 提案したソリューションは、たとえ確率閾値が変化しても、標準のDNN以外のハイパーパラメータチューニングを必要としない。 有名なDeepRLアルゴリズムDQNの辞書版も提案され、シミュレーションによって検証されている。

This paper proposes a lexicographic Deep Reinforcement Learning (DeepRL)-based approach to chance-constrained Markov Decision Processes, in which the controller seeks to ensure that the probability of satisfying the constraint is above a given threshold. Standard DeepRL approaches require i) the constraints to be included as additional weighted terms in the cost function, in a multi-objective fashion, and ii) the tuning of the introduced weights during the training phase of the Deep Neural Network (DNN) according to the probability thresholds. The proposed approach, instead, requires to separately train one constraint-free DNN and one DNN associated to each constraint and then, at each time-step, to select which DNN to use depending on the system observed state. The presented solution does not require any hyper-parameter tuning besides the standard DNN ones, even if the probability thresholds changes. A lexicographic version of the well-known DeepRL algorithm DQN is also proposed and validated via simulations.
翻訳日:2022-10-05 21:13:36 公開日:2020-10-19
# フェデレーション深層学習を用いたスマートドアベル設計の実証

A Demonstration of Smart Doorbell Design Using Federated Deep Learning ( http://arxiv.org/abs/2010.09687v1 )

ライセンス: Link先を確認
Vatsal Patel and Sarth Kanani and Tapan Pathak and Pankesh Patel and Muhammad Intizar Ali and John Breslin(参考訳) スマートドアベルは現代の家を守る上で重要な役割を果たしています。 ビデオ分析のためにビデオストリームを集中型サーバ(あるいはクラウド)に送信する既存のアプローチは、レイテンシ、帯域幅コスト、さらに重要なユーザのプライバシー上の懸念など、多くの課題に直面している。 このような課題に対処するため,本稿では,エッジやクラウドリソースを越えたスマートドアベルなどのビデオ分析アプリケーションをデプロイおよび管理可能な,連合型ディープラーニングに基づくインテリジェントなスマートドアベルの能力を紹介する。 このプラットフォームはスケールし、複数のデバイスと連携し、アプリケーションコンポーネントのオンラインオーケストレーションをシームレスに管理できる。 提案するフレームワークは最先端技術を用いて実装されている。 私たちは、AWS EC2とAWS Serverlessアーキテクチャ上にデプロイされたNginxとGunicornを使用してコンテナ化されたFraskフレームワークを使用して、フェデレーションサーバを実装しています。

Smart doorbells have been playing an important role in protecting our modern homes. Existing approaches of sending video streams to a centralized server (or Cloud) for video analytics have been facing many challenges such as latency, bandwidth cost and more importantly users' privacy concerns. To address these challenges, this paper showcases the ability of an intelligent smart doorbell based on Federated Deep Learning, which can deploy and manage video analytics applications such as a smart doorbell across Edge and Cloud resources. This platform can scale, work with multiple devices, seamlessly manage online orchestration of the application components. The proposed framework is implemented using state-of-the-art technology. We implement the Federated Server using the Flask framework, containerized using Nginx and Gunicorn, which is deployed on AWS EC2 and AWS Serverless architecture.
翻訳日:2022-10-05 21:13:19 公開日:2020-10-19
# Trimmed Hard Thresholdingによるロバスト高次元予測最大化アルゴリズム

Robust High Dimensional Expectation Maximization Algorithm via Trimmed Hard Thresholding ( http://arxiv.org/abs/2010.09576v1 )

ライセンス: Link先を確認
Di Wang and Xiangyu Guo and Shi Li and Jinhui Xu(参考訳) 本稿では,パラメータがスパースと仮定される高次元空間 ({\em i,e,} $d\gg n$) において,任意に破損したサンプルを用いて潜在変数モデルを推定する問題について検討する。 具体的には、期待ステップ(Eステップ)と最大ステップ(Mステップ)にそれぞれトリミング勾配ステップとハードしきい値ステップを追加するトリミング(グラディエント)期待最大化法を提案する。 いくつかの穏やかな仮定と適切な初期化の下では、アルゴリズムは腐敗を防ぎ、破損したサンプルの分数$\epsilon$ が$ \tilde{o}(\frac{1}{\sqrt{n}})$ で有界であるときに幾何学的に(近い)最適統計量に収束する。 さらに、ガウスの混合、回帰の混合、および欠落した共変量との線形回帰の3つの標準モデルに適用する。 我々の理論は徹底した数値結果によって支持されている。

In this paper, we study the problem of estimating latent variable models with arbitrarily corrupted samples in high dimensional space ({\em i.e.,} $d\gg n$) where the underlying parameter is assumed to be sparse. Specifically, we propose a method called Trimmed (Gradient) Expectation Maximization which adds a trimming gradients step and a hard thresholding step to the Expectation step (E-step) and the Maximization step (M-step), respectively. We show that under some mild assumptions and with an appropriate initialization, the algorithm is corruption-proofing and converges to the (near) optimal statistical rate geometrically when the fraction of the corrupted samples $\epsilon$ is bounded by $ \tilde{O}(\frac{1}{\sqrt{n}})$. Moreover, we apply our general framework to three canonical models: mixture of Gaussians, mixture of regressions and linear regression with missing covariates. Our theory is supported by thorough numerical results.
翻訳日:2022-10-05 21:05:56 公開日:2020-10-19
# ABC-Di:離散データに対する近似ベイズ計算

ABC-Di: Approximate Bayesian Computation for Discrete Data ( http://arxiv.org/abs/2010.09790v1 )

ライセンス: Link先を確認
Ilze Amanda Auzina and Jakub M. Tomczak(参考訳) 多くの実生活問題はブラックボックスとして表されるため、内部の作業は到達不能であり、あるいは確率関数の閉形式数学的表現は定義できない。 連続確率変数に対しては、確率自由推論問題は、近似ベイズ計算 (ABC) と呼ばれる一連の方法によって解ける。 しかし、離散確率変数に対する同様のアプローチはまだ定式化されていない。 ここではこの研究ギャップを埋めることを目指しています。 我々は人口ベースのmcmc abcフレームワークの利用を提案する。 さらに,有効なマルコフ核を示し,微分進化に触発された新しいカーネルを提案する。 提案手法は,QMR-DTネットワークに基づく基礎疾患の発見と3つの可能性のない推論問題である。 i) 未知の確率関数を持つQMR-DTネットワーク。 (ii)二元ニューラルネットワークの学習、及び (iii)ニューラル・アーキテクチャ・サーチ。 得られた結果は,提案するフレームワークの高ポテンシャルと新しいMarkovカーネルの優位性を示している。

Many real-life problems are represented as a black-box, i.e., the internal workings are inaccessible or a closed-form mathematical expression of the likelihood function cannot be defined. For continuous random variables likelihood-free inference problems can be solved by a group of methods under the name of Approximate Bayesian Computation (ABC). However, a similar approach for discrete random variables is yet to be formulated. Here, we aim to fill this research gap. We propose to use a population-based MCMC ABC framework. Further, we present a valid Markov kernel, and propose a new kernel that is inspired by Differential Evolution. We assess the proposed approach on a problem with the known likelihood function, namely, discovering the underlying diseases based on a QMR-DT Network, and three likelihood-free inference problems: (i) the QMR-DT Network with the unknown likelihood function, (ii) learning binary neural network, and (iii) Neural Architecture Search. The obtained results indicate the high potential of the proposed framework and the superiority of the new Markov kernel.
翻訳日:2022-10-05 21:05:04 公開日:2020-10-19
# 不確実性を考慮したディリクレネットワークの信頼度推定による故障予測

Failure Prediction by Confidence Estimation of Uncertainty-Aware Dirichlet Networks ( http://arxiv.org/abs/2010.09865v1 )

ライセンス: Link先を確認
Theodoros Tsiligkaridis(参考訳) ディープラーニングにおけるモデルの信頼性とエラーの予測を確実に評価することは、モデルデプロイメントの安全性を提供する上で重要な要素である。 本稿では,不確実性を考慮したディープディリクレニューラルネットワークが,真のクラス確率(TCP)測定値における正しい予測と誤予測の信頼性の分離を改良することを示した。 第二に、真のクラスがテスト時に未知であるため、不均衡とTCP制約を考慮に入れつつ予測信頼度を一致させ、真のクラス確率を学習するための新しい基準が提案される。 実験により,様々なネットワークアーキテクチャを用いた画像分類タスクにおいて,標準ネットワークの最大クラス確率(mcp)ベースラインと予測tcpを改良した。

Reliably assessing model confidence in deep learning and predicting errors likely to be made are key elements in providing safety for model deployment, in particular for applications with dire consequences. In this paper, it is first shown that uncertainty-aware deep Dirichlet neural networks provide an improved separation between the confidence of correct and incorrect predictions in the true class probability (TCP) metric. Second, as the true class is unknown at test time, a new criterion is proposed for learning the true class probability by matching prediction confidence scores while taking imbalance and TCP constraints into account for correct predictions and failures. Experimental results show our method improves upon the maximum class probability (MCP) baseline and predicted TCP for standard networks on several image classification tasks with various network architectures.
翻訳日:2022-10-05 21:03:47 公開日:2020-10-19
# Deep Apple:Suppression Mask R-CNNを用いたディープラーニングベースのApple検出

DeepApple: Deep Learning-based Apple Detection using a Suppression Mask R-CNN ( http://arxiv.org/abs/2010.09870v1 )

ライセンス: Link先を確認
Pengyu Chu, Zhaojian Li, Kyle Lammers, Renfu Lu, and Xiaoming Liu(参考訳) ロボットリンゴの収穫は、近年、不足と労働コストの上昇により、多くの研究が注目されている。 自動収穫のための重要な技術の一つは、正確で堅牢なリンゴ検出であり、様々な照明条件と葉・枝の閉塞を含む複雑な果樹環境の結果として大きな課題をもたらす。 この書簡は、deepappleという、新しいディープラーニングベースのapple検出フレームワークの開発を報告している。 具体的には, カラーカメラを用いて, 異なる照明条件(日光, オーバーキャスト, フロントライティング, バックライティング)下で, リンゴの「ガラ」と「ブロディ」のための総合的なリンゴ果樹園データセットを収集した。 次に,標準マスクr-cnnにサプレッションブランチを付加し,元のネットワークで生成された非apple機能を抑制する,apple検出のための新しいサプレッションマスクr-cnnを開発した。 総合評価を行った結果,開発したMask R-CNNネットワークは,F1スコアが0.905,検出時間が0.25秒の最先端モデルよりも優れていた。

Robotic apple harvesting has received much research attention in the past few years due to growing shortage and rising cost in labor. One key enabling technology towards automated harvesting is accurate and robust apple detection, which poses great challenges as a result of the complex orchard environment that involves varying lighting conditions and foliage/branch occlusions. This letter reports on the development of a novel deep learning-based apple detection framework named DeepApple. Specifically, we first collect a comprehensive apple orchard dataset for 'Gala' and 'Blondee' apples, using a color camera, under different lighting conditions (sunny vs. overcast and front lighting vs. back lighting). We then develop a novel suppression Mask R-CNN for apple detection, in which a suppression branch is added to the standard Mask R-CNN to suppress non-apple features generated by the original network. Comprehensive evaluations are performed, which show that the developed suppression Mask R-CNN network outperforms state-of-the-art models with a higher F1-score of 0.905 and a detection time of 0.25 second per frame on a standard desktop computer.
翻訳日:2022-10-05 21:03:34 公開日:2020-10-19
# 確率的コストによる最適輸送のベイズ推定

Bayesian Inference for Optimal Transport with Stochastic Cost ( http://arxiv.org/abs/2010.09327v1 )

ライセンス: Link先を確認
Anton Mallasto, Markus Heinonen, Samuel Kaski(参考訳) 機械学習とコンピュータビジョンにおいて、最適輸送は生成モデルを学習し、確率測度としてキャストできる構造化データオブジェクトと確率データオブジェクトの間の距離を定義する上で大きな成功を収めた。 最適な輸送の鍵となる要素は、サンプル空間上で定義された「emph{exact} コスト」(距離)関数を、サンプル空間上の確率測度の間のコスト(距離)へ持ち上げることである。 しかし、多くの現実のアプリケーションでは、コストは \emph{stochastic} である: 例えば、予測不能な交通の流れは、工場と出口の間の輸送コストに影響する。 この確率性を考慮し、確率コストによって引き起こされる最適な輸送計画分布を推算するベイズ的枠組みを導入し、事前情報を含む原則的な方法と、輸送計画に引き起こされる確率性をモデル化する。 また, hmc法を用いて, 結果の輸送計画後方分布から試料を採取する。

In machine learning and computer vision, optimal transport has had significant success in learning generative models and defining metric distances between structured and stochastic data objects, that can be cast as probability measures. The key element of optimal transport is the so called lifting of an \emph{exact} cost (distance) function, defined on the sample space, to a cost (distance) between probability measures over the sample space. However, in many real life applications the cost is \emph{stochastic}: e.g., the unpredictable traffic flow affects the cost of transportation between a factory and an outlet. To take this stochasticity into account, we introduce a Bayesian framework for inferring the optimal transport plan distribution induced by the stochastic cost, allowing for a principled way to include prior information and to model the induced stochasticity on the transport plans. Additionally, we tailor an HMC method to sample from the resulting transport plan posterior distribution.
翻訳日:2022-10-05 20:56:39 公開日:2020-10-19
# 解釈可能な機械学習 -- 短い歴史、最新技術、挑戦

Interpretable Machine Learning -- A Brief History, State-of-the-Art and Challenges ( http://arxiv.org/abs/2010.09337v1 )

ライセンス: Link先を確認
Christoph Molnar, Giuseppe Casalicchio, and Bernd Bischl(参考訳) 我々は、解釈可能な機械学習(IML)の分野の簡単な歴史を述べ、最先端の解釈手法の概要を示し、課題について議論する。 近年、IMLの研究が盛んになっている。 この分野の若い段階では、回帰モデリングとルールベースの機械学習に200年以上のルーツがあり、1960年代から始まっている。 近年、多くの新しいIML手法が提案され、その多くがモデルに依存しないが、深層学習や木に基づくアンサンブルに特有の解釈技術も提案されている。 IML法は、モデルコンポーネントを直接解析するか、入力摂動に対する感度を研究するか、あるいはMLモデルの局所的あるいは大域的代理近似を分析する。 この分野は、研究において提案されただけでなく、オープンソースソフトウェアにも実装された多くの方法によって、準備と安定性の状況にアプローチしている。 しかし、IMLにとって重要な課題は、依存する特徴、因果解釈、不確実性推定などであり、科学的問題への応用が成功するためには解決する必要がある。 さらなる課題は、コミュニティが受け入れている解釈可能性の厳密な定義の欠如である。 課題に対処し、分野を前進させるため、統計学や(ルールベース)MLにおける解釈可能なデータ駆動モデリングのルーツを思い出すとともに、感度分析、因果推論、社会科学など他の分野についても検討する。

We present a brief history of the field of interpretable machine learning (IML), give an overview of state-of-the-art interpretation methods, and discuss challenges. Research in IML has boomed in recent years. As young as the field is, it has over 200 years old roots in regression modeling and rule-based machine learning, starting in the 1960s. Recently, many new IML methods have been proposed, many of them model-agnostic, but also interpretation techniques specific to deep learning and tree-based ensembles. IML methods either directly analyze model components, study sensitivity to input perturbations, or analyze local or global surrogate approximations of the ML model. The field approaches a state of readiness and stability, with many methods not only proposed in research, but also implemented in open-source software. But many important challenges remain for IML, such as dealing with dependent features, causal interpretation, and uncertainty estimation, which need to be resolved for its successful application to scientific problems. A further challenge is a missing rigorous definition of interpretability, which is accepted by the community. To address the challenges and advance the field, we urge to recall our roots of interpretable, data-driven modeling in statistics and (rule-based) ML, but also to consider other areas such as sensitivity analysis, causal inference, and the social sciences.
翻訳日:2022-10-05 20:56:21 公開日:2020-10-19
# データストリームにおける概念ドリフト検出のための学習パラメータ分布

Learning Parameter Distributions to Detect Concept Drift in Data Streams ( http://arxiv.org/abs/2010.09388v1 )

ライセンス: Link先を確認
Johannes Haug and Gjergji Kasneci(参考訳) ストリーミング環境でのデータ配信は通常定常的ではない。 常に高い予測品質を維持するために、オンライン学習モデルは、概念ドリフトとして知られる分散的変化に適応する必要がある。 ストリーミングデータの真の分散にアクセスできないため、タイムリーでロバストなコンセプトドリフトの識別は難しくなります。 本研究では,実コンセプトドリフト検出のための新しいフレームワークであるERICSを提案する。 予測モデルのパラメータを確率変数として扱うことにより,概念ドリフトが最適パラメータ分布の変化に対応していることを示す。 この目的のために、情報理論からの共通測度を採用する。 提案するフレームワークは完全にモデルに依存しない。 適切なベースモデルを選択することで、ERICSは入力レベルで概念ドリフトを検出することができる。 いくつかの合成および実世界のデータセットに対する評価は,提案フレームワークが既存の様々な研究よりも効果的かつ正確に概念ドリフトを特定することを示唆している。

Data distributions in streaming environments are usually not stationary. In order to maintain a high predictive quality at all times, online learning models need to adapt to distributional changes, which are known as concept drift. The timely and robust identification of concept drift can be difficult, as we never have access to the true distribution of streaming data. In this work, we propose a novel framework for the detection of real concept drift, called ERICS. By treating the parameters of a predictive model as random variables, we show that concept drift corresponds to a change in the distribution of optimal parameters. To this end, we adopt common measures from information theory. The proposed framework is completely model-agnostic. By choosing an appropriate base model, ERICS is also capable to detect concept drift at the input level, which is a significant advantage over existing approaches. An evaluation on several synthetic and real-world data sets suggests that the proposed framework identifies concept drift more effectively and precisely than various existing works.
翻訳日:2022-10-05 20:55:07 公開日:2020-10-19
# ColloQL: 検索クエリによるクロスドメインテキストからSQLへのロバスト

ColloQL: Robust Cross-Domain Text-to-SQL Over Search Queries ( http://arxiv.org/abs/2010.09927v1 )

ライセンス: Link先を確認
Karthik Radhakrishnan, Arvind Srikantan, Xi Victoria Lin(参考訳) 自然言語発話を実行可能なクエリに変換することは、リレーショナルデータベースに格納された膨大なデータを、より幅広い非技術に精通したエンドユーザーにアクセスさせるのに役立つテクニックである。 この分野の先行研究は、言語的に正確で意味的に曖昧なテキスト入力に重点を置いてきた。 しかし、現実世界のユーザクエリは、検索エンジンの入力に類似した簡潔で口語的でノイズが多い。 本研究では,自然言語検索(NLS)問題に対する堅牢なテキスト-SQLモデリングを実現するために,データ拡張手法とサンプリングベースコンテンツ対応BERTモデル(ColloQL)を紹介する。 評価データがないため、NLS質問の新しいデータセットをキュレートし、アプローチの有効性を実証する。 ColloQLの優れたパフォーマンスは、十分に整ったテキストにまで拡張され、WikiSQLデータセット上で84.9%(論理)と90.7%(実行)の精度を達成した。

Translating natural language utterances to executable queries is a helpful technique in making the vast amount of data stored in relational databases accessible to a wider range of non-tech-savvy end users. Prior work in this area has largely focused on textual input that is linguistically correct and semantically unambiguous. However, real-world user queries are often succinct, colloquial, and noisy, resembling the input of a search engine. In this work, we introduce data augmentation techniques and a sampling-based content-aware BERT model (ColloQL) to achieve robust text-to-SQL modeling over natural language search (NLS) questions. Due to the lack of evaluation data, we curate a new dataset of NLS questions and demonstrate the efficacy of our approach. ColloQL's superior performance extends to well-formed text, achieving 84.9% (logical) and 90.7% (execution) accuracy on the WikiSQL dataset, making it, to the best of our knowledge, the highest performing model that does not use execution guided decoding.
翻訳日:2022-10-05 20:48:14 公開日:2020-10-19
# 健康意識制御戦略への強化学習アプローチ

A Reinforcement Learning Approach to Health Aware Control Strategy ( http://arxiv.org/abs/2010.09269v1 )

ライセンス: Link先を確認
Mayank Shekhar Jha (CRAN), Philippe Weber, Didier Theilliol, Jean-Christophe Ponsart, Didier Maquin(参考訳) ヘルス・アウェア・コントロール(HAC)は、システム/コンポーネントの障害予後や重要なコンポーネントの残留有用生命(RUL)予測に基づいて制御合成を求める領域の1つである。 RULの数学的動的(遷移)モデルはほとんど利用できないため、制御パラダイムにRUL情報を組み込むことは困難である。 本論文では,グローバルシステム遷移データ(実システムに類似した解析モデルによる生成)とRUL予測を統合することで,コンポーネント劣化に直面する最適制御ポリシーを学習するために,強化学習に基づくアプローチを用いた新しい健康意識制御フレームワークを提案する。 各ステップで生成されたRUL予測は、RULの所望値にトラックされる。 後者は最適制御を学ぶために最大化されるコスト関数に統合される。 提案手法は直流モータとシャフト摩耗のシミュレーションを用いて検討した。

Health-aware control (HAC) has emerged as one of the domains where control synthesis is sought based upon the failure prognostics of system/component or the Remaining Useful Life (RUL) predictions of critical components. The fact that mathematical dynamic (transition) models of RUL are rarely available, makes it difficult for RUL information to be incorporated into the control paradigm. A novel framework for health aware control is presented in this paper where reinforcement learning based approach is used to learn an optimal control policy in face of component degradation by integrating global system transition data (generated by an analytical model that mimics the real system) and RUL predictions. The RUL predictions generated at each step, is tracked to a desired value of RUL. The latter is integrated within a cost function which is maximized to learn the optimal control. The proposed method is studied using simulation of a DC motor and shaft wear.
翻訳日:2022-10-05 20:47:55 公開日:2020-10-19
# 夢と制御への探索: 連続制御のための潜在空間計画

Dream and Search to Control: Latent Space Planning for Continuous Control ( http://arxiv.org/abs/2010.09832v1 )

ライセンス: Link先を確認
Anurag Koul, Varun V. Kumar, Alan Fern, Somdeb Majumdar(参考訳) 遅延空間力学による学習と計画は、離散的かつ連続的な制御タスクのためのモデルベース強化学習(MBRL)におけるサンプル効率に有用であることが示されている。 特に最近の研究は、離散的な行動空間において、MCTS(Monte-Carlo Tree Search)による学習時とテスト時のMBRLのブートストラップの有効性を示した。 しかし、連続的な行動空間を持つ環境では、潜在空間木探索による潜在的な利益がまだ示されていない。 本研究では,学習された潜在力学に対する木に基づく計画に基づく連続行動空間に対するMBRLアプローチを提案する。 本稿では, 離散空間におけるブートストラップの利点のタイプを示すことができることを示す。 特に、このアプローチは、最先端のベンチマークと比べて、挑戦的な連続制御ベンチマークの大部分において、サンプル効率とパフォーマンスの向上を実現している。

Learning and planning with latent space dynamics has been shown to be useful for sample efficiency in model-based reinforcement learning (MBRL) for discrete and continuous control tasks. In particular, recent work, for discrete action spaces, demonstrated the effectiveness of latent-space planning via Monte-Carlo Tree Search (MCTS) for bootstrapping MBRL during learning and at test time. However, the potential gains from latent-space tree search have not yet been demonstrated for environments with continuous action spaces. In this work, we propose and explore an MBRL approach for continuous action spaces based on tree-based planning over learned latent dynamics. We show that it is possible to demonstrate the types of bootstrapping benefits as previously shown for discrete spaces. In particular, the approach achieves improved sample efficiency and performance on a majority of challenging continuous-control benchmarks compared to the state-of-the-art.
翻訳日:2022-10-05 20:46:51 公開日:2020-10-19
# 表データ処理におけるデータ蒸留法の新たな特性

New Properties of the Data Distillation Method When Working With Tabular Data ( http://arxiv.org/abs/2010.09839v1 )

ライセンス: Link先を確認
Dmitry Medvedev, Alexander D'yakonov(参考訳) データ蒸留は必要な情報のみを保持しながらデータの量を減らす問題である。 本稿では,以前に画像データ用に設計された新しいデータ蒸留アルゴリズムについて詳しく検討する。 グラフデータを用いた実験により, 蒸留試料でトレーニングしたモデルが, 元のデータセットでトレーニングしたモデルより優れていることが示された。 データを生成するアルゴリズムの問題の一つは、異なるハイパーパラメータを持つモデルの一般化が不十分である。 蒸留中に複数のアーキテクチャを使用することで,この問題を克服できることを示す。

Data distillation is the problem of reducing the volume oftraining data while keeping only the necessary information. With thispaper, we deeper explore the new data distillation algorithm, previouslydesigned for image data. Our experiments with tabular data show thatthe model trained on distilled samples can outperform the model trainedon the original dataset. One of the problems of the considered algorithmis that produced data has poor generalization on models with differenthyperparameters. We show that using multiple architectures during distillation can help overcome this problem.
翻訳日:2022-10-05 20:46:42 公開日:2020-10-19
# 非線形回帰の確率的線形結合の効率的・スカラー化

Estimating Stochastic Linear Combination of Non-linear Regressions Efficiently and Scalably ( http://arxiv.org/abs/2010.09265v1 )

ライセンス: Link先を確認
Di Wang and Xiangyu Guo and Chaowen Guan and Shi Li and Jinhui Xu(参考訳) 近年,非線形回帰モデル(Single Index, Multi-index, Varying Coefficient Index Models, Two-layer Neural Networks)のような機械学習や統計モデルの多くは,非線形回帰モデル(Non-linear Regressions} model)と呼ばれる新しいモデルの特別な場合とみなすことができる。 しかしながら、問題の非凸性が高いため、モデルの推定方法に関する以前の研究は行われていない。 本稿では,モデルを効率的にスカラに見積もる方法について,最初の研究を行う。 具体的には、いくつかの穏やかな仮定で、変数ベクトル $x$ が多変量ガウスであれば、出力ベクトルが $O(\sqrt {\frac{p}{n}})$ の $O(\sqrt {\frac{p}{n}})$ の誤差を持つアルゴリズムが存在し、$p$ は$x$ の次元であり、$n$ はサンプルの数である。 証明の鍵となるアイデアは、スタインの補題によって動機付けられた観察に基づいている。 すると、その結果を、古典的なシュタインの補題の一般化と見なすことができるゼロバイアス変換を用いて、$x$ が有界かつガウス以下の場合にまで拡張する。 また、いくつかの追加の仮定により、出力ベクトルが$\ell_\infty$-norm推定誤差が$o(\frac{1}{\sqrt{p}}+\sqrt{\frac{p}{n}})であるようなアルゴリズムが存在することも示されている。 また、以前の仮定を満たすリンク関数が存在することを示す具体的な例を示す。 最後に、ガウス型とガウス型の両方の場合において、より高速なサブサンプリングに基づくアルゴリズムを提案し、サブサンプルサイズが十分に大きい場合、推定誤差は過度に犠牲にならないことを示す。 どちらの場合も実験は理論的な結果を裏付ける。 我々の知る限りでは、これは非線形回帰モデルの確率的線形結合の研究と理論的保証を提供する最初の研究である。

Recently, many machine learning and statistical models such as non-linear regressions, the Single Index, Multi-index, Varying Coefficient Index Models and Two-layer Neural Networks can be reduced to or be seen as a special case of a new model which is called the \textit{Stochastic Linear Combination of Non-linear Regressions} model. However, due to the high non-convexity of the problem, there is no previous work study how to estimate the model. In this paper, we provide the first study on how to estimate the model efficiently and scalably. Specifically, we first show that with some mild assumptions, if the variate vector $x$ is multivariate Gaussian, then there is an algorithm whose output vectors have $\ell_2$-norm estimation errors of $O(\sqrt{\frac{p}{n}})$ with high probability, where $p$ is the dimension of $x$ and $n$ is the number of samples. The key idea of the proof is based on an observation motived by the Stein's lemma. Then we extend our result to the case where $x$ is bounded and sub-Gaussian using the zero-bias transformation, which could be seen as a generalization of the classic Stein's lemma. We also show that with some additional assumptions there is an algorithm whose output vectors have $\ell_\infty$-norm estimation errors of $O(\frac{1}{\sqrt{p}}+\sqrt{\frac{p}{n}})$ with high probability. We also provide a concrete example to show that there exists some link function which satisfies the previous assumptions. Finally, for both Gaussian and sub-Gaussian cases we propose a faster sub-sampling based algorithm and show that when the sub-sample sizes are large enough then the estimation errors will not be sacrificed by too much. Experiments for both cases support our theoretical results. To the best of our knowledge, this is the first work that studies and provides theoretical guarantees for the stochastic linear combination of non-linear regressions model.
翻訳日:2022-10-05 20:46:16 公開日:2020-10-19
# ニューラル化効率の高い高次信念伝播

Neuralizing Efficient Higher-order Belief Propagation ( http://arxiv.org/abs/2010.09283v1 )

ライセンス: Link先を確認
Mohammed Haroon Dupty, Wee Sun Lee(参考訳) グラフニューラルネットワークモデルは、エンドツーエンドの設定でグラフ構造化データのノード表現を学ぶために広く使われている。 これらのモデルは、しばしばスペクトルグラフ畳み込みの局所的な一階近似に依存するため、ノード間の高階関係情報を取得できない。 確率的グラフィカルモデルは、そのような関係情報を組み込む際の柔軟な柔軟性を提供する別のモデルのクラスを形成するが、より高次の非効率的な近似推論アルゴリズムによって制限される。 本稿では,これらの手法を組み合わせて,より優れたノードとグラフ表現を学習することを提案する。 まず、高次PGMに対する効率的な近似積ループ的信念伝搬推定アルゴリズムを導出する。 次に、メッセージパッシング更新をニューラルネットワークに埋め込み、エンドツーエンド学習における推論アルゴリズムの帰納的バイアスを提供する。 これにより、計算上の優位性を維持しながらドメイン知識を満たすのに十分な柔軟性を持つモデルが得られます。 さらに,ノードやエッジに条件付された高次因子を構築し,必要ならばパラメータを共有する手法を提案する。 実験結果から,本モデルが高次情報を取り込んでおり,分子データセットにおけるk$-orderグラフニューラルネットワークの性能を実質的に上回っていることが示された。

Graph neural network models have been extensively used to learn node representations for graph structured data in an end-to-end setting. These models often rely on localized first order approximations of spectral graph convolutions and hence are unable to capture higher-order relational information between nodes. Probabilistic Graphical Models form another class of models that provide rich flexibility in incorporating such relational information but are limited by inefficient approximate inference algorithms at higher order. In this paper, we propose to combine these approaches to learn better node and graph representations. First, we derive an efficient approximate sum-product loopy belief propagation inference algorithm for higher-order PGMs. We then embed the message passing updates into a neural network to provide the inductive bias of the inference algorithm in end-to-end learning. This gives us a model that is flexible enough to accommodate domain knowledge while maintaining the computational advantage. We further propose methods for constructing higher-order factors that are conditioned on node and edge features and share parameters wherever necessary. Our experimental evaluation shows that our model indeed captures higher-order information, substantially outperforming state-of-the-art $k$-order graph neural networks in molecular datasets.
翻訳日:2022-10-05 20:45:29 公開日:2020-10-19
# モジュラースパース分散符号とノベルティコンティンジェントノイズを用いた効率的類似性保存型教師なし学習

Efficient Similarity-Preserving Unsupervised Learning using Modular Sparse Distributed Codes and Novelty-Contingent Noise ( http://arxiv.org/abs/2010.10926v1 )

ライセンス: Link先を確認
Rod Rinkus(参考訳) 神経科学において、情報は脳内で、例えば、新皮質、海馬などの情報をスパース分散コード(sparse distributed codes, SDCs)という形で表現されることが認識されている。 a) このようなコードは単一の試行に基づいてどのように構成されているか、学習中にどのように類似性が保存されているか、すなわち、より類似した入力がより類似したSDCにどのようにマッピングされるか。 私は、両方の質問に対して単純で神経的に妥当な回答を提供する新しいモジュールスパース分散コード(MSDC)について説明する。 MSDC符号化フィールド(CF)はQ WTA競合モジュール(CM)で構成され、それぞれがKバイナリユニット(主細胞のアナログ)から構成される。 cfのモジュラー性により、類似性がほぼ保たれ、最も重要なことは、アイテムを格納するために必要なステップの数は、格納されたアイテムの数が増えるにつれて一定のままである。 さらに、重ね合わせでMSDCとしてアイテムを格納し、それらの交差構造が入力類似性を反映するようにすると、固定時間ベストマッチ検索と固定時間信頼更新(すべての格納アイテムの確率の上昇)も可能となる。 アルゴリズムの中核となる原理は、単にコードを選択するプロセスにノイズを加えることであり、すなわち入力の新規性に比例する各CMの勝者を選択することである。 これにより、予め格納された各入力Yのコードと入力Xのコードとが、XとYの類似性に比例する期待の交わりが生じる。

There is increasing realization in neuroscience that information is represented in the brain, e.g., neocortex, hippocampus, in the form sparse distributed codes (SDCs), a kind of cell assembly. Two essential questions are: a) how are such codes formed on the basis of single trials, and how is similarity preserved during learning, i.e., how do more similar inputs get mapped to more similar SDCs. I describe a novel Modular Sparse Distributed Code (MSDC) that provides simple, neurally plausible answers to both questions. An MSDC coding field (CF) consists of Q WTA competitive modules (CMs), each comprised of K binary units (analogs of principal cells). The modular nature of the CF makes possible a single-trial, unsupervised learning algorithm that approximately preserves similarity and crucially, runs in fixed time, i.e., the number of steps needed to store an item remains constant as the number of stored items grows. Further, once items are stored as MSDCs in superposition and such that their intersection structure reflects input similarity, both fixed time best-match retrieval and fixed time belief update (updating the probabilities of all stored items) also become possible. The algorithm's core principle is simply to add noise into the process of choosing a code, i.e., choosing a winner in each CM, which is proportional to the novelty of the input. This causes the expected intersection of the code for an input, X, with the code of each previously stored input, Y, to be proportional to the similarity of X and Y. Results demonstrating these capabilities for spatial patterns are given in the appendix.
翻訳日:2022-10-05 20:39:02 公開日:2020-10-19
# 産業ニーズを満たすモジュール化多言語nmtの再検討

Revisiting Modularized Multilingual NMT to Meet Industrial Demands ( http://arxiv.org/abs/2010.09402v1 )

ライセンス: Link先を確認
Sungwon Lyu, Bokyung Son, Kichang Yang, and Jaekyoung Bae(参考訳) 多言語翻訳のためのパラメータの完全な共有(1-1)は、現在の研究において主要なアプローチである。 しかし、キャパシティのボトルネックと保守性の低さにより性能が低下し、産業で広く採用されることになる。 本研究では, 産業要求を満たすために, 1-1 の代替として, 同一言語 (M2) のモジュールのみを共有する多言語ニューラルマシン翻訳モデルを再検討する。 総合的な実験を通じて,マルチウェイトレーニングのメリットを特定し,キャパシティボトルネックに苦しむことなく,m2がこれらのメリットを享受できることを実証する。 さらに、M2の言語間空間はモデルの便利な修正を可能にする。 トレーニングされたモジュールを利用することで、インクリメンタルに追加されたモジュールは、単独でトレーニングされたモデルよりも優れたパフォーマンスを示します。 追加モジュールのゼロショットパフォーマンスは、教師付きモデルにさえ匹敵する。 以上の結果から,M2は多言語翻訳に有効な候補であることが示唆された。

The complete sharing of parameters for multilingual translation (1-1) has been the mainstream approach in current research. However, degraded performance due to the capacity bottleneck and low maintainability hinders its extensive adoption in industries. In this study, we revisit the multilingual neural machine translation model that only share modules among the same languages (M2) as a practical alternative to 1-1 to satisfy industrial requirements. Through comprehensive experiments, we identify the benefits of multi-way training and demonstrate that the M2 can enjoy these benefits without suffering from the capacity bottleneck. Furthermore, the interlingual space of the M2 allows convenient modification of the model. By leveraging trained modules, we find that incrementally added modules exhibit better performance than singly trained models. The zero-shot performance of the added modules is even comparable to supervised models. Our findings suggest that the M2 can be a competent candidate for multilingual translation in industries.
翻訳日:2022-10-05 20:38:16 公開日:2020-10-19
# MaskNet:不整点を推定する完全な畳み込みネットワーク

MaskNet: A Fully-Convolutional Network to Estimate Inlier Points ( http://arxiv.org/abs/2010.09185v1 )

ライセンス: Link先を確認
Vinit Sarode, Animesh Dhagat, Rangaprasad Arun Srivatsan, Nicolas Zevallos, Simon Lucey, Howie Choset(参考訳) ポイントクラウドは、コンピュータが世界を理解する方法において重要になっている。 自動運転車やドローンのLIDARセンサーから、携帯電話の飛行時間やステレオビジョンシステムに至るまで、ポイントクラウドは至る所にある。 その用途にもかかわらず、現実世界の点雲は、センサーの制限や閉塞のため、またはセンサーノイズやアーティファクトから余分な点を含むため、しばしば欠落している。 これらの問題は、一対の点雲間の計算対応を必要とするアルゴリズムに挑戦する。 そこで本論文では,ある点の雲のどの点が他の点と最もよく似ているかを特定する完全畳み込みニューラルネットワークを提案する。 ネットワークに再適合した場合,学習ベースおよび古典的ポイントクラウド登録手法の改善を示す。 これらの改良を合成および実世界のデータセットで実証する。 最後に、我々のネットワークはトレーニング中に見つからなかったテストデータセットに素晴らしい結果をもたらし、一般化可能性を示す。 コードとビデオはhttps://github.com/vinits5/masknetで入手できる。

Point clouds have grown in importance in the way computers perceive the world. From LIDAR sensors in autonomous cars and drones to the time of flight and stereo vision systems in our phones, point clouds are everywhere. Despite their ubiquity, point clouds in the real world are often missing points because of sensor limitations or occlusions, or contain extraneous points from sensor noise or artifacts. These problems challenge algorithms that require computing correspondences between a pair of point clouds. Therefore, this paper presents a fully-convolutional neural network that identifies which points in one point cloud are most similar (inliers) to the points in another. We show improvements in learning-based and classical point cloud registration approaches when retrofitted with our network. We demonstrate these improvements on synthetic and real-world datasets. Finally, our network produces impressive results on test datasets that were unseen during training, thus exhibiting generalizability. Code and videos are available at https://github.com/vinits5/masknet
翻訳日:2022-10-05 20:37:30 公開日:2020-10-19
# SMA-STN:マイクロ圧縮認識のためのセグメント移動時空間ネットワーク

SMA-STN: Segmented Movement-Attending Spatiotemporal Network forMicro-Expression Recognition ( http://arxiv.org/abs/2010.09342v1 )

ライセンス: Link先を確認
Jiateng Liu, Wenming Zheng, Yuan Zong(参考訳) マイクロ圧縮は不随意で、抑圧され、微妙な表情であり、微妙な動きの変化を効率よく明らかにし、マイクロ表現シーケンスにおける重要なセグメントを捉えることが、マイクロ表現認識(MER)の鍵となる。 そこで本稿では,まず動的セグメント化スパースイメージングモジュール(dssi)を提案し,動的イメージを局所的時空間ディスクリプタとして計算し,視覚的に微妙な動き変化を視覚的に可視化する手法を提案する。 次に,sma-stn (segmented movement-attending spatiotemporal network) を提案する。sma-stn (segmented movement-attending spatiotemporal network) は,表情の長期的空間的関係を捉え,時間的セグメントを重み付けするためにstma (stma) を使用する。 また、SMA-STNに偏差増強損失(DE-Loss)を埋め込んで、SMA-STNの堅牢性を高め、特徴レベルの微妙な動き変化を生じさせる。 CASME II, SAMM, ShiC の3つの広く使われているベンチマーク実験により,提案したSMA-STN が他の最先端手法よりも優れた MER 性能を達成し,提案手法が挑戦的な MER 問題に対処できることを示す。

Correctly perceiving micro-expression is difficult since micro-expression is an involuntary, repressed, and subtle facial expression, and efficiently revealing the subtle movement changes and capturing the significant segments in a micro-expression sequence is the key to micro-expression recognition (MER). To handle the crucial issue, in this paper, we firstly propose a dynamic segmented sparse imaging module (DSSI) to compute dynamic images as local-global spatiotemporal descriptors under a unique sampling protocol, which reveals the subtle movement changes visually in an efficient way. Secondly, a segmented movement-attending spatiotemporal network (SMA-STN) is proposed to further unveil imperceptible small movement changes, which utilizes a spatiotemporal movement-attending module (STMA) to capture long-distance spatial relation for facial expression and weigh temporal segments. Besides, a deviation enhancement loss (DE-Loss) is embedded in the SMA-STN to enhance the robustness of SMA-STN to subtle movement changes in feature level. Extensive experiments on three widely used benchmarks, i.e., CASME II, SAMM, and SHIC, show that the proposed SMA-STN achieves better MER performance than other state-of-the-art methods, which proves that the proposed method is effective to handle the challenging MER problem.
翻訳日:2022-10-05 20:37:15 公開日:2020-10-19
# ソフトプルーニング, インクリメンタル正規化

Softer Pruning, Incremental Regularization ( http://arxiv.org/abs/2010.09498v1 )

ライセンス: Link先を確認
Linhang Cai, Zhulin An, Chuanguang Yang and Yongjun Xu(参考訳) ネットワークプルーニングはディープニューラルネットワーク(DNN)の圧縮に広く用いられている。 ソフトフィルタ・プルーニング (SFP) 法は, 次の訓練の時期において, トレーニング中のプルーニングフィルタをゼロにする。 これにより、刈り取られたフィルタの訓練された情報が完全に削除される。 トレーニングされたプルーニングフィルタを利用するために,単調な減少パラメータで単にプルーニング重みを減衰させる,SofteR Filter Pruning (SRFP)法とその変種であるAsymptotic SofteR Filter Pruning (ASRFP)法を提案した。 提案手法は, 各種ネットワーク, データセット, プルーニングレートで良好に動作し, 重み付けにも適用可能である。 ilsvrc-2012 では、asrfp は resnet-34 のパラメータの 40% を 1.63% の top-1 と 0.68% のtop-5 精度改善で満たしている。 理論上、SRFP と ASRFP はプルーンドフィルタの漸進正規化である。 さらに, SRFP と ASRFP は収束速度を低下させながら, より良い結果を追求している。

Network pruning is widely used to compress Deep Neural Networks (DNNs). The Soft Filter Pruning (SFP) method zeroizes the pruned filters during training while updating them in the next training epoch. Thus the trained information of the pruned filters is completely dropped. To utilize the trained pruned filters, we proposed a SofteR Filter Pruning (SRFP) method and its variant, Asymptotic SofteR Filter Pruning (ASRFP), simply decaying the pruned weights with a monotonic decreasing parameter. Our methods perform well across various networks, datasets and pruning rates, also transferable to weight pruning. On ILSVRC-2012, ASRFP prunes 40% of the parameters on ResNet-34 with 1.63% top-1 and 0.68% top-5 accuracy improvement. In theory, SRFP and ASRFP are an incremental regularization of the pruned filters. Besides, We note that SRFP and ASRFP pursue better results while slowing down the speed of convergence.
翻訳日:2022-10-05 20:36:45 公開日:2020-10-19
# 名前タグの国際的意識

Global Attention for Name Tagging ( http://arxiv.org/abs/2010.09270v1 )

ライセンス: Link先を確認
Boliang Zhang, Spencer Whitehead, Lifu Huang and Heng Ji(参考訳) 多くの名前タグアプローチは、多くの成功を伴うローカルコンテキスト情報を使用するが、ローカルコンテキストが曖昧であるか制限されている場合に失敗する。 ローカル、文書レベル、コーパスレベルのコンテキスト情報を活用することにより、名前タグを改善する新しいフレームワークを提案する。 同一文書内の他の文から文書レベルコンテキストを取得し、他の局所関連文書中の文からコーパスレベルコンテキストを取得する。 本研究では,各文脈情報を動的に重み付けするグローバルアテンションと,その影響を判断するゲーティング機構を用いて,文書レベルのコンテキスト情報とコーパスレベルのコンテキスト情報を,局所的なコンテキスト情報と組み合わせることを学ぶモデルを提案する。 CoNLL-2002 と CoNLL-2003 のデータセット上で,オランダ,ドイツ,スペインに対して最先端の結果を得る手法の有効性を示す。

Many name tagging approaches use local contextual information with much success, but fail when the local context is ambiguous or limited. We present a new framework to improve name tagging by utilizing local, document-level, and corpus-level contextual information. We retrieve document-level context from other sentences within the same document and corpus-level context from sentences in other topically related documents. We propose a model that learns to incorporate document-level and corpus-level contextual information alongside local contextual information via global attentions, which dynamically weight their respective contextual information, and gating mechanisms, which determine the influence of this information. Extensive experiments on benchmark datasets show the effectiveness of our approach, which achieves state-of-the-art results for Dutch, German, and Spanish on the CoNLL-2002 and CoNLL-2003 datasets.
翻訳日:2022-10-05 20:30:09 公開日:2020-10-19
# 不自然な質問を理解することでテキストによる推論が改善

Understanding Unnatural Questions Improves Reasoning over Text ( http://arxiv.org/abs/2010.09366v1 )

ライセンス: Link先を確認
Xiao-Yu Guo and Yuan-Fang Li and Gholamreza Haffari(参考訳) 生テキストに対する複雑な質問応答(CQA)は難しい課題である。 このタスクに対する顕著なアプローチは、プログラマ-解釈フレームワークに基づいており、プログラマは質問を推論アクションのシーケンスにマッピングし、インタプリタによって生のテキスト上で実行される。 効果的なCQAモデルの学習には,大規模な収集に要する時間と費用のかかる推論行動の基幹構造からなる大量の人手によるデータが必要である。 本稿では,自然に生成された質問を,解析しやすい不自然な機械生成質問に投影することで,高品質なプログラマ(parser)を習得する課題に対処する。 まず、データジェネレータによって合成(クエクション、アクションシーケンス)ペアを生成し、合成質問と対応するアクションシーケンスを関連付けるセマンティックパーサを訓練する。 自然問題に適用した場合の多様性を捉えるために、自然な質問をパーサーがうまく機能する最も類似した不自然な質問にマッピングするプロジェクションモデルを学ぶ。 自然なトレーニングデータなしでは、我々の投影モデルはCQAタスクに高品質なアクションシーケンスを提供する。 実験結果から,本手法で生成した合成データのみをトレーニングしたqaモデルは,人間のラベルデータでトレーニングされた最先端データよりも優れていることがわかった。

Complex question answering (CQA) over raw text is a challenging task. A prominent approach to this task is based on the programmer-interpreter framework, where the programmer maps the question into a sequence of reasoning actions which is then executed on the raw text by the interpreter. Learning an effective CQA model requires large amounts of human-annotated data,consisting of the ground-truth sequence of reasoning actions, which is time-consuming and expensive to collect at scale. In this paper, we address the challenge of learning a high-quality programmer (parser) by projecting natural human-generated questions into unnatural machine-generated questions which are more convenient to parse. We firstly generate synthetic (question,action sequence) pairs by a data generator, and train a semantic parser that associates synthetic questions with their corresponding action sequences. To capture the diversity when applied tonatural questions, we learn a projection model to map natural questions into their most similar unnatural questions for which the parser can work well. Without any natural training data, our projection model provides high-quality action sequences for the CQA task. Experimental results show that the QA model trained exclusively with synthetic data generated by our method outperforms its state-of-the-art counterpart trained on human-labeled data.
翻訳日:2022-10-05 20:29:52 公開日:2020-10-19
# 文脈認識型ニューラルマシン翻訳への深入り

Diving Deep into Context-Aware Neural Machine Translation ( http://arxiv.org/abs/2010.09482v1 )

ライセンス: Link先を確認
Jingjing Huo, Christian Herold, Yingbo Gao, Leonard Dahlmann, Shahram Khadivi, and Hermann Ney(参考訳) context-aware neural machine translation (nmt) は、文書レベルの翻訳やメタ情報の付加的なコンテキストを利用することで、翻訳品質を向上させるための有望な方向である。 様々なアーキテクチャや分析が存在するが、異なる文脈認識型NMTモデルの有効性はまだよく調べられていない。 本稿では,4つの異なる領域における文書レベルのnmtモデルの性能を並列文書レベルのバイリンガルデータ量で解析する。 文書レベルのnmtの影響を調べるため,包括的な実験を行う。 ドキュメントレベルのnmtには、単一の最善のアプローチが存在しないことが分かりました。 代名詞分解や見出し翻訳といったタスク固有の問題を見ると,BLEUのようなコーパスレベルの指標が大きな改善を示さない場合においても,文脈認識システムの改善が見られる。 また、文書レベルの逆翻訳は文書レベルのバイテキストの欠如を補うのに大いに役立ちます。

Context-aware neural machine translation (NMT) is a promising direction to improve the translation quality by making use of the additional context, e.g., document-level translation, or having meta-information. Although there exist various architectures and analyses, the effectiveness of different context-aware NMT models is not well explored yet. This paper analyzes the performance of document-level NMT models on four diverse domains with a varied amount of parallel document-level bilingual data. We conduct a comprehensive set of experiments to investigate the impact of document-level NMT. We find that there is no single best approach to document-level NMT, but rather that different architectures come out on top on different tasks. Looking at task-specific problems, such as pronoun resolution or headline translation, we find improvements in the context-aware systems, even in cases where the corpus-level metrics like BLEU show no significant improvement. We also show that document-level back-translation significantly helps to compensate for the lack of document-level bi-texts.
翻訳日:2022-10-05 20:29:31 公開日:2020-10-19
# PySBD:プラグマチックな文境界の曖昧さ

PySBD: Pragmatic Sentence Boundary Disambiguation ( http://arxiv.org/abs/2010.09657v1 )

ライセンス: Link先を確認
Nipun Sadvilkar and Mark Neumann(参考訳) 本稿では,22言語を対象とした規則ベースの文境界非曖昧化pythonパッケージを提案する。 入力テキストの形式やドメインが不明な場合でも論理文を提供できる現実的なセグメンタを提供することを目指している。 私たちの仕事では、元々ruby gemとして実装されたgolden rules set(言語固有の文境界の例)、pragmatic_segmenter(source)を採用しました。 PySBDは、英語のGolden Rule Setの97.92%をパスし、次のオープンソースPythonツールよりも25%改善した。

In this paper, we present a rule-based sentence boundary disambiguation Python package that works out-of-the-box for 22 languages. We aim to provide a realistic segmenter which can provide logical sentences even when the format and domain of the input text is unknown. In our work, we adapt the Golden Rules Set (a language-specific set of sentence boundary exemplars) originally implemented as a ruby gem - pragmatic_segmenter - which we ported to Python with additional improvements and functionality. PySBD passes 97.92% of the Golden Rule Set exemplars for English, an improvement of 25% over the next best open-source Python tool.
翻訳日:2022-10-05 20:29:14 公開日:2020-10-19
# 対話的フィクションから常識推論課題を導出する

Deriving Commonsense Inference Tasks from Interactive Fictions ( http://arxiv.org/abs/2010.09788v1 )

ライセンス: Link先を確認
Mo Yu, Xiaoxiao Guo, Yufei Feng, Xiaodan Zhu, Michael Greenspan, Murray Campbell(参考訳) commonsenseの推論は、私たちの物理的な世界について推定する人間の能力をシミュレートするものであり、一般的なaiシステムを構築する上で必須の基盤である。 本稿では,人間プレイヤーが多種多様かつ多様なコモンセンス推論を示すために,人間のインタラクティブなゲームプレイに基づく新しいコモンセンス推論データセットを提案する。 新しいデータセットは、以前の技術のいくつかの制限を緩和する。 実験によれば、我々のタスクは人間の専門家には十分常識的な知識で解決できるが、既存の機械学習モデルに課題を提起し、パフォーマンスギャップは30%以上である。

Commonsense reasoning simulates the human ability to make presumptions about our physical world, and it is an indispensable cornerstone in building general AI systems. We propose a new commonsense reasoning dataset based on human's interactive fiction game playings as human players demonstrate plentiful and diverse commonsense reasoning. The new dataset mitigates several limitations of the prior art. Experiments show that our task is solvable to human experts with sufficient commonsense knowledge but poses challenges to existing machine reading models, with a big performance gap of more than 30%.
翻訳日:2022-10-05 20:28:49 公開日:2020-10-19
# 公衆衛生クレームに対する説明可能なファクトチェック

Explainable Automated Fact-Checking for Public Health Claims ( http://arxiv.org/abs/2010.09926v1 )

ライセンス: Link先を確認
Neema Kotonya and Francesca Toni(参考訳) ファクトチェック(Fact-checking)は、信頼できる証拠に対する主張を評価することによって、クレームの正確性を検証するタスクである。 事実確認研究の大半は政治的主張にのみ焦点をあてている。 他のトピックのファクトチェック、特に専門知識が必要な主題に関する研究はほとんどない。 具体的な専門知識を必要とするクレームに対する説明可能なファクトチェックに関する最初の研究について述べる。 ケーススタディでは公衆衛生の設定を選択します。 このケーススタディをサポートするために、11.8Kクレームの新たなデータセット PUBHEALTH を構築し、クレームのファクトチェックラベルをサポートするためにジャーナリストが作成した金本位制の説明(すなわち判断)を添えた。 正確性予測と説明生成という2つの課題を探求する。 また,説明品質の3つのコヒーレンス特性を人間と計算によって定義し,評価する。 その結果、ドメイン内データのトレーニングにより、特定の専門知識を必要とするクレームに対して、説明可能な自動ファクトチェックが可能となる。

Fact-checking is the task of verifying the veracity of claims by assessing their assertions against credible evidence. The vast majority of fact-checking studies focus exclusively on political claims. Very little research explores fact-checking for other topics, specifically subject matters for which expertise is required. We present the first study of explainable fact-checking for claims which require specific expertise. For our case study we choose the setting of public health. To support this case study we construct a new dataset PUBHEALTH of 11.8K claims accompanied by journalist crafted, gold standard explanations (i.e., judgments) to support the fact-check labels for claims. We explore two tasks: veracity prediction and explanation generation. We also define and evaluate, with humans and computationally, three coherence properties of explanation quality. Our results indicate that, by training on in-domain data, gains can be made in explainable, automated fact-checking for claims which require specific expertise.
翻訳日:2022-10-05 20:28:40 公開日:2020-10-19
# 集団符号化スパイクニューラルネットワークによる連続制御のための深層強化学習

Deep Reinforcement Learning with Population-Coded Spiking Neural Network for Continuous Control ( http://arxiv.org/abs/2010.09635v1 )

ライセンス: Link先を確認
Guangzhi Tang, Neelesh Kumar, Raymond Yoo, Konstantinos P. Michmizos(参考訳) 移動ロボットのエネルギー効率の制御は、現実のアプリケーションの複雑さがますます高次元の観察と行動空間を伴っているため、限られたオンボードリソースではオフセットできないため、極めて重要である。 スパイキングニューラルネットワーク(SNN)をニューロモルフィックプロセッサ上で動作させる、新たなノンフォンニューマンインテリジェンスモデルが、低次元制御タスクのための最先端のリアルタイムロボットコントローラのエネルギー効率と堅牢な代替品と見なされている。 この新しいコンピューティングパラダイムの課題は、現実世界のタスクに追随できるようにスケールすることだ。 そのために、SNNはトレーニングの固有の制限、すなわち、情報を表現するためのスパイクニューロンの限られた能力と効果的な学習アルゴリズムの欠如を克服する必要がある。 本稿では,deep reinforcement learning (drl) を用いた深層批評家ネットワークと連携して学習する集団符号化スパイキングアクタネットワーク (popsan) を提案する。 集団符号化方式はネットワークの表現能力を大幅に向上させ,ハイブリッド学習はディープネットワークの学習能力とスパイキングネットワークのエネルギー効率の高い推論を組み合わせる。 提案手法の適用性を示すため,本手法を実効性と非実効性の両方のDRLアルゴリズムのスペクトルと統合した。 我々は、トレーニング済みのPopSANをIntelのLoihiニューロモルフィックチップにデプロイし、本手法をメインストリームのDRLアルゴリズムと比較して連続制御を行った。 全手法の公正な比較を可能にするため,OpenAIのジムタスクで検証を行った。 我々のloihiが運営するpopsanは、jetson tx2のdeep actor networkと比較して推論当たり140倍のエネルギーを消費し、同じレベルのパフォーマンスでした。 本研究は,ニューロモルフィックコントローラの効率性をサポートし,エネルギー効率とロバスト性が重要である場合,ディープラーニングの代替としてハイブリッドrlを提案する。

The energy-efficient control of mobile robots is crucial as the complexity of their real-world applications increasingly involves high-dimensional observation and action spaces, which cannot be offset by limited on-board resources. An emerging non-Von Neumann model of intelligence, where spiking neural networks (SNNs) are run on neuromorphic processors, is regarded as an energy-efficient and robust alternative to the state-of-the-art real-time robotic controllers for low dimensional control tasks. The challenge now for this new computing paradigm is to scale so that it can keep up with real-world tasks. To do so, SNNs need to overcome the inherent limitations of their training, namely the limited ability of their spiking neurons to represent information and the lack of effective learning algorithms. Here, we propose a population-coded spiking actor network (PopSAN) trained in conjunction with a deep critic network using deep reinforcement learning (DRL). The population coding scheme dramatically increased the representation capacity of the network and the hybrid learning combined the training advantages of deep networks with the energy-efficient inference of spiking networks. To show the general applicability of our approach, we integrated it with a spectrum of both on-policy and off-policy DRL algorithms. We deployed the trained PopSAN on Intel's Loihi neuromorphic chip and benchmarked our method against the mainstream DRL algorithms for continuous control. To allow for a fair comparison among all methods, we validated them on OpenAI gym tasks. Our Loihi-run PopSAN consumed 140 times less energy per inference when compared against the deep actor network on Jetson TX2, and had the same level of performance. Our results support the efficiency of neuromorphic controllers and suggest our hybrid RL as an alternative to deep learning, when both energy-efficiency and robustness are important.
翻訳日:2022-10-05 20:27:48 公開日:2020-10-19
# 逆画像鑑定における機械学習技術の検討

A Survey of Machine Learning Techniques in Adversarial Image Forensics ( http://arxiv.org/abs/2010.09680v1 )

ライセンス: Link先を確認
Ehsan Nowroozi, Ali Dehghantanha, Reza M. Parizi, Kim-Kwang Raymond Choo(参考訳) 画像法医学は、犯罪捜査(例えば、人種的憎悪や特定の民族に関する虚偽の物語を広めるために偽のイメージを広めること)と民事訴訟(例えば、非難)において重要な役割を果たす。 機械学習のアプローチは、画像の法医学にも利用されてきている。 しかし、機械学習ベースのアプローチにまつわる多くの制限や脆弱性もあり、例えば、現実的な結果(例えば、不許容な証拠、誤った信念)を持つ敵(イメージ)の例を検出する方法がある。 そこで,本稿では,画像解析に焦点を絞って,様々な対向シナリオにおける機械学習に基づくバイナリ操作検出器の頑健性を高めるための手法について検討する。

Image forensic plays a crucial role in both criminal investigations (e.g., dissemination of fake images to spread racial hate or false narratives about specific ethnicity groups) and civil litigation (e.g., defamation). Increasingly, machine learning approaches are also utilized in image forensics. However, there are also a number of limitations and vulnerabilities associated with machine learning-based approaches, for example how to detect adversarial (image) examples, with real-world consequences (e.g., inadmissible evidence, or wrongful conviction). Therefore, with a focus on image forensics, this paper surveys techniques that can be used to enhance the robustness of machine learning-based binary manipulation detectors in various adversarial scenarios.
翻訳日:2022-10-05 20:21:30 公開日:2020-10-19
# 製品多様体学習

Product Manifold Learning ( http://arxiv.org/abs/2010.09908v1 )

ライセンス: Link先を確認
Sharon Zhang, Amit Moscovich, Amit Singer(参考訳) 2つ以上の独立した自由度を持つ連続空間における次元減少と学習データ表現の問題を考える。 このような問題は、例えば独立に動くいくつかの成分で形状を観察するときに発生する。 数学的には、各連続独立運動のパラメータ空間が多様体であれば、それらの組み合わせは積多様体と呼ばれる。 本稿では,非線形独立成分分析の新しいパラダイムである多様体分解を提案する。 我々の分解アルゴリズムは、多様体学習のためのスペクトルグラフ法と積空間上のラプラシア作用素の分離性に基づいている。 多様体の因子を復元すると、意味のある低次元表現が得られ、他を無視しながらデータ空間の特定の側面に焦点を合わせる新しい方法を提供する。 本手法は,タンパク質やその他の大きな分子の動きをcryo-electron microscopeデータセットを用いてマッピングする,構造生物学における重要な課題である。

We consider problems of dimensionality reduction and learning data representations for continuous spaces with two or more independent degrees of freedom. Such problems occur, for example, when observing shapes with several components that move independently. Mathematically, if the parameter space of each continuous independent motion is a manifold, then their combination is known as a product manifold. In this paper, we present a new paradigm for non-linear independent component analysis called manifold factorization. Our factorization algorithm is based on spectral graph methods for manifold learning and the separability of the Laplacian operator on product spaces. Recovering the factors of a manifold yields meaningful lower-dimensional representations and provides a new way to focus on particular aspects of the data space while ignoring others. We demonstrate the potential use of our method for an important and challenging problem in structural biology: mapping the motions of proteins and other large molecules using cryo-electron microscopy datasets.
翻訳日:2022-10-05 20:19:43 公開日:2020-10-19
# クラスタ化短木問題における進化アルゴリズムと多因子進化アルゴリズム

Evolutionary Algorithm and Multifactorial Evolutionary Algorithm on Clustered Shortest-Path Tree problem ( http://arxiv.org/abs/2010.09309v1 )

ライセンス: Link先を確認
Phan Thi Hong Hanh, Pham Dinh Thanh and Huynh Thi Thanh Binh(参考訳) CluSPT(Clustered Shortest-Path Tree Problem)は、NP-hard問題である。 以前の研究では、しばしば比較的大きな空間で最適解を求める。 探索処理の性能を向上させるために, エッジの集合として解を求めるアプローチが2つ提案されている。 元のグラフから、頂点集合の濃度が元のグラフよりもはるかに小さい新しいグラフを生成する。 これにより、CluSPTの解法として有効な進化的アルゴリズム(EA)が提案される。 2つ目のアプローチは、頂点ベースのソリューションだ。 CluSPTの探索空間は2つのネスト付き探索空間(NSS)に変換される。 高レベル最適化のすべての候補において、下層の検索エンジンは、それと組み合わせてCluSPTのベストソリューションを作成するための対応する候補を見つける。 そこで,Nested Local Search EA (N-LSEA) を導入し,NSSの最適解を求める。 このモデルをn-lseaで低レベルに解く場合、様々な類似のタスクが処理される。 したがって、多因子進化アルゴリズムは、これらの最適化を通じて暗黙的な遺伝伝達を強化するために適用された。 提案するアルゴリズムは一連のデータセット上で実行され、得られた結果は従来の科学研究に比べて優れた効率を示す。

In literature, Clustered Shortest-Path Tree Problem (CluSPT) is an NP-hard problem. Previous studies often search for an optimal solution in relatively large space. To enhance the performance of the search process, two approaches are proposed: the first approach seeks for solutions as a set of edges. From the original graph, we generate a new graph whose vertex set's cardinality is much smaller than that of the original one. Consequently, an effective Evolutionary Algorithm (EA) is proposed for solving CluSPT. The second approach looks for vertex-based solutions. The search space of the CluSPT is transformed into 2 nested search spaces (NSS). With every candidate in the high-level optimization, the search engine in the lower level will find a corresponding candidate to combine with it to create the best solution for CluSPT. Accordingly, Nested Local Search EA (N-LSEA) is introduced to search for the optimal solution on the NSS. When solving this model in lower level by N-LSEA, variety of similar tasks are handled. Thus, Multifactorial Evolutionary Algorithm applied in order to enhance the implicit genetic transfer across these optimizations. Proposed algorithms are conducted on a series of datasets and the obtained results demonstrate superior efficiency in comparison to previous scientific works.
翻訳日:2022-10-05 20:19:30 公開日:2020-10-19
# 進化型ロボットにおけるロコモーションスキルの学習

Learning Locomotion Skills in Evolvable Robots ( http://arxiv.org/abs/2010.09531v1 )

ライセンス: Link先を確認
Gongjin Lan, Maarten van Hooft, Matteo De Carlo, Jakub M. Tomczak, A.E. Eiben(参考訳) ロボットの再生 ― 既存の2つのロボットを組み換えることで新しいロボットを作ること ― の課題が最近解決され、物理的に進化するロボットシステムが到達した。 ここでは、次の大きなハードルである、新生児ロボットのための適切な脳を作ることに対処します。 特に,本研究は,現実的な実装における基本的スキルである目標移動の課題に対処する。 本稿では,任意の形状のモジュラーロボットが目標に向かって歩き,移動した場合にこの目標を追従することを可能にする,コントローラアーキテクチャと汎用学習手法を提案する。 私たちのアプローチは、3つの現実のシナリオにおいて、クモ、ヤモリ、その子孫という3つのロボットで検証されます。

The challenge of robotic reproduction -- making of new robots by recombining two existing ones -- has been recently cracked and physically evolving robot systems have come within reach. Here we address the next big hurdle: producing an adequate brain for a newborn robot. In particular, we address the task of targeted locomotion which is arguably a fundamental skill in any practical implementation. We introduce a controller architecture and a generic learning method to allow a modular robot with an arbitrary shape to learn to walk towards a target and follow this target if it moves. Our approach is validated on three robots, a spider, a gecko, and their offspring, in three real-world scenarios.
翻訳日:2022-10-05 20:19:12 公開日:2020-10-19
# 垂直探索のためのクエリ対応チップ生成

Query-aware Tip Generation for Vertical Search ( http://arxiv.org/abs/2010.09254v1 )

ライセンス: Link先を確認
Yang Yang, Junmei Hao, Canjia Li, Zili Wang, Jingang Wang, Fuzheng Zhang, Rao Fu, Peixu Hou, Gong Zhang, Zhongyuan Wang(参考訳) ユーザレビューの簡潔な形式として、ヒントは検索結果の説明、ユーザの意思決定の支援、垂直検索シナリオにおけるユーザエクスペリエンスの向上にユニークな利点がある。 チップ生成に関する既存の作業は、検索シナリオにおけるチップの影響を制限するクエリを考慮していない。 この問題に対処するために,クエリ情報をエンコーディングおよびその後の復号処理に統合する,クエリ対応のチップ生成フレームワークを提案する。 トランスフォーマーとリカレントニューラルネットワーク(RNN)の2つの具体的適応を提案する。 Transformerの場合、クエリの影響はエンコーダとデコーダの両方の自己アテンション計算に組み込まれる。 rnnについては、クエリアウェアエンコーダは、レビューからクエリ関連情報を蒸留する選択的ネットワークを採用し、クエリアウェアエンコーダは、クエリ情報をデコード中の注意計算に統合する。 このフレームワークは、パブリックおよび実世界の産業データセットの競合メソッドを一貫して上回っている。 最後に、Dianpingのオンラインデプロイメント実験は、チップ生成とオンラインビジネス価値のための提案されたフレームワークの利点を実証している。

As a concise form of user reviews, tips have unique advantages to explain the search results, assist users' decision making, and further improve user experience in vertical search scenarios. Existing work on tip generation does not take query into consideration, which limits the impact of tips in search scenarios. To address this issue, this paper proposes a query-aware tip generation framework, integrating query information into encoding and subsequent decoding processes. Two specific adaptations of Transformer and Recurrent Neural Network (RNN) are proposed. For Transformer, the query impact is incorporated into the self-attention computation of both the encoder and the decoder. As for RNN, the query-aware encoder adopts a selective network to distill query-relevant information from the review, while the query-aware decoder integrates the query information into the attention computation during decoding. The framework consistently outperforms the competing methods on both public and real-world industrial datasets. Last but not least, online deployment experiments on Dianping demonstrate the advantage of the proposed framework for tip generation as well as its online business values.
翻訳日:2022-10-05 20:18:35 公開日:2020-10-19
# ERIC:畳み込みから推測される関係の抽出

ERIC: Extracting Relations Inferred from Convolutions ( http://arxiv.org/abs/2010.09452v1 )

ライセンス: Link先を確認
Joe Townsend, Theodoros Kasioumis and Hiroya Inakoshi(参考訳) 我々の主な貢献は、畳み込みニューラルネットワークの複数の層にまたがるカーネルの挙動を論理プログラムを用いて近似できることを示すことである。 抽出された論理プログラムは、元のモデルと相関する確率を与えるが、特に複数の層の近似が連結されたり、より低い層が量子化されたりするなどの情報損失がある。 また,CNNの動作をより深く理解するためのフレームワークとして,抽出プログラムが利用できることを示す。 具体的には、より深い検査に値するキーカーネルの特定や、論理ルールの形式で他のカーネルとの関係の特定に使用できる。 最後に,最後の畳み込み層から抽出した規則の予備的,質的評価を行い,カーネルが類似した画像の集合に強く反応し,出力クラスを異なる特性を持つサブクラスに効果的に分割することを示す。

Our main contribution is to show that the behaviour of kernels across multiple layers of a convolutional neural network can be approximated using a logic program. The extracted logic programs yield accuracies that correlate with those of the original model, though with some information loss in particular as approximations of multiple layers are chained together or as lower layers are quantised. We also show that an extracted program can be used as a framework for further understanding the behaviour of CNNs. Specifically, it can be used to identify key kernels worthy of deeper inspection and also identify relationships with other kernels in the form of the logical rules. Finally, we make a preliminary, qualitative assessment of rules we extract from the last convolutional layer and show that kernels identified are symbolic in that they react strongly to sets of similar images that effectively divide output classes into sub-classes with distinct characteristics.
翻訳日:2022-10-05 20:12:19 公開日:2020-10-19
# 脱蒸留:深層ネットワークの再現性の向上

Anti-Distillation: Improving reproducibility of deep networks ( http://arxiv.org/abs/2010.09923v1 )

ライセンス: Link先を確認
Gil I. Shamir and Lorenzo Coviello(参考訳) ディープネットワークは、機械学習と人工知能システムのパフォーマンス向上に革命的だった。 しかし、それらの高い予測精度は古典的線形モデルでは起こらない非常に高いレベルでの \emph{model irreproducibility\/} の価格で得られる。 2つのモデルは、同一のアーキテクチャと同一の訓練されたパラメータセットを持ち、同一のトレーニング例でトレーニングされるが、同じ平均予測精度を提供する可能性はある。 \emph{Prediction difference\/} は予測そのものの桁数と同じ大きさである。 アンサンブルはこの動作を多少緩和することが示されているが、追加のプッシュがなければ、その可能性を最大限活用していない可能性がある。 本研究は, アンサンブルモデルを用いて予測を生成する深層ネットワークにおける非再現性に対処するために, 新規なアプローチである \emph{anti-distillation\/} を提案する。 アンチ蒸留は、サンプルのミニバッチよりもアウトプットを非相関化する技術によって、コンポーネントを互いに分離させ、より異なる、より多様なものにする。 そうすることでアンサンブルの利点が向上し、最終的な予測が再現性を高めます。 実験により, ベンチマークおよび実データセット上でのアンチ蒸留による予測差の大幅な低減が示された。

Deep networks have been revolutionary in improving performance of machine learning and artificial intelligence systems. Their high prediction accuracy, however, comes at a price of \emph{model irreproducibility\/} in very high levels that do not occur with classical linear models. Two models, even if they are supposedly identical, with identical architecture and identical trained parameter sets, and that are trained on the same set of training examples, while possibly providing identical average prediction accuracies, may predict very differently on individual, previously unseen, examples. \emph{Prediction differences\/} may be as large as the order of magnitude of the predictions themselves. Ensembles have been shown to somewhat mitigate this behavior, but without an extra push, may not be utilizing their full potential. In this work, a novel approach, \emph{Anti-Distillation\/}, is proposed to address irreproducibility in deep networks, where ensemble models are used to generate predictions. Anti-Distillation forces ensemble components away from one another by techniques like de-correlating their outputs over mini-batches of examples, forcing them to become even more different and more diverse. Doing so enhances the benefit of ensembles, making the final predictions more reproducible. Empirical results demonstrate substantial prediction difference reductions achieved by Anti-Distillation on benchmark and real datasets.
翻訳日:2022-10-05 20:12:03 公開日:2020-10-19
# フェアネス・メトリックを信用できますか? ラベルなしデータとベイズ推定による公平性の評価

Can I Trust My Fairness Metric? Assessing Fairness with Unlabeled Data and Bayesian Inference ( http://arxiv.org/abs/2010.09851v1 )

ライセンス: Link先を確認
Disi Ji, Padhraic Smyth, Mark Steyvers(参考訳) ラベル付き例が少ないがラベル付き例が豊富である場合の集団公平性を確実に評価する問題について検討する。 ラベルなしデータでラベル付きデータを拡張し,ラベル付きデータのみに基づく手法と比較して,より正確かつ低分散な推定を生成する汎用ベイズフレームワークを提案する。 提案手法は,ラベル付き例に条件付き階層型潜在変数モデルを用いて,各グループにおけるラベルなし例の校正スコアを推定する。 これにより、様々なグループフェアネスメトリクスに対する不確実性の概念と関連した後方分布の推測が可能になる。 提案手法は,複数のよく知られたフェアネスデータセット,センシティブ属性,予測モデルにおいて,推定誤差の大幅な,一貫した低減につながることを示す。 その結果,予測モデルが公平であるか否かを評価する上で,ラベルなしのデータとベイズ推論の両方を使用することの利点が示された。

We investigate the problem of reliably assessing group fairness when labeled examples are few but unlabeled examples are plentiful. We propose a general Bayesian framework that can augment labeled data with unlabeled data to produce more accurate and lower-variance estimates compared to methods based on labeled data alone. Our approach estimates calibrated scores for unlabeled examples in each group using a hierarchical latent variable model conditioned on labeled examples. This in turn allows for inference of posterior distributions with associated notions of uncertainty for a variety of group fairness metrics. We demonstrate that our approach leads to significant and consistent reductions in estimation error across multiple well-known fairness datasets, sensitive attributes, and predictive models. The results show the benefits of using both unlabeled data and Bayesian inference in terms of assessing whether a prediction model is fair or not.
翻訳日:2022-10-05 20:11:07 公開日:2020-10-19
# 神経密度モデルによる模倣

Imitation with Neural Density Models ( http://arxiv.org/abs/2010.09808v1 )

ライセンス: Link先を確認
Kuno Kim, Akshat Jindal, Yang Song, Jiaming Song, Yanan Sui, Stefano Ermon(参考訳) そこで,本論文では,Imitation Learning (IL) を専門家の占有度尺度の密度推定により提案し,次に,その密度を報酬として用いた最大職業性エントロピー強化学習 (RL) を提案する。 提案手法は,非敵対的モデルフリーのrl目標を最大化し,専門家と模倣者の占有率尺度間の逆カルバック・リーバの発散を立証する。 我々は,ベンチマーク制御タスクにおける最先端の実証効率を得る,実用的なILアルゴリズムであるNeural Density Imitation (NDI)を提案する。

We propose a new framework for Imitation Learning (IL) via density estimation of the expert's occupancy measure followed by Maximum Occupancy Entropy Reinforcement Learning (RL) using the density as a reward. Our approach maximizes a non-adversarial model-free RL objective that provably lower bounds reverse Kullback-Leibler divergence between occupancy measures of the expert and imitator. We present a practical IL algorithm, Neural Density Imitation (NDI), which obtains state-of-the-art demonstration efficiency on benchmark control tasks.
翻訳日:2022-10-05 20:10:52 公開日:2020-10-19
# DeepReflecs: レーダー反射を用いた自動車物体分類のためのディープラーニング

DeepReflecs: Deep Learning for Automotive Object Classification with Radar Reflections ( http://arxiv.org/abs/2010.09273v1 )

ライセンス: Link先を確認
Michael Ulrich and Claudius Gl\"aser and Fabian Timm(参考訳) 本稿では,レーダー反射を用いたディープラーニングを用いた自動車用物体分類法を提案する。 この方法は、歩行者、サイクリスト、車、障害物以外のオブジェクトクラス情報を提供する。 この方法は、反射レベルレーダデータに対する軽量深層学習手法を用いて、強力かつ効率的である。 手作り特徴の低パフォーマンス手法と畳み込みニューラルネットワークを用いた高パフォーマンス手法とのギャップを埋める。 提案ネットワークは、レーダー反射データの特徴を生かし、任意の長さの順序のないリストを入力として扱い、局所的特徴とグローバルな特徴の抽出を組み合わせている。 実データを使った実験では、提案されたネットワークは、既存の手作りまたは学習された特徴の方法よりも優れています。 アブレーション研究は,提案するグローバルコンテキスト層の影響を分析する。

This paper presents an novel object type classification method for automotive applications which uses deep learning with radar reflections. The method provides object class information such as pedestrian, cyclist, car, or non-obstacle. The method is both powerful and efficient, by using a light-weight deep learning approach on reflection level radar data. It fills the gap between low-performant methods of handcrafted features and high-performant methods with convolutional neural networks. The proposed network exploits the specific characteristics of radar reflection data: It handles unordered lists of arbitrary length as input and it combines both extraction of local and global features. In experiments with real data the proposed network outperforms existing methods of handcrafted or learned features. An ablation study analyzes the impact of the proposed global context layer.
翻訳日:2022-10-05 20:10:40 公開日:2020-10-19
# タスク間で共有される学習トレンドのメタラーニング

Meta-learning the Learning Trends Shared Across Tasks ( http://arxiv.org/abs/2010.09291v1 )

ライセンス: Link先を確認
Jathushan Rajasegaran, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Mubarak Shah(参考訳) メタラーニング(meta-learning)とは、新しいタスクへの一般化が達成される「学習する」という意味である。 これらの手法のうち、勾配に基づくメタ学習アルゴリズムは、限られたデータで新しいタスクに素早く適応できる特定のサブクラスである。 これは、人間学習の中心的な能力である移譲可能な知識を得る能力を示している。 しかし、既存のメタ学習アプローチは、適応中の現在のタスク情報にのみ依存しており、類似したタスクが以前どのように適応されたかのメタ知識を共有していない。 このギャップに対処するために,モデル非依存なメタラーニング手法を提案する。 特に、我々のアプローチは、適応のための適切な初期化を学ぶだけでなく、これらのパラメータをタスク固有のパラメータのセットに適応させる最適な方法を学びます。 既存のメタ学習手法と比較して、我々のアプローチは下記のとおりです。 (a)内ループの異なる時間ステップで勾配調整を学習し、タスク間で共有される動的学習動作をモデル化する能力、 b) 学習コンテキストの集約は,従来の段階から直交する勾配スキップ接続を提供することにより,過度な適合や一般化の改善を回避できる。 基本的に,本手法は移動可能な初期化を学習するだけでなく,最適な更新方向,学習率,タスク固有の学習傾向をモデル化する。 特に、学習トレンドの観点からは、タスク固有の学習が進むにつれて方向が変わる方法と、これまでの更新履歴が現在の更新にどのように役立つかを決定します。 我々のアプローチは実装が簡単で、より高速な収束を示します。 FSLデータセットの大幅な性能向上を報告した。

Meta-learning stands for 'learning to learn' such that generalization to new tasks is achieved. Among these methods, Gradient-based meta-learning algorithms are a specific sub-class that excel at quick adaptation to new tasks with limited data. This demonstrates their ability to acquire transferable knowledge, a capability that is central to human learning. However, the existing meta-learning approaches only depend on the current task information during the adaptation, and do not share the meta-knowledge of how a similar task has been adapted before. To address this gap, we propose a 'Path-aware' model-agnostic meta-learning approach. Specifically, our approach not only learns a good initialization for adaptation, it also learns an optimal way to adapt these parameters to a set of task-specific parameters, with learnable update directions, learning rates and, most importantly, the way updates evolve over different time-steps. Compared to the existing meta-learning methods, our approach offers: (a) The ability to learn gradient-preconditioning at different time-steps of the inner-loop, thereby modeling the dynamic learning behavior shared across tasks, and (b) The capability of aggregating the learning context through the provision of direct gradient-skip connections from the old time-steps, thus avoiding overfitting and improving generalization. In essence, our approach not only learns a transferable initialization, but also models the optimal update directions, learning rates, and task-specific learning trends. Specifically, in terms of learning trends, our approach determines the way update directions shape up as the task-specific learning progresses and how the previous update history helps in the current update. Our approach is simple to implement and demonstrates faster convergence. We report significant performance improvements on a number of FSL datasets.
翻訳日:2022-10-05 20:10:05 公開日:2020-10-19