このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200727となっている論文です。

PDF登録状況(公開日: 20200727)

TitleAuthorsAbstract論文公表日・翻訳日
# 閉時間的曲線と選択の自由を持つ可逆力学

Reversible dynamics with closed time-like curves and freedom of choice ( http://arxiv.org/abs/2001.02511v2 )

ライセンス: Link先を確認
Germain Tobar and Fabio Costa(参考訳) 一般相対性理論は閉時間的曲線(ctcs)の存在を予測し、理論上は観測者が時間を遡って過去の自己と相互作用することを可能にする。 これは、観測者が自分自身のタイムトラベルを防ぐ方法で相互作用する祖父のパラドックスを作成できるかどうかという疑問を提起する。 従来の研究では、決定論的で可逆的で、非自明な時間旅行と互換性のある力学の枠組みが提案されており、時空の異なる領域の観測者は矛盾なく任意の局所的な操作を実行できる。 しかし、最大3つの領域を持つシナリオのみが完全に特徴づけられ、観察者がお互いの過去と未来の両方を検証できる1つの種類のプロセスのみが明らかにされている。 ここで、この特徴付けを任意の数の領域に拡張し、非自明な時間旅行によってのみ生じる、いくつかの非等価なプロセスが存在することを見つける。 これは、ctcの存在下で複雑なダイナミクスが可能であり、局所操作の自由選択と互換性があり、矛盾がないという見解を支持する。

The theory of general relativity predicts the existence of closed time-like curves (CTCs), which theoretically would allow an observer to travel back in time and interact with their past self. This raises the question of whether this could create a grandfather paradox, in which the observer interacts in such a way to prevent their own time travel. Previous research has proposed a framework for deterministic, reversible, dynamics compatible with non-trivial time travel, where observers in distinct regions of spacetime can perform arbitrary local operations with no contradiction arising. However, only scenarios with up to three regions have been fully characterised, revealing only one type of process where the observers can verify to both be in the past and future of each other. Here we extend this characterisation to an arbitrary number of regions and find that there exist several inequivalent processes that can only arise due to non-trivial time travel. This supports the view that complex dynamics is possible in the presence of CTCs, compatible with free choice of local operations and free of inconsistencies.
翻訳日:2023-01-13 21:29:48 公開日:2020-07-27
# 分子応答特性の量子計算

Quantum computation of molecular response properties ( http://arxiv.org/abs/2001.03406v4 )

ライセンス: Link先を確認
Xiaoxia Cai, Wei-Hai Fang, Heng Fan, Zhendong Li(参考訳) 量子力学を用いた動的偏光性や超偏光性などの分子の応答特性を正確に予測することは、材料や薬物設計における長年の課題である。 量子化学における古典的なシミュレーション技術は、系の大きさが大きくなるにつれて多電子ヒルベルト空間の指数関数的成長を妨げている。 本研究では, 量子コンピュータ上での線形および非線形分子応答特性の計算アルゴリズムを提案する。まず, 量子コンピュータ上での方程式の線形系を解くことにより, 補助量子状態の集合を導入して, 量子計算に適した対称式に変換し, これらの補助状態を決定する。 一方,量子線形系アルゴリズム [harrow et al., phys. rev. lett. 103, 150502 (2009)] をサブルーチンとして用いることで,提案手法は指数関数的に大きいヒルベルト空間の次元ではなく,システムサイズの多項式のみをスケールできることを証明し,既存の古典的アルゴリズムを指数的に高速化する。 一方,提案アルゴリズムの変動型ハイブリッド量子古典変種を導入し,短期量子デバイスにおいてより実用的であることを示す。

Accurately predicting response properties of molecules such as the dynamic polarizability and hyperpolarizability using quantum mechanics has been a long-standing challenge with widespread applications in material and drug design. Classical simulation techniques in quantum chemistry are hampered by the exponential growth of the many-electron Hilbert space as the system size increases. In this work, we propose an algorithm for computing linear and nonlinear molecular response properties on quantum computers, by first reformulating the target property into a symmetric expression more suitable for quantum computation via introducing a set of auxiliary quantum states, and then determining these auxiliary states via solving the corresponding linear systems of equations on quantum computers. On one hand, we prove that using the quantum linear system algorithm [Harrow et al., Phys. Rev. Lett. 103, 150502 (2009)] as a subroutine the proposed algorithm scales only polynomially in the system size instead of the dimension of the exponentially large Hilbert space, and hence achieves an exponential speedup over existing classical algorithms. On the other hand, we introduce a variational hybrid quantum-classical variant of the proposed algorithm, which is more practical for near-term quantum devices.
翻訳日:2023-01-12 23:49:32 公開日:2020-07-27
# 量子ランダムアクセス符号によるunsharp qubitオブザーバブルの実験的特徴化とシーケンシャル計測の不整合

Experimental characterisation of unsharp qubit observables and sequential measurement incompatibility via quantum random access codes ( http://arxiv.org/abs/2001.04768v2 )

ライセンス: Link先を確認
Hammad Anwer, Sadiq Muhammad, Walid Cherifi, Nikolai Miklin, Armin Tavakoli and Mohamed Bourennane(参考訳) アンシャープ測定は、量子理論と量子情報応用の基本的な洞察にとってますます重要である。 本稿では,量子ランダムアクセスコードに基づく逐次通信プロトコルにおけるunsharp qubit測定の実験的実装について報告する。 プロトコルには3つのパーティがあり、第一のパーティはキュービットシステムを準備し、第二のパーティは古典的結果と量子的結果の両方を返すオペレーションを実行し、後者は第三者によって測定される。 我々は、最も優れた古典的プロトコルと射影的測定のみを利用する任意の量子プロトコルの両方より優れた、ほぼ最適な逐次量子ランダムアクセスコードを実証する。 さらに、関連するデバイスが量子ビット上で動作し、検出された事象が公正なサンプルとなることを仮定して、逐次量子ランダムアクセスコードに基づく非シャープ測定のノイズロバスト特性を示す。 この特徴付けを、2つの逐次量子測定ペアの不整合度を定量化するために応用する。

Unsharp measurements are increasingly important for foundational insights in quantum theory and quantum information applications. Here, we report an experimental implementation of unsharp qubit measurements in a sequential communication protocol, based on a quantum random access code. The protocol involves three parties; the first party prepares a qubit system, the second party performs operations which return both a classical and quantum outcome, and the latter is measured by the third party. We demonstrate a nearly-optimal sequential quantum random access code that outperforms both the best possible classical protocol and any quantum protocol which utilises only projective measurements. Furthermore, while only assuming that the involved devices operate on qubits and that detected events constitute a fair sample, we demonstrate the noise-robust characterisation of unsharp measurements based on the sequential quantum random access code. We apply this characterisation towards quantifying the degree of incompatibility of two sequential pairs of quantum measurements.
翻訳日:2023-01-11 13:11:28 公開日:2020-07-27
# 粗粒度方程式のデータ駆動発見

Data-Driven Discovery of Coarse-Grained Equations ( http://arxiv.org/abs/2002.00790v5 )

ライセンス: Link先を確認
Joseph Bakarji, Daniel M. Tartakovsky(参考訳) 方程式発見のための統計(機械学習)ツールは、実験的に観測されるよりもコンピュータが生成する大量のデータを必要とする。 マルチスケールモデリングと確率シミュレーションは、シミュレーションデータの学習がそのような発見につながる2つの分野である。 双方とも、データは、例えば分子動力学シミュレーションのような信頼性のある非現実的なモデルで生成されるが、関心のスケールに関するモデルは不確実であり、現象論的構成的関係とアドホック近似を必要とする。 一般に,空間的・統計的平均化や粗粒化を伴うモデルの発見を,2つのモードで実行可能な疎回帰に基づく機械学習戦略に置き換える。 最初の直接方程式学習は、辞書全体から微分作用素を発見する。 第二の制約付き方程式学習は、発見すべき微分作用素の項(つまり閉包近似)のみを発見する。 本稿では,確率密度関数の時空間的進化をランダムな入力を持つ非線形偏微分方程式で記述する決定論的方程式を学習することにより,本手法について述べる。 一連の例は、方程式発見に対する我々のアプローチの正確性、堅牢性、限界を示している。

Statistical (machine learning) tools for equation discovery require large amounts of data that are typically computer generated rather than experimentally observed. Multiscale modeling and stochastic simulations are two areas where learning on simulated data can lead to such discovery. In both, the data are generated with a reliable but impractical model, e.g., molecular dynamics simulations, while a model on the scale of interest is uncertain, requiring phenomenological constitutive relations and ad-hoc approximations. We replace the human discovery of such models, which typically involves spatial/stochastic averaging or coarse-graining, with a machine-learning strategy based on sparse regression that can be executed in two modes. The first, direct equation-learning, discovers a differential operator from the whole dictionary. The second, constrained equation-learning, discovers only those terms in the differential operator that need to be discovered, i.e., learns closure approximations. We illustrate our approach by learning a deterministic equation that governs the spatiotemporal evolution of the probability density function of a system state whose dynamics are described by a nonlinear partial differential equation with random inputs. A series of examples demonstrates the accuracy, robustness, and limitations of our approach to equation discovery.
翻訳日:2023-01-05 11:54:31 公開日:2020-07-27
# ドメイン適応としての少数ショット学習:アルゴリズムと分析

Few-Shot Learning as Domain Adaptation: Algorithm and Analysis ( http://arxiv.org/abs/2002.02050v3 )

ライセンス: Link先を確認
Jiechao Guan, Zhiwu Lu, Tao Xiang, Ji-Rong Wen(参考訳) サンプル数が少ない未確認のクラスを認識するために、少数ショット学習(FSL)では、そのクラスから学習した事前知識を使用している。 FSLの大きな課題は、目に見えないクラスの分布がそれとは異なることである。 このクラス差による分布シフトは、ドメインシフトの特別なケースとみなすことができる。 本稿では,このようなドメインシフト問題にメタラーニングフレームワークで明示的に対処するために,初めて注意を向けたドメイン適応型プロトタイプネットワーク(DAPNA)を提案する。 具体的には,セットトランスフォーマティブ・アテンション・モジュールを用いて,視認クラスと未認識クラス間のドメインシフトをシミュレートするために,視認クラスにクラス重なりのない2つのサブエピソードで各エピソードを構成する。 2つのサブエピソードの特徴分布を限られたトレーニングサンプルに合わせるために、特徴伝達ネットワークとマージン不一致(mdd)損失とを併用する。 重要なことは、DAPNAの学習限界を与える理論的分析が提供されることである。 大規模な実験により、私たちのDAPNAは最先端のFSL代替品よりも優れており、しばしばかなりのマージンで優れています。

To recognize the unseen classes with only few samples, few-shot learning (FSL) uses prior knowledge learned from the seen classes. A major challenge for FSL is that the distribution of the unseen classes is different from that of those seen, resulting in poor generalization even when a model is meta-trained on the seen classes. This class-difference-caused distribution shift can be considered as a special case of domain shift. In this paper, for the first time, we propose a domain adaptation prototypical network with attention (DAPNA) to explicitly tackle such a domain shift problem in a meta-learning framework. Specifically, armed with a set transformer based attention module, we construct each episode with two sub-episodes without class overlap on the seen classes to simulate the domain shift between the seen and unseen classes. To align the feature distributions of the two sub-episodes with limited training samples, a feature transfer network is employed together with a margin disparity discrepancy (MDD) loss. Importantly, theoretical analysis is provided to give the learning bound of our DAPNA. Extensive experiments show that our DAPNA outperforms the state-of-the-art FSL alternatives, often by significant margins.
翻訳日:2023-01-03 09:42:27 公開日:2020-07-27
# アニーリングと直接発散制御によるネットワークプルーニング

Network Pruning via Annealing and Direct Sparsity Control ( http://arxiv.org/abs/2002.04301v3 )

ライセンス: Link先を確認
Yangzi Guo, Yiyuan She, Adrian Barbu(参考訳) 人工ニューラルネットワーク(anns)、特に深層畳み込みネットワークは近年非常に人気があり、多くの視覚問題に対して非常に信頼できるソリューションを提供することが証明されている。 しかし、ディープニューラルネットワークの使用は、計算コストとメモリコストの集中によって、広く妨げられている。 本稿では,非構造的かつ構造的チャネルレベルのプルーニングに適した効率的なネットワークプルーニング手法を提案する。 提案手法は, 基準とスケジュールに基づいて, ネットワークパラメータやフィルタチャネルを徐々に除去することにより, 空間制約を緩和する。 ネットワークサイズがイテレーションを通じて減少し続けるという魅力的な事実は、トレーニングされていない、あるいはトレーニング済みのネットワークのプルーニングに適している。 我々のメソッドは$L_1$ペナルティの代わりに$L_0$制約を使用するため、トレーニングパラメータやフィルタチャネルにバイアスは発生しない。 さらに、$L_0$制約により、ネットワークプルーニングプロセス中の所望の空間レベルを直接指定しやすくなる。 最後に, 大規模合成データと実ビジョンデータを用いた実験による検証により, 提案手法は, アートネットワークの刈り取り法と比較して, 優れた性能あるいは競合性が得られた。

Artificial neural networks (ANNs) especially deep convolutional networks are very popular these days and have been proved to successfully offer quite reliable solutions to many vision problems. However, the use of deep neural networks is widely impeded by their intensive computational and memory cost. In this paper, we propose a novel efficient network pruning method that is suitable for both non-structured and structured channel-level pruning. Our proposed method tightens a sparsity constraint by gradually removing network parameters or filter channels based on a criterion and a schedule. The attractive fact that the network size keeps dropping throughout the iterations makes it suitable for the pruning of any untrained or pre-trained network. Because our method uses a $L_0$ constraint instead of the $L_1$ penalty, it does not introduce any bias in the training parameters or filter channels. Furthermore, the $L_0$ constraint makes it easy to directly specify the desired sparsity level during the network pruning process. Finally, experimental validation on extensive synthetic and real vision datasets show that the proposed method obtains better or competitive performance compared to other states of art network pruning methods.
翻訳日:2023-01-02 01:01:58 公開日:2020-07-27
# バウンディングボックスフリーパンオプティカルセグメンテーションに向けて

Towards Bounding-Box Free Panoptic Segmentation ( http://arxiv.org/abs/2002.07705v3 )

ライセンス: Link先を確認
Ujwal Bonde and Pablo F. Alcantarilla and Stefan Leutenegger(参考訳) 本稿では,パンオプティカルセグメンテーションのための新しいバウンディングボックスフリーネットワーク(bbfnet)を提案する。 ピクセルごとのセマンティッククラスラベルを必要とするため、パノプティックセグメンテーションはプロポーザルフリーメソッドにとって理想的な問題である。 この観測は、既製のセマンティックセグメンテーションネットワークからクラス境界を利用して、それらを洗練してインスタンスラベルを予測する。 この目標に向かってBBFNetは、粗い流域レベルを予測し、境界が適切に定義された大きなインスタンス候補を検出するためにそれらを使用する。 境界が信頼性の低い小さなインスタンスの場合、bbfnetはハフ投票によってインスタンス中心を予測し、次いで平均シフトによって小さなオブジェクトを確実に検出する。 新しい三重項損失ネットワークは、境界画素を精錬しながら断片化されたインスタンスをマージするのに役立つ。 提案手法は,Mixture-of-Expert (MoE) アプローチを用いて,意味的セグメンテーションネットワークと,Mask R-CNN などのバウンディングボックス提案に基づく計算コストのかかるインスタンスセグメンテーションネットワークを併用して,インスタンスラベルの予測を導出する,従来のパン光学的セグメンテーションとは異なっている。 我々は,提案手法をcityscapesとmicrosoft cocoデータセットにベンチマークし,既存の非プロポッサルベース手法よりも優れながら,他のmoeベースの手法との競合性能を示す。 異なるセグメンテーションバックボーンを用いて,本手法の柔軟性を示す。

In this work we introduce a new Bounding-Box Free Network (BBFNet) for panoptic segmentation. Panoptic segmentation is an ideal problem for proposal-free methods as it already requires per-pixel semantic class labels. We use this observation to exploit class boundaries from off-the-shelf semantic segmentation networks and refine them to predict instance labels. Towards this goal BBFNet predicts coarse watershed levels and uses them to detect large instance candidates where boundaries are well defined. For smaller instances, whose boundaries are less reliable, BBFNet also predicts instance centers by means of Hough voting followed by mean-shift to reliably detect small objects. A novel triplet loss network helps merging fragmented instances while refining boundary pixels. Our approach is distinct from previous works in panoptic segmentation that rely on a combination of a semantic segmentation network with a computationally costly instance segmentation network based on bounding box proposals, such as Mask R-CNN, to guide the prediction of instance labels using a Mixture-of-Expert (MoE) approach. We benchmark our proposal-free method on Cityscapes and Microsoft COCO datasets and show competitive performance with other MoE based approaches while outperforming existing non-proposal based methods on the COCO dataset. We show the flexibility of our method using different semantic segmentation backbones.
翻訳日:2022-12-30 20:26:05 公開日:2020-07-27
# 過パラメータモデルにおけるカーネルとリッチレジーム

Kernel and Rich Regimes in Overparametrized Models ( http://arxiv.org/abs/2002.09277v3 )

ライセンス: Link先を確認
Blake Woodworth, Suriya Gunasekar, Jason D. Lee, Edward Moroshko, Pedro Savarese, Itay Golan, Daniel Soudry, Nathan Srebro(参考訳) カーネルシステム」における過度にパラメータ化されたニューラルネットワーク、すなわち、トレーニング中にネットワークがカーネル化された線形予測器として振る舞う場合、勾配勾配によるトレーニングは、最小のRKHS標準解を見つける効果を持つ。 これは、過度にパラメータ化された多層ネットワーク上の勾配降下が、RKHSノルムではない豊富な暗黙バイアスを誘発することを示す他の研究とは対照的である。 チザットとバッハの観測に基づいて、初期化のスケールが「カーネル」(または遅延)と「リッチ」(または活性)の遷移を制御し、多層同質モデルの一般化特性に影響を与えることを示す。 また,初期化時に予測器がゼロでない場合に,モデルの幅に対して興味深い役割を担っている。 すでにカーネルとリッチレジームの間の興味深い有意義な遷移を示す、単純な深さ$d$モデルのファミリーの完全かつ詳細な分析を提供し、より複雑な行列分解モデルと多層非線形ネットワークに対して経験的にこの遷移を実証する。

A recent line of work studies overparametrized neural networks in the "kernel regime," i.e. when the network behaves during training as a kernelized linear predictor, and thus training with gradient descent has the effect of finding the minimum RKHS norm solution. This stands in contrast to other studies which demonstrate how gradient descent on overparametrized multilayer networks can induce rich implicit biases that are not RKHS norms. Building on an observation by Chizat and Bach, we show how the scale of the initialization controls the transition between the "kernel" (aka lazy) and "rich" (aka active) regimes and affects generalization properties in multilayer homogeneous models. We also highlight an interesting role for the width of a model in the case that the predictor is not identically zero at initialization. We provide a complete and detailed analysis for a family of simple depth-$D$ models that already exhibit an interesting and meaningful transition between the kernel and rich regimes, and we also demonstrate this transition empirically for more complex matrix factorization models and multilayer non-linear networks.
翻訳日:2022-12-30 07:07:48 公開日:2020-07-27
# 逆頂点混合:より良い逆ロバスト一般化に向けて

Adversarial Vertex Mixup: Toward Better Adversarially Robust Generalization ( http://arxiv.org/abs/2003.02484v3 )

ライセンス: Link先を確認
Saehyung Lee, Hyungyu Lee, Sungroh Yoon(参考訳) 逆の例は、ニューラルネットワークに高い信頼性で誤った出力を発生させる。 対人訓練は、敵の例に対する最も効果的な防御形態の1つであるが、残念ながら、対人訓練におけるテスト精度とトレーニング精度の間には大きなギャップが存在する。 本稿では,敵対的特徴オーバーフィッティング (Adversarial Feature Overfitting, AFO) を同定し, 対人的特徴オーバーフィッティング (Adversarial Feature Overfitting, AFO) が, 強健な一般化の観点から最適な点をオーバーシュートできることを示す。 これらの理論的結果から,AFO問題の解法としてソフトラベリングを提案する。 さらに,逆ロバストな一般化を改善するためのソフトラベルデータ拡張手法であるadversarial vertex mixup (avmixup)を提案する。 我々は, CIFAR10, CIFAR100, SVHN, Tiny ImageNet の実験により理論解析を補完し, AVmixup がロバストな一般化性能を著しく向上し, 標準精度と対向ロバスト性とのトレードオフを低減することを示す。

Adversarial examples cause neural networks to produce incorrect outputs with high confidence. Although adversarial training is one of the most effective forms of defense against adversarial examples, unfortunately, a large gap exists between test accuracy and training accuracy in adversarial training. In this paper, we identify Adversarial Feature Overfitting (AFO), which may cause poor adversarially robust generalization, and we show that adversarial training can overshoot the optimal point in terms of robust generalization, leading to AFO in our simple Gaussian model. Considering these theoretical results, we present soft labeling as a solution to the AFO problem. Furthermore, we propose Adversarial Vertex mixup (AVmixup), a soft-labeled data augmentation approach for improving adversarially robust generalization. We complement our theoretical analysis with experiments on CIFAR10, CIFAR100, SVHN, and Tiny ImageNet, and show that AVmixup significantly improves the robust generalization performance and that it reduces the trade-off between standard accuracy and adversarial robustness.
翻訳日:2022-12-26 07:19:24 公開日:2020-07-27
# Multiplicative Controller Fusion: サンプル効率強化学習のためのアルゴリズム優先の活用と安全なSim-to-Real転送

Multiplicative Controller Fusion: Leveraging Algorithmic Priors for Sample-efficient Reinforcement Learning and Safe Sim-To-Real Transfer ( http://arxiv.org/abs/2003.05117v3 )

ライセンス: Link先を確認
Krishan Rana, Vibhavari Dasagi, Ben Talbot, Michael Milford and Niko S\"underhauf(参考訳) 学習に基づくアプローチは、ロボット工学における多くの問題に対して、しばしば手書きのアルゴリズムソリューションよりも優れています。 しかし、ロボットのハードウェア上で長期にわたるタスクを学習することは難題であり、シミュレーションから現実への学習方針の移行は依然として極めて困難である。 本稿では,モデルなし強化学習において,既存の準最適解を学習・展開に先立ってアルゴリズムとして活用する手法を提案する。 訓練中, ゲート融合法により, 探索の初期段階を導出し, サンプル効率を向上し, 疎長い報奨信号から学習することができる。 重要なのは、前者の影響力が徐々にアニールされるため、その政策は副最適化の性能を超えて改善することを学ぶことができることである。 展開中、ポリシーの不確実性は、不確実な状態で以前のコントローラにフォールバックすることで、シミュレーション訓練されたポリシーを現実世界に転送するための信頼性の高い戦略を提供する。 本稿では,ロボットナビゲーションのタスクに対する乗法制御融合手法の有効性を示し,微調整することなくシミュレーションから実世界への安全な移動を実証する。 このプロジェクトのコードはhttps://sites.google.com/view/mcf-nav/homeで公開されている。

Learning-based approaches often outperform hand-coded algorithmic solutions for many problems in robotics. However, learning long-horizon tasks on real robot hardware can be intractable, and transferring a learned policy from simulation to reality is still extremely challenging. We present a novel approach to model-free reinforcement learning that can leverage existing sub-optimal solutions as an algorithmic prior during training and deployment. During training, our gated fusion approach enables the prior to guide the initial stages of exploration, increasing sample-efficiency and enabling learning from sparse long-horizon reward signals. Importantly, the policy can learn to improve beyond the performance of the sub-optimal prior since the prior's influence is annealed gradually. During deployment, the policy's uncertainty provides a reliable strategy for transferring a simulation-trained policy to the real world by falling back to the prior controller in uncertain states. We show the efficacy of our Multiplicative Controller Fusion approach on the task of robot navigation and demonstrate safe transfer from simulation to the real world without any fine-tuning. The code for this project is made publicly available at https://sites.google.com/view/mcf-nav/home
翻訳日:2022-12-24 15:25:59 公開日:2020-07-27
# Site2Vec:タンパク質-リガンド結合部位のベクター埋め込みのための参照フレーム不変アルゴリズム

Site2Vec: a reference frame invariant algorithm for vector embedding of protein-ligand binding sites ( http://arxiv.org/abs/2003.08149v2 )

ライセンス: Link先を確認
Arnab Bhadra and Kalidas Y(参考訳) タンパク質とリガンドの相互作用は、生体における分子相互作用の基本的なタイプの1つである。 リガンドは、結合部位と呼ばれる表面の特定の領域でタンパク質分子と相互作用する小さな分子である。 タンパク質の機能的類似性の評価や薬物の副作用の検出などの課題は、様々な経路で異なるタンパク質の類似した結合部位を同定する必要がある。 類似度評価のための機械学習手法は、結合サイトの特徴記述子を必要とする。 手作業によるモチーフとアトミックな構成に基づく従来の手法は、数千のサイトでは拡張性がない。 この点に関して、ディープニューラルネットワークアルゴリズムがデプロイされ、非常に複雑な入力機能空間をキャプチャできます。 しかしながら、結合サイトの構造にディープラーニングを適用する上での基本的な課題は、入力表現と参照フレームである。 本稿では,タンパク質-リガンド結合部位の参照フレーム不変ベクトル埋め込みを導出する新しいアルゴリズムSite2Vecについて報告する。 本発明の方法は、部位の構成アミノ酸の観点から、代表点と化学組成の対距離に基づく。 ベクトル埋め込みは局所性に敏感なハッシュ関数として機能し、近接クエリや類似サイトを決定する。 この手法は10以上のデータセットと23のサイト比較手法を対象とする広範囲なベンチマーク研究において95%以上の品質スコアを持つトップパフォーマーである。 このアルゴリズムは高いスループットの処理に役立ち、参照フレームシフト、座標摂動、残基突然変異に関する安定性の評価がなされている。 site2vecはスタンドアローンの実行可能で、webサービスは \url{http://services.iittp.ac.in/bioinfo/home}でホストされています。

Protein-ligand interactions are one of the fundamental types of molecular interactions in living systems. Ligands are small molecules that interact with protein molecules at specific regions on their surfaces called binding sites. Tasks such as assessment of protein functional similarity and detection of side effects of drugs need identification of similar binding sites of disparate proteins across diverse pathways. Machine learning methods for similarity assessment require feature descriptors of binding sites. Traditional methods based on hand engineered motifs and atomic configurations are not scalable across several thousands of sites. In this regard, deep neural network algorithms are now deployed which can capture very complex input feature space. However, one fundamental challenge in applying deep learning to structures of binding sites is the input representation and the reference frame. We report here a novel algorithm Site2Vec that derives reference frame invariant vector embedding of a protein-ligand binding site. The method is based on pairwise distances between representative points and chemical compositions in terms of constituent amino acids of a site. The vector embedding serves as a locality sensitive hash function for proximity queries and determining similar sites. The method has been the top performer with more than 95% quality scores in extensive benchmarking studies carried over 10 datasets and against 23 other site comparison methods. The algorithm serves for high throughput processing and has been evaluated for stability with respect to reference frame shifts, coordinate perturbations and residue mutations. We provide Site2Vec as a stand alone executable and a web service hosted at \url{http://services.iittp.ac.in/bioinfo/home}.
翻訳日:2022-12-22 13:16:05 公開日:2020-07-27
# Corella: 関連するクエリに基づいた,プライベートなマルチサーバ学習アプローチ

Corella: A Private Multi Server Learning Approach based on Correlated Queries ( http://arxiv.org/abs/2003.12052v2 )

ライセンス: Link先を確認
Hamidreza Ehteram, Mohammad Ali Maddah-Ali, Mahtab Mirmohseni(参考訳) モバイルデバイス上の機械学習アルゴリズムの新たな応用は、モデルをトレーニングしたり、トレーニングされたものをクラウドやネットワークの端にデプロイする計算タスクをオフロードする動機付けになります。 このセットアップの大きな課題のひとつは、クライアントデータのプライバシを保証することです。 文献ではプライバシーを守るために様々な方法が提案されている。 以下を含む。 (i)クライアントデータにノイズを加えることにより、結果の精度が低下する。 (ii)セキュアなマルチパーティ計算(mpc)は、演算ノード間の通信やクライアントとの通信を必要とする。 (iii) サーバの計算負荷を大幅に増大させる同相暗号(HE)方式に依存している。 本稿では、データのプライバシーを保護する代替手段として、$\textit{Corella}$を提案する。 提案されたスキームはサーバのクラスタに依存しており、最大$t \in \mathbb{n}$が衝突し、それぞれが学習モデル(例えばディープニューラルネットワーク)を実行する可能性がある。 各サーバにはクライアントデータが供給され、ユーザデータとは独立して$\textit{strong}$ noiseが付加される。 ノイズのばらつきは、情報漏洩を最大$T$サーバの任意のサブセットに、理論的に無視できるほど大きく設定されている。 一方、異なるサーバに追加されたノイズは$\textit{correlated}$である。 このクエリ間の相関により、異なるサーバ上で実行されるモデルのパラメータは$\textit{trained}$となり、クライアントはサーバの出力を組み合わせることでノイズの寄与を軽減し、最終的な結果を高精度かつ少ない計算労力で回復することができる。 各種データセットのシミュレーション結果は、深層ニューラルネットワークとオートエンコーダを用いて、それぞれ教師なしおよび教師なしの学習タスクとして、提案手法の精度を示す。

The emerging applications of machine learning algorithms on mobile devices motivate us to offload the computation tasks of training a model or deploying a trained one to the cloud or at the edge of the network. One of the major challenges in this setup is to guarantee the privacy of the client data. Various methods have been proposed to protect privacy in the literature. Those include (i) adding noise to the client data, which reduces the accuracy of the result, (ii) using secure multiparty computation (MPC), which requires significant communication among the computing nodes or with the client, (iii) relying on homomorphic encryption (HE) methods, which significantly increases computation load at the servers. In this paper, we propose $\textit{Corella}$ as an alternative approach to protect the privacy of data. The proposed scheme relies on a cluster of servers, where at most $T \in \mathbb{N}$ of them may collude, each running a learning model (e.g., a deep neural network). Each server is fed with the client data, added with $\textit{strong}$ noise, independent from user data. The variance of the noise is set to be large enough to make the information leakage to any subset of up to $T$ servers information-theoretically negligible. On the other hand, the added noises for different servers are $\textit{correlated}$. This correlation among the queries allows the parameters of the models running on different servers to be $\textit{trained}$ such that the client can mitigate the contribution of the noises by combining the outputs of the servers, and recover the final result with high accuracy and with a minor computational effort. Simulation results for various datasets demonstrate the accuracy of the proposed approach for the classification, using deep neural networks, and the autoencoder, as supervised and unsupervised learning tasks, respectively.
翻訳日:2022-12-19 21:41:14 公開日:2020-07-27
# 単一視点画像を用いた3次元物体再構成の学習

Learning Pose-invariant 3D Object Reconstruction from Single-view Images ( http://arxiv.org/abs/2004.01347v2 )

ライセンス: Link先を確認
Bo Peng, Wei Wang, Jing Dong and Tieniu Tan(参考訳) 2D画像を用いて3D形状を再構築する学習は、高価な3Dデータを必要とせず、活発な研究課題である。 しかし、この方向のほとんどの作業では、トレーニングの監督として各オブジェクトインスタンスのマルチビューイメージが必要です。 本稿では,多視点の一般的な仮定を緩和し,単視点画像のみから3次元形状を学習するより挑戦的かつ現実的な設定について検討する。 最大の難しさは、単一のビューイメージによって提供できる制約が不十分であることであり、学習された形状空間におけるポーズ絡みの問題につながる。 結果として、再構成された形状は入力ポーズに沿って変化し、精度が劣る。 本稿では,新しい領域適応の視点を採ってこの問題に対処し,対角コンパクトな形状空間を学習するための効果的な対角領域混乱法を提案する。 単視点再構成実験はポーズ絡みの解法の有効性を示し, 提案手法は高い効率で最先端の再現精度を実現する。

Learning to reconstruct 3D shapes using 2D images is an active research topic, with benefits of not requiring expensive 3D data. However, most work in this direction requires multi-view images for each object instance as training supervision, which oftentimes does not apply in practice. In this paper, we relax the common multi-view assumption and explore a more challenging yet more realistic setup of learning 3D shape from only single-view images. The major difficulty lies in insufficient constraints that can be provided by single view images, which leads to the problem of pose entanglement in learned shape space. As a result, reconstructed shapes vary along input pose and have poor accuracy. We address this problem by taking a novel domain adaptation perspective, and propose an effective adversarial domain confusion method to learn pose-disentangled compact shape space. Experiments on single-view reconstruction show effectiveness in solving pose entanglement, and the proposed method achieves on-par reconstruction accuracy with state-of-the-art with higher efficiency.
翻訳日:2022-12-17 04:39:10 公開日:2020-07-27
# マルチソースおよびセミ教師付きドメイン適応のためのオンラインメタラーニング

Online Meta-Learning for Multi-Source and Semi-Supervised Domain Adaptation ( http://arxiv.org/abs/2004.04398v2 )

ライセンス: Link先を確認
Da Li, Timothy Hospedales(参考訳) ドメイン適応(da)は、ラベル付きまたは部分的にラベル付きデータしか利用できないターゲットデータセットでうまく機能するようにラベル付きソースデータセットからモデルを適用するというトピック的問題である。 ソースとターゲットデータセット間のドメインシフトを最小限にするために、さまざまな方法でこの問題に対処する多くの方法が提案されている。 本稿では,既存のdaアルゴリズムの初期条件をメタ学習することにより,その性能をさらに高めるための枠組みを提案する。 これは、計算グラフの長さのため、数ショットのメタラーニングが広く検討されているのに比べ、難しい。 そこで本稿では,DAの性能向上に有効なオンライン最短パスメタ学習フレームワークを提案する。 本稿では,マルチソース非教師付きドメイン適応 (MSDA) と半教師付きドメイン適応 (SSDA) の2つの変種について述べる。 重要なことに,本手法はベース適応アルゴリズムに非依存であり,多くの手法を改良するために適用可能である。 実験により,MSDAおよびSSDAにおける古典的(DANN)および最近の(MCDおよびMME)技術の改善を実証し,最大規模のDomainNetを含むいくつかのDAベンチマークにおいて,最終的に技術結果の状態を達成した。

Domain adaptation (DA) is the topical problem of adapting models from labelled source datasets so that they perform well on target datasets where only unlabelled or partially labelled data is available. Many methods have been proposed to address this problem through different ways to minimise the domain shift between source and target datasets. In this paper we take an orthogonal perspective and propose a framework to further enhance performance by meta-learning the initial conditions of existing DA algorithms. This is challenging compared to the more widely considered setting of few-shot meta-learning, due to the length of the computation graph involved. Therefore we propose an online shortest-path meta-learning framework that is both computationally tractable and practically effective for improving DA performance. We present variants for both multi-source unsupervised domain adaptation (MSDA), and semi-supervised domain adaptation (SSDA). Importantly, our approach is agnostic to the base adaptation algorithm, and can be applied to improve many techniques. Experimentally, we demonstrate improvements on classic (DANN) and recent (MCD and MME) techniques for MSDA and SSDA, and ultimately achieve state of the art results on several DA benchmarks including the largest scale DomainNet.
翻訳日:2022-12-15 02:19:34 公開日:2020-07-27
# 前景-背景環境音場分離

Foreground-Background Ambient Sound Scene Separation ( http://arxiv.org/abs/2005.07006v2 )

ライセンス: Link先を確認
Michel Olvera (MULTISPEECH), Emmanuel Vincent (MULTISPEECH), Romain Serizel (MULTISPEECH), Gilles Gasso (LITIS)(参考訳) 環境音のシーンは通常、いくつかの静止した背景の上に起こる複数の短いイベントで構成される。 我々は,これらのイベントを背景から分離するタスクについて検討し,その課題をフォアグラウンド・バックグラウンド・アンビエント・シーン分離と呼ぶ。 本稿では,特徴正規化スキームと任意の補助ネットワークを用いた,背景統計をキャプチャする深層学習に基づく分離フレームワークを提案する。 そこで我々は,DESEDデータセットとオーディオセットデータセットから分離した音を用いて,単チャンネル前景混合体を作成し,様々な信号対雑音比で見知らぬ音の混合体を用いた広範囲な実験を行った。 実験の結果,提案手法の一般化能力が示された。

Ambient sound scenes typically comprise multiple short events occurring on top of a somewhat stationary background. We consider the task of separating these events from the background, which we call foreground-background ambient sound scene separation. We propose a deep learning-based separation framework with a suitable feature normaliza-tion scheme and an optional auxiliary network capturing the background statistics, and we investigate its ability to handle the great variety of sound classes encountered in ambient sound scenes, which have often not been seen in training. To do so, we create single-channel foreground-background mixtures using isolated sounds from the DESED and Audioset datasets, and we conduct extensive experiments with mixtures of seen or unseen sound classes at various signal-to-noise ratios. Our experimental findings demonstrate the generalization ability of the proposed approach.
翻訳日:2022-12-04 21:04:06 公開日:2020-07-27
# ターゲット話者音声活動検出:ディナーパーティーシナリオにおける複数話者ダイアリゼーションのための新しいアプローチ

Target-Speaker Voice Activity Detection: a Novel Approach for Multi-Speaker Diarization in a Dinner Party Scenario ( http://arxiv.org/abs/2005.07272v2 )

ライセンス: Link先を確認
Ivan Medennikov, Maxim Korenevsky, Tatiana Prisyach, Yuri Khokhlov, Mariya Korenevskaya, Ivan Sorokin, Tatiana Timofeeva, Anton Mitrofanov, Andrei Andrusenko, Ivan Podluzhny, Aleksandr Laptev, Aleksei Romanenko(参考訳) 実生活シナリオの話者ダイアリゼーションは極めて難しい問題である。 クラスタリングに基づく広く使われているダイアリゼーション手法は、主に重なり合う音声を扱う能力に制限があるため、そのような条件下ではかなりうまく機能しない。 本稿では,各時間フレーム上で各話者の行動を直接予測する,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。 TS-VADモデルは従来の音声特徴(例えばMFCC)と各話者のi-vectorを入力として取り込む。 バイナリ分類出力層の集合は、各話者の活動を生成する。 I-ベクトルは、強いクラスタリングベースのダイアリゼーションから始まる反復的に推定できる。 また,単一チャネルTS-VADモデルから抽出した隠れ表現の上に,単純なアテンション機構を用いて,TS-VADアプローチをマルチマイクロフォンケースに拡張する。 さらに,予測話者活動確率に対する後処理戦略について検討した。 CHiME-6データを用いた実験では、TS-VADは、基準となるx-ベクターベースのシステムよりも30%以上のダイアリゼーション誤差率(DER)を達成している。

Speaker diarization for real-life scenarios is an extremely challenging problem. Widely used clustering-based diarization approaches perform rather poorly in such conditions, mainly due to the limited ability to handle overlapping speech. We propose a novel Target-Speaker Voice Activity Detection (TS-VAD) approach, which directly predicts an activity of each speaker on each time frame. TS-VAD model takes conventional speech features (e.g., MFCC) along with i-vectors for each speaker as inputs. A set of binary classification output layers produces activities of each speaker. I-vectors can be estimated iteratively, starting with a strong clustering-based diarization. We also extend the TS-VAD approach to the multi-microphone case using a simple attention mechanism on top of hidden representations extracted from the single-channel TS-VAD model. Moreover, post-processing strategies for the predicted speaker activity probabilities are investigated. Experiments on the CHiME-6 unsegmented data show that TS-VAD achieves state-of-the-art results outperforming the baseline x-vector-based system by more than 30% Diarization Error Rate (DER) abs.
翻訳日:2022-12-03 05:23:29 公開日:2020-07-27
# coviホワイトペーパー

COVI White Paper ( http://arxiv.org/abs/2005.08502v2 )

ライセンス: Link先を確認
Hannah Alsdurf, Edmond Belliveau, Yoshua Bengio, Tristan Deleu, Prateek Gupta, Daphne Ippolito, Richard Janda, Max Jarvie, Tyler Kolody, Sekoul Krastev, Tegan Maharaj, Robert Obryk, Dan Pilat, Valerie Pisano, Benjamin Prud'homme, Meng Qu, Nasim Rahaman, Irina Rish, Jean-Francois Rousseau, Abhinav Sharma, Brooke Struck, Jian Tang, Martin Weiss, Yun William Yu(参考訳) SARS-CoV-2(Covid-19)パンデミックは、世界中の公衆衛生機関に深刻な負担をもたらした。 接触追跡は、新型コロナウイルス(covid-19)パンデミックの経過を変える上で不可欠なツールだ。 コビッド19の患者の手動接触追跡は、公衆衛生当局による地域感染を最小限に抑える重要な課題である。 モバイルアプリを使った個人化されたピアツーピアコンタクトトレースは、パラダイムを変える可能性がある。 一部の国は集中追跡システムを展開しているが、プライバシー保護された分散システムは、州当局や営利企業の手にデータを集中させることなく、ほとんど同じ利点を享受している。 機械学習は、多くの手がかりとその不確実性をより適度で正確な感染リスクの推定に組み込むことで、標準的なデジタルトレースの制限を回避できる。 予測されたリスクは、早期のリスク認識、パーソナライズされたレコメンデーション、および関連する情報をユーザに提供することができる。 最後に、非識別リスクデータは、機械学習予測器と共同で訓練された疫学モデルに通知することができる。 これらのモデルは、疾患の伝達に関与する因子の重要性を統計的に証明することができる。 また、医療と経済の生産性指標に従って、健康政策の監視、評価、および(決定)統合シナリオの最適化にも使用することができる。 しかし、モバイルアプリと機械学習に基づくこのような戦略は、倫理とプライバシーの潜在的なリスクを積極的に軽減し、社会に大きな影響を与える可能性がある(健康への影響だけでなく、スティグマティゼーションや個人データの乱用などの影響も)。 本稿では,カナダで開発されたCovid-19の公衆ピアツーピア接触追跡とリスク認識モバイルアプリケーションであるCOVIの理論的,設計的,倫理的考察,プライバシ戦略の概要を紹介する。

The SARS-CoV-2 (Covid-19) pandemic has caused significant strain on public health institutions around the world. Contact tracing is an essential tool to change the course of the Covid-19 pandemic. Manual contact tracing of Covid-19 cases has significant challenges that limit the ability of public health authorities to minimize community infections. Personalized peer-to-peer contact tracing through the use of mobile apps has the potential to shift the paradigm. Some countries have deployed centralized tracking systems, but more privacy-protecting decentralized systems offer much of the same benefit without concentrating data in the hands of a state authority or for-profit corporations. Machine learning methods can circumvent some of the limitations of standard digital tracing by incorporating many clues and their uncertainty into a more graded and precise estimation of infection risk. The estimated risk can provide early risk awareness, personalized recommendations and relevant information to the user. Finally, non-identifying risk data can inform epidemiological models trained jointly with the machine learning predictor. These models can provide statistical evidence for the importance of factors involved in disease transmission. They can also be used to monitor, evaluate and optimize health policy and (de)confinement scenarios according to medical and economic productivity indicators. However, such a strategy based on mobile apps and machine learning should proactively mitigate potential ethical and privacy risks, which could have substantial impacts on society (not only impacts on health but also impacts such as stigmatization and abuse of personal data). Here, we present an overview of the rationale, design, ethical considerations and privacy strategy of `COVI,' a Covid-19 public peer-to-peer contact tracing and risk awareness mobile application developed in Canada.
翻訳日:2022-12-02 00:24:25 公開日:2020-07-27
# 連続学習のための予測誤り駆動型メモリ統合 適応型温室モデルの場合

Prediction error-driven memory consolidation for continual learning. On the case of adaptive greenhouse models ( http://arxiv.org/abs/2006.12616v2 )

ライセンス: Link先を確認
Guido Schillaci and Luis Miranda and Uwe Schmidt(参考訳) 本研究は,オンライン学習を行い,エピソジックメモリと予測エラー駆動型メモリ統合による破滅的な忘れる問題に直面する適応アーキテクチャを提案する。 認知科学と神経科学の証拠に従って、記憶はシステムに記憶されている以前の知識と一致して保持される。 これは生成モデルから生じる予測誤差の観点から推定される。 さらに、このAIシステムは、温室モデルの学習と移転という園芸産業における革新的な応用に移行している。 本研究は、研究施設から記録されたデータに基づいて学習したモデルを生産温室に転送するものである。

This work presents an adaptive architecture that performs online learning and faces catastrophic forgetting issues by means of episodic memories and prediction-error driven memory consolidation. In line with evidences from the cognitive science and neuroscience, memories are retained depending on their congruency with the prior knowledge stored in the system. This is estimated in terms of prediction error resulting from a generative model. Moreover, this AI system is transferred onto an innovative application in the horticulture industry: the learning and transfer of greenhouse models. This work presents a model trained on data recorded from research facilities and transferred to a production greenhouse.
翻訳日:2022-12-01 14:25:56 公開日:2020-07-27
# zerospeech 2020チャレンジのためのベイジアン部分空間hmm

Bayesian Subspace HMM for the Zerospeech 2020 Challenge ( http://arxiv.org/abs/2005.09282v2 )

ライセンス: Link先を確認
Bolaji Yusuf and Lucas Ondel(参考訳) 本稿では,Zerospeech 2020 チャレンジへの提案について述べる。参加者は未発表の音声から潜在表現を発見し,それらの表現を用いて音声合成を行い,合成品質を単位品質のプロキシ指標として利用する。 本システムでは,ベイズ部分空間隠れマルコフモデル(shmm)を用いて単位発見を行う。 shmmは各単位をhmmとしてモデル化し、そのパラメータは全パラメータ空間の低次元部分空間に制約され、音韻変動のモデル化を訓練される。 本システムは,人間評価文字誤り率の基準線と比較し,単位ビットレートを著しく低く維持する。

In this paper we describe our submission to the Zerospeech 2020 challenge, where the participants are required to discover latent representations from unannotated speech, and to use those representations to perform speech synthesis, with synthesis quality used as a proxy metric for the unit quality. In our system, we use the Bayesian Subspace Hidden Markov Model (SHMM) for unit discovery. The SHMM models each unit as an HMM whose parameters are constrained to lie in a low dimensional subspace of the total parameter space which is trained to model phonetic variability. Our system compares favorably with the baseline on the human-evaluated character error rate while maintaining significantly lower unit bitrate.
翻訳日:2022-12-01 12:54:10 公開日:2020-07-27
# ニューラル知覚・文法解析・シンボリック推論の統合による閉ループ型ニューラルシンボリック学習

Closed Loop Neural-Symbolic Learning via Integrating Neural Perception, Grammar Parsing, and Symbolic Reasoning ( http://arxiv.org/abs/2006.06649v2 )

ライセンス: Link先を確認
Qing Li, Siyuan Huang, Yining Hong, Yixin Chen, Ying Nian Wu, Song-Chun Zhu(参考訳) ニューラルシンボリック計算の目標は、コネクショニストとシンボル主義のパラダイムを統合することである。 従来の方法は強化学習(RL)アプローチを用いてニューラルシンボリックモデルを学習し、シンボリック推論モジュールのエラー伝播を無視し、スパース報酬でゆっくりと収束する。 本稿では,これらの問題に対処し,(1) ニューラルネットワークの知覚と記号的推論を橋渡しするために, \textbf{grammar} モデルを \textit{symbolic prior} として導入し,(2) 記号的推論モジュールを通じてエラーを効率的に伝播する,トップダウンの人間のような学習手順を模倣した新しい \textbf{back-search} アルゴリズムを提案する。 さらに,提案手法を,マルコフ連鎖モンテカルロサンプリングとバックサーチアルゴリズムをメトロポリス・ハスティングス・サンプラーとして,最大確率推定として解釈する。 実験は,(1)新たに導入されたHWFデータセット上での手書き公式認識,(2)CLEVRデータセット上での視覚的質問応答の2つの弱教師付きニューラルシンボリックなタスクで実施された。 その結果,本手法は性能,収束速度,データ効率においてrl法を大きく上回っていることがわかった。 我々のコードとデータは \url{https://liqing-ustc.github.io/NGS} でリリースされます。

The goal of neural-symbolic computation is to integrate the connectionist and symbolist paradigms. Prior methods learn the neural-symbolic models using reinforcement learning (RL) approaches, which ignore the error propagation in the symbolic reasoning module and thus converge slowly with sparse rewards. In this paper, we address these issues and close the loop of neural-symbolic learning by (1) introducing the \textbf{grammar} model as a \textit{symbolic prior} to bridge neural perception and symbolic reasoning, and (2) proposing a novel \textbf{back-search} algorithm which mimics the top-down human-like learning procedure to propagate the error through the symbolic reasoning module efficiently. We further interpret the proposed learning framework as maximum likelihood estimation using Markov chain Monte Carlo sampling and the back-search algorithm as a Metropolis-Hastings sampler. The experiments are conducted on two weakly-supervised neural-symbolic tasks: (1) handwritten formula recognition on the newly introduced HWF dataset; (2) visual question answering on the CLEVR dataset. The results show that our approach significantly outperforms the RL methods in terms of performance, converging speed, and data efficiency. Our code and data are released at \url{https://liqing-ustc.github.io/NGS}.
翻訳日:2022-11-22 09:10:36 公開日:2020-07-27
# ディリクレ過程深部潜在ガウス混合模型の変分後方について

On the Variational Posterior of Dirichlet Process Deep Latent Gaussian Mixture Models ( http://arxiv.org/abs/2006.08993v2 )

ライセンス: Link先を確認
Amine Echraibi (IMT Atlantique - INFO), Joachim Flocon-Cholet, St\'ephane Gosselin, Sandrine Vaton (INFO)(参考訳) 再パラメータ化のトリックのおかげで、深い潜在ガウスモデルは最近、潜在表現の学習において大きな成功を収めている。 しかし、dirichlet process (dp) のような非パラメトリリックなプリエントとそれらを結合する能力は、その非パラメタライズ可能な性質のため、同様の成功を収めていない。 本稿では, ディリクレ過程の変分後段 (dp-dlgmm) に対して, 先行するクラスターパラメータとベータ分布の変分後段, クラスタ隠れ変数をクローズドフォームで更新できることを示す。 これは、クラスタ割り当てを知るガウスの潜在変数に対する標準的な再パラメータ化トリックにつながる。 我々は,標準ベンチマークデータセットに対する我々のアプローチを実証し,得られたクラスタ毎に現実的なサンプルを生成できることを示し,半教師付き環境での競合性能を示す。

Thanks to the reparameterization trick, deep latent Gaussian models have shown tremendous success recently in learning latent representations. The ability to couple them however with nonparamet-ric priors such as the Dirichlet Process (DP) hasn't seen similar success due to its non parameteriz-able nature. In this paper, we present an alternative treatment of the variational posterior of the Dirichlet Process Deep Latent Gaussian Mixture Model (DP-DLGMM), where we show that the prior cluster parameters and the variational posteriors of the beta distributions and cluster hidden variables can be updated in closed-form. This leads to a standard reparameterization trick on the Gaussian latent variables knowing the cluster assignments. We demonstrate our approach on standard benchmark datasets, we show that our model is capable of generating realistic samples for each cluster obtained, and manifests competitive performance in a semi-supervised setting.
翻訳日:2022-11-20 18:44:27 公開日:2020-07-27
# FedCD:IID以外のフェデレーション学習のパフォーマンス向上

FedCD: Improving Performance in non-IID Federated Learning ( http://arxiv.org/abs/2006.09637v3 )

ライセンス: Link先を確認
Kavya Kopparapu, Eric Lin, Jessica Zhao(参考訳) フェデレーション学習は、それぞれ独自のローカルデータを持つ分散デバイスで、共有モデルを学ぶために広く適用されてきた。 しかし、実世界のデータから学ぶことは困難であり、エッジデバイス(現在のハイパフォーマンスと低帯域幅アルゴリズムの重要な前提)間で同一かつ独立に分散する(iid)ことは滅多にない。 我々はFedCDという新しいアプローチを提案し、類似したデータを動的にグループ化するためにモデルをクローンし削除する。 CIFAR-10データセットの実験では、FedCDは最小計算、通信、ストレージオーバーヘッドを発生させながら、非IIDデータ上のFedAvgベースラインよりも精度が高く、より高速な収束を実現している。

Federated learning has been widely applied to enable decentralized devices, which each have their own local data, to learn a shared model. However, learning from real-world data can be challenging, as it is rarely identically and independently distributed (IID) across edge devices (a key assumption for current high-performing and low-bandwidth algorithms). We present a novel approach, FedCD, which clones and deletes models to dynamically group devices with similar data. Experiments on the CIFAR-10 dataset show that FedCD achieves higher accuracy and faster convergence compared to a FedAvg baseline on non-IID data while incurring minimal computation, communication, and storage overheads.
翻訳日:2022-11-19 20:18:23 公開日:2020-07-27
# テンソル上の多方向グラフ信号処理:不規則幾何学の積分解析

Multi-way Graph Signal Processing on Tensors: Integrative analysis of irregular geometries ( http://arxiv.org/abs/2007.00041v2 )

ライセンス: Link先を確認
Jay S. Stanley III, Eric C. Chi, and Gal Mishne(参考訳) グラフ信号処理(GSP)は不規則な構造を基盤とするデータの研究において重要な手法である。 取得したデータがマルチウェイテンソルの形式を取るようになるにつれて、データ内のマルチウェイ構造を最大限に活用するための新しい信号処理ツールが必要である。 本稿では,gspを多方向データに一般化する現代的な信号処理フレームワークについて検討する。 この広く適用可能なパラダイムは、テンソルベースのデータの課題を創造的に解決するための古典的な問題やアプローチの修正と改善を動機付けている。 我々は,gspとテンソル解析を組み合わせた最近の取り組みから生じる共通テーマを合成し,gspをマルチウェイパラダイムへ拡張する今後の方向性を強調する。

Graph signal processing (GSP) is an important methodology for studying data residing on irregular structures. As acquired data is increasingly taking the form of multi-way tensors, new signal processing tools are needed to maximally utilize the multi-way structure within the data. In this paper, we review modern signal processing frameworks generalizing GSP to multi-way data, starting from graph signals coupled to familiar regular axes such as time in sensor networks, and then extending to general graphs across all tensor modes. This widely applicable paradigm motivates reformulating and improving upon classical problems and approaches to creatively address the challenges in tensor-based data. We synthesize common themes arising from current efforts to combine GSP with tensor analysis and highlight future directions in extending GSP to the multi-way paradigm.
翻訳日:2022-11-15 05:19:45 公開日:2020-07-27
# 最大マージンマルコフネットワークを用いた一貫した構造化予測

Consistent Structured Prediction with Max-Min Margin Markov Networks ( http://arxiv.org/abs/2007.01012v2 )

ライセンス: Link先を確認
Alex Nowak-Vila, Francis Bach, Alessandro Rudi(参考訳) サポートベクトルマシン(SVM)のようなバイナリ分類のためのマックスマージン法は、最大マージンマルコフネットワーク(M^3N$)またはより一般に構造的なSVMの名前で構造化予測設定に拡張されている。 残念ながら、これらの手法は、入力とラベルの関係が決定論的ではない場合に統計的に矛盾する。 このような制限を克服するために、学習問題を"max-min"マージン定式化で定義し、max-min margin markov networks (m^4n$) と命名する。 我々は、m^4n$ に対する一貫性と有限サンプル一般化境界を証明し、推定値を計算するための明示的なアルゴリズムを提供する。 このアルゴリズムは、$o(1/\sqrt{n})$の一般化エラーを、$o(n)$のプロジェクションoracleコール(max-oracleと同じコストが$m^3n$である)の合計コストで達成する。 マルチクラス分類,順序回帰,シーケンス予測,ランキング実験により,提案手法の有効性が示された。

Max-margin methods for binary classification such as the support vector machine (SVM) have been extended to the structured prediction setting under the name of max-margin Markov networks ($M^3N$), or more generally structural SVMs. Unfortunately, these methods are statistically inconsistent when the relationship between inputs and labels is far from deterministic. We overcome such limitations by defining the learning problem in terms of a "max-min" margin formulation, naming the resulting method max-min margin Markov networks ($M^4N$). We prove consistency and finite sample generalization bounds for $M^4N$ and provide an explicit algorithm to compute the estimator. The algorithm achieves a generalization error of $O(1/\sqrt{n})$ for a total cost of $O(n)$ projection-oracle calls (which have at most the same cost as the max-oracle from $M^3N$). Experiments on multi-class classification, ordinal regression, sequence prediction and ranking demonstrate the effectiveness of the proposed method.
翻訳日:2022-11-14 13:15:24 公開日:2020-07-27
# 質問応答による視覚概念学習のためのコンピテンス対応カリキュラム

A Competence-aware Curriculum for Visual Concepts Learning via Question Answering ( http://arxiv.org/abs/2007.01499v2 )

ライセンス: Link先を確認
Qing Li, Siyuan Huang, Yining Hong, Song-Chun Zhu(参考訳) 人間は難しい質問から視覚概念を徐々に学習することができる。 この効率的な学習能力を模倣するために,視覚概念学習の能力認識カリキュラムを提案する。 具体的には、視覚概念を学習するためのニューラルシンボリックな概念学習者と、学習過程を適応的なカリキュラムで導くための多次元項目応答理論(mIRT)モデルを設計する。 mIRTは、蓄積されたモデル応答から各学習ステップにおける概念難易度とモデル能力を効果的に推定する。 推定概念難易度とモデル能力を利用して、最も収益性の高いトレーニングサンプルを選択する。 CLEVRによる実験結果から,提案手法は,データ効率と収束速度の優れた最先端性能を実現する。 具体的には、提案モデルはトレーニングデータの40%しか使用せず、他の最先端手法に比べて3倍高速に収束する。

Humans can progressively learn visual concepts from easy to hard questions. To mimic this efficient learning ability, we propose a competence-aware curriculum for visual concept learning in a question-answering manner. Specifically, we design a neural-symbolic concept learner for learning the visual concepts and a multi-dimensional Item Response Theory (mIRT) model for guiding the learning process with an adaptive curriculum. The mIRT effectively estimates the concept difficulty and the model competence at each learning step from accumulated model responses. The estimated concept difficulty and model competence are further utilized to select the most profitable training samples. Experimental results on CLEVR show that with a competence-aware curriculum, the proposed method achieves state-of-the-art performances with superior data efficiency and convergence speed. Specifically, the proposed model only uses 40% of training data and converges three times faster compared with other state-of-the-art methods.
翻訳日:2022-11-14 05:39:57 公開日:2020-07-27
# ニュース見出し生成のためのトランスフォーマーモデルの開発

Advances of Transformer-Based Models for News Headline Generation ( http://arxiv.org/abs/2007.05044v2 )

ライセンス: Link先を確認
Alexey Bukhtiyarov, Ilya Gusev(参考訳) Transformerアーキテクチャに基づく事前訓練された言語モデルは、感情分析、質問応答、名前付きエンティティ認識など、NLPの多くの領域で最近のブレークスルーの理由となっている。 見出し生成は、特別な種類のテキスト要約タスクである。 モデルは、個々の単語や文の意味を超えた強力な自然言語理解と、それを成功させるために不可欠な情報を識別する能力を持つ必要がある。 本稿では,そのタスクに対して,事前訓練されたトランスフォーマーベースモデル(mBARTとBertSumAbs)2つを微調整し,ロシア語ニュースのRIAとLentaデータセット上で新たな最先端結果を得る。 BertSumAbsは、Phrase-Based Attentional TransformerとCopyNetによって達成された前のベストスコアに対して、ROUGEを平均2.9ポイント、2.0ポイント向上させる。

Pretrained language models based on Transformer architecture are the reason for recent breakthroughs in many areas of NLP, including sentiment analysis, question answering, named entity recognition. Headline generation is a special kind of text summarization task. Models need to have strong natural language understanding that goes beyond the meaning of individual words and sentences and an ability to distinguish essential information to succeed in it. In this paper, we fine-tune two pretrained Transformer-based models (mBART and BertSumAbs) for that task and achieve new state-of-the-art results on the RIA and Lenta datasets of Russian news. BertSumAbs increases ROUGE on average by 2.9 and 2.0 points respectively over previous best score achieved by Phrase-Based Attentional Transformer and CopyNet.
翻訳日:2022-11-12 04:26:25 公開日:2020-07-27
# 二元畳み込みニューラルネットワークのための蒸留誘導残留学習

Distillation Guided Residual Learning for Binary Convolutional Neural Networks ( http://arxiv.org/abs/2007.05223v2 )

ライセンス: Link先を確認
Jianming Ye, Shiliang Zhang, Jingdong Wang(参考訳) Binary CNN(BCNN)とFloating Point CNN(FCNN)のパフォーマンスギャップを埋めることは難しい。 我々は,この性能差がbcnnとfcnnの中間特徴マップの間に実質的な残差をもたらすことを観察する。 性能ギャップを最小限に抑えるため,BCNNはFCNNと類似の中間特徴写像を生成する。 このトレーニング戦略、すなわちfcnnからのブロック回り蒸留損失を伴う各バイナリ畳み込みブロックの最適化は、bcnnのより効果的な最適化につながる。 また、ブロックワイド蒸留損失の最適化を容易にするために、バイナリ畳み込みブロックアーキテクチャを更新する動機も持つ。 具体的には、各バイナリの畳み込みブロックに軽量のショートカットブランチを挿入し、各ブロックの残余を補完する。 Squeeze-and-Interaction (SI) 構造から得られるこのショートカット分岐は、例えば 10 % のオーバーヘッドなどのパラメータをいくつか導入するが、その残余を効果的に補完する。 ImageNetにおける広範囲な実験は、分類効率と精度の両方において、我々の方法の優れた性能を示し、例えば、我々の方法で訓練されたBCNNは、ImageNet上で60.45\%の精度を達成する。

It is challenging to bridge the performance gap between Binary CNN (BCNN) and Floating point CNN (FCNN). We observe that, this performance gap leads to substantial residuals between intermediate feature maps of BCNN and FCNN. To minimize the performance gap, we enforce BCNN to produce similar intermediate feature maps with the ones of FCNN. This training strategy, i.e., optimizing each binary convolutional block with block-wise distillation loss derived from FCNN, leads to a more effective optimization to BCNN. It also motivates us to update the binary convolutional block architecture to facilitate the optimization of block-wise distillation loss. Specifically, a lightweight shortcut branch is inserted into each binary convolutional block to complement residuals at each block. Benefited from its Squeeze-and-Interaction (SI) structure, this shortcut branch introduces a fraction of parameters, e.g., 10\% overheads, but effectively complements the residuals. Extensive experiments on ImageNet demonstrate the superior performance of our method in both classification efficiency and accuracy, e.g., BCNN trained with our methods achieves the accuracy of 60.45\% on ImageNet.
翻訳日:2022-11-11 22:09:41 公開日:2020-07-27
# 映像に基づく人物再識別のための外観保存型3次元畳み込み

Appearance-Preserving 3D Convolution for Video-based Person Re-identification ( http://arxiv.org/abs/2007.08434v2 )

ライセンス: Link先を確認
Xinqian Gu, Hong Chang, Bingpeng Ma, Hongkai Zhang, Xilin Chen(参考訳) 不完全な人物検出結果と姿勢変化により、ビデオベースの人物再識別(ReID)では時間的外見の誤認は避けられない。 この場合、3次元畳み込みは人物のビデオクリップの外観表現を破壊する可能性があるため、reidには有害である。 そこで本研究では,APM (Appearance-Preserving Module) と3Dコンボリューションカーネル (3D Convolution kernel) の2つのコンポーネントからなる3Dコンボリューション(AP3D)を提案する。 APMは隣接する特徴写像をピクセル単位で整列させることで、次の3次元畳み込みは、外観表現品質を維持するという前提で時間情報をモデル化することができる。 オリジナルの3D畳み込みカーネルをAP3Dに置き換えることで、AP3Dと既存の3D ConvNetを組み合わせることは容易である。 ビデオベースReIDにおけるAP3Dの有効性と,3つの広く使用されているデータセットが最先端のデータセットを上回る結果を示した。 コードはhttps://github.com/guxinqian/ap3d。

Due to the imperfect person detection results and posture changes, temporal appearance misalignment is unavoidable in video-based person re-identification (ReID). In this case, 3D convolution may destroy the appearance representation of person video clips, thus it is harmful to ReID. To address this problem, we propose AppearancePreserving 3D Convolution (AP3D), which is composed of two components: an Appearance-Preserving Module (APM) and a 3D convolution kernel. With APM aligning the adjacent feature maps in pixel level, the following 3D convolution can model temporal information on the premise of maintaining the appearance representation quality. It is easy to combine AP3D with existing 3D ConvNets by simply replacing the original 3D convolution kernels with AP3Ds. Extensive experiments demonstrate the effectiveness of AP3D for video-based ReID and the results on three widely used datasets surpass the state-of-the-arts. Code is available at: https://github.com/guxinqian/AP3D.
翻訳日:2022-11-09 23:34:25 公開日:2020-07-27
# suppress and balance: サルエント物体検出のためのシンプルなゲートネットワーク

Suppress and Balance: A Simple Gated Network for Salient Object Detection ( http://arxiv.org/abs/2007.08074v3 )

ライセンス: Link先を確認
Xiaoqi Zhao, Youwei Pang, Lihe Zhang, Huchuan Lu, Lei Zhang(参考訳) ほとんどの有能な物体検出手法は、基本構造としてU-Netまたは特徴ピラミッドネットワーク(FPN)を用いる。 これらの方法は、エンコーダがデコーダと情報を交換する際に2つの重要な問題を無視する: 1つは、それらの間の干渉制御の欠如であり、もう1つは、異なるエンコーダブロックのコントリビューションの相違を考慮しないことである。 本研究では,両問題を同時に解くためのシンプルなゲートネットワーク(GateNet)を提案する。 多レベルゲートユニットの助けを借りて、エンコーダからの貴重なコンテキスト情報をデコーダに最適に送信することができる。 我々は,異なるレベルの機能間の協調を構築し,ネットワーク全体の識別性を向上させるために,新しいゲート付き二重分岐構造を設計する。 二重分岐設計により、より詳細な塩分マップを復元することができる。 さらに,提案したFold-ASPP操作(Fold-ASPP)に基づくアトラス空間ピラミッドプーリングを用いて,様々なスケールのサリアンオブジェクトを正確に位置決めする。 5つの挑戦的データセットに関する広範な実験は、異なる評価基準の下で、提案手法がほとんどの最先端手法に対して有利に機能することを示している。

Most salient object detection approaches use U-Net or feature pyramid networks (FPN) as their basic structures. These methods ignore two key problems when the encoder exchanges information with the decoder: one is the lack of interference control between them, the other is without considering the disparity of the contributions of different encoder blocks. In this work, we propose a simple gated network (GateNet) to solve both issues at once. With the help of multilevel gate units, the valuable context information from the encoder can be optimally transmitted to the decoder. We design a novel gated dual branch structure to build the cooperation among different levels of features and improve the discriminability of the whole network. Through the dual branch design, more details of the saliency map can be further restored. In addition, we adopt the atrous spatial pyramid pooling based on the proposed "Fold" operation (Fold-ASPP) to accurately localize salient objects of various scales. Extensive experiments on five challenging datasets demonstrate that the proposed model performs favorably against most state-of-the-art methods under different evaluation metrics.
翻訳日:2022-11-09 23:17:07 公開日:2020-07-27
# ターゲットラベルによるディープニューラルネットワークのロバスト性検証の高速化

Accelerating Robustness Verification of Deep Neural Networks Guided by Target Labels ( http://arxiv.org/abs/2007.08520v2 )

ライセンス: Link先を確認
Wenjie Wan, Zhaodi Zhang, Yiwei Zhu, Min Zhang, Fu Song(参考訳) ディープニューラルネットワーク(DNN)は、自律運転や医療診断など、多くの安全クリティカルなアプリケーションの主要なコンポーネントとなっている。 しかし、DNNは、入力に対する小さな摂動が誤った予測をもたらすような敵の例に感受性があることから、弱い堅牢性に悩まされている。 この懸念に対処するため、DNNの堅牢性を正式に検証するための様々なアプローチが提案されている。 これらのアプローチの多くは、元のラベルに正しく分類されないように、与えられた入力の逆例を探索する際の最適化問題に対する検証問題を減らしている。 しかし、精度とスケーラビリティに制限がある。 本稿では,対象ラベルによる検証を導くことによって,ロバスト性検証手法を高速化する手法を提案する。 提案手法の重要な洞察は、DNNのロバスト性検証問題は、DNNのサブプロブレムを1つのターゲットラベルごとに検証することで解決できるということである。 検証中にターゲットラベルを固定すると、検索スペースが大幅に減少し、効率が向上する。 また,記号的間隔伝播と線形緩和手法を利用して,敵対的事例が存在する確率で対象ラベルをソートする手法を提案する。 これにより、DNNのロバスト性を迅速に実現することができ、残りのターゲットラベルの検証を回避できます。 我々のアプローチは、既存の多くの検証技術と直交し、統合することができる。 評価のために、最近約束された3つのDNN検証ツール(MipVerify、DeepZ、Neurify)と統合する。 実験の結果,摂動距離が合理的な範囲に設定された場合,これらのツールを36倍高速化できることがわかった。

Deep Neural Networks (DNNs) have become key components of many safety-critical applications such as autonomous driving and medical diagnosis. However, DNNs have been shown suffering from poor robustness because of their susceptibility to adversarial examples such that small perturbations to an input result in misprediction. Addressing to this concern, various approaches have been proposed to formally verify the robustness of DNNs. Most of these approaches reduce the verification problem to optimization problems of searching an adversarial example for a given input so that it is not correctly classified to the original label. However, they are limited in accuracy and scalability. In this paper, we propose a novel approach that can accelerate the robustness verification techniques by guiding the verification with target labels. The key insight of our approach is that the robustness verification problem of DNNs can be solved by verifying sub-problems of DNNs, one per target label. Fixing the target label during verification can drastically reduce the search space and thus improve the efficiency. We also propose an approach by leveraging symbolic interval propagation and linear relaxation techniques to sort the target labels in terms of chances that adversarial examples exist. This often allows us to quickly falsify the robustness of DNNs and the verification for remaining target labels could be avoided. Our approach is orthogonal to, and can be integrated with, many existing verification techniques. For evaluation purposes, we integrate it with three recent promising DNN verification tools, i.e., MipVerify, DeepZ, and Neurify. Experimental results show that our approach can significantly improve these tools by 36X speedup when the perturbation distance is set in a reasonable range.
翻訳日:2022-11-09 22:22:38 公開日:2020-07-27
# 動作共起前処理によるヒューマン・オブジェクト間インタラクションの検出

Detecting Human-Object Interactions with Action Co-occurrence Priors ( http://arxiv.org/abs/2007.08728v2 )

ライセンス: Link先を確認
Dong-Jin Kim, Xiao Sun, Jinsoo Choi, Stephen Lin, In So Kweon(参考訳) 人-物間相互作用(HOI)検出タスクにおける一般的な問題は、多数のHOIクラスが少数のラベル付き例しか持たず、長い尾の分布を持つトレーニングセットとなることである。 正のラベルの欠如は、これらのクラスの分類精度を低下させる可能性がある。 この問題に対処するために,人間と対象の相互作用には自然相関と反相関が存在することを観察する。 本稿では,これらの相関を行動共起行列としてモデル化し,これらを学習し,より効果的なトレーニング,特にレアクラスにおいて活用する手法を提案する。 提案手法の有効性を実験的に検証し, HOI 検出ベンチマークであるHICO-Det と V-COCO の両ベンチマークにおいて, 提案手法の性能が最先端の手法を上回ることを示した。

A common problem in human-object interaction (HOI) detection task is that numerous HOI classes have only a small number of labeled examples, resulting in training sets with a long-tailed distribution. The lack of positive labels can lead to low classification accuracy for these classes. Towards addressing this issue, we observe that there exist natural correlations and anti-correlations among human-object interactions. In this paper, we model the correlations as action co-occurrence matrices and present techniques to learn these priors and leverage them for more effective training, especially in rare classes. The utility of our approach is demonstrated experimentally, where the performance of our approach exceeds the state-of-the-art methods on both of the two leading HOI detection benchmark datasets, HICO-Det and V-COCO.
翻訳日:2022-11-09 13:22:15 公開日:2020-07-27
# 自動化SOAPノートに向けて:医療会話から発話を分類する

Towards an Automated SOAP Note: Classifying Utterances from Medical Conversations ( http://arxiv.org/abs/2007.08749v3 )

ライセンス: Link先を確認
Benjamin Schloss and Sandeep Konam(参考訳) 医療会話から生成される要約は、患者のケアプランのリコールと理解を改善し、医師のドキュメントの負担を軽減する。 音声認識(ASR)と自然言語理解(NLU)の最近の進歩は、これらの要約を自動生成する潜在的なソリューションを提供するが、この領域におけるベンチマーク研究のための厳密な定量的ベースラインは欠落している。 本稿では,医療会話から発話を分類する2つの課題について,このギャップを橋渡しする。 i) SOAP セクションと (ii)話者の役割。 どちらも、医療会話のためのエンドツーエンドで自動化されたsoapノートへの道のりの基本的なビルディングブロックである。 医療会話の人間とASRの書き起こしとそれに対応する機械学習最適化SOAPノートを含むデータセットの詳細を提供する。 次に,既存のディープラーニングアーキテクチャを2つのタスクに適応させる体系的な分析を行う。 その結果,単語レベルと発話レベルの両方をキャプチャする階層的な文脈をモデル化することで,両者の分類作業を大幅に改善することが示唆された。 さらに、ASR出力にモデルを適応させるモジュラー手法を開発し、解析する。

Summaries generated from medical conversations can improve recall and understanding of care plans for patients and reduce documentation burden for doctors. Recent advancements in automatic speech recognition (ASR) and natural language understanding (NLU) offer potential solutions to generate these summaries automatically, but rigorous quantitative baselines for benchmarking research in this domain are lacking. In this paper, we bridge this gap for two tasks: classifying utterances from medical conversations according to (i) the SOAP section and (ii) the speaker role. Both are fundamental building blocks along the path towards an end-to-end, automated SOAP note for medical conversations. We provide details on a dataset that contains human and ASR transcriptions of medical conversations and corresponding machine learning optimized SOAP notes. We then present a systematic analysis in which we adapt an existing deep learning architecture to the two aforementioned tasks. The results suggest that modelling context in a hierarchical manner, which captures both word and utterance level context, yields substantial improvements on both classification tasks. Additionally, we develop and analyze a modular method for adapting our model to ASR output.
翻訳日:2022-11-09 13:04:31 公開日:2020-07-27
# ドメイン適応のための分布マッチング学習

Learning to Match Distributions for Domain Adaptation ( http://arxiv.org/abs/2007.10791v3 )

ライセンス: Link先を確認
Chaohui Yu, Jindong Wang, Chang Liu, Tao Qin, Renjun Xu, Wenjie Feng, Yiqiang Chen, Tie-Yan Liu(参考訳) トレーニングデータとテストデータが異なる分布から来ている場合、モデルの一般化能力を改善するためにデータセットバイアスを減らすためにドメイン適応が必要である。 交差領域の関節分布と直接一致することは困難であるため,既存の手法ではMDDや逆方向の相違点などの既定距離を用いて境界分布や条件分布のばらつきを減少させる傾向にある。 しかしながら、特定の事前またはバイアスで構築されているため、特定のアプリケーションに適した方法を決定することは依然として困難である。 したがって、それらは伝達可能な特徴と関節分布の関係を明らかにするのに失敗する。 本稿では,マッチングの損失に先立って手作りの事前情報に頼らずに,クロスドメイン分散マッチングを自動的に学習する学習方法を提案する。 代わりに、L2Mはメタネットワークを用いてデータ駆動方式で分布整合損失を学習することで誘導バイアスを低減する。 L2Mは、タスクに依存しない人間設計のマッチング機能を統一する一般的なフレームワークである。 本稿では,自己教師付きラベル伝搬を用いた新しい最適化アルゴリズムを設計する。 公開データセットの実験は、SOTA法よりもL2Mの方が優れていることを裏付けている。 また,肺炎から胸部X線画像への移行にはL2Mが有効であった。 L2Mは、L2MがよりリアルでシャープなMNISTサンプルを生成することを示す実験において、他の分散マッチングアプリケーションでも拡張することができる。

When the training and test data are from different distributions, domain adaptation is needed to reduce dataset bias to improve the model's generalization ability. Since it is difficult to directly match the cross-domain joint distributions, existing methods tend to reduce the marginal or conditional distribution divergence using predefined distances such as MMD and adversarial-based discrepancies. However, it remains challenging to determine which method is suitable for a given application since they are built with certain priors or bias. Thus they may fail to uncover the underlying relationship between transferable features and joint distributions. This paper proposes Learning to Match (L2M) to automatically learn the cross-domain distribution matching without relying on hand-crafted priors on the matching loss. Instead, L2M reduces the inductive bias by using a meta-network to learn the distribution matching loss in a data-driven way. L2M is a general framework that unifies task-independent and human-designed matching features. We design a novel optimization algorithm for this challenging objective with self-supervised label propagation. Experiments on public datasets substantiate the superiority of L2M over SOTA methods. Moreover, we apply L2M to transfer from pneumonia to COVID-19 chest X-ray images with remarkable performance. L2M can also be extended in other distribution matching applications where we show in a trial experiment that L2M generates more realistic and sharper MNIST samples.
翻訳日:2022-11-09 12:54:16 公開日:2020-07-27
# 確定拠出年金システムにおける最適退職者消費のためのディープニューラルネットワーク

Deep neural network for optimal retirement consumption in defined contribution pension system ( http://arxiv.org/abs/2007.09911v2 )

ライセンス: Link先を確認
Wen Chen, Nicolas Langren\'e(参考訳) 本稿では,決定された寄付年金システムの累積フェーズにおける最適消費のための寿命予測寿命重み付きユーティリティベースモデルを解くためのディープニューラルネットワークアプローチを開発する。 この問題を多周期有限水平確率制御問題として定式化し、消費決定を表すディープニューラルネットワークポリシーを訓練する。 最適な消費政策は、年齢、富、リスク回避、求愛動機などの退職者に関する個人情報と、市場データから校正された7段階の経済シナリオ生成装置から提案されたインフレ率や資産リターンを含む一連の経済・金融変数によって決定される。 オーストラリア年金制度を例として,政府資金による平均年齢年金や資金管理費などの実務的側面を考察した。 数値実験から得られた重要な発見は次のとおりである。 まず, 市場環境の変化に適応したディープニューラルネットワークの最適消費政策は, 文献で提案されている決定論的デダウンルールを上回っている。 さらに、トレーニングイテレーションの数が増えるにつれて、サンプル外のアウトパフォーマンス比率が増加し、最終的には10分未満のトレーニングで、すべてのテストシナリオでアウトパフォーマンスに達する。 第2に, リスク回避とbequestの動機が, 退職者のライフタイムにどのような変化をもたらすかを明らかにするため, 感度分析を行った。 第3に、異なる開始資産バランスで最適な消費率を提供する。 高齢者の年金給付により, 最適消費率は初期富に比例しないと考えられる。 フォースでは、初期富のバランスとユーティリティパラメータの設定が同じで、男女の死亡率の違いにより、最適消費水準が男性と女性で異なる。

In this paper, we develop a deep neural network approach to solve a lifetime expected mortality-weighted utility-based model for optimal consumption in the decumulation phase of a defined contribution pension system. We formulate this problem as a multi-period finite-horizon stochastic control problem and train a deep neural network policy representing consumption decisions. The optimal consumption policy is determined by personal information about the retiree such as age, wealth, risk aversion and bequest motive, as well as a series of economic and financial variables including inflation rates and asset returns jointly simulated from a proposed seven-factor economic scenario generator calibrated from market data. We use the Australian pension system as an example, with consideration of the government-funded means-tested Age Pension and other practical aspects such as fund management fees. The key findings from our numerical tests are as follows. First, our deep neural network optimal consumption policy, which adapts to changes in market conditions, outperforms deterministic drawdown rules proposed in the literature. Moreover, the out-of-sample outperformance ratios increase as the number of training iterations increases, eventually reaching outperformance on all testing scenarios after less than 10 minutes of training. Second, a sensitivity analysis is performed to reveal how risk aversion and bequest motives change the consumption over a retiree's lifetime under this utility framework. Third, we provide the optimal consumption rate with different starting wealth balances. We observe that optimal consumption rates are not proportional to initial wealth due to the Age Pension payment. Forth, with the same initial wealth balance and utility parameter settings, the optimal consumption level is different between males and females due to gender differences in mortality.
翻訳日:2022-11-08 14:33:20 公開日:2020-07-27
# プライバシ保護ビジュアルslam

Privacy Preserving Visual SLAM ( http://arxiv.org/abs/2007.10361v2 )

ライセンス: Link先を確認
Mikiya Shibuya, Shinya Sumikura, and Ken Sakurada(参考訳) 本研究では、カメラのポーズを推定し、混合線と点雲によるバンドル調整をリアルタイムで行うためのプライバシー保護型Visual SLAMフレームワークを提案する。 従来の研究では、単一画像や再構成点雲のラインクラウドマップを用いて、カメラのポーズを推定するローカライズ手法が提案されている。 これらの手法は、ポイントクラウドをラインクラウドに変換し、ポイントクラウドからシーンイメージを再構築することで、インバージョン攻撃に対するシーンプライバシ保護を提供する。 しかし、それらは計算効率に対処しないため、ビデオシーケンスに直接は適用されない。 これは、カメラのポーズを推定し、混合線と点雲をリアルタイムにバンドル調整する上で、解決すべき重要な問題である。 さらに,画像座標上の観察点が利用できないため,サーバのラインクラウドマップをクライアントビデオから再構成したポイントクラウドで最適化する方法についての研究は行われていない。 合成および実データによる実験結果から、私たちのVisual SLAMフレームワークは、ラインクラウドマップを用いて、意図したプライバシ保護とリアルタイムパフォーマンスを実現する。

This study proposes a privacy-preserving Visual SLAM framework for estimating camera poses and performing bundle adjustment with mixed line and point clouds in real time. Previous studies have proposed localization methods to estimate a camera pose using a line-cloud map for a single image or a reconstructed point cloud. These methods offer a scene privacy protection against the inversion attacks by converting a point cloud to a line cloud, which reconstruct the scene images from the point cloud. However, they are not directly applicable to a video sequence because they do not address computational efficiency. This is a critical issue to solve for estimating camera poses and performing bundle adjustment with mixed line and point clouds in real time. Moreover, there has been no study on a method to optimize a line-cloud map of a server with a point cloud reconstructed from a client video because any observation points on the image coordinates are not available to prevent the inversion attacks, namely the reversibility of the 3D lines. The experimental results with synthetic and real data show that our Visual SLAM framework achieves the intended privacy-preserving formation and real-time performance using a line-cloud map.
翻訳日:2022-11-08 14:16:18 公開日:2020-07-27
# 因果推論のためのモーメントマッチンググラフネットワーク

Moment-Matching Graph-Networks for Causal Inference ( http://arxiv.org/abs/2007.10507v2 )

ライセンス: Link先を確認
Michael Park(参考訳) 本稿では,観測訓練データから非線形構造方程式モデルをシミュレートする,教師なしのディープラーニングフレームワークについて検討する。 このノートの主な貢献は、因果ベイズグラフの端にモーメントマッチング損失関数を適用するアーキテクチャであり、結果として生成条件モーメントマッチンググラフニューラルネットワークとなる。 これにより、様々なグラフィカルな介入に対する遅延空間条件確率分布の自動サンプリングが可能となり、トレーニングセットに含まれる範囲を超えて、しばしば基底真理分布に忠実なサンプル外干渉確率を生成することができる。 これらの手法は原則として、因果グラフ構造を含む潜在空間表現を生成する既存のオートエンコーダと併用することができる。

In this note we explore a fully unsupervised deep-learning framework for simulating non-linear structural equation models from observational training data. The main contribution of this note is an architecture for applying moment-matching loss functions to the edges of a causal Bayesian graph, resulting in a generative conditional-moment-matching graph-neural-network. This framework thus enables automated sampling of latent space conditional probability distributions for various graphical interventions, and is capable of generating out-of-sample interventional probabilities that are often faithful to the ground truth distributions well beyond the range contained in the training set. These methods could in principle be used in conjunction with any existing autoencoder that produces a latent space representation containing causal graph structures.
翻訳日:2022-11-08 13:05:33 公開日:2020-07-27
# 偽ニュース検出における過信防止のための機械学習説明

Machine Learning Explanations to Prevent Overtrust in Fake News Detection ( http://arxiv.org/abs/2007.12358v2 )

ライセンス: Link先を確認
Sina Mohseni, Fan Yang, Shiva Pentyala, Mengnan Du, Yi Liu, Nic Lupfer, Xia Hu, Shuiwang Ji, Eric Ragan(参考訳) 偽ニュースや誤情報伝播の議論は、ポストトルース時代には難しい課題だ。 ニュースフィードと検索アルゴリズムは、ユーザーがアルゴリズムによって選択された偽のコンテンツに露出することで、意図しない大規模な偽情報伝達につながる可能性がある。 本研究では、ニュースレビュープラットフォームに組み込んだ説明可能なAIアシスタントが、フェイクニュースの拡散と戦う効果について検討した。 ニュースレビューと共有インターフェースを設計し,ニュース記事のデータセットを作成し,4つの解釈可能な偽ニュース検出アルゴリズムをトレーニングし,アルゴリズムの透明性がエンドユーザに与える影響について検討する。 複数のクラウドソーシング研究から評価結果と分析を行った。 説明可能なaiシステムのより深い理解のために、説明のプロセスにおいて、ユーザエンゲージメント、メンタルモデル、信頼、パフォーマンス指標の相互作用について論じる。 分析の結果,知的アシスタントの適切なメンタルモデルの構築と,モデルの制約に応じて信頼度を調整するのに,説明が役立ったことが示唆された。

Combating fake news and misinformation propagation is a challenging task in the post-truth era. News feed and search algorithms could potentially lead to unintentional large-scale propagation of false and fabricated information with users being exposed to algorithmically selected false content. Our research investigates the effects of an Explainable AI assistant embedded in news review platforms for combating the propagation of fake news. We design a news reviewing and sharing interface, create a dataset of news stories, and train four interpretable fake news detection algorithms to study the effects of algorithmic transparency on end-users. We present evaluation results and analysis from multiple controlled crowdsourced studies. For a deeper understanding of Explainable AI systems, we discuss interactions between user engagement, mental model, trust, and performance measures in the process of explaining. The study results indicate that explanations helped participants to build appropriate mental models of the intelligent assistants in different conditions and adjust their trust accordingly for model limitations.
翻訳日:2022-11-07 07:06:43 公開日:2020-07-27
# 反射光を用いたモデルベース適応光学

Differentiable model-based adaptive optics with transmitted and reflected light ( http://arxiv.org/abs/2007.13400v1 )

ライセンス: Link先を確認
Ivan Vishniakou, Johannes D. Seelig(参考訳) 収差は、例えば生体組織でのイメージングなど、多くの状況において光学系を制限する。 機械学習は、収差の逆モデルを学ぶことによって、そのような条件下で画像を改善する新しい方法を提供する。 学習には、可能な限り広範囲の収差をカバーするデータセットが必要であるが、より強い散乱サンプルの制限となり、撮像プロセスに関する事前情報を利用できない。 本稿では,モデルベース適応光学と機械学習フレームワークの最適化手法を組み合わせることで,少数の測定値による収差補正が可能であることを示す。 補正は、単一の収差層を介して伝送構成と、同時に2つの異なる層を介して反射配置で決定される。 さらに、補正は、(ツェルニケモードの組み合わせのような)所定の収差のモデルによって制限されない。 透過に焦点を合わせることは、反射光のみに基づいて達成でき、エピプローブイメージング構成と互換性がある。

Aberrations limit optical systems in many situations, for example when imaging in biological tissue. Machine learning offers novel ways to improve imaging under such conditions by learning inverse models of aberrations. Learning requires datasets that cover a wide range of possible aberrations, which however becomes limiting for more strongly scattering samples, and does not take advantage of prior information about the imaging process. Here, we show that combining model-based adaptive optics with the optimization techniques of machine learning frameworks can find aberration corrections with a small number of measurements. Corrections are determined in a transmission configuration through a single aberrating layer and in a reflection configuration through two different layers at the same time. Additionally, corrections are not limited by a predetermined model of aberrations (such as combinations of Zernike modes). Focusing in transmission can be achieved based only on reflected light, compatible with an epidetection imaging configuration.
翻訳日:2022-11-06 11:56:12 公開日:2020-07-27
# 協調ノマのための深層マルチタスク学習:システム設計と原理

Deep Multi-Task Learning for Cooperative NOMA: System Design and Principles ( http://arxiv.org/abs/2007.13495v1 )

ライセンス: Link先を確認
Yuxin Lu, Peng Cheng, Zhuo Chen, Wai Ho Mow, Yonghui Li, and Branka Vucetic(参考訳) 将来のワイヤレスiot(internet-of-things)ネットワークの有望なコンポーネントとして想定されたnon-orthogonal multiple access(noma)技術は、スペクトル効率を大幅に向上した大規模な接続をサポートすることができる。 協調NOMAは、チャンネル条件の悪いユーザのコミュニケーション信頼性をさらに向上させることができる。 しかし、従来のシステム設計にはいくつかの制約があり、BER(bit error rate)の観点から最適化されていない。 本稿では,最近の深層学習(dl)の進歩をふまえて,新しい深層協調ノマスキームを開発した。 我々は,システム全体を包括的に最適化できるように,新しいハイブリッドカスケードディープニューラルネットワーク(DNN)アーキテクチャを開発した。 そこで本研究では,BER性能を定量化するために複数の損失関数を構築し,マルチタスク指向の2段階トレーニング手法を提案する。 次に,各DNNモジュールの学習機構を情報理論に基づいて解析し,提案したDNNアーキテクチャとその学習方法に関する知見を提供する。 また,提案手法をトレーニングと推論間の電力割当(pa)ミスマッチに対応させ,信号劣化対策としてチャネル符号化を組み込む。 シミュレーションの結果, 直交多重アクセス(OMA)と従来の協調型NOMA方式の利点を様々なシナリオで検証した。

Envisioned as a promising component of the future wireless Internet-of-Things (IoT) networks, the non-orthogonal multiple access (NOMA) technique can support massive connectivity with a significantly increased spectral efficiency. Cooperative NOMA is able to further improve the communication reliability of users under poor channel conditions. However, the conventional system design suffers from several inherent limitations and is not optimized from the bit error rate (BER) perspective. In this paper, we develop a novel deep cooperative NOMA scheme, drawing upon the recent advances in deep learning (DL). We develop a novel hybrid-cascaded deep neural network (DNN) architecture such that the entire system can be optimized in a holistic manner. On this basis, we construct multiple loss functions to quantify the BER performance and propose a novel multi-task oriented two-stage training method to solve the end-to-end training problem in a self-supervised manner. The learning mechanism of each DNN module is then analyzed based on information theory, offering insights into the proposed DNN architecture and its corresponding training method. We also adapt the proposed scheme to handle the power allocation (PA) mismatch between training and inference and incorporate it with channel coding to combat signal deterioration. Simulation results verify its advantages over orthogonal multiple access (OMA) and the conventional cooperative NOMA scheme in various scenarios.
翻訳日:2022-11-06 11:55:59 公開日:2020-07-27
# 音楽分類とタグ付けのためのレセプティブフィールド正規化CNN

Receptive-Field Regularized CNNs for Music Classification and Tagging ( http://arxiv.org/abs/2007.13503v1 )

ライセンス: Link先を確認
Khaled Koutini, Hamid Eghbal-Zadeh, Verena Haunschmid, Paul Primus, Shreyan Chowdhury, Gerhard Widmer(参考訳) 畳み込みニューラルネットワーク(CNN)は、様々な音楽情報検索(MIR)タスクで、エンド・ツー・エンドモデルやより複雑なシステムのための特徴抽出器として、うまく使われている。 しかし、MIRフィールドは現在でも古典的なVGGベースのCNNアーキテクチャの変種に支配されており、注意のようなより複雑なモジュールや、大規模なデータセットでの事前トレーニングのような技術と組み合わせられていることが多い。 他の領域でVGGを超えるResNetのようなより深いモデルは、MIRではほとんど使われない。 その主な理由の1つは、音楽分野におけるより深いCNNの一般化の欠如である。 本稿では,resnetのような深いアーキテクチャを音楽関連のタスクに競争力を持たせるための原則的な手法を提案する。 特に、最近導入されたReceptive-Field RegularizationとShake-Shakeを分析し、音楽関連タスクにおけるディープCNNの一般化を著しく改善し、その結果、ディープCNNは、事前学習と注意を付加したCNNのような、現在のより複雑なモデルよりも優れていることを示す。 2つの異なるMIRタスクと2つの対応するデータセットでこれを実証し、これらのデータセットの新たなベースラインとして、より複雑なアプローチで機能抽出モジュールとしても使用できる、深く正規化されたCNNを提供します。

Convolutional Neural Networks (CNNs) have been successfully used in various Music Information Retrieval (MIR) tasks, both as end-to-end models and as feature extractors for more complex systems. However, the MIR field is still dominated by the classical VGG-based CNN architecture variants, often in combination with more complex modules such as attention, and/or techniques such as pre-training on large datasets. Deeper models such as ResNet -- which surpassed VGG by a large margin in other domains -- are rarely used in MIR. One of the main reasons for this, as we will show, is the lack of generalization of deeper CNNs in the music domain. In this paper, we present a principled way to make deep architectures like ResNet competitive for music-related tasks, based on well-designed regularization strategies. In particular, we analyze the recently introduced Receptive-Field Regularization and Shake-Shake, and show that they significantly improve the generalization of deep CNNs on music-related tasks, and that the resulting deep CNNs can outperform current more complex models such as CNNs augmented with pre-training and attention. We demonstrate this on two different MIR tasks and two corresponding datasets, thus offering our deep regularized CNNs as a new baseline for these datasets, which can also be used as a feature-extracting module in future, more complex approaches.
翻訳日:2022-11-06 11:55:34 公開日:2020-07-27
# エンドツーエンドASRのためのデータ拡張による半教師付き学習

Semi-Supervised Learning with Data Augmentation for End-to-End ASR ( http://arxiv.org/abs/2007.13876v1 )

ライセンス: Link先を確認
Felix Weninger, Franco Mana, Roberto Gemello, Jes\'us Andr\'es-Ferrer, Puming Zhan(参考訳) 本稿では、エンド・ツー・エンドASRの精度を向上させるために、半教師付き学習(SSL)とデータ拡張(DA)を併用する。 我々は、画像分類タスクにうまく適用された一貫性規則化原理と、FixMatchおよびNoisy Studentsアルゴリズムのシーケンス・ツー・シーケンス(seq2seq)バージョンに焦点を当てた。 具体的には、入力特徴をDAで摂動した後、Seq2seqモデルを用いて、未ラベルデータの擬似ラベルを生成する。 また、擬似ラベル誤りに対処するため、両アルゴリズムのソフトラベル変種を提案し、さらなる性能改善を示す。 会話音声データに1.9khの手動転写学習データを用いてssl実験を行い,25%のラベル(475hラベルデータ)しか使用しなかった。 その結果、ソフトラベルと整合性正規化を備えたノイズ学生アルゴリズムは、リカバリ率92%に対応する475hのラベル付きデータを追加すると、ワードエラー率(WER)を10.4%削減する。 さらに、ラベルのないデータを950h増やすと、完全なラベル付きトレーニングセット(リカリーレート:78%)を使用するよりも、sslのパフォーマンスが5%ほど向上します。

In this paper, we apply Semi-Supervised Learning (SSL) along with Data Augmentation (DA) for improving the accuracy of End-to-End ASR. We focus on the consistency regularization principle, which has been successfully applied to image classification tasks, and present sequence-to-sequence (seq2seq) versions of the FixMatch and Noisy Student algorithms. Specifically, we generate the pseudo labels for the unlabeled data on-the-fly with a seq2seq model after perturbing the input features with DA. We also propose soft label variants of both algorithms to cope with pseudo label errors, showing further performance improvements. We conduct SSL experiments on a conversational speech data set with 1.9kh manually transcribed training data, using only 25% of the original labels (475h labeled data). In the result, the Noisy Student algorithm with soft labels and consistency regularization achieves 10.4% word error rate (WER) reduction when adding 475h of unlabeled data, corresponding to a recovery rate of 92%. Furthermore, when iteratively adding 950h more unlabeled data, our best SSL performance is within 5% WER increase compared to using the full labeled training set (recovery rate: 78%).
翻訳日:2022-11-06 11:54:31 公開日:2020-07-27
# openXDATA: マルチターゲットデータ生成とラベル補完の欠如のためのツール

openXDATA: A Tool for Multi-Target Data Generation and Missing Label Completion ( http://arxiv.org/abs/2007.13889v1 )

ライセンス: Link先を確認
Felix Weninger, Yue Zhang, Rosalind W. Picard(参考訳) 機械学習の一般的な問題は、ラベル空間とラベルの欠落したデータセットを扱うことだ。 本研究では,OpenXDATAツールを導入し,ラベル付きデータセットやラベルなしデータセットの欠落ラベルを補完し,データセットのジョイントラベル空間におけるラベル付きマルチターゲットデータを生成する。 そこで我々は,マルチタスク共有隠れ層DNNを用いて,異なるデータセットからインスタンスのスパースラベル行列を反復的に完了するクロスデータラベル補完(CDLC)アルゴリズムを設計,実装した。 4つの感情データセットのラベルを推定するために、新しいツールを適用した。1つは、個別の感情カテゴリー(例えば、幸せ、悲しみ、怒り)でラベル付けされ、もう1つは、覚醒次元と原子価次元に沿って連続的な値でラベル付けされ、もう1つはラベル付けされていない。 真のラベルをドロップアウトしてテストすると、すべてのデータセットのカテゴリと連続ラベルの両方を、根拠となる真理値に近づく割合で見積もる能力が示されます。 openXDATAは、https://github.com/fweninger/openXDATAからGNU General Public Licenseで入手できる。

A common problem in machine learning is to deal with datasets with disjoint label spaces and missing labels. In this work, we introduce the openXDATA tool that completes the missing labels in partially labelled or unlabelled datasets in order to generate multi-target data with labels in the joint label space of the datasets. To this end, we designed and implemented the cross-data label completion (CDLC) algorithm that uses a multi-task shared-hidden-layer DNN to iteratively complete the sparse label matrix of the instances from the different datasets. We apply the new tool to estimate labels across four emotion datasets: one labeled with discrete emotion categories (e.g., happy, sad, angry), one labeled with continuous values along arousal and valence dimensions, one with both kinds of labels, and one unlabeled. Testing with drop-out of true labels, we show the ability to estimate both categories and continuous labels for all of the datasets, at rates that approached the ground truth values. openXDATA is available under the GNU General Public License from https://github.com/fweninger/openXDATA.
翻訳日:2022-11-06 11:54:09 公開日:2020-07-27
# 場所の力を活用する: 経済移民の立地決定を改善するデータ駆動意思決定支援者

Leveraging the Power of Place: A Data-Driven Decision Helper to Improve the Location Decisions of Economic Immigrants ( http://arxiv.org/abs/2007.13902v1 )

ライセンス: Link先を確認
Jeremy Ferwerda, Nicholas Adams-Cohen, Kirk Bansak, Jennifer Fei, Duncan Lawrence, Jeremy M. Weinstein, Jens Hainmueller(参考訳) 多くの国が、彼らの経済に貢献できる移民を惹きつけるためのプログラムを確立している。 調査は移民の最初の到着地が経済の成功を形作る上で重要な役割を担っていることを示唆している。 しかし、現在移民は最適な目的地を特定するのに役立つパーソナライズされた情報にアクセスできない。 その代わり、アベイラビリティー・ヒューリスティックス(Availability Heuristics)に頼り、最適な着陸地点の選択、収益の低下、移住率の上昇、そして最もよく知られた場所での集中に繋がる。 この問題に対処し,認知バイアスや限られた情報の影響を克服するために,行動的洞察や管理データ,および移民の位置決定を知らせる機械学習手法を駆使したデータ駆動意思決定支援システムを提案する。 意思決定ヘルパーは、移民の好みを反映したパーソナライズされたロケーションレコメンデーションと、プロフィールから期待される利益を最大化する場所のデータ駆動予測を提供する。 カナダ・エクスプレス・エントリー・システムからの近年の移民の上陸データと税務記録から得られた収益とを関連づけた行政データを用いたバックテストによるアプローチの潜在的影響について述べる。 様々なシナリオでのシミュレーションは、入ってくる経済移民に位置推薦を提供することが最初の収入を増加させ、最も人口の多い上陸地点から緩やかな移行につながることを示唆している。 当社のアプローチは、既存の機関構造内に最小限のコストで実施でき、行政データを利用して経済移民の成果を改善する機会を政府に提供する。

A growing number of countries have established programs to attract immigrants who can contribute to their economy. Research suggests that an immigrant's initial arrival location plays a key role in shaping their economic success. Yet immigrants currently lack access to personalized information that would help them identify optimal destinations. Instead, they often rely on availability heuristics, which can lead to the selection of sub-optimal landing locations, lower earnings, elevated outmigration rates, and concentration in the most well-known locations. To address this issue and counteract the effects of cognitive biases and limited information, we propose a data-driven decision helper that draws on behavioral insights, administrative data, and machine learning methods to inform immigrants' location decisions. The decision helper provides personalized location recommendations that reflect immigrants' preferences as well as data-driven predictions of the locations where they maximize their expected earnings given their profile. We illustrate the potential impact of our approach using backtests conducted with administrative data that links landing data of recent economic immigrants from Canada's Express Entry system with their earnings retrieved from tax records. Simulations across various scenarios suggest that providing location recommendations to incoming economic immigrants can increase their initial earnings and lead to a mild shift away from the most populous landing destinations. Our approach can be implemented within existing institutional structures at minimal cost, and offers governments an opportunity to harness their administrative data to improve outcomes for economic immigrants.
翻訳日:2022-11-06 11:53:34 公開日:2020-07-27
# 熱カーネルを用いた半教師付き学習のためのグラフ畳み込みネットワーク

Graph Convolutional Networks using Heat Kernel for Semi-supervised Learning ( http://arxiv.org/abs/2007.16002v1 )

ライセンス: Link先を確認
Bingbing Xu, Huawei Shen, Qi Cao, Keting Cen, Xueqi Cheng(参考訳) グラフ畳み込みネットワークは、グラフ構造化データの半教師付き学習において顕著な成功を収めた。 グラフに基づく半教師付き学習の鍵は、グラフ構造によって実行されるノード上のラベルや特徴の滑らかさを捉えることである。 従来の手法,スペクトル法,空間法では,グラフ畳み込みを近隣ノードの重み付け平均として定義し,グラフ畳み込みカーネルを学習し,滑らかさを活用してグラフベースの半教師付き学習の性能を向上させる。 オープンな課題の1つは、グラフ構造に現れる滑らかさの関連情報を反映した適切な近傍を決定する方法である。 本稿では,低周波フィルタの高速化とグラフ上の信号変動の円滑性向上に熱カーネルを活用するGraphHeatを提案する。 GraphHeatは熱拡散下でのターゲットノードの局所構造を利用して、従来の方法による順序の制約なしに、隣接するノードを柔軟に決定する。 graphheatは、グラフベースの半教師付き分類を3つのベンチマークデータセット(cora、citeseer、pubmed)で実現する。

Graph convolutional networks gain remarkable success in semi-supervised learning on graph structured data. The key to graph-based semisupervised learning is capturing the smoothness of labels or features over nodes exerted by graph structure. Previous methods, spectral methods and spatial methods, devote to defining graph convolution as a weighted average over neighboring nodes, and then learn graph convolution kernels to leverage the smoothness to improve the performance of graph-based semi-supervised learning. One open challenge is how to determine appropriate neighborhood that reflects relevant information of smoothness manifested in graph structure. In this paper, we propose GraphHeat, leveraging heat kernel to enhance low-frequency filters and enforce smoothness in the signal variation on the graph. GraphHeat leverages the local structure of target node under heat diffusion to determine its neighboring nodes flexibly, without the constraint of order suffered by previous methods. GraphHeat achieves state-of-the-art results in the task of graph-based semi-supervised classification across three benchmark datasets: Cora, Citeseer and Pubmed.
翻訳日:2022-11-06 11:48:00 公開日:2020-07-27
# パブリッククラウドの機械学習アプリケーションに対する攻撃と防御

Attacking and Defending Machine Learning Applications of Public Cloud ( http://arxiv.org/abs/2008.02076v1 )

ライセンス: Link先を確認
Dou Goodman, Hao Xin(参考訳) 敵の攻撃は従来の防犯の境界を破る。 本稿では,機械学習アプリケーションを対象としたセキュリティ開発ライフサイクル(SDL for ML)を提案する。 SDL for MLは、ML-as-a-serviceの脆弱性の数と深刻度を低減し、開発コストを低減し、よりセキュアなソフトウェアを構築するのに役立つ。

Adversarial attack breaks the boundaries of traditional security defense. For adversarial attack and the characteristics of cloud services, we propose Security Development Lifecycle for Machine Learning applications, e.g., SDL for ML. The SDL for ML helps developers build more secure software by reducing the number and severity of vulnerabilities in ML-as-a-service, while reducing development cost.
翻訳日:2022-11-06 11:47:42 公開日:2020-07-27
# 人工知能を用いた光酸素センシング

Optical oxygen sensing with artificial intelligence ( http://arxiv.org/abs/2008.12629v1 )

ライセンス: Link先を確認
Umberto Michelucci, Michael Baumgartner, Francesca Venturini(参考訳) ルミネッセンスに基づく酸素濃度測定センサは、このタイプのセンシングの実用的利点と感度のために、産業と研究の両方で広く利用されている。 測定原理は酸素分子による発光の消光であり、発光の減衰時間と強度が変化する。 古典的アプローチでは、この変化はstern-volmer方程式を用いた酸素濃度と関連している。 この方程式は、ほとんどの場合非線形であり、デバイス固有定数によってパラメータ化される。 したがって、これらのパラメータを決定するには、すべてのセンサーを1つ以上の既知の濃度で正確に調整する必要がある。 この研究は、全く新しい人工知能アプローチを探求し、機械学習による酸素センシングの実現可能性を示す。 特に開発されたニューラルネットワークは、入力量と酸素濃度を関連付けるために非常に効率的に学習する。 その結果,多くの商用センサや低コストセンサと比較して,0.5パーセントの空気濃度から予測される平均偏差が認められた。 ネットワークは合成生成データを用いてトレーニングされたため、生成したデータを用いて測定データを記述する能力によってモデル予測の精度が制限され、多くの実験測定値を用いて、大幅な改善の可能性を開くことができる。 この研究で述べられているアプローチは、センサーの検知に対する人工知能の適用性を示している。

Luminescence-based sensors for measuring oxygen concentration are widely used both in industry and research due to the practical advantages and sensitivity of this type of sensing. The measuring principle is the luminescence quenching by oxygen molecules, which results in a change of the luminescence decay time and intensity. In the classical approach, this change is related to an oxygen concentration using the Stern-Volmer equation. This equation, which in most of the cases is non-linear, is parametrized through device-specific constants. Therefore, to determine these parameters every sensor needs to be precisely calibrated at one or more known concentrations. This work explores an entirely new artificial intelligence approach and demonstrates the feasibility of oxygen sensing through machine learning. The specifically developed neural network learns very efficiently to relate the input quantities to the oxygen concentration. The results show a mean deviation of the predicted from the measured concentration of 0.5 percent air, comparable to many commercial and low-cost sensors. Since the network was trained using synthetically generated data, the accuracy of the model predictions is limited by the ability of the generated data to describe the measured data, opening up future possibilities for significant improvement by using a large number of experimental measurements for training. The approach described in this work demonstrates the applicability of artificial intelligence to sensing of sensors.
翻訳日:2022-11-06 11:47:34 公開日:2020-07-27
# 深部畳み込みニューラルネットワークを用いたラマンスペクトル解析の特徴可視化

Feature visualization of Raman spectrum analysis with deep convolutional neural network ( http://arxiv.org/abs/2007.13354v1 )

ライセンス: Link先を確認
Masashi Fukuhara, Kazuhiko Fujiwara, Yoshihiro Maruyama and Hiroyasu Itoh(参考訳) 本稿では,Ramanスペクトル解析にディープ畳み込みニューラルネットワークを用いた認識・特徴可視化手法を示す。 この可視化は、プール層と完全連結層の重みからスペクトルの重要な領域を計算することによって達成される。 この方法は、まず単純なローレンツスペクトルについて調べ、次に薬品化合物と数値混合アミノ酸のスペクトルに適用した。 ローレンツスペクトルを用いたラマンピーク信号の抽出領域に対する畳み込みフィルタのサイズと個数の影響について検討した。 抽出した特徴を可視化することにより,Ramanピークが認識に寄与することが確認された。 ベースライン補正に使用されるように見える背景レベル領域において、ほぼゼロの重み値が得られる。 数値混合アミノ酸スペクトルの評価により, 共通成分抽出を確認した。 モデルがトレーニングラベルとして1ホットベクトルを与えられたとしても、共通ピークにおける高い重み値と特異ピークにおける負の値が現れる(混合比なしで)。 本手法は, スペクトル解析のための複合試料からの共通成分抽出の信頼性を確保するため, モデル検証などの応用に適している。

We demonstrate a recognition and feature visualization method that uses a deep convolutional neural network for Raman spectrum analysis. The visualization is achieved by calculating important regions in the spectra from weights in pooling and fully-connected layers. The method is first examined for simple Lorentzian spectra, then applied to the spectra of pharmaceutical compounds and numerically mixed amino acids. We investigate the effects of the size and number of convolution filters on the extracted regions for Raman-peak signals using the Lorentzian spectra. It is confirmed that the Raman peak contributes to the recognition by visualizing the extracted features. A near-zero weight value is obtained at the background level region, which appears to be used for baseline correction. Common component extraction is confirmed by an evaluation of numerically mixed amino acid spectra. High weight values at the common peaks and negative values at the distinctive peaks appear, even though the model is given one-hot vectors as the training labels (without a mix ratio). This proposed method is potentially suitable for applications such as the validation of trained models, ensuring the reliability of common component extraction from compound samples for spectral analysis.
翻訳日:2022-11-06 11:47:16 公開日:2020-07-27
# 微細加工関係構築のための画像駆動型識別・生成機械学習アルゴリズム

Image-driven discriminative and generative machine learning algorithms for establishing microstructure-processing relationships ( http://arxiv.org/abs/2007.13417v1 )

ライセンス: Link先を確認
Wufei Ma, Elizabeth Kautz, Arun Baskaran, Aritra Chowdhury, Vineet Joshi, B\"ulent Yener, Daniel Lewis(参考訳) 微細構造画像データから処理条件を予測するための微細構造表現法について検討する。 現在核燃料として開発が進められている二元合金(ウラニウム-モリブデン)について, 画像認識, キャラクタリゼーション, および微構造と処理条件をつなぐ予測能力構築のための機械学習手法の開発を目的として検討した。 本稿では,異なる組織表現をテストし,f1スコアに基づいてモデル性能を評価する。 F1スコア95.1%は10の異なる熱力学的材料処理条件に対応するマイクログラフを区別するために達成された。 新たに開発した微細構造表現は画像データをよく表現しており,272画像からなる比較的小さく不均衡なオリジナルデータセットを用いて,異なる位相の領域分数を利用する従来の手法では,複数のクラスを識別するには不十分である。 このような制限されたデータセットを補完する生成手法の適用性を検討するため、生成的敵ネットワークを訓練し、人工的な微細構造画像を生成する。 2つの異なる生成ネットワークをトレーニングし、性能を評価するためにテストした。 限られた微細構造画像データセットに機械学習を適用する際の課題とベストプラクティスについても論じる。 本研究は, 金属加工設計研究の典型的な限られたデータセットにおける微細構造解析, および微細構造-加工関係の発達に影響を及ぼす。

We investigate methods of microstructure representation for the purpose of predicting processing condition from microstructure image data. A binary alloy (uranium-molybdenum) that is currently under development as a nuclear fuel was studied for the purpose of developing an improved machine learning approach to image recognition, characterization, and building predictive capabilities linking microstructure to processing conditions. Here, we test different microstructure representations and evaluate model performance based on the F1 score. A F1 score of 95.1% was achieved for distinguishing between micrographs corresponding to ten different thermo-mechanical material processing conditions. We find that our newly developed microstructure representation describes image data well, and the traditional approach of utilizing area fractions of different phases is insufficient for distinguishing between multiple classes using a relatively small, imbalanced original data set of 272 images. To explore the applicability of generative methods for supplementing such limited data sets, generative adversarial networks were trained to generate artificial microstructure images. Two different generative networks were trained and tested to assess performance. Challenges and best practices associated with applying machine learning to limited microstructure image data sets is also discussed. Our work has implications for quantitative microstructure analysis, and development of microstructure-processing relationships in limited data sets typical of metallurgical process design studies.
翻訳日:2022-11-06 11:46:59 公開日:2020-07-27
# 米国におけるレストランやバーにおける公衆の関心の因果推定 : Googleトレンド分析

The Causality Inference of Public Interest in Restaurants and Bars on COVID-19 Daily Cases in the US: A Google Trends Analysis ( http://arxiv.org/abs/2007.13255v1 )

ライセンス: Link先を確認
Milad Asgari Mehrabadi, Nikil Dutt and Amir M. Rahmani(参考訳) 新型コロナウイルスの感染拡大は世界のほぼすべての地域で影響を受けている。 この研究の実施時点では、米国内の毎日のケースの数は他のどの国よりも多く、多くの州でその傾向が増加している。 google trendsは、さまざまな期間にさまざまなトピックに対する一般の関心を提供する。 データマイニング手法を用いたこれらのトレンドの分析は、新型コロナウイルスの流行に関する有益な洞察と観察を提供するかもしれない。 本研究の目的は,米国における日常的な事例の増加にともなう検索語(バーやレストランなど)の予測能力について検討することであった。 検索クエリーの傾向は,米国トップ10州・地域における1日当たりの陽性例と1日当たりの新規陽性例の2種類,すなわちレストランとバーの2種類について検討した。 さらに,異なる傾向の線形関係を測定するために,ピアソン相関を用いた。 調査の結果, 日常事例が多く, バーやレストランに関する検索クエリの歴史的傾向は, 主に再開後に発生したもので, 日常の新規症例に影響を及ぼすことが明らかとなった。 例えば、カリフォルニア州は2020年6月7日にレストランを検索し、ピークから2週間以内に新規感染者数に影響を与え、グランガーの因果性検査のP値が.004となった。 検索クエリの数は限られていたが、レストランやバーの検索トレンドは、米国では毎日の新規症例が多い地域において、日々の新規症例に大きな影響を及ぼした。 これらの影響のある検索トレンドを,各地域の新たな事例における予測タスクのための追加情報として使用できることを示した。 この予測は、新型コロナウイルスの感染拡大が社会に与える影響を管理しコントロールし、その結果に備えるのに役立つ。

The COVID-19 coronavirus pandemic has affected virtually every region of the globe. At the time of conducting this study, the number of daily cases in the United States is more than any other country, and the trend is increasing in most of its states. Google trends provide public interest in various topics during different periods. Analyzing these trends using data mining methods might provide useful insights and observations regarding the COVID-19 outbreak. The objective of this study was to consider the predictive ability of different search terms (i.e., bars and restaurants) with regards to the increase of daily cases in the US. We considered the causation of two different search query trends, namely restaurant and bars, on daily positive cases in top-10 states/territories of the United States with the highest and lowest daily new positive cases. In addition, to measure the linear relation of different trends, we used Pearson correlation. Our results showed for states/territories with higher numbers of daily cases, the historical trends in search queries related to bars and restaurants, which mainly happened after re-opening, significantly affect the daily new cases, on average. California, for example, had most searches for restaurants on June 7th, 2020, which affected the number of new cases within two weeks after the peak with the P-value of .004 for Granger's causality test. Although a limited number of search queries were considered, Google search trends for restaurants and bars showed a significant effect on daily new cases for regions with higher numbers of daily new cases in the United States. We showed that such influential search trends could be used as additional information for prediction tasks in new cases of each region. This prediction can help healthcare leaders manage and control the impact of COVID-19 outbreaks on society and be prepared for the outcomes.
翻訳日:2022-11-06 11:46:36 公開日:2020-07-27
# 生成型adversarial networkを用いた音声強調における音声フィンガープリント機能の利用について

On the Use of Audio Fingerprinting Features for Speech Enhancement with Generative Adversarial Network ( http://arxiv.org/abs/2007.13258v1 )

ライセンス: Link先を確認
Farnood Faraji, Yazid Attabi, Benoit Champagne and Wei-Ping Zhu(参考訳) 音声強調における学習に基づく手法の出現により、音声信号のコンパクトな表現が可能な堅牢で信頼性の高い訓練機能の必要性が復活した。 短周期フーリエ変換(STFT)やMel-Frequency Cepstral Coefficients(MFCC)のような時間周波数領域の特徴は、多くのアプローチで好まれる。 MFCCはコンパクトな表現を提供するが、各メルスケールサブバンドのエネルギーのダイナミクスと分布を無視する。 本研究では,MFCC から得られた音声フィンガープリンティング (AFP) 機能と正規化スペクトルサブバンド・セントロイド (NSSC) を組み合わせたGAN(Generative Adversarial Network) に基づく音声強調システムを実装し,実験を行った。 NSSCは音声フォルマントの位置を捉え、重要な方法でMFCCを補完する。 多様な話者とノイズタイプを用いた実験では、提案したAFP機能の組み合わせによるGANに基づく音声強調は、メモリ要求とトレーニング時間を削減するとともに、最高の目標性能を達成する。

The advent of learning-based methods in speech enhancement has revived the need for robust and reliable training features that can compactly represent speech signals while preserving their vital information. Time-frequency domain features, such as the Short-Term Fourier Transform (STFT) and Mel-Frequency Cepstral Coefficients (MFCC), are preferred in many approaches. While the MFCC provide for a compact representation, they ignore the dynamics and distribution of energy in each mel-scale subband. In this work, a speech enhancement system based on Generative Adversarial Network (GAN) is implemented and tested with a combination of Audio FingerPrinting (AFP) features obtained from the MFCC and the Normalized Spectral Subband Centroids (NSSC). The NSSC capture the locations of speech formants and complement the MFCC in a crucial way. In experiments with diverse speakers and noise types, GAN-based speech enhancement with the proposed AFP feature combination achieves the best objective performance while reducing memory requirements and training time.
翻訳日:2022-11-06 11:46:06 公開日:2020-07-27
# インド政治音声における感情内容の分析

Analysis of Emotional Content in Indian Political Speeches ( http://arxiv.org/abs/2007.13325v1 )

ライセンス: Link先を確認
Sharu Goel, Sandeep Kumar Pandey, Hanumant Singh Shekhawat(参考訳) 感情は公の場で重要な役割を果たす。 言葉の感情的内容は心に影響を及ぼす力を持っている。 そこで我々は,インドの政治シナリオにおける政治家演説の感情内容の分析を行った。 cnn+lstmネットワークを用いた政治家のスピーチにおける感情コンテンツの検討を行った。 インドの政治家8人のデータセットに関する実験的な評価は、政治家が演説に感情を組み込んで大衆に響く様子を示している。 また, 当選率と, 政治家の発言における感情的内容との関係について, 投票シェアの分析を行った。

Emotions play an essential role in public speaking. The emotional content of speech has the power to influence minds. As such, we present an analysis of the emotional content of politicians speech in the Indian political scenario. We investigate the emotional content present in the speeches of politicians using an Attention based CNN+LSTM network. Experimental evaluations on a dataset of eight Indian politicians shows how politicians incorporate emotions in their speeches to strike a chord with the masses. An analysis of the voting share received along with victory margin and their relation to emotional content in speech of the politicians is also presented.
翻訳日:2022-11-06 11:45:48 公開日:2020-07-27
# Sigfox対応IoTデバイスにおける水質予測--WaterSの先駆けとして

Water Quality Prediction on a Sigfox-compliant IoT Device: The Road Ahead of WaterS ( http://arxiv.org/abs/2007.13436v1 )

ライセンス: Link先を確認
Pietro Boccadoro, Vitanio Daniele, Pietro Di Gennaro, Domenico Lof\`u, Pietro Tedeschi(参考訳) 水質汚染は人間の健康や生態系全体に影響を与える重要な問題であり、経済的・社会的懸念を引き起こす。 本稿では,低電力広域ネットワーク技術を活用して収集した計測データを遠隔で通信する,モノのインターネット(Internet of Things)の水質予測システムであるWaterSに着目した。 このソリューションは、プラットフォームが太陽電池を備えているため、エネルギー効率や自律性といった特異なモノのインターネットの制約を考慮して、水質問題に対処する。 私たちのソリューションの基盤には、時系列予測に使用されるLong Short-Term Memory Recurrent Neural Networkがあります。 その結果、ph、導電率、酸素、温度などの水質パラメータを予測する効率的な解決策となる。 この研究にかかわる水質パラメーターは、2007年から2012年までの基準時間で、Tiziano Projectのデータセットとして参照される。 水質パラメータの予測に用いたlstmは, 精度が高く, 低平均絶対誤差0.20, 平均2乗誤差0.092, 最終的にコサイン近接0.94が得られる。 得られた結果は,大規模デプロイメントに向けた現在のアーキテクチャのプロトコル適合性とネットワーク拡張性の観点から広く分析された。 ネットワークの観点から見ると、Sigfoxを起動するエンドデバイスの増加に伴い、Packet Error Rateは最大4%まで増加し、デプロイメントは最大になる。 最後に、ウォーターズのエコシステムのソースコードがオープンソースとしてリリースされ、産業とアカデミアの両方からの研究活動を奨励し、促進している。

Water pollution is a critical issue that can affects humans' health and the entire ecosystem thus inducing economical and social concerns. In this paper, we focus on an Internet of Things water quality prediction system, namely WaterS, that can remotely communicate the gathered measurements leveraging Low-Power Wide Area Network technologies. The solution addresses the water pollution problem while taking into account the peculiar Internet of Things constraints such as energy efficiency and autonomy as the platform is equipped with a photovoltaic cell. At the base of our solution, there is a Long Short-Term Memory recurrent neural network used for time series prediction. It results as an efficient solution to predict water quality parameters such as pH, conductivity, oxygen, and temperature. The water quality parameters measurements involved in this work are referred to the Tiziano Project dataset in a reference time period spanning from 2007 to 2012. The LSTM applied to predict the water quality parameters achieves high accuracy and a low Mean Absolute Error of 0.20, a Mean Square Error of 0.092, and finally a Cosine Proximity of 0.94. The obtained results were widely analyzed in terms of protocol suitability and network scalability of the current architecture towards large-scale deployments. From a networking perspective, with an increasing number of Sigfox-enabling end-devices, the Packet Error Rate increases as well up to 4% with the largest envisioned deployment. Finally, the source code of WaterS ecosystem has been released as open-source, to encourage and promote research activities from both Industry and Academia.
翻訳日:2022-11-06 11:39:12 公開日:2020-07-27
# グラフベース直視ゴール生成による複雑なロボットマニピュレーション

Complex Robotic Manipulation via Graph-Based Hindsight Goal Generation ( http://arxiv.org/abs/2007.13486v1 )

ライセンス: Link先を確認
Zhenshan Bing and Matthias Brucker and Fabrice O. Morin and Kai Huang and Alois Knoll(参考訳) hindsight experience replay(her)やhindsight goal generation(hgg)といった強化学習アルゴリズムは、少ない報酬でマルチゴール設定でのロボット操作の課題を解決することができた。 HERは、過去の経験をヒューリスティックな目標で後からリプレイすることで、トレーニングの成功を達成するが、目標の探索が難しい課題では不十分である。 HGGは短期的には達成し易い中間目標を選択し、長期的に目標を達成することを約束することでHERを強化する。 このガイド付き探索によってhggは、目標目標がオブジェクトの初期位置から遠く離れているタスクに適用できる。 しかし、hggに使用されるユークリッド計量は、そのような環境では正確な距離計量ではないため、障害のある操作タスクには適用できない。 本稿では,環境の離散表現である障害物回避グラフにおいて,最短距離に基づく後進目標選択hggの拡張であるg-hgg(graph-based hindsight goal generation)を提案する。 G-HGGを障害のある4つの課題に対して評価し,HGGとHERに対して,サンプル効率と総合的な成功率の両方に大きな改善が見られた。 ビデオはhttps://sites.google.com/view/demos-g-hgg/で見ることができる。

Reinforcement learning algorithms such as hindsight experience replay (HER) and hindsight goal generation (HGG) have been able to solve challenging robotic manipulation tasks in multi-goal settings with sparse rewards. HER achieves its training success through hindsight replays of past experience with heuristic goals, but under-performs in challenging tasks in which goals are difficult to explore. HGG enhances HER by selecting intermediate goals that are easy to achieve in the short term and promising to lead to target goals in the long term. This guided exploration makes HGG applicable to tasks in which target goals are far away from the object's initial position. However, HGG is not applicable to manipulation tasks with obstacles because the euclidean metric used for HGG is not an accurate distance metric in such environments. In this paper, we propose graph-based hindsight goal generation (G-HGG), an extension of HGG selecting hindsight goals based on shortest distances in an obstacle-avoiding graph, which is a discrete representation of the environment. We evaluated G-HGG on four challenging manipulation tasks with obstacles, where significant enhancements in both sample efficiency and overall success rate are shown over HGG and HER. Videos can be viewed at https://sites.google.com/view/demos-g-hgg/.
翻訳日:2022-11-06 11:38:50 公開日:2020-07-27
# 物体検出による無線アクセス技術の特性評価

Radio Access Technology Characterisation Through Object Detection ( http://arxiv.org/abs/2007.13561v1 )

ライセンス: Link先を確認
Erika Fonseca, Joao F. Santos, Francisco Paisana, and Luiz A. DaSilva(参考訳) \ac{RAT}分類とモニタリングは、共有スペクトルにおける異なる通信システムの効率的な共存に不可欠である。 ライセンス免除帯域での操作を含む共有スペクトルは、 \ac{5g} 標準(例えば 3gpp rel. 16)で想定されている。 本稿では,スペクトル利用の特化と,それへの動的アクセスを容易にするための‘ac{ML} アプローチを提案する。 近年の \acp{CNN} の進歩により,スペクトルを画像として処理することで波形分類が可能となった。 モニタされた \acp{RAT} のクラスのみを提供する他の \ac{ML} メソッドとは対照的に,提案手法では,共有スペクトルにおいて異なる \acp{RAT} を認識できるだけでなく,オブジェクト検出と特徴抽出モジュールを用いて,フレーム間時間,フレーム間時間,中心周波数,信号帯域といった重要なパラメータを識別できる。 我々は, 商用トランスミッションのデータセットと, \ac{SDR}テストベッド環境を用いて, ソリューションの実装と評価を行った。 評価されたシナリオは、共有スペクトルにおけるWiFiおよびLTE伝送の共存である。 提案手法は,通常のユーザ通信の送信をキャプチャするデータセットから \acp{RAT} の分類において,96 %の精度を有することを示す。 また、抽出された特徴は画像の大きさの2\%の範囲内で正確に検出でき、広範囲の送電電力レベルと干渉条件下で94\%以上の物体を検出可能であることも示している。

\ac{RAT} classification and monitoring are essential for efficient coexistence of different communication systems in shared spectrum. Shared spectrum, including operation in license-exempt bands, is envisioned in the \ac{5G} standards (e.g., 3GPP Rel. 16). In this paper, we propose a \ac{ML} approach to characterise the spectrum utilisation and facilitate the dynamic access to it. Recent advances in \acp{CNN} enable us to perform waveform classification by processing spectrograms as images. In contrast to other \ac{ML} methods that can only provide the class of the monitored \acp{RAT}, the solution we propose can recognise not only different \acp{RAT} in shared spectrum, but also identify critical parameters such as inter-frame duration, frame duration, centre frequency, and signal bandwidth by using object detection and a feature extraction module to extract features from spectrograms. We have implemented and evaluated our solution using a dataset of commercial transmissions, as well as in a \ac{SDR} testbed environment. The scenario evaluated was the coexistence of WiFi and LTE transmissions in shared spectrum. Our results show that our approach has an accuracy of 96\% in the classification of \acp{RAT} from a dataset that captures transmissions of regular user communications. It also shows that the extracted features can be precise within a margin of 2\%, %of the size of the image, and is capable of detect above 94\% of objects under a broad range of transmission power levels and interference conditions.
翻訳日:2022-11-06 11:38:10 公開日:2020-07-27
# 深層学習におけるガウスマン接続

Deep Learning Gauss-Manin Connections ( http://arxiv.org/abs/2007.13786v1 )

ライセンス: Link先を確認
Kathryn Heal, Avinash Kulkarni, Emre Can Sert\"oz(参考訳) 超曲面の族におけるガウス・マニン結合は、族に沿った周期行列の変化を制御する。 この接続は、族を定義する方程式が単純に見えるときでも複雑である。 このような場合、ホモトピー継続を通じて族内の多様体の周期行列を計算するのは計算的に高価である。 我々は,超表面鉛筆のガウス・マニン接続の複雑さを迅速かつ確実に推測できるニューラルネットワークを訓練する。 応用として、定義方程式が5つの単項の和である射影3空間の滑らかな四面面の96%の周期を計算し、これらの四面面の周期から、それらのピカール数と超越格子の自己準同型場を抽出する。

The Gauss-Manin connection of a family of hypersurfaces governs the change of the period matrix along the family. This connection can be complicated even when the equations defining the family look simple. When this is the case, it is computationally expensive to compute the period matrices of varieties in the family via homotopy continuation. We train neural networks that can quickly and reliably guess the complexity of the Gauss-Manin connection of a pencil of hypersurfaces. As an application, we compute the periods of 96% of smooth quartic surfaces in projective 3-space whose defining equation is a sum of five monomials; from the periods of these quartic surfaces, we extract their Picard numbers and the endomorphism fields of their transcendental lattices.
翻訳日:2022-11-06 11:37:00 公開日:2020-07-27
# HPCシステムにおけるオンライン故障分類への機械学習アプローチ

A Machine Learning Approach to Online Fault Classification in HPC Systems ( http://arxiv.org/abs/2007.14241v1 )

ライセンス: Link先を確認
Alessio Netti, Zeynep Kiziltan, Ozalp Babaoglu, Alina Sirbu, Andrea Bartolini, Andrea Borghesi(参考訳) HPC(High-Performance Computing)システムが大規模目標に向かっているため、ハードウェアとソフトウェアレベルでの障害率は大幅に増加する。 したがって、HPCシステムにおける障害の発生を検知し分類し、障害に変換する前に修正動作を開始することは、継続的な操作に不可欠である。 この目的の中心はフォールトインジェクションであり、システム内の障害を意図的に引き起こし、制御された環境でその挙動を観察することである。 本稿では,機械学習に基づくHPCシステムの故障分類手法を提案する。 当社のアプローチの目新しさは,ストリーミングデータをオンライン形式で操作できる点にある。これにより,ターゲットシステム上でリアルタイムに制御アクションを考案し,実施する可能性を開くことができる。 我々はFINJと呼ばれる高レベルかつ使いやすい断層注入ツールを導入し、複雑な実験の管理に重点を置いている。 機械学習分類器を訓練し評価するために、FINJを用いて社内実験HPCシステムに障害を注入し、広範囲に記述した障害データセットを生成する。 FINJとデータセットはいずれも、HPCシステム分野におけるレジリエンス研究を促進するために公開されている。 実験の結果, 計算オーバーヘッドが低く遅延の少ない異なる故障タイプに対して, ほぼ完璧に分類できることがわかった。

As High-Performance Computing (HPC) systems strive towards the exascale goal, failure rates both at the hardware and software levels will increase significantly. Thus, detecting and classifying faults in HPC systems as they occur and initiating corrective actions before they can transform into failures becomes essential for continued operation. Central to this objective is fault injection, which is the deliberate triggering of faults in a system so as to observe their behavior in a controlled environment. In this paper, we propose a fault classification method for HPC systems based on machine learning. The novelty of our approach rests with the fact that it can be operated on streamed data in an online manner, thus opening the possibility to devise and enact control actions on the target system in real-time. We introduce a high-level, easy-to-use fault injection tool called FINJ, with a focus on the management of complex experiments. In order to train and evaluate our machine learning classifiers, we inject faults to an in-house experimental HPC system using FINJ, and generate a fault dataset which we describe extensively. Both FINJ and the dataset are publicly available to facilitate resiliency research in the HPC systems field. Experimental results demonstrate that our approach allows almost perfect classification accuracy to be reached for different fault types with low computational overhead and minimal delay.
翻訳日:2022-11-06 11:36:34 公開日:2020-07-27
# 眼底画像を用いた糖尿病網膜症自動検出のための先行技術

Learned Pre-Processing for Automatic Diabetic Retinopathy Detection on Eye Fundus Images ( http://arxiv.org/abs/2007.13838v1 )

ライセンス: Link先を確認
Asim Smailagic and Anupma Sharan and Pedro Costa and Adrian Galdran and Alex Gaudio and Aur\'elio Campilho(参考訳) 糖尿病網膜症は、世界の労働年齢層において盲目の主な原因である。 本研究の目的は,眼底画像から陰影除去および色補正ステップを前処理段階として実装することにより,糖尿病網膜症検出の精度を向上させることである。 このため,反転強度領域への画像デハジングの適用が照明補償に寄与することを示す最近の知見に依拠する。 この研究に触発されて、我々は特定のタスクの事前処理関数を学習できるシャドウ除去層を提案する。 糖尿病網膜症検出タスクにおいて,前処理関数の学習によりネットワークの性能が向上することを示す。

Diabetic Retinopathy is the leading cause of blindness in the working-age population of the world. The main aim of this paper is to improve the accuracy of Diabetic Retinopathy detection by implementing a shadow removal and color correction step as a preprocessing stage from eye fundus images. For this, we rely on recent findings indicating that application of image dehazing on the inverted intensity domain amounts to illumination compensation. Inspired by this work, we propose a Shadow Removal Layer that allows us to learn the pre-processing function for a particular task. We show that learning the pre-processing function improves the performance of the network on the Diabetic Retinopathy detection task.
翻訳日:2022-11-06 09:14:34 公開日:2020-07-27
# 糖尿病網膜症に対するadversarial learningを用いた病変分節の改善

Improving Lesion Segmentation for Diabetic Retinopathy using Adversarial Learning ( http://arxiv.org/abs/2007.13854v1 )

ライセンス: Link先を確認
Qiqi Xiao and Jiaxu Zou and Muqiao Yang and Alex Gaudio and Kris Kitani and Asim Smailagic and Pedro Costa and Min Xu(参考訳) 糖尿病網膜症(dr)は、成人の視覚障害の主要な原因である。 dr病変は眼底画像の同定に困難であり, dr自動検出システムは強い臨床価値をもたらす可能性がある。 インド糖尿病網膜症画像データセット(IDRiD)は、DR用の公表されたデータセットのうち、微小動脈瘤、出血、軟口蓋、硬口蓋の4つの異なる病変のピクセルレベルのアノテーションで網膜基底像を提示する。 我々は,HEDNetエッジ検出器を用いて,このデータセットのセマンティックセマンティックセマンティクスタスクを解くとともに,HEDNetを条件生成逆数ネットワーク(cGAN)に組み込むことで,DR病変のピクセルレベルセマンティクスのエンドツーエンドシステムを提案する。 セグメント化損失に逆損失を加える損失関数を設計する。 本実験は, 対向損失の付加により, 基線上の病変のセグメンテーション性能が向上することを示した。

Diabetic Retinopathy (DR) is a leading cause of blindness in working age adults. DR lesions can be challenging to identify in fundus images, and automatic DR detection systems can offer strong clinical value. Of the publicly available labeled datasets for DR, the Indian Diabetic Retinopathy Image Dataset (IDRiD) presents retinal fundus images with pixel-level annotations of four distinct lesions: microaneurysms, hemorrhages, soft exudates and hard exudates. We utilize the HEDNet edge detector to solve a semantic segmentation task on this dataset, and then propose an end-to-end system for pixel-level segmentation of DR lesions by incorporating HEDNet into a Conditional Generative Adversarial Network (cGAN). We design a loss function that adds adversarial loss to segmentation loss. Our experiments show that the addition of the adversarial loss improves the lesion segmentation performance over the baseline.
翻訳日:2022-11-06 09:14:24 公開日:2020-07-27
# 自動運転車における信頼の構築:HMI設計における仮想現実駆動シミュレータの役割

Building Trust in Autonomous Vehicles: Role of Virtual Reality Driving Simulators in HMI Design ( http://arxiv.org/abs/2007.13371v1 )

ライセンス: Link先を確認
Lia Morra, Fabrizio Lamberti, F. Gabriele Prattic\'o, Salvatore La Rosa, Paolo Montuschi(参考訳) 人間に自律走行車(AV)を信頼させる要因の調査は、そのような技術の採用に基本的な役割を果たす。 信頼を確立するために不可欠であるAVのメンタルモデルを形成する能力は、効果的なユーザ・車間通信に依存しているため、ヒューマン・マシン・インタラクション(HMI)の重要性が高まっている。 本研究では,仮想現実感に基づく運転シミュレーションに没頭しながら,生理的信号から収集した連続的客観的情報に基づいて,AVのユーザエクスペリエンスを検証する手法を提案する。 この手法をヘッドアップディスプレイインタフェースの設計に適用し,車両の感覚・計画システムに関する視覚的な手がかりを提供する。 このアプローチにより、認知負荷が高いにもかかわらず、車両の周囲の全体像がストレスの少ない体験に導かれるという質的、定量的な証拠を得た。 さらに、より情報的なインターフェースに晒された後、研究に携わるユーザは、実際のAVをテストする意思も高かった。 提案手法は、シミュレーション環境、HMIおよび/または車両の人工知能モジュールを調整し、ユーザー体験の他の側面を掘り下げることで拡張することができる。

The investigation of factors contributing at making humans trust Autonomous Vehicles (AVs) will play a fundamental role in the adoption of such technology. The user's ability to form a mental model of the AV, which is crucial to establish trust, depends on effective user-vehicle communication; thus, the importance of Human-Machine Interaction (HMI) is poised to increase. In this work, we propose a methodology to validate the user experience in AVs based on continuous, objective information gathered from physiological signals, while the user is immersed in a Virtual Reality-based driving simulation. We applied this methodology to the design of a head-up display interface delivering visual cues about the vehicle' sensory and planning systems. Through this approach, we obtained qualitative and quantitative evidence that a complete picture of the vehicle's surrounding, despite the higher cognitive load, is conducive to a less stressful experience. Moreover, after having been exposed to a more informative interface, users involved in the study were also more willing to test a real AV. The proposed methodology could be extended by adjusting the simulation environment, the HMI and/or the vehicle's Artificial Intelligence modules to dig into other aspects of the user experience.
翻訳日:2022-11-06 09:14:07 公開日:2020-07-27
# クラウドコンピューティングとエッジコンピューティングにおける計算インテリジェンス技術に関するレビュー

A Review on Computational Intelligence Techniques in Cloud and Edge Computing ( http://arxiv.org/abs/2007.14215v1 )

ライセンス: Link先を確認
Muhammad Asim, Yong Wang, Kezhi Wang, and Pei-Qiu Huang(参考訳) クラウドコンピューティング(CC)は中央集権的なコンピューティングパラダイムであり、リソースを集中的に蓄積し、インターネットを通じてユーザに提供する。 CCは大量のリソースを持っているが、通常は地理的にユーザから遠く離れているため、リアルタイムのモバイルアプリケーションでは受け入れられないかもしれない。 一方で、リソースをネットワークエッジに分散するエッジコンピューティング(ec)は、低レイテンシと高信頼性要件を備えたアプリケーションで人気が高まっている。 ECはリソースを分散的に提供し、通常のCCよりも高速にユーザの要求に応答できるが、計算能力は限られている。 CCとECの両方がリソースに敏感であるため、ジョブスケジューリングの実施方法、リソース割り当て、タスクオフロードなど、システム全体のパフォーマンスに大きな影響を及ぼすいくつかの大きな問題が発生する。 これらの問題に対処するため、多くの最適化問題が定式化されている。 これらの最適化問題は通常、非凸性やnp硬度のような複雑な性質を持ち、従来の凸最適化に基づく解では対処できない。 計算インテリジェンス(CI)は自然に着想を得た計算手法の集合から成り、最近CCとECでこれらの最適化問題に対処する大きな可能性を示している。 本稿では、CCとECにおける研究課題の概要と、CI技術を用いてそれらに取り組むための最近の進歩について述べる。 インフォーマティブな議論や今後の研究動向も紹介され、読者に洞察を提供し、新たな研究方向性を動機付けることを目的としている。

Cloud computing (CC) is a centralized computing paradigm that accumulates resources centrally and provides these resources to users through Internet. Although CC holds a large number of resources, it may not be acceptable by real-time mobile applications, as it is usually far away from users geographically. On the other hand, edge computing (EC), which distributes resources to the network edge, enjoys increasing popularity in the applications with low-latency and high-reliability requirements. EC provides resources in a decentralized manner, which can respond to users' requirements faster than the normal CC, but with limited computing capacities. As both CC and EC are resource-sensitive, several big issues arise, such as how to conduct job scheduling, resource allocation, and task offloading, which significantly influence the performance of the whole system. To tackle these issues, many optimization problems have been formulated. These optimization problems usually have complex properties, such as non-convexity and NP-hardness, which may not be addressed by the traditional convex optimization-based solutions. Computational intelligence (CI), consisting of a set of nature-inspired computational approaches, recently exhibits great potential in addressing these optimization problems in CC and EC. This paper provides an overview of research problems in CC and EC and recent progresses in addressing them with the help of CI techniques. Informative discussions and future research trends are also presented, with the aim of offering insights to the readers and motivating new research directions.
翻訳日:2022-11-06 09:13:48 公開日:2020-07-27
# 潜在不明勧告

Latent Unexpected Recommendations ( http://arxiv.org/abs/2007.13280v1 )

ライセンス: Link先を確認
Pan Li and Alexander Tuzhilin(参考訳) 望ましくないレコメンデーションシステムは,フィルタバブルとユーザ退屈の問題に対処するための重要なツールであり,同時にユーザに対して予期せぬ,満足のいくレコメンデーションを提供することを目的としている。 従来の予期せぬ推奨方法は、機能空間における予期せぬ動作をモデル化することで、現在のレコメンデーションとユーザの期待値との直接的な関係にのみ焦点をあてる。 従来のモデルとは対照的に、ユーザとアイテムの埋め込みの潜在空間における予期せぬ可能性をモデル化し、新しいレコメンデーションと歴史的購入の間の隠れた複雑な関係を捉えることを提案する。 さらに,ハイブリッドユーティリティ関数を構築するための新しい潜在クロージャ(lc)手法を開発し,提案モデルに基づく予期せぬレコメンデーションを提供する。 3つの実世界のデータセットに対する大規模な実験は、最先端の予期せぬレコメンデーションモデルよりも提案手法の方が優れていることを示している。

Unexpected recommender system constitutes an important tool to tackle the problem of filter bubbles and user boredom, which aims at providing unexpected and satisfying recommendations to target users at the same time. Previous unexpected recommendation methods only focus on the straightforward relations between current recommendations and user expectations by modeling unexpectedness in the feature space, thus resulting in the loss of accuracy measures in order to improve unexpectedness performance. Contrast to these prior models, we propose to model unexpectedness in the latent space of user and item embeddings, which allows to capture hidden and complex relations between new recommendations and historic purchases. In addition, we develop a novel Latent Closure (LC) method to construct hybrid utility function and provide unexpected recommendations based on the proposed model. Extensive experiments on three real-world datasets illustrate superiority of our proposed approach over the state-of-the-art unexpected recommendation models, which leads to significant increase in unexpectedness measure without sacrificing any accuracy metric under all experimental settings in this paper.
翻訳日:2022-11-06 09:12:51 公開日:2020-07-27
# 音楽聴取・味覚に基づくコールドスタート用ポッドキャストの推薦

Recommending Podcasts for Cold-Start Users Based on Music Listening and Taste ( http://arxiv.org/abs/2007.13287v1 )

ライセンス: Link先を確認
Zahra Nazari, Christophe Charbuillet, Johan Pages, Martin Laurent, Denis Charrier, Briana Vecchione, Ben Carterette(参考訳) リコメンダシステムは、ユーザの好みに合わせてコンテンツを予測し提供するためにますます使われていますが、新しいユーザーと関連するコンテンツとをマッチングするタスクは依然として課題です。 我々は,ポッドキャストが急速に普及する新興メディアであると考え,コールドスタート問題に対処するために従来のレコメンデーションアプローチを適用する際に生じる課題について論じる。 音楽消費行動を用いて,Spotify利用者の好みを推定する2つの主要な手法を検討した。 その結果,オフラインおよびオンライン両方の実験において,最大50%の消費改善が見られた。 モデル性能の広範囲な分析を行い,音楽データを入力源として,推薦にバイアスを生じさせる程度について検討する。

Recommender systems are increasingly used to predict and serve content that aligns with user taste, yet the task of matching new users with relevant content remains a challenge. We consider podcasting to be an emerging medium with rapid growth in adoption, and discuss challenges that arise when applying traditional recommendation approaches to address the cold-start problem. Using music consumption behavior, we examine two main techniques in inferring Spotify users preferences over more than 200k podcasts. Our results show significant improvements in consumption of up to 50\% for both offline and online experiments. We provide extensive analysis on model performance and examine the degree to which music data as an input source introduces bias in recommendations.
翻訳日:2022-11-06 09:12:30 公開日:2020-07-27
# ミリ波MIMOシステムのための強化ビームアライメント:コルモゴロフモデル

Enhanced Beam Alignment for Millimeter Wave MIMO Systems: A Kolmogorov Model ( http://arxiv.org/abs/2007.13299v1 )

ライセンス: Link先を確認
Qiyou Duan, Taejoon Kim, Hadi Ghauch(参考訳) 本稿では,従来ビームアライメント問題に適用されていたkolmogorov model (km) と呼ばれる機械学習に基づく基準の修正に基づいて,ミリ波多重入力多重出力 (mimo) システムにおけるビームアライメント問題を改善する。 計算複雑性が問題の大きさにスケーラブルでない従来のKMとは異なり、離散単調最適化(DMO)を中心とした新しい手法が提案され、計算複雑性が大幅に減少する。 また,従来のkmで開発された周波数推定法に比べ,主観的なしきい値設定を必要としない,高度な仮説検定のためのkolmogorov-smirnov (ks) 基準を提案する。 ミリ波ビームアライメントにおけるKM学習の有効性を示すシミュレーション結果を示す。

We present an enhancement to the problem of beam alignment in millimeter wave (mmWave) multiple-input multiple-output (MIMO) systems, based on a modification of the machine learning-based criterion, called Kolmogorov model (KM), previously applied to the beam alignment problem. Unlike the previous KM, whose computational complexity is not scalable with the size of the problem, a new approach, centered on discrete monotonic optimization (DMO), is proposed, leading to significantly reduced complexity. We also present a Kolmogorov-Smirnov (KS) criterion for the advanced hypothesis testing, which does not require any subjective threshold setting compared to the frequency estimation (FE) method developed for the conventional KM. Simulation results that demonstrate the efficacy of the proposed KM learning for mmWave beam alignment are presented.
翻訳日:2022-11-06 09:12:17 公開日:2020-07-27
# 太陽エネルギーに対する公的な感性:トランスフォーマーに基づく言語モデルを用いたTwitterのオピニオンマイニング

Public Sentiment Toward Solar Energy: Opinion Mining of Twitter Using a Transformer-Based Language Model ( http://arxiv.org/abs/2007.13306v1 )

ライセンス: Link先を確認
Serena Y. Kim, Koushik Ganesan, Princess Dickens, and Soumya Panda(参考訳) 再生可能エネルギーの公的受容と支援は再生可能エネルギー政策と市場条件の重要な決定要因である。 本稿では、ツイートと呼ばれるメッセージを投稿するマイクロブログプラットフォームであるtwitterのデータを用いて、米国におけるソーラーエネルギーに対する世論調査を行う。 太陽エネルギーに特化したツイートをフィルタリングし,ロバストに最適化された双方向エンコーダ表現(RoBERTa)を用いて分類タスクを行った。 1月下旬から2020年7月上旬の71,262ツイートを分析してみると、国民の感情は州によって大きく異なる。 研究期間内で、アメリカ合衆国北東部は南部地域よりも太陽エネルギーに対する肯定的な感情を示している。 太陽放射は、太陽の感情の変化とは関係がない。 また、太陽に対する大衆の感情は再生可能エネルギー政策や市場状況、特に再生可能ポートフォリオ標準(RPS)の目標、顧客フレンドリーなネットメータリング政策、成熟したソーラー市場と相関している。

Public acceptance and support for renewable energy are important determinants of renewable energy policies and market conditions. This paper examines public sentiment toward solar energy in the United States using data from Twitter, a micro-blogging platform in which people post messages, known as tweets. We filtered tweets specific to solar energy and performed a classification task using Robustly optimized Bidirectional Encoder Representations from Transformers (RoBERTa). Analyzing 71,262 tweets during the period of late January to early July 2020, we find public sentiment varies significantly across states. Within the study period, the Northeastern U.S. region shows more positive sentiment toward solar energy than did the Southern U.S. region. Solar radiation does not correlate to variation in solar sentiment across states. We also find that public sentiment toward solar correlates to renewable energy policy and market conditions, specifically, Renewable Portfolio Standards (RPS) targets, customer-friendly net metering policies, and a mature solar market.
翻訳日:2022-11-06 09:06:03 公開日:2020-07-27
# NAYEL at SemEval-2020 Task 12: TF/IDF-based Approach for Automatic Offensive Language Detection in Arabic Tweets (英語)

NAYEL at SemEval-2020 Task 12: TF/IDF-Based Approach for Automatic Offensive Language Detection in Arabic Tweets ( http://arxiv.org/abs/2007.13339v1 )

ライセンス: Link先を確認
Hamada A. Nayel(参考訳) 本稿では,SemEval-2020 Task 12に提出されたシステムについて述べる。 提案システムは,アラビア語のつぶやきにおける攻撃言語を自動的に識別することを目的としている。 機械学習に基づくアプローチがシステムの設計に使われてきた。 最適化アルゴリズムとしてSGD(Stochastic Gradient Descent)を用いた線形分類器を実装した。 我々のモデルは開発セットとテストセットでそれぞれ84.20%、f1-scoreが81.82%であった。 最上位のシステムと最下位のシステムはそれぞれテストセット上で90.17%と44.51%のf1-scoreであった。

In this paper, we present the system submitted to "SemEval-2020 Task 12". The proposed system aims at automatically identify the Offensive Language in Arabic Tweets. A machine learning based approach has been used to design our system. We implemented a linear classifier with Stochastic Gradient Descent (SGD) as optimization algorithm. Our model reported 84.20%, 81.82% f1-score on development set and test set respectively. The best performed system and the system in the last rank reported 90.17% and 44.51% f1-score on test set respectively.
翻訳日:2022-11-06 09:05:46 公開日:2020-07-27
# 深部学習ニューラルネットワークを用いた学習用紙の大規模カテゴリー分類

Large Scale Subject Category Classification of Scholarly Papers with Deep Attentive Neural Networks ( http://arxiv.org/abs/2007.13826v1 )

ライセンス: Link先を確認
Bharath Kandimalla, Shaurya Rohatgi, Jian Wu and C Lee Giles(参考訳) 学術論文の主題分類は一般に、その論文が属する知識領域(例えばコンピュータ科学や物理学)を指す。 主題カテゴリ情報は、デジタル図書館検索エンジンのファセット検索の構築に使用できる。 これにより、ユーザーは関連文書の検索スペースを狭めるのに大いに役立つ。 残念ながら、多くの学術論文はメタデータの一部としてそのような情報を持っていない。 このタスクを解く既存の方法は通常、しばしば引用ネットワークに依存する教師なし学習に焦点をあてる。 しかし、現在の論文を引用する論文の完全なリストは、すぐには入手できない。 特に、引用がほとんど、あるいは全くない新しい論文は、そのような方法で分類できない。 本稿では,学術論文を要約のみを用いて分類するディープ注意ニューラルネットワーク(DANN)を提案する。 このネットワークは、Web of Science (WoS)から900万の抽象化を使って訓練されている。 また、104のサブジェクトカテゴリをカバーするwosスキーマも使用しています。 提案するネットワークは2つの双方向リカレントニューラルネットワークとアテンション層から構成される。 私たちは、アーキテクチャとテキスト表現を変化させて、モデルとベースラインを比較します。 最適モデルでは,0.50~0.95の範囲の個々の対象カテゴリーのF1に対して0.76のマイクロF1測定値が得られる。 その結果,語彙重なりと注意機構の有効性を最大化するために,単語埋め込みモデルの再学習の重要性が示された。 単語ベクトルとtfidfの組み合わせは、文字と文レベルの埋め込みモデルを上回る。 不均衡なサンプルと重複するカテゴリについて議論し、緩和戦略を提案する。 また,100万の学術論文のランダム標本を分類することにより,CiteSeerXのカテゴリ分布を決定する。

Subject categories of scholarly papers generally refer to the knowledge domain(s) to which the papers belong, examples being computer science or physics. Subject category information can be used for building faceted search for digital library search engines. This can significantly assist users in narrowing down their search space of relevant documents. Unfortunately, many academic papers do not have such information as part of their metadata. Existing methods for solving this task usually focus on unsupervised learning that often relies on citation networks. However, a complete list of papers citing the current paper may not be readily available. In particular, new papers that have few or no citations cannot be classified using such methods. Here, we propose a deep attentive neural network (DANN) that classifies scholarly papers using only their abstracts. The network is trained using 9 million abstracts from Web of Science (WoS). We also use the WoS schema that covers 104 subject categories. The proposed network consists of two bi-directional recurrent neural networks followed by an attention layer. We compare our model against baselines by varying the architecture and text representation. Our best model achieves micro-F1 measure of 0.76 with F1 of individual subject categories ranging from 0.50-0.95. The results showed the importance of retraining word embedding models to maximize the vocabulary overlap and the effectiveness of the attention mechanism. The combination of word vectors with TFIDF outperforms character and sentence level embedding models. We discuss imbalanced samples and overlapping categories and suggest possible strategies for mitigation. We also determine the subject category distribution in CiteSeerX by classifying a random sample of one million academic papers.
翻訳日:2022-11-06 09:05:39 公開日:2020-07-27
# インテリジェントプロセス自動化のための会話型デジタルアシスタント

A Conversational Digital Assistant for Intelligent Process Automation ( http://arxiv.org/abs/2007.13256v1 )

ライセンス: Link先を確認
Yara Rizk, Vatche Isahagian, Scott Boag, Yasaman Khazaeni, Merve Unuvar, Vinod Muthusamy, Rania Khalaf(参考訳) rpa(robotic process automation)は、ビジネスプロセスにおけるタスクを自動化するための主要な手法である。 バックエンドの自動化から離れ、RPAはユーザインターフェースのマウスクリックを自動化した。 しかし、ビジネスユーザへのアクセシビリティの欠如という多くの欠点は、高度に規制された産業において広く普及するのを妨げている。 本研究では対話型デジタルアシスタントの形式で対話型自動化について検討する。 ビジネスユーザは自然言語を使って、自動化ソリューションと対話し、カスタマイズできる。 このようなアシスタントを作成するこのフレームワークは、マルチエージェントオーケストレーションモデルと、RPAを含む自律エージェントのための会話ラッパーに依存している。 ローン承認事業プロセスと旅行先承認事業プロセスにおける提案手法の有効性を実証する。

Robotic process automation (RPA) has emerged as the leading approach to automate tasks in business processes. Moving away from back-end automation, RPA automated the mouse-click on user interfaces; this outside-in approach reduced the overhead of updating legacy software. However, its many shortcomings, namely its lack of accessibility to business users, have prevented its widespread adoption in highly regulated industries. In this work, we explore interactive automation in the form of a conversational digital assistant. It allows business users to interact with and customize their automation solutions through natural language. The framework, which creates such assistants, relies on a multi-agent orchestration model and conversational wrappers for autonomous agents including RPAs. We demonstrate the effectiveness of our proposed approach on a loan approval business process and a travel preapproval business process.
翻訳日:2022-11-06 09:05:20 公開日:2020-07-27
# 弱教師付きセグメンテーションのための点対セット距離関数

Point-to-set distance functions for weakly supervised segmentation ( http://arxiv.org/abs/2007.13251v1 )

ライセンス: Link先を確認
Bas Peters(参考訳) セマンティックセグメンテーションのためにニューラルネットワークをトレーニングするためにピクセルレベルのマスクや部分アノテーションが利用できない場合、バウンディングボックスやイメージタグといった形で高レベル情報を使用することができる。 画像科学では、多くのアプリケーションはオブジェクト・バックグラウンド構造を持っておらず、バウンディングボックスは利用できない。 利用可能なアノテーションは通常、基底的真理やドメインの専門家から来ます。 マスクなしでトレーニングする直接の方法は、セグメンテーション内のオブジェクト/クラスのサイズに関する事前知識を使用することである。 本稿では,プロジェクションに基づくポイント・ツー・セット距離関数によって実装された,ネットワーク出力の制約による情報を含む新しいアルゴリズムを提案する。 このタイプの距離関数は常に微分の同じ機能形式を持ち、異なる制約にペナルティ関数を適用する必要がなく、また典型的には微分不可能な関数に関連付けられた制約性に関連する問題も避ける。 オブジェクトサイズ情報は、多くの一般的な画像と医用画像を含むデータセットのバウンディングボックスからオブジェクトのセグメンテーションを可能にすることが知られているが、単一の例であっても、データは間接的な測定を表す画像科学に拡張されている。 能力の例を示します a) 1つ以上のクラスにアノテーションがないこと b) まったく注釈がないこと。 c)バウンディングボックスがあります。 超分光時間経過イメージング、腐敗画像における物体分割、空中・地球リモートセンシングデータからの地表面帯水層マッピングにデータを用いる。 提案手法は, 様々な実験環境において, 非視覚的画像のアノテートが困難であることを示す。

When pixel-level masks or partial annotations are not available for training neural networks for semantic segmentation, it is possible to use higher-level information in the form of bounding boxes, or image tags. In the imaging sciences, many applications do not have an object-background structure and bounding boxes are not available. Any available annotation typically comes from ground truth or domain experts. A direct way to train without masks is using prior knowledge on the size of objects/classes in the segmentation. We present a new algorithm to include such information via constraints on the network output, implemented via projection-based point-to-set distance functions. This type of distance functions always has the same functional form of the derivative, and avoids the need to adapt penalty functions to different constraints, as well as issues related to constraining properties typically associated with non-differentiable functions. Whereas object size information is known to enable object segmentation from bounding boxes from datasets with many general and medical images, we show that the applications extend to the imaging sciences where data represents indirect measurements, even in the case of single examples. We illustrate the capabilities in case of a) one or more classes do not have any annotation; b) there is no annotation at all; c) there are bounding boxes. We use data for hyperspectral time-lapse imaging, object segmentation in corrupted images, and sub-surface aquifer mapping from airborne-geophysical remote-sensing data. The examples verify that the developed methodology alleviates difficulties with annotating non-visual imagery for a range of experimental settings.
翻訳日:2022-11-06 09:05:09 公開日:2020-07-27
# 点雲のジョイントインスタンスとセマンティックセグメンテーションの自己予測

Self-Prediction for Joint Instance and Semantic Segmentation of Point Clouds ( http://arxiv.org/abs/2007.13344v1 )

ライセンス: Link先を確認
Jinxian Liu, Minghui Yu, Bingbing Ni and Ye Chen(参考訳) 我々は,3次元のインスタンスと点雲のセマンティックセグメンテーションのための新たな学習手法であるSelf-Predictionを開発した。 畳み込み演算子の設計に焦点を絞った既存の手法とは違い,本手法はより優れたセグメンテーションを求める点関係を探索する新たな学習手法を設計する。 具体的には、点雲サンプルを2つの部分集合に分割し、それらの表現に基づいて完全なグラフを構築する。 次に、ラベル伝搬アルゴリズムを用いて、あるサブセットのラベルが与えられたときに、あるサブセットのラベルを予測する。 この自己予測タスクでトレーニングすることで、バックボーンネットワークは、関係コンテキスト/幾何/形状情報を完全に探索し、セグメンテーションのより識別的な特徴を学ぶことが制限される。 さらに,この自己予測スキームを備えた汎用フレームワークは,インスタンスと意味セグメンテーションを同時に強化するために設計され,インスタンスと意味表現を結合して自己予測を行う。 このように、インスタンスとセマンティクスのセグメンテーションは協調して強化される。 S3DISとShapeNetでは、ベースラインと比較して、インスタンスとセマンティックセグメンテーションのパフォーマンスが大幅に向上した。 提案手法は,S3DISとS3DISとShapeNetでは,PointNet++をバックボーンネットワークとみなすだけで,最先端のインスタンスセグメンテーション結果と同等のセグメンテーション結果が得られる。

We develop a novel learning scheme named Self-Prediction for 3D instance and semantic segmentation of point clouds. Distinct from most existing methods that focus on designing convolutional operators, our method designs a new learning scheme to enhance point relation exploring for better segmentation. More specifically, we divide a point cloud sample into two subsets and construct a complete graph based on their representations. Then we use label propagation algorithm to predict labels of one subset when given labels of the other subset. By training with this Self-Prediction task, the backbone network is constrained to fully explore relational context/geometric/shape information and learn more discriminative features for segmentation. Moreover, a general associated framework equipped with our Self-Prediction scheme is designed for enhancing instance and semantic segmentation simultaneously, where instance and semantic representations are combined to perform Self-Prediction. Through this way, instance and semantic segmentation are collaborated and mutually reinforced. Significant performance improvements on instance and semantic segmentation compared with baseline are achieved on S3DIS and ShapeNet. Our method achieves state-of-the-art instance segmentation results on S3DIS and comparable semantic segmentation results compared with state-of-the-arts on S3DIS and ShapeNet when we only take PointNet++ as the backbone network.
翻訳日:2022-11-06 09:03:54 公開日:2020-07-27
# WGANVO: 生成的対向ネットワークに基づく単眼視覚計測

WGANVO: Monocular Visual Odometry based on Generative Adversarial Networks ( http://arxiv.org/abs/2007.13704v1 )

ライセンス: Link先を確認
Javier Cremona, Lucas Uzal, Taih\'u Pire(参考訳) 本稿では,深層学習に基づく単眼視覚オドメトリ法であるwganvoを提案する。 特に、ニューラルネットワークは、画像対からポーズ推定を回帰するように訓練される。 トレーニングは半教師付きアプローチで実施される。 幾何学に基づく単眼法とは異なり,提案手法では事前知識も余分な情報も必要とせず,シーンの絶対スケールを復元することができる。 システム評価は、リアルタイムに動作することを示すKITTIデータセット上で行われ、得られた精度はディープラーニングベースの手法の開発を継続することを奨励している。

In this work we present WGANVO, a Deep Learning based monocular Visual Odometry method. In particular, a neural network is trained to regress a pose estimate from an image pair. The training is performed using a semi-supervised approach. Unlike geometry based monocular methods, the proposed method can recover the absolute scale of the scene without neither prior knowledge nor extra information. The evaluation of the system is carried out on the well-known KITTI dataset where it is shown to work in real time and the accuracy obtained is encouraging to continue the development of Deep Learning based methods.
翻訳日:2022-11-06 09:03:09 公開日:2020-07-27
# 運動予測のための学習レーングラフ表現

Learning Lane Graph Representations for Motion Forecasting ( http://arxiv.org/abs/2007.13732v1 )

ライセンス: Link先を確認
Ming Liang, Bin Yang, Rui Hu, Yun Chen, Renjie Liao, Song Feng, Raquel Urtasun(参考訳) 本稿では,新しい構造化マップ表現とアクター-マップ相互作用を利用する動き予測モデルを提案する。 ベクトル化された地図をラスタ画像として符号化する代わりに、生の地図データからレーングラフを構築し、地図構造を明示的に保存する。 レーングラフの複雑なトポロジーと長距離依存性を捉えるために,複数の隣接行列と共線拡張を用いたグラフ畳み込みを拡張するLaneGCNを提案する。 アクタとマップの複雑な相互作用を捉えるために,アクタ間相互作用,レーン間相互作用,レーン間相互作用,アクタ間相互作用,アクタ間相互作用という4種類の相互作用からなる融合ネットワークを利用する。 LaneGCNとアクターマップの相互作用によって、我々のモデルは正確でリアルなマルチモーダル軌道を予測できる。 このアプローチは,大規模argoverseモーション予測ベンチマークの最先端を著しく上回っている。

We propose a motion forecasting model that exploits a novel structured map representation as well as actor-map interactions. Instead of encoding vectorized maps as raster images, we construct a lane graph from raw map data to explicitly preserve the map structure. To capture the complex topology and long range dependencies of the lane graph, we propose LaneGCN which extends graph convolutions with multiple adjacency matrices and along-lane dilation. To capture the complex interactions between actors and maps, we exploit a fusion network consisting of four types of interactions, actor-to-lane, lane-to-lane, lane-to-actor and actor-to-actor. Powered by LaneGCN and actor-map interactions, our model is able to predict accurate and realistic multi-modal trajectories. Our approach significantly outperforms the state-of-the-art on the large scale Argoverse motion forecasting benchmark.
翻訳日:2022-11-06 08:57:17 公開日:2020-07-27
# アンカーフリー二段物体検出のためのコーナー提案ネットワーク

Corner Proposal Network for Anchor-free, Two-stage Object Detection ( http://arxiv.org/abs/2007.13816v1 )

ライセンス: Link先を確認
Kaiwen Duan, Lingxi Xie, Honggang Qi, Song Bai, Qingming Huang, Qi Tian(参考訳) オブジェクト検出の目標は、画像内のオブジェクトのクラスと位置を決定することである。 本稿では,新しいアンカーフリーな2段階フレームワークを提案する。まず,潜在的なコーナーキーポイントの組み合わせを見つけることで,多数のオブジェクト提案を抽出し,その後,各提案にクラスラベルを割り当てる。 これら2つのステージはそれぞれリコールと精度を改善する効果的なソリューションであり、エンドツーエンドネットワークに統合可能であることを実証する。 corner proposal network(cpn)と呼ばれるこのアプローチは,様々なスケールのオブジェクトを検出できると同時に,多数の偽陽性提案による混乱を回避する。 MS-COCOデータセットでは、CPNは49.2%のAPを達成しており、最先端のオブジェクト検出方法と競合する。 CPNは計算効率のシナリオにも適合し、APは26.2/43.3 FPSで41.6%/39.7%となり、同じ推論速度を持つほとんどの競合より優れている。 コードはhttps://github.com/Duankaiwen/CPNDetで入手できる。

The goal of object detection is to determine the class and location of objects in an image. This paper proposes a novel anchor-free, two-stage framework which first extracts a number of object proposals by finding potential corner keypoint combinations and then assigns a class label to each proposal by a standalone classification stage. We demonstrate that these two stages are effective solutions for improving recall and precision, respectively, and they can be integrated into an end-to-end network. Our approach, dubbed Corner Proposal Network (CPN), enjoys the ability to detect objects of various scales and also avoids being confused by a large number of false-positive proposals. On the MS-COCO dataset, CPN achieves an AP of 49.2% which is competitive among state-of-the-art object detection methods. CPN also fits the scenario of computational efficiency, which achieves an AP of 41.6%/39.7% at 26.2/43.3 FPS, surpassing most competitors with the same inference speed. Code is available at https://github.com/Duankaiwen/CPNDet
翻訳日:2022-11-06 08:57:01 公開日:2020-07-27
# 微粒ラベル学習による胸部X線レポート生成

Chest X-ray Report Generation through Fine-Grained Label Learning ( http://arxiv.org/abs/2007.13831v1 )

ライセンス: Link先を確認
Tanveer Syeda-Mahmood, Ken C. L. Wong, Yaniv Gur, Joy T. Wu, Ashutosh Jadhav, Satyananda Kashyap, Alexandros Karargyris, Anup Pillai, Arjun Sharma, Ali Bin Syed, Orest Boyko, Mehdi Moradi(参考訳) 胸部X線検査などの共通試験のための自動予備読影レポートの取得は、臨床ワークフローの迅速化と、病院の手術効率の向上につながる。 しかし,現在の自動アプローチによる報告の質は,画像所見の広い範囲の正確な検出や,側方性,解剖学的位置,重症度などの観点から正確な記述ができないため,まだ臨床的に受け入れられていない。 本研究では,画像から所見の詳細な記述を学習し,その発生パターンを用いて大規模レポートデータベースから類似報告を検索・カスタマイズする,領域認識型胸部x線x線レポート生成アルゴリズムを提案する。 また,このような記述子を画像に割り当てる自動ラベリングアルゴリズムを開発し,粗い情報と細かい情報の両方を認識する新しい深層学習ネットワークを構築する。 得られたレポート生成アルゴリズムは、確立されたスコアメトリクスを用いて、アートの状態を著しく上回る。

Obtaining automated preliminary read reports for common exams such as chest X-rays will expedite clinical workflows and improve operational efficiencies in hospitals. However, the quality of reports generated by current automated approaches is not yet clinically acceptable as they cannot ensure the correct detection of a broad spectrum of radiographic findings nor describe them accurately in terms of laterality, anatomical location, severity, etc. In this work, we present a domain-aware automatic chest X-ray radiology report generation algorithm that learns fine-grained description of findings from images and uses their pattern of occurrences to retrieve and customize similar reports from a large report database. We also develop an automatic labeling algorithm for assigning such descriptors to images and build a novel deep learning network that recognizes both coarse and fine-grained descriptions of findings. The resulting report generation algorithm significantly outperforms the state of the art using established score metrics.
翻訳日:2022-11-06 08:56:39 公開日:2020-07-27
# 外部知識を用いた塩分予測

Saliency Prediction with External Knowledge ( http://arxiv.org/abs/2007.13839v1 )

ライセンス: Link先を確認
Yifeng Zhang, Ming Jiang, Qi Zhao(参考訳) 過去数十年間、高レベルのセマンティクスをエンコードできるディープニューラルネットワークの成功によって、サリエンシー予測は大きな進歩を遂げてきた。 しかし、人間は見るべき場所を決定するために知識を活用する能力を持っている(例えば、人々は有名人のようなよく知られた顔にもっと注意を払う)が、サリエンシ予測モデルは大きな視線追跡データセットでしか訓練されていない。 この研究は、人間のように、サリエンシモデルの外部知識を明示的に取り入れることで、このギャップを埋めることを提案する。 我々は,意味関係の事前知識を一般的あるいはドメイン固有に組み込むことで,関心のあるタスクに応じて地域を強調するネットワークを構築する。 この手法の核となるのが、外部知識から学んだ意味関係をエンコードするグラフを構築する新しいグラフセマンティックサリエンシーネットワーク(グラスネット)である。 次にSpatial Graph Attention Networkが開発され、学習したグラフに基づいてSalliency機能を更新する。 実験により,提案モデルが外部知識から正当性を予測することを学習し,正当性ベンチマークを4つのベンチマークで比較した。

The last decades have seen great progress in saliency prediction, with the success of deep neural networks that are able to encode high-level semantics. Yet, while humans have the innate capability in leveraging their knowledge to decide where to look (e.g. people pay more attention to familiar faces such as celebrities), saliency prediction models have only been trained with large eye-tracking datasets. This work proposes to bridge this gap by explicitly incorporating external knowledge for saliency models as humans do. We develop networks that learn to highlight regions by incorporating prior knowledge of semantic relationships, be it general or domain-specific, depending on the task of interest. At the core of the method is a new Graph Semantic Saliency Network (GraSSNet) that constructs a graph that encodes semantic relationships learned from external knowledge. A Spatial Graph Attention Network is then developed to update saliency features based on the learned graph. Experiments show that the proposed model learns to predict saliency from the external knowledge and outperforms the state-of-the-art on four saliency benchmarks.
翻訳日:2022-11-06 08:56:23 公開日:2020-07-27
# 永久運動:非有界ヒト運動の生成

Perpetual Motion: Generating Unbounded Human Motion ( http://arxiv.org/abs/2007.13886v1 )

ライセンス: Link先を確認
Yan Zhang and Michael J. Black and Siyu Tang(参考訳) 機械学習を用いた人間の動きのモデル化は広く研究されている。 本質的には、過去にどのように動いたかを考えると、人が将来どのように動くかを予測することを伴う時系列モデリングの問題である。 しかし、既存の方法は通常、短い時間軸を持ち、わずか数フレームから数秒の人間の動きを予測している。 ここでは、人間の動きの長いシーケンス(潜在的に無限)を生成するという長期的な予測に焦点を当てます。 さらに,コンディショニングのための入力動作の長いシーケンスに頼るのではなく,1回のポーズで人がどのように動くかを予測できる。 このようなモデルは、グラフィックス(ビデオゲームや群衆アニメーション)や視覚(人間の動き推定やデータセット作成の先駆けとして)に多くの用途がある。 この問題に対処するために,大域的軌道と身体の姿勢がクロスコンディショニングされた永久的人間の運動を非決定論的に生成するモデルを提案する。 我々は,新しいkl-divergence項と暗黙的未知項を導入する。 我々は、白色雑音ガウス過程のkl発散の重尾関数を用いてこれを訓練し、潜在シーケンスの時間依存性を許容する。 提案手法の有効性を検証し,ベースライン法よりも優れていることを示す。

The modeling of human motion using machine learning methods has been widely studied. In essence it is a time-series modeling problem involving predicting how a person will move in the future given how they moved in the past. Existing methods, however, typically have a short time horizon, predicting a only few frames to a few seconds of human motion. Here we focus on long-term prediction; that is, generating long sequences (potentially infinite) of human motion that is plausible. Furthermore, we do not rely on a long sequence of input motion for conditioning, but rather, can predict how someone will move from as little as a single pose. Such a model has many uses in graphics (video games and crowd animation) and vision (as a prior for human motion estimation or for dataset creation). To address this problem, we propose a model to generate non-deterministic, \textit{ever-changing}, perpetual human motion, in which the global trajectory and the body pose are cross-conditioned. We introduce a novel KL-divergence term with an implicit, unknown, prior. We train this using a heavy-tailed function of the KL divergence of a white-noise Gaussian process, allowing latent sequence temporal dependency. We perform systematic experiments to verify its effectiveness and find that it is superior to baseline methods.
翻訳日:2022-11-06 08:56:04 公開日:2020-07-27
# 個人再識別のための異種空間における教師なし領域適応

Unsupervised Domain Adaptation in the Dissimilarity Space for Person Re-identification ( http://arxiv.org/abs/2007.13890v1 )

ライセンス: Link先を確認
Djebril Mekhazni, Amran Bhuiyan, George Ekladious and Eric Granger(参考訳) 個人再識別(ReID)は、大規模な画像データセットでトレーニングされたディープラーニング(DL)モデルの出現により、最先端の精度が大幅に向上したにもかかわらず、多くのリアルタイムビデオ分析および監視アプリケーションにおいて、依然として困難な課題である。 ソースドメインとターゲットドメインからキャプチャされたビデオデータと、ターゲットドメインからのラベル付きデータの欠如との間に発生する分布の変化を考えると、ターゲットデータを正確に認識するためにdlモデルを適用することは困難である。 距離学習に依存するペアワイズマッチング(例えば、人物ReIDのためのシームズネットワーク)の場合、教師なしドメイン適応(UDA)の目的は、特徴表現を整列するのではなく、ドメイン間のペアワイズな相似性を整列することである。 さらに、異種性表現は、ソースドメインとターゲットドメインでアイデンティティが異なるオープンセットのReIDシステムを設計するのにより適している。 本稿では,勾配降下により最適化可能な対方向距離を整合させるための,d-mmd損失法を提案する。 ReIDの観点からは、トラックレット情報により、距離ベクトルをクラス内またはクラス間のいずれかとラベルできるので、D-MMD損失の評価は簡単である。 これにより、d-mmd損失最適化のための対向距離の基底分布を近似することができ、そのためソースとターゲット距離分布を調整できる。 3つの挑戦的なベンチマークデータセットによる実験結果から、D-MMDの損失は、ソースとドメインの分布がよりよくなるにつれて減少することが示された。 また,D-MMDの損失に依存するUDA法は,データ拡張や複雑なネットワークの共通要件を伴わずに,ReIDのベースラインや最先端のUDA法を著しく上回ることを示す。

Person re-identification (ReID) remains a challenging task in many real-word video analytics and surveillance applications, even though state-of-the-art accuracy has improved considerably with the advent of deep learning (DL) models trained on large image datasets. Given the shift in distributions that typically occurs between video data captured from the source and target domains, and absence of labeled data from the target domain, it is difficult to adapt a DL model for accurate recognition of target data. We argue that for pair-wise matchers that rely on metric learning, e.g., Siamese networks for person ReID, the unsupervised domain adaptation (UDA) objective should consist in aligning pair-wise dissimilarity between domains, rather than aligning feature representations. Moreover, dissimilarity representations are more suitable for designing open-set ReID systems, where identities differ in the source and target domains. In this paper, we propose a novel Dissimilarity-based Maximum Mean Discrepancy (D-MMD) loss for aligning pair-wise distances that can be optimized via gradient descent. From a person ReID perspective, the evaluation of D-MMD loss is straightforward since the tracklet information allows to label a distance vector as being either within-class or between-class. This allows approximating the underlying distribution of target pair-wise distances for D-MMD loss optimization, and accordingly align source and target distance distributions. Empirical results with three challenging benchmark datasets show that the proposed D-MMD loss decreases as source and domain distributions become more similar. Extensive experimental evaluation also indicates that UDA methods that rely on the D-MMD loss can significantly outperform baseline and state-of-the-art UDA methods for person ReID without the common requirement for data augmentation and/or complex networks.
翻訳日:2022-11-06 08:55:44 公開日:2020-07-27
# 適正管理・処分のための廃棄物消費者薬の自動検出と分類

Automatic Detection and Classification of Waste Consumer Medications for Proper Management and Disposal ( http://arxiv.org/abs/2007.13903v1 )

ライセンス: Link先を確認
Bahram Marami and Atabak Reza Royaee(参考訳) 毎年、何百万ポンドもの薬が米国で使われておらず、家庭内処理、すなわち医療キャビネットに保管され、トイレに流されたり、通常のゴミに捨てられたりしている。 しかし、家庭内処理は環境と公衆衛生に悪影響を及ぼす可能性がある。 薬物取締局(dea)とその州および産業パートナーが後援する薬物取締プログラム(薬物取締プログラム)は、未使用の消費者薬を収集し、家庭内薬の廃棄に最適な代替手段を提供する。 しかし、薬の回収には費用がかかり、広くは利用できない。 本稿では,人工知能(AI)をドラッグテイクバックに適用して,より効率的に処理できることを示す。 廃棄物の特定は適切な処理に欠かせないため, 物理的特徴と視覚的外観のみに基づいて, 消費者薬を的確に識別できることが示唆された。 我々は,深層ニューラルネットワークとコンピュータビジョンを用いて固形医薬品を識別・分離する自動技術を開発した。 この手法を約1万個の緩い錠剤の画像に適用し,精度0.912,精度0.984の精度で正確な錠剤の同定に成功した。 また,危険薬とデータセット内の非ハザード薬とを0.984の精度で区別できることを示した。 われわれは、人工知能の力は、ドラッグテイクバックの操作をより効率的にし、全国で広く利用できるようになる製品に活用できると考えている。

Every year, millions of pounds of medicines remain unused in the U.S. and are subject to an in-home disposal, i.e., kept in medicine cabinets, flushed in toilet or thrown in regular trash. In-home disposal, however, can negatively impact the environment and public health. The drug take-back programs (drug take-backs) sponsored by the Drug Enforcement Administration (DEA) and its state and industry partners collect unused consumer medications and provide the best alternative to in-home disposal of medicines. However, the drug take-backs are expensive to operate and not widely available. In this paper, we show that artificial intelligence (AI) can be applied to drug take-backs to render them operationally more efficient. Since identification of any waste is crucial to a proper disposal, we showed that it is possible to accurately identify loose consumer medications solely based on the physical features and visual appearance. We have developed an automatic technique that uses deep neural networks and computer vision to identify and segregate solid medicines. We applied the technique to images of about one thousand loose pills and succeeded in correctly identifying the pills with an accuracy of 0.912 and top-5 accuracy of 0.984. We also showed that hazardous pills could be distinguished from non-hazardous pills within the dataset with an accuracy of 0.984. We believe that the power of artificial intelligence could be harnessed in products that would facilitate the operation of the drug take-backs more efficiently and help them become widely available throughout the country.
翻訳日:2022-11-06 08:55:10 公開日:2020-07-27
# Hash-Consistent Large Margin Proxy Embeddingsを用いたディープハッシュ

Deep Hashing with Hash-Consistent Large Margin Proxy Embeddings ( http://arxiv.org/abs/2007.13912v1 )

ライセンス: Link先を確認
Pedro Morgado, Yunsheng Li, Jose Costa Pereira, Mohammad Saberian and Nuno Vasconcelos(参考訳) 画像ハッシュコードは、分類または検索のために訓練された畳み込みニューラルネットワーク(CNN)の埋め込みをバイナライズすることによって生成される。 プロキシ埋め込みは両方のタスクで優れたパフォーマンスを実現するが、非バイナリ埋め込みを促進する回転曖昧性のため、バイナリ化は自明ではない。 この曖昧さを解消するために、固定されたプロキシセット(CNN分類層の重み)の使用を提案し、分類とハッシュの両方にほぼ最適に近いプロキシセットを設計する手順を紹介した。 その結果,Hash-Consistent large margin (HCLM) プロキシはハッシュ単位の飽和を促進させ,二項化誤差を小さくし,高い識別能を有するハッシュ符号を生成する。 転送シナリオにおけるハッシュ性能向上を目的とした意味拡張(sHCLM)も提案されている。 大規模な実験により、sHCLMの埋め込みは、訓練クラスの内外にあるいくつかの小規模および大規模データセットに対する最先端のハッシュ処理よりも大幅に改善されていることが示されている。

Image hash codes are produced by binarizing the embeddings of convolutional neural networks (CNN) trained for either classification or retrieval. While proxy embeddings achieve good performance on both tasks, they are non-trivial to binarize, due to a rotational ambiguity that encourages non-binary embeddings. The use of a fixed set of proxies (weights of the CNN classification layer) is proposed to eliminate this ambiguity, and a procedure to design proxy sets that are nearly optimal for both classification and hashing is introduced. The resulting hash-consistent large margin (HCLM) proxies are shown to encourage saturation of hashing units, thus guaranteeing a small binarization error, while producing highly discriminative hash-codes. A semantic extension (sHCLM), aimed to improve hashing performance in a transfer scenario, is also proposed. Extensive experiments show that sHCLM embeddings achieve significant improvements over state-of-the-art hashing procedures on several small and large datasets, both within and beyond the set of training classes.
翻訳日:2022-11-06 08:54:43 公開日:2020-07-27
# RANDOM MASK:ロバストな畳み込みニューラルネットワークを目指して

RANDOM MASK: Towards Robust Convolutional Neural Networks ( http://arxiv.org/abs/2007.14249v1 )

ライセンス: Link先を確認
Tiange Luo, Tianle Cai, Mengxiao Zhang, Siyu Chen, Liwei Wang(参考訳) ニューラルネットワークのロバスト性は、最近、敵対的な例、すなわち、よく設計された摂動を伴う入力によって強調されている。 本稿では,新しいcnnアーキテクチャの設計について述べる。 我々は,既存のCNN構造を改良するために,シンプルだが強力なRandom Maskを導入する。 ランダムマスクを用いたcnnは,ブラックボックス攻撃に対して,攻撃訓練を施すことなく最先端のパフォーマンスを実現する。 次に,Random Mask を用いた CNN を 'fol' する逆例について検討する。 驚くべきことに、これらの敵対的な例は、しばしば人間も「愚か」である。 これは、逆の例とロバストネスを適切に定義する方法に関する根本的な疑問を提起する。

Robustness of neural networks has recently been highlighted by the adversarial examples, i.e., inputs added with well-designed perturbations which are imperceptible to humans but can cause the network to give incorrect outputs. In this paper, we design a new CNN architecture that by itself has good robustness. We introduce a simple but powerful technique, Random Mask, to modify existing CNN structures. We show that CNN with Random Mask achieves state-of-the-art performance against black-box adversarial attacks without applying any adversarial training. We next investigate the adversarial examples which 'fool' a CNN with Random Mask. Surprisingly, we find that these adversarial examples often 'fool' humans as well. This raises fundamental questions on how to define adversarial examples and robustness properly.
翻訳日:2022-11-06 08:54:23 公開日:2020-07-27
# 2020年ビデオキャプションチャレンジの事前トレーニングの概要

Pre-training for Video Captioning Challenge 2020 Summary ( http://arxiv.org/abs/2008.00947v1 )

ライセンス: Link先を確認
Yingwei Pan and Jun Xu and Yehao Li and Ting Yao and Tao Mei(参考訳) The Pre-training for Video Captioning Challenge 2020概要:結果と参加者の技術的な報告。

The Pre-training for Video Captioning Challenge 2020 Summary: results and challenge participants' technical reports.
翻訳日:2022-11-06 08:54:12 公開日:2020-07-27
# NOH-NMS:周辺物体の幻覚による歩行者検出の改善

NOH-NMS: Improving Pedestrian Detection by Nearby Objects Hallucination ( http://arxiv.org/abs/2007.13376v1 )

ライセンス: Link先を確認
Penghao Zhou, Chong Zhou, Pai Peng, Junlong Du, Xing Sun, Xiaowei Guo, Feiyue Huang(参考訳) Greedy-NMSは本質的にジレンマを上昇させ、低いNMS閾値はリコール率を低下させ、より高い閾値はより多くの偽陽性をもたらす。 この問題は、インスタンス密度がより集中的に変化するため、歩行者検出においてより深刻である。 しかし、NMSの以前の研究は、近隣の歩行者の存在の要因を考慮または曖昧に考慮していない。 そこで本稿では,提案提案の近傍のオブジェクトをガウス分布でピンポイントするNH-NMS(Nearby Objects Hallucinator)と,他のオブジェクトを高い確率で含む空間の抑制を動的に緩和するNOH-NMSを提案する。 Greedy-NMSと比較すると、我々の手法は最先端の手法であるAPに対して$3.9\%$ AP、$5.1\%$ Recall、$0.8\%$$\text{MR}^{-2}$をCrowdHuman上で$89.0\%$ AP、$92.9\%$ Recall、$43.9\%$ $\text{MR}^{-2}$と改善している。

Greedy-NMS inherently raises a dilemma, where a lower NMS threshold will potentially lead to a lower recall rate and a higher threshold introduces more false positives. This problem is more severe in pedestrian detection because the instance density varies more intensively. However, previous works on NMS don't consider or vaguely consider the factor of the existent of nearby pedestrians. Thus, we propose Nearby Objects Hallucinator (NOH), which pinpoints the objects nearby each proposal with a Gaussian distribution, together with NOH-NMS, which dynamically eases the suppression for the space that might contain other objects with a high likelihood. Compared to Greedy-NMS, our method, as the state-of-the-art, improves by $3.9\%$ AP, $5.1\%$ Recall, and $0.8\%$ $\text{MR}^{-2}$ on CrowdHuman to $89.0\%$ AP and $92.9\%$ Recall, and $43.9\%$ $\text{MR}^{-2}$ respectively.
翻訳日:2022-11-06 08:48:11 公開日:2020-07-27
# Ladybird: シンメトリーを用いた深部深達度3次元再構成のための準モンテカルロサンプリング

Ladybird: Quasi-Monte Carlo Sampling for Deep Implicit Field Based 3D Reconstruction with Symmetry ( http://arxiv.org/abs/2007.13393v1 )

ライセンス: Link先を確認
Yifan Xu, Tianqi Fan, Yi Yuan, Gurprit Singh(参考訳) 深暗視野回帰法は, 単視点画像からの3次元再構成に有効である。 しかし, 異なるサンプリングパターンが復元品質に及ぼす影響はよく理解されていない。 本研究は,まず,ネットワークトレーニングにおける点集合の不一致の影響について検討する。 最遠点サンプリングアルゴリズムに基づいて,理論上は一般化性能の向上を奨励するサンプリングスキームを提案し,sgdに基づく最適化アルゴリズムの高速収束を実現する。 次に,物体の反射対称性に基づいて,局所的な画像特徴の活用が困難となる自己排他性に起因する問題を緩和する特徴融合法を提案する。 提案システムでは,単一入力画像から高品質な3Dオブジェクト再構成を行うことができる。 大規模3次元データセット (shapenet) 上でのladybirdの評価を行い, チャンファー距離, アースムーバー距離, ユニオン上の交差点 (iou) において高い競合性を示した。

Deep implicit field regression methods are effective for 3D reconstruction from single-view images. However, the impact of different sampling patterns on the reconstruction quality is not well-understood. In this work, we first study the effect of point set discrepancy on the network training. Based on Farthest Point Sampling algorithm, we propose a sampling scheme that theoretically encourages better generalization performance, and results in fast convergence for SGD-based optimization algorithms. Secondly, based on the reflective symmetry of an object, we propose a feature fusion method that alleviates issues due to self-occlusions which makes it difficult to utilize local image features. Our proposed system Ladybird is able to create high quality 3D object reconstructions from a single input image. We evaluate Ladybird on a large scale 3D dataset (ShapeNet) demonstrating highly competitive results in terms of Chamfer distance, Earth Mover's distance and Intersection Over Union (IoU).
翻訳日:2022-11-06 08:47:44 公開日:2020-07-27
# インクリメンタルオブジェクト検出のための2レベル残留蒸留に基づくトリプルネットワーク

Two-Level Residual Distillation based Triple Network for Incremental Object Detection ( http://arxiv.org/abs/2007.13428v1 )

ライセンス: Link先を確認
Dongbao Yang, Yu Zhou, Dayan Wu, Can Ma, Fei Yang, Weiping Wang(参考訳) 畳み込みニューラルネットワークに基づく現代の物体検出手法は、オリジナルデータなしで新しいクラスを学習する際、深刻な壊滅的な忘れに苦しむ。 時間消費、ストレージの負担、古いデータのプライバシーのため、モデルのトレーニング後に新しいオブジェクトクラスが出現すると、古いデータと新しいデータの両方でモデルをゼロからトレーニングすることは推奨できない。 本稿では,古いデータを用いずに新しいオブジェクトクラスから連続的に学習する高速r-cnnに基づく新しいインクリメンタルオブジェクト検出器を提案する。 従来の学習知識を忘れることなく、新しいクラスでの漸進的なモデル学習を支援するためのアシスタントとして、古いモデルと残留モデルを使用する三重ネットワークである。 古いクラスと新しいクラスの間の特徴の識別をより良く維持するために、残余モデルはインクリメンタル学習手順で新しいクラスで共同で訓練される。 また、2段階の残留蒸留損失と共同分類蒸留損失からなるトレーニングプロセスの指針として,対応する蒸留方式を設計した。 VOC2007 と COCO に関する大規模な実験を行い,提案手法が新たなクラスオブジェクトの漸進的検出を効果的に学べることを実証した。

Modern object detection methods based on convolutional neural network suffer from severe catastrophic forgetting in learning new classes without original data. Due to time consumption, storage burden and privacy of old data, it is inadvisable to train the model from scratch with both old and new data when new object classes emerge after the model trained. In this paper, we propose a novel incremental object detector based on Faster R-CNN to continuously learn from new object classes without using old data. It is a triple network where an old model and a residual model as assistants for helping the incremental model learning on new classes without forgetting the previous learned knowledge. To better maintain the discrimination of features between old and new classes, the residual model is jointly trained on new classes in the incremental learning procedure. In addition, a corresponding distillation scheme is designed to guide the training process, which consists of a two-level residual distillation loss and a joint classification distillation loss. Extensive experiments on VOC2007 and COCO are conducted, and the results demonstrate that the proposed method can effectively learn to incrementally detect objects of new classes, and the problem of catastrophic forgetting is mitigated in this context.
翻訳日:2022-11-06 08:47:06 公開日:2020-07-27
# 個人再同定のための識別誘導型人間意味解析

Identity-Guided Human Semantic Parsing for Person Re-Identification ( http://arxiv.org/abs/2007.13467v1 )

ライセンス: Link先を確認
Kuan Zhu, Haiyun Guo, Zhiwei Liu, Ming Tang, Jinqiao Wang(参考訳) 既存のアライメントベース手法では、ピクセルレベルのアライメントを達成するために事前訓練された人間解析モデルを用いる必要があり、パーソナライズに不可欠な個人的持ち物(バックパックやレティクルなど)は識別できない。 本稿では,人物識別ラベルのみと同一人物識別を行うために,人体の一部と個人所有物の両方をピクセルレベルで位置づけするための識別誘導型人間意味解析手法(isp)を提案する。 特徴マップ上のカスケードクラスタリングを設計し,人間の部分の擬似ラベルを生成する。 具体的には、人のすべての画像のピクセルについて、まず前景または背景にグループ化し、次に前景のピクセルを人間の部分にグループ化する。 クラスタ割り当てはその後、部分推定を監督するために人体の擬似ラベルとして使用され、ISPは特徴マップを反復的に学習し、グループ化する。 最後に、自己学習した部分推定に基づいて人体部と個人持ち物の双方の局所的特徴を求め、検索に可視的部分の特徴のみを利用する。 広く使われている3つのデータセットに対する大規模な実験は、多くの最先端手法よりもISPの優位性を検証する。 私たちのコードはhttps://github.com/CASIA-IVA-Lab/ISP-reIDで利用可能です。

Existing alignment-based methods have to employ the pretrained human parsing models to achieve the pixel-level alignment, and cannot identify the personal belongings (e.g., backpacks and reticule) which are crucial to person re-ID. In this paper, we propose the identity-guided human semantic parsing approach (ISP) to locate both the human body parts and personal belongings at pixel-level for aligned person re-ID only with person identity labels. We design the cascaded clustering on feature maps to generate the pseudo-labels of human parts. Specifically, for the pixels of all images of a person, we first group them to foreground or background and then group the foreground pixels to human parts. The cluster assignments are subsequently used as pseudo-labels of human parts to supervise the part estimation and ISP iteratively learns the feature maps and groups them. Finally, local features of both human body parts and personal belongings are obtained according to the selflearned part estimation, and only features of visible parts are utilized for the retrieval. Extensive experiments on three widely used datasets validate the superiority of ISP over lots of state-of-the-art methods. Our code is available at https://github.com/CASIA-IVA-Lab/ISP-reID.
翻訳日:2022-11-06 08:46:43 公開日:2020-07-27
# 多分解能画像登録のための正規微分方程式と複素行列指数

Ordinary Differential Equation and Complex Matrix Exponential for Multi-resolution Image Registration ( http://arxiv.org/abs/2007.13683v1 )

ライセンス: Link先を確認
Abhishek Nan and Matthew Tennant and Uriel Rubin and Nilanjan Ray(参考訳) オートグレードベースのソフトウェアパッケージは最近、勾配降下と最適化(airlabやdmimeなど)によって、ホモグラフィや他の幾何学モデルを用いた画像登録への関心を再び高めている。 本研究では、実行列指数上で複素行列指数(CME)を用いて変換行列を計算することを強調する。 CMEは理論上より適しており、我々の実験が示すように、事実上より高速な収束を提供する。 さらに、最適化可能な力学系として常微分方程式(ODE)を用いることで、画像登録のための多分解能ガウスピラミッドに変換行列をより正確に適応できることを示した。 実験には4つの公開ベンチマークデータセットがあり、そのうち2つは2Dで、もう2つは3Dです。 実験により,本手法は既製,人気,最先端の画像登録ツールボックスに比べて登録精度が著しく向上することを示した。

Autograd-based software packages have recently renewed interest in image registration using homography and other geometric models by gradient descent and optimization, e.g., AirLab and DRMIME. In this work, we emphasize on using complex matrix exponential (CME) over real matrix exponential to compute transformation matrices. CME is theoretically more suitable and practically provides faster convergence as our experiments show. Further, we demonstrate that the use of an ordinary differential equation (ODE) as an optimizable dynamical system can adapt the transformation matrix more accurately to the multi-resolution Gaussian pyramid for image registration. Our experiments include four publicly available benchmark datasets, two of them 2D and the other two being 3D. Experiments demonstrate that our proposed method yields significantly better registration compared to a number of off-the-shelf, popular, state-of-the-art image registration toolboxes.
翻訳日:2022-11-06 08:45:37 公開日:2020-07-27
# アソシエーション3d : スパースビューからのボリュームリコンストラクション

Associative3D: Volumetric Reconstruction from Sparse Views ( http://arxiv.org/abs/2007.13727v1 )

ライセンス: Link先を確認
Shengyi Qian, Linyi Jin, David F. Fouhey(参考訳) 本稿では,未知のカメラを用いた2つのシーンからの3次元ボリューム再構成の問題について検討する。 人間にとって簡単なように見えるが、この問題は2つのビューでオブジェクトを同時に再構築し、それらの関係を解明する必要があるため、コンピュータに多くの課題をもたらす。 本稿では,カメラ/オブジェクトの再構成,分布,カメラ/カメラ変換,およびビュー間オブジェクト親和性行列を推定する新しい手法を提案する。 この情報は、シーンの最も可能性の高い説明を生み出すために、共同で説明される。 屋内シーンのデータセット上でアプローチをトレーニングし、テストし、共同推論アプローチのメリットを厳格に評価します。 私たちの実験では、問題はまだ解決が難しいものの、スパースビューから妥当なシーンを復元できることが示されています。 プロジェクトサイト: https://jasonqsy.github.io/associative3d

This paper studies the problem of 3D volumetric reconstruction from two views of a scene with an unknown camera. While seemingly easy for humans, this problem poses many challenges for computers since it requires simultaneously reconstructing objects in the two views while also figuring out their relationship. We propose a new approach that estimates reconstructions, distributions over the camera/object and camera/camera transformations, as well as an inter-view object affinity matrix. This information is then jointly reasoned over to produce the most likely explanation of the scene. We train and test our approach on a dataset of indoor scenes, and rigorously evaluate the merits of our joint reasoning approach. Our experiments show that it is able to recover reasonable scenes from sparse views, while the problem is still challenging. Project site: https://jasonqsy.github.io/Associative3D
翻訳日:2022-11-06 08:45:22 公開日:2020-07-27
# ネパールの言語的タブーとエプヘミズム

Linguistic Taboos and Euphemisms in Nepali ( http://arxiv.org/abs/2007.13798v1 )

ライセンス: Link先を確認
Nobal B. Niraula and Saurab Dulal and Diwa Koirala(参考訳) 世界中の言語には、言葉、フレーズ、行動(タブー)があり、社会の社会的、宗教的、倫理的な価値観に従わない、または邪魔になると見なす公共のコミュニケーションでは避けられている。 しかし、これらの言語タブーや他の言語構成を故意に使用し、傷つきやすい、卑劣な、卑劣なコメントを作る。 攻撃性は、社会物理学的な設定、話者と話者の関係、単語の選択など、全く異なる要因によって決定されるため、普遍的な攻撃性またはタブーの用語を構成することはほぼ不可能である。 本稿では,ネパールにおける攻撃言語に関するコーパスに基づく詳細な研究について述べる。 我々は、政治、宗教、人種、性別を含む18以上の異なる言語犯罪を識別し、記述する。 我々は,同義語,メタファ,転位といった12種類の共通オイフェミズムについて論じる。 また,現代話者に人気がある1000以上の攻撃語やタブー語を手作業で構築したデータセットも紹介する。 この攻撃的言語とリソースに関する詳細な研究は、攻撃的言語検出や言語学習といった下流のタスクの基盤を提供するだろう。

Languages across the world have words, phrases, and behaviors -- the taboos -- that are avoided in public communication considering them as obscene or disturbing to the social, religious, and ethical values of society. However, people deliberately use these linguistic taboos and other language constructs to make hurtful, derogatory, and obscene comments. It is nearly impossible to construct a universal set of offensive or taboo terms because offensiveness is determined entirely by different factors such as socio-physical setting, speaker-listener relationship, and word choices. In this paper, we present a detailed corpus-based study of offensive language in Nepali. We identify and describe more than 18 different categories of linguistic offenses including politics, religion, race, and sex. We discuss 12 common euphemisms such as synonym, metaphor and circumlocution. In addition, we introduce a manually constructed data set of over 1000 offensive and taboo terms popular among contemporary speakers. This in-depth study of offensive language and resource will provide a foundation for several downstream tasks such as offensive language detection and language learning.
翻訳日:2022-11-06 08:39:02 公開日:2020-07-27
# ULD@NUIG at SemEval-2020 Task 9: Generative Morphemes with an Attention Model for Sentiment Analysis in Code-Mixed Text (英語)

ULD@NUIG at SemEval-2020 Task 9: Generative Morphemes with an Attention Model for Sentiment Analysis in Code-Mixed Text ( http://arxiv.org/abs/2008.01545v1 )

ライセンス: Link先を確認
Koustava Goswami, Priya Rani, Bharathi Raja Chakravarthi, Theodorus Fransen, and John P. McCrae(参考訳) コードミキシングは多言語社会でよくある現象であり、人々は様々な理由である言語から別の言語に切り替える。 様々なソーシャルメディアサイトでのパブリックコミュニケーションの進歩は、文字言語によるコード混合利用の頻度を増加させた。 本稿では,semeval 2020タスク9センティミックスに寄与する注意(genma)モデル感情分析システムについて述べる。 本システムは,英語とヒンディー語を混合したツイートの感情を,単語レベルの言語タグを使わずに予測することを目的としている。 このシステムは、新しいディープニューラルネットワーク(dnn)アーキテクチャに基づいており、テストデータセットのベースラインであるf1-scoreや検証データセットよりも優れています。 我々の結果は "Sentimix Hindi English" ページのユーザ名 "koustava" で確認できます。

Code mixing is a common phenomena in multilingual societies where people switch from one language to another for various reasons. Recent advances in public communication over different social media sites have led to an increase in the frequency of code-mixed usage in written language. In this paper, we present the Generative Morphemes with Attention (GenMA) Model sentiment analysis system contributed to SemEval 2020 Task 9 SentiMix. The system aims to predict the sentiments of the given English-Hindi code-mixed tweets without using word-level language tags instead inferring this automatically using a morphological model. The system is based on a novel deep neural network (DNN) architecture, which has outperformed the baseline F1-score on the test data-set as well as the validation data-set. Our results can be found under the user name "koustava" on the "Sentimix Hindi English" page
翻訳日:2022-11-06 08:38:46 公開日:2020-07-27
# クルド語ソラニとクルマンジのN-gramモデルに基づく次の単語予測

Next word prediction based on the N-gram model for Kurdish Sorani and Kurmanji ( http://arxiv.org/abs/2008.01546v1 )

ライセンス: Link先を確認
Hozan K. Hamarashid, Soran A. Saeed and Tarik A. Rashid(参考訳) 次の単語予測は、会話中の入力が時間を消費するように、ユーザに次の単語を選択させることで、入力のプロセスを簡単にする入力技術である。 以前のいくつかの研究はクルド語に焦点をあてており、次の単語予測の使用も含まれている。 しかし、クルド語テキストコーパスの欠如が課題となっている。 さらに、クルド語に十分な数のn-gram(例えば5グラム)がないことが、次のクルド語の単語予測を稀に使用する理由である。 さらに、Rstudioソフトウェアにおけるクルド文字の不正表示も問題となっている。 本稿では,クルド語のコーパスを提供し,5つのコーパスを作成し,クルド語のソラニ語とクルマンジ語の次の単語予測に関するユニークな研究成果を示す。 n-gramモデルは、クルド語で入力する時間を減らすために、次の単語予測に使われてきた。 さらに、次のクルド語単語予測についてはほとんど研究されていないため、N-gramモデルを用いてテキストを正確に提案する。 そのため、RプログラミングとRStudioを使ってアプリケーションを構築する。 このモデルは96.3%正確である。

Next word prediction is an input technology that simplifies the process of typing by suggesting the next word to a user to select, as typing in a conversation consumes time. A few previous studies have focused on the Kurdish language, including the use of next word prediction. However, the lack of a Kurdish text corpus presents a challenge. Moreover, the lack of a sufficient number of N-grams for the Kurdish language, for instance, five grams, is the reason for the rare use of next Kurdish word prediction. Furthermore, the improper display of several Kurdish letters in the Rstudio software is another problem. This paper provides a Kurdish corpus, creates five, and presents a unique research work on next word prediction for Kurdish Sorani and Kurmanji. The N-gram model has been used for next word prediction to reduce the amount of time while typing in the Kurdish language. In addition, little work has been conducted on next Kurdish word prediction; thus, the N-gram model is utilized to suggest text accurately. To do so, R programming and RStudio are used to build the application. The model is 96.3% accurate.
翻訳日:2022-11-06 08:38:31 公開日:2020-07-27
# ロボットプロセス自動化からインテリジェントプロセス自動化へ:新しいトレンド

From Robotic Process Automation to Intelligent Process Automation: Emerging Trends ( http://arxiv.org/abs/2007.13257v1 )

ライセンス: Link先を確認
Tathagata Chakraborti, Vatche Isahagian, Rania Khalaf, Yasaman Khazaeni, Vinod Muthusamy, Yara Rizk, Merve Unuvar(参考訳) 本稿では,近年の機械知能の進歩がビジネスプロセスの世界をディスラプトしているかを検討する。 過去10年間で、'robotic process automation' (RPA)の傘下で、ビジネスプロセスの自動化に向けて着実に進歩してきた。 しかし、'Intelligent Process Automation' (IPA)'と呼ばれる新しいパラダイムが出現し、機械学習(ML)と人工知能(AI)技術がビジネスプロセスの成果を改善するために、現在この進化の転換点にいる。 本研究の目的は,AIとビジネスプロセスの共通点において,この新たなテーマを探求し,重要なオープンリサーチ課題を特定することである。 この新たなテーマがRPAフォーラムで活発に議論されることを期待しています。

In this survey, we study how recent advances in machine intelligence are disrupting the world of business processes. Over the last decade, there has been steady progress towards the automation of business processes under the umbrella of ``robotic process automation'' (RPA). However, we are currently at an inflection point in this evolution, as a new paradigm called ``Intelligent Process Automation'' (IPA) emerges, bringing machine learning (ML) and artificial intelligence (AI) technologies to bear in order to improve business process outcomes. The purpose of this paper is to provide a survey of this emerging theme and identify key open research challenges at the intersection of AI and business processes. We hope that this emerging theme will spark engaging conversations at the RPA Forum.
翻訳日:2022-11-06 08:38:15 公開日:2020-07-27
# NBA選手の再構築

Reconstructing NBA Players ( http://arxiv.org/abs/2007.13303v1 )

ライセンス: Link先を確認
Luyang Zhu, Konstantinos Rematas, Brian Curless, Steve Seitz, Ira Kemelmacher-Shlizerman(参考訳) 3Dボディーポーズと1枚の写真からの形状推定に大きな進歩があった。 しかし、最先端の成果は、挑戦的なボディーポーズ、服のモデリング、自己閉塞などによるエラーに苦しめられている。 バスケットボールの試合の領域は、これらすべての課題を示すため、特に困難である。 本稿では,バスケットボール選手を再建するための新しいアプローチを提案する。 私たちのアプローチの鍵は、NBAプレーヤーのポーズ可能なスキン付きモデルを作成するための新しい方法と、研究コミュニティにリリースする大規模なメッシュデータベース(NBA2K19のゲームに由来する)です。 これらのモデルに基づいて,バスケットボールの任意のポーズにおいて,着衣選手の1枚の写真を入力し,高解像度メッシュと3Dポーズを出力する新しい手法を提案する。 身体形状復元のための最先端, 単一像法よりも大幅に改善した。

Great progress has been made in 3D body pose and shape estimation from a single photo. Yet, state-of-the-art results still suffer from errors due to challenging body poses, modeling clothing, and self occlusions. The domain of basketball games is particularly challenging, as it exhibits all of these challenges. In this paper, we introduce a new approach for reconstruction of basketball players that outperforms the state-of-the-art. Key to our approach is a new method for creating poseable, skinned models of NBA players, and a large database of meshes (derived from the NBA2K19 video game), that we are releasing to the research community. Based on these models, we introduce a new method that takes as input a single photo of a clothed player in any basketball pose and outputs a high resolution mesh and 3D pose for that player. We demonstrate substantial improvement over state-of-the-art, single-image methods for body shape reconstruction.
翻訳日:2022-11-06 08:37:43 公開日:2020-07-27
# 細粒度マンガ顔生成のためのマイズショット知識伝達

Few-shot Knowledge Transfer for Fine-grained Cartoon Face Generation ( http://arxiv.org/abs/2007.13332v1 )

ライセンス: Link先を確認
Nan Zhuang and Cheng Yang(参考訳) 本稿では,様々なグループを対象としたきめ細かいマンガの顔を生成することに興味がある。 これらのグループのうちの1つは十分なトレーニングデータで構成されており、もう1つはサンプルが少ないと仮定する。 これらのグループの漫画の顔は類似しているものの、様々なグループの外見には特定の特徴がある可能性があり、それぞれが異なる。 この課題の主な課題は、グループ間で知識を伝達し、少数のサンプルでグループ固有の特徴を学ぶ方法である。 この問題を解決するために,我々は2段階のトレーニングプロセスを提案する。 まず、基本群(十分なデータからなる)の基本的な翻訳モデルを訓練する。 そして、他のグループの新しいサンプルが与えられたら、新しいグループごとにグループ固有のブランチを作成して基本モデルを拡張します。 グループ固有の分岐は、各グループの特定の外観をキャプチャするために直接更新され、残りのグループ共有パラメータは、中間特徴空間の分布を維持するために間接的に更新される。 この方法では,様々なグループに対して高品質なマンガ顔を生成することができる。

In this paper, we are interested in generating fine-grained cartoon faces for various groups. We assume that one of these groups consists of sufficient training data while the others only contain few samples. Although the cartoon faces of these groups share similar style, the appearances in various groups could still have some specific characteristics, which makes them differ from each other. A major challenge of this task is how to transfer knowledge among groups and learn group-specific characteristics with only few samples. In order to solve this problem, we propose a two-stage training process. First, a basic translation model for the basic group (which consists of sufficient data) is trained. Then, given new samples of other groups, we extend the basic model by creating group-specific branches for each new group. Group-specific branches are updated directly to capture specific appearances for each group while the remaining group-shared parameters are updated indirectly to maintain the distribution of intermediate feature space. In this manner, our approach is capable to generate high-quality cartoon faces for various groups.
翻訳日:2022-11-06 08:37:08 公開日:2020-07-27
# ポイントクラウドによる視覚ナビゲーションにおけるシミュレートと部分的可観測性のための強化学習

Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial Observability in Visual Navigation ( http://arxiv.org/abs/2007.13715v1 )

ライセンス: Link先を確認
Kenzo Lobos-Tsunekawa, Tatsuya Harada(参考訳) 強化学習(rl)は、複雑なロボットタスク(アクチベーション、操作、ナビゲーションなど)を解決するための強力なツールであり、これらのシステムを最も重要な制限の一つとして訓練するために現実世界のデータを必要とする。 シミュレータの使用はこの問題に対処する方法の1つであるが、シミュレーションで得られた知識は、sim-to-real転送問題として知られる現実世界では直接機能しない。 これまでの研究では、観察(例えばテクスチャや照明など)として使われる画像の性質に焦点が当てられ、simからsimへの転送に有用であることが証明されていたが、正確な幾何学的意味、ロボットからロボットへの失敗、そしてsimから現実への転送における他の懸念を無視している。 本稿では,点雲と環境ランダム化によって構築された観測空間を学習し,ロボットとシミュレータの間で一般化してシミュレート・トゥ・リアルを実現する手法を提案する。 提案手法は,ロボットからロボットへの移動が生み出す未知のシナリオに強く影響しないことを実証し,画像ベースベースラインをロボットによるランダム化実験で上回り,sim-to-sim条件で高い性能を示す。 最後に,本システムの性能を確認するため,実環境ロボットプラットフォームへのsim-to-real転送を検証する実験を複数実施した。

Reinforcement Learning (RL), among other learning-based methods, represents powerful tools to solve complex robotic tasks (e.g., actuation, manipulation, navigation, etc.), with the need for real-world data to train these systems as one of its most important limitations. The use of simulators is one way to address this issue, yet knowledge acquired in simulations does not work directly in the real-world, which is known as the sim-to-real transfer problem. While previous works focus on the nature of the images used as observations (e.g., textures and lighting), which has proven useful for a sim-to-sim transfer, they neglect other concerns regarding said observations, such as precise geometrical meanings, failing at robot-to-robot, and thus in sim-to-real transfers. We propose a method that learns on an observation space constructed by point clouds and environment randomization, generalizing among robots and simulators to achieve sim-to-real, while also addressing partial observability. We demonstrate the benefits of our methodology on the point goal navigation task, in which our method proves to be highly unaffected to unseen scenarios produced by robot-to-robot transfer, outperforms image-based baselines in robot-randomized experiments, and presents high performances in sim-to-sim conditions. Finally, we perform several experiments to validate the sim-to-real transfer to a physical domestic robot platform, confirming the out-of-the-box performance of our system.
翻訳日:2022-11-06 08:31:24 公開日:2020-07-27
# 3dmaterialgan: 潜在空間から3次元形状表現を学習する材料科学への応用

3DMaterialGAN: Learning 3D Shape Representation from Latent Space for Materials Science Applications ( http://arxiv.org/abs/2007.13887v1 )

ライセンス: Link先を確認
Devendra K. Jangid, Neal R. Brodnik, Amil Khan, McLean P. Echlin, Tresa M. Pollock, Sam Daly, B. S. Manjunath(参考訳) コンピュータビジョンの分野では、近年2次元オブジェクト生成のための教師なし学習が急速に進歩している。 しかし、3Dオブジェクト生成は、前者と同じ注意や成功に恵まれていない。 コンピュータビジョンと材料科学の交差点における新規な進歩を促進するため,形態が与えられた3次元多結晶材料の微細構造に適合する個々の粒の認識と合成が可能な3DMaterialGANネットワークを提案する。 このgan(generative adversarial network)アーキテクチャは、2dレンダリング画像からの追加情報のない確率的潜在空間ベクトルから複雑な3dオブジェクトを生成する。 本手法は,3dデータを用いたベンチマークにおいて,最先端の手法よりも比較可能あるいは優れた性能を示すとともに,粒度形態学などの注釈付けが容易でないオブジェクトを識別・生成できることを示す。 本手法は, 統計的形状比較により検証した, 市販のチタン合金中の3次元粒状構造を, 実世界の実験データを用いて解析し, 評価した。 この枠組みは、添加物製造、航空宇宙工学、構造設計に使用される多結晶材料の微細構造の認識と合成の基礎を成す。

In the field of computer vision, unsupervised learning for 2D object generation has advanced rapidly in the past few years. However, 3D object generation has not garnered the same attention or success as its predecessor. To facilitate novel progress at the intersection of computer vision and materials science, we propose a 3DMaterialGAN network that is capable of recognizing and synthesizing individual grains whose morphology conforms to a given 3D polycrystalline material microstructure. This Generative Adversarial Network (GAN) architecture yields complex 3D objects from probabilistic latent space vectors with no additional information from 2D rendered images. We show that this method performs comparably or better than state-of-the-art on benchmark annotated 3D datasets, while also being able to distinguish and generate objects that are not easily annotated, such as grain morphologies. The value of our algorithm is demonstrated with analysis on experimental real-world data, namely generating 3D grain structures found in a commercially relevant wrought titanium alloy, which were validated through statistical shape comparison. This framework lays the foundation for the recognition and synthesis of polycrystalline material microstructures, which are used in additive manufacturing, aerospace, and structural design applications.
翻訳日:2022-11-06 08:30:34 公開日:2020-07-27
# ノーマルバンドルブートストラップ

Normal-bundle Bootstrap ( http://arxiv.org/abs/2007.13869v1 )

ライセンス: Link先を確認
Ruda Zhang and Roger Ghanem(参考訳) データセットの確率モデルはしばしば幾何学的構造を示す。 そのような現象は多様体分布仮説にまとめられ、確率論的学習に利用することができる。 本稿では,与えられたデータセットの幾何学的構造を保存する新しいデータを生成する手法であるノーマルバンドルブートストラップ(nbb)を提案する。 微分幾何学における多様体学習と概念のアルゴリズムに着想を得た本手法は, 基礎となる確率測度を, 学習データ多様体上の限界測度と正規空間上の条件測度に分解する。 このアルゴリズムはデータ多様体を密度リッジとして推定し、射影ベクトルをブートストラップしてリッジに追加することで新しいデータを構築する。 本手法は, 密度リッジおよび関連統計量の推定に応用し, オーバーフィッティングを低減するためにデータ拡張を行う。

Probabilistic models of data sets often exhibit salient geometric structure. Such a phenomenon is summed up in the manifold distribution hypothesis, and can be exploited in probabilistic learning. Here we present normal-bundle bootstrap (NBB), a method that generates new data which preserve the geometric structure of a given data set. Inspired by algorithms for manifold learning and concepts in differential geometry, our method decomposes the underlying probability measure into a marginalized measure on a learned data manifold and conditional measures on the normal spaces. The algorithm estimates the data manifold as a density ridge, and constructs new data by bootstrapping projection vectors and adding them to the ridge. We apply our method to the inference of density ridge and related statistics, and data augmentation to reduce overfitting.
翻訳日:2022-11-06 08:29:08 公開日:2020-07-27
# se(3)-tracknet:合成領域における画像残差の校正によるデータ駆動型6次元ポーズ追跡

se(3)-TrackNet: Data-driven 6D Pose Tracking by Calibrating Image Residuals in Synthetic Domains ( http://arxiv.org/abs/2007.13866v1 )

ライセンス: Link先を確認
Bowen Wen, Chaitanya Mitash, Baozhang Ren, Kostas E. Bekris(参考訳) ビデオシーケンス中の物体の6Dポーズを追跡することはロボット操作にとって重要である。 しかし、この課題には複数の課題が伴う。 i) ロボット操作は、重要な閉塞を伴う (ii)データとアノテーションは、機械学習ソリューションを複雑にする6Dポーズの収集が困難で困難である。 3) 物体のポーズの再初期化に必要な長期追跡において、漸進的エラードリフトはしばしば蓄積される。 本研究は,6次元ポーズ追跡のためのデータ駆動最適化手法を提案する。 本研究の目的は、現在のRGB-D観測と、前回の推定値と対象物のモデルに基づく合成画像から、最適相対ポーズを特定することである。 このコンテキストにおける重要な貢献は、ドメインシフトを減らすために機能エンコーディングを適切に切り離す新しいニューラルネットワークアーキテクチャと、Lie Algebraによる効果的な3D配向表現である。 したがって、ネットワークを合成データのみで訓練しても実画像上で効果的に動作させることができる。 ベンチマークに関する総合的な実験 – 既存のデータセットに加えて,オブジェクト操作に関連する重要なオクルージョンを持つ新たなデータセット – は,提案手法が一貫して堅牢な見積を実現し,実際のイメージでトレーニングされたとしても,代替手段を上回っていることを示している。 この手法は代替法の中でも最も計算効率が良く、追跡周波数は90.9Hzに達する。

Tracking the 6D pose of objects in video sequences is important for robot manipulation. This task, however, introduces multiple challenges: (i) robot manipulation involves significant occlusions; (ii) data and annotations are troublesome and difficult to collect for 6D poses, which complicates machine learning solutions, and (iii) incremental error drift often accumulates in long term tracking to necessitate re-initialization of the object's pose. This work proposes a data-driven optimization approach for long-term, 6D pose tracking. It aims to identify the optimal relative pose given the current RGB-D observation and a synthetic image conditioned on the previous best estimate and the object's model. The key contribution in this context is a novel neural network architecture, which appropriately disentangles the feature encoding to help reduce domain shift, and an effective 3D orientation representation via Lie Algebra. Consequently, even when the network is trained only with synthetic data can work effectively over real images. Comprehensive experiments over benchmarks - existing ones as well as a new dataset with significant occlusions related to object manipulation - show that the proposed approach achieves consistently robust estimates and outperforms alternatives, even though they have been trained with real images. The approach is also the most computationally efficient among the alternatives and achieves a tracking frequency of 90.9Hz.
翻訳日:2022-11-06 08:28:54 公開日:2020-07-27
# マルチモーダル深層ニューラルネットワークを用いたソーシャルメディア上での取引に基づく脱税行動の検出

Detecting Transaction-based Tax Evasion Activities on Social Media Platforms Using Multi-modal Deep Neural Networks ( http://arxiv.org/abs/2007.13525v1 )

ライセンス: Link先を確認
Lelin Zhang (1), Xi Nan (2), Eva Huang (2), Sidong Liu (3) ((1) University of Technology Sydney, (2) The University of Sydney Business School, (3) Macquarie University)(参考訳) ソーシャルメディアプラットフォームは、コミュニケーション、コンテンツ共有、さらには異なるユーザー間の支払いの便利な手段を提供することで、数十億のユーザーをサービスしている。 このような便利で無秩序な性質から、未登録の市場参加者の間で税を払わずに事業活動を促進・遂行するためにも利用されてきた。 税務当局は伝統的な規制手段によってこれらの隠れた経済活動の規制に困難に直面している。 本稿では,国際税務当局がソーシャルメディア上での取引に基づく脱税行為を検知するための,機械学習によるレグテックツールを提案する。 このようなツールを構築するために、58,660のInstagram投稿のデータセットを収集し、トランザクションベースの脱税活動に関連する複数の特性を持つ2,081のサンプル投稿を手作業でラベル付けしました。 データセットに基づいて,疑わしいポストを自動的に検出するマルチモーダルディープニューラルネットワークを開発した。 提案モデルは、コメント、ハッシュタグ、画像モダリティを組み合わせて最終的な出力を生成する。 実験の結果, AUCは0.808, F1は0.762となり, 単調モデルよりも優れていた。 このツールは、税務当局が監査対象を効率的かつ効果的に特定し、大規模に社会的Eコマースの脱税と戦うのに役立つ。

Social media platforms now serve billions of users by providing convenient means of communication, content sharing and even payment between different users. Due to such convenient and anarchic nature, they have also been used rampantly to promote and conduct business activities between unregistered market participants without paying taxes. Tax authorities worldwide face difficulties in regulating these hidden economy activities by traditional regulatory means. This paper presents a machine learning based Regtech tool for international tax authorities to detect transaction-based tax evasion activities on social media platforms. To build such a tool, we collected a dataset of 58,660 Instagram posts and manually labelled 2,081 sampled posts with multiple properties related to transaction-based tax evasion activities. Based on the dataset, we developed a multi-modal deep neural network to automatically detect suspicious posts. The proposed model combines comments, hashtags and image modalities to produce the final output. As shown by our experiments, the combined model achieved an AUC of 0.808 and F1 score of 0.762, outperforming any single modality models. This tool could help tax authorities to identify audit targets in an efficient and effective manner, and combat social e-commerce tax evasion in scale.
翻訳日:2022-11-06 08:22:20 公開日:2020-07-27
# 構造データ情報を考慮した加法テンソル分解

Additive Tensor Decomposition Considering Structural Data Information ( http://arxiv.org/abs/2007.13860v1 )

ライセンス: Link先を確認
Shancong Mou, Andi Wang, Chuck Zhang and Jianjun Shi(参考訳) 豊富な構造情報を持つテンソルデータは、プロセスモデリング、モニタリング、診断においてますます重要になる。 ここでは、構造情報は、疎度、滑らか性、低ランク、断片的一貫性などの構造的性質を参照する。 テンソルデータから有用な情報を明らかにするため,テンソルを異なる構造情報に基づいて複数の成分の和に分解する手法を提案する。 本稿では,テンソルデータにおける構造情報の新たな定義を提案する。 そこで本研究では,テンソルデータから有用な情報を抽出する加法テンソル分解(ATD)フレームワークを提案する。 このフレームワークは、異なる構造情報を持つコンポーネントを得るための高次元最適化問題を特定する。 並列性が高く,提案する最適化問題に適した乗算器(admm)アルゴリズムの交互方向法を提案する。 医用画像解析における2つのシミュレーション例と実例研究は,ATDフレームワークの汎用性と有効性を示している。

Tensor data with rich structural information becomes increasingly important in process modeling, monitoring, and diagnosis. Here structural information is referred to structural properties such as sparsity, smoothness, low-rank, and piecewise constancy. To reveal useful information from tensor data, we propose to decompose the tensor into the summation of multiple components based on different structural information of them. In this paper, we provide a new definition of structural information in tensor data. Based on it, we propose an additive tensor decomposition (ATD) framework to extract useful information from tensor data. This framework specifies a high dimensional optimization problem to obtain the components with distinct structural information. An alternating direction method of multipliers (ADMM) algorithm is proposed to solve it, which is highly parallelable and thus suitable for the proposed optimization problem. Two simulation examples and a real case study in medical image analysis illustrate the versatility and effectiveness of the ATD framework.
翻訳日:2022-11-06 08:21:41 公開日:2020-07-27
# 推薦システムとしての階層型bigraphニューラルネットワーク

Hierarchical BiGraph Neural Network as Recommendation Systems ( http://arxiv.org/abs/2007.16000v1 )

ライセンス: Link先を確認
Dom Huh(参考訳) グラフニューラルネットワークは、グラフドメインで最もよく表現されるデータセットを扱うアプリケーションの有望なモデリング手法として登場します。 具体的には、開発レコメンデーションシステムは、しばしば、ユーザーまたはアイテムの双方で機能豊かさに欠け、最適なパフォーマンスのために適切なコンテキスト内での処理を必要とするスパース構造化データに対処する必要がある。 これらのデータセットは直感的にネットワークやグラフにマッピングされ、表現することができる。 本稿では,GNNをレコメンデーションシステムとして使用し,ビグラフフレームワークを用いたユーザイテム機能を構築する階層型バイグラフニューラルネットワーク(HBGNN)を提案する。 実験の結果,提案手法と伝達性との競合性能が示された。

Graph neural networks emerge as a promising modeling method for applications dealing with datasets that are best represented in the graph domain. In specific, developing recommendation systems often require addressing sparse structured data which often lacks the feature richness in either the user and/or item side and requires processing within the correct context for optimal performance. These datasets intuitively can be mapped to and represented as networks or graphs. In this paper, we propose the Hierarchical BiGraph Neural Network (HBGNN), a hierarchical approach of using GNNs as recommendation systems and structuring the user-item features using a bigraph framework. Our experimental results show competitive performance with current recommendation system methods and transferability.
翻訳日:2022-11-06 08:21:02 公開日:2020-07-27
# 一般化可能な人物再同定のための二重分布アライメントネットワーク

Dual Distribution Alignment Network for Generalizable Person Re-Identification ( http://arxiv.org/abs/2007.13249v1 )

ライセンス: Link先を確認
Peixian Chen, Pingyang Dai, Jianzhuang Liu, Feng Zheng, Qi Tian, Rongrong Ji(参考訳) ドメインの一般化(dg)は、ソースドメインのみからラベルを使用してモデルをトレーニングし、モデル更新なしにトレーニングされたモデルをターゲットドメインに直接適用する、人物再識別(re-id)に対処する有望なソリューションとして機能する。 しかしながら、既存のDGアプローチは、大きなデータセットのバリエーションのために、深刻なドメインのバリエーションによって混乱することが多い。 その後、DGはドメイン不変の機能の設計に大きく依存するが、多くの既存のアプローチは、DGベースのモデルをトレーニングするために複数のデータセットを直接混ぜるため、ローカルなデータセットの類似性、すなわち、非常に類似しているが異なるドメインからの例を考慮しない。 本稿では,複数のソース領域の分布を選択的に整列させることにより,画像の領域不変特徴空間へのマッピングを行う2重分布アライメントネットワーク(ddan)を提案する。 このようなアライメントはデュアルレベル制約、すなわちドメイン毎の敵対的特徴学習とアイデンティティ・アライメントの類似性強化によって実行される。 大規模なDomain Generalization Re-ID(DG Re-ID)ベンチマークでDDANを評価した。 定量的な結果から,提案するddanは様々なソースドメインの分布を適切に調整でき,既存のすべてのドメイン一般化アプローチを著しく上回ることがわかった。

Domain generalization (DG) serves as a promising solution to handle person Re-Identification (Re-ID), which trains the model using labels from the source domain alone, and then directly adopts the trained model to the target domain without model updating. However, existing DG approaches are usually disturbed by serious domain variations due to significant dataset variations. Subsequently, DG highly relies on designing domain-invariant features, which is however not well exploited, since most existing approaches directly mix multiple datasets to train DG based models without considering the local dataset similarities, i.e., examples that are very similar but from different domains. In this paper, we present a Dual Distribution Alignment Network (DDAN), which handles this challenge by mapping images into a domain-invariant feature space by selectively aligning distributions of multiple source domains. Such an alignment is conducted by dual-level constraints, i.e., the domain-wise adversarial feature learning and the identity-wise similarity enhancement. We evaluate our DDAN on a large-scale Domain Generalization Re-ID (DG Re-ID) benchmark. Quantitative results demonstrate that the proposed DDAN can well align the distributions of various source domains, and significantly outperforms all existing domain generalization approaches.
翻訳日:2022-11-06 08:20:50 公開日:2020-07-27
# 教師なしドメイン適応のためのタスク指向不整合表現の学習

Learning Task-oriented Disentangled Representations for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2007.13264v1 )

ライセンス: Link先を確認
Pingyang Dai, Peixian Chen, Qiong Wu, Xiaopeng Hong, Qixiang Ye, Qi Tian, Rongrong Ji(参考訳) unsupervised domain adaptation (uda) はラベル付きソースドメインとラベルなしターゲットドメインの間のドメインシフト問題に対処することを目的としている。 トレーニングとテストデータの分散のミスマッチに対処するために多くの努力がなされているが、残念ながら彼らはドメイン間のタスク指向の情報を無視しており、複雑なオープンセットシナリオではうまく機能しない。 ドメイン不変表現を学習することにより、トレーニングとテストデータの分布のミスマッチを排除するために多くの努力がなされている。 しかし、学習された表現は通常タスク指向ではない。 この欠点は、ドメイン間でラベルが共有されない複雑なオープンセットタスクにおいて、UDAの柔軟性を制限する。 本稿では,タスク指向性の概念をタスク関連性とタスク非依存に分解し,動的タスク指向型アンタングルネットワーク(DTDN)を提案する。 動的ディエンタングリングネットワークは、データ表現を、ドメイン間でタスクに関連する重要な情報を埋め込んだタスク関連と、残りの非参照や乱雑な情報を含むタスク関連とに効果的に分離する。 これら2つのコンポーネントは、ドメイン間のタスク固有の目的関数のグループによって正規化される。 このような正規化は明確に分離を奨励し、生成モデルやデコーダの使用を避ける。 複雑なオープンセットシナリオ(リトライバルタスク)と経験的ベンチマーク(クラス化タスク)の実験は、提案手法が豊富な異種情報を取り込んで優れた性能を達成することを実証する。

Unsupervised domain adaptation (UDA) aims to address the domain-shift problem between a labeled source domain and an unlabeled target domain. Many efforts have been made to address the mismatch between the distributions of training and testing data, but unfortunately, they ignore the task-oriented information across domains and are inflexible to perform well in complicated open-set scenarios. Many efforts have been made to eliminate the mismatch between the distributions of training and testing data by learning domain-invariant representations. However, the learned representations are usually not task-oriented, i.e., being class-discriminative and domain-transferable simultaneously. This drawback limits the flexibility of UDA in complicated open-set tasks where no labels are shared between domains. In this paper, we break the concept of task-orientation into task-relevance and task-irrelevance, and propose a dynamic task-oriented disentangling network (DTDN) to learn disentangled representations in an end-to-end fashion for UDA. The dynamic disentangling network effectively disentangles data representations into two components: the task-relevant ones embedding critical information associated with the task across domains, and the task-irrelevant ones with the remaining non-transferable or disturbing information. These two components are regularized by a group of task-specific objective functions across domains. Such regularization explicitly encourages disentangling and avoids the use of generative models or decoders. Experiments in complicated, open-set scenarios (retrieval tasks) and empirical benchmarks (classification tasks) demonstrate that the proposed method captures rich disentangled information and achieves superior performance.
翻訳日:2022-11-06 08:20:24 公開日:2020-07-27
# 畳み込みニューラルネットワークの研究の進展と物体検出への応用

Research Progress of Convolutional Neural Network and its Application in Object Detection ( http://arxiv.org/abs/2007.13284v1 )

ライセンス: Link先を確認
Wei Zhang and Zuoxiang Zeng(参考訳) コンピュータ性能の向上とデータボリュームの増加により、畳み込みニューラルネットワーク(CNN)に基づく物体検出がオブジェクト検出の主要なアルゴリズムとなっている。 本稿では, 物体検出における畳み込みニューラルネットワークとその応用研究の進展を要約し, 物体検出に畳み込みニューラルネットワークを適用するための具体的なアイデアと手法を分析・議論し, 現状の欠陥と今後の発展方向を指摘する。

With the improvement of computer performance and the increase of data volume, the object detection based on convolutional neural network (CNN) has become the main algorithm for object detection. This paper summarizes the research progress of convolutional neural networks and their applications in object detection, and focuses on analyzing and discussing a specific idea and method of applying convolutional neural networks for object detection, pointing out the current deficiencies and future development direction.
翻訳日:2022-11-06 08:19:45 公開日:2020-07-27
# 非バウンド外部アーカイブによるmoea/dのアルゴリズム構成

Algorithm Configurations of MOEA/D with an Unbounded External Archive ( http://arxiv.org/abs/2007.13352v1 )

ライセンス: Link先を確認
Lie Meng Pang, Hisao Ishibuchi and Ke Shang(参考訳) 進化的多目的最適化(EMO)コミュニティでは、EMOアルゴリズムの実行の結果、最終的な人口が決定者へ提示されるのが普通である。 近年,調査対象でないすべてのソリューションから,あらかじめ特定された数の解が選択された研究において,EMOアルゴリズムの性能を評価するために,非有界な外部アーカイブを用いた。 このフレームワークでは、解選択フレームワークと呼ばれるが、最終的な集団は良い解集合である必要はない。 したがって、ソリューション選択フレームワークは、最終集団フレームワークよりもEMOアルゴリズムの設計に高い柔軟性を提供する。 本稿では,この2つのフレームワークによるMOEA/Dの設計について検討する。 まず、初期仕様と最終仕様の様々な組み合わせによる計算実験により、その実行中に基準点仕様を線形に変更することにより、MOEA/Dの性能が向上することを示す。 ソリューション選択フレームワークのロバストかつ高性能性が観察された。 次に,遺伝的アルゴリズムに基づくオフラインハイパーヒューリスティック手法を用いて,各フレームワークにおけるMOEA/Dの最適構成を求める。 最後に、解選択フレームワークにおけるEMOアルゴリズムの実行後の解選択についても論じる。

In the evolutionary multi-objective optimization (EMO) community, it is usually assumed that the final population is presented to the decision maker as the result of the execution of an EMO algorithm. Recently, an unbounded external archive was used to evaluate the performance of EMO algorithms in some studies where a pre-specified number of solutions are selected from all the examined non-dominated solutions. In this framework, which is referred to as the solution selection framework, the final population does not have to be a good solution set. Thus, the solution selection framework offers higher flexibility to the design of EMO algorithms than the final population framework. In this paper, we examine the design of MOEA/D under these two frameworks. First, we show that the performance of MOEA/D is improved by linearly changing the reference point specification during its execution through computational experiments with various combinations of initial and final specifications. Robust and high performance of the solution selection framework is observed. Then, we examine the use of a genetic algorithm-based offline hyper-heuristic method to find the best configuration of MOEA/D in each framework. Finally, we further discuss solution selection after the execution of an EMO algorithm in the solution selection framework.
翻訳日:2022-11-06 08:12:08 公開日:2020-07-27
# ベンチマークメタヒューリスティック最適化

Benchmarking Meta-heuristic Optimization ( http://arxiv.org/abs/2007.13476v1 )

ライセンス: Link先を確認
Mona Nasr, Omar Farouk, Ahmed Mohamedeen, Ali Elrafie, Marwan Bedeir and Ali Khaled(参考訳) 任意の領域における最適化タスクの解決は、特に非線形問題や非凸関数を扱う場合、非常に難しい問題である。 多くのメタヒューリスティックアルゴリズムは非線形関数を解く際に非常に効率的である。 メタヒューリスティックアルゴリズムは、幅広い問題に適用できる問題に依存しない手法である。 この実験では、いくつかの進化的アルゴリズムがテストされ、評価され、比較される。 我々は、遺伝的アルゴリズム\、微分進化、粒子群最適化アルゴリズム、Grey Wolf Optimizer、シミュレートされたアニーリングを経る。 アルゴリズムが世代を通してどのように機能するか、アルゴリズムの結果が最適な結果にどのように近いかなど、多くの観点から評価される。 その他の評価のポイントは後段のセクションで深く議論される。

Solving an optimization task in any domain is a very challenging problem, especially when dealing with nonlinear problems and non-convex functions. Many meta-heuristic algorithms are very efficient when solving nonlinear functions. A meta-heuristic algorithm is a problem-independent technique that can be applied to a broad range of problems. In this experiment, some of the evolutionary algorithms will be tested, evaluated, and compared with each other. We will go through the Genetic Algorithm\, Differential Evolution, Particle Swarm Optimization Algorithm, Grey Wolf Optimizer, and Simulated Annealing. They will be evaluated against the performance from many points of view like how the algorithm performs throughout generations and how the algorithm's result is close to the optimal result. Other points of evaluation are discussed in depth in later sections.
翻訳日:2022-11-06 08:11:51 公開日:2020-07-27
# ハイブリッド協調・コンテキスト対応データマイニングシナリオ設計のための革新的プラットフォーム

Innovative Platform for Designing Hybrid Collaborative & Context-Aware Data Mining Scenarios ( http://arxiv.org/abs/2007.13705v1 )

ライセンス: Link先を確認
Anca Avram, Oliviu Matei, Camelia Pintea, Carmen Anton(参考訳) 知識発見のプロセスは、今日では多数の技術を含んでいる。 CADM(Context-Aware Data Mining)とCDM(Collaborative Data Mining)は、最近のもののひとつである。 最近の研究は、プラットフォームコラボレーションとコンテキスト認識データマイニング(sp-ccadm)と呼ばれる予測モデルを設計するための、新しいハイブリッドで効率的なツールを提案する。 CADMとCDMの両方のアプローチがフレキシブルな方法で新しいプラットフォームに含まれている。SP-CCADMはデータマイニングに関連する複数の設定可能なシナリオの設定とテストを可能にする。 紹介されたプラットフォームは実生活シナリオで試験と検証が成功し、スタンドアロンのCADMやCDMよりも優れた結果が得られた。 それでもSP-CCADMは、k-Nearest Neighbour (k-NN)、Deep Learning (DL)、Gradient Boosted Trees (GBT)、Decision Trees (DT)といった機械学習アルゴリズムで検証された。 SP-CCADMは複雑なデータに直面する際に一歩前進し、データコンテキストに適切にアプローチし、データ間の協調を行う。 数値実験と統計は、提案されたプラットフォームの可能性を詳細に示している。

The process of knowledge discovery involves nowadays a major number of techniques. Context-Aware Data Mining (CADM) and Collaborative Data Mining (CDM) are some of the recent ones. the current research proposes a new hybrid and efficient tool to design prediction models called Scenarios Platform-Collaborative & Context-Aware Data Mining (SP-CCADM). Both CADM and CDM approaches are included in the new platform in a flexible manner; SP-CCADM allows the setting and testing of multiple configurable scenarios related to data mining at once. The introduced platform was successfully tested and validated on real life scenarios, providing better results than each standalone technique-CADM and CDM. Nevertheless, SP-CCADM was validated with various machine learning algorithms-k-Nearest Neighbour (k-NN), Deep Learning (DL), Gradient Boosted Trees (GBT) and Decision Trees (DT). SP-CCADM makes a step forward when confronting complex data, properly approaching data contexts and collaboration between data. Numerical experiments and statistics illustrate in detail the potential of the proposed platform.
翻訳日:2022-11-06 08:11:25 公開日:2020-07-27
# 医療の簡易かつ解釈可能な予測モデル

A Simple and Interpretable Predictive Model for Healthcare ( http://arxiv.org/abs/2007.13351v1 )

ライセンス: Link先を確認
Subhadip Maji, Raghav Bali, Sree Harsha Ankem and Kishore V Ayyadevara(参考訳) ディープラーニングベースのモデルは現在、病気予測のための最先端ソリューションのほとんどを占めている。 既存の作業では、解釈可能性を提供するために、RNNと複数のレベルの注意メカニズムが採用されている。 トレーニング可能なパラメータが数百万にも及ぶこれらのディープラーニングモデルは、トレーニングとデプロイに膨大な計算とデータを必要とする。 これらの要求は非常に大きいため、そのようなモデルの使用は実現不可能である。 EHRデータに適用するための、よりシンプルで解釈可能な非深層学習ベースモデルを開発することで、これらの課題に対処する。 既存の研究でしばしば見過ごされる診断の最初の発生を予測するタスクについて、作業の結果をモデル化し、見せびらかす。 ツリーベースのモデルの能力を押し上げ、より洗練されたモデルのための強力なベースラインを思いついたのです。 そのパフォーマンスは、解釈可能性を維持しながら、ディープラーニングベースのソリューション(初回実行時の制約となし)よりも改善されている。

Deep Learning based models are currently dominating most state-of-the-art solutions for disease prediction. Existing works employ RNNs along with multiple levels of attention mechanisms to provide interpretability. These deep learning models, with trainable parameters running into millions, require huge amounts of compute and data to train and deploy. These requirements are sometimes so huge that they render usage of such models as unfeasible. We address these challenges by developing a simpler yet interpretable non-deep learning based model for application to EHR data. We model and showcase our work's results on the task of predicting first occurrence of a diagnosis, often overlooked in existing works. We push the capabilities of a tree based model and come up with a strong baseline for more sophisticated models. Its performance shows an improvement over deep learning based solutions (both, with and without the first-occurrence constraint) all the while maintaining interpretability.
翻訳日:2022-11-06 08:10:40 公開日:2020-07-27
# ラベル一貫性に基づく半教師付きノード分類のためのグラフニューラルネットワーク

Label-Consistency based Graph Neural Networks for Semi-supervised Node Classification ( http://arxiv.org/abs/2007.13435v1 )

ライセンス: Link先を確認
Bingbing Xu, Junjie Huang, Liang Hou, Huawei Shen, Jinhua Gao, Xueqi Cheng(参考訳) グラフニューラルネットワーク(GNN)はグラフベースの半教師付きノード分類において顕著な成功を収め、近隣ノードの情報を活用してターゲットノードの表現学習を改善する。 ノード分類におけるGNNの成功は、接続ノードが同じラベルを持つ傾向があるという仮定に依存する。 しかし、そのような仮定は必ずしも機能せず、ノード分類におけるGNNの性能を制限している。 本稿では,GNNにおけるノードの受容領域を拡大するために,ノードペアが接続されていないが同一のラベルを持つラベル一貫性に基づくグラフニューラルネットワーク(LC-GNN)を提案する。 ベンチマークデータセットの実験では、LC-GNNはグラフベースの半教師付きノード分類において従来のGNNよりも優れており、少数のラベル付きノードしか持たないスパースシナリオにおけるLC-GNNの優位性を示す。

Graph neural networks (GNNs) achieve remarkable success in graph-based semi-supervised node classification, leveraging the information from neighboring nodes to improve the representation learning of target node. The success of GNNs at node classification depends on the assumption that connected nodes tend to have the same label. However, such an assumption does not always work, limiting the performance of GNNs at node classification. In this paper, we propose label-consistency based graph neural network(LC-GNN), leveraging node pairs unconnected but with the same labels to enlarge the receptive field of nodes in GNNs. Experiments on benchmark datasets demonstrate the proposed LC-GNN outperforms traditional GNNs in graph-based semi-supervised node classification.We further show the superiority of LC-GNN in sparse scenarios with only a handful of labeled nodes.
翻訳日:2022-11-06 08:10:28 公開日:2020-07-27
# リファクタリングと補間による代理損失の統一的枠組み

A Unified Framework of Surrogate Loss by Refactoring and Interpolation ( http://arxiv.org/abs/2007.13870v1 )

ライセンス: Link先を確認
Lanlan Liu, Mingzhe Wang, Jia Deng(参考訳) unilossは,勾配降下を伴う深層ネットワークを訓練するためのサブロゲート損失を生成する統一フレームワークであり,タスク固有のサブロゲート損失の手動設計量を削減する。 我々のキーとなる観察は、多くの場合、実測値の入力から実測値まで、スコアからスコアのペア比較、バイナリ変数の比較、バイナリ変数から最終測値までの4つのステップにリファクタリングできるということです。 このリファクタリングを使用することで、補間を通じて微分不能なステップごとに微分可能近似を生成する。 unilossを使うことで、1つの統一フレームワークを使って異なるタスクとメトリクスを最適化し、タスク固有の損失と同等のパフォーマンスを実現します。 3つのタスクと4つのデータセットに対するUniLossの有効性を検証する。 コードはhttps://github.com/princeton-vl/unilossで入手できる。

We introduce UniLoss, a unified framework to generate surrogate losses for training deep networks with gradient descent, reducing the amount of manual design of task-specific surrogate losses. Our key observation is that in many cases, evaluating a model with a performance metric on a batch of examples can be refactored into four steps: from input to real-valued scores, from scores to comparisons of pairs of scores, from comparisons to binary variables, and from binary variables to the final performance metric. Using this refactoring we generate differentiable approximations for each non-differentiable step through interpolation. Using UniLoss, we can optimize for different tasks and metrics using one unified framework, achieving comparable performance compared with task-specific losses. We validate the effectiveness of UniLoss on three tasks and four datasets. Code is available at https://github.com/princeton-vl/uniloss.
翻訳日:2022-11-06 08:02:34 公開日:2020-07-27
# 時空間交通グラフを用いた交通状態の定義

Defining Traffic States using Spatio-temporal Traffic Graphs ( http://arxiv.org/abs/2008.00827v1 )

ライセンス: Link先を確認
Debaditya Roy, K. Naveen Kumar, C. Krishna Mohan(参考訳) 交差点は混雑の主な原因の1つであり,交差点における交通行動を理解することが重要である。 特に, 自動車密度, 混在交通タイプ, レーンレス運転行動の発達途上国では, 渋滞と正常交通行動の区別が困難である。 本研究では,トラヒックグラフを用いて交差点におけるより小さな空間領域の交通状態を理解する手法を提案する。 トラフィックグラフが時間とともにどのように進化するかは、異なるトラフィック状態を明らかにします。a) 渋滞が形成されている(クランプ)、渋滞が分散している(アンクランプ)、c) トラフィックが正常に流れている(中性)。 これらの変化を特定するために、時空間深層ネットワークをトレーニングする。 また、インド・アフマドバードの3つの交差点で収集された3時間の空中ビデオを含むEyeonTraffic (EoT)と呼ばれる大規模なデータセットも紹介した。 EoTデータセットを用いた実験により,交通グラフは交差点の異なる空間領域における混雑傾向を正確に識別するのに役立つことが示された。

Intersections are one of the main sources of congestion and hence, it is important to understand traffic behavior at intersections. Particularly, in developing countries with high vehicle density, mixed traffic type, and lane-less driving behavior, it is difficult to distinguish between congested and normal traffic behavior. In this work, we propose a way to understand the traffic state of smaller spatial regions at intersections using traffic graphs. The way these traffic graphs evolve over time reveals different traffic states - a) a congestion is forming (clumping), the congestion is dispersing (unclumping), or c) the traffic is flowing normally (neutral). We train a spatio-temporal deep network to identify these changes. Also, we introduce a large dataset called EyeonTraffic (EoT) containing 3 hours of aerial videos collected at 3 busy intersections in Ahmedabad, India. Our experiments on the EoT dataset show that the traffic graphs can help in correctly identifying congestion-prone behavior in different spatial regions of an intersection.
翻訳日:2022-11-06 08:02:21 公開日:2020-07-27
# エンドツーエンド音声認識のためのRNN変換器の最小単語誤り率学習

Efficient minimum word error rate training of RNN-Transducer for end-to-end speech recognition ( http://arxiv.org/abs/2007.13802v1 )

ライセンス: Link先を確認
Jinxi Guo, Gautam Tiwari, Jasha Droppo, Maarten Van Segbroeck, Che-Wei Huang, Andreas Stolcke, Roland Maas(参考訳) 本稿では,RNN-Transducer (RNN-T) のための新しい,効率的な最小単語誤り率 (MWER) トレーニング手法を提案する。 提案手法では, オンザフライで限定的なビームサーチデコードを行い, 期待される編集距離計算のためのアライメントスコアを生成する, 先行研究と異なり, 提案手法では, n-bestリストの各仮説に対して, 可能なアライメントのスコアを再計算し, 集計する。 前向きアルゴリズムを用いて仮説確率スコアと後向き勾配を効率的に算出する。 さらに,提案手法によりデコードとトレーニングプロセスの分離が可能となり,各サブセットに対してオフライン並列デコードとMWERトレーニングを反復的に行うことができる。 実験結果から,このセミ・オン・ザ・フライ法は6倍の高速化を実現し,ベースラインRNN-TモデルよりもWERの改善(3.6%)を達成できた。 提案されたMWERトレーニングは、エンドポイントにEOSを追加する際にRNN-Tモデルで導入された高削除誤差(9.2% WER-reduction)を効果的に低減する。 提案手法を用いて仮説の再検討を行い, 外部RNN-LMを用いてさらなる再描画を行う場合, さらなる改善が期待できる。 最高のシステムは、イングランドのテストセットである実際の遠距離録音を5%改善し、音楽領域の発話を11.6%削減する。

In this work, we propose a novel and efficient minimum word error rate (MWER) training method for RNN-Transducer (RNN-T). Unlike previous work on this topic, which performs on-the-fly limited-size beam-search decoding and generates alignment scores for expected edit-distance computation, in our proposed method, we re-calculate and sum scores of all the possible alignments for each hypothesis in N-best lists. The hypothesis probability scores and back-propagated gradients are calculated efficiently using the forward-backward algorithm. Moreover, the proposed method allows us to decouple the decoding and training processes, and thus we can perform offline parallel-decoding and MWER training for each subset iteratively. Experimental results show that this proposed semi-on-the-fly method can speed up the on-the-fly method by 6 times and result in a similar WER improvement (3.6%) over a baseline RNN-T model. The proposed MWER training can also effectively reduce high-deletion errors (9.2% WER-reduction) introduced by RNN-T models when EOS is added for endpointer. Further improvement can be achieved if we use a proposed RNN-T rescoring method to re-rank hypotheses and use external RNN-LM to perform additional rescoring. The best system achieves a 5% relative improvement on an English test-set of real far-field recordings and a 11.6% WER reduction on music-domain utterances.
翻訳日:2022-11-06 08:01:45 公開日:2020-07-27
# 機械学習による構造物の非線形地震応答予測

Predicting Nonlinear Seismic Response of Structural Braces Using Machine Learning ( http://arxiv.org/abs/2007.13662v1 )

ライセンス: Link先を確認
Elif Ecem Bas, Denis Aslangil, Mohamed A. Moustafa(参考訳) 高い非線形挙動を持つ異なる構造材料の数値モデリングは、エンジニアリング分野において常に難しい問題であった。 実験データは、この振る舞いを特徴づけるために一般的に使用される。 本研究は,最先端の機械学習技術を用いてモデリング能力を向上させることを目的としており,いくつかの科学的疑問に答えようとする。 i)このような複雑で非線形な問題を学習するには,どのMLアルゴリズムが有能で,より効率的か? (ii)実際の物理を表現できる構造括弧地震の挙動を人工的に再現することは可能か?) (iii)類似の非線形ダイナミクスによって引き起こされる異なる工学的問題にどのように拡張できるのか? これらの質問に答えるために,実験的なブラスデータを用いて提案手法を検証する。 本研究は, 適切なデータ処理を行った後, 長時間メモリ(LSTM)法により, ブレースの非線形挙動を捉えることができることを示す。 さらに、層数、ニューロン数、活性化関数などのモデルに対するハイパーパラメータのチューニングの効果を示す。 最後に、ディープニューラルネットワークアルゴリズムを用いて非線形力学を学習する能力とその利点について概説する。

Numerical modeling of different structural materials that have highly nonlinear behaviors has always been a challenging problem in engineering disciplines. Experimental data is commonly used to characterize this behavior. This study aims to improve the modeling capabilities by using state of the art Machine Learning techniques, and attempts to answer several scientific questions: (i) Which ML algorithm is capable and is more efficient to learn such a complex and nonlinear problem? (ii) Is it possible to artificially reproduce structural brace seismic behavior that can represent real physics? (iii) How can our findings be extended to the different engineering problems that are driven by similar nonlinear dynamics? To answer these questions, the presented methods are validated by using experimental brace data. The paper shows that after proper data preparation, the long-short term memory (LSTM) method is highly capable of capturing the nonlinear behavior of braces. Additionally, the effects of tuning the hyperparameters on the models, such as layer numbers, neuron numbers, and the activation functions, are presented. Finally, the ability to learn nonlinear dynamics by using deep neural network algorithms and their advantages are briefly discussed.
翻訳日:2022-11-06 07:54:48 公開日:2020-07-27
# グラディエントDescent Neural Network Trainingの普遍性

Universality of Gradient Descent Neural Network Training ( http://arxiv.org/abs/2007.13664v1 )

ライセンス: Link先を確認
G. Welper(参考訳) ニューラルネットワークの設計選択は、しばしば最適化の成功に不可欠であることが観察されている。 そこで本稿では,ニューラルネットワークの再設計が常に可能であるかどうかを論じる。 これは次のような普遍性の結果をもたらす: 与えられたネットワークに対して、分類タスクに対して適切なネットワーク重みを求めることができるアルゴリズムが存在するならば、このネットワークの拡張により、これらの重みと、単なる勾配降下訓練によって対応する前方出力を再現できる。 この構成は実用的な計算を意図したものではなく、メタラーニングと関連するアプローチの可能性に関するいくつかの方向性を提供する。

It has been observed that design choices of neural networks are often crucial for their successful optimization. In this article, we therefore discuss the question if it is always possible to redesign a neural network so that it trains well with gradient descent. This yields the following universality result: If, for a given network, there is any algorithm that can find good network weights for a classification task, then there exists an extension of this network that reproduces these weights and the corresponding forward output by mere gradient descent training. The construction is not intended for practical computations, but it provides some orientation on the possibilities of meta-learning and related approaches.
翻訳日:2022-11-06 07:54:33 公開日:2020-07-27
# 特徴空間投影による半自動データアノテーション

Semi-Automatic Data Annotation guided by Feature Space Projection ( http://arxiv.org/abs/2007.13689v1 )

ライセンス: Link先を確認
Barbara Caroline Benato and Jancarlo Ferreira Gomes and Alexandru Cristian Telea and Alexandre Xavier Falc\~ao(参考訳) 各トレーニングサンプルの視覚的検査(スーパービジョン)を用いたデータアノテーションは困難である。 インタラクティブなソリューションは、少数の教師付きサンプルからラベルなしのラベルを、機能空間の投影の視覚的な分析のみに基づいて(追加のサンプルの監督なしで)広めることによって、これを緩和する。 本稿では,適切な特徴空間投影と半教師付きラベル推定に基づく半自動データアノテーション手法を提案する。 我々は,MNISTデータセットとヒト腸内寄生虫の糞便不純物の有無を画像で検証し,分類を極めて困難にする大規模かつ多種多様なデータセットについて検証した。 潜在空間と投影空間から半教師付き学習を行うための2つのアプローチを評価し,ユーザアノテーションの労力を最善に削減する手法を選択し,未認識データの分類精度を向上させる。 この結果から,人間と機械の相補的能力を組み合わせた視覚分析ツールの付加価値を,より効果的な機械学習に応用した。

Data annotation using visual inspection (supervision) of each training sample can be laborious. Interactive solutions alleviate this by helping experts propagate labels from a few supervised samples to unlabeled ones based solely on the visual analysis of their feature space projection (with no further sample supervision). We present a semi-automatic data annotation approach based on suitable feature space projection and semi-supervised label estimation. We validate our method on the popular MNIST dataset and on images of human intestinal parasites with and without fecal impurities, a large and diverse dataset that makes classification very hard. We evaluate two approaches for semi-supervised learning from the latent and projection spaces, to choose the one that best reduces user annotation effort and also increases classification accuracy on unseen data. Our results demonstrate the added-value of visual analytics tools that combine complementary abilities of humans and machines for more effective machine learning.
翻訳日:2022-11-06 07:54:22 公開日:2020-07-27
# MaxDropout: 最大出力値に基づくディープニューラルネットワークの正規化

MaxDropout: Deep Neural Network Regularization Based on Maximum Output Values ( http://arxiv.org/abs/2007.13723v1 )

ライセンス: Link先を確認
Claudio Filipi Goncalves do Santos, Danilo Colombo, Mateus Roder, Jo\~ao Paulo Papa(参考訳) Convolutional Neural Networks、Deep Belief Networks、Long Short-Term Memory Networksなど、ディープラーニングのシナリオにさまざまなテクニックが登場した。 ロックステップでは、重み接続をペナルティ化したり、いくつかのユニットをオフにすることで過剰フィッティングを防止するための正規化法も広く研究されている。 本稿では,隠れた各層において顕著なニューロン(すなわち最も活発なニューロン)を除去(シャットオフ)することで,教師付きで機能するディープニューラルネットワークモデルのレギュレータであるMaxDropoutを提案する。 このモデルでは、活性化されたユニットを減らして、より多くの代表情報を学習する。 実験では,DropoutをMaxDropoutに置き換えた場合,既存のニューラルネットワークを改良し,ニューラルネットワークでより良い結果が得られることを示す。 提案手法は画像分類において評価され,CutoutやRandomErasingなどの既存の正規化器に匹敵する結果が得られるとともに,既存の層をMaxDropoutに置き換えることでDropoutを用いたニューラルネットワークの精度を向上させる。

Different techniques have emerged in the deep learning scenario, such as Convolutional Neural Networks, Deep Belief Networks, and Long Short-Term Memory Networks, to cite a few. In lockstep, regularization methods, which aim to prevent overfitting by penalizing the weight connections, or turning off some units, have been widely studied either. In this paper, we present a novel approach called MaxDropout, a regularizer for deep neural network models that works in a supervised fashion by removing (shutting off) the prominent neurons (i.e., most active) in each hidden layer. The model forces fewer activated units to learn more representative information, thus providing sparsity. Regarding the experiments, we show that it is possible to improve existing neural networks and provide better results in neural networks when Dropout is replaced by MaxDropout. The proposed method was evaluated in image classification, achieving comparable results to existing regularizers, such as Cutout and RandomErasing, also improving the accuracy of neural networks that uses Dropout by replacing the existing layer by MaxDropout.
翻訳日:2022-11-06 07:54:06 公開日:2020-07-27
# cpas:英国の新型コロナウイルス(covid-19)のための全国的な機械学習ベースの病院容量計画システム

CPAS: the UK's National Machine Learning-based Hospital Capacity Planning System for COVID-19 ( http://arxiv.org/abs/2007.13825v1 )

ライセンス: Link先を確認
Zhaozhi Qian and Ahmed M. Alaa and Mihaela van der Schaar(参考訳) 新型コロナウイルス(COVID-19)の世界的な感染拡大は、医療資源の過剰な需要を伴う圧倒的な医療システムの脅威を招いている。 これらの要求を管理することは、全国、地域、病院、個人レベルでの病院の需要を予測するデータに依存する全国的な集団的努力なしには効果的に実行できない。 この目的のために、我々は、病院リソース計画のための機械学習ベースのシステムであるcovid-19 capacity planning and analysis system (cpas)を開発した。 本稿では,機械学習に基づく意思決定支援システムを全国規模で展開する主な課題について述べるとともに,(1)適切な学習問題の定義,(2)ボトムアップとトップダウンの分析アプローチの組み合わせ,(3)最先端機械学習アルゴリズムの利用,(4)異種データソースの統合,(5)インタラクティブで透明なインターフェースによる結果提示,といった課題について述べる。 cpasは、新型コロナウイルス(covid-19)パンデミックに対処するために、全国規模で病院に展開される最初の機械学習ベースのシステムのひとつです。

The coronavirus disease 2019 (COVID-19) global pandemic poses the threat of overwhelming healthcare systems with unprecedented demands for intensive care resources. Managing these demands cannot be effectively conducted without a nationwide collective effort that relies on data to forecast hospital demands on the national, regional, hospital and individual levels. To this end, we developed the COVID-19 Capacity Planning and Analysis System (CPAS) - a machine learning-based system for hospital resource planning that we have successfully deployed at individual hospitals and across regions in the UK in coordination with NHS Digital. In this paper, we discuss the main challenges of deploying a machine learning-based decision support system at national scale, and explain how CPAS addresses these challenges by (1) defining the appropriate learning problem, (2) combining bottom-up and top-down analytical approaches, (3) using state-of-the-art machine learning algorithms, (4) integrating heterogeneous data sources, and (5) presenting the result with an interactive and transparent interface. CPAS is one of the first machine learning-based systems to be deployed in hospitals on a national scale to address the COVID-19 pandemic - we conclude the paper with a summary of the lessons learned from this experience.
翻訳日:2022-11-06 07:53:10 公開日:2020-07-27
# 多次元回帰のためのマルチタスク学習:発光センシングへの応用

Multi-Task Learning for Multi-Dimensional Regression: Application to Luminescence Sensing ( http://arxiv.org/abs/2007.13875v1 )

ライセンス: Link先を確認
Umberto, Michelucci, Francesca Venturini(参考訳) 物理学における非線形回帰に対する古典的なアプローチは、独立変数の集合から依存変数の機能依存を記述する数学的モデルを取り、非線形適合アルゴリズムを用いてモデリングで使われるパラメータを抽出することである。 特に難しいのは実システムであり、電子部品や光学部品など特定の部品に関連するいくつかの追加的な要因が特徴である。 このような場合、モデルがデータを再現するために、モデルに実験的に決定された用語が組み込まれ、構造上、モデル化が不可能なものをモデル化できないことを補う。 この問題を解決するための新しいアプローチは、ニューラルネットワーク、特に十分な数の隠れ層と適切な数の出力ニューロンを持つフィードフォワードアーキテクチャを使用することである。 残念ながら、フィードフォワードニューラルネットワーク(FFNN)は通常、多次元回帰問題に適用した場合、基本的に異なる方法で入力データセットに依存する複数の変数を同時に予測する必要がある。 この問題に対処するため,マルチタスク学習(MTL)アーキテクチャを提案する。 これらは、共通のレイヤセットの出力として入力されるタスク固有のレイヤの複数のブランチによって特徴づけられる。 多次元回帰に対するこのアプローチのパワーを実証するため, 蛍光センシングに本手法を適用した。 ここでmtlアーキテクチャは、単一の測定セットから複数のパラメータ、酸素濃度と温度を予測することができる。

The classical approach to non-linear regression in physics, is to take a mathematical model describing the functional dependence of the dependent variable from a set of independent variables, and then, using non-linear fitting algorithms, extract the parameters used in the modeling. Particularly challenging are real systems, characterized by several additional influencing factors related to specific components, like electronics or optical parts. In such cases, to make the model reproduce the data, empirically determined terms are built-in the models to compensate for the impossibility of modeling things that are, by construction, impossible to model. A new approach to solve this issue is to use neural networks, particularly feed-forward architectures with a sufficient number of hidden layers and an appropriate number of output neurons, each responsible for predicting the desired variables. Unfortunately, feed-forward neural networks (FFNNs) usually perform less efficiently when applied to multi-dimensional regression problems, that is when they are required to predict simultaneously multiple variables that depend from the input dataset in fundamentally different ways. To address this problem, we propose multi-task learning (MTL) architectures. These are characterized by multiple branches of task-specific layers, which have as input the output of a common set of layers. To demonstrate the power of this approach for multi-dimensional regression, the method is applied to luminescence sensing. Here the MTL architecture allows predicting multiple parameters, the oxygen concentration and the temperature, from a single set of measurements.
翻訳日:2022-11-06 07:52:45 公開日:2020-07-27
# 計画コスト最小化のための資源合理的タスク分割

Resource-rational Task Decomposition to Minimize Planning Costs ( http://arxiv.org/abs/2007.13862v1 )

ライセンス: Link先を確認
Carlos G. Correa, Mark K. Ho, Fred Callaway, Thomas L. Griffiths(参考訳) 人々はしばしば階層的に計画する。 つまり、タスクのモノリシックな表現を計画する代わりに、タスクを単純なサブタスクに分解し、それを達成する計画を立てるのです。 人々がタスクを分解する方法を探求する作業は多いが、なぜタスクを分解するのかという分析は少ない。 本稿では,タスクの分解を資源論理的表現問題として定式化し,この問題に対処する。 具体的には,環境構造や計画アルゴリズムを考慮に入れて,限られた認知資源の効率的な利用を促進する方法でタスクを分解する手法を提案する。 このモデルを用いて,既存の知見を再現した。 当社のアカウントは、サブタスクの識別方法に関する規範的な説明と、リソースの合理表現を使ってどのように推論し、計画し、行動するかを研究するためのフレームワークを提供します。

People often plan hierarchically. That is, rather than planning over a monolithic representation of a task, they decompose the task into simpler subtasks and then plan to accomplish those. Although much work explores how people decompose tasks, there is less analysis of why people decompose tasks in the way they do. Here, we address this question by formalizing task decomposition as a resource-rational representation problem. Specifically, we propose that people decompose tasks in a manner that facilitates efficient use of limited cognitive resources given the structure of the environment and their own planning algorithms. Using this model, we replicate several existing findings. Our account provides a normative explanation for how people identify subtasks as well as a framework for studying how people reason, plan, and act using resource-rational representations.
翻訳日:2022-11-06 07:45:38 公開日:2020-07-27
# サンプルコンテキストによるグリーディバンド

Greedy Bandits with Sampled Context ( http://arxiv.org/abs/2007.16001v1 )

ライセンス: Link先を確認
Dom Huh(参考訳) 環境からのコンテキスト情報を用いて不確実性をモデル化することにより,一状態強化学習タスクにおいてベイズ的手法が有望であることが証明された。 本稿では,Thompson Smplingを用いた文脈情報と,Epsilon-greedyポリシを用いたアームセレクションから,コンテキスト的マルチアームバンディットを事前開発する手法であるGreedy Bandits with Sampled Context (GB-SC)を提案する。 GB-SCフレームワークは、コンテキスト逆依存性の評価と、以前に開発されたコンテキストベクターを部分的に利用することで、部分的に観測可能なコンテキストベクターの堅牢性を提供する。 実験の結果,Mushroom環境において,期待される後悔と期待される累積的後悔と,各文脈のサブセットが意思決定にどう影響するかの知見を比較検討した。

Bayesian strategies for contextual bandits have proved promising in single-state reinforcement learning tasks by modeling uncertainty using context information from the environment. In this paper, we propose Greedy Bandits with Sampled Context (GB-SC), a method for contextual multi-armed bandits to develop the prior from the context information using Thompson Sampling, and arm selection using an epsilon-greedy policy. The framework GB-SC allows for evaluation of context-reward dependency, as well as providing robustness for partially observable context vectors by leveraging the prior developed. Our experimental results show competitive performance on the Mushroom environment in terms of expected regret and expected cumulative regret, as well as insights on how each context subset affects decision-making.
翻訳日:2022-11-06 07:45:26 公開日:2020-07-27
# Moreau-Yosida正則化を用いた二レベルハイパーパラメータの安定化

Stabilizing Bi-Level Hyperparameter Optimization using Moreau-Yosida Regularization ( http://arxiv.org/abs/2007.13322v1 )

ライセンス: Link先を確認
Sauptik Dhar, Unmesh Kurup, Mohak Shah(参考訳) 本研究は,Moreau-Yosidaエンベロープを用いて2レベルハイパーパラメータ最適化の収束挙動を安定化し,Moreau-Yosida regularized Hyperparameter Optimization (MY-HPO)アルゴリズムという新しいアルゴリズムを提案する。 MY-HPO溶液の正当性に関する理論的解析と初期収束解析も提供する。 実験の結果, 最先端の2レベルHPO解法と比較して, 固定計算予算における損失値の大幅な改善が認められた。

This research proposes to use the Moreau-Yosida envelope to stabilize the convergence behavior of bi-level Hyperparameter optimization solvers, and introduces the new algorithm called Moreau-Yosida regularized Hyperparameter Optimization (MY-HPO) algorithm. Theoretical analysis on the correctness of the MY-HPO solution and initial convergence analysis is also provided. Our empirical results show significant improvement in loss values for a fixed computation budget, compared to the state-of-art bi-level HPO solvers.
翻訳日:2022-11-06 07:45:11 公開日:2020-07-27
# ゼロショットHPOの実用化と試料化

Practical and sample efficient zero-shot HPO ( http://arxiv.org/abs/2007.13382v1 )

ライセンス: Link先を確認
Fela Winkelmolen, Nikita Ivkin, H. Furkan Bozkurt, Zohar Karnin(参考訳) ゼロショットハイパーパラメータ最適化 (zero-shot hyperparameter optimization, hpo) は、互いに補完する少数のハイパーパラメータ(hp)構成を構築するための、転送学習の単純かつ効果的な利用法である。 つまり、任意のデータセットに対して、少なくとも1つのデータセットがうまく機能することを期待しています。 このリストを得るための現在の技術は、さまざまなデータセットと無作為に描画されたHPの大規模なコレクションでトレーニングジョブを実行することに依存するため、計算コストが高い。 このコストは、新しいアルゴリズムのバージョンやディープネットワークのアーキテクチャの変更によってHPの空間が定期的に変化している環境で特に問題となる。 利用可能なアプローチの概要と、この問題に対処する2つの新しいテクニックを紹介します。 1つは、サロゲートモデルに基づいて、クエリのためのデータセットと設定のペアを適応的に選択する。 2つ目は、サーロゲートモデルの探索、チューニング、テストが問題となるような設定の場合、ハイパーバンドとサブモジュラー最適化を組み合わせたマルチフィデリティ技術である。 我々は,提案手法を5つのタスク(XGBoost, LightGBM, CatBoost, MLP, AutoML)で実験的に評価し,同じトレーニング予算を持つ標準ゼロショットHPOと比較して精度が大幅に向上したことを示す。 提案手法は,新しいアルゴリズムの寄与に加えて,(1)一般のアルゴリズムに対するデフォルトのハイパーパラメーターを有効活用するゼロショットHPO手法の広範な研究,(2)高パラメータチューニングの研究をさらに進めるために,大規模なルックアップテーブルを提供する。

Zero-shot hyperparameter optimization (HPO) is a simple yet effective use of transfer learning for constructing a small list of hyperparameter (HP) configurations that complement each other. That is to say, for any given dataset, at least one of them is expected to perform well. Current techniques for obtaining this list are computationally expensive as they rely on running training jobs on a diverse collection of datasets and a large collection of randomly drawn HPs. This cost is especially problematic in environments where the space of HPs is regularly changing due to new algorithm versions, or changing architectures of deep networks. We provide an overview of available approaches and introduce two novel techniques to handle the problem. The first is based on a surrogate model and adaptively chooses pairs of dataset, configuration to query. The second, for settings where finding, tuning and testing a surrogate model is problematic, is a multi-fidelity technique combining HyperBand with submodular optimization. We benchmark our methods experimentally on five tasks (XGBoost, LightGBM, CatBoost, MLP and AutoML) and show significant improvement in accuracy compared to standard zero-shot HPO with the same training budget. In addition to contributing new algorithms, we provide an extensive study of the zero-shot HPO technique resulting in (1) default hyper-parameters for popular algorithms that would benefit the community using them, (2) massive lookup tables to further the research of hyper-parameter tuning.
翻訳日:2022-11-06 07:45:00 公開日:2020-07-27
# 確率最適化のための二項探索と一階勾配法

Binary Search and First Order Gradient Based Method for Stochastic Optimization ( http://arxiv.org/abs/2007.13413v1 )

ライセンス: Link先を確認
Vijay Pandey(参考訳) 本稿では,二元探索勾配最適化法(bsg)またはbigrad法(bigrad)と呼ばれる,一階勾配に基づく二元探索手法を用いた確率的最適化手法を提案する。 この最適化設定では、非凸曲面を凸曲面の集合として扱う。 bsgでは、まず領域が定義され、領域が凸であると仮定する。 領域が凸でない場合、アルゴリズムは領域を非常に早く残し、新しい領域を定義し、そうでなければ、領域の最適点に収束しようとする。 bsgでは、二分探索の核となる目的は、領域が対数時間で凸であるか否かを判断することであり、一方、第一次勾配に基づく手法は主に適用され、新しい領域を定義することである。 本稿では,Adamを1次勾配法として用いるが,他の手法も考慮できる。 ディープニューラルネットワークの設定では、勾配の消失と爆発の問題を効率的に処理する。 我々は、ロジスティック回帰とディープニューラルネットワークを用いて、MNIST手書き桁、IMDB、CIFAR10データセット上でBSGを評価する。 他の一階勾配に基づく最適化法に比べて有望な結果が得られる。 さらに,提案アルゴリズムは,他の手法と比較して,未認識データに対してはるかに優れた一般化を行う。

In this paper, we present a novel stochastic optimization method, which uses the binary search technique with first order gradient based optimization method, called Binary Search Gradient Optimization (BSG) or BiGrad. In this optimization setup, a non-convex surface is treated as a set of convex surfaces. In BSG, at first, a region is defined, assuming region is convex. If region is not convex, then the algorithm leaves the region very fast and defines a new one, otherwise, it tries to converge at the optimal point of the region. In BSG, core purpose of binary search is to decide, whether region is convex or not in logarithmic time, whereas, first order gradient based method is primarily applied, to define a new region. In this paper, Adam is used as a first order gradient based method, nevertheless, other methods of this class may also be considered. In deep neural network setup, it handles the problem of vanishing and exploding gradient efficiently. We evaluate BSG on the MNIST handwritten digit, IMDB, and CIFAR10 data set, using logistic regression and deep neural networks. We produce more promising results as compared to other first order gradient based optimization methods. Furthermore, proposed algorithm generalizes significantly better on unseen data as compared to other methods.
翻訳日:2022-11-06 07:44:35 公開日:2020-07-27
# オフポリティ評価における不確かさ推定のための統計的ブートストラップ

Statistical Bootstrapping for Uncertainty Estimation in Off-Policy Evaluation ( http://arxiv.org/abs/2007.13609v1 )

ライセンス: Link先を確認
Ilya Kostrikov and Ofir Nachum(参考訳) 強化学習では、経験的に観察された遷移と報酬を用いて、モデルベースまたはQ適合アプローチによって政策の価値を推定することが典型的である。 単純ではあるが、これらの手法は概して政策の真の価値をバイアスで見積もっている。 本研究では,これらの偏りのある推定値を取り込んで,政策の真価に対する信頼区間を校正する方法として,統計的ブートストラップの可能性について検討する。 この設定で統計的なブートストラップが保証され、正しい信頼区間が得られるという条件に特化して、十分なデータサイズと十分なカバレッジを識別する。 実際の状況では,これらの条件はしばしば保持されないため,その効果を緩和するためのメカニズムを議論し,提案する。 提案手法を評価し,連続制御環境への挑戦や小型データレジームなど,様々な条件下で正確な信頼区間が得られることを示す。

In reinforcement learning, it is typical to use the empirically observed transitions and rewards to estimate the value of a policy via either model-based or Q-fitting approaches. Although straightforward, these techniques in general yield biased estimates of the true value of the policy. In this work, we investigate the potential for statistical bootstrapping to be used as a way to take these biased estimates and produce calibrated confidence intervals for the true value of the policy. We identify conditions - specifically, sufficient data size and sufficient coverage - under which statistical bootstrapping in this setting is guaranteed to yield correct confidence intervals. In practical situations, these conditions often do not hold, and so we discuss and propose mechanisms that can be employed to mitigate their effects. We evaluate our proposed method and show that it can yield accurate confidence intervals in a variety of conditions, including challenging continuous control environments and small data regimes.
翻訳日:2022-11-06 07:43:38 公開日:2020-07-27
# 超ローカルサステナブルアソシエーション計画

Hyper-local sustainable assortment planning ( http://arxiv.org/abs/2007.13414v1 )

ライセンス: Link先を確認
Nupur Aggarwal, Abhishek Bansal, Kushagra Manglik, Kedar Kulkarni, Vikas Raykar(参考訳) 小売業者にとって重要な季節的活動であるソートメント・プランニングは、各店舗に在庫する商品の適切なサブセットを選択することを伴うが、既存のアプローチは売上を最大化するだけであるが、hggマテリアルサステナビリティ指数を通じて環境への影響も含むことを提案する。 収益と環境影響のトレードオフは、多目的最適化アプローチによってバランスをとり、商品業者が選択できる最適なソートメントのpareto-frontとなる。 先進的なファッション小売業者のいくつかの製品カテゴリーに対する提案手法を用いることで、環境影響の少ない品目を選ぶことができ、収益への影響を最小限に抑えることができる。

Assortment planning, an important seasonal activity for any retailer, involves choosing the right subset of products to stock in each store.While existing approaches only maximize the expected revenue, we propose including the environmental impact too, through the Higg Material Sustainability Index. The trade-off between revenue and environmental impact is balanced through a multi-objective optimization approach, that yields a Pareto-front of optimal assortments for merchandisers to choose from. Using the proposed approach on a few product categories of a leading fashion retailer shows that choosing assortments with lower environmental impact with a minimal impact on revenue is possible.
翻訳日:2022-11-06 07:36:26 公開日:2020-07-27
# tsetlinマシンの大域的および局所的解釈のためのクローズドフォーム表現と高次元データ説明への応用

Closed-Form Expressions for Global and Local Interpretation of Tsetlin Machines with Applications to Explaining High-Dimensional Data ( http://arxiv.org/abs/2007.13885v1 )

ライセンス: Link先を確認
Christian D. Blakely, Ole-Christoffer Granmo(参考訳) Tsetlin Machines (TM) は命題論理の共役節を用いてパターンをキャプチャし、解釈を容易にする。 しかし、最近のTMベースのアプローチは、主に個々の節の完全な範囲を検査することに依存している。 このような検査は、大量の節を必要とする複雑な予測問題に必ずしもスケールしない。 本稿では,TMモデルが特定の予測(局所的解釈可能性)を行う理由を理解するために,クローズドフォーム表現を提案する。 さらに、式はモデル全体の最も重要な特徴(グローバル解釈可能性)を捉えます。 さらに,連続的特徴量に対する特徴値範囲の重要性を測る式についても紹介する。 表現はTMの接続節から直接定式化され、モデルが進化するにつれて、学習過程においても、リアルタイムで機能の役割を捉えることができる。 さらに,閉形式式から,高次元データを3次元で可視化する新しいデータクラスタリングアルゴリズムを導出する。 最後に,提案手法をshapおよび最先端の解釈可能な機械学習手法と比較する。 分類と回帰のいずれにおいても,shapとの対応と,xgboost,説明可能なブースティングマシン,ニューラルアダプティブモデルとの比較による競合予測精度を示す。

Tsetlin Machines (TMs) capture patterns using conjunctive clauses in propositional logic, thus facilitating interpretation. However, recent TM-based approaches mainly rely on inspecting the full range of clauses individually. Such inspection does not necessarily scale to complex prediction problems that require a large number of clauses. In this paper, we propose closed-form expressions for understanding why a TM model makes a specific prediction (local interpretability). Additionally, the expressions capture the most important features of the model overall (global interpretability). We further introduce expressions for measuring the importance of feature value ranges for continuous features. The expressions are formulated directly from the conjunctive clauses of the TM, making it possible to capture the role of features in real-time, also during the learning process as the model evolves. Additionally, from the closed-form expressions, we derive a novel data clustering algorithm for visualizing high-dimensional data in three dimensions. Finally, we compare our proposed approach against SHAP and state-of-the-art interpretable machine learning techniques. For both classification and regression, our evaluation show correspondence with SHAP as well as competitive prediction accuracy in comparison with XGBoost, Explainable Boosting Machines, and Neural Additive Models.
翻訳日:2022-11-06 07:36:12 公開日:2020-07-27
# 潜在共同創設者による無限ホライゾン強化学習におけるオフポリシー評価

Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with Latent Confounders ( http://arxiv.org/abs/2007.13893v1 )

ライセンス: Link先を確認
Andrew Bennett, Nathan Kallus, Lihong Li, Ali Mousavi(参考訳) 強化学習におけるオフ政治評価(OPE)は、教育や医療など実験が限られている環境では重要な問題である。 しかし、この全く同じ設定では、観測されたアクションは観測されていない変数によって結合され、opeをさらに困難にすることが多い。 我々は,保全されていない共同設立者によるマルコフ決定プロセスにおいて,状態と行動が保護されていない共同設立者のプロキシとして機能する,無限水平エルゴディックなOPE問題を研究する。 状態とアクションの潜在変数モデルを考えると、ポリシーの価値がオフポリシーデータからどのように識別されるかを示す。 我々の方法には2つの段階がある。 第一に,固定分布比の推定にプロキシを使用する方法を示し,近年の地平線の呪いを両立した設定に拡張した。 第2に、報酬関数の直接モデリングを回避しつつ、最適バランスをそのような学習率と組み合わせてポリシー値を得ることを示す。 一貫性の理論的保証を確立し,提案手法を実証的に評価する。

Off-policy evaluation (OPE) in reinforcement learning is an important problem in settings where experimentation is limited, such as education and healthcare. But, in these very same settings, observed actions are often confounded by unobserved variables making OPE even more difficult. We study an OPE problem in an infinite-horizon, ergodic Markov decision process with unobserved confounders, where states and actions can act as proxies for the unobserved confounders. We show how, given only a latent variable model for states and actions, policy value can be identified from off-policy data. Our method involves two stages. In the first, we show how to use proxies to estimate stationary distribution ratios, extending recent work on breaking the curse of horizon to the confounded setting. In the second, we show optimal balancing can be combined with such learned ratios to obtain policy value while avoiding direct modeling of reward functions. We establish theoretical guarantees of consistency, and benchmark our method empirically.
翻訳日:2022-11-06 07:35:54 公開日:2020-07-27
# ALF:効率的な畳み込みニューラルネットワークのためのオートエンコーダに基づく低ランクフィルタ共有

ALF: Autoencoder-based Low-rank Filter-sharing for Efficient Convolutional Neural Networks ( http://arxiv.org/abs/2007.13384v1 )

ライセンス: Link先を確認
Alexander Frickenstein, Manoj-Rohit Vemparala, Nael Fasfous, Laura Hauenschild, Naveen-Shankar Nagaraja, Christian Unger, Walter Stechele(参考訳) 最先端の畳み込みニューラルネットワークのハードウェア要件と組み込みアプリケーションを制限する限られたリソースとのギャップを埋めることは、ディープラーニング研究における次の大きな課題である。 このようなニューラルネットワークの計算の複雑さとメモリフットプリントは、リソース制約のある環境でのデプロイを難しくしている。 プルーニングのようなモデル圧縮手法は、この問題を解決する他の最適化手法の中で強調されている。 既存の技術の多くは、ドメインの専門知識や不規則なスパース表現を必要とするため、ディープラーニングアプリケーションを組み込みハードウェアアクセラレータにデプロイする負担が増加する。 本稿では,オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。 様々なネットワークに適用すると、ALFは最先端のプルーニング手法と比較され、理論的なメトリクスや正確な決定論的ハードウェアモデル上での効率的な圧縮能力を示す。 実験では,ネットワークパラメータの70 %,オペレーションの61 %,実行時間の41 %,精度の低下を最小限に抑えた。

Closing the gap between the hardware requirements of state-of-the-art convolutional neural networks and the limited resources constraining embedded applications is the next big challenge in deep learning research. The computational complexity and memory footprint of such neural networks are typically daunting for deployment in resource constrained environments. Model compression techniques, such as pruning, are emphasized among other optimization methods for solving this problem. Most existing techniques require domain expertise or result in irregular sparse representations, which increase the burden of deploying deep learning applications on embedded hardware accelerators. In this paper, we propose the autoencoder-based low-rank filter-sharing technique technique (ALF). When applied to various networks, ALF is compared to state-of-the-art pruning methods, demonstrating its efficient compression capabilities on theoretical metrics as well as on an accurate, deterministic hardware-model. In our experiments, ALF showed a reduction of 70\% in network parameters, 61\% in operations and 41\% in execution time, with minimal loss in accuracy.
翻訳日:2022-11-06 07:35:17 公開日:2020-07-27
# 複数ラベル画像分類のための正規化深度学習

Reconstruction Regularized Deep Metric Learning for Multi-label Image Classification ( http://arxiv.org/abs/2007.13547v1 )

ライセンス: Link先を確認
Changsheng Li and Chong Liu and Lixin Duan and Peng Gao and Kai Zheng(参考訳) 本稿では,マルチラベル画像分類問題に取り組むための新しい深層メトリック学習法を提案する。 画像の特徴とラベルの相関関係をよりよく学習するために、画像とラベルをそれぞれ2つのユニークなディープニューラルネットワークを介して埋め込む潜伏空間を探索する。 画像特徴量とラベル間の関係を捉えるため,画像とラベル間の距離は,画像とラベルの近傍との距離よりも小さいだけでなく,ラベルとラベルの近傍に対応する他の画像との間の距離よりも小さいという2つの異なる視点から,埋め込み空間上の遠方距離を学習することを目的としている。 また、適切なラベルを復元する再構成モジュールを、ラベル埋め込みスペースがより代表的であるように、正規化用語としてフレームワーク全体に組み込む。 私たちのモデルはエンドツーエンドでトレーニングできます。 公開画像データセットにおける実験結果は,最先端画像と比較し,本手法の有効性を検証した。

In this paper, we present a novel deep metric learning method to tackle the multi-label image classification problem. In order to better learn the correlations among images features, as well as labels, we attempt to explore a latent space, where images and labels are embedded via two unique deep neural networks, respectively. To capture the relationships between image features and labels, we aim to learn a \emph{two-way} deep distance metric over the embedding space from two different views, i.e., the distance between one image and its labels is not only smaller than those distances between the image and its labels' nearest neighbors, but also smaller than the distances between the labels and other images corresponding to the labels' nearest neighbors. Moreover, a reconstruction module for recovering correct labels is incorporated into the whole framework as a regularization term, such that the label embedding space is more representative. Our model can be trained in an end-to-end manner. Experimental results on publicly available image datasets corroborate the efficacy of our method compared with the state-of-the-arts.
翻訳日:2022-11-06 07:35:01 公開日:2020-07-27
# スクラッチから進化を学ぶために

Towards Learning Convolutions from Scratch ( http://arxiv.org/abs/2007.13657v1 )

ライセンス: Link先を確認
Behnam Neyshabur(参考訳) 畳み込みはコンピュータビジョンで使用されるアーキテクチャの最も重要な構成要素の1つである。 機械学習がエキスパートのバイアスを減らし、データから学習しようとすると、自然な次のステップは畳み込みのような構造をスクラッチから学習することだ。 しかし、これは解明された。 例えば、現在の最先端アーキテクチャ検索アルゴリズムでは、データから学ぶのではなく、既存のモジュールの1つとして畳み込みを使用する。 畳み込みを引き起こす帰納的バイアスを理解するために,最小記述長を導出原理として検討し,いくつかの設定において,アーキテクチャのパフォーマンスを示すことができることを示す。 簡単なlassoアルゴリズムの変種である$\beta$-lassoを提案する。画像分類タスクに完全接続ネットワークを適用すると、ローカル接続を持つアーキテクチャを学習し、cifar-10 (85.19%)、cifar-100 (59.56%)、svhn (94.07%) で完全接続ネットと畳み込みネットのギャップを埋めるための最先端のアキュラティを達成する。

Convolution is one of the most essential components of architectures used in computer vision. As machine learning moves towards reducing the expert bias and learning it from data, a natural next step seems to be learning convolution-like structures from scratch. This, however, has proven elusive. For example, current state-of-the-art architecture search algorithms use convolution as one of the existing modules rather than learning it from data. In an attempt to understand the inductive bias that gives rise to convolutions, we investigate minimum description length as a guiding principle and show that in some settings, it can indeed be indicative of the performance of architectures. To find architectures with small description length, we propose $\beta$-LASSO, a simple variant of LASSO algorithm that, when applied on fully-connected networks for image classification tasks, learns architectures with local connections and achieves state-of-the-art accuracies for training fully-connected nets on CIFAR-10 (85.19%), CIFAR-100 (59.56%) and SVHN (94.07%) bridging the gap between fully-connected and convolutional nets.
翻訳日:2022-11-06 07:34:45 公開日:2020-07-27
# 近似バックプロパゲーションを用いた時間符号化スパイクニューラルネットワークの教師あり学習

Supervised Learning in Temporally-Coded Spiking Neural Networks with Approximate Backpropagation ( http://arxiv.org/abs/2007.13296v1 )

ライセンス: Link先を確認
Andrew Stephan, Brian Gardner, Steven J. Koester, Andre Gruning(参考訳) 本研究では,時間符号化多層スパイクネットワークによる分類を行うための教師付き学習手法を提案する。 この方法はバックプロパゲーションを模倣する強化信号を用いるが、計算集約性ははるかに低い。 各層における重み更新計算は、この信号とは別に局所データのみを必要とする。 また、特定の出力スパイク列を生成できるルールも採用し、キー高値ニューロンに対してわずかに負のオフセットで実際のスパイク時間に等しい目標スパイク時間を設定することにより、実際のスパイク時間ができるだけ早くなる。 このルールでトレーニングされた2層ネットワークは、mnist手書きの数字分類をシミュレートすると、同等のバックプロパゲーションベースの非スパイキングネットワークの性能に匹敵する。

In this work we propose a new supervised learning method for temporally-encoded multilayer spiking networks to perform classification. The method employs a reinforcement signal that mimics backpropagation but is far less computationally intensive. The weight update calculation at each layer requires only local data apart from this signal. We also employ a rule capable of producing specific output spike trains; by setting the target spike time equal to the actual spike time with a slight negative offset for key high-value neurons the actual spike time becomes as early as possible. In simulated MNIST handwritten digit classification, two-layer networks trained with this rule matched the performance of a comparable backpropagation based non-spiking network.
翻訳日:2022-11-06 07:34:23 公開日:2020-07-27
# 騒音エージェント:聴覚事象の予測による自己監視探索

Noisy Agents: Self-supervised Exploration by Predicting Auditory Events ( http://arxiv.org/abs/2007.13729v1 )

ライセンス: Link先を確認
Chuang Gan, Xiaoyu Chen, Phillip Isola, Antonio Torralba, Joshua B. Tenenbaum(参考訳) 人間は、物理的世界の因果的理解を構築するために、複数の感覚的様相(視覚や音声など)を統合する。 本研究は,聴覚イベント予測による行動の因果効果をエージェントに理解させる,強化学習(rl)に対する新たな本質的動機付け手法を提案する。 まず、エージェントが少量の音響データを収集し、K平均を用いて、基礎となる聴覚イベントクラスタを発見する。 次に、ニューラルネットワークを訓練して聴覚イベントを予測し、予測誤差を内在的な報酬としてrl探索を導く。 Atariゲームの実験結果から、我々の新しい本質的な動機は、最先端のベースラインを著しく上回ることがわかった。 さらに, 物理環境でのノイズエージェントの挙動を可視化し, 新たに設計した本質的な報酬が, 物理的相互作用行動(物体との接触など)の出現に繋がることを示す。

Humans integrate multiple sensory modalities (e.g. visual and audio) to build a causal understanding of the physical world. In this work, we propose a novel type of intrinsic motivation for Reinforcement Learning (RL) that encourages the agent to understand the causal effect of its actions through auditory event prediction. First, we allow the agent to collect a small amount of acoustic data and use K-means to discover underlying auditory event clusters. We then train a neural network to predict the auditory events and use the prediction errors as intrinsic rewards to guide RL exploration. Experimental results on Atari games show that our new intrinsic motivation significantly outperforms several state-of-the-art baselines. We further visualize our noisy agents' behavior in a physics environment and demonstrate that our newly designed intrinsic reward leads to the emergence of physical interaction behaviors (e.g. contact with objects).
翻訳日:2022-11-06 07:34:14 公開日:2020-07-27