このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200722となっている論文です。

PDF登録状況(公開日: 20200722)

TitleAuthorsAbstract論文公表日・翻訳日
# モバイル健康への長期平均アウトカムのオフポリシック推定

Off-Policy Estimation of Long-Term Average Outcomes with Applications to Mobile Health ( http://arxiv.org/abs/1912.13088v3 )

ライセンス: Link先を確認
Peng Liao, Predrag Klasnja, Susan Murphy(参考訳) ウェアラブルとセンサー技術の進歩により、健康科学者はモバイルヘルス(mHealth)の介入をますます発展させつつある。 mHealthの介入では、モバイルデバイスは日々の生活について個人に治療を提供するために使用される。 これらの治療は一般的に、ストレスや身体活動などの近位、近位に影響を及ぼすように設計されている。 ジャスト・イン・タイム適応介入政策(ジャスト・イン・タイム・アダプティブ・インターベンション・ポリシー、ジャスト・イン・タイム・アダプティブ・インターベンション)は、個人の現在の状態(例えば、個人の過去の行動や、時間、場所、社会的活動、ストレス、喫煙の衝動といった現在の観察)を、多くの時点において特定の治療にマップする決定規則である。 現在のmHealth介入の大部分は、専門家によるポリシのデプロイです。 本稿では,おそらく異なる方針の下で収集された履歴データを用いて,複数の政策のパフォーマンスを推測する手法を提案する。 我々の評価基準は、特定のmHealthポリシーに従うと、長期間にわたる近位結果の平均である。 信頼区間だけでなく、推定器も提供します。 この研究は、mHealthの身体活動介入であるHeartStepsによって動機付けられている。

Due to the recent advancements in wearables and sensing technology, health scientists are increasingly developing mobile health (mHealth) interventions. In mHealth interventions, mobile devices are used to deliver treatment to individuals as they go about their daily lives. These treatments are generally designed to impact a near time, proximal outcome such as stress or physical activity. The mHealth intervention policies, often called just-in-time adaptive interventions, are decision rules that map an individual's current state (e.g., individual's past behaviors as well as current observations of time, location, social activity, stress and urges to smoke) to a particular treatment at each of many time points. The vast majority of current mHealth interventions deploy expert-derived policies. In this paper, we provide an approach for conducting inference about the performance of one or more such policies using historical data collected under a possibly different policy. Our measure of performance is the average of proximal outcomes over a long time period should the particular mHealth policy be followed. We provide an estimator as well as confidence intervals. This work is motivated by HeartSteps, an mHealth physical activity intervention.
翻訳日:2023-01-17 02:23:51 公開日:2020-07-22
# 四元数量子論は二段階系のみに普遍力学を認める

Quaternionic quantum theory admits universal dynamics only for two-level systems ( http://arxiv.org/abs/2001.05482v2 )

ライセンス: Link先を確認
Jonathan Steinberg and H. Chau Nguyen and Matthias Kleinmann(参考訳) 四元数上の量子力学の定式化を再検討し、この枠組みの力学構造について検討する。 標準複素量子力学と同様に、時間発展は時間シフトの生成子の指数関数として書けるユニタリ作用素によって媒介される。 観測可能なエネルギーと時間シフトの生成子の対応について物理的仮定を課すことで、四元数量子論は四元数次元が少なくとも2の系に対してのみ時間発展を認めることを証明している。 標準的な複素量子論に同じ戦略を適用することで、シュリンガー方程式によって規定される対応が、大域的な位相のシフトまで唯一可能な選択であることを再現する。

We revisit the formulation of quantum mechanics over the quaternions and investigate the dynamical structure within this framework. Similar to standard complex quantum mechanics, time evolution is then mediated by a unitary operator which can be written as the exponential of the generator of time shifts. By imposing physical assumptions on the correspondence between the energy observable and the generator of time shifts, we prove that quaternionic quantum theory admits a time evolution only for systems with a quaternionic dimension of at most two. Applying the same strategy to standard complex quantum theory, we reproduce that the correspondence dictated by the Schr\"odinger equation is the only possible choice, up to a shift of the global phase.
翻訳日:2023-01-11 06:49:26 公開日:2020-07-22
# 多様な画像破壊に対してニューラルネットワークを堅牢にする方法

A simple way to make neural networks robust against diverse image corruptions ( http://arxiv.org/abs/2001.06057v5 )

ライセンス: Link先を確認
Evgenia Rusak, Lukas Schott, Roland S. Zimmermann, Julian Bitterwolf, Oliver Bringmann, Matthias Bethge, Wieland Brendel(参考訳) ヒトの視覚系は、降雨や雪などの幅広い自然発生の変動や腐敗に対して著しく頑健である。 対照的に、現代の画像認識モデルの性能は、以前見つからなかった腐敗について評価すると、強く劣化する。 ここでは,加法ガウスノイズとスペックルノイズを用いた簡易かつ適切に調整されたトレーニングが,予期せぬ汚職に対して驚くほどうまく一般化し,画像Net-C (ResNet50) や MNIST-C 上での過去の技術状況に容易に到達できることを実証する。 これらの強力なベースライン結果の上に構築し,非相関な最悪の雑音分布に対する認識モデルの逆トレーニングにより,さらなる性能向上につながることを示す。 この正規化は、以前提案された防御手法と組み合わせることでさらなる改善が図れる。

The human visual system is remarkably robust against a wide range of naturally occurring variations and corruptions like rain or snow. In contrast, the performance of modern image recognition models strongly degrades when evaluated on previously unseen corruptions. Here, we demonstrate that a simple but properly tuned training with additive Gaussian and Speckle noise generalizes surprisingly well to unseen corruptions, easily reaching the previous state of the art on the corruption benchmark ImageNet-C (with ResNet50) and on MNIST-C. We build on top of these strong baseline results and show that an adversarial training of the recognition model against uncorrelated worst-case noise distributions leads to an additional increase in performance. This regularization can be combined with previously proposed defense methods for further improvement.
翻訳日:2023-01-10 23:26:08 公開日:2020-07-22
# 意識と自動推論

Consciousness and Automated Reasoning ( http://arxiv.org/abs/2001.09442v3 )

ライセンス: Link先を確認
Ulrike Barthelme{\ss} and Ulrich Furbach and Claudia Schon(参考訳) 本稿では,大規模知識ベースと組み合わせた一階述語論理推論システムを人工意識システムとして理解する方法を示す。 本研究では,心の哲学,特にトノニの情報統合理論(IIT)とベアーズのグローバルワークスペース理論のいくつかの側面を概観する。 これらは、常識と認知的推論のシナリオにおける知識ベースとしてのconceptnetを用いた推論システムhyperに適用される。 最後に,このようなシステムが,意識的にさまようことができることを実証する。

This paper aims at demonstrating how a first-order logic reasoning system in combination with a large knowledge base can be understood as an artificial consciousness system. For this we review some aspects from the area of philosophy of mind and in particular Tononi's Information Integration Theory (IIT) and Baars' Global Workspace Theory. These will be applied to the reasoning system Hyper with ConceptNet as a knowledge base within a scenario of commonsense and cognitive reasoning. Finally we demonstrate that such a system is very well able to do conscious mind wandering.
翻訳日:2023-01-06 19:24:35 公開日:2020-07-22
# 最近傍ルールのコアセット

Coresets for the Nearest-Neighbor Rule ( http://arxiv.org/abs/2002.06650v3 )

ライセンス: Link先を確認
Alejandro Flores-Velazco, David M. Mount(参考訳) ラベル付きポイントのトレーニングセットが与えられると、最も近いneighborルールは、ラベル付きクエリポイントのクラスを、セット内の最も近いポイントのラベルとして予測する。 分類の時間と空間の複雑さを改善するために、自然な疑問は、最寄りのルールの正確性に大きな影響を及ぼすことなく、トレーニングセットを減らす方法である。 near-neighbor condensation はサブセット $r \subseteq p$ を見つけることで、すべての点に対して$p \in p$、$p$ の最も近いneighbor in $r$ は$p$ と同じラベルを持つ。 これは、コアセットの正確な結果が元の集合上の近似結果に対応するような集合の部分集合として広く定義できるコアセットの概念に関連している。 しかしながら、コアセットの保証は、任意のクエリポイントに対して、トレーニングセットのポイントだけでなく、保持される。 本稿では,最寄り-neighbor分類のためのコアセットの概念を紹介する。 凝縮に用いる既存の基準を拡張し、これらのサブセットを使用する場合、クエリポイントを正しく分類するのに十分な条件を証明します。 さらに,そのような最小濃度部分集合の探索はnpハードであることを証明し,選択した部分集合の大きさで証明可能な上限値を持つ二次時間近似アルゴリズムを提案する。 さらに、これらのアルゴリズムのうちの1つをサブクアクラティックランタイムにする方法を示し、このタイプの凝縮の最初のものである。

Given a training set $P$ of labeled points, the nearest-neighbor rule predicts the class of an unlabeled query point as the label of its closest point in the set. To improve the time and space complexity of classification, a natural question is how to reduce the training set without significantly affecting the accuracy of the nearest-neighbor rule. Nearest-neighbor condensation deals with finding a subset $R \subseteq P$ such that for every point $p \in P$, $p$'s nearest-neighbor in $R$ has the same label as $p$. This relates to the concept of coresets, which can be broadly defined as subsets of the set, such that an exact result on the coreset corresponds to an approximate result on the original set. However, the guarantees of a coreset hold for any query point, and not only for the points of the training set. This paper introduces the concept of coresets for nearest-neighbor classification. We extend existing criteria used for condensation, and prove sufficient conditions to correctly classify any query point when using these subsets. Additionally, we prove that finding such subsets of minimum cardinality is NP-hard, and propose quadratic-time approximation algorithms with provable upper-bounds on the size of their selected subsets. Moreover, we show how to improve one of these algorithms to have subquadratic runtime, being the first of this kind for condensation.
翻訳日:2022-12-31 17:57:16 公開日:2020-07-22
# JRMOT:リアルタイム3Dマルチオブジェクトトラッカーと大規模データセット

JRMOT: A Real-Time 3D Multi-Object Tracker and a New Large-Scale Dataset ( http://arxiv.org/abs/2002.08397v4 )

ライセンス: Link先を確認
Abhijeet Shenoi, Mihir Patel, JunYoung Gwak, Patrick Goebel, Amir Sadeghian, Hamid Rezatofighi, Roberto Mart\'in-Mart\'in, Silvio Savarese(参考訳) 自律的に移動するロボットは、周囲の物体や他のエージェントの動きを認識し追跡する必要がある。 この情報は、堅牢で安全な軌道の計画と実行を可能にする。 これらのプロセスを容易にするために、運動は3次元カルト空間で知覚されるべきである。 しかし、最近のMOT(Multi-object tracking)研究は、2次元RGBビデオシーケンスにおける人物の追跡と移動に焦点を当てている。 本稿では,RGB画像と3Dポイントクラウドの情報を統合し,リアルタイムかつ最先端のトラッキング性能を実現する新しい3DMOTシステムであるJRMOTを提案する。 本システムでは,最近のニューラルネットワークを用いて,再同定,2次元および3次元検出およびトラック記述を行い,マルチモーダル再帰的カルマンアーキテクチャ内の確率的データ結合フレームワークと組み合わせた。 jrdbデータセットは、屋内および屋外54のシーンで200万以上のボックスと3500時間一貫した2d+3dトラジェクタを備えた、新しい大規模2d+3dデータセットとベンチマークです。 JRDBには360度筒状RGBビデオや3Dポイントクラウドを含む60分以上のデータが含まれており、JRMOTの開発、訓練、評価に使用しています。 提案した3D MOTシステムは,一般的な2DトラッキングKITTIベンチマークにおける競合する手法に対する最先端性能を示し,我々のベンチマークにおける最初の3Dトラッキングソリューションとして機能する。 われわれのソーシャルロボットJackRabbotのリアルロボットテストによると、システムは複数の歩行者を素早く確実に追跡できる。 トラッカーのROSコードはhttps://sites.google.com/view/jrmot.orgで公開しています。

Robots navigating autonomously need to perceive and track the motion of objects and other agents in its surroundings. This information enables planning and executing robust and safe trajectories. To facilitate these processes, the motion should be perceived in 3D Cartesian space. However, most recent multi-object tracking (MOT) research has focused on tracking people and moving objects in 2D RGB video sequences. In this work we present JRMOT, a novel 3D MOT system that integrates information from RGB images and 3D point clouds to achieve real-time, state-of-the-art tracking performance. Our system is built with recent neural networks for re-identification, 2D and 3D detection and track description, combined into a joint probabilistic data-association framework within a multi-modal recursive Kalman architecture. As part of our work, we release the JRDB dataset, a novel large scale 2D+3D dataset and benchmark, annotated with over 2 million boxes and 3500 time consistent 2D+3D trajectories across 54 indoor and outdoor scenes. JRDB contains over 60 minutes of data including 360 degree cylindrical RGB video and 3D pointclouds in social settings that we use to develop, train and evaluate JRMOT. The presented 3D MOT system demonstrates state-of-the-art performance against competing methods on the popular 2D tracking KITTI benchmark and serves as first 3D tracking solution for our benchmark. Real-robot tests on our social robot JackRabbot indicate that the system is capable of tracking multiple pedestrians fast and reliably. We provide the ROS code of our tracker at https://sites.google.com/view/jrmot.
翻訳日:2022-12-30 14:30:36 公開日:2020-07-22
# MEUZZ:ハイブリッドファジィのためのスマートシードスケジューリング

MEUZZ: Smart Seed Scheduling for Hybrid Fuzzing ( http://arxiv.org/abs/2002.08568v2 )

ライセンス: Link先を確認
Yaohui Chen, Mansour Ahmadi, Reza Mirzazade farkhani, Boyu Wang, and Long Lu(参考訳) 種子スケジューリングはハイブリッドファジィの収量を決定する重要な要因である。 既存のハイブリッドファザーは入力ユーティリティの予測を目的とした固定ヒューリスティックに基づいて種をスケジュールする。 しかし、そのようなヒューリスティックスは、異なるプログラムに適用できる一大の規則が存在しないため、一般化できない。 彼らはそこから派生したプログラムでうまく働くかもしれないが、他のプログラムではない。 この問題を解決するために、教師付き機械学習を用いて適応的および一般化可能なシードスケジューリングを行う機械学習強化ハイブリッドfUZZシステム(MEUZZ)を設計する。 MEUZZは、過去のシードスケジューリング決定から学んだ知識に基づいて、どの新しい種がより良いファジィング収率をもたらすと期待されているかを決定する。 meuzzの学習は、コード到達可能性(code reachability)と動的解析(dynamic analysis)によって抽出された一連の機能に基づいている。 さらに、MEUZZは、選択した種子のファジリング性能を評価して、自動的にデータラベルを推測する。 結果として、meuzzは一般的に様々な種類のプログラムに適用され、うまく機能する。 評価の結果,MEUZは最先端のグレーボックスやハイブリットファザよりも優れており,QSYMよりも27.1%のコードカバレッジを実現している。 学習されたモデルは再利用可能で転送可能で、ファジング性能を平均で7.1%向上し、56のクロスプログラムファジングキャンペーンの68%を改善している。 meuzzは、以前の作業と同じ構成で8つのよくテストされたプログラムをファズするときに、開発者が確認し修正した、47の深い隠れた未知のバグを発見した。

Seed scheduling is a prominent factor in determining the yields of hybrid fuzzing. Existing hybrid fuzzers schedule seeds based on fixed heuristics that aim to predict input utilities. However, such heuristics are not generalizable as there exists no one-size-fits-all rule applicable to different programs. They may work well on the programs from which they were derived, but not others. To overcome this problem, we design a Machine learning-Enhanced hybrid fUZZing system (MEUZZ), which employs supervised machine learning for adaptive and generalizable seed scheduling. MEUZZ determines which new seeds are expected to produce better fuzzing yields based on the knowledge learned from past seed scheduling decisions made on the same or similar programs. MEUZZ's learning is based on a series of features extracted via code reachability and dynamic analysis, which incurs negligible runtime overhead (in microseconds). Moreover, MEUZZ automatically infers the data labels by evaluating the fuzzing performance of each selected seed. As a result, MEUZZ is generally applicable to, and performs well on, various kinds of programs. Our evaluation shows MEUZZ significantly outperforms the state-of-the-art grey-box and hybrid fuzzers, achieving 27.1% more code coverage than QSYM. The learned models are reusable and transferable, which boosts fuzzing performance by 7.1% on average and improves 68% of the 56 cross-program fuzzing campaigns. MEUZZ discovered 47 deeply hidden and previously unknown bugs--with 21 confirmed and fixed by the developers--when fuzzing 8 well-tested programs with the same configurations as used in previous work.
翻訳日:2022-12-30 08:01:25 公開日:2020-07-22
# 早期停止による非凸最適化の期待実行時間制限

Bounding the expected run-time of nonconvex optimization with early stopping ( http://arxiv.org/abs/2002.08856v4 )

ライセンス: Link先を確認
Thomas Flynn, Kwang Min Yu, Abid Malik, Nicolas D'Imperio, Shinjae Yoo(参考訳) 本研究は,検証関数に基づいて早期停止を利用する確率勾配に基づく最適化アルゴリズムの収束性について検討する。 私たちが考える早期停止の形式は、検証関数の勾配のノルムがしきい値を下回ると最適化が終了することである。 この停止規則が明確に定義されていることを保証した条件を導出し、この基準を満たすために必要なイテレーション数と勾配評価の境界を提供する。 保証は、ワッサーシュタイン距離で測定されたトレーニングセットと検証セットの間の距離を説明する。 我々は,幾何ドリフト条件下での更新方向の偏りを考慮し,一階最適化アルゴリズムの一般設定におけるアプローチを開発する。 次に、確率勾配降下(SGD)、分散SGD(DSGD)、確率分散還元勾配(SVRG)アルゴリズムなど、いくつかのアルゴリズムの早期停止変種に対する予測実行時間に基づいて境界を導出する。 最後に,早期停止時に返却されるイテレートの一般化特性について考察する。

This work examines the convergence of stochastic gradient-based optimization algorithms that use early stopping based on a validation function. The form of early stopping we consider is that optimization terminates when the norm of the gradient of a validation function falls below a threshold. We derive conditions that guarantee this stopping rule is well-defined, and provide bounds on the expected number of iterations and gradient evaluations needed to meet this criterion. The guarantee accounts for the distance between the training and validation sets, measured with the Wasserstein distance. We develop the approach in the general setting of a first-order optimization algorithm, with possibly biased update directions subject to a geometric drift condition. We then derive bounds on the expected running time for early stopping variants of several algorithms, including stochastic gradient descent (SGD), decentralized SGD (DSGD), and the stochastic variance reduced gradient (SVRG) algorithm. Finally, we consider the generalization properties of the iterate returned by early stopping.
翻訳日:2022-12-30 06:14:13 公開日:2020-07-22
# VFlow: 変動データ拡張によるより表現豊かな生成フロー

VFlow: More Expressive Generative Flows with Variational Data Augmentation ( http://arxiv.org/abs/2002.09741v2 )

ライセンス: Link先を確認
Jianfei Chen, Cheng Lu, Biqi Chenli, Jun Zhu, Tian Tian(参考訳) 生成フローは、可逆変換を伴う確率分布を定義する密度モデリングのための有望な移動可能なモデルである。 しかし、トラクタビリティは生成フローにアーキテクチャ上の制約を課し、他の生成モデルよりも表現性が低い。 本研究では,すべての中間表現が可逆性により元のデータと同一次元でなければならないという従来見過ごされていた制約について検討し,ネットワークの幅を制限する。 この制約に対処するために、いくつかの余分な次元でデータを増大させ、拡張データのための生成フローを共同で学習し、また、変動推論フレームワークによる拡張次元の分布を学習する。 我々のアプローチであるVFlowは生成フローの一般化であり、従って常により良い性能を発揮する。 既存の生成フローと組み合わせて、vflowはcifar-10データセット上の1次元あたりの新たな最先端2.98ビットを実現し、同様のモデリング品質に達するために、以前のモデルよりもコンパクトである。

Generative flows are promising tractable models for density modeling that define probabilistic distributions with invertible transformations. However, tractability imposes architectural constraints on generative flows, making them less expressive than other types of generative models. In this work, we study a previously overlooked constraint that all the intermediate representations must have the same dimensionality with the original data due to invertibility, limiting the width of the network. We tackle this constraint by augmenting the data with some extra dimensions and jointly learning a generative flow for augmented data as well as the distribution of augmented dimensions under a variational inference framework. Our approach, VFlow, is a generalization of generative flows and therefore always performs better. Combining with existing generative flows, VFlow achieves a new state-of-the-art 2.98 bits per dimension on the CIFAR-10 dataset and is more compact than previous models to reach similar modeling quality.
翻訳日:2022-12-29 18:52:56 公開日:2020-07-22
# 画像テキストマッチングのための適応型オフラインクインタプレット損失

Adaptive Offline Quintuplet Loss for Image-Text Matching ( http://arxiv.org/abs/2003.03669v3 )

ライセンス: Link先を確認
Tianlang Chen, Jiajun Deng, Jiebo Luo(参考訳) 既存の画像テキストマッチングアプローチは、通常、オンラインのハードネガティブによるトリプルト損失を利用してモデルをトレーニングする。 トレーニング用ミニバッチにおける各画像またはテキストアンカーに対して、モデルは、ミニバッチから抽出されたアンカーの正と最も紛らわしい負の区別(オンラインハードネガティブ)を訓練する。 この戦略により、画像とテキストの入力間の微粒な対応や非対応を見つける能力が向上する。 しかし、上記の手法には次のような欠点がある: 1) 負の選択戦略は、非常に難しいケースからモデルを学習する限られた機会を提供する。 2) トレーニングモデルでは, トレーニングセットからテストセットまで, 弱い一般化能力を有する。 3) ペナルティは「硬さ」の度合いが異なる硬い負の階層と適応性に欠ける。 本稿では,トレーニングセット全体からオフラインで負をサンプリングする手法を提案する。 モデルは、オンラインのハードネガティブよりも"ハード"なオフラインネガティブを提供する。 オフラインのハードネガティブに基づいて、正と負を区別する一般化能力を改善するために、クインタップレット損失を提案する。 また、ポジティブ、オフラインのハードネガティブ、オンラインのハードネガティブの知識を組み合わせた新しいロス関数が作成される。 オフラインのハードネガティブを仲介者として利用し、アンカーとの距離関係に基づいて適応的にペナル化する。 我々は,MS-COCOとFlickr30Kデータセットを用いた3つの最先端画像テキストモデルに対するトレーニング手法の評価を行った。 全てのモデルにおいて重要な性能改善が観察され、我々のアプローチの有効性と一般化が証明された。 コードはhttps://github.com/sunnychencool/AOQで入手できる。

Existing image-text matching approaches typically leverage triplet loss with online hard negatives to train the model. For each image or text anchor in a training mini-batch, the model is trained to distinguish between a positive and the most confusing negative of the anchor mined from the mini-batch (i.e. online hard negative). This strategy improves the model's capacity to discover fine-grained correspondences and non-correspondences between image and text inputs. However, the above approach has the following drawbacks: (1) the negative selection strategy still provides limited chances for the model to learn from very hard-to-distinguish cases. (2) The trained model has weak generalization capability from the training set to the testing set. (3) The penalty lacks hierarchy and adaptiveness for hard negatives with different "hardness" degrees. In this paper, we propose solutions by sampling negatives offline from the whole training set. It provides "harder" offline negatives than online hard negatives for the model to distinguish. Based on the offline hard negatives, a quintuplet loss is proposed to improve the model's generalization capability to distinguish positives and negatives. In addition, a novel loss function that combines the knowledge of positives, offline hard negatives and online hard negatives is created. It leverages offline hard negatives as the intermediary to adaptively penalize them based on their distance relations to the anchor. We evaluate the proposed training approach on three state-of-the-art image-text models on the MS-COCO and Flickr30K datasets. Significant performance improvements are observed for all the models, proving the effectiveness and generality of our approach. Code is available at https://github.com/sunnychencool/AOQ
翻訳日:2022-12-25 19:58:25 公開日:2020-07-22
# ニューラルネットワークモデルの暗号解析抽出

Cryptanalytic Extraction of Neural Network Models ( http://arxiv.org/abs/2003.04884v2 )

ライセンス: Link先を確認
Nicholas Carlini, Matthew Jagielski, Ilya Mironov(参考訳) モデル抽出の機械学習問題は、実際には暗号解析の問題であり、そのように研究されるべきである。 ニューラルネットワークへのオラクルアクセスを前提として,遠隔モデルのパラメータを浮動小数点精度まで効率的に盗むことができるディファレンシャルアタックを導入する。 我々の攻撃は、ReLUニューラルネットワークが断片的に線形関数であるという事実に依存しており、臨界点におけるクエリはモデルパラメータに関する情報を明らかにする。 我々は、複数のニューラルネットワークモデルに対する攻撃を評価し、2^20倍正確で、以前の作業よりも100倍少ないクエリを必要とするモデルを抽出する。 例えば、mnist桁認識タスクでトレーニングされた10万のパラメータニューラルネットワークを1時間以内に2^21.5クエリで抽出し、抽出したモデルが2^-25までの入力すべてにおいてオラクルと一致し、2^-40.4の最悪のケースエラーを持つ2^18.5クエリで4,000のパラメータを持つモデルである。 コードはhttps://github.com/google-research/cryptanalytic-model-extractionで入手できる。

We argue that the machine learning problem of model extraction is actually a cryptanalytic problem in disguise, and should be studied as such. Given oracle access to a neural network, we introduce a differential attack that can efficiently steal the parameters of the remote model up to floating point precision. Our attack relies on the fact that ReLU neural networks are piecewise linear functions, and thus queries at the critical points reveal information about the model parameters. We evaluate our attack on multiple neural network models and extract models that are 2^20 times more precise and require 100x fewer queries than prior work. For example, we extract a 100,000 parameter neural network trained on the MNIST digit recognition task with 2^21.5 queries in under an hour, such that the extracted model agrees with the oracle on all inputs up to a worst-case error of 2^-25, or a model with 4,000 parameters in 2^18.5 queries with worst-case error of 2^-40.4. Code is available at https://github.com/google-research/cryptanalytic-model-extraction.
翻訳日:2022-12-24 21:46:52 公開日:2020-07-22
# 条件付き領域正規化による物体検出器の適応

Adapting Object Detectors with Conditional Domain Normalization ( http://arxiv.org/abs/2003.07071v2 )

ライセンス: Link先を確認
Peng Su, Kun Wang, Xingyu Zeng, Shixiang Tang, Dapeng Chen, Di Qiu, Xiaogang Wang(参考訳) 現実世界のオブジェクト検出器は、しばしば異なるデータセット間のドメインギャップによって挑戦される。 本稿では,ドメインギャップを埋める条件付きドメイン正規化(CDN)を提案する。 CDNは異なるドメインインプットを共有潜在空間にエンコードするように設計されており、異なるドメインの特徴は同じドメイン属性を持つ。 これを実現するために、まずドメイン固有の属性を、ドメイン埋め込みモジュールを介して1つのドメインから切り離し、ドメイン-ベクターを学習して対応するドメイン属性情報を特徴付ける。 次に、このドメインベクトルは条件付き正規化を通じて他のドメインからの特徴をエンコードするために使われ、結果として同じドメイン属性を持つ異なるドメインの特徴をもたらす。 対象検出器の様々な畳み込み段階にCDNを組み込み、異なるレベルの表現の領域シフトに適応的に対処する。 ドメイン固有の要素を取り除くためにドメインの混乱学習を行う既存の適応作業とは対照的に、CDNは、他のドメインの学習ドメインベクターで条件付けられた1つのドメインの意味的特徴を調整することで異なるドメイン分布を調整する。 広範な実験により、cdnは2d画像検出と3dポイントクラウド検出を含む実対実と合成対実の両方の適応ベンチマークにおいて、既存の手法を著しく上回っていることが示された。

Real-world object detectors are often challenged by the domain gaps between different datasets. In this work, we present the Conditional Domain Normalization (CDN) to bridge the domain gap. CDN is designed to encode different domain inputs into a shared latent space, where the features from different domains carry the same domain attribute. To achieve this, we first disentangle the domain-specific attribute out of the semantic features from one domain via a domain embedding module, which learns a domain-vector to characterize the corresponding domain attribute information. Then this domain-vector is used to encode the features from another domain through a conditional normalization, resulting in different domains' features carrying the same domain attribute. We incorporate CDN into various convolution stages of an object detector to adaptively address the domain shifts of different level's representation. In contrast to existing adaptation works that conduct domain confusion learning on semantic features to remove domain-specific factors, CDN aligns different domain distributions by modulating the semantic features of one domain conditioned on the learned domain-vector of another domain. Extensive experiments show that CDN outperforms existing methods remarkably on both real-to-real and synthetic-to-real adaptation benchmarks, including 2D image detection and 3D point cloud detection.
翻訳日:2022-12-23 03:33:01 公開日:2020-07-22
# 局所特徴幾何学のマルチビュー最適化

Multi-View Optimization of Local Feature Geometry ( http://arxiv.org/abs/2003.08348v2 )

ライセンス: Link先を確認
Mihai Dusmanu, Johannes L. Sch\"onberger, Marc Pollefeys(参考訳) 本研究では,複数の視点からの局所像の特徴の幾何を,未知のシーンやカメラの幾何を伴わずに改良する問題に対処する。 局所的特徴検出への現在のアプローチは、キーポイントのローカライゼーション精度に本質的に制限されている。 この制限はStructure-from-Motionのような下流タスクに悪影響を及ぼし、不正確なキーポイントは三角測量やカメラのローカライゼーションにおいて大きなエラーを引き起こす。 提案手法は,従来の特徴抽出およびマッチングパラダイムを自然に補完する。 まず、仮マッチング間の局所幾何変換を推定し、非線形最小二乗公式に従って複数のビュー上のキーポイント位置を最適化する。 様々な実験を通じて,手作りおよび学習した局所特徴の三角測量とカメラ位置決め性能を一貫して向上させることを示した。

In this work, we address the problem of refining the geometry of local image features from multiple views without known scene or camera geometry. Current approaches to local feature detection are inherently limited in their keypoint localization accuracy because they only operate on a single view. This limitation has a negative impact on downstream tasks such as Structure-from-Motion, where inaccurate keypoints lead to large errors in triangulation and camera localization. Our proposed method naturally complements the traditional feature extraction and matching paradigm. We first estimate local geometric transformations between tentative matches and then optimize the keypoint locations over multiple views jointly according to a non-linear least squares formulation. Throughout a variety of experiments, we show that our method consistently improves the triangulation and camera localization performance for both hand-crafted and learned local features.
翻訳日:2022-12-22 12:49:45 公開日:2020-07-22
# DLow: 多様な人間の動作予測のための潜水流の多様化

DLow: Diversifying Latent Flows for Diverse Human Motion Prediction ( http://arxiv.org/abs/2003.08386v2 )

ライセンス: Link先を確認
Ye Yuan, Kris Kitani(参考訳) 深部生成モデルは、複数のモーダルデータ分布をモデル化し、多様な人間の振る舞いを特徴付けることができるため、人間の運動予測によく用いられる。 深層生成モデルの設計と学習に多くの注意が払われているが、訓練後の深層生成モデルから効率的に多様なサンプルを生成する方法はまだ未検討の問題である。 事前訓練された生成モデルからサンプルを得るため、既存の生成的人間の動作予測手法は独立したガウス潜伏符号の集合を描画し、それらを運動サンプルに変換する。 このランダムサンプリング戦略は,(1)独立サンプリングでは標本の多様性を強制できない,(2)データ分布の主要なモードに対応するサンプルのみを生成できる可能性にのみ基づく,2つの理由から,多様なサンプルを生成することが保証されていない。 このような問題に対処するため,本研究では,事前学習した深部生成モデルから多種多様なサンプルを作成するために,新たなサンプリング手法であるDLowを提案する。 ランダム(独立)サンプリングとは異なり、提案するdlowサンプリング法は単一のランダム変数をサンプリングし、学習可能なマッピング関数のセットを関連付けた潜在コードのセットにマップする。 相関潜時符号はその後、相関サンプルの集合に復号される。 トレーニング中、DLowはサンプルの多様性を改善するために潜伏マッピングを最適化する目的として、サンプルよりも多様性を優先する。 前部の設計は非常に柔軟で、共通の特徴を持つ多様な動き(脚の動きは似ているが、上半身の動きは様々)を生成するようにカスタマイズできる。 実験の結果,DLowはサンプルの多様性と精度で最先端のベースライン法より優れていることがわかった。 私たちのコードはプロジェクトページでリリースされています。

Deep generative models are often used for human motion prediction as they are able to model multi-modal data distributions and characterize diverse human behavior. While much care has been taken into designing and learning deep generative models, how to efficiently produce diverse samples from a deep generative model after it has been trained is still an under-explored problem. To obtain samples from a pretrained generative model, most existing generative human motion prediction methods draw a set of independent Gaussian latent codes and convert them to motion samples. Clearly, this random sampling strategy is not guaranteed to produce diverse samples for two reasons: (1) The independent sampling cannot force the samples to be diverse; (2) The sampling is based solely on likelihood which may only produce samples that correspond to the major modes of the data distribution. To address these problems, we propose a novel sampling method, Diversifying Latent Flows (DLow), to produce a diverse set of samples from a pretrained deep generative model. Unlike random (independent) sampling, the proposed DLow sampling method samples a single random variable and then maps it with a set of learnable mapping functions to a set of correlated latent codes. The correlated latent codes are then decoded into a set of correlated samples. During training, DLow uses a diversity-promoting prior over samples as an objective to optimize the latent mappings to improve sample diversity. The design of the prior is highly flexible and can be customized to generate diverse motions with common features (e.g., similar leg motion but diverse upper-body motion). Our experiments demonstrate that DLow outperforms state-of-the-art baseline methods in terms of sample diversity and accuracy. Our code is released on the project page: https://www.ye-yuan.com/dlow.
翻訳日:2022-12-22 09:59:03 公開日:2020-07-22
# 大規模グラフ学習のための非結合学習アーキテクチャ

An Uncoupled Training Architecture for Large Graph Learning ( http://arxiv.org/abs/2003.09638v2 )

ライセンス: Link先を確認
Dalong Yang, Chuan Chen, Youhao Zheng, Zibin Zheng, Shih-wei Liao(参考訳) グラフ畳み込みネットワーク(GCN)は、グラフ学習タスクで広く使われている。 しかし、GCNベースのモデル(GCN)は、大規模グラフ処理における柔軟性の制限につながる複雑な隣り合うアグリゲーションを反復的に実施する、本質的に結合したトレーニングフレームワークである。 層深の増大に伴い、再帰的近傍拡大によりGCNの計算・記憶コストは爆発的に増大する。 これらの問題に対処するために、我々は、組み込みを取得するために独立したマッピングデータを利用する柔軟な非結合トレーニングフレームワークであるnode2gridsを提案する。 結合ノードをGCNとして直接処理する代わりに、Node2Gridsはより効率的な方法をサポートし、結合されたグラフデータを独立したグリッドのようなデータにマッピングし、効率的な畳み込みニューラルネットワーク(CNN)に入力することができる。 この単純だが有効な戦略はメモリと計算資源を大幅に節約し、主要なgcnベースのモデルと同等の結果を得る。 特に、各ノードの影響力を次数でランク付けすることで、node2gridsは最も影響力のある一階と、中央ノードの融合情報を持つ二階の隣接を選択し、グリッドライクなデータを構築する。 ダウンストリームタスクの効率をさらに向上するために、マッピングされたグリッドライクなデータから重要な情報をキャプチャするために、単純なcnnベースのニューラルネットワークが使用される。 さらに、グリッドレベルの注意機構を実装し、異なる影響を持つ隣ノードの異なる重み付けを暗黙的に指定できる。 典型的なトランスダクティブおよびインダクティブ学習タスクに加えて,提案したNode2Gridsモデルの最先端GCNベースのアプローチに対する優位性を示すために,100万規模のグラフ上でのフレームワークを検証する。

Graph Convolutional Network (GCN) has been widely used in graph learning tasks. However, GCN-based models (GCNs) is an inherently coupled training framework repetitively conducting the complex neighboring aggregation, which leads to the limitation of flexibility in processing large-scale graph. With the depth of layers increases, the computational and memory cost of GCNs grow explosively due to the recursive neighborhood expansion. To tackle these issues, we present Node2Grids, a flexible uncoupled training framework that leverages the independent mapped data for obtaining the embedding. Instead of directly processing the coupled nodes as GCNs, Node2Grids supports a more efficacious method in practice, mapping the coupled graph data into the independent grid-like data which can be fed into the efficient Convolutional Neural Network (CNN). This simple but valid strategy significantly saves memory and computational resource while achieving comparable results with the leading GCN-based models. Specifically, by ranking each node's influence through degree, Node2Grids selects the most influential first-order as well as second-order neighbors with central node fusion information to construct the grid-like data. For further improving the efficiency of downstream tasks, a simple CNN-based neural network is employed to capture the significant information from the mapped grid-like data. Moreover, the grid-level attention mechanism is implemented, which enables implicitly specifying the different weights for neighboring nodes with different influences. In addition to the typical transductive and inductive learning tasks, we also verify our framework on million-scale graphs to demonstrate the superiority of the proposed Node2Grids model against the state-of-the-art GCN-based approaches.
翻訳日:2022-12-21 12:39:58 公開日:2020-07-22
# グラフトネットワークを用いたマルチビジョンモダリティ活用のための学習

Learning to Exploit Multiple Vision Modalities by Using Grafted Networks ( http://arxiv.org/abs/2003.10959v3 )

ライセンス: Link先を確認
Yuhuang Hu and Tobi Delbruck and Shih-Chii Liu(参考訳) サーマル、ハイパースペクトル、偏光、イベントカメラなどの新しい視覚センサは、従来の強度カメラでは利用できない情報を提供する。 現在の強力なディープニューラルネットワークでこれらのセンサーを使用するための障害は、大きなラベル付きトレーニングデータセットがないことである。 本稿では,従来型でない視覚入力で駆動される新しいフロントエンドネットワークが,強度フレームを処理する事前学習されたディープネットワークのフロントエンドネットワークを置き換えるネットワークグラフトアルゴリズム(nga)を提案する。 自己教師付きトレーニングは、同期記録された強度フレームと新しいセンサデータのみを使用して、事前訓練されたネットワークとグラフトされたネットワークとの間の特徴的類似性を最大化する。 拡張グラフトネットワークは,熱カメラとイベントカメラのデータセットを用いて対象検出タスクで事前学習したネットワークに対して,推定コストを増加させることなく,競合平均精度(ap50)に達した。 特に, 熱フレームによるグラフトネットワークは, 強度フレームを用いた場合と比較して, 相対的に49.11%向上した。 移植されたフロントエンドは、全パラメータの5--8%しか持たず、ラベル付きデータからオブジェクト検出全体をトレーニングするために必要な時間の5%に相当する1つのGPUで、数時間でトレーニングすることができる。 NGAは、これまで訓練されていた強力な深層モデルに新たな視覚センサーを付加し、トレーニングコストを削減し、新しいセンサーの幅広い応用範囲を広げる。

Novel vision sensors such as thermal, hyperspectral, polarization, and event cameras provide information that is not available from conventional intensity cameras. An obstacle to using these sensors with current powerful deep neural networks is the lack of large labeled training datasets. This paper proposes a Network Grafting Algorithm (NGA), where a new front end network driven by unconventional visual inputs replaces the front end network of a pretrained deep network that processes intensity frames. The self-supervised training uses only synchronously-recorded intensity frames and novel sensor data to maximize feature similarity between the pretrained network and the grafted network. We show that the enhanced grafted network reaches competitive average precision (AP50) scores to the pretrained network on an object detection task using thermal and event camera datasets, with no increase in inference costs. Particularly, the grafted network driven by thermal frames showed a relative improvement of 49.11% over the use of intensity frames. The grafted front end has only 5--8% of the total parameters and can be trained in a few hours on a single GPU equivalent to 5% of the time that would be needed to train the entire object detector from labeled data. NGA allows new vision sensors to capitalize on previously pretrained powerful deep models, saving on training cost and widening a range of applications for novel sensors.
翻訳日:2022-12-20 08:33:18 公開日:2020-07-22
# 教師なし領域適応のための空間注意ピラミッドネットワーク

Spatial Attention Pyramid Network for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2003.12979v3 )

ライセンス: Link先を確認
Congcong Li, Dawei Du, Libo Zhang, Longyin Wen, Tiejian Luo, Yanjun Wu, Pengfei Zhu(参考訳) 教師なしドメイン適応は、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなど、さまざまなコンピュータビジョンタスクにおいて重要であり、ドメインシフトによるパフォーマンス劣化を軽減することを目的としている。 従来の手法のほとんどは、ソースとターゲットドメインの単一モードの分布に依存して、逆学習と整合し、様々なシナリオにおいて結果が劣る。 そこで本稿では,教師なし領域適応のための新しい空間注意ピラミッドネットワークを設計する。 具体的には、まず空間ピラミッド表現を構築し、異なるスケールでオブジェクトのコンテキスト情報をキャプチャする。 タスク固有情報に導かれ,空間的注意機構を用いて,各空間における密集した大域構造表現と局所テクスチャパターンを組み合わせた。 このようにして、ネットワークはドメイン適応のためのコンテキスト情報を持つ識別領域に集中するように強制される。 我々は,オブジェクト検出,インスタンス分割,セマンティクスセグメンテーションにおける教師なしドメイン適応のための,さまざまな挑戦的データセットを広範囲に実験し,その手法が最先端手法に対して大きなマージンで有利に動作することを示す。 ソースコードはhttps://isrc.iscas.ac.cn/gitlab/research/domain-adaptionで利用可能です。

Unsupervised domain adaptation is critical in various computer vision tasks, such as object detection, instance segmentation, and semantic segmentation, which aims to alleviate performance degradation caused by domain-shift. Most of previous methods rely on a single-mode distribution of source and target domains to align them with adversarial learning, leading to inferior results in various scenarios. To that end, in this paper, we design a new spatial attention pyramid network for unsupervised domain adaptation. Specifically, we first build the spatial pyramid representation to capture context information of objects at different scales. Guided by the task-specific information, we combine the dense global structure representation and local texture patterns at each spatial location effectively using the spatial attention mechanism. In this way, the network is enforced to focus on the discriminative regions with context information for domain adaption. We conduct extensive experiments on various challenging datasets for unsupervised domain adaptation on object detection, instance segmentation, and semantic segmentation, which demonstrates that our method performs favorably against the state-of-the-art methods by a large margin. Our source code is available at https://isrc.iscas.ac.cn/gitlab/research/domain-adaption.
翻訳日:2022-12-18 13:51:58 公開日:2020-07-22
# 編集可能なニューラルネットワーク

Editable Neural Networks ( http://arxiv.org/abs/2004.00345v2 )

ライセンス: Link先を確認
Anton Sinitsin, Vsevolod Plokhotnyuk, Dmitriy Pyrkin, Sergei Popov, Artem Babenko(参考訳) 近年、ディープニューラルネットワークは、画像分類や機械翻訳から顔の識別、自動運転車まで、幅広いタスクで広く利用されている。 多くのアプリケーションにおいて、単一のモデルエラーは、経済的、評判、さらには生命を脅かす結果をもたらす可能性がある。 したがって、モデルミスが現れるとすぐに修正することが極めて重要である。 そこで本研究では,ニューラルネットワークが,特定のサンプルに対するモデルの誤りを,他のサンプルのモデル動作に影響を与えずに効率的にパッチを当てる方法について検討する。 具体的には,モデルを高速に編集するためのモデル非依存なトレーニング手法であるeditable trainingを提案する。 本手法は,大規模画像分類と機械翻訳に有効であることを示す。

These days deep neural networks are ubiquitously used in a wide range of tasks, from image classification and machine translation to face identification and self-driving cars. In many applications, a single model error can lead to devastating financial, reputational and even life-threatening consequences. Therefore, it is crucially important to correct model mistakes quickly as they appear. In this work, we investigate the problem of neural network editing $-$ how one can efficiently patch a mistake of the model on a particular sample, without influencing the model behavior on other samples. Namely, we propose Editable Training, a model-agnostic training technique that encourages fast editing of the trained model. We empirically demonstrate the effectiveness of this method on large-scale image classification and machine translation tasks.
翻訳日:2022-12-17 18:00:55 公開日:2020-07-22
# 3D)センターを見つける:学習した損失を用いた3Dオブジェクト検出

Finding Your (3D) Center: 3D Object Detection Using a Learned Loss ( http://arxiv.org/abs/2004.02693v2 )

ライセンス: Link先を確認
David Griffiths, Jan Boehm, Tobias Ritschel(参考訳) 大量のセマンティックラベル付きデータセットは2D画像で容易に利用できるが、3Dシーンでは達成が困難である。 ShapeNetのような3Dレポジトリのオブジェクトはラベル付けされているが、残念なことに分離されているだけであり、コンテキストがない。 3dシーンは、都市規模のレンジスキャナーによって取得できるが、セマンティックラベルではずっと少ない。 そこで本研究では,物体ラベルの5%に留まりながら,生の3dスキャンによる3d検出のトレーニングを可能にする新しい最適化手法を提案する。 最適化には2つのネットワークを使用します。 シーンネットワークは、3Dシーン全体を3Dオブジェクトセンターのセットにマッピングする。 シーンがセンターによってラベル付けされないと仮定するので、チャンファーのような古典的な損失は使用できない。 代わりに、損失をエミュレートするために別のネットワークを使用します。 この損失ネットワークは小さなラベル付きサブセットでトレーニングされ、無中心の3Dオブジェクトを自身の中心に注意を払ってマッピングする。 この関数は、非常によく似ており、従って、監督された損失がもたらす勾配に代えて使用できる。 評価では, 同等の監督において, より低い監督レベルで, 高い品質で競争力を示す。 補足資料は、https://dgriffiths3.github.ioで見ることができる。

Massive semantically labeled datasets are readily available for 2D images, however, are much harder to achieve for 3D scenes. Objects in 3D repositories like ShapeNet are labeled, but regrettably only in isolation, so without context. 3D scenes can be acquired by range scanners on city-level scale, but much fewer with semantic labels. Addressing this disparity, we introduce a new optimization procedure, which allows training for 3D detection with raw 3D scans while using as little as 5% of the object labels and still achieve comparable performance. Our optimization uses two networks. A scene network maps an entire 3D scene to a set of 3D object centers. As we assume the scene not to be labeled by centers, no classic loss, such as Chamfer can be used to train it. Instead, we use another network to emulate the loss. This loss network is trained on a small labeled subset and maps a non centered 3D object in the presence of distractions to its own center. This function is very similar - and hence can be used instead of - the gradient the supervised loss would provide. Our evaluation documents competitive fidelity at a much lower level of supervision, respectively higher quality at comparable supervision. Supplementary material can be found at: https://dgriffiths3.github.io.
翻訳日:2022-12-16 07:05:17 公開日:2020-07-22
# InsideBias:ディープネットワークにおけるバイアス測定と顔の性別生体計測への応用

InsideBias: Measuring Bias in Deep Networks and Application to Face Gender Biometrics ( http://arxiv.org/abs/2004.06592v3 )

ライセンス: Link先を確認
Ignacio Serna, Alejandro Pe\~na, Aythami Morales, and Julian Fierrez(参考訳) 本研究は、深層ニューラルネットワークアーキテクチャに基づく学習プロセスのバイアスを探求する。 mnistデータベースを用いたトイ例と,顔画像からの性別検出におけるケーススタディを用いて,バイアスがディープラーニングプロセスに与える影響を分析した。 一般的なディープニューラルネットワークに基づく2つの性別検出モデルを用いる。 モデルで学習した特徴に対して,非バランスなトレーニングデータセットを用いた場合のバイアス効果の包括的分析を行う。 顔画像に基づいて性別検出モデルのアクティベーションにバイアスがどう影響するかを示す。 バイアスモデルを検出する新しい手法であるinsidebiasを提案する。 InsideBiasは、モデルがどのように実行するかではなく、どのように情報を表現するかに基づいています。 InsideBiasを使った私たちの戦略は、ごく少数のサンプル(ケーススタディでは15の画像のみ)でバイアスのあるモデルを検出することができます。 実験には、24kの身元と3つの民族による72kの顔画像が含まれる。

This work explores the biases in learning processes based on deep neural network architectures. We analyze how bias affects deep learning processes through a toy example using the MNIST database and a case study in gender detection from face images. We employ two gender detection models based on popular deep neural networks. We present a comprehensive analysis of bias effects when using an unbalanced training dataset on the features learned by the models. We show how bias impacts in the activations of gender detection models based on face images. We finally propose InsideBias, a novel method to detect biased models. InsideBias is based on how the models represent the information instead of how they perform, which is the normal practice in other existing methods for bias detection. Our strategy with InsideBias allows to detect biased models with very few samples (only 15 images in our case study). Our experiments include 72K face images from 24K identities and 3 ethnic groups.
翻訳日:2022-12-13 09:49:25 公開日:2020-07-22
# 深層不確実性:深層学習アルゴリズムにおける不確実性定量化法の比較

Deeply Uncertain: Comparing Methods of Uncertainty Quantification in Deep Learning Algorithms ( http://arxiv.org/abs/2004.10710v3 )

ライセンス: Link先を確認
Jo\~ao Caldeira, Brian Nord(参考訳) 本稿では,単純な物理系の文脈における深層学習アルゴリズムにおける不確実性定量化法(uq)の比較を行った。 ベイズニューラルネットワーク(BNN)、コンクリート落下(CD)、Deep Ensembles(DE)の3つの最も一般的な不確実性定量化手法を標準解析誤差伝搬と比較した。 機械学習(epistemic とaleatoric)と物理科学(statistical と "systematic )の両方に固有性という用語でこの比較について論じる。 これらの比較は、1つの振り子(計測と分析技術を研究するための原型的物理システム)のシミュレーション実験的な測定で示される。 この結果から,これらのUQ手法を用いた場合の落とし穴が浮かび上がる。 例えば、トレーニングセット内のノイズの変動が小さい場合、全てのメソッドは入力とは独立に同じ相対的不確実性を予測する。 この問題は特にBNNでは避けがたい。 一方,テストセットにトレーニング分布から遠いサンプルが含まれている場合,その予測に関係する不確実性を十分に増大させる手法は存在しないことがわかった。 この問題は特にcdで明らかだった。 これらの結果を踏まえ、uqメソッドの使用と解釈についていくつか推奨する。

We present a comparison of methods for uncertainty quantification (UQ) in deep learning algorithms in the context of a simple physical system. Three of the most common uncertainty quantification methods - Bayesian Neural Networks (BNN), Concrete Dropout (CD), and Deep Ensembles (DE) - are compared to the standard analytic error propagation. We discuss this comparison in terms endemic to both machine learning ("epistemic" and "aleatoric") and the physical sciences ("statistical" and "systematic"). The comparisons are presented in terms of simulated experimental measurements of a single pendulum - a prototypical physical system for studying measurement and analysis techniques. Our results highlight some pitfalls that may occur when using these UQ methods. For example, when the variation of noise in the training set is small, all methods predicted the same relative uncertainty independently of the inputs. This issue is particularly hard to avoid in BNN. On the other hand, when the test set contains samples far from the training distribution, we found that no methods sufficiently increased the uncertainties associated to their predictions. This problem was particularly clear for CD. In light of these results, we make some recommendations for usage and interpretation of UQ methods.
翻訳日:2022-12-10 17:47:01 公開日:2020-07-22
# ベイズ逐次実験設計を用いた雑音適応群テスト

Noisy Adaptive Group Testing using Bayesian Sequential Experimental Design ( http://arxiv.org/abs/2004.12508v6 )

ライセンス: Link先を確認
Marco Cuturi, Olivier Teboul, Quentin Berthet, Arnaud Doucet, Jean-Philippe Vert(参考訳) 病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。 本研究の目的は、ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案し、どのグループを次にテストするか(過去の結果を見れば)を適応的に決定し、優れた検出にできるだけ早く、できるだけ少ないテストで収束させることである。 我々はこの問題をベイズ的逐次実験設計問題とみなした。 これまでに観察された検査結果から, 感染状況ベクトルの後方分布を$n$の患者に応用し, 最大効用を有する群をつくり出そうとしている。 我々は、相互情報などのユーティリティだけでなく、テストのROC曲線のAUCのような、テストにより直接的な関係を持つ量についても検討する。 実際、$\{0,1\}^n$ 上の後続分布は、連続モンテカルロ(SMC)サンプリング器と、グリーディオプティマイザによって最大化されるユーティリティによって近似される。 提案手法は,適応ベースラインと非適応ベースラインの両方において有意な改善を示し,疾患の有病率が低い場合の個々のテストよりもはるかに効率的である。 さらに,個人が感染しているかどうかを判断するsotaデコーダとして広く見なされているループ性信念伝播(lbp)は,信頼性に乏しく振動行動を示すことが実証的に示されている。 当社のsmcデコーダは信頼性が高く,他のグループテストアルゴリズムのパフォーマンスも向上しています。

When the infection prevalence of a disease is low, Dorfman showed 80 years ago that testing groups of people can prove more efficient than testing people individually. Our goal in this paper is to propose new group testing algorithms that can operate in a noisy setting (tests can be mistaken) to decide adaptively (looking at past results) which groups to test next, with the goal to converge to a good detection, as quickly, and with as few tests as possible. We cast this problem as a Bayesian sequential experimental design problem. Using the posterior distribution of infection status vectors for $n$ patients, given observed tests carried out so far, we seek to form groups that have a maximal utility. We consider utilities such as mutual information, but also quantities that have a more direct relevance to testing, such as the AUC of the ROC curve of the test. Practically, the posterior distributions on $\{0,1\}^n$ are approximated by sequential Monte Carlo (SMC) samplers and the utility maximized by a greedy optimizer. Our procedures show in simulations significant improvements over both adaptive and non-adaptive baselines, and are far more efficient than individual tests when disease prevalence is low. Additionally, we show empirically that loopy belief propagation (LBP), widely regarded as the SoTA decoder to decide whether an individual is infected or not given previous tests, can be unreliable and exhibit oscillatory behavior. Our SMC decoder is more reliable, and can improve the performance of other group testing algorithms.
翻訳日:2022-12-09 14:04:18 公開日:2020-07-22
# ディープラーニングを用いた相対論的重イオン衝突状態方程式の分類

Classification of Equation of State in Relativistic Heavy-Ion Collisions Using Deep Learning ( http://arxiv.org/abs/2004.14409v2 )

ライセンス: Link先を確認
Yu. Kvasiuk, E. Zabrodin, L. Bravina, I. Didur, M. Frolov(参考訳) 深層学習の強力な手法である畳み込みニューラルネットワークを用いて,UrQMDモデル内で発生する重イオン衝突現象の状態の方程式を分類する。 プロトンのイベントバイイベント逆運動量と方位角分布を用いて分類器を訓練する。 Au+Auイベントの分類の全体的な精度は、$\sqrt{s_{NN}} = 11$ GeVである。 異なる衝突エネルギーの事象を学習した分類器の性能について検討した。 得られた結果は、重イオン衝突の物理における他の問題に対するDeep Learning法の適用の可能性を示している。

Convolutional Neural Nets, which is a powerful method of Deep Learning, is applied to classify equation of state of heavy-ion collision event generated within the UrQMD model. Event-by-event transverse momentum and azimuthal angle distributions of protons are used to train a classifier. An overall accuracy of classification of 98\% is reached for Au+Au events at $\sqrt{s_{NN}} = 11$ GeV. Performance of classifiers, trained on events at different colliding energies, is investigated. Obtained results indicate extensive possibilities of application of Deep Learning methods to other problems in physics of heavy-ion collisions.
翻訳日:2022-12-08 14:46:01 公開日:2020-07-22
# Bertに基づく単語類似性における文脈の(段階的な)効果を予測する高精度モデル

An Accurate Model for Predicting the (Graded) Effect of Context in Word Similarity Based on Bert ( http://arxiv.org/abs/2005.01006v3 )

ライセンス: Link先を確認
Wei Bao, Hongshu Che, Jiandong Zhang(参考訳) 自然言語処理(NLP)は近年,意味解析に広く用いられている。 本稿は,SemEval 2020の3番目の課題である,文脈が類似語に対する人間の知覚に与える影響を分析する方法論を主に論じる。 変換器(BERT)からの双方向エンコーダ表現によって生成される2つの埋め込みベクトル間の距離を計算するために,いくつかの手法を適用する。 我々のチームはフィンランド語トラックのsubtask1で1位を獲得し、英語トラックのsubtask1で2位となった。

Natural Language Processing (NLP) has been widely used in the semantic analysis in recent years. Our paper mainly discusses a methodology to analyze the effect that context has on human perception of similar words, which is the third task of SemEval 2020. We apply several methods in calculating the distance between two embedding vector generated by Bidirectional Encoder Representation from Transformer (BERT). Our team will_go won the 1st place in Finnish language track of subtask1, the second place in English track of subtask1.
翻訳日:2022-12-07 06:16:00 公開日:2020-07-22
# テキストに基づく理想点

Text-Based Ideal Points ( http://arxiv.org/abs/2005.04232v2 )

ライセンス: Link先を確認
Keyon Vafa, Suresh Naidu, David M. Blei(参考訳) 理想的なポイントモデルは、議員の票を分析し、彼らの政治的地位や理想的なポイントを定量化する。 しかし、投票は政治的地位を表現する唯一の方法ではない。 議員はスピーチやプレスリリースの公開、ツイートの投稿も行う。 本稿では,テキストを解析して著者の政治的立場を定量化する教師なし確率的トピックモデルであるテキストベース理想点モデル(TBIP)を紹介する。 TBIPは、米国上院の演説と上院議員のツイートの2種類の政治データで実証する。 モデルは投票や政治関係を分析していないが、tbipは議員を政党ごとに分離し、解釈可能な政治トピックを学び、古典的な投票に基づく理想点に近い理想点を推測する。 投票ではなくテキストを分析する利点の1つは、TBIPが投票しないアクターを含む政治的テキストを執筆する人の理想的なポイントを推定できることである。 この目的のために、私たちは2020年の民主党大統領候補のツイートを調査するためにそれを使用します。 ツイートのテキストのみを使用して、解釈可能なプログレッシブからモデレートのスペクトルに沿ってそれらを識別する。

Ideal point models analyze lawmakers' votes to quantify their political positions, or ideal points. But votes are not the only way to express a political position. Lawmakers also give speeches, release press statements, and post tweets. In this paper, we introduce the text-based ideal point model (TBIP), an unsupervised probabilistic topic model that analyzes texts to quantify the political positions of its authors. We demonstrate the TBIP with two types of politicized text data: U.S. Senate speeches and senator tweets. Though the model does not analyze their votes or political affiliations, the TBIP separates lawmakers by party, learns interpretable politicized topics, and infers ideal points close to the classical vote-based ideal points. One benefit of analyzing texts, as opposed to votes, is that the TBIP can estimate ideal points of anyone who authors political texts, including non-voting actors. To this end, we use it to study tweets from the 2020 Democratic presidential candidates. Using only the texts of their tweets, it identifies them along an interpretable progressive-to-moderate spectrum.
翻訳日:2022-12-05 11:31:43 公開日:2020-07-22
# S-ADDOPT:有向グラフ上の分散確率的一階最適化

S-ADDOPT: Decentralized stochastic first-order optimization over directed graphs ( http://arxiv.org/abs/2005.07785v3 )

ライセンス: Link先を確認
Muhammad I. Qureshi, Ran Xin, Soummya Kar, and Usman A. Khan(参考訳) 本稿では,ノードの有向ネットワーク上に分散する関数のスムーズかつ強凸なコスト関数の和を最小化する分散確率最適化について検討する。 既存の研究とは対照的に、我々は勾配追跡を用いて、結果のアルゴリズムの特定の側面を改善する。 特に,各ノードの確率的一階オラクルを仮定する~\textbf{\texttt{S-ADDOPT}}アルゴリズムを提案し,各ノードが最適解の周りの誤差球内に直線的に収束し,そのサイズは~$\alpha$によって制御されることを示す。 分解ステップサイズ~$\mathcal{o}(1/k)$ に対して、~\textbf{\texttt{s-addopt}} は−$\mathcal{o}(1/k)$ で完全解に到達し、その収束は漸近的にネットワークに依存しない。 したがって、~\textbf{\texttt{S-ADDOPT}} の漸近挙動は集中確率勾配勾配に匹敵する。 強凸問題と非凸問題の両方に対する数値実験は,提案アルゴリズムの収束挙動と性能比較を示している。

In this report, we study decentralized stochastic optimization to minimize a sum of smooth and strongly convex cost functions when the functions are distributed over a directed network of nodes. In contrast to the existing work, we use gradient tracking to improve certain aspects of the resulting algorithm. In particular, we propose the~\textbf{\texttt{S-ADDOPT}} algorithm that assumes a stochastic first-order oracle at each node and show that for a constant step-size~$\alpha$, each node converges linearly inside an error ball around the optimal solution, the size of which is controlled by~$\alpha$. For decaying step-sizes~$\mathcal{O}(1/k)$, we show that~\textbf{\texttt{S-ADDOPT}} reaches the exact solution sublinearly at~$\mathcal{O}(1/k)$ and its convergence is asymptotically network-independent. Thus the asymptotic behavior of~\textbf{\texttt{S-ADDOPT}} is comparable to the centralized stochastic gradient descent. Numerical experiments over both strongly convex and non-convex problems illustrate the convergence behavior and the performance comparison of the proposed algorithm.
翻訳日:2022-12-02 23:00:40 公開日:2020-07-22
# 共起型テクスチャ合成

Co-occurrence Based Texture Synthesis ( http://arxiv.org/abs/2005.08186v2 )

ライセンス: Link先を確認
Anna Darzi, Itai Lang, Ashutosh Taklikar, Hadar Averbuch-Elor, Shai Avidan(参考訳) 画像生成技術が成熟するにつれて、理解しやすく、直感的に操作できる説明可能な表現への関心が高まっている。 本研究では,これまでテクスチャ解析に用いられてきた共起統計に目を向け,制御可能なテクスチャ合成モデルについて学習する。 テクスチャの外観を局所的に解釈可能制御しながら、任意に大きな画像を生成するために、共起統計に基づいて局所的に条件付けられた完全畳み込み生成対向ネットワークを提案する。 入力条件に対する忠実性を高めるために,我々は,エンドツーエンドでシームレスにフレームワークに統合された,新たな差別化可能な共起損失を導入する。 提案手法はテクスチャ合成のための安定で直感的かつ解釈可能な潜在表現を提供し,異なるテクスチャ間の滑らかなテクスチャ形態を生成できることを実証する。 さらに,合成テクスチャ画像の局所的特性を,共起値を用いて直接調整できる対話型テクスチャツールを提案する。

As image generation techniques mature, there is a growing interest in explainable representations that are easy to understand and intuitive to manipulate. In this work, we turn to co-occurrence statistics, which have long been used for texture analysis, to learn a controllable texture synthesis model. We propose a fully convolutional generative adversarial network, conditioned locally on co-occurrence statistics, to generate arbitrarily large images while having local, interpretable control over the texture appearance. To encourage fidelity to the input condition, we introduce a novel differentiable co-occurrence loss that is integrated seamlessly into our framework in an end-to-end fashion. We demonstrate that our solution offers a stable, intuitive and interpretable latent representation for texture synthesis, which can be used to generate a smooth texture morph between different textures. We further show an interactive texture tool that allows a user to adjust local characteristics of the synthesized texture image using the co-occurrence values directly.
翻訳日:2022-12-02 05:33:13 公開日:2020-07-22
# Marahelを用いた多目的レベルジェネレータ

Multi-Objective level generator generation with Marahel ( http://arxiv.org/abs/2005.08368v2 )

ライセンス: Link先を確認
Ahmed Khalifa and Julian Togelius(参考訳) 本稿では,Marahel言語で定義された構成レベルジェネレータの空間を探索し,構成レベルジェネレータを設計するシステムを提案する。 我々は、多目的最適化アルゴリズムNSGA-IIを用いて、3つの異なる問題(Binary、Zelda、Sokoban)のジェネレータを探索する。 我々は、マラーヘル言語のサブセットに表現を制限し、より効率的なジェネレータを見つけるために進化を推し進める。 その結果, 生成した発電機は, これら3つの問題に対して, フィットネス機能の大部分において良好な性能を得ることができた。 しかし、ゼルダやソコバンでは、地図を変更するよりも初期状態に依存する傾向がある。

This paper introduces a new system to design constructive level generators by searching the space of constructive level generators defined by Marahel language. We use NSGA-II, a multi-objective optimization algorithm, to search for generators for three different problems (Binary, Zelda, and Sokoban). We restrict the representation to a subset of Marahel language to push the evolution to find more efficient generators. The results show that the generated generators were able to achieve good performance on most of the fitness functions over these three problems. However, on Zelda and Sokoban, they tend to depend on the initial state than modifying the map.
翻訳日:2022-12-02 05:07:16 公開日:2020-07-22
# 手術リスク予測のためのマルチエージェントモデル

Multi-agent model for risk prediction in surgery ( http://arxiv.org/abs/2005.10738v2 )

ライセンス: Link先を確認
Bruno Perez, Julien Henriet, Christophe Lang, Laurent Philippe(参考訳) 手術室を構成する異なる要素の動作と状態から生じるリスク管理は、外科手術において大きな関心事である。 エージェントベースのシミュレーションは、異なるシミュレーターエンティティの相互作用の概念、相互作用性、自律性を通じて興味を示す。 本研究では,エージェントのシミュレータに適用されるさまざまな設定(ヒトの疲労,物質効率,感染率...)の進化を聴くために,警告生成装置を実装したい。 本稿では,本モデルとその実装とその最初の結果について述べる。 この研究は、異なるレベルの抽象化の統合、種の結合、同じ環境におけるいくつかのスケールの共存、予測不可能な警告の推論など、いくつかの科学的障害を識別することを可能にすることに注意する必要がある。 ケースベース推論(cbr)は、上記の最後のロックに対する応答の始まりであり、本論文で議論される。

Risk management resulting from the actions and states of the different elements making up a operating room is a major concern during a surgical procedure. Agent-based simulation shows an interest through its interaction concepts, interactivity and autonomy of different simulator entities. We want in our study to implement a generator of alerts to listen the evolution of different settings applied to the simulator of agents (human fatigue, material efficiency, infection rate ...). This article presents our model, its implementation and the first results obtained. It should be noted that this study also made it possible to identify several scientific obstacles, such as the integration of different levels of abstraction, the coupling of species, the coexistence of several scales in the same environment and the deduction of unpredictable alerts. Case-based reasoning (CBR) is a beginning of response relative to the last lock mentioned and will be discussed in this paper.
翻訳日:2022-11-30 23:47:00 公開日:2020-07-22
# 言語モデルはわずかなショット学習者である

Language Models are Few-Shot Learners ( http://arxiv.org/abs/2005.14165v4 )

ライセンス: Link先を確認
Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei(参考訳) 最近の研究は、大量のテキストコーパスを事前学習し、特定のタスクを微調整することで、多くのNLPタスクやベンチマークで大幅に向上している。 通常、アーキテクチャではタスクに依存しないが、この方法はタスク固有の微調整データセットを数万から数万の例で要求する。 対照的に、人間は一般的に、いくつかの例や単純な命令から新しい言語タスクを実行することができます。 ここでは,言語モデルのスケールアップによってタスク非依存,少数ショットのパフォーマンスが大幅に向上することを示す。 具体的には、175億のパラメータを持つ自己回帰型言語モデルgpt-3をトレーニングし、それまでの非スパース言語モデルよりも10倍の精度でテストします。 すべてのタスクに対して、GPT-3は勾配の更新や微調整なしに適用され、タスクや数発のデモは、モデルとのテキストインタラクションによって純粋に指定される。 GPT-3は、翻訳、問合せ、クローズタスクを含む多くのNLPデータセットにおいて、非スクランブルワード、文中の新しい単語の使用、あるいは3桁の算術処理など、オンザフライ推論やドメイン適応を必要とするタスクを含む、強力なパフォーマンスを実現している。 同時に、GPT-3の少数ショット学習が依然として苦戦しているデータセットや、GPT-3が大規模Webコーパスのトレーニングに関連する方法論上の問題に直面しているデータセットも特定する。 最後に、GPT-3は、人間による記事と区別が難しいニュース記事のサンプルを生成することができる。 本稿では,この発見の社会的影響とGPT-3の一般性について論じる。

Recent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnostic in architecture, this method still requires task-specific fine-tuning datasets of thousands or tens of thousands of examples. By contrast, humans can generally perform a new language task from only a few examples or from simple instructions - something which current NLP systems still largely struggle to do. Here we show that scaling up language models greatly improves task-agnostic, few-shot performance, sometimes even reaching competitiveness with prior state-of-the-art fine-tuning approaches. Specifically, we train GPT-3, an autoregressive language model with 175 billion parameters, 10x more than any previous non-sparse language model, and test its performance in the few-shot setting. For all tasks, GPT-3 is applied without any gradient updates or fine-tuning, with tasks and few-shot demonstrations specified purely via text interaction with the model. GPT-3 achieves strong performance on many NLP datasets, including translation, question-answering, and cloze tasks, as well as several tasks that require on-the-fly reasoning or domain adaptation, such as unscrambling words, using a novel word in a sentence, or performing 3-digit arithmetic. At the same time, we also identify some datasets where GPT-3's few-shot learning still struggles, as well as some datasets where GPT-3 faces methodological issues related to training on large web corpora. Finally, we find that GPT-3 can generate samples of news articles which human evaluators have difficulty distinguishing from articles written by humans. We discuss broader societal impacts of this finding and of GPT-3 in general.
翻訳日:2022-11-27 05:10:15 公開日:2020-07-22
# 料理は人に関するものである:bertと分類モデル(malayalam-english mix-code)を用いた料理チャネルのコメント分類

Cooking Is All About People: Comment Classification On Cookery Channels Using BERT and Classification Models (Malayalam-English Mix-Code) ( http://arxiv.org/abs/2007.04249v3 )

ライセンス: Link先を確認
Subramaniam Kazhuparambil (1) and Abhishek Kaushik (1 and 2) ((1) Dublin Business School, (2) Dublin City University)(参考訳) ビデオ配信プラットフォームYouTubeを通じてGoogleが推進する収益性のあるキャリアの範囲は、多くのユーザーを惹きつけ、コンテンツクリエーターとなった。 この一連の作業の重要な側面は、コメント形式で受信されたフィードバックであり、聴衆がコンテンツがどれほどうまく受け取られているかを示している。 しかし、スパムとコメント分類のための限られたツールが組み合わされたコメントの量は、クリエイターが各コメントを通り抜けて建設的なフィードバックを集めることは事実上不可能である。 コメントの自動分類は確立された分類モデルでも困難である。なぜなら、コメントはスラング、シンボル、略語で囲まれた可変長を持つことが多いからである。 これは、メッセージがそれぞれの頂点と重複することが多いため、コメントが多言語であるという大きな課題である。 本研究では,英語とマラヤラムの異なる組み合わせ(英語のみ,マラヤラムのみ,および英語とマラヤラムの混合)を混合したコメントを分類するためのトップパフォーマンス分類モデルを評価した。 結果の統計的分析から,k-nearest neighbors (knn), support vector machine (svm), random forest, decision treesは,コメント分類において類似した精度を示している。 さらに,3つの多言語変換言語モデル (BERT, DISTILBERT, XLM) を評価し,その性能を従来の機械学習分類手法と比較した。 XLMは最高性能のBERTモデルであり、精度は67.31である。 Random Forest with Term Frequency Vectorizerは63.59の精度で従来の分類モデルの中で最高の性能を発揮した。

The scope of a lucrative career promoted by Google through its video distribution platform YouTube has attracted a large number of users to become content creators. An important aspect of this line of work is the feedback received in the form of comments which show how well the content is being received by the audience. However, volume of comments coupled with spam and limited tools for comment classification makes it virtually impossible for a creator to go through each and every comment and gather constructive feedback. Automatic classification of comments is a challenge even for established classification models, since comments are often of variable lengths riddled with slang, symbols and abbreviations. This is a greater challenge where comments are multilingual as the messages are often rife with the respective vernacular. In this work, we have evaluated top-performing classification models for classifying comments which are a mix of different combinations of English and Malayalam (only English, only Malayalam and Mix of English and Malayalam). The statistical analysis of results indicates that Multinomial Naive Bayes, K-Nearest Neighbors (KNN), Support Vector Machine (SVM), Random Forest and Decision Trees offer similar level of accuracy in comment classification. Further, we have also evaluated 3 multilingual transformer based language models (BERT, DISTILBERT and XLM) and compared their performance to the traditional machine learning classification techniques. XLM was the top-performing BERT model with an accuracy of 67.31. Random Forest with Term Frequency Vectorizer was the best performing model out of all the traditional classification models with an accuracy of 63.59.
翻訳日:2022-11-21 02:12:06 公開日:2020-07-22
# FLAMBE:低位MDPの構造複雑性と表現学習

FLAMBE: Structural Complexity and Representation Learning of Low Rank MDPs ( http://arxiv.org/abs/2006.10814v2 )

ライセンス: Link先を確認
Alekh Agarwal, Sham Kakade, Akshay Krishnamurthy, Wen Sun(参考訳) 強化学習(RL)における次元性の呪いに対処するためには、値やポリシーが低次元の特徴空間の関数であるようなパラメトリックな仮定を行うのが一般的である。 この機能をどのように学べばよいのか? 基礎となる(未知の)力学が低階遷移行列に対応するという仮定の下で、表現学習問題と特定の非線形行列分解問題との関連性を示す。 構造的には、これらの低階 MDP と潜在変数モデルとの間の正確な接続を行い、RL における表現学習の事前定式化をいかに大きく一般化するかを示す。 アルゴリズムにより,低階遷移モデルにおけるRLの探索と表現学習を行うFLAMBEを開発した。

In order to deal with the curse of dimensionality in reinforcement learning (RL), it is common practice to make parametric assumptions where values or policies are functions of some low dimensional feature space. This work focuses on the representation learning question: how can we learn such features? Under the assumption that the underlying (unknown) dynamics correspond to a low rank transition matrix, we show how the representation learning question is related to a particular non-linear matrix decomposition problem. Structurally, we make precise connections between these low rank MDPs and latent variable models, showing how they significantly generalize prior formulations for representation learning in RL. Algorithmically, we develop FLAMBE, which engages in exploration and representation learning for provably efficient RL in low rank transition models.
翻訳日:2022-11-19 13:07:13 公開日:2020-07-22
# TreeRNN: トポロジを保存するディープグラフ埋め込みと学習

TreeRNN: Topology-Preserving Deep GraphEmbedding and Learning ( http://arxiv.org/abs/2006.11825v2 )

ライセンス: Link先を確認
Yecheng Lyu, Ming Li, Xinming Huang, Ulkuhan Guler, Patrick Schaumont, Ziming Zhang(参考訳) 一般的なグラフは不規則な構造のため学習が難しい。 既存の作業では、グラフエッジに沿ってメッセージパッシングを使用して、カスタマイズされたグラフカーネルを使用してローカルパターンを抽出するが、これらのローカルパターンをグローバル機能に統合するのに有効であるものは少ない。 対照的に,本論文では,グラフを木に移し,明示的な順序を学習し,特徴統合を局所からグローバルへと導く手法について検討する。 この目的のために,我々は,中心ノードから周辺ノードまでのグラフエッジへの方向を付加するグラフから木を構築するために,幅の広い第1探索(bfs)を適用する。 さらに,従来の畳み込みニューラルネットワーク(CNN)やリカレントニューラルネットワーク(RNN)に適した,木を画像表現に転送する新しいプロジェクション手法を提案する。 グラフツリーイメージからパターンを最もよく学ぶために、treernnを提案する。treernnは2d rnnアーキテクチャで、画像ピクセルを行と列で再統合し、グラフのカテゴリを分類する。 提案手法をいくつかのグラフ分類データセットで評価し, MUTAG, PTC-MR, NCI1データセット上での最先端の精度を示す。

General graphs are difficult for learning due to their irregular structures. Existing works employ message passing along graph edges to extract local patterns using customized graph kernels, but few of them are effective for the integration of such local patterns into global features. In contrast, in this paper we study the methods to transfer the graphs into trees so that explicit orders are learned to direct the feature integration from local to global. To this end, we apply the breadth first search (BFS) to construct trees from the graphs, which adds direction to the graph edges from the center node to the peripheral nodes. In addition, we proposed a novel projection scheme that transfer the trees to image representations, which is suitable for conventional convolution neural networks (CNNs) and recurrent neural networks (RNNs). To best learn the patterns from the graph-tree-images, we propose TreeRNN, a 2D RNN architecture that recurrently integrates the image pixels by rows and columns to help classify the graph categories. We evaluate the proposed method on several graph classification datasets, and manage to demonstrate comparable accuracy with the state-of-the-art on MUTAG, PTC-MR and NCI1 datasets.
翻訳日:2022-11-18 12:32:18 公開日:2020-07-22
# 商業ビルにおけるHVAC制御のためのマルチエージェント深部強化学習

Multi-Agent Deep Reinforcement Learning for HVAC Control in Commercial Buildings ( http://arxiv.org/abs/2006.14156v2 )

ライセンス: Link先を確認
Liang Yu, Yi Sun, Zhanbo Xu, Chao Shen, Dong Yue, Tao Jiang, and Xiaohong Guan(参考訳) 商業ビルでは、総消費電力の約40%-50%が暖房・換気・空調(HVAC)システムによるもので、建設業者に経済的負担がかかる。 本稿では, ランダムゾーン占有率, 熱快適性, 室内空気質の快適性を考慮したマルチゾーン商業ビルにおけるHVACシステムのエネルギーコストを, 動的価格で最小化することを目的とする。 未知の熱力学モデルの存在、パラメータの不確実性(例えば、屋外温度、電力価格、占有者数)、室内温度とco2濃度に関連する空間的および時間的結合制約、大きな離散解空間、非凸および非分離目的関数などにより、上記の目的を達成するのは非常に困難である。 これにより、上記のエネルギーコスト最小化問題はマルコフゲームとして再構成される。 次に,多エージェント深部強化学習とアテンション機構に基づくマルコフゲームを解くために,HVAC制御アルゴリズムを提案する。 提案アルゴリズムは,不確定パラメータの事前知識を必要とせず,熱力学モデルの構築を知らずに動作可能である。 実世界のトレースに基づくシミュレーション結果は,提案アルゴリズムの有効性,ロバスト性,スケーラビリティを示す。

In commercial buildings, about 40%-50% of the total electricity consumption is attributed to Heating, Ventilation, and Air Conditioning (HVAC) systems, which places an economic burden on building operators. In this paper, we intend to minimize the energy cost of an HVAC system in a multi-zone commercial building under dynamic pricing with the consideration of random zone occupancy, thermal comfort, and indoor air quality comfort. Due to the existence of unknown thermal dynamics models, parameter uncertainties (e.g., outdoor temperature, electricity price, and number of occupants), spatially and temporally coupled constraints associated with indoor temperature and CO2 concentration, a large discrete solution space, and a non-convex and non-separable objective function, it is very challenging to achieve the above aim. To this end, the above energy cost minimization problem is reformulated as a Markov game. Then, an HVAC control algorithm is proposed to solve the Markov game based on multi-agent deep reinforcement learning with attention mechanism. The proposed algorithm does not require any prior knowledge of uncertain parameters and can operate without knowing building thermal dynamics models. Simulation results based on real-world traces show the effectiveness, robustness and scalability of the proposed algorithm.
翻訳日:2022-11-17 04:39:55 公開日:2020-07-22
# ワンクラスCNNを用いたディープネットワークの高速学習

Fast Training of Deep Networks with One-Class CNNs ( http://arxiv.org/abs/2007.00046v2 )

ライセンス: Link先を確認
Abdul Mueed Hafiz, Ghulam Mohiuddin Bhat(参考訳) ワンクラスCNNは新規性検出の可能性を示している。 しかし、それらを多クラス分類に拡張する作業は少ない。 提案されたアプローチは、この方向への有効な取り組みである。 クラスごとに1つのCNNを訓練し、クラスごとに1つのCNNを訓練する。 このような1クラスcnnのアンサンブルは、マルチクラス分類に使用される。 このアプローチの利点は一般的に、従来のマルチクラスディープネットワークのトレーニング時間のほぼ3分の2を消費しながら、認識精度が向上する。 提案手法は,顔認識や物体認識に有効である。 顔認識では、多くの顔を組み合わせた1000フレームのrgbビデオが、提案手法のベンチマークに使われている。 そのデータベースは電子メールでリクエストで入手できる。 オブジェクト認識には、Caltech-101 Image Databaseと17Flowers Datasetも使用されている。 実験結果は主張を支持する。

One-class CNNs have shown promise in novelty detection. However, very less work has been done on extending them to multiclass classification. The proposed approach is a viable effort in this direction. It uses one-class CNNs i.e., it trains one CNN per class, for multiclass classification. An ensemble of such one-class CNNs is used for multiclass classification. The benefits of the approach are generally better recognition accuracy while taking almost even half or two-thirds of the training time of a conventional multi-class deep network. The proposed approach has been applied successfully to face recognition and object recognition tasks. For face recognition, a 1000 frame RGB video, featuring many faces together, has been used for benchmarking of the proposed approach. Its database is available on request via e-mail. For object recognition, the Caltech-101 Image Database and 17Flowers Dataset have also been used. The experimental results support the claims made.
翻訳日:2022-11-16 02:33:19 公開日:2020-07-22
# 視覚に基づく予測のためのディープラーニング:調査

Deep Learning for Vision-based Prediction: A Survey ( http://arxiv.org/abs/2007.00095v2 )

ライセンス: Link先を確認
Amir Rasouli(参考訳) 視覚に基づく予測アルゴリズムは、自動運転、監視、人間とロボットのインタラクション、天気予報など、幅広い応用がある。 本研究の目的は,過去5年間の分野の概要を,深層学習のアプローチに焦点をあてて明らかにすることである。 そこで本研究では,これらのアルゴリズムを,映像予測,行動予測,軌道予測,身体動作予測,その他の予測アプリケーションに分類する。 各カテゴリについて、使用する共通アーキテクチャ、トレーニング方法、データの種類を強調する。 さらに,視覚に基づく予測タスクに使用される共通評価指標とデータセットについて述べる。 論文、データセット、メトリクスによる相互参照を含む、この調査で提示されたすべての情報のデータベースは、https://github.com/aras62/vision-based-prediction.com/で見ることができる。

Vision-based prediction algorithms have a wide range of applications including autonomous driving, surveillance, human-robot interaction, weather prediction. The objective of this paper is to provide an overview of the field in the past five years with a particular focus on deep learning approaches. For this purpose, we categorize these algorithms into video prediction, action prediction, trajectory prediction, body motion prediction, and other prediction applications. For each category, we highlight the common architectures, training methods and types of data used. In addition, we discuss the common evaluation metrics and datasets used for vision-based prediction tasks. A database of all the information presented in this survey including, cross-referenced according to papers, datasets and metrics, can be found online at https://github.com/aras62/vision-based-prediction.
翻訳日:2022-11-15 05:38:55 公開日:2020-07-22
# Memoized Wake-Sleep を用いた生成プログラムの学習

Learning to learn generative programs with Memoised Wake-Sleep ( http://arxiv.org/abs/2007.03132v2 )

ライセンス: Link先を確認
Luke B. Hewitt and Tuan Anh Le and Joshua B. Tenenbaum(参考訳) 本研究では,ニューラルネットワークをシンボル型データ生成プログラムの推論と先行の両方に使用するニューラルシンボリック生成モデルについて検討する。 生成モデルとして、これらのプログラムは合成構造を自然に説明可能な形で捉える。 学習における「インナーループ」としてのプログラム誘導の課題に対処するために,学習を通して推論ネットワークが発見する最高のプログラムを明示的に保存・再利用することで,覚醒を延長する覚醒覚醒(MWS)アルゴリズムを提案する。 我々はmwsを用いて,実世界の文字列概念の新たなデータセットにおいて,ストロークに基づく文字モデリング,セルオートマトン,少数ショット学習という3つの課題領域において,正確かつ説明可能なモデルを学習する。

We study a class of neuro-symbolic generative models in which neural networks are used both for inference and as priors over symbolic, data-generating programs. As generative models, these programs capture compositional structures in a naturally explainable form. To tackle the challenge of performing program induction as an 'inner-loop' to learning, we propose the Memoised Wake-Sleep (MWS) algorithm, which extends Wake Sleep by explicitly storing and reusing the best programs discovered by the inference network throughout training. We use MWS to learn accurate, explainable models in three challenging domains: stroke-based character modelling, cellular automata, and few-shot learning in a novel dataset of real-world string concepts.
翻訳日:2022-11-13 01:26:02 公開日:2020-07-22
# ネットワークプルーニングによるメタラーニング

Meta-Learning with Network Pruning ( http://arxiv.org/abs/2007.03219v2 )

ライセンス: Link先を確認
Hongduan Tian, Bo Liu, Xiao-Tong Yuan, Qingshan Liu(参考訳) メタ学習は、数ショット学習の強力なパラダイムである。 多くのアプリケーションで顕著な成功が見られたが、既存の最適化ベースのニューラルネットワークによるメタ学習モデルは、トレーニングタスクにおいてovetfitに適していることが証明されている。 この障害を解消するために,ネットワークの容量を明示的に制御することで,ネットワークプルーニングに基づくメタラーニング手法を提案する。 一様濃度分析により,提案するメタリーナーの一般化ギャップを低減できるネットワーク容量制約の利点が明らかになった。 我々は,Dense-Sparse-Dense (DSD) と Iterative Hard Thresholding (IHT) の2つのネットワークプルーニングルーチンを組み込んだReptile上にアプローチを実装した。 パラメータの異なる深層ネットワークを用いたベンチマークデータセットの広範な実験結果から,本手法はメタオーバーフィッティングを効果的に緩和するだけでなく,少数ショットの分類タスクに適用した場合の全体的な一般化性能も向上することが示された。

Meta-learning is a powerful paradigm for few-shot learning. Although with remarkable success witnessed in many applications, the existing optimization based meta-learning models with over-parameterized neural networks have been evidenced to ovetfit on training tasks. To remedy this deficiency, we propose a network pruning based meta-learning approach for overfitting reduction via explicitly controlling the capacity of network. A uniform concentration analysis reveals the benefit of network capacity constraint for reducing generalization gap of the proposed meta-learner. We have implemented our approach on top of Reptile assembled with two network pruning routines: Dense-Sparse-Dense (DSD) and Iterative Hard Thresholding (IHT). Extensive experimental results on benchmark datasets with different over-parameterized deep networks demonstrate that our method not only effectively alleviates meta-overfitting but also in many cases improves the overall generalization performance when applied to few-shot classification tasks.
翻訳日:2022-11-12 18:48:21 公開日:2020-07-22
# 微分マスクを用いた操作対応ソフトチャネルプルーニング

Operation-Aware Soft Channel Pruning using Differentiable Masks ( http://arxiv.org/abs/2007.03938v2 )

ライセンス: Link先を確認
Minsoo Kang and Bohyung Han(参考訳) 本稿では, 深層ニューラルネットワークを演算特性を利用して, 異なる方法で圧縮する, 単純だが効果的なチャネルプルーニングアルゴリズムを提案する。 提案手法では,チャネルプルーニングのためのバッチ正規化(bn)と整流線形単位(relu)を共同で検討する。 この目的のために,各チャネルの識別可能なマスクを学習し,最適化手順全体を通じてソフトな決定を行う。 提案フレームワークは,モデルパラメータとチャネルプルーニングの連成学習を通じて,微調整の余分な手順を伴わずに圧縮されたモデルを同定することを可能にする。 我々は,最先端手法と比較して,同一量のリソースを与えられた出力ネットワークの精度において,広範な実験を行い,優れた性能を実現する。

We propose a simple but effective data-driven channel pruning algorithm, which compresses deep neural networks in a differentiable way by exploiting the characteristics of operations. The proposed approach makes a joint consideration of batch normalization (BN) and rectified linear unit (ReLU) for channel pruning; it estimates how likely the two successive operations deactivate each feature map and prunes the channels with high probabilities. To this end, we learn differentiable masks for individual channels and make soft decisions throughout the optimization procedure, which facilitates to explore larger search space and train more stable networks. The proposed framework enables us to identify compressed models via a joint learning of model parameters and channel pruning without an extra procedure of fine-tuning. We perform extensive experiments and achieve outstanding performance in terms of the accuracy of output networks given the same amount of resources when compared with the state-of-the-art methods.
翻訳日:2022-11-12 09:43:24 公開日:2020-07-22
# vrジムのバーチャルアシスタント:現実の人との対話でバーチャルアシスタントロボットを改善する

Assistive VR Gym: Interactions with Real People to Improve Virtual Assistive Robots ( http://arxiv.org/abs/2007.04959v2 )

ライセンス: Link先を確認
Zackory Erickson, Yijun Gu, Charles C. Kemp(参考訳) 世界中の高齢者や障害のある人など、何百万人もの人たちの恩恵を受けることができる。 最近の研究は、物理シミュレーションを通じてロボットの介護者が人との対話を学べる方法を探っているが、実際のロボットに何を学んだかはいまだに難しい。 仮想現実(VR)は、シミュレーションと現実世界のギャップを埋める可能性を持っている。 そこで本研究では,現実の人が仮想アシストロボットと対話できるvr体育館(avr体育館)を提案する。 また,avr体育館は,実人とのシミュレーション学習支援ロボットの性能向上に役立つことを示す。 avrジムに先立ち、私たちはロボット制御政策(オリジナルポリシー)を2つのシミュレーションロボット(ウィロウガレージのpr2とキノヴァのjaco)で4つのロボット介護タスク(ロボットによる摂食、飲酒、かゆみ、入浴)のシミュレーションのみに訓練しました。 AVR Gymでは,実際の人とのオリジナルポリシーのテストから得られた洞察に基づいて,改訂ポリシーを開発した。 avr体育館の8名の参加者による公式研究により, 当初の方針が不十分であり, 改訂方針が著しく改善され, 改良された方針を訓練するためのバイオメカニカルモデルが改良され, 実際の参加者に合致するシミュレートされた人々が得られた。 特に、参加者は元来の政策が援助で成功したことに大きく反対したが、修正された政策が援助で成功したことに大きく同意した。 全体として、vrは実際の人間を危険にさらすことなく、シミュレーションで訓練された制御ポリシーのパフォーマンスを向上させるために利用することができることを示唆しています。

Versatile robotic caregivers could benefit millions of people worldwide, including older adults and people with disabilities. Recent work has explored how robotic caregivers can learn to interact with people through physics simulations, yet transferring what has been learned to real robots remains challenging. Virtual reality (VR) has the potential to help bridge the gap between simulations and the real world. We present Assistive VR Gym (AVR Gym), which enables real people to interact with virtual assistive robots. We also provide evidence that AVR Gym can help researchers improve the performance of simulation-trained assistive robots with real people. Prior to AVR Gym, we trained robot control policies (Original Policies) solely in simulation for four robotic caregiving tasks (robot-assisted feeding, drinking, itch scratching, and bed bathing) with two simulated robots (PR2 from Willow Garage and Jaco from Kinova). With AVR Gym, we developed Revised Policies based on insights gained from testing the Original policies with real people. Through a formal study with eight participants in AVR Gym, we found that the Original policies performed poorly, the Revised policies performed significantly better, and that improvements to the biomechanical models used to train the Revised policies resulted in simulated people that better match real participants. Notably, participants significantly disagreed that the Original policies were successful at assistance, but significantly agreed that the Revised policies were successful at assistance. Overall, our results suggest that VR can be used to improve the performance of simulation-trained control policies with real people without putting people at risk, thereby serving as a valuable stepping stone to real robotic assistance.
翻訳日:2022-11-12 05:25:59 公開日:2020-07-22
# オプティカルフロー蒸留 : 効率的・安定な動画転送を目指して

Optical Flow Distillation: Towards Efficient and Stable Video Style Transfer ( http://arxiv.org/abs/2007.05146v2 )

ライセンス: Link先を確認
Xinghao Chen, Yiman Zhang, Yunhe Wang, Han Shu, Chunjing Xu, Chang Xu(参考訳) ビデオスタイルの転送技術は、モバイルデバイス上で多くのエキサイティングなアプリケーションを刺激する。 しかし、その効率と安定性はまだ十分ではない。 フレーム間の転送安定性を高めるために、計算の複雑さが97%以上の推論時間を占めるなど、光学フローが広く採用されている。 本稿では, 知識蒸留パラダイムを用いて, 軽量なビデオ転送ネットワークを学習することを提案する。 教師ネットワークは2つあり、そのうちの1つは推論中に光学的流れをとる。 これら2つの教師ネットワーク間の出力差は、光学フローによる改善を強調し、対象学生ネットワークを蒸留するために使用される。 また、入力映像のランクを模倣して学生ネットワークの出力を安定化するために低ランク蒸留損失を用いる。 広範な実験により,光フローモジュールを持たない学生ネットワークは安定したビデオを生成することができ,教師ネットワークよりもはるかに高速に動作できることが証明された。

Video style transfer techniques inspire many exciting applications on mobile devices. However, their efficiency and stability are still far from satisfactory. To boost the transfer stability across frames, optical flow is widely adopted, despite its high computational complexity, e.g. occupying over 97% inference time. This paper proposes to learn a lightweight video style transfer network via knowledge distillation paradigm. We adopt two teacher networks, one of which takes optical flow during inference while the other does not. The output difference between these two teacher networks highlights the improvements made by optical flow, which is then adopted to distill the target student network. Furthermore, a low-rank distillation loss is employed to stabilize the output of student network by mimicking the rank of input videos. Extensive experiments demonstrate that our student network without an optical flow module is still able to generate stable video and runs much faster than the teacher network.
翻訳日:2022-11-11 22:10:32 公開日:2020-07-22
# 学習と比較して:画像表現の比較による画像ネットワークの事前学習

Comparing to Learn: Surpassing ImageNet Pretraining on Radiographs By Comparing Image Representations ( http://arxiv.org/abs/2007.07423v3 )

ライセンス: Link先を確認
Hong-Yu Zhou and Shuang Yu and Cheng Bian and Yifan Hu and Kai Ma and Yefeng Zheng(参考訳) 深層学習時代には,ImageNet事前学習が最適な方法として広く採用されている医療画像解析において,事前学習モデルが重要な役割を担っている。 しかし、自然画像と医用画像の間に明らかな領域ギャップがあることは明らかではない。 このギャップを埋めるために,手動のアノテーションを使わずに700kのラジオグラフから学習する新たな事前学習手法を提案する。 画像表現を比較して頑健な特徴を学習するため,本手法をC2L(Comparing to Learn)と呼ぶ。 c2lの有効性を検証するために,包括的アブレーション研究を行い,異なるタスクやデータセットで評価する。 実験結果から,C2L は ImageNet の事前学習と過去の最先端アプローチを大きく上回っていることがわかった。 コードとモデルは利用可能である。

In deep learning era, pretrained models play an important role in medical image analysis, in which ImageNet pretraining has been widely adopted as the best way. However, it is undeniable that there exists an obvious domain gap between natural images and medical images. To bridge this gap, we propose a new pretraining method which learns from 700k radiographs given no manual annotations. We call our method as Comparing to Learn (C2L) because it learns robust features by comparing different image representations. To verify the effectiveness of C2L, we conduct comprehensive ablation studies and evaluate it on different tasks and datasets. The experimental results on radiographs show that C2L can outperform ImageNet pretraining and previous state-of-the-art approaches significantly. Code and models are available.
翻訳日:2022-11-10 05:10:30 公開日:2020-07-22
# 大きな探索を伴わない優れたバッチ強化学習

Provably Good Batch Reinforcement Learning Without Great Exploration ( http://arxiv.org/abs/2007.08202v2 )

ライセンス: Link先を確認
Yao Liu, Adith Swaminathan, Alekh Agarwal, Emma Brunskill(参考訳) バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。 新しい決定ポリシーは、バッチデータのサポートの外にある状態やアクションを訪問する可能性があり、限られたサンプルによる関数近似と最適化は、将来のパフォーマンスを過度に楽観的に見積もった学習ポリシーの可能性をさらに高めることができる。 最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。 アウトプット政策のパフォーマンスを確固たる保証を提供する理論的作業は、強い集中可能性の仮定に依存しているため、行動政策の状態行動分布といくつかの候補政策の比率が大きければ不適当である。 これは、従来の分析では、エラーバウンドがこの比率でスケールするからである。 ベルマン最適性の小さな変更と、より保守的なアップデートを行うための評価バックアップは、より強力な保証を持つことができる。 特定の設定では、バッチデータによって探索される状態-作用空間の中で、集中性の前提条件を必要とせずに、ほぼ最高のポリシーを見つけることができる。 我々は,我々の保守的更新の必要性と,実証的なMPP例による過去のアルゴリズムと分析の限界を強調し,標準ベンチマークにおける我々のアルゴリズムと他の最先端バッチRLベースラインの実証的な比較を示す。

Batch reinforcement learning (RL) is important to apply RL algorithms to many high stakes tasks. Doing batch RL in a way that yields a reliable new policy in large domains is challenging: a new decision policy may visit states and actions outside the support of the batch data, and function approximation and optimization with limited samples can further increase the potential of learning policies with overly optimistic estimates of their future performance. Recent algorithms have shown promise but can still be overly optimistic in their expected outcomes. Theoretical work that provides strong guarantees on the performance of the output policy relies on a strong concentrability assumption, that makes it unsuitable for cases where the ratio between state-action distributions of behavior policy and some candidate policies is large. This is because in the traditional analysis, the error bound scales up with this ratio. We show that a small modification to Bellman optimality and evaluation back-up to take a more conservative update can have much stronger guarantees. In certain settings, they can find the approximately best policy within the state-action space explored by the batch data, without requiring a priori assumptions of concentrability. We highlight the necessity of our conservative update and the limitations of previous algorithms and analyses by illustrative MDP examples, and demonstrate an empirical comparison of our algorithm and other state-of-the-art batch RL baselines in standard benchmarks.
翻訳日:2022-11-09 21:47:26 公開日:2020-07-22
# ベイズ型odeフィルタのフーリエ状態空間モデル

A Fourier State Space Model for Bayesian ODE Filters ( http://arxiv.org/abs/2007.09118v2 )

ライセンス: Link先を確認
Hans Kersting, Maren Mahsereci(参考訳) ガウスのODEフィルタリングは、通常の微分方程式(ODE)を解く確率的数値法である。 これは ODE を定義するベクトル場の評価から解上のベイズ後方を計算する。 その最もポピュラーなバージョンは、統合ブラウン運動を前もって用い、平均のテイラー展開を使って前方へ外挿し、古典的数値法と同じ収束率を持つ。 多くの重要なODEの解は周期関数 (oscillator) であるので、フーリエ展開はガウスODEフィルタリングの枠組み内でも耐えられるかどうかという問題を提起する。 この目的のために、ODE のためのフーリエ状態空間モデルとテイラー(ブラウン運動)とフーリエ状態空間モデルを組み合わせた 'ハイブリッド' モデルを構築する。 実験により,ハイブリッドモデルが時間領域の終わりまで安価な予測にどのように役立つかを示す。

Gaussian ODE filtering is a probabilistic numerical method to solve ordinary differential equations (ODEs). It computes a Bayesian posterior over the solution from evaluations of the vector field defining the ODE. Its most popular version, which employs an integrated Brownian motion prior, uses Taylor expansions of the mean to extrapolate forward and has the same convergence rates as classical numerical methods. As the solution of many important ODEs are periodic functions (oscillators), we raise the question whether Fourier expansions can also be brought to bear within the framework of Gaussian ODE filtering. To this end, we construct a Fourier state space model for ODEs and a `hybrid' model that combines a Taylor (Brownian motion) and Fourier state space model. We show by experiments how the hybrid model might become useful in cheaply predicting until the end of the time domain.
翻訳日:2022-11-09 13:48:22 公開日:2020-07-22
# SBI -- シミュレーションベースの推論ツールキット

SBI -- A toolkit for simulation-based inference ( http://arxiv.org/abs/2007.09114v2 )

ライセンス: Link先を確認
Alvaro Tejero-Cantero (1), Jan Boelts (1), Michael Deistler (1), Jan-Matthis Lueckmann (1), Conor Durkan (2), Pedro J. Gon\c{c}alves (1, 3), David S. Greenberg (1, 4) and Jakob H. Macke (1, 5, 6) ((1) Computational Neuroengineering, Department of Electrical and Computer Engineering, Technical University of Munich, (2) School of Informatics, University of Edinburgh, (3) Neural Systems Analysis, Center of Advanced European Studies and Research (caesar), Bonn, (4) Model-Driven Machine Learning, Centre for Materials and Coastal Research, Helmholtz-Zentrum Geesthacht, (5) Machine Learning in Science, University of T\"ubingen, (6) Empirical Inference, Max Planck Institute for Intelligent Systems, T\"ubingen)(参考訳) 科学者や技術者は確率的数値シミュレータを使って経験的に観測された現象をモデル化する。 純粋に統計的モデルとは対照的に、シミュレーターは強力な帰納バイアスを与える科学的原理を表現し、新しいデータやシナリオへの一般化を改善し、より小さく、より解釈可能な、ドメイン関連パラメータを許容する。 これらの利点にもかかわらず、その出力がデータにマッチするようにシミュレータのパラメータをチューニングすることは困難である。 シミュレーションベース推論(SBI)はパラメータ集合を識別する。 a)事前の知識と互換性があり b) 経験的な観察と一致する。 重要なことは、SBIは単一の「ベスト」なデータ互換パラメータセットを復元するのではなく、観察されたデータを説明するパラメータ空間の全ての高い確率領域を特定し、パラメータの不確かさを定量化する。 ベイズ用語では、SBIは興味のあるパラメータの後方分布を検索することを目的としている。 従来のベイズ推定とは対照的に、sbiはモデルシミュレーションを実行する場合にも適用できるが、与えられたパラメータ、すなわち確率を評価する公式やアルゴリズムは存在しない。 我々は、ニューラルネットワークに基づくSBIアルゴリズムを実装するPyTorchベースのパッケージである$\texttt{sbi}$を提示する。 $\texttt{sbi}$は、ドキュメンテーションやチュートリアルとともに最先端アルゴリズムへの統一インターフェースを提供することで、科学者やエンジニアを実践するためのブラックボックスシミュレータの推論を容易にする。

Scientists and engineers employ stochastic numerical simulators to model empirically observed phenomena. In contrast to purely statistical models, simulators express scientific principles that provide powerful inductive biases, improve generalization to new data or scenarios and allow for fewer, more interpretable and domain-relevant parameters. Despite these advantages, tuning a simulator's parameters so that its outputs match data is challenging. Simulation-based inference (SBI) seeks to identify parameter sets that a) are compatible with prior knowledge and b) match empirical observations. Importantly, SBI does not seek to recover a single 'best' data-compatible parameter set, but rather to identify all high probability regions of parameter space that explain observed data, and thereby to quantify parameter uncertainty. In Bayesian terminology, SBI aims to retrieve the posterior distribution over the parameters of interest. In contrast to conventional Bayesian inference, SBI is also applicable when one can run model simulations, but no formula or algorithm exists for evaluating the probability of data given parameters, i.e. the likelihood. We present $\texttt{sbi}$, a PyTorch-based package that implements SBI algorithms based on neural networks. $\texttt{sbi}$ facilitates inference on black-box simulators for practising scientists and engineers by providing a unified interface to state-of-the-art algorithms together with documentation and tutorials.
翻訳日:2022-11-09 13:30:39 公開日:2020-07-22
# CATCH:トランスファーブルアーキテクチャ検索のためのコンテキストベースメタ強化学習

CATCH: Context-based Meta Reinforcement Learning for Transferrable Architecture Search ( http://arxiv.org/abs/2007.09380v3 )

ライセンス: Link先を確認
Xin Chen, Yawen Duan, Zewei Chen, Hang Xu, Zihao Chen, Xiaodan Liang, Tong Zhang, Zhenguo Li(参考訳) neural architecture search (nas)は近年多くのブレークスルーを達成した。 その顕著な進歩にもかかわらず、多くのアルゴリズムは特定の検索空間に限定されている。 また、複数のタスクに直面するときに知識を再利用する効率的なメカニズムを欠いている。 これらの課題は適用性を阻害し, 転用可能なarChitecture searcHのための新しいContext-bAsed meTa reinforcement learning (RL)アルゴリズムであるCATCHを提案する。 メタラーニングとRLの組み合わせにより、CATCHは検索空間に依存しないまま、新しいタスクに効率的に適応できる。 CATCHは確率エンコーダを使用してタスクプロパティを潜在コンテキスト変数にエンコードし、CATCHのコントローラを高速にトップパフォーマンスネットワークに"キャッチ"する。 コンテキストはまた、劣る候補をフィルタリングし、学習をスピードアップするネットワーク評価者を支援する。 広範な実験は、CATCHの普遍性と他の広く認識されているアルゴリズムに対する探索効率を実証している。 また、imagenet、coco、cityscapesの競合ネットワークとして、クロスドメインアーキテクチャ検索を処理することもできる。 さまざまな設定で堅牢性を維持しながら、効率的な転送可能なnasソリューションを提案する、私たちの知識に対する最初の作業です。

Neural Architecture Search (NAS) achieved many breakthroughs in recent years. In spite of its remarkable progress, many algorithms are restricted to particular search spaces. They also lack efficient mechanisms to reuse knowledge when confronting multiple tasks. These challenges preclude their applicability, and motivate our proposal of CATCH, a novel Context-bAsed meTa reinforcement learning (RL) algorithm for transferrable arChitecture searcH. The combination of meta-learning and RL allows CATCH to efficiently adapt to new tasks while being agnostic to search spaces. CATCH utilizes a probabilistic encoder to encode task properties into latent context variables, which then guide CATCH's controller to quickly "catch" top-performing networks. The contexts also assist a network evaluator in filtering inferior candidates and speed up learning. Extensive experiments demonstrate CATCH's universality and search efficiency over many other widely-recognized algorithms. It is also capable of handling cross-domain architecture search as competitive networks on ImageNet, COCO, and Cityscapes are identified. This is the first work to our knowledge that proposes an efficient transferrable NAS solution while maintaining robustness across various settings.
翻訳日:2022-11-09 05:16:39 公開日:2020-07-22
# フィードバックとサポートから企業ユーザ洞察を得るための半教師付き学習アプローチ

Semi-Supervised Learning Approach to Discover Enterprise User Insights from Feedback and Support ( http://arxiv.org/abs/2007.09303v3 )

ライセンス: Link先を確認
Xin Deng, Ross Smith, Genevieve Quintin(参考訳) クラウドと顧客中心の文化の進化に伴い、私たちは本質的に、テキストレビュー、フィードバック、サポートデータの巨大なリポジトリを蓄積しています。このことから、企業はエンゲージメントパターン、ユーザネットワーク分析、トピック検出などを探し、調査せざるを得なくなりました。 In this paper, we proposed and developed an innovative Semi-Supervised Learning approach by utilizing Deep Learning and Topic Modeling to have a better understanding of the user voice.This approach combines a BERT-based multiclassification algorithm through supervised learning combined with a novel Probabilistic and Semantic Hybrid Topic Inference (PSHTI) Model through unsupervised learning, aiming at automating the process of better identifying the main topics or areas as well as the sub-topics from the textual feedback and support.There are three major break-through: 1. 深層学習技術の進歩に伴い、NLP分野にも大きな革新があったが、従来のトピックモデリングは深層学習の潮流に遅れを取っている。 提案手法と技術の観点からは, bert型多分類システムを用いて主トピックを分類し, 予測主トピックのサブトピックを推定する新しいpshtiモデルを用いて転送学習を行う。 2. 従来の教師なしの学習に基づくトピックモデルやクラスタリング手法では、意味のあるトピックラベルを自動的に生成することが困難であるが、本システムは、webクローリングを通じて製品に関するドメイン知識を利用することで、トップワードを自己支援問題にマッピングすることができる。 3.本研究では,実運用における最先端の方法論を活用して,ユーザの洞察の発見とビジネス投資の優先順位向上を支援することで,著名なショーケースを提供する。

With the evolution of the cloud and customer centric culture, we inherently accumulate huge repositories of textual reviews, feedback, and support data.This has driven enterprises to seek and research engagement patterns, user network analysis, topic detections, etc.However, huge manual work is still necessary to mine data to be able to mine actionable outcomes. In this paper, we proposed and developed an innovative Semi-Supervised Learning approach by utilizing Deep Learning and Topic Modeling to have a better understanding of the user voice.This approach combines a BERT-based multiclassification algorithm through supervised learning combined with a novel Probabilistic and Semantic Hybrid Topic Inference (PSHTI) Model through unsupervised learning, aiming at automating the process of better identifying the main topics or areas as well as the sub-topics from the textual feedback and support.There are three major break-through: 1. As the advancement of deep learning technology, there have been tremendous innovations in the NLP field, yet the traditional topic modeling as one of the NLP applications lag behind the tide of deep learning. In the methodology and technical perspective, we adopt transfer learning to fine-tune a BERT-based multiclassification system to categorize the main topics and then utilize the novel PSHTI model to infer the sub-topics under the predicted main topics. 2. The traditional unsupervised learning-based topic models or clustering methods suffer from the difficulty of automatically generating a meaningful topic label, but our system enables mapping the top words to the self-help issues by utilizing domain knowledge about the product through web-crawling. 3. This work provides a prominent showcase by leveraging the state-of-the-art methodology in the real production to help shed light to discover user insights and drive business investment priorities.
翻訳日:2022-11-09 05:08:04 公開日:2020-07-22
# 簡素で簡素な造語

Coinduction Plain and Simple ( http://arxiv.org/abs/2007.09909v2 )

ライセンス: Link先を確認
Fran\c{c}ois Bry(参考訳) コインダクション(Coinduction)とは、無限ストリームの定義手法、いわゆるコデータ(codata)、および帰納的特定コデータの等価性を証明する技術である。 この記事では、最初に宣言型プログラミングの造語をレビューします。 第2に、codataの指定に一般的に使用される形式をレビューし、わずかに拡張する。 第3に、元々は等式述語のみに指定されていた造語証明の原理を他の述語に一般化する。 この一般化は、造語証明の原理をより直感的にし、構造的帰納と密接性を強調する。 この記事は最終的に、一般化造語証明原理の限定的で決定可能な形式を持つ関数型および論理型プログラミングの結論拡張について提案する。

Coinduction refers to both a technique for the definition of infinite streams, so-called codata, and a technique for proving the equality of coinductively specified codata. This article first reviews coinduction in declarative programming. Second, it reviews and slightly extends the formalism commonly used for specifying codata. Third, it generalizes the coinduction proof principle, which has been originally specified for the equality predicate only, to other predicates. This generalization makes the coinduction proof principle more intuitive and stresses its closeness with structural induction. The article finally suggests in its conclusion extensions of functional and logic programming with limited and decidable forms of the generalized coinduction proof principle.
翻訳日:2022-11-08 14:24:12 公開日:2020-07-22
# 知識蒸留としての解釈可能な前景オブジェクト探索

Interpretable Foreground Object Search As Knowledge Distillation ( http://arxiv.org/abs/2007.09867v2 )

ライセンス: Link先を確認
Boren Li, Po-Yu Zhuang, Jian Gu, Mingyang Li, Ping Tan(参考訳) 本稿では,フォアグラウンドオブジェクト探索(FoS)のための知識蒸留手法を提案する。 前景の位置と規模を指定する背景と矩形が与えられた後、FoSは後続の画像合成のためにあるカテゴリの互換性のある前景を検索する。 同じカテゴリのフォアグラウンドは、少数のパターンにグループ化することができる。 各パターン内のインスタンスは、任意のクエリ入力と互換性がある。 これらのインスタンスは交換可能なフォアグラウンドと呼ばれる。 まず,交換可能なフォアグラウンドのラベルを含むパターンレベルのfosデータセットを構築するパイプラインを提案する。 そして、パイプラインに続くさらなるトレーニングとテストのためのベンチマークデータセットを構築します。 提案手法では,まずフォアグラウンドエンコーダを訓練し,交換可能なフォアグラウンドの表現を学習する。 次に、知識蒸留フレームワークに従ってクエリー-フォアグラウンド互換性を学ぶためにクエリエンコーダをトレーニングします。 互換性の表現学習を監督するために、交換可能なフォアグラウンドから知識を転送することを目的としている。 クエリ特徴表現は交換可能な前景と同じ潜在空間に投影され、非常に効率的で解釈可能なインスタンスレベルの検索を可能にする。 さらに、パターンレベルの検索は、より制御可能で合理的で多様なフォアグラウンドで検索することができる。 提案手法は, 平均平均精度 (mAP) により, 絶対差が10.42%, 相対改善が24.06%向上した。 広範な実験結果も様々な側面からその効果を示している。 ベンチマークデータセットとコードはまもなくリリースされる。

This paper proposes a knowledge distillation method for foreground object search (FoS). Given a background and a rectangle specifying the foreground location and scale, FoS retrieves compatible foregrounds in a certain category for later image composition. Foregrounds within the same category can be grouped into a small number of patterns. Instances within each pattern are compatible with any query input interchangeably. These instances are referred to as interchangeable foregrounds. We first present a pipeline to build pattern-level FoS dataset containing labels of interchangeable foregrounds. We then establish a benchmark dataset for further training and testing following the pipeline. As for the proposed method, we first train a foreground encoder to learn representations of interchangeable foregrounds. We then train a query encoder to learn query-foreground compatibility following a knowledge distillation framework. It aims to transfer knowledge from interchangeable foregrounds to supervise representation learning of compatibility. The query feature representation is projected to the same latent space as interchangeable foregrounds, enabling very efficient and interpretable instance-level search. Furthermore, pattern-level search is feasible to retrieve more controllable, reasonable and diverse foregrounds. The proposed method outperforms the previous state-of-the-art by 10.42% in absolute difference and 24.06% in relative improvement evaluated by mean average precision (mAP). Extensive experimental results also demonstrate its efficacy from various aspects. The benchmark dataset and code will be release shortly.
翻訳日:2022-11-08 13:50:18 公開日:2020-07-22
# 新型コロナウイルスの予測可能性の検証

Backtesting the predictability of COVID-19 ( http://arxiv.org/abs/2007.11411v1 )

ライセンス: Link先を確認
Dmitry Gordeev, Philipp Singer, Marios Michailidis, Mathias M\"uller, SriSatish Ambati(参考訳) 新型コロナウイルス(COVID-19)パンデミックの出現は、世界中の多くの国で前例のない変化を招き、医療セクターに大きな負担を課し、マクロ経済の状況に影響を与え、人口間の社会的相互作用を変化させている。 これに対し、学術コミュニティは、感染が確認された感染者の数など、covid-19のさまざまな指標を予測するために、複数の予測モデル、アプローチ、アルゴリズムを作成しました。 しかし研究者らは、パンデミックの予測方法を伝えるために、パンデミックに関する歴史的情報をほとんど持っていなかった。 本研究は、パンデミックのさまざまな段階でのモデル予測性能を調査し、その基本的な不確実性とデータ可用性が予測に与える影響をよりよく理解する。 我々は,2020年1月22日から2020年6月22日までの253地域における新型コロナウイルスの感染状況に関する過去のデータを用いて,今後7日間,28日間の累積感染者数を予測する。 この6ヶ月の期間における根平均二乗対数誤差を追跡する3つの単純なモデルを実装し,累積確認症例の最終既知値を常に予測するベースラインモデル,パワー成長モデル,seirdと呼ばれる疫学モデルを実装した。 パンデミックの初期段階では予測誤差が著しく高く、データ不足によるものである。 パンデミックの間、エラーはゆっくりと後退するが着実に進行する。 国がどの時点でも確認された場合が多いほど、将来の確認症例の予測誤差が低くなる。 我々は,これらの予測に適切な信頼度を割り当て,より良い計画を容易にするために,アウトブレイク時の任意の時点において,そのようなモデルの予測力を正確に評価する厳格なバックテストフレームワークを持つことの重要性を強調した。

The advent of the COVID-19 pandemic has instigated unprecedented changes in many countries around the globe, putting a significant burden on the health sectors, affecting the macro economic conditions, and altering social interactions amongst the population. In response, the academic community has produced multiple forecasting models, approaches and algorithms to best predict the different indicators of COVID-19, such as the number of confirmed infected cases. Yet, researchers had little to no historical information about the pandemic at their disposal in order to inform their forecasting methods. Our work studies the predictive performance of models at various stages of the pandemic to better understand their fundamental uncertainty and the impact of data availability on such forecasts. We use historical data of COVID-19 infections from 253 regions from the period of 22nd January 2020 until 22nd June 2020 to predict, through a rolling window backtesting framework, the cumulative number of infected cases for the next 7 and 28 days. We implement three simple models to track the root mean squared logarithmic error in this 6-month span, a baseline model that always predicts the last known value of the cumulative confirmed cases, a power growth model and an epidemiological model called SEIRD. Prediction errors are substantially higher in early stages of the pandemic, resulting from limited data. Throughout the course of the pandemic, errors regress slowly, but steadily. The more confirmed cases a country exhibits at any point in time, the lower the error in forecasting future confirmed cases. We emphasize the significance of having a rigorous backtesting framework to accurately assess the predictive power of such models at any point in time during the outbreak which in turn can be used to assign the right level of certainty to these forecasts and facilitate better planning.
翻訳日:2022-11-07 23:39:40 公開日:2020-07-22
# マルチチャネル音声強調のための資源効率の良い音声マスク推定

Resource-Efficient Speech Mask Estimation for Multi-Channel Speech Enhancement ( http://arxiv.org/abs/2007.11477v1 )

ライセンス: Link先を確認
Lukas Pfeifenberger, Matthias Z\"ohrer, G\"unther Schindler, Wolfgang Roth, Holger Fr\"oning and Franz Pernkopf(参考訳) 機械学習の技術は伝統的にリソース集約的だが、ハードウェアとエネルギー効率のアプローチへの関心が高まっている。 このリソース効率のよい機械学習の必要性は、組み込みシステムの需要と、ユビキタスコンピューティングやIoTアプリケーションでの利用が主な要因だ。 本稿では,ディープニューラルネットワーク(DNN)に基づくマルチチャネル音声強調のための資源効率の高い手法を提案する。 特に、低精度DNNを用いて、ノイズの多いマルチチャネルマイクロホン観測から音声マスクを推定する。 この音声マスクは、最小分散歪み無応答(MVDR)または一般化固有値(GEV)ビームフォーマを得るために用いられる。 2値重みの極端な場合と精度の低いアクティベーションでは、WSJ0音声コーパスを用いた単一の話者シナリオに対して、単精度のDNNとわずかに大きいワード誤り率(WER)にほぼ等しい音質を保ちながら、実行時間とメモリフットプリントの大幅な削減が可能となる。

While machine learning techniques are traditionally resource intensive, we are currently witnessing an increased interest in hardware and energy efficient approaches. This need for resource-efficient machine learning is primarily driven by the demand for embedded systems and their usage in ubiquitous computing and IoT applications. In this article, we provide a resource-efficient approach for multi-channel speech enhancement based on Deep Neural Networks (DNNs). In particular, we use reduced-precision DNNs for estimating a speech mask from noisy, multi-channel microphone observations. This speech mask is used to obtain either the Minimum Variance Distortionless Response (MVDR) or Generalized Eigenvalue (GEV) beamformer. In the extreme case of binary weights and reduced precision activations, a significant reduction of execution time and memory footprint is possible while still obtaining an audio quality almost on par to single-precision DNNs and a slightly larger Word Error Rate (WER) for single speaker scenarios using the WSJ0 speech corpus.
翻訳日:2022-11-07 23:39:10 公開日:2020-07-22
# 翻訳学習によるアラビア語テキスト音声(TTS)深層構造

A Transfer Learning End-to-End ArabicText-To-Speech (TTS) Deep Architecture ( http://arxiv.org/abs/2007.11541v1 )

ライセンス: Link先を確認
Fady Fahmy, Mahmoud Khalil, Hazem Abbas(参考訳) 音声合成は人間の音声の人工的な生成である。 典型的なテキスト対音声システムは、言語テキストを波形に変換する。 英語のttsシステムは、成熟、自然、人間に似た音声合成器を生産する。 対照的に、アラビア語を含む他の言語は近年まで検討されていない。 既存のアラビア語音声合成ソリューションは低品質であり、合成音声の自然性は英語合成システムよりも劣っている。 また、イントネーション、ストレス、リズムといった重要な音声要素が欠如している。 これらの問題を解決するために、単体選択やパラメトリックメソッドのようなコンカレントメソッドの使用など、さまざまな研究が提案された。 しかし、彼らは多くの努力とドメインの専門知識を必要とした。 アラビア語の音声シンセサイザーのパフォーマンスが低かったもう一つの理由は、多くの公的なコーパスやオーディオブックを持つ英語とは異なり、音声コーパスの欠如である。 本稿では,エンド・ツー・エンドのニューラルネットワークアーキテクチャを用いて,高品質,自然,人間に似たアラビア語音声を生成する方法について述べる。 この作品は、わずか$\langle$テキストと$\rangle$ペアを使っており、録音されたオーディオサンプルは2.41時間で比較的少ない。 ダイアクリティカルなアラビア文字を入力として用いながら、英語の文字埋め込みの使い方と、これらのオーディオサンプルを前処理して最良の結果を得る方法を説明する。

Speech synthesis is the artificial production of human speech. A typical text-to-speech system converts a language text into a waveform. There exist many English TTS systems that produce mature, natural, and human-like speech synthesizers. In contrast, other languages, including Arabic, have not been considered until recently. Existing Arabic speech synthesis solutions are slow, of low quality, and the naturalness of synthesized speech is inferior to the English synthesizers. They also lack essential speech key factors such as intonation, stress, and rhythm. Different works were proposed to solve those issues, including the use of concatenative methods such as unit selection or parametric methods. However, they required a lot of laborious work and domain expertise. Another reason for such poor performance of Arabic speech synthesizers is the lack of speech corpora, unlike English that has many publicly available corpora and audiobooks. This work describes how to generate high quality, natural, and human-like Arabic speech using an end-to-end neural deep network architecture. This work uses just $\langle$ text, audio $\rangle$ pairs with a relatively small amount of recorded audio samples with a total of 2.41 hours. It illustrates how to use English character embedding despite using diacritic Arabic characters as input and how to preprocess these audio samples to achieve the best results.
翻訳日:2022-11-07 23:38:52 公開日:2020-07-22
# 機械学習と自然言語処理によるCOVID-19研究の時間的進化の理解

Understanding the temporal evolution of COVID-19 research through machine learning and natural language processing ( http://arxiv.org/abs/2007.11604v1 )

ライセンス: Link先を確認
Ashkan Ebadi, Pengcheng Xi, St\'ephane Tremblay, Bruce Spencer, Raman Pall, Alexander Wong(参考訳) 重症急性呼吸器症候群(SARS-CoV-2)による新型コロナウイルス感染症(COVID-19)の流行は、ロックダウン中の都市から新しい社会体験に至るまで、世界中の人々の生活や社会に影響を与え続けている。 多くの場合、新型コロナウイルスは軽度の病気を引き起こすが、SARS-CoV-2の極めて伝染的な性質のため、世界中で注目されている。 政府や医療専門家は、人や社会全体とともに、移行の連鎖を破り、流行曲線をフラット化するための措置を講じている。 本研究では,複数のデータソース,すなわちPubMedとArXivを用いて,2020年1月から5月までの期間内に,潜伏するトピックを特定し,抽出した研究テーマ,出版の類似性,感情の時間的進化を分析することによって,現在のCOVID-19研究の景観を特徴付ける機械学習モデルを構築した。 pubmedとarxivで利用可能な研究のタイプは大きく異なり、前者はcovid-19関連の問題に関してより多様性を示し、後者はcovid-19を予測/診断するためのインテリジェントなシステム/ツールに重点を置いている。 リスクの高いグループや合併症のある人々に対する研究コミュニティの特別な関心も確認された。

The outbreak of the novel coronavirus disease 2019 (COVID-19), caused by the severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) has been continuously affecting human lives and communities around the world in many ways, from cities under lockdown to new social experiences. Although in most cases COVID-19 results in mild illness, it has drawn global attention due to the extremely contagious nature of SARS-CoV-2. Governments and healthcare professionals, along with people and society as a whole, have taken any measures to break the chain of transition and flatten the epidemic curve. In this study, we used multiple data sources, i.e., PubMed and ArXiv, and built several machine learning models to characterize the landscape of current COVID-19 research by identifying the latent topics and analyzing the temporal evolution of the extracted research themes, publications similarity, and sentiments, within the time-frame of January- May 2020. Our findings confirm the types of research available in PubMed and ArXiv differ significantly, with the former exhibiting greater diversity in terms of COVID-19 related issues and the latter focusing more on intelligent systems/tools to predict/diagnose COVID-19. The special attention of the research community to the high-risk groups and people with complications was also confirmed.
翻訳日:2022-11-07 23:38:33 公開日:2020-07-22
# PhishZip: フィッシングサイトを検出する圧縮ベースの新しいアルゴリズム

PhishZip: A New Compression-based Algorithm for Detecting Phishing Websites ( http://arxiv.org/abs/2007.11955v1 )

ライセンス: Link先を確認
Rizka Purwanto, Arindam Pal, Alan Blair, Sanjay Jha(参考訳) フィッシングはここ数年で大きく成長し、今後さらに増加すると予測されている。 フィッシングのダイナミクスは、ロバストなフィッシング検出システムの実装や、攻撃の変化にもかかわらずフィッシングを表現できる機能の選択に問題をもたらす。 本稿では,webサイト分類を行うための圧縮アルゴリズムを用いた新しいフィッシング検出手法であるphishzipを提案する。 PhishZipは、過去の研究で最高のパフォーマンスのHTMLベースの機能の使用を80.04%で上回っている。 また,従来の研究よりも機械学習に基づくフィッシング検出を大幅に改善する,新しい機械学習機能としての圧縮比を提案する。 付加的な特徴として圧縮比を用いると、真の陽性率は30.3%(51.47%から81.77%)、精度は11.84%(71.20%から83.04%)向上する。

Phishing has grown significantly in the past few years and is predicted to further increase in the future. The dynamics of phishing introduce challenges in implementing a robust phishing detection system and selecting features which can represent phishing despite the change of attack. In this paper, we propose PhishZip which is a novel phishing detection approach using a compression algorithm to perform website classification and demonstrate a systematic way to construct the word dictionaries for the compression models using word occurrence likelihood analysis. PhishZip outperforms the use of best-performing HTML-based features in past studies, with a true positive rate of 80.04%. We also propose the use of compression ratio as a novel machine learning feature which significantly improves machine learning based phishing detection over previous studies. Using compression ratios as additional features, the true positive rate significantly improves by 30.3% (from 51.47% to 81.77%), while the accuracy increases by 11.84% (from 71.20% to 83.04%).
翻訳日:2022-11-07 23:37:53 公開日:2020-07-22
# peg-in-a-hole挿入課題に対する行動クローニングによるマルチモーダル知覚の理解

Understanding Multi-Modal Perception Using Behavioral Cloning for Peg-In-a-Hole Insertion Tasks ( http://arxiv.org/abs/2007.11646v1 )

ライセンス: Link先を確認
Yifang Liu, Diego Romeres, Devesh K. Jha and Daniel Nikovski(参考訳) peg-in-a-hole(pih)挿入タスクの主な課題のひとつは、ターゲットホールの位置の不確実性に対処することである。 これに対処するために、視覚、力/トルクセンシング、固有感覚などのセンサモダリティからの高次元センサ入力を組み合わせることで、この不確かさに頑健な制御ポリシーを目標ポーズで学習することができる。 ディープラーニングは物体の認識や高次元入力による意思決定に成功しているが、実際のシステムに直接試行錯誤アルゴリズムを適用すると、学習手順がロボットを傷つける可能性がある。 同時に、実ロボットシステムにおいて、専門家が提供した実演データを利用することで、実演法(lfd)による学習が魅力的な性能を発揮することが示されている。 本稿では,LfD技術を用いた実世界の組立作業の制御系を学習するために,視覚,力/トルクセンサ,プロプリセプションなどの複数のセンサの利点について検討する。 この研究はPiHの挿入に限られており、将来的にはさらなる実験に拡張する予定です。 さらに,行動クローニング法の性能を向上させるために,マルチステップ・アヘッド損失関数を提案する。 実際のマニピュレータを用いた実験結果から, 提案した損失関数の有効性が示唆された。

One of the main challenges in peg-in-a-hole (PiH) insertion tasks is in handling the uncertainty in the location of the target hole. In order to address it, high-dimensional sensor inputs from sensor modalities such as vision, force/torque sensing, and proprioception can be combined to learn control policies that are robust to this uncertainty in the target pose. Whereas deep learning has shown success in recognizing objects and making decisions with high-dimensional inputs, the learning procedure might damage the robot when applying directly trial- and-error algorithms on the real system. At the same time, learning from Demonstration (LfD) methods have been shown to achieve compelling performance in real robotic systems by leveraging demonstration data provided by experts. In this paper, we investigate the merits of multiple sensor modalities such as vision, force/torque sensors, and proprioception when combined to learn a controller for real world assembly operation tasks using LfD techniques. The study is limited to PiH insertions; we plan to extend the study to more experiments in the future. Additionally, we propose a multi-step-ahead loss function to improve the performance of the behavioral cloning method. Experimental results on a real manipulator support our findings, and show the effectiveness of the proposed loss function.
翻訳日:2022-11-07 23:34:21 公開日:2020-07-22
# structure-promoting regulariserを用いたマルチモダリティイメージング

Multi-modality imaging with structure-promoting regularisers ( http://arxiv.org/abs/2007.11689v1 )

ライセンス: Link先を確認
Matthias J. Ehrhardt(参考訳) 現代社会では、複数のモダリティや複数のチャンネルでのイメージングがますます重要になっている。 癌と認知症の理解と早期診断のための重要なツールはPET-MRであり、ポジトロン放射トモグラフィーと磁気共鳴イメージングスキャナーを組み合わせることで、機能的および解剖学的データを同時に取得することができる。 リモートセンシングと同様に、ハイパースペクトルセンサーは材料を特徴付け、識別することができるが、デジタルカメラはオブジェクトを並べ替えるために高い空間分解能を提供する。 どちらの例でも、画像のモダリティは個別または共同で考慮することができる。 本章では,複数の画像モダリティの情報を組み合わせて,その成分の和以上のマルチモダリティイメージングを可能にする数学的手法について論じる。

Imaging with multiple modalities or multiple channels is becoming increasingly important for our modern society. A key tool for understanding and early diagnosis of cancer and dementia is PET-MR, a combined positron emission tomography and magnetic resonance imaging scanner which can simultaneously acquire functional and anatomical data. Similarly in remote sensing, while hyperspectral sensors may allow to characterise and distinguish materials, digital cameras offer high spatial resolution to delineate objects. In both of these examples, the imaging modalities can be considered individually or jointly. In this chapter we discuss mathematical approaches which allow to combine information from several imaging modalities so that multi-modality imaging can be more than just the sum of its components.
翻訳日:2022-11-07 23:32:41 公開日:2020-07-22
# 自律システムによるヒューマンコントロールの制御

Regulating human control over autonomous systems ( http://arxiv.org/abs/2007.11218v1 )

ライセンス: Link先を確認
Mikolaj firlej, Araz Taeihagh(参考訳) 近年、人工知能と機械学習の進歩に伴い、多くの分野が自動化の著しい進歩を経験している。 すでに自動化されたロボット兵器があり、個人で目標を評価し、関与することが可能であり、人間ドライバーを必要としない自動運転車もすでに存在する。 ますます自律的なシステム(AS)の使用は、人間がASに対してある程度の判断を下すべきという人間のコントロール政策によって導かれるべきであると論じられている。 軍事分野では、ASは人間が生命と死の判断をコントロールできなくなるという恐れがあるが、輸送領域では、それとは対照的に、自律性は人間のドライバーの必要性を取り除くことによって、大きな運用上の利益をもたらすという強い見解がある。 本稿では、米国における防衛と輸送の2つの領域における人的制御の概念について考察する。 人的制御の新たな政策の運用は、ASの使用に関する直接的および間接的な人的制御の類型化をもたらす。 このタイポロジーは、自律性という用語の言語的複雑さから議論を遠ざけるのに役立つ。 代わりに、人間の要因が重要な変化を受けている場所を特定し、最終的にドメイン、アプリケーション、セクターによって異なる、より詳細なルールと標準の定式化について知らせる。

In recent years, many sectors have experienced significant progress in automation, associated with the growing advances in artificial intelligence and machine learning. There are already automated robotic weapons, which are able to evaluate and engage with targets on their own, and there are already autonomous vehicles that do not need a human driver. It is argued that the use of increasingly autonomous systems (AS) should be guided by the policy of human control, according to which humans should execute a certain significant level of judgment over AS. While in the military sector there is a fear that AS could mean that humans lose control over life and death decisions, in the transportation domain, on the contrary, there is a strongly held view that autonomy could bring significant operational benefits by removing the need for a human driver. This article explores the notion of human control in the United States in the two domains of defense and transportation. The operationalization of emerging policies of human control results in the typology of direct and indirect human controls exercised over the use of AS. The typology helps to steer the debate away from the linguistic complexities of the term autonomy. It identifies instead where human factors are undergoing important changes and ultimately informs about more detailed rules and standards formulation, which differ across domains, applications, and sectors.
翻訳日:2022-11-07 23:32:29 公開日:2020-07-22
# IBM Federated Learning: エンタープライズフレームワークWhite Paper V0.1

IBM Federated Learning: an Enterprise Framework White Paper V0.1 ( http://arxiv.org/abs/2007.10987v1 )

ライセンス: Link先を確認
Heiko Ludwig, Nathalie Baracaldo, Gegi Thomas, Yi Zhou, Ali Anwar, Shashank Rajamoni, Yuya Ong, Jayaram Radhakrishnan, Ashish Verma, Mathieu Sinn, Mark Purcell, Ambrish Rawat, Tran Minh, Naoise Holohan, Supriyo Chakraborty, Shalisha Whitherspoon, Dean Steuer, Laura Wynter, Hifaz Hassan, Sean Laguna, Mikhail Yurochkin, Mayank Agarwal, Ebube Chuba, Annie Abay(参考訳) Federated Learning(FL)は、プライバシ、機密性、データボリュームの理由から、トレーニングデータを単一の場所で集中化せずに機械学習を実行するアプローチである。 しかし、連合機械学習の問題解決は、中央集権的な機械学習の課題以上に問題を提起する。 これらの課題には、当事者間のコミュニケーションインフラストラクチャのセットアップ、学習プロセスのコーディネート、パーティー結果の統合、異なる参加者のトレーニングデータセットの特性の理解、データの均一性への対応、検証データセットの欠如による運用などが含まれる。 IBM Federated Learningは、フェデレートラーニングのためのインフラストラクチャと調整を提供する。 データサイエンティストは、既存の集中型機械学習モデルに基づいてフェデレーション学習ジョブを設計および実行することができ、フェデレーションの実行方法に関する高レベルな指示を提供することができる。 このフレームワークは、最も一般的な機械学習ライブラリに対して、ディープニューラルネットワークと `` traditional''' アプローチの両方に適用される。 proj}は、データサイエンティストが集中型からフェデレーション型の機械学習までの範囲を拡大し、最初の段階での学習曲線を最小化し、異なる計算環境にデプロイし、独自の融合アルゴリズムを設計する柔軟性を提供する。

Federated Learning (FL) is an approach to conduct machine learning without centralizing training data in a single place, for reasons of privacy, confidentiality or data volume. However, solving federated machine learning problems raises issues above and beyond those of centralized machine learning. These issues include setting up communication infrastructure between parties, coordinating the learning process, integrating party results, understanding the characteristics of the training data sets of different participating parties, handling data heterogeneity, and operating with the absence of a verification data set. IBM Federated Learning provides infrastructure and coordination for federated learning. Data scientists can design and run federated learning jobs based on existing, centralized machine learning models and can provide high-level instructions on how to run the federation. The framework applies to both Deep Neural Networks as well as ``traditional'' approaches for the most common machine learning libraries. {\proj} enables data scientists to expand their scope from centralized to federated machine learning, minimizing the learning curve at the outset while also providing the flexibility to deploy to different compute environments and design custom fusion algorithms.
翻訳日:2022-11-07 23:31:45 公開日:2020-07-22
# ソーシャル・エンゲージ・ピアラーニングに向けて : 子どものバックチャネルと離脱の予測

Towards Social & Engaging Peer Learning: Predicting Backchanneling and Disengagement in Children ( http://arxiv.org/abs/2007.11346v1 )

ライセンス: Link先を確認
Mononito Goswami, Minkush Manuja and Maitree Leekha(参考訳) 社会ロボットと対話型コンピュータアプリケーションは、ピアラーニング仲間として振る舞うことで、幼児の早期言語発達を促進する可能性がある。 しかし、研究によると、子どもたちは自然で対人的な振る舞いをするロボットのみを信頼している。 ロボットが参加的かつ注意深いピアラーニング仲間として遭遇するのを助けるため、リスナーが注意を失うかどうかを予測するモデル(リスナー拡張予測, LDP)を開発し、ロボットが今後数秒でバックチャネル応答(Backchanneling Extent Prediction, BEP)を生成すべき範囲を推定する。 時系列分類問題として LDP と BEP を用い、時系列特性と特徴集合が予測性能に与える影響を評価するためにいくつかの実験を行った。 また,統計と機械学習を用いて,子どもがバックチャンネルや仲間の聞き取りに費やす時間にどのような社会デマログラフィー的要因が影響を及ぼすかを検討した。 モデルに解釈可能性を与えるため、予測性能に関わる重要な特徴も分析した。 実験の結果, 瞳孔拡張, 瞬き速度, 頭部運動, 顔面動作単位など, これまでに使用したことのない多モード機能の有用性が示された。 また,時系列特徴のダイナミクスはリスナーの離脱やバックチャネルの予測に富んでいることがわかった。

Social robots and interactive computer applications have the potential to foster early language development in young children by acting as peer learning companions. However, studies have found that children only trust robots which behave in a natural and interpersonal manner. To help robots come across as engaging and attentive peer learning companions, we develop models to predict whether the listener will lose attention (Listener Disengagement Prediction, LDP) and the extent to which a robot should generate backchanneling responses (Backchanneling Extent Prediction, BEP) in the next few seconds. We pose LDP and BEP as time series classification problems and conduct several experiments to assess the impact of different time series characteristics and feature sets on the predictive performance of our model. Using statistics & machine learning, we also examine which socio-demographic factors influence the amount of time children spend backchanneling and listening to their peers. To lend interpretability to our models, we also analyzed critical features responsible for their predictive performance. Our experiments revealed the utility of multimodal features such as pupil dilation, blink rate, head movements, facial action units which have never been used before. We also found that the dynamics of time series features are rich predictors of listener disengagement and backchanneling.
翻訳日:2022-11-07 23:31:08 公開日:2020-07-22
# 深層学習技術を用いた高解像度光衛星画像の温室分離

Greenhouse Segmentation on High-Resolution Optical Satellite Imagery using Deep Learning Techniques ( http://arxiv.org/abs/2007.11222v1 )

ライセンス: Link先を確認
Orkhan Baghirli, Imran Ibrahimli, and Tarlan Mammadzada(参考訳) 温室栽培は気候に配慮した土地利用計画において重要な役割を担っている。 ディープラーニングに基づくアプローチは、自然な画像セグメンテーションにおける最先端のパフォーマンスを提供する。 しかし,高分解能衛星画像におけるセマンティクスセグメンテーションは複雑な環境のため難しい課題である。 本稿では,光衛星アゼルスキー (SPOT-7) が取得した画像の画素単位の分類法を提案する。 特に、u-netライクなアーキテクチャのカスタマイズされたバリエーションが温室の識別に使われている。 拡張畳み込みとスキップ接続を独自に組み込んだ2つのモデルを提案し,その結果をベースラインu-netモデルと比較した。 使用したデータセットは、温室が密集しているアゼルバイジャンの15の地域から収集された、1.5メートルの解像度とアノテーションマスクを備えた、パンシャーペンで修正されたアゼルスキー画像(赤、緑、青、近赤外チャネル)で構成されている。 画像は累積面積1008ドル^2$、アノテーションマスクは合計47559個のポリゴンを含んでいる。 F_1, Kappa, AUC$, $IOU$スコアはパフォーマンス評価に使用される。 展開経路全体では, 脱畳畳み込み層を単独で使用すると, 良好な結果が得られず, 両線形補間に置き換えるか, 結合するかのどちらかが観察される。 すべてのモデルはハード・サンプル・マイニング(HEM)戦略の恩恵を受ける。 また、重み付きバイナリクロスエントロピー損失とサイコロ損失が結合された場合に、9,3.29\%(F_1\,score$)の最良の精度を記録することも報告されている。 実験の結果、提案したモデルがベースラインのU-Netアーキテクチャより優れており、ベースラインのアーキテクチャと比較して最良のモデルの方が4.48\%高い結果が得られた。

Greenhouse segmentation has pivotal importance for climate-smart agricultural land-use planning. Deep learning-based approaches provide state-of-the-art performance in natural image segmentation. However, semantic segmentation on high-resolution optical satellite imagery is a challenging task because of the complex environment. In this paper, a sound methodology is proposed for pixel-wise classification on images acquired by the Azersky (SPOT-7) optical satellite. In particular, customized variations of U-Net-like architectures are employed to identify greenhouses. Two models are proposed which uniquely incorporate dilated convolutions and skip connections, and the results are compared to that of the baseline U-Net model. The dataset used consists of pan-sharpened orthorectified Azersky images (red, green, blue,and near infrared channels) with 1.5-meter resolution and annotation masks, collected from 15 regions in Azerbaijan where the greenhouses are densely congested. The images cover the cumulative area of 1008 $km^2$ and annotation masks contain 47559 polygons in total. The $F_1, Kappa, AUC$, and $IOU$ scores are used for performance evaluation. It is observed that the use of the deconvolutional layers alone throughout the expansive path does not yield satisfactory results; therefore, they are either replaced or coupled with bilinear interpolation. All models benefit from the hard example mining (HEM) strategy. It is also reported that the best accuracy of $93.29\%$ ($F_1\,score$) is recorded when the weighted binary cross-entropy loss is coupled with the dice loss. Experimental results showed that both of the proposed models outperformed the baseline U-Net architecture such that the best model proposed scored $4.48\%$ higher in comparison to the baseline architecture.
翻訳日:2022-11-07 23:24:35 公開日:2020-07-22
# ハイブリッド歪み画像復元のための歪み特徴表現学習

Learning Disentangled Feature Representation for Hybrid-distorted Image Restoration ( http://arxiv.org/abs/2007.11430v1 )

ライセンス: Link先を確認
Xin Li, Xin Jin, Jianxin Lin, Tao Yu, Sen Liu, Yaojun Wu, Wei Zhou, and Zhibo Chen(参考訳) ハイブリッド歪み画像復元(HD-IR)は、複数の歪みによって劣化する実歪み画像の復元を目的としている。 既存のHD-IRアプローチは通常、修復性能を損なうハイブリッド歪みの固有の干渉を無視している。 このような干渉を分解するために,ハイブリッド歪みの特徴レベル分割処理を実現するために,ディスタングル型特徴学習の概念を導入する。 具体的には、ゲイン制御に基づく正規化を改訂することにより、異なる歪みの特徴表現を異なるチャネルに分散する特徴分散モジュール(FDM)を提案する。 また,歪み表現を適応的にフィルタリングし,異なるチャネルから有用なコンテンツ情報を集約して生画像を構築するための機能集約モジュール (FAM) を提案する。 提案手法の有効性は,特徴の相関行列と異なる歪みのチャネル応答を可視化することで検証した。 広範な実験結果も最新のhd-irに比べて優れた性能を示している。

Hybrid-distorted image restoration (HD-IR) is dedicated to restore real distorted image that is degraded by multiple distortions. Existing HD-IR approaches usually ignore the inherent interference among hybrid distortions which compromises the restoration performance. To decompose such interference, we introduce the concept of Disentangled Feature Learning to achieve the feature-level divide-and-conquer of hybrid distortions. Specifically, we propose the feature disentanglement module (FDM) to distribute feature representations of different distortions into different channels by revising gain-control-based normalization. We also propose a feature aggregation module (FAM) with channel-wise attention to adaptively filter out the distortion representations and aggregate useful content information from different channels for the construction of raw image. The effectiveness of the proposed scheme is verified by visualizing the correlation matrix of features and channel responses of different distortions. Extensive experimental results also prove superior performance of our approach compared with the latest HD-IR schemes.
翻訳日:2022-11-07 23:24:06 公開日:2020-07-22
# 医用画像融合のための2本木複素ウェーブレット変換の新しい適応最適化

A Novel adaptive optimization of Dual-Tree Complex Wavelet Transform for Medical Image Fusion ( http://arxiv.org/abs/2007.13538v1 )

ライセンス: Link先を確認
T.Deepika, G.Karpaga Kannan(参考訳) 近年,医療画像融合分野における多くの研究成果が報告されている。 fusionは基本的に、最高の入力を抽出し、出力に転送する。 医用画像融合とは、様々なモダリティ画像情報のいくつかをまとめて1つの画像を形成し、その情報を表現することを意味する。 画像融合の目的は補完情報と冗長情報を統合することである。 本稿では,二重木複素ウェーブレット変換(dt-cwt)と適応粒子群最適化(apso)に基づくマルチモーダル画像融合アルゴリズムを提案する。 融合は、ソース画像の分解されたピラミッドからDTCWT係数を用いて融合ピラミッドを形成することによって達成される。 係数は画素に基づく重み付き平均法により融合し、APSOにより重みを推定して最適な融合画像を得る。 融合画像は、従来の逆2本木複合ウェーブレット変換再構成プロセスによって得られる。 実験結果から,適応粒子群最適化アルゴリズムに基づく提案手法は,粒子群最適化法よりも著しく優れていることがわかった。 得られた融合画像は、Entropy (E)、Peak Signal to Noise Ratio (PSNR)、Root Mean Square Error (RMSE)、Standard deviation (SD)、Structure similarity Index Metrics (SSIM)といったベンチマークによって視覚的に比較される。

In recent years, many research achievements are made in the medical image fusion field. Fusion is basically extraction of best of inputs and conveying it to the output. Medical Image fusion means that several of various modality image information is comprehended together to form one image to express its information. The aim of image fusion is to integrate complementary and redundant information. In this paper, a multimodal image fusion algorithm based on the dual-tree complex wavelet transform (DT-CWT) and adaptive particle swarm optimization (APSO) is proposed. Fusion is achieved through the formation of a fused pyramid using the DTCWT coefficients from the decomposed pyramids of the source images. The coefficients are fused by the weighted average method based on pixels, and the weights are estimated by the APSO to gain optimal fused images. The fused image is obtained through conventional inverse dual-tree complex wavelet transform reconstruction process. Experiment results show that the proposed method based on adaptive particle swarm optimization algorithm is remarkably better than the method based on particle swarm optimization. The resulting fused images are compared visually and through benchmarks such as Entropy (E), Peak Signal to Noise Ratio, (PSNR), Root Mean Square Error (RMSE), Standard deviation (SD) and Structure Similarity Index Metric (SSIM) computations.
翻訳日:2022-11-07 23:23:52 公開日:2020-07-22
# ハイパースペクトル衛星画像の分類のための新しい空間スペクトルフレームワーク

A Novel Spatial-Spectral Framework for the Classification of Hyperspectral Satellite Imagery ( http://arxiv.org/abs/2008.02797v1 )

ライセンス: Link先を確認
Shriya TP Gupta and Sanjay K Sahay(参考訳) ハイパースペクトル衛星画像は現在、正確な災害予測と地形特徴分類に広く使われている。 しかし、そのような分類タスクでは、現在の手法のほとんどは画像に含まれるスペクトル情報のみを使用する。 そこで本稿では,土地被覆分類データに含まれるスペクトル情報と空間情報の両方を考慮に入れた新しい枠組みを提案する。 この目的のために,gaussian maximum likelihood (gml) と畳み込みニューラルネットワーク法を用いて画素毎のスペクトル分類を行い,流域アルゴリズムによって生成されたセグメンテーションマップを用いて,空間的文脈情報を改良された多数決手法を用いてモデルに組み込む。 2つのベンチマークデータセットの実験的解析により,提案手法は,pavia university と indian pines のデータセットでそれぞれ 99.52% と 98.31% の精度を達成することにより,従来の手法よりも性能が向上することが示された。 さらに,非深層学習アルゴリズムであるgmlに基づくアプローチでは,最先端のディープラーニング技術と同等の性能を示し,ハイパースペクトル画像の計算効率の高い分類を行うための提案手法の重要性を示す。

Hyper-spectral satellite imagery is now widely being used for accurate disaster prediction and terrain feature classification. However, in such classification tasks, most of the present approaches use only the spectral information contained in the images. Therefore, in this paper, we present a novel framework that takes into account both the spectral and spatial information contained in the data for land cover classification. For this purpose, we use the Gaussian Maximum Likelihood (GML) and Convolutional Neural Network methods for the pixel-wise spectral classification and then, using segmentation maps generated by the Watershed algorithm, we incorporate the spatial contextual information into our model with a modified majority vote technique. The experimental analyses on two benchmark datasets demonstrate that our proposed methodology performs better than the earlier approaches by achieving an accuracy of 99.52% and 98.31% on the Pavia University and the Indian Pines datasets respectively. Additionally, our GML based approach, a non-deep learning algorithm, shows comparable performance to the state-of-the-art deep learning techniques, which indicates the importance of the proposed approach for performing a computationally efficient classification of hyper-spectral imagery.
翻訳日:2022-11-07 23:23:29 公開日:2020-07-22
# 局所ダイナミクスを用いたカオスシステムのアナログ予測

Using local dynamics to explain analog forecasting of chaotic systems ( http://arxiv.org/abs/2007.14216v1 )

ライセンス: Link先を確認
P Platzer, P. Yiou (LSCE), P. Naveau (LSCE), P Tandeo, Y Zhen, P Ailliot (LMBA), J-F Filipot(参考訳) アナログは、システムの状態の最も近い隣人である。 アナログとその後継を時間的に利用することで、経験的な予測を生成できる。 いくつかのアナログ予測手法は大気応用に使われ、よく知られた力学系でテストされている。 実際には効率的ではあるが、アナログ法と力学系の理論的関係は見過ごされている。 アナログ予測は、興味ある系の実際の力学方程式と関連付けられる。 本研究では,システムのダイナミクスの局所近似を用いて,様々なアナログ予測手法の特性について検討する。 アナログ予測性能はフローマップの局所ジャコビアン行列と強く関連しており、アナログ予測と線形回帰が組み合わさることで、このヤコビ行列の射影を捉えることができる。 提案手法により,アナログ予測誤差を推定し,異なるアナログ手法を比較することができる。 これらの結果は解析的に導出され、2つの単純なカオス力学系上で数値的に検証される。

Analogs are nearest neighbors of the state of a system. By using analogs and their successors in time, one is able to produce empirical forecasts. Several analog forecasting methods have been used in atmospheric applications and tested on well-known dynamical systems. Although efficient in practice, theoretical connections between analog methods and dynamical systems have been overlooked. Analog forecasting can be related to the real dynamical equations of the system of interest. This study investigates the properties of different analog forecasting strategies by taking local approximations of the system's dynamics. We find that analog forecasting performances are highly linked to the local Jacobian matrix of the flow map, and that analog forecasting combined with linear regression allows to capture projections of this Jacobian matrix. The proposed methodology allows to estimate analog forecasting errors, and to compare different analog methods. These results are derived analytically and tested numerically on two simple chaotic dynamical systems.
翻訳日:2022-11-07 23:23:10 公開日:2020-07-22
# 切削相互作用推論のためのロボットダイナミクスの潜時空間学習

Learning the Latent Space of Robot Dynamics for Cutting Interaction Inference ( http://arxiv.org/abs/2007.11167v1 )

ライセンス: Link先を確認
Sahand Rezaei-Shoshtari, David Meger, Inna Sharf(参考訳) 複素力学モデルの低次元表現を捉えるための潜在空間の利用を本研究で検討する。 対象とするアプリケーションは、複雑な環境インタラクションタスクを実行するロボットマニピュレータであり、特に木製オブジェクトを切断する。 ロボットが切断されているかどうか、あるいは切断対象の素材や形状など、切断動作の特定の特性を推測するために使用される潜在空間を学習するために、可変オートエンコーダの2つのフレーバー(標準およびベクトル量子化)を訓練する。 2つのVAEモデルは、再構成、予測、複合再構成/予測デコーダを用いて評価される。 その結果,ロボットインタラクション推論のための潜在空間の表現力と,ニューラルネットワークに対する競合予測性能が示された。

Utilization of latent space to capture a lower-dimensional representation of a complex dynamics model is explored in this work. The targeted application is of a robotic manipulator executing a complex environment interaction task, in particular, cutting a wooden object. We train two flavours of Variational Autoencoders---standard and Vector-Quantised---to learn the latent space which is then used to infer certain properties of the cutting operation, such as whether the robot is cutting or not, as well as, material and geometry of the object being cut. The two VAE models are evaluated with reconstruction, prediction and a combined reconstruction/prediction decoders. The results demonstrate the expressiveness of the latent space for robotic interaction inference and the competitive prediction performance against recurrent neural networks.
翻訳日:2022-11-07 23:22:35 公開日:2020-07-22
# 長期記憶によるセンサによる連続手指ジェスチャー認識

Sensor-Based Continuous Hand Gesture Recognition by Long Short-Term Memory ( http://arxiv.org/abs/2007.11268v1 )

ライセンス: Link先を確認
Tsung-Ming Tai, Yun-Jie Jhang, Zhen-Wei Liao, Kai-Chung Teng, and Wen-Jyi Hwang(参考訳) 本稿では,Long Short-term memory (LSTM) を用いたセンサを用いた連続手動作認識アルゴリズムを提案する。 アルゴリズムには基本的な加速器とジャイロスコープのみが必要である。 入力センサデータのシーケンスが与えられると、出力パスを生成するために多対多のLSTMスキームが採用される。 そして、観測された経路に基づいて最大a後方推定を行い、最終的な分類結果を得る。 性能評価のためにスマートフォンを用いたプロトタイプシステムを開発した。 実験の結果,提案手法はロバストで高精度なハンドジェスチャ認識に有効であることがわかった。

This article aims to present a novel sensor-based continuous hand gesture recognition algorithm by long short-term memory (LSTM). Only the basic accelerators and/or gyroscopes are required by the algorithm. Given a sequence of input sensory data, a many-to-many LSTM scheme is adopted to produce an output path. A maximum a posteriori estimation is then carried out based on the observed path to obtain the final classification results. A prototype system based on smartphones has been implemented for the performance evaluation. Experimental results show that the proposed algorithm is an effective alternative for robust and accurate hand-gesture recognition.
翻訳日:2022-11-07 23:22:21 公開日:2020-07-22
# ホームネットワークのためのインテリジェントQoSアルゴリズム

An Intelligent QoS Algorithm for Home Networks ( http://arxiv.org/abs/2007.11273v1 )

ライセンス: Link先を確認
Wen-Jyi Hwang, Tsung-Ming Tai, Bo-Ting Pan, Tun-Yao Lou, and Yun-Jie Jhang(参考訳) 本稿では,ホームネットワークのためのQoS(Quality of Service)管理アルゴリズムについて述べる。 このアルゴリズムはインテリジェントqos管理のためのサービス予測に基づいている。 サービス予測は、サービスの過去の記録を含むプロファイルを備えた一般的な回帰ニューラルネットワークによって実行される。 高速帯域割り当てのためにプロファイルサイズが小さくなるように,新しいプロファイル更新手法を提案する。 実LAN上の解析と実験により,提案アルゴリズムは計算オーバーヘッドの少ないホームネットワークに対して信頼性の高いQoS管理を提供することを明らかにした。

A novel quality of service (QoS) management algorithm for home networks is presented in this letter. The algorithm is based on service prediction for intelligent QoS management. The service prediction is carried out by a general regression neural network with a profile containing the past records of the service. A novel profile updating technique is proposed so that the profile size can remain small for fast bandwidth allocation. The analytical study and experiments over real LAN reveal that the proposed algorithm provides reliable QoS management for home networks with low computational overhead.
翻訳日:2022-11-07 23:22:12 公開日:2020-07-22
# サーマル・ツー・ビジュアル顔認識のマルチメトリック評価

Multi-Metric Evaluation of Thermal-to-Visual Face Recognition ( http://arxiv.org/abs/2007.11987v1 )

ライセンス: Link先を確認
Kenneth Lai and Svetlana N. Yanushkevich(参考訳) 本稿では,赤外線画像から視覚スペクトルを合成する機械学習を用いて,異種・横断的な顔認識の問題に対処することを目的とする。 視覚帯域顔画像の合成により、顔識別および/または検証に使用する顔特徴のより最適な抽出が可能になる。 本研究では,顔画像合成にgans(generative adversarial network)を応用し,事前学習された畳み込みニューラルネットワーク(cnns)を用いて画像の性能を検討する。 CNNを用いて抽出した特徴を顔認証と検証に応用する。 顔認証に様々な類似性尺度を用いる場合の受入率の観点で性能を検討する。

In this paper, we aim to address the problem of heterogeneous or cross-spectral face recognition using machine learning to synthesize visual spectrum face from infrared images. The synthesis of visual-band face images allows for more optimal extraction of facial features to be used for face identification and/or verification. We explore the ability to use Generative Adversarial Networks (GANs) for face image synthesis, and examine the performance of these images using pre-trained Convolutional Neural Networks (CNNs). The features extracted using CNNs are applied in face identification and verification. We explore the performance in terms of acceptance rate when using various similarity measures for face verification.
翻訳日:2022-11-07 23:16:31 公開日:2020-07-22
# 文埋め込みによる探索探索

Exploratory Search with Sentence Embeddings ( http://arxiv.org/abs/2007.11198v1 )

ライセンス: Link先を確認
Austin Silveria(参考訳) 探索検索は、正確な情報を特定するのではなく、コーパスを通してユーザーを誘導することを目的としている。 文埋め込みを用いた階層クラスタと文書要約に基づく探索探索システムを提案する。 文章埋め込みでは、文書をその埋め込み文の平均として表現し、この文書表現に近い文を含む要約を抽出し、文書表現に近いキーフレーズを抽出する。 検索システムを評価するために,過去1年間の個人検索履歴をスクレイピングし,システムを用いた経験を報告する。 次に, 探索探索システムの利用動機を考察し, 今後の課題の方向性について考察する。

Exploratory search aims to guide users through a corpus rather than pinpointing exact information. We propose an exploratory search system based on hierarchical clusters and document summaries using sentence embeddings. With sentence embeddings, we represent documents as the mean of their embedded sentences, extract summaries containing sentences close to this document representation and extract keyphrases close to the document representation. To evaluate our search system, we scrape our personal search history over the past year and report our experience with the system. We then discuss motivating use cases of an exploratory search system of this nature and conclude with possible directions of future work.
翻訳日:2022-11-07 23:16:20 公開日:2020-07-22
# インテリジェントマシンを信頼する時(あるいは信頼しないとき)--反復ゲームにおける信頼に関する進化ゲーム理論からの考察

When to (or not to) trust intelligent machines: Insights from an evolutionary game theory analysis of trust in repeated games ( http://arxiv.org/abs/2007.11338v1 )

ライセンス: Link先を確認
The Anh Han, Cedric Perret and Simon T. Powers(参考訳) チャットボット、レコメンデーションシステム、仮想アシスタントといったインテリジェントエージェントのアクションは、通常、ユーザには完全に透過的ではない。 したがって、そのようなエージェントを使用すると、エージェントがユーザーの目標とは反対の方法で行動するリスクをユーザーに暴露する。 人々はそのような相互作用の複雑さを減らすために認知的近道として信頼を使用しているとしばしば主張される。 ここでは,反復ゲームにおける信頼に基づく戦略の実現可能性を研究するために,進化ゲーム理論の手法を用いてこれを定式化する。 これらは、他のプレイヤーが協力していると見られる限り協力する相互戦略である。 古典的な相互戦略とは違って、しきい値のラウンドで相互協力が観測されると、各ラウンドごとに共同プレーヤの動作をチェックするのをやめて、ある確率でのみチェックする。 これにより、共同プレイヤのアクションが実際に協調的であるかどうかを検証する機会コストを削減できる。 これらの信頼に基づく戦略は、機会コストが無視できないとき、Tit-for-Tatのような条件付き戦略よりも優れていることを示す。 このコストは、エージェントの透明性が低下しているため、人間と知的エージェントの間の相互作用が大きくなる可能性が高い、と私たちは主張する。 その結果,インテリジェントエージェントとのインタラクションにおいて,信頼に基づく戦略が頻繁に使用されることが期待できる。 本研究は,人間と知的エージェントとのインタラクションを促進するメカニズムの設計に,信頼が不可欠な要素である新たな重要な洞察を与える。

The actions of intelligent agents, such as chatbots, recommender systems, and virtual assistants are typically not fully transparent to the user. Consequently, using such an agent involves the user exposing themselves to the risk that the agent may act in a way opposed to the user's goals. It is often argued that people use trust as a cognitive shortcut to reduce the complexity of such interactions. Here we formalise this by using the methods of evolutionary game theory to study the viability of trust-based strategies in repeated games. These are reciprocal strategies that cooperate as long as the other player is observed to be cooperating. Unlike classic reciprocal strategies, once mutual cooperation has been observed for a threshold number of rounds they stop checking their co-player's behaviour every round, and instead only check with some probability. By doing so, they reduce the opportunity cost of verifying whether the action of their co-player was actually cooperative. We demonstrate that these trust-based strategies can outcompete strategies that are always conditional, such as Tit-for-Tat, when the opportunity cost is non-negligible. We argue that this cost is likely to be greater when the interaction is between people and intelligent agents, because of the reduced transparency of the agent. Consequently, we expect people to use trust-based strategies more frequently in interactions with intelligent agents. Our results provide new, important insights into the design of mechanisms for facilitating interactions between humans and intelligent agents, where trust is an essential factor.
翻訳日:2022-11-07 23:15:33 公開日:2020-07-22
# 並列進化型マルチトライ・メトロポリス・マルコフ連鎖モンテカルロアルゴリズムによる空間分割のサンプリング

A Parallel Evolutionary Multiple-Try Metropolis Markov Chain Monte Carlo Algorithm for Sampling Spatial Partitions ( http://arxiv.org/abs/2007.11461v1 )

ライセンス: Link先を確認
Wendy K. Tam Cho and Yan Y. Liu(参考訳) 大規模かつ複雑な空間状態空間内に存在する空間分割をサンプリングするための進化的マルコフ連鎖モンテカルロ法(EMCMC)を開発した。 本アルゴリズムは,状態空間トラバーサルの最適化ヒューリスティックとして進化アルゴリズム(eas)の利点と,未知分布からのサンプリングのためのマルコフ連鎖モンテカルロアルゴリズムの理論的収束特性を組み合わせたものである。 一般化されたメトロポリス・ハスティング比を組み込んだマルチトリメトロポリス・マルコフ連鎖モデルの枠組み内で,マルコフ連鎖を有望な方向に適応的に更新するために,最適化ヒューリスティックによる有向探索によって同定された局所最適性情報を用いる。 我々は,並列に動作するマルコフ連鎖を案内する並列EAフレームワークを統合することで,大規模並列アーキテクチャによって得られる計算能力を活用することで,EMCMCアルゴリズムの到達範囲をさらに拡大する。

We develop an Evolutionary Markov Chain Monte Carlo (EMCMC) algorithm for sampling spatial partitions that lie within a large and complex spatial state space. Our algorithm combines the advantages of evolutionary algorithms (EAs) as optimization heuristics for state space traversal and the theoretical convergence properties of Markov Chain Monte Carlo algorithms for sampling from unknown distributions. Local optimality information that is identified via a directed search by our optimization heuristic is used to adaptively update a Markov chain in a promising direction within the framework of a Multiple-Try Metropolis Markov Chain model that incorporates a generalized Metropolis-Hasting ratio. We further expand the reach of our EMCMC algorithm by harnessing the computational power afforded by massively parallel architecture through the integration of a parallel EA framework that guides Markov chains running in parallel.
翻訳日:2022-11-07 23:15:06 公開日:2020-07-22
# 直観型ロボット制御のためのユーザ優先マッピングの学習

Learning User-Preferred Mappings for Intuitive Robot Control ( http://arxiv.org/abs/2007.11627v1 )

ライセンス: Link先を確認
Mengxi Li, Dylan P. Losey, Jeannette Bohg, and Dorsa Sadigh(参考訳) 人間がドローン、車、ロボットを制御するとき、私たちは入力がシステムがどのように振る舞うべきかという先入観を持つことが多い。 既存の遠隔操作のアプローチでは、設計者は人間の入力とロボットのアクションのマッピングを事前に定義し、ユーザーはこのマッピングを反復的なインタラクションに適応させなければならない。 代わりに,ロボットクエリから人間の好みや先入観を学習するためのパーソナライズされた手法を提案する。 ロボットコントローラが与えられたら、人間の入力を変換してコントローラの出力が期待に合致するようにアライメントモデルを識別する。 我々は、人間のマッピングに強い先行性があることを認識して、このアプローチをデータ効率にします。 これらの先行を組み込むことで、ロボットはいくつかの例から直感的なマッピングを学ぶことができる。 我々は,ロボットアームを遠隔操作するための個人的嗜好や身体的能力が異なる支援的設定に触発されたロボット操作タスクにおける学習アプローチをテストする。 シミュレーションおよび実験の結果から,入力とロボット動作のマッピングの学習は,手作業で定義されたアライメントや学習アライメントに比較して,主観的および主観的パフォーマンスが向上することが示唆された。 これらのユーザー研究を示す追加ビデオは、https://youtu.be/rkhka0_48-qで見ることができる。

When humans control drones, cars, and robots, we often have some preconceived notion of how our inputs should make the system behave. Existing approaches to teleoperation typically assume a one-size-fits-all approach, where the designers pre-define a mapping between human inputs and robot actions, and every user must adapt to this mapping over repeated interactions. Instead, we propose a personalized method for learning the human's preferred or preconceived mapping from a few robot queries. Given a robot controller, we identify an alignment model that transforms the human's inputs so that the controller's output matches their expectations. We make this approach data-efficient by recognizing that human mappings have strong priors: we expect the input space to be proportional, reversable, and consistent. Incorporating these priors ensures that the robot learns an intuitive mapping from few examples. We test our learning approach in robot manipulation tasks inspired by assistive settings, where each user has different personal preferences and physical capabilities for teleoperating the robot arm. Our simulated and experimental results suggest that learning the mapping between inputs and robot actions improves objective and subjective performance when compared to manually defined alignments or learned alignments without intuitive priors. The supplementary video showing these user studies can be found at: https://youtu.be/rKHka0_48-Q.
翻訳日:2022-11-07 23:14:23 公開日:2020-07-22
# 形式的議論における抽象的解釈:抽象弁証法とメイマス的議論のためのガロア接続(第1報)

Abstract Interpretation in Formal Argumentation: with a Galois Connection for Abstract Dialectical Frameworks and May-Must Argumentation (First Report) ( http://arxiv.org/abs/2007.12474v1 )

ライセンス: Link先を確認
Ryuta Arisaka and Takayuki Ito(参考訳) ラベリングに基づく形式的議論は、一般に3つのラベルのうちの1つをそれぞれの引数に受け入れ、拒絶、その他決定に至らないいずれかを示すように割り当てるラベル付け関数に依存している。 古典的なラベル付けに基づくアプローチは、引数のラベル付け方法に関してグローバルに統一された条件を適用するが、引数ごとにより局所的に決定することができる。 抽象弁証法フレームワーク(英:Abstract dialectical framework、ADF)は、このカテゴリに属するよく知られた議論形式であり、より大きなラベル付けの柔軟性を提供する。 しかし、議論の規模が議論数や議論と議論の関係で大きくなるにつれて、ラベル付け関数がそれらの局所的な条件を満たすか、あるいはそれらの条件が特定した者の意図に合致するかを確認するコストが高まる。 したがって、より大きな議論を推論するためにいくつかの妥協が必要となる。 この文脈では、より最近提案されたMay-must argumentation (MMA) は、まだ局所的ではあるがより抽象的なラベリング条件を強制する。 私たちは、この作業で相互にリンクする方法を特定します。 それらの間にはガロア接続が存在し、そこではadfはmmaの共形化であり、mmaはadfの抽象である。 形式的議論における遊びにおける抽象的解釈の結果を考察し,MMA内からのADFの受容性/拒絶性判定に関する音響的推論を示す。 私たちが知る限り、文学における形式的議論に抽象的な解釈を組み込んだ作品はほとんどなく、記述された文脈では、この作品がその使用と関連性を示す最初の作品である。

Labelling-based formal argumentation relies on labelling functions that typically assign one of 3 labels to indicate either acceptance, rejection, or else undecided-to-be-either, to each argument. While a classical labelling-based approach applies globally uniform conditions as to how an argument is to be labelled, they can be determined more locally per argument. Abstract dialectical frameworks (ADF) is a well-known argumentation formalism that belongs to this category, offering a greater labelling flexibility. As the size of an argumentation increases in the numbers of arguments and argument-to-argument relations, however, it becomes increasingly more costly to check whether a labelling function satisfies those local conditions or even whether the conditions are as per the intention of those who had specified them. Some compromise is thus required for reasoning about a larger argumentation. In this context, there is a more recently proposed formalism of may-must argumentation (MMA) that enforces still local but more abstract labelling conditions. We identify how they link to each other in this work. We prove that there is a Galois connection between them, in which ADF is a concretisation of MMA and MMA is an abstraction of ADF. We explore the consequence of abstract interpretation at play in formal argumentation, demonstrating a sound reasoning about the judgement of acceptability/rejectability in ADF from within MMA. As far as we are aware, there is seldom any work that incorporates abstract interpretation into formal argumentation in the literature, and, in the stated context, this work is the first to demonstrate its use and relevance.
翻訳日:2022-11-07 23:13:48 公開日:2020-07-22
# 参加とセグメンテーション:注意誘導能動的意味セグメンテーション

Attend and Segment: Attention Guided Active Semantic Segmentation ( http://arxiv.org/abs/2007.11548v1 )

ライセンス: Link先を確認
Soroush Seifi, Tinne Tuytelaars(参考訳) 動的環境では、限られた視野/リソースを持つエージェントは、解析を試みる前にシーンを完全に観察することはできない。 このような設定では、共通セマンティックセグメンテーションアーキテクチャのデプロイは不可能である。 本稿では,部分的観測の順序を与えられたシーンを段階的に分割する手法を提案する。 主な考え方は、最も不確実な領域に出席することで、エージェントの環境に対する理解を深めることである。 本手法は, 空間記憶マップを環境中の未確認領域に埋め込むための, 自己監視型アテンション機構と, 特別なアーキテクチャを含む。 エージェントは、訪問したエリアから来る手掛かりを頼りに、エリアを選択して参加でき、他の部分を幻覚することができる。 私たちは、CityScapes、CamVid、Kittiのデータセットで平均78.1%、80.9%、76.5%の精度で画像ピクセルの18%しか処理していない(網膜に似た10点)。 視認回数,入力画像サイズ,網膜的視認の有効性についてアブレーション研究を行った。 本手法を複数のベースラインと比較し,最初のステップで非常に低解像度なシーンのビューにアクセスすることで,最適な結果が得られることを示す。

In a dynamic environment, an agent with a limited field of view/resource cannot fully observe the scene before attempting to parse it. The deployment of common semantic segmentation architectures is not feasible in such settings. In this paper we propose a method to gradually segment a scene given a sequence of partial observations. The main idea is to refine an agent's understanding of the environment by attending the areas it is most uncertain about. Our method includes a self-supervised attention mechanism and a specialized architecture to maintain and exploit spatial memory maps for filling-in the unseen areas in the environment. The agent can select and attend an area while relying on the cues coming from the visited areas to hallucinate the other parts. We reach a mean pixel-wise accuracy of 78.1%, 80.9% and 76.5% on CityScapes, CamVid, and Kitti datasets by processing only 18% of the image pixels (10 retina-like glimpses). We perform an ablation study on the number of glimpses, input image size and effectiveness of retina-like glimpses. We compare our method to several baselines and show that the optimal results are achieved by having access to a very low resolution view of the scene at the first timestep.
翻訳日:2022-11-07 23:06:50 公開日:2020-07-22
# SizeR: 3D衣料のパースと3D衣料の学習のためのデータセットとモデル

SIZER: A Dataset and Model for Parsing 3D Clothing and Learning Size Sensitive 3D Clothing ( http://arxiv.org/abs/2007.11610v1 )

ライセンス: Link先を確認
Garvita Tiwari, Bharat Lal Bhatnagar, Tony Tung, Gerard Pons-Moll(参考訳) 実際のデータから学習した3D衣服のモデルが存在するが、衣服の大きさの関数として衣服の変形を予測する方法は存在しない。 本稿では,人体形状と衣服サイズパラメータに規定された3次元衣服の予測にSizerNetを導入し,ParserNetは衣服のメッシュと形状を,入力メッシュから1回のパスで個人的詳細で推定する。 sizernetは、衣服のドレッシング効果を様々なサイズで見積もって視覚化することができ、parsernetは、入力メッシュの服を直接編集することができ、スキャンセグメンテーションの必要性をなくすことができる。 これらのモデルを学ぶために,様々なサイズのカジュアルな衣料品を着る100ドルの異なる被験者を含む,約2000回のスキャンを含む,衣料品のサイズ変動のデータセットを紹介する。 このデータセットには、スキャン、SMPLモデルへの登録、衣服部品、衣服カテゴリー、サイズラベルが含まれる。 提案手法は,sizerで学習したベースライン法よりも,解析精度とサイズ予測に優れる。 コード、モデル、データセットは研究目的でリリースされる予定だ。

While models of 3D clothing learned from real data exist, no method can predict clothing deformation as a function of garment size. In this paper, we introduce SizerNet to predict 3D clothing conditioned on human body shape and garment size parameters, and ParserNet to infer garment meshes and shape under clothing with personal details in a single pass from an input mesh. SizerNet allows to estimate and visualize the dressing effect of a garment in various sizes, and ParserNet allows to edit clothing of an input mesh directly, removing the need for scan segmentation, which is a challenging problem in itself. To learn these models, we introduce the SIZER dataset of clothing size variation which includes $100$ different subjects wearing casual clothing items in various sizes, totaling to approximately 2000 scans. This dataset includes the scans, registrations to the SMPL model, scans segmented in clothing parts, garment category and size labels. Our experiments show better parsing accuracy and size prediction than baseline methods trained on SIZER. The code, model and dataset will be released for research purposes.
翻訳日:2022-11-07 23:06:08 公開日:2020-07-22
# 自動画像分割のための終端から終端訓練可能な深部活動輪郭モデル:空中画像における建物配置

End-to-End Trainable Deep Active Contour Models for Automated Image Segmentation: Delineating Buildings in Aerial Imagery ( http://arxiv.org/abs/2007.11691v1 )

ライセンス: Link先を確認
Ali Hatamizadeh, Debleena Sengupta, Demetri Terzopoulos(参考訳) リモートセンシング画像における建物の自動セグメンテーションは、通常、大きな画像領域にまたがる複数のビルディングインスタンスの正確なデライン化を必要とする課題である。 手動メソッドは、しばしば手間がかかり、現在のディープラーニングベースのアプローチでは、すべてのビルディングインスタンスのリライン化に失敗し、適切な精度で実行できない。 そこで本研究では,CNN(Convolutional Neural Networks)とACM(Active Contour Models)を密接に結合する自動画像分割フレームワークであるTDAC(Traiable Deep Active Contours)を提案する。 ACMコンポーネントのユーレアンエネルギー関数は、バックボーンCNNによって予測されるピクセル単位のパラメータマップを含み、ACMを初期化する。 重要なのは、ACMとCNNの両方のコンポーネントがTensorFlowで完全に実装されており、TDACアーキテクチャ全体がエンド・ツー・エンドで自動的に微分可能で、ユーザの介入なしにトレーニング可能なバックプロパゲーションである。 TDACは、画像中の多くの建物を高速で、正確で、完全に自動で同時に配置する。 本研究は,TDACが新たに最先端の性能を確立したことを示すものである。

The automated segmentation of buildings in remote sensing imagery is a challenging task that requires the accurate delineation of multiple building instances over typically large image areas. Manual methods are often laborious and current deep-learning-based approaches fail to delineate all building instances and do so with adequate accuracy. As a solution, we present Trainable Deep Active Contours (TDACs), an automatic image segmentation framework that intimately unites Convolutional Neural Networks (CNNs) and Active Contour Models (ACMs). The Eulerian energy functional of the ACM component includes per-pixel parameter maps that are predicted by the backbone CNN, which also initializes the ACM. Importantly, both the ACM and CNN components are fully implemented in TensorFlow and the entire TDAC architecture is end-to-end automatically differentiable and backpropagation trainable without user intervention. TDAC yields fast, accurate, and fully automatic simultaneous delineation of arbitrarily many buildings in the image. We validate the model on two publicly available aerial image datasets for building segmentation, and our results demonstrate that TDAC establishes a new state-of-the-art performance.
翻訳日:2022-11-07 23:05:15 公開日:2020-07-22
# cnn+rnn深度とスケルトンに基づく動的ハンドジェスチャ認識

CNN+RNN Depth and Skeleton based Dynamic Hand Gesture Recognition ( http://arxiv.org/abs/2007.11983v1 )

ライセンス: Link先を確認
Kenneth Lai and Svetlana N. Yanushkevich(参考訳) 人間の活動とジェスチャー認識は、特に生活とスマートホームを支援するために急速に成長する環境知能の領域の重要な構成要素である。 本稿では,2つのディープラーニング技術である畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を組み合わせて,深度データと骨格データの両方を用いた手の動きの自動認識を提案する。 これらのデータはそれぞれ、ニューラルネットワークを訓練して手のジェスチャーを認識するために、別々に使用できる。 rnnは前述したように骨格情報のみに基づいて各骨格関節の動き列の認識において良好に機能するが,本研究は深部データを利用して深部画像から重要な空間情報を抽出することを目的としている。 タンデムCNN+RNNは、より正確に一連のジェスチャーを認識することができる。 また, 骨と深部情報を組み合わせて時間空間情報を抽出するために, 様々な種類の融合について検討した。 全体的な精度は85.46%で、ダイナミックハンドジェスチャ14/28データセットで達成されている。

Human activity and gesture recognition is an important component of rapidly growing domain of ambient intelligence, in particular in assisting living and smart homes. In this paper, we propose to combine the power of two deep learning techniques, the convolutional neural networks (CNN) and the recurrent neural networks (RNN), for automated hand gesture recognition using both depth and skeleton data. Each of these types of data can be used separately to train neural networks to recognize hand gestures. While RNN were reported previously to perform well in recognition of sequences of movement for each skeleton joint given the skeleton information only, this study aims at utilizing depth data and apply CNN to extract important spatial information from the depth images. Together, the tandem CNN+RNN is capable of recognizing a sequence of gestures more accurately. As well, various types of fusion are studied to combine both the skeleton and depth information in order to extract temporal-spatial information. An overall accuracy of 85.46% is achieved on the dynamic hand gesture-14/28 dataset.
翻訳日:2022-11-07 23:04:51 公開日:2020-07-22
# リアルタイムトラッキングのための教師なし深部表現学習

Unsupervised Deep Representation Learning for Real-Time Tracking ( http://arxiv.org/abs/2007.11984v1 )

ライセンス: Link先を確認
Ning Wang and Wengang Zhou and Yibing Song and Chao Ma and Wei Liu and Houqiang Li(参考訳) 視覚追跡の進歩は、ディープラーニングモデルによって継続的に引き継がれている。 通常、教師付き学習は高価なラベル付きデータでこれらのモデルを訓練するために用いられる。 手動アノテーションのワークロードを削減し,任意のオブジェクトを追跡することを学ぶため,視覚追跡のための教師なし学習手法を提案する。 教師なし学習の動機は、堅牢なトラッカーは双方向追跡に効果的であるべきだということです。 具体的には、トラッカは、ターゲットオブジェクトを連続するフレームにローカライズし、最初のフレームの最初の位置までバックトレースすることができる。 このようなモチベーションに基づいて、トレーニングプロセスにおいて、前向きと後向きの軌跡の整合性を測定し、ラベルなしのビデオだけでスクラッチからロバストトラッカーを学習する。 我々は,シームズ相関フィルタネットワーク上にフレームワークを構築し,教師なし学習を容易にするための多フレーム検証手法とコスト感受性損失を提案する。 ベルとホイッスルがなければ、提案した教師なしトラッカーは、リアルタイムな速度を達成しつつ、古典的な完全教師付きトラッカーとしてベースライン精度を達成する。 さらに, 教師なしフレームワークは, よりラベル付きあるいは弱いラベル付きデータを活用することで, 追跡精度をさらに向上させる可能性を示す。

The advancement of visual tracking has continuously been brought by deep learning models. Typically, supervised learning is employed to train these models with expensive labeled data. In order to reduce the workload of manual annotations and learn to track arbitrary objects, we propose an unsupervised learning method for visual tracking. The motivation of our unsupervised learning is that a robust tracker should be effective in bidirectional tracking. Specifically, the tracker is able to forward localize a target object in successive frames and backtrace to its initial position in the first frame. Based on such a motivation, in the training process, we measure the consistency between forward and backward trajectories to learn a robust tracker from scratch merely using unlabeled videos. We build our framework on a Siamese correlation filter network, and propose a multi-frame validation scheme and a cost-sensitive loss to facilitate unsupervised learning. Without bells and whistles, the proposed unsupervised tracker achieves the baseline accuracy as classic fully supervised trackers while achieving a real-time speed. Furthermore, our unsupervised framework exhibits a potential in leveraging more unlabeled or weakly labeled data to further improve the tracking accuracy.
翻訳日:2022-11-07 23:04:32 公開日:2020-07-22
# ソフトバイオメトリックスとニューラルネットワークを用いた犬の識別

Dog Identification using Soft Biometrics and Neural Networks ( http://arxiv.org/abs/2007.11986v1 )

ライセンス: Link先を確認
Kenneth Lai, Xinyuan Tu, and Svetlana Yanushkevich(参考訳) 本稿では,動物,特に犬における生体認証の問題に対処する。 ペットの身元を決定するため,ペットの写真にディープニューラルネットワークなどの高度な機械学習モデルを適用した。 本稿では,ペットの顔写真などの「硬い」バイオメトリックスとの融合において,品種,身長,性別などの異なるタイプの「軟い」バイオメトリックスを使用することの可能性を検討する。 本研究では,異なる畳み込みニューラルネットワーク上でのトランスファー学習の原則を適用し,分類のためのネットワークを構築する。 提案したネットワークは、2つの異なるデータセットに対して2匹の犬種を区別した場合、90.80%と91.29%の精度を達成することができる。 ソフトバイオメトリックスを使用しなければ、犬の識別率は78.09%であるが、「ソフトバイオメトリックス」を組み込む決定ネットワークを使用することで、84.94%の精度が得られる。

This paper addresses the problem of biometric identification of animals, specifically dogs. We apply advanced machine learning models such as deep neural network on the photographs of pets in order to determine the pet identity. In this paper, we explore the possibility of using different types of "soft" biometrics, such as breed, height, or gender, in fusion with "hard" biometrics such as photographs of the pet's face. We apply the principle of transfer learning on different Convolutional Neural Networks, in order to create a network designed specifically for breed classification. The proposed network is able to achieve an accuracy of 90.80% and 91.29% when differentiating between the two dog breeds, for two different datasets. Without the use of "soft" biometrics, the identification rate of dogs is 78.09% but by using a decision network to incorporate "soft" biometrics, the identification rate can achieve an accuracy of 84.94%.
翻訳日:2022-11-07 23:04:13 公開日:2020-07-22
# オープンセット半教師付き学習のためのマルチタスクカリキュラムフレームワーク

Multi-Task Curriculum Framework for Open-Set Semi-Supervised Learning ( http://arxiv.org/abs/2007.11330v1 )

ライセンス: Link先を確認
Qing Yu, Daiki Ikami, Go Irie, Kiyoharu Aizawa(参考訳) ラベル付きデータに制限がある場合に、ラベルなしデータを利用して強力なモデルをトレーニングする半教師付き学習(SSL)が提案されている。 既存のSSLメソッドでは、ラベル付きおよびラベルなしデータのサンプルがそのサンプルのクラスを共有すると仮定しているが、Open-set SSLと呼ばれるより複雑なシナリオに対処する。 OOD検出器とSSLを個別にトレーニングする代わりに、マルチタスクのカリキュラム学習フレームワークを提案する。 まず,未ラベルデータ中のOODサンプルを検出するために,OODに含まれるサンプルの確率を推定する。 我々は、ネットワークパラメータとOODスコアを交互に更新する共同最適化フレームワークを使用する。 同時に、ID(In-distriion)データの分類において高い性能を達成するために、OODスコアが小さいラベル付きデータのIDサンプルを選択し、ラベル付きデータを用いて深層ニューラルネットワークのトレーニングを行い、半教師付き方法でIDサンプルを分類する。 本手法は,いくつかの実験を行い,oodサンプルの効果を除去し,最先端の結果を得る。

Semi-supervised learning (SSL) has been proposed to leverage unlabeled data for training powerful models when only limited labeled data is available. While existing SSL methods assume that samples in the labeled and unlabeled data share the classes of their samples, we address a more complex novel scenario named open-set SSL, where out-of-distribution (OOD) samples are contained in unlabeled data. Instead of training an OOD detector and SSL separately, we propose a multi-task curriculum learning framework. First, to detect the OOD samples in unlabeled data, we estimate the probability of the sample belonging to OOD. We use a joint optimization framework, which updates the network parameters and the OOD score alternately. Simultaneously, to achieve high performance on the classification of in-distribution (ID) data, we select ID samples in unlabeled data having small OOD scores, and use these data with labeled data for training the deep neural networks to classify ID samples in a semi-supervised manner. We conduct several experiments, and our method achieves state-of-the-art results by successfully eliminating the effect of OOD samples.
翻訳日:2022-11-07 22:58:08 公開日:2020-07-22
# 3次元メッシュの教師なし形状とポーズ乱れ

Unsupervised Shape and Pose Disentanglement for 3D Meshes ( http://arxiv.org/abs/2007.11341v1 )

ライセンス: Link先を確認
Keyang Zhou, Bharat Lal Bhatnagar, Gerard Pons-Moll(参考訳) 人間、顔、手、動物のパラメトリックモデルは、画像ベースの再構成、形状対応推定、アニメーションといった様々なタスクに広く利用されている。 その鍵となる強みは、表面の変化を形に分解し、依存する成分を配置する能力である。 このようなモデルを学ぶには、多くの専門家の知識と手定義のオブジェクト固有の制約が必要です。 本稿では,教師なし設定で不連続な形状やポーズ表現を学ぶための,単純かつ効果的な手法を提案する。 自己整合性と相互整合性の制約を組み合わせて、登録メッシュからポーズと空間の形状を学ぶ。 さらに, 変形性変形(ARAP)をトレーニングループに組み込んで, 退化解の回避を図る。 ポーズ転送や形状検索などのタスクを通じて,学習した表現の有用性を示す。 3d人間、顔、手、動物のデータセットに関する実験は、我々のアプローチの汎用性を示しています。 コードはhttps://virtualhumans.mpi-inf.mpg.de/unsup_shape_pose/で入手できる。

Parametric models of humans, faces, hands and animals have been widely used for a range of tasks such as image-based reconstruction, shape correspondence estimation, and animation. Their key strength is the ability to factor surface variations into shape and pose dependent components. Learning such models requires lots of expert knowledge and hand-defined object-specific constraints, making the learning approach unscalable to novel objects. In this paper, we present a simple yet effective approach to learn disentangled shape and pose representations in an unsupervised setting. We use a combination of self-consistency and cross-consistency constraints to learn pose and shape space from registered meshes. We additionally incorporate as-rigid-as-possible deformation(ARAP) into the training loop to avoid degenerate solutions. We demonstrate the usefulness of learned representations through a number of tasks including pose transfer and shape retrieval. The experiments on datasets of 3D humans, faces, hands and animals demonstrate the generality of our approach. Code is made available at https://virtualhumans.mpi-inf.mpg.de/unsup_shape_pose/.
翻訳日:2022-11-07 22:57:50 公開日:2020-07-22
# 心臓mriセグメンテーションのための学習方向特徴マップ

Learning Directional Feature Maps for Cardiac MRI Segmentation ( http://arxiv.org/abs/2007.11349v1 )

ライセンス: Link先を確認
Feng Cheng, Cheng Chen, Yukang Wang, Heshui Shi, Yukun Cao, Dandan Tu, Changzheng Zhang, Yongchao Xu(参考訳) 心臓MRIのセグメンテーションは、パーソナライズされた心機能パラメータを評価する臨床診断において重要な役割を担っている。 心臓MRIにおける不明瞭な境界と不均一な強度分布のため、既存の方法の多くは、クラス間不一致とクラス内不整合の2つの課題に悩まされている。 これら2つの問題に対処するために,クラス間の差異とクラス内の類似性を同時に強化する指向性特徴写像を利用する新しい手法を提案する。 具体的には, 心的セグメンテーションを行い, 最寄りの心組織境界から各ピクセルへの方向フィールド(DF)モジュールを介して方向フィールドを学習する。 次に,学習方向場に基づいて,特徴整流・融合(frf)モジュールを提案し,元のセグメンテーション機能を改善し,最終セグメンテーションを得る。 提案するモジュールは単純だが有効であり、時間と空間の複雑さを過度に増大させることなく既存のセグメンテーションネットワークに柔軟に追加することができる。 提案手法は,2017 MICCAI Automated Cardiac Diagnosis Challenge (ACDC)データセットと大規模自己収集データセットを用いて評価し,提案手法のセグメンテーション性能と堅牢な一般化能力を示す。

Cardiac MRI segmentation plays a crucial role in clinical diagnosis for evaluating personalized cardiac performance parameters. Due to the indistinct boundaries and heterogeneous intensity distributions in the cardiac MRI, most existing methods still suffer from two aspects of challenges: inter-class indistinction and intra-class inconsistency. To tackle these two problems, we propose a novel method to exploit the directional feature maps, which can simultaneously strengthen the differences between classes and the similarities within classes. Specifically, we perform cardiac segmentation and learn a direction field pointing away from the nearest cardiac tissue boundary to each pixel via a direction field (DF) module. Based on the learned direction field, we then propose a feature rectification and fusion (FRF) module to improve the original segmentation features, and obtain the final segmentation. The proposed modules are simple yet effective and can be flexibly added to any existing segmentation network without excessively increasing time and space complexity. We evaluate the proposed method on the 2017 MICCAI Automated Cardiac Diagnosis Challenge (ACDC) dataset and a large-scale self-collected dataset, showing good segmentation performance and robust generalization ability of the proposed method.
翻訳日:2022-11-07 22:57:34 公開日:2020-07-22
# 教師学習による緑内障分類のための未診断データの活用

Leveraging Undiagnosed Data for Glaucoma Classification with Teacher-Student Learning ( http://arxiv.org/abs/2007.11355v1 )

ライセンス: Link先を確認
Junde Wu, Shuang Yu, Wenting Chen, Kai Ma, Rao Fu, Hanruo Liu, Xiaoguang Di and Yefeng Zheng(参考訳) 近年,ヒトに匹敵する性能を有する緑内障分類課題に深層学習が採用されている。 しかし、高度に訓練されたディープラーニングモデルでは、適切にラベル付けされたデータを大量に要求するが、緑内障の正確なラベル付けには長年の専門訓練が必要であるため、比較的高価である。 この問題を軽減するために,適切なラベル付き画像だけでなく,緑内障ラベルのない未診断画像を利用した緑内障分類フレームワークを提案する。 より具体的には、提案フレームワークは教師-学生-学習パラダイムから適応される。 教師モデルは未診断画像の包み込み情報を潜在特徴空間に符号化し,生徒モデルは知識伝達を通じて教師から学習し,緑内障分類を改善する。 モデル学習手順として,「Learning To Teach with Knowledge Transfer (L2T-KT)」と称される実世界の教育実践をシミュレートし,教師の最適化目標として「Quiz Pool」を確立する新しい学習手法を提案する。 提案手法は,未診断データを効果的に活用し,緑内障予知性能を向上できることを示す。

Recently, deep learning has been adopted to the glaucoma classification task with performance comparable to that of human experts. However, a well trained deep learning model demands a large quantity of properly labeled data, which is relatively expensive since the accurate labeling of glaucoma requires years of specialist training. In order to alleviate this problem, we propose a glaucoma classification framework which takes advantage of not only the properly labeled images, but also undiagnosed images without glaucoma labels. To be more specific, the proposed framework is adapted from the teacher-student-learning paradigm. The teacher model encodes the wrapped information of undiagnosed images to a latent feature space, meanwhile the student model learns from the teacher through knowledge transfer to improve the glaucoma classification. For the model training procedure, we propose a novel training strategy that simulates the real-world teaching practice named as 'Learning To Teach with Knowledge Transfer (L2T-KT)', and establish a 'Quiz Pool' as the teacher's optimization target. Experiments show that the proposed framework is able to utilize the undiagnosed data effectively to improve the glaucoma prediction performance.
翻訳日:2022-11-07 22:57:14 公開日:2020-07-22
# 人間中心型非教師付きセグメンテーション核融合

Human-Centered Unsupervised Segmentation Fusion ( http://arxiv.org/abs/2007.11361v1 )

ライセンス: Link先を確認
Gregor Koporec and Janez Per\v{s}(参考訳) セグメンテーションは、複数の解が生じるため、一般的に不適切な問題であり、アルゴリズムを評価するための基底真理データを定義することは困難である。 画像ごとのアノテータを1つだけ使うことで、この問題は自然に克服できるが、そのような取得は、大多数の人々のイメージの認知的認識を表すものではない。 現在、クラウドソーシングによる複数のセグメンテーションを取得することは難しくないので、残る唯一の問題は、画像ごとに1つの真理セグメンテーションを得る方法である。 既に多くのアルゴリズム解が存在するが、ほとんどの手法は教師されるか、あるいは人間のセグメンテーションごとの信頼を考慮しない。 本稿では,K-Modesクラスタリングに基づく新しいセグメンテーション融合モデルを提案する。 人的真実セグメントを用いた公開データセットから得られた結果は、我々のモデルが人間のセグメンテーションの最先端よりも優れていることを示している。

Segmentation is generally an ill-posed problem since it results in multiple solutions and is, therefore, hard to define ground truth data to evaluate algorithms. The problem can be naively surpassed by using only one annotator per image, but such acquisition doesn't represent the cognitive perception of an image by the majority of people. Nowadays, it is not difficult to obtain multiple segmentations with crowdsourcing, so the only problem that stays is how to get one ground truth segmentation per image. There already exist numerous algorithmic solutions, but most methods are supervised or don't consider confidence per human segmentation. In this paper, we introduce a new segmentation fusion model that is based on K-Modes clustering. Results obtained from publicly available datasets with human ground truth segmentations clearly show that our model outperforms the state-of-the-art on human segmentations.
翻訳日:2022-11-07 22:56:56 公開日:2020-07-22
# ヒト行動認識のための深部時空間STFT畳み込みニューラルネットワーク

Depthwise Spatio-Temporal STFT Convolutional Neural Networks for Human Action Recognition ( http://arxiv.org/abs/2007.11365v1 )

ライセンス: Link先を確認
Sudhakar Kumawat, Manisha Verma, Yuta Nakashima, and Shanmuganathan Raman(参考訳) 従来の3d畳み込みニューラルネットワーク(cnns)は計算コストが高く、メモリ集約性が高く、過剰に適合しがちであり、最も重要なのは、機能学習能力を改善する必要があることだ。 これらの問題に対処するため,我々は3d畳み込み層とその変種を3d cnnで置き換えることのできる新しい畳み込みブロックであるstft(spatio-temporal short term fourier transform)ブロックを提案する。 STFTブロックは、複数の低周波数ポイントでSTFTカーネルを使用して空間的および/または時間的に局所的なフーリエ情報をキャプチャする非トレーニング可能な畳み込み層と、チャネル相関を学習するためのトレーニング可能な線形重みのセットから構成される。 STFTブロックは3次元CNNの時空間複雑性を著しく低減する。 一般的には3.5倍から4.5倍のパラメータと1.5倍から1.8倍の計算コストを使用する。 さらに、それらの特徴学習能力は従来の3D畳み込み層とその変種よりも大幅に優れている。 Some-something v1, v2, Jester, Diving-48, Kinetics-400, UCF 101, HMDB 51を含む7つの行動認識データセットについて,STFTブロックをベースとした3D CNNが,最先端の手法と比較して同等あるいはそれ以上の性能を発揮することを示す。

Conventional 3D convolutional neural networks (CNNs) are computationally expensive, memory intensive, prone to overfitting, and most importantly, there is a need to improve their feature learning capabilities. To address these issues, we propose spatio-temporal short term Fourier transform (STFT) blocks, a new class of convolutional blocks that can serve as an alternative to the 3D convolutional layer and its variants in 3D CNNs. An STFT block consists of non-trainable convolution layers that capture spatially and/or temporally local Fourier information using a STFT kernel at multiple low frequency points, followed by a set of trainable linear weights for learning channel correlations. The STFT blocks significantly reduce the space-time complexity in 3D CNNs. In general, they use 3.5 to 4.5 times less parameters and 1.5 to 1.8 times less computational costs when compared to the state-of-the-art methods. Furthermore, their feature learning capabilities are significantly better than the conventional 3D convolutional layer and its variants. Our extensive evaluation on seven action recognition datasets, including Something-something v1 and v2, Jester, Diving-48, Kinetics-400, UCF 101, and HMDB 51, demonstrate that STFT blocks based 3D CNNs achieve on par or even better performance compared to the state-of-the-art methods.
翻訳日:2022-11-07 22:56:40 公開日:2020-07-22
# マルチチャネル畳み込みニューラルネットワークを用いた顔提示攻撃検出のための一クラス表現の学習

Learning One Class Representations for Face Presentation Attack Detection using Multi-channel Convolutional Neural Networks ( http://arxiv.org/abs/2007.11457v1 )

ライセンス: Link先を確認
Anjith George and Sebastien Marcel(参考訳) 顔認識は、広く使われているバイオメトリックモダリティとして進化してきた。 しかし、プレゼンテーション攻撃に対する脆弱性は、重大なセキュリティ上の脅威をもたらす。 プレゼンテーションアタック検出(pad)メソッドはこの問題に対処しようとするが、しばしば認識されないアタックの一般化に失敗する。 本研究では,その表現をMCCNN(Multi-Channel Convolutional Neural Network)を用いて学習する一クラス分類器を用いたPADの新しいフレームワークを提案する。 新たな損失関数が導入されたため、ネットワークは攻撃の表現から遠ざかって、ボナフィドクラスのコンパクトな埋め込みを学習せざるを得なくなった。 PADタスクのこれらの埋め込みの上に、一級ガウス混合モデルが使用されます。 提案フレームワークは,ボナフィドおよび(既知の)攻撃クラスから堅牢なPADシステムを学習するための新しいアプローチを導入する。 特に重要なのは、ボナフィドのデータ収集と単純な攻撃は、様々な高価な攻撃を集めるよりもはるかに容易である。 提案システムは,多種多様な2Dおよび3D攻撃を含むWMCA多チャンネル顔PADデータベース上で評価を行う。 さらに、RGBチャネルのみを用いて、MLFPおよびSiW-Mデータセットを用いて実験を行った。 未知の攻撃プロトコルにおける上位性能は,提案手法の有効性を示す。 結果を再現するためのソフトウェア、データ、プロトコルが公開されている。

Face recognition has evolved as a widely used biometric modality. However, its vulnerability against presentation attacks poses a significant security threat. Though presentation attack detection (PAD) methods try to address this issue, they often fail in generalizing to unseen attacks. In this work, we propose a new framework for PAD using a one-class classifier, where the representation used is learned with a Multi-Channel Convolutional Neural Network (MCCNN). A novel loss function is introduced, which forces the network to learn a compact embedding for bonafide class while being far from the representation of attacks. A one-class Gaussian Mixture Model is used on top of these embeddings for the PAD task. The proposed framework introduces a novel approach to learn a robust PAD system from bonafide and available (known) attack classes. This is particularly important as collecting bonafide data and simpler attacks are much easier than collecting a wide variety of expensive attacks. The proposed system is evaluated on the publicly available WMCA multi-channel face PAD database, which contains a wide variety of 2D and 3D attacks. Further, we have performed experiments with MLFP and SiW-M datasets using RGB channels only. Superior performance in unseen attack protocols shows the effectiveness of the proposed approach. Software, data, and protocols to reproduce the results are made available publicly.
翻訳日:2022-11-07 22:55:49 公開日:2020-07-22
# 顔提示攻撃検出のための深部モデルと短波赤外情報

Deep Models and Shortwave Infrared Information to Detect Face Presentation Attacks ( http://arxiv.org/abs/2007.11469v1 )

ライセンス: Link先を確認
Guillaume Heusch and Anjith George and David Geissbuhler and Zohreh Mostaani and Sebastien Marcel(参考訳) 本稿では,異なる画像モダリティを用いた顔提示攻撃検出の問題に対処する。 特に、短波赤外画像(SWIR)の使用について考察する。 SWIR画像差分のみを入力として、畳み込みニューラルネットワークに基づく最近のモデルを用いて顔提示攻撃検出を行う。 導電性実験は、色画像または異なるモード(可視、NIR、熱、深さ)の組み合わせに作用する類似モデルや、SWIR画像の違いに作用するSVMベースの分類器よりも優れた性能を示す。 実験は、新しいパブリックで自由に利用可能なデータベース上で行われ、さまざまな攻撃を含む。 いくつかのセンサーによって、可視光、NIR、SWIR、熱スペクトルの14の異なるストリームと深度データによって、ビデオシーケンスが記録されている。 提案する最善のアプローチは、ボナフィドの分類エラーを低く抑えつつ、すべての偽装攻撃をほぼ完全に検出できる。 一方,得られた結果は,難読化攻撃の方が検出が困難であることを示している。 提案するデータベースは,この課題に対する研究の促進を期待する。 最後に、提示された実験を再現するためのコードと指示はすべて、研究コミュニティで利用可能である。

This paper addresses the problem of face presentation attack detection using different image modalities. In particular, the usage of short wave infrared (SWIR) imaging is considered. Face presentation attack detection is performed using recent models based on Convolutional Neural Networks using only carefully selected SWIR image differences as input. Conducted experiments show superior performance over similar models acting on either color images or on a combination of different modalities (visible, NIR, thermal and depth), as well as on a SVM-based classifier acting on SWIR image differences. Experiments have been carried on a new public and freely available database, containing a wide variety of attacks. Video sequences have been recorded thanks to several sensors resulting in 14 different streams in the visible, NIR, SWIR and thermal spectra, as well as depth data. The best proposed approach is able to almost perfectly detect all impersonation attacks while ensuring low bonafide classification errors. On the other hand, obtained results show that obfuscation attacks are more difficult to detect. We hope that the proposed database will foster research on this challenging problem. Finally, all the code and instructions to reproduce presented experiments is made available to the research community.
翻訳日:2022-11-07 22:55:10 公開日:2020-07-22
# インスタンス認識型自己教師付き学習による核セグメンテーション

Instance-aware Self-supervised Learning for Nuclei Segmentation ( http://arxiv.org/abs/2007.11186v1 )

ライセンス: Link先を確認
Xinpeng Xie, Jiawei Chen, Yuexiang Li, Linlin Shen, Kai Ma and Yefeng Zheng(参考訳) 核の広範な存在と大きな形態的ばらつきのため、正確な核インスタンスのセグメンテーションは依然として計算病理学において最も困難なタスクである。 経験豊富な病理学者が手作業で輪郭を描く必要がある原子核のインスタンスの注釈は、非常に労力と費用がかかり、しばしば注釈付きデータの不足を招く。 トレーニングデータの量に大きく依存するディープラーニングベースのセグメンテーションアプローチでは,この領域での能力を完全に実証することは困難である。 本稿では,核インスタンス分割タスクにおいて広く利用されている畳み込みニューラルネットワーク(CNN)の能力を深く活用する,新しい自己教師型学習フレームワークを提案する。 提案手法は2つのサブタスク(すなわち、スケールワイド・トリプルト・ラーニングとカウント・ランキング)を伴い、ニューラルネットワークは、核の大きさと量の事前知識を暗黙的に活用し、従って、生データからインスタンス認識特徴表現をマイニングする。 公開されているMoNuSegデータセットによる実験結果から,提案手法は核インスタンスのセグメンテーション精度を著しく向上させ,70.63%の新たな平均アグリゲートジャカード指数(AJI)を自己教師型ResUNet-101によって達成した。 私たちの知る限りでは、これはインスタンスセグメンテーションのための自己教師型学習に焦点を当てた最初の作品です。

Due to the wide existence and large morphological variances of nuclei, accurate nuclei instance segmentation is still one of the most challenging tasks in computational pathology. The annotating of nuclei instances, requiring experienced pathologists to manually draw the contours, is extremely laborious and expensive, which often results in the deficiency of annotated data. The deep learning based segmentation approaches, which highly rely on the quantity of training data, are difficult to fully demonstrate their capacity in this area. In this paper, we propose a novel self-supervised learning framework to deeply exploit the capacity of widely-used convolutional neural networks (CNNs) on the nuclei instance segmentation task. The proposed approach involves two sub-tasks (i.e., scale-wise triplet learning and count ranking), which enable neural networks to implicitly leverage the prior-knowledge of nuclei size and quantity, and accordingly mine the instance-aware feature representations from the raw data. Experimental results on the publicly available MoNuSeg dataset show that the proposed self-supervised learning approach can remarkably boost the segmentation accuracy of nuclei instance---a new state-of-the-art average Aggregated Jaccard Index (AJI) of 70.63%, is achieved by our self-supervised ResUNet-101. To our best knowledge, this is the first work focusing on the self-supervised learning for instance segmentation.
翻訳日:2022-11-07 22:48:22 公開日:2020-07-22
# エッジアウェアグラフ表現学習と顔解析のための推論

Edge-aware Graph Representation Learning and Reasoning for Face Parsing ( http://arxiv.org/abs/2007.11240v1 )

ライセンス: Link先を確認
Gusi Te, Yinglu Liu, Wei Hu, Hailin Shi, and Tao Mei(参考訳) 顔解析は、最近注目を集めている各顔コンポーネントにピクセル単位のラベルを推測する。 従来は顔解析における効率性を示してきたが, 異なる顔領域間の相関性を見落としている。 この相関は、顔の外観、ポーズ、表情などに関する重要な手がかりであり、顔のパーシングを考慮に入れるべきである。 そこで我々は,グラフ表現の学習による地域関係のモデル化と推論を行い,最適化された抽象化のために領域間のエッジ情報を活用することを提案する。 具体的には、同じ特徴を持つピクセル(領域)の集合が各頂点に投影されるグローバルグラフ表現に、顔画像を符号化する。 我々のモデルは、グラフ上の頂点にまたがる情報を伝播することにより、地域間の関係を学習し、理由付けする。 さらに,エッジ情報を取り込んで画素単位の特徴を頂点に集約し,エッジ近傍の特徴に着目し,エッジに沿って細かなセグメンテーションを行う。 最終的に学習されたグラフ表現は、解析のためにピクセルグリッドに投影される。 実験により、我々のモデルは広く使用されているHelenデータセット上で最先端の手法よりも優れており、大規模なCelebAMask-HQおよびLaPaデータセット上での優れたパフォーマンスを示している。 コードはhttps://github.com/tegusi/eagrnetで入手できる。

Face parsing infers a pixel-wise label to each facial component, which has drawn much attention recently. Previous methods have shown their efficiency in face parsing, which however overlook the correlation among different face regions. The correlation is a critical clue about the facial appearance, pose, expression etc., and should be taken into account for face parsing. To this end, we propose to model and reason the region-wise relations by learning graph representations, and leverage the edge information between regions for optimized abstraction. Specifically, we encode a facial image onto a global graph representation where a collection of pixels ("regions") with similar features are projected to each vertex. Our model learns and reasons over relations between the regions by propagating information across vertices on the graph. Furthermore, we incorporate the edge information to aggregate the pixel-wise features onto vertices, which emphasizes on the features around edges for fine segmentation along edges. The finally learned graph representation is projected back to pixel grids for parsing. Experiments demonstrate that our model outperforms state-of-the-art methods on the widely used Helen dataset, and also exhibits the superior performance on the large-scale CelebAMask-HQ and LaPa dataset. The code is available at https://github.com/tegusi/EAGRNet.
翻訳日:2022-11-07 22:47:52 公開日:2020-07-22
# Fragments-Expert:ファイルフラグの分類のためのグラフィカルユーザインタフェースMATLABツールボックス

Fragments-Expert: A Graphical User Interface MATLAB Toolbox for Classification of File Fragments ( http://arxiv.org/abs/2007.11246v1 )

ライセンス: Link先を確認
Mehdi Teimouri, Zahra Seyedghorban, Fatemeh Amirjani(参考訳) 様々なファイルフォーマットのファイルフラグメントの分類は、ファイアウォール、侵入検知システム、アンチウイルス、webコンテンツフィルタリング、デジタル法医学といった様々なアプリケーションにおいて不可欠なタスクである。 しかし、コミュニティには、ファイルフラグメントからの機能抽出と、さまざまなファイルフォーマットの分類を統合できる適切なソフトウェアツールが欠けている。 本稿では,ファイルフラグメントの分類のためのグラフィカルユーザインタフェースMATLABツールボックスであるFragments-Expertを提案する。 ファイルフラグメントから抽出された22のカテゴリの機能を提供する。 これらの機能は、さまざまなファイルフォーマットの分類タスクのために、機械学習アルゴリズムの7つのカテゴリで利用することができる。

The classification of file fragments of various file formats is an essential task in various applications such as firewalls, intrusion detection systems, anti-viruses, web content filtering, and digital forensics. However, the community lacks a suitable software tool that can integrate major methods for feature extraction from file fragments and classification among various file formats. In this paper, we present Fragments-Expert that is a graphical user interface MATLAB toolbox for the classification of file fragments. It provides users with 22 categories of features extracted from file fragments. These features can be employed by 7 categories of machine learning algorithms for the task of classification among various file formats.
翻訳日:2022-11-07 22:47:14 公開日:2020-07-22
# アクセス制御における多スペクトル顔バイオメトリックス

Multi-Spectral Facial Biometrics in Access Control ( http://arxiv.org/abs/2007.11318v1 )

ライセンス: Link先を確認
K. Lai, S. Samoil, and S.N.Yanushkevich(参考訳) 本研究では, rgb, depth, infraredなどのマルチスペクトルセンサを用いて顔バイオメトリックスが, 自動および半自動アクセスシステムのユーザを許可する過程におけるデータの蓄積をいかに支援するかを示す。 このデータは、顔の温度推定だけでなく、個人認証の目的にも役立ちます。 安価なrgb-dセンサを用いて被検者の頭部位置を推定する奥行きデータを利用する。 これにより、顔の認識と顔の温度の読み取りのためのフロントビューヘッドを含むビデオフレームの選択が可能になる。 前部ビューフレームの使用は顔認識の効率を向上させる一方、対応する同期irビデオフレームは、興味のある顔領域のより効率的な温度推定を可能にする。 さらに, バイオメトリックスのバイオメディカルおよびヘルスケアソリューションへの応用について報告する。 バイオメトリックデータの新しいセンサーと人間の生理的・行動的バイオメトリックスの新しい応用を含む最近のパイロットプロジェクトの調査を含む。 また、外科的コントロール、リハビリテーション、アクセシビリティのための自然および接触のないコントロールインターフェースにバイオメトリックスを使用するという、新しくて有望な展望を示す。

This study demonstrates how facial biometrics, acquired using multi-spectral sensors, such as RGB, depth, and infrared, assist the data accumulation in the process of authorizing users of automated and semi-automated access systems. This data serves the purposes of person authentication, as well as facial temperature estimation. We utilize depth data taken using an inexpensive RGB-D sensor to find the head pose of a subject. This allows the selection of video frames containing a frontal-view head pose for face recognition and face temperature reading. Usage of the frontal-view frames improves the efficiency of face recognition while the corresponding synchronized IR video frames allow for more efficient temperature estimation for facial regions of interest. In addition, this study reports emerging applications of biometrics in biomedical and health care solutions. Including surveys of recent pilot projects, involving new sensors of biometric data and new applications of human physiological and behavioral biometrics. It also shows the new and promising horizons of using biometrics in natural and contactless control interfaces for surgical control, rehabilitation and accessibility.
翻訳日:2022-11-07 22:46:37 公開日:2020-07-22
# e-Borderにおけるフェイスベースウォッチリストスクリーニングのリスク評価

Risk Assessment in the Face-based Watchlist Screening in e-Border ( http://arxiv.org/abs/2007.11323v1 )

ライセンス: Link先を確認
Kenneth Lai, Svetlana N. Yanushkevich, and Vlad Shmerko(参考訳) 本稿では,e-bordersにデプロイされる自動境界制御装置のコンポーネントとして,顔ベースのウォッチリスト技術について述べる。 ウォッチリスト技術の重要課題は、誤認と偽装の影響を緩和することである。 この問題に対処するために,トラベラーリスクアセスメントの新しいコストベースモデルを開発し,大規模顔データベースを用いた集中実験によりその効率を実証した。 本研究の結果は、ウォッチリスト技術で使用されるあらゆる生体計測モダリティに適用できる。

This paper concerns with facial-based watchlist technology as a component of automated border control machines deployed in e-borders. The key task of the watchlist technology is to mitigate effects of mis-identification and impersonation. To address this problem, we developed a novel cost-based model of traveler risk assessment and proved its efficiency via intensive experiments using large-scale facial databases. The results of this study are applicable to any biometric modality to be used in watchlist technology.
翻訳日:2022-11-07 22:46:20 公開日:2020-07-22
# マルチパラメトリックコストと相対エントロピーを用いたリストリスク評価

Watchlist Risk Assessment using Multiparametric Cost and Relative Entropy ( http://arxiv.org/abs/2007.11328v1 )

ライセンス: Link先を確認
K. Lai and S.N. Yanushkevich(参考訳) 本稿では,危険検知器が早期に脅威を検知し,無実の旅行者への攻撃を避けるための必須メカニズムである顔バイオメトリック対応ウォッチリスト技術について述べる。 リスク検知器として多パラメータコスト評価と相対エントロピー尺度を提案する。 我々は,様々なwatchlistスクリーニングシナリオと制約下での誤認と偽装の効果を実験的に実証する。 本論文の主な貢献は, 生体計測可能なウォッチリストと支援基盤の設計と解析のための新しい手法と, 電子ボーダー性能に対する擬人化の影響の測定である。

This paper addresses the facial biometric-enabled watchlist technology in which risk detectors are mandatory mechanisms for early detection of threats, as well as for avoiding offense to innocent travelers. We propose a multiparametric cost assessment and relative entropy measures as risk detectors. We experimentally demonstrate the effects of mis-identification and impersonation under various watchlist screening scenarios and constraints. The key contributions of this paper are the novel techniques for design and analysis of the biometric-enabled watchlist and the supporting infrastructure, as well as measuring the impersonation impact on e-border performance.
翻訳日:2022-11-07 22:46:12 公開日:2020-07-22
# 熱間圧延過程における金属変形予測の学習

Learning to predict metal deformations in hot-rolling processes ( http://arxiv.org/abs/2007.14471v1 )

ライセンス: Link先を確認
R. Omar Chavez-Garcia, Emian Furger, Samuele Kronauer, Christian Brianza, Marco Scarf\`o, Luca Diviani and Alessandro Giusti(参考訳) ホットローリング(Hot-rolling)は、入力ワークの一連の塑性変形を通じて所望の目標断面を有するワークを入力ワークから生成する金属成形工程であり、各変形は、特定の形状の対向ロールからなるスタンドによって生成される。 現在の実践では、与えられた最終断面を達成するのに必要な転がり列(すなわち、スタンドのシーケンスとロールの形状)は、以前の経験に基づいて専門家によって設計され、コストのかかる試行錯誤のプロセスで反復的に洗練される。 有限要素法シミュレーションは、このプロセスをより効率的にし、潜在的な圧延シーケンスをテストするために採用され、長いシミュレーション時間のコストで良好な精度を達成し、アプローチの実用化を制限している。 そこで本研究では,所定の形状を持つ一組のロールによる作品の変形を予測するための教師付き学習手法を提案し,そのモデルを補足材料として公開する,手続き的に生成されたFEMシミュレーションの大規模データセットに基づいて訓練する。 その結果得られた予測器はシミュレーションよりも4桁高速であり、平均jaccard類似度指数は0.972(シミュレーションによる基礎的真理)と0.925(実世界の計測された変形)となり、さらに予測器を用いた圧延シーケンスの自動計画についても予備結果を報告する。

Hot-rolling is a metal forming process that produces a workpiece with a desired target cross-section from an input workpiece through a sequence of plastic deformations; each deformation is generated by a stand composed of opposing rolls with a specific geometry. In current practice, the rolling sequence (i.e., the sequence of stands and the geometry of their rolls) needed to achieve a given final cross-section is designed by experts based on previous experience, and iteratively refined in a costly trial-and-error process. Finite Element Method simulations are increasingly adopted to make this process more efficient and to test potential rolling sequences, achieving good accuracy at the cost of long simulation times, limiting the practical use of the approach. We propose a supervised learning approach to predict the deformation of a given workpiece by a set of rolls with a given geometry; the model is trained on a large dataset of procedurally-generated FEM simulations, which we publish as supplementary material. The resulting predictor is four orders of magnitude faster than simulations, and yields an average Jaccard Similarity Index of 0.972 (against ground truth from simulations) and 0.925 (against real-world measured deformations); we additionally report preliminary results on using the predictor for automatic planning of rolling sequences.
翻訳日:2022-11-07 22:39:36 公開日:2020-07-22
# 遅かれ早かれ:ニューラル・クエスチョン・パラフローズ同定のための単語埋め込み付きトピックの融合

Better Early than Late: Fusing Topics with Word Embeddings for Neural Question Paraphrase Identification ( http://arxiv.org/abs/2007.11314v1 )

ライセンス: Link先を確認
Nicole Peinelt, Dong Nguyen and Maria Liakata(参考訳) 質問パラフレーズ識別は、コミュニティ質問応答(cqa)における重要なタスクであり、入力された質問が以前に質問されたかどうかを判断する。 現在のモデルの多くは単語の埋め込みを使って重複した質問を識別しているが、特徴工学的なシステムにおけるトピックモデルの使用は、このタスクにも役立つことを示唆している。 そこで我々は,質問パラフレーズ識別のための新しいニューラル・アーキテクチャにおいて,トピックと単語埋め込み(早期/後期融合)を融合する2つの方法を提案する。 その結果,本システムは複数のcqaデータセットのニューラルベースラインよりも優れており,一方,アブレーション研究ではトピックの重要性,特に初期のトピックエンベディング融合が強調されている。

Question paraphrase identification is a key task in Community Question Answering (CQA) to determine if an incoming question has been previously asked. Many current models use word embeddings to identify duplicate questions, but the use of topic models in feature-engineered systems suggests that they can be helpful for this task, too. We therefore propose two ways of merging topics with word embeddings (early vs. late fusion) in a new neural architecture for question paraphrase identification. Our results show that our system outperforms neural baselines on multiple CQA datasets, while an ablation study highlights the importance of topics and especially early topic-embedding fusion in our architecture.
翻訳日:2022-11-07 22:38:36 公開日:2020-07-22
# 弱スーパービジョンによる製品レビューの大量多文書要約

Massive Multi-Document Summarization of Product Reviews with Weak Supervision ( http://arxiv.org/abs/2007.11348v1 )

ライセンス: Link先を確認
Ori Shapira and Ran Levy(参考訳) 製品レビュー要約(Product Review summarization)とは、MDS(Multi-Document Summarization)タスクの一種で、要約されたドキュメントセットは、しばしば従来のMDSよりもはるかに大きい(最大数万のレビュー)。 我々はこの違いを強調し、数百以上の文書を含むMDSタスクを表すために"Massive Multi-Document Summarization"(MMDS)という用語を造語する。 製品レビューの要約に関する以前の研究は、レビューの小さなサンプルを考慮に入れていた。 小型サンプルを要約すると,重要な情報を失う可能性があり,誤解を招く評価結果が得られる。 本稿では,標準要約アルゴリズム上に大量のレビュー集合を要約するためのスキーマを提案する。 高度なニューラルネットワークモデルに必要な大量の参照サマリーを書くことは現実的ではないため、我々のソリューションは弱い監督に依存している。 最後に,クラウドソーシングされた複数の参照要約をベースとした評価手法を提案する。 ROUGEスコアのいくつかのベースラインに対して,スキーマの初期実装が大幅に向上し,手動による言語品質評価において強い一貫性を示すことを示す。

Product reviews summarization is a type of Multi-Document Summarization (MDS) task in which the summarized document sets are often far larger than in traditional MDS (up to tens of thousands of reviews). We highlight this difference and coin the term "Massive Multi-Document Summarization" (MMDS) to denote an MDS task that involves hundreds of documents or more. Prior work on product reviews summarization considered small samples of the reviews, mainly due to the difficulty of handling massive document sets. We show that summarizing small samples can result in loss of important information and provide misleading evaluation results. We propose a schema for summarizing a massive set of reviews on top of a standard summarization algorithm. Since writing large volumes of reference summaries needed for advanced neural network models is impractical, our solution relies on weak supervision. Finally, we propose an evaluation scheme that is based on multiple crowdsourced reference summaries and aims to capture the massive review collection. We show that an initial implementation of our schema significantly improves over several baselines in ROUGE scores, and exhibits strong coherence in a manual linguistic quality assessment.
翻訳日:2022-11-07 22:38:24 公開日:2020-07-22
# 動詞のマルチワード表現であるかどうか:特徴を識別するクエスト

To Be or Not To Be a Verbal Multiword Expression: A Quest for Discriminating Features ( http://arxiv.org/abs/2007.11381v1 )

ライセンス: Link先を確認
Caroline Pasquer (1), Agata Savary (1), Jean-Yves Antoine (1), Carlos Ramisch (2), Nicolas Labroche (1), Arnaud Giacometti (1) ((1) University of Tours, France, (2) Aix Marseille Univ, Universit\'e de Toulon, CNRS, LIS, Marseille, France)(参考訳) mutiword expression (mwes) の自動識別は、セマンティック指向の下流アプリケーションのための前提条件である。 MWE、特にVMWE(英語版)は表面的変動を示すため、この課題は困難である。 しかしながら、この変数は通常、通常の(非VMWE)構造よりも制限され、様々な変数プロファイルをもたらす。 この事実を利用して、教師付き分類設定で使用可能な特徴の最適セットを決定し、VMWE識別のサブプロブレム、すなわち、以前に見られたVMWEの発生の識別を解決する。 驚いたことに、単純な周波数ベースの特徴選択法は、Chi-squaredテストや情報ゲイン、決定木といった他の標準手法よりも効率的である。 6つの機能しか持たない最適セットを用いたSVM分類器は、フランスで見られるデータに対する最近の共有タスクから最高のシステムより優れている。

Automatic identification of mutiword expressions (MWEs) is a pre-requisite for semantically-oriented downstream applications. This task is challenging because MWEs, especially verbal ones (VMWEs), exhibit surface variability. However, this variability is usually more restricted than in regular (non-VMWE) constructions, which leads to various variability profiles. We use this fact to determine the optimal set of features which could be used in a supervised classification setting to solve a subproblem of VMWE identification: the identification of occurrences of previously seen VMWEs. Surprisingly, a simple custom frequency-based feature selection method proves more efficient than other standard methods such as Chi-squared test, information gain or decision trees. An SVM classifier using the optimal set of only 6 features outperforms the best systems from a recent shared task on the French seen data.
翻訳日:2022-11-07 22:38:05 公開日:2020-07-22
# キャラクタベース言語モデルにおける言語関連性が言語間伝達学習に及ぼす影響

Effects of Language Relatedness for Cross-lingual Transfer Learning in Character-Based Language Models ( http://arxiv.org/abs/2007.11648v1 )

ライセンス: Link先を確認
Mittul Singh, Peter Smit, Sami Virpioja, Mikko Kurimo(参考訳) 文字ベースニューラルネットワークモデル(NNLM)は,複数文字単位に基づくNNLMと比較して,語彙が小さく,訓練時間も速いという利点がある。 しかし、低リソースのシナリオでは、キャラクタとマルチキャラクタNNLMの両方がデータの分散に悩まされる。 このようなシナリオでは、ソースからターゲット言語への情報転送を可能にすることで、マルチ文字NNLMの性能が向上した。 そこで本研究では,低リソース自動音声認識(asr)に適用される文字nnlmの言語間変換について提案する。 しかし、文字NNLMへの言語間移動の適用はそれほど簡単ではない。 NNLMの言語間事前学習において,ソース言語の関連性は重要な役割を果たす。 フィンランド語(英語とエストニア語をソースとする)とスウェーデン語(デンマーク語、ノルウェー語、英語をソースとする)である。 従来の研究では、マルチ文字NNLMの関連言語と非関連言語の違いはみられなかった。 しかし、文字ベースのNNLMでは、関連する言語で事前学習するだけで、ASRの性能が向上し、非関連言語の使用が劣化する可能性があることを示す。 また、ソースデータよりもターゲットデータが少ない場合、メリットが大きいことも確認しています。

Character-based Neural Network Language Models (NNLM) have the advantage of smaller vocabulary and thus faster training times in comparison to NNLMs based on multi-character units. However, in low-resource scenarios, both the character and multi-character NNLMs suffer from data sparsity. In such scenarios, cross-lingual transfer has improved multi-character NNLM performance by allowing information transfer from a source to the target language. In the same vein, we propose to use cross-lingual transfer for character NNLMs applied to low-resource Automatic Speech Recognition (ASR). However, applying cross-lingual transfer to character NNLMs is not as straightforward. We observe that relatedness of the source language plays an important role in cross-lingual pretraining of character NNLMs. We evaluate this aspect on ASR tasks for two target languages: Finnish (with English and Estonian as source) and Swedish (with Danish, Norwegian, and English as source). Prior work has observed no difference between using the related or unrelated language for multi-character NNLMs. We, however, show that for character-based NNLMs, only pretraining with a related language improves the ASR performance, and using an unrelated language may deteriorate it. We also observe that the benefits are larger when there is much lesser target data than source data.
翻訳日:2022-11-07 22:37:39 公開日:2020-07-22
# FLOT: 最適輸送法で導かれた点雲のシーンフロー

FLOT: Scene Flow on Point Clouds Guided by Optimal Transport ( http://arxiv.org/abs/2007.11142v1 )

ライセンス: Link先を確認
Gilles Puy and Alexandre Boulch and Renaud Marlet(参考訳) 本稿では,点雲上のシーンフローを推定するFLOT法を提案する。 FLOTの設計は、点雲のシーンフロー推定が完璧世界における置換行列の推定に還元されることに気付き始めます。 グラフマッチングに関する最近の研究に触発されて、最適な輸送手段からツールを借りてこれらの対応を見つける方法を構築した。 そして,実世界の不完全性を考慮した輸送制約を緩和する。 2点間の移動コストは、合成データセットを用いた完全な監視下で訓練されたニューラルネットワークによって抽出された深い特徴のペアワイズ類似性によって与えられる。 主な発見は、flotは、合成および実世界のデータセット上で最善のメソッドと同様に、パラメータをはるかに少なくし、マルチスケール分析を使わずに実行できることです。 2つ目の発見は、トレーニングデータセットを考慮すると、ほとんどのパフォーマンスは、学習したトランスポートコストによって説明できるということです。 これによりより単純な FLOT$_0$ が得られ、これは最適な輸送パラメータの選択によって得られる。

We propose and study a method called FLOT that estimates scene flow on point clouds. We start the design of FLOT by noticing that scene flow estimation on point clouds reduces to estimating a permutation matrix in a perfect world. Inspired by recent works on graph matching, we build a method to find these correspondences by borrowing tools from optimal transport. Then, we relax the transport constraints to take into account real-world imperfections. The transport cost between two points is given by the pairwise similarity between deep features extracted by a neural network trained under full supervision using synthetic datasets. Our main finding is that FLOT can perform as well as the best existing methods on synthetic and real-world datasets while requiring much less parameters and without using multiscale analysis. Our second finding is that, on the training datasets considered, most of the performance can be explained by the learned transport cost. This yields a simpler method, FLOT$_0$, which is obtained using a particular choice of optimal transport parameters and performs nearly as well as FLOT.
翻訳日:2022-11-07 22:37:20 公開日:2020-07-22
# 構造認識と補足データセットの活用による単眼深度推定の改善

Improving Monocular Depth Estimation by Leveraging Structural Awareness and Complementary Datasets ( http://arxiv.org/abs/2007.11256v1 )

ライセンス: Link先を確認
Tian Chen, Shijie An, Yuan Zhang, Chongyang Ma, Huayan Wang, Xiaoyan Guo, and Wen Zheng(参考訳) 単眼深度推定は3次元認識と理解において重要な役割を果たす。 既存のアプローチの重要な制限の1つは、構造的情報活用の欠如であり、不正確な空間レイアウト、不連続な表面、曖昧な境界につながる。 本稿では,この問題を3つの側面から解決する。 まず,視覚特徴の空間的関係を利用するため,空間的注意ブロックを有する構造認識ニューラルネットワークを提案する。 これらのブロックは、ネットワークの注意を、さまざまな機能レイヤのグローバル構造や局所的な詳細に導く。 第2に,一様点対に対する大域的局所的相対損失を導入して,予測における空間的制約を増大させ,奥行き不連続領域における誤りに対するペナルティを明示的に増加させ,推定結果のシャープネスの維持に役立てる。 最後に, 先行手法の故障事例の分析に基づいて, 特殊な照明条件, 動的物体, 傾斜カメラアングルなど, 難易度の高いシーンの深度データセットを新たに収集する。 新しいデータセットはインフォームド・ラーニング・カリキュラムによって活用され、トレーニングサンプルを段階的に混合してさまざまなデータ分布を処理する。 実験の結果,nyudv2データセットの予測精度と未知データセットの一般化性能の両方において,最先端のアプローチを大差で上回った。

Monocular depth estimation plays a crucial role in 3D recognition and understanding. One key limitation of existing approaches lies in their lack of structural information exploitation, which leads to inaccurate spatial layout, discontinuous surface, and ambiguous boundaries. In this paper, we tackle this problem in three aspects. First, to exploit the spatial relationship of visual features, we propose a structure-aware neural network with spatial attention blocks. These blocks guide the network attention to global structures or local details across different feature layers. Second, we introduce a global focal relative loss for uniform point pairs to enhance spatial constraint in the prediction, and explicitly increase the penalty on errors in depth-wise discontinuous regions, which helps preserve the sharpness of estimation results. Finally, based on analysis of failure cases for prior methods, we collect a new Hard Case (HC) Depth dataset of challenging scenes, such as special lighting conditions, dynamic objects, and tilted camera angles. The new dataset is leveraged by an informed learning curriculum that mixes training examples incrementally to handle diverse data distributions. Experimental results show that our method outperforms state-of-the-art approaches by a large margin in terms of both prediction accuracy on NYUDv2 dataset and generalization performance on unseen datasets.
翻訳日:2022-11-07 22:30:52 公開日:2020-07-22
# deep-vfx: ショートビデオのためのディープアクション認識駆動vfx

Deep-VFX: Deep Action Recognition Driven VFX for Short Video ( http://arxiv.org/abs/2007.11257v1 )

ライセンス: Link先を確認
Ao Luo, Ning Xie, Zhijia Tao, Feng Jiang(参考訳) 人間の動きは情報を伝える重要な機能である。 このアプリケーションでは、Tik Tokのようなショートフォームのモバイルビデオが世界中で人気がある。 ユーザはクリエイティビティとパーソナリティを追求するために、さらにvfxを追加したいと考えています。 ショートビデオプラットフォームに多くの特殊効果が追加されている。 これにより、ユーザーはこの個性を見せびらかすことができる。 一般的で伝統的な方法は、vfxのテンプレートを作成することです。 しかし、完璧を合成するためには、新しいテンプレートのタイミングとリズムを理解するのに面倒な努力をしなければならない。 特にモバイルアプリでは使いやすくない。 本稿では,従来のテンプレートマッチングの代わりに動作駆動によるVFX合成を変更することを目的とする。 本稿では,このVFX合成を改善するAI手法を提案する。 詳しくは、人体に特殊効果を加えるために。 このシステムでは骨格抽出が不可欠である。 また,行動認識によるユーザの意図の把握を目的としたLSTMの新たな形態を提案する。 実験により,ショートビデオ用vfxをより簡単かつ効率的に生成できることが判明した。

Human motion is a key function to communicate information. In the application, short-form mobile video is so popular all over the world such as Tik Tok. The users would like to add more VFX so as to pursue creativity and personlity. Many special effects are added on the short video platform. These gives the users more possibility to show off these personality. The common and traditional way is to create the template of VFX. However, in order to synthesis the perfect, the users have to tedious attempt to grasp the timing and rhythm of new templates. It is not easy-to-use especially for the mobile app. This paper aims to change the VFX synthesis by motion driven instead of the traditional template matching. We propose the AI method to improve this VFX synthesis. In detail, in order to add the special effect on the human body. The skeleton extraction is essential in this system. We also propose a novel form of LSTM to find out the user's intention by action recognition. The experiment shows that our system enables to generate VFX for short video more easier and efficient.
翻訳日:2022-11-07 22:30:28 公開日:2020-07-22
# 注意機構を有する特徴ベースシーケンス分類器

Feature based Sequential Classifier with Attention Mechanism ( http://arxiv.org/abs/2007.11392v1 )

ライセンス: Link先を確認
Sudhir Sornapudi, R. Joe Stanley, William V. Stoecker, Rodney Long, Zhiyun Xue, Rosemary Zuna, Shelliane R. Frazier, Sameer Antani(参考訳) 子宮頸癌は世界規模で女性に影響を及ぼす最も致命的な癌の1つである。 頸部生検スライドの病理組織学的検討を用いた頚椎上皮内腫瘍症(cin)の評価は,異物間変動の対象となる。 デジタル組織学スライドの自動処理は、正常なCINグレードをCIN1、CIN2、CIN3の順に分類する可能性がある。 子宮頸部疾患は一般的に底部(基膜)から上皮の上部まで進行していると理解されている。 この病気の重症度と異常の空間分布の関係をモデル化するため,ネットワークパイプラインであるDeepCINを提案し,局所垂直領域に着目して高分解能上皮画像(全スライディング画像から手動抽出)を階層的に解析し,局所情報を融合して正常/CIN分類を決定する。 パイプラインには2つの分類器ネットワークがある。 1) 横断的な垂直セグメントレベルのシーケンス生成装置(2段階エンコーダモデル)を、低監督を用いて訓練し、垂直セグメントから特徴系列を生成して、上皮画像データにおける底面と上部の特徴関係を保存する。 2)垂直セグメントシーケンスをマージして最終CINグレードを予測する注意型融合ネットワーク画像レベル分類器。 このモデルはCIN分類結果を生成し、CINグレード予測に対する垂直セグメントの寄与も決定する。 実験により、DeepCINは病理学レベルのCIN分類精度を達成することが示された。

Cervical cancer is one of the deadliest cancers affecting women globally. Cervical intraepithelial neoplasia (CIN) assessment using histopathological examination of cervical biopsy slides is subject to interobserver variability. Automated processing of digitized histopathology slides has the potential for more accurate classification for CIN grades from normal to increasing grades of pre-malignancy: CIN1, CIN2 and CIN3. Cervix disease is generally understood to progress from the bottom (basement membrane) to the top of the epithelium. To model this relationship of disease severity to spatial distribution of abnormalities, we propose a network pipeline, DeepCIN, to analyze high-resolution epithelium images (manually extracted from whole-slide images) hierarchically by focusing on localized vertical regions and fusing this local information for determining Normal/CIN classification. The pipeline contains two classifier networks: 1) a cross-sectional, vertical segment-level sequence generator (two-stage encoder model) is trained using weak supervision to generate feature sequences from the vertical segments to preserve the bottom-to-top feature relationships in the epithelium image data; 2) an attention-based fusion network image-level classifier predicting the final CIN grade by merging vertical segment sequences. The model produces the CIN classification results and also determines the vertical segment contributions to CIN grade prediction. Experiments show that DeepCIN achieves pathologist-level CIN classification accuracy.
翻訳日:2022-11-07 22:30:15 公開日:2020-07-22
# 注意に基づくマルチインスタンス学習による血液細胞障害の分類

Attention based Multiple Instance Learning for Classification of Blood Cell Disorders ( http://arxiv.org/abs/2007.11641v1 )

ライセンス: Link先を確認
Ario Sadafi, Asya Makhro, Anna Bogdanova, Nassir Navab, Tingying Peng, Shadi Albarqouni, Carsten Marr(参考訳) 赤血球は高度に変形し、様々な形をしている。 血液細胞障害では、全ての細胞のサブセットのみが形態学的に変化し、診断に関係している。 しかし、すべての細胞を手動でラベル付けすることは難しく、複雑であり、専門家間の多様性をもたらす。 そこで本研究では,血液細胞障害患者の血液サンプルを分類するマルチインスタンス学習法を提案する。 R-CNNアーキテクチャを用いて細胞を検出する。 各細胞の特徴を抽出した複数のインスタンス学習方法は、患者サンプルを4つの血液疾患のうち1つに分類する。 注意機構は、各セルの全体的な分類への貢献度を測定し、ネットワークの分類精度と医療専門家に対する解釈可能性を大幅に改善する。

Red blood cells are highly deformable and present in various shapes. In blood cell disorders, only a subset of all cells is morphologically altered and relevant for the diagnosis. However, manually labeling of all cells is laborious, complicated and introduces inter-expert variability. We propose an attention based multiple instance learning method to classify blood samples of patients suffering from blood cell disorders. Cells are detected using an R-CNN architecture. With the features extracted for each cell, a multiple instance learning method classifies patient samples into one out of four blood cell disorders. The attention mechanism provides a measure of the contribution of each cell to the overall classification and significantly improves the network's classification accuracy as well as its interpretability for the medical expert.
翻訳日:2022-11-07 22:28:56 公開日:2020-07-22
# Darwinのニューラルネットワーク: 迅速でスケーラブルな細胞とコロナウイルススクリーニングのためのAIベースの戦略

Darwin's Neural Network: AI-based Strategies for Rapid and Scalable Cell and Coronavirus Screening ( http://arxiv.org/abs/2007.11653v1 )

ライセンス: Link先を確認
Sang Won Lee, Yueh-Ting Chiu, Philip Brudnicki, Audrey M. Bischoff, Angus Jelinek, Jenny Zijun Wang, Danielle R. Bogdanowicz, Andrew F. Laine, Jia Guo, and Helen H. Lu(参考訳) 機械知覚、コンピュータビジョン、生物医学工学の学際的分野における最近の進歩は、顕微鏡やナノスコープ画像の内容の解読能力を持つ機械学習アルゴリズムのコレクションを基礎としている。 機械学習アルゴリズムは、顕微鏡およびナノスコープイメージングデータの解釈と解析を、生物学的イメージングモードと併用して変換している。 これらの進歩により、研究者は以前計算不可能と考えられていたリアルタイム実験を行うことができる。 そこで我々は,コンピュータビジョンと機械知覚の分野における適合性理論を応用し,多クラスインスタンスセグメンテーション深層学習の新たな枠組みであるDarwin's Neural Network(DNN)を導入し,in vitroおよびin vitroで収集したCOVID19およびMERS-CoVの形態計測分析および分類を行う。

Recent advances in the interdisciplinary scientific field of machine perception, computer vision, and biomedical engineering underpin a collection of machine learning algorithms with a remarkable ability to decipher the contents of microscope and nanoscope images. Machine learning algorithms are transforming the interpretation and analysis of microscope and nanoscope imaging data through use in conjunction with biological imaging modalities. These advances are enabling researchers to carry out real-time experiments that were previously thought to be computationally impossible. Here we adapt the theory of survival of the fittest in the field of computer vision and machine perception to introduce a new framework of multi-class instance segmentation deep learning, Darwin's Neural Network (DNN), to carry out morphometric analysis and classification of COVID19 and MERS-CoV collected in vivo and of multiple mammalian cell types in vitro.
翻訳日:2022-11-07 22:28:46 公開日:2020-07-22
# 放射線治療のための深層学習による脳病変の分離

Deep Learning Based Segmentation of Various Brain Lesions for Radiosurgery ( http://arxiv.org/abs/2007.11784v1 )

ライセンス: Link先を確認
Siang-Ruei Wu, Hao-Yun Chang, Florence T Su, Heng-Chun Liao, Wanju Tseng, Chun-Chih Liao, Feipei Lai, Feng-Ming Hsu, Furen Xiao(参考訳) 深層学習モデルを用いた医用画像のセマンティックセグメンテーションが急速に進んでいる。 本研究では,我々の臨床立体的ラジオサージリーデータセットに最先端のディープラーニングセグメンテーションアルゴリズムをベンチマークし,このアルゴリズムの長所と短所をかなり実用的なシナリオで実証した。 特に,サンプル手法,モデルアーキテクチャ,損失関数の選択に関するモデル性能を比較し,アプリケーションに適した設定を特定し,改善の可能性に光を当てた。

Semantic segmentation of medical images with deep learning models is rapidly developed. In this study, we benchmarked state-of-the-art deep learning segmentation algorithms on our clinical stereotactic radiosurgery dataset, demonstrating the strengths and weaknesses of these algorithms in a fairly practical scenario. In particular, we compared the model performances with respect to their sampling method, model architecture, and the choice of loss functions, identifying the suitable settings for their applications and shedding light on the possible improvements.
翻訳日:2022-11-07 22:28:15 公開日:2020-07-22
# Endo-Sim2Real: 楽器セグメンテーションのための一貫性学習に基づくドメイン適応

Endo-Sim2Real: Consistency learning-based domain adaptation for instrument segmentation ( http://arxiv.org/abs/2007.11514v1 )

ライセンス: Link先を確認
Manish Sahu, Ronja Str\"omsd\"orfer, Anirban Mukhopadhyay, and Stefan Zachow(参考訳) 内視鏡ビデオにおける手術用ツールのセグメンテーションは,コンピュータ支援介入システムの重要な構成要素である。 完全教師付きディープラーニングアプローチを用いた画像ベースソリューションの最近の成功は、大きなラベル付きデータセットの収集によるものである。 しかし、実際のビデオの巨大なデータセットのアノテーションは、非常に高価で時間がかかります。 計算機シミュレーションは手動ラベリング問題を緩和するが、シミュレーションデータで訓練されたモデルは実際のデータに一般化しない。 本研究は,シミュレーションおよび実(ラベルなし)内視鏡データの協調学習のための一貫性に基づくフレームワークを提案する。 2つのデータセット(Cholec80とEndoVis'15データセットの15の動画)の実証結果から,楽器セグメンテーションにおけるemph{Endo-Sim2Real}法の有効性が明らかになった。 提案手法のセグメンテーションを最先端のソリューションと比較し,提案手法が品質と量の両方においてセグメンテーションを改善することを示す。

Surgical tool segmentation in endoscopic videos is an important component of computer assisted interventions systems. Recent success of image-based solutions using fully-supervised deep learning approaches can be attributed to the collection of big labeled datasets. However, the annotation of a big dataset of real videos can be prohibitively expensive and time consuming. Computer simulations could alleviate the manual labeling problem, however, models trained on simulated data do not generalize to real data. This work proposes a consistency-based framework for joint learning of simulated and real (unlabeled) endoscopic data to bridge this performance generalization issue. Empirical results on two data sets (15 videos of the Cholec80 and EndoVis'15 dataset) highlight the effectiveness of the proposed \emph{Endo-Sim2Real} method for instrument segmentation. We compare the segmentation of the proposed approach with state-of-the-art solutions and show that our method improves segmentation both in terms of quality and quantity.
翻訳日:2022-11-07 22:22:18 公開日:2020-07-22
# finsimタスクにおけるiitk:文脈自由および文脈化単語埋め込みによる金融領域におけるハイパーニム検出

IITK at the FinSim Task: Hypernym Detection in Financial Domain via Context-Free and Contextualized Word Embeddings ( http://arxiv.org/abs/2007.11201v1 )

ライセンス: Link先を確認
Vishal Keswani, Sakshi Singh, Ashutosh Modi(参考訳) 本稿では、金融分野における意味表現の学習に関するfinsim 2020の課題について述べる。 このタスクの目標は、財務用語を外部オントロジーにおいて最も関連するハイパーニム(またはトップレベル)概念に分類することである。 文脈依存語と文脈依存語の両方を解析に活用する。 当社のシステムは,コーパス(Financial Prospectus,英語)のスクラッチからトレーニングしたWord2vec埋め込みと,事前学習したBERT埋め込みをデプロイする。 テストデータセットをドメインルールに基づいて2つのサブセットに分割する。 ある部分集合では、教師なし距離測度を用いて用語を分類する。 2つ目の部分集合では、埋め込みの上にあるネイブベイズのような単純な教師付き分類器を使って最終的な予測を行う。 最後に、両方の結果を組み合わせます。 我々のシステムは、平均ランクと精度の両方に基づいて、第1位にランク付けします。

In this paper, we present our approaches for the FinSim 2020 shared task on "Learning Semantic Representations for the Financial Domain". The goal of this task is to classify financial terms into the most relevant hypernym (or top-level) concept in an external ontology. We leverage both context-dependent and context-independent word embeddings in our analysis. Our systems deploy Word2vec embeddings trained from scratch on the corpus (Financial Prospectus in English) along with pre-trained BERT embeddings. We divide the test dataset into two subsets based on a domain rule. For one subset, we use unsupervised distance measures to classify the term. For the second subset, we use simple supervised classifiers like Naive Bayes, on top of the embeddings, to arrive at a final prediction. Finally, we combine both the results. Our system ranks 1st based on both the metrics, i.e., mean rank and accuracy.
翻訳日:2022-11-07 22:21:43 公開日:2020-07-22
# ブラインド階層的デコンボリューション

Blind hierarchical deconvolution ( http://arxiv.org/abs/2007.11391v1 )

ライセンス: Link先を確認
Arttu Arjas, Lassi Roininen, Mikko J. Sillanp\"a\"a, Andreas Hauptmann(参考訳) デコンボリューション(deconvolution)は信号処理における基本的な逆問題であり、ノイズ測定から信号を取り出すための原型モデルである。 それでも、モデルベースの反転技術の大半は、正確な再構成を回復するために畳み込みカーネルの知識を必要とし、さらに信号の正則性に関する前提も必要である。 これらの制限を克服するために、畳み込みカーネルと先行長スケールをパラメットし、それを反転手順で共同で推定する。 提案するブラインド階層的デコンボリューションの枠組みは、正規性と未知のカーネルサイズによる関数の正確な再構成を可能にし、ハイパーパラメータを最適化やその他の未知数によって最初に推定した経験的ベイズ二段階法で効率的に解くことができる。

Deconvolution is a fundamental inverse problem in signal processing and the prototypical model for recovering a signal from its noisy measurement. Nevertheless, the majority of model-based inversion techniques require knowledge on the convolution kernel to recover an accurate reconstruction and additionally prior assumptions on the regularity of the signal are needed. To overcome these limitations, we parametrise the convolution kernel and prior length-scales, which are then jointly estimated in the inversion procedure. The proposed framework of blind hierarchical deconvolution enables accurate reconstructions of functions with varying regularity and unknown kernel size and can be solved efficiently with an empirical Bayes two-step procedure, where hyperparameters are first estimated by optimisation and other unknowns then by an analytical formula.
翻訳日:2022-11-07 22:20:48 公開日:2020-07-22
# 単純構造行列因子分解:スパース性に基づく同定可能性と確率的正解アルゴリズム

Simplex-Structured Matrix Factorization: Sparsity-based Identifiability and Provably Correct Algorithms ( http://arxiv.org/abs/2007.11446v1 )

ライセンス: Link先を確認
Maryam Abdolali, Nicolas Gillis(参考訳) 本稿では,非負行列分解の一般化であるSSMF(Simplex-structured matrix factorization)の同定可能性を保証する新しいアルゴリズムを提案する。 SSMFの識別可能性を提供する現在の最先端のアルゴリズムは、基礎ベクトルの凸内においてデータポイントを適切に分散させる十分な分散条件(SSC)に依存している。 提案アルゴリズムが一意的な分解を回復する条件は、ほとんどの場合、SSCよりもはるかに弱い。 次元が $d-1$ である基底ベクトルの凸包の各面に $d$ の点を付けるだけでよい。 鍵となるアイデアは、最も多くの点を含むファセットを抽出することである。 提案手法が合成データセットとハイパースペクトル画像に与える影響を概説し,SSCに高いノイズレベル,ランク欠陥行列,出力値,入力データを高い精度で処理できるため,最先端のSSMFアルゴリズムよりも優れていることを示す。

In this paper, we provide novel algorithms with identifiability guarantees for simplex-structured matrix factorization (SSMF), a generalization of nonnegative matrix factorization. Current state-of-the-art algorithms that provide identifiability results for SSMF rely on the sufficiently scattered condition (SSC) which requires the data points to be well spread within the convex hull of the basis vectors. The conditions under which our proposed algorithms recover the unique decomposition is in most cases much weaker than the SSC. We only require to have $d$ points on each facet of the convex hull of the basis vectors whose dimension is $d-1$. The key idea is based on extracting facets containing the largest number of points. We illustrate the effectiveness of our approach on synthetic data sets and hyperspectral images, showing that it outperforms state-of-the-art SSMF algorithms as it is able to handle higher noise levels, rank deficient matrices, outliers, and input data that highly violates the SSC.
翻訳日:2022-11-07 22:20:33 公開日:2020-07-22
# グラディエントエンコーディングとDenoisingによる差分プライバシーによるディープラーニングの改善

Improving Deep Learning with Differential Privacy using Gradient Encoding and Denoising ( http://arxiv.org/abs/2007.11524v1 )

ライセンス: Link先を確認
Milad Nasr, Reza Shokri and Amir houmansadr(参考訳) ディープラーニングモデルは、トレーニングデータセットに関する大量の情報をリークする。 従来の研究は、勾配にDPノイズを加えることで、差分プライバシー(DP)保証付きトレーニングモデルを調査してきた。 しかし、そのような解(特にDPSGD)は、訓練されたモデルの精度を大幅に低下させる。 本稿では,従来よりも精度を保ちつつ,dp保証によるディープラーニングモデルのトレーニングを目標とする。 我々の鍵となる手法は、勾配を符号化してより小さなベクトル空間にマッピングすることで、異なる雑音分布に対するDP保証を得ることである。 これにより、ターゲットのプライバシー予算のモデル精度を最もよく保持するノイズ分布を調査し、選択することができる。 また,DPの保証を損なうことなく,学習モデルの実用性をさらに向上させることにより,差分プライバシのポストプロセッシング特性を生かした。 例えば、mnist で 96.1\%$ のモデル精度で、我々の技術は $\epsilon=3.2$ のプライバシバウンドと$\epsilon=6$ の dpsgd と比較して非常に改善されている。

Deep learning models leak significant amounts of information about their training datasets. Previous work has investigated training models with differential privacy (DP) guarantees through adding DP noise to the gradients. However, such solutions (specifically, DPSGD), result in large degradations in the accuracy of the trained models. In this paper, we aim at training deep learning models with DP guarantees while preserving model accuracy much better than previous works. Our key technique is to encode gradients to map them to a smaller vector space, therefore enabling us to obtain DP guarantees for different noise distributions. This allows us to investigate and choose noise distributions that best preserve model accuracy for a target privacy budget. We also take advantage of the post-processing property of differential privacy by introducing the idea of denoising, which further improves the utility of the trained models without degrading their DP guarantees. We show that our mechanism outperforms the state-of-the-art DPSGD; for instance, for the same model accuracy of $96.1\%$ on MNIST, our technique results in a privacy bound of $\epsilon=3.2$ compared to $\epsilon=6$ of DPSGD, which is a significant improvement.
翻訳日:2022-11-07 22:20:16 公開日:2020-07-22
# MetAL: メタ学習によるグラフの半教師付きアクティブ学習

MetAL: Active Semi-Supervised Learning on Graphs via Meta Learning ( http://arxiv.org/abs/2007.11230v1 )

ライセンス: Link先を確認
Kaushalya Madhawa and Tsuyoshi Murata(参考訳) アクティブラーニング(al)の目的は、ラベル付きインスタンスの数が少ない分類モデルを、最も有益なインスタンスのみを選択して学習することである。 画像やテキストなどの他のデータ型向けに設計されたalアルゴリズムは、グラフ構造化データではうまく機能しない。 グラフに対するヒューリスティックスに基づくALアルゴリズムはいくつか提案されているが、原則的なアプローチは欠如している。 本稿では,分類モデルの将来の性能を直接改善する未ラベルのインスタンスを選択するALアプローチであるMetALを提案する。 半教師付き学習問題では、ALタスクを二段階最適化問題として定式化する。 メタラーニングにおける最近の研究に基づいて、メタグラディエントを使用して、モデルのパフォーマンスにラベルのないインスタンスでモデルを再トレーニングすることの影響を近似する。 異なるドメインに属する複数のグラフデータセットを用いて、MetALが既存の最先端ALアルゴリズムを効率よく上回ることを示す。

The objective of active learning (AL) is to train classification models with less number of labeled instances by selecting only the most informative instances for labeling. The AL algorithms designed for other data types such as images and text do not perform well on graph-structured data. Although a few heuristics-based AL algorithms have been proposed for graphs, a principled approach is lacking. In this paper, we propose MetAL, an AL approach that selects unlabeled instances that directly improve the future performance of a classification model. For a semi-supervised learning problem, we formulate the AL task as a bilevel optimization problem. Based on recent work in meta-learning, we use the meta-gradients to approximate the impact of retraining the model with any unlabeled instance on the model performance. Using multiple graph datasets belonging to different domains, we demonstrate that MetAL efficiently outperforms existing state-of-the-art AL algorithms.
翻訳日:2022-11-07 22:12:30 公開日:2020-07-22
# 時間とともに相互作用する異種属性エンティティの教師付き学習

Supervised learning on heterogeneous, attributed entities interacting over time ( http://arxiv.org/abs/2007.11455v1 )

ライセンス: Link先を確認
Amine Laghaout(参考訳) ほとんどの物理的または社会的現象は、構成体が様々な方法で相互作用し、環境と相互作用するオントロジーによって表される。 さらに、これらの実体はおそらく異質であり、連続する相互作用に対する応答として時間内に動的に進化する特徴に起因している。 このようなエンティティ、例えば分類目的に機械学習を適用するためには、そのインタラクションを体系的な方法で特徴工学に統合する必要がある。 この提案は、グラフ機械学習の現在の状態が不適切なままであり、空間と時間の包括的な機能エンジニアリングパラダイムで拡張する必要があることを示している。

Most physical or social phenomena can be represented by ontologies where the constituent entities are interacting in various ways with each other and with their environment. Furthermore, those entities are likely heterogeneous and attributed with features that evolve dynamically in time as a response to their successive interactions. In order to apply machine learning on such entities, e.g., for classification purposes, one therefore needs to integrate the interactions into the feature engineering in a systematic way. This proposal shows how, to this end, the current state of graph machine learning remains inadequate and needs to be be augmented with a comprehensive feature engineering paradigm in space and time.
翻訳日:2022-11-07 22:11:38 公開日:2020-07-22
# 複雑なシーケンシャルデータ分析:既存のアルゴリズムの体系的文献レビュー

Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms ( http://arxiv.org/abs/2007.11572v1 )

ライセンス: Link先を確認
Kudakwashe Dandajena, Isabella M. Venter, Mehrdad Ghaziasgar and Reg Dodds(参考訳) 本稿では、離散的不規則パターンの複雑なシーケンシャルデータセットの解析にディープラーニングフレームワークを用いた過去のアプローチを概観する。 このようなデータセットの典型的な例は、特定のイベントがデータのシーケンスに突然不規則な変化を引き起こす財務データである。 従来のディープラーニング手法は、これらのデータセットを解析しようとすると、パフォーマンスが悪く、あるいは失敗する。 体系的文献レビューの結果,再帰的ニューラルネットワークに基づくフレームワークの優位が明らかになった。 ディープラーニングフレームワークの性能は,平均絶対誤差とルート平均二乗誤差精度の指標を用いて評価された。 パフォーマンスの堅牢さの欠如、方法論の非透過性、内部および外部のアーキテクチャ設計と構成上の問題。 これらの課題は、複雑な不規則パターンのシーケンシャルデータセットのフレームワークを改善する機会を提供する。

This paper provides a review of past approaches to the use of deep-learning frameworks for the analysis of discrete irregular-patterned complex sequential datasets. A typical example of such a dataset is financial data where specific events trigger sudden irregular changes in the sequence of the data. Traditional deep-learning methods perform poorly or even fail when trying to analyse these datasets. The results of a systematic literature review reveal the dominance of frameworks based on recurrent neural networks. The performance of deep-learning frameworks was found to be evaluated mainly using mean absolute error and root mean square error accuracy metrics. Underlying challenges that were identified are: lack of performance robustness, non-transparency of the methodology, internal and external architectural design and configuration issues. These challenges provide an opportunity to improve the framework for complex irregular-patterned sequential datasets.
翻訳日:2022-11-07 22:10:34 公開日:2020-07-22
# 高次ラベル相関を利用したマルチラベル分類規則の進化

Evolving Multi-label Classification Rules by Exploiting High-order Label Correlation ( http://arxiv.org/abs/2007.11609v1 )

ライセンス: Link先を確認
Shabnam Nazmi, Xuyang Yan, Abdollah Homaifar, Emily Doucette(参考訳) マルチラベル分類タスクでは、各問題インスタンスは複数のクラスに同時に関連付けられる。 このような設定では、ラベル間の相関には、より正確な分類モデルを得るために使用できる貴重な情報が含まれている。 ラベル間の相関は、ペアワイズ相関の取得や高次相関の活用など、様々なレベルで利用することができる。 高次アプローチは相関関係をモデル化できるが、計算的により要求が高く、拡張性に問題がある。 本稿では,教師付き学習分類システム(ucs)を用いてラベルのサブセット内の高次ラベル相関を利用する。 この目的のために、ラベルパワーセット(LP)戦略を採用し、関連ラベルのセット内の未確認インスタンスへの予測アグリゲーションを利用して、未確認ラベルセットの存在下でのLPメソッドの予測能力を高める。 厳密な一致率とハミング損失尺度は, ルール性能を評価するために考慮され, どちらの指標においても, 分類器の適合度が期待できる。 また,提案アルゴリズムに対して計算複雑性解析を行う。 提案手法の実験結果は,複数のベンチマークデータセットにおける他のlpベース手法と比較し,本手法の競合性能を確認した。

In multi-label classification tasks, each problem instance is associated with multiple classes simultaneously. In such settings, the correlation between labels contains valuable information that can be used to obtain more accurate classification models. The correlation between labels can be exploited at different levels such as capturing the pair-wise correlation or exploiting the higher-order correlations. Even though the high-order approach is more capable of modeling the correlation, it is computationally more demanding and has scalability issues. This paper aims at exploiting the high-order label correlation within subsets of labels using a supervised learning classifier system (UCS). For this purpose, the label powerset (LP) strategy is employed and a prediction aggregation within the set of the relevant labels to an unseen instance is utilized to increase the prediction capability of the LP method in the presence of unseen labelsets. Exact match ratio and Hamming loss measures are considered to evaluate the rule performance and the expected fitness value of a classifier is investigated for both metrics. Also, a computational complexity analysis is provided for the proposed algorithm. The experimental results of the proposed method are compared with other well-known LP-based methods on multiple benchmark datasets and confirm the competitive performance of this method.
翻訳日:2022-11-07 22:10:23 公開日:2020-07-22
# 視覚的接地言語獲得のためのアナロジ的推論

Analogical Reasoning for Visually Grounded Language Acquisition ( http://arxiv.org/abs/2007.11668v1 )

ライセンス: Link先を確認
Bo Wu, Haoyu Qin, Alireza Zareian, Carl Vondrick, Shih-Fu Chang(参考訳) 子どもたちは、周囲の世界を観察し、記述を聴いて、無意識に言語を習得する。 明示的な言語知識がなくても、言葉の意味を発見でき、新しい作曲に力強く一般化することができる。 本稿では,VLA(Visually Grounded Language Acquisition)の課題を研究することによって,この能力をAIに適用する。 本稿では,前述した構成から意味マッピングと推論操作を学習することにより,新しい構成を近似する類似推論機構を付加したマルチモーダルトランスフォーマモデルを提案する。 提案手法であるARTNet(Analogical Reasoning Transformer Networks)は、生のマルチメディアデータ(ビデオフレームと転写文)に基づいて訓練され、"washing apple" や "cutting carrot" などの一連の合成を観察した後、"washing carrot" や "cutting apple" などの新しいビデオフレームにおける新しい合成を一般化し、認識することができる。 この目的のためにartnetは、トレーニングデータの関連インスタンスを参照し、その視覚的特徴とキャプションを使用してクエリイメージの類似性を確立する。 そして、適切な動詞と名詞を選択して、新しいイメージを最もよく表現する新しい構成を作成する。 指導ビデオデータセットの大規模な実験により,提案手法は最先端のトランスフォーマーモデルと比較して,一般化能力と認識精度が著しく向上することを示した。

Children acquire language subconsciously by observing the surrounding world and listening to descriptions. They can discover the meaning of words even without explicit language knowledge, and generalize to novel compositions effortlessly. In this paper, we bring this ability to AI, by studying the task of Visually grounded Language Acquisition (VLA). We propose a multimodal transformer model augmented with a novel mechanism for analogical reasoning, which approximates novel compositions by learning semantic mapping and reasoning operations from previously seen compositions. Our proposed method, Analogical Reasoning Transformer Networks (ARTNet), is trained on raw multimedia data (video frames and transcripts), and after observing a set of compositions such as "washing apple" or "cutting carrot", it can generalize and recognize new compositions in new video frames, such as "washing carrot" or "cutting apple". To this end, ARTNet refers to relevant instances in the training data and uses their visual features and captions to establish analogies with the query image. Then it chooses the suitable verb and noun to create a new composition that describes the new image best. Extensive experiments on an instructional video dataset demonstrate that the proposed method achieves significantly better generalization capability and recognition accuracy compared to state-of-the-art transformer models.
翻訳日:2022-11-07 22:04:14 公開日:2020-07-22
# ルールに基づくエンティティマスキングと画像キャプションの統合

Integrating Image Captioning with Rule-based Entity Masking ( http://arxiv.org/abs/2007.11690v1 )

ライセンス: Link先を確認
Aditya Mogadala and Xiaoyu Shen and Dietrich Klakow(参考訳) 画像が与えられた場合、自然言語記述(つまりキャプション)を生成することはよく研究されている問題である。 この問題に対処するために提案されたアプローチは、通常、解釈が難しい画像特徴に依存する。 特に、これらの画像特徴は、画像のグローバル表現からグローバル特徴を抽出し、画像内で局所的に検出された対象からローカル特徴を抽出するグローバル特徴とローカル特徴に分けられる。 局所的な特徴は画像から豊かな視覚情報を抽出するが、既存のモデルはキャプションをブラックボックス方式で生成し、キャプションが表現しようとするローカルオブジェクトの解釈が困難である。 そこで本稿では,画像キャプションのための新しいフレームワークを提案する。このフレームワークは,エンドツーエンドのトレーニング能力を維持しつつ,明示的なオブジェクト(例えば知識グラフエンティティ)選択プロセスを持つ。 モデルでは、まず、人解釈マスクに従ってキャプションに含まれるどのローカルエンティティを明示的に選択し、選択したエンティティに出席して適切なキャプションを生成する。 MSCOCOデータセットで行った実験により,本手法はキャプションの品質と多様性において,従来の手法よりも解釈可能な生成プロセスで良好な性能を発揮することが示された。

Given an image, generating its natural language description (i.e., caption) is a well studied problem. Approaches proposed to address this problem usually rely on image features that are difficult to interpret. Particularly, these image features are subdivided into global and local features, where global features are extracted from the global representation of the image, while local features are extracted from the objects detected locally in an image. Although, local features extract rich visual information from the image, existing models generate captions in a blackbox manner and humans have difficulty interpreting which local objects the caption is aimed to represent. Hence in this paper, we propose a novel framework for the image captioning with an explicit object (e.g., knowledge graph entity) selection process while still maintaining its end-to-end training ability. The model first explicitly selects which local entities to include in the caption according to a human-interpretable mask, then generate proper captions by attending to selected entities. Experiments conducted on the MSCOCO dataset demonstrate that our method achieves good performance in terms of the caption quality and diversity with a more interpretable generating process than previous counterparts.
翻訳日:2022-11-07 22:03:49 公開日:2020-07-22
# wasserstein経路カプセルネットワーク

Wasserstein Routed Capsule Networks ( http://arxiv.org/abs/2007.11465v1 )

ライセンス: Link先を確認
Alexander Fuchs, Franz Pernkopf(参考訳) カプセルネットワークは興味深い特性を提供し、今日のディープニューラルネットワークアーキテクチャの代替を提供する。 しかし、最近のアプローチでは、異なる画像データセット間で一貫して競争的な結果を達成できていない。 そこで本研究では,概ねwasserstein目標でトレーニングされたニューラルネットワークを用いて,カプセル全体を動的に選択することにより,複雑なタスクに対処できる新しいパラメーター効率の高いカプセルアーキテクチャを提案する。 このアプローチは、少ないオーバーヘッドで改善された結果を提供できるロバストなルーティングスキームの実装に焦点を当てる。 提案した概念を検証し,CIFAR-10で他のカプセルのアプローチを1.2%以上上回り,より少ないパラメータで実現可能であることを示す。

Capsule networks offer interesting properties and provide an alternative to today's deep neural network architectures. However, recent approaches have failed to consistently achieve competitive results across different image datasets. We propose a new parameter efficient capsule architecture, that is able to tackle complex tasks by using neural networks trained with an approximate Wasserstein objective to dynamically select capsules throughout the entire architecture. This approach focuses on implementing a robust routing scheme, which can deliver improved results using little overhead. We perform several ablation studies verifying the proposed concepts and show that our network is able to substantially outperform other capsule approaches by over 1.2 % on CIFAR-10, using fewer parameters.
翻訳日:2022-11-07 22:02:53 公開日:2020-07-22
# 古典中国語が機械学習と出会う時--単語と文セグメンテーションの相対的パフォーマンスについて

When Classical Chinese Meets Machine Learning: Explaining the Relative Performances of Word and Sentence Segmentation Tasks ( http://arxiv.org/abs/2007.11171v1 )

ライセンス: Link先を確認
Chao-Lin Liu, Chang-Ting Chu, Wei-Ting Chang, and Ti-Yong Zheng(参考訳) 我々は,古典中国語のテキストを分割することを目的とした実験において,中国の唐に関する3つの主要な文献を考察する。 唐墓伝、新唐書、古唐書などが収められている。 深層学習手法を用いて,良好なセグメンテーション結果が得られることを示す。 さらに興味深いことに、実験の異なる設計で観察された相対的な優越性は説明できるかもしれない。 訓練コーパス間の相対的関連性は,分類器の訓練にコーパスの異なる組み合わせを用いた場合のセグメンテーション結果の違いに対するヒントや説明を与える。

We consider three major text sources about the Tang Dynasty of China in our experiments that aim to segment text written in classical Chinese. These corpora include a collection of Tang Tomb Biographies, the New Tang Book, and the Old Tang Book. We show that it is possible to achieve satisfactory segmentation results with the deep learning approach. More interestingly, we found that some of the relative superiority that we observed among different designs of experiments may be explainable. The relative relevance among the training corpora provides hints/explanation for the observed differences in segmentation results that were achieved when we employed different combinations of corpora to train the classifiers.
翻訳日:2022-11-07 22:02:14 公開日:2020-07-22
# 2020年代の自然言語処理のためのマルチタスク学習:どこへ行くのか?

Multi-task learning for natural language processing in the 2020s: where are we going? ( http://arxiv.org/abs/2007.16008v1 )

ライセンス: Link先を確認
Joseph Worsham and Jugal Kalita(参考訳) MTL(Multi-task Learning)は、ディープラーニング時代をかなり前倒しにしており、研究者が自然言語処理にMTLを適用しているため、ここ数年で復活している。 安定したMTL研究は常に存在するが、BERTのようなトランスファーラーニングやプレトレーニングといった関連する分野で発行された印象的な成功や、GLUEやNLP Decathlon(decaNLP)といった新たな課題の公表によって、関心が高まっている。 これらの取り組みは、ネットワーク間の重みの共有方法、ネットワークコンポーネントの再使用性の評価、MTLがシングルタスクソリューションを著しく上回るユースケースの特定に重点を置いている。 本稿では,近年の自然言語処理分野へのmtlの貢献に関する総合的な調査と,今後10年で最も難しい未解決問題への取り組みに焦点を当てたフォーラムを提供する。 NLPベンチマークのパフォーマンスを改善する新しいモデルが継続的に作成されているが、MTLの継続的な課題は未解決のままであり、言語理解、知識発見、自然言語インタフェースの鍵を握る可能性がある。

Multi-task learning (MTL) significantly pre-dates the deep learning era, and it has seen a resurgence in the past few years as researchers have been applying MTL to deep learning solutions for natural language tasks. While steady MTL research has always been present, there is a growing interest driven by the impressive successes published in the related fields of transfer learning and pre-training, such as BERT, and the release of new challenge problems, such as GLUE and the NLP Decathlon (decaNLP). These efforts place more focus on how weights are shared across networks, evaluate the re-usability of network components and identify use cases where MTL can significantly outperform single-task solutions. This paper strives to provide a comprehensive survey of the numerous recent MTL contributions to the field of natural language processing and provide a forum to focus efforts on the hardest unsolved problems in the next decade. While novel models that improve performance on NLP benchmarks are continually produced, lasting MTL challenges remain unsolved which could hold the key to better language understanding, knowledge discovery and natural language interfaces.
翻訳日:2022-11-07 22:02:02 公開日:2020-07-22
# 時間対応グラフ埋め込み:時間的スムーズさとタスク指向アプローチ

Time-aware Graph Embedding: A temporal smoothness and task-oriented approach ( http://arxiv.org/abs/2007.11164v1 )

ライセンス: Link先を確認
Yonghui Xu, Shengjie Sun, Yuan Miao, Dong Yang, Xiaonan Meng, Yi Hu, Ke Wang, Hengjie Song, Chuanyan Miao(参考訳) 実体と関係の低次元表現を学習することを目的とした知識グラフの埋め込みは、近年、かなりの研究努力を集めている。 しかし、ほとんどの知識グラフ埋め込み手法は、時間的情報を無視しながら固定三重項の構造的関係に焦点を当てている。 現在、既存の時間対応グラフ埋め込み法は、事実と文脈間の相互作用をモデル化する時間的滑らかさを無視しながら、事実の妥当性にのみ焦点をあてている。 これにより、組み込み関連アプリケーションのパフォーマンスが制限される。 本稿では,時間的平滑性を考慮したロバストな時間対応グラフ埋め込み(rtge)手法を提案する。 本稿では2つの主要なイノベーションを紹介します。 まず、RTGEは時間認識グラフ埋め込みの学習過程における時間的滑らかさの尺度を統合する。 提案された追加の平滑化因子により、rtgeは所定のグラフの構造情報と進化パターンの両方を保存できる。 第2に、RTGEは時間的認識情報に関連する一般的なタスク指向のネガティブサンプリング戦略を提供し、提案アルゴリズムの適応性をさらに向上させ、様々なタスクにおいて優れたパフォーマンスを得る上で重要な役割を果たす。 複数のベンチマークタスクで実施された大規模な実験により、RTGEはエンティティ/リレーショナル/時間スコッピング予測タスクのパフォーマンスを向上させることができる。

Knowledge graph embedding, which aims to learn the low-dimensional representations of entities and relationships, has attracted considerable research efforts recently. However, most knowledge graph embedding methods focus on the structural relationships in fixed triples while ignoring the temporal information. Currently, existing time-aware graph embedding methods only focus on the factual plausibility, while ignoring the temporal smoothness which models the interactions between a fact and its contexts, and thus can capture fine-granularity temporal relationships. This leads to the limited performance of embedding related applications. To solve this problem, this paper presents a Robustly Time-aware Graph Embedding (RTGE) method by incorporating temporal smoothness. Two major innovations of our paper are presented here. At first, RTGE integrates a measure of temporal smoothness in the learning process of the time-aware graph embedding. Via the proposed additional smoothing factor, RTGE can preserve both structural information and evolutionary patterns of a given graph. Secondly, RTGE provides a general task-oriented negative sampling strategy associated with temporally-aware information, which further improves the adaptive ability of the proposed algorithm and plays an essential role in obtaining superior performance in various tasks. Extensive experiments conducted on multiple benchmark tasks show that RTGE can increase performance in entity/relationship/temporal scoping prediction tasks.
翻訳日:2022-11-07 22:01:42 公開日:2020-07-22
# 縦方向データの大規模非定常共分散行列の融合ラッソ正規化コレスキー因子

Fused-Lasso Regularized Cholesky Factors of Large Nonstationary Covariance Matrices of Longitudinal Data ( http://arxiv.org/abs/2007.11168v1 )

ライセンス: Link先を確認
Aramayis Dallakyan and Mohsen Pourahmadi(参考訳) 大きな共分散行列のコレスキー因子の対角線の滑らかさは、時系列および長手データに対する自己回帰モデルの非定常性の度合いと密接に関連している。 ヒューリスティックには、その逆のコレスキー因子の各部分対角線の成分が、連続項の絶対値の和が小さいという意味でほぼ同じであるように、ほぼ定常な共分散行列を期待する。 統計的にこのような滑らかさは、融合型ラッソペナルティを用いて各サブ対角線を規則化することによって達成される。 我々は、標準コレスキー因子を正規化正規化正規分布における新しいパラメータとして、(1)確率関数のジョイント凸性、(2)n<p$ の場合にも各部分対角に制限された帰納関数の厳密な凸性、(3)推定共分散行列の正定値性を保証する。 各ブロックが対角線であるブロック座標降下アルゴリズムを提案し、その収束性は穏やかな条件下で確立される。 ペナルティ化度関数を個々の対角線を含む関数の和に分解しないことは、行を分離するコレスキー因子のスパース推定のための最近の2つのアルゴリズムと比較して、いくつかの計算上の課題と利点をもたらす。 シミュレーション結果と実データ解析により,提案手法の適用範囲と性能を示す。

Smoothness of the subdiagonals of the Cholesky factor of large covariance matrices is closely related to the degrees of nonstationarity of autoregressive models for time series and longitudinal data. Heuristically, one expects for a nearly stationary covariance matrix the entries in each subdiagonal of the Cholesky factor of its inverse to be nearly the same in the sense that sum of absolute values of successive terms is small. Statistically such smoothness is achieved by regularizing each subdiagonal using fused-type lasso penalties. We rely on the standard Cholesky factor as the new parameters within a regularized normal likelihood setup which guarantees: (1) joint convexity of the likelihood function, (2) strict convexity of the likelihood function restricted to each subdiagonal even when $n<p$, and (3) positive-definiteness of the estimated covariance matrix. A block coordinate descent algorithm, where each block is a subdiagonal, is proposed and its convergence is established under mild conditions. Lack of decoupling of the penalized likelihood function into a sum of functions involving individual subdiagonals gives rise to some computational challenges and advantages relative to two recent algorithms for sparse estimation of the Cholesky factor which decouple row-wise. Simulation results and real data analysis show the scope and good performance of the proposed methodology.
翻訳日:2022-11-07 22:01:18 公開日:2020-07-22