このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201017となっている論文です。

PDF登録状況(公開日: 20201017)

TitleAuthorsAbstract論文公表日・翻訳日
# Panopticonデバイス:量子光学のためのPaul-trap-hemispherical mirrorシステム

The Panopticon device: an integrated Paul-trap-hemispherical mirror system for quantum optics ( http://arxiv.org/abs/2006.04828v3 )

ライセンス: Link先を確認
Gabriel Araneda, Giovanni Cerchiari, Daniel B. Higginbottom, Philip C. Holz, Kirill Lakhmanskiy, Petr Ob\v{s}il, Yves Colombe, Rainer Blatt(参考訳) 本稿では,光品質半球ミラーの曲率中心に単一ba$^+$イオンをトラップするための新しい実験装置の設計と構築について述べる。 本稿では,高光学アクセス型モノリシックな「3Dプリント」ポールトラップ,半球ミラー,原子蛍光収集用回折限界真空内レンズ(NA = 0.7),最先端の超高真空容器からなるフルセットアップのレイアウト,製造,統合について述べる。 この新しい装置は、強い抑制や自発的放出の促進といった量子電気力学効果の研究を可能にし、単一光モードにおける放出光の集光効率を31%で達成する。

We present the design and construction of a new experimental apparatus for the trapping of single Ba$^+$ ions in the center of curvature of an optical-quality hemispherical mirror. We describe the layout, fabrication and integration of the full setup, consisting of a high-optical access monolithic `3D-printed' Paul trap, the hemispherical mirror, a diffraction-limited in-vacuum lens (NA = 0.7) for collection of atomic fluorescence and a state-of-the art ultra-high vacuum vessel. This new apparatus enables the study of quantum electrodynamics effects such as strong inhibition and enhancement of spontaneous emission, and achieves a collection efficiency of the emitted light in a single optical mode of 31%.
翻訳日:2023-05-16 07:00:21 公開日:2020-10-17
# 普遍低エネルギー状態における任意の1次元量子系に対するボース・フェルミ双対性

Bose-Fermi dualities for arbitrary one-dimensional quantum systems in the universal low energy regime ( http://arxiv.org/abs/2009.00624v3 )

ライセンス: Link先を確認
Manuel Valiente(参考訳) 一次元の量子粒子の一般相互作用系を考える。 ボソンまたはフェルミオンは任意の成分、任意のスピンまたはその組合せを持ち、低エネルギーの2粒子と多粒子の相互作用を特徴とする。 単粒子分散はガリレオ(非相対論的)、相対論的、あるいは格子理論の連続極限に関係のある他の形式を持つことができる。 一般化函数の代数を用いて、真にユニタリな統計変換作用素が得られ、短距離ハードコアを必要としない1対1の対応にボソンとフェルミオンを配置する。 非相対論的な場合、ボソンの低エネルギー相互作用は、フェルミオンの標準的な低エネルギー展開に対応するフェルミオン双対相互作用である。 このように、相互作用するフェルミオンとボソンは低エネルギーで互いに完全に等価である。 ボース・フェルミ写像は微視的詳細に依存しないが、結果として生じる統計相互作用はそれぞれのハミルトニアンの運動エネルギー構造に大きく依存する。 これらの統計的相互作用は、様々なモデルに対して明示的に得られ、モーメント表現において正規化および正規化され、二重理論の理論的かつ計算的に実現可能な実装を可能にする。 写像はゲージ相互作用として書き直され、1次元のエノンも考慮される。

I consider general interacting systems of quantum particles in one spatial dimension. These consist of bosons or fermions, which can have any number of components, arbitrary spin or a combination thereof, featuring low-energy two- and multiparticle interactions. The single-particle dispersion can be Galilean (non-relativistic), relativistic, or have any other form that may be relevant for the continuum limit of lattice theories. Using an algebra of generalized functions, statistical transmutation operators that are genuinely unitary are obtained, putting bosons and fermions in a one-to-one correspondence without the need for a short-distance hard core. In the non-relativistic case, low-energy interactions for bosons yield, order by order, fermionic dual interactions that correspond to the standard low-energy expansion for fermions. In this way, interacting fermions and bosons are fully equivalent to each other at low energies. While the Bose-Fermi mappings do not depend on microscopic details, the resulting statistical interactions heavily depend on the kinetic energy structure of the respective Hamiltonians. These statistical interactions are obtained explicitly for a variety of models, and regularized and renormalized in the momentum representation, which allows for theoretically and computationally feasible implementations of the dual theories. The mapping is rewritten as a gauge interaction, and one-dimensional anyons are also considered.
翻訳日:2023-05-04 03:04:12 公開日:2020-10-17
# 相互作用する一次元量子系における普遍双対変換

Universal duality transformations in interacting one-dimensional quantum systems ( http://arxiv.org/abs/2009.00614v2 )

ライセンス: Link先を確認
Manuel Valiente(参考訳) 一次元量子系は双対関係を認め、硬核スピンレスボソンとフェルミオンをジラルドーの写像定理を通じて1対1の対応に配置する。 ゼロレンジポテンシャルを介して相互作用するソフトボソンの最も単純なモデルは、双対相互作用フェルミオンにもマッピングできる。 しかし、スピンレスおよびスピンフルまたは多成分の場合における任意の低エネルギー相互作用に対する1次元統計変換への体系的アプローチは、いまだに解明されていない。 ボソンとフェルミオンの1次元量子系と任意のスピンあるいは内部構造を持つフェルミオンの局所的なユニタリ変換の一般理論、非相対論的、相対論的、その他を含む単一粒子分散、および普遍的な状態における低エネルギー相互作用の一般理論を開発する。 これらの変換は、それぞれの双対理論の強い結合限界と弱い結合限界を関連付ける新しい双対関係の族とモデルを生成する。

One-dimensional quantum systems admit duality relations that put hard core spinless bosons and fermions in one-to-one correspondence via Girardeau's mapping theorem. The simplest models of soft bosons interacting via zero-range potentials can also be mapped onto dual interacting fermions. However, a systematic approach to one-dimensional statistical transmutation for arbitrary low-energy interactions in the spinless and spinful or multicomponent cases has remained elusive. I develop a general theory of local unitary transformations between one-dimensional quantum systems of bosons and fermions with arbitrary spin or internal structure, single-particle dispersion -- including non-relativistic, relativistic or otherwise -- and low-energy interactions in the universal regime. These transformations generate families of new duality relations and models that relate the strong and weak coupling limits of the respective dual theories.
翻訳日:2023-05-04 03:03:27 公開日:2020-10-17
# 超伝導量子回路におけるボソニック量子誤差補正符号

Bosonic quantum error correction codes in superconducting quantum circuits ( http://arxiv.org/abs/2010.08699v1 )

ライセンス: Link先を確認
W. Cai, Y. Ma, W. Wang, C.-L. Zou and L. Sun(参考訳) 量子情報は環境騒音や実験的な欠陥に弱いため、実用的な量子情報プロセッサの信頼性を損なう。 したがって、量子情報をノイズから保護できる量子誤差補正(qec)は、普遍的でスケーラブルな量子計算に不可欠である。 多くの実験プラットフォームの中で、超伝導量子回路と超伝導マイクロ波モードにおけるボソニックエンコーディングは、QECにおける前例のないポテンシャルをアピールしている。 過去数年間、ボソニックqecは分岐点に達することが実証され、すなわち論理量子ビットの寿命は実験系を構成する個々の成分の寿命を超えるように拡張される。 さらに、ボソニック符号のユニバーサルゲート集合やフォールトトレラント演算も実現され、量子情報処理はqec時代に向けて推進される。 本稿では,gottesman-kitaev-preskill codes,cat codes,binomial codesを含むbosonic codesの最近の進歩を概観し,フォールトトレラント量子計算から量子メトロロジーまで,様々な量子応用におけるbosonic codesの機会について考察する。 また,bosonic codesに関連する課題を要約し,今後の研究方向性を長期にわたって展望する。

Quantum information is vulnerable to environmental noise and experimental imperfections, hindering the reliability of practical quantum information processors. Therefore, quantum error correction (QEC) that can protect quantum information against noise is vital for universal and scalable quantum computation. Among many different experimental platforms, superconducting quantum circuits and bosonic encodings in superconducting microwave modes are appealing for their unprecedented potential in QEC. During the last few years, bosonic QEC is demonstrated to reach the break-even point, i.e. the lifetime of a logical qubit is enhanced to exceed that of any individual components composing the experimental system. Beyond that, universal gate sets and fault-tolerant operations on the bosonic codes are also realized, pushing quantum information processing towards the QEC era. In this article, we review the recent progress of the bosonic codes, including the Gottesman-Kitaev-Preskill codes, cat codes, and binomial codes, and discuss the opportunities of bosonic codes in various quantum applications, ranging from fault-tolerant quantum computation to quantum metrology. We also summarize the challenges associated with the bosonic codes and provide an outlook for the potential research directions in the long terms.
翻訳日:2023-04-28 19:54:20 公開日:2020-10-17
# 電子商取引におけるセッションベース勧告のための深層学習アプローチの総合的実証評価

Comprehensive Empirical Evaluation of Deep Learning Approaches for Session-based Recommendation in E-Commerce ( http://arxiv.org/abs/2010.12540v1 )

ライセンス: Link先を確認
Mohamed Maher (1), Perseverance Munga Ngoy (1), Aleksandrs Rebriks (1), Cagri Ozcinar (1), Josue Cuevas (3), Rajasekhar Sanagavarapu (3), Gholamreza Anbarjafari (1 and 2) ((1) iCV Lab, University of Tartu, Tartu, Estonia, (2) Faculty of Engineering, Hasan Kalyoncu University, Gaziantep, Turkey, (3) Rakuten Inc., Big Data Department, Machine Learning Group, Tokyo, Japan)(参考訳) ユーザーが自分の興味に合ったアイテムを短期間で見つけると、Eコマースサービスの売り上げが増加することが保証される。 その結果、レコメンデーションシステムは、成功したEコマースサービスにとって重要な部分となっている。 電子商取引では様々なレコメンデーション技術が利用できるが、近年はセッションベースのレコメンデーションシステムにかなりの関心が寄せられている。 このような関心の高まりは、パーソナライズされたユーザー行動データ収集におけるセキュリティ上の懸念、特に最近の一般的なデータ保護規則の後に発生している。 本研究では,セッションベースレコメンデーションで使用される最先端のディープラーニングアプローチについて,包括的に評価する。 セッションベースのレコメンデーションでは、レコメンデーションシステムは、同じセッション内でユーザが行ったイベントのシーケンスをカウントして、自分の好みと関連付けやすい他のアイテムを予測し、支持する。 本研究は,ニューラルネットワーク,グラフニューラルネットワーク,アテンションベースネットワークなど,ベースライン技術(近傍の近傍とパターンマイニングアルゴリズム)とディープラーニングアプローチ(パターンマイニングアルゴリズム)について検討した。 評価の結果,先進的なニューラルベースモデルとセッションベース近傍アルゴリズムが,ほとんどのシナリオにおいてベースライン技術を上回ることがわかった。 しかし,ユーザの興味が漂うような長時間セッションの場合や,トレーニング中に異なる項目を正しくモデル化するのに十分なデータがない場合には,これらのモデルがより苦しむことが判明した。 本研究は,異なるアプローチのハイブリッドモデルとベースラインアルゴリズムを組み合わせることで,データセット特性に基づくセッションベースレコメンデーションのかなりの結果が得られることを示唆する。 また,現在のセッションベースレコメンデーションアルゴリズムの欠点と,この分野におけるさらなる研究指針についても考察する。

Boosting sales of e-commerce services is guaranteed once users find more matching items to their interests in a short time. Consequently, recommendation systems have become a crucial part of any successful e-commerce services. Although various recommendation techniques could be used in e-commerce, a considerable amount of attention has been drawn to session-based recommendation systems during the recent few years. This growing interest is due to the security concerns in collecting personalized user behavior data, especially after the recent general data protection regulations. In this work, we present a comprehensive evaluation of the state-of-the-art deep learning approaches used in the session-based recommendation. In session-based recommendation, a recommendation system counts on the sequence of events made by a user within the same session to predict and endorse other items that are more likely to correlate with his/her preferences. Our extensive experiments investigate baseline techniques (\textit{e.g.,} nearest neighbors and pattern mining algorithms) and deep learning approaches (\textit{e.g.,} recurrent neural networks, graph neural networks, and attention-based networks). Our evaluations show that advanced neural-based models and session-based nearest neighbor algorithms outperform the baseline techniques in most of the scenarios. However, we found that these models suffer more in case of long sessions when there exists drift in user interests, and when there is no enough data to model different items correctly during training. Our study suggests that using hybrid models of different approaches combined with baseline algorithms could lead to substantial results in session-based recommendations based on dataset characteristics. We also discuss the drawbacks of current session-based recommendation algorithms and further open research directions in this field.
翻訳日:2023-04-28 19:53:27 公開日:2020-10-17
# ベリー相とスピン軌道相互作用に及ぼす極小長の影響

Effects of minimal length on Berry phase and spin-orbit interactions ( http://arxiv.org/abs/2010.08851v1 )

ライセンス: Link先を確認
S. Aghababaei, H. Moradpour, G. Rezaei, S. Khorshidian(参考訳) 一般化不確実性原理(GUP)がベリー相に及ぼす影響を摂動法および近似の1次まで検討した。 以下、得られた結果は、RashbaとDresselhausの相互作用を含む2種類のスピン軌道相互作用を電子によって感じられる量子環に拡張される。 最終結果とベリー位相検出器の精度を比較すると、GUPパラメータ上の上限は、RashbaとDresselhausの相互作用から、それぞれ$\beta_{0}<10^{46}$と$\beta_{0}<10^{51}$である。

The effect of Generalized Uncertainty Principle (GUP) on Berry phase is studied using the perturbation approach and up to the first order of approximation. Thereinafter, the obtained results are extended to a quantum ring in which two types of spin-orbit interactions, including Rashba and Dresselhaus interactions, can be felt by electrons. Comparing the final results with the accuracy of Berry phase detectors, one can find an upper bound on GUP parameter as $\beta_{0}<10^{46}$ and $\beta_{0}<10^{51}$ from Rashba and Dresselhaus interactions, respectively, in agreement with previous results.
翻訳日:2023-04-28 19:52:32 公開日:2020-10-17
# 家庭位置検出のための個別レベル基底真理データセット

An individual-level ground truth dataset for home location detection ( http://arxiv.org/abs/2010.08814v1 )

ライセンス: Link先を確認
Luca Pappalardo, Leo Ferres, Manuel Sacasa, Ciro Cattuto, Loreto Bravo(参考訳) 携帯電話をホームアンテナに割り当てるホーム検出は、携帯電話データに関する文献におけるほとんどの研究のユビキタスな部分である。 ホーム検出は広く使われているにもかかわらず、いくつかの仮定に頼っているが、それは基礎的な真実なしには確認が困難である。 そこで本論文では,65名の参加者が自宅の正確な住所とそれらに対応するアンテナを知っているグループに対して,ホーム検出アルゴリズムの精度を前例のない精度で評価する。 また,コールディーテールレコード (CDR) だけでなく,eXtended Detail Records (XDR, 'data' チャネル) と Control Plane Records (CPR, ネットワークストリーム) の2つの携帯電話ストリームも分析する。 これらのデータストリームは、時間的粒度だけでなく、データ生成機構にも異なり、例えば、CDRは純粋に人間のトリガーであり、CPRは純粋に機械トリガーのイベントである。 最後に、各ストリームの家庭検出を成功させるために、各ストリームに必要なデータ量を定量化する。 ストリームとアルゴリズムの選択はホーム検出に大きく影響し,xdrsが最善を尽くすための1時間のアルゴリズムと,ホーム検出に必要なデータ量に対してcprが最良であることがわかった。 本研究は,データ要求を最小化し,ホームアンテナ位置の精度を最大化するために,研究者や実践者にとって有用である。

Home detection, assigning a phone device to its home antenna, is a ubiquitous part of most studies in the literature on mobile phone data. Despite its widespread use, home detection relies on a few assumptions that are difficult to check without ground truth, i.e., where the individual that owns the device resides. In this paper, we provide an unprecedented evaluation of the accuracy of home detection algorithms on a group of sixty-five participants for whom we know their exact home address and the antennas that might serve them. Besides, we analyze not only Call Detail Records (CDRs) but also two other mobile phone streams: eXtended Detail Records (XDRs, the ``data'' channel) and Control Plane Records (CPRs, the network stream). These data streams vary not only in their temporal granularity but also they differ in the data generation mechanism', e.g., CDRs are purely human-triggered while CPR is purely machine-triggered events. Finally, we quantify the amount of data that is needed for each stream to carry out successful home detection for each stream. We find that the choice of stream and the algorithm heavily influences home detection, with an hour-of-day algorithm for the XDRs performing the best, and with CPRs performing best for the amount of data needed to perform home detection. Our work is useful for researchers and practitioners in order to minimize data requests and to maximize the accuracy of home antenna location.
翻訳日:2023-04-28 19:51:50 公開日:2020-10-17
# 強磁性ジャイロスコープの基礎物理学実験

Ferromagnetic Gyroscopes for Tests of Fundamental Physics ( http://arxiv.org/abs/2010.08731v1 )

ライセンス: Link先を確認
Pavel Fadeev, Chris Timberlake, Tao Wang, Andrea Vinante, Y. B. Band, Dmitry Budker, Alexander O. Sushkov, Hendrik Ulbricht, Derek F. Jackson Kimball(参考訳) 強磁性ジャイロスコープ (ferromagnetic gyroscope, fg) は、電子スピン偏極によって角運動量が支配され、磁場など外部トルクの作用によって引き起こされる強磁性体である。 本稿では,fgのダイナミクスと感度をモデル化・解析し,実験的実現のための実践的手法に着目する。 自由浮遊FGの場合, 相対的に高磁場下でのリブレーションが支配するダイナミクスから, 相対的に低い磁場で支配される磁場への遷移をモデル化する。 リブレーション周波数の測定は、磁場のその場測定と、FG力学を支配しているしきい値以下での磁場の低減を可能にする。 ジャイロスコピックな挙動の証拠は、下界が支配する閾値よりもはるかに大きい磁場でも存在していることに注意する。 また、マイスナー効果により、タイプi超伝導体上に浮かぶfgのダイナミクスをモデル化し、約100nm以上のfgでは、自由浮遊fgと比較して観察された歳差周波数が減少することを発見した。 これは超伝導体によるFGからの磁場の歪みから生じる負のフィードバックに似ている。 最後に, 実験条件下でのスピン依存相互作用に対するタイプI超伝導体上に浮遊したFGの感度を評価し, 基礎物理実験におけるFGsの可能性を示す。

A ferromagnetic gyroscope (FG) is a ferromagnet whose angular momentum is dominated by electron spin polarization and that will precess under the action of an external torque, such as that due to a magnetic field. Here we model and analyze FG dynamics and sensitivity, focusing on practical schemes for experimental realization. In the case of a freely floating FG, we model the transition from dynamics dominated by libration in relatively high externally applied magnetic fields, to those dominated by precession at relatively low applied fields. Measurement of the libration frequency enables in situ measurement of the magnetic field and a technique to reduce the field below the threshold for which precession dominates the FG dynamics. We note that evidence of gyroscopic behavior is present even at magnetic fields much larger than the threshold field below which precession dominates. We also model the dynamics of an FG levitated above a type-I superconductor via the Meissner effect, and find that for FGs with dimensions larger than about 100 nm the observed precession frequency is reduced compared to that of a freely floating FG. This is akin to negative feedback that arises from the distortion of the field from the FG by the superconductor. Finally we assess the sensitivity of an FG levitated above a type-I superconductor to exotic spin-dependent interactions under practical experimental conditions, demonstrating the potential of FGs for tests of fundamental physics.
翻訳日:2023-04-28 19:51:03 公開日:2020-10-17
# TEASER: 高速で認証可能なポイントクラウド登録

TEASER: Fast and Certifiable Point Cloud Registration ( http://arxiv.org/abs/2001.07715v2 )

ライセンス: Link先を確認
Heng Yang, Jingnan Shi, Luca Carlone(参考訳) 本研究では,2組の3dポイントを多量に対応して登録する最初の高速かつ証明可能なアルゴリズムを提案する。 我々はまず,少数のスプリアス対応に敏感なTruncated Least Squares (TLS) コストを用いて,登録問題を再構成する。 次に,3つの変換をカスケードで解くことができるスケール,回転,翻訳推定を分離する一般グラフ理論フレームワークを提案する。 各サブプロブレムが依然として非凸かつコンビネーションであるという事実にもかかわらず、私たちはそのことを証明している。 i)TLSスケールと(コンポーネントワイド)翻訳推定は、適応投票により多項式時間で解くことができる。 (ii)TLS回転推定は半定値プログラム(SDP)に緩和でき、極端外れ率の存在下でも緩和は厳密である。 3) グラフ理論の枠組みは, 最大傾きを求めることによって, アウトレーヤの急激なプルーニングを可能にする。 得られたアルゴリズムはTEASER (Truncated least squares Estimation and Semidefinite Relaxation) である。 大規模なSDP緩和の解法は一般的に遅いが, TEASER++ と呼ばれる2番目の高速かつ証明可能なアルゴリズムを開発した。 いずれのアルゴリズムも、ロバストな登録問題に対する最初の種類の推定誤差に関する理論的境界を提供する。 さらに、標準、オブジェクト検出、および3dmatchベンチマークでパフォーマンスをテストし、それを示す。 (i)どちらのアルゴリズムも技術の現状を支配し、99%以上の外れ値に対して頑健である。 (ii)TEASER++はミリ秒で実行でき、 (iii)TEASER++は非常に頑丈で、通信なしでも解決できるため、ICPよりも優れており、Go-ICPよりも桁違いに高速である。

We propose the first fast and certifiable algorithm for the registration of two sets of 3D points in the presence of large amounts of outlier correspondences. We first reformulate the registration problem using a Truncated Least Squares (TLS) cost that is insensitive to a large fraction of spurious correspondences. Then, we provide a general graph-theoretic framework to decouple scale, rotation, and translation estimation, which allows solving in cascade for the three transformations. Despite the fact that each subproblem is still non-convex and combinatorial in nature, we show that (i) TLS scale and (component-wise) translation estimation can be solved in polynomial time via adaptive voting, (ii) TLS rotation estimation can be relaxed to a semidefinite program (SDP) and the relaxation is tight, even in the presence of extreme outlier rates, and (iii) the graph-theoretic framework allows drastic pruning of outliers by finding the maximum clique. We name the resulting algorithm TEASER (Truncated least squares Estimation And SEmidefinite Relaxation). While solving large SDP relaxations is typically slow, we develop a second fast and certifiable algorithm, named TEASER++, that uses graduated non-convexity to solve the rotation subproblem and leverages Douglas-Rachford Splitting to efficiently certify global optimality. For both algorithms, we provide theoretical bounds on the estimation errors, which are the first of their kind for robust registration problems. Moreover, we test their performance on standard, object detection, and the 3DMatch benchmarks, and show that (i) both algorithms dominate the state of the art and are robust to more than 99% outliers, (ii) TEASER++ can run in milliseconds, and (iii) TEASER++ is so robust it can also solve problems without correspondences, where it largely outperforms ICP and it is more accurate than Go-ICP while being orders of magnitude faster.
翻訳日:2023-01-08 00:38:14 公開日:2020-10-17
# 変分エンコーダに基づく信頼性分類

Variational Encoder-based Reliable Classification ( http://arxiv.org/abs/2002.08289v2 )

ライセンス: Link先を確認
Chitresh Bhushan, Zhaoyuan Yang, Nurali Virani, Naresh Iyer(参考訳) 機械学習モデルは、個々の信頼できない統計的に印象的な結果を提供する。 信頼性を確保するため,トレーニングデータセットからの支持と再建の質を利用して,その信念を正当化できる疫学的分類器(EC)を提案する。 提案手法は,知覚的に類似したインスタンスが$\ell_2$-distanceに近接している意味的に意味のある低次元空間を識別できる変分自動エンコーダに基づいている。 本研究は,ソフトマックスベースしきい値の基準値と比較し,予測の信頼性の向上と対角攻撃による試料の堅牢な同定を行った。

Machine learning models provide statistically impressive results which might be individually unreliable. To provide reliability, we propose an Epistemic Classifier (EC) that can provide justification of its belief using support from the training dataset as well as quality of reconstruction. Our approach is based on modified variational auto-encoders that can identify a semantically meaningful low-dimensional space where perceptually similar instances are close in $\ell_2$-distance too. Our results demonstrate improved reliability of predictions and robust identification of samples with adversarial attacks as compared to baseline of softmax-based thresholding.
翻訳日:2022-12-30 12:50:20 公開日:2020-10-17
# 勾配昇降正規化流れ

Gradient Boosted Normalizing Flows ( http://arxiv.org/abs/2002.11896v4 )

ライセンス: Link先を確認
Robert Giaquinto and Arindam Banerjee(参考訳) 微分可逆変換の列をチェーンすることで、正規化フロー(NF)は後続近似、正確な密度評価、サンプリングの表現方法を提供する。 フロー文学の正規化のトレンドは、柔軟性を高めるためにより深く、より複雑な変換を考案することであった。 グラディエントブースト正規化フロー (GBNF) は、勾配上昇を伴う新しいNF成分を連続的に付加することにより密度をモデル化する。 boosting frameworkの下では、新しいnfコンポーネントがサンプル重み付けされた度合目標を最適化し、その結果、トレーニング済みのコンポーネントの残差に適合する新しいコンポーネントが生成される。 GBNFの定式化は混合モデル構造となり、より多くのコンポーネントを追加すると柔軟性が増す。 さらに、GBNFは、より深く、より深く、より複雑な変換ではなく、追加のトレーニングコストで既存のNFを改善するアプローチを提供する。 本稿では,gbnfと可変オートエンコーダを結合した画像生成モデルを用いて,密度推定手法の有効性を示す。 その結果,gbnfsは非ブーストアナログよりも優れており,より小さく,より単純なフローでより良い結果が得られた。

By chaining a sequence of differentiable invertible transformations, normalizing flows (NF) provide an expressive method of posterior approximation, exact density evaluation, and sampling. The trend in normalizing flow literature has been to devise deeper, more complex transformations to achieve greater flexibility. We propose an alternative: Gradient Boosted Normalizing Flows (GBNF) model a density by successively adding new NF components with gradient boosting. Under the boosting framework, each new NF component optimizes a sample weighted likelihood objective, resulting in new components that are fit to the residuals of the previously trained components. The GBNF formulation results in a mixture model structure, whose flexibility increases as more components are added. Moreover, GBNFs offer a wider, as opposed to strictly deeper, approach that improves existing NFs at the cost of additional training---not more complex transformations. We demonstrate the effectiveness of this technique for density estimation and, by coupling GBNF with a variational autoencoder, generative modeling of images. Our results show that GBNFs outperform their non-boosted analog, and, in some cases, produce better results with smaller, simpler flows.
翻訳日:2022-12-28 07:22:48 公開日:2020-10-17
# 接地言語理解における体系的一般化のためのベンチマーク

A Benchmark for Systematic Generalization in Grounded Language Understanding ( http://arxiv.org/abs/2003.05161v2 )

ライセンス: Link先を確認
Laura Ruis, Jacob Andreas, Marco Baroni, Diane Bouchacourt, Brenden M. Lake(参考訳) 人間は慣れ親しんだ部分("greet the pink brontosaurus by the ferris wheel")からなる不慣れな状況を表す表現を容易に解釈する。 対照的に、現代のニューラルネットワークは、新しい構成を解釈するのに苦労している。 本稿では,位置言語理解における合成一般化を評価するための新しいベンチマークgSCANを提案する。 一般化の構文的な側面に焦点を当てた関連するベンチマークを超えて、gscanはグリッド世界の状態に基づいた言語を定義し、言語に動機づけられた規則を取得するための新しい評価を促進する。 例えば、エージェントは「小さな」のような形容詞が現在の世界状態に対してどのように解釈されるか、あるいは「慎重に」のような副詞が新しい動詞とどのように結合するかを理解する必要がある。 我々は,強いマルチモーダルベースラインモデルと最先端の合成法を検証したところ,一般化が体系的な構成規則を必要とする場合,ほとんどの場合,それらは劇的に失敗することがわかった。

Humans easily interpret expressions that describe unfamiliar situations composed from familiar parts ("greet the pink brontosaurus by the ferris wheel"). Modern neural networks, by contrast, struggle to interpret novel compositions. In this paper, we introduce a new benchmark, gSCAN, for evaluating compositional generalization in situated language understanding. Going beyond a related benchmark that focused on syntactic aspects of generalization, gSCAN defines a language grounded in the states of a grid world, facilitating novel evaluations of acquiring linguistically motivated rules. For example, agents must understand how adjectives such as 'small' are interpreted relative to the current world state or how adverbs such as 'cautiously' combine with new verbs. We test a strong multi-modal baseline model and a state-of-the-art compositional method finding that, in most cases, they fail dramatically when generalization requires systematic compositional rules.
翻訳日:2022-12-24 13:12:17 公開日:2020-10-17
# dga、eメール、urlデータ分析における不均衡を扱うディープラーニングベースのフレームワーク

Deep Learning based Frameworks for Handling Imbalance in DGA, Email, and URL Data Analysis ( http://arxiv.org/abs/2004.04812v2 )

ライセンス: Link先を確認
Simran K, Prathiksha Balakrishna, Vinayakumar Ravi, Soman KP(参考訳) ディープラーニングは、多くのアプリケーションのための最先端の手法です。 主な問題は、リアルタイムデータのほとんどが本質的に非常に不均衡であることだ。 トレーニングのバイアスを避けるために、コストに敏感なアプローチが用いられる。 本稿では、コストに敏感なディープラーニングフレームワークを提案し、ドメイン生成アルゴリズム(dga)、電子メール(email)、統一リソースロケータ(url)の3つの異なるサイバーセキュリティユースケースにおいて、フレームワークの性能を評価する。 コストに敏感な手法とコストに敏感な手法を用いて様々な実験を行い、これらの方法のパラメータはハイパーパラメータチューニングに基づいて設定される。 すべての実験において、コストに敏感なディープラーニング手法はコストに敏感なアプローチよりも優れている。 これは主に、コストに敏感なアプローチがトレーニング中にサンプルの数が非常に少ないクラスに重要になるためであり、より効率的な方法ですべてのクラスを学ぶのに役立ちます。

Deep learning is a state of the art method for a lot of applications. The main issue is that most of the real-time data is highly imbalanced in nature. In order to avoid bias in training, cost-sensitive approach can be used. In this paper, we propose cost-sensitive deep learning based frameworks and the performance of the frameworks is evaluated on three different Cyber Security use cases which are Domain Generation Algorithm (DGA), Electronic mail (Email), and Uniform Resource Locator (URL). Various experiments were performed using cost-insensitive as well as cost-sensitive methods and parameters for both of these methods are set based on hyperparameter tuning. In all experiments, the cost-sensitive deep learning methods performed better than the cost-insensitive approaches. This is mainly due to the reason that cost-sensitive approach gives importance to the classes which have a very less number of samples during training and this helps to learn all the classes in a more efficient manner.
翻訳日:2022-12-18 00:12:57 公開日:2020-10-17
# 命令事項:人間-ロボットチームにおける計画課題の進行的説明の生成

Order Matters: Generating Progressive Explanations for Planning Tasks in Human-Robot Teaming ( http://arxiv.org/abs/2004.07822v2 )

ライセンス: Link先を確認
Mehrdad Zakershahrak, Shashank Rao Marpally, Akshay Sharma, Ze Gong and Yu Zhang(参考訳) 計画と意思決定のコンテキストで説明を生成するための以前の作業は、AIエージェントの意思決定の背後にある根拠を提供することに重点を置いていた。 これらの方法は説明者の視点から正しい説明を与えるが、説明者(人間)の視点から説明を理解するという認知的要求を無視することができない。 本研究では、まず、説明における情報順序の影響や説明の進行性を考慮して、この問題に対処することを試みた。 直感的には、進歩は後の概念を以前の概念の上に構築し、より良い学習に寄与することが知られている。 本研究では,説明文を複数の部分に分割して順次通信する場合に,説明文生成時の類似効果について検討する。 ここでの課題は、人間の情報順序の好みをモデル化し、そのような説明を受け取って理解を助けることである。 このシーケンシャルなプロセスから、プログレッシブな説明を生成するためのゴールベースのMDPに基づく定式化を示す。 このMDPの報酬関数は、人体研究によって得られた説明に基づいて逆強化学習によって学習される。 我々はまず,スキャベンジャーハントドメインに対するアプローチを評価し,人間の嗜好を効果的に捉えた。 結果を分析すると、さらに根本的なことが明らかになった: ドメイン依存と独立性の両方の特徴から、好みが強く生じる。 ドメインに依存しない機能との相関から、エスケープルームドメインでこの結果がさらに検証されたのです。 その結果,説明の理解過程は動的プロセスであるという仮説が得られた。 この側面を反映した人間の嗜好は、認知過程の奥深くに隠れた知識同化の進行にちょうど一致する。

Prior work on generating explanations in a planning and decision-making context has focused on providing the rationale behind an AI agent's decision making. While these methods provide the right explanations from the explainer's perspective, they fail to heed the cognitive requirement of understanding an explanation from the explainee's (the human's) perspective. In this work, we set out to address this issue by first considering the influence of information order in an explanation, or the progressiveness of explanations. Intuitively, progression builds later concepts on previous ones and is known to contribute to better learning. In this work, we aim to investigate similar effects during explanation generation when an explanation is broken into multiple parts that are communicated sequentially. The challenge here lies in modeling the humans' preferences for information order in receiving such explanations to assist understanding. Given this sequential process, a formulation based on goal-based MDP for generating progressive explanations is presented. The reward function of this MDP is learned via inverse reinforcement learning based on explanations that are retrieved via human subject studies. We first evaluated our approach on a scavenger-hunt domain to demonstrate its effectively in capturing the humans' preferences. Upon analyzing the results, it revealed something more fundamental: the preferences arise strongly from both domain dependent and independence features. The correlation with domain independent features pushed us to verify this result further in an escape room domain. Results confirmed our hypothesis that the process of understanding an explanation was a dynamic process. The human preference that reflected this aspect corresponded exactly to the progression for knowledge assimilation hidden deeper in our cognitive process.
翻訳日:2022-12-12 21:37:45 公開日:2020-10-17
# AGIF: 複数入射検出とスロットフィリングのための適応型グラフ対話型フレームワーク

AGIF: An Adaptive Graph-Interactive Framework for Joint Multiple Intent Detection and Slot Filling ( http://arxiv.org/abs/2004.10087v4 )

ライセンス: Link先を確認
Libo Qin, Xiao Xu, Wanxiang Che, Ting Liu(参考訳) 現実のシナリオでは、ユーザーは通常同じ発話で複数の意図を持つ。 残念なことに、ほとんどのtalkd language understanding (slu)モデルは、主に単一のインテントシナリオに焦点を当てたものか、トークンレベルのスロット予測のためのきめ細かい複数のインテント情報統合を無視して、すべてのトークンに全体的なインテントコンテキストベクターを組み込んだものである。 本稿では,複数意図検出とスロットフィリングを併用したアダプティブグラフ対話フレームワーク(AGIF)を提案し,スロットとインテントの強い相関関係をモデル化するインテントスロットグラフ相互作用層を提案する。 このような相互作用層を各トークンに適応的に適用し、関連するインテント情報を自動抽出する利点があり、トークンレベルのスロット予測にきめ細かいインテント情報を統合する。 3つのマルチインテリジェントデータセットの実験結果から,我々のフレームワークは大幅に改善され,最先端の性能が達成されることが示された。 さらに,本フレームワークは,2つの単一インテリジェントデータセットに対して,最先端の新たなパフォーマンスを実現する。

In real-world scenarios, users usually have multiple intents in the same utterance. Unfortunately, most spoken language understanding (SLU) models either mainly focused on the single intent scenario, or simply incorporated an overall intent context vector for all tokens, ignoring the fine-grained multiple intents information integration for token-level slot prediction. In this paper, we propose an Adaptive Graph-Interactive Framework (AGIF) for joint multiple intent detection and slot filling, where we introduce an intent-slot graph interaction layer to model the strong correlation between the slot and intents. Such an interaction layer is applied to each token adaptively, which has the advantage to automatically extract the relevant intents information, making a fine-grained intent information integration for the token-level slot prediction. Experimental results on three multi-intent datasets show that our framework obtains substantial improvement and achieves the state-of-the-art performance. In addition, our framework achieves new state-of-the-art performance on two single-intent datasets.
翻訳日:2022-12-11 07:34:49 公開日:2020-10-17
# ディープラーニングにおける暗黙の正規化は規範によって説明できないかもしれない

Implicit Regularization in Deep Learning May Not Be Explainable by Norms ( http://arxiv.org/abs/2005.06398v2 )

ライセンス: Link先を確認
Noam Razin, Nadav Cohen(参考訳) 勾配に基づく最適化によって引き起こされる暗黙の正規化を数学的に特徴づけることは、ディープラーニング理論における長年の追求である。 ノルムの最小化に基づく特徴付けが適用可能であり、この可能性を研究するための標準的なテストベッドは行列分解(線形ニューラルネットワークによる行列完備化)である。 ノルムが行列分解における暗黙の正則化を説明できるかどうかは明らかな問題である。 現在の論文は、暗黙の正則化がすべてのノルム(および準ノルム)を無限遠へと導く自然行列分解問題が存在することを証明して、負のこの公然とした問題を解く。 我々の結果は、ノルムによる暗黙の正規化を知覚するよりも、潜在的により有用な解釈はランクの最小化であることを示唆している。 この解釈が非線形ニューラルネットワークのある種のクラスにまで及んでいることを実証し、深層学習における一般化を説明する鍵となるかもしれないと仮定する。

Mathematically characterizing the implicit regularization induced by gradient-based optimization is a longstanding pursuit in the theory of deep learning. A widespread hope is that a characterization based on minimization of norms may apply, and a standard test-bed for studying this prospect is matrix factorization (matrix completion via linear neural networks). It is an open question whether norms can explain the implicit regularization in matrix factorization. The current paper resolves this open question in the negative, by proving that there exist natural matrix factorization problems on which the implicit regularization drives all norms (and quasi-norms) towards infinity. Our results suggest that, rather than perceiving the implicit regularization via norms, a potentially more useful interpretation is minimization of rank. We demonstrate empirically that this interpretation extends to a certain class of non-linear neural networks, and hypothesize that it may be key to explaining generalization in deep learning.
翻訳日:2022-12-03 09:58:12 公開日:2020-10-17
# 硬形制約カーネルマシン

Hard Shape-Constrained Kernel Machines ( http://arxiv.org/abs/2005.12636v2 )

ライセンス: Link先を確認
Pierre-Cyril Aubin-Frankowski, Zoltan Szabo(参考訳) 形状制約(非負性性、単調性、凸性など)は、多くのアプリケーションにおいて中心的な役割を果たす。 しかし、これらの形状要求を厳しい方法で実施することは、非常に難しい問題である。 古典的には この課題は (i)ソフトな方法で(保証外保証なしで) (ii) ケース・バイ・ケースに基づく変数の特殊変換、又は (iii)多項式や多項式スプラインのような高度に制限された関数クラスを使用すること。 本稿では,関数導関数に対するハードアフィン形状制約を,機械学習や統計学において最も柔軟かつ強力なツールの1つであるカーネルマシンに符号化できることを示す。 特に,凸解法において容易に実装可能な2次コーン拘束型再構成を提案する。 提案手法の性能保証を証明し, 共同量子化回帰におけるアプローチの効率性, 経済への応用, 航空機軌道解析等について述べる。

Shape constraints (such as non-negativity, monotonicity, convexity) play a central role in a large number of applications, as they usually improve performance for small sample size and help interpretability. However enforcing these shape requirements in a hard fashion is an extremely challenging problem. Classically, this task is tackled (i) in a soft way (without out-of-sample guarantees), (ii) by specialized transformation of the variables on a case-by-case basis, or (iii) by using highly restricted function classes, such as polynomials or polynomial splines. In this paper, we prove that hard affine shape constraints on function derivatives can be encoded in kernel machines which represent one of the most flexible and powerful tools in machine learning and statistics. Particularly, we present a tightened second-order cone constrained reformulation, that can be readily implemented in convex solvers. We prove performance guarantees on the solution, and demonstrate the efficiency of the approach in joint quantile regression with applications to economics and to the analysis of aircraft trajectories, among others.
翻訳日:2022-11-28 23:47:43 公開日:2020-10-17
# 誘導型adversarial autoencoderを用いた高忠実度音声生成と表現学習

High-Fidelity Audio Generation and Representation Learning with Guided Adversarial Autoencoder ( http://arxiv.org/abs/2006.00877v2 )

ライセンス: Link先を確認
Kazi Nazmul Haque, Rajib Rana, Bj\"orn W Schuller(参考訳) 機械学習研究分野において, 教師なし不整合表現学習と高忠実度音声生成が2つのリンチピンとなった。 しかし、教師なしの設定から学んだ表現は、その特定の後の仕事のために訓練が行われた場合、そのリソースの無駄遣いになり得る、手元にあるダウンストリームタスクのユーザビリティを保証するものではない。 また、表現学習中に、モデルが下流タスクに対して非常に偏りがある場合、下流ジョブに直接利益をもたらす一般化能力を失うが、他の関連するタスクにスケールする能力は失われる。 そこで本研究では,このギャップを埋めるために,後タスク固有の表現と,ラベル付きサンプルのごく一部を活用したトレーニングデータの変動要因を捉える汎用表現の両方を学習できる「guided adversarial autoencoder(gaae)」という新しい自動エンコーダモデルを提案する。 さらに,提案モデルでは,実際の音響サンプルと区別できない品質の音声を生成することができる。 その結果,高忠実度音声生成のパワーを活用することで,GAAEモデルでは,ラベル付きデータの少ないパーセンテージを監督/ガイダンスとして活用して,ラベル付きデータセットから強力な表現を学習できることが実証された。

Unsupervised disentangled representation learning from the unlabelled audio data, and high fidelity audio generation have become two linchpins in the machine learning research fields. However, the representation learned from an unsupervised setting does not guarantee its' usability for any downstream task at hand, which can be a wastage of the resources, if the training was conducted for that particular posterior job. Also, during the representation learning, if the model is highly biased towards the downstream task, it losses its generalisation capability which directly benefits the downstream job but the ability to scale it to other related task is lost. Therefore, to fill this gap, we propose a new autoencoder based model named "Guided Adversarial Autoencoder (GAAE)", which can learn both post-task-specific representations and the general representation capturing the factors of variation in the training data leveraging a small percentage of labelled samples; thus, makes it suitable for future related tasks. Furthermore, our proposed model can generate audio with superior quality, which is indistinguishable from the real audio samples. Hence, with the extensive experimental results, we have demonstrated that by harnessing the power of the high-fidelity audio generation, the proposed GAAE model can learn powerful representation from unlabelled dataset leveraging a fewer percentage of labelled data as supervision/guidance.
翻訳日:2022-11-26 06:41:22 公開日:2020-10-17
# スパース潜在変数を用いた制限ボルツマンマシンの学習

Learning Restricted Boltzmann Machines with Sparse Latent Variables ( http://arxiv.org/abs/2006.04166v2 )

ライセンス: Link先を確認
Guy Bresler, Rares-Darius Buhai(参考訳) 制限ボルツマンマシン(RBMs)は、潜在変数を持つ非指向型グラフィカルモデルの一般的なファミリーである。 RBMは二部グラフによって記述され、観察された全ての変数は1つの層に、全ての潜伏変数はもう一方の層に記述される。 我々は,RBMが生成したサンプルを学習する作業について検討する。 このタスクに最適なアルゴリズムは、現在時間複雑性 $\tilde{O}(n^2)$ for ferromagnetic RBMs (すなわち、魅力的なポテンシャルを持つ) but $\tilde{O}(n^d)$ for general RBMs, where $n$ is the number of observed variables and $d$ is the maximum degree of a latent variable。 観測変数の MRF 近傍を、観測変数の辺分布のマルコフランダム場(Markov Random Field)の近傍とする。 本稿では,観測変数のMRF近傍に接続する潜伏変数の最大値である$s$について,時間複雑性を持つ一般RBMを学習するためのアルゴリズムを提案する。 これは、s < \log_2 (d-1)$ がスパース潜在変数を持つ RBM に対応する場合の改善である。 さらに, この学習アルゴリズムでは, 予測誤差が小さく, サンプル複雑性が観測変数のマルコフ確率場における最小ポテンシャルとは無関係なモデルを復元する。 これは、現在のアルゴリズムのサンプルの複雑さが最小ポテンシャルの逆でスケールするためであり、RBMの自然な性質では制御できない。

Restricted Boltzmann Machines (RBMs) are a common family of undirected graphical models with latent variables. An RBM is described by a bipartite graph, with all observed variables in one layer and all latent variables in the other. We consider the task of learning an RBM given samples generated according to it. The best algorithms for this task currently have time complexity $\tilde{O}(n^2)$ for ferromagnetic RBMs (i.e., with attractive potentials) but $\tilde{O}(n^d)$ for general RBMs, where $n$ is the number of observed variables and $d$ is the maximum degree of a latent variable. Let the MRF neighborhood of an observed variable be its neighborhood in the Markov Random Field of the marginal distribution of the observed variables. In this paper, we give an algorithm for learning general RBMs with time complexity $\tilde{O}(n^{2^s+1})$, where $s$ is the maximum number of latent variables connected to the MRF neighborhood of an observed variable. This is an improvement when $s < \log_2 (d-1)$, which corresponds to RBMs with sparse latent variables. Furthermore, we give a version of this learning algorithm that recovers a model with small prediction error and whose sample complexity is independent of the minimum potential in the Markov Random Field of the observed variables. This is of interest because the sample complexity of current algorithms scales with the inverse of the minimum potential, which cannot be controlled in terms of natural properties of the RBM.
翻訳日:2022-11-24 08:05:11 公開日:2020-10-17
# 潜伏指紋のスプーフは、最先端の生命体検知器にとって真の脅威か?

Are spoofs from latent fingerprints a real threat for the best state-of-art liveness detectors? ( http://arxiv.org/abs/2007.03397v2 )

ライセンス: Link先を確認
Roberto Casula, Giulia Orr\`u, Daniele Angioni, Xiaoyi Feng, Gian Luca Marcialis, Fabio Roli(参考訳) 我々は,最先端のライブネス検出装置と,そのようなライブネスアルゴリズムを組み込んだ指紋認証システムを備えたセンサに対して,潜在指紋を用いた現実的な攻撃の脅威レベルを調査した。 我々の知る限りでは、過去の調査は潜入印刷物のスプーフでのみ行われた。 本稿では,潜伏指紋のスナップショット画像の利用に焦点を当てる。 これらの写真は、いくつかのデジタル処理の後、高品質なスプーフを製造できる金型を提供する。 スナップショット画像を取るのは、磁気粉で表面に残っていた指紋を現像し、テープで痕跡を持ち上げるよりもずっと簡単です。 ここで私たちが興味を持っているのは、この種の攻撃が最先端の指紋検出システムや認証システムの真の脅威と見なされるかどうかの予備評価です。 そこで本研究では,潜伏指紋のスナップショット画像を用いた実写画像とスプーフ画像のデータセットを新たに収集した。 このデータセットは、最も好ましい条件下で一連の攻撃を提供する。 本手法と関連するデータセットを「ScreenSpoof」と呼ぶ。 次に、私たちは、最高のライブネス検出アルゴリズム、すなわち、LivDetコンペティションの3つの勝者のパフォーマンスをテストしました。 報告された結果によると、screenspoofメソッドは、被害者の完全なコンセンサスで作成されたspoofsを使った攻撃よりも、検出と検証エラーの点で同じレベルの脅威である。 これは注目すべき結果であり、以前の研究では報告されていない。

We investigated the threat level of realistic attacks using latent fingerprints against sensors equipped with state-of-art liveness detectors and fingerprint verification systems which integrate such liveness algorithms. To the best of our knowledge, only a previous investigation was done with spoofs from latent prints. In this paper, we focus on using snapshot pictures of latent fingerprints. These pictures provide molds, that allows, after some digital processing, to fabricate high-quality spoofs. Taking a snapshot picture is much simpler than developing fingerprints left on a surface by magnetic powders and lifting the trace by a tape. What we are interested here is to evaluate preliminary at which extent attacks of the kind can be considered a real threat for state-of-art fingerprint liveness detectors and verification systems. To this aim, we collected a novel data set of live and spoof images fabricated with snapshot pictures of latent fingerprints. This data set provide a set of attacks at the most favourable conditions. We refer to this method and the related data set as "ScreenSpoof". Then, we tested with it the performances of the best liveness detection algorithms, namely, the three winners of the LivDet competition. Reported results point out that the ScreenSpoof method is a threat of the same level, in terms of detection and verification errors, than that of attacks using spoofs fabricated with the full consensus of the victim. We think that this is a notable result, never reported in previous work.
翻訳日:2022-11-12 19:58:48 公開日:2020-10-17
# テキスト特徴のマルチスナップショット融合によるpalmveinに基づく個人認識の実験結果

Experimental results on palmvein-based personal recognition by multi-snapshot fusion of textural features ( http://arxiv.org/abs/2008.00821v2 )

ライセンス: Link先を確認
Mohanad Abukmeil and Gian Luca Marcialis(参考訳) 本稿では,パームベイン認識のためのテキスト特徴の複数のスナップショット融合について検討する。 文献では,palmveinの認識にいくつかのアプローチを提案したが,palmveinの性能は同定と検証の誤りによって影響を受けている。 よく知られているように、palmveinは通常、静脈の流れを高める線ベースの方法によって記述される。 これは人によって独特であると言われている。 しかし, パームヴェイン画像は, 局所二項パターン, 局所位相量子化, 局所テラパターン, 局所方向パターン, および二項化統計画像特徴量(LBP, LPQ, LTP, LDP, BSIF)など, 近年で効率的な手作りアルゴリズムに依存しているテクスチャによっても指摘できる。 最後に、複数のサンプルが認識のために取得される場合、特徴レベルの融合で簡単に管理できる。 したがって、これらの特徴を相補的に活用するためにマルチショット融合を用いることができる。 本研究の目的は,palmvein の認識に有効であることを示し,既知のベンチマークデータセットにおいて高い認識率を実現することにある。

In this paper, we investigate multiple snapshot fusion of textural features for palmvein recognition including identification and verification. Although the literature proposed several approaches for palmvein recognition, the palmvein performance is still affected by identification and verification errors. As well-known, palmveins are usually described by line-based methods which enhance the vein flow. This is claimed to be unique from person to person. However, palmvein images are also characterized by texture that can be pointed out by textural features, which relies on recent and efficient hand-crafted algorithms such as Local Binary Patterns, Local Phase Quantization, Local Tera Pattern, Local directional Pattern, and Binarized Statistical Image Features (LBP, LPQ, LTP, LDP and BSIF, respectively), among others. Finally, they can be easily managed at feature-level fusion, when more than one sample can be acquired for recognition. Therefore, multi-snapshot fusion can be adopted for exploiting these features complementarity. Our goal in this paper is to show that this is confirmed for palmvein recognition, thus allowing to achieve very high recognition rates on a well-known benchmark data set.
翻訳日:2022-11-10 23:22:43 公開日:2020-10-17
# 生成的3次元モデリングのための明示的および暗黙的表面表現の結合

Coupling Explicit and Implicit Surface Representations for Generative 3D Modeling ( http://arxiv.org/abs/2007.10294v2 )

ライセンス: Link先を確認
Omid Poursaeed and Matthew Fisher and Noam Aigerman and Vladimir G. Kim(参考訳) 本稿では,2つの相補的な形状表現を利用する3次元曲面を表現するニューラルアーキテクチャを提案する。 (i) アトラスによる明示的な表現,すなわち,2d領域の3dへの埋め込み (ii) 暗黙関数表現、すなわち3次元体積上のスカラー関数であって、そのレベルが曲面を示すもの。 これらの2つの表現は、アトラスから生成された曲面が暗黙の関数のレベル集合と一致するように、新しい一貫性の損失を導入することによって相乗的になる。 ハイブリッドアーキテクチャは,2つの等価な単一表現ネットワークの出力よりも優れた結果を出力することにより,より正確な正規表現を持つ平滑な表面と,より正確な暗黙的占有関数が得られる。 さらに、表面再構成ステップでは、明示的なアトラスに基づく表現を直接活用できる。 このプロセスは計算効率が良く、差別化可能なラスタライザによって直接使用できるため、イメージベースの損失を伴うハイブリッド表現のトレーニングが可能になります。

We propose a novel neural architecture for representing 3D surfaces, which harnesses two complementary shape representations: (i) an explicit representation via an atlas, i.e., embeddings of 2D domains into 3D; (ii) an implicit-function representation, i.e., a scalar function over the 3D volume, with its levels denoting surfaces. We make these two representations synergistic by introducing novel consistency losses that ensure that the surface created from the atlas aligns with the level-set of the implicit function. Our hybrid architecture outputs results which are superior to the output of the two equivalent single-representation networks, yielding smoother explicit surfaces with more accurate normals, and a more accurate implicit occupancy function. Additionally, our surface reconstruction step can directly leverage the explicit atlas-based representation. This process is computationally efficient, and can be directly used by differentiable rasterizers, enabling training our hybrid representation with image-based losses.
翻訳日:2022-11-08 13:32:30 公開日:2020-10-17
# アクティブラーニングのためのランク付けへの学習--リストワイズアプローチ

Learning to Rank for Active Learning: A Listwise Approach ( http://arxiv.org/abs/2008.00078v2 )

ライセンス: Link先を確認
Minghan Li, Xialei Liu, Joost van de Weijer, Bogdan Raducanu(参考訳) アクティブラーニング(Active Learning)は、画像やビデオのインデックス付けや検索、自動運転など、膨大な量のデータをデータ空きアプリケーションにラベル付けするための代替手段として登場した。 アクティブラーニングの目標は、モデルトレーニングにサンプルがどれほど価値があるかを示す獲得関数に基づいて、アノテーションのためのラベルのないサンプル(予算による)を自動的に選択することである。 学習損失法は、モジュールをアタッチして未ラベルデータの目標損失を予測し、ラベル付け時に最も損失の多いデータを選択するタスク非依存の手法である。 本研究では,この問題をランク付けするための学習として獲得関数を定義し,単純かつ効果的なリストワイズ手法を用いて損失予測モジュールの構造を再考する。 4つのデータセットにおける実験結果から,本手法は画像分類と回帰課題の両方において,最新のアクティブラーニング手法よりも優れていることが示された。

Active learning emerged as an alternative to alleviate the effort to label huge amount of data for data hungry applications (such as image/video indexing and retrieval, autonomous driving, etc.). The goal of active learning is to automatically select a number of unlabeled samples for annotation (according to a budget), based on an acquisition function, which indicates how valuable a sample is for training the model. The learning loss method is a task-agnostic approach which attaches a module to learn to predict the target loss of unlabeled data, and select data with the highest loss for labeling. In this work, we follow this strategy but we define the acquisition function as a learning to rank problem and rethink the structure of the loss prediction module, using a simple but effective listwise approach. Experimental results on four datasets demonstrate that our method outperforms recent state-of-the-art active learning approaches for both image classification and regression tasks.
翻訳日:2022-11-04 06:47:47 公開日:2020-10-17
# OR-Gym: 運用研究のための強化学習ライブラリ

OR-Gym: A Reinforcement Learning Library for Operations Research Problems ( http://arxiv.org/abs/2008.06319v2 )

ライセンス: Link先を確認
Christian D. Hubbs and Hector D. Perez and Owais Sarwar and Nikolaos V. Sahinidis and Ignacio E. Grossmann and John M. Wassick(参考訳) 強化学習(Reinforcement Learning, RL)は、ゲームプレイに広く適用され、多くのドメインで最高の人間レベルのパフォーマンスを上回っているが、産業や商業におけるユースケースは少ない。 我々は,運用研究に対処する強化学習アルゴリズムを開発するオープンソースライブラリOR-Gymを紹介する。 本稿では,knapsack,多次元ビンパッキング,多周期サプライチェーン,多周期アセットアロケーションモデル問題に対して強化学習を適用し,MILPおよびヒューリスティックモデルに対するRLソリューションのベンチマークを行う。 これらの問題はロジスティクス、金融、エンジニアリングで使われ、多くのビジネス運用設定でよく見られる。 文献におけるプロトタイプモデルに基づく環境を開発し、RLの結果をベンチマークするために様々な最適化とヒューリスティックモデルを実装している。 一連の古典的最適化問題をRLタスクとして再定義することで、運用研究コミュニティに新たなツールを提供しつつ、OR分野における多くの問題や課題にRLコミュニティに開放することを目指している。

Reinforcement learning (RL) has been widely applied to game-playing and surpassed the best human-level performance in many domains, yet there are few use-cases in industrial or commercial settings. We introduce OR-Gym, an open-source library for developing reinforcement learning algorithms to address operations research problems. In this paper, we apply reinforcement learning to the knapsack, multi-dimensional bin packing, multi-echelon supply chain, and multi-period asset allocation model problems, as well as benchmark the RL solutions against MILP and heuristic models. These problems are used in logistics, finance, engineering, and are common in many business operation settings. We develop environments based on prototypical models in the literature and implement various optimization and heuristic models in order to benchmark the RL results. By re-framing a series of classic optimization problems as RL tasks, we seek to provide a new tool for the operations research community, while also opening those in the RL community to many of the problems and challenges in the OR field.
翻訳日:2022-10-30 16:34:06 公開日:2020-10-17
# 欠落非ランダムフィードバックによる情報理論的反事実学習

Information Theoretic Counterfactual Learning from Missing-Not-At-Random Feedback ( http://arxiv.org/abs/2009.02623v2 )

ライセンス: Link先を確認
Zifeng Wang and Xi Chen and Rui Wen and Shao-Lun Huang and Ercan E. Kuruoglu and Yefeng Zheng(参考訳) MNARデータは現代のレコメンデーションシステムで広く使われているので、MNARはレコメンデーション文献の中で興味深いトピックである。 ランダム(mar)データ、すなわちランダム化制御試行(rcts)は、通常、以前のデバイアス学習のための反事実学習法によって要求される。 しかし、実際にはrctsの実行は非常に高価である。 rctsの使用を回避するために,rctsを使わずに脱バイアス学習の代替として,情報理論的な反事実変動情報ボトルネック(cvib)を構築する。 元の情報ボトルネックラグランジアンにおけるタスクアウェアな相互情報項を、事実的および非事実的部分に分割することにより、対照的情報損失と追加的な出力信頼度ペナルティを導出し、事実的および反事実的ドメイン間のバランスの取れた学習を促進する。 実世界のデータセットに対する経験的評価は、我々のcvibが浅層モデルと深層モデルの両方を著しく強化していることを示している。

Counterfactual learning for dealing with missing-not-at-random data (MNAR) is an intriguing topic in the recommendation literature since MNAR data are ubiquitous in modern recommender systems. Missing-at-random (MAR) data, namely randomized controlled trials (RCTs), are usually required by most previous counterfactual learning methods for debiasing learning. However, the execution of RCTs is extraordinarily expensive in practice. To circumvent the use of RCTs, we build an information-theoretic counterfactual variational information bottleneck (CVIB), as an alternative for debiasing learning without RCTs. By separating the task-aware mutual information term in the original information bottleneck Lagrangian into factual and counterfactual parts, we derive a contrastive information loss and an additional output confidence penalty, which facilitates balanced learning between the factual and counterfactual domains. Empirical evaluation on real-world datasets shows that our CVIB significantly enhances both shallow and deep models, which sheds light on counterfactual learning in recommendation that goes beyond RCTs.
翻訳日:2022-10-21 08:12:52 公開日:2020-10-17
# MSP:FPGA特有の混合スキーム、マルチ精度ディープニューラルネットワーク量子化フレームワーク

MSP: An FPGA-Specific Mixed-Scheme, Multi-Precision Deep Neural Network Quantization Framework ( http://arxiv.org/abs/2009.07460v2 )

ライセンス: Link先を確認
Sung-En Chang, Yanyu Li, Mengshu Sun, Weiwen Jiang, Runbin Shi, Xue Lin, Yanzhi Wang(参考訳) ディープラーニングの驚異的な成功により、エッジデバイスにディープラーニングモデルをデプロイする必要性が差し迫っている。 エッジデバイスの限られたコンピューティングとストレージリソースに取り組むために、モデル圧縮技術はデバイス上での推論実行のためにディープニューラルネットワーク(DNN)モデルをトリムするために広く使用されている。 本稿では,DNNエッジコンピューティングのハードウェアプラットフォームとして,FPGA(フィールドプログラマブルゲートアレイ)デバイスを対象とする。 DNNの量子化はハードウェアプラットフォーム上でのDNNモデルの実装において非常に重要であるため、DNNの量子化を主要なモデル圧縮技術として重視する。 この作品の目新しさは2つあります i) FPGA上でのLUT(テーブルの表示)とDSP(デジタル信号プロセッサ)といった異種コンピューティング資源の利用を促進することを目的として,線形および非線形の数値システムの両方を量子化に組み込んだ混合スキームDNN量子化法を提案する。 既存の(単一スキーム)量子化法はすべて、ディープラーニング計算におけるMAC(multiply-accumulate)演算に対して、LUTまたはDSPのどちらかのタイプのリソースしか利用できないことに注意。 (ii) 既存の量子化法では層内次元に沿って複数の精度をサポートする量子化法を用い, 既存の量子化法では層間次元に沿って多重精度量子化を適用する。 層内マルチ精度法では,異なる層に対するハードウェア構成を統一することで計算オーバーヘッドを低減できると同時に,層間アプローチのモデル精度を維持できる。

With the tremendous success of deep learning, there exists imminent need to deploy deep learning models onto edge devices. To tackle the limited computing and storage resources in edge devices, model compression techniques have been widely used to trim deep neural network (DNN) models for on-device inference execution. This paper targets the commonly used FPGA (field programmable gate array) devices as the hardware platforms for DNN edge computing. We focus on the DNN quantization as the main model compression technique, since DNN quantization has been of great importance for the implementations of DNN models on the hardware platforms. The novelty of this work comes in twofold: (i) We propose a mixed-scheme DNN quantization method that incorporates both the linear and non-linear number systems for quantization, with the aim to boost the utilization of the heterogeneous computing resources, i.e., LUTs (look up tables) and DSPs (digital signal processors) on an FPGA. Note that all the existing (single-scheme) quantization methods can only utilize one type of resources (either LUTs or DSPs for the MAC (multiply-accumulate) operations in deep learning computations. (ii) We use a quantization method that supports multiple precisions along the intra-layer dimension, while the existing quantization methods apply multi-precision quantization along the inter-layer dimension. The intra-layer multi-precision method can uniform the hardware configurations for different layers to reduce computation overhead and at the same time preserve the model accuracy as the inter-layer approach.
翻訳日:2022-10-17 23:29:25 公開日:2020-10-17
# 画像表現のプライバシとユーティリティ保全に向けて

Toward Privacy and Utility Preserving Image Representation ( http://arxiv.org/abs/2009.14376v2 )

ライセンス: Link先を確認
Ahmadreza Mosallanezhad and Yasin N. Silva and Michelle V. Mancenido and Huan Liu(参考訳) 顔画像は、有用なリッチなデータ項目であり、セキュリティや監視システムのドメインにおける1対1の顔認証タスクなど、多くのアプリケーションで簡単に収集できる。 性別や人種などの識別可能な情報の痕跡を取り除くために、画像を摂動することで個人のプライバシーを保護する複数の方法が提案されている。 しかしながら、最適なタスクユーティリティを維持しながら画像を保護するという問題に対する注目は大幅に低下している。 本稿では,AIA(Adversarial Image Anonymizer)と呼ばれる原則的フレームワークを提案することにより,プライバシ保護された画像表現を与えられたユーティリティタスクに対して生成する新たな課題について検討する。 AIAはまず、生成モデルを用いて画像表現を作成し、次に、敵対学習を用いて学習した画像表現を拡張して、与えられたタスクのプライバシーと利便性を維持する。 顔画像のプライバシー保護機構としてのAIAの有効性を示すために,公開データセット上で実験を行った。

Face images are rich data items that are useful and can easily be collected in many applications, such as in 1-to-1 face verification tasks in the domain of security and surveillance systems. Multiple methods have been proposed to protect an individual's privacy by perturbing the images to remove traces of identifiable information, such as gender or race. However, significantly less attention has been given to the problem of protecting images while maintaining optimal task utility. In this paper, we study the novel problem of creating privacy-preserving image representations with respect to a given utility task by proposing a principled framework called the Adversarial Image Anonymizer (AIA). AIA first creates an image representation using a generative model, then enhances the learned image representations using adversarial learning to preserve privacy and utility for a given task. Experiments were conducted on a publicly available data set to demonstrate the effectiveness of AIA as a privacy-preserving mechanism for face images.
翻訳日:2022-10-13 00:11:34 公開日:2020-10-17
# Vertex Infomax Poolingによるグラフクロスネットワーク

Graph Cross Networks with Vertex Infomax Pooling ( http://arxiv.org/abs/2010.01804v2 )

ライセンス: Link先を確認
Maosen Li, Siheng Chen, Ya Zhang, Ivor W. Tsang(参考訳) グラフの複数スケールから包括的特徴学習を実現するための新しいグラフクロスネットワーク(GXN)を提案する。 グラフのトレーニング可能な階層表現に基づいて、GXNは、スケール間で中間的特徴の交換を可能にし、情報フローを促進する。 GXNの2つの重要な要素は、トレーニング可能な方法でマルチスケールグラフを生成する新しい頂点インフォマックスプーリング(VIPool)と、スケールをまたいだ機能交換を可能にする新しい機能横断層である。 提案したVIPoolは,頂点特徴と近傍特徴との相互情報のニューラル推定に基づいて,頂点の最も情報性の高いサブセットを選択する。 直観は、頂点が隣接する情報を最大に反映できるときに有益であるということである。 提案する特徴交差層は,情報フローの改善と隠蔽層でのマルチスケール機能強化により,相互強化のための2つの尺度間の中間的特徴を融合する。 機能横断層の断面形状は、他の多くのマルチスケールアーキテクチャとGXNを区別する。 実験の結果,gxnは,グラフ分類と頂点分類において,分類精度を2.12%,1.15%向上させた。 同じネットワークに基づいて、提案されたvipoolは、他のグラフプールメソッドを一貫して上回っている。

We propose a novel graph cross network (GXN) to achieve comprehensive feature learning from multiple scales of a graph. Based on trainable hierarchical representations of a graph, GXN enables the interchange of intermediate features across scales to promote information flow. Two key ingredients of GXN include a novel vertex infomax pooling (VIPool), which creates multiscale graphs in a trainable manner, and a novel feature-crossing layer, enabling feature interchange across scales. The proposed VIPool selects the most informative subset of vertices based on the neural estimation of mutual information between vertex features and neighborhood features. The intuition behind is that a vertex is informative when it can maximally reflect its neighboring information. The proposed feature-crossing layer fuses intermediate features between two scales for mutual enhancement by improving information flow and enriching multiscale features at hidden layers. The cross shape of the feature-crossing layer distinguishes GXN from many other multiscale architectures. Experimental results show that the proposed GXN improves the classification accuracy by 2.12% and 1.15% on average for graph classification and vertex classification, respectively. Based on the same network, the proposed VIPool consistently outperforms other graph-pooling methods.
翻訳日:2022-10-10 20:39:33 公開日:2020-10-17
# ウィキペディア記事の言語間拡張名前付きエンティティ分類

Cross-lingual Extended Named Entity Classification of Wikipedia Articles ( http://arxiv.org/abs/2010.03424v2 )

ライセンス: Link先を確認
The Viet Bui, Phuong Le-Hong(参考訳) FPT.AIチームはNTCIR-15のシトラ2020-MLサブタスクに参加した。 本稿では,問題の解法と公式な結果について議論する。 本手法は,ページ分類における単語レベルと文書レベルの両方の言語間表現の学習に焦点を当てる。 本稿では,多言語モデル事前学習,単言語モデル微調整,多言語間投票を含む3段階のアプローチを提案する。 私たちのシステムは30言語中25言語で最高のスコアを得ることができ、他の5言語の最高のパフォーマンスシステムとの精度の差は比較的小さいです。

The FPT.AI team participated in the SHINRA2020-ML subtask of the NTCIR-15 SHINRA task. This paper describes our method to solving the problem and discusses the official results. Our method focuses on learning cross-lingual representations, both on the word level and document level for page classification. We propose a three-stage approach including multilingual model pre-training, monolingual model fine-tuning and cross-lingual voting. Our system is able to achieve the best scores for 25 out of 30 languages; and its accuracy gaps to the best performing systems of the other five languages are relatively small.
翻訳日:2022-10-09 23:21:10 公開日:2020-10-17
# 適応型顔認識システムはまだ必要か? APEデータセットの実験

Are Adaptive Face Recognition Systems still Necessary? Experiments on the APE Dataset ( http://arxiv.org/abs/2010.04072v2 )

ライセンス: Link先を確認
Giulia Orr\`u, Marco Micheletto, Julian Fierrez, Gian Luca Marcialis(参考訳) 過去5年間で、ディープラーニングの手法、特にcnnは、顔ベースの認識の分野でかなりの注目を集め、印象的な結果を得ている。 この進歩にもかかわらず、ディープな特徴がどのようにして、顔が時間とともに現れることができる全てのクラス内変化に従うことができるかは明らかになっていない。 本稿では,顔テンプレートの自己更新戦略を採用した顔認識システムの性能改善について検討する。 その目的のために、我々はよく知られた深層学習顔表現、すなわちFaceNetの性能を、大量のキャプチャー(APE)データセット(APhotoEveryday)データセット(APE)データセット)にユーザーのクラス内バリエーションを埋め込むために明示的に考案したデータセット上で評価した。 さらに,これらの特徴をBSIFアルゴリズムを用いて抽出した手作り特徴と比較した。 いずれの場合もテンプレート更新戦略を評価し,この種の機能に対して最も有用なものを検出する。 実験の結果,テンプレートの更新やランダム選択を行わないシステムに対する「最適化」自己更新手法の有効性が示された。

In the last five years, deep learning methods, in particular CNN, have attracted considerable attention in the field of face-based recognition, achieving impressive results. Despite this progress, it is not yet clear precisely to what extent deep features are able to follow all the intra-class variations that the face can present over time. In this paper we investigate the performance the performance improvement of face recognition systems by adopting self updating strategies of the face templates. For that purpose, we evaluate the performance of a well-known deep-learning face representation, namely, FaceNet, on a dataset that we generated explicitly conceived to embed intra-class variations of users on a large time span of captures: the APhotoEveryday (APE) dataset. Moreover, we compare these deep features with handcrafted features extracted using the BSIF algorithm. In both cases, we evaluate various template update strategies, in order to detect the most useful for such kind of features. Experimental results show the effectiveness of "optimized" self-update methods with respect to systems without update or random selection of templates.
翻訳日:2022-10-09 12:35:09 公開日:2020-10-17
# 頑健な自然言語推論のためのモデル非依存デバイアス戦略に関する実証的研究

An Empirical Study on Model-agnostic Debiasing Strategies for Robust Natural Language Inference ( http://arxiv.org/abs/2010.03777v2 )

ライセンス: Link先を確認
Tianyu Liu, Xin Zheng, Xiaoan Ding, Baobao Chang and Zhifang Sui(参考訳) 自然言語推論(nli)の先行研究は、モデルをより堅牢にする必要はないが、主に1つまたは少数の既知のバイアスをターゲットにしている。 本稿では,モデル非依存のデバイアス戦略に着目し,nliモデルを複数の異なる敵の攻撃に対して頑健にする方法と,モデルの一般化力を維持・強化する方法を検討する。 まず、様々な逆数データセット上の事前学習を含むニューラルネットワークNLIモデルをベンチマークする。 次に,複数のNLIバイアスを同時に緩和することは容易ではないことを示すとともに,モデルレベルのアンサンブル法がMoEアンサンブル法より優れていることを示す。 また、テキストスワップ、単語置換、パラフレーズを含むデータ拡張を行い、同時に様々な(すべてではないが)敵対的攻撃に対処するための効率性を証明する。 最後に,NLIモデルの強化に有効な,異種訓練データ(1.35M)をマージし,モデルアンサンブルを行う手法について検討する。

The prior work on natural language inference (NLI) debiasing mainly targets at one or few known biases while not necessarily making the models more robust. In this paper, we focus on the model-agnostic debiasing strategies and explore how to (or is it possible to) make the NLI models robust to multiple distinct adversarial attacks while keeping or even strengthening the models' generalization power. We firstly benchmark prevailing neural NLI models including pretrained ones on various adversarial datasets. We then try to combat distinct known biases by modifying a mixture of experts (MoE) ensemble method and show that it's nontrivial to mitigate multiple NLI biases at the same time, and that model-level ensemble method outperforms MoE ensemble method. We also perform data augmentation including text swap, word substitution and paraphrase and prove its efficiency in combating various (though not all) adversarial attacks at the same time. Finally, we investigate several methods to merge heterogeneous training data (1.35M) and perform model ensembling, which are straightforward but effective to strengthen NLI models.
翻訳日:2022-10-09 11:04:09 公開日:2020-10-17
# リカレントビデオ処理における不安定診断と防止

Diagnosing and Preventing Instabilities in Recurrent Video Processing ( http://arxiv.org/abs/2010.05099v2 )

ライセンス: Link先を確認
Thomas Tanay, Aivar Sootla, Matteo Maggioni, Puneet K. Dokania, Philip Torr, Ales Leonardis and Gregory Slabaugh(参考訳) リカレントモデル(recurrent models)は、ビデオデノイジングなどのビデオエンハンスメントタスクで一般的な選択肢となっている。 本研究では,動的システムとしての安定性に着目し,長い映像列の推測時間に破滅的に失敗する傾向を示す。 この問題に対処するために,(1)不安定性を誘発するために最適化された逆入力列を生成する診断ツールを導入し,(2)時空間受容場の可視化として解釈し,(2)モデルの安定性を実現するための2つのアプローチを提案する。 次に、これらの制約を強制する新しいアルゴリズムであるSRNL(Stable Rank Normalization of the Layers)を導入し、安定したリカレントビデオ処理を実現する実験を行った。

Recurrent models are becoming a popular choice for video enhancement tasks such as video denoising. In this work, we focus on their stability as dynamical systems and show that they tend to fail catastrophically at inference time on long video sequences. To address this issue, we (1) introduce a diagnostic tool which produces adversarial input sequences optimized to trigger instabilities and that can be interpreted as visualizations of spatio-temporal receptive fields, and (2) propose two approaches to enforce the stability of a model: constraining the spectral norm or constraining the stable rank of its convolutional layers. We then introduce Stable Rank Normalization of the Layers (SRNL), a new algorithm that enforces these constraints, and verify experimentally that it successfully results in stable recurrent video processing.
翻訳日:2022-10-08 23:20:47 公開日:2020-10-17
# プラグインソルバーは特徴ベース強化学習に有効か?

Is Plug-in Solver Sample-Efficient for Feature-based Reinforcement Learning? ( http://arxiv.org/abs/2010.05673v2 )

ライセンス: Link先を確認
Qiwen Cui and Lin F. Yang(参考訳) モデルに基づく強化学習(rl)アプローチが,サンプル複雑性の低減の鍵であると考えられている。 しかし、モデルベースRLのサンプル最適性の理解は、線形の場合においても、まだほとんど失われている。 この研究は、生成モデルにのみアクセス可能な線形加法的特徴表現を持つマルコフ決定過程(MDP)において、$\epsilon$-optimal Policyを見つけるというサンプルの複雑さを考察する。 実験モデルを構築し,任意のプラグインソルバを用いて実験モデルを計画するプラグインソルバ手法を用いてこの問題を解決する。 特徴空間における暗黙的な非負性を示すアンカー状態仮定の下では、$\epsilon$-optimal policy in a $\gamma$-discounted MDP is $O(K/(1-\gamma)^3\epsilon^2)$というミニマックスサンプルの複雑さは、特徴空間の次元$K$にのみ依存し、状態や作用空間に依存しない。 さらに、アンカー状態が存在しないような緩和された設定に結果を拡張し、プラグインアプローチがサンプル効率も向上できることを示し、rlのモデルベースのアルゴリズムを設計するための柔軟なアプローチを提供します。

It is believed that a model-based approach for reinforcement learning (RL) is the key to reduce sample complexity. However, the understanding of the sample optimality of model-based RL is still largely missing, even for the linear case. This work considers sample complexity of finding an $\epsilon$-optimal policy in a Markov decision process (MDP) that admits a linear additive feature representation, given only access to a generative model. We solve this problem via a plug-in solver approach, which builds an empirical model and plans in this empirical model via an arbitrary plug-in solver. We prove that under the anchor-state assumption, which implies implicit non-negativity in the feature space, the minimax sample complexity of finding an $\epsilon$-optimal policy in a $\gamma$-discounted MDP is $O(K/(1-\gamma)^3\epsilon^2)$, which only depends on the dimensionality $K$ of the feature space and has no dependence on the state or action space. We further extend our results to a relaxed setting where anchor-states may not exist and show that a plug-in approach can be sample efficient as well, providing a flexible approach to design model-based algorithms for RL.
翻訳日:2022-10-08 07:34:22 公開日:2020-10-17
# 重み相関がディープニューラルネットワークの一般化能力に与える影響

How does Weight Correlation Affect the Generalisation Ability of Deep Neural Networks ( http://arxiv.org/abs/2010.05983v3 )

ライセンス: Link先を確認
Gaojie Jin, Xinping Yi, Liang Zhang, Lijun Zhang, Sven Schewe, Xiaowei Huang(参考訳) 本稿では,深層ニューラルネットワークにおける重み相関の新たな概念について検討し,その一般化能力への影響について述べる。 完全連結層では、重み相関はニューロンの重みベクトル間の平均コサイン類似度として定義され、畳み込み層では、重み相関はフィルター行列間のコサイン類似度として定義される。 理論的には、重み相関はニューラルネットワークの一般化のためのpac bayesian frameworkに組み込むことができ、結果として得られる一般化境界は重み相関に関して単調であることが示されている。 本稿では,pacベイズ測度を重み相関で持ち上げる新しい複雑性尺度を定式化し,ネットワークの集合の一般化誤差を既存の尺度よりも正確にランク付けできることを実験的に確認する。 より重要なことに、トレーニング用の新しい正規化器を開発し、新しいアプローチで一般化誤差を大幅に低減できることを示す広範な実験を提供する。

This paper studies the novel concept of weight correlation in deep neural networks and discusses its impact on the networks' generalisation ability. For fully-connected layers, the weight correlation is defined as the average cosine similarity between weight vectors of neurons, and for convolutional layers, the weight correlation is defined as the cosine similarity between filter matrices. Theoretically, we show that, weight correlation can, and should, be incorporated into the PAC Bayesian framework for the generalisation of neural networks, and the resulting generalisation bound is monotonic with respect to the weight correlation. We formulate a new complexity measure, which lifts the PAC Bayes measure with weight correlation, and experimentally confirm that it is able to rank the generalisation errors of a set of networks more precisely than existing measures. More importantly, we develop a new regulariser for training, and provide extensive experiments that show that the generalisation error can be greatly reduced with our novel approach.
翻訳日:2022-10-08 06:07:04 公開日:2020-10-17
# ビデオシーケンスから異常を検出する:新しい記述子

Detecting Anomalies from Video-Sequences: a Novel Descriptor ( http://arxiv.org/abs/2010.06407v2 )

ライセンス: Link先を確認
Giulia Orr\`u, Davide Ghiani, Maura Pintor, Gian Luca Marcialis, Fabio Roli(参考訳) 本稿では,群衆行動分析と異常検出のための新しい記述子を提案する。 目標は、群衆におけるグループの形成と崩壊の速度を適切なパターンで測定することである。 この記述子は1次元局所二元パターンの概念に着想を得ており、この場合、そのようなパターンは時間ウィンドウで観察されるグループ数に依存する。 適切な測定単位は「トリット」(トリノ桁)と呼ばれ、あるフレーム上の群の3つの動的状態を表す。 我々の仮説は、群の数の突然の変動は、これらの変化を時間的三重項に基づく文字列列に翻訳することで検出できる異常事象によるものかもしれないということである。 本研究の背景にある理論的根拠の特異性から,グループ数に依存して,グループ抽出の3つの異なる方法を比較した。 実験は、Motion-Emotionベンチマークデータセット上で実施される。 報告された結果から, グループダイナミクスのトリトに基づく測定が異常検出に役立てる事例が指摘された。 提案手法の有望な性能に加えて, 異常型とカメラの視点が群集の流れ(正面, 横方向)とどのように相関しているかを示す。

We present a novel descriptor for crowd behavior analysis and anomaly detection. The goal is to measure by appropriate patterns the speed of formation and disintegration of groups in the crowd. This descriptor is inspired by the concept of one-dimensional local binary patterns: in our case, such patterns depend on the number of group observed in a time window. An appropriate measurement unit, named "trit" (trinary digit), represents three possible dynamic states of groups on a certain frame. Our hypothesis is that abrupt variations of the groups' number may be due to an anomalous event that can be accordingly detected, by translating these variations on temporal trit-based sequence of strings which are significantly different from the one describing the "no-anomaly" one. Due to the peculiarity of the rationale behind this work, relying on the number of groups, three different methods of people group's extraction are compared. Experiments are carried out on the Motion-Emotion benchmark data set. Reported results point out in which cases the trit-based measurement of group dynamics allows us to detect the anomaly. Besides the promising performance of our approach, we show how it is correlated with the anomaly typology and the camera's perspective to the crowd's flow (frontal, lateral).
翻訳日:2022-10-08 00:04:44 公開日:2020-10-17
# 脳-コンピューターインタフェースによる運転状態監視のためのテクスチャ特徴に基づく脳波信号処理

Electroencephalography signal processing based on textural features for monitoring the driver's state by a Brain-Computer Interface ( http://arxiv.org/abs/2010.06412v2 )

ライセンス: Link先を確認
Giulia Orr\`u, Marco Micheletto, Fabio Terranova, Gian Luca Marcialis(参考訳) 本研究では,脳波信号のテキスト処理手法について,脳-コンピュータインタフェース(BCI)システムにおける運転者の警戒度を推定する指標として検討した。 提案する解の新規性は,前処理された脳波データから特徴抽出に1次元局所二分パターン(1d-lbp)アルゴリズムを用いる。 得られた特徴ベクトルから、その分類は覚醒、疲れ、眠気の3つの警戒クラスに従って行われる。 その主張は、脳波信号に沿ったマイクロパターンの変動を記述することでクラス遷移を検出できるということである。 1d-lbpは、一時的に「閉じ」信号の相互変動を短いビットコードとして検出することでそれらを記述することができる。 分析の結果,1D-LBPの採用により性能が大幅に向上したことが明らかとなった。 さらに、脳波信号からクラス遷移を捉えることは効果的であるが、運転者の実際の環境における警戒を評価するためのBCIを開発するのに、全体的な性能はまだ不十分である。

In this study we investigate a textural processing method of electroencephalography (EEG) signal as an indicator to estimate the driver's vigilance in a hypothetical Brain-Computer Interface (BCI) system. The novelty of the solution proposed relies on employing the one-dimensional Local Binary Pattern (1D-LBP) algorithm for feature extraction from pre-processed EEG data. From the resulting feature vector, the classification is done according to three vigilance classes: awake, tired and drowsy. The claim is that the class transitions can be detected by describing the variations of the micro-patterns' occurrences along the EEG signal. The 1D-LBP is able to describe them by detecting mutual variations of the signal temporarily "close" as a short bit-code. Our analysis allows to conclude that the 1D-LBP adoption has led to significant performance improvement. Moreover, capturing the class transitions from the EEG signal is effective, although the overall performance is not yet good enough to develop a BCI for assessing the driver's vigilance in real environments.
翻訳日:2022-10-08 00:04:27 公開日:2020-10-17
# 非対称領域におけるテキストマッチングのためのwasserstein距離正規化シーケンス表現

Wasserstein Distance Regularized Sequence Representation for Text Matching in Asymmetrical Domains ( http://arxiv.org/abs/2010.07717v2 )

ライセンス: Link先を確認
Weijie Yu, Chen Xu, Jun Xu, Liang Pang, Xiaopeng Gao, Xiaozhao Wang and Ji-Rong Wen(参考訳) 非対称領域からテキストをマッチングする1つのアプローチは、入力列を特徴ベクトルとして共通の意味空間に投影し、マッチング関数を容易に定義し学習することである。 実世界のマッチングプラクティスでは、トレーニングが進むと、異なるドメインから投影される特徴ベクトルは区別できない傾向があることがしばしば観察される。 しかし、この現象は既存のマッチングモデルでは見過ごされがちである。 その結果, 特徴ベクトルは正規化せずに構築され, 下流マッチング関数の学習の難しさが必然的に増大する。 本稿では WD-Match と呼ばれる非対称領域におけるテキストマッチングに適した新しいマッチング手法を提案する。 WD-Matchでは、ワッサーシュタイン距離に基づく正規化器が定義され、異なる領域から投影される特徴ベクトルを正規化する。 その結果、異なる領域に対応するベクトルが容易に判別できないようなベクトルを生成するために特徴投影関数を強制する。 WD-Matchのトレーニングプロセスは、ワッサースタイン距離によって正規化されるマッチング損失を最小限に抑えるゲームに相当する。 WD-Matchは、その基礎となるマッチングモデルとして、異なるテキストマッチング方法を改善するために使用することができる。 論文では4つの一般的なテキストマッチング手法が活用されている。 4つの公開ベンチマークに基づく実験の結果、WD-Matchは基盤となるメソッドやベースラインよりも一貫して優れていた。

One approach to matching texts from asymmetrical domains is projecting the input sequences into a common semantic space as feature vectors upon which the matching function can be readily defined and learned. In real-world matching practices, it is often observed that with the training goes on, the feature vectors projected from different domains tend to be indistinguishable. The phenomenon, however, is often overlooked in existing matching models. As a result, the feature vectors are constructed without any regularization, which inevitably increases the difficulty of learning the downstream matching functions. In this paper, we propose a novel match method tailored for text matching in asymmetrical domains, called WD-Match. In WD-Match, a Wasserstein distance-based regularizer is defined to regularize the features vectors projected from different domains. As a result, the method enforces the feature projection function to generate vectors such that those correspond to different domains cannot be easily discriminated. The training process of WD-Match amounts to a game that minimizes the matching loss regularized by the Wasserstein distance. WD-Match can be used to improve different text matching methods, by using the method as its underlying matching model. Four popular text matching methods have been exploited in the paper. Experimental results based on four publicly available benchmarks showed that WD-Match consistently outperformed the underlying methods and the baselines.
翻訳日:2022-10-07 04:37:24 公開日:2020-10-17
# PPL Bench:確率型プログラミング言語の評価フレームワーク

PPL Bench: Evaluation Framework For Probabilistic Programming Languages ( http://arxiv.org/abs/2010.08886v1 )

ライセンス: Link先を確認
Sourabh Kulkarni, Kinjal Divesh Shah, Nimar Arora, Xiaoyan Wang, Yucen Lily Li, Nazanin Khosravani Tehrani, Michael Tingley, David Noursi, Narjes Torabi, Sepehr Akhavan Masouleh, Eric Lippert, and Erik Meijer(参考訳) PPL Benchは確率型プログラミング言語(PPL)を様々な統計モデルで評価するための新しいベンチマークである。 このベンチマークには、多くのモデルのデータ生成と評価コードと、いくつかの一般的なPPLの実装が含まれている。 ベンチマークコードとPPLの実装はすべてGithubで公開されている。 我々は、新しいモデルとPPLのコントリビューションと既存のPPL実装の改善を歓迎する。 ベンチマークの目的は2つある。 まず、研究者やカンファレンスレビュアーが標準化された環境でPPLの改善を評価することを望んでいる。 第2に、エンドユーザは、モデリングアプリケーションに最も適したPPLを選択できるようにしたいと思っています。 特に、推定された後方の収束の正確性と速度を評価することに関心がある。 各PLはモデルと観測データに基づいて後部サンプルを提供する必要がある。 このフレームワークは、ホールドアウトデータに対する予測ログライクな成長を自動的に計算しプロットするだけでなく、効果的なサンプルサイズや$\hat{r}$などの一般的なメトリクスをレポートする。

We introduce PPL Bench, a new benchmark for evaluating Probabilistic Programming Languages (PPLs) on a variety of statistical models. The benchmark includes data generation and evaluation code for a number of models as well as implementations in some common PPLs. All of the benchmark code and PPL implementations are available on Github. We welcome contributions of new models and PPLs and as well as improvements in existing PPL implementations. The purpose of the benchmark is two-fold. First, we want researchers as well as conference reviewers to be able to evaluate improvements in PPLs in a standardized setting. Second, we want end users to be able to pick the PPL that is most suited for their modeling application. In particular, we are interested in evaluating the accuracy and speed of convergence of the inferred posterior. Each PPL only needs to provide posterior samples given a model and observation data. The framework automatically computes and plots growth in predictive log-likelihood on held out data in addition to reporting other common metrics such as effective sample size and $\hat{r}$.
翻訳日:2022-10-06 12:24:31 公開日:2020-10-17
# 実世界の制約下におけるマルチモーダル都市交通制御のための強化学習におけるリワード機能の評価

Assessment of Reward Functions in Reinforcement Learning for Multi-Modal Urban Traffic Control under Real-World limitations ( http://arxiv.org/abs/2010.08819v1 )

ライセンス: Link先を確認
Alvaro Cabrejas-Egea, Colm Connaughton(参考訳) 強化学習は、従来の交通制御装置のキュレーションに必要な労力のごく一部で、都市の交差点を管理できる成功ツールである。 しかし、このような交差点への歩行者の導入・制御に関する文献は少ない。 さらに、最高のエージェントパフォーマンスを得るために、どのトラフィック状態変数を報酬として使うべきかは不明だ。 本稿では,歩行者と車両の交差点を制御するための30種類の強化学習報酬関数を,現代の視覚センサで利用可能な主要交通状況変数を網羅的に評価する。 以前の文献では車内交通のみの報酬が歩行者に拡大され、新しい報酬が導入された。 需要、センサー、グリーンタイム、およびイギリスのマンチェスター大都市圏の実際の交差点の運用上の制約の観点から、校正されたモデルを使用します。 評価された報酬は、キュー、待ち時間、遅延、平均速度、およびジャンクションのスループットの5つのグループに分類することができる。 待ち時間の観点から異なるエージェントのパフォーマンスは、通常の操作から従来の適応コントローラの飽和まで、さまざまな需要レベルで比較される。 ネットワークの速度を最大化する報奨は、車両と歩行者の待ち時間を同時に最大化し、待ち行列の最小化に近づき、他の提案手法よりも優れた性能を示す。

Reinforcement Learning is proving a successful tool that can manage urban intersections with a fraction of the effort required to curate traditional traffic controllers. However, literature on the introduction and control of pedestrians to such intersections is scarce. Furthermore, it is unclear what traffic state variables should be used as reward to obtain the best agent performance. This paper robustly evaluates 30 different Reinforcement Learning reward functions for controlling intersections serving pedestrians and vehicles covering the main traffic state variables available via modern vision-based sensors. Some rewards proposed in previous literature solely for vehicular traffic are extended to pedestrians while new ones are introduced. We use a calibrated model in terms of demand, sensors, green times and other operational constraints of a real intersection in Greater Manchester, UK. The assessed rewards can be classified in 5 groups depending on the magnitudes used: queues, waiting time, delay, average speed and throughput in the junction. The performance of different agents, in terms of waiting time, is compared across different demand levels, from normal operation to saturation of traditional adaptive controllers. We find that those rewards maximising the speed of the network obtain the lowest waiting time for vehicles and pedestrians simultaneously, closely followed by queue minimisation, demonstrating better performance than other previously proposed methods.
翻訳日:2022-10-06 12:23:07 公開日:2020-10-17
# mywear: 持続的な身体のバイタルモニタリングと緊急警報のためのスマートウェア

MyWear: A Smart Wear for Continuous Body Vital Monitoring and Emergency Alert ( http://arxiv.org/abs/2010.08866v1 )

ライセンス: Link先を確認
Sibi C. Sethuraman and Pranav Kompally and Saraju P. Mohanty and Uma Choppali(参考訳) インターネット・オブ・メディカル・シングス(IoMT)から医療用サイバー医療システム(H-CPS)として構築されたスマートヘルスケアは、これまで以上に重要になっている。 医療機器とそのインターネット接続は、電子健康記録(EHR)やAI分析とともに、H-CPSを可能にする。 ウェアラブルやインプラントデバイスのようなIoMTのエンドデバイスは、H-CPSベースのスマートヘルスケアにとって鍵となる。 smart clothingは、スマートヘルスケアに使用できる特定のウェアラブルだ。 ユーザが身体のバイタルをリアルタイムでモニタする、さまざまなスマート服がある。 多くの市販の衣服は重要なデータを収集し、視覚化のためにモバイルアプリケーションに送信する。 しかし、これらのデータは利用者が健康状態を理解するためにリアルタイム分析を行なわない。 また、緊急時に利用者や連絡先に通報するアラートシステムには、そのような衣服は含まれていない。 MyWearでは、生理的データを収集し、その心拍数、ストレスレベル、筋活動を自動的に分析して異常を検知するウェアラブルボディバイタルモニタリングウェアを提案する。 生理データのコピーがクラウドに送信され、心臓の鼓動の異常を検出し、将来の心不全を予測する。 また、異常心拍と潜在的な心不全を自動的に分類するディープニューラルネットワーク(DNN)モデルを提案する。 このような状況を即時支援するために,近隣の医療関係者に警告メッセージを送る警告システムを提案する。 提案するマイウェアの平均精度は96.9%で, 検出精度は97.3%であった。

Smart healthcare which is built as healthcare Cyber-Physical System (H-CPS) from Internet-of-Medical-Things (IoMT) is becoming more important than before. Medical devices and their connectivity through Internet with alongwith the electronics health record (EHR) and AI analytics making H-CPS possible. IoMT-end devices like wearables and implantables are key for H-CPS based smart healthcare. Smart garment is a specific wearable which can be used for smart healthcare. There are various smart garments that help users to monitor their body vitals in real-time. Many commercially available garments collect the vital data and transmit it to the mobile application for visualization. However, these don't perform real-time analysis for the user to comprehend their health conditions. Also, such garments are not included with an alert system to alert users and contacts in case of emergency. In MyWear, we propose a wearable body vital monitoring garment that captures physiological data and automatically analyses such heart rate, stress level, muscle activity to detect abnormalities. A copy of the physiological data is transmitted to the cloud for detecting any abnormalities in heart beats and predict any potential heart failure in future. We also propose a deep neural network (DNN) model that automatically classifies abnormal heart beat and potential heart failure. For immediate assistance in such a situation, we propose an alert system that sends an alert message to nearby medical officials. The proposed MyWear has an average accuracy of 96.9% and precision of 97.3% for detection of the abnormalities.
翻訳日:2022-10-06 12:22:30 公開日:2020-10-17
# MFCCの相関分析に基づくCOVID-19音の類似性の検討

Studying the Similarity of COVID-19 Sounds based on Correlation Analysis of MFCC ( http://arxiv.org/abs/2010.08770v1 )

ライセンス: Link先を確認
Mohamed Bader, Ismail Shahin, Abdelfatah Hassan(参考訳) 最近は、新型コロナウイルス(covid-19)のパンデミックとの戦いに多大な努力をしている研究者や科学者とともに、病院、診療所、研究所などの最前線で働く人々から、素晴らしい研究がなされている。 ウイルスの先進的な拡散により、人工知能の統合は、ASR(Automatic Speech Recognition)とディープラーニングアルゴリズムの基本を実装することで、健康分野においてかなりの部分を占めてきた。 本稿では、covid-19および非covid-19サンプルのメル周波数ケプストラム係数(mfccs)抽出における音声信号処理の重要性を説明し、pearson相関係数を用いてその関係を明らかにする。 以上の結果から、mfccはcovid-19と非covid-19のサンプルでより堅牢であるのに対し、mfccはcovid-19と呼吸音の間で高い類似性を示している。 さらに,本研究の結果は予備的であり,この疾患の診断におけるさらなる処理から,COVID-19患者の声を排除できる可能性が示唆された。

Recently there has been a formidable work which has been put up from the people who are working in the frontlines such as hospitals, clinics, and labs alongside researchers and scientists who are also putting tremendous efforts in the fight against COVID-19 pandemic. Due to the preposterous spread of the virus, the integration of the artificial intelligence has taken a considerable part in the health sector, by implementing the fundamentals of Automatic Speech Recognition (ASR) and deep learning algorithms. In this paper, we illustrate the importance of speech signal processing in the extraction of the Mel-Frequency Cepstral Coefficients (MFCCs) of the COVID-19 and non-COVID-19 samples and find their relationship using Pearson correlation coefficients. Our results show high similarity in MFCCs between different COVID-19 cough and breathing sounds, while MFCC of voice is more robust between COVID-19 and non-COVID-19 samples. Moreover, our results are preliminary, and there is a possibility to exclude the voices of COVID-19 patients from further processing in diagnosing the disease.
翻訳日:2022-10-06 12:16:11 公開日:2020-10-17
# ヤコビ集合を用いた木環の自動検出

Automatic Tree Ring Detection using Jacobi Sets ( http://arxiv.org/abs/2010.08691v1 )

ライセンス: Link先を確認
Kayla Makela and Tim Ophelders and Michelle Quigley and Elizabeth Munch and Daniel Chitwood and Asia Dowtin(参考訳) 樹木のリング幅は気候や歴史的データの重要な源であるが、これらの幅を測定するには手作業が不可欠である。 コンピュータビジョン技術は木環検出の自動化に有望な方向を与えるが、ほとんどの自動化手法は高い精度を得るためにかなりの量のユーザインタラクションを必要とする。 樹幹断面の3次元X線CT画像の解析を行った。 本稿では,木円板の孔(中央)とリングの境界を位置決めする新しい自動化手法を提案する。 提案手法は,トポロジカルデータ解析による標準画像処理技術とツールの組み合わせを用いている。 提案手法の有効性を,手動で位置決めされたリングやセンターと比較することにより評価し,各リングとその位置を正確にカウントする上で,現在の自動手法よりも優れていることを示す。 本手法は,手動で取得した位置への編集距離を最小化し,実験的に最適化するパラメータを有する。

Tree ring widths are an important source of climatic and historical data, but measuring these widths typically requires extensive manual work. Computer vision techniques provide promising directions towards the automation of tree ring detection, but most automated methods still require a substantial amount of user interaction to obtain high accuracy. We perform analysis on 3D X-ray CT images of a cross-section of a tree trunk, known as a tree disk. We present novel automated methods for locating the pith (center) of a tree disk, and ring boundaries. Our methods use a combination of standard image processing techniques and tools from topological data analysis. We evaluate the efficacy of our method for two different CT scans by comparing its results to manually located rings and centers and show that it is better than current automatic methods in terms of correctly counting each ring and its location. Our methods have several parameters, which we optimize experimentally by minimizing edit distances to the manually obtained locations.
翻訳日:2022-10-06 12:15:53 公開日:2020-10-17
# 微分合成によるパターン構造発見

Discovering Pattern Structure Using Differentiable Compositing ( http://arxiv.org/abs/2010.08788v1 )

ライセンス: Link先を確認
Pradyumna Reddy, Paul Guerrero, Matt Fisher, Wilmot Li, Miloy J.Mitra(参考訳) 図柄は、規則的または概規則的な配置で配置された要素の集合体であり、その優雅さと美的魅力から、重要な図画形式である。 基本構造のない平面画像としてパターンを符号化する場合、個々の要素形状と元の相対配置の両方を保存する必要があるため、手動でパターンを編集するのは面倒で難しい。 ピクセルレベルで動作する最先端のディープラーニングフレームワークは、そのようなパターンを操作するには適していない。 具体的には、これらの手法は個々の要素の形状や配列を容易に乱すことができ、入力パターンの潜伏構造を保存できない。 本稿では,パターン要素を用いた新しい微分可能合成演算子を提案し,それを用いて生のパターン画像から直接,グラフィカルオブジェクトの階層表現の形で構造を探索する。 この演算子は、パターンを効果的に処理するために、現在のディープラーニングベースの画像手法を適用することができる。 本手法は様々なパターンについて評価し,最先端と比べた場合のパターン操作の文脈で優れていることを示す。

Patterns, which are collections of elements arranged in regular or near-regular arrangements, are an important graphic art form and widely used due to their elegant simplicity and aesthetic appeal. When a pattern is encoded as a flat image without the underlying structure, manually editing the pattern is tedious and challenging as one has to both preserve the individual element shapes and their original relative arrangements. State-of-the-art deep learning frameworks that operate at the pixel level are unsuitable for manipulating such patterns. Specifically, these methods can easily disturb the shapes of the individual elements or their arrangement, and thus fail to preserve the latent structures of the input patterns. We present a novel differentiable compositing operator using pattern elements and use it to discover structures, in the form of a layered representation of graphical objects, directly from raw pattern images. This operator allows us to adapt current deep learning based image methods to effectively handle patterns. We evaluate our method on a range of patterns and demonstrate superiority in the context of pattern manipulations when compared against state-of-the-art
翻訳日:2022-10-06 12:15:36 公開日:2020-10-17
# 胸部X線写真における気腹検出のための深層学習モデルの感度と特異性評価

Sensitivity and Specificity Evaluation of Deep Learning Models for Detection of Pneumoperitoneum on Chest Radiographs ( http://arxiv.org/abs/2010.08872v1 )

ライセンス: Link先を確認
Manu Goyal, Judith Austin-Strohbehn, Sean J. Sun, Karen Rodriguez, Jessica M. Sin, Yvonne Y. Cheung and Saeed Hassanpour(参考訳) 背景: 深層学習は, 医用画像上の肺炎腹膜などの重要な所見を検出し, トリアージする上で大きな効果がある。 臨床的に有用であるためには、この技術の性能を様々な種類のイメージングシステムにまたがる一般化性に検証する必要がある。 対象と方法:2011年から2019年の間に13の病院で胸部X線撮影を行った患者の1287例の胸部X線画像。 胸部X線像は4名の放射線技師が独立に陰性,陰性と診断した。 最新のディープラーニングモデル (ResNet101, InceptionV3, DenseNet161, ResNeXt101) をこのデータセットのサブセットでトレーニングし, 各モデルのAUC, 感度, 特異性を測定して, データセットの残りの部分で自動分類性能を評価した。 さらに,これらの深層学習モデルの汎用性について,利用画像システムの種類に応じてテストデータセットを階層化することで評価した。 結果: すべての深部学習モデルは気腹によるx線像の同定に成功し, densenet161は95.7%, 特異度89.9%, 感度91.6%であった。 DenseNet161モデルは、異なるイメージングシステム(精度:90.8%)から無線画像を正確に分類することができ、一方、特定のイメージングシステムから取得した画像に基づいて訓練された。 この結果から,胸部X線画像における有意な特徴を学習するためのモデルの有用性が示唆された。

Background: Deep learning has great potential to assist with detecting and triaging critical findings such as pneumoperitoneum on medical images. To be clinically useful, the performance of this technology still needs to be validated for generalizability across different types of imaging systems. Materials and Methods: This retrospective study included 1,287 chest X-ray images of patients who underwent initial chest radiography at 13 different hospitals between 2011 and 2019. The chest X-ray images were labelled independently by four radiologist experts as positive or negative for pneumoperitoneum. State-of-the-art deep learning models (ResNet101, InceptionV3, DenseNet161, and ResNeXt101) were trained on a subset of this dataset, and the automated classification performance was evaluated on the rest of the dataset by measuring the AUC, sensitivity, and specificity for each model. Furthermore, the generalizability of these deep learning models was assessed by stratifying the test dataset according to the type of the utilized imaging systems. Results: All deep learning models performed well for identifying radiographs with pneumoperitoneum, while DenseNet161 achieved the highest AUC of 95.7%, Specificity of 89.9%, and Sensitivity of 91.6%. DenseNet161 model was able to accurately classify radiographs from different imaging systems (Accuracy: 90.8%), while it was trained on images captured from a specific imaging system from a single institution. This result suggests the generalizability of our model for learning salient features in chest X-ray images to detect pneumoperitoneum, independent of the imaging system.
翻訳日:2022-10-06 12:15:20 公開日:2020-10-17
# 光ステージ超解像:連続高周波リライト

Light Stage Super-Resolution: Continuous High-Frequency Relighting ( http://arxiv.org/abs/2010.08888v1 )

ライセンス: Link先を確認
Tiancheng Sun, Zexiang Xu, Xiuming Zhang, Sean Fanello, Christoph Rhemann, Paul Debevec, Yun-Ta Tsai, Jonathan T. Barron, Ravi Ramamoorthi(参考訳) 光のステージは、主に人間の顔のリライティングを可能にするために、過去20年間コンピュータグラフィックスで広く使われてきた。 異なる光源の下で被写体の外観を捉えることにより、その被写体の光伝達マトリックスを取得し、新しい環境下で画像ベースのリライティングを可能にする。 しかし、ステージ内の光の数が有限であることから、光輸送行列は球全体に対するサンプリングのばらばらさを表わすだけである。 結果として、ステージ内のライトの1つと正確に一致しない点灯や方向光源を被写体に照らすには、近くのライトに対応する画像の補間とサンプリングが必要となり、結果としてゴーストシャドー、エイリアス付きスペクティリティ、その他のアーティファクトにつながる。 そこで本稿では,これらの人工物を改良し,任意の高周波照明下でより良い結果を得るため,光ステージから採取した人間の顔スキャンの「超解像」のための学習ベースの解法を提案する。 任意の「クエリ」光方向が与えられると、この方法はステージ内の隣り合う光に対応する撮像画像を集約し、ニューラルネットワークを用いて、クエリの場所にある「仮想」光源で照らされたように見える顔のレンダリングを合成する。 このニューラルネットワークは、トレーニングに使われた光ステージデータの固有のエイリアスと規則性を回避しなければなりません。 学習したモデルは、リアルな影や特異なハイライトを示す任意の光方向のレンダリングを作成でき、様々な主題を一般化することができる。

The light stage has been widely used in computer graphics for the past two decades, primarily to enable the relighting of human faces. By capturing the appearance of the human subject under different light sources, one obtains the light transport matrix of that subject, which enables image-based relighting in novel environments. However, due to the finite number of lights in the stage, the light transport matrix only represents a sparse sampling on the entire sphere. As a consequence, relighting the subject with a point light or a directional source that does not coincide exactly with one of the lights in the stage requires interpolation and resampling the images corresponding to nearby lights, and this leads to ghosting shadows, aliased specularities, and other artifacts. To ameliorate these artifacts and produce better results under arbitrary high-frequency lighting, this paper proposes a learning-based solution for the "super-resolution" of scans of human faces taken from a light stage. Given an arbitrary "query" light direction, our method aggregates the captured images corresponding to neighboring lights in the stage, and uses a neural network to synthesize a rendering of the face that appears to be illuminated by a "virtual" light source at the query location. This neural network must circumvent the inherent aliasing and regularity of the light stage data that was used for training, which we accomplish through the use of regularized traditional interpolation methods within our network. Our learned model is able to produce renderings for arbitrary light directions that exhibit realistic shadows and specular highlights, and is able to generalize across a wide variety of subjects.
翻訳日:2022-10-06 12:14:49 公開日:2020-10-17
# シュリックのバイアスとゲイン関数の便利な一般化

A Convenient Generalization of Schlick's Bias and Gain Functions ( http://arxiv.org/abs/2010.09714v1 )

ライセンス: Link先を確認
Jonathan T. Barron(参考訳) シュリックのバイアスとゲイン関数の一般化 -- [0, 1] の入力に対する単純なパラメトリック曲線関数-を示す。 我々の単一函数は、特別な場合としてバイアスとゲインの両方を含み、非対称性の可変次数を持つ他の滑らかで単調な曲線を記述することができる。

We present a generalization of Schlick's bias and gain functions -- simple parametric curve-shaped functions for inputs in [0, 1]. Our single function includes both bias and gain as special cases, and is able to describe other smooth and monotonic curves with variable degrees of asymmetry.
翻訳日:2022-10-06 12:14:22 公開日:2020-10-17
# 画像エンコーディングは金融におけるディープラーニングに有用か? 畳み込みニューラルネットワークの財務への適用のための画像符号化手法の解析

Is Image Encoding Beneficial for Deep Learning in Finance? An Analysis of Image Encoding Methods for the Application of Convolutional Neural Networks in Finance ( http://arxiv.org/abs/2010.08698v1 )

ライセンス: Link先を確認
Dan Wang, Tianrui Wang, Ionu\c{t} Florescu(参考訳) 2012年、SECはアメリカのあらゆる企業に対して、Electronic Data Gathering, Analysis, and Retrieval (EDGAR)システムへの企業提出を義務付けた。 本研究では,EDGARデータベースで利用可能なデータを分析する方法について検討している。 これはポートフォリオマネージャ(投資ファンド、相互ファンド、保険、ヘッジファンド)に、投資する企業に対する自動化された洞察を提供し、ポートフォリオの管理を改善する。 分析は、データに適用される人工ニューラルネットワークに基づいている。 特に、最も一般的な機械学習手法の1つである畳み込みニューラルネットワーク(CNN)アーキテクチャは、もともと画像の解釈と分類のために開発されたもので、金融データの解釈に使用されている。 本研究は、SECの提出書類から収集したデータをCNNアーキテクチャに入力する最善の方法を検討する。 会計原理と数学的手法を3つの画像符号化法の設計に取り入れる。 具体的には、会計原理(系列配列、カテゴリチャンク配置)から2つの方法が導出され、1つは純粋に数学的な手法(ヒルベルトベクトル配置)を用いている。 本研究は,米国における金融,医療,it分野の企業を対象に,基本的な金融データおよび金融比率データを分析し,企業を調査することを目的とする。 cnnのデータ入力にイメージング技術を使うことは、金融比率のデータではうまく機能するが、1d入力を基本データに直接使うよりは、それほど良いものではない。 ヒルベルトベクトル配置法は他の撮像法よりはるかに優れているとは考えていない。

In 2012, SEC mandated all corporate filings for any company doing business in US be entered into the Electronic Data Gathering, Analysis, and Retrieval (EDGAR) system. In this work we are investigating ways to analyze the data available through EDGAR database. This may serve portfolio managers (pension funds, mutual funds, insurance, hedge funds) to get automated insights into companies they invest in, to better manage their portfolios. The analysis is based on Artificial Neural Networks applied to the data.} In particular, one of the most popular machine learning methods, the Convolutional Neural Network (CNN) architecture, originally developed to interpret and classify images, is now being used to interpret financial data. This work investigates the best way to input data collected from the SEC filings into a CNN architecture. We incorporate accounting principles and mathematical methods into the design of three image encoding methods. Specifically, two methods are derived from accounting principles (Sequential Arrangement, Category Chunk Arrangement) and one is using a purely mathematical technique (Hilbert Vector Arrangement). In this work we analyze fundamental financial data as well as financial ratio data and study companies from the financial, healthcare and IT sectors in the United States. We find that using imaging techniques to input data for CNN works better for financial ratio data but is not significantly better than simply using the 1D input directly for fundamental data. We do not find the Hilbert Vector Arrangement technique to be significantly better than other imaging techniques.
翻訳日:2022-10-06 12:13:48 公開日:2020-10-17
# 機械学習による石油・ガス探査のための地質モデルのアンサンブル削減

Using machine learning to reduce ensembles of geological models for oil and gas exploration ( http://arxiv.org/abs/2010.08775v1 )

ライセンス: Link先を確認
Anna Roub\'ickov\'a, Lucy MacGregor, Nick Brown, Oliver Thomson Brown, Mike Stewart(参考訳) ボーリング掘削は石油産業が油田を開発するのに最適な場所を決定する上で重要な活動である。 しかし、オイルインプレース(OIP)の量の推定は、非常に多くの地質モデルによる計算に依存しており、データのキャプチャと精錬能力の増大により、実現不可能になりつつある。 そのため、この設定を小さいが、それでも完全に代表的なアンサンブルに減らすために、データ還元技術が必要である。 本稿では,その最も重要な特徴に基づいて,モデルの主要なグループ化を識別するための異なるアプローチについて検討し,その情報を用いて,モデル空間全体を完全に表現できる還元集合を選択する。 この研究の成果は、学習した一連の教訓とともに、モデルの0.5\%のみを使用して、状態空間全体を記述できるアプローチである。 私たちが記述するテクニックは、石油やガスの探査だけでなく、データ収集能力の急速な向上によって、データセットの削減を余儀なくされているhpcコミュニティにも適用できます。

Exploration using borehole drilling is a key activity in determining the most appropriate locations for the petroleum industry to develop oil fields. However, estimating the amount of Oil In Place (OIP) relies on computing with a very significant number of geological models, which, due to the ever increasing capability to capture and refine data, is becoming infeasible. As such, data reduction techniques are required to reduce this set down to a smaller, yet still fully representative ensemble. In this paper we explore different approaches to identifying the key grouping of models, based on their most important features, and then using this information select a reduced set which we can be confident fully represent the overall model space. The result of this work is an approach which enables us to describe the entire state space using only 0.5\% of the models, along with a series of lessons learnt. The techniques that we describe are not only applicable to oil and gas exploration, but also more generally to the HPC community as we are forced to work with reduced data-sets due to the rapid increase in data collection capability.
翻訳日:2022-10-06 12:13:20 公開日:2020-10-17
# GOAT: 信頼された実行環境内での非同期確率積分検証によるディープラーニングトレーニングのGPUアウトソーシング

GOAT: GPU Outsourcing of Deep Learning Training With Asynchronous Probabilistic Integrity Verification Inside Trusted Execution Environment ( http://arxiv.org/abs/2010.08855v1 )

ライセンス: Link先を確認
Aref Asvadishirehjini (1), Murat Kantarcioglu (1), Bradley Malin (2) ((1) University of Texas at Dallas, (2) Vanderbilt University)(参考訳) Deep Neural Networks(DNN)に基づく機械学習モデルは、自動運転車から新型コロナウイルス治療発見まで、幅広いアプリケーションに展開されている。 DNNを学習するために必要な計算能力をサポートするために、専用ハードウェアをサポートするクラウド環境が重要なインフラストラクチャとして登場した。 しかし、アウトソーシング計算には多くの整合性の問題がある。 これらの課題に対処するために,trusted execution environment (tee) に基づいて,さまざまなアプローチが開発されている。 しかし、大規模なワークロード(ディープアーキテクチャと数百万のトレーニング例)に対する現実的な完全性を保存するDNNモデルトレーニングをサポートするために、パフォーマンスに大きな打撃を与えることなく、既存のアプローチはスケールしない。 純粋なTEE(完全整合性)と純粋なGPU(完全整合性を持たない)の時間ギャップを軽減するため、選択された計算ステップのランダムな検証とDNNハイパーパラメータの体系的な調整(例えば、狭い勾配のクリッピング範囲)を組み合わせることにより、トレーニングフェーズの検証のためにステップが選択されていないことを条件として、攻撃者がモデルパラメータをシフトする能力を著しく制限する。 実験結果から,従来のDNNバックドア攻撃に対して高い整合性(0.999など)を保証しながら,純粋なTEEソリューションよりも2倍から20倍の性能向上を実現した。

Machine learning models based on Deep Neural Networks (DNNs) are increasingly deployed in a wide range of applications ranging from self-driving cars to COVID-19 treatment discovery. To support the computational power necessary to learn a DNN, cloud environments with dedicated hardware support have emerged as critical infrastructure. However, there are many integrity challenges associated with outsourcing computation. Various approaches have been developed to address these challenges, building on trusted execution environments (TEE). Yet, no existing approach scales up to support realistic integrity-preserving DNN model training for heavy workloads (deep architectures and millions of training examples) without sustaining a significant performance hit. To mitigate the time gap between pure TEE (full integrity) and pure GPU (no integrity), we combine random verification of selected computation steps with systematic adjustments of DNN hyper-parameters (e.g., a narrow gradient clipping range), hence limiting the attacker's ability to shift the model parameters significantly provided that the step is not selected for verification during its training phase. Experimental results show the new approach achieves 2X to 20X performance improvement over pure TEE based solution while guaranteeing a very high probability of integrity (e.g., 0.999) with respect to state-of-the-art DNN backdoor attacks.
翻訳日:2022-10-06 12:13:03 公開日:2020-10-17
# lid 2020: 不完全なデータチャレンジの結果から学ぶ

LID 2020: The Learning from Imperfect Data Challenge Results ( http://arxiv.org/abs/2010.11724v1 )

ライセンス: Link先を確認
Yunchao Wei, Shuai Zheng, Ming-Ming Cheng, Hang Zhao, Liwei Wang, Errui Ding, Yi Yang, Antonio Torralba, Ting Liu, Guolei Sun, Wenguan Wang, Luc Van Gool, Wonho Bae, Junhyug Noh, Jinhwan Seo, Gunhee Kim, Hao Zhao, Ming Lu, Anbang Yao, Yiwen Guo, Yurong Chen, Li Zhang, Chuangchuang Tan, Tao Ruan, Guanghua Gu, Shikui Wei, Yao Zhao, Mariia Dobko, Ostap Viniavskyi, Oles Dobosevych, Zhendong Wang, Zhenyuan Chen, Chen Gong, Huanqing Yan, Jun He(参考訳) 研究コミュニティが完全な注釈付きデータセットからの教師付き学習に大きく進歩した後、不完全なデータからの学習は多くの産業アプリケーションで問題となっている。 LID(Learning from Imperfect Data)ワークショップの目的は、不完全なデータを活用し、トレーニング中のデータ効率を改善する新しいアプローチの開発において、その研究を刺激し促進することである。 現在、複数のインターネットサービスで利用可能な膨大なユーザー生成データ。 これらの活用と機械学習モデルの改善は、大きな影響を与える問題である。 私たちはワークショップと連携して課題を整理します。 これらの課題の目標は、オブジェクト検出、セマンティックセグメンテーション、シーン解析のための弱い教師付き学習環境における最先端のアプローチを見つけることである。 課題には3つのトラック、すなわち弱い教師付きセマンティックセグメンテーション(Track 1)、弱い教師付きシーンパーシング(Track2)、弱い教師付きオブジェクトローカライゼーション(Track3)がある。 トラック1では、ilsvrc detに基づいて、200のカテゴリから15kの画像のピクセルレベルアノテーションを提供し、評価します。 Track 2では、ADE20Kのトレーニングセットにポイントベースのアノテーションを提供します。 トラック3では、ilsvrc cls-locに基づき、評価のために44,271画像のピクセルレベルアノテーションを提供する。 さらに,生成対象ローカライゼーションマップの品質を測定するために,<cite{zhang2020rethinking},すなわちiou曲線によって提案される新しい評価指標を導入する。 この技術的レポートは、課題のハイライトを要約している。 チャレンジ提出サーバとリーダーボードは、それに興味のある研究者のために引き続きオープンされる。 チャレンジとベンチマークに関する詳細は、https://lidchallenge.github.ioで確認できる。

Learning from imperfect data becomes an issue in many industrial applications after the research community has made profound progress in supervised learning from perfectly annotated datasets. The purpose of the Learning from Imperfect Data (LID) workshop is to inspire and facilitate the research in developing novel approaches that would harness the imperfect data and improve the data-efficiency during training. A massive amount of user-generated data nowadays available on multiple internet services. How to leverage those and improve the machine learning models is a high impact problem. We organize the challenges in conjunction with the workshop. The goal of these challenges is to find the state-of-the-art approaches in the weakly supervised learning setting for object detection, semantic segmentation, and scene parsing. There are three tracks in the challenge, i.e., weakly supervised semantic segmentation (Track 1), weakly supervised scene parsing (Track 2), and weakly supervised object localization (Track 3). In Track 1, based on ILSVRC DET, we provide pixel-level annotations of 15K images from 200 categories for evaluation. In Track 2, we provide point-based annotations for the training set of ADE20K. In Track 3, based on ILSVRC CLS-LOC, we provide pixel-level annotations of 44,271 images for evaluation. Besides, we further introduce a new evaluation metric proposed by \cite{zhang2020rethinking}, i.e., IoU curve, to measure the quality of the generated object localization maps. This technical report summarizes the highlights from the challenge. The challenge submission server and the leaderboard will continue to open for the researchers who are interested in it. More details regarding the challenge and the benchmarks are available at https://lidchallenge.github.io
翻訳日:2022-10-06 12:06:40 公開日:2020-10-17
# アクティブテスト:遠隔監視型関係抽出のための不偏性評価手法

Active Testing: An Unbiased Evaluation Method for Distantly Supervised Relation Extraction ( http://arxiv.org/abs/2010.08777v1 )

ライセンス: Link先を確認
Pengshuai Li, Xinsong Zhang, Weijia Jia and Wei Zhao(参考訳) 遠隔監視は、データセットの自動ラベリングを便利にするために、神経関係抽出に広く使われている方法である。 しかし, 遠隔教師付き関係抽出に関する既存の研究は, テストセットの品質の低下に悩まされ, かなりの性能評価が得られた。 これらのバイアスは不公平な評価をもたらすだけでなく、神経関係抽出の最適化を誤解させる。 そこで本研究では,ノイズの多いテストセットといくつかの手動アノテーションを併用して,アクティブテストという新しい評価手法を提案する。 広く用いられているベンチマーク実験により,提案手法は遠方教師付き関係抽出器に対してほぼ偏りのない評価が得られることを示した。

Distant supervision has been a widely used method for neural relation extraction for its convenience of automatically labeling datasets. However, existing works on distantly supervised relation extraction suffer from the low quality of test set, which leads to considerable biased performance evaluation. These biases not only result in unfair evaluations but also mislead the optimization of neural relation extraction. To mitigate this problem, we propose a novel evaluation method named active testing through utilizing both the noisy test set and a few manual annotations. Experiments on a widely used benchmark show that our proposed approach can yield approximately unbiased evaluations for distantly supervised relation extractors.
翻訳日:2022-10-06 12:06:14 公開日:2020-10-17
# 言語モデル埋め込みを用いた知識ベースに関する質問応答

Question Answering over Knowledge Base using Language Model Embeddings ( http://arxiv.org/abs/2010.08883v1 )

ライセンス: Link先を確認
Sai Sharath Japa and Rekabdar Banafsheh(参考訳) 知識ベース(Knowledge Base)は世界に関する事実を表現し、しばしば暗黙的に手続き的なコードに埋め込まれ、従来のコンピュータプログラムが行うような、ある種の仮定オントロジーで表す。 知識ベースは急速に成長しているが、知識ベースから情報を取得することは困難である。 知識ベース質問応答は、知識ベースから実質的な知識を抽出するための有望なアプローチの1つである。 Web検索とは異なり、知識ベース上の質問回答は、自然言語の質問を理解し、知識ベース内の回答に正確にマッピングできることを前提として、正確で簡潔な結果を与える。 しかし、既存の知識ベース質問応答システムのための埋め込みベース手法のいくつかは、質問と知識ベース(エンティティタイプ、関係パス、コンテキストなど)の間の微妙な相関を無視し、語彙問題に苦しむ。 本稿では,知識ベース質問応答タスクにおける事前学習言語モデルの利用に着目した。 まず、最初の実験にbert baseuncasedを使用しました。 さらに,これらの埋め込みを,知識ベースから質問,質問,知識ベースから回答まで,双方向の注意機構で微調整した。 提案手法は,複数側面の質問を動的に表現するマルチヘッドアテンション機構を備えた,単純な畳み込みニューラルネットワークアーキテクチャに基づいている。 実験の結果, bert事前学習した言語モデルが, 知識ベース上での質問応答システムに対して, 他のよく知られた組込み手法よりも優れていることが示された。

Knowledge Base, represents facts about the world, often in some form of subsumption ontology, rather than implicitly, embedded in procedural code, the way a conventional computer program does. While there is a rapid growth in knowledge bases, it poses a challenge of retrieving information from them. Knowledge Base Question Answering is one of the promising approaches for extracting substantial knowledge from Knowledge Bases. Unlike web search, Question Answering over a knowledge base gives accurate and concise results, provided that natural language questions can be understood and mapped precisely to an answer in the knowledge base. However, some of the existing embedding-based methods for knowledge base question answering systems ignore the subtle correlation between the question and the Knowledge Base (e.g., entity types, relation paths, and context) and suffer from the Out Of Vocabulary problem. In this paper, we focused on using a pre-trained language model for the Knowledge Base Question Answering task. Firstly, we used Bert base uncased for the initial experiments. We further fine-tuned these embeddings with a two-way attention mechanism from the knowledge base to the asked question and from the asked question to the knowledge base answer aspects. Our method is based on a simple Convolutional Neural Network architecture with a Multi-Head Attention mechanism to represent the asked question dynamically in multiple aspects. Our experimental results show the effectiveness and the superiority of the Bert pre-trained language model embeddings for question answering systems on knowledge bases over other well-known embedding methods.
翻訳日:2022-10-06 12:06:03 公開日:2020-10-17
# DeHiDe: ブロックチェーンを使ってフェイクニュースを検出するディープラーニングベースのハイブリッドモデル

DeHiDe: Deep Learning-based Hybrid Model to Detect Fake News using Blockchain ( http://arxiv.org/abs/2010.08765v1 )

ライセンス: Link先を確認
Prashansa Agrawal, Parwat Singh Anjana, and Sathya Peri(参考訳) 誤解を招く情報、嘘、プロパガンダ、偽事実の急増は、しばしばフェイクニュースと呼ばれ、今日の急進的な民主社会におけるソーシャルメディアの影響に関する疑問を引き起こした。 偽ニュースの広範かつ急速な拡散は、多くの面で私たちを苦しめた。 例えば、選挙の完全性を妨げる個人的または社会的なコスト、株式市場への影響による重大な経済損失、または国家の安全保障へのリスクを増加させる。 従来の中央集権システムにおける偽ニュースの拡散を克服することは困難である。 しかし、ブロックチェーンは、透明で不変で検証可能なトランザクションレコードを提供することで、データの出所、信頼性、トレーサビリティを保証する分散分散技術であり、偽ニュースの検出と競合に役立つ。 本稿では,ブロックチェーンを用いてフェイクニュースを検出するための,DeHiDe: Deep Learning-based Hybrid Modelを提案する。 dehideは、偽ニュースをフィルタリングして合法的なニュース共有のためのブロックチェーンベースのフレームワークだ。 ブロックチェーンのメリットとインテリジェントなディープラーニングモデルを組み合わせることで、フェイクニュースのハードルと戦う上での堅牢性と正確性を強化します。 また,提案手法を既存の最先端手法と比較した。 DeHiDeは、サービス、機能、パフォーマンスの点で最先端のアプローチを上回ることが期待されている。

The surge in the spread of misleading information, lies, propaganda, and false facts, frequently known as fake news, raised questions concerning social media's influence in today's fast-moving democratic society. The widespread and rapid dissemination of fake news cost us in many ways. For example, individual or societal costs by hampering elections integrity, significant economic losses by impacting stock markets, or increases the risk to national security. It is challenging to overcome the spreading of fake news problems in traditional centralized systems. However, Blockchain-- a distributed decentralized technology that ensures data provenance, authenticity, and traceability by providing a transparent, immutable, and verifiable transaction records can help in detecting and contending fake news. This paper proposes a novel hybrid model DeHiDe: Deep Learning-based Hybrid Model to Detect Fake News using Blockchain. The DeHiDe is a blockchain-based framework for legitimate news sharing by filtering out the fake news. It combines the benefit of blockchain with an intelligent deep learning model to reinforce robustness and accuracy in combating fake news's hurdle. It also compares the proposed method to existing state-of-the-art methods. The DeHiDe is expected to outperform state-of-the-art approaches in terms of services, features, and performance.
翻訳日:2022-10-06 12:05:39 公開日:2020-10-17
# エッジコンピューティング時代のディープラーニング: 挑戦と機会

Deep Learning in the Era of Edge Computing: Challenges and Opportunities ( http://arxiv.org/abs/2010.08861v1 )

ライセンス: Link先を確認
Mi Zhang, Faen Zhang, Nicholas D. Lane, Yuanchao Shu, Xiao Zeng, Biyi Fang, Shen Yan, Hui Xu(参考訳) エッジコンピューティングの時代が到来した。 インターネットはエッジコンピューティングのバックボーンであるが、真の価値はセンサーからデータを収集し、センサーデータから意味のある情報を抽出する交差点にある。 近い将来、エッジデバイスの大半は、ディープラーニングを利用したマシンインテリジェンスを備えるようになるだろう、と私たちは考えている。 しかし、ディープラーニングベースのアプローチでは、トレーニングに大量の高品質のデータを必要とし、計算、メモリ、消費電力の点で非常に高価である。 本章では,コンピュータシステム,ネットワーク,機械学習の交点における8つの研究課題と有望な機会について述べる。 これらの課題を解決することで、リソース制限のあるエッジデバイスがディープラーニングの驚くべき能力を活用できるようになる。 この章が、インテリジェントエッジのビジョンの実現に繋がる新たな研究に刺激を与えることを期待しています。

The era of edge computing has arrived. Although the Internet is the backbone of edge computing, its true value lies at the intersection of gathering data from sensors and extracting meaningful information from the sensor data. We envision that in the near future, majority of edge devices will be equipped with machine intelligence powered by deep learning. However, deep learning-based approaches require a large volume of high-quality data to train and are very expensive in terms of computation, memory, and power consumption. In this chapter, we describe eight research challenges and promising opportunities at the intersection of computer systems, networking, and machine learning. Solving those challenges will enable resource-limited edge devices to leverage the amazing capability of deep learning. We hope this chapter could inspire new research that will eventually lead to the realization of the vision of intelligent edge.
翻訳日:2022-10-06 12:05:16 公開日:2020-10-17
# 動的環境における意味マップの生涯更新

Lifelong update of semantic maps in dynamic environments ( http://arxiv.org/abs/2010.08846v1 )

ライセンス: Link先を確認
Manjunath Narayana and Andreas Kolling and Lucio Nardelli and Phil Fong(参考訳) ロボットは周囲から知覚される生の情報を通じて世界を理解する。 この生情報は、ロボットとそのユーザ間の共有表現として適していない。 ロボットとユーザの両方が理解している高度な情報を含むセマンティックマップは、共有表現としてより適している。 セマンティックマップをフロアクリーニングロボット群におけるユーザインタフェースとして使用しています。 ロボットの知覚された生の地図、環境中の動的物体、そしてロボットによる新しい空間の探索は、ロボットにとって共通の課題である。 これらの課題をセマンティックマップの文脈で効果的に解決することは、生涯マッピングのためのセマンティックマップを可能にする鍵となる。 まず、ロボットが新しい変化を検知し、その生の地図を連続的に変更する際には、セマンティクスを適切に更新する必要がある。 意味論の空間移動を用いて地図を更新する。 第二に、動的オブジェクトが存在する場合でも、セマンティクスとその相対的制約を一貫性を保つことが重要である。 不整合は自動的に決定され、メタセマンティクスのマップ層の導入によって解決される。 最後に、発見フェーズでは、ロボットが新しい情報を明らかにすると、セマンティックマップを新しいセマンティックスで更新することができる。 実家にある何千ものフロアクリーニングロボットに商業的に展開されている私たちのユーザ対応セマンティックマップは、生涯にわたるマッピングロボットを通じて直感的なユーザー体験を提供する。

A robot understands its world through the raw information it senses from its surroundings. This raw information is not suitable as a shared representation between the robot and its user. A semantic map, containing high-level information that both the robot and user understand, is better suited to be a shared representation. We use the semantic map as the user-facing interface on our fleet of floor-cleaning robots. Jitter in the robot's sensed raw map, dynamic objects in the environment, and exploration of new space by the robot are common challenges for robots. Solving these challenges effectively in the context of semantic maps is key to enabling semantic maps for lifelong mapping. First, as a robot senses new changes and alters its raw map in successive runs, the semantics must be updated appropriately. We update the map using a spatial transfer of semantics. Second, it is important to keep semantics and their relative constraints consistent even in the presence of dynamic objects. Inconsistencies are automatically determined and resolved through the introduction of a map layer of meta-semantics. Finally, a discovery phase allows the semantic map to be updated with new semantics whenever the robot uncovers new information. Deployed commercially on thousands of floor-cleaning robots in real homes, our user-facing semantic maps provide a intuitive user experience through a lifelong mapping robot.
翻訳日:2022-10-06 12:04:48 公開日:2020-10-17
# 協調型AI研究・開発を支援するゲームAIコンペティション

A Game AI Competition to foster Collaborative AI research and development ( http://arxiv.org/abs/2010.08885v1 )

ライセンス: Link先を確認
Ana Salta and Rui Prada and Francisco S. Melo(参考訳) ゲームAIコンペティションは、ゲームAIとAI全般の研究と開発を促進するために重要である。 これらの競合は、仮想または現実の他のコンテキストに変換可能な、さまざまな困難な問題を提供します。 コアトピックの研究を容易にするフレームワークとツールを提供し、結果の比較と共有のための手段を提供する。 競争は、新しい研究者にこれらの課題を研究する動機づけでもある。 本稿では,geometry friendsゲームaiコンペティションについて述べる。 Geometry Friends(ジオメトリ・フレンズ)は、コンピュータゲームである。 ゲームの概念は単純だが、その解決は難しいことが証明されている。 ゲームの主な焦点は協力であるが、計画、計画実行、モーションコントロールといった他のAI関連の問題にも依存している。 これらはすべてリアルタイムで解決しなければならない。 本稿では,コンペティションと課題について議論し,現在のソリューションの概要を紹介する。

Game AI competitions are important to foster research and development on Game AI and AI in general. These competitions supply different challenging problems that can be translated into other contexts, virtual or real. They provide frameworks and tools to facilitate the research on their core topics and provide means for comparing and sharing results. A competition is also a way to motivate new researchers to study these challenges. In this document, we present the Geometry Friends Game AI Competition. Geometry Friends is a two-player cooperative physics-based puzzle platformer computer game. The concept of the game is simple, though its solving has proven to be difficult. While the main and apparent focus of the game is cooperation, it also relies on other AI-related problems such as planning, plan execution, and motion control, all connected to situational awareness. All of these must be solved in real-time. In this paper, we discuss the competition and the challenges it brings, and present an overview of the current solutions.
翻訳日:2022-10-06 12:04:27 公開日:2020-10-17
# 集合型ビデオサーベイランスシナリオの長期顔追跡

Long-Term Face Tracking for Crowded Video-Surveillance Scenarios ( http://arxiv.org/abs/2010.08675v1 )

ライセンス: Link先を確認
Germ\'an Barquero, Carles Fern\'andez and Isabelle Hupont(参考訳) 現在、ほとんどのマルチオブジェクトトラッカーは短期追跡に重点を置いており、リアルタイムに動作しない深い複雑なシステムに基づいており、しばしばビデオ監視には実用的ではない。 本稿では,混み合った状況下での作業,特に移動やオクルージョンの面では無拘束であり,顔が人の唯一の目に見える部分であるような長時間多面追跡アーキテクチャを提案する。 我々のシステムは、顔検出と顔認識の分野での進歩の恩恵を受け、長期追跡を実現する。 迅速な短期ビジュアルトラッカーと、顔認証に基づく新しいオンライントラックレット再接続戦略を組み合わせた、トラッキングバイ検出アプローチに従っている。 さらに、補正モジュールは、余分な計算コストなしで過去のトラック割り当てを修正するために含まれる。 本稿では, 長期追跡機能評価のための新鮮で専門的な指標と, 公開するビデオデータセットを紹介する。 この文脈において、我々のアプローチは最先端のディープラーニングトラッカーよりも最大50%長いトラックを取得できることを示しています。

Most current multi-object trackers focus on short-term tracking, and are based on deep and complex systems that do not operate in real-time, often making them impractical for video-surveillance. In this paper, we present a long-term multi-face tracking architecture conceived for working in crowded contexts, particularly unconstrained in terms of movement and occlusions, and where the face is often the only visible part of the person. Our system benefits from advances in the fields of face detection and face recognition to achieve long-term tracking. It follows a tracking-by-detection approach, combining a fast short-term visual tracker with a novel online tracklet reconnection strategy grounded on face verification. Additionally, a correction module is included to correct past track assignments with no extra computational cost. We present a series of experiments introducing novel, specialized metrics for the evaluation of long-term tracking capabilities and a video dataset that we publicly release. Findings demonstrate that, in this context, our approach allows to obtain up to 50% longer tracks than state-of-the-art deep learning trackers.
翻訳日:2022-10-06 11:57:42 公開日:2020-10-17
# DEAL:セマンティックセグメンテーションのための難易度認識型アクティブラーニング

DEAL: Difficulty-aware Active Learning for Semantic Segmentation ( http://arxiv.org/abs/2010.08705v1 )

ライセンス: Link先を確認
Shuai Xie, Zunlei Feng, Ying Chen, Songtao Sun, Chao Ma and Mingli Song(参考訳) アクティブラーニングは、最も情報に富んだサンプルを見つけることによってラベル付きデータの曖昧さに対処することを目的としている。 しかし、セマンティクスセグメンテーションに適用する場合、既存の手法では、異なるセマンティクス領域のセグメンテーションの難しさを無視する。 そこで本研究では,共通分節分枝と意味分節分枝の2つの分枝からなる意味的難易度対応アクティブラーニング(deal)ネットワークを提案する。 後者のブランチでは、セグメンテーション結果とGTのセグメンテーション誤差を監督することにより、画素単位の確率注意モジュールを導入し、異なるセグメンテーション領域のセグメンテーション困難スコアを学習する。 最後に、2つの取得関数を設計し、意味的困難を伴う最も価値のあるサンプルを選択する。 セマンティクスセグメンテーションベンチマークにおける競合の結果は、ディールが最先端のアクティブラーニング性能を達成し、特にハードセマンティクス領域のパフォーマンスを向上させることを示している。

Active learning aims to address the paucity of labeled data by finding the most informative samples. However, when applying to semantic segmentation, existing methods ignore the segmentation difficulty of different semantic areas, which leads to poor performance on those hard semantic areas such as tiny or slender objects. To deal with this problem, we propose a semantic Difficulty-awarE Active Learning (DEAL) network composed of two branches: the common segmentation branch and the semantic difficulty branch. For the latter branch, with the supervision of segmentation error between the segmentation result and GT, a pixel-wise probability attention module is introduced to learn the semantic difficulty scores for different semantic areas. Finally, two acquisition functions are devised to select the most valuable samples with semantic difficulty. Competitive results on semantic segmentation benchmarks demonstrate that DEAL achieves state-of-the-art active learning performance and improves the performance of the hard semantic areas in particular.
翻訳日:2022-10-06 11:57:26 公開日:2020-10-17
# polardet: 空中画像における回転対象の高速で高精度な検出器

PolarDet: A Fast, More Precise Detector for Rotated Target in Aerial Images ( http://arxiv.org/abs/2010.08720v1 )

ライセンス: Link先を確認
Pengbo Zhao, Zhenshen Qu, Yingjia Bu, Wenming Tan, Ye Ren, Shiliang Pu(参考訳) 高解像度空中画像の高速かつ高精度な物体検出は、長年にわたり難しい課題であった。 物体スケール、回転、アスペクト比の鋭い変化のため、既存の手法のほとんどは非効率で不正確である。 本稿では,向き付け対象を極座標法で表現し,その表現に基づく高速かつ高精度な一段階物体検出器であるpolardetを提案する。 検出器はサブピクセル中心のセマンティック構造を導入し,精度の向上を図る。 PolarDetは、高速な推論速度で空中物体検出タスクにおいて、ほぼ全てのSOTA性能を達成する。 提案手法では, DOTA, UCAS-AOD, HRSC, 76.64\% mAP, 97.01\% mAP, 90.46\% mAPのSOTA結果を得た。 最も注目すべきは、私たちのpolardetが最高のパフォーマンスを獲得し、ucs-aodデータセットで最速(32fps)に達することです。

Fast and precise object detection for high-resolution aerial images has been a challenging task over the years. Due to the sharp variations on object scale, rotation, and aspect ratio, most existing methods are inefficient and imprecise. In this paper, we represent the oriented objects by polar method in polar coordinate and propose PolarDet, a fast and accurate one-stage object detector based on that representation. Our detector introduces a sub-pixel center semantic structure to further improve classifying veracity. PolarDet achieves nearly all SOTA performance in aerial object detection tasks with faster inference speed. In detail, our approach obtains the SOTA results on DOTA, UCAS-AOD, HRSC with 76.64\% mAP, 97.01\% mAP, and 90.46\% mAP respectively. Most noticeably, our PolarDet gets the best performance and reaches the fastest speed(32fps) at the UCAS-AOD dataset.
翻訳日:2022-10-06 11:57:06 公開日:2020-10-17
# 多次高精度フールグラスネットワークによるロバスト顔アライメント

Robust Face Alignment by Multi-order High-precision Hourglass Network ( http://arxiv.org/abs/2010.08722v1 )

ライセンス: Link先を確認
Jun Wan, Zhihui Lai, Jun Liu, Jie Zhou, Can Gao(参考訳) 熱マップ回帰(HR)は顔アライメントの主要なアプローチの一つとなり、制約された環境下で有望な結果を得た。 しかし、顔画像が大きなポーズ変化、重オクルージョン、複雑な照明に苦しむ場合、HR法の性能は、生成したランドマーク熱マップの解像度の低さと、より識別的な特徴を学習するのに使用できる重要な高次情報の排除により大幅に低下する。 極めて大きなポーズとヘビーオクルージョンを持つ顔のアライメント問題に対処するために,新しいマルチオーダー高精度時計ネットワーク(MHHN)にシームレスに統合されたヘアマップサブピクセル回帰(HSR)法と多階クロスジオメトリー・アウェア(MCG)モデルを提案する。 HSR法は、よく設計されたサブピクセル検出損失(SDL)とサブピクセル検出技術(SDT)を用いて、高精度なランドマーク検出を実現する。 同時に、MCGモデルは、提案した多階交差情報を用いて、顔の幾何学的制約と文脈情報を強化するためのより識別的な表現を学習することができる。 我々の知る限りでは、これは、堅牢で高精度な顔アライメントのためのヒートマップサブピクセルレグレッションを初めて探求する研究である。 ベンチマークデータセットの挑戦による実験結果から,本手法が文献の最先端手法より優れていることが示された。

Heatmap regression (HR) has become one of the mainstream approaches for face alignment and has obtained promising results under constrained environments. However, when a face image suffers from large pose variations, heavy occlusions and complicated illuminations, the performances of HR methods degrade greatly due to the low resolutions of the generated landmark heatmaps and the exclusion of important high-order information that can be used to learn more discriminative features. To address the alignment problem for faces with extremely large poses and heavy occlusions, this paper proposes a heatmap subpixel regression (HSR) method and a multi-order cross geometry-aware (MCG) model, which are seamlessly integrated into a novel multi-order high-precision hourglass network (MHHN). The HSR method is proposed to achieve high-precision landmark detection by a well-designed subpixel detection loss (SDL) and subpixel detection technology (SDT). At the same time, the MCG model is able to use the proposed multi-order cross information to learn more discriminative representations for enhancing facial geometric constraints and context information. To the best of our knowledge, this is the first study to explore heatmap subpixel regression for robust and high-precision face alignment. The experimental results from challenging benchmark datasets demonstrate that our approach outperforms state-of-the-art methods in the literature.
翻訳日:2022-10-06 11:56:49 公開日:2020-10-17
# pic-to-amount(pita):食品画像からの相対成分量予測

Picture-to-Amount (PITA): Predicting Relative Ingredient Amounts from Food Images ( http://arxiv.org/abs/2010.08727v1 )

ライセンス: Link先を確認
Jiatong Li, Fangda Han, Ricardo Guerrero, Vladimir Pavlovic(参考訳) 食品消費が健康やライフスタイルに与える影響に対する意識の向上は、新しいデータ駆動型食品分析システムを生み出している。 これらのシステムはこれらの成分を認識できるが、正しい栄養を推定するのに最重要となる食事中の量の詳細な分析は通常無視される。 本稿では,食品画像から各成分の相対的な量を予測するという,新しい課題と課題について考察する。 本稿では,この問題を解決するためのPicture-to-AmountディープラーニングアーキテクチャであるPITAを提案する。 具体的には、食品データの2つの視点を整合させるために学習した画像とレシピ間の埋め込みから、ドメイン駆動のワッサースタイン損失を用いて、成分量を予測する。 インターネットから収集されたレシピのデータセットの実験では、モデルが有望な結果を生成し、この課題のベースラインを改善する。 私たちのシステムと私たちのデータのデモは foodai.cs.rutgers.edu で利用可能です。

Increased awareness of the impact of food consumption on health and lifestyle today has given rise to novel data-driven food analysis systems. Although these systems may recognize the ingredients, a detailed analysis of their amounts in the meal, which is paramount for estimating the correct nutrition, is usually ignored. In this paper, we study the novel and challenging problem of predicting the relative amount of each ingredient from a food image. We propose PITA, the Picture-to-Amount deep learning architecture to solve the problem. More specifically, we predict the ingredient amounts using a domain-driven Wasserstein loss from image-to-recipe cross-modal embeddings learned to align the two views of food data. Experiments on a dataset of recipes collected from the Internet show the model generates promising results and improves the baselines on this challenging task. A demo of our system and our data is availableat: foodai.cs.rutgers.edu.
翻訳日:2022-10-06 11:56:24 公開日:2020-10-17
# 対話認識のための自己選択的文脈

Self-Selective Context for Interaction Recognition ( http://arxiv.org/abs/2010.08750v1 )

ライセンス: Link先を確認
Mert Kilickaya, Noureldien Hussein, Efstratios Gavves, Arnold Smeulders(参考訳) 人間と物体の相互作用認識は、対象と対象の関係を識別することを目的としている。 研究者たちは、グローバルシーンコンテキストを、ソリューションとして深層畳み込みニューラルネットワークの初期レイヤに組み込んでいる。 一般的に相互作用はシーンと相関しているため,性能は著しく向上したと報告している(街路で自転車に乗る場合)。 しかし、このアプローチは以下の問題を引き起こす。 初期のレイヤのネットワークサイズを増加させるため、効率的ではない。 シーンが無関係である場合、ノイズのフィルタ応答を発生させるため、精度が低下する。 シーンコンテキストのみを活用するが、人間とオブジェクトの相互作用は複数のコンテキストを提供するため、不完全である。 これらの問題を回避するため,本稿では自己選択文脈(SSC)を提案する。 SSCは、人間オブジェクトとコンテキストの合同的な外観で動作し、最も差別的なコンテキストを認識に役立てる。 我々は,ヒューマン・オブジェクト間インタラクションの局所性をモデル化する新しい文脈特徴を考案し,sscが最先端インタラクション認識モデルとシームレスに統合可能であることを示す。 実験の結果,SSCはパラメータが少なく,相互作用認識性能が著しく向上することがわかった。

Human-object interaction recognition aims for identifying the relationship between a human subject and an object. Researchers incorporate global scene context into the early layers of deep Convolutional Neural Networks as a solution. They report a significant increase in the performance since generally interactions are correlated with the scene (\ie riding bicycle on the city street). However, this approach leads to the following problems. It increases the network size in the early layers, therefore not efficient. It leads to noisy filter responses when the scene is irrelevant, therefore not accurate. It only leverages scene context whereas human-object interactions offer a multitude of contexts, therefore incomplete. To circumvent these issues, in this work, we propose Self-Selective Context (SSC). SSC operates on the joint appearance of human-objects and context to bring the most discriminative context(s) into play for recognition. We devise novel contextual features that model the locality of human-object interactions and show that SSC can seamlessly integrate with the State-of-the-art interaction recognition models. Our experiments show that SSC leads to an important increase in interaction recognition performance, while using much fewer parameters.
翻訳日:2022-10-06 11:56:10 公開日:2020-10-17
# de-gan: 文書エンハンスメントのための条件付き生成広告ネットワーク

DE-GAN: A Conditional Generative Adversarial Network for Document Enhancement ( http://arxiv.org/abs/2010.08764v1 )

ライセンス: Link先を確認
Mohamed Ali Souibgui and Yousri Kessentini(参考訳) 文書はしばしば様々な種類の劣化を示すため、読みにくく、OCRシステムの性能を著しく劣化させる。 本稿では,厳格に劣化した文書画像の復元に条件付きGAN(cGAN)を用いる文書拡張生成支援ネットワーク(DE-GAN)という,効果的なエンドツーエンドフレームワークを提案する。 我々の知る限りでは、この実践は生成的敵対的深層ネットワークの文脈内では研究されていない。 異なるタスク(ドキュメントのクリーンアップ、バイナリ化、デブラリング、ウォーターマークの除去)において、de-ganは、高品質で劣化したドキュメントの強化バージョンを作成できることを実証する。 さらに,広く使用されている dibco 2013 dibco 2017 と h-dibco 2018 のデータセットと比較して,最先端の手法と比較して一貫性のある改善を行い,劣化したドキュメントイメージを理想的な状態に復元する能力を証明する。 その結果,提案モデルの柔軟性が他の文書拡張問題に悪用されることが明らかとなった。

Documents often exhibit various forms of degradation, which make it hard to be read and substantially deteriorate the performance of an OCR system. In this paper, we propose an effective end-to-end framework named Document Enhancement Generative Adversarial Networks (DE-GAN) that uses the conditional GANs (cGANs) to restore severely degraded document images. To the best of our knowledge, this practice has not been studied within the context of generative adversarial deep networks. We demonstrate that, in different tasks (document clean up, binarization, deblurring and watermark removal), DE-GAN can produce an enhanced version of the degraded document with a high quality. In addition, our approach provides consistent improvements compared to state-of-the-art methods over the widely used DIBCO 2013, DIBCO 2017 and H-DIBCO 2018 datasets, proving its ability to restore a degraded document image to its ideal condition. The obtained results on a wide variety of degradation reveal the flexibility of the proposed model to be exploited in other document enhancement problems.
翻訳日:2022-10-06 11:55:31 公開日:2020-10-17
# 可変クロスエンコーダネットワークによる多視点複数画像合成

Directed Variational Cross-encoder Network for Few-shot Multi-image Co-segmentation ( http://arxiv.org/abs/2010.08800v1 )

ライセンス: Link先を確認
Sayan Banerjee, S Divakar Bhat, Subhasis Chaudhuri, Rajbabu Velmurugan(参考訳) 本稿では,クラス非依存なメタラーニング戦略を用いて,新しいクラスに対して少量のトレーニングサンプルしか与えない新しいクラスを一般化し,マルチイメージ共同セグメンテーションのための新しいフレームワークを提案する。 我々はDVICE(Directed Variational Inference Cross Encoder)と呼ばれる新しいエンコーダデコーダネットワークを開発した。 提案するDVICEネットワークと,iCosegやMSRCといった小さなデータセットと協調して発生する小さなサンプルサイズ問題に対処するために,新たな数ショット学習手法を併用した。 さらに、提案するフレームワークはセマンティッククラスラベルを一切使用せず、完全にクラスに依存しない。 少数のトレーニングデータのみを使用して、複数のデータセットを徹底的に実験することで、我々のアプローチが既存の最先端技術を上回ることを実証した。

In this paper, we propose a novel framework for multi-image co-segmentation using class agnostic meta-learning strategy by generalizing to new classes given only a small number of training samples for each new class. We have developed a novel encoder-decoder network termed as DVICE (Directed Variational Inference Cross Encoder), which learns a continuous embedding space to ensure better similarity learning. We employ a combination of the proposed DVICE network and a novel few-shot learning approach to tackle the small sample size problem encountered in co-segmentation with small datasets like iCoseg and MSRC. Furthermore, the proposed framework does not use any semantic class labels and is entirely class agnostic. Through exhaustive experimentation over multiple datasets using only a small volume of training data, we have demonstrated that our approach outperforms all existing state-of-the-art techniques.
翻訳日:2022-10-06 11:55:11 公開日:2020-10-17
# 胸部X線診断のための一般化深層学習モデル

A generalized deep learning model for multi-disease Chest X-Ray diagnostics ( http://arxiv.org/abs/2010.12065v1 )

ライセンス: Link先を確認
Nabit Bajwa, Kedar Bajwa, Atif Rana, M. Faique Shakeel, Kashif Haqqi and Suleiman Ali Khan(参考訳) 深部畳み込み型ニューラルネットワーク(CNN)の胸部X線による疾患分類における一般化可能性について検討した。 我々は,国立衛生研究所(NIH),スタンフォード大学医療センター(CheXpert),シファ国際病院(SIH)の3つの独立した施設のデータセットを用いて,モデルを体系的に訓練した。 逐次トレーニングアプローチを定式化し, 3つのサイトからのホールドアウトテストセットを用いて, モデルが一般化した予測性能をもたらすことを示す。 CheXpert-Shifa-NETモデルは,4つの異なる疾患クラスのうち3つについて,個々のデータセットでトレーニングしたモデルよりも有意に優れた(p-values < 0.05)。 このモデルをトレーニングするためのコードは、公開時点でwww.github.com/link-to-codeでオープンソースとして公開される。

We investigate the generalizability of deep convolutional neural network (CNN) on the task of disease classification from chest x-rays collected over multiple sites. We systematically train the model using datasets from three independent sites with different patient populations: National Institute of Health (NIH), Stanford University Medical Centre (CheXpert), and Shifa International Hospital (SIH). We formulate a sequential training approach and demonstrate that the model produces generalized prediction performance using held out test sets from the three sites. Our model generalizes better when trained on multiple datasets, with the CheXpert-Shifa-NET model performing significantly better (p-values < 0.05) than the models trained on individual datasets for 3 out of the 4 distinct disease classes. The code for training the model will be made available open source at: www.github.com/link-to-code at the time of publication.
翻訳日:2022-10-06 11:48:19 公開日:2020-10-17
# 因果ネットワーク同定のための最大確率推定器の一貫性について

On the Consistency of Maximum Likelihood Estimators for Causal Network Identification ( http://arxiv.org/abs/2010.08870v1 )

ライセンス: Link先を確認
Xiaotian Xie, Dimitrios Katselis, Carolyn L. Beck and R. Srikant(参考訳) 我々は、Bernolli Autoregressive(BAR)プロセスと呼ばれるマルコフ連鎖の特定のクラスのパラメータを同定する問題を考察する。 任意のBARモデルの構造は有向グラフによって符号化される。 グラフ内のノードへのエッジの出現は、特定の時点におけるノードの状態が、前の時刻における対応する親ノードの状態の影響を受けていることを示している。 対応するエッジ重みは、各親ノードから対応する影響レベルを決定する。 最も単純な設定では、特定のノードの状態変数のベルヌーイパラメータは、前の時刻インスタントの親ノード状態と追加のベルヌーイノイズ確率変数の凸結合である。 本稿では,ML推定を用いたエッジウェイト同定の問題に焦点をあて,BARモデルの2つの変種に対してML推定器が強く一致していることを証明する。 さらに、上記の2つの変種に対する閉形式推定器を導出し、その強い整合性を証明する。

We consider the problem of identifying parameters of a particular class of Markov chains, called Bernoulli Autoregressive (BAR) processes. The structure of any BAR model is encoded by a directed graph. Incoming edges to a node in the graph indicate that the state of the node at a particular time instant is influenced by the states of the corresponding parental nodes in the previous time instant. The associated edge weights determine the corresponding level of influence from each parental node. In the simplest setup, the Bernoulli parameter of a particular node's state variable is a convex combination of the parental node states in the previous time instant and an additional Bernoulli noise random variable. This paper focuses on the problem of edge weight identification using Maximum Likelihood (ML) estimation and proves that the ML estimator is strongly consistent for two variants of the BAR model. We additionally derive closed-form estimators for the aforementioned two variants and prove their strong consistency.
翻訳日:2022-10-06 11:48:04 公開日:2020-10-17
# RiSAWOZ:タスク指向対話モデリングのためのリッチセマンティックアノテーション付き大規模マルチドメイン・ウィザード・オブ・オズのデータセット

RiSAWOZ: A Large-Scale Multi-Domain Wizard-of-Oz Dataset with Rich Semantic Annotations for Task-Oriented Dialogue Modeling ( http://arxiv.org/abs/2010.08738v1 )

ライセンス: Link先を確認
Jun Quan, Shian Zhang, Qian Cao, Zizhong Li and Deyi Xiong(参考訳) タスク指向対話モデリングにおけるマルチドメインデータの不足を軽減し,談話現象を捉えるために,Rich Semantic Annotationsを用いた大規模マルチドメイン中国語ウィザード・オブ・オズのデータセットRiSAWOZを提案する。 RiSAWOZは11.2Kの人間対人間(H2H)のマルチターン・アノテート・ダイアログを含み、12ドメインにまたがる150K以上の発話は、以前のすべてのアノテートH2H会話データセットよりも大きい。 シングルドメインとマルチドメインの両方の対話が構築され、それぞれ65%と35%を占めている。 各対話には、自然言語記述、ドメイン、対話状態、およびユーザ側とシステム側の両方で行動する対話目標を含む包括的な対話アノテーションがラベル付けされる。 従来の対話アノテーションに加えて,対話のコリファレンスやエリプシ解決タスクに有用な対話において,対話現象(例えば,エリプシとコリファレンス)に関する言語アノテーションを特に提供する。 完全注釈付きデータセットとは別に、データセットのデータ収集手順、統計、分析の詳細な記述も提示する。 自然言語理解(インテント検出とスロットフィリング)、対話状態の追跡と対話コンテキストのテキスト生成、コア参照と楕円解法など、一連のベンチマークモデルと結果が報告され、このコーパスに関する今後の研究のベースライン比較が容易になる。

In order to alleviate the shortage of multi-domain data and to capture discourse phenomena for task-oriented dialogue modeling, we propose RiSAWOZ, a large-scale multi-domain Chinese Wizard-of-Oz dataset with Rich Semantic Annotations. RiSAWOZ contains 11.2K human-to-human (H2H) multi-turn semantically annotated dialogues, with more than 150K utterances spanning over 12 domains, which is larger than all previous annotated H2H conversational datasets. Both single- and multi-domain dialogues are constructed, accounting for 65% and 35%, respectively. Each dialogue is labeled with comprehensive dialogue annotations, including dialogue goal in the form of natural language description, domain, dialogue states and acts at both the user and system side. In addition to traditional dialogue annotations, we especially provide linguistic annotations on discourse phenomena, e.g., ellipsis and coreference, in dialogues, which are useful for dialogue coreference and ellipsis resolution tasks. Apart from the fully annotated dataset, we also present a detailed description of the data collection procedure, statistics and analysis of the dataset. A series of benchmark models and results are reported, including natural language understanding (intent detection & slot filling), dialogue state tracking and dialogue context-to-text generation, as well as coreference and ellipsis resolution, which facilitate the baseline comparison for future research on this corpus.
翻訳日:2022-10-06 11:47:35 公開日:2020-10-17
# CUSATNLP@HASOC-Dravidian-CodeMix-FIRE2020:Identifying Offensive Language from ManglishTweets (英語)

CUSATNLP@HASOC-Dravidian-CodeMix-FIRE2020:Identifying Offensive Language from ManglishTweets ( http://arxiv.org/abs/2010.08756v1 )

ライセンス: Link先を確認
Sara Renjit, Sumam Mary Idicula(参考訳) ソーシャルメディアの人気が高まり、ブログ、Facebook、Twitter、その他のプラモデルによるコミュニケーションが増加している。 当初は英語が唯一のコミュニケーション手段であった。 幸いなことに、私たちはどんな言語でもコミュニケーションできます。 英語と母国語または母国語を混合した形で使用するようになった。 他の言語のコメントには、英語で翻訳されたフォーマットやその他のケースがある。 このようなコードから感情や不快なコンテンツを特定することは、当時必要なタスクである。 我々は,2020年情報検索評価フォーラムにおいて,hasoc攻撃言語識別タスク2に提案する作業モデルを提案する。 これはメッセージレベルの分類タスクです。 埋め込みモデルに基づく分類器は攻撃的であり,攻撃的ではない。 この手法をサブトラックとともにmanglishデータセットに適用した。

With the popularity of social media, communications through blogs, Facebook, Twitter, and other plat-forms have increased. Initially, English was the only medium of communication. Fortunately, now we can communicate in any language. It has led to people using English and their own native or mother tongue language in a mixed form. Sometimes, comments in other languages have English transliterated format or other cases; people use the intended language scripts. Identifying sentiments and offensive content from such code mixed tweets is a necessary task in these times. We present a working model submitted for Task2 of the sub-track HASOC Offensive Language Identification- DravidianCodeMix in Forum for Information Retrieval Evaluation, 2020. It is a message level classification task. An embedding model-based classifier identifies offensive and not offensive comments in our approach. We applied this method in the Manglish dataset provided along with the sub-track.
翻訳日:2022-10-06 11:47:07 公開日:2020-10-17
# 一貫性と一貫性の強化されたストーリー生成

Consistency and Coherency Enhanced Story Generation ( http://arxiv.org/abs/2010.08822v1 )

ライセンス: Link先を確認
Wei Wang, Piji Li, Hai-Tao Zheng(参考訳) ストーリー生成は難題であり、ストーリー全体を通してプロットとキャラクターの一貫性を維持することを要求する。 以前の研究では、大規模言語モデルであるGPT2が、ストーリー生成において優れたパフォーマンスを達成したことが示されている。 しかし、GPT2が生成したストーリーには、一貫性と一貫性の2つに分類できる深刻な問題がいくつか残っている。 一貫性の面では、GPT2はプロットの整合性を明確に保証することはできない。 一方、生成されたストーリーは通常、コア参照エラーを含む。 一貫性に関しては、GPT2は物語の文間の談話関係を直接考慮していない。 生成したストーリーの一貫性と一貫性を高めるため,第1段はストーリーのプロットとイベントを表現したストーリー概要を整理し,第2段はアウトラインを完全なストーリーに拡張する2段階生成フレームワークを提案する。 したがって、プロットの一貫性は明示的に制御され保証される。 さらに、コリファレンスエラーを低減し、コリファレンス一貫性を向上させるために、コリファレンス監視信号が組み込まれている。 さらに,生成したストーリの一貫性を改善するために,談話関係モデリングの補助タスクを設計する。 ストーリーデータセットの実験結果から,我々のモデルは,自動測定と人的評価の両方の観点から,ベースラインアプローチよりも優れていた。

Story generation is a challenging task, which demands to maintain consistency of the plots and characters throughout the story. Previous works have shown that GPT2, a large-scale language model, has achieved good performance on story generation. However, we observe that several serious issues still exist in the stories generated by GPT2 which can be categorized into two folds: consistency and coherency. In terms of consistency, on one hand, GPT2 cannot guarantee the consistency of the plots explicitly. On the other hand, the generated stories usually contain coreference errors. In terms of coherency, GPT2 does not take account of the discourse relations between sentences of stories directly. To enhance the consistency and coherency of the generated stories, we propose a two-stage generation framework, where the first stage is to organize the story outline which depicts the story plots and events, and the second stage is to expand the outline into a complete story. Therefore the plots consistency can be controlled and guaranteed explicitly. In addition, coreference supervision signals are incorporated to reduce coreference errors and improve the coreference consistency. Moreover, we design an auxiliary task of discourse relation modeling to improve the coherency of the generated stories. Experimental results on a story dataset show that our model outperforms the baseline approaches in terms of both automatic metrics and human evaluation.
翻訳日:2022-10-06 11:46:50 公開日:2020-10-17
# 事前学習言語モデルを用いた知識包含対話生成

Knowledge-Grounded Dialogue Generation with Pre-trained Language Models ( http://arxiv.org/abs/2010.08824v1 )

ライセンス: Link先を確認
Xueliang Zhao, Wei Wu, Can Xu, Chongyang Tao, Dongyan Zhao, Rui Yan(参考訳) 事前学習言語モデルを用いた知識基底対話生成について検討する。 キャパシティ制約下での冗長な外部知識を活用するために,知識選択モジュールを用いた事前学習言語モデルで定義された応答生成と,ラベルなし対話による知識選択と応答生成を協調的に最適化する教師なしアプローチを提案する。 2つのベンチマークによる実験結果から,本モデルは自動評価と人的判断の両方において最先端の手法を著しく上回ることができることが示唆された。

We study knowledge-grounded dialogue generation with pre-trained language models. To leverage the redundant external knowledge under capacity constraint, we propose equipping response generation defined by a pre-trained language model with a knowledge selection module, and an unsupervised approach to jointly optimizing knowledge selection and response generation with unlabeled dialogues. Empirical results on two benchmarks indicate that our model can significantly outperform state-of-the-art methods in both automatic evaluation and human judgment.
翻訳日:2022-10-06 11:46:29 公開日:2020-10-17
# TweetBERT:Twitterテキスト分析のための事前訓練された言語表現モデル

TweetBERT: A Pretrained Language Representation Model for Twitter Text Analysis ( http://arxiv.org/abs/2010.11091v1 )

ライセンス: Link先を確認
Mohiuddin Md Abdul Qudar, Vijay Mago(参考訳) Twitterは、ユーザーが自分の見解や意見をリアルタイムで表現する、よく知られたマイクロブログソーシャルサイトだ。 その結果、ツイートには貴重な情報が含まれる傾向にある。 自然言語処理分野におけるディープラーニングの進歩により、ツイートから有意義な情報を抽出することは、自然言語研究者の間で関心が高まっている。 twitterから情報を抽出するために既存の言語表現モデルを適用すると、良い結果が得られないことが多い。 さらに、ソーシャルメディアドメイン特有のテキスト分析のための既存の言語表現モデルは存在しない。 そこで本稿では,何百万ものツイートで事前学習したドメイン固有言語プレゼンテーションモデルであるTweetBERTモデルを2つ紹介する。 TweetBERTモデルは、Twitterのテキストマイニングタスクにおける従来のBERTモデルよりも、各Twitterデータセットで7%以上優れています。 また、31の異なるデータセット上で7つのBERTモデルを評価することで、広範な分析を行う。 本研究は,twitterコーパスにおける言語モデルの連続学習がtwitterの性能向上に役立つという仮説を検証した。

Twitter is a well-known microblogging social site where users express their views and opinions in real-time. As a result, tweets tend to contain valuable information. With the advancements of deep learning in the domain of natural language processing, extracting meaningful information from tweets has become a growing interest among natural language researchers. Applying existing language representation models to extract information from Twitter does not often produce good results. Moreover, there is no existing language representation models for text analysis specific to the social media domain. Hence, in this article, we introduce two TweetBERT models, which are domain specific language presentation models, pre-trained on millions of tweets. We show that the TweetBERT models significantly outperform the traditional BERT models in Twitter text mining tasks by more than 7% on each Twitter dataset. We also provide an extensive analysis by evaluating seven BERT models on 31 different datasets. Our results validate our hypothesis that continuously training language models on twitter corpus help performance with Twitter.
翻訳日:2022-10-06 11:46:21 公開日:2020-10-17
# 局所近似における依存ガウスエキスパートの集約

Aggregating Dependent Gaussian Experts in Local Approximation ( http://arxiv.org/abs/2010.08873v1 )

ライセンス: Link先を確認
Hamed Jalali, Gjergji Kasneci(参考訳) 分散ガウス過程(DGP)は、ガウス過程(GP)を大規模データセットに拡張する局所近似法である。 グローバルな見積もりではなく、トレーニングセットをサブセットに分割することで、地元の専門家をトレーニングすることで、時間の複雑さを低減します。 この戦略は条件付き独立の仮定に基づいており、基本的には地元の専門家の間に完全な多様性があることを意味する。 しかし実際には、この仮定はしばしば破られ、専門家の集まりは最適で一貫性のない解決につながる。 本稿では,ガウスの専門家を条件付き独立の強い違反を検知して集約する手法を提案する。 専門家間の依存関係は、精度行列を生成するガウス図形モデルを用いて決定される。 精度行列は、専門家間の条件依存を符号化し、強い依存する専門家を検出し、改善された集約を構築するために使用される。 合成データと実データの両方を用いて実験した結果,本手法はsomaアプローチよりも時間効率が向上する一方,独立した専門家を基盤としたsomaアプローチよりも優れていることが示された。

Distributed Gaussian processes (DGPs) are prominent local approximation methods to scale Gaussian processes (GPs) to large datasets. Instead of a global estimation, they train local experts by dividing the training set into subsets, thus reducing the time complexity. This strategy is based on the conditional independence assumption, which basically means that there is a perfect diversity between the local experts. In practice, however, this assumption is often violated, and the aggregation of experts leads to sub-optimal and inconsistent solutions. In this paper, we propose a novel approach for aggregating the Gaussian experts by detecting strong violations of conditional independence. The dependency between experts is determined by using a Gaussian graphical model, which yields the precision matrix. The precision matrix encodes conditional dependencies between experts and is used to detect strongly dependent experts and construct an improved aggregation. Using both synthetic and real datasets, our experimental evaluations illustrate that our new method outperforms other state-of-the-art (SOTA) DGP approaches while being substantially more time-efficient than SOTA approaches, which build on independent experts.
翻訳日:2022-10-06 11:41:53 公開日:2020-10-17
# 嗜好に基づくバッチとシーケンス指導

Preference-Based Batch and Sequential Teaching ( http://arxiv.org/abs/2010.10012v1 )

ライセンス: Link先を確認
Farnam Mansouri, Yuxin Chen, Ara Vartanian, Xiaojin Zhu, Adish Singla(参考訳) アルゴリズム機械による学習は、教師と学習者の相互作用を研究し、教師が対象仮説を教えるためのラベル付き例を選択する。 教育の複雑さを減らすために、いくつかの教育モデルと複雑さ対策がバッチ設定(例えば、最悪のケース、再帰的、優先順位ベース、非クラッシングモデル)とシーケンシャル設定(例えば、局所的な嗜好ベースモデル)の両方に提案されている。 これらのモデル間の関係をよりよく理解するために、選好関数$\Sigma$を介して学習プロセスをキャプチャする新しいフレームワークを開発する。 このフレームワークでは、各関数 $\sigma \in \Sigma$ は、TD(\sigma)$ という、教師と教師のペアを誘導する。 上記の指導モデルは,好み関数の特定の型/ファミリと等価であることを示す。 学習複雑性パラメータ $td(\sigma)$ と選好関数の異なる族(例えば、仮説クラスのvc次元と非連結領域上の$td(\sigma)$ の加法的/副加法性との比較)のいくつかの性質を解析した。 最後に、VC次元において複雑性を線形に教えるシーケンシャルモデルの新しいファミリーを誘導する選好関数を同定する:これはVC次元において二次的なバッチモデルにおいて最もよく知られた複雑性結果とは対照的である。

Algorithmic machine teaching studies the interaction between a teacher and a learner where the teacher selects labeled examples aiming at teaching a target hypothesis. In a quest to lower teaching complexity, several teaching models and complexity measures have been proposed for both the batch settings (e.g., worst-case, recursive, preference-based, and non-clashing models) and the sequential settings (e.g., local preference-based model). To better understand the connections between these models, we develop a novel framework that captures the teaching process via preference functions $\Sigma$. In our framework, each function $\sigma \in \Sigma$ induces a teacher-learner pair with teaching complexity as $TD(\sigma)$. We show that the above-mentioned teaching models are equivalent to specific types/families of preference functions. We analyze several properties of the teaching complexity parameter $TD(\sigma)$ associated with different families of the preference functions, e.g., comparison to the VC dimension of the hypothesis class and additivity/sub-additivity of $TD(\sigma)$ over disjoint domains. Finally, we identify preference functions inducing a novel family of sequential models with teaching complexity linear in the VC dimension: this is in contrast to the best-known complexity result for the batch models, which is quadratic in the VC dimension.
翻訳日:2022-10-06 11:41:20 公開日:2020-10-17
# 非時間的リアルタイム火災検出のための効率的かつコンパクトな畳み込みニューラルネットワークアーキテクチャ

Efficient and Compact Convolutional Neural Network Architectures for Non-temporal Real-time Fire Detection ( http://arxiv.org/abs/2010.08833v1 )

ライセンス: Link先を確認
William Thomson, Neelanjan Bhowmik, Toby P. Breckon(参考訳) 自動視覚火災検知は、従来の火災検知センサーシステム(煙や熱)を補完するために用いられる。 本研究では,ビデオ(あるいは静止画像)における火の画素領域の非時間的リアルタイム境界検出のための,さまざまな畳み込みニューラルネットワーク(CNN)アーキテクチャとその変異について検討する。 NasNet-A-OnFire と ShuffleNetV2-OnFire の2つの小型CNNアーキテクチャを実験的解析により提案し,その計算効率を最適化した。 その結果,現在の火災検出ソリューションにより,全フレームバイナリ分類では95%,スーパーピクセルローカライズでは97%の精度が向上した。 特に,2値分類では2.3x,スーパーピクセルローカライゼーションでは1.3x,実行時40fpsと18fpsで分類速度が向上した。 その後の低消費電力デバイス(Nvidia Xavier-NX、ShuffleNetV2-OnFireによるフルフレーム分類で49fpsを達成した)への実装は、私たちのアーキテクチャが様々な実世界のデプロイアプリケーションに適していることを実証している。

Automatic visual fire detection is used to complement traditional fire detection sensor systems (smoke/heat). In this work, we investigate different Convolutional Neural Network (CNN) architectures and their variants for the non-temporal real-time bounds detection of fire pixel regions in video (or still) imagery. Two reduced complexity compact CNN architectures (NasNet-A-OnFire and ShuffleNetV2-OnFire) are proposed through experimental analysis to optimise the computational efficiency for this task. The results improve upon the current state-of-the-art solution for fire detection, achieving an accuracy of 95% for full-frame binary classification and 97% for superpixel localisation. We notably achieve a classification speed up by a factor of 2.3x for binary classification and 1.3x for superpixel localisation, with runtime of 40 fps and 18 fps respectively, outperforming prior work in the field presenting an efficient, robust and real-time solution for fire region detection. Subsequent implementation on low-powered devices (Nvidia Xavier-NX, achieving 49 fps for full-frame classification via ShuffleNetV2-OnFire) demonstrates our architectures are suitable for various real-world deployment applications.
翻訳日:2022-10-06 11:40:31 公開日:2020-10-17
# 機械学習モデルによる脳内情報処理の理解

Understanding Information Processing in Human Brain by Interpreting Machine Learning Models ( http://arxiv.org/abs/2010.08715v1 )

ライセンス: Link先を確認
Ilya Kuzovkin(参考訳) この論文は、ニューラルネットワークの直感的な計算モデルの作成に機械学習手法が果たす役割を探求している。 解釈可能性技術と組み合わせることで、機械学習は人間のモデラーを置き換え、人間の努力の焦点を、準備されたモデルから知識を抽出し、その知識を直感的な現実のデクロプションへと表現する。 この観点は、従来の仮説駆動のアプローチと共存しながら、探索的およびデータ駆動の計算神経科学のアプローチが果たす大きな役割を支持する。 ニューラルネットワークの3つの異なるレベルにおいて、機械学習手法の上に解釈可能性技術を用いる3つの研究プロジェクトを用いて、知識表現分類の文脈で提案手法を例示する。 第1回(チャップター) 3)100名の被験者の脳内記録に基づいて訓練されたランダムフォレストデコーダの特徴的重要度解析を行い,視覚分類作業中に局所的な神経活動を特徴付けるスペクトル時間的シグネチャを同定する。 第2回(チャップター) 4) 表現類似性解析を用いて, 深層畳み込みニューラルネットワークのレイヤの活性化と腹側の流れに沿った領域の神経応答を比較する。 第3研究(第3章) 5) 被験者が神経信号の状態表現をリアルタイムで視覚的に探索できる手法を提案する。 これは、コンピュータが使用する多次元表現から人間が把握できる2次元表現に変換することができるトポロジ保存次元減少技術を用いて達成される。 このアプローチ、分類、例では、神経科学における知識の自動発見への機械学習手法の適用性が強く示されている。

The thesis explores the role machine learning methods play in creating intuitive computational models of neural processing. Combined with interpretability techniques, machine learning could replace human modeler and shift the focus of human effort to extracting the knowledge from the ready-made models and articulating that knowledge into intuitive descroptions of reality. This perspective makes the case in favor of the larger role that exploratory and data-driven approach to computational neuroscience could play while coexisting alongside the traditional hypothesis-driven approach. We exemplify the proposed approach in the context of the knowledge representation taxonomy with three research projects that employ interpretability techniques on top of machine learning methods at three different levels of neural organization. The first study (Chapter 3) explores feature importance analysis of a random forest decoder trained on intracerebral recordings from 100 human subjects to identify spectrotemporal signatures that characterize local neural activity during the task of visual categorization. The second study (Chapter 4) employs representation similarity analysis to compare the neural responses of the areas along the ventral stream with the activations of the layers of a deep convolutional neural network. The third study (Chapter 5) proposes a method that allows test subjects to visually explore the state representation of their neural signal in real time. This is achieved by using a topology-preserving dimensionality reduction technique that allows to transform the neural data from the multidimensional representation used by the computer into a two-dimensional representation a human can grasp. The approach, the taxonomy, and the examples, present a strong case for the applicability of machine learning methods to automatic knowledge discovery in neuroscience.
翻訳日:2022-10-06 11:39:01 公開日:2020-10-17
# コンテキストにおける回答チェック:視覚的質問応答のためのマルチモーダルフルアテンションネットワーク

Answer-checking in Context: A Multi-modal FullyAttention Network for Visual Question Answering ( http://arxiv.org/abs/2010.08708v1 )

ライセンス: Link先を確認
Hantao Huang, Tao Han, Wei Han, Deep Yap, Cheng-Ming Chiang(参考訳) VQA(Visual Question Answering)は、複雑な相互モーダル関係のため困難である。 研究コミュニティから広く注目を集めている。 人間の視点では、視覚的な質問に答えるには、質問を読んで、画像を参照して答えを生成する必要がある。 この答えは質問に対して確認され、最終確認のために再度イメージされる。 本稿では,このプロセスを模倣し,vqaアーキテクチャに完全注目することを提案する。 さらに,共同回答,質問,画像表現に統一的な注意を払って回答を更新するために,回答チェックモジュールを提案する。 これは、人間の回答チェックプロセスを模倣して、コンテキスト内の回答を検討する。 VQA-v2.0テスト標準スプリットのパラメータを減らして、回答チェックモジュールと転送BERT層を用いて、最先端の精度71.57\%を達成する。

Visual Question Answering (VQA) is challenging due to the complex cross-modal relations. It has received extensive attention from the research community. From the human perspective, to answer a visual question, one needs to read the question and then refer to the image to generate an answer. This answer will then be checked against the question and image again for the final confirmation. In this paper, we mimic this process and propose a fully attention based VQA architecture. Moreover, an answer-checking module is proposed to perform a unified attention on the jointly answer, question and image representation to update the answer. This mimics the human answer checking process to consider the answer in the context. With answer-checking modules and transferred BERT layers, our model achieves the state-of-the-art accuracy 71.57\% using fewer parameters on VQA-v2.0 test-standard split.
翻訳日:2022-10-06 09:13:33 公開日:2020-10-17
# BERTの階層型マルチタスク学習手法

Hierarchical Multitask Learning Approach for BERT ( http://arxiv.org/abs/2011.04451v1 )

ライセンス: Link先を確認
\c{C}a\u{g}la Aksoy, Alper Ahmeto\u{g}lu, Tunga G\"ung\"or(参考訳) 近年の研究では,単語の文脈的埋め込み学習が下流作業に有用であることが示されている。 BERTはこのアプローチの成功例のひとつです。 隠れた言語モデル(masked LM)と次の文予測(NSP)の2つのタスクを解くことで埋め込みを学習する。 BERTの事前学習はマルチタスク学習問題としても考えられる。 本研究では,bert事前学習に階層型マルチタスク学習手法を採用する。 プレトレーニングタスクは、最終レイヤではなく異なるレイヤで解決され、NSPタスクからの情報は、マスクされたLMタスクに転送される。 また,単語順序情報をエンコードする新しい事前学習タスクbigramシフトを提案する。 2つのダウンストリームタスクを選択します。1つは文レベルの埋め込み(文の包含)、もう1つはコンテキスト化された単語の埋め込み(質問応答)が必要です。 計算量制限のため、制約付きデータセットが与えられた場合、提案モデルのパフォーマンスを事前トレーニングするために、大きなデータセットの代わりに下流タスクデータを使用する。 学習した埋め込みを分析するために、いくつかの調査タスクでパフォーマンスをテストします。 この結果から,タスク階層の事前学習により埋込み性能が向上することが示唆された。

Recent works show that learning contextualized embeddings for words is beneficial for downstream tasks. BERT is one successful example of this approach. It learns embeddings by solving two tasks, which are masked language model (masked LM) and the next sentence prediction (NSP). The pre-training of BERT can also be framed as a multitask learning problem. In this work, we adopt hierarchical multitask learning approaches for BERT pre-training. Pre-training tasks are solved at different layers instead of the last layer, and information from the NSP task is transferred to the masked LM task. Also, we propose a new pre-training task bigram shift to encode word order information. We choose two downstream tasks, one of which requires sentence-level embeddings (textual entailment), and the other requires contextualized embeddings of words (question answering). Due to computational restrictions, we use the downstream task data instead of a large dataset for the pre-training to see the performance of proposed models when given a restricted dataset. We test their performance on several probing tasks to analyze learned embeddings. Our results show that imposing a task hierarchy in pre-training improves the performance of embeddings.
翻訳日:2022-10-06 09:13:22 公開日:2020-10-17
# ディープラーニングモデルと線形分類器モデルの生成モデルに基づく敵対的セキュリティ

A Generative Model based Adversarial Security of Deep Learning and Linear Classifier Models ( http://arxiv.org/abs/2010.08546v1 )

ライセンス: Link先を確認
erhat Ozgur Catak and Samed Sivaslioglu and Kevser Sahinbas(参考訳) 近年, 健康, 交通, 自動運転車など, さまざまな分野に機械学習アルゴリズムが応用されている。 ディープラーニング技術の急速な発展に伴い、アルゴリズムの適用を考慮し、セキュリティ上の懸念を考慮に入れることが重要である。 機械学習はアルゴリズムの適用に関して大きな利点があるが、セキュリティの問題は無視されている。 現実世界には多くのアプリケーションがあるので、セキュリティはアルゴリズムの重要な部分です。 本稿では,生成型モデルの一つであるオートエンコーダモデルを用いて,機械学習モデルに対する敵意攻撃の軽減法を提案する。 機械学習モデルに対する敵対的攻撃の背後にある主なアイデアは、トレーニングされたモデルを操作することによって誤った結果を生み出すことである。 また,マルチクラスロジスティック回帰に対する非標的的および標的的攻撃,高速勾配符号法,標的高速勾配符号法,mnistデータセットのためのニューラルネットワークへの反復的攻撃といった異なる手法を用いて,ディープニューラルネットワークから従来のアルゴリズムへの様々な攻撃手法に対するオートエンコーダモデルの性能を示した。

In recent years, machine learning algorithms have been applied widely in various fields such as health, transportation, and the autonomous car. With the rapid developments of deep learning techniques, it is critical to take the security concern into account for the application of the algorithms. While machine learning offers significant advantages in terms of the application of algorithms, the issue of security is ignored. Since it has many applications in the real world, security is a vital part of the algorithms. In this paper, we have proposed a mitigation method for adversarial attacks against machine learning models with an autoencoder model that is one of the generative ones. The main idea behind adversarial attacks against machine learning models is to produce erroneous results by manipulating trained models. We have also presented the performance of autoencoder models to various attack methods from deep neural networks to traditional algorithms by using different methods such as non-targeted and targeted attacks to multi-class logistic regression, a fast gradient sign method, a targeted fast gradient sign method and a basic iterative method attack to neural networks for the MNIST dataset.
翻訳日:2022-10-06 09:12:48 公開日:2020-10-17
# ベンチマークテストにおけるアクティベーション機能--連続値論理を用いたeXplainable Artificial Intelligenceに向けて

Squashing activation functions in benchmark tests: towards eXplainable Artificial Intelligence using continuous-valued logic ( http://arxiv.org/abs/2010.08760v1 )

ライセンス: Link先を確認
Daniel Zeltner, Benedikt Schmid, Gabor Csiszar, Orsolya Csiszar(参考訳) 過去数年間、ディープニューラルネットワークは複数のタスクにおいて優れた結果を示してきたが、モデルの透明性、パフォーマンス、安全性を改善するための解釈可能性の問題に対処する必要性が高まっている。 ニューラルネットワークと連続論理とマルチ基準決定ツールを組み合わせることで、eXplainable Artificial Intelligence(XAI)を実現することが、この問題に対処する最も有望な方法の1つだ。 連続論理に基づくニューラルモデルは、自然な不変条件を満たすパラメトリックな関数群であり、特定のケースとして整列線形単位を含むいわゆるスクアッシングアクティベーション関数を使用する。 この研究は、ニューラルネットワークにおけるスカッシング関数のパフォーマンスを測定する最初のベンチマークテストを示す。 ユーザビリティを調べるために3つの実験を行い、5種類のネットワークに対して最も人気のあるアクティベーション関数との比較を行った。 性能は, 年代ごとの精度, 損失, 時間を測定することで決定された。 これらの実験とベンチマークにより、従来のアクティベーション関数と性能が類似していることが証明された。 さらに, 単純な分類タスクがいかにうまく, 高い性能で解けるかを実証するために, 零度論理ゲートを実装した実験を行った。 その結果, 組込み零度論理演算子とスクアッシング関数の微分可能性により, 他のよく用いられる活性化関数が失敗する分類問題を解くことができることがわかった。

Over the past few years, deep neural networks have shown excellent results in multiple tasks, however, there is still an increasing need to address the problem of interpretability to improve model transparency, performance, and safety. Achieving eXplainable Artificial Intelligence (XAI) by combining neural networks with continuous logic and multi-criteria decision-making tools is one of the most promising ways to approach this problem: by this combination, the black-box nature of neural models can be reduced. The continuous logic-based neural model uses so-called Squashing activation functions, a parametric family of functions that satisfy natural invariance requirements and contain rectified linear units as a particular case. This work demonstrates the first benchmark tests that measure the performance of Squashing functions in neural networks. Three experiments were carried out to examine their usability and a comparison with the most popular activation functions was made for five different network types. The performance was determined by measuring the accuracy, loss, and time per epoch. These experiments and the conducted benchmarks have proven that the use of Squashing functions is possible and similar in performance to conventional activation functions. Moreover, a further experiment was conducted by implementing nilpotent logical gates to demonstrate how simple classification tasks can be solved successfully and with high performance. The results indicate that due to the embedded nilpotent logical operators and the differentiability of the Squashing function, it is possible to solve classification problems, where other commonly used activation functions fail.
翻訳日:2022-10-06 09:12:00 公開日:2020-10-17
# MESA:Meta-SAmplerによるアンサンブルインバランスラーニング

MESA: Boost Ensemble Imbalanced Learning with MEta-SAmpler ( http://arxiv.org/abs/2010.08830v1 )

ライセンス: Link先を確認
Zhining Liu, Pengfei Wei, Jing Jiang, Wei Cao, Jiang Bian, Yi Chang(参考訳) 不均衡学習(il)、すなわちクラス不均衡データから偏りのないモデルを学ぶことは難しい問題である。 再サンプリングや重み付けを含む典型的なilメソッドは、いくつかのヒューリスティックな仮定に基づいて設計された。 それらはしばしば不安定な性能、不適切な適用性、そして彼らの仮定が持たない複雑なタスクにおける高い計算コストに苦しむ。 本稿では,MESAという新しいアンサンブルILフレームワークを紹介する。 反復でトレーニングセットを適応的に再サンプリングし、複数の分類器を取得し、カスケードアンサンブルモデルを形成する。 MESAはデータからサンプリング戦略を直接学習し、ランダムなヒューリスティックに従わない最終指標を最適化する。 さらに、メタ学習ベースのILソリューションとは異なり、タスク非依存のメタデータに対してメタサンプルを独立にトレーニングすることで、MESAにおけるモデルトレーニングとメタトレーニングを分離する。 これにより、MESAは既存の学習モデルのほとんどに適用でき、メタサンプルは新しいタスクに効率的に適用できる。 合成タスクと実世界のタスクの両方に対する大規模な実験は、MESAの有効性、堅牢性、および伝達性を示している。 私たちのコードはhttps://github.com/zhiningliu1998/mesaで利用可能です。

Imbalanced learning (IL), i.e., learning unbiased models from class-imbalanced data, is a challenging problem. Typical IL methods including resampling and reweighting were designed based on some heuristic assumptions. They often suffer from unstable performance, poor applicability, and high computational cost in complex tasks where their assumptions do not hold. In this paper, we introduce a novel ensemble IL framework named MESA. It adaptively resamples the training set in iterations to get multiple classifiers and forms a cascade ensemble model. MESA directly learns the sampling strategy from data to optimize the final metric beyond following random heuristics. Moreover, unlike prevailing meta-learning-based IL solutions, we decouple the model-training and meta-training in MESA by independently train the meta-sampler over task-agnostic meta-data. This makes MESA generally applicable to most of the existing learning models and the meta-sampler can be efficiently applied to new tasks. Extensive experiments on both synthetic and real-world tasks demonstrate the effectiveness, robustness, and transferability of MESA. Our code is available at https://github.com/ZhiningLiu1998/mesa.
翻訳日:2022-10-06 09:11:35 公開日:2020-10-17
# 比較文を用いた日英多モーダルニューラルネットワーク翻訳コーパス

A Corpus for English-Japanese Multimodal Neural Machine Translation with Comparable Sentences ( http://arxiv.org/abs/2010.08725v1 )

ライセンス: Link先を確認
Andrew Merritt, Chenhui Chu, Yuki Arase(参考訳) 画像データなどの追加のモダリティがテキストデータにより多くのコンテキストを提供するため、NMT(Multimodal Neural Machine Translation)は長年にわたって研究の重要領域になりつつある。 さらに, パラレルコーパスを伴わないマルチモーダルNMTモデルの訓練は, 特に英和データにおいて, 画像との並列文の可用性が低いため, 引き続き検討されている。 しかし、この空白は、ソーシャルネットワーク投稿やeコマース製品記述のようなメディアによって自然に作られる、バイリンガル用語と平行句を含む比較文で埋められる。 本稿では,既存の画像キャプションデータセットから合成した文に匹敵する多モーダルな英和コーパスを提案する。 さらに,検証やテスト目的のために,比較文をより小さな並列コーパスで補完する。 この同等の文翻訳シナリオの性能をテストするために,我々の比較コーパスを用いていくつかのベースラインNMTモデルを訓練し,その英和翻訳性能を評価する。 ベースライン実験において翻訳スコアが低かったため、現在のマルチモーダルNMTモデルは、比較文データを有効に活用するために設計されていないと信じている。 それにもかかわらず、私たちのコーパスは、比較文によるマルチモーダルNTTのさらなる研究に活用されることを願っている。

Multimodal neural machine translation (NMT) has become an increasingly important area of research over the years because additional modalities, such as image data, can provide more context to textual data. Furthermore, the viability of training multimodal NMT models without a large parallel corpus continues to be investigated due to low availability of parallel sentences with images, particularly for English-Japanese data. However, this void can be filled with comparable sentences that contain bilingual terms and parallel phrases, which are naturally created through media such as social network posts and e-commerce product descriptions. In this paper, we propose a new multimodal English-Japanese corpus with comparable sentences that are compiled from existing image captioning datasets. In addition, we supplement our comparable sentences with a smaller parallel corpus for validation and test purposes. To test the performance of this comparable sentence translation scenario, we train several baseline NMT models with our comparable corpus and evaluate their English-Japanese translation performance. Due to low translation scores in our baseline experiments, we believe that current multimodal NMT models are not designed to effectively utilize comparable sentence data. Despite this, we hope for our corpus to be used to further research into multimodal NMT with comparable sentences.
翻訳日:2022-10-06 09:04:09 公開日:2020-10-17
# HABERTOR:効率的かつ効果的な深層音声検出装置

HABERTOR: An Efficient and Effective Deep Hatespeech Detector ( http://arxiv.org/abs/2010.08865v1 )

ライセンス: Link先を確認
Thanh Tran, Yifan Hu, Changwei Hu, Kevin Yen, Fei Tan, Kyumin Lee, Serim Park(参考訳) 本稿では,habertorモデルを用いてhatspeechの検出を行う。 近年のbertモデルの成功に触発されて,下流のhatspeech分類タスクの性能向上のために,bertのいくつかの修正を提案する。 HABERTORはBERTのアーキテクチャを継承するが、4つの面で異なる。 (i)独自の語彙を生成し、最大のハトスペッチデータセットを使用してスクラッチから事前学習する。 (ii)四元数に基づく因子化成分で構成されており、結果としてパラメータがはるかに少なくなり、より高速なトレーニングと参照、メモリ使用量が少なくなる。 (iii)提案するマルチソースアンサンブルヘッドと、別々の入力源のためのプール層を用いて、その効果をさらに高める。 (iv)本手法では,提案する細粒度と適応性を有する正規化逆訓練を用いて,その頑健性を高める。 1.4mの注釈付きコメントを含む大規模実世界のhatspeechデータセットの実験を通じて、habertorは15の最先端のhatspeech検出手法よりも優れた働きをすることを示した。 特に、bertと比較すると、私たちのhabertorはトレーニング/推論フェーズで4~5倍高速で、メモリの1/3未満を使用し、単語数の1%未満で事前トレーニングしてもパフォーマンスが向上しています。 我々の一般化可能性分析は、habertorが他の目に見えないhatspeechデータセットにうまく移行していることを示しており、hatspeech分類においてbertよりも効率的で効果的な代替手段である。

We present our HABERTOR model for detecting hatespeech in large scale user-generated content. Inspired by the recent success of the BERT model, we propose several modifications to BERT to enhance the performance on the downstream hatespeech classification task. HABERTOR inherits BERT's architecture, but is different in four aspects: (i) it generates its own vocabularies and is pre-trained from the scratch using the largest scale hatespeech dataset; (ii) it consists of Quaternion-based factorized components, resulting in a much smaller number of parameters, faster training and inferencing, as well as less memory usage; (iii) it uses our proposed multi-source ensemble heads with a pooling layer for separate input sources, to further enhance its effectiveness; and (iv) it uses a regularized adversarial training with our proposed fine-grained and adaptive noise magnitude to enhance its robustness. Through experiments on the large-scale real-world hatespeech dataset with 1.4M annotated comments, we show that HABERTOR works better than 15 state-of-the-art hatespeech detection methods, including fine-tuning Language Models. In particular, comparing with BERT, our HABERTOR is 4~5 times faster in the training/inferencing phase, uses less than 1/3 of the memory, and has better performance, even though we pre-train it by using less than 1% of the number of words. Our generalizability analysis shows that HABERTOR transfers well to other unseen hatespeech datasets and is a more efficient and effective alternative to BERT for the hatespeech classification.
翻訳日:2022-10-06 09:03:49 公開日:2020-10-17
# NVIDIA PilotNetの実験

The NVIDIA PilotNet Experiments ( http://arxiv.org/abs/2010.08776v1 )

ライセンス: Link先を確認
Mariusz Bojarski, Chenyi Chen, Joyjit Daw, Alperen De\u{g}irmenci, Joya Deri, Bernhard Firner, Beat Flepp, Sachin Gogri, Jesse Hong, Lawrence Jackel, Zhenhua Jia, BJ Lee, Bo Liu, Fei Liu, Urs Muller, Samuel Payne, Nischal Kota Nagendra Prasad, Artem Provodin, John Roach, Timur Rvachov, Neha Tadimeti, Jesper van Engelen, Haiguang Wen, Eric Yang, and Zongyi Yang(参考訳) 4年前、pilotnetと呼ばれる実験システムが、道路に沿って自動運転車を操縦する最初のnvidiaシステムになった。 このシステムは、プロセスが手動で一連のモジュールに分解され、それぞれが異なるタスクを実行する、従来の自動運転アプローチから逸脱している。 一方、PilotNetでは、単一のディープニューラルネットワーク(DNN)が入力としてピクセルを取り込み、出力として所望の車両軌道を生成する。 手作りのインターフェースは最終的に、システム内の情報フローを制限することでパフォーマンスを制限し、学習されたアプローチは、冗長性のある他の人工知能システムと組み合わせることで、システム全体のパフォーマンスが向上すると信じています。 私たちはその目標に向けて研究を続けます。 この文書では、ニュージャージー州ホルムデルのNVIDIA PilotNetグループによって過去5年間に実施されたPilotNetレーン維持の取り組みについて述べています。 ここでは、2020年半ばのシステムステータスのスナップショットを示し、pilotnet groupによる作業のいくつかを強調する。

Four years ago, an experimental system known as PilotNet became the first NVIDIA system to steer an autonomous car along a roadway. This system represents a departure from the classical approach for self-driving in which the process is manually decomposed into a series of modules, each performing a different task. In PilotNet, on the other hand, a single deep neural network (DNN) takes pixels as input and produces a desired vehicle trajectory as output; there are no distinct internal modules connected by human-designed interfaces. We believe that handcrafted interfaces ultimately limit performance by restricting information flow through the system and that a learned approach, in combination with other artificial intelligence systems that add redundancy, will lead to better overall performing systems. We continue to conduct research toward that goal. This document describes the PilotNet lane-keeping effort, carried out over the past five years by our NVIDIA PilotNet group in Holmdel, New Jersey. Here we present a snapshot of system status in mid-2020 and highlight some of the work done by the PilotNet group.
翻訳日:2022-10-06 09:03:22 公開日:2020-10-17
# ディエンタングリングアクションシーケンス:関連サンプルの発見

Disentangling Action Sequences: Discovering Correlated Samples ( http://arxiv.org/abs/2010.11684v1 )

ライセンス: Link先を確認
Jiantao Wu and Lin Wang(参考訳) 絡み合いは、人間の理解と推論との類似性から、表現の非常に望ましい性質である。 これにより解釈性が向上し、ダウンストリームタスクのパフォーマンスが向上し、制御可能な生成モデルが可能になる。 しかし、この領域は抽象概念や不完全理論に挑戦され、教師なしの非絡み合い学習を支援する。 画像の向きなどのデータ自体が、要因ではなく、乱れにおいて重要な役割を担い、非絡み合った表現は、潜伏変数とアクションシーケンスとを一致させる。 さらに,既存のディスタングアプローチの動作記述を容易にするディスタングアクションシーケンスの概念についても紹介する。 このプロセスのアナロジーは、物事間の共通点を発見し、それらを分類することである。 さらに,データに対する帰納的バイアスを分析し,潜在情報閾値が行動の意義と相関していることを見出す。 教師なし設定と教師なし設定では,しきい値の測定に2つの方法を導入する。 さらに,ステップバイステップの異なる動作列を分離する分数変分オートエンコーダ(fvae)を提案する。 dspritesと3d chairsの実験結果から,fvaeは乱れの安定性が向上した。

Disentanglement is a highly desirable property of representation due to its similarity with human's understanding and reasoning. This improves interpretability, enables the performance of down-stream tasks, and enables controllable generative models. However, this domain is challenged by the abstract notion and incomplete theories to support unsupervised disentanglement learning. We demonstrate the data itself, such as the orientation of images, plays a crucial role in disentanglement and instead of the factors, and the disentangled representations align the latent variables with the action sequences. We further introduce the concept of disentangling action sequences which facilitates the description of the behaviours of the existing disentangling approaches. An analogy for this process is to discover the commonality between the things and categorizing them. Furthermore, we analyze the inductive biases on the data and find that the latent information thresholds are correlated with the significance of the actions. For the supervised and unsupervised settings, we respectively introduce two methods to measure the thresholds. We further propose a novel framework, fractional variational autoencoder (FVAE), to disentangle the action sequences with different significance step-by-step. Experimental results on dSprites and 3D Chairs show that FVAE improves the stability of disentanglement.
翻訳日:2022-10-06 09:02:44 公開日:2020-10-17
# 光電子インテリジェンス

Optoelectronic Intelligence ( http://arxiv.org/abs/2010.08690v1 )

ライセンス: Link先を確認
Jeffrey M. Shainline(参考訳) 汎用インテリジェンスのためのハードウェアの設計と構築には,神経科学と大規模統合の両方の原則を検討する必要がある。 汎用知能を持つ大きな神経系では、通信のための光子学と計算のための電子工学の属性は相補的で相互依存的である。 通信に光を使用すると、トラフィック依存のボトルネックのない大規模システム間で、高いファンアウトと低レイテンシのシグナリングが可能になる。 計算において、ジョセフソン回路の固有非線形性、高速、低消費電力は複雑な神経機能に寄与する。 4\,Kでの運用は、効率性と経済的スケーラビリティにつながる2つの特徴である、単光子検出器とシリコン光源の使用を可能にする。 ここでは、光電子ハードウェアの概念をスケッチします。まずはシナプス回路から始まり、ウェハスケールの統合を継続し、光ファイバーの白色物質と相互接続するシステムに拡張します。

To design and construct hardware for general intelligence, we must consider principles of both neuroscience and very-large-scale integration. For large neural systems capable of general intelligence, the attributes of photonics for communication and electronics for computation are complementary and interdependent. Using light for communication enables high fan-out as well as low-latency signaling across large systems with no traffic-dependent bottlenecks. For computation, the inherent nonlinearities, high speed, and low power consumption of Josephson circuits are conducive to complex neural functions. Operation at 4\,K enables the use of single-photon detectors and silicon light sources, two features that lead to efficiency and economical scalability. Here I sketch a concept for optoelectronic hardware, beginning with synaptic circuits, continuing through wafer-scale integration, and extending to systems interconnected with fiber-optic white matter, potentially at the scale of the human brain and beyond.
翻訳日:2022-10-06 09:02:05 公開日:2020-10-17