このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200408となっている論文です。

PDF登録状況(公開日: 20200408)

TitleAuthorsAbstract論文公表日・翻訳日
# カテゴリーレベル調音物体ポーズ推定

Category-Level Articulated Object Pose Estimation ( http://arxiv.org/abs/1912.11913v2 )

ライセンス: Link先を確認
Xiaolong Li, He Wang, Li Yi, Leonidas Guibas, A. Lynn Abbott, Shuran Song(参考訳) 本研究は,一深度画像から合成されたオブジェクトのカテゴリーレベルのポーズ推定の課題に対処する。 トレーニング中に未確認のオブジェクトインスタンスを正しく適合させる新しいカテゴリレベルのアプローチを提案する。 本稿では,あるカテゴリーの異なる調音対象の標準表現であるArticulation-Aware Normalized Coordinate Space Hierarchy (ANCSH)を紹介する。 圏内一般化を達成する鍵として、表現は正準対象空間と正準部分空間の集合を構成する。 標準対象空間は対象の向き、スケール、調音(例えば関節パラメータや状態)を正規化し、各標準部分空間はその部分のポーズとスケールをさらに正規化する。 我々は,標準オブジェクト空間における部分分割,正規化座標,関節パラメータを含む,単一の深度点クラウドからANCSHを予測するPointNet++に基づくディープネットワークを開発する。 正準関節の活用により、以下のことが示される。 1) ジョイントから誘導された運動学的制約による部分ポーズおよびスケール推定の性能向上 2)カメラ空間におけるジョイントパラメータ推定の高精度化

This project addresses the task of category-level pose estimation for articulated objects from a single depth image. We present a novel category-level approach that correctly accommodates object instances previously unseen during training. We introduce Articulation-aware Normalized Coordinate Space Hierarchy (ANCSH) - a canonical representation for different articulated objects in a given category. As the key to achieve intra-category generalization, the representation constructs a canonical object space as well as a set of canonical part spaces. The canonical object space normalizes the object orientation,scales and articulations (e.g. joint parameters and states) while each canonical part space further normalizes its part pose and scale. We develop a deep network based on PointNet++ that predicts ANCSH from a single depth point cloud, including part segmentation, normalized coordinates, and joint parameters in the canonical object space. By leveraging the canonicalized joints, we demonstrate: 1) improved performance in part pose and scale estimations using the induced kinematic constraints from joints; 2) high accuracy for joint parameter estimation in camera space.
翻訳日:2023-06-10 07:58:32 公開日:2020-04-08
# 計測のコンパクト凸構造とその連続体流計測のシミュラビリティ、不適合性、凸資源理論への応用

Compact convex structure of measurements and its applications to simulability, incompatibility, and convex resource theory of continuous-outcome measurements ( http://arxiv.org/abs/2002.03504v2 )

ライセンス: Link先を確認
Yui Kuramochi(参考訳) 次数単位 Banach space $E$ with a Banach predual で記述された、無限次元の一般確率論に関する一般測度に対する後処理の事前順序と同値関係を導入する。 測度空間 $\mathfrak{M}(E)$ を、$E 上の連続測定のポストプロセッシング同値クラスの集合として定義する。 我々は、任意の有限ラベルアンサンブルの状態判別確率が連続である最も弱い位相として、$\mathfrak{m} (e)$ 上の弱位相を定義し、測定の確率的混合に対応する凸演算を備えた$\mathfrak{m}(e)$ が局所凸ハウスドルフ空間に定期的に埋め込まれたコンパクト凸集合と見なせることを示す。 また、測定空間 $\mathfrak{M}(E) $ が無限次元であることは、系が 1$ 次元である場合を除いて証明し、後処理モノトンアフィン関数の特性を与える。 これらの一般的な結果は、測定のシミュラビリティと非互換性の問題に適用する。 そこで本研究では,非同化可能性と非同化可能性のロバスト性尺度が,各同化可能あるいは両立可能な測定値に対する測定状態識別確率の最適比と一致することを示す。 不整合測定の後者の結果は、有限次元量子測定の最近の結果を一般化する。 論文全体を通して、有限アウトカム測定の処理後増加ネットにより、弱値$$$$$ast$連続測定が弱トポロジーにおいて任意に近似できるという事実は、有限アウトカムケースへの議論を減らすために体系的に使用される。

We introduce the post-processing preorder and equivalence relations for general measurements on a possibly infinite-dimensional general probabilistic theory described by an order unit Banach space $E$ with a Banach predual. We define the measurement space $\mathfrak{M}(E)$ as the set of post-processing equivalence classes of continuous measurements on $E .$ We define the weak topology on $\mathfrak{M} (E)$ as the weakest topology in which the state discrimination probabilities for any finite-label ensembles are continuous and show that $\mathfrak{M}(E)$ equipped with the convex operation corresponding to the probabilistic mixture of measurements can be regarded as a compact convex set regularly embedded in a locally convex Hausdorff space. We also prove that the measurement space $\mathfrak{M}(E) $ is infinite-dimensional except when the system is $1$-dimensional and give a characterization of the post-processing monotone affine functional. We apply these general results to the problems of simulability and incompatibility of measurements. We show that the robustness measures of unsimulability and incompatibility coincide with the optimal ratio of the state discrimination probability of measurement(s) relative to that of simulable or compatible measurements, respectively. The latter result for incompatible measurements generalizes the recent result for finite-dimensional quantum measurements. Throughout the paper, the fact that any weakly$\ast$ continuous measurement can be arbitrarily approximated in the weak topology by a post-processing increasing net of finite-outcome measurements is systematically used to reduce the discussions to finite-outcome cases.
翻訳日:2023-06-04 02:02:17 公開日:2020-04-08
# 超伝導体のゆらぎ異常ホールとナーンスト効果

Fluctuational Anomalous Hall and Nernst Effects in Superconductors ( http://arxiv.org/abs/2002.08364v3 )

ライセンス: Link先を確認
Songci Li, Alex Levchenko(参考訳) 本研究では,臨界遷移温度近傍のゆらぎによって誘起される超伝導体の異常ホールとネルンスト効果の微視的速度論的理論を考案する。 松原図解法と, 障害平均化と解析継続を伴う線形応答久保式を用いて, 技術的解析を行った。 スピン軌道相互作用による非対称スキュー散乱は、マキ・トンプソン干渉による新しい異常ホール伝導と状態揺らぎ効果の密度をもたらすことが示されている。 異常ホール効果のサイドジャンプ機構は、状態貢献の密度にのみ存在する。 異常なナーンスト効果は、ヒカミボックス内の相互作用するゆらぎとスキュー散乱過程との量子交叉から特別な非線形アスラマゾフ・ラーキン項によって生じる。 弱結合bcsモデルにおける計算に加えて、強結合限界におけるゆらぎ輸送効果の考慮のためのアプローチもスケッチする。 特に、イライアシュベルグ理論のケルディシュ版を原理的に構築し、従来の電子-フォノンカップリングシナリオにおけるゆらぎ誘起導電率を推定する方法の例を考察する。 これらのアイデアは、非典型的な超伝導体のゆらぎや特に異常な輸送応答に対する応用における強結合理論のさらなる発展への道を開くかもしれない。

In this work we develop microscopic kinetic theory of the anomalous Hall and Nernst effects in superconductors induced by fluctuations in the vicinity of the critical transition temperature. The technical analysis is carried out within the Matsubara diagrammatic technique and linear response Kubo formula with disorder averaging and an analytical continuation. It is shown that asymmetric skew-scattering due to spin-orbit interaction gives rise to a new anomalous Hall conductance promoted by Maki-Thompson interference and density of states fluctuational effects. The side-jump mechanism of the anomalous Hall effect is present only in the density of states contributions. The anomalous Nernst effect is found due to a special nonlinear Aslamazov-Larkin term from the quantum-crossing of interacting fluctuations in a Hikami box with the skew-scattering process. In addition to calculations in the weak-coupling BCS model we also sketch an approach for the account of fluctuational transport effects in the strong-coupling limit. In particular we explore an example of how Keldysh version of the Eliashberg theory can in principle be constructed and estimate fluctuation-induced conductivity within conventional electron-phonon coupling scenario. These ideas may pave the way for further developments of strong coupling theories in applications to fluctuations in unconventional superconductors and anomalous transport responses in particular.
翻訳日:2023-06-03 04:58:31 公開日:2020-04-08
# 位置情報による病害リスクの評価 : プライバシの暗号保存のための提案

Assessing Disease Exposure Risk with Location Data: A Proposal for Cryptographic Preservation of Privacy ( http://arxiv.org/abs/2003.14412v2 )

ライセンス: Link先を確認
Alex Berke, Michiel Bakker, Praneeth Vepakomma, Kent Larson, Alex 'Sandy' Pentland(参考訳) 世界中の政府や研究者が、感染症(covid-19)の拡散を抑えるために、デジタル接触追跡ソリューションを導入している。 これらのソリューションの多くは、個人の権利とプライバシーを脅かす。 当社の目標は、有効対プライバシ保存型コンタクトトレースの誤った二分法を破ることです。 我々は,個人のプライバシを保ちながら,感染性疾患への曝露リスクを評価し,伝達するための代替アプローチを提案する。 提案手法では,最近のgps位置情報履歴を変換・暗号化し,半信頼の権限と相互接続するためのプライベートセット交差点プロトコルを提案する。 Bluetoothと分散化をベースとした、プライバシー保護のためのコンタクトトレースに関する他の提案は、権威への信頼をさらに排除する可能性がある。 しかしながら、Bluetoothによるソリューションは現在、特定のデバイスやコンテキストに制限されている。 この研究の目標は2つある:我々は、現在世界中の政府によって採用されているものよりもプライバシーを保ちやすい位置ベースのシステムを提案することであり、ウイルスのアウトブレイクを引き起こすのに必要な暫定性を実装するのにも実用的である。

Governments and researchers around the world are implementing digital contact tracing solutions to stem the spread of infectious disease, namely COVID-19. Many of these solutions threaten individual rights and privacy. Our goal is to break past the false dichotomy of effective versus privacy-preserving contact tracing. We offer an alternative approach to assess and communicate users' risk of exposure to an infectious disease while preserving individual privacy. Our proposal uses recent GPS location histories, which are transformed and encrypted, and a private set intersection protocol to interface with a semi-trusted authority. There have been other recent proposals for privacy-preserving contact tracing, based on Bluetooth and decentralization, that could further eliminate the need for trust in authority. However, solutions with Bluetooth are currently limited to certain devices and contexts while decentralization adds complexity. The goal of this work is two-fold: we aim to propose a location-based system that is more privacy-preserving than what is currently being adopted by governments around the world, and that is also practical to implement with the immediacy needed to stem a viral outbreak.
翻訳日:2023-05-27 07:33:26 公開日:2020-04-08
# キャビティ媒介二重量子ドット量子ビットの量子コヒーレントフィードバックネットワークのダイナミクスについて

On the dynamics of a quantum coherent feedback network of cavity-mediated double quantum dot qubits ( http://arxiv.org/abs/2004.03870v1 )

ライセンス: Link先を確認
Zhiyuan Dong, Wei Cui, and Guofeng Zhang(参考訳) 本研究の目的は, 空洞に直接結合した2つの遠方二重量子ドット(dqd)量子ビットからなるコヒーレントフィードバックネットワークの包括的研究である。 この主成分は最近物理的に実現されている(van Woerkom, {\it et al)。 マイクロ波光による半導体量子ビット間の相互作用,物理レビューx,8(4):041018,2018)。 このメインコンポーネントをビームスプリッタでカスケードすることで、フィードバックループをクローズする。 このコヒーレントフィードバックネットワークのダイナミクスは3つの観点から研究されている。 まず、単一光子状態によって駆動されるネットワークの出力単光子状態の解析形式を導出し、特に、コヒーレントフィードバックが入力単光子とネットワーク間の相互作用をかなり長くすることを示した。 次に、DQD量子ビットの励起確率は、ネットワークが単一光子入力状態によって駆動されるときに計算される。 さらに、入力が真空であるが、2つのDQD量子ビットのうちの1つがその励起状態で初期化されると、ネットワークの状態の明示的な表現が導出され、特に、2つのDQD量子ビットの遷移周波数が等しい場合、出力場と2つのDQD量子ビットが絡み合った状態を形成することが示されている。 最後に、パルス形状の正確な形式は、単一光子入力がこれら2つのdqd量子ビットのうちの1つを任意の制御可能な時間に完全に励起することで得られる。

The purpose of this paper is to present a comprehensive study of a coherent feedback network where the main component consists of two distant double quantum dot (DQD) qubits which are directly coupled to a cavity. This main component has recently been physically realized (van Woerkom, {\it et al.}, Microwave photon-mediated interactions between semiconductor qubits, Physical Review X, 8(4):041018, 2018). The feedback loop is closed by cascading this main component with a beamsplitter. The dynamics of this coherent feedback network is studied from three perspectives. First, an analytic form of the output single-photon state of the network driven by a single-photon state is derived; in particular, it is observed that coherent feedback elongates considerably the interaction between the input single photon and the network. Second, excitation probabilities of DQD qubits are computed when the network is driven by a single-photon input state. Moreover, if the input is vacuum but one of the two DQD qubits is initialized in its excited state, the explicit expression of the state of the network is derived, in particular, it is shown that the output field and the two DQD qubits can form an entangled state if the transition frequencies of two DQD qubits are equal. Finally, the exact form of the pulse shape is obtained by which the single-photon input can fully excite one of these two DQD qubits at any controllable time, which may be useful in the construction of $2$-qubit quantum gates.
翻訳日:2023-05-25 11:52:32 公開日:2020-04-08
# 4粒子Landau-Zener系における2番目の近接相互作用が集団移動に及ぼす影響

The effect of the second nearest neighbor interaction on the population transfer in a four-particle Landau-Zener system ( http://arxiv.org/abs/2004.03863v1 )

ライセンス: Link先を確認
Aarash Maroufian and Mehdi Hosseini(参考訳) 量子系における人口移動は、量子力学の導入以来、常に物理学において興味深い分野であった。 本論文では,4つの2次元粒子からなる結合系の遷移確率をLandau-Zener Hamiltonian の解法により検討する。 第1および第2隣人相互作用の影響について検討した。 以上の結果から,各近傍の結合強度が同じ符号を持つ場合,第2近傍の相互作用は遷移確率を減少させることが示唆された。 遷移確率に対する高速スイープ効果も研究されている。

Population transfer in quantum systems has always been an interesting area in physics since the introduction of quantum mechanics. In this paper, transition probabilities for a coupled system consisting of four two - level particles are studied by solving Landau - Zener Hamiltonian. The effects of the first and second nearest neighbors interactions are investigated. Presented results indicate that the second nearest neighbors interactions will decrease the transition probability when the coupling strength for each neighborhood has the same sign. The fast sweep effect on transition probability is also studied here.
翻訳日:2023-05-25 11:52:05 公開日:2020-04-08
# 102,400ノードの疎ハードウェアグラフを持つ大規模アニールプロセッサの最小埋め込みヒューリスティックス

Minor-embedding heuristics for large-scale annealing processors with sparse hardware graphs of up to 102,400 nodes ( http://arxiv.org/abs/2004.03819v1 )

ライセンス: Link先を確認
Yuya Sugie, Yuki Yoshida, Normann Mertig, Takashi Takemoto, Hiroshi Teramoto, Atsuyoshi Nakamura, Ichigaku Takigawa, Shin-ichi Minato, Masanao Yamaoka, Tamiki Komatsuzaki(参考訳) 最小埋め込みヒューリスティックスは、量子およびCMOSアニールプロセッサのハードウェアグラフに二次的に制約のないバイナリ最適化(QUBO)の問題をコンパイルするのに欠かせないツールとなっている。 最近の埋め込みヒューリスティックは、中程度のサイズ(約2000ノード)のアニーラー向けに開発されたが、最新のCMOSアニーリングプロセッサ(102,400ノード)のサイズは、埋め込みヒューリスティックに全く新しい要求をもたらす。 これは、最近の組込みヒューリスティックが、サイズが増大するハードウェアグラフに有意義な組込みパフォーマンスを維持できるかどうかという疑問を提起する。 そこで本研究では, D-Wave Systems (Cai et al., 2014) による確率的スワップシフトアニーリング (PSSA) 埋め込みヒューリスティック (最近, D-Wave Systems による標準埋め込みヒューリスティックを上回り, ハードウェアグラフへの埋め込み性能の評価を行った。 ランダムキュービックグラフとバラバシ・アルベルトグラフでは、改良PSSAの埋め込み性能は102,400ノードのハードウェアグラフまで、それぞれ3.2と2.8の係数で最もよく知られた完全グラフ埋め込みのしきい値を超えている。 一方、一定のエッジ密度を持たないランダムグラフに対して、PSSAは最もよく知られた完全グラフ埋め込みの存在によって保証される決定論的しきい値を克服することができる。 最後に, CMOSアンナーのハードウェアグラフへの完全グラフの最大埋め込み可能なサイズに関する新たな上限を証明し, 現在知られている完全グラフの埋め込み性能は, 固定座標数を持つハードウェアグラフに対して最適であることを示す。

Minor embedding heuristics have become an indispensable tool for compiling problems in quadratically unconstrained binary optimization (QUBO) into the hardware graphs of quantum and CMOS annealing processors. While recent embedding heuristics have been developed for annealers of moderate size (about 2000 nodes) the size of the latest CMOS annealing processor (with 102,400 nodes) poses entirely new demands on the embedding heuristic. This raises the question, if recent embedding heuristics can maintain meaningful embedding performance on hardware graphs of increasing size. Here, we develop an improved version of the probabilistic-swap-shift-annealing (PSSA) embedding heuristic [which has recently been demonstrated to outperform the standard embedding heuristic by D-Wave Systems (Cai et al., 2014)] and evaluate its embedding performance on hardware graphs of increasing size. For random-cubic and Barabasi-Albert graphs we find the embedding performance of improved PSSA to consistently exceed the threshold of the best known complete graph embedding by a factor of 3.2 and 2.8, respectively, up to hardware graphs with 102,400 nodes. On the other hand, for random graphs with constant edge density not even improved PSSA can overcome the deterministic threshold guaranteed by the existence of the best known complete graph embedding. Finally, we prove a new upper bound on the maximal embeddable size of complete graphs into hardware graphs of CMOS annealers and show that the embedding performance of its currently best known complete graph embedding has optimal order for hardware graphs with fixed coordination number.
翻訳日:2023-05-25 11:51:13 公開日:2020-04-08
# 経路同定によるオンチップ多光子絡み状態

On-Chip Multiphoton Entangled States by Path Identity ( http://arxiv.org/abs/2004.03767v1 )

ライセンス: Link先を確認
Tianfeng Feng, Xiaoqian Zhang, Yuling Tian, and Qin Feng(参考訳) 量子資源としての多光子絡み合いは、線形光学量子情報処理において重要な役割を果たす。 Krenn et al. (Phys. Lett. 118, 080401 2017) は、2光子干渉(Hong-Ou-Mandel効果と呼ばれる)が実験で不要となる経路アイデンティティによる絡み合いを生成する革新的なスキームを提案した。 しかし、この方式の実験には安定性とスケーラビリティの厳しい要件があり、バルク光学では実現が困難である。 そこで本稿では,greenberger-horne-zeilinger (ghz) 状態とw状態を含む多光子偏光子絡み状態を生成するオンチップ方式を提案する。 さらに、理論上の経路同一性によるW状態(陰数光子)の一般化グラフのクラスも提示する。 オンチップ方式は、量子通信ネットワークにおけるマルチパーティの絡み合い分布に有意な既存の集積光技術に実装できる。

Multiphoton entanglement, as a quantum resource, plays an essential role in linear optical quantum information processing. Krenn et al. (Phys. Rev. Lett. 118, 080401 2017) proposed an innovative scheme that generating entanglement by path identity, in which two-photon interference (called Hong-Ou-Mandel effect) is not necessary in experiment. However, the experiments in this scheme have strict requirements in stability and scalability, which is difficult to be realized in bulk optics. To solve this problem, in this paper we first propose an on-chip scheme to generate multi-photon polarization entangled states, including Greenberger-Horne-Zeilinger (GHZ) states and W states. Moreover, we also present a class of generalized graphs for W states (odd-number-photon) by path identity in theory. The on-chip scheme can be implemented in existing integrated optical technology which is meaningful for multi-party entanglement distribution in quantum communication networks.
翻訳日:2023-05-25 11:49:50 公開日:2020-04-08
# IoT(Internet of Things)のガバナンス

Governance of the Internet of Things (IoT) ( http://arxiv.org/abs/2004.03765v1 )

ライセンス: Link先を確認
Lawrence J. Trautman (1), Mohammed T. Hussein (1), Louis Ngamassi (1), Mason J. Molesky (2) ((1) Prairie View A&M University, (2) The George Washington University)(参考訳) 今日の技術変化の割合の増大は、コンピュータ処理速度の急速な向上と処理能力のコスト低下が相まって、歴史的な輸入となっている。 世界中の何十億という人々の日常生活は、ここ数年でテクノロジーによって永遠に変わってきた。 コストのかかるデータ漏洩は警告レートで継続する。 人工知能、機械学習、そしてインターネットに接続された数十億のセンサーデバイスの影響を制御しようとする人間に直面する課題は、この記事の主題である。 私たちは9つのセクションで進みます。 まず、IoT(Internet of Things)を定義し、インターネットに接続されたセンサデバイスの爆発的な成長についてコメントし、IoTデバイスの例を提供し、IoTの約束に言及する。 第2に,IoT管理の課題を検討する基盤として,企業ガバナンスの法的要件について論じる。 第3に、IoTの脅威の可能性に注目します。 第4に、mirai botnetについて論じる。 第5に、危機時のIoT脅威ベクターの脆弱性を考察する。 第6に,製造利用記述法(MUD)について論じる。 7番目は最近の規制の進展に関する議論である。 次に、いくつかの推奨事項を見てみましょう。 そして最後に 結論を出します 本条は,IoTに関連するマルウェアの広汎な露出の理解に寄与し,企業リスクのガバナンスに関する先進的かつ新興的な文献を重要視している。

Today's increasing rate of technological change results from the rapid growth in computer processing speed, when combined with the cost decline of processing capacity, and is of historical import. The daily life of billions of individuals worldwide has been forever changed by technology in just the last few years. Costly data breaches continue at an alarming rate. The challenge facing humans as they attempt to govern the process of artificial intelligence, machine learning, and the impact of billions of sensory devices connected to the Internet is the subject of this Article. We proceed in nine sections. First, we define the Internet of Things (IoT), comment on the explosive growth in sensory devices connected to the Internet, provide examples of IoT devices, and speak to the promise of the IoT. Second, we discuss legal requirements for corporate governance as a foundation for considering the challenge of governing the IoT. Third, we look at potential IoT threats. Fourth, we discuss the Mirai botnet. Fifth, is a look at the IoT threat vector vulnerabilities during times of crisis. Sixth, we discuss the Manufactured Usage Description (MUD) methodology. Seventh, is a discussion of recent regulatory developments. Next, we look at a few recommendations. And finally, we conclude. We believe this Article contributes to our understanding of the widespread exposure to malware associated with IoT and adds to the nascent but emerging literature on governance of enterprise risk, a subject of vital societal importance.
翻訳日:2023-05-25 11:49:29 公開日:2020-04-08
# ナムブ-ジョナ-ラシニオ模型の3+1次元および1+1次元における非エルミート拡大

Non-Hermitian extension of the Nambu--Jona-Lasinio model in 3+1 and 1+1 dimensions ( http://arxiv.org/abs/2004.04011v1 )

ライセンス: Link先を確認
Alexander Felski, Alireza Beygi and S. P. Klevansky(参考訳) 本稿では,Nambu-Jona-Lasinio(NJL)モデルの3+1次元および1+1次元における非エルミチアンPT対称拡張について述べる。 In 3+1 dimensions, the SU(2)-symmetric NJL Hamiltonian $H_{\textrm{NJL}} = \bar\psi (-i \gamma^k \partial_k + m_0) \psi - G [ (\bar\psi \psi)^2 + (\bar\psi i \gamma_5 \vec{\tau} \psi)^2 ]$ is extended by the non-Hermitian, PT- and chiral-symmetric bilinear term $ig\bar\psi \gamma_5 B_{\mu} \gamma^{\mu} \psi$; in 1+1 dimensions, where $H_{\textrm{NJL}}$ is a form of the Gross-Neveu model, it is extended by the non-Hermitian PT-symmetric but chiral symmetry breaking term $g \bar\psi \gamma_5 \psi$. それぞれの場合、ギャップ方程式が導出され、生成質量に対する非エルミート項の影響が研究される。 予想とは対照的に、非エルミート双線型項を含むように修正された自由ディラック方程式の以前の計算では、カイラル極限では真の質量スペクトルが得られず、これらの場合、非ゼロの素フェルミオン質量は、アンブローケン系におけるPT対称性の実現に不可欠である。 ここでは、4点相互作用が存在するNJLモデルにおいて、3+1次元と1+1次元の両方において、少なくとも非エルミート結合の特定の特定の値に対して、質量スペクトルの実際の値も3+1次元と1+1次元の両方で消滅する極限で見出す。 このように、4点相互作用はこれらのパラメータ値に対するPT対称性の破れにつながる効果をオーバーライドする。 さらに、どちらの場合も 3+1 次元と 1+1 次元において、非エルミート双線型項の包含が生成される質量に寄与することが分かる。 両方のモデルにおいて、この寄与は小さく調整することができ、非エルミート項が存在しないときに$m_0=0$のときにフェルミオン質量をその値に固定し、素のフェルミオン質量を生成するために必要な結合の値を決定する。

This paper presents a non-Hermitian PT-symmetric extension of the Nambu--Jona-Lasinio (NJL) model of quantum chromodynamics in 3+1 and 1+1 dimensions. In 3+1 dimensions, the SU(2)-symmetric NJL Hamiltonian $H_{\textrm{NJL}} = \bar\psi (-i \gamma^k \partial_k + m_0) \psi - G [ (\bar\psi \psi)^2 + (\bar\psi i \gamma_5 \vec{\tau} \psi)^2 ]$ is extended by the non-Hermitian, PT- and chiral-symmetric bilinear term $ig\bar\psi \gamma_5 B_{\mu} \gamma^{\mu} \psi$; in 1+1 dimensions, where $H_{\textrm{NJL}}$ is a form of the Gross-Neveu model, it is extended by the non-Hermitian PT-symmetric but chiral symmetry breaking term $g \bar\psi \gamma_5 \psi$. In each case, the gap equation is derived and the effects of the non-Hermitian terms on the generated mass are studied. We have several findings: in previous calculations for the free Dirac equation modified to include non-Hermitian bilinear terms, contrary to expectation, no real mass spectrum can be obtained in the chiral limit; in these cases a nonzero bare fermion mass is essential for the realization of PT symmetry in the unbroken regime. Here, in the NJL model, in which four-point interactions are present, we {\it do} find real values for the mass spectrum also in the limit of vanishing bare masses in both 3+1 and 1+1 dimensions, at least for certain specific values of the non-Hermitian couplings $g$. Thus, the four-point interaction overrides the effects leading to PT symmetry-breaking for these parameter values. Further, we find that in both cases, in 3+1 and in 1+1 dimensions, the inclusion of a non-Hermitian bilinear term can contribute to the generated mass. In both models, this contribution can be tuned to be small; we thus fix the fermion mass to its value when $m_0=0$ in the absence of the non-Hermitian term, and then determine the value of the coupling required so as to generate a bare fermion mass.
翻訳日:2023-05-25 11:43:58 公開日:2020-04-08
# 固体電子スピンにおけるスピン寿命の限界

The limit of spin lifetime in solid-state electronic spins ( http://arxiv.org/abs/2004.04007v1 )

ライセンス: Link先を確認
Alessandro Lunghi and Stefano Sanvito(参考訳) 量子技術のためのスピン量子ビットの開発は、有限温度デコヒーレンスの主な源である原子振動からの保護を必要とする。 ここでは、最大2フォノンプロセスを含むスピン緩和の完全な第一原理図を提供することにより、この分野の進歩に対する主要な障壁の1つを取り除く。 本手法は,機械学習と電子構造理論に基づき,現実システムにおけるスピン寿命の予測を可能にする。 本研究では, 原始型バナジウム系分子量子ビットについて検討し, 分子内振動の少ないラマン過程により高温でのスピン寿命が制限されることを明らかにする。 これらの結果は, スピン緩和の従来の理解を効果的に変化させ, 長寿命スピン系の合理的設計のための新しい道を開いた。

The development of spin qubits for quantum technologies requires their protection from the main source of finite-temperature decoherence: atomic vibrations. Here we eliminate one of the main barriers to the progress in this field by providing a complete first-principles picture of spin relaxation that includes up to two-phonon processes. Our method is based on machine learning and electronic structure theory and makes the prediction of spin lifetime in realistic systems feasible. We study a prototypical vanadium-based molecular qubit and reveal that the spin lifetime at high temperature is limited by Raman processes due to a small number of THz intra-molecular vibrations. These findings effectively change the conventional understanding of spin relaxation in this class of materials and open new avenues for the rational design of long-living spin systems.
翻訳日:2023-05-25 11:43:13 公開日:2020-04-08
# 散逸を伴うBose-Hubbardモデルにおける離散時間結晶秩序

Discrete time-crystalline order in Bose-Hubbard model with dissipation ( http://arxiv.org/abs/2004.04005v1 )

ライセンス: Link先を確認
C. M. Dai, Z. C. Gu, and X. X. Yi(参考訳) 周期的に駆動される量子系は、平衡に欠ける様々な非平衡特徴を示す。 例えば、離散時間変換対称性は、離散時間結晶(DTC)と呼ばれる物質のエキゾチック相につながる周期的に駆動された量子系において破られる。 オープン量子システムについて、以前の研究では、dtcは非駆動系にメタ安定状態が存在する場合にのみ発見できることを示した。 しかし, 散逸と周期的トンネリングを伴う最も単純なボース・ハバードモデルを調べることで, 非駆動系にメタ安定状態が存在しない場合でも, 2t$ dtc が現れることがわかった。 この観察はdtcの理解を広げ、dtcの背後にある物理学にさらに光を当てた。 さらに,最も単純な2サイトモデルの詳細な解析により,nt$ dtc が現れるような大きな環を構成するための基本的な構成要素として2サイトモデルが利用できることを示す。 これらの結果は、駆動型オープン量子システムにおける工学的エキゾチックなフェーズに応用されるかもしれない。

Periodically driven quantum systems manifest various non-equilibrium features which are absent at equilibrium. For example, discrete time-translation symmetry can be broken in periodically driven quantum systems leading to an exotic phase of matter, called discrete time crystal(DTC). For open quantum systems, previous studies showed that DTC can be found only when there exists a meta-stable state in the undriven system. However, by investigating the simplest Bose-Hubbard model with dissipation and time periodically tunneling, we find in this paper that a $2T$ DTC can appear even when the meta-stable state is absent in the undriven system. This observation extends the understanding of DTC and shed more light on the physics behind the DTC. Besides, by the detailed analysis of simplest two-sites model, we show further that the two-sites model can be used as basic building blocks to construct large rings in which a $nT$ DTC might appear. These results might find applications into engineering exotic phases in driven open quantum systems.
翻訳日:2023-05-25 11:43:02 公開日:2020-04-08
# SUSY補間関係の一般化:Fokker-Planck方程式の新しい厳密解

Generalization of SUSY Intertwining Relations: New Exact Solutions of Fokker-Planck Equation ( http://arxiv.org/abs/2004.03980v1 )

ライセンス: Link先を確認
M. V. Ioffe, D. N. Nishnianidze(参考訳) フォッカー・プランク方程式は特定の系(通常は時間非依存のドリフト係数)に対してのみ解けることが知られている。 可解問題のクラスを拡張するために、SUSY量子力学の中間関係を用いるが、新しい非対称形式を用いる。 この形式はフォッカー・プランク方程式の解法にのみ有用であることがわかった。 通常のように、インターツツインティングはフォッカー・プランク方程式によって記述された2つの異なるシステム間のパートナーシップを提供する。 適切なアンサッツとの非対称な相互関係を用いることで,解析的可解モデルの新しいクラスを得ることができた。 重要なことは、このアプローチは、変数、$x,$および$tに依存するドリフト係数を扱うことができることである。 $ 提案された構成の例を明示的に示します。

It is commonly known that the Fokker-Planck equation is exactly solvable only for some particular systems, usually with time-independent drift coefficients. To extend the class of solvable problems, we use the intertwining relations of SUSY Quantum Mechanics but in new - asymmetric - form. It turns out that this form is just useful for solution of Fokker-Planck equation. As usual, intertwining provides a partnership between two different systems both described by Fokker-Planck equation. Due to the use of an asymmetric kind of intertwining relations with a suitable ansatz, we managed to obtain a new class of analytically solvable models. What is important, this approach allows us to deal with the drift coefficients depending on both variables, $x,$ and $t.$ An illustrating example of the proposed construction is given explicitly.
翻訳日:2023-05-25 11:42:28 公開日:2020-04-08
# 二色原子蒸気分光法と転写キャビティを用いた紫外レーザーの高周波数安定化

High-performance frequency stabilization of ultraviolet diode lasers by using dichroic atomic vapor spectroscopy and transfer cavity ( http://arxiv.org/abs/2004.03897v1 )

ライセンス: Link先を確認
Danna Shen, Liangyu Ding, Qiuxin Zhang, Chenhao Zhu, Yuxin Wang, Wei Zhang, and Xiang Zhang(参考訳) 紫外(UV)ダイオードレーザーは多くのフォトニクス用途で広く使われている。 しかし、周波数安定化スキームは、主に紫外線スペクトル領域の制限のため、周波数倍レーザーほど成熟していない。 そこで我々は,二色性原子蒸気レーザーと共振移動キャビティロックを組み合わせることで,紫外ダイオードレーザーに直接実装した高性能な紫外周波数安定化技術を開発した。 例えば、約200KHzと300KHzの周波数標準偏差を持つ399nmと370nmのダイオードレーザーを20分で安定ロックすることを示した。 1時間以内にターゲット370nmレーザーに対して1MHz以下で長期間の周波数ドリフトを達成し、さらに1個の閉じ込められた$^{171}$Yb$^+$イオンの蛍光数で検証した。 また,ロック点と温度や気圧などの環境要因との間に強い線形相関がみられた。

Ultraviolet (UV) diode lasers are widely used in many photonics applications. But their frequency stabilization schemes are not as mature as frequency-doubling lasers, mainly due to some limitations in the UV spectral region. Here we developed a high-performance UV frequency stabilization technique implemented directly on UV diode lasers by combining the dichroic atomic vapor laser lock and the resonant transfer cavity lock. As an example, we demonstrate a stable locking with frequency standard deviations of approximately 200 KHz and 300 KHz for 399nm and 370nm diode lasers in 20 minutes. We achieve a long-term frequency drift of no more than 1 MHz for the target 370nm laser within an hour, which was further verified with fluorescence counts rates of a single trapped $^{171}$Yb$^+$ ion. We also find strong linear correlations between lock points and environmental factors such as temperature and atmospheric pressure.
翻訳日:2023-05-25 11:41:31 公開日:2020-04-08
# 絡み合ったくさび断面の場の理論的研究:奇異エントロピー

A Field Theory Study of Entanglement Wedge Cross Section: Odd Entropy ( http://arxiv.org/abs/2004.04163v1 )

ライセンス: Link先を確認
Ali Mollabashi, Kotaro Tamaoka(参考訳) 二次元自由スカラー場理論において, 絡み合いウェッジ断面積にホログラム的に双対な混合状態の測度候補であるoddエントロピー(odd entropy in short)について検討した。 我々の研究はスケール不変理論のガウス状態とそれらの有限温度一般化に制限されており、これは奇エントロピーが混合状態のよく定義された測度であることを示している。 ホログラフィックの結果から、奇数とフォン・ノイマンエントロピーの差も研究されている。 特に、大量の量子相関は、ホログラフィックのcftと定性的に一致するフォン・ノイマンのエントロピーよりも、奇数エントロピーが大きくなることを保証している。 一般的なケースでは、この違いはサブシステムのサイズ(と距離)に関しても単調関数ではないこともわかりました。

We study odd entanglement entropy (odd entropy in short), a candidate of measure for mixed states holographically dual to the entanglement wedge cross section, in two-dimensional free scalar field theories. Our study is restricted to Gaussian states of scale-invariant theories as well as their finite temperature generalizations, for which we show that the odd entropy is a well-defined measure for mixed states. Motivated from holographic results, the difference between odd and von Neumann entropy is also studied. In particular, we show that large amounts of quantum correlations ensure the odd entropy to be larger than von Neumann entropy, which is qualitatively consistent with the holographic CFT. In general cases, we also find that this difference is not even a monotonic function with respect to size of (and distance between) subsystems.
翻訳日:2023-05-25 11:33:24 公開日:2020-04-08
# 共振トンネル型ダイオードのキャビティフィールドへの強結合

Resonant Tunneling Diodes Strongly Coupled to the Cavity Field ( http://arxiv.org/abs/2004.04810v1 )

ライセンス: Link先を確認
Benedikt Limbacher, Martin Kainz, Sebastian Schoenhuber, Moritz Wenclawiak, Christian Derntl, Aaron Andrews, Hermann Detz, Gottfried Strasser, Andreas Schwaighofer, Bernhard Lendl, Juraj Darmo, Karl Unterrainer(参考訳) 二重金属キャビティに埋め込まれた共振トンネルダイオードは,電子的性質を維持しつつキャビティフィールドに強く結合している。 偏光子分散の測定を行い, 相対真空ラビ分割率は16%であり, 強結合性が顕著である。 さらに,電子輸送は結合強度を変調することでポーラリトンに大きな影響を与えることを示した。 我々のデバイスにおける電子輸送と分極物理学の融合は、空洞量子電気力学と統合フォトニクスの新たな側面を開く。

We demonstrate Resonant Tunneling Diodes, embedded in double metal cavities, strongly coupled to the cavity field, while maintaining their electronic properties. We measure the polariton dispersion and find a relative vacuum Rabi splitting of 16%, which explicitly qualifies for the strong-coupling regime. Additionally we show that electronic transport has a significant influence on the polaritons by modulating the coupling strength. The merge between electronic transport and polaritonic physics in our devices opens up a new aspect of cavity quantum electro-dynamics and integrated photonics.
翻訳日:2023-05-25 11:24:17 公開日:2020-04-08
# PGHD信頼性が臨床診断支援システムの有用性に及ぼす影響

Impact of PGHD reliability on the usefulness of a clinical decision support system ( http://arxiv.org/abs/2004.04797v1 )

ライセンス: Link先を確認
Alain Giordanengo(参考訳) 医療相談における個人生成健康データ(pghd)の使用は患者と臨床医の両方にとって有益である。 しかし、PGHD信頼性の欠如などの複数の受理障壁は、このデータの日常的な使用を妨げている。 これらの受け入れ障壁に対処するために,fulflowと呼ばれる臨床的意思決定支援システムが開発された。 本研究の目的は,FullFlowがコンサルテーションにおいて有用であるかどうかを判定し,PGHDの信頼性が高いほど,システムの有効性が高いという仮説を検証することである。 この評価は、臨床医と糖尿病患者が医療相談中にFullFlowを使用した医療パイロットに頼っていた。 データ収集は,システムログに加えて,コンスルテーション後のアンケートに頼っていた。 本研究は、PGHD信頼性が圧倒的多数で低いことを示した。 質問紙に回答した臨床医の半数に表示された情報は有用であった。 それにもかかわらず、アンケートに回答した臨床医の圧倒的多数は、デザインされたFullFlowシステムによって患者の状況の洞察を得ることができた。 PGHDの信頼性が高いほど, 臨床に有用であることが示唆された。 臨床におけるpghdの使用は、臨床医が患者の状況に関する貴重な情報を得ることができる。 臨床判断システムは臨床医に有用な情報を提供することができる。 pghdの信頼性は, システムの有用性と相関するが, その影響要因は, 臨床医の文脈や, 新規使用や個人的目標など, 臨床医にとっての有用性を決定する上でも重要な役割を担っている。 しかし,参加者数が限られているため,本研究の結果を確認するためには,新たな医療パイロットの実施が必要である。

Using personal generated health data (PGHD) during medical consultations can be beneficial for both patients and clinicians. However, multiple acceptance barriers such as lack of PGHD reliability prevents a routine usage of this data. A clinical decision support system, called FullFlow, has been developed to address these acceptance barriers. The objective of this study was to determine if FullFlow was useful during consultations and to verify the hypothesis that the higher PGHD reliability, the more effective the system is. The assessment relied on a medical pilot during which clinicians and patients with diabetes used the FullFlow during medical consultations. The data collection relied on a post-consultation questionnaire in addition to system logs. This study showed that the PGHD reliability was low for an overwhelming majority of consultations. The information displayed was useful in half of the consultations according to the clinicians who answered the questionnaire. Despite this, the overwhelming majority of clinicians who answered the questionnaire found that the designed FullFlow system permitted to gain insights of the situation of the patients. The study showed the higher the PGHD reliability is, the more useful the system is for clinicians. PGHD usage in clinical settings can permit clinicians to gain valuable information regarding the situations of their patients. A clinical decision system can present useful information to clinicians. While the PGHD reliability is correlated to the usefulness of such system, it is not the only factor impacting it: context of the clinicians and patients such as novelty of usage and personal goals also plays a role in determining on how such system is useful for clinicians. However, due to a limited number of participants, a new medical pilot must be performed in order to confirm the results of this study.
翻訳日:2023-05-25 11:24:05 公開日:2020-04-08
# 周期ポテンシャルを持つラシュバ環上の量子変換

Qubit transformations on Rashba ring with periodic potential ( http://arxiv.org/abs/2004.04255v1 )

ライセンス: Link先を確認
Kregar Ambro\v{z} and Ram\v{s}ak Anton(参考訳) 外部電場によって制御される可変ラシュバ相互作用を持つメソスコピック量子環の電子に対してスピン量子変換プロトコルを提案する。 有限個の局所電圧ゲート間のランダウ-ツェナー様遷移によって輪の周りを駆動される電子のダイナミクスを解析的に決定する。 一般の単一量子変換は、局所化された擬スピン状態の動的基底において実現可能であることが示される。 また、rashba相互作用の完全なブロッホ球面の変化に基づく適切なプロトコルを使用することにより、カバーできることを示した。 半導体ヘテロ構造における提案システムの実現の可能性について論じる。

A spin-qubit transformation protocol is proposed for an electron in a mesoscopic quantum ring with tunable Rashba interaction controlled by the external electric field. The dynamics of an electron driven around the ring by a series of Landau-Zenner-like transitions between a finite number of local voltage gates is determined analytically. General single-qubit transformations are demonstrated to be feasible in a dynamical basis of localized pseudo-spin states. It is also demonstrated that by the use of suitable protocols based on changes of the Rashba interaction full Bloch sphere can be covered. The challenges of a possible realization of the proposed system in semiconductor heterostructures are discussed.
翻訳日:2023-05-25 11:23:39 公開日:2020-04-08
# 機械学習量子状態 -- フェルミオン-ボソン結合系の拡張と励起状態計算

Machine Learning Quantum States -- Extensions to Fermion-Boson Coupled Systems and Excited-State Calculations ( http://arxiv.org/abs/2001.02106v3 )

ライセンス: Link先を確認
Yusuke Nomura(参考訳) 量子多体ハミルトニアンを分析するため、近年、機械学習技術は非常に有用で強力であることが示されている。 しかし、そのような機械学習解法の適用性はまだ限られている。 本稿では,フェルミオン・ボーソン結合ハミルトニアンの解析と励起状態の計算に機械学習を適用する手法を提案する。 フェルミオン-ボソン結合系の拡張については、フェルミオン-ボソン結合ハミルトニアンの代表としてホルシュタインモデルを研究する。 本手法は,変分モンテカルロ法と比較して精度が大幅に向上し,高精度な基底状態エネルギーが得られることを示す。 励起状態の計算については、K. Choo et al., Phys で提案されているものとは異なるアプローチを提案する。 Rev. Lett. 121 (2018) 167204. 本稿では, 1 次元 $s=1/2$ ハイゼンベルク鎖を用いて, 2 つの手法の精度を比較する。 また、フラストレーション付き2次元の$S=1/2$$J_1$-$J_2$Heisenbergモデルのベンチマークを示し、正確な対角化の結果と良好な一致を示した。 以下に示す拡張は、機械学習技術を用いて一般的な量子多体問題を分析する方法を開く。

To analyze quantum many-body Hamiltonians, recently, machine learning techniques have been shown to be quite useful and powerful. However, the applicability of such machine learning solvers is still limited. Here, we propose schemes that make it possible to apply machine learning techniques to analyze fermion-boson coupled Hamiltonians and to calculate excited states. As for the extension to fermion-boson coupled systems, we study the Holstein model as a representative of the fermion-boson coupled Hamiltonians. We show that the machine-learning solver achieves highly accurate ground-state energy, improving the accuracy substantially compared to that obtained by the variational Monte Carlo method. As for the calculations of excited states, we propose a different approach than that proposed in K. Choo et al., Phys. Rev. Lett. 121 (2018) 167204. We discuss the difference in detail and compare the accuracy of two methods using the one-dimensional $S=1/2$ Heisenberg chain. We also show the benchmark for the frustrated two-dimensional $S=1/2$ $J_1$-$J_2$ Heisenberg model and show an excellent agreement with the results obtained by the exact diagonalization. The extensions shown here open a way to analyze general quantum many-body problems using machine learning techniques.
翻訳日:2023-01-13 21:36:13 公開日:2020-04-08
# DSGN:3次元物体検出のための深部ステレオ幾何ネットワーク

DSGN: Deep Stereo Geometry Network for 3D Object Detection ( http://arxiv.org/abs/2001.03398v3 )

ライセンス: Link先を確認
Yilun Chen, Shu Liu, Xiaoyong Shen, Jiaya Jia(参考訳) 多くの最先端の3Dオブジェクト検出器は、画像ベースとLiDARベースの方法の間に大きなパフォーマンスギャップがあるため、LiDARセンサーに大きく依存している。 これは、3dシナリオで予測のための表現を形成する方法によって引き起こされる。 本手法は,DSGN(Deep Stereo Geometry Network)と呼ばれ,3次元正規空間の3次元幾何構造を効果的にエンコードする,微分可能な体積表現上の3次元物体を検出することで,このギャップを著しく低減する。 この表現で深度情報と意味的手がかりを同時に学習する。 筆者らは初めて,深度を共同で推定し,エンドツーエンドの学習方法で3Dオブジェクトを検出する,シンプルで効果的な1段ステレオベース3D検出パイプラインを提供する。 提案手法は従来のステレオ3D検出器(APの約10倍)より優れており,KITTI3Dオブジェクト検出リーダボード上でのLiDAR法と同等の性能を実現している。 私たちのコードはhttps://github.com/chenyilun95/dsgnで公開されています。

Most state-of-the-art 3D object detectors heavily rely on LiDAR sensors because there is a large performance gap between image-based and LiDAR-based methods. It is caused by the way to form representation for the prediction in 3D scenarios. Our method, called Deep Stereo Geometry Network (DSGN), significantly reduces this gap by detecting 3D objects on a differentiable volumetric representation -- 3D geometric volume, which effectively encodes 3D geometric structure for 3D regular space. With this representation, we learn depth information and semantic cues simultaneously. For the first time, we provide a simple and effective one-stage stereo-based 3D detection pipeline that jointly estimates the depth and detects 3D objects in an end-to-end learning manner. Our approach outperforms previous stereo-based 3D detectors (about 10 higher in terms of AP) and even achieves comparable performance with several LiDAR-based methods on the KITTI 3D object detection leaderboard. Our code is publicly available at https://github.com/chenyilun95/DSGN.
翻訳日:2023-01-12 23:15:28 公開日:2020-04-08
# DuDoRNet: Deep T1による高速MRI再構成のためのDual-Domain Recurrent Networkの学習

DuDoRNet: Learning a Dual-Domain Recurrent Network for Fast MRI Reconstruction with Deep T1 Prior ( http://arxiv.org/abs/2001.03799v2 )

ライセンス: Link先を確認
Bo Zhou and S. Kevin Zhou(参考訳) 複数のプロトコルを持つmriは診断に一般的に使用されるが、長い取得時間に苦しむため、モーションアーティファクトに脆弱な画像品質をもたらす。 低サンプリングk空間データからフルイメージを再構成する様々な手法が提案されている。 しかし、これらのアルゴリズムは2つの主な理由により不十分である。 まず、画像領域で生成されたエイリアスアーティファクトは構造的かつ非局所的であるため、単独の画像領域の復元が不十分である。 第2に、MRIは1回の試験中に複数のプロトコルから構成されるが、これまでのほとんどの研究では、高度に歪んだアンダーサンプルイメージを入力として使用する個々のプロトコルの再構築しか行っていない。 本稿では,dual domain recurrent network (dudornet) とdeep t1を予め組込み,k空間と画像を同時に復元し,長大イメージングプロトコルによるmriの獲得を促進させる手法を提案する。 特に、Dilated Residual Dense Network (DRDNet)は、アンダーサンプルMRIデータからの二重ドメイン復元のためにカスタマイズされる。 様々なサンプリングパターンと加速度率に関する広範囲な実験により,本手法が最先端の手法を一貫して上回っており,高品質mriを再現できることを示した。

MRI with multiple protocols is commonly used for diagnosis, but it suffers from a long acquisition time, which yields the image quality vulnerable to say motion artifacts. To accelerate, various methods have been proposed to reconstruct full images from under-sampled k-space data. However, these algorithms are inadequate for two main reasons. Firstly, aliasing artifacts generated in the image domain are structural and non-local, so that sole image domain restoration is insufficient. Secondly, though MRI comprises multiple protocols during one exam, almost all previous studies only employ the reconstruction of an individual protocol using a highly distorted undersampled image as input, leaving the use of fully-sampled short protocol (say T1) as complementary information highly underexplored. In this work, we address the above two limitations by proposing a Dual Domain Recurrent Network (DuDoRNet) with deep T1 prior embedded to simultaneously recover k-space and images for accelerating the acquisition of MRI with a long imaging protocol. Specifically, a Dilated Residual Dense Network (DRDNet) is customized for dual domain restorations from undersampled MRI data. Extensive experiments on different sampling patterns and acceleration rates demonstrate that our method consistently outperforms state-of-the-art methods, and can reconstruct high-quality MRI.
翻訳日:2023-01-12 09:43:50 公開日:2020-04-08
# バッチ正規化の後方伝播におけるバッチ統計の安定化に向けて

Towards Stabilizing Batch Statistics in Backward Propagation of Batch Normalization ( http://arxiv.org/abs/2001.06838v2 )

ライセンス: Link先を確認
Junjie Yan, Ruosi Wan, Xiangyu Zhang, Wei Zhang, Yichen Wei, Jian Sun(参考訳) バッチ正規化(bn)は、ディープラーニングの分野でもっとも広く使われているテクニックの1つである。 しかし、そのパフォーマンスはバッチサイズが不十分でひどく劣化する可能性がある。 この弱点は、検出やセグメンテーションのような多くのコンピュータビジョンタスクにおけるBNの使用を制限する。 そのため、BNの完全回復に失敗したり、推論手順に非線形演算を導入したり、膨大な消費を増大させるような、多くの改良された正規化技術が提案されている。 本稿では,bnの後方伝播に関わるバッチ統計が2つあることを明らかにする。 勾配に関連する余分なバッチ統計もまた、ディープニューラルネットワークのトレーニングに深刻な影響を与える可能性がある。 そこで本研究では,移動平均バッチ正規化(MABN)という新しい正規化手法を提案する。 MABNは、推論手順で追加の非線形操作を導入することなく、小さなバッチケースでバニラBNの性能を完全に回復することができる。 理論的解析と実験によりMABNの利点を証明した。 実験では、ImageNetやCOCOを含む複数のコンピュータビジョンタスクにおけるMABNの有効性を実証した。 コードはhttps://github.com/megvii-model/MABNで公開されている。

Batch Normalization (BN) is one of the most widely used techniques in Deep Learning field. But its performance can awfully degrade with insufficient batch size. This weakness limits the usage of BN on many computer vision tasks like detection or segmentation, where batch size is usually small due to the constraint of memory consumption. Therefore many modified normalization techniques have been proposed, which either fail to restore the performance of BN completely, or have to introduce additional nonlinear operations in inference procedure and increase huge consumption. In this paper, we reveal that there are two extra batch statistics involved in backward propagation of BN, on which has never been well discussed before. The extra batch statistics associated with gradients also can severely affect the training of deep neural network. Based on our analysis, we propose a novel normalization method, named Moving Average Batch Normalization (MABN). MABN can completely restore the performance of vanilla BN in small batch cases, without introducing any additional nonlinear operations in inference procedure. We prove the benefits of MABN by both theoretical analysis and experiments. Our experiments demonstrate the effectiveness of MABN in multiple computer vision tasks including ImageNet and COCO. The code has been released in https://github.com/megvii-model/MABN.
翻訳日:2023-01-08 10:04:29 公開日:2020-04-08
# GraphGen: ドメインに依存しないラベル付きグラフ生成へのスケーラブルなアプローチ

GraphGen: A Scalable Approach to Domain-agnostic Labeled Graph Generation ( http://arxiv.org/abs/2001.08184v2 )

ライセンス: Link先を確認
Nikhil Goyal, Harsh Vardhan Jain, Sayan Ranu(参考訳) グラフ生成モデルはデータマイニング文献で広く研究されている。 従来の手法は事前決定された分布に従う構造の生成に基づいているが、近年ではこの分布をデータから直接学習する手法にシフトしている。 学習ベースのアプローチは品質を大幅に向上させたが、いくつかの制限には対処しなくてはならない。 まず、グラフ分布の学習には計算オーバーヘッドが加わり、スケーラビリティは大きなグラフデータベースに制限される。 第二に、多くのテクニックが構造のみを学習し、ノードやエッジラベルも学習する必要がなく、重要な意味情報をエンコードし、構造自体に影響を与える。 第三に、既存の技術はドメイン固有のルールを取り入れ、一般化性に欠けることが多い。 第四に、既存の技術の実験は、弱い評価メトリクスを使うか、主に合成または小さなデータセットに焦点を当てているため、十分に包括的ではない。 本研究では、これらの制限をすべて克服するために、GraphGenと呼ばれるドメインに依存しないテクニックを開発する。 GraphGenは最小のDFSコードを使用してグラフをシーケンスに変換する。 最小のDFS符号は標準ラベルであり、ラベル情報とともにグラフ構造を正確にキャプチャする。 構造と意味ラベルの間の複雑な結合分布は、新しいLSTMアーキテクチャによって学習される。 百万規模の実際のグラフデータセットに対する大規模な実験では、GraphGenは最先端のテクニックよりも平均4倍高速で、11のメトリクスの包括的なセットで品質が大幅に向上している。 私たちのコードはhttps://github.com/idea-iitd/graphgenでリリースしています。

Graph generative models have been extensively studied in the data mining literature. While traditional techniques are based on generating structures that adhere to a pre-decided distribution, recent techniques have shifted towards learning this distribution directly from the data. While learning-based approaches have imparted significant improvement in quality, some limitations remain to be addressed. First, learning graph distributions introduces additional computational overhead, which limits their scalability to large graph databases. Second, many techniques only learn the structure and do not address the need to also learn node and edge labels, which encode important semantic information and influence the structure itself. Third, existing techniques often incorporate domain-specific rules and lack generalizability. Fourth, the experimentation of existing techniques is not comprehensive enough due to either using weak evaluation metrics or focusing primarily on synthetic or small datasets. In this work, we develop a domain-agnostic technique called GraphGen to overcome all of these limitations. GraphGen converts graphs to sequences using minimum DFS codes. Minimum DFS codes are canonical labels and capture the graph structure precisely along with the label information. The complex joint distributions between structure and semantic labels are learned through a novel LSTM architecture. Extensive experiments on million-sized, real graph datasets show GraphGen to be 4 times faster on average than state-of-the-art techniques while being significantly better in quality across a comprehensive set of 11 different metrics. Our code is released at https://github.com/idea-iitd/graphgen.
翻訳日:2023-01-07 18:04:06 公開日:2020-04-08
# ラダーアルゴリズム:誘導による医用画像の繰り返し構造の検出

The Ladder Algorithm: Finding Repetitive Structures in Medical Images by Induction ( http://arxiv.org/abs/2001.11284v2 )

ライセンス: Link先を確認
Rhydian Windsor and Amir Jamaludin(参考訳) 本稿では,少ないトレーニングデータを用いて,自然画像の繰り返し構造を高精度に検出する新しい繰り返しアルゴリズムであるLadderアルゴリズムを提案する。 次に, 腰椎mriスキャンのみを用いて全脊椎mriから椎骨を抽出し, トレーニングデータを得るという課題について, アルゴリズムを実証する。 T1およびT2重み付きスキャンにおける腰椎椎体検出法の現状を超越して,99.8%の精度とリコールを達成できることが示されている。 また、全脊椎画像へのトレーニングを最小限の精度で行うことなく一般化し、99.4%の精度で検出できる。

In this paper we introduce the Ladder Algorithm; a novel recurrent algorithm to detect repetitive structures in natural images with high accuracy using little training data. We then demonstrate the algorithm on the task of extracting vertebrae from whole spine magnetic resonance scans with only lumbar MR scans for training data. It is shown to achieve high perforamance with 99.8% precision and recall, exceeding current state of the art approaches for lumbar vertebrae detection in T1 and T2 weighted scans. It also generalises without retraining to whole spine images with minimal drop in accuracy, achieving 99.4% detection rate.
翻訳日:2023-01-05 12:31:03 公開日:2020-04-08
# 畳み込みニューラルネットワークを用いたマルチスペクトル衛星画像の超解像

Super-resolution of multispectral satellite images using convolutional neural networks ( http://arxiv.org/abs/2002.00580v2 )

ライセンス: Link先を確認
M. U. M\"uller, N. Ekhtiari, R. M. Almeida, C. Rieke(参考訳) 超解像はアルゴリズムによる解像度向上を目的としており、コンピュータビジョンやディープラーニングの分野の進歩により近年進歩している。 様々なアーキテクチャに基づく畳み込みニューラルネットワークは、オートエンコーダや残差ネットワークといった問題に適用されている。 ほとんどの研究はrgbカラーチャンネルのみからなる写真の処理に焦点を当てているが、マルチバンド分析衛星画像に集中する研究はほとんどない。 衛星画像は、しばしばパンクロマティックバンドを含み、空間分解能は高く、他のバンドよりもスペクトル分解能が低い。 リモートセンシングの分野では、衛星画像にパンシャープ化を適用するという長い伝統がある。 我々の知る限り、パンクロマティックバンドを利用する超解像度へのアプローチは今のところ存在しない。 本稿では,高分解能マルチスペクトルと高分解能パンシャーペン画像タイルのペアを用いた最先端CNNの訓練手法を提案する。 得られた品質指標は,処理した画像の情報内容を改善する方法を示している。 我々は、4つのCNNアーキテクチャで作成された結果を比較し、RedNet30は最高にパフォーマンスします。

Super-resolution aims at increasing image resolution by algorithmic means and has progressed over the recent years due to advances in the fields of computer vision and deep learning. Convolutional Neural Networks based on a variety of architectures have been applied to the problem, e.g. autoencoders and residual networks. While most research focuses on the processing of photographs consisting only of RGB color channels, little work can be found concentrating on multi-band, analytic satellite imagery. Satellite images often include a panchromatic band, which has higher spatial resolution but lower spectral resolution than the other bands. In the field of remote sensing, there is a long tradition of applying pan-sharpening to satellite images, i.e. bringing the multispectral bands to the higher spatial resolution by merging them with the panchromatic band. To our knowledge there are so far no approaches to super-resolution which take advantage of the panchromatic band. In this paper we propose a method to train state-of-the-art CNNs using pairs of lower-resolution multispectral and high-resolution pan-sharpened image tiles in order to create super-resolved analytic images. The derived quality metrics show that the method improves information content of the processed images. We compare the results created by four CNN architectures, with RedNet30 performing best.
翻訳日:2023-01-04 09:25:03 公開日:2020-04-08
# 強化学習を用いたタンデム話者照合と対応システムの最適化に関する初期検討

An initial investigation on optimizing tandem speaker verification and countermeasure systems using reinforcement learning ( http://arxiv.org/abs/2002.03801v2 )

ライセンス: Link先を確認
Anssi Kanervisto, Ville Hautam\"aki, Tomi Kinnunen, Junichi Yamagishi(参考訳) 自動話者検証(ASV)におけるスプーフィング対策(CM)システムは、互いに独立して使用されるものではない。 これらのシステムは、例えば、入力が合成音声かbona fide音声かをcmが最初に判断するカスケードシステムと組み合わせることができる。 CMがボナファイドのサンプルであると判断した場合、ASVシステムは話者検証のためにそれを検討する。 システムのエンドユーザは個々のサブモジュールのパフォーマンスに関心がなく、むしろ統合されたシステムのパフォーマンスに関心を持っている。 このような組み合わせはタンデム検出コスト関数(t-DCF)測定で評価できるが、個々のコンポーネントはそれぞれのパフォーマンスメトリクスを使用して互いに独立して訓練される。 本研究では, 強化学習を用いて, ASV と CM コンポーネントを併用して, より良い t-DCF 測定を行う。 そこで本研究では,これらの学習手法が複合システムの性能を実際に向上できることを示すとともに,従来の教師付き学習手法よりも信頼性の高い結果が得られることを示す。

The spoofing countermeasure (CM) systems in automatic speaker verification (ASV) are not typically used in isolation of each other. These systems can be combined, for example, into a cascaded system where CM produces first a decision whether the input is synthetic or bona fide speech. In case the CM decides it is a bona fide sample, then the ASV system will consider it for speaker verification. End users of the system are not interested in the performance of the individual sub-modules, but instead are interested in the performance of the combined system. Such combination can be evaluated with tandem detection cost function (t-DCF) measure, yet the individual components are trained separately from each other using their own performance metrics. In this work we study training the ASV and CM components together for a better t-DCF measure by using reinforcement learning. We demonstrate that such training procedure indeed is able to improve the performance of the combined system, and does so with more reliable results than with the standard supervised learning techniques we compare against.
翻訳日:2023-01-03 12:38:46 公開日:2020-04-08
# 深層学習による超低温原子の単一露光吸収イメージング

Single-exposure absorption imaging of ultracold atoms using deep learning ( http://arxiv.org/abs/2003.01643v2 )

ライセンス: Link先を確認
Gal Ness, Anastasiya Vainbaum, Constantine Shkedrov, Yanay Florshaim, Yoav Sagi(参考訳) 吸収イメージングは超低温原子を用いた実験で最も一般的なプローブ技術である。 標準手順は、2つのフレームが連続露光時に取得され、1つは原子吸光信号、もう1つは無光である。 良く知られた問題は、2つの露光における撮像光の差が小さいため、最終画像に残留構造ノイズが存在することである。 ここでは,1回の露光のみで吸収イメージングを行い,第2の露光の代わりに教師なし画像補完オートエンコーダニューラルネットワークによって参照フレームを生成する。 ネットワークは、信号を囲む領域の情報のみに基づいて原子信号が重なるノイズを推測できるように、吸収信号なしで画像に基づいて訓練される。 量子デジネートしたフェルミガスで得られたデータに対する我々のアプローチを実証する。 得られた画像の平均残音は、標準のダブルショット技術よりも低い。 提案手法は,実験シーケンスを単純化し,ハードウェア要件を低減し,抽出した物理観測値の精度を向上させる。 トレーニングされたネットワークとその生成スクリプトは、オープンソースリポジトリとして利用できる(http://absdl.github.io/)。

Absorption imaging is the most common probing technique in experiments with ultracold atoms. The standard procedure involves the division of two frames acquired at successive exposures, one with the atomic absorption signal and one without. A well-known problem is the presence of residual structured noise in the final image, due to small differences between the imaging light in the two exposures. Here we solve this problem by performing absorption imaging with only a single exposure, where instead of a second exposure the reference frame is generated by an unsupervised image-completion autoencoder neural network. The network is trained on images without absorption signal such that it can infer the noise overlaying the atomic signal based only on the information in the region encircling the signal. We demonstrate our approach on data captured with a quantum degenerate Fermi gas. The average residual noise in the resulting images is below that of the standard double-shot technique. Our method simplifies the experimental sequence, reduces the hardware requirements, and can improve the accuracy of extracted physical observables. The trained network and its generating scripts are available as an open-source repository (http://absDL.github.io/).
翻訳日:2022-12-26 23:36:15 公開日:2020-04-08
# 逐次機械翻訳における実証的精度法--Google翻訳の場合

An Empirical Accuracy Law for Sequential Machine Translation: the Case of Google Translate ( http://arxiv.org/abs/2003.02817v2 )

ライセンス: Link先を確認
Lucas Nunes Sequeira, Bruno Moreschi, Fabio Gagliardi Cozman and Bernardo Fontes(参考訳) 本研究では,Google翻訳における逐次機械翻訳において,翻訳ホップ数と翻訳精度を関連づける法則を実証試験により確立した。 ホップ数によって精度とサイズの両方が減少し、前者は電力法則に準じて減少する。 このような法律は、社会がますます自動化デバイスに依存しているように構築される可能性のある翻訳チェーンの挙動を予測することを許している。

In this research, we have established, through empirical testing, a law that relates the number of translating hops to translation accuracy in sequential machine translation in Google Translate. Both accuracy and size decrease with the number of hops; the former displays a decrease closely following a power law. Such a law allows one to predict the behavior of translation chains that may be built as society increasingly depends on automated devices.
翻訳日:2022-12-26 06:15:08 公開日:2020-04-08
# XPersona: 多言語パーソナライズされたチャットボットの評価

XPersona: Evaluating Multilingual Personalized Chatbot ( http://arxiv.org/abs/2003.07568v2 )

ライセンス: Link先を確認
Zhaojiang Lin, Zihan Liu, Genta Indra Winata, Samuel Cahyawijaya, Andrea Madotto, Yejin Bang, Etsuko Ishii, Pascale Fung(参考訳) パーソナライズされた対話システムは、人間と機械の対話を改善するための重要なステップである。 既存のパーソナライズされた対話エージェントは、主に単言語(英語など)である適切に設計された会話データセットに依存しており、他の言語での会話エージェントの使用を著しく制限している。 本稿では,Persona-Chatの多言語拡張,すなわちXPersonaを提案する。 我々のデータセットには、多言語パーソナライズされたエージェントの構築と評価のための英語以外の6言語でのペルソナ会話が含まれている。 本研究では,多言語・多言語訓練ベースラインを実験し,自動評価と人文評価の両方を用いて,単言語・翻訳パイプラインモデルに対する評価を行った。 実験結果から,多言語学習モデルは翻訳ピペリンより優れ,単言語モデルと同等であり,複数言語にまたがる単一モデルを持つことの利点が示された。 一方、最先端の言語間学習モデルは他のモデルよりも劣る性能を達成し、言語間会話モデリングが難しい課題であることを示す。 当社のデータセットとベースラインが多言語対話システムの研究を加速することを願っています。

Personalized dialogue systems are an essential step toward better human-machine interaction. Existing personalized dialogue agents rely on properly designed conversational datasets, which are mostly monolingual (e.g., English), which greatly limits the usage of conversational agents in other languages. In this paper, we propose a multi-lingual extension of Persona-Chat, namely XPersona. Our dataset includes persona conversations in six different languages other than English for building and evaluating multilingual personalized agents. We experiment with both multilingual and cross-lingual trained baselines, and evaluate them against monolingual and translation-pipeline models using both automatic and human evaluation. Experimental results show that the multilingual trained models outperform the translation-pipeline and that they are on par with the monolingual models, with the advantage of having a single model across multiple languages. On the other hand, the state-of-the-art cross-lingual trained models achieve inferior performance to the other models, showing that cross-lingual conversation modeling is a challenging task. We hope that our dataset and baselines will accelerate research in multilingual dialogue systems.
翻訳日:2022-12-22 21:12:06 公開日:2020-04-08
# FlapAI Bird:強化学習技術を使ってFlappy Birdをプレイするエージェントを訓練する

FlapAI Bird: Training an Agent to Play Flappy Bird Using Reinforcement Learning Techniques ( http://arxiv.org/abs/2003.09579v2 )

ライセンス: Link先を確認
Tai Vu, Leon Tran(参考訳) 強化学習は、自動ゲームプレイにおける最も一般的なアプローチの1つである。 この方法でエージェントは、未知の環境で最適なアクションを行うために、その状態の期待されるユーティリティを見積もることができる。 ゲームFlappy Birdに強化学習アルゴリズムを適用したい。 SARSA と Q-Learning は $\epsilon$-greedy ポリシや離散化,後方更新などの変更を加えて実装する。 SARSAとQ-Learningはベースラインを上回り、1400以上のスコアを定期的に達成し、2069年のゲーム内スコアが最も高い。

Reinforcement learning is one of the most popular approaches for automated game playing. This method allows an agent to estimate the expected utility of its state in order to make optimal actions in an unknown environment. We seek to apply reinforcement learning algorithms to the game Flappy Bird. We implement SARSA and Q-Learning with some modifications such as $\epsilon$-greedy policy, discretization and backward updates. We find that SARSA and Q-Learning outperform the baseline, regularly achieving scores of 1400+, with the highest in-game score of 2069.
翻訳日:2022-12-21 12:57:24 公開日:2020-04-08
# MaskFlownet:学習可能なOcclusion Maskと非対称な特徴マッチング

MaskFlownet: Asymmetric Feature Matching with Learnable Occlusion Mask ( http://arxiv.org/abs/2003.10955v2 )

ライセンス: Link先を確認
Shengyu Zhao, Yilun Sheng, Yue Dong, Eric I-Chao Chang, Yan Xu(参考訳) 特徴ウォーピングは光学的流れ推定の核となる技術であるが、ウォーピング中のオクルード領域による曖昧さは未解決の大きな問題である。 そこで本稿では,不斉咬合対応型特徴マッチングモジュールを提案する。このモジュールは不規則な咬合マスクを学習でき,特徴乱れの直後に無意味な領域を明示的に監視することなくフィルターすることができる。 提案するモジュールはエンド・ツー・エンドのネットワークアーキテクチャに容易に統合でき、性能向上を享受でき、計算コストを無視できる。 学習したオクルージョンマスクは、その後の2つの特徴ピラミッドを持つネットワークカスケードにさらに供給され、最先端の性能を達成することができる。 提出時点では,MPIシンテル,KITTI 2012,2015のベンチマークにおいて,MskFlownetと呼ばれる全光フロー法を超越している。 コードはhttps://github.com/microsoft/MaskFlownet.comで入手できる。

Feature warping is a core technique in optical flow estimation; however, the ambiguity caused by occluded areas during warping is a major problem that remains unsolved. In this paper, we propose an asymmetric occlusion-aware feature matching module, which can learn a rough occlusion mask that filters useless (occluded) areas immediately after feature warping without any explicit supervision. The proposed module can be easily integrated into end-to-end network architectures and enjoys performance gains while introducing negligible computational cost. The learned occlusion mask can be further fed into a subsequent network cascade with dual feature pyramids with which we achieve state-of-the-art performance. At the time of submission, our method, called MaskFlownet, surpasses all published optical flow methods on the MPI Sintel, KITTI 2012 and 2015 benchmarks. Code is available at https://github.com/microsoft/MaskFlownet.
翻訳日:2022-12-20 09:17:12 公開日:2020-04-08
# TSception:脳波を用いた感情検出のためのディープラーニングフレームワーク

TSception: A Deep Learning Framework for Emotion Detection Using EEG ( http://arxiv.org/abs/2004.02965v2 )

ライセンス: Link先を確認
Yi Ding, Neethu Robinson, Qiuhao Zeng, Duo Chen, Aung Aung Phyo Wai, Tih-Shih Lee, Cuntai Guan(参考訳) 本稿では,脳波(eeg)からの感情検出のための深層学習フレームワークtsceptionを提案する。 tsceptionは時間的および空間的畳み込み層で構成され、時間領域とチャネル領域の識別表現を同時に学習する。 時間的学習者は、複数の時間的および周波数的表現を学習するEEG信号のサンプリングレートに長さが関係しているマルチスケールの1D畳み込みカーネルからなる。 空間学習者は、前頭脳領域における感情応答の非対称性特性を利用して、脳の左右半球から識別的表現を学習する。 本研究は,没入型仮想現実(vr)環境における情緒覚醒の研究を目的としている。 脳波データを健常者18名から収集し,低情緒的覚醒状態と高情緒的覚醒状態の分類のための深層学習ネットワークの性能評価を行った。 提案手法は,SVM,EEGNet,LSTMと比較する。 tsception は 86.03% という高い分類精度を達成し、従来の方法を大きく上回る(p<0.05)。 コードはhttps://github.com/deepBrains/TSceptionで入手できる。

In this paper, we propose a deep learning framework, TSception, for emotion detection from electroencephalogram (EEG). TSception consists of temporal and spatial convolutional layers, which learn discriminative representations in the time and channel domains simultaneously. The temporal learner consists of multi-scale 1D convolutional kernels whose lengths are related to the sampling rate of the EEG signal, which learns multiple temporal and frequency representations. The spatial learner takes advantage of the asymmetry property of emotion responses at the frontal brain area to learn the discriminative representations from the left and right hemispheres of the brain. In our study, a system is designed to study the emotional arousal in an immersive virtual reality (VR) environment. EEG data were collected from 18 healthy subjects using this system to evaluate the performance of the proposed deep learning network for the classification of low and high emotional arousal states. The proposed method is compared with SVM, EEGNet, and LSTM. TSception achieves a high classification accuracy of 86.03%, which outperforms the prior methods significantly (p<0.05). The code is available at https://github.com/deepBrains/TSception
翻訳日:2022-12-17 10:05:00 公開日:2020-04-08
# 勾配集中化:深層ニューラルネットワークの新しい最適化手法

Gradient Centralization: A New Optimization Technique for Deep Neural Networks ( http://arxiv.org/abs/2004.01461v2 )

ライセンス: Link先を確認
Hongwei Yong, Jianqiang Huang, Xiansheng Hua and Lei Zhang(参考訳) ディープニューラルネットワーク(DNN)を効果的かつ効率的にトレーニングする上で、最適化技術は非常に重要である。 バッチ正規化(BN)や重み標準化(WS)といったネットワークアクティベーションや重みベクトルのZスコア標準化には,第1次および第2次統計値(平均値と分散値)を用いることで,トレーニング性能を向上させることが示されている。 アクティベーションや重みを主に扱うこれらの既存手法とは異なり、勾配ベクトルをゼロ平均に集中させることで勾配を直接操作する新しい最適化手法、すなわち勾配集中化(GC)を提案する。 gcは、制約付き損失関数を持つ投影勾配降下法と見なすことができる。 本稿では,GCが重み空間と出力特徴空間の両方を正規化することにより,DNNの一般化性能を向上できることを示す。 さらに、GCは損失関数のリプシッツ性と勾配を改善して、トレーニングプロセスがより効率的で安定したものにする。 GCは実装が非常に簡単で、1行のコードだけで既存の勾配ベースのDNNオプティマイザに簡単に組み込める。 トレーニング済みのDNNを直接調整するためにも使用できる。 一般画像分類,細粒度画像分類,検出,セグメンテーションなど,様々な応用実験を行い,gcがdnn学習の性能を一貫して向上できることを実証した。 GCのコードはhttps://github.com/Yonghongwei/Gradient-Centralizationにある。

Optimization techniques are of great importance to effectively and efficiently train a deep neural network (DNN). It has been shown that using the first and second order statistics (e.g., mean and variance) to perform Z-score standardization on network activations or weight vectors, such as batch normalization (BN) and weight standardization (WS), can improve the training performance. Different from these existing methods that mostly operate on activations or weights, we present a new optimization technique, namely gradient centralization (GC), which operates directly on gradients by centralizing the gradient vectors to have zero mean. GC can be viewed as a projected gradient descent method with a constrained loss function. We show that GC can regularize both the weight space and output feature space so that it can boost the generalization performance of DNNs. Moreover, GC improves the Lipschitzness of the loss function and its gradient so that the training process becomes more efficient and stable. GC is very simple to implement and can be easily embedded into existing gradient based DNN optimizers with only one line of code. It can also be directly used to fine-tune the pre-trained DNNs. Our experiments on various applications, including general image classification, fine-grained image classification, detection and segmentation, demonstrate that GC can consistently improve the performance of DNN learning. The code of GC can be found at https://github.com/Yonghongwei/Gradient-Centralization.
翻訳日:2022-12-17 04:37:07 公開日:2020-04-08
# 規模と空間における帰属

Attribution in Scale and Space ( http://arxiv.org/abs/2004.03383v2 )

ライセンス: Link先を確認
Shawn Xu, Subhashini Venugopalan, Mukund Sundararajan(参考訳) 知覚課題に適用した深層ネットワークの帰属問題 [28] について検討した。 視覚タスクでは、属性技術は入力画像のピクセルにネットワークの予測を関連付ける。 そこで我々は,emph{blur integrated gradients} と呼ばれる新しい手法を提案する。 この手法は他の手法よりもいくつかの利点がある。 まず、ネットワークがどの規模でオブジェクトを認識できるかを判断する。 スケール/周波数次元でスコアを生成し、興味深い現象を捉える。 第二に、スケール空間公理 [14] を満たすことであり、これは人工物のない摂動を用いることを意味する。 したがって、よりクリーンで深いネットワークの操作と整合した説明を生成する。 第3に、知覚タスクのための統合勾配 [31] のための'ベースライン'パラメータの必要性をなくす。 ベースラインの選択が説明に重大な影響を与えるため、これは望ましい。 提案手法を従来の手法と比較し,imagenetオブジェクト認識,糖尿病網膜症予測,オーディオセット音声イベント識別の3つのタスクに適用した。

We study the attribution problem [28] for deep networks applied to perception tasks. For vision tasks, attribution techniques attribute the prediction of a network to the pixels of the input image. We propose a new technique called \emph{Blur Integrated Gradients}. This technique has several advantages over other methods. First, it can tell at what scale a network recognizes an object. It produces scores in the scale/frequency dimension, that we find captures interesting phenomena. Second, it satisfies the scale-space axioms [14], which imply that it employs perturbations that are free of artifact. We therefore produce explanations that are cleaner and consistent with the operation of deep networks. Third, it eliminates the need for a 'baseline' parameter for Integrated Gradients [31] for perception tasks. This is desirable because the choice of baseline has a significant effect on the explanations. We compare the proposed technique against previous techniques and demonstrate application on three tasks: ImageNet object recognition, Diabetic Retinopathy prediction, and AudioSet audio event identification.
翻訳日:2022-12-17 03:44:45 公開日:2020-04-08
# 食品認識における深層学習アプローチ

Deep learning approaches in food recognition ( http://arxiv.org/abs/2004.03357v2 )

ライセンス: Link先を確認
Chairi Kiourt, George Pavlidis, Stella Markantonatou(参考訳) 画像に基づく食品の自動認識は特に難しい課題だ。 従来の画像解析手法では分類精度が低かったが,深層学習では食品の種類や成分の同定が可能であった。 料理の内容は、通常変形可能なオブジェクトであり、複雑な意味論を含んでいるため、構造を定義する作業は非常に困難である。 深層学習の手法はすでにこのような課題において有望な成果を上げており、この章では、画像に基づく食品認識に適用された一般的なアプローチと技法の提示に焦点を当てている。 スクラッチからの設計、トランスファーラーニング、プラットフォームベースのアプローチの3つの主なソリューションは、特に目前にあるタスクのために概説され、固有の強みと弱点を明らかにするためにテストされ、比較される。 この章は基本的な背景資料と、採用される経験的アプローチに照らして重要な関連するデータセットを専門とするセクションと、将来の方向性を下記した発言を補完するものである。

Automatic image-based food recognition is a particularly challenging task. Traditional image analysis approaches have achieved low classification accuracy in the past, whereas deep learning approaches enabled the identification of food types and their ingredients. The contents of food dishes are typically deformable objects, usually including complex semantics, which makes the task of defining their structure very difficult. Deep learning methods have already shown very promising results in such challenges, so this chapter focuses on the presentation of some popular approaches and techniques applied in image-based food recognition. The three main lines of solutions, namely the design from scratch, the transfer learning and the platform-based approaches, are outlined, particularly for the task at hand, and are tested and compared to reveal the inherent strengths and weaknesses. The chapter is complemented with basic background material, a section devoted to the relevant datasets that are crucial in light of the empirical approaches adopted, and some concluding remarks that underline the future directions.
翻訳日:2022-12-16 22:51:19 公開日:2020-04-08
# ナイフと脅威検知器

Knife and Threat Detectors ( http://arxiv.org/abs/2004.03366v2 )

ライセンス: Link先を確認
David A. Noever, Sam E. Miller Noever(参考訳) 画像ベース機械学習の急速な進歩にもかかわらず、ナイフを振り回す攻撃者の脅威の特定は学術的な注目を集めていない。 この相対的な研究のギャップは、高いナイフの暴行率(年間100,000ドル)と、分析と法医学的な文書化のための公開ビデオ監視が増加していることを考えると、理解しづらいように思える。 本稿では,複数のナイフ画像データセットを用いて脅威の自動識別を行うための3つの補完的手法を提案する。 ナイフ操作の脅威に対してオブザーバに警告するために、少ないメモリ要件(2.2メガバイト)と95%のテスト精度で、sparseとprunedニューラルネットワークでmobilenetを中心に構築された分類をテストおよびデプロイする。 第2に、検出アルゴリズム(MaskRCNN)をトレーニングし、ナイフから手を単一の画像に分割し、確率的確実性をそれらの相対位置に割り当てる。 このセグメンテーションは、境界ボックスによるローカライゼーションと、オーバーハンド脅威を推測する相対的な位置の両方を達成する。 PoseNetアーキテクチャ上に構築された最終モデルは、脅威特性を狭め、誤解された意図を減らすために、解剖学的ウェイポイントや骨格的特徴を割り当てる。 さらに,不正な手や拳画像の収集など,展開されたナイフの脅威検出装置を欠く可能性のある既存のデータギャップを,重要な負のトレーニングセットとして識別し,補足する。 商品のハードウェアとソフトウェアソリューションを自動化した場合、最初の研究成果は、悲劇的な結果に先立って、タイムリーかつ容易に利用できる画像ベースの警告を処理し、犯罪防止対策を優先する体系的な調査である。

Despite rapid advances in image-based machine learning, the threat identification of a knife wielding attacker has not garnered substantial academic attention. This relative research gap appears less understandable given the high knife assault rate (>100,000 annually) and the increasing availability of public video surveillance to analyze and forensically document. We present three complementary methods for scoring automated threat identification using multiple knife image datasets, each with the goal of narrowing down possible assault intentions while minimizing misidentifying false positives and risky false negatives. To alert an observer to the knife-wielding threat, we test and deploy classification built around MobileNet in a sparse and pruned neural network with a small memory requirement (< 2.2 megabytes) and 95% test accuracy. We secondly train a detection algorithm (MaskRCNN) to segment the hand from the knife in a single image and assign probable certainty to their relative location. This segmentation accomplishes both localization with bounding boxes but also relative positions to infer overhand threats. A final model built on the PoseNet architecture assigns anatomical waypoints or skeletal features to narrow the threat characteristics and reduce misunderstood intentions. We further identify and supplement existing data gaps that might blind a deployed knife threat detector such as collecting innocuous hand and fist images as important negative training sets. When automated on commodity hardware and software solutions one original research contribution is this systematic survey of timely and readily available image-based alerts to task and prioritize crime prevention countermeasures prior to a tragic outcome.
翻訳日:2022-12-16 22:42:33 公開日:2020-04-08
# カプセル逆ネットワークを用いたマイノリティクラス拡張による不均衡データ学習

Imbalanced Data Learning by Minority Class Augmentation using Capsule Adversarial Networks ( http://arxiv.org/abs/2004.02182v3 )

ライセンス: Link先を確認
Pourya Shamsolmoali, Masoumeh Zareapoor, Linlin Shen, Abdul Hamid Sadka, Jie Yang(参考訳) 画像データセットがしばしば不均衡であるという事実は、ディープラーニング技術に深刻な課題をもたらす。 本稿では,2つの同時手法であるgans(generative adversarial network)とカプセルネットワークを組み合わせることにより,不均衡画像のバランスを回復する手法を提案する。 本モデルでは,生成ネットワークと識別ネットワークが,多変量確率分布から特定のクラスに対してサンプルを生成する新しい競合ゲームを行う。 我々のモデルの識別器は、実と偽のサンプルを認識しながら、入力にクラスを割り当てる必要があるように設計されている。 ganアプローチはトレーニング中に完全に観測されたデータを必要とするため、トレーニングサンプルが不均衡な場合、同様のサンプルを生成してデータオーバーフィットにつながる可能性がある。 この問題は、両クラスコンポーネントから利用可能なすべての情報を、相反するトレーニングで共同で提供することで解決される。 マイノリティサンプルの生成に多数分布構造を組み込むことにより、不均衡データからの学習を改善する。 さらに、ジェネレータは、訓練収束を改善するために特徴マッチング損失関数で訓練される。 さらに、outlierの生成を防ぎ、多数クラス空間に影響を与えない。 提案手法の有効性,特にカプセルGANの合体は,畳み込みGANに比べて非常に少ないパラメータで重なり合うクラスを認識するのに有効である。

The fact that image datasets are often imbalanced poses an intense challenge for deep learning techniques. In this paper, we propose a method to restore the balance in imbalanced images, by coalescing two concurrent methods, generative adversarial networks (GANs) and capsule network. In our model, generative and discriminative networks play a novel competitive game, in which the generator generates samples towards specific classes from multivariate probabilities distribution. The discriminator of our model is designed in a way that while recognizing the real and fake samples, it is also requires to assign classes to the inputs. Since GAN approaches require fully observed data during training, when the training samples are imbalanced, the approaches might generate similar samples which leading to data overfitting. This problem is addressed by providing all the available information from both the class components jointly in the adversarial training. It improves learning from imbalanced data by incorporating the majority distribution structure in the generation of new minority samples. Furthermore, the generator is trained with feature matching loss function to improve the training convergence. In addition, prevents generation of outliers and does not affect majority class space. The evaluations show the effectiveness of our proposed methodology; in particular, the coalescing of capsule-GAN is effective at recognizing highly overlapping classes with much fewer parameters compared with the convolutional-GAN.
翻訳日:2022-12-16 12:18:52 公開日:2020-04-08
# 量子インスパイアされた単語表現と計算

Quantum Inspired Word Representation and Computation ( http://arxiv.org/abs/2004.02705v2 )

ライセンス: Link先を確認
Shen Li, Renfen Hu, Jinshan Wu(参考訳) 単語の意味は異なる側面を持ち、既存の単語表現はこれらの側面を単一のベクトルに「圧縮」し、異なる次元の情報を復元するにはさらなる分析が必要である。 量子確率にインスパイアされた単語は、本質的に混合状態を表現することができる密度行列として表現する。 実験により, 密度行列表現は, ベクトル表現と同等の信頼性を維持しつつ, 単語の意味の異なる側面を効果的に捉えることができることを示した。 さらに,ベクトルと密度行列の計算において,コヒーレント和と非コヒーレント和を組み合わせた新しい手法を提案する。 単語類似処理における一貫した改善を実現する。

Word meaning has different aspects, while the existing word representation "compresses" these aspects into a single vector, and it needs further analysis to recover the information in different dimensions. Inspired by quantum probability, we represent words as density matrices, which are inherently capable of representing mixed states. The experiment shows that the density matrix representation can effectively capture different aspects of word meaning while maintaining comparable reliability with the vector representation. Furthermore, we propose a novel method to combine the coherent summation and incoherent summation in the computation of both vectors and density matrices. It achieves consistent improvement on word analogy task.
翻訳日:2022-12-16 05:36:12 公開日:2020-04-08
# 脳MRI画像における教師なし異常分割のためのオートエンコーダ : 比較検討

Autoencoders for Unsupervised Anomaly Segmentation in Brain MR Images: A Comparative Study ( http://arxiv.org/abs/2004.03271v2 )

ライセンス: Link先を確認
Christoph Baur, Stefan Denner, Benedikt Wiestler, Shadi Albarqouni and Nassir Navab(参考訳) 深い教師なし表現学習は、最近、脳MRIにおける教師なし異常検出(UAD)分野の新しいアプローチにつながっている。 これらの研究の主な原理は、正常なデータの圧縮と回復を学ぶことによって、正常な解剖学のモデルを学ぶことである。 これにより、圧縮された可能性のある異常なサンプルの異常な回復から異常な構造を見つけることができる。 この概念は医用画像分析コミュニティにとって非常に興味をそそられる。 i) 膨大な量の手作業によるセグメント化トレーニングデータの必要性を緩和する - 現在の教師付き深層学習の必要性と落とし穴-- 二 理論的に、監督されたアプローチが発見できない稀な病理を任意に検出することができる。 現在まで、ほとんどの作品の実験的なデザインは、有効な比較を妨げている。 一 異なるデータセット及び異なる病理に対して評価されること。 二 異なる画像の解像度を用い、 三 複雑さの異なる異なる異なるモデルアーキテクチャ。 この研究の目的は、単一のアーキテクチャ、単一の解像度、同じデータセットを使用することで、最近の方法の互換性を確立することである。 メソッドのランキングを提供するだけでなく、質問にも答えようとしています。 一 正常性をモデル化するために健康な教科がいくつ必要か ii) レビューされたアプローチがドメインシフトにも敏感である場合。 さらに,オープンな課題を特定し,今後のコミュニティの取り組みや研究の方向性について提案する。

Deep unsupervised representation learning has recently led to new approaches in the field of Unsupervised Anomaly Detection (UAD) in brain MRI. The main principle behind these works is to learn a model of normal anatomy by learning to compress and recover healthy data. This allows to spot abnormal structures from erroneous recoveries of compressed, potentially anomalous samples. The concept is of great interest to the medical image analysis community as it i) relieves from the need of vast amounts of manually segmented training data---a necessity for and pitfall of current supervised Deep Learning---and ii) theoretically allows to detect arbitrary, even rare pathologies which supervised approaches might fail to find. To date, the experimental design of most works hinders a valid comparison, because i) they are evaluated against different datasets and different pathologies, ii) use different image resolutions and iii) different model architectures with varying complexity. The intent of this work is to establish comparability among recent methods by utilizing a single architecture, a single resolution and the same dataset(s). Besides providing a ranking of the methods, we also try to answer questions like i) how many healthy training subjects are needed to model normality and ii) if the reviewed approaches are also sensitive to domain shift. Further, we identify open challenges and provide suggestions for future community efforts and research directions.
翻訳日:2022-12-15 23:30:33 公開日:2020-04-08
# Chance-Constrained Knapsack問題に対する特異な単目的および多目的進化アルゴリズム

Specific Single- and Multi-Objective Evolutionary Algorithms for the Chance-Constrained Knapsack Problem ( http://arxiv.org/abs/2004.03205v2 )

ライセンス: Link先を確認
Yue Xie, Aneta Neumann, Frank Neumann(参考訳) チャンス制約knapsack問題は、各項目が決定論的重みではなく重み分布を持つ古典的なknapsack問題の変種である。 目的は、選択された項目の重量が与えられた重量をわずかに$\alpha$の確率で超えるという条件の下で、選択された項目の総利益を最大化することである。 本稿では,問題固有の単一目的と多目的のアプローチについて考察する。 そこで本研究では,ヘビーテール変異の使用について検討し,チャンス拘束型クナプサック問題に対処する問題特異的クロスオーバー演算子を提案する。 単目的進化アルゴリズムの実証結果は、古典演算子と比較して演算子の有効性を示す。 さらに,チャンス制約付きknapsack問題に対する効果的な多目的モデルを提案する。 このモデルを,多目的進化アルゴリズムにおける問題固有のクロスオーバー演算子と組み合わせて解く。 実験の結果,GSEMOやNSGA-IIといった進化的多目的アルゴリズムのアプローチを用いることで,性能が大幅に向上することが示された。

The chance-constrained knapsack problem is a variant of the classical knapsack problem where each item has a weight distribution instead of a deterministic weight. The objective is to maximize the total profit of the selected items under the condition that the weight of the selected items only exceeds the given weight bound with a small probability of $\alpha$. In this paper, consider problem-specific single-objective and multi-objective approaches for the problem. We examine the use of heavy-tail mutations and introduce a problem-specific crossover operator to deal with the chance-constrained knapsack problem. Empirical results for single-objective evolutionary algorithms show the effectiveness of our operators compared to the use of classical operators. Moreover, we introduce a new effective multi-objective model for the chance-constrained knapsack problem. We use this model in combination with the problem-specific crossover operator in multi-objective evolutionary algorithms to solve the problem. Our experimental results show that this leads to significant performance improvements when using the approach in evolutionary multi-objective algorithms such as GSEMO and NSGA-II.
翻訳日:2022-12-15 23:23:39 公開日:2020-04-08
# 自動発話生成

Automated Utterance Generation ( http://arxiv.org/abs/2004.03484v2 )

ライセンス: Link先を確認
Soham Parikh, Quaizar Vohra, Mitul Tiwari(参考訳) 会話型AIアシスタントは普及しており、質問応答は会話型アシスタントの重要な部分である。 質問応答の特徴として関連する発話を用いることで、会話アシスタントによる正しい回答を検索するための精度とリコールが向上することが示されている。 したがって、タイトルと説明からなる知識ベース記事から関連する発話(意味や句)を生成するという目的において、発話生成は重要な問題となっている。 しかし、良い発話を生成するには、通常多くの手作業が必要であり、自動発話生成の必要性が生じます。 本稿では,発話生成システムを提案する。 1)説明から重要文を抽出するために抽出要約を用いる。 2)複数のパラフレーズ技術を用いてタイトルと要約文の多様なパラフレーズセットを生成し, 3)新しい候補選択アルゴリズムの助けを借りて,優れた候補パラフレーズを選択する。

Conversational AI assistants are becoming popular and question-answering is an important part of any conversational assistant. Using relevant utterances as features in question-answering has shown to improve both the precision and recall for retrieving the right answer by a conversational assistant. Hence, utterance generation has become an important problem with the goal of generating relevant utterances (sentences or phrases) from a knowledge base article that consists of a title and a description. However, generating good utterances usually requires a lot of manual effort, creating the need for an automated utterance generation. In this paper, we propose an utterance generation system which 1) uses extractive summarization to extract important sentences from the description, 2) uses multiple paraphrasing techniques to generate a diverse set of paraphrases of the title and summary sentences, and 3) selects good candidate paraphrases with the help of a novel candidate selection algorithm.
翻訳日:2022-12-15 22:25:39 公開日:2020-04-08
# マニピュレーション型機械学習

Manipulation-Proof Machine Learning ( http://arxiv.org/abs/2004.03865v1 )

ライセンス: Link先を確認
Daniel Bj\"orkegren, Joshua E. Blumenstock, Samsun Knight(参考訳) より多くの意思決定が機械学習アルゴリズムによって導かれる。 消費者信用から刑事司法まで、多くの場面において、これらの決定は個人の観察された行動に関するデータに推定器を適用することによってなされる。 しかし、一連の決定が規則にエンコードされるとき、個人は望ましい結果を達成するために戦略的に行動を変えることができる。 本稿では, 決定規則が完全透明である場合でも, 操作中に安定な新しい推定器の開発を行う。 我々は,異なる行動を操作するコストを明示的にモデル化し,均衡の安定な決定規則を同定する。 ケニアにおける大規模フィールド実験により,戦略ロバスト法を用いて推定した決定ルールが,標準的な教師付き学習手法による決定ルールよりも優れていることを示した。

An increasing number of decisions are guided by machine learning algorithms. In many settings, from consumer credit to criminal justice, those decisions are made by applying an estimator to data on an individual's observed behavior. But when consequential decisions are encoded in rules, individuals may strategically alter their behavior to achieve desired outcomes. This paper develops a new class of estimator that is stable under manipulation, even when the decision rule is fully transparent. We explicitly model the costs of manipulating different behaviors, and identify decision rules that are stable in equilibrium. Through a large field experiment in Kenya, we show that decision rules estimated with our strategy-robust method outperform those based on standard supervised learning approaches.
翻訳日:2022-12-15 09:49:42 公開日:2020-04-08
# 協調音集における検索結果クラスタリング

Search Result Clustering in Collaborative Sound Collections ( http://arxiv.org/abs/2004.03985v1 )

ライセンス: Link先を確認
Xavier Favory, Frederic Font and Xavier Serra(参考訳) 現在のオンラインマルチメディアデータベースの大規模化は、コンテンツの検索を困難かつ時間のかかる作業にしている。 オンラインのサウンドコレクションのユーザーは、通常、幅広い意図を表す検索クエリを送信し、しばしばシステムが大きくて管理不能な結果セットを返す。 Search Result Clusteringは、検索-resultコンテンツを一貫性のあるグループにまとめるテクニックで、ユーザは検索結果に有用なサブセットを識別できる。 適切なインターフェースで探索できるコヒーレントで独特なクラスタを持つことは、この技術を従来の検索エンジンを補うのに不可欠である。 本研究では,大規模オンラインデータベースの問合せ時に得られる多様な音響コレクションをクラスタリングするために,音声特徴を用いたグラフベースアプローチを提案する。 本稿では,各音に関連付けられたメタデータを利用して,様々な特徴を大規模に評価する手法を提案する。 この分析は、手動の注釈付きデータセットからの接地ラベルを用いた評価で補完される。 不整合クラスタを破棄する信頼性尺度を用いることで,パーティションの品質が向上することを示す。 クラスタ化に最も適した特徴を特定した上で,ユーザに対して適切な設計タスクを行う実験を行い,アプローチとそのユーザインターフェースを評価する。 ユーザビリティアンケートや半構造化インタビューを含む質的分析を行う。 これにより、クラスタとの効率的なインタラクションを促進する機能に関する貴重な新しい洞察が得られます。

The large size of nowadays' online multimedia databases makes retrieving their content a difficult and time-consuming task. Users of online sound collections typically submit search queries that express a broad intent, often making the system return large and unmanageable result sets. Search Result Clustering is a technique that organises search-result content into coherent groups, which allows users to identify useful subsets in their results. Obtaining coherent and distinctive clusters that can be explored with a suitable interface is crucial for making this technique a useful complement of traditional search engines. In our work, we propose a graph-based approach using audio features for clustering diverse sound collections obtained when querying large online databases. We propose an approach to assess the performance of different features at scale, by taking advantage of the metadata associated with each sound. This analysis is complemented with an evaluation using ground-truth labels from manually annotated datasets. We show that using a confidence measure for discarding inconsistent clusters improves the quality of the partitions. After identifying the most appropriate features for clustering, we conduct an experiment with users performing a sound design task, in order to evaluate our approach and its user interface. A qualitative analysis is carried out including usability questionnaires and semi-structured interviews. This provides us with valuable new insights regarding the features that promote efficient interaction with the clusters.
翻訳日:2022-12-15 09:49:07 公開日:2020-04-08
# ベイジアンxベクトル:ベイジアンニューラルネットワークを用いた話者検証用xベクトルシステム

Bayesian x-vector: Bayesian Neural Network based x-vector System for Speaker Verification ( http://arxiv.org/abs/2004.04014v1 )

ライセンス: Link先を確認
Xu Li, Jinghua Zhong, Jianwei Yu, Shoukang Hu, Xixin Wu, Xunying Liu, Helen Meng(参考訳) 話者検証システムは、通常、訓練と評価データのミスマッチ問題、例えば話者集団のミスマッチ、チャネルと環境の変化に悩まされる。 この問題に対処するためには、システムは見えないデータに対して優れた一般化能力を持つ必要がある。 本研究では,ベイズニューラルネットワーク(BNN)を深部ニューラルネットワーク(DNN)xベクトル話者検証システムに統合し,システムの一般化能力を向上させる。 bnnsが提供する重み不確実性モデリングにより,評価データの一般化と検証判断の精度向上が期待できる。 DNN x-vector システムは,ドメイン外データを用いた評価においてミスマッチの問題が重大である場合,特に BNN の恩恵を受ける可能性が示唆された。 具体的には、比較的EERが2.66%と2.32%減少することでBNNの利点を享受できることを示した。 さらに、DNN x-vector とベイズ x-vector の融合により、さらなる改善が期待できる。 さらに、NIST SRE10コアテストで評価しながら、Voxceleb1でトレーニングされたモデルなどドメイン外の評価によって実施された実験は、BNNがより大きい相対的EERを約4.69%減少させることを示唆している。

Speaker verification systems usually suffer from the mismatch problem between training and evaluation data, such as speaker population mismatch, the channel and environment variations. In order to address this issue, it requires the system to have good generalization ability on unseen data. In this work, we incorporate Bayesian neural networks (BNNs) into the deep neural network (DNN) x-vector speaker verification system to improve the system's generalization ability. With the weight uncertainty modeling provided by BNNs, we expect the system could generalize better on the evaluation data and make verification decisions more accurately. Our experiment results indicate that the DNN x-vector system could benefit from BNNs especially when the mismatch problem is severe for evaluations using out-of-domain data. Specifically, results show that the system could benefit from BNNs by a relative EER decrease of 2.66% and 2.32% respectively for short- and long-utterance in-domain evaluations. Additionally, the fusion of DNN x-vector and Bayesian x-vector systems could achieve further improvement. Moreover, experiments conducted by out-of-domain evaluations, e.g. models trained on Voxceleb1 while evaluated on NIST SRE10 core test, suggest that BNNs could bring a larger relative EER decrease of around 4.69%.
翻訳日:2022-12-15 09:48:48 公開日:2020-04-08
# npinns: パラメトリズド非局所普遍ラプラシアン作用素のための非局所物理形ニューラルネットワーク。 アルゴリズムと応用

nPINNs: nonlocal Physics-Informed Neural Networks for a parametrized nonlocal universal Laplacian operator. Algorithms and Applications ( http://arxiv.org/abs/2004.04276v1 )

ライセンス: Link先を確認
Guofei Pang, Marta D'Elia, Michael Parks, George E. Karniadakis(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、疎度、雑音、非構造、多要素データを含む微分方程式と積分方程式に基づく逆問題の解法に有効である。 PINNは、利用可能な全ての情報を損失関数に組み込んで、元の問題を最適化問題に再キャストする。 本稿では,非局所ポアソンや非局所乱流モデルのような積分方程式のパラメータや関数推論にピンを拡張し,これを非局所ピン(npinn)と呼ぶ。 論文の貢献は3倍である。 まず、古典ラプラシアンを演算子パラメータの1つとして収束させる統一非局所作用素を提案し、非局所相互作用半径$\delta$は0に、分数ラプラシアンを$\delta$は無限に収束する。 この普遍作用素は古典ラプラシアンおよび分数ラプラシアン作用素の超集合を形成し、従ってデータセットの広いスペクトルに適合するポテンシャルを持つ。 我々は$\delta$に関する理論収束率を提供し、数値実験を通して検証する。 次に、nPINNを使って2つのパラメータ、$\delta$と$\alpha$を推定します。 複数の(良い)局所極小を生じる損失関数の強い非凸性は、演算子の模倣現象の発生を明らかにした: 推定パラメータの異なるペアは、同等の精度で複数の解を生成することができる。 第3に, 乱流クーエット流のモデル化により適した空間変数 $\alpha(y)$ を持つ別の非局所作用素を提案する。 以上の結果から nPINN はこの関数と$\delta$ を共同で推論できることがわかった。 また、これらのパラメータは、壁境界乱流における非局所的相互作用の理解に寄与するレイノルズ数に関する普遍的な振舞いを示す。

Physics-informed neural networks (PINNs) are effective in solving inverse problems based on differential and integral equations with sparse, noisy, unstructured, and multi-fidelity data. PINNs incorporate all available information into a loss function, thus recasting the original problem into an optimization problem. In this paper, we extend PINNs to parameter and function inference for integral equations such as nonlocal Poisson and nonlocal turbulence models, and we refer to them as nonlocal PINNs (nPINNs). The contribution of the paper is three-fold. First, we propose a unified nonlocal operator, which converges to the classical Laplacian as one of the operator parameters, the nonlocal interaction radius $\delta$ goes to zero, and to the fractional Laplacian as $\delta$ goes to infinity. This universal operator forms a super-set of classical Laplacian and fractional Laplacian operators and, thus, has the potential to fit a broad spectrum of data sets. We provide theoretical convergence rates with respect to $\delta$ and verify them via numerical experiments. Second, we use nPINNs to estimate the two parameters, $\delta$ and $\alpha$. The strong non-convexity of the loss function yielding multiple (good) local minima reveals the occurrence of the operator mimicking phenomenon: different pairs of estimated parameters could produce multiple solutions of comparable accuracy. Third, we propose another nonlocal operator with spatially variable order $\alpha(y)$, which is more suitable for modeling turbulent Couette flow. Our results show that nPINNs can jointly infer this function as well as $\delta$. Also, these parameters exhibit a universal behavior with respect to the Reynolds number, a finding that contributes to our understanding of nonlocal interactions in wall-bounded turbulence.
翻訳日:2022-12-15 09:47:35 公開日:2020-04-08
# 干渉自由エネルギー最小化のためのミラーディフレッシュアルゴリズム

Mirror Descent Algorithms for Minimizing Interacting Free Energy ( http://arxiv.org/abs/2004.04555v1 )

ライセンス: Link先を確認
Lexing Ying(参考訳) 自由エネルギーの相互作用を最小化する問題を考える。 ミラー降下アルゴリズムに動機づけられ、与えられた相互作用自由エネルギーに対して、基準測度と相互作用項を考慮した新しい計量を用いた降下ダイナミクスを提案する。 この計量は自然に確率測度の単調再パラメータ化を示唆する。 明示的なオイラー法で再パラメータ化降下力学を離散化することにより、相互作用する自由エネルギーを最小化するための新しいミラー・ディフレッシュ型アルゴリズムにたどり着く。 提案アルゴリズムの効率性を示すために, 数値計算結果を含む。

This note considers the problem of minimizing interacting free energy. Motivated by the mirror descent algorithm, for a given interacting free energy, we propose a descent dynamics with a novel metric that takes into consideration the reference measure and the interacting term. This metric naturally suggests a monotone reparameterization of the probability measure. By discretizing the reparameterized descent dynamics with the explicit Euler method, we arrive at a new mirror-descent-type algorithm for minimizing interacting free energy. Numerical results are included to demonstrate the efficiency of the proposed algorithms.
翻訳日:2022-12-15 09:47:03 公開日:2020-04-08
# 自動ソープオペラ音声を用いた5言語コード切り換えasrの半教師付き音響モデル

Semi-supervised acoustic modelling for five-lingual code-switched ASR using automatically-segmented soap opera speech ( http://arxiv.org/abs/2004.06480v1 )

ライセンス: Link先を確認
N. Wilkinson, A. Biswas, E. Y{\i}lmaz, F. de Wet, E. van der Westhuizen, T.R. Niesler(参考訳) 本稿では,自動セグメンテーションが5言語コードスイッチング(CS)音声の自動音声認識(ASR)システムの完全自動・半教師付き訓練に与える影響を考察する。 得られたセグメントを半教師付きで訓練したasrシステムの認識性能について,4つの自動セグメント化手法を評価した。 システムの出力は、手動で割り当てられたセグメントで訓練された半教師付きシステムによって達成された認識率と比較された。 3つの自動手法は、フレームワイズ分類のために新しく提案された畳み込みニューラルネットワーク(CNN)モデルを使用し、CNN出力の新たなHMM平滑化を含む。 自動セグメンテーションは話者ダイアリゼーションと組み合わせて適用した。 最良性能セグメンテーション法は話者ダイアリゼーションなしで試験された。 248のソープオペラのエピソードに基づく評価では、cnnに基づく音声活動検出(vad)とガウス混合モデルhidden markov model smoothing(cnn-gmm-hmm)がasr性能の最高値を示している。 結果として得られたセグメントで訓練された半教師付きシステムは、手動で作成したセグメントで訓練されたシステムよりも1.1%絶対的に改善された。 さらに,話者ダイアリゼーションと連動して自動セグメンテーションを用いた場合,システム性能はさらに向上した。

This paper considers the impact of automatic segmentation on the fully-automatic, semi-supervised training of automatic speech recognition (ASR) systems for five-lingual code-switched (CS) speech. Four automatic segmentation techniques were evaluated in terms of the recognition performance of an ASR system trained on the resulting segments in a semi-supervised manner. The system's output was compared with the recognition rates achieved by a semi-supervised system trained on manually assigned segments. Three of the automatic techniques use a newly proposed convolutional neural network (CNN) model for framewise classification, and include a novel form of HMM smoothing of the CNN outputs. Automatic segmentation was applied in combination with automatic speaker diarization. The best-performing segmentation technique was also tested without speaker diarization. An evaluation based on 248 unsegmented soap opera episodes indicated that voice activity detection (VAD) based on a CNN followed by Gaussian mixture modelhidden Markov model smoothing (CNN-GMM-HMM) yields the best ASR performance. The semi-supervised system trained with the resulting segments achieved an overall WER improvement of 1.1% absolute over the system trained with manually created segments. Furthermore, we found that system performance improved even further when the automatic segmentation was used in conjunction with speaker diarization.
翻訳日:2022-12-15 09:46:53 公開日:2020-04-08
# 注意機構と特徴融合に基づく画像超解像再構成

Image super-resolution reconstruction based on attention mechanism and feature fusion ( http://arxiv.org/abs/2004.03939v1 )

ライセンス: Link先を確認
Jiawen Lyn, Sen Yan(参考訳) 画像超解像再構成の分野において, 自然画像の固有の特性を捕捉し, 特徴を抽出するために, 畳み込みニューラルネットワークが無視する問題を考慮し, 注意機構とマルチスケール特徴融合に基づくネットワーク構造を提案する。 注意機構を用いることで、画像の非ローカル情報と2階特徴を効果的に統合し、ネットワークの特徴表現能力を向上させることができる。 同時に、画像のマルチスケール情報を抽出するために、異なるスケールの畳み込みカーネルを使用し、異なるスケールで完全な情報特性を保持する。 実験の結果,提案手法は他の代表的な超解像再構成アルゴリズムよりも客観的な定量的指標と視覚品質において優れた性能が得られることがわかった。

Aiming at the problems that the convolutional neural networks neglect to capture the inherent attributes of natural images and extract features only in a single scale in the field of image super-resolution reconstruction, a network structure based on attention mechanism and multi-scale feature fusion is proposed. By using the attention mechanism, the network can effectively integrate the non-local information and second-order features of the image, so as to improve the feature expression ability of the network. At the same time, the convolution kernel of different scales is used to extract the multi-scale information of the image, so as to preserve the complete information characteristics at different scales. Experimental results show that the proposed method can achieve better performance over other representative super-resolution reconstruction algorithms in objective quantitative metrics and visual quality.
翻訳日:2022-12-15 09:40:29 公開日:2020-04-08
# 前身深部多様体

Deep Manifold Prior ( http://arxiv.org/abs/2004.04242v1 )

ライセンス: Link先を確認
Matheus Gadelha, Rui Wang, Subhransu Maji(参考訳) 本稿では,ランダム初期化を起点とした勾配降下を用いて,深層ニューラルネットワークを用いて目標形状を再構成する3次元形状表面などの多様体構造データに対する前置法を提案する。 この方法で生成された曲面は滑らかであり、ガウス過程を特徴とする制限挙動を持ち、完全連結および畳み込みネットワークに対して数学的にそのような特性を導出する。 提案手法は, 点雲の分解や補間など, 様々な多様体再構成アプリケーションにおいて, トレーニングデータを必要としない競争ベースラインに対して, かなり優れた結果が得られることを示す。 また,データをトレーニングする場合,atlasnet の枠組みの下で表面のパラメトリゼーションを交互に行うことが可能となり,ネットワークアーキテクチャがコンパクトになり,標準画像の再構成結果が向上し,コンストラクションベンチマークを形成できることを示した。

We present a prior for manifold structured data, such as surfaces of 3D shapes, where deep neural networks are adopted to reconstruct a target shape using gradient descent starting from a random initialization. We show that surfaces generated this way are smooth, with limiting behavior characterized by Gaussian processes, and we mathematically derive such properties for fully-connected as well as convolutional networks. We demonstrate our method in a variety of manifold reconstruction applications, such as point cloud denoising and interpolation, achieving considerably better results against competitive baselines while requiring no training data. We also show that when training data is available, our method allows developing alternate parametrizations of surfaces under the framework of AtlasNet, leading to a compact network architecture and better reconstruction results on standard image to shape reconstruction benchmarks.
翻訳日:2022-12-15 09:39:50 公開日:2020-04-08
# マルチエージェントマルチアームバンド問題に対する動的観察戦略

A Dynamic Observation Strategy for Multi-agent Multi-armed Bandit Problem ( http://arxiv.org/abs/2004.03793v1 )

ライセンス: Link先を確認
Udari Madhushani and Naomi Ehrich Leonard(参考訳) 我々は、意思決定エージェントが隣人の選択や報酬を線形観測コストで観察できるマルチエージェントマルチアームバンディット問題を定義し、分析する。 近傍は、システムの固有の観測制約を符号化するネットワークグラフによって定義される。 我々は,エージェントが観察を行うたびに一定の観察後悔を受けるように,観察に関連するコストを定義する。 推定累積サンプリング後悔と予測累積観察後悔を最小化することで、各エージェントの期待累積報酬を最大化するためにサンプリングアルゴリズムと観察プロトコルを設計する。 提案プロトコルでは,総累積後悔が対数有界であることを証明する。 解析的境界の精度を数値シミュレーションを用いて検証する。

We define and analyze a multi-agent multi-armed bandit problem in which decision-making agents can observe the choices and rewards of their neighbors under a linear observation cost. Neighbors are defined by a network graph that encodes the inherent observation constraints of the system. We define a cost associated with observations such that at every instance an agent makes an observation it receives a constant observation regret. We design a sampling algorithm and an observation protocol for each agent to maximize its own expected cumulative reward through minimizing expected cumulative sampling regret and expected cumulative observation regret. For our proposed protocol, we prove that total cumulative regret is logarithmically bounded. We verify the accuracy of analytical bounds using numerical simulations.
翻訳日:2022-12-15 09:38:38 公開日:2020-04-08
# 畳み込みニューラルネットワークを用いた高精度フィッシング検出

High Accuracy Phishing Detection Based on Convolutional Neural Networks ( http://arxiv.org/abs/2004.03960v1 )

ライセンス: Link先を確認
Suleiman Y. Yerima and Mohammed K. Alzaylaee(参考訳) フィッシングの持続的な成長とフィッシングサイトの増加により、世界中の個人や組織が様々なサイバー攻撃にさらされるようになった。 これにより、より効果的なフィッシング検出がサイバー防御の改善に必要となる。 そこで本研究では,フィッシングサイトを高精度に検出するための深層学習に基づく手法を提案する。 提案手法では、畳み込みニューラルネットワーク(CNN)を高精度に分類し、本物のサイトとフィッシングサイトを区別する。 我々は6,157件の真偽と4,898件のフィッシングサイトから得られたデータセットを用いてモデルを評価する。 大規模な実験の結果から,我々のCNNモデルが未知のフィッシングサイトの検出に有効であることが判明した。 さらに、CNNベースのアプローチは、同じデータセットで評価された従来の機械学習分類器よりも優れており、F1スコア0.976で98.2%のフィッシング検出レートに達した。 本論文で提示する手法は,ディープラーニングを用いたフィッシングwebサイト検出の最先端技術と好適に比較できる。

The persistent growth in phishing and the rising volume of phishing websites has led to individuals and organizations worldwide becoming increasingly exposed to various cyber-attacks. Consequently, more effective phishing detection is required for improved cyber defence. Hence, in this paper we present a deep learning-based approach to enable high accuracy detection of phishing sites. The proposed approach utilizes convolutional neural networks (CNN) for high accuracy classification to distinguish genuine sites from phishing sites. We evaluate the models using a dataset obtained from 6,157 genuine and 4,898 phishing websites. Based on the results of extensive experiments, our CNN based models proved to be highly effective in detecting unknown phishing sites. Furthermore, the CNN based approach performed better than traditional machine learning classifiers evaluated on the same dataset, reaching 98.2% phishing detection rate with an F1-score of 0.976. The method presented in this paper compares favourably to the state-of-the art in deep learning based phishing website detection.
翻訳日:2022-12-15 09:38:26 公開日:2020-04-08
# 機械学習を用いた自動コンテンツグラディング

Automated Content Grading Using Machine Learning ( http://arxiv.org/abs/2004.04300v1 )

ライセンス: Link先を確認
Rahul Kr Chauhan, Ravinder Saharan, Siddhartha Singh, Priti Sharma(参考訳) 試験論文の採点はヘキシーでタイムラベルの集中的な作業であり、検査の非効率とバイアスを被ることが多い。 この研究プロジェクトは、まだ人間による評価が続けられていない技術コースの学生による試験で書かれた理論的回答の段階付けを自動化するための原始的な実験である。 本稿では,機械学習におけるアルゴリズム的アプローチを用いて,試験回答論文の理論的内容を自動的に検証し,評価する方法について述べる。 単語のバグ、ベクトルとセントロイド、およびいくつかの意味的および語彙的テキスト特徴が全体として使用されている。 機械学習モデルは、技術科生が受講した試験から手作業で構築したデータセットに実装されている。 これらのモデルを比較して各モデルの有効性を示した。

Grading of examination papers is a hectic, time-labor intensive task and is often subjected to inefficiency and bias in checking. This research project is a primitive experiment in the automation of grading of theoretical answers written in exams by students in technical courses which yet had continued to be human graded. In this paper, we show how the algorithmic approach in machine learning can be used to automatically examine and grade theoretical content in exam answer papers. Bag of words, their vectors & centroids, and a few semantic and lexical text features have been used overall. Machine learning models have been implemented on datasets manually built from exams given by graduating students enrolled in technical courses. These models have been compared to show the effectiveness of each model.
翻訳日:2022-12-15 09:38:09 公開日:2020-04-08
# プログラムの行分類のための依存型ニューラル表現

Dependency-Based Neural Representations for Classifying Lines of Programs ( http://arxiv.org/abs/2004.10166v1 )

ライセンス: Link先を確認
Shashank Srikant, Nicolas Lesimple, Una-May O'Reilly(参考訳) 脆弱性を含むプログラムの行を機械学習を用いて分類する問題について検討する。 このような行レベルの分類タスクは、行に存在するトークンから推論を超えたプログラム表現を要求する。 プログラムの行に現れるトークンの制御とデータ依存関係をキャプチャし、類似した意味の行が同様の特徴を持つことを保証できる潜在機能空間における分散表現を求める。 これらの両方の要件をうまく示すニューラルネットワークアーキテクチャであるVulcanを紹介します。 行内のトークンに関するコンテキスト情報を抽出し、注意機構を備えた双方向LSTMへの抽象構文木(AST)パスとして入力する。 これは、最近定義された行を再帰的に埋め込むことによって、行内のトークンの意味を同時に表現する。 私たちの実験では、vulcanは、プログラムの大幅な前処理を必要とする最先端の分類器と比較し、深層学習を使ってプログラム依存情報をモデル化するの有用性を示唆する。

We investigate the problem of classifying a line of program as containing a vulnerability or not using machine learning. Such a line-level classification task calls for a program representation which goes beyond reasoning from the tokens present in the line. We seek a distributed representation in a latent feature space which can capture the control and data dependencies of tokens appearing on a line of program, while also ensuring lines of similar meaning have similar features. We present a neural architecture, Vulcan, that successfully demonstrates both these requirements. It extracts contextual information about tokens in a line and inputs them as Abstract Syntax Tree (AST) paths to a bi-directional LSTM with an attention mechanism. It concurrently represents the meanings of tokens in a line by recursively embedding the lines where they are most recently defined. In our experiments, Vulcan compares favorably with a state-of-the-art classifier, which requires significant preprocessing of programs, suggesting the utility of using deep learning to model program dependence information.
翻訳日:2022-12-15 09:37:59 公開日:2020-04-08
# Canopy:スマートホームのためのプライバシー保護リングベースの通信プロトコル

Canopy: A Verifiable Privacy-Preserving Token Ring based Communication Protocol for Smart Homes ( http://arxiv.org/abs/2004.03841v1 )

ライセンス: Link先を確認
Nisha Panwar, Shantanu Sharma, Guoxi Wang, Sharad Mehrotra, and Nalini Venkatasubramanian(参考訳) 本稿では,スマートホームにおける新たなプライバシー問題に着目する。 具体的には、デバイスアクティビティやネットワークトラフィック分析を通じて、ユーザのプライバシにつながる可能性のある、ユーザのアクティビティを推論することに焦点を当てている。 本稿では,デバイスアクティビティからの推論を防止し,デバイス動作の協調的なシーケンスから推論を行うスマートホームデバイスからなるリングネットワークにおいて,暗号的にセキュアなトークン流通に基づく手法を開発した。 ソリューションは、デバイスアクティビティと対応するチャネルアクティビティを隠蔽し、それによって個人のアクティビティを保存する。 また、並列リングを実装して大規模データを生成する多数のデバイスやデバイスに対処するために、ソリューションを拡張しています。 また,提案手法の通信オーバヘッドと得られたプライバシーの観点から,性能評価を行った。

This paper focuses on the new privacy challenges that arise in smart homes. Specifically, the paper focuses on inferring the user's activities -- which may, in turn, lead to the user's privacy -- via inferences through device activities and network traffic analysis. We develop techniques that are based on a cryptographically secure token circulation in a ring network consisting of smart home devices to prevent inferences from device activities, via device workflow, i.e., inferences from a coordinated sequence of devices' actuation. The solution hides the device activity and corresponding channel activities, and thus, preserve the individual's activities. We also extend our solution to deal with a large number of devices and devices that produce large-sized data by implementing parallel rings. Our experiments also evaluate the performance in terms of communication overheads of the proposed approach and the obtained privacy.
翻訳日:2022-12-15 09:37:42 公開日:2020-04-08
# オンラインヘイトスピーチに対するカウンターナラティブの生成:データと戦略

Generating Counter Narratives against Online Hate Speech: Data and Strategies ( http://arxiv.org/abs/2004.04216v1 )

ライセンス: Link先を確認
Serra Sinem Tekiroglu, Yi-Ling Chung, Marco Guerini(参考訳) 最近、憎悪オンラインを扱う際、検閲やオーバーブロッキングなど、コンテンツモデレーションに伴う望ましくない効果を避ける研究が始まっている。 その中核となる考え方は、ヘイトコンテンツに対抗し、さらに広まるのを防ぐためのテキスト応答で議論に直接介入することだ。 そのため、自然言語生成などの自動化戦略が検討され始めている。 それでも、十分な量の品質データを欠如し、ジェネリック/反復的な応答を生み出す傾向にあります。 以上の制約に気付き、銀データ生成にGPT-2のような大規模教師なし言語モデルを用い、専門家の検証・編集に先立ってデータフィルタリングに利用できる最良のアノテーション戦略/神経アーキテクチャを用いて、憎悪に対する応答を効果的に収集する方法について研究する。

Recently research has started focusing on avoiding undesired effects that come with content moderation, such as censorship and overblocking, when dealing with hatred online. The core idea is to directly intervene in the discussion with textual responses that are meant to counter the hate content and prevent it from further spreading. Accordingly, automation strategies, such as natural language generation, are beginning to be investigated. Still, they suffer from the lack of sufficient amount of quality data and tend to produce generic/repetitive responses. Being aware of the aforementioned limitations, we present a study on how to collect responses to hate effectively, employing large scale unsupervised language models such as GPT-2 for the generation of silver data, and the best annotation strategies/neural architectures that can be used for data filtering before expert validation/post-editing.
翻訳日:2022-12-15 09:32:02 公開日:2020-04-08
# HybridDNN:高性能ハイブリッドDNN加速器の設計と実装のためのフレームワーク

HybridDNN: A Framework for High-Performance Hybrid DNN Accelerator Design and Implementation ( http://arxiv.org/abs/2004.03804v1 )

ライセンス: Link先を確認
Hanchen Ye, Xiaofan Zhang, Zhize Huang, Gengsheng Chen, Deming Chen(参考訳) 本稿では,Deep Neural Networks(DNN)アクセラレータの設計を高速化し,効率的な実装を実現するために,ハイブリットDNNを提案する。 新しい技術には、高度に柔軟でスケーラブルなアーキテクチャ、ハイブリッド空間/ウィノグラード畳み込み(conv)処理エンジン(pe)、包括的な設計空間探索ツール、加速器の設計と実装を完全にサポートする完全な設計フローが含まれる。 実験の結果,HybridDNN が生成したアクセラレータは,ハイエンドFPGA (VU9P) と組み込みFPGA (PYNQ-Z1) で3375.7 と83.3 GOPSをそれぞれ提供でき,最先端のアクセラレータ設計に比べて1.8倍の性能向上を実現していることがわかった。 このことは、HybridDNNが柔軟でスケーラブルであり、全く異なるリソース制約でクラウドと組み込みハードウェアプラットフォームの両方をターゲットにできることを示している。

To speedup Deep Neural Networks (DNN) accelerator design and enable effective implementation, we propose HybridDNN, a framework for building high-performance hybrid DNN accelerators and delivering FPGA-based hardware implementations. Novel techniques include a highly flexible and scalable architecture with a hybrid Spatial/Winograd convolution (CONV) Processing Engine (PE), a comprehensive design space exploration tool, and a complete design flow to fully support accelerator design and implementation. Experimental results show that the accelerators generated by HybridDNN can deliver 3375.7 and 83.3 GOPS on a high-end FPGA (VU9P) and an embedded FPGA (PYNQ-Z1), respectively, which achieve a 1.8x higher performance improvement compared to the state-of-art accelerator designs. This demonstrates that HybridDNN is flexible and scalable and can target both cloud and embedded hardware platforms with vastly different resource constraints.
翻訳日:2022-12-15 09:30:54 公開日:2020-04-08
# ニューラルレンダリング技術の現状

State of the Art on Neural Rendering ( http://arxiv.org/abs/2004.03805v1 )

ライセンス: Link先を確認
Ayush Tewari, Ohad Fried, Justus Thies, Vincent Sitzmann, Stephen Lombardi, Kalyan Sunkavalli, Ricardo Martin-Brualla, Tomas Simon, Jason Saragih, Matthias Nie{\ss}ner, Rohit Pandey, Sean Fanello, Gordon Wetzstein, Jun-Yan Zhu, Christian Theobalt, Maneesh Agrawala, Eli Shechtman, Dan B Goldman, Michael Zollh\"ofer(参考訳) 写真リアルな仮想世界の効率的なレンダリングは、コンピュータグラフィックスの長年の取り組みである。 現代のグラフィック技術は、手作りのシーン表現から写真リアルなイメージを合成することに成功している。 しかし、シーンの形状、材料、照明、その他の側面の自動生成は、解決すればフォトリアリスティックなコンピュータグラフィックスをより広くアクセス可能なものにする難題であり続けている。 同時に、コンピュータビジョンと機械学習の進歩は、画像合成と編集に対する新しいアプローチ、すなわち深層生成モデルを生み出した。 ニューラルレンダリング(neural rendering)は、ジェネレーティブな機械学習技術とコンピュータグラフィックスからの物理的知識、例えば、微分可能なレンダリングとネットワークトレーニングの統合を組み合わせた、新しい、急速に発展している分野である。 コンピュータグラフィックスとビジョンの多くのアプリケーションによって、ニューラルレンダリングはグラフィックコミュニティの新たな領域になりつつありますが、この新興分野に関する調査は存在しません。 この最先端のレポートは、ニューラルレンダリングの最近のトレンドと応用を要約している。 従来のコンピュータグラフィックス技術と深い生成モデルを組み合わせて、制御可能でフォトリアリスティックなアウトプットを得るアプローチに注目した。 基礎となるコンピュータグラフィックスと機械学習の概念の概要から始め、ニューラルレンダリングアプローチの重要な側面について論じる。 本報告は,新しいビュー合成,セマンティック写真操作,顔と身体の再現,リライティング,自由視点ビデオ,バーチャルおよび拡張現実テレプレゼンスのためのフォトリアリスティックアバターの作成など,記述されたアルゴリズムの多くの重要なユースケースに焦点を当てる。 最後に,このような技術の社会的意義について議論し,オープン研究の課題について考察する。

Efficient rendering of photo-realistic virtual worlds is a long standing effort of computer graphics. Modern graphics techniques have succeeded in synthesizing photo-realistic images from hand-crafted scene representations. However, the automatic generation of shape, materials, lighting, and other aspects of scenes remains a challenging problem that, if solved, would make photo-realistic computer graphics more widely accessible. Concurrently, progress in computer vision and machine learning have given rise to a new approach to image synthesis and editing, namely deep generative models. Neural rendering is a new and rapidly emerging field that combines generative machine learning techniques with physical knowledge from computer graphics, e.g., by the integration of differentiable rendering into network training. With a plethora of applications in computer graphics and vision, neural rendering is poised to become a new area in the graphics community, yet no survey of this emerging field exists. This state-of-the-art report summarizes the recent trends and applications of neural rendering. We focus on approaches that combine classic computer graphics techniques with deep generative models to obtain controllable and photo-realistic outputs. Starting with an overview of the underlying computer graphics and machine learning concepts, we discuss critical aspects of neural rendering approaches. This state-of-the-art report is focused on the many important use cases for the described algorithms such as novel view synthesis, semantic photo manipulation, facial and body reenactment, relighting, free-viewpoint video, and the creation of photo-realistic avatars for virtual and augmented reality telepresence. Finally, we conclude with a discussion of the social implications of such technology and investigate open research problems.
翻訳日:2022-12-15 09:30:32 公開日:2020-04-08
# 映像関連予測のためのデータ拡張による特徴再学習

Feature Re-Learning with Data Augmentation for Video Relevance Prediction ( http://arxiv.org/abs/2004.03815v1 )

ライセンス: Link先を確認
Jianfeng Dong, Xun Wang, Leimin Zhang, Chaoxi Xu, Gang Yang, Xirong Li(参考訳) 視覚コンテンツに対する2つのビデオ間の関連性を予測することは、コンテンツベースのビデオレコメンデーションと検索の重要な要素である。 事前訓練された画像とビデオ畳み込みニューラルネットワークモデルの可用性の向上により、深い視覚的特徴がビデオコンテンツ表現に広く使用されている。 しかし、2つのビデオがタスクに依存しているため、このようなオフザシェルフ機能は必ずしもすべてのタスクに最適ではない。 さらに、著作権、プライバシー、セキュリティなどさまざまな懸念があるため、オリジナルのビデオではなく、事前にコンパイルされたビデオ機能のみにアクセスすることができる。 本稿では,ビデオコンテンツの再検討を必要とせず,映像関連度予測を改善するための特徴再学習を提案する。 特に、アフィン変換によって与えられた深い特徴を新しい空間に投影することで再学習を実現する。 我々は、新たな負の3重項ランキング損失による再学習プロセスを最適化する。 より多くのトレーニングデータを生成するために,フレームレベルおよびビデオレベルの機能に直接作用する新しいデータ拡張戦略を提案する。 hulu content-based video associated prediction challenge 2018の文脈での広範な実験は、提案手法の有効性と、コンテンツベースのビデオ関連予測における最先端のパフォーマンスを正当化する。

Predicting the relevance between two given videos with respect to their visual content is a key component for content-based video recommendation and retrieval. Thanks to the increasing availability of pre-trained image and video convolutional neural network models, deep visual features are widely used for video content representation. However, as how two videos are relevant is task-dependent, such off-the-shelf features are not always optimal for all tasks. Moreover, due to varied concerns including copyright, privacy and security, one might have access to only pre-computed video features rather than original videos. We propose in this paper feature re-learning for improving video relevance prediction, with no need of revisiting the original video content. In particular, re-learning is realized by projecting a given deep feature into a new space by an affine transformation. We optimize the re-learning process by a novel negative-enhanced triplet ranking loss. In order to generate more training data, we propose a new data augmentation strategy which works directly on frame-level and video-level features. Extensive experiments in the context of the Hulu Content-based Video Relevance Prediction Challenge 2018 justify the effectiveness of the proposed method and its state-of-the-art performance for content-based video relevance prediction.
翻訳日:2022-12-15 09:30:04 公開日:2020-04-08
# S2A:多スペクトルバンド合成のための比スペクトルラプラシアン注意ワッサースタインGAN

S2A: Wasserstein GAN with Spatio-Spectral Laplacian Attention for Multi-Spectral Band Synthesis ( http://arxiv.org/abs/2004.03867v1 )

ライセンス: Link先を確認
Litu Rout, Indranil Misra, S Manthira Moorthi, Debajyoti Dhar(参考訳) 対人学習と衛星画像処理のインターセクションはリモートセンシングの新たな分野である。 本研究では,高分解能マルチスペクトル衛星画像の合成に対角学習を用いて取り組む。 注意機構の発見に導かれ,空間スペクトルラプラシアン注意を通してバンド合成の過程を制御した。 さらに,Wasserstein GANと勾配刑法を併用して,対人学習の訓練と安定性を向上させる。 本稿では,空間的注意と領域適応損失に基づく判別器の新たなコスト関数を提案する。 評価指標を用いて定性的,定量的な結果と最先端の手法を比較した。 LISS-3, LISS-4, WorldView-2という3種類のセンサのデータセットを用いた実験により, 最先端の手法に対して注意学習が好適であることが示された。 提案手法では,既存の高分解能帯域と整合した付加データ製品を提供する。 さらに, 様々な地形をカバーする4000以上の高解像度シーンを合成し, 科学的忠実度を解析する。 最後に,合成バンドの大規模実世界の応用を実証する。

Intersection of adversarial learning and satellite image processing is an emerging field in remote sensing. In this study, we intend to address synthesis of high resolution multi-spectral satellite imagery using adversarial learning. Guided by the discovery of attention mechanism, we regulate the process of band synthesis through spatio-spectral Laplacian attention. Further, we use Wasserstein GAN with gradient penalty norm to improve training and stability of adversarial learning. In this regard, we introduce a new cost function for the discriminator based on spatial attention and domain adaptation loss. We critically analyze the qualitative and quantitative results compared with state-of-the-art methods using widely adopted evaluation metrics. Our experiments on datasets of three different sensors, namely LISS-3, LISS-4, and WorldView-2 show that attention learning performs favorably against state-of-the-art methods. Using the proposed method we provide an additional data product in consistent with existing high resolution bands. Furthermore, we synthesize over 4000 high resolution scenes covering various terrains to analyze scientific fidelity. At the end, we demonstrate plausible large scale real world applications of the synthesized band.
翻訳日:2022-12-15 09:29:19 公開日:2020-04-08
# 単一画像超解像のための深層適応推論ネットワーク

Deep Adaptive Inference Networks for Single Image Super-Resolution ( http://arxiv.org/abs/2004.03915v1 )

ライセンス: Link先を確認
Ming Liu, Zhilu Zhang, Liya Hou, Wangmeng Zuo, Lei Zhang(参考訳) 近年では、ディープ畳み込みニューラルネットワーク(CNN)の展開により、シングルイメージ超解像(SISR)が著しく進歩している。 ほとんどの既存手法では、各sisrモデルの計算コストは、ローカル画像コンテンツ、ハードウェアプラットフォーム、アプリケーションシナリオとは無関係である。 それにもかかわらず、コンテンツとリソース適応モデルはより好まれており、より少ない詳細と制限された効率制約のあるシナリオで、より簡単で効率的なネットワークをより容易な領域に適用することを奨励している。 本稿では,深部SISR(AdaDSR)の適応型推論ネットワークを活用することで,この問題に対処する。 特にadadsrには、バックボーンとしてのsisrモデルと、画像の特徴とリソース制約を入力として、ローカルネットワーク深さのマップを予測する軽量アダプタモジュールが含まれています。 適応的推論は効率的なスパース畳み込み(sparse convolution)をサポートし、予測された深さに応じて、バックボーンの層の一部のみが所定の位置に実行される。 ネットワーク学習は、再構成とネットワーク深度損失の協調最適化として定式化することができる。 推論段階では、平均深度は様々な効率制約を満たすように柔軟に調整することができる。 実験は、我々のAdaDSRの有効性と適応性(EDSRやRCANなど)を示す。

Recent years have witnessed tremendous progress in single image super-resolution (SISR) owing to the deployment of deep convolutional neural networks (CNNs). For most existing methods, the computational cost of each SISR model is irrelevant to local image content, hardware platform and application scenario. Nonetheless, content and resource adaptive model is more preferred, and it is encouraging to apply simpler and efficient networks to the easier regions with less details and the scenarios with restricted efficiency constraints. In this paper, we take a step forward to address this issue by leveraging the adaptive inference networks for deep SISR (AdaDSR). In particular, our AdaDSR involves an SISR model as backbone and a lightweight adapter module which takes image features and resource constraint as input and predicts a map of local network depth. Adaptive inference can then be performed with the support of efficient sparse convolution, where only a fraction of the layers in the backbone is performed at a given position according to its predicted depth. The network learning can be formulated as the joint optimization of reconstruction and network depth losses. In the inference stage, the average depth can be flexibly tuned to meet a range of efficiency constraints. Experiments demonstrate the effectiveness and adaptability of our AdaDSR in contrast to its counterparts (e.g., EDSR and RCAN).
翻訳日:2022-12-15 09:29:00 公開日:2020-04-08
# ディープミスランキングによる人物再識別における伝達性, 制御性, 不明瞭な敵対的攻撃

Transferable, Controllable, and Inconspicuous Adversarial Attacks on Person Re-identification With Deep Mis-Ranking ( http://arxiv.org/abs/2004.04199v1 )

ライセンス: Link先を確認
Hongjun Wang, Guangrun Wang, Ya Li, Dongyu Zhang, and Liang Lin(参考訳) DNNの成功は、人物再識別(ReID)の広範な適用を新たな時代へと押し上げた。 しかし、ReIDがDNNの脆弱性を継承するかどうかは未定である。 ReIDシステムの堅牢性を調べるためには、ReIDシステムのセキュリティが著しく損なわれる可能性があるため、犯罪者はCCTVシステムを騙すために敵の摂動を利用することができる。 本研究では,システム出力のランキングを乱すために,学習とミスランクの定式化を提案することで,現在の最高のReIDモデルの安全性について検討する。 ReID領域では, クロスデータセット転送性が不可欠であるため, 異なるレベルの特徴をピラミッド化して, 対向的摂動の一般的な特徴と伝達可能な特徴を抽出する, 新たなマルチステージネットワークアーキテクチャを開発することで, バックボックス攻撃を行う。 本手法は,マルチショットサンプリングにより悪意のある画素数を制御することができる。 また,攻撃の目立たないことを保証するため,視覚品質向上のための新たな知覚損失を提案する。 reidベンチマークの最大4つ(market1501 [45], cuhk03 [18], dukemtmc [33], msmt17 [40])に対する広範な実験は、本手法の有効性を示すだけでなく、reidシステムの堅牢性の将来的な改善の方向性を提供する。 例えば、最も高性能なreidシステムの1つが攻撃を受けた後、91.8%から1.4%に激減した。 攻撃結果の一部が図1に示されている。 コードはhttps://github.com/whj363636/Adversarial- attack-on-Person-ReID-With-Deep-Mis-Rankingで公開されている。

The success of DNNs has driven the extensive applications of person re-identification (ReID) into a new era. However, whether ReID inherits the vulnerability of DNNs remains unexplored. To examine the robustness of ReID systems is rather important because the insecurity of ReID systems may cause severe losses, e.g., the criminals may use the adversarial perturbations to cheat the CCTV systems. In this work, we examine the insecurity of current best-performing ReID models by proposing a learning-to-mis-rank formulation to perturb the ranking of the system output. As the cross-dataset transferability is crucial in the ReID domain, we also perform a back-box attack by developing a novel multi-stage network architecture that pyramids the features of different levels to extract general and transferable features for the adversarial perturbations. Our method can control the number of malicious pixels by using differentiable multi-shot sampling. To guarantee the inconspicuousness of the attack, we also propose a new perception loss to achieve better visual quality. Extensive experiments on four of the largest ReID benchmarks (i.e., Market1501 [45], CUHK03 [18], DukeMTMC [33], and MSMT17 [40]) not only show the effectiveness of our method, but also provides directions of the future improvement in the robustness of ReID systems. For example, the accuracy of one of the best-performing ReID systems drops sharply from 91.8% to 1.4% after being attacked by our method. Some attack results are shown in Fig. 1. The code is available at https://github.com/whj363636/Adversarial-attack-on-Person-ReID-With-Deep-Mis-Ranking.
翻訳日:2022-12-15 09:22:40 公開日:2020-04-08
# 複数画像からのVine上のグレープ収量の推定

Estimating Grape Yield on the Vine from Multiple Images ( http://arxiv.org/abs/2004.04278v1 )

ライセンス: Link先を確認
Daniel L. Silver and Jabun Nasa(参考訳) 収穫前のブドウ収量の推定は、多くのブドウ園やワイナリーの決定を知らせるので、商業的なブドウ園生産にとって重要である。 現在、収率推定のプロセスは時間的消費であり、その正確さはヴィクセルティストの経験に応じて75-90\%である。 本稿では,三脚配置で固定された安価なスマートフォンで撮影された画像を利用するマルチタスク学習(MTL)畳み込みニューラルネットワーク(CNN)アプローチを提案する。 CNNモデルは、オートエンコーダからのMTL転送を使用して、収穫の6日前に取得した画像データから85%の精度を達成する。

Estimating grape yield prior to harvest is important to commercial vineyard production as it informs many vineyard and winery decisions. Currently, the process of yield estimation is time consuming and varies in its accuracy from 75-90\% depending on the experience of the viticulturist. This paper proposes a multiple task learning (MTL) convolutional neural network (CNN) approach that uses images captured by inexpensive smart phones secured in a simple tripod arrangement. The CNN models use MTL transfer from autoencoders to achieve 85\% accuracy from image data captured 6 days prior to harvest.
翻訳日:2022-12-15 09:22:09 公開日:2020-04-08
# 深層学習による表情認識

Facial Expression Recognition with Deep Learning ( http://arxiv.org/abs/2004.11823v1 )

ライセンス: Link先を確認
Amil Khanzada, Charles Bai, Ferhat Turker Celepcikay(参考訳) 人々がコミュニケーションする最も普遍的な方法の1つは、表情を通してである。 本稿では,表情認識のための複数の深層学習モデル(FER)を実装する。 目標は2つある: 精度を最大化するだけでなく、結果を現実世界に適用することを目指している。 最近の研究から多くの技術を活用することで、FER2013テストセットにおける最先端の75.8%の精度を実証し、既存のすべての出版物を上回ります。 さらに、デバイス上でFERモデルをリアルタイムに実行するモバイルWebアプリを紹介します。

One of the most universal ways that people communicate is through facial expressions. In this paper, we take a deep dive, implementing multiple deep learning models for facial expression recognition (FER). Our goals are twofold: we aim not only to maximize accuracy, but also to apply our results to the real-world. By leveraging numerous techniques from recent research, we demonstrate a state-of-the-art 75.8% accuracy on the FER2013 test set, outperforming all existing publications. Additionally, we showcase a mobile web app which runs our FER models on-device in real time.
翻訳日:2022-12-15 09:21:59 公開日:2020-04-08
# SIA: バイオメディカルな名前付きエンティティのためのスケーラブルな相互運用可能なアノテーションサーバ

SIA: A Scalable Interoperable Annotation Server for Biomedical Named Entities ( http://arxiv.org/abs/2004.03822v1 )

ライセンス: Link先を確認
Johannes Kirschnick, Philippe Thomas, Roland Roller, and Leonhard Hennig(参考訳) 近年, バイオメディカル・サイエンスが著しく増加し, 出版量も増加している。 これらの情報源から特定の情報を抽出するには、高度に洗練されたテキストマイニングと情報抽出ツールが必要である。 しかし、自由に使えるツールとカスタマイズされたワークフローの統合は、しばしば面倒で難しいです。 SIA(Scalable Interoperable Annotation Server)は,BeCalm-Technicalの相互運用およびアノテーションサーバ(BeCalm-TIPS)タスクのパフォーマンス向上への貢献であり,スケーラブルで拡張性があり,堅牢なアノテーションサービスである。 現在、このシステムは6つの名前付きエンティティタイプ(ケミカル、疾患、遺伝子、miRNA、変異、有機体)をカバーしており、Apache 2.0ライセンスでhttps://github.com/Erechtheus/siaで無料で利用できる。

Recent years showed a strong increase in biomedical sciences and an inherent increase in publication volume. Extraction of specific information from these sources requires highly sophisticated text mining and information extraction tools. However, the integration of freely available tools into customized workflows is often cumbersome and difficult. We describe SIA (Scalable Interoperable Annotation Server), our contribution to the BeCalm-Technical interoperability and performance of annotation servers (BeCalm-TIPS) task, a scalable, extensible, and robust annotation service. The system currently covers six named entity types (i.e., Chemicals, Diseases, Genes, miRNA, Mutations, and Organisms) and is freely available under Apache 2.0 license at https://github.com/Erechtheus/sia.
翻訳日:2022-12-15 09:21:38 公開日:2020-04-08
# 高エネルギー天体物理学実験データベースからの過渡事象のマイニングデータに対する計算論的アプローチ

A computational theoretical approach for mining data on transient events from databases of high energy astrophysics experiments ( http://arxiv.org/abs/2004.04131v1 )

ライセンス: Link先を確認
Francesco Lazzarotto, Marco Feroci, and Maria Teresa Pazienza(参考訳) GRBのような過渡事象に関するデータは、しばしば宇宙実験からの非構造化データの大規模なデータベースに格納され、潜在的に大量のバックグラウンドや単に望ましくない情報とマージされる。 本稿では,データマイニング (DM) や知識発見 (KDD) などの現代計算機科学の手法を,高エネルギー天体物理学実験から得られた汎用大規模データベースに適用するための計算形式モデルを提案する。 本手法は,予測情報を検索,識別,抽出することを目的としており,予期せぬ情報を発見することを目的としている。

Data on transient events, like GRBs, are often contained in large databases of unstructured data from space experiments, merged with potentially large amount of background or simply undesired information. We present a computational formal model to apply techniques of modern computer science -such as Data Mining (DM) and Knowledge Discovering in Databases (KDD)- to a generic, large database derived from a high energy astrophysics experiment. This method is aimed to search, identify and extract expected information, and maybe to discover unexpected information .
翻訳日:2022-12-15 09:21:24 公開日:2020-04-08
# コロナウイルスパンデミックにおけるTwitterメッセージの単語頻度と感情分析

Word frequency and sentiment analysis of twitter messages during Coronavirus pandemic ( http://arxiv.org/abs/2004.03925v1 )

ライセンス: Link先を確認
Nikhil Kumar Rajput, Bhavya Ahuja Grover and Vipin Kumar Rathi(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、ソーシャルメディアとしての嵐によって世界を席巻した。 病気に対する意識が高まるにつれ、メッセージ、ビデオ、投稿もその存在を認めている。 このソーシャルネットワーキングサイト、Twitterは、新型コロナウイルス関連の投稿数がごく短い期間で前例のない伸びを見せたのと同じような効果を示した。 本稿は,2020年1月以降に投稿されたこの疾患に関連するtwitterメッセージの統計解析を行う。 2種類の実証的研究が行われている。 1つは単語頻度、もう1つは個々のツイートメッセージの感情だ。 単語頻度の検査は、サイト上で使用される単語のパターンや傾向を特徴づけるのに有用である。 これはまた、この批判的な結束におけるtwitterユーザーの心理を反映している。 ユニグラム、ビッグラム、トリグラムの周波数は電力法分布によってモデル化されている。 結果は、Sum of Square Error (SSE)、R2、Root Mean Square Error (RMSE)によって検証されている。 R2の高値とSSE, RMSEの低値が, このモデルの適合性の根拠となった。 現在,Twitter利用者の一般的な態度を理解するために感性分析を行っている。 一般大衆によるツイートとWHOによるツイートはどちらもコーパスの一部だった。 その結果、ほとんどのツイートは正の極性を持ち、15%程度しか否定的でないことがわかった。

The Coronavirus pandemic has taken the world by storm as also the social media. As the awareness about the ailment increased, so did messages, videos and posts acknowledging its presence. The social networking site, Twitter, demonstrated similar effect with the number of posts related to coronavirus showing an unprecedented growth in a very short span of time. This paper presents a statistical analysis of the twitter messages related to this disease posted since January 2020. Two types of empirical studies have been performed. The first is on word frequency and the second on sentiments of the individual tweet messages. Inspection of the word frequency is useful in characterizing the patterns or trends in the words used on the site. This would also reflect on the psychology of the twitter users at this critical juncture. Unigram, bigram and trigram frequencies have been modeled by power law distribution. The results have been validated by Sum of Square Error (SSE), R2 and Root Mean Square Error (RMSE). High values of R2 and low values of SSE and RMSE lay the grounds for the goodness of fit of this model. Sentiment analysis has been conducted to understand the general attitudes of the twitter users at this time. Both tweets by general public and WHO were part of the corpus. The results showed that the majority of the tweets had a positive polarity and only about 15% were negative.
翻訳日:2022-12-15 09:20:28 公開日:2020-04-08
# インテリジェントトランスポートシステムにおけるYOLOv3オブジェクト分類の改善

Improved YOLOv3 Object Classification in Intelligent Transportation System ( http://arxiv.org/abs/2004.03948v1 )

ライセンス: Link先を確認
Yang Zhang, Changhui Hu, Xiaobo Lu(参考訳) インテリジェントトランスポーテーションシステム(ITS)における車両・運転者検出技術は近年ホットな話題となっている。 特に、ドライバー検出は依然として困難な問題であり、交通秩序を監督し、公共の安全を維持するための導電性がある。 本稿では, 道路上の車両, ドライバー, および人々の検出と分類を実現するため, 運転者と乗客を識別し, 車両と運転者の1対1対応を形成するために, ヨロフ3に基づくアルゴリズムを提案する。 提案したモデルとコントラスト実験は,自走運転者の顔データベース上で行った。 提案アルゴリズムの有効性は広範な実験により検証され,様々な複雑な高速道路条件下で検証される。 他の先進的な車両やドライバー検出技術と比較すると、このモデルは優れた性能を持ち、道路遮断、異なる姿勢、極端な照明に頑健である。

The technology of vehicle and driver detection in Intelligent Transportation System(ITS) is a hot topic in recent years. In particular, the driver detection is still a challenging problem which is conductive to supervising traffic order and maintaining public safety. In this paper, an algorithm based on YOLOv3 is proposed to realize the detection and classification of vehicles, drivers, and people on the highway, so as to achieve the purpose of distinguishing driver and passenger and form a one-to-one correspondence between vehicles and drivers. The proposed model and contrast experiment are conducted on our self-build traffic driver's face database. The effectiveness of our proposed algorithm is validated by extensive experiments and verified under various complex highway conditions. Compared with other advanced vehicle and driver detection technologies, the model has a good performance and is robust to road blocking, different attitudes, and extreme lighting.
翻訳日:2022-12-15 09:13:14 公開日:2020-04-08
# 3次元室内再構成から3次元セマンティックシーングラフを学習する

Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions ( http://arxiv.org/abs/2004.03967v1 )

ライセンス: Link先を確認
Johanna Wald, Helisa Dhamo, Nassir Navab, Federico Tombari(参考訳) シーン理解はコンピュータビジョンに大きな関心を寄せている。 シーン内のオブジェクトを識別するだけでなく、与えられたコンテキスト内での関係も含む。 この目標により、最近の一連の作業は3Dセマンティックセグメンテーションとシーンレイアウト予測に取り組む。 私たちは、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに注目し、オブジェクトはノードであり、それらの関係はエッジとしてモデル化される。 シーングラフの推論を,3次元シーン理解,オブジェクトのマッピング,それらの関連性の実行手段として活用する。 特に,シーンの点雲からシーングラフを回帰させる学習手法を提案する。 我々の新しいアーキテクチャはPointNetとGraph Convolutional Networks (GCN)に基づいている。 さらに,3次元シーンのセマンティックなリッチなシーングラフを含む半自動生成データセットである3DSSGを導入する。 本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。

Scene understanding has been of high interest in computer vision. It encompasses not only identifying objects in a scene, but also their relationships within the given context. With this goal, a recent line of works tackles 3D semantic segmentation and scene layout prediction. In our work we focus on scene graphs, a data structure that organizes the entities of a scene in a graph, where objects are nodes and their relationships modeled as edges. We leverage inference on scene graphs as a way to carry out 3D scene understanding, mapping objects and their relationships. In particular, we propose a learned method that regresses a scene graph from the point cloud of a scene. Our novel architecture is based on PointNet and Graph Convolutional Networks (GCN). In addition, we introduce 3DSSG, a semi-automatically generated dataset, that contains semantically rich scene graphs of 3D scenes. We show the application of our method in a domain-agnostic retrieval task, where graphs serve as an intermediate representation for 3D-3D and 2D-3D matching.
翻訳日:2022-12-15 09:12:59 公開日:2020-04-08
# 深度の弱いマルチパーソン絶対3次元ポーズ推定

Multi-Person Absolute 3D Human Pose Estimation with Weak Depth Supervision ( http://arxiv.org/abs/2004.03989v1 )

ライセンス: Link先を確認
Marton Veges, Andras Lorincz(参考訳) 人間の3Dポーズ推定では、大きな多様なデータセットが不足している。 これは、多人数の3dポーズ推定において特に当てはまります。 この問題を軽減するために,RGB-D画像の追加を弱教師付きでトレーニングできるネットワークを導入する。 安価なセンサが存在するため、深度マップ付きビデオが広く利用でき、我々の手法は大規模な無注釈データセットを活用できる。 我々のアルゴリズムは単眼、多人、絶対ポーズ推定器である。 アルゴリズムを複数のベンチマークで評価し,一貫した誤差率の向上を示した。 また,本モデルは,mupots-3dデータセットにおける最先端の結果をかなりのマージンで達成する。

In 3D human pose estimation one of the biggest problems is the lack of large, diverse datasets. This is especially true for multi-person 3D pose estimation, where, to our knowledge, there are only machine generated annotations available for training. To mitigate this issue, we introduce a network that can be trained with additional RGB-D images in a weakly supervised fashion. Due to the existence of cheap sensors, videos with depth maps are widely available, and our method can exploit a large, unannotated dataset. Our algorithm is a monocular, multi-person, absolute pose estimator. We evaluate the algorithm on several benchmarks, showing a consistent improvement in error rates. Also, our model achieves state-of-the-art results on the MuPoTS-3D dataset by a considerable margin.
翻訳日:2022-12-15 09:12:44 公開日:2020-04-08
# トマトにおけるツタアブソルタの効果決定のための深層学習法

A Deep Learning Approach for Determining Effects of Tuta Absoluta in Tomato Plants ( http://arxiv.org/abs/2004.04023v1 )

ライセンス: Link先を確認
Denis P.Rubanga, Loyani K. Loyani, Mgaya Richard, Sawahiko Shimada(参考訳) トマト植物におけるツタ・アブソルタ・ペストの効果の早期定量化は、害虫の深刻な被害を抑える上で非常に重要な要素である。 ツタ・アブソルタの侵略はトマト生産にとって大きな脅威であり、適切に管理されていない場合、80から100%の損失をもたらす。 そのため, トマト葉のリアルタイムおよび早期定量化は, 害虫管理の問題に対処し, 農家の意思決定を促進する上で重要な役割を担っている。 本研究では,コンボリューションニューラルネットワーク(cnn)を用いて,トマトにおけるツタアブソルタの効果を判定する手法を提案する。 4つのCNN事前学習アーキテクチャ (VGG16, VGG19, ResNet, Inception-V3) を用いて, 実地実験から収集した健康および寄生トマト葉を含むデータセットの分類器の訓練を行った。 事前学習したアーキテクチャのうち、インセプションv3はトマトにおけるツタアブソルタの重症度を推定する上で、平均87.2%の精度で最高の結果を得た。 事前訓練されたモデルは、他の重度状態(Low tuta と No tuta)と比較して、容易にHigh Tuta Severityステータスを特定できる。

Early quantification of Tuta absoluta pest's effects in tomato plants is a very important factor in controlling and preventing serious damages of the pest. The invasion of Tuta absoluta is considered a major threat to tomato production causing heavy loss ranging from 80 to 100 percent when not properly managed. Therefore, real-time and early quantification of tomato leaf miner Tuta absoluta, can play an important role in addressing the issue of pest management and enhance farmers' decisions. In this study, we propose a Convolutional Neural Network (CNN) approach in determining the effects of Tuta absoluta in tomato plants. Four CNN pre-trained architectures (VGG16, VGG19, ResNet and Inception-V3) were used in training classifiers on a dataset containing health and infested tomato leaves collected from real field experiments. Among the pre-trained architectures, experimental results showed that Inception-V3 yielded the best results with an average accuracy of 87.2 percent in estimating the severity status of Tuta absoluta in tomato plants. The pre-trained models could also easily identify High Tuta severity status compared to other severity status (Low tuta and No tuta)
翻訳日:2022-12-15 09:12:32 公開日:2020-04-08
# 光度整合性を超えて:視覚オドメトリーとステレオマッチングを改善するグラディエントに基づく相違性

Beyond Photometric Consistency: Gradient-based Dissimilarity for Improving Visual Odometry and Stereo Matching ( http://arxiv.org/abs/2004.04090v1 )

ライセンス: Link先を確認
Jan Quenzel, Radu Alexandru Rosu, Thomas L\"abe, Cyrill Stachniss, and Sven Behnke(参考訳) ポーズ推定と地図作成は自律ロボットの中心的な要素であり、センサーデータの登録に依存している。 本稿では,光度誤差の考え方に基づく画像の登録のための新しい指標について検討する。 グラデーションに基づくメトリクスと,マグニチュード依存のスケーリング用語を組み合わせたアプローチである。 ステレオ推定と視覚オドメトリシステムの両方を統合し,提案手法を用いた場合の典型的不一致や直接画像登録タスクに対する明確な利点を示す。 実験評価の結果,測定値がよりロバストで正確なシーン深度の推定とカメラの軌跡を推定できることがわかった。 これにより、カメラのポーズ推定を改善し、移動ロボットのマッピング能力を向上する。 本報告では, 既存の視力計測システムと視力計測システムにより, 得られた知見の恩恵を受けることができると考えている。

Pose estimation and map building are central ingredients of autonomous robots and typically rely on the registration of sensor data. In this paper, we investigate a new metric for registering images that builds upon on the idea of the photometric error. Our approach combines a gradient orientation-based metric with a magnitude-dependent scaling term. We integrate both into stereo estimation as well as visual odometry systems and show clear benefits for typical disparity and direct image registration tasks when using our proposed metric. Our experimental evaluation indicats that our metric leads to more robust and more accurate estimates of the scene depth as well as camera trajectory. Thus, the metric improves camera pose estimation and in turn the mapping capabilities of mobile robots. We believe that a series of existing visual odometry and visual SLAM systems can benefit from the findings reported in this paper.
翻訳日:2022-12-15 09:11:47 公開日:2020-04-08
# 弱教師付きセマンティックポイントクラウドセグメンテーション:10倍少ないラベルへ

Weakly Supervised Semantic Point Cloud Segmentation:Towards 10X Fewer Labels ( http://arxiv.org/abs/2004.04091v1 )

ライセンス: Link先を確認
Xun Xu, Gim Hee Lee(参考訳) ポイントクラウド分析は近年注目を集めており、セグメンテーションは最も重要なタスクの1つである。 既存のアプローチの成功は、ディープネットワーク設計と大量のラベル付きトレーニングデータによるものであり、後者が常に利用できると仮定されている。 しかし、実際に3dポイントのクラウドセグメンテーションラベルを取得することは、しばしば非常にコストがかかる。 そこで本研究では,トレーニング段階でラベル付けされるポイントのごく一部しか必要としない,弱教師付きポイントクラウドセグメンテーション手法を提案する。 これは、追加空間および色の滑らかさ制約の勾配近似と利用を学習することで可能となる。 実験は3つの公開データセットで行われ、監督の度合いが異なる。 特に,提案手法は10$\times$未満のラベルと完全に教師付きである結果よりも,時として近い結果を生成することができる。

Point cloud analysis has received much attention recently; and segmentation is one of the most important tasks. The success of existing approaches is attributed to deep network design and large amount of labelled training data, where the latter is assumed to be always available. However, obtaining 3d point cloud segmentation labels is often very costly in practice. In this work, we propose a weakly supervised point cloud segmentation approach which requires only a tiny fraction of points to be labelled in the training stage. This is made possible by learning gradient approximation and exploitation of additional spatial and color smoothness constraints. Experiments are done on three public datasets with different degrees of weak supervision. In particular, our proposed method can produce results that are close to and sometimes even better than its fully supervised counterpart with 10$\times$ fewer labels.
翻訳日:2022-12-15 09:11:34 公開日:2020-04-08
# LBPとWLDを用いた皮膚疾患検出 : 組立アプローチ

Skin Diseases Detection using LBP and WLD- An Ensembling Approach ( http://arxiv.org/abs/2004.04122v1 )

ライセンス: Link先を確認
Arnab Banerjee, Nibaran Das, Mita Nasipuri(参考訳) 世界のすべての発展途上国で、皮膚疾患はすべての年齢層の人々にとって非常に頻繁に健康上の問題となっている。 皮膚の問題はメンタルヘルスに影響を与え、アルコールや薬物依存症になり、時には社会的孤立を引き起こす。 そこで本研究では,皮膚病変の画像から,レプロシー,ティエナ・ヴァーシカラー,ビチリゴの3種類の皮膚疾患を自動検出する手法を提案する。 提案手法は, 皮膚領域のテクスチャパターンを表現するために, ウェバー局所記述子と局所二分パターンを含む。 このアンサンブル技術は多段支持ベクトルマシン分類器を用いて91.38%の精度を達成し、重心に基づく異なる領域から特徴を抽出した。 また、MobileNet、ResNet_152、GoogLeNet、DenseNet_121、ResNet_101といった人気のあるディープラーニングネットワークを適用しました。 ResNet_101の精度は89%です。 アンサンブルアプローチは、使用済みのディープラーニングネットワークよりも明らかに優れています。 このイメージングツールは皮膚疾患の早期スクリーニングに有用である。

In all developing and developed countries in the world, skin diseases are becoming a very frequent health problem for the humans of all age groups. Skin problems affect mental health, develop addiction to alcohol and drugs and sometimes causes social isolation. Considering the importance, we propose an automatic technique to detect three popular skin diseases- Leprosy, Tinea versicolor and Vitiligofrom the images of skin lesions. The proposed technique involves Weber local descriptor and Local binary pattern to represent texture pattern of the affected skin regions. This ensemble technique achieved 91.38% accuracy using multi-level support vector machine classifier, where features are extracted from different regions that are based on center of gravity. We have also applied some popular deep learn-ing networks such as MobileNet, ResNet_152, GoogLeNet,DenseNet_121, and ResNet_101. We get 89% accuracy using ResNet_101. The ensemble approach clearly outperform all of the used deep learning networks. This imaging tool will be useful for early skin disease screening.
翻訳日:2022-12-15 09:11:18 公開日:2020-04-08
# 前後のエッジを切断する:イベントの一時的な順序付けのためのニューラルネットワーク

Severing the Edge Between Before and After: Neural Architectures for Temporal Ordering of Events ( http://arxiv.org/abs/2004.04295v1 )

ライセンス: Link先を確認
Miguel Ballesteros, Rishita Anubhai, Shuai Wang, Nima Pourdamghani, Yogarshi Vyas, Jie Ma, Parminder Bhatia, Kathleen McKeown, and Yaser Al-Onaizan(参考訳) 本稿では,時間的関係を予測してイベントを順序付けするためのニューラルネットワークと一連のトレーニング手法を提案する。 提案モデルでは,テキストスパン内の事象を入力として受信し,その間の時間的関係(前,後,等)を識別する。 このタスクにおける重要な課題は、注釈付きデータの不足である。私たちのモデルは、事前訓練された表現(RoBERTa、BERT、ELMo)、転送とマルチタスク学習(補完的なデータセットを活用することで)、自己学習技術のいずれかに依存している。 英語文書のMATRESデータセットの実験は、このタスクに新たな最先端技術を確立する。

In this paper, we propose a neural architecture and a set of training methods for ordering events by predicting temporal relations. Our proposed models receive a pair of events within a span of text as input and they identify temporal relations (Before, After, Equal, Vague) between them. Given that a key challenge with this task is the scarcity of annotated data, our models rely on either pretrained representations (i.e. RoBERTa, BERT or ELMo), transfer and multi-task learning (by leveraging complementary datasets), and self-training techniques. Experiments on the MATRES dataset of English documents establish a new state-of-the-art on this task.
翻訳日:2022-12-15 09:04:59 公開日:2020-04-08
# 学習者からの学習: 強化学習エージェントをカードゲームに適応させる

Learning from Learners: Adapting Reinforcement Learning Agents to be Competitive in a Card Game ( http://arxiv.org/abs/2004.04000v1 )

ライセンス: Link先を確認
Pablo Barros, Ana Tanevska, Alessandra Sciutti(参考訳) 複雑でダイナミックな環境への適応方法を学ぶことは、私たちの知性に貢献する最も重要な要素の1つです。 この能力で人工エージェントを生産することは、特に競争シナリオにおいて単純な作業ではない。 本稿では,強化学習アルゴリズムを学習に応用し,競争型マルチプレイヤーカードゲームの実世界実装に活用し,実装する方法について,幅広い研究を行う。 本研究は,学習者に対して,エージェントが競争的であることの学習方法を評価し,各エージェントが互いの演奏スタイルにどう適応するかを説明するために,特定のトレーニングと検証ルーチンを提案する。 最後に,各エージェントの動作が学習スタイルからどのように導出され,今後の研究のベースラインとなるかを見極める。

Learning how to adapt to complex and dynamic environments is one of the most important factors that contribute to our intelligence. Endowing artificial agents with this ability is not a simple task, particularly in competitive scenarios. In this paper, we present a broad study on how popular reinforcement learning algorithms can be adapted and implemented to learn and to play a real-world implementation of a competitive multiplayer card game. We propose specific training and validation routines for the learning agents, in order to evaluate how the agents learn to be competitive and explain how they adapt to each others' playing style. Finally, we pinpoint how the behavior of each agent derives from their learning style and create a baseline for future research on this scenario.
翻訳日:2022-12-15 09:04:24 公開日:2020-04-08
# 結合振動子の高次同期を用いた貯留層計算

Reservoir Computing using High Order Synchronization of Coupled Oscillators ( http://arxiv.org/abs/2004.04114v1 )

ライセンス: Link先を確認
A. A. Velichko, D. V. Ryabokon, S. D. Khanin, A. V. Sidorenko, A. G. Rikkiev(参考訳) 高次同期効果を用いた発振器の貯水池計算の概念を提案する。 リザーバ出力は、パーセンテージとして表される分数高次同期値と同期効率という振動子同期メトリックの形で表される。 VO2スイッチ上に構成した2つの共振共振器を用いて,XOR動作をシミュレート可能な発振器貯振器を開発した。 貯水池は静的な入力データ(電力電流、結合力)と同様に、スパイクシーケンスの形で動的データを動作させることができる。 少数の振動子と重要な非線形性を持つため、貯水池は幅広い動的状態を表現する。 提案する計算概念は多様な自然の発振器に実装できる。

We propose a concept for reservoir computing on oscillators using the high-order synchronization effect. The reservoir output is presented in the form of oscillator synchronization metrics: fractional high-order synchronization value and synchronization efficiency, expressed as a percentage. Using two coupled relaxation oscillators built on VO2 switches, we created an oscillator reservoir that allows simulating the XOR operation. The reservoir can operate as with static input data (power currents, coupling forces), as with dynamic data in the form of spike sequences. Having a small number of oscillators and significant non-linearity, the reservoir expresses a wide range of dynamic states. The proposed computing concept can be implemented on oscillators of diverse nature.
翻訳日:2022-12-15 09:04:11 公開日:2020-04-08
# MirrorNet:人間の画像から2次元空間を反射的に推定するディープベイズ的アプローチ

MirrorNet: A Deep Bayesian Approach to Reflective 2D Pose Estimation from Human Images ( http://arxiv.org/abs/2004.03811v1 )

ライセンス: Link先を確認
Takayuki Nakatsuka, Kazuyoshi Yoshii, Yuki Koyama, Satoru Fukayama, Masataka Goto, and Shigeo Morishima(参考訳) 本稿では,人間の画像から2次元ポーズ推定を行う統計的手法を提案する。 深層認識(画像から目的)モデルに基づく標準的な教師付きアプローチの主な問題は、しばしば解剖学的に不可解なポーズを生じさせ、そのパフォーマンスがペアデータの量によって制限されることである。 これらの問題を解決するために,アノテーションを付加せずに画像の有効利用が可能な半教師付き手法を提案する。 具体的には,ポーズ特徴の深層生成モデルとポーズと画像特徴のイメージとの融合により,ポーズと画像の階層的生成モデルを作成する。 次に,画像からポーズを推定する深い認識モデルを提案する。 観察されたデータとして画像が与えられた場合、これらのモデルは階層的変動オートエンコーディング(像から像への像)の方法で共同で訓練することができる。 実験の結果,提案する反射型アーキテクチャによって推定されたポーズは解剖学的に推定可能となり,認識モデルと生成モデルの統合によりポーズ推定の性能が向上した。

This paper proposes a statistical approach to 2D pose estimation from human images. The main problems with the standard supervised approach, which is based on a deep recognition (image-to-pose) model, are that it often yields anatomically implausible poses, and its performance is limited by the amount of paired data. To solve these problems, we propose a semi-supervised method that can make effective use of images with and without pose annotations. Specifically, we formulate a hierarchical generative model of poses and images by integrating a deep generative model of poses from pose features with that of images from poses and image features. We then introduce a deep recognition model that infers poses from images. Given images as observed data, these models can be trained jointly in a hierarchical variational autoencoding (image-to-pose-to-feature-to-pose-to-image) manner. The results of experiments show that the proposed reflective architecture makes estimated poses anatomically plausible, and the performance of pose estimation improved by integrating the recognition and generative models and also by feeding non-annotated images.
翻訳日:2022-12-15 09:03:42 公開日:2020-04-08
# 条件付き画像生成のための注意正規化

Attentive Normalization for Conditional Image Generation ( http://arxiv.org/abs/2004.03828v1 )

ライセンス: Link先を確認
Yi Wang, Ying-Cong Chen, Xiangyu Zhang, Jian Sun, Jiaya Jia(参考訳) 従来の畳み込みに基づく生成逆数ネットワークは、マルコフ連鎖によって暗黙的に長距離依存性関係がモデル化される階層的局所演算に基づいて画像を生成する。 複雑な構造を持つカテゴリに対してはまだ不十分である。 本稿では,従来のインスタンス正規化の拡張である注意正規化 (an) による長距離依存を特徴付ける。 具体的には、入力特徴マップを、その内部意味的類似性に基づいて、それぞれ正規化された複数の領域にソフト分割する。 意味的対応を伴う遠方の領域間の整合性を高める。 自己アテンションganと比較すると、我々の注意正規化は全ての位置の相関を測定する必要はないので、計算の負担なしに大きな特徴マップに直接適用することができる。 提案するモジュールの有効性を検証するために,クラス条件画像生成とセマンティックインペインティングに関する広範な実験を行った。

Traditional convolution-based generative adversarial networks synthesize images based on hierarchical local operations, where long-range dependency relation is implicitly modeled with a Markov chain. It is still not sufficient for categories with complicated structures. In this paper, we characterize long-range dependence with attentive normalization (AN), which is an extension to traditional instance normalization. Specifically, the input feature map is softly divided into several regions based on its internal semantic similarity, which are respectively normalized. It enhances consistency between distant regions with semantic correspondence. Compared with self-attention GAN, our attentive normalization does not need to measure the correlation of all locations, and thus can be directly applied to large-size feature maps without much computational burden. Extensive experiments on class-conditional image generation and semantic inpainting verify the efficacy of our proposed module.
翻訳日:2022-12-15 09:03:23 公開日:2020-04-08
# 深い均質特徴融合による異種光・sarリモートセンシング画像の変化検出

Change Detection in Heterogeneous Optical and SAR Remote Sensing Images via Deep Homogeneous Feature Fusion ( http://arxiv.org/abs/2004.03830v1 )

ライセンス: Link先を確認
Xiao Jiang, Gang Li, Yu Liu, Xiao-Ping Zhang, You He(参考訳) 異種リモートセンシング画像の変化検出は, 災害被害評価に不可欠である。 最近の手法では、不均一な光学およびsarリモートセンシング画像を同じ特徴空間に変換し、変化検出を実現する均質変換を用いる。 このような変換は主に低レベルの特徴空間で動作し、セマンティックな内容が損なわれ、変更検出の性能が低下する可能性がある。 そこで本研究では,画像スタイル変換(IST)に基づくDHFF(Deep homogeneous Feature fusion)と呼ばれる新しい同種変換モデルを提案する。 既存の方法とは異なり、dhff法は、異種画像における意味的内容とスタイル特徴を分離し、均質な変換を行う。 同質な変換における意味内容とスタイルの分離は、特に変化の領域において、画像の意味内容の腐敗を防ぐ。 これにより、高精度な均質変換により検出性能が向上する。 さらに,各ISTイテレーションにおけるコスト関数を計測し,変更検出のための新たな特徴部分空間における特徴の均一性を最大化する反復的IST(IIST)戦略を提案する。 その後、同一特徴空間にある原画像および変換画像に対して、変更検出を精度良く行う。 SARと光学衛星が取得した実リモートセンシング画像を用いて,提案手法の性能評価を行った。 実験により,DHFF法は不均一な光学・SARリモートセンシング画像において,精度とKappa指数の両面で,変化検出の大幅な改善を実現することが示された。

Change detection in heterogeneous remote sensing images is crucial for disaster damage assessment. Recent methods use homogenous transformation, which transforms the heterogeneous optical and SAR remote sensing images into the same feature space, to achieve change detection. Such transformations mainly operate on the low-level feature space and may corrupt the semantic content, deteriorating the performance of change detection. To solve this problem, this paper presents a new homogeneous transformation model termed deep homogeneous feature fusion (DHFF) based on image style transfer (IST). Unlike the existing methods, the DHFF method segregates the semantic content and the style features in the heterogeneous images to perform homogeneous transformation. The separation of the semantic content and the style in homogeneous transformation prevents the corruption of image semantic content, especially in the regions of change. In this way, the detection performance is improved with accurate homogeneous transformation. Furthermore, we present a new iterative IST (IIST) strategy, where the cost function in each IST iteration measures and thus maximizes the feature homogeneity in additional new feature subspaces for change detection. After that, change detection is accomplished accurately on the original and the transformed images that are in the same feature space. Real remote sensing images acquired by SAR and optical satellites are utilized to evaluate the performance of the proposed method. The experiments demonstrate that the proposed DHFF method achieves significant improvement for change detection in heterogeneous optical and SAR remote sensing images, in terms of both accuracy rate and Kappa index.
翻訳日:2022-12-15 09:03:10 公開日:2020-04-08
# 衛星画像スーパーレゾリューションのためのアクターに関するモンテカルロ・シームズ政策

Monte-Carlo Siamese Policy on Actor for Satellite Image Super Resolution ( http://arxiv.org/abs/2004.03879v1 )

ライセンス: Link先を確認
Litu Rout, Saumyaa Shah, S Manthira Moorthi, Debajyoti Dhar(参考訳) 過去数年間、教師と敵対的な学習は様々な複雑なコンピュータビジョンタスクで広く採用されてきた。 強化学習(Reinforcement Learning, RL)として知られる人工知能の別の分野が、このような複雑な視覚タスクに役立てられるかどうか疑問に思うのは当然である。 本研究では,リモートセンシング画像の超解像におけるRLの有用性について検討する。 超解像の最近の進歩により,教師付き・強化学習の利点を活用した理論的枠組みを提案する。 RLの簡単な実装は、アクション変数が完全には分かっていないため、不適切な超解法に対処するには不十分である。 この問題に取り組むために,アクション変数を行列でパラメータ化し,モンテカルロサンプリングを用いてポリシーネットワークを訓練する。 モデル自由環境におけるパラメトリックな行動空間の意味を理論的および経験的観点から検討する。 さらに,リモートセンシングと非リモートセンシングデータセットの定量的・定性的な結果を分析した。 本実験では,教師付きモデルを強化学習フレームワークにカプセル化することにより,最先端の手法に対する大幅な改善を報告した。

In the past few years supervised and adversarial learning have been widely adopted in various complex computer vision tasks. It seems natural to wonder whether another branch of artificial intelligence, commonly known as Reinforcement Learning (RL) can benefit such complex vision tasks. In this study, we explore the plausible usage of RL in super resolution of remote sensing imagery. Guided by recent advances in super resolution, we propose a theoretical framework that leverages the benefits of supervised and reinforcement learning. We argue that a straightforward implementation of RL is not adequate to address ill-posed super resolution as the action variables are not fully known. To tackle this issue, we propose to parameterize action variables by matrices, and train our policy network using Monte-Carlo sampling. We study the implications of parametric action space in a model-free environment from theoretical and empirical perspective. Furthermore, we analyze the quantitative and qualitative results on both remote sensing and non-remote sensing datasets. Based on our experiments, we report considerable improvement over state-of-the-art methods by encapsulating supervised models in a reinforcement learning framework.
翻訳日:2022-12-15 09:02:42 公開日:2020-04-08
# CT画像分割におけるCNN : 地中真実画像の抽出におけるByound Loss関数

CNN in CT Image Segmentation: Beyound Loss Function for Expoliting Ground Truth Images ( http://arxiv.org/abs/2004.03882v1 )

ライセンス: Link先を確認
Youyi Song, Zhen Yu, Teng Zhou, Jeremy Yuen-Chun Teoh, Baiying Lei, Kup-Sze Choi, Jing Qin(参考訳) 地上の真理(GT)画像からより多くの情報を公開することは、CT画像セグメンテーションにおけるCNNのパフォーマンスをさらに改善するための新たな研究方向である。 従来の手法は、そのような目的を達成するための損失関数の考案に重点を置いていた。 しかし、汎用的で最適化しやすい損失関数を考案することは比較的困難である。 本稿では,損失関数を超えてGT画像を利用する新しい,実用的な手法を提案する。 我々の洞察では、GTとCTでそれぞれ訓練された2つのCNNの特徴マップは、同じ目的のために同じオブジェクトを記述するために使用されるため、いくつかの距離空間で類似しているはずだ。 したがって、これらの2つのCNNの特徴マップを一貫性のあるものにすることで、GT画像を利用する。 提案手法を2つのデータセットで評価し,その性能をいくつかの競合手法と比較した。 広範な実験結果から,提案手法の有効性が示され,比較手法を上回った。

Exploiting more information from ground truth (GT) images now is a new research direction for further improving CNN's performance in CT image segmentation. Previous methods focus on devising the loss function for fulfilling such a purpose. However, it is rather difficult to devise a general and optimization-friendly loss function. We here present a novel and practical method that exploits GT images beyond the loss function. Our insight is that feature maps of two CNNs trained respectively on GT and CT images should be similar on some metric space, because they both are used to describe the same objects for the same purpose. We hence exploit GT images by enforcing such two CNNs' feature maps to be consistent. We assess the proposed method on two data sets, and compare its performance to several competitive methods. Extensive experimental results show that the proposed method is effective, outperforming all the compared methods.
翻訳日:2022-12-15 09:02:26 公開日:2020-04-08
# 頻度, 受容性, 選択性: 節エンベディングの事例研究

Frequency, Acceptability, and Selection: A case study of clause-embedding ( http://arxiv.org/abs/2004.04106v1 )

ライセンス: Link先を確認
Aaron Steven White, Kyle Rawlins(参考訳) 本研究は,特定の分類フレームにおける動詞の出現頻度と,それらのフレームにおける動詞の受容性との関係について検討し,特に「思考」,「意思」,「語り」といった従属節取得動詞に着目した。 動詞のサブカテゴリ化フレームの周波数分布は、それらのフレームにおけるアクセシビリティの予測に乏しいことを示し、さらに、サブカテゴリ化フレームにおける動詞のアクセシビリティの獲得をモデル化するために使用される共通行列分解手法は、少なくともレキシコン全体のアクセシビリティに関する情報全体の1/3以下であることを示す。 すべてのデータとコードはhttp://megaattitude.io.comで入手できる。

We investigate the relationship between the frequency with which verbs are found in particular subcategorization frames and the acceptability of those verbs in those frames, focusing in particular on subordinate clause-taking verbs, such as "think", "want", and "tell". We show that verbs' subcategorization frame frequency distributions are poor predictors of their acceptability in those frames---explaining, at best, less than 1/3 of the total information about acceptability across the lexicon---and, further, that common matrix factorization techniques used to model the acquisition of verbs' acceptability in subcategorization frames fare only marginally better. All data and code are available at http://megaattitude.io.
翻訳日:2022-12-15 08:54:31 公開日:2020-04-08
# 要約の事実的一貫性を評価するための質問と回答

Asking and Answering Questions to Evaluate the Factual Consistency of Summaries ( http://arxiv.org/abs/2004.04228v1 )

ライセンス: Link先を確認
Alex Wang, Kyunghyun Cho, and Mike Lewis(参考訳) 抽象的な要約モデルの実践的応用は、その入力に関する頻繁な事実的矛盾によって制限される。 要約のための既存の自動評価メトリクスは、そのエラーにほとんど影響を受けない。 生成した要約における事実の不整合を識別するQAGS(kags)と呼ばれる自動評価プロトコルを提案する。 QAGSは、要約とそのソースについて質問すると、要約が実際にソースと一致している場合、同様の回答が得られます。 QAGSを評価するために,CNN/DailyMail(Hermann et al., 2015)とXSUM(Narayan et al., 2018)の要約データセットに対して,モデル生成要約の事実整合性の人間の判断を収集した。 QAGSはこれらの判断と他の自動評価指標よりもかなり高い相関関係を持つ。 また、QAGSは自然な解釈可能性を提供する: QAGSが計算中に生成した回答と質問は、要約のどのトークンが矛盾しており、なぜなのかを示す。 QAGSは、使いやすく、現実的に一貫性のあるテキストを自動的に生成するための有望なツールであると考えています。

Practical applications of abstractive summarization models are limited by frequent factual inconsistencies with respect to their input. Existing automatic evaluation metrics for summarization are largely insensitive to such errors. We propose an automatic evaluation protocol called QAGS (pronounced "kags") that is designed to identify factual inconsistencies in a generated summary. QAGS is based on the intuition that if we ask questions about a summary and its source, we will receive similar answers if the summary is factually consistent with the source. To evaluate QAGS, we collect human judgments of factual consistency on model-generated summaries for the CNN/DailyMail (Hermann et al., 2015) and XSUM (Narayan et al., 2018) summarization datasets. QAGS has substantially higher correlations with these judgments than other automatic evaluation metrics. Also, QAGS offers a natural form of interpretability: The answers and questions generated while computing QAGS indicate which tokens of a summary are inconsistent and why. We believe QAGS is a promising tool in automatically generating usable and factually consistent text.
翻訳日:2022-12-15 08:54:00 公開日:2020-04-08
# アダプティブストレステストの定式化

The Adaptive Stress Testing Formulation ( http://arxiv.org/abs/2004.04293v1 )

ライセンス: Link先を確認
Mark Koren, Anthony Corso, and Mykel J. Kochenderfer(参考訳) 検証は安全な自律性を求める上で重要な課題である。 シミュレーションはしばしば、堅牢なバリデーションを提供するには単純すぎるか、難解に計算するには複雑すぎる。 そのため,安全性を損なうことなく障害を気軽に発見するためには,近似的な検証手法が必要となる。 本稿では、適応ストレステスト(AST)というブラックボックス手法の背景にある理論について述べる。 また、ASTを扱うために定式化されたバリデーション問題の3つの例を示す。

Validation is a key challenge in the search for safe autonomy. Simulations are often either too simple to provide robust validation, or too complex to tractably compute. Therefore, approximate validation methods are needed to tractably find failures without unsafe simplifications. This paper presents the theory behind one such black-box approach: adaptive stress testing (AST). We also provide three examples of validation problems formulated to work with AST.
翻訳日:2022-12-15 08:46:12 公開日:2020-04-08
# CALM: 言語モデリングのための継続的適応学習

CALM: Continuous Adaptive Learning for Language Modeling ( http://arxiv.org/abs/2004.03794v1 )

ライセンス: Link先を確認
Kristjan Arumae and Parminder Bhatia(参考訳) 自然言語処理コミュニティでは,大規模言語表現モデルのトレーニングが標準となっている。 これにより、特定のタスクを微調整することができるが、これらの大きな高容量モデルはドメイン固有の未ラベルデータでトレーニングを続け、教師付きタスクに対してさらに堅牢な初期化を実現することができる。 本研究では,これらの事前学習モデルが,GLUEなどの一般領域のタスクにおいて,破滅的忘れという形で性能劣化を示すことを示す。 本研究では,言語モデリングのための穏やかで連続的な適応学習を提案する。 これらの手法により,生物領域および臨床領域における連続学習環境を用いて,タスク特定モデルによって導入された教師付きタスク間のパフォーマンスギャップを低減できる。

Training large language representation models has become a standard in the natural language processing community. This allows for fine tuning on any number of specific tasks, however, these large high capacity models can continue to train on domain specific unlabeled data to make initialization even more robust for supervised tasks. We demonstrate that in practice these pre-trained models present performance deterioration in the form of catastrophic forgetting when evaluated on tasks from a general domain such as GLUE. In this work we propose CALM, Continuous Adaptive Learning for Language Modeling: techniques to render models which retain knowledge across multiple domains. With these methods, we are able to reduce the performance gap across supervised tasks introduced by task specific models which we demonstrate using a continual learning setting in biomedical and clinical domains.
翻訳日:2022-12-15 08:45:52 公開日:2020-04-08
# ShanghaiTech at MRP 2019: Sequence-to-Graph Transduction with Second-order Edge Inference for Cross-Framework Meaning Representation Parsing

ShanghaiTech at MRP 2019: Sequence-to-Graph Transduction with Second-Order Edge Inference for Cross-Framework Meaning Representation Parsing ( http://arxiv.org/abs/2004.03849v1 )

ライセンス: Link先を確認
Xinyu Wang, Yixian Liu, Zixia Jia, Chengyue Jiang, Kewei Tu(参考訳) 本稿では, \textit{conll 2019 shared task: cross-framework meaning representation parsing} に提案するシステムについて述べる。 本システムは,ノードを生成する拡張ポインタ生成ネットワークと,エッジ予測を行う2次平均場変動推論モジュールを組み合わせたグラフベースパーサである。 本システムでは,フレーム内におけるDMフレームワークとPSDフレームワークでそれぞれ,nth{1} と \nth{2} を達成し,フレーム間におけるDMフレームワークでは \nth{3} を達成した。

This paper presents the system used in our submission to the \textit{CoNLL 2019 shared task: Cross-Framework Meaning Representation Parsing}. Our system is a graph-based parser which combines an extended pointer-generator network that generates nodes and a second-order mean field variational inference module that predicts edges. Our system achieved \nth{1} and \nth{2} place for the DM and PSD frameworks respectively on the in-framework ranks and achieved \nth{3} place for the DM framework on the cross-framework ranks.
翻訳日:2022-12-15 08:45:30 公開日:2020-04-08
# パーソナライズドレコメンデーションのためのフェデレーション多視点行列因子化

Federated Multi-view Matrix Factorization for Personalized Recommendations ( http://arxiv.org/abs/2004.04256v1 )

ライセンス: Link先を確認
Adrian Flanagan, Were Oyomno, Alexander Grigorievskiy, Kuan Eeik Tan, Suleiman A. Khan, and Muhammad Ammad-Ud-Din(参考訳) 本稿では,フェデレーション学習フレームワークを複数のデータソースを用いた行列分解に拡張したフェデレーション多視点行列分解法を提案する。 本手法は,ユーザの個人情報を中央サーバに転送することなく,マルチビューモデルを学ぶことができる。 認識している限り、これはマルチビュー行列分解を用いた推奨を提供する最初のフェデレーションモデルである。 モデルは運用環境で3つのデータセットで厳格に評価される。 実験的な検証により,フェデレートされたマルチビュー行列の分解は,データのマルチビュー構造を考慮していない単純な手法よりも優れており,また,コールドスタートしたフェデレーションの予測タスクに対する提案手法の有用性を示す。

We introduce the federated multi-view matrix factorization method that extends the federated learning framework to matrix factorization with multiple data sources. Our method is able to learn the multi-view model without transferring the user's personal data to a central server. As far as we are aware this is the first federated model to provide recommendations using multi-view matrix factorization. The model is rigorously evaluated on three datasets on production settings. Empirical validation confirms that federated multi-view matrix factorization outperforms simpler methods that do not take into account the multi-view structure of the data, in addition, it demonstrates the usefulness of the proposed method for the challenging prediction tasks of cold-start federated recommendations.
翻訳日:2022-12-15 08:38:10 公開日:2020-04-08
# ディープラーニングとオープンセットマルウェア分類:調査

Deep Learning and Open Set Malware Classification: A Survey ( http://arxiv.org/abs/2004.04272v1 )

ライセンス: Link先を確認
Jingyun Jia(参考訳) 近年、インターネットは急速に成長しており、悪質なソフトウェアはマルウェアと呼ばれ、インターネット利用者にとって大きな脅威の1つとなっている。 マルウェアの劇的な増加は、最先端の機械学習技術を使用してマルウェアを既知の家族に分類するだけでなく、機械学習におけるオープンセット認識(OSR)問題に関連する未知のものを認識する研究領域につながった。 最近の機械学習の研究は、さまざまなシナリオからオープンセット認識(OSR)に光を当てている。 未知のトレーニングサンプルが不足している状況では、osrシステムは既知のクラスを正しく分類するだけでなく、未知のクラスを認識すべきである。 本調査では,さまざまなディープラーニング技術の概要,OSRとグラフ表現ソリューションの議論,マルウェア分類システムの導入について概説する。

As the Internet is growing rapidly these years, the variant of malicious software, which often referred to as malware, has become one of the major and serious threats to Internet users. The dramatic increase of malware has led to a research area of not only using cutting edge machine learning techniques classify malware into their known families, moreover, recognize the unknown ones, which can be related to Open Set Recognition (OSR) problem in machine learning. Recent machine learning works have shed light on Open Set Recognition (OSR) from different scenarios. Under the situation of missing unknown training samples, the OSR system should not only correctly classify the known classes, but also recognize the unknown class. This survey provides an overview of different deep learning techniques, a discussion of OSR and graph representation solutions and an introduction of malware classification systems.
翻訳日:2022-12-15 08:37:56 公開日:2020-04-08
# マルコフ雑音による確率近似:強化学習における解析と応用

Stochastic Approximation with Markov Noise: Analysis and applications in reinforcement learning ( http://arxiv.org/abs/2012.00805v1 )

ライセンス: Link先を確認
Prasenjit Karmakar(参考訳) マルコフ雑音によって駆動される2つの時間スケール確率近似の漸近収束解析を初めて行った。 特に、より高速で遅い再帰は、マルティンゲール差分ノイズに加えて、非加法的に制御されたマルコフノイズ成分を持つ。 我々は,制御されたマルコフ過程に関連するエルゴード的職業措置の観点で定義される両時間尺度における差動包含物を制限することにより,枠組みの漸近的挙動を解析した。 結果の特殊な場合を用いて,線形関数近似を用いた時間差学習における非政治収束問題の解法を提案する。 確率近似アルゴリズムの力学のいくつかの側面をマルコフに依存した雑音でコンパイルする。 ロックイン確率(すなわち制限o.d.の特定のアトラクタへの収束確率)を十分に多くのイテレーション(例えば、n_0)フレームワークの後にイテレートがそのアトラクション領域内にあることを考慮し、同じことを達成する。 これらの結果を用いて,反復条件が「漸近的タイトネス」条件を満たす場合,反復条件が指定されたアトラクタにほぼ確実に収束することを証明する。 これは、一般的な「適応的」アルゴリズムの追跡能力を分析するのに有用であることが示されている。 最後に,basuらによって提案された政策評価アルゴリズムの関数近似に関する最初の情報的誤差境界を求める。 これは、状態空間が大きい場合、常にすべての境界に存在する前の境界における差分項の欠如によって起こることを示している。

We present for the first time an asymptotic convergence analysis of two time-scale stochastic approximation driven by "controlled" Markov noise. In particular, the faster and slower recursions have non-additive controlled Markov noise components in addition to martingale difference noise. We analyze the asymptotic behavior of our framework by relating it to limiting differential inclusions in both time scales that are defined in terms of the ergodic occupation measures associated with the controlled Markov processes. Using a special case of our results, we present a solution to the off-policy convergence problem for temporal-difference learning with linear function approximation. We compile several aspects of the dynamics of stochastic approximation algorithms with Markov iterate-dependent noise when the iterates are not known to be stable beforehand. We achieve the same by extending the lock-in probability (i.e. the probability of convergence to a specific attractor of the limiting o.d.e. given that the iterates are in its domain of attraction after a sufficiently large number of iterations (say) n_0) framework to such recursions. We use these results to prove almost sure convergence of the iterates to the specified attractor when the iterates satisfy an "asymptotic tightness" condition. This, in turn, is shown to be useful in analyzing the tracking ability of general "adaptive" algorithms. Finally, we obtain the first informative error bounds on function approximation for the policy evaluation algorithm proposed by Basu et al. when the aim is to find the risk-sensitive cost represented using exponential utility. We show that this happens due to the absence of difference term in the earlier bound which is always present in all our bounds when the state space is large.
翻訳日:2022-12-15 08:36:56 公開日:2020-04-08
# adversary:グラデーションベースでデバイスに依存しないジェスチャ認識を支援する

Adversary Helps: Gradient-based Device-Free Domain-Independent Gesture Recognition ( http://arxiv.org/abs/2004.03961v1 )

ライセンス: Link先を確認
Jianwei Liu, Jinsong Han, Feng Lin, Kui Ren(参考訳) 無線信号に基づくジェスチャー認識は、VRゲームやスマートホームなどの開発を促進する。 しかし、伝統的なアプローチはドメインギャップの影響に悩まされる。 低認識精度は、あるドメインで訓練されるが、別のドメインで使用されるときに発生する。 対人学習、移動学習、身体座標速度プロファイルなどのいくつかのソリューションは、クロスドメイン認識を実現するために提案されているが、これらのソリューションには、多かれ少なかれ、欠陥がある。 本稿では,ドメインギャップの概念を定義し,ドメインギャップを排除し,ドメインに依存しないジェスチャー認識を実現するための,より有望なソリューションであるDIを提案する。 diはグラデーションマップの符号マップをドメインギャップ除去器として活用し、認識精度を向上させる。 我々は10のドメインと10のジェスチャーで実験を行う。 実験の結果,既存のソリューションを上回っているkn,svm,cnnにおいて,87.13%,90.12%,94.45%の認識精度が得られることがわかった。

Wireless signal-based gesture recognition has promoted the developments of VR game, smart home, etc. However, traditional approaches suffer from the influence of the domain gap. Low recognition accuracy occurs when the recognition model is trained in one domain but is used in another domain. Though some solutions, such as adversarial learning, transfer learning and body-coordinate velocity profile, have been proposed to achieve cross-domain recognition, these solutions more or less have flaws. In this paper, we define the concept of domain gap and then propose a more promising solution, namely DI, to eliminate domain gap and further achieve domain-independent gesture recognition. DI leverages the sign map of the gradient map as the domain gap eliminator to improve the recognition accuracy. We conduct experiments with ten domains and ten gestures. The experiment results show that DI can achieve the recognition accuracies of 87.13%, 90.12% and 94.45% on KNN, SVM and CNN, which outperforms existing solutions.
翻訳日:2022-12-15 08:36:21 公開日:2020-04-08
# 単一画像深層学習による劣化したリモートセンシング製品の復元

A single image deep learning approach to restoration of corrupted remote sensing products ( http://arxiv.org/abs/2004.04209v1 )

ライセンス: Link先を確認
Anna Petrovskaia, Raghavendra B. Jana, Ivan V. Oseledets(参考訳) リモートセンシング画像は、農業モニタリング、災害救助、資源計画など、さまざまな分析に使用されている。 画像は、計器誤差や雲などの自然障害など、いくつかの理由により破損する可能性がある。 本稿では, 破損した画像のみを入力として, 欠落情報を復元するための新しい手法を提案する。 深層画像先行手法は、事前訓練されたネットワークまたは画像データベースの必要性をなくす。 この手法は, 従来の単一画像法の性能に匹敵することを示す。

Remote sensing images are used for a variety of analyses, from agricultural monitoring, to disaster relief, to resource planning, among others. The images can be corrupted due to a number of reasons, including instrument errors and natural obstacles such as clouds. We present here a novel approach for reconstruction of missing information in such cases using only the corrupted image as the input. The Deep Image Prior methodology eliminates the need for a pre-trained network or an image database. It is shown that the approach easily beats the performance of traditional single-image methods.
翻訳日:2022-12-15 08:35:31 公開日:2020-04-08
# MNIST-MIX:多言語手書き文字認識データセット

MNIST-MIX: A Multi-language Handwritten Digit Recognition Dataset ( http://arxiv.org/abs/2004.03848v1 )

ライセンス: Link先を確認
Weiwei Jiang(参考訳) 本稿では,MNIST-MIXという多言語手書き文字認識データセットを寄贈する。 MNISTと同じデータフォーマットで、MNIST-MIXは手書き文字認識のための既存の研究にシームレスに適用できる。 10の異なる言語から数字を導入することで、MNIST-MIXはより困難なデータセットとなり、その不均衡な分類はモデルのより良い設計を必要とする。 また,MNIST をベースラインとして事前学習した LeNet モデルの適用結果を示す。

In this letter, we contribute a multi-language handwritten digit recognition dataset named MNIST-MIX, which is the largest dataset of the same type in terms of both languages and data samples. With the same data format with MNIST, MNIST-MIX can be seamlessly applied in existing studies for handwritten digit recognition. By introducing digits from 10 different languages, MNIST-MIX becomes a more challenging dataset and its imbalanced classification requires a better design of models. We also present the results of applying a LeNet model which is pre-trained on MNIST as the baseline.
翻訳日:2022-12-15 08:29:47 公開日:2020-04-08
# 2次元データを活用したテクスチャ付き3dメッシュ生成

Leveraging 2D Data to Learn Textured 3D Mesh Generation ( http://arxiv.org/abs/2004.04180v1 )

ライセンス: Link先を確認
Paul Henderson, Vagia Tsiminaki, Christoph H. Lampert(参考訳) 3dオブジェクトの確率的生成モデルのための多くの方法が提案されている。 しかし、これらはいずれもテクスチャ化されたオブジェクトを生成できないため、実用的なタスクに限られている。 本稿では,テクスチャ付き3dメッシュの最初の生成モデルを提案する。 このようなモデルのトレーニングには従来、テクスチャ化されたメッシュの大規模なデータセットが必要だったが、残念ながら既存のメッシュのデータセットには詳細なテクスチャが欠けている。 代わりに,3次元情報なしで2次元画像の収集から学習できる新たな学習手法を提案する。 そこで,我々は2次元背景の前に配置した3次元フォアグラウンドオブジェクトとして各画像のモデル化を行い,画像の分布を説明するようにモデルを訓練する。 これにより、レンダリングされたメッシュを生成して、トレーニングセットのそれに似たイメージを生成する。 ディープネットワークでメッシュを生成する場合のよく知られた問題は、多くのユースケースで問題となるセルフインターセクションの出現である。 そこで第2の貢献として,顔が移動するときにお互いを遠ざけるという物理的直観に基づいて,自己交叉が発生しないことを保証する,新たな3dメッシュ生成プロセスを導入する。 我々は,本手法に関する広範な実験を行い,合成データと自然画像の両方について定量的および定性的な結果を報告する。 提案手法は,5つの難解なオブジェクトクラスに対して,多彩で多様なテクスチャの3dサンプルを生成することに成功している。

Numerous methods have been proposed for probabilistic generative modelling of 3D objects. However, none of these is able to produce textured objects, which renders them of limited use for practical tasks. In this work, we present the first generative model of textured 3D meshes. Training such a model would traditionally require a large dataset of textured meshes, but unfortunately, existing datasets of meshes lack detailed textures. We instead propose a new training methodology that allows learning from collections of 2D images without any 3D information. To do so, we train our model to explain a distribution of images by modelling each image as a 3D foreground object placed in front of a 2D background. Thus, it learns to generate meshes that when rendered, produce images similar to those in its training set. A well-known problem when generating meshes with deep networks is the emergence of self-intersections, which are problematic for many use-cases. As a second contribution we therefore introduce a new generation process for 3D meshes that guarantees no self-intersections arise, based on the physical intuition that faces should push one another out of the way as they move. We conduct extensive experiments on our approach, reporting quantitative and qualitative results on both synthetic data and natural images. These show our method successfully learns to generate plausible and diverse textured 3D samples for five challenging object classes.
翻訳日:2022-12-15 08:29:07 公開日:2020-04-08
# スパイクニューラルネットワークに基づくファイル分類

File Classification Based on Spiking Neural Networks ( http://arxiv.org/abs/2004.03953v1 )

ライセンス: Link先を確認
Ana Stanojevic, Giovanni Cherubini, Timoleon Moraitis, Abu Sebastian(参考訳) 本稿では,spyking neural networks (snns) に基づく大規模データセットにおけるファイル分類システムを提案する。 キー値メタデータペアに含まれるファイル情報は、新しい相関時間符号化方式によりマッピングされ、SNNに入力されるパターンをスパイクする。 入力スパイクパターン間の相関はファイル類似度尺度によって決定される。 まずspike-timing-dependent plasticity(stdp)を用いたネットワークの教師なしトレーニングを行う。 次に、出力ニューロンのスパイクパターンと所望のクラスを表すターゲットパターンとを比較して得られるエラー信号のバックプロパゲーションにより、教師付きSNNトレーニングを考える。 分類精度は数万要素の公開データセットに対して測定され、ロジスティック回帰やサポートベクターマシンを含む他の学習アルゴリズムと比較される。 シミュレーションの結果,提案するsnnベースのシステムは,入力データと限られたリソースを非同期に取り込む環境において,従来の機械学習アルゴリズムの代替手段として有効であることが示唆された。

In this paper, we propose a system for file classification in large data sets based on spiking neural networks (SNNs). File information contained in key-value metadata pairs is mapped by a novel correlative temporal encoding scheme to spike patterns that are input to an SNN. The correlation between input spike patterns is determined by a file similarity measure. Unsupervised training of such networks using spike-timing-dependent plasticity (STDP) is addressed first. Then, supervised SNN training is considered by backpropagation of an error signal that is obtained by comparing the spike pattern at the output neurons with a target pattern representing the desired class. The classification accuracy is measured for various publicly available data sets with tens of thousands of elements, and compared with other learning algorithms, including logistic regression and support vector machines. Simulation results indicate that the proposed SNN-based system using memristive synapses may represent a valid alternative to classical machine learning algorithms for inference tasks, especially in environments with asynchronous ingest of input data and limited resources.
翻訳日:2022-12-15 08:28:45 公開日:2020-04-08
# データ可視化のための非線形次元化:教師なしファジィ規則に基づくアプローチ

Nonlinear Dimensionality Reduction for Data Visualization: An Unsupervised Fuzzy Rule-based Approach ( http://arxiv.org/abs/2004.03922v1 )

ライセンス: Link先を確認
Suchismita Das and Nikhil R. Pal(参考訳) 本稿では、主にデータ可視化のための教師なしファジィ規則に基づく次元削減手法を提案する。 次元縮小に基づくデータの可視化に関する重要な課題について考察する。 (i)近隣関係の保存 (ii)非線形多様体上のデータを扱うこと。 (iii)新規テストデータポイントの投影予測能力 (iv)システムの解釈可能性、及び (v)必要であれば、テストポイントを拒否する能力。 そのため、一階の高木-菅野型モデルを用いる。 入力データ中のクラスタを用いてルール前駆体を生成する。 この文脈では、Geodesic c-meansクラスタリングアルゴリズムの新しい変種も提案する。 本研究では,射影空間上のユークリッド距離として,点間測地距離(多様体上の距離)を保存する誤差関数を最小化し,規則パラメータを推定する。 提案手法を3つの合成データと3つの実世界のデータセットに適用し,他の4つの標準データ可視化手法との比較を行った。 得られた結果から,提案手法は好ましく振る舞うことができ,比較手法に匹敵する性能を示す。 提案手法は初期条件に対して堅牢であることがわかった。 提案手法の試験点に対する予測可能性について実験により検証した。 また,提案手法が出力ポイントを拒否する能力も評価する。 そして、この概念を拡張し、異なる目的関数を持つデータ投影のための教師なしファジィモデルを学習するための一般的なフレームワークを提供する。 我々の知る限りでは、これは教師なしファジィモデリングを用いた多様体学習の最初の試みである。

Here, we propose an unsupervised fuzzy rule-based dimensionality reduction method primarily for data visualization. It considers the following important issues relevant to dimensionality reduction-based data visualization: (i) preservation of neighborhood relationships, (ii) handling data on a non-linear manifold, (iii) the capability of predicting projections for new test data points, (iv) interpretability of the system, and (v) the ability to reject test points if required. For this, we use a first-order Takagi-Sugeno type model. We generate rule antecedents using clusters in the input data. In this context, we also propose a new variant of the Geodesic c-means clustering algorithm. We estimate the rule parameters by minimizing an error function that preserves the inter-point geodesic distances (distances over the manifold) as Euclidean distances on the projected space. We apply the proposed method on three synthetic and three real-world data sets and visually compare the results with four other standard data visualization methods. The obtained results show that the proposed method behaves desirably and performs better than or comparable to the methods compared with. The proposed method is found to be robust to the initial conditions. The predictability of the proposed method for test points is validated by experiments. We also assess the ability of our method to reject output points when it should. Then, we extend this concept to provide a general framework for learning an unsupervised fuzzy model for data projection with different objective functions. To the best of our knowledge, this is the first attempt to manifold learning using unsupervised fuzzy modeling.
翻訳日:2022-12-15 08:28:30 公開日:2020-04-08
# インターネット検索、ニュースアラート、メカニックモデルによる2019-2020年のcovid-19流行のリアルタイム予測のための機械学習手法

A machine learning methodology for real-time forecasting of the 2019-2020 COVID-19 outbreak using Internet searches, news alerts, and estimates from mechanistic models ( http://arxiv.org/abs/2004.04019v1 )

ライセンス: Link先を確認
Dianbo Liu, Leonardo Clemente, Canelle Poirier, Xiyu Ding, Matteo Chinazzi, Jessica T Davis, Alessandro Vespignani, Mauricio Santillana(参考訳) 本稿では,機械モデルから得られた疾患推定を,解釈可能な機械学習手法を介してデジタルトレースと組み合わせて,中国における新型コロナウイルスの活動をリアルタイムで確実に予測する,タイムリーで斬新な手法を提案する。 具体的には,現在の時刻より2日早く安定かつ正確な予測を行い,入力として利用する。 (a)中国疾病予防管理センター(中国CDC)公式健康報告 b)バイドゥからのcovid-19関連インターネット検索活動 (c)media cloudが報告したニュースメディア活動、及び (d) エージェント・ベース・メカニスティック・モデルであるGLEAMによる毎日のCOVID-19活動の予測。 本手法では,中国各地の地理的空間的活動の同時利用を可能にするクラスタリング手法と,発生源の特徴である少数の歴史的疾患活動観測に対処するためのデータ拡張手法を用いる。 われわれのモデルの予測力は、中国32州のうち27州でベースラインモデルの集合よりも優れており、意思決定者を助けるために現在新型コロナウイルスの影響を受けている他の地域にも容易に拡張できる。

We present a timely and novel methodology that combines disease estimates from mechanistic models with digital traces, via interpretable machine-learning methodologies, to reliably forecast COVID-19 activity in Chinese provinces in real-time. Specifically, our method is able to produce stable and accurate forecasts 2 days ahead of current time, and uses as inputs (a) official health reports from Chinese Center Disease for Control and Prevention (China CDC), (b) COVID-19-related internet search activity from Baidu, (c) news media activity reported by Media Cloud, and (d) daily forecasts of COVID-19 activity from GLEAM, an agent-based mechanistic model. Our machine-learning methodology uses a clustering technique that enables the exploitation of geo-spatial synchronicities of COVID-19 activity across Chinese provinces, and a data augmentation technique to deal with the small number of historical disease activity observations, characteristic of emerging outbreaks. Our model's predictive power outperforms a collection of baseline models in 27 out of the 32 Chinese provinces, and could be easily extended to other geographies currently affected by the COVID-19 outbreak to help decision makers.
翻訳日:2022-12-15 08:27:49 公開日:2020-04-08
# 凸最適化のための改良された切削面法,凸凸ゲームとその応用

An Improved Cutting Plane Method for Convex Optimization, Convex-Concave Games and its Applications ( http://arxiv.org/abs/2004.04250v1 )

ライセンス: Link先を確認
Haotian Jiang, Yin Tat Lee, Zhao Song, Sam Chiu-wai Wong(参考訳) 凸集合 $K \subset \mathbb{R}^n$ が半径 $R$ の箱に含まれるような分離オラクルが与えられた場合、その目標は、K$ の点を計算するか、または、$K$ が半径 $\epsilon$ の球を含まないことを証明することである。 そこで我々は,最適な$O(n \log (\kappa))$評価と追加の$O(n^2)$評価を用いる切削平面アルゴリズムを提案し,$\kappa = nR/\epsilon$とする。 vaidya の $o( \text{so} \cdot n \log (\kappa) + n^{\omega+1} \log (\kappa))$ time アルゴリズム [vaidya, focs 1989a] $n$ の多項式依存性の観点から、$\omega < 2.373$ は行列の乗算の指数、$\text{so}$ は oracle の評価の時間である。 $\bullet$ これは、$\kappa$への依存の観点から、Lee-Sidford-Wong氏の$O( \text{SO} \cdot n \log (\kappa) + n^3 \log^{O(1)} (\kappa))$ time algorithm [Lee, Sidford and Wong, FOCS 2015]を改善する。 経済学における多くの重要な応用に対して、$\kappa = \Omega(\exp(n))$ は $\log(\kappa)$ と $\mathrm{poly}(\log (\kappa))$ の間に大きな違いをもたらす。 また,評価当たりのn^2$時間の改善が不可能であり,実行時間が最適であることを示す。 以前の切断平面法のボトルネックは、過去の制約の相対的重要性の尺度であるレバレッジスコアを計算することである。 この結果は,ランダムプロジェクション,バッチ化低ランク更新,逆メンテナンス,多項式補間,高速長方行列乗算など,多種多様な手法を組み合わせた新しい多層データ構造によって実現されている。 興味深いことに、この方法は異なる高速矩形行列乗算アルゴリズムの組み合わせを必要とする。

Given a separation oracle for a convex set $K \subset \mathbb{R}^n$ that is contained in a box of radius $R$, the goal is to either compute a point in $K$ or prove that $K$ does not contain a ball of radius $\epsilon$. We propose a new cutting plane algorithm that uses an optimal $O(n \log (\kappa))$ evaluations of the oracle and an additional $O(n^2)$ time per evaluation, where $\kappa = nR/\epsilon$. $\bullet$ This improves upon Vaidya's $O( \text{SO} \cdot n \log (\kappa) + n^{\omega+1} \log (\kappa))$ time algorithm [Vaidya, FOCS 1989a] in terms of polynomial dependence on $n$, where $\omega < 2.373$ is the exponent of matrix multiplication and $\text{SO}$ is the time for oracle evaluation. $\bullet$ This improves upon Lee-Sidford-Wong's $O( \text{SO} \cdot n \log (\kappa) + n^3 \log^{O(1)} (\kappa))$ time algorithm [Lee, Sidford and Wong, FOCS 2015] in terms of dependence on $\kappa$. For many important applications in economics, $\kappa = \Omega(\exp(n))$ and this leads to a significant difference between $\log(\kappa)$ and $\mathrm{poly}(\log (\kappa))$. We also provide evidence that the $n^2$ time per evaluation cannot be improved and thus our running time is optimal. A bottleneck of previous cutting plane methods is to compute leverage scores, a measure of the relative importance of past constraints. Our result is achieved by a novel multi-layered data structure for leverage score maintenance, which is a sophisticated combination of diverse techniques such as random projection, batched low-rank update, inverse maintenance, polynomial interpolation, and fast rectangular matrix multiplication. Interestingly, our method requires a combination of different fast rectangular matrix multiplication algorithms.
翻訳日:2022-12-15 08:27:17 公開日:2020-04-08
# 多言語ウィキペディアのためのアーキテクチャ

Architecture for a multilingual Wikipedia ( http://arxiv.org/abs/2004.04733v1 )

ライセンス: Link先を確認
Denny Vrande\v{c}i\'c(参考訳) Wikipediaのビジョンは、誰もがすべての知識をまとめて共有できる世界である。 最初の20年間、このビジョンは非常に不公平に達成されてきた。 最大の障害の1つは、wikipediaがその目標を達成するためにカバーしなければならない言語の数だ。 この問題をより効果的に解決するための新しいアプローチ、多言語ウィキペディアは、言語版間でコンテンツを共有することができる。 本稿では,この目的を達成するシステムのためのアーキテクチャを提案する。 これは2つの部分に分かれている:abstract wikipediaと呼ばれるプロジェクト内の抽象的表記法でコンテンツの作成と保守、そしてこの表記法を自然言語に翻訳できるwikilambdaと呼ばれるインフラストラクチャの作成である。 どちらの部分もコミュニティによって完全に所有され、維持されており、既存のウィキペディア版と統合されている。 このアーキテクチャは、自身の言語でより多くの人々が、より多くの百科事典コンテンツを利用できるようにし、同時に、より多くの人々が知識を提供し、それぞれの言語背景がどうであれ、より多くの人々に貢献を届けることができます。 さらにwikilambdaは、人々がwikimediaプロジェクトを通じて共有できる新しいタイプの知識資産であるファンクションをアンロックする。 これら2つのプロジェクトはWikimediaプラットフォームの機能を大幅に拡張し、すべての人間がすべての知識を自由に共有できるようにする。

Wikipedia's vision is a world in which everyone can share in the sum of all knowledge. In its first two decades, this vision has been very unevenly achieved. One of the largest hindrances is the sheer number of languages Wikipedia needs to cover in order to achieve that goal. We argue that we need a new approach to tackle this problem more effectively, a multilingual Wikipedia where content can be shared between language editions. This paper proposes an architecture for a system that fulfills this goal. It separates the goal in two parts: creating and maintaining content in an abstract notation within a project called Abstract Wikipedia, and creating an infrastructure called Wikilambda that can translate this notation to natural language. Both parts are fully owned and maintained by the community, as is the integration of the results in the existing Wikipedia editions. This architecture will make more encyclopedic content available to more people in their own language, and at the same time allow more people to contribute knowledge and reach more people with their contributions, no matter what their respective language backgrounds. Additionally, Wikilambda will unlock a new type of knowledge asset people can share in through the Wikimedia projects, functions, which will vastly expand what people can do with knowledge from Wikimedia, and provide a new venue to collaborate and to engage the creativity of contributors from all around the world. These two projects will considerably expand the capabilities of the Wikimedia platform to enable every single human being to freely share in the sum of all knowledge.
翻訳日:2022-12-15 08:19:49 公開日:2020-04-08
# LASSO正則化を用いたロバストスペクトルクラスタリング

Robust spectral clustering using LASSO regularization ( http://arxiv.org/abs/2004.03845v1 )

ライセンス: Link先を確認
Camille Champion (IMT), Blaz\`ere M\'elanie (IMT), Burcelin R\'emy (I2MC), Loubes Jean-Michel (IMT), Risser Laurent (IMT)(参考訳) クラスタ構造検出は,その機能的特徴を理解し,可視化するために,グラフ解析の基本的な課題である。 異なるクラスタ構造検出手法のうち、スペクトルクラスタリングは、その速度と単純さのため、現在最も広く使われているものの一つである。 しかし、一般的なモデルに対するグラフの基本的な分割を復元する理論的保証はほとんどない。 そこで本稿では,確率ブロックモデルと密接に関連する新しいランダムモデルを用いて,スペクトルクラスタリングを1スペクトルクラスタリングと呼ぶ。 その目標は、グラフの自然な構造を明らかにする1の最小化問題のスパース固有基底解を促進することである。 本手法の有効性と小型ノイズ摂動に対するロバスト性は、シミュレーションおよび実データ例の収集を通して確認する。

Cluster structure detection is a fundamental task for the analysis of graphs, in order to understand and to visualize their functional characteristics. Among the different cluster structure detection methods, spectral clustering is currently one of the most widely used due to its speed and simplicity. Yet, there are few theoretical guarantee to recover the underlying partitions of the graph for general models. This paper therefore presents a variant of spectral clustering, called 1-spectral clustering, performed on a new random model closely related to stochastic block model. Its goal is to promote a sparse eigenbasis solution of a 1 minimization problem revealing the natural structure of the graph. The effectiveness and the robustness to small noise perturbations of our technique is confirmed through a collection of simulated and real data examples.
翻訳日:2022-12-15 08:19:11 公開日:2020-04-08
# 置換同値ニューラルネットワークの一般理論と高次グラフ変分エンコーダ

The general theory of permutation equivarant neural networks and higher order graph variational encoders ( http://arxiv.org/abs/2004.03990v1 )

ライセンス: Link先を確認
Erik Henning Thiede, Truong Son Hy, and Risi Kondor(参考訳) 対称群同変ニューラルネットワークに関する以前の研究は、一般に、群が単一のベクトルの要素を置換して作用する場合にのみ考慮された。 本稿では,行と列を同時に置換することにより,層が行列に作用する場合を含む,一般的な置換同変層の式を導出する。 このケースはグラフ学習や関係学習アプリケーションで自然に発生する。 高次置換同変ネットワークの特定の場合として、2階グラフ変分エンコーダを示し、同変生成モデルの潜在分布は交換可能である必要があることを示す。 引用グラフと分子グラフ生成におけるリンク予測のタスクにおけるこのアーキテクチャの有効性を実証する。

Previous work on symmetric group equivariant neural networks generally only considered the case where the group acts by permuting the elements of a single vector. In this paper we derive formulae for general permutation equivariant layers, including the case where the layer acts on matrices by permuting their rows and columns simultaneously. This case arises naturally in graph learning and relation learning applications. As a specific case of higher order permutation equivariant networks, we present a second order graph variational encoder, and show that the latent distribution of equivariant generative models must be exchangeable. We demonstrate the efficacy of this architecture on the tasks of link prediction in citation graphs and molecular graph generation.
翻訳日:2022-12-15 08:18:40 公開日:2020-04-08
# 半教師付き分類のためのグラフ畳み込みネットワーク構成フレームワーク

A Graph Convolutional Network Composition Framework for Semi-supervised Classification ( http://arxiv.org/abs/2004.03994v1 )

ライセンス: Link先を確認
Rahul Ragesh, Sundararajan Sellamanickam, Vijay Lingam and Arun Iyer(参考訳) グラフ畳み込みネットワーク(GCN)は、ノード分類を含む下流タスクで高い性能を達成することができるため、人気を博している。 これらのネットワークのいくつかのアーキテクチャ的バリエーションが提案され、文献で実験的に研究されている。 本稿では,GCNの簡易化に向けた最近の研究により,他の変種を設計する際の問題点を考察し,GCNのビルディングブロックを用いたネットワーク構築のためのフレームワークを提案する。 このフレームワークは、特徴および/またはラベル伝搬ネットワーク、線形または非線形ネットワークを用いて異なるネットワークを構成し、評価するための柔軟性を提供する。 本研究は,多数の変種を持つベンチマークデータセットについて詳細な実験を行い,評価結果から考察した。 実験結果から, 新たに構成した変異種は, 従来のgcnと同等かそれ以上の競合性を有するため, 検討すべき代替案であることが示唆された。

Graph convolutional networks (GCNs) have gained popularity due to high performance achievable on several downstream tasks including node classification. Several architectural variants of these networks have been proposed and investigated with experimental studies in the literature. Motivated by a recent work on simplifying GCNs, we study the problem of designing other variants and propose a framework to compose networks using building blocks of GCN. The framework offers flexibility to compose and evaluate different networks using feature and/or label propagation networks, linear or non-linear networks, with each composition having different computational complexity. We conduct a detailed experimental study on several benchmark datasets with many variants and present observations from our evaluation. Our empirical experimental results suggest that several newly composed variants are useful alternatives to consider because they are as competitive as, or better than the original GCN.
翻訳日:2022-12-15 08:18:30 公開日:2020-04-08
# deepstreamce:ディープニューラルネットワークにおける概念進化検出のためのストリーミングアプローチ

DeepStreamCE: A Streaming Approach to Concept Evolution Detection in Deep Neural Networks ( http://arxiv.org/abs/2004.04116v1 )

ライセンス: Link先を確認
Lorraine Chambers, Mohamed Medhat Gaber, Zahraa S. Abdallah(参考訳) ディープニューラルネットワークは、意思決定予測における他の機械学習アプローチよりも優れたパフォーマンスを実験的に証明している。 しかし、主要な関心事は、訓練されたクラスにおける分類決定のクローズドな設定性であり、安全クリティカルシステムに重大な影響をもたらす可能性がある。 ディープニューラルネットワークがストリーミング環境にある場合、分類結果が信頼できるかどうかを判断するために、この分類の高速な解釈が必要である。 深いニューラルネットワークへの入力データが時間とともに変化すると、信頼できない分類が発生する。 概念進化(concept evolution)では、ディープニューラルネットワークがトレーニングされていない新しいクラスが導入されている。 ディープニューラルネットワークアーキテクチャの大部分では、このインスタンスをトレーニング対象のクラスに割り当てることが唯一の選択肢だが、これは正しくない。 本研究の目的は,流路内に新しいクラスが到着するのを検出することである。 ディープニューラルネットワークの解釈に関する既存の研究は、しばしば視覚的解釈と特徴抽出を提供するニューロンの活性化に焦点を当てている。 我々の新しいアプローチはdeepstreamceと呼ばれ、ディープニューラルネットワークのリアルタイム概念進化検出にストリーミングアプローチを使用している。 DeepStreamCEは、オフラインフェーズでオートエンコーダとMCODストリームベースのクラスタリングを使用してニューロンの活性化を減少させる。 どちらのアウトプットもオンラインフェーズで、進化ストリームにおけるニューロンの活性化を分析し、概念進化の発生をリアルタイムで検出するために使用される。 我々は、cifar-10データセットのデータの組み合わせに基づいて、vgg16畳み込みニューラルネットワークをトレーニングし、概念進化に使用するクラスをいくつか保持することで、deepstreamceを評価する。 比較のために、データとVGG16ネットワークをオープンセットのディープネットワークソリューションであるOpenMaxに適用する。 DeepStreamCEは、データセットの概念進化を特定するときにOpenMaxより優れています。

Deep neural networks have experimentally demonstrated superior performance over other machine learning approaches in decision-making predictions. However, one major concern is the closed set nature of the classification decision on the trained classes, which can have serious consequences in safety critical systems. When the deep neural network is in a streaming environment, fast interpretation of this classification is required to determine if the classification result is trusted. Un-trusted classifications can occur when the input data to the deep neural network changes over time. One type of change that can occur is concept evolution, where a new class is introduced that the deep neural network was not trained on. In the majority of deep neural network architectures, the only option is to assign this instance to one of the classes it was trained on, which would be incorrect. The aim of this research is to detect the arrival of a new class in the stream. Existing work on interpreting deep neural networks often focuses on neuron activations to provide visual interpretation and feature extraction. Our novel approach, coined DeepStreamCE, uses streaming approaches for real-time concept evolution detection in deep neural networks. DeepStreamCE applies neuron activation reduction using an autoencoder and MCOD stream-based clustering in the offline phase. Both outputs are used in the online phase to analyse the neuron activations in the evolving stream in order to detect concept evolution occurrence in real time. We evaluate DeepStreamCE by training VGG16 convolutional neural networks on combinations of data from the CIFAR-10 dataset, holding out some classes to be used as concept evolution. For comparison, we apply the data and VGG16 networks to an open-set deep network solution - OpenMax. DeepStreamCE outperforms OpenMax when identifying concept evolution for our datasets.
翻訳日:2022-12-15 08:18:16 公開日:2020-04-08
# 塩分に基づく重み付き多ラベル線形判別分析

Saliency-based Weighted Multi-label Linear Discriminant Analysis ( http://arxiv.org/abs/2004.04221v1 )

ライセンス: Link先を確認
Lei Xu, Jenni Raitoharju, Alexandros Iosifidis, Moncef Gabbouj(参考訳) 本稿では,マルチラベル分類課題を解決するために,線形判別分析(lda)の新たな変種を提案する。 提案手法は,重み付き多ラベルLDA手法を用いて個々のサンプルの重み付けを定義する確率モデルに基づく。 線形判別分析(英: linear discriminant analysis)は、最適判別部分空間においてクラス識別を増加させる線形データ変換を見つけることを目的とした、古典的な統計機械学習手法である。 従来のLDAはガウスのクラス分布と単一ラベルのデータアノテーションに関する仮定を設定する。 LDA手法を多ラベル分類問題に適用するために,クラスサリエンシの確率論的解釈から得られる直感を利用して,クラス間およびクラス内散乱行列を再定義する。 先行情報を符号化する各種親和性に基づいて得られた親和性に基づく重み付けを用いて、対象とする複数ラベル問題において、各クラス毎の親和性を示す確率を明らかにする。 提案手法は,多段分類問題における性能改善につながることが示唆された。

In this paper, we propose a new variant of Linear Discriminant Analysis (LDA) to solve multi-label classification tasks. The proposed method is based on a probabilistic model for defining the weights of individual samples in a weighted multi-label LDA approach. Linear Discriminant Analysis is a classical statistical machine learning method, which aims to find a linear data transformation increasing class discrimination in an optimal discriminant subspace. Traditional LDA sets assumptions related to Gaussian class distributions and single-label data annotations. To employ the LDA technique in multi-label classification problems, we exploit intuitions coming from a probabilistic interpretation of class saliency to redefine the between-class and within-class scatter matrices. The saliency-based weights obtained based on various kinds of affinity encoding prior information are used to reveal the probability of each instance to be salient for each of its classes in the multi-label problem at hand. The proposed Saliency-based weighted Multi-label LDA approach is shown to lead to performance improvements in various multi-label classification problems.
翻訳日:2022-12-15 08:17:36 公開日:2020-04-08
# グラフニューラルネットワークの表現性向上

Improving Expressivity of Graph Neural Networks ( http://arxiv.org/abs/2004.05994v1 )

ライセンス: Link先を確認
Stanis{\l}aw Purga{\l}(参考訳) Wesfeiler-Lehmanテストが非同型であると認識しているグラフを区別することのみを制約しない、一般的なGNNよりも表現力の高いグラフニューラルネットワークを提案する。 我々は、指数関数的に離れたノードから情報を集約する注目ウィンドウを拡大したグラフアテンションネットワークを使用する。 また、部分的にランダムな初期埋め込みを使用し、そうでなければ同じように見えるノード間の区別を可能にします。 これは従来のドロップアウト機構に問題を引き起こす可能性があるため、埋め込みのいくつかの次元ではなく、ランダムに注意を無視する「ヘッドドロップアウト」を使用する。

We propose a Graph Neural Network with greater expressive power than commonly used GNNs - not constrained to only differentiate between graphs that Weisfeiler-Lehman test recognizes to be non-isomorphic. We use a graph attention network with expanding attention window that aggregates information from nodes exponentially far away. We also use partially random initial embeddings, allowing differentiation between nodes that would otherwise look the same. This could cause problem with a traditional dropout mechanism, therefore we use a "head dropout", randomly ignoring some attention heads rather than some dimensions of the embedding.
翻訳日:2022-12-15 08:17:18 公開日:2020-04-08
# ニューラルマシン翻訳のための明示的な再順序付け

Explicit Reordering for Neural Machine Translation ( http://arxiv.org/abs/2004.03818v1 )

ライセンス: Link先を確認
Kehai Chen, Rui Wang, Masao Utiyama, and Eiichiro Sumita(参考訳) Transformer-based neural machine translation (NMT)では、位置符号化機構は、自己認識ネットワークが順序依存でソース表現を学習するのに役立つため、Transformer-based NMTは様々な翻訳タスクに対して最先端の結果を得る。 しかし、トランスフォーマーベースのnmtは、入力文中の単語ベクトルに順次位置の表現を追加するだけで、この文における再順序付け情報を明示的に考慮しない。 本稿では,まず,ソースリオーダ情報と翻訳性能の関係を実証的に検討する。 実験の結果,二言語並列データセットから学習した目標順序のソース入力により,翻訳性能が大幅に向上することがわかった。 そこで本稿では,Transformer ベースの NMT に対して,このリオーダー情報を明示的にモデル化する新しいリオーダー手法を提案する。 WMT14,WAT ASPEC日本語訳,WMT17中国語訳の実証結果は,提案手法の有効性を示している。

In Transformer-based neural machine translation (NMT), the positional encoding mechanism helps the self-attention networks to learn the source representation with order dependency, which makes the Transformer-based NMT achieve state-of-the-art results for various translation tasks. However, Transformer-based NMT only adds representations of positions sequentially to word vectors in the input sentence and does not explicitly consider reordering information in this sentence. In this paper, we first empirically investigate the relationship between source reordering information and translation performance. The empirical findings show that the source input with the target order learned from the bilingual parallel dataset can substantially improve translation performance. Thus, we propose a novel reordering method to explicitly model this reordering information for the Transformer-based NMT. The empirical results on the WMT14 English-to-German, WAT ASPEC Japanese-to-English, and WMT17 Chinese-to-English translation tasks show the effectiveness of the proposed approach.
翻訳日:2022-12-15 08:10:47 公開日:2020-04-08
# 階層型アテンションネットワークにおけるpruningとsparsemax法

Pruning and Sparsemax Methods for Hierarchical Attention Networks ( http://arxiv.org/abs/2004.04343v1 )

ライセンス: Link先を確認
Jo\~ao G. Ribeiro, Frederico S. Felisberto and Isabel C. Neto(参考訳) 本稿では,2つの新しい階層型注意ネットワークモデル [Yang et al., 2016] を紹介し,評価する。 一 文書分類精度及び文書分類精度の潜在的な騒音を低減するため、分類過程から無関係な単語及び文を除去する階層的計画意図ネットワーク 二) アテンション機構において用いられるソフトマックス関数をスパースマックス(martins and astudillo, 2016)に置き換える階層的スパースマックスアテンションネットワークは、多くの単語又は文が非常に低い確率を持つ重要度分布をよりうまく扱うことができる。 感情分析データセットのIMDBレビューにおける実証的な評価は、両者のアプローチが現在の最先端技術による結果と一致できることを示している(ただし、大きなメリットはない)。 ソースコードはすべて、https://github.com/jmribeiro/dsl-projectで利用可能です。

This paper introduces and evaluates two novel Hierarchical Attention Network models [Yang et al., 2016] - i) Hierarchical Pruned Attention Networks, which remove the irrelevant words and sentences from the classification process in order to reduce potential noise in the document classification accuracy and ii) Hierarchical Sparsemax Attention Networks, which replace the Softmax function used in the attention mechanism with the Sparsemax [Martins and Astudillo, 2016], capable of better handling importance distributions where a lot of words or sentences have very low probabilities. Our empirical evaluation on the IMDB Review for sentiment analysis datasets shows both approaches to be able to match the results obtained by the current state-of-the-art (without, however, any significant benefits). All our source code is made available athttps://github.com/jmribeiro/dsl-project.
翻訳日:2022-12-15 08:09:17 公開日:2020-04-08
# セマンティック特徴抽出とゲーム理論ラフセットを用いたサティリカルニュース検出

Satirical News Detection with Semantic Feature Extraction and Game-theoretic Rough Sets ( http://arxiv.org/abs/2004.03788v1 )

ライセンス: Link先を確認
Yue Zhou, Yan Zhang, JingTao Yao(参考訳) サテュリカルニュース検出は、誤報の拡散を防ぐための重要かつ困難な課題である。 多くの特徴ベースとエンドツーエンドのニューラルネットに基づく風刺ニュース検知システムが提案され、有望な結果をもたらした。 既存のアプローチでは、風刺ニュース記事から包括的単語特徴を探求するが、ツイート形式の風刺ニュースに単語ベクトルを用いた意味的指標は欠如している。 さらに、風刺とニュースパロディの曖昧さは、ニュースツイートが二分決定、すなわち風刺的、または合法的に分類されることを判断する。 これらの問題に対処するために、風刺的かつ正当なニュースツイートを収集し、セマンティック機能に基づくアプローチを提案する。 特徴は句、実体、主節と関係節の矛盾を探索することで抽出される。 確率しきい値がゲーム平衡と繰り返し学習機構によって導出される風刺ニュースを検出するために,ゲーム理論ラフセットモデルを適用した。 収集したデータセットに対する実験結果から,PawlakラフセットモデルとSVMと比較して,提案手法のロバスト性および改善性を示した。

Satirical news detection is an important yet challenging task to prevent spread of misinformation. Many feature based and end-to-end neural nets based satirical news detection systems have been proposed and delivered promising results. Existing approaches explore comprehensive word features from satirical news articles, but lack semantic metrics using word vectors for tweet form satirical news. Moreover, the vagueness of satire and news parody determines that a news tweet can hardly be classified with a binary decision, that is, satirical or legitimate. To address these issues, we collect satirical and legitimate news tweets, and propose a semantic feature based approach. Features are extracted by exploring inconsistencies in phrases, entities, and between main and relative clauses. We apply game-theoretic rough set model to detect satirical news, in which probabilistic thresholds are derived by game equilibrium and repetition learning mechanism. Experimental results on the collected dataset show the robustness and improvement of the proposed approach compared with Pawlak rough set model and SVM.
翻訳日:2022-12-15 08:08:38 公開日:2020-04-08
# 浅い残差特徴代表ネットワークを用いた時間短縮画像超解像

Time accelerated image super-resolution using shallow residual feature representative network ( http://arxiv.org/abs/2004.04093v1 )

ライセンス: Link先を確認
Meenu Ajith, Aswathy Rajendra Kurup, and Manel Mart\'inez-Ram\'on(参考訳) 近年のディープラーニングの進歩は、単一画像超解像の分野での大きな進歩を示している。 これらの技術が出現すると、高いピーク信号対雑音比(PSNR)と優れた知覚品質を持つ高分解能画像が再構成される。 既存の深層畳み込みニューラルネットワークに関連する主要な課題は、計算の複雑さと時間である。 これらの問題を緩和するために, 直列的に積み重ねた残差非線形畳み込みを含む, バイコビック補間低分解能画像を入力として用いた, 残差代表回路(RFR)を開発した。 さらに、RFRユニットの出力とバイコビック補間LR画像からの残出力とを組み合わせて高分解能画像の再構成を行う。 最後に、ベンチマークデータセット上で複数の実験を行い、提案モデルにより、より高いスケールで優れた性能を示す。 さらに、このモデルは既存のすべてのアプローチと比較して実行時間も速くなります。

The recent advances in deep learning indicate significant progress in the field of single image super-resolution. With the advent of these techniques, high-resolution image with high peak signal to noise ratio (PSNR) and excellent perceptual quality can be reconstructed. The major challenges associated with existing deep convolutional neural networks are their computational complexity and time; the increasing depth of the networks, often result in high space complexity. To alleviate these issues, we developed an innovative shallow residual feature representative network (SRFRN) that uses a bicubic interpolated low-resolution image as input and residual representative units (RFR) which include serially stacked residual non-linear convolutions. Furthermore, the reconstruction of the high-resolution image is done by combining the output of the RFR units and the residual output from the bicubic interpolated LR image. Finally, multiple experiments have been performed on the benchmark datasets and the proposed model illustrates superior performance for higher scales. Besides, this model also exhibits faster execution time compared to all the existing approaches.
翻訳日:2022-12-15 08:01:26 公開日:2020-04-08
# ワンショット半教師あり学習の実証的展望

Empirical Perspectives on One-Shot Semi-supervised Learning ( http://arxiv.org/abs/2004.04141v1 )

ライセンス: Link先を確認
Leslie N. Smith, Adam Conovaloff(参考訳) 新しいアプリケーションでディープニューラルネットワークを採用する際の最大の障害のひとつは、ネットワークのトレーニングには通常、多くの手動ラベル付きトレーニングサンプルが必要になることだ。 我々は,深いネットワーク(すなわち,単発半教師付き学習)を訓練するために,大量のラベル付きデータにアクセスするが,クラス毎に1つの原型的サンプルのみをラベル付けする必要があるシナリオを実証的に検討する。 具体的には,cifar-10の半教師付き学習において,高い確率と信頼性に影響を与える要因を理解するために,単発半教師付き学習のフィクスマッチで報告された最近の結果について検討する。 例えば、高性能画像分類のための一発半教師付き学習の障壁は、訓練中のクラス精度の不均一性である。 これらの結果は、新しいアプリケーションのためにワンショットのセミ教師付きトレーニング手法をより広く採用できるソリューションを示している。

One of the greatest obstacles in the adoption of deep neural networks for new applications is that training the network typically requires a large number of manually labeled training samples. We empirically investigate the scenario where one has access to large amounts of unlabeled data but require labeling only a single prototypical sample per class in order to train a deep network (i.e., one-shot semi-supervised learning). Specifically, we investigate the recent results reported in FixMatch for one-shot semi-supervised learning to understand the factors that affect and impede high accuracies and reliability for one-shot semi-supervised learning of Cifar-10. For example, we discover that one barrier to one-shot semi-supervised learning for high-performance image classification is the unevenness of class accuracy during the training. These results point to solutions that might enable more widespread adoption of one-shot semi-supervised training methods for new applications.
翻訳日:2022-12-15 08:00:51 公開日:2020-04-08
# GeoLifeCLEF 2020データセット

The GeoLifeCLEF 2020 Dataset ( http://arxiv.org/abs/2004.04192v1 )

ライセンス: Link先を確認
Elijah Cole, Benjamin Deneu, Titouan Lorieul, Maximilien Servajean, Christophe Botella, Dan Morris, Nebojsa Jojic, Pierre Bonnet, Alexis Joly(参考訳) 種の地理的分布を理解することは、保全の重要な関心事である。 種と環境の特徴を組み合わせることで、研究者は環境とそこで見られる種との関係をモデル化することができる。 この領域の研究を容易にするために、従来の低解像度気候と土壌変数に加えて、高解像度のリモートセンシング画像、土地被覆データ、高度と組み合わせた190万種の観測結果からなるGeoLifeCLEF 2020データセットを提示する。 我々はまた、GeoLifeCLEF 2020コンペティションについても論じる。

Understanding the geographic distribution of species is a key concern in conservation. By pairing species occurrences with environmental features, researchers can model the relationship between an environment and the species which may be found there. To facilitate research in this area, we present the GeoLifeCLEF 2020 dataset, which consists of 1.9 million species observations paired with high-resolution remote sensing imagery, land cover data, and altitude, in addition to traditional low-resolution climate and soil variables. We also discuss the GeoLifeCLEF 2020 competition, which aims to use this dataset to advance the state-of-the-art in location-based species recommendation.
翻訳日:2022-12-15 08:00:35 公開日:2020-04-08
# スイッチング力学系におけるナラティブテキストの生成

Generating Narrative Text in a Switching Dynamical System ( http://arxiv.org/abs/2004.03762v1 )

ライセンス: Link先を確認
Noah Weber, Leena Shekhar, Heeyoung Kwon, Niranjan Balasubramanian, Nathanael Chambers(参考訳) 物語モデリングに関する初期の研究は、明確な計画と目標を使用してストーリーを生成するが、言語生成そのものは制限され、柔軟性がない。 現代の手法では、より堅牢な生成のために言語モデルを使用するが、コヒーレントな物語を導く足場とダイナミックスの明示的な表現が欠けていることが多い。 本稿では,ニューラルネットワークモデルと明示的な物語構造を統合した新しいモデルを提案し,Switching Linear Dynamical System (SLDS) として物語モデリングを定式化する。 SLDSは、システムの潜在力学(すなわち状態ベクトルが時間とともにどのように変化するか)がトップレベルの離散スイッチング変数によって制御される力学系である。 切り替え変数は物語構造(感情状態や談話状態など)を表し、潜在状態ベクトルは物語の現在の状態に関する情報を符号化する。 この確率的定式化により生成を制御でき、ラベル付きデータとラベルなしデータの両方を用いて半教師付きで学習することができる。 さらに、切り替え変数によって導かれる物語の任意の部分を埋めることのできるモデル用のギブスサンプルを導出する。 満載の(英語の)物語は、自動評価と人的評価の両方において、いくつかのベースラインを上回ります。

Early work on narrative modeling used explicit plans and goals to generate stories, but the language generation itself was restricted and inflexible. Modern methods use language models for more robust generation, but often lack an explicit representation of the scaffolding and dynamics that guide a coherent narrative. This paper introduces a new model that integrates explicit narrative structure with neural language models, formalizing narrative modeling as a Switching Linear Dynamical System (SLDS). A SLDS is a dynamical system in which the latent dynamics of the system (i.e. how the state vector transforms over time) is controlled by top-level discrete switching variables. The switching variables represent narrative structure (e.g., sentiment or discourse states), while the latent state vector encodes information on the current state of the narrative. This probabilistic formulation allows us to control generation, and can be learned in a semi-supervised fashion using both labeled and unlabeled data. Additionally, we derive a Gibbs sampler for our model that can fill in arbitrary parts of the narrative, guided by the switching variables. Our filled-in (English language) narratives outperform several baselines on both automatic and human evaluations.
翻訳日:2022-12-15 07:59:59 公開日:2020-04-08
# KdConv: マルチターン知識駆動会話に向けた中国語多ドメイン対話データセット

KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn Knowledge-driven Conversation ( http://arxiv.org/abs/2004.04100v1 )

ライセンス: Link先を確認
Hao Zhou, Chujie Zheng, Kaili Huang, Minlie Huang, Xiaoyan Zhu(参考訳) 知識駆動会話システムの研究は、複数のトピックに関するマルチターン会話と知識アノテーションからなる対話データがないため、ほとんど制限されている。 本稿では,マルチターン会話の話題をナレッジグラフに反映する,中国語の多領域知識駆動対話データセットであるkdconvを提案する。 コーパスには3つのドメイン(映画、音楽、旅行)から4.5kの会話と、平均ターン数19.0の86kの発話が含まれている。 これらの会話には、関連するトピックと複数のトピック間の自然な移行に関する詳細な議論が含まれている。 このコーパスに関する以下の研究を容易にするため、いくつかのベンチマークモデルを提供する。 比較の結果,背景知識の導入によりモデルの拡張が可能となったが,複数ターン会話のモデル化に知識を活用するための大きな空間が依然として残っている。 結果は、異なるドメイン間に明らかなパフォーマンスの違いがあることを示し、転送学習とドメイン適応をさらに検討する価値があることを示している。 コーパスとベンチマークモデルは公開されている。

The research of knowledge-driven conversational systems is largely limited due to the lack of dialog data which consist of multi-turn conversations on multiple topics and with knowledge annotations. In this paper, we propose a Chinese multi-domain knowledge-driven conversation dataset, KdConv, which grounds the topics in multi-turn conversations to knowledge graphs. Our corpus contains 4.5K conversations from three domains (film, music, and travel), and 86K utterances with an average turn number of 19.0. These conversations contain in-depth discussions on related topics and natural transition between multiple topics. To facilitate the following research on this corpus, we provide several benchmark models. Comparative results show that the models can be enhanced by introducing background knowledge, yet there is still a large space for leveraging knowledge to model multi-turn conversations for further research. Results also show that there are obvious performance differences between different domains, indicating that it is worth to further explore transfer learning and domain adaptation. The corpus and benchmark models are publicly available.
翻訳日:2022-12-15 07:59:27 公開日:2020-04-08
# 関係抽出作業のための事前学習言語モデルの下流モデル設計

Downstream Model Design of Pre-trained Language Model for Relation Extraction Task ( http://arxiv.org/abs/2004.03786v1 )

ライセンス: Link先を確認
Cheng Li, Ye Tian(参考訳) 近年の情報抽出分野において,ディープニューラルネットワークに基づく関係抽出手法が重要な役割を担っている。 しかし、現在では複雑な関係が存在するため、その性能は良好な水準には達していない。 一方,最近提案された事前学習型言語モデル(PLM)は,下流タスクモデルと組み合わせた微調整により,自然言語処理の複数のタスクにおいて大きな成功を収めている。 しかし、PLMの本来の標準タスクは、まだ関係抽出タスクを含まない。 PLMは、関係抽出の問題を解決するためにも使用できるが、複雑な関係を扱うために特別に設計された下流タスクモデルや損失関数を確立する必要がある。 本稿では,教師付き関係抽出のためのplmの下流モデルとして,特殊損失関数を持つ新しいネットワークアーキテクチャを提案する。 実験により,提案手法は関係抽出の複数の公開データセットにまたがる現在の最適ベースラインモデルを大きく上回った。

Supervised relation extraction methods based on deep neural network play an important role in the recent information extraction field. However, at present, their performance still fails to reach a good level due to the existence of complicated relations. On the other hand, recently proposed pre-trained language models (PLMs) have achieved great success in multiple tasks of natural language processing through fine-tuning when combined with the model of downstream tasks. However, original standard tasks of PLM do not include the relation extraction task yet. We believe that PLMs can also be used to solve the relation extraction problem, but it is necessary to establish a specially designed downstream task model or even loss function for dealing with complicated relations. In this paper, a new network architecture with a special loss function is designed to serve as a downstream model of PLMs for supervised relation extraction. Experiments have shown that our method significantly exceeded the current optimal baseline models across multiple public datasets of relation extraction.
翻訳日:2022-12-15 07:59:10 公開日:2020-04-08
# RLにおける適応変換器

Adaptive Transformers in RL ( http://arxiv.org/abs/2004.03761v1 )

ライセンス: Link先を確認
Shakti Kumar, Jerrod Parker, Panteha Naderian(参考訳) 近年の変圧器の発展は、部分的に観測可能な強化学習タスクにおける新たな興味深い研究分野を開拓している。 2019年後半に行われた結果によると、Transformerは、メモリの激しいタスクとリアクティブタスクの両方において、LSTMを上回るパフォーマンスを実現している。 この研究で最初に、リアクティブとメモリベースの環境の両方でRLの安定化トランスフォーマーで示された結果を部分的に再現しました。 そして,dmlab30環境において,この安定変圧器に適応的注意スパンを追加する場合の性能改善と計算量の削減を両立させた。 すべての実験とモデルのコードは、https://github.com/jerrodparker20/adaptive-transformers-in-rl.comで利用可能です。

Recent developments in Transformers have opened new interesting areas of research in partially observable reinforcement learning tasks. Results from late 2019 showed that Transformers are able to outperform LSTMs on both memory intense and reactive tasks. In this work we first partially replicate the results shown in Stabilizing Transformers in RL on both reactive and memory based environments. We then show performance improvement coupled with reduced computation when adding adaptive attention span to this Stable Transformer on a challenging DMLab30 environment. The code for all our experiments and models is available at https://github.com/jerrodparker20/adaptive-transformers-in-rl.
翻訳日:2022-12-15 07:52:22 公開日:2020-04-08
# ODTravel時間行列に基づく旅行時間予測のためのニューラルネットワークモデル

Neural Networks Model for Travel Time Prediction Based on ODTravel Time Matrix ( http://arxiv.org/abs/2004.04030v1 )

ライセンス: Link先を確認
Ayobami E. Adewale and Amnir Hadachi(参考訳) 公共交通機関の通勤者は、日々の活動を計画するための正確な旅行時間情報を得ることに関心がある。 しかし, 気象条件, 道路事故, 交通渋滞などの要因により, 道路交通の異常が原因で, 正確な予測が難しい場合が多い。 本研究では,多層(mlp)パーセプトロンと長期短期モデル(lstm)という2つのニューラルネットワークモデルを開発し,ヒストリカルgpsデータセットから得られた先行き移動時間行列を用いて入力した忙しい経路のリンク移動時間を予測する。 実験の結果,両モデルともほぼ正確な予測が可能となったが,lstmは時間ステップが増加するにつれてノイズの影響を受けやすいことがわかった。

Public transportation system commuters are often interested in getting accurate travel time information to plan their daily activities. However, this information is often difficult to predict accurately due to the irregularities of road traffic, caused by factors such as weather conditions, road accidents, and traffic jams. In this study, two neural network models namely multi-layer(MLP) perceptron and long short-term model(LSTM) are developed for predicting link travel time of a busy route with input generated using Origin-Destination travel time matrix derived from a historical GPS dataset. The experiment result showed that both models can make near-accurate predictions however, LSTM is more susceptible to noise as time step increases.
翻訳日:2022-12-15 07:52:12 公開日:2020-04-08
# 逐次データ処理のためのGated Incremental Memoriesを用いた連続学習

Continual Learning with Gated Incremental Memories for sequential data processing ( http://arxiv.org/abs/2004.04077v1 )

ライセンス: Link先を確認
Andrea Cossu, Antonio Carta, Davide Bacciu(参考訳) 従来の知識を忘れずに動的で非定常的な環境で学習する能力、あるいは継続学習(CL)は、適応型ソリューションのスケーラブルで信頼性の高いデプロイを可能にする重要な手段である。 連続学習の重要性は、機械ビジョンや強化学習問題で広く認識されているが、シーケンス処理タスクではほとんど文書化されていない。 本研究では,従来の知識を忘れることなく,入力分布における概念ドリフトに対処できるCLのためのリカレントニューラルネットワーク(RNN)モデルを提案する。 また、2つの異なるタイプのRNNの上に、人気のあるCLアプローチであるElastic Weight Consolidation (EWC)を実装し、テストします。 最後に、逐次データ処理シナリオに適応した標準CLベンチマークのセット上で、拡張アーキテクチャとEWCおよびRNNの性能を比較した。 その結果、アーキテクチャの優れた性能を示し、RNNにおけるCLに対応するように設計された特別なソリューションの必要性を強調した。

The ability to learn in dynamic, nonstationary environments without forgetting previous knowledge, also known as Continual Learning (CL), is a key enabler for scalable and trustworthy deployments of adaptive solutions. While the importance of continual learning is largely acknowledged in machine vision and reinforcement learning problems, this is mostly under-documented for sequence processing tasks. This work proposes a Recurrent Neural Network (RNN) model for CL that is able to deal with concept drift in input distribution without forgetting previously acquired knowledge. We also implement and test a popular CL approach, Elastic Weight Consolidation (EWC), on top of two different types of RNNs. Finally, we compare the performances of our enhanced architecture against EWC and RNNs on a set of standard CL benchmarks, adapted to the sequential data processing scenario. Results show the superior performance of our architecture and highlight the need for special solutions designed to address CL in RNNs.
翻訳日:2022-12-15 07:51:58 公開日:2020-04-08
# コンピュータセンターにおける予測保守のための異常検出用進化粒状分類器の比較

Comparison of Evolving Granular Classifiers applied to Anomaly Detection for Predictive Maintenance in Computing Centers ( http://arxiv.org/abs/2005.04156v1 )

ライセンス: Link先を確認
Leticia Decker, Daniel Leite, Fabio Viola, Daniele Bonacorsi(参考訳) 計算センターのログベースの予測メンテナンスは、cern(european organization for nuclear research)物理実験をサポートする世界規模のコンピューティンググリッドに関する主要な関心事である。 ログはイベント指向のアドホック情報として、構造化されていないビッグデータとして与えられることが多い。 ログデータ処理は時間を要する計算処理である。 目標は、連続的に変更可能なグリッド環境から重要な情報を取得し、分類モデルを構築することである。 進化する粒度分類器は、時系列のログストリームから学ぶのに適しているため、異常の深刻度をオンラインに分類する。 4級オンライン異常分類問題を定式化し,ランドマークと2つの粒度計算手法,すなわちファジィセットに基づく進化モデリング (fbem) と進化型粒度ニューラルネットワーク (egnn) の時間窓を用いて,ロギング活動率のモデル化と監視を行った。 分類器が高重度または中重度異常の存在を示す特定の時間間隔に優先順位を付けることができるため、分類結果は予測保守にとって最も重要である。

Log-based predictive maintenance of computing centers is a main concern regarding the worldwide computing grid that supports the CERN (European Organization for Nuclear Research) physics experiments. A log, as event-oriented adhoc information, is quite often given as unstructured big data. Log data processing is a time-consuming computational task. The goal is to grab essential information from a continuously changeable grid environment to construct a classification model. Evolving granular classifiers are suited to learn from time-varying log streams and, therefore, perform online classification of the severity of anomalies. We formulated a 4-class online anomaly classification problem, and employed time windows between landmarks and two granular computing methods, namely, Fuzzy-set-Based evolving Modeling (FBeM) and evolving Granular Neural Network (eGNN), to model and monitor logging activity rate. The results of classification are of utmost importance for predictive maintenance because priority can be given to specific time intervals in which the classifier indicates the existence of high or medium severity anomalies.
翻訳日:2022-12-15 07:51:42 公開日:2020-04-08
# ニューラル推論の解説としてのベイズ補間

Bayesian Interpolants as Explanations for Neural Inferences ( http://arxiv.org/abs/2004.04198v1 )

ライセンス: Link先を確認
Kenneth L. McMillan(参考訳) クレイグ補間子の概念は、自動推論における説明の一形態として用いられ、論理推論から統計的推論に適応し、ニューラルネットワークによる推論を説明するのに用いられる。 この方法は簡潔で、理解しやすく、正確な説明を同時に生成する。

The notion of Craig interpolant, used as a form of explanation in automated reasoning, is adapted from logical inference to statistical inference and used to explain inferences made by neural networks. The method produces explanations that are at the same time concise, understandable and precise.
翻訳日:2022-12-15 07:50:31 公開日:2020-04-08
# マルチスケール自己回帰前処理を用いた正規化流れ

Normalizing Flows with Multi-Scale Autoregressive Priors ( http://arxiv.org/abs/2004.03891v1 )

ライセンス: Link先を確認
Shweta Mahajan, Apratim Bhattacharyya, Mario Fritz, Bernt Schiele, Stefan Roth(参考訳) フローベース生成モデルは、画像合成のための効率的な推論とサンプリングを許容する正確な推論モデルの重要なクラスである。 フロー層の設計における効率上の制約、例えば、約半分のピクセルがさらなる変換を行わない分割結合フロー層は、条件付きピクセル単位の生成に依存する自己回帰モデルと比較して、長距離データ依存をモデル化する表現力に制限がある。 本研究では,マルチスケール自己回帰前処理 (mAR) を用いて,チャネル依存性を潜在空間に導入することにより,フローベースモデルの表現力を向上させる。 我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。 得られたモデルは、MNIST、CIFAR-10、ImageNetの最先端密度推定結果を達成する。 さらに,mAR-SCFにより画像生成品質が向上し,FIDとインセプションスコアは最先端のフローベースモデルと比較して向上することを示した。

Flow-based generative models are an important class of exact inference models that admit efficient inference and sampling for image synthesis. Owing to the efficiency constraints on the design of the flow layers, e.g. split coupling flow layers in which approximately half the pixels do not undergo further transformations, they have limited expressiveness for modeling long-range data dependencies compared to autoregressive models that rely on conditional pixel-wise generation. In this work, we improve the representational power of flow-based models by introducing channel-wise dependencies in their latent space through multi-scale autoregressive priors (mAR). Our mAR prior for models with split coupling flow layers (mAR-SCF) can better capture dependencies in complex multimodal data. The resulting model achieves state-of-the-art density estimation results on MNIST, CIFAR-10, and ImageNet. Furthermore, we show that mAR-SCF allows for improved image generation quality, with gains in FID and Inception scores compared to state-of-the-art flow-based models.
翻訳日:2022-12-15 07:50:25 公開日:2020-04-08