このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200314となっている論文です。

PDF登録状況(公開日: 20200314)

TitleAuthorsAbstract論文公表日・翻訳日
# history-based anomaly detector: anomaly detectionへの敵意的アプローチ

History-based Anomaly Detector: an Adversarial Approach to Anomaly Detection ( http://arxiv.org/abs/1912.11843v2 )

ライセンス: Link先を確認
Pierrick Chatillon and Coloma Ballester(参考訳) 異常検出は多くの領域で難しい問題であり、最近は多くの注目を集めている。 見えないデータを異常に分類するのは難しい問題です。 提案手法はGAN(Generative Adversarial Networks)を用いて,正規データ分布を推定し,任意のデータに対して異常スコア予測を生成する。 本稿では,ヒストリーベースの異常検知器 (HistoryAD) として, この問題に対処するための簡易かつ新しい逆法を提案する。 自己教師型モデルで構成されており、以前に訓練されたGANのトレーニング履歴に基づいてサンプルと比較することで、通常のサンプルを認識するように訓練されている。 定量的・質的評価の結果が得られた。 また,複数のデータセットにおいて,提案手法が最上位の結果を達成していることを示す。

Anomaly detection is a difficult problem in many areas and has recently been subject to a lot of attention. Classifying unseen data as anomalous is a challenging matter. Latest proposed methods rely on Generative Adversarial Networks (GANs) to estimate the normal data distribution, and produce an anomaly score prediction for any given data. In this article, we propose a simple yet new adversarial method to tackle this problem, denoted as History-based anomaly detector (HistoryAD). It consists of a self-supervised model, trained to recognize 'normal' samples by comparing them to samples based on the training history of a previously trained GAN. Quantitative and qualitative results are presented evaluating its performance. We also present a comparison to several state-of-the-art methods for anomaly detection showing that our proposal achieves top-tier results on several datasets.
翻訳日:2023-06-10 08:18:37 公開日:2020-03-14
# 音響および光スイッチングギャラリーモードを用いた高周波-光変換

Radio-Frequency-to-Optical Conversion using Acoustic and Optical Whispering Gallery Modes ( http://arxiv.org/abs/2003.06556v1 )

ライセンス: Link先を確認
Rekishu Yamazaki, Ayato Okada, Atsushi Noguchi, Shingo Akao, Yusuke Tsukahara, Kazushi Yamanaka, Nobuo Takeda, Yutaka Tabuchi, Koji Usami, Yasunobu Nakamura(参考訳) 球状体の表面付近の循環モードであるwhispering gallery modes(wgms)は、音波と電磁波の両方に高品質な要因を示すことが知られている。 ここでは、誘電体球の赤道に沿った音響波と光波の重なり合うWGMが互いに強く結合する電気オプトメカニクスシステムについて報告する。 三重共振位相整合条件は、1つのサイドバンドでのみブリルアン散乱を増大させ、音響モードを励起する入力高周波信号から出力光信号への変換を観測する。

Whispering gallery modes (WGMs), circulating modes near the surface of a spheroidal material, have been known to exhibit high quality factors for both acoustic and electromagnetic waves. Here, we report an electro-optomechanical system, where the overlapping WGMs of acoustic and optical waves along the equator of a dielectric sphere strongly couple to each other. The triple-resonance phase-matching condition provides a large enhancement of the Brillouin scattering only in a single sideband, and conversion from the input radio-frequency signal exciting the acoustic mode to the output optical signal is observed.
翻訳日:2023-05-29 04:26:41 公開日:2020-03-14
# 集積マイクロ共振器からの相関光子による周波数領域量子干渉

Frequency-Domain Quantum Interference with Correlated Photons from an Integrated Microresonator ( http://arxiv.org/abs/2003.06533v1 )

ライセンス: Link先を確認
Chaitali Joshi, Alessandro Farsi, Avik Dutt, Bok Young Kim, Xingchen Ji, Yun Zhao, Andrew M. Bishop, Michal Lipson and Alexander L. Gaeta(参考訳) 量子情報の周波数符号化とファイバーおよび集積フォトニック技術は、全フォトニック量子ネットワークを実現するための複雑さとリソース要件を著しく低減することができる。 単一光子の周波数領域処理における鍵となる課題は、異なる周波数の量子光学場間のコヒーレントかつ選択的相互作用を実現することである。 本稿では,半導体マイクロ共振器から発生するスペクトル的に異なる光子を用いた周波数領域のHong-Ou-Mandel干渉について報告する。 4波混合を用いてアクティブ周波数ビームスプリッタを実装し,0.95 \pm 0.02$の干渉特性を達成する。 本研究は、4波混合を周波数領域において高忠実度2光子演算を選択的に行うためのツールとして定め、単一光子ソースと組み合わせて、周波数多重フォトニック量子ネットワークの構築ブロックを提供する。

Frequency encoding of quantum information together with fiber and integrated photonic technologies can significantly reduce the complexity and resource requirements for realizing all-photonic quantum networks. The key challenge for such frequency domain processing of single photons is to realize coherent and selective interactions between quantum optical fields of different frequencies over a range of bandwidths. Here, we report frequency-domain Hong-Ou-Mandel interference with spectrally distinct photons generated from a chip-based microresonator. We use four-wave mixing to implement an active frequency beam-splitter and achieve interference visibilities of $0.95 \pm 0.02$. Our work establishes four-wave mixing as a tool for selective high-fidelity two-photon operations in the frequency domain which, combined with integrated single-photon sources, provides a building block for frequency-multiplexed photonic quantum networks.
翻訳日:2023-05-29 04:26:32 公開日:2020-03-14
# 没入型仮想環境におけるハザード認識:視覚探索と脳波パターンの同時解析のためのフレームワーク

Hazard recognition in an immersive virtual environment: Framework for the simultaneous analysis of visual search and EEG patterns ( http://arxiv.org/abs/2003.09494v1 )

ライセンス: Link先を確認
Mojtaba Noghabaei, and Kevin Han(参考訳) 危険な建設環境における無管理の危険は、怪我や事故の主な原因の1つであることが判明した。 リスク認識は、効果的な安全管理を達成し、有害な仕事場における負傷者や死亡者を減らすために不可欠である。 それでも、労働者のハザード認識能力向上を効率的に支援する努力が不足している。 本研究では,労働者のハザード認識能力を高めるために,Immersive Virtual Environment(IVE)における仮想安全トレーニングを提案する。 アイトラッカーを備えたバーチャルリアリティ(VR)デバイスを装着した労働者は、脳波検出装置が脳活動を記録している間、シミュレーションされた建設現場の危険を仮想的に認識する。 このプラットフォームは、視覚的ハザード認識タスクにおける作業者の全体的なパフォーマンスを分析し、各作業者にさらなる介入を必要とするハザードを特定する。 本研究は,視覚ハザード認識過程における作業者の脳と眼の同時動作に関する新たな知見を提供する。 提案手法は、労働者にパーソナライズされたフィードバックを提供することにより、現在の安全訓練プログラムを別のレベルに引き込むことができる。

Unmanaged hazards in dangerous construction environments proved to be one of the main sources of injuries and accidents. Hazard recognition is crucial to achieve effective safety management and reduce injuries and fatalities in hazardous job sites. Still, there has been lack of effort that can efficiently assist workers in improving their hazard recognition skills. This study presents virtual safety training in an Immersive Virtual Environment (IVE) to enhance worker's hazard recognition skills. A worker wearing a Virtual Reality (VR) device, that is equipped with an eye-tracker, virtually recognizes hazards on simulated construction sites while a brainwave-sensing device records brain activities. This platform can analyze the overall performance of the workers in a visual hazard recognition task and identify hazards that need additional intervention for each worker. This study provides novel insights on how a worker's brain and eye act simultaneously during a visual hazard recognition process. The presented method can take current safety training programs into another level by providing personalized feedback to the workers.
翻訳日:2023-05-29 04:23:07 公開日:2020-03-14
# セクシー発振器のためのschr\"odinger方程式のエルマイト関数解

Hermite function solutions of the Schr\"odinger equation for the sextic oscillator ( http://arxiv.org/abs/2003.08184v1 )

ライセンス: Link先を確認
A.M. Ishkhanyan and G. L\'evai(参考訳) 性交無調波発振器に対する放射定常Schr\"odinger方程式の解法をエルミート関数の観点から拡張できる条件について検討する。 これは遠心障壁の強さを設定するパラメータによって識別されるポテンシャルの無限階層に対して可能である。 階層の$N$番目のメンバーは、エネルギーの一般に異なる値に対する$N$の解を含む。 階層の特定の構成員に対して、二乗可積分波動関数を持つ無限個の有界状態が存在し、エルミート函数の項で書かれ、原点と無限点において消滅する。 これらの境界状態は、調和項の強さを設定するパラメータの異なる値に対応する。 また,準正則可解ポテンシャルの形式性から得られるセクティック発振器の多項式解との関係についても検討した。

We examine the conditions under which the solution of the radial stationary Schr\"odinger equation for the sextic anharmonic oscillator can be expanded in terms of Hermite functions. We find that this is possible for an infinite hierarchy of potentials discriminated by the parameter setting the strength of the centrifugal barrier. The $N$'th member of the hierarchy involves $N$ solutions for $N$ generally different values of the energy. For a particular member of the hierarchy, there exist infinitely many bound states with square integrable wave functions, written in terms of the Hermite functions, which vanish at the origin and at infinity. These bound states correspond to distinct values of the parameter setting the strength of the harmonic term. We also investigate connection with the polynomial solutions of the sextic oscillator obtained from the formalism of quasi-exactly solvable potentials.
翻訳日:2023-05-29 04:22:49 公開日:2020-03-14
# 球体によるベッセル光ビーム散乱における超高Q擬似モードの操作

Manifestation of Extremely High-Q Pseudo-Modes in Scattering of a Bessel Light Beam by a Sphere ( http://arxiv.org/abs/2003.06667v1 )

ライセンス: Link先を確認
Vasily Klimov(参考訳) 球に散乱したベッセル光線に対するマクスウェル方程式の正確な解析解が見つかる。 周波数、球半径、誘電率、ベッセルビーム角の関数としての散乱電力、貯蔵エネルギー、一般化Q因子が見つかる。 この解の基底では、一般化されたq因子の計算により誘電体球面のモードと擬似モードを抽出する。 ベッセルビームパラメータの適切な選択は、与えられた1つのモードの励起と擬モードの放射Q因子の無限値を与えることができる。

The exact analytical solution of Maxwell equations for a Bessel light beam scattered by a sphere is found. Scattered power, stored energy and a generalized Q factor as a function of frequency, the sphere radius, permittivity, and the Bessel beam angle are found. On the base of this solution, modes and pseudo-modes of a dielectric sphere are extracted by calculation of the generalized Q factor. It is shown that an appropriate choice of Bessel beam parameters can provide excitation of a single given mode and an unlimited value of the radiative Q factor of pseudo-modes.
翻訳日:2023-05-29 04:22:37 公開日:2020-03-14
# バナジウムおよびニオブのせん断特性における密度汎関数理論の軌道偏位誤差

Orbital localization error of density functional theory in shear properties of vanadium and niobium ( http://arxiv.org/abs/2003.06626v1 )

ライセンス: Link先を確認
Y. X. Wang, Hua Y. Geng, Q. Wu, and Xiang R. Chen(参考訳) 密度汎関数理論(DFT)は、強い局在化と相関した価電子を持ついくつかの物質を除いて、s、p、d軌道を持つほとんどの元素を非常によく表していると考えられている。 本研究では,LDA,GGA,メタGAを含む広く用いられている交換相関関数 (xc) が,V,Nbのせん断率と位相安定性を著しく過小評価していることを明らかにした。 相関系において通常より優れた高度なハイブリッド汎関数は、これら2つの単純な金属において完全に失敗する。 この衝撃的故障はggaの軌道局在誤差により明らかにされ、ハイブリッド機能によりさらに劣化する。 この観察は、DFT+Uとファンデルワールス関数がVおよびNbに適用されたときと同様の失敗によって裏付けられる。 この問題を解決するために、DFT+Jの半経験的アプローチを提案し、オンサイト交換を容易にすることで電子を非局在化する。 さらに, 密度誘導体を含むと, 半局所関数の性能はわずかに向上し, メタGAはGGAより優れ, 後者はLDAより優れていた。 この発見は、軌道定位誤差(主にd軌道から)と非定位誤差(主にs軌道とp軌道から)を完全にVとNbで除去するために、ラプラシア準位を超えて高次密度微分を含めることの可能性と必要性を示している。 同じ戦略を他のd電子系やf電子系にも適用することができる。

It is believed that the density functional theory (DFT) describes most elements with s, p and d orbitals very well, except some materials that having strongly localized and correlated valence electrons. In this work, we find that the widely employed exchange-correlation (xc) functionals, including LDA, GGA and meta-GGA, underestimate the shear modulus and phase stability of V and Nb greatly. The advanced hybrid functional that is usually better for correlated system, on the other hand, completely fails in these two simple metals. This striking failure is revealed due to the orbital localization error in GGA, which is further deteriorated by hybrid functionals. This observation is corroborated by a similar failure of DFT+U and van der Waals functionals when applied to V and Nb. To remedy this problem, an semi-empirical approach of DFT+J is proposed which can delocalize electrons by facilitating the on-site exchange. Furthermore, it is observed that including density derivatives slightly improves the performance of the semi-local functionals, with meta-GGA outperforms GGA, and the latter is better than LDA. This discovery indicates the possibility and necessity to include higher-order density derivatives beyond the Laplacian level for the purpose to remove the orbital localization error (mainly from d orbitals) and delocalization error (mainly from s and p orbitals) completely in V and Nb, so that to achieve a better description of their electronic structures. The same strategy can be applied to other d electron system and f electron system.
翻訳日:2023-05-29 04:21:57 公開日:2020-03-14
# 化学は量子力学に根ざしているのか?

Is Chemistry Really Founded in Quantum Mechanics? ( http://arxiv.org/abs/2003.06599v1 )

ライセンス: Link先を確認
Brian Sutcliffe, R. Guy Woolley(参考訳) 単離分子の化学像とシュロディンガー・クーロン・ハミルトニアンの固有関数から生じる孤立分子の化学像との関係を調べた。

The relationship between the chemical picture of an isolated molecule and that arising from the eiegenfunctions of the Schrodinger Coulomb Hamiltonian ror the isolated molecule are examined and discussed.
翻訳日:2023-05-29 04:21:14 公開日:2020-03-14
# 量子暗号:公開鍵分布とコイントス

Quantum cryptography: Public key distribution and coin tossing ( http://arxiv.org/abs/2003.06557v1 )

ライセンス: Link先を確認
Charles H. Bennett and Gilles Brassard(参考訳) 偏光子などの基本量子系がデジタル情報を伝送する際、不確実性原理は従来の伝送媒体では実現不可能な新しい暗号現象を引き起こす。 このような量子チャネルは、通常の安全でない古典的なチャネルと組み合わせて、2人のユーザ間でランダムな鍵情報を分散し、ユーザが当初秘密情報を共有していない場合でも、それが誰にでも未知であることを保証する。 また,従来の不正行為に対して,無制限の計算能力を持つ相手であっても安全な量子メッセージ交換によるコイントスのプロトコルを提案するが,アインシュタイン・ポドルスキー・ローゼン・パラドックスという微妙な量子現象を用いることで皮肉なことに逆転できる。

When elementary quantum systems, such as polarized photons, are used to transmit digital information, the uncertainty principle gives rise to novel cryptographic phenomena unachievable with traditional transmission media, e.g. a communications channel on which it is impossible in principle to eavesdrop without a high probability of disturbing the transmission in such a way as to be detected. Such a quantum channel can be used in conjunction with ordinary insecure classical channels to distribute random key information between two users with the assurance that it remains unknown to anyone else, even when the users share no secret information initially. We also present a protocol for coin-tossing by exchange of quantum messages, which is secure against traditional kinds of cheating, even by an opponent with unlimited computing power, but ironically can be subverted by use of a still subtler quantum phenomenon, the Einstein-Podolsky-Rosen paradox.
翻訳日:2023-05-29 04:20:46 公開日:2020-03-14
# デノイジングオートエンコーダを用いた広視野小開口望遠鏡のための点拡散関数モデリング

Point Spread Function Modelling for Wide Field Small Aperture Telescopes with a Denoising Autoencoder ( http://arxiv.org/abs/2001.11716v2 )

ライセンス: Link先を確認
Peng Jia, Xiyu Li, Zhengyang Li, Weinan Wang, Dongmei Cai(参考訳) 点拡散関数は光学望遠鏡の状態を反映しており、データ後処理法の設計において重要である。 広視野小型開口望遠鏡では、多くの異なる効果の影響を受け、時間的・空間的な変動が強いため、点拡散関数のモデル化は困難である。 本稿では,広視野小開口望遠鏡の点拡散関数をモデル化するために,ディープニューラルネットワークの一種であるデノージングオートエンコーダを用いることを提案する。 denoising autoencoderは純粋なデータベースのポイントスプレッド関数モデリング手法であり、実際の観測や数値シミュレーション結果の校正データをポイントスプレッド関数テンプレートとして利用する。 実際の観測条件に従って、異なるレベルのランダムノイズや収差がポイントスプレッド関数テンプレートに追加され、ポイントスプレッド関数、すなわちシミュレートされたスターイメージの実現となる。 次に,点スプレッド関数の実現とテンプレートを用いてデノージングオートエンコーダをトレーニングする。 訓練後、デノナイジングオートエンコーダは点拡散関数の多様体空間を学習し、広い視野の小さな開口望遠鏡で得られた星像を点拡散関数に直接マッピングし、データ後処理や光学系アライメントの手法の設計に使用できる。

The point spread function reflects the state of an optical telescope and it is important for data post-processing methods design. For wide field small aperture telescopes, the point spread function is hard to model, because it is affected by many different effects and has strong temporal and spatial variations. In this paper, we propose to use the denoising autoencoder, a type of deep neural network, to model the point spread function of wide field small aperture telescopes. The denoising autoencoder is a pure data based point spread function modelling method, which uses calibration data from real observations or numerical simulated results as point spread function templates. According to real observation conditions, different levels of random noise or aberrations are added to point spread function templates, making them as realizations of the point spread function, i.e., simulated star images. Then we train the denoising autoencoder with realizations and templates of the point spread function. After training, the denoising autoencoder learns the manifold space of the point spread function and can map any star images obtained by wide field small aperture telescopes directly to its point spread function, which could be used to design data post-processing or optical system alignment methods.
翻訳日:2023-01-05 07:11:25 公開日:2020-03-14
# ディープラーニングとガウス過程に基づく機械意識アーキテクチャ

A Machine Consciousness architecture based on Deep Learning and Gaussian Processes ( http://arxiv.org/abs/2002.00509v2 )

ライセンス: Link先を確認
Eduardo C. Garrido Merch\'an, Mart\'in Molina(参考訳) 機械学習の最近の進歩は、マシンが数年前に可能と考えられていた領域の外でできることのタスクを推し進めている。 ディープラーニングや生成モデルといった方法論は、アート画像や文学を自動的に生成するといった複雑なタスクを達成している。 一方,シンボリック資源はさらに発展し,常識推論によって提案されるような問題においてもよく振る舞う。 機械意識は深く研究された分野であり、グローバルワークスペース理論や情報統合のような機能主義哲学理論に基づくいくつかの理論が提案され、機械における意識の発生を説明しようとしている。 本研究では,グローバルワークスペース理論に基づく機械に意識を生じさせるようなアーキテクチャを提案し,認知過程を持ち意識行動を示す機械に意識が現れることを仮定する。 このアーキテクチャは、これらの相関するアクティビティを出力する人工知能モデルにおける最近の発展を利用するプロセスに基づいている。 このアーキテクチャのすべてのモジュールに対して、関連するモデルの詳細な説明と、それらが相互に通信して認知アーキテクチャを構築する方法を提供します。

Recent developments in machine learning have pushed the tasks that machines can do outside the boundaries of what was thought to be possible years ago. Methodologies such as deep learning or generative models have achieved complex tasks such as generating art pictures or literature automatically. On the other hand, symbolic resources have also been developed further and behave well in problems such as the ones proposed by common sense reasoning. Machine Consciousness is a field that has been deeply studied and several theories based in the functionalism philosophical theory like the global workspace theory or information integration have been proposed that try to explain the ariseness of consciousness in machines. In this work, we propose an architecture that may arise consciousness in a machine based in the global workspace theory and in the assumption that consciousness appear in machines that has cognitive processes and exhibit conscious behaviour. This architecture is based in processes that use the recent developments in artificial intelligence models which output are these correlated activities. For every one of the modules of this architecture, we provide detailed explanations of the models involved and how they communicate with each other to create the cognitive architecture.
翻訳日:2023-01-04 20:05:11 公開日:2020-03-14
# 確率密度関数の凸最適化

Convex Optimization on Functionals of Probability Densities ( http://arxiv.org/abs/2002.06488v2 )

ライセンス: Link先を確認
Tomohiro Nishiyama(参考訳) 情報理論において、いくつかの最適化問題は、確率密度の厳密な凸函数上の凸最適化問題をもたらす。 本稿では,これらの問題を考察し,最小化要因が存在する場合の最小化条件と最小化要因の特異性を示す。

In information theory, some optimization problems result in convex optimization problems on strictly convex functionals of probability densities. In this note, we study these problems and show conditions of minimizers and the uniqueness of the minimizer if there exist a minimizer.
翻訳日:2022-12-31 18:25:02 公開日:2020-03-14
# 広視野小開口望遠鏡における深層ニューラルネットワークによる天体ターゲットの検出と分類

Detection and Classification of Astronomical Targets with Deep Neural Networks in Wide Field Small Aperture Telescopes ( http://arxiv.org/abs/2002.09211v2 )

ライセンス: Link先を確認
Peng Jia, Qiang Liu, Yongyang Sun(参考訳) 広視野小開口望遠鏡は光過渡現象観測に広く使われている。 観測画像における天体目標の検出と分類は、最も重要かつ基本的なステップである。 本稿では,深層ニューラルネットワークに基づく天体ターゲット検出と分類の枠組みを提案する。 我々のフレームワークは高速なr-cnnの概念を採用し、修正されたresnet-50をバックボーンネットワークと機能ピラミッドネットワークとして使用し、異なる天体ターゲットの画像から特徴を抽出する。 フレームワークの一般化能力を高めるために,シミュレーション画像と実際の観測画像の両方を用いてニューラルネットワークを訓練する。 トレーニング後、ニューラルネットワークは自動的に天体ターゲットを検出し分類することができる。 我々は、シミュレーションデータを用いて、我々のフレームワークの性能を検証し、我々のフレームワークは、従来の明るく孤立したソースの方法とほぼ同じ検出能力を有しており、我々のフレームワークは、従来の方法で検出された全ての天体を正しく分類できるにもかかわらず、ディムターゲットの2倍優れた検出能力を有していることを発見した。 また、我々のフレームワークは実際の観測データを処理し、我々のフレームワークのしきい値が0.6のとき、従来の手法よりも25%の検知能力を向上できることがわかった。 過渡目標の迅速発見は極めて重要であり,Nvidia Jetson Xavierのような組み込みデバイスに我々のフレームワークをインストールして,リアルタイムな天文学的目標検出と分類能力を実現することを提案する。

Wide field small aperture telescopes are widely used for optical transient observations. Detection and classification of astronomical targets in observed images are the most important and basic step. In this paper, we propose an astronomical targets detection and classification framework based on deep neural networks. Our framework adopts the concept of the Faster R-CNN and uses a modified Resnet-50 as backbone network and a Feature Pyramid Network to extract features from images of different astronomical targets. To increase the generalization ability of our framework, we use both simulated and real observation images to train the neural network. After training, the neural network could detect and classify astronomical targets automatically. We test the performance of our framework with simulated data and find that our framework has almost the same detection ability as that of the traditional method for bright and isolated sources and our framework has 2 times better detection ability for dim targets, albeit all celestial objects detected by the traditional method can be classified correctly. We also use our framework to process real observation data and find that our framework can improve 25 % detection ability than that of the traditional method when the threshold of our framework is 0.6. Rapid discovery of transient targets is quite important and we further propose to install our framework in embedded devices such as the Nvidia Jetson Xavier to achieve real-time astronomical targets detection and classification abilities.
翻訳日:2022-12-30 01:47:12 公開日:2020-03-14
# 算術史言語学におけるマルコフ連鎖モンテカルロ系統推論の構成

Markov Chain Monte-Carlo Phylogenetic Inference Construction in Computational Historical Linguistics ( http://arxiv.org/abs/2002.09637v2 )

ライセンス: Link先を確認
Tianyi Ni(参考訳) 現在、世界の多くの言語が研究されており、その結果、歴史的言語学研究の伝統的な方法がいくつかの課題に直面している。 例えば、言語間の言語比較研究は手動のアノテーションを必要としており、世界中の言語データが増加するにつれて、ますます不可能になる。 言語学者の仕事を置き換えることはほとんどできなかったが、自動計算手法が考慮され、作業負荷を減らすのに役立つ。 歴史的言語学における最も重要な研究の1つは、異なる言語から単語の比較を行い、それらに相同な単語を見つけることである。 本稿では,計算手法を用いて言語をクラスタ化し,markov chain monte carlo (mcmc) 法を用いて,クラスタに基づく言語タイポロジー関係木を構築する。

More and more languages in the world are under study nowadays, as a result, the traditional way of historical linguistics study is facing some challenges. For example, the linguistic comparative research among languages needs manual annotation, which becomes more and more impossible with the increasing amount of language data coming out all around the world. Although it could hardly replace linguists work, the automatic computational methods have been taken into consideration and it can help people reduce their workload. One of the most important work in historical linguistics is word comparison from different languages and find the cognate words for them, which means people try to figure out if the two languages are related to each other or not. In this paper, I am going to use computational method to cluster the languages and use Markov Chain Monte Carlo (MCMC) method to build the language typology relationship tree based on the clusters.
翻訳日:2022-12-29 19:29:14 公開日:2020-03-14
# FPConv: ポイントコンボリューションのための局所フレッテニング学習

FPConv: Learning Local Flattening for Point Convolution ( http://arxiv.org/abs/2002.10701v3 )

ライセンス: Link先を確認
Yiqun Lin, Zizheng Yan, Haibin Huang, Dong Du, Ligang Liu, Shuguang Cui and Xiaoguang Han(参考訳) FPConvは3次元点雲解析のために設計された新しい表面形状の畳み込み演算子である。 従来の方法とは異なり、fpconvは3dグリッドやグラフのような中間表現への変換を必要とせず、ポイントクラウドの表面形状に直接作用する。 さらに具体的に言うと、FPConvは2Dグリッド上に周囲の点をソフトに投影するウェイトマップを自動的に学習することで局所平坦化を行う。 したがって、通常の2次元畳み込みは効率的な特徴学習に応用できる。 FPConvは3Dオブジェクト分類や3Dシーンセグメンテーションといったタスクのために様々なネットワークアーキテクチャに容易に統合でき、既存のボリューム型畳み込みと同等のパフォーマンスを実現することができる。 より重要なことに、fpconvはボリュームコンボリューションを補完し、それらを共同でトレーニングすることで、全体的なパフォーマンスをさらに向上させ、最先端の成果を得ることができます。

We introduce FPConv, a novel surface-style convolution operator designed for 3D point cloud analysis. Unlike previous methods, FPConv doesn't require transforming to intermediate representation like 3D grid or graph and directly works on surface geometry of point cloud. To be more specific, for each point, FPConv performs a local flattening by automatically learning a weight map to softly project surrounding points onto a 2D grid. Regular 2D convolution can thus be applied for efficient feature learning. FPConv can be easily integrated into various network architectures for tasks like 3D object classification and 3D scene segmentation, and achieve comparable performance with existing volumetric-type convolutions. More importantly, our experiments also show that FPConv can be a complementary of volumetric convolutions and jointly training them can further boost overall performance into state-of-the-art results.
翻訳日:2022-12-28 21:46:16 公開日:2020-03-14
# ビュー合成のための高速深度推定

Fast Depth Estimation for View Synthesis ( http://arxiv.org/abs/2003.06637v1 )

ライセンス: Link先を確認
Nantheera Anantrasirichai and Majid Geravand and David Braendler and David R. Bull(参考訳) ステレオ画像のシーケンスからのずれ/奥行き推定は、3次元視覚において重要な要素である。 咬合、不完全な設定、均質な輝度のため、正確な深さの推定は難しい課題である。 本稿では,拡張畳み込み,密結合型畳み込みモジュール,コンパクトデコーダ,スキップ接続を利用した新しい学習ベースフレームワークを提案する。 ネットワークは浅いが密度が高いので、高速で正確だ。 深さ分解能の非線形調整と投影損失の導入の2つの追加貢献により、推定誤差はそれぞれ20%と25%削減された。 その結果,ネットワークの奥行き推定精度が平均で45%,ビュー合成が34%向上し,最先端手法を上回った。 提案手法が推定深さの同等の品質を生成する場合,その10倍の高速化が期待できる。

Disparity/depth estimation from sequences of stereo images is an important element in 3D vision. Owing to occlusions, imperfect settings and homogeneous luminance, accurate estimate of depth remains a challenging problem. Targetting view synthesis, we propose a novel learning-based framework making use of dilated convolution, densely connected convolutional modules, compact decoder and skip connections. The network is shallow but dense, so it is fast and accurate. Two additional contributions -- a non-linear adjustment of the depth resolution and the introduction of a projection loss, lead to reduction of estimation error by up to 20% and 25% respectively. The results show that our network outperforms state-of-the-art methods with an average improvement in accuracy of depth estimation and view synthesis by approximately 45% and 34% respectively. Where our method generates comparable quality of estimated depth, it performs 10 times faster than those methods.
翻訳日:2022-12-23 20:39:46 公開日:2020-03-14
# 三次元表面形状の関数データ解析と可視化

Functional Data Analysis and Visualisation of Three-dimensional Surface Shape ( http://arxiv.org/abs/2003.08817v1 )

ライセンス: Link先を確認
Stanislav Katina and Liberty Vittert and Adrian W. Bowman(参考訳) 高分解能イメージングの出現により、表面形状のデータは広く普及した。 ランドマークに基づく形状解析法は確立されているが,高解像度データは機能的アプローチを必要とする。 出発点は、各表面形状の体系的かつ一貫した記述である。 3つの革新的な分析形式が導入された。 1つは、登録問題、主成分分析、非対称性の測定を全て機能的に扱うために表面積分を用いる。 計算問題は積分への離散近似によって処理され、この場合、適切な表面積重み付き和に基づいている。 第2のイノベーションは、個々の主成分ではなく、グループ差のような興味深い振る舞いを示す部分空間に焦点を当てることである。 第3の革新は、個々の形状と関連する制御集合を比較することであり、通常の範囲の概念は表面形状の高度に多変量な設定に拡張される。 これは、個々の患者の評価が非常に重要である医学的文脈に特に強い応用がある。 これらのアイデアはすべて人間の顔の形の重要な文脈で開発され、興味のある効果の効果的な視覚的コミュニケーションに重点を置いている。

The advent of high resolution imaging has made data on surface shape widespread. Methods for the analysis of shape based on landmarks are well established but high resolution data require a functional approach. The starting point is a systematic and consistent description of each surface shape. Three innovative forms of analysis are then introduced. The first uses surface integration to address issues of registration, principal component analysis and the measurement of asymmetry, all in functional form. Computational issues are handled through discrete approximations to integrals, based in this case on appropriate surface area weighted sums. The second innovation is to focus on sub-spaces where interesting behaviour such as group differences are exhibited, rather than on individual principal components. The third innovation concerns the comparison of individual shapes with a relevant control set, where the concept of a normal range is extended to the highly multivariate setting of surface shape. This has particularly strong applications to medical contexts where the assessment of individual patients is very important. All of these ideas are developed and illustrated in the important context of human facial shape, with a strong emphasis on the effective visual communication of effects of interest.
翻訳日:2022-12-23 20:39:35 公開日:2020-03-14
# 事前制約付きシーケンス・ツー・シーケンスモデルによる文書ランク付け

Document Ranking with a Pretrained Sequence-to-Sequence Model ( http://arxiv.org/abs/2003.06713v1 )

ライセンス: Link先を確認
Rodrigo Nogueira, Zhiying Jiang, Jimmy Lin(参考訳) 本研究は,事前学習されたシーケンス・ツー・シーケンスモデルの文書ランク付けタスクへの新しい適応を提案する。 本手法は,BERTのようなエンコーダのみの事前学習型トランスフォーマアーキテクチャに基づく分類に基づくランキングの定式化とは根本的に異なる。 本稿では,系列列列モデルを用いて関連ラベルを「ターゲット語」として生成する方法と,対象単語のロジットを関連度確率として解釈する方法を示す。 一般的なMS MARCOパスランキングタスクでは、実験結果から、我々のアプローチは、少なくとも以前の分類ベースモデルと同等であり、より大規模で最新のモデルでそれらを上回り得ることが示された。 TREC 2004 Robust Track によるテストコレクションでは、ゼロショット転送に基づくアプローチが、データセットのクロスバリデーションを必要とする従来の最先端モデルより優れていることを示す。 さらに,本手法は,データポーラ方式において,エンコーダのみのモデルを著しく上回る(トレーニング例が少ない)。 本研究は,モデルの潜在知識の利用を探究するために,対象語を変化させることで,この観察をさらに調査する。

This work proposes a novel adaptation of a pretrained sequence-to-sequence model to the task of document ranking. Our approach is fundamentally different from a commonly-adopted classification-based formulation of ranking, based on encoder-only pretrained transformer architectures such as BERT. We show how a sequence-to-sequence model can be trained to generate relevance labels as "target words", and how the underlying logits of these target words can be interpreted as relevance probabilities for ranking. On the popular MS MARCO passage ranking task, experimental results show that our approach is at least on par with previous classification-based models and can surpass them with larger, more-recent models. On the test collection from the TREC 2004 Robust Track, we demonstrate a zero-shot transfer-based approach that outperforms previous state-of-the-art models requiring in-dataset cross-validation. Furthermore, we find that our approach significantly outperforms an encoder-only model in a data-poor regime (i.e., with few training examples). We investigate this observation further by varying target words to probe the model's use of latent knowledge.
翻訳日:2022-12-23 20:39:02 公開日:2020-03-14
# ディープフォトニックニューラルネットワークのための互換性のある学習

Compatible Learning for Deep Photonic Neural Network ( http://arxiv.org/abs/2003.08360v1 )

ライセンス: Link先を確認
Yong-Liang Xiao, Rongguang Liang, Jianxin Zhong, Xianyu Su, Zhisheng You(参考訳) コヒーレントな光学場を用いたディープラーニングの実現が注目されているが、これは光行列操作が本質的に並列計算と低レイテンシで光速で実行できる点に利点がある。 フォトニックニューラルネットワークは、予測指向タスクに重要な可能性を持っている。 しかし、実数値バックプロパゲーションは、コヒーレントなフォトニックインテリジェントなトレーニングではやや難解に振る舞う。 複素空間における非線型なアクティベーションを, 明らかにされた互換条件に応じて効率的に選択できる, 互換性のある学習プロトコルを開発した。 互換性は、複素空間における行列表現が実際の表現をカバーすることを示し、統一モデルとして実空間と複素空間における単一のチャネルの混合トレーニングを可能にする。 相論理xorゲートとmach-zehnder干渉計,および光変調機構を備えた拡散型ニューラルネットワークを用いて,互換性のある学習から学習した知的重みを実装した。 互換性のある学習は、深層フォトニックニューラルネットワークのための望まれる窓を開く。

Realization of deep learning with coherent optical field has attracted remarkably attentions presently, which benefits on the fact that optical matrix manipulation can be executed at speed of light with inherent parallel computation as well as low latency. Photonic neural network has a significant potential for prediction-oriented tasks. Yet, real-value Backpropagation behaves somewhat intractably for coherent photonic intelligent training. We develop a compatible learning protocol in complex space, of which nonlinear activation could be selected efficiently depending on the unveiled compatible condition. Compatibility indicates that matrix representation in complex space covers its real counterpart, which could enable a single channel mingled training in real and complex space as a unified model. The phase logical XOR gate with Mach-Zehnder interferometers and diffractive neural network with optical modulation mechanism, implementing intelligent weight learned from compatible learning, are presented to prove the availability. Compatible learning opens an envisaged window for deep photonic neural network.
翻訳日:2022-12-23 20:38:41 公開日:2020-03-14
# EmotiCon:Fregeの原理を用いたコンテキスト対応マルチモーダル感情認識

EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege's Principle ( http://arxiv.org/abs/2003.06692v1 )

ライセンス: Link先を確認
Trisha Mittal, Pooja Guhan, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera and Dinesh Manocha(参考訳) EmotiConは、ビデオや画像からの人間の感情認識をコンテキスト認識する学習アルゴリズムである。 心理学におけるフレーゲの文脈原理に動機づけられ,感情認識のための文脈の3つの解釈を組み合わせる。 私たちの最初の解釈は、感情認識に複数のモダリティ(顔や歩行など)を使うことに基づいている。 第2の解釈では,入力画像から意味コンテキストを収集し,自己注意に基づくCNNを用いて情報を符号化する。 最後に, 深層マップを用いて, エージェント間の社会-力学的相互作用と近接関係に関する第3の解釈をモデル化する。 ベンチマークデータセットであるEMOTICの実験を通して,ネットワークの効率を実証する。 平均精度 (AP) スコアは26クラスで35.48であり, 従来の手法よりも7-8の改善が見られた。 また、歩く人の複数の現実世界設定で撮影されたビデオのコレクションである、新しいデータセット、GroupWalkも導入しました。 本報告では,GroupWalkの4つのカテゴリにまたがる65.83のAPについて報告する。

We present EmotiCon, a learning-based algorithm for context-aware perceived human emotion recognition from videos and images. Motivated by Frege's Context Principle from psychology, our approach combines three interpretations of context for emotion recognition. Our first interpretation is based on using multiple modalities(e.g. faces and gaits) for emotion recognition. For the second interpretation, we gather semantic context from the input image and use a self-attention-based CNN to encode this information. Finally, we use depth maps to model the third interpretation related to socio-dynamic interactions and proximity among agents. We demonstrate the efficiency of our network through experiments on EMOTIC, a benchmark dataset. We report an Average Precision (AP) score of 35.48 across 26 classes, which is an improvement of 7-8 over prior methods. We also introduce a new dataset, GroupWalk, which is a collection of videos captured in multiple real-world settings of people walking. We report an AP of 65.83 across 4 categories on GroupWalk, which is also an improvement over prior methods.
翻訳日:2022-12-23 20:38:24 公開日:2020-03-14
# PDE正規化学習における誤差境界

Error bounds for PDE-regularized learning ( http://arxiv.org/abs/2003.06524v1 )

ライセンス: Link先を確認
Carsten Gr\"aser and Prem Anand Alathur Srinivasan(参考訳) 本研究では,偏微分方程式(pdes)による教師付き学習問題の正則化と,得られた近似に対する誤差境界を,pde誤差項とデータ誤差項を用いて導出する。 対象関数が未知のPDEを満たすと仮定すると、PDE誤差項は正規化に使用される補助PDEによってこのPDEがどの程度うまく近似されるかを定量化する。 この誤差項は、より多くのデータが提供されると減少する。 データエラー項は、与えられたデータの精度を定量化する。 さらに、pde正規化学習問題は、必ずしも部分空間ではない無限次元関数空間の部分集合における関連する最小化問題を解く一般化されたガレルキン離散化によって離散化される。 このような離散化のために、PDEエラー、データエラー、および最良の近似誤差の観点から有界な誤差を導出する。

In this work we consider the regularization of a supervised learning problem by partial differential equations (PDEs) and derive error bounds for the obtained approximation in terms of a PDE error term and a data error term. Assuming that the target function satisfies an unknown PDE, the PDE error term quantifies how well this PDE is approximated by the auxiliary PDE used for regularization. It is shown that this error term decreases if more data is provided. The data error term quantifies the accuracy of the given data. Furthermore, the PDE-regularized learning problem is discretized by generalized Galerkin discretizations solving the associated minimization problem in subsets of the infinite dimensional functions space, which are not necessarily subspaces. For such discretizations an error bound in terms of the PDE error, the data error, and a best approximation error is derived.
翻訳日:2022-12-23 20:38:07 公開日:2020-03-14
# tafssl: 少数ショット分類のためのタスク適応型サブスペース学習

TAFSSL: Task-Adaptive Feature Sub-Space Learning for few-shot classification ( http://arxiv.org/abs/2003.06670v1 )

ライセンス: Link先を確認
Moshe Lichtenstein and Prasanna Sattigeri and Rogerio Feris and Raja Giryes and Leonid Karlinsky(参考訳) FSL(Few-Shot Learning)の分野や、ごく少数(通常1ドルまたは5ドル)の例から学ぶこと(トレーニング中に見えなくなる)は、近年の文献で多くの注目を集め、大きなパフォーマンス向上を遂げている。 FSLには多くの技術が提案されているが、FSLのパフォーマンスにおいて最も重要な要因がいくつか現れており、最も単純な技術であってもSOTAを付与している。 ベースクラスのバックボーンアーキテクチャ(より大きいのはよい)、ベースクラスの事前トレーニングのタイプ(メタトレーニングと通常のマルチクラス、現在の正規の勝利)、ベースクラスのセットの量と多様性(より豊かで適応性の高い特徴をもたらす)、事前トレーニング中の自己教師型タスクの使用(ベースセットの多様性を高めるプロキシとして機能する)である。 本稿では,与えられた少数ショットテストタスクに対して識別可能なコンパクトな機能サブスペースを探索する,少数ショット学習性能にとって重要な新たな簡易手法を提案する。 タスク適応型特徴部分空間学習(TAFSSL)は、ラベルなしデータの一部が新しい数ショットタスクに付随する場合や、ラベルなしクエリのセット(変換型FSL)やラベルなしデータサンプルのセット(半教師付きFSL)など、FSLシナリオのパフォーマンスを大幅に向上させることができることを示す。 具体的には、挑戦的な miniImageNet と tieredImageNet ベンチマークにおいて、TAFSSL はトランスダクティブと半教師付き両方の FSL 設定の最先端性を 5 % 以上改善できる一方で、FSL の未ラベルデータを使用するメリットを 10 % 以上のパフォーマンス向上に拡張できることを示す。

The field of Few-Shot Learning (FSL), or learning from very few (typically $1$ or $5$) examples per novel class (unseen during training), has received a lot of attention and significant performance advances in the recent literature. While number of techniques have been proposed for FSL, several factors have emerged as most important for FSL performance, awarding SOTA even to the simplest of techniques. These are: the backbone architecture (bigger is better), type of pre-training on the base classes (meta-training vs regular multi-class, currently regular wins), quantity and diversity of the base classes set (the more the merrier, resulting in richer and better adaptive features), and the use of self-supervised tasks during pre-training (serving as a proxy for increasing the diversity of the base set). In this paper we propose yet another simple technique that is important for the few shot learning performance - a search for a compact feature sub-space that is discriminative for a given few-shot test task. We show that the Task-Adaptive Feature Sub-Space Learning (TAFSSL) can significantly boost the performance in FSL scenarios when some additional unlabeled data accompanies the novel few-shot task, be it either the set of unlabeled queries (transductive FSL) or some additional set of unlabeled data samples (semi-supervised FSL). Specifically, we show that on the challenging miniImageNet and tieredImageNet benchmarks, TAFSSL can improve the current state-of-the-art in both transductive and semi-supervised FSL settings by more than $5\%$, while increasing the benefit of using unlabeled data in FSL to above $10\%$ performance gain.
翻訳日:2022-12-23 20:31:43 公開日:2020-03-14
# 部分領域適応のためのクラス条件アライメント

Class Conditional Alignment for Partial Domain Adaptation ( http://arxiv.org/abs/2003.06722v1 )

ライセンス: Link先を確認
Mohsen Kheirandishfard, Fariba Zohrizadeh, Farhad Kamangar(参考訳) ラベル付きソースデータセットからラベルなしターゲットデータセットへの知識の転送に向けて、敵対的適応モデルが大きな進歩を見せている。 部分的ドメイン適応(PDA)は、ソースドメインが広く多様なシナリオを調査し、ターゲットラベル空間はソースラベル空間のサブセットである。 PDAの主な目的は、ドメイン間の共有クラスを特定し、これらのクラスから学習可能な知識を促進することである。 本稿では,PDAのためのマルチクラス対逆アーキテクチャを提案する。 提案手法は,新しいマルチクラス逆損失関数を最小化することにより,共有ラベル空間における限界分布とクラス条件分布を協調的に調整する。 さらに、有効な正規化用語を組み込んで、ソースドメインクラスの最も関連性の高いサブセットの選択を促す。 対象ラベルが存在しない場合、提案手法はドメイン不変な特徴表現を効果的に学習することができ、それによって対象領域の分類性能が向上する。 office-31、office-home、caltech-officeの3つのベンチマークデータセットに関する包括的な実験は、異なる部分転送学習タスクに対処するための提案手法の有効性を裏付けている。

Adversarial adaptation models have demonstrated significant progress towards transferring knowledge from a labeled source dataset to an unlabeled target dataset. Partial domain adaptation (PDA) investigates the scenarios in which the source domain is large and diverse, and the target label space is a subset of the source label space. The main purpose of PDA is to identify the shared classes between the domains and promote learning transferable knowledge from these classes. In this paper, we propose a multi-class adversarial architecture for PDA. The proposed approach jointly aligns the marginal and class-conditional distributions in the shared label space by minimaxing a novel multi-class adversarial loss function. Furthermore, we incorporate effective regularization terms to encourage selecting the most relevant subset of source domain classes. In the absence of target labels, the proposed approach is able to effectively learn domain-invariant feature representations, which in turn can enhance the classification performance in the target domain. Comprehensive experiments on three benchmark datasets Office-31, Office-Home, and Caltech-Office corroborate the effectiveness of the proposed approach in addressing different partial transfer learning tasks.
翻訳日:2022-12-23 20:31:06 公開日:2020-03-14
# 地理ポータルのセマンティック・エンリッチ検索エンジン:ArcGISオンラインを事例として

Semantically-Enriched Search Engine for Geoportals: A Case Study with ArcGIS Online ( http://arxiv.org/abs/2003.06561v1 )

ライセンス: Link先を確認
Gengchen Mai, Krzysztof Janowicz, Sathya Prasad, Meilin Shi, Ling Cai, Rui Zhu, Blake Regalia, Ni Lao(参考訳) ArcGIS Onlineのような多くの地理ポータルは、地理空間データの再利用性を改善し、知的知識発見を達成することを目的としている。 しかし、これまでの研究によると、既存のジオポートのほとんどが、ユーザーの検索意図をキャプチャする能力に制限のあるコア検索機能を達成するために、luceneベースの技術を採用している。 ユーザの検索意図をよりよく理解するために、クエリ拡張を使用して、セマンティックに類似した用語を追加することで、ユーザのクエリを強化できる。 地理ポータルと地理情報検索の文脈において,地理空間的・主題的両面からユーザのクエリを意味的に豊かにする考え方を提唱する。 地理空間的な側面では,プレースパーティロミーと距離減衰の両方を用いてクエリを豊かにすることを提案する。 テーマの観点からは、概念拡張と埋め込みベースの文書類似性を用いて、ユーザのクエリに隠された暗黙の情報を推測する。 このセマンティッククエリ拡張 1 2 G. Mai et al. フレームワークは,ArcGIS Online をケーススタディとして,セマンティックに強化された検索エンジンとして実装されている。 ベンチマークデータセットは、提案フレームワークを評価するために構築されます。 評価の結果,提案手法はユーザの検索意図を把握する上で非常に有効であり,DCG@K(K=3,5,10)の3.0インクリメント以上で,十分に確立されたベースライン-Luceneの実用的スコアリング関数よりも優れていた。

Many geoportals such as ArcGIS Online are established with the goal of improving geospatial data reusability and achieving intelligent knowledge discovery. However, according to previous research, most of the existing geoportals adopt Lucene-based techniques to achieve their core search functionality, which has a limited ability to capture the user's search intentions. To better understand a user's search intention, query expansion can be used to enrich the user's query by adding semantically similar terms. In the context of geoportals and geographic information retrieval, we advocate the idea of semantically enriching a user's query from both geospatial and thematic perspectives. In the geospatial aspect, we propose to enrich a query by using both place partonomy and distance decay. In terms of the thematic aspect, concept expansion and embedding-based document similarity are used to infer the implicit information hidden in a user's query. This semantic query expansion 1 2 G. Mai et al. framework is implemented as a semantically-enriched search engine using ArcGIS Online as a case study. A benchmark dataset is constructed to evaluate the proposed framework. Our evaluation results show that the proposed semantic query expansion framework is very effective in capturing a user's search intention and significantly outperforms a well-established baseline-Lucene's practical scoring function-with more than 3.0 increments in DCG@K (K=3,5,10).
翻訳日:2022-12-23 20:30:45 公開日:2020-03-14
# プリファブリック建築における仮想アセンブリの自動化に向けて : シミュレーションbimによる構築シーケンシング

Toward Automated Virtual Assembly for Prefabricated Construction: Construction Sequencing through Simulated BIM ( http://arxiv.org/abs/2003.06695v1 )

ライセンス: Link先を確認
Gilmarie O'Neill, Matthew Ball, Yujing Liu, Mojtaba Noghabaei, and Kevin Han(参考訳) 建設工事の厳格な時間と予算要件に従うため、建設業者はプレハブ工法を利用して工事を迅速化している。 プレハブ工法は、請負業者と建設業者による十分なスケジュールと理解が必要となる。 プレハブ構築の特異性は、しばしば非効率なスケジューリングとコストのかかる再作業時間につながる。 設計者、請負業者、コンストラクタは、その方法の利点をフルに享受するために、アセンブリプロセスを強く理解しなければならない。 アセンブリプロセスの理解のルーツは、どのようにプロセスを実行するかを視覚化することだ。 現在、仮想構築モデルを用いて、構築プロセスを説明し、視覚化している。 しかし、仮想構築モデルの作成は、現在時間がかかり、経験豊富な人材を必要とする。 仮想アセンブリのシミュレーションにより,ビル情報モデリング(BIM)モデルで利用可能なデータを実装することにより,仮想構築モデリングの自動化が促進される。 本稿では,開発レベル(LOD)に基づく構築順序の形式化など,自動化された仮想アセンブリの開発に対処する必要がある諸要因について述べる。 これらの因子を示す2つのケーススタディが提示されている。

To adhere to the stringent time and budget requirements of construction projects, contractors are utilizing prefabricated construction methods to expedite the construction process. Prefabricated construction methods require an adequate schedule and understanding by the contractors and constructors to be successful. The specificity of prefabricated construction often leads to inefficient scheduling and costly rework time. The designer, contractor, and constructors must have a strong understanding of the assembly process to experience the full benefits of the method. At the root of understanding the assembly process is visualizing how the process is intended to be performed. Currently, a virtual construction model is used to explain and better visualize the construction process. However, creating a virtual construction model is currently time consuming and requires experienced personnel. The proposed simulation of the virtual assembly will increase the automation of virtual construction modeling by implementing the data available in a building information modeling (BIM) model. This paper presents various factors (i.e., formalization of construction sequence based on the level of development (LOD)) that needs to be addressed for the development of automated virtual assembly. Two case studies are presented to demonstrate these factors.
翻訳日:2022-12-23 20:29:57 公開日:2020-03-14
# ロボット手術における生体力学ソフトトイシューシミュレーションの現実性向上のための視覚データと運動データの利用

Leveraging Vision and Kinematics Data to Improve Realism of Biomechanic Soft-tissue Simulation for Robotic Surgery ( http://arxiv.org/abs/2003.06518v1 )

ライセンス: Link先を確認
Jie Ying Wu, Peter Kazanzides, Mathias Unberath(参考訳) 目的の手術シミュレーションは、ロボットが手術サブタスクを実行できるような、外科医教育やアルゴリズムの開発において、ますます重要な役割を担っている。 解剖学をモデル化するため、有限要素法(FEM)シミュレーションは正確な軟形状変形を計算するための金の標準として保持されている。 残念ながら、それらの精度はシミュレーションパラメータに大きく依存しており、入手は困難である。 そこで本研究では, ロボット内視鏡手術中に取得したライブデータを, 不正確なfemシミュレーション結果の補正に利用する方法について検討する。 FEMは初期パラメータから計算され、直接観測を組み込むことができないため、シミュレーションと観測の相違を考慮した補正因子を加えることを提案する。 この補正因子を予測するためにネットワークを訓練します。 提案手法を評価するために,オープンソースのda Vinciオペレーショナル・システムを用いて,ソフトチップファントムを探索し,シミュレーションでインタラクションを再現する。 予測されたメッシュ位置と測定点雲の違いを補正するためにネットワークを訓練する。 その結果,平均距離は15~30%向上し,多種多様なシミュレーションパラメータを用いた提案手法の有効性が示された。 結論 モデルに基づくシミュレーションとリアルタイム観測の利点を相乗的に組み合わせたフレームワークへの第一歩を示す。 シミュレーションと不正確なモデリングパラメータから生じるシーンの相違を補正する。 これにより、外科医にとってより正確なシミュレーション環境と、アルゴリズムを訓練するためのより良いデータを提供できる。

Purpose Surgical simulations play an increasingly important role in surgeon education and developing algorithms that enable robots to perform surgical subtasks. To model anatomy, Finite Element Method (FEM) simulations have been held as the gold standard for calculating accurate soft-tissue deformation. Unfortunately, their accuracy is highly dependent on the simulation parameters, which can be difficult to obtain. Methods In this work, we investigate how live data acquired during any robotic endoscopic surgical procedure may be used to correct for inaccurate FEM simulation results. Since FEMs are calculated from initial parameters and cannot directly incorporate observations, we propose to add a correction factor that accounts for the discrepancy between simulation and observations. We train a network to predict this correction factor. Results To evaluate our method, we use an open-source da Vinci Surgical System to probe a soft-tissue phantom and replay the interaction in simulation. We train the network to correct for the difference between the predicted mesh position and the measured point cloud. This results in 15-30% improvement in the mean distance, demonstrating the effectiveness of our approach across a large range of simulation parameters. Conclusion We show a first step towards a framework that synergistically combines the benefits of model-based simulation and real-time observations. It corrects discrepancies between simulation and the scene that results from inaccurate modeling parameters. This can provide a more accurate simulation environment for surgeons and better data with which to train algorithms.
翻訳日:2022-12-23 20:29:40 公開日:2020-03-14
# 深層学習による閉塞点雲の対称性検出

Symmetry Detection of Occluded Point Cloud Using Deep Learning ( http://arxiv.org/abs/2003.06520v1 )

ライセンス: Link先を確認
Zhelun Wu, Hongyan Jiang, Siyun He(参考訳) 対称性検出はコンピュータグラフィックスにおける古典的な問題であり、その多くが伝統的な幾何学的手法を用いている。 しかし近年,深層学習によってコンピュータグラフィックスの景観が変化しているのが目撃されている。 本稿では,オクルードポイント雲の対称性検出をディープラーニングで解くことを目的としている。 私たちの知る限りでは、このような問題に取り組むためにディープラーニングを利用するのは初めてです。 このような深層学習の枠組みでは、二重監督:対称性平面上の点と正規ベクトルを用いて対称性平面をピンポイントする。 ycb-ビデオデータセットの実験を行い,本手法の有効性を実証した。

Symmetry detection has been a classical problem in computer graphics, many of which using traditional geometric methods. In recent years, however, we have witnessed the arising deep learning changed the landscape of computer graphics. In this paper, we aim to solve the symmetry detection of the occluded point cloud in a deep-learning fashion. To the best of our knowledge, we are the first to utilize deep learning to tackle such a problem. In such a deep learning framework, double supervisions: points on the symmetry plane and normal vectors are employed to help us pinpoint the symmetry plane. We conducted experiments on the YCB- video dataset and demonstrate the efficacy of our method.
翻訳日:2022-12-23 20:29:16 公開日:2020-03-14
# W-NetからCDGAN:ディープラーニング技術によるバイテンポラル変化検出

From W-Net to CDGAN: Bi-temporal Change Detection via Deep Learning Techniques ( http://arxiv.org/abs/2003.06583v1 )

ライセンス: Link先を確認
Bin Hou, Qingjie Liu, Heng Wang, and Yunhong Wang(参考訳) 従来の変化検出手法は通常、画像の差分、特徴抽出、分類の枠組みに従っており、その性能はそのような単純な画像領域の差分と手作りの特徴によって制限される。 近年、深層畳み込みニューラルネットワーク(cnns)の成功は、その強力な表現能力のためにコンピュータビジョンの分野全体に広く広まっている。 そこで本稿では,深層学習技術を用いてリモートセンシング画像変化検出問題に対処する。 まず、従来の変更検出モデルのように、各ブランチを2つのバイテンポラルイメージの1つとして、W-Netと呼ばれるエンドツーエンドのデュアルブランチアーキテクチャを提案する。 このようにして、より強力な代表能力を持つCNN特徴が得られ、最終検出性能が向上する。 また、w-netは従来のイメージドメインではなく、機能ドメインで異なる処理を行い、変更を決定するための有用な情報の損失を大幅に軽減します。 さらに、画像翻訳問題として変化検出を再構成することにより、最近のW-Netがジェネレータとして機能するGAN(Generative Adversarial Network)を適用し、CDGANと呼ぶ変更検出のための新しいGANアーキテクチャを実現する。 ネットワークをトレーニングし、将来の研究を促進するために、google earthから画像を収集し、慎重に注釈付き地上真理を提供する、大規模なデータセットを構築します。 実験により,提案手法は既存のベースラインよりもきめ細かい変化検出結果を提供できることを示した。

Traditional change detection methods usually follow the image differencing, change feature extraction and classification framework, and their performance is limited by such simple image domain differencing and also the hand-crafted features. Recently, the success of deep convolutional neural networks (CNNs) has widely spread across the whole field of computer vision for their powerful representation abilities. In this paper, we therefore address the remote sensing image change detection problem with deep learning techniques. We firstly propose an end-to-end dual-branch architecture, termed as the W-Net, with each branch taking as input one of the two bi-temporal images as in the traditional change detection models. In this way, CNN features with more powerful representative abilities can be obtained to boost the final detection performance. Also, W-Net performs differencing in the feature domain rather than in the traditional image domain, which greatly alleviates loss of useful information for determining the changes. Furthermore, by reformulating change detection as an image translation problem, we apply the recently popular Generative Adversarial Network (GAN) in which our W-Net serves as the Generator, leading to a new GAN architecture for change detection which we call CDGAN. To train our networks and also facilitate future research, we construct a large scale dataset by collecting images from Google Earth and provide carefully manually annotated ground truths. Experiments show that our proposed methods can provide fine-grained change detection results superior to the existing state-of-the-art baselines.
翻訳日:2022-12-23 20:29:07 公開日:2020-03-14
# 学習に基づく2ショット仮想オートフォーカスによるラピッドフルスライドイメージング

Rapid Whole Slide Imaging via Learning-based Two-shot Virtual Autofocusing ( http://arxiv.org/abs/2003.06630v1 )

ライセンス: Link先を確認
Qiang Li, Xianming Liu, Kaige Han, Cheng Guo, Xiangyang Ji, and Xiaolin Wu(参考訳) whole slide imaging (wsi) はデジタル病理学の新しい技術である。 オートフォーカスのプロセスは、wsiのパフォーマンスの主な影響である。 従来のオートフォーカス方式は、反復的な機械的動作による時間消費であるか、追加のハードウェアを必要とするため、現在のwsiシステムと互換性がない。 本稿では,リフォーカスを行うための機械的な調整に頼らず,オフライン学習によるインフォーカス画像を復元する \textit{virtual autofocusing} の概念を提案する。 従来の方法では、タイルスキャン毎に最大21回の撮影を行う必要があるが、初期焦点位置では2枚撮影のみを行う。 そこで本研究では,u-netにインスパイアされた深層ニューラルネットワークを用いて,被写体に焦点を合わせられた2つの画像が焦点内画像に関する部分情報を保持していることを考慮し,焦点内画像に融合する手法を提案する。 提案手法は組織スライドスキャンにおいて高速であり,デジタル病理画像の高スループット生成を可能にする。 実験の結果,本方式は良好なリフォーカス性能を実現することがわかった。

Whole slide imaging (WSI) is an emerging technology for digital pathology. The process of autofocusing is the main influence of the performance of WSI. Traditional autofocusing methods either are time-consuming due to repetitive mechanical motions, or require additional hardware and thus are not compatible to current WSI systems. In this paper, we propose the concept of \textit{virtual autofocusing}, which does not rely on mechanical adjustment to conduct refocusing but instead recovers in-focus images in an offline learning-based manner. With the initial focal position, we only perform two-shot imaging, in contrast traditional methods commonly need to conduct as many as 21 times image shooting in each tile scanning. Considering that the two captured out-of-focus images retain pieces of partial information about the underlying in-focus image, we propose a U-Net-inspired deep neural network based approach for fusing them into a recovered in-focus image. The proposed scheme is fast in tissue slides scanning, enabling a high-throughput generation of digital pathology images. Experimental results demonstrate that our scheme achieves satisfactory refocusing performance.
翻訳日:2022-12-23 20:28:42 公開日:2020-03-14
# ニューラルモーションメッセージパッシングによる協調動作予測

Collaborative Motion Prediction via Neural Motion Message Passing ( http://arxiv.org/abs/2003.06594v1 )

ライセンス: Link先を確認
Yue Hu, Siheng Chen, Ya Zhang, and Xiao Gu(参考訳) 運動予測は自動運転車や社会ロボットにとって不可欠で難しい。 動き予測の1つの課題は、衝突や集団形成を避けるために互いに協力できる交通機関間の相互作用をモデル化することである。 この課題に対処するために、アクター間の対話を明示的にモデル化し、アクター間の対話の表現を学習するために、ニューラルモーションメッセージパッシング(NMMP)を提案する。 提案したNMMPに基づいて,歩行者設定と共同歩行者設定と車両設定の2つの設定に対して,動作予測システムを設計する。 どちらのシステムも共通のパターンを共有しており、ひとつのアクターの振る舞いをモデル化するために個々のブランチと、アクター間の相互作用をモデル化するために対話的なブランチを使用します。 実験の結果,既存のベンチマークでは,両システムともに従来の最先端手法を上回っていることがわかった。 さらに,インタラクション学習の解釈可能性も提供する。

Motion prediction is essential and challenging for autonomous vehicles and social robots. One challenge of motion prediction is to model the interaction among traffic actors, which could cooperate with each other to avoid collisions or form groups. To address this challenge, we propose neural motion message passing (NMMP) to explicitly model the interaction and learn representations for directed interactions between actors. Based on the proposed NMMP, we design the motion prediction systems for two settings: the pedestrian setting and the joint pedestrian and vehicle setting. Both systems share a common pattern: we use an individual branch to model the behavior of a single actor and an interactive branch to model the interaction between actors, while with different wrappers to handle the varied input formats and characteristics. The experimental results show that both systems outperform the previous state-of-the-art methods on several existing benchmarks. Besides, we provide interpretability for interaction learning.
翻訳日:2022-12-23 20:21:01 公開日:2020-03-14
# Augmentを学ぶ: テキスト認識のためのデータ拡張とネットワーク最適化

Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition ( http://arxiv.org/abs/2003.06606v1 )

ライセンス: Link先を確認
Canjie Luo, Yuanzhi Zhu, Lianwen Jin, Yongpan Wang(参考訳) 手書きのテキストやシーンのテキストは、様々な形や歪んだパターンに苦しむ。 したがって、堅牢な認識モデルをトレーニングするには、可能な限り多様性をカバーするために大量のデータが必要である。 データ収集やアノテーションとは対照的に、データ拡張は低コストの方法です。 本稿では,テキスト画像拡張のための新しい手法を提案する。 ローテーションやスケーリング,パースペクティブ変換といった従来の拡張手法とは違い,本提案手法は,より効率的かつ効率的なデータ拡張を学習し,ロバストな認識器の訓練に特化している。 カスタムfiducial pointのセットを使用することで,提案手法は柔軟かつ制御可能である。 さらに,データ拡張の分離プロセスと協調学習によるネットワーク最適化のギャップを橋渡しする。 エージェントネットワークは、認識ネットワークの出力から学習し、フィデューシャルポイントを制御することにより、認識ネットワークのより適切なトレーニングサンプルを生成する。 通常のシーンテキスト,不規則なシーンテキスト,手書きテキストなど,さまざまなベンチマークの広範な実験により,提案手法が拡張され,共同学習手法が認識ネットワークの性能を大幅に向上することが示された。 幾何学的拡張のための一般的なツールキットが利用可能である。

Handwritten text and scene text suffer from various shapes and distorted patterns. Thus training a robust recognition model requires a large amount of data to cover diversity as much as possible. In contrast to data collection and annotation, data augmentation is a low cost way. In this paper, we propose a new method for text image augmentation. Different from traditional augmentation methods such as rotation, scaling and perspective transformation, our proposed augmentation method is designed to learn proper and efficient data augmentation which is more effective and specific for training a robust recognizer. By using a set of custom fiducial points, the proposed augmentation method is flexible and controllable. Furthermore, we bridge the gap between the isolated processes of data augmentation and network optimization by joint learning. An agent network learns from the output of the recognition network and controls the fiducial points to generate more proper training samples for the recognition network. Extensive experiments on various benchmarks, including regular scene text, irregular scene text and handwritten text, show that the proposed augmentation and the joint learning methods significantly boost the performance of the recognition networks. A general toolkit for geometric augmentation is available.
翻訳日:2022-12-23 20:20:43 公開日:2020-03-14
# 癌分類におけるヒストグラム処理と特徴抽出を用いた医用画像強調

Medical Image Enhancement Using Histogram Processing and Feature Extraction for Cancer Classification ( http://arxiv.org/abs/2003.06615v1 )

ライセンス: Link先を確認
Sakshi Patel, Bharath K P and Rajesh Kumar Muthu(参考訳) MRI(Magnetic Resonance Imaging)は、脳のがんや腫瘍などの画像によって定義される問題を解析し、診断するための技術である。 医師は、疾患の最大情報を含むため、より良い治療目的のために良いコントラスト画像を要求する。 MRI画像は低コントラスト画像であり,診断が困難である。 ヒストグラム等化技術は、画像の質を向上し、よく定義された問題を与えるのに役立つ。 コントラストと明るさは元の情報を失わないように強化され、明るさは保存される。 本論文では, 異なる等化手法を比較し, 批判的に研究され, 精巧化されている。 それらはまた、画像に存在する様々なパラメータを比較するために集計される。 また,k-meansアルゴリズムを用いて脳内腫瘍部分の分節抽出を行った。 分類と特徴抽出のために使用される方法は support vector machine (svm) である。 この研究の主な目標は、医療分野を画像処理の光で支援することである。

MRI (Magnetic Resonance Imaging) is a technique used to analyze and diagnose the problem defined by images like cancer or tumor in a brain. Physicians require good contrast images for better treatment purpose as it contains maximum information of the disease. MRI images are low contrast images which make diagnoses difficult; hence better localization of image pixels is required. Histogram Equalization techniques help to enhance the image so that it gives an improved visual quality and a well defined problem. The contrast and brightness is enhanced in such a way that it does not lose its original information and the brightness is preserved. We compare the different equalization techniques in this paper; the techniques are critically studied and elaborated. They are also tabulated to compare various parameters present in the image. In addition we have also segmented and extracted the tumor part out of the brain using K-means algorithm. For classification and feature extraction the method used is Support Vector Machine (SVM). The main goal of this research work is to help the medical field with a light of image processing.
翻訳日:2022-12-23 20:20:25 公開日:2020-03-14
# 非ローカルな部分認識ポイントクラウドデノイング

Non-Local Part-Aware Point Cloud Denoising ( http://arxiv.org/abs/2003.06631v1 )

ライセンス: Link先を確認
Chao Huang, Ruihui Li, Xianzhi Li, and Chi-Wing Fu(参考訳) 本稿では,3次元オブジェクトやシーンに固有の非局所的な自己相似性を探索することにより,点群を識別する新しい非局所部分認識ディープニューラルネットワークを提案する。 小さなローカルパッチを探索する既存の作業とは異なり、グラフアテンションモジュールでカスタマイズされた非ローカル学習ユニット(NLU)を設計し、ポイントクラウド全体の非ローカルセマンティック関連機能を適応的にキャプチャする。 雑音発生性能を向上させるため,ノイズ特性をノイズ入力から段階的に抽出する一連のNLUをカスケードする。 また、従来の表面復元損失の他に、意味的な部分損失を定式化し、関連する部分に対する予測を定式化し、部分認識によるデノージングを可能にする。 最後に,本手法を定量的および定性的に評価し,合成および実走査ノイズ入力における最先端技術よりも優れていることを示した。

This paper presents a novel non-local part-aware deep neural network to denoise point clouds by exploring the inherent non-local self-similarity in 3D objects and scenes. Different from existing works that explore small local patches, we design the non-local learning unit (NLU) customized with a graph attention module to adaptively capture non-local semantically-related features over the entire point cloud. To enhance the denoising performance, we cascade a series of NLUs to progressively distill the noise features from the noisy inputs. Further, besides the conventional surface reconstruction loss, we formulate a semantic part loss to regularize the predictions towards the relevant parts and enable denoising in a part-aware manner. Lastly, we performed extensive experiments to evaluate our method, both quantitatively and qualitatively, and demonstrate its superiority over the state-of-the-arts on both synthetic and real-scanned noisy inputs.
翻訳日:2022-12-23 20:19:54 公開日:2020-03-14
# リアルタイム舌セグメンテーションのための境界誘導階層ネットワーク

Boundary Guidance Hierarchical Network for Real-Time Tongue Segmentation ( http://arxiv.org/abs/2003.06529v1 )

ライセンス: Link先を確認
Xinyi Zeng, Qian Zhang, Jia Chen, Guixu Zhang, Aimin Zhou and Yiqin Wang(参考訳) 舌画像における自動舌画像分割は2つの理由から難しい課題である。 1) 舌表面の病理学的詳細は多く, 境界の抽出に影響を及ぼす。 2) さまざまな人(疾患の異なる)から採取された舌の形状は, 大きく異なる。 この課題に対処するために,新たなハイブリッド損失を伴う新しいエンドツーエンド境界ガイダンス階層ネットワーク(bghnet)を提案する。 新たなアプローチでは、最初にContext Feature Encoder Module (CFEM) がボトムアップパス上に構築され、受信フィールドの縮小に対処する。 次に,新しい階層的リカレント機能融合モジュール(hrffm)を用いて,局所的コンテキスト情報の統合により,オブジェクトマップを段階的かつ階層的に洗練し,画像詳細を復元する。 最後に,提案する4つの階層画素,パッチ,マップ,バウンダリにおけるハイブリッド損失は,ネットワークを誘導し,舌領域と正確な舌境界を効果的に分割する。 BGHNetは、一連の舌画像に適用される。 実験の結果,提案手法が最新の舌分節性能を達成できることが示唆された。 一方、軽量ネットワークは15.45Mパラメータのみを含み、11.22GFLOPSのみを実行する。

Automated tongue image segmentation in tongue images is a challenging task for two reasons: 1) there are many pathological details on the tongue surface, which affect the extraction of the boundary; 2) the shapes of the tongues captured from various persons (with different diseases) are quite different. To deal with the challenge, a novel end-to-end Boundary Guidance Hierarchical Network (BGHNet) with a new hybrid loss is proposed in this paper. In the new approach, firstly Context Feature Encoder Module (CFEM) is built upon the bottomup pathway to confront with the shrinkage of the receptive field. Secondly, a novel hierarchical recurrent feature fusion module (HRFFM) is adopt to progressively and hierarchically refine object maps to recover image details by integrating local context information. Finally, the proposed hybrid loss in a four hierarchy-pixel, patch, map and boundary guides the network to effectively segment the tongue regions and accurate tongue boundaries. BGHNet is applied to a set of tongue images. The experimental results suggest that the proposed approach can achieve the latest tongue segmentation performance. And in the meantime, the lightweight network contains only 15.45M parameters and performs only 11.22GFLOPS.
翻訳日:2022-12-23 20:12:43 公開日:2020-03-14
# アーティストによる対話型ニューラルスタイル転送

Interactive Neural Style Transfer with Artists ( http://arxiv.org/abs/2003.06659v1 )

ライセンス: Link先を確認
Thomas Kerdreux and Louis Thiry and Erwan Kerdreux(参考訳) 本稿では,画家と様々なニューラルスタイル伝達アルゴリズムが実際のキャンバス上で相互作用するインタラクティブな絵画プロセスを提案する。 これらのアルゴリズムの成果を理解することは、インタラクティブな実験で創造的なエージェンシーを記述する上で最重要である。 本研究では,一対の絵画画像を集め,ニューラルスタイル伝達アルゴリズムの予測性に基づく新しい評価手法を提案する。 いくつかのアルゴリズムの不安定性を指摘し、既存のニューラルスタイルのトランスファーアルゴリズムによって合成された画像の多様性を拡大し、奇異性を喜ばせるために使用できることを示す。 この画像の多様性は、人間の画家のインスピレーションの源として認識され、機械を計算触媒として描写した。

We present interactive painting processes in which a painter and various neural style transfer algorithms interact on a real canvas. Understanding what these algorithms' outputs achieve is then paramount to describe the creative agency in our interactive experiments. We gather a set of paired painting-pictures images and present a new evaluation methodology based on the predictivity of neural style transfer algorithms. We point some algorithms' instabilities and show that they can be used to enlarge the diversity and pleasing oddity of the images synthesized by the numerous existing neural style transfer algorithms. This diversity of images was perceived as a source of inspiration for human painters, portraying the machine as a computational catalyst.
翻訳日:2022-12-23 20:12:23 公開日:2020-03-14
# 脳MRIによる統合失調症の分類と制御のための3次元畳み込みニューラルネットワーク

Brain MRI-based 3D Convolutional Neural Networks for Classification of Schizophrenia and Controls ( http://arxiv.org/abs/2003.08818v1 )

ライセンス: Link先を確認
Mengjiao Hu, Kang Sim, Juan Helen Zhou, Xudong Jiang, Cuntai Guan(参考訳) 畳み込みニューラルネットワーク(cnn)は、自然画像と医療画像の両方の分類に有効であるが、精神分裂病患者と健康管理の区別にはまだ適用されていない。 統合失調症の微妙な、混合、分散した脳萎縮パターンを考えると、自動機能学習の能力により、cnnは統合失調症をコントロールから分類する強力なツールとなり、関連する空間的特徴の選択における主観性を取り除きます。 CNNを統合失調症の分類や構造的磁気共鳴イメージング(MRI)に基づく制御に応用する可能性を検討するため、我々は異なるアーキテクチャの3D CNNモデルを構築し、その性能を手作りの特徴に基づく機械学習アプローチと比較した。 サポートベクトルマシン (SVM) は分類器として使われ、Voxel-based Morphometry (VBM) は手作り特徴ベース機械学習の機能として使われた。 シーケンシャルアーキテクチャ,インセプションモジュール,残留モジュールを備えた3次元cnnモデルをスクラッチからトレーニングした。 CNNモデルは手作りの特徴ベース機械学習よりも高いクロスバリデーション精度を達成した。 さらに、独立したデータセットでテストする3D CNNモデルは、手作りの機能ベースの機械学習よりも大幅に優れています。 本研究は,3次元脳MRI画像を用いて統合失調症患者を同定するCNNの可能性を明らかにし,精神疾患における画像に基づく個人レベルの診断と予後について検討した。

Convolutional Neural Network (CNN) has been successfully applied on classification of both natural images and medical images but not yet been applied to differentiating patients with schizophrenia from healthy controls. Given the subtle, mixed, and sparsely distributed brain atrophy patterns of schizophrenia, the capability of automatic feature learning makes CNN a powerful tool for classifying schizophrenia from controls as it removes the subjectivity in selecting relevant spatial features. To examine the feasibility of applying CNN to classification of schizophrenia and controls based on structural Magnetic Resonance Imaging (MRI), we built 3D CNN models with different architectures and compared their performance with a handcrafted feature-based machine learning approach. Support vector machine (SVM) was used as classifier and Voxel-based Morphometry (VBM) was used as feature for handcrafted feature-based machine learning. 3D CNN models with sequential architecture, inception module and residual module were trained from scratch. CNN models achieved higher cross-validation accuracy than handcrafted feature-based machine learning. Moreover, testing on an independent dataset, 3D CNN models greatly outperformed handcrafted feature-based machine learning. This study underscored the potential of CNN for identifying patients with schizophrenia using 3D brain MR images and paved the way for imaging-based individual-level diagnosis and prognosis in psychiatric disorders.
翻訳日:2022-12-23 20:11:51 公開日:2020-03-14
# 誤情報分類のための単語埋め込みを用いたテキスト類似性

Text Similarity Using Word Embeddings to Classify Misinformation ( http://arxiv.org/abs/2003.06634v1 )

ライセンス: Link先を確認
Caio Almeida and D\'ebora Santos(参考訳) フェイクニュースはここ数年、特に選挙では大きな問題となっている。 毎日流れているすべてのユーザー生成コンテンツの中で、何が真実で何が偽なのかを特定するのは難しい作業です。 テクノロジーは、その作業に役立ち、ファクトチェックのプロセスを最適化する。 本研究では,以前に検証された可能性のあるファクトチェッカー記事に対して,同じ情報が1回以上検証されるのを避けるために,類似コンテンツを見つけるという課題に対処する。 これは、大きなチームのメンバが他のメンバがすでにファクトチェック済みのコンテンツを知らない、ファクトチェックへの協力的アプローチにおいて特に重要です。

Fake news is a growing problem in the last years, especially during elections. It's hard work to identify what is true and what is false among all the user generated content that circulates every day. Technology can help with that work and optimize the fact-checking process. In this work, we address the challenge of finding similar content in order to be able to suggest to a fact-checker articles that could have been verified before and thus avoid that the same information is verified more than once. This is especially important in collaborative approaches to fact-checking where members of large teams will not know what content others have already fact-checked.
翻訳日:2022-12-23 20:11:27 公開日:2020-03-14
# 単語埋め込みのみを用いた158言語における単語センスの曖昧化

Word Sense Disambiguation for 158 Languages using Word Embeddings Only ( http://arxiv.org/abs/2003.06651v1 )

ライセンス: Link先を確認
Varvara Logacheva and Denis Teslenko and Artem Shelmanov and Steffen Remus and Dmitry Ustalov and Andrey Kutuzov and Ekaterina Artemova and Chris Biemann and Simone Paolo Ponzetto and Alexander Panchenko(参考訳) 文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。 この課題を解決するために、高度に教師付きおよび知識に基づくモデルが開発された。 しかし、 i) 所定の単語及び/又はに対する教師付き訓練インスタンスの固有なZipfian分布 (ii)言語知識表現の質は、単語感覚曖昧化(wsd)に対する完全に教師なしで知識のないアプローチの開発を動機付ける。 教師付きおよび/または知識ベースのモデルを構築するためのリソースを持たない、非リソースの言語で特に有用である。 本稿では,標準の事前学習された単語埋め込みモデルを入力し,文脈の曖昧さ解消に使用可能な単語センスインベントリを誘導する手法を提案する。 我々はこの手法を用いて,Graveらによるトレーニング済みのfastText単語の埋め込み(2018年)に基づいて,158言語に対するセンスインベントリのコレクションを誘導し,これらの言語でWSDを実現する。 モデルとシステムはオンラインで入手できる。

Disambiguation of word senses in context is easy for humans, but is a major challenge for automatic approaches. Sophisticated supervised and knowledge-based models were developed to solve this task. However, (i) the inherent Zipfian distribution of supervised training instances for a given word and/or (ii) the quality of linguistic knowledge representations motivate the development of completely unsupervised and knowledge-free approaches to word sense disambiguation (WSD). They are particularly useful for under-resourced languages which do not have any resources for building either supervised and/or knowledge-based models. In this paper, we present a method that takes as input a standard pre-trained word embedding model and induces a fully-fledged word sense inventory, which can be used for disambiguation in context. We use this method to induce a collection of sense inventories for 158 languages on the basis of the original pre-trained fastText word embeddings by Grave et al. (2018), enabling WSD in these languages. Models and system are available online.
翻訳日:2022-12-23 20:11:17 公開日:2020-03-14
# ハイブリッド暗号通貨ポンプとダンプ検出

Hybrid Cryptocurrency Pump and Dump Detection ( http://arxiv.org/abs/2003.06551v1 )

ライセンス: Link先を確認
Hadi Mansourifar, Lin Chen, Weidong Shi(参考訳) 仮想通貨市場の成長は、為替市場で異常な活動と見なされているポンプやダンプスキームを詐欺師が実行するための隠れ家になりつつある。 時系列における異常検出は、すべてのコンテキストにおける異常を検出するのに既存の手法では十分ではないため、難しい。 本稿では,距離と密度の指標に基づく新しいハイブリッドポンプとダンプ検出手法を提案する。 まず,距離に基づく異常検出のための新しいスレッシュ古い設定法を提案する。 第二に,密度に基づく異常検出のための密度スコアと呼ばれる新しい指標を提案する。 最後に、密度と距離のメトリクスの組み合わせをハイブリッドアプローチとしてうまく活用する。 実験の結果,提案手法は,密度ベースと距離ベースの両方の手法を上回ることで,上位ランクの交換対におけるp&d活動の多数を検出できることがわかった。

Increasingly growing Cryptocurrency markets have become a hive for scammers to run pump and dump schemes which is considered as an anomalous activity in exchange markets. Anomaly detection in time series is challenging since existing methods are not sufficient to detect the anomalies in all contexts. In this paper, we propose a novel hybrid pump and dump detection method based on distance and density metrics. First, we propose a novel automatic thresh-old setting method for distance-based anomaly detection. Second, we propose a novel metric called density score for density-based anomaly detection. Finally, we exploit the combination of density and distance metrics successfully as a hybrid approach. Our experiments show that, the proposed hybrid approach is reliable to detect the majority of alleged P & D activities in top ranked exchange pairs by outperforming both density-based and distance-based methods.
翻訳日:2022-12-23 20:11:01 公開日:2020-03-14
# 独立ベクトル変分オートエンコーダを用いた半教師付き乱れ

Semi-supervised Disentanglement with Independent Vector Variational Autoencoders ( http://arxiv.org/abs/2003.06581v1 )

ライセンス: Link先を確認
Bo-Kyeong Kim, Sungjin Park, Geonmin Kim, Soo-Young Lee(参考訳) 本研究では,データ生成因子を変分オートエンコーダ内の2つの潜在ベクトルに分割することを目的とする。 1つのベクトルは対象の分類タスクに関連するクラス要素をキャプチャし、もう1つのベクトルは残りの情報に関連するスタイル要素をキャプチャする。 離散クラスの特徴を学習するために,少数のラベル付きデータを用いて,既存の教師なし手法で実施されるハイパーパラメータチューニングに要する労力を,簡便かつ効果的に削減できる監視手法を導入する。 さらに,ベクトル間の統計的独立性を促進する学習目標を提案する。 私たちはそれを示します i) このベクトル独立項は、複数の潜伏ベクトルに下限の証拠を分解して得られる結果の中に存在し、 2) ベクトル内の総相関の低減とともに独立性を促進することにより, 絡み合い性能が向上する。 複数の画像データセットで実施した実験により,本手法で達成した絡み合いが分類性能と生成制御性を向上させることを証明した。

We aim to separate the generative factors of data into two latent vectors in a variational autoencoder. One vector captures class factors relevant to target classification tasks, while the other vector captures style factors relevant to the remaining information. To learn the discrete class features, we introduce supervision using a small amount of labeled data, which can simply yet effectively reduce the effort required for hyperparameter tuning performed in existing unsupervised methods. Furthermore, we introduce a learning objective to encourage statistical independence between the vectors. We show that (i) this vector independence term exists within the result obtained on decomposing the evidence lower bound with multiple latent vectors, and (ii) encouraging such independence along with reducing the total correlation within the vectors enhances disentanglement performance. Experiments conducted on several image datasets demonstrate that the disentanglement achieved via our method can improve classification performance and generation controllability.
翻訳日:2022-12-23 20:04:29 公開日:2020-03-14
# 頑健な視覚質問応答のための対物サンプル合成

Counterfactual Samples Synthesizing for Robust Visual Question Answering ( http://arxiv.org/abs/2003.06576v1 )

ライセンス: Link先を確認
Long Chen, Xin Yan, Jun Xiao, Hanwang Zhang, Shiliang Pu, Yueting Zhuang(参考訳) VQA(Visual Question Answering)は、ここ数年で目覚ましい進歩を遂げてきたが、今日のVQAモデルは、列車の表層言語的相関を捉え、異なるQA分布を持つテストセットに一般化できない傾向にある。 言語バイアスを低減するために、近年のいくつかの研究は、ターゲットとするVQAモデルのトレーニングを規則化し、VQA-CP上での優位性を達成するための補助的な質問専用モデルを導入している。 しかし、設計の複雑さのため、現在の手法は理想的なVQAモデルの2つの必須特性を持つアンサンブルベースモデルに装備できない。 1) 視覚的説明可能:モデルは決定を行う際に適切な視覚領域に依存するべきである。 2) 質問感応性: モデルは問題の言語的変異に敏感であるべきである。 そこで本研究では,css(model-specific counterfactual samples synthesizing)トレーニング方式を提案する。 CSSは、画像や質問中の単語に重要なオブジェクトを隠蔽し、異なる接地的回答を割り当てることで、多数の対物的トレーニングサンプルを生成する。 相補的なサンプル(すなわち、オリジナルと生成されたサンプル)でトレーニングした後、VQAモデルはすべての重要なオブジェクトと単語に集中せざるを得なくなり、視覚的に説明可能な能力と質問に敏感な能力の両方が大幅に改善される。 その代わり、これらのモデルの性能はさらに向上する。 広範なアブレーションはcssの有効性を示している。 特に、LMHモデルの上に構築することで、VQA-CP v2上で58.95%の記録破り性能を実現し、6.5%のゲインを得た。

Despite Visual Question Answering (VQA) has realized impressive progress over the last few years, today's VQA models tend to capture superficial linguistic correlations in the train set and fail to generalize to the test set with different QA distributions. To reduce the language biases, several recent works introduce an auxiliary question-only model to regularize the training of targeted VQA model, and achieve dominating performance on VQA-CP. However, since the complexity of design, current methods are unable to equip the ensemble-based models with two indispensable characteristics of an ideal VQA model: 1) visual-explainable: the model should rely on the right visual regions when making decisions. 2) question-sensitive: the model should be sensitive to the linguistic variations in question. To this end, we propose a model-agnostic Counterfactual Samples Synthesizing (CSS) training scheme. The CSS generates numerous counterfactual training samples by masking critical objects in images or words in questions, and assigning different ground-truth answers. After training with the complementary samples (ie, the original and generated samples), the VQA models are forced to focus on all critical objects and words, which significantly improves both visual-explainable and question-sensitive abilities. In return, the performance of these models is further boosted. Extensive ablations have shown the effectiveness of CSS. Particularly, by building on top of the model LMH, we achieve a record-breaking performance of 58.95% on VQA-CP v2, with 6.5% gains.
翻訳日:2022-12-23 20:04:15 公開日:2020-03-14
# サイクル整合性による逆行訓練による大規模最適輸送

Large-Scale Optimal Transport via Adversarial Training with Cycle-Consistency ( http://arxiv.org/abs/2003.06635v1 )

ライセンス: Link先を確認
Guansong Lu, Zhiming Zhou, Jian Shen, Cheng Chen, Weinan Zhang, Yong Yu(参考訳) 大規模最適輸送の最近の進歩は、機械学習の応用シナリオを大きく広げた。 しかし、既存のメソッドは明示的にトランスポートマップを学習しないか、一般的なコスト関数をサポートしていない。 本稿では,輸送マップを直接解き,汎用コスト関数と互換性のある大規模最適輸送のためのエンドツーエンド手法を提案する。 確率的ニューラルネットワークによるトランスポートマップをモデル化し、敵のトレーニングによる限界分布の制約を強制する。 提案フレームワークは,サイクル整合性制約(s)を適用すれば,Mongeマップの学習や最適なビジェクションにさらに拡張することができる。 提案手法の有効性を検証し,ドメイン適応,画像から画像への変換,カラートランスファーなど,大規模実世界の既存手法と比較して優れた性能を示す。

Recent advances in large-scale optimal transport have greatly extended its application scenarios in machine learning. However, existing methods either not explicitly learn the transport map or do not support general cost function. In this paper, we propose an end-to-end approach for large-scale optimal transport, which directly solves the transport map and is compatible with general cost function. It models the transport map via stochastic neural networks and enforces the constraint on the marginal distributions via adversarial training. The proposed framework can be further extended towards learning Monge map or optimal bijection via adopting cycle-consistency constraint(s). We verify the effectiveness of the proposed method and demonstrate its superior performance against existing methods with large-scale real-world applications, including domain adaptation, image-to-image translation, and color transfer.
翻訳日:2022-12-23 20:03:48 公開日:2020-03-14
# ソーシャルメディア画像から個々の犬を特定する

Identifying Individual Dogs in Social Media Images ( http://arxiv.org/abs/2003.06705v1 )

ライセンス: Link先を確認
Djordje Batic, Dubravko Culibrk(参考訳) ソーシャルメディア上で発生する非拘束(ワイルド)画像において、個々の犬を認識できる視覚的AIソリューションの開発に焦点をあてた最初の研究結果を示す。 この研究は、ペットとその飼い主を対象とするソーシャルネットワークpet2netとの共同プロジェクトの一環だ。 Inception v3とSSD Inception v2アーキテクチャのトランスファー学習とオブジェクト検出のアプローチをそれぞれ組み合わせて、ユーザがPet2Netプラットフォームにアップロードした実際のデータを含む新しいデータセットを使用して、提案したパイプラインを評価する。 個々の犬を識別すると94.59%の精度が得られる。 当社のアプローチは、単純さとpet2netプラットフォームにアップロードされたすべてのイメージへのデプロイの容易さを念頭に置いて設計されています。 画像中の犬を識別するための純粋に視覚的なアプローチは、失われた犬を見つけることを目的としたPet2Net機能を強化し、プラットフォームが収集した他のデータから推測できない犬間の社会的関係を識別することに焦点を当てた将来の作業の基礎を形成する。

We present the results of an initial study focused on developing a visual AI solution able to recognize individual dogs in unconstrained (wild) images occurring on social media. The work described here is part of joint project done with Pet2Net, a social network focused on pets and their owners. In order to detect and recognize individual dogs we combine transfer learning and object detection approaches on Inception v3 and SSD Inception v2 architectures respectively and evaluate the proposed pipeline using a new data set containing real data that the users uploaded to Pet2Net platform. We show that it can achieve 94.59% accuracy in identifying individual dogs. Our approach has been designed with simplicity in mind and the goal of easy deployment on all the images uploaded to Pet2Net platform. A purely visual approach to identifying dogs in images, will enhance Pet2Net features aimed at finding lost dogs, as well as form the basis of future work focused on identifying social relationships between dogs, which cannot be inferred from other data collected by the platform.
翻訳日:2022-12-23 20:03:38 公開日:2020-03-14
# KNNモデルとKNNモデルにおける最小ノルム対応例

Minimum-Norm Adversarial Examples on KNN and KNN-Based Models ( http://arxiv.org/abs/2003.06559v1 )

ライセンス: Link先を確認
Chawin Sitawarin, David Wagner(参考訳) 我々は、kNNとニューラルネットワークを組み合わせたkNN分類器と分類器の逆例に対する堅牢性について検討する。 主な難点は、kNNに対する最適な攻撃を見つけることは、典型的なデータセットにとって難解であるという事実にある。 本研究では、Sitawarin & Wagner [1] の以前の研究に触発された、kNN および kNN ベースの防御に対する勾配に基づく攻撃を提案する。 我々の攻撃は、計算時間を最小限に増やすだけで、テストしたすべてのモデルにおいて、彼らのメソッドよりも優れていることを実証する。 この攻撃は、k > 1 が実行時間の 1% 未満の場合に、kn の最先端攻撃 [2] を打ち破る。 この攻撃が、kNNとその変異体の堅牢性を評価するための新しいベースラインとして使用できることを願っている。

We study the robustness against adversarial examples of kNN classifiers and classifiers that combine kNN with neural networks. The main difficulty lies in the fact that finding an optimal attack on kNN is intractable for typical datasets. In this work, we propose a gradient-based attack on kNN and kNN-based defenses, inspired by the previous work by Sitawarin & Wagner [1]. We demonstrate that our attack outperforms their method on all of the models we tested with only a minimal increase in the computation time. The attack also beats the state-of-the-art attack [2] on kNN when k > 1 using less than 1% of its running time. We hope that this attack can be used as a new baseline for evaluating the robustness of kNN and its variants.
翻訳日:2022-12-23 20:02:30 公開日:2020-03-14
# Tiny Eats: マイクロコントローラ上での食検出

Tiny Eats: Eating Detection on a Microcontroller ( http://arxiv.org/abs/2003.06699v1 )

ライセンス: Link先を確認
Maria T. Nyamukuru and Kofi M. Odame(参考訳) 自動食事モニタリング(adm)のための低電力高効率ウェアラブルデバイスへの関心が高まっている[1]。 オーディオイベント分類問題におけるディープニューラルネットワークの成功は、このタスクに理想的です。 しかし、ディープニューラルネットワークは計算集約的でエネルギー非効率なだけでなく、大量のメモリを必要とする。 これらの課題に対処するため、資源制約のあるアプリケーションに適した浅いゲート再帰ユニット(GRU)アーキテクチャを提案する。 本稿では,低消費電力マイクロコントローラであるArm Cortex M0+上で,浅いGRUニューラルネットワークであるTiny Eats GRUの実装について述べる。 Tiny Eats GRU は従来の GRU [2] と eGRU [3] のハイブリッドで、Arm Cortex M0+ に収まるほど小さく高速で、従来の GRU に匹敵する精度である。 Tiny Eats GRUはArm Cortex M0+メモリの4%しか使用せず、6ミリ秒のレイテンシと95.15%の正確さで食事や非食事のエピソードを特定する。

There is a growing interest in low power highly efficient wearable devices for automatic dietary monitoring (ADM) [1]. The success of deep neural networks in audio event classification problems makes them ideal for this task. Deep neural networks are, however, not only computationally intensive and energy inefficient but also require a large amount of memory. To address these challenges, we propose a shallow gated recurrent unit (GRU) architecture suitable for resource-constrained applications. This paper describes the implementation of the Tiny Eats GRU, a shallow GRU neural network, on a low power micro-controller, Arm Cortex M0+, to classify eating episodes. Tiny Eats GRU is a hybrid of the traditional GRU [2] and eGRU [3] to make it small and fast enough to fit on the Arm Cortex M0+ with comparable accuracy to the traditional GRU. The Tiny Eats GRU utilizes only 4% of the Arm Cortex M0+ memory and identifies eating or non-eating episodes with 6 ms latency and accuracy of 95.15%.
翻訳日:2022-12-23 20:02:05 公開日:2020-03-14
# 画像から画像へのニューラルネットワークによる大数でないペアの加算と減算

Image-to-image Neural Network for Addition and Subtraction of a Pair of Not Very Large Numbers ( http://arxiv.org/abs/2003.06592v1 )

ライセンス: Link先を確認
Vladimir Ivashkin(参考訳) 電卓の歴史を振り返ると、時間が経つにつれて機能が少なくなり、計算コストも高くなることが分かる。 現代の計算機はパソコン上で動作し、60fpsで描画されますが、マウスポインタで数桁をクリックするのに役立ちます。 検索エンジンは、しばしば電卓として使われるため、今日では2つの数字を追加するだけでインターネットが必要である。 本稿では、単純な数学的表現の画像を取り込み、回答のイメージを生成する畳み込みニューラルネットワークをさらに訓練することを提案する。 この神経電卓は2桁数のペアでのみ動作し、加算と減算のみをサポートする。 また、時には間違いを犯すこともある。 提案された電卓は人間の小さなステップだが、人類にとっては大きな飛躍だ。

Looking back at the history of calculators, one can see that they become less functional and more computationally expensive over time. A modern calculator runs on a personal computer and is drawn at 60 fps only to help us click a few digits with a mouse pointer. A search engine is often used as a calculator, which means that nowadays we need the Internet just to add two numbers. In this paper, we propose to go further and train a convolutional neural network that takes an image of a simple mathematical expression and generates an image of an answer. This neural calculator works only with pairs of double-digit numbers and supports only addition and subtraction. Also, sometimes it makes mistakes. We promise that the proposed calculator is a small step for man, but one giant leap for mankind.
翻訳日:2022-12-23 19:54:04 公開日:2020-03-14
# F0の教師なし離散表現を用いた音声合成における韻律変化の知覚

Perception of prosodic variation for speech synthesis using an unsupervised discrete representation of F0 ( http://arxiv.org/abs/2003.06686v1 )

ライセンス: Link先を確認
Zack Hodari, Catherine Lai, Simon King(参考訳) 英語では、韻律は、情報構造(例:コントラスト)から様式的変化(例:感情表現)まで、セグメントシーケンスに幅広い情報を追加する。 しかし,音声合成音声における韻律の制御を学習する場合,その制御がどう変化しているかは明らかになっていない。 プロソディのための離散表現学習に関する既存の研究は、高い自然性を示しているが、これらの表現が何をキャプチャするか、あるいは発話の有意に異なる変種を生成できるかは分析されていない。 モーメントセンタを「イントネーションコード」として,複数モーダル前の句レベルの変分自動エンコーダを提案する。 評価の結果,マルチモーダル潜在モデルからのイントネーション符号は,k平均クラスタリングを用いたベースラインとは大きく異なることがわかった。 我々は、コードがどの情報を持っているかを決定するために、後続の質的研究を行う。 最も一般的なリスナーは、発言や質問スタイルを持つイントネーションコードについてコメントした。 しかし、感情的、不確実、驚き、皮肉、攻撃的、動揺など、他の多くの感情関連スタイルも報告された。

In English, prosody adds a broad range of information to segment sequences, from information structure (e.g. contrast) to stylistic variation (e.g. expression of emotion). However, when learning to control prosody in text-to-speech voices, it is not clear what exactly the control is modifying. Existing research on discrete representation learning for prosody has demonstrated high naturalness, but no analysis has been performed on what these representations capture, or if they can generate meaningfully-distinct variants of an utterance. We present a phrase-level variational autoencoder with a multi-modal prior, using the mode centres as "intonation codes". Our evaluation establishes which intonation codes are perceptually distinct, finding that the intonation codes from our multi-modal latent model were significantly more distinct than a baseline using k-means clustering. We carry out a follow-up qualitative study to determine what information the codes are carrying. Most commonly, listeners commented on the intonation codes having a statement or question style. However, many other affect-related styles were also reported, including: emotional, uncertain, surprised, sarcastic, passive aggressive, and upset.
翻訳日:2022-12-23 19:53:18 公開日:2020-03-14
# 0-1多次元ナップサック問題を解くための独立性と制約付き同化を伴う帝国主義的競争アルゴリズム

Imperialist Competitive Algorithm with Independence and Constrained Assimilation for Solving 0-1 Multidimensional Knapsack Problem ( http://arxiv.org/abs/2003.06617v1 )

ライセンス: Link先を確認
Ivars Dzalbs, Tatiana Kalganova, Ian Dear(参考訳) 多次元ナップサック問題(英: multidimensional knapsack problem)は、多くの実世界の工学応用においてよく知られた制約付き最適化問題である。 このNPハード問題を解決するために,ICAwICA (Constrained Assimilation) を改良した帝国主義者競合アルゴリズムを提案する。 提案アルゴリズムは、植民地独立の概念を導入し、帝国主義者や他の帝国主義者に対する古典的なICA同化を自由に選択する。 さらに、人口多様性を維持しつつ、古典的なICA同化と革命演算子を組み合わせた制約付き同化プロセスが実施されている。 本研究は,101 次元 Knapsack Problem (MKP) ベンチマークインスタンスにおける提案アルゴリズムの性能について検討する。 実験の結果、このアルゴリズムは全ての小さなインスタンスで最適解を得ることができ、大きなMKPインスタンスに対して非常に競争力のある結果が得られることが示された。

The multidimensional knapsack problem is a well-known constrained optimization problem with many real-world engineering applications. In order to solve this NP-hard problem, a new modified Imperialist Competitive Algorithm with Constrained Assimilation (ICAwICA) is presented. The proposed algorithm introduces the concept of colony independence, a free will to choose between classical ICA assimilation to empires imperialist or any other imperialist in the population. Furthermore, a constrained assimilation process has been implemented that combines classical ICA assimilation and revolution operators, while maintaining population diversity. This work investigates the performance of the proposed algorithm across 101 Multidimensional Knapsack Problem (MKP) benchmark instances. Experimental results show that the algorithm is able to obtain an optimal solution in all small instances and presents very competitive results for large MKP instances.
翻訳日:2022-12-23 19:52:48 公開日:2020-03-14
# 最適学習摂動下におけるニューラルネットワークの一般化の検討

Investigating Generalization in Neural Networks under Optimally Evolved Training Perturbations ( http://arxiv.org/abs/2003.06646v1 )

ライセンス: Link先を確認
Subhajit Chaudhury, Toshihiko Yamasaki(参考訳) 本稿では,入力摂動下でのニューラルネットワークの一般化特性について検討し,少数の画素修正による最小限のトレーニングデータ破損が,過度なオーバーフィッティングを引き起こすことを示す。 本稿では,領域適応の文献から着想を得た新しいコスト関数を用いて最適な画素摂動を探索する進化的アルゴリズムを提案する。 提案手法は,最先端の畳み込みニューラルネットワーク(CNN)アーキテクチャ上で,従来の画素ベースのデータ分散シフト手法より優れている。 sgdは適応最適化手法(adam)とは異なり,このようなトレーニングデータ破損に対してレジリエントであるという経験的観察から,最適化の選択が一般化の堅牢性において重要な役割を担っていることがわかった。 ソースコードはhttps://github.com/subhajitchaudhury/evo-shiftで入手できます。

In this paper, we study the generalization properties of neural networks under input perturbations and show that minimal training data corruption by a few pixel modifications can cause drastic overfitting. We propose an evolutionary algorithm to search for optimal pixel perturbations using novel cost function inspired from literature in domain adaptation that explicitly maximizes the generalization gap and domain divergence between clean and corrupted images. Our method outperforms previous pixel-based data distribution shift methods on state-of-the-art Convolutional Neural Networks (CNNs) architectures. Interestingly, we find that the choice of optimization plays an important role in generalization robustness due to the empirical observation that SGD is resilient to such training data corruption unlike adaptive optimization techniques (ADAM). Our source code is available at https://github.com/subhajitchaudhury/evo-shift.
翻訳日:2022-12-23 19:52:34 公開日:2020-03-14
# グラフニューラルネットワークにおける論理一般化の評価

Evaluating Logical Generalization in Graph Neural Networks ( http://arxiv.org/abs/2003.06560v1 )

ライセンス: Link先を確認
Koustuv Sinha, Shagun Sodhani, Joelle Pineau and William L. Hamilton(参考訳) 最近の研究は、構成的に一般化し推論できる学習エージェント構築における関係帰納的バイアスの役割を強調している。 しかし、グラフニューラルネットワーク(gnn)のような関係学習アルゴリズムは期待できるが、これらのアプローチが新しいタスクにいかに効果的に適応できるかは理解できない。 本研究では,一階述語論理に基づくベンチマークスイートを設計し,GNNを用いた論理一般化の課題について検討する。 ベンチマークスイートであるGraphLogでは、学習アルゴリズムが知識グラフとして表現された異なる合成論理でルール誘導を実行する必要がある。 GraphLogは57の異なる論理ドメイン上の関係予測タスクで構成されている。 GraphLogを使用して、シングルタスクによる教師付き学習、マルチタスク事前学習、連続学習の3つの異なる設定でGNNを評価する。 従来のベンチマークとは異なり、このアプローチでは異なるタスク間の論理的関係を正確に制御できます。 モデルが一般化し適応する能力は、トレーニング中に遭遇する論理規則の多様性によって強く決定され、その結果、gnnモデルの設計における新たな課題が浮き彫りになる。 私たちはデータセットとコードをhttps://www.cs.mcgill.ca/~ksinha4/graphlogで公開しています。

Recent research has highlighted the role of relational inductive biases in building learning agents that can generalize and reason in a compositional manner. However, while relational learning algorithms such as graph neural networks (GNNs) show promise, we do not understand how effectively these approaches can adapt to new tasks. In this work, we study the task of logical generalization using GNNs by designing a benchmark suite grounded in first-order logic. Our benchmark suite, GraphLog, requires that learning algorithms perform rule induction in different synthetic logics, represented as knowledge graphs. GraphLog consists of relation prediction tasks on 57 distinct logical domains. We use GraphLog to evaluate GNNs in three different setups: single-task supervised learning, multi-task pretraining, and continual learning. Unlike previous benchmarks, our approach allows us to precisely control the logical relationship between the different tasks. We find that the ability for models to generalize and adapt is strongly determined by the diversity of the logical rules they encounter during training, and our results highlight new challenges for the design of GNN models. We publicly release the dataset and code used to generate and interact with the dataset at https://www.cs.mcgill.ca/~ksinha4/graphlog.
翻訳日:2022-12-23 19:52:20 公開日:2020-03-14