このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200315となっている論文です。

PDF登録状況(公開日: 20200315)

TitleAuthorsAbstract論文公表日・翻訳日
# 対称性保護位相における到達不能な絡み合い

Inaccessible entanglement in symmetry protected topological phases ( http://arxiv.org/abs/2003.06830v1 )

ライセンス: Link先を確認
Caroline de Groot, David T. Stephen, Andras Molnar, Norbert Schuch(参考訳) 対称保護位相(spt)相の絡み合い構造を,対称性の存在下での絡み合い蒸留を考慮した操作の観点から検討した。 一次元の非自明なSPT相は、対称性が強制されるとき到達不能ないくつかの絡み合いを含むことを証明している。 より正確には、局所的操作と古典的コミュニケーション(LOCC)の設定を考えると、局所的操作はグローバルなオンサイト対称性グループ$G$(G$-LOCC)と可換であり、これは、$G$-LOCC(G$-LOCC)の下で蒸留に使用できないエンタングルメント$E_{inacc}$(英語版)を定義する。 例えば、$D_\omega$ は SPT 相 $\omega$ の位相的に保護されたエッジモードの縮退であり、対称性が $G$ であるような SPT 相 $\omega$ の位相的に保護されたエッジモードの縮退である。 ハルダン位相のような特定の位相では、$D_\omega = \sqrt{|G|}$ となる。 境界の全体にわたって状態の分布を数値的に検討し、典型的には上界付近の領域が人口密度が高いことを示し、上界と下界に横たわっている状態の性質を決定する。 次に、$E_{inacc}$ と文字列順序パラメータの関係と、それが物質の異なる SPT 位相を区別するのに使われる範囲について論じる。

We study the entanglement structure of symmetry-protected topological (SPT) phases from an operational point of view by considering entanglement distillation in the presence of symmetries. We demonstrate that non-trivial SPT phases in one-dimension necessarily contain some entanglement which is inaccessible if the symmetry is enforced. More precisely, we consider the setting of local operations and classical communication (LOCC) where the local operations commute with a global onsite symmetry group $G$, which we call $G$-LOCC, and we define the inaccessible entanglement $E_{inacc}$ as the entanglement that cannot be used for distillation under $G$-LOCC. We derive a tight bound on $E_{inacc}$ which demonstrates a direct relation between inaccessible entanglement and the SPT phase, namely $\log(D_\omega^2) \leq E_{inacc} \leq \log(|G|)$, where $D_\omega$ is the topologically protected edge mode degeneracy of the SPT phase $\omega$ with symmetry $G$. For particular phases such as the Haldane phase, $D_\omega = \sqrt{|G|}$ so the bound becomes an equality. We numerically investigate the distribution of states throughout the bound, and show that typically the region near the upper bound is highly populated, and also determine the nature of those states lying on the upper and lower bounds. We then discuss the relation of $E_{inacc}$ to string order parameters, and also the extent to which it can be used to distinguish different SPT phases of matter.
翻訳日:2023-05-29 02:36:15 公開日:2020-03-15
# 量子ノイズスペクトロスコピーを超えて:量子機能工学によるノイズのモデリングと緩和

Beyond Quantum Noise Spectroscopy: modelling and mitigating noise with quantum feature engineering ( http://arxiv.org/abs/2003.06827v1 )

ライセンス: Link先を確認
Akram Youssry, Gerardo A. Paz-Silva, Christopher Ferrie(参考訳) 量子技術を使って、科学や産業に関連する有用なタスクを達成する能力は、正確な量子制御に沸騰する。 一般に、量子システムやデバイスの特徴付けが困難であるため、提案された解を評価することは困難である。 これらは、特定の構成要素をその場で特徴付けることができないことによるものであり、環境やアクティブな制御によって引き起こされるノイズによって悪化する。 本稿では,量子的特徴からなる新しいディープラーニングフレームワークを用いた汎用的特徴化・制御ソリューションを提案する。 フレームワーク、サンプルデータセット、トレーニング済みモデル、パフォーマンスメトリクスを提供しています。 さらに,ノイズパワースペクトルなどの従来の指標を抽出するために,学習モデルをどのように利用できるかを示す。

The ability to use quantum technology to achieve useful tasks, be they scientific or industry related, boils down to precise quantum control. In general it is difficult to assess a proposed solution due to the difficulties in characterising the quantum system or device. These arise because of the impossibility to characterise certain components in situ, and are exacerbated by noise induced by the environment and active controls. Here we present a general purpose characterisation and control solution making use of a novel deep learning framework composed of quantum features. We provide the framework, sample data sets, trained models, and their performance metrics. In addition, we demonstrate how the trained model can be used to extract conventional indicators, such as noise power spectra.
翻訳日:2023-05-29 02:35:44 公開日:2020-03-15
# アルポネンの拡張理論に基づく連結クラスター法のクラスに対する収束の保証

Guaranteed convergence for a class of coupled-cluster methods based on Arponen's extended theory ( http://arxiv.org/abs/2003.06796v1 )

ライセンス: Link先を確認
Simen Kvaal, Andre Laestadius, Tilmann Bodenstein(参考訳) アーポネンの拡張結合クラスタ理論に基づいて、幅広い結合クラスタ法が導入された。 この方法のクラスは、クラスタ演算子の座標変換によって定式化される。 アルポネンの双変量原理に基づく結合クラスター法の誤差解析のための数学的枠組みが提示され、エネルギーの反転勾配の局所的な強単調性の概念が中心となる。 一般的な数学的結果を示し、局所的な強い単調性を維持するための座標変換の十分な条件を記述する。 この結果は、標準および二次結合クラスタ法、および拡張結合クラスタ理論のアーポネンの標準版を含む、提示された方法のクラスに適用される。 いくつかの数値実験を行い、診断に標準座標を用いる方法について論じる。

A wide class of coupled-cluster methods is introduced, based on Arponen's extended coupled-cluster theory. This class of methods is formulated in terms of a coordinate transformation of the cluster operators. The mathematical framework for the error analysis of coupled-cluster methods based on Arponen's bivariational principle is presented, in which the concept of local strong monotonicity of the flipped gradient of the energy is central. A general mathematical result is presented, describing sufficient conditions for coordinate transformations to preserve the local strong monotonicity. The result is applied to the presented class of methods, which include the standard and quadratic coupled-cluster methods, and also Arponen's canonical version of extended coupled-cluster theory. Some numerical experiments are presented, and the use of canonical coordinates for diagnostics is discussed.
翻訳日:2023-05-29 02:35:33 公開日:2020-03-15
# シリコンマイクロディスク共振器における高次Whisperingギャラリーモードの量子状態

Quantum States of Higher-order Whispering gallery modes in a Silicon Micro-disk Resonator ( http://arxiv.org/abs/2003.06775v1 )

ライセンス: Link先を確認
Rakesh Ranjan Kumar, Yi Wang, Yaojing Zhang, and Hon Ki Tsang(参考訳) 統合フォトニクスプラットフォームにおける光量子状態は、量子情報処理の重要なリソースを提供し、シリコンフォトニクスのスケーラビリティと実用性を活用する。 集積共振器は古典光学や量子光学においてよく研究されてきた。 しかし、集積量子光学で複数の情報を符号化するには、チップ上で利用可能な自由度をより広く活用する必要がある。 そこで本研究では, シリコンマイクロディスク共振器において, 自発的4波混合により集束した同じ高次ウィザリングギャラリーモードの光子対間の量子干渉について検討した。 最初の2つの準te0と準te1の放射モードの光子対間の量子干渉をそれぞれvnet ~ 98 + 0.8 %、vnet ~ 94 + 2.6 %と測定した。 その結果,マイクロディスク共振器の高次放射モードと集積導波路を用いた高次元量子状態の実現が期待できる。

The quantum states of light in an integrated photonics platform provide an important resource for quantum information processing and takes advantage of the scalability and practicality of silicon photonics. Integrated resonators have been well explored in classical and quantum optics. However, to encode multiple information through integrated quantum optics requires broader utilization of the available degrees of freedom on a chip. Here, we studied the quantum interference between photon pairs of the same higher order whispering gallery modes populated by spontaneous four-wave mixing in an integrated silicon micro-disk resonator. The quantum interference between the photon pairs of the first two quasi-TE0 and quasi-TE1 radial modes was measured to be Vnet ~ 98 + 0.8 % and Vnet ~ 94 + 2.6 %, respectively. The results are promising for achieving higher-dimensional quantum states using the higher-order radial modes of a micro-disk resonator coupled with an integrated waveguide.
翻訳日:2023-05-29 02:35:07 公開日:2020-03-15
# Si/SiGeにおける2つの電荷量子間容量媒質CNOTの進展

Progress Towards a Capacitively Mediated CNOT Between Two Charge Qubits in Si/SiGe ( http://arxiv.org/abs/2003.06768v1 )

ライセンス: Link先を確認
E. R. MacQuarrie and Samuel F. Neyens and J. P. Dodson and J. Corrigan and Brandur Thorgrimsson and Nathan Holman and M. Palma and L. F. Edge and Mark Friesen and S. N. Coppersmith and M. A. Eriksson(参考訳) 高速な演算、チューニングが容易なハミルトニアン、簡単な2量子相互作用により、チャージキュービットはデバイス性能のベンチマークや2量子ダイナミクスの探索に有用なツールとなる。 ここでは、4つのSi/SiGe量子ドットの線形連鎖をチューニングし、2つの二重ドット電荷量子ビットをホストする。 二重点間の容量を使って強い2量子ビット相互作用を仲介し、同時にコヒーレント遷移を駆動し、量子ビット間の相関を生成する。 次に、キュービットを順次パルスし、一方のキュービットを他方の状態で条件付きで駆動する。 条件付き$\pi$-rotation は、わずか74 ps で駆動でき、13.5 ghz のクロックスピードで 2 量子ビット演算の可能性を示す控えめな忠実さを持つ。

Fast operations, an easily tunable Hamiltonian, and a straightforward two-qubit interaction make charge qubits a useful tool for benchmarking device performance and exploring two-qubit dynamics. Here, we tune a linear chain of four Si/SiGe quantum dots to host two double dot charge qubits. Using the capacitance between the double dots to mediate a strong two-qubit interaction, we simultaneously drive coherent transitions to generate correlations between the qubits. We then sequentially pulse the qubits to drive one qubit conditionally on the state of the other. We find that a conditional $\pi$-rotation can be driven in just 74 ps with a modest fidelity demonstrating the possibility of two-qubit operations with a 13.5 GHz clockspeed.
翻訳日:2023-05-29 02:34:51 公開日:2020-03-15
# 量子チャープのゼノダイナミクス

Zeno Dynamics of Quantum Chirps ( http://arxiv.org/abs/2003.09350v1 )

ライセンス: Link先を確認
Cihan A. Bay{\i}nd{\i}r(参考訳) 量子チャープのゼノダイナミクスについて検討する。 より具体的には、非次元非線形シュリンガー方程式(NLSE)のチャープ孤立波解のゼノダイナミクスをゲイン/ロス項で解析する。 観測領域における頻繁な測定により,量子チャープの動きを抑制できることを示す。 量子チャープ画像分解能に対するゼノダイナミクスの効果を評価するために,自由進化とゼノダイナミクスの下でその点拡散関数(psf)を解析・比較する。 さらに,観測周波数が観測領域の量子チャープ分布に及ぼす影響と,観測領域におけるリングリングの確率について検討した。 この結果は量子チャープの信号特性および量子レーダ技術におけるゼノダイナミクスによるジャミング特性について直ちに研究することができる。 さらに、非線形現象やチャープを含む原子物理学や光学の多くの応用について、本論文のアプローチを用いて検討することができる。

We investigate the Zeno dynamics of quantum chirps. More specifically, we analyze the Zeno dynamics of a chirped solitary wave solution of the non-dimensional nonlinear Schr\"odinger equation (NLSE) with a gain/loss term. We show that the motion of the quantum chirp can be inhibited by frequent measurements in the observation domain. In order to assess the effect of Zeno dynamics on the quantum chirp imaging resolution, we analyze and compare its point spread functions (PSF) under free evolution and under Zeno dynamics. Additionally, we investigate the effect of observation frequency on the quantum chirp profile as well as on its probability of lingering in the observation domain. Our results can be immediately used to investigate the signal properties of quantum chirps and their possible jamming properties by Zeno dynamics in quantum radar technology. Additionally, many potential applications in atomic physics and optics including nonlinear phenomena and chirps can be investigated using the approach presented in our paper.
翻訳日:2023-05-29 02:29:17 公開日:2020-03-15
# ベクトル渦ビームは絡み合っているか?

Are vector vortex beams endowed with any entanglement? ( http://arxiv.org/abs/2003.07727v1 )

ライセンス: Link先を確認
Chun-Fang Li(参考訳) 光の偏光は最も重要な物理現象の1つである。 しかし、これまでは、横面上の局所ストークスパラメータによって特徴づけられる単一の自由度と見なされる準軸近似でのみ記述されていた。 このような記述に基づき、ベクトル渦ビームは偏光と空間モードに絡み合っていると考えられる。 ここでは、よく知られた円筒型ベクトルビームを含む、代表渦ビームの広いクラスに絡み合いがないことを示す。 これは一般ビームの偏光を正確に特徴付けるアプローチを開発することによって達成される。 ストークスパラメータは,運動量空間の一般ビームに対して厳密に一般化された場合,自然座標系に対する物理量であることが判明した。 自然な座標系を決定するいわゆるストラットンベクトルは、パウリ行列が自然な座標系に対する偏極の内在的な自由度を表す偏極の自然な表現を定めている。 その結果、ストラットンベクトル自身は分極の自由度として現れる。 この観点から、パウリ行列 $\hat{\sigma}_1$ の固有値と同様に、伝播軸に平行なストラットンベクトルによって指定された光は、正確にベクトル渦ビームである。 彼らは絡み合いに恵まれていない。

Polarization of light beams is one of the most important physical phenomena. But up till now it was only described in the paraxial approximation in which it is considered to be a single degree of freedom that is characterized by the local Stokes parameters over the transverse plane. Based on such a description, vector vortex beams are considered to be entangled in polarization and spatial mode. Here we show that there is not any entanglement in a large class of representative vector vortex beams, including the well-known cylindrical-vector beams. This is achieved by developing an approach to exactly characterize the polarization of a general beam. It is found that the Stokes parameters, when generalized rigorously to a general beam in momentum space, are physical quantities with respect to a natural coordinate system. The so-called Stratton vector determining the natural coordinate system fixes a natural representation for the polarization in which the Pauli matrices represent the intrinsic degree of freedom of the polarization with respect to the natural coordinate system. As a result, the Stratton vector itself shows up as another degree of freedom of the polarization. From this point of view, the light beams specified by a Stratton vector parallel to the propagation axis as well as by the eigenvalues of the Pauli matrix $\hat{\sigma}_1$ are precisely vector vortex beams. They are not endowed with any entanglement.
翻訳日:2023-05-29 02:29:04 公開日:2020-03-15
# 変調マター波の過渡量子ビート、ラビ振動および遅延時間

Transient quantum beats, Rabi-oscillations and delay-time of modulated matter-waves ( http://arxiv.org/abs/2003.06940v1 )

ライセンス: Link先を確認
Jorge Villavicencio and Alberto Hern\'andez-Maldonado(参考訳) 位相変調されたカットオフ波束の過渡現象は、任意の初期量子状態を含む有限範囲ポテンシャルに対するシュリンガー方程式の正確な一般解を導出したものである。 確率密度の動的特徴は初期状態の位相変調によるエネルギー$E_{+}$と$E_{-}$の仮想的 \textit{self-induced two-level system} によって支配されることを示す。 漸近確率密度は、潜在的なプロファイルとは独立な周波数$\Omega=(E_{+}-E_{-})/\hbar$によって特徴づけられるラビ振動を示す。 また、有界なシステムの場合、仮想レベルと後者の間の相互作用は、振動周波数が$\Omega$で \textit{quantum beat} 効果を引き起こす。 また, 正確な解析式で記述可能な, 遅延時間不明瞭な測定を可能にする, textit{time-diffraction} 現象を特徴とする状態も見いだす。 厳密な単色波の場合のみ、遅延時間は位相時間と一致することが判明した。

Transient phenomena of phase modulated cut-off wavepackets are explored by deriving an exact general solution to Schr\"odinger's equation for finite range potentials involving arbitrary initial quantum states. We show that the dynamical features of the probability density are governed by a virtual \textit{self-induced two-level system} with energies $E_{+}$, and $E_{-}$, due to the phase modulation of the initial state. The asymptotic probability density exhibits Rabi-oscillations characterized by a frequency $\Omega=(E_{+}-E_{-})/\hbar$, which are independent of the potential profile. It is also found that for a system with a bound state, the interplay between the virtual levels with the latter causes a \textit{quantum beat} effect with a beating frequency, $\Omega$. We also find a regime characterized by a \textit{time-diffraction} phenomenon that allows to measure unambiguously the delay-time, which can be described by an exact analytical formula. It is found that the delay-time agrees with the phase-time only for the case of strictly monochromatic waves.
翻訳日:2023-05-29 02:28:29 公開日:2020-03-15
# ADW: ブロックチェーン対応の小規模ファームディジライゼーション

ADW: Blockchain-enabled Small-scale Farm Digitization ( http://arxiv.org/abs/2003.06862v1 )

ライセンス: Link先を確認
Nelson Bore, Andrew Kinai, Peninah Waweru, Isaac Wambugu, Juliet Mutahi, Everlyne Kemunto, Reginald Bryant, Komminist Weldemariam(参考訳) 農場の記録は、農場の静的、時間的、および経年的な詳細を保持する。 小規模農業では、これらの記録を正確に捉える能力が農業産業の形式化とデジタル化に重要な役割を果たしている。 信頼できるプラットフォームを通じてこれらの記録を信頼性のある交換することで、農業生態系における価値連鎖を越えて、さまざまな利害関係者に対する重要かつ価値ある洞察を解き放つことができる。 近年, 農家の透明性, 説明責任, 可視性, 農業ローンへのアクセスなどを実現するため, 小規模農業のデジタル化に注目が集まっている。 しかし、これまで提案されたソリューションの多くは、詳細で信頼性が高く、信頼性の高い小規模農場のデジタル化情報をリアルタイムで提供するという欠点がある。 これらの課題に対処するために,ブロックチェーンを活用してインタラクションを形式化し,小規模農業エコシステムにおけるシームレスなデータフローを実現する,Agribusiness Digital Wallet(ADW)というシステムを提案する。 農業用トラクターのインスツルメンテーションを活用することで,農業活動を利用して信頼された電子フィールドレコード(EFR)を自動で作成する能力を示す。 ADWを用いて、何千もの小規模農場レベルの活動イベントを処理し、異なる地域における農場境界の自動検出を行った。

Farm records hold the static, temporal, and longitudinal details of the farms. For small-scale farming, the ability to accurately capture these records plays a critical role in formalizing and digitizing the agriculture industry. Reliable exchange of these record through a trusted platform could unlock critical and valuable insights to different stakeholders across the value chain in agriculture eco-system. Lately, there has been increasing attention on digitization of small scale farming with the objective of providing farm-level transparency, accountability, visibility, access to farm loans, etc. using these farm records. However, most solutions proposed so far have the shortcoming of providing detailed, reliable and trusted small-scale farm digitization information in real time. To address these challenges, we present a system, called Agribusiness Digital Wallet (ADW), which leverages blockchain to formalize the interactions and enable seamless data flow in small-scale farming ecosystem. Utilizing instrumentation of farm tractors, we demonstrate the ability to utilize farm activities to create trusted electronic field records (EFR) with automated valuable insights. Using ADW, we processed several thousands of small-scale farm-level activity events for which we also performed automated farm boundary detection of a number of farms in different geographies.
翻訳日:2023-05-29 02:27:03 公開日:2020-03-15
# 任意の多部量子系における直交積状態の非局所集合

Nonlocal sets of orthogonal product states in arbitrary multipartite quantum system ( http://arxiv.org/abs/2003.06852v1 )

ライセンス: Link先を確認
D. H. Jiang, G. B. Xu(参考訳) 近年、非局所多部的直交積状態の構築に多くの注意が払われている。 既存の結果のうち、構造的に比較的複雑なものもあれば、制約条件が多いものもある。 本稿では、まず、$d\geq 2$ に対して$\otimes_{j=1}^{n}\mathbb{c}^{d}$ の直交積状態の非局所集合を構成する簡単な方法を提案する。 次に,本手法により構築された集合の局所的不識別性を示す。 この構成法の特徴により、同じ量子系においてより少ない状態を持つ非局所集合が新たに構築される。 さらに、これらの 2 つの結果をより一般的な $\otimes_{i=1}^{n}\mathbb{C}^{d_{j}}$ quantum system for $d_{j}\geq 2$ に一般化する。 既存の結果と比較すると,本手法で構築した多成分直交積状態の非局所集合は要素が少なく,より単純である。

Recently, much attention have been paid to the constructions of nonlocal multipartite orthogonal product states. Among the existing results, some are relatively complex in structure while others have many constraint conditions. In this paper, we firstly give a simple method to construct a nonlocal set of orthogonal product states in $\otimes_{j=1}^{n}\mathbb{C}^{d}$ for $d\geq 2$. Then we give an ingenious proof for local indistinguishability of the set constructed by our method. According to the characteristics of this construction method, we get a new construction of nonlocal set with fewer states in the same quantum system. Furthermore, we generalize these two results to a more general $\otimes_{i=1}^{n}\mathbb{C}^{d_{j}}$ quantum system for $d_{j}\geq 2$. Compared with the existing results, the nonlocal set of multipartite orthogonal product states constructed by our method has fewer elements and is more simpler.
翻訳日:2023-05-29 02:26:30 公開日:2020-03-15
# 新型コロナウイルスの伝播解析と予測

Propagation analysis and prediction of the COVID-19 ( http://arxiv.org/abs/2003.06846v1 )

ライセンス: Link先を確認
Lixiang Li, Zihang Yang, Zhongkai Dang, Cui Meng, Jingze Huang, Hao Tian Meng, Deyu Wang, Guanhua Chen, Jiaxuan Zhang, Haipeng Peng(参考訳) 本研究は, コロナウイルス2019(covid-19)の感染過程について, 公式データモデリングに基づいて検討する。 モデルと公式データ曲線の誤差は3%以内である。 同時に、流行状況の前方予測と後方予測を実現し、関連する分析は関連する国が決定を下すのに役立つ。

Based on the official data modeling, this paper studies the transmission process of the Corona Virus Disease 2019 (COVID-19). The error between the model and the official data curve is within 3%. At the same time, it realized forward prediction and backward inference of the epidemic situation, and the relevant analysis help relevant countries to make decisions.
翻訳日:2023-05-29 02:26:16 公開日:2020-03-15
# SPACE:空間的注意と分解による教師なしオブジェクト指向シーン表現

SPACE: Unsupervised Object-Oriented Scene Representation via Spatial Attention and Decomposition ( http://arxiv.org/abs/2001.02407v3 )

ライセンス: Link先を確認
Zhixuan Lin, Yi-Fu Wu, Skand Vishwanath Peri, Weihao Sun, Gautam Singh, Fei Deng, Jindong Jiang, Sungjin Ahn(参考訳) 複雑なマルチオブジェクトシーンをオブジェクトのような意味のある抽象化に分解する能力は、より高いレベルの認知を実現するために不可欠である。 教師なしオブジェクト指向シーン表現学習の従来のアプローチは、空間的意図またはシーン混合アプローチに基づいており、現実のシーンをモデル化する主な障害となるスケーラビリティに制限がある。 本稿では,空間対応とシーン混合の最適なアプローチを組み合わせた統一確率的モデリングフレームワークとして,空間と呼ばれる生成的潜在変数モデルを提案する。 空間は、前景のオブジェクトに対する因子化されたオブジェクト表現を明示的に提供し、複雑な形態の背景セグメントを分解することができる。 以前のモデルはどちらも得意だが、両方ではない。 SPACEはまた、並列空間アテンションを取り入れた従来の手法のスケーラビリティ問題も解決し、性能劣化のない多数のオブジェクトを持つシーンに適用できる。 本研究では, SPACEがSPAIR, IODINE, GENESISと比較して, 上述の特性を連続的に達成する実験を, Atari および 3D-Rooms で行った。 実験の結果はプロジェクトのwebサイトにある: https://sites.google.com/view/space-project-page

The ability to decompose complex multi-object scenes into meaningful abstractions like objects is fundamental to achieve higher-level cognition. Previous approaches for unsupervised object-oriented scene representation learning are either based on spatial-attention or scene-mixture approaches and limited in scalability which is a main obstacle towards modeling real-world scenes. In this paper, we propose a generative latent variable model, called SPACE, that provides a unified probabilistic modeling framework that combines the best of spatial-attention and scene-mixture approaches. SPACE can explicitly provide factorized object representations for foreground objects while also decomposing background segments of complex morphology. Previous models are good at either of these, but not both. SPACE also resolves the scalability problems of previous methods by incorporating parallel spatial-attention and thus is applicable to scenes with a large number of objects without performance degradations. We show through experiments on Atari and 3D-Rooms that SPACE achieves the above properties consistently in comparison to SPAIR, IODINE, and GENESIS. Results of our experiments can be found on our project website: https://sites.google.com/view/space-project-page
翻訳日:2023-01-13 09:32:32 公開日:2020-03-15
# 一階述語論理における自動定理証明のための公式埋め込みの実験的研究

An Experimental Study of Formula Embeddings for Automated Theorem Proving in First-Order Logic ( http://arxiv.org/abs/2002.00423v2 )

ライセンス: Link先を確認
Ibrahim Abdelaziz, Veronika Thost, Maxwell Crouse, Achille Fokoue(参考訳) 一階述語論理における自動定理証明は、機械学習によって支持される活発な研究領域である。 単純な文字列からグラフベースの埋め込みまで、論理式を数値ベクトルにエンコードする様々な提案があったが、これらの異なるエンコーディングの比較についてはほとんど知られていない。 本稿では,現在のシステムで採用されているパターンベース埋め込みと,一般的なグラフベースのエンコーディングを実験的に比較する。 実験により, より複雑なグラフベースの埋め込みにより, より効率的な探索戦略とより単純な証明により, より単純な符号化方式の利点が打ち消されることが示された。 そこで本研究では,証明完了率以上の数次元の定理証明器の性能について詳細な解析を行い,最も有望な方向に向けての神経誘導定理の今後の研究を導くための実証的証拠を提供する。

Automated theorem proving in first-order logic is an active research area which is successfully supported by machine learning. While there have been various proposals for encoding logical formulas into numerical vectors -- from simple strings to more involved graph-based embeddings -- little is known about how these different encodings compare. In this paper, we study and experimentally compare pattern-based embeddings that are applied in current systems with popular graph-based encodings, most of which have not been considered in the theorem proving context before. Our experiments show that the advantages of simpler encoding schemes in terms of runtime are outdone by more complex graph-based embeddings, which yield more efficient search strategies and simpler proofs. To support this, we present a detailed analysis across several dimensions of theorem prover performance beyond just proof completion rate, thus providing empirical evidence to help guide future research on neural-guided theorem proving towards the most promising directions.
翻訳日:2023-01-04 19:58:32 公開日:2020-03-15
# 医療用モバイルテレロボットを用いた1台のRGBカメラによる歩行分析

A Single RGB Camera Based Gait Analysis with a Mobile Tele-Robot for Healthcare ( http://arxiv.org/abs/2002.04700v4 )

ライセンス: Link先を確認
Ziyang Wang(参考訳) 高品質な生活に対する意識が高まるにつれ、ホーム環境で堅牢なアルゴリズムを実行する健康モニタリングデバイスの必要性が高まっている。 健康モニタリング技術は、ユーザーの健康状態のリアルタイム分析を可能にし、長期医療支援と入院時間を短縮する。 この研究の目的は2つであり、ソフトウェアは歩行の分析に重点を置いており、関節矯正や下肢や脊椎の問題の評価に広く採用されている。 ハードウェア側では,移動ロボットに搭載された低コストのRGBカメラを用いたマーカーレス歩行解析装置を設計する。 従来のマルチカメラやrgb-dカメラ、ウェアラブルセンサーなどに比べ、単一カメラでの歩行分析ははるかに難しいため、視覚に基づく人間のポーズ推定手法を提案する。 具体的には,2つの最先端人のポーズ推定モデル(OpenposeとVNect)の出力に基づいて,倒立・倒立・背屈・足関節屈曲・足首・足底進行角の4つの歩行パラメータの測定を行った。 これにより、歩行パターンを正常、supination、pronation、limpに分類する。 また,単一エントリレベルcpuなどの低リソース環境において,汎用機械学習モデルを動作させる方法についても述べる。 実験の結果,単一のrgbカメラは,ハードウェアコストが小さく,奥行きカメラやマルチカメラモーションキャプチャシステムに基づく最先端の手法と比較して,性能に優れることがわかった。

With the increasing awareness of high-quality life, there is a growing need for health monitoring devices running robust algorithms in home environment. Health monitoring technologies enable real-time analysis of users' health status, offering long-term healthcare support and reducing hospitalization time. The purpose of this work is twofold, the software focuses on the analysis of gait, which is widely adopted for joint correction and assessing any lower limb or spinal problem. On the hardware side, we design a novel marker-less gait analysis device using a low-cost RGB camera mounted on a mobile tele-robot. As gait analysis with a single camera is much more challenging compared to previous works utilizing multi-cameras, a RGB-D camera or wearable sensors, we propose using vision-based human pose estimation approaches. More specifically, based on the output of two state-of-the-art human pose estimation models (Openpose and VNect), we devise measurements for four bespoke gait parameters: inversion/eversion, dorsiflexion/plantarflexion, ankle and foot progression angles. We thereby classify walking patterns into normal, supination, pronation and limp. We also illustrate how to run the purposed machine learning models in low-resource environments such as a single entry-level CPU. Experiments show that our single RGB camera method achieves competitive performance compared to state-of-the-art methods based on depth cameras or multi-camera motion capture system, at smaller hardware costs.
翻訳日:2023-01-02 02:13:42 公開日:2020-03-15
# 抽象スニペット生成

Abstractive Snippet Generation ( http://arxiv.org/abs/2002.10782v2 )

ライセンス: Link先を確認
Wei-Fan Chen, Shahbaz Syed, Benno Stein, Matthias Hagen, Martin Potthast(参考訳) 抽象スニペット(abstractive snippet)は、検索エンジンの結果ページにウェブページを要約するために作成されたテキストである。 従来の抽出スニペットは、Webページから動詞句や文を抽出することによって生成されるものであり、抽象スニペットは著作権問題を回避し、さらに興味深いのは、パーソナライズのための扉を開くことである。 抽象的なスニペットは、ユーザーの受け入れと表現力の点で等しく強力であると評価されてきたが、重要な疑問は残る。 本稿では,遠隔監視のための2つの大規模ソース,すなわちアンカーコンテキストとWebディレクトリを識別する,抽象スニペット生成のための新しいアプローチを提案する。 これは$\langle$query, snippet, document$\rangle$という形式の350万以上のトリプルからなり、スニペットはアンカーコンテキストかwebドキュメントの真のクエリバイアスされた抽象スニペットの代わりにwebディレクトリ記述である。 本稿では,2方向の抽象スニペット生成モデルを提案し,コーパスと生成した抽象スニペットの品質を標準尺度,クラウドソーシング,および技術状況と比較して評価する。 評価の結果,提案モデルと併用した新たなデータソースにより,テキスト再利用を最小化しつつ,クエリバイアス付き抽象スニペットを作成できることがわかった。

An abstractive snippet is an originally created piece of text to summarize a web page on a search engine results page. Compared to the conventional extractive snippets, which are generated by extracting phrases and sentences verbatim from a web page, abstractive snippets circumvent copyright issues; even more interesting is the fact that they open the door for personalization. Abstractive snippets have been evaluated as equally powerful in terms of user acceptance and expressiveness---but the key question remains: Can abstractive snippets be automatically generated with sufficient quality? This paper introduces a new approach to abstractive snippet generation: We identify the first two large-scale sources for distant supervision, namely anchor contexts and web directories. By mining the entire ClueWeb09 and ClueWeb12 for anchor contexts and by utilizing the DMOZ Open Directory Project, we compile the Webis Abstractive Snippet Corpus 2020, comprising more than 3.5 million triples of the form $\langle$query, snippet, document$\rangle$ as training examples, where the snippet is either an anchor context or a web directory description in lieu of a genuine query-biased abstractive snippet of the web document. We propose a bidirectional abstractive snippet generation model and assess the quality of both our corpus and the generated abstractive snippets with standard measures, crowdsourcing, and in comparison to the state of the art. The evaluation shows that our novel data sources along with the proposed model allow for producing usable query-biased abstractive snippets while minimizing text reuse.
翻訳日:2022-12-28 21:55:14 公開日:2020-03-15
# 画像キャプションのためのクロスモーダル情報の探索と蒸留

Exploring and Distilling Cross-Modal Information for Image Captioning ( http://arxiv.org/abs/2002.12585v2 )

ライセンス: Link先を確認
Fenglin Liu, Xuancheng Ren, Yuanxin Liu, Kai Lei and Xu Sun(参考訳) 近年,画像キャプションにおいて注目型エンコーダデコーダモデルが広く用いられている。 しかし、現在の手法が深い画像理解を実現するには依然として大きな困難がある。 本研究では,このような理解には,関連画像領域に対する視覚的注意と,コヒーレントな特徴に対する意味的注意が必要であると論じる。 トランスフォーマーをベースとして, 画像キャプションを横断的視点から検討し, 視覚・言語における音源情報の探索・抽出を行うグローバル・ローカル情報探索・蒸留手法を提案する。 キャプションコンテキストに基づく画像の空間的・関係的表現であるアスペクトベクトルをグローバルに提供し、突出した領域グルーピングと属性コロケーションを抽出し、単語選択のためのアスペクトベクトルを参照して、きめ細かい領域と属性を局所的に抽出する。 我々のTransformerベースのモデルでは、COCOテストセットのオフラインCOCO評価においてCIDErスコアが129.3に達し、精度、速度、パラメータ予算の点で著しく効率が良い。

Recently, attention-based encoder-decoder models have been used extensively in image captioning. Yet there is still great difficulty for the current methods to achieve deep image understanding. In this work, we argue that such understanding requires visual attention to correlated image regions and semantic attention to coherent attributes of interest. Based on the Transformer, to perform effective attention, we explore image captioning from a cross-modal perspective and propose the Global-and-Local Information Exploring-and-Distilling approach that explores and distills the source information in vision and language. It globally provides the aspect vector, a spatial and relational representation of images based on caption contexts, through the extraction of salient region groupings and attribute collocations, and locally extracts the fine-grained regions and attributes in reference to the aspect vector for word selection. Our Transformer-based model achieves a CIDEr score of 129.3 in offline COCO evaluation on the COCO testing set with remarkable efficiency in terms of accuracy, speed, and parameter budget.
翻訳日:2022-12-28 01:19:33 公開日:2020-03-15
# パーソナライズされた説明可能な機械学習への情報理論的アプローチ

An Information-Theoretic Approach to Personalized Explainable Machine Learning ( http://arxiv.org/abs/2003.00484v2 )

ライセンス: Link先を確認
Alexander Jung and Pedro H. J. Nardelli(参考訳) 自動意思決定は私たちの日常生活で日常的に使われます。 レコメンダシステムは、どのジョブ、映画、または他のユーザープロファイルが興味をそそられるかを決める。 スペルチェッカーは言語をうまく利用するのに役立ちます。 不正検出システムは、クレジットカード取引をより詳しく検証すべきかどうかを判断する。 これらの意思決定システムの多くは、大規模データセットに複雑なモデルに適合する機械学習手法を使用している。 機械学習(ML)メソッドの多くの(クリティカルな)アプリケーションドメインへのデプロイの成功は、その説明可能性に大きく依存する。 実際、人間はML法から得られる予測や決定のような経験的な現象の不確実性を解決するための説明を強く求めている。 説明可能なmlは、背景の異なる個々のユーザに対して説明をカスタマイズ(パーソナライズ)する必要があるため、難しい。 mlで大学レベルの教育を受けたユーザもいれば、線形代数の正式なトレーニングを受けていないユーザもいる。 少数の特徴を持つ線形回帰は第一群に対して完全に解釈可能であるが、後者ではブラックボックスと見なされる。 予測とユーザ知識のための単純な確率モデルを提案する。 このモデルは情報理論を用いて説明可能なMLを研究することができる。 ここでは、予測によって生じる「サプライズ」を減らすタスクとして説明する。 ユーザ背景を考慮した説明と予測の条件付き相互情報による説明の効果を定量化する。

Automated decision making is used routinely throughout our everyday life. Recommender systems decide which jobs, movies, or other user profiles might be interesting to us. Spell checkers help us to make good use of language. Fraud detection systems decide if a credit card transactions should be verified more closely. Many of these decision making systems use machine learning methods that fit complex models to massive datasets. The successful deployment of machine learning (ML) methods to many (critical) application domains crucially depends on its explainability. Indeed, humans have a strong desire to get explanations that resolve the uncertainty about experienced phenomena like the predictions and decisions obtained from ML methods. Explainable ML is challenging since explanations must be tailored (personalized) to individual users with varying backgrounds. Some users might have received university-level education in ML, while other users might have no formal training in linear algebra. Linear regression with few features might be perfectly interpretable for the first group but might be considered a black-box by the latter. We propose a simple probabilistic model for the predictions and user knowledge. This model allows to study explainable ML using information theory. Explaining is here considered as the task of reducing the "surprise" incurred by a prediction. We quantify the effect of an explanation by the conditional mutual information between the explanation and prediction, given the user background.
翻訳日:2022-12-27 12:47:20 公開日:2020-03-15
# defoggan: 星空霧の中の隠れた情報を生成的敵網で予測する

DefogGAN: Predicting Hidden Information in the StarCraft Fog of War with Generative Adversarial Nets ( http://arxiv.org/abs/2003.01927v2 )

ライセンス: Link先を確認
Yonghyun Jeong, Hyunjin Choi, Byoungjip Kim, Youngjune Gwon(参考訳) 我々は,リアルタイム戦略(RTS)ゲームにおいて,戦争の霧の中に隠れた状態情報を推論する問題に対する生成的アプローチであるDefogGANを提案する。 部分的に観察された状態になると、DefogGANは予測情報としてゲームのデポジット画像を生成する。 このような情報によって、ゲームのための戦略エージェントを作ることができる。 DefogGANは、複数の特徴解像度スケールで最適化するためにピラミッド再構成損失を特徴とする条件付きGAN派生体である。 以上の結果から,DefogGANはプロ選手と同等の精度で敵の建物や戦闘部隊を予測でき,最先端のデフォガーの間で優れた性能を達成できることが示唆された。

We propose DefogGAN, a generative approach to the problem of inferring state information hidden in the fog of war for real-time strategy (RTS) games. Given a partially observed state, DefogGAN generates defogged images of a game as predictive information. Such information can lead to create a strategic agent for the game. DefogGAN is a conditional GAN variant featuring pyramidal reconstruction loss to optimize on multiple feature resolution scales.We have validated DefogGAN empirically using a large dataset of professional StarCraft replays. Our results indicate that DefogGAN can predict the enemy buildings and combat units as accurately as professional players do and achieves a superior performance among state-of-the-art defoggers.
翻訳日:2022-12-26 12:24:48 公開日:2020-03-15
# 生成モデルを用いたニューラルネットワークのロバストネス評価のメトリクスと方法

Metrics and methods for robustness evaluation of neural networks with generative models ( http://arxiv.org/abs/2003.01993v2 )

ライセンス: Link先を確認
Igor Buzhinsky, Arseny Nerinovsky, Stavros Tripakis(参考訳) 最近の研究では、敵が入力をわずかに修正できると仮定して、現代のディープニューラルネットワーク分類器は簡単に騙せることが示されている。 多くの論文は、そのような敵対的摂動に対する強固さを測定するための敵対的攻撃、防御、および方法を提案している。 しかし、最も一般的に見なされる敵の例は、ニューラルネットワークの入力空間における$\ell_p$-bounded摂動に基づいている。 近年、特にコンピュータビジョンにおいて、研究者は回転や明るさの変化、よりハイレベルな変化といった「自然な」あるいは「意味的な」摂動を発見したが、これらの摂動は分類器の性能を測定するために体系的に利用されていない。 本稿では,分類器の頑健度を自然な逆数例に測定するための指標と評価方法を提案する。 これらの指標は潜在空間性能指標と呼ばれ、確率分布をキャプチャする生成モデルの能力に基づいており、その潜在空間で定義される。 画像分類の3つのケーススタディにおいて,従来のロバストな方法での学習を含む複数の分類器について,提案手法の評価を行った。 対向強靭性は, 従来の対向強靭性よりも分類器の精度に関係していることがわかったが, 後者は, 検出された逆向性摂動の性質に反映されている。 さらに, 潜在性対向性摂動を検出する新しい手法は, これらの摂動が知覚的に小さいことを示す。

Recent studies have shown that modern deep neural network classifiers are easy to fool, assuming that an adversary is able to slightly modify their inputs. Many papers have proposed adversarial attacks, defenses and methods to measure robustness to such adversarial perturbations. However, most commonly considered adversarial examples are based on $\ell_p$-bounded perturbations in the input space of the neural network, which are unlikely to arise naturally. Recently, especially in computer vision, researchers discovered "natural" or "semantic" perturbations, such as rotations, changes of brightness, or more high-level changes, but these perturbations have not yet been systematically utilized to measure the performance of classifiers. In this paper, we propose several metrics to measure robustness of classifiers to natural adversarial examples, and methods to evaluate them. These metrics, called latent space performance metrics, are based on the ability of generative models to capture probability distributions, and are defined in their latent spaces. On three image classification case studies, we evaluate the proposed metrics for several classifiers, including ones trained in conventional and robust ways. We find that the latent counterparts of adversarial robustness are associated with the accuracy of the classifier rather than its conventional adversarial robustness, but the latter is still reflected on the properties of found latent perturbations. In addition, our novel method of finding latent adversarial perturbations demonstrates that these perturbations are often perceptually small.
翻訳日:2022-12-26 12:05:11 公開日:2020-03-15
# matchinggan: マッチングベースの少数ショット画像生成

MatchingGAN: Matching-based Few-shot Image Generation ( http://arxiv.org/abs/2003.03497v2 )

ライセンス: Link先を確認
Yan Hong, Li Niu, Jianfu Zhang, Liqing Zhang(参考訳) 与えられたカテゴリの新しいイメージを生成するには、ほとんどの深層生成モデルは、このカテゴリから豊富なトレーニングイメージを必要とする。 少数の画像のみに基づいて生成する目的を達成するために、マッチング生成器とマッチング識別器を含む数ショット生成のためのマッチングベース生成適応ネットワーク(GAN)を提案する。 マッチング生成器は同じカテゴリからいくつかの条件付き画像とランダムベクトルをマッチングし、融合した特徴に基づいてこのカテゴリの新しい画像を生成する。 マッチング判別器は、生成画像の特徴と条件画像の融合特徴とを一致させることにより、従来のgan判別器を拡張する。 3つのデータセットに関する広範囲な実験により,提案手法の有効性が示された。

To generate new images for a given category, most deep generative models require abundant training images from this category, which are often too expensive to acquire. To achieve the goal of generation based on only a few images, we propose matching-based Generative Adversarial Network (GAN) for few-shot generation, which includes a matching generator and a matching discriminator. Matching generator can match random vectors with a few conditional images from the same category and generate new images for this category based on the fused features. The matching discriminator extends conventional GAN discriminator by matching the feature of generated image with the fused feature of conditional images. Extensive experiments on three datasets demonstrate the effectiveness of our proposed method.
翻訳日:2022-12-25 19:39:57 公開日:2020-03-15
# TailorNet: 人間の姿勢, 形状, 衣服スタイルとしての3D衣料予測

TailorNet: Predicting Clothing in 3D as a Function of Human Pose, Shape and Garment Style ( http://arxiv.org/abs/2003.04583v2 )

ライセンス: Link先を確認
Chaitanya Patel, Zhouyingcheng Liao, Gerard Pons-Moll(参考訳) 本稿では,3次元の衣服の変形を3つの要素(ポーズ,形状,スタイル)の関数として予測するニューラルネットワークであるTalorNetについて述べる。 これは、1つのスタイルと形状に特有な、または異なる形状に一般化し、スタイルに特有であるにもかかわらず滑らかな結果をもたらす以前のモデルを超える。 我々の仮説では、例の(非線形でない)組み合わせは、微細なしわなどの高周波成分を滑らかにし、これら3つの要素を共同で学習することが困難である。 技術の中心は, 変形を高周波成分と低周波数成分に分解することである。 低周波成分は、MLPを用いたポーズ、形状、スタイルパラメータから予測されるが、高周波成分は、形状スタイル特定ポーズモデルの混合により予測される。 混合の重みは狭い帯域幅のカーネルで計算され、同様の高周波パターンの予測が組み合わさることを保証する。 スタイルのバリエーションは、標準的なポーズにおいて、体に貫通やドーピングなどの物理的制約を満たす変形のサブスペースを演算することによって得られる。 tailornetは、学習した物理ベースのシミュレーション(pbs)のしわを保ちながら、1000倍以上の速度で走る3d衣料品を提供する。 PBSとは対照的に、TailorNetは使いやすく、完全に差別化可能である。 TailorNetは、以前の作業よりも現実的な結果を生成し、異なるデータセットから静的なポーズでトレーニングされているにも関わらず、AMASSデータセットのシーケンスに時間的コヒーレントな変形を発生させる。 この方向のさらなる研究を刺激するために、我々は55800フレームからなるデータセットをhttps://virtualhumans.mpi-inf.mpg.de/tailornet.com/で公開します。

In this paper, we present TailorNet, a neural model which predicts clothing deformation in 3D as a function of three factors: pose, shape and style (garment geometry), while retaining wrinkle detail. This goes beyond prior models, which are either specific to one style and shape, or generalize to different shapes producing smooth results, despite being style specific. Our hypothesis is that (even non-linear) combinations of examples smooth out high frequency components such as fine-wrinkles, which makes learning the three factors jointly hard. At the heart of our technique is a decomposition of deformation into a high frequency and a low frequency component. While the low-frequency component is predicted from pose, shape and style parameters with an MLP, the high-frequency component is predicted with a mixture of shape-style specific pose models. The weights of the mixture are computed with a narrow bandwidth kernel to guarantee that only predictions with similar high-frequency patterns are combined. The style variation is obtained by computing, in a canonical pose, a subspace of deformation, which satisfies physical constraints such as inter-penetration, and draping on the body. TailorNet delivers 3D garments which retain the wrinkles from the physics based simulations (PBS) it is learned from, while running more than 1000 times faster. In contrast to PBS, TailorNet is easy to use and fully differentiable, which is crucial for computer vision algorithms. Several experiments demonstrate TailorNet produces more realistic results than prior work, and even generates temporally coherent deformations on sequences of the AMASS dataset, despite being trained on static poses from a different dataset. To stimulate further research in this direction, we will make a dataset consisting of 55800 frames, as well as our model publicly available at https://virtualhumans.mpi-inf.mpg.de/tailornet.
翻訳日:2022-12-24 21:39:54 公開日:2020-03-15
# 重み付きLASSOを用いたハイパースペクトル・マルチスペクトル画像融合

Hyperspectral-Multispectral Image Fusion with Weighted LASSO ( http://arxiv.org/abs/2003.06944v1 )

ライセンス: Link先を確認
Nguyen Tran, Rupali Mankar, David Mayerich, Zhu Han(参考訳) 分光画像は、リモートセンシング、バイオメディシン、天文学における物質の空間分解された識別を可能にする。 しかし、取得時間はスペクトルと空間分解能のバランスをとる必要がある。 ハイパースペクトルイメージングは優れた材料特異性を提供するが、マルチスペクトル画像はより忠実に収集するのが速い。 本稿では,ハイパースペクトル画像とマルチスペクトル画像を用いて高品質のハイパースペクトル出力を実現する手法を提案する。 提案した最適化は、最小絶対収縮・選択演算子(LASSO)を利用して可変選択および正規化を行う。 乗算器の交互方向法 (ADMM) を適用することにより計算時間を短縮し, ハーディの手法に基づく最大アフターイ (MAP) を用いて融合画像を推定することにより, 融合画像を初期化する。 提案するスパース融合と再構成は,公開画像における既存手法と比較して定量的に優れた結果が得られることを示す。 最後に,本手法が生体医学的赤外分光顕微鏡にどのように応用できるかを示す。

Spectral imaging enables spatially-resolved identification of materials in remote sensing, biomedicine, and astronomy. However, acquisition times require balancing spectral and spatial resolution with signal-to-noise. Hyperspectral imaging provides superior material specificity, while multispectral images are faster to collect at greater fidelity. We propose an approach for fusing hyperspectral and multispectral images to provide high-quality hyperspectral output. The proposed optimization leverages the least absolute shrinkage and selection operator (LASSO) to perform variable selection and regularization. Computational time is reduced by applying the alternating direction method of multipliers (ADMM), as well as initializing the fusion image by estimating it using maximum a posteriori (MAP) based on Hardie's method. We demonstrate that the proposed sparse fusion and reconstruction provides quantitatively superior results when compared to existing methods on publicly available images. Finally, we show how the proposed method can be practically applied in biomedical infrared spectroscopic microscopy.
翻訳日:2022-12-23 09:14:50 公開日:2020-03-15
# 大規模複合飛行ネットワークにおける航空クルーペアリング初期化最適化について

On Initializing Airline Crew Pairing Optimization for Large-scale Complex Flight Networks ( http://arxiv.org/abs/2003.06423v1 )

ライセンス: Link先を確認
Divyam Aggarwal, Dhish Kumar Saxena, Thomas B\"ack, Michael Emmerich(参考訳) 乗員のペアリング最適化(cpo)は、乗員の運用コストが燃料コストに次ぐ第2位であるため、どの航空会社にとっても極めて重要である。 CPOは、いくつかの法的制約を満たしつつ、飛行スケジュールをカバーする一連のフライトシーケンス(大きなペアリング)を最小限のコストで作成することを目的としている。 大規模な複雑な飛行ネットワークでは、数十億を超える法的なペアリング(変数)が可能であり、オフラインの列挙を難なくし、最小コストのフルカバーサブセットを徹底的に検索する。 初期実現可能なソリューション(IFS: 管理可能なすべての飛行をカバーする法的なペアリング)を生成さえも、その後の最適化は難しい(NP完全)問題である。 より大きなプロジェクトの一環として、著者らはクルーペアリングオプティマイザ(aircrop)を開発したが、本論文は分割と被覆戦略と整数プログラミングに基づく新しいヒューリスティックによるifs生成に焦点を当てている。 GE Aviationが提供する実世界の大規模かつ複雑な飛行ネットワークデータセット(3200件以上の飛行と15の乗員基地を含む)では、提案されたヒューリスティックは、別の最先端アプローチよりも10倍のスピード向上を示している。 そこで本研究では, IFSコストが最終(最適化された)ソリューションコストに与える影響を実証的に検討し, IFSコストが低すぎることがAirCROPの収束を必ずしも速くすること,あるいは最適化されたソリューションのコストが低くなることを明らかにした。

Crew pairing optimization (CPO) is critically important for any airline, since its crew operating costs are second-largest, next to the fuel-cost. CPO aims at generating a set of flight sequences (crew pairings) covering a flight-schedule, at minimum-cost, while satisfying several legality constraints. For large-scale complex flight networks, billion-plus legal pairings (variables) are possible, rendering their offline enumeration intractable and an exhaustive search for their minimum-cost full flight-coverage subset impractical. Even generating an initial feasible solution (IFS: a manageable set of legal pairings covering all flights), which could be subsequently optimized is a difficult (NP-complete) problem. Though, as part of a larger project the authors have developed a crew pairing optimizer (AirCROP), this paper dedicatedly focuses on IFS-generation through a novel heuristic based on divide-and-cover strategy and Integer Programming. For real-world large and complex flight network datasets (including over 3200 flights and 15 crew bases) provided by GE Aviation, the proposed heuristic shows upto a ten-fold speed improvement over another state-of-the-art approach. Unprecedentedly, this paper presents an empirical investigation of the impact of IFS-cost on the final (optimized) solution-cost, revealing that too low an IFS-cost does not necessarily imply faster convergence for AirCROP or even lower cost for the optimized solution.
翻訳日:2022-12-23 09:14:10 公開日:2020-03-15
# 半モジュラー推論:成分の影響を和らげるマルチモジュラーモデルにおける強化学習

Semi-Modular Inference: enhanced learning in multi-modular models by tempering the influence of components ( http://arxiv.org/abs/2003.06804v1 )

ライセンス: Link先を確認
Chris U. Carmona and Geoff K. Nicholls(参考訳) ベイズ統計推論は生成モデルが誤った場合に予測最適性を失う。 ベイズ的推論のコヒーレントな損失に基づく一般化の中で、既存のモジュラー/カットモデル推論がコヒーレントであることを示し、影響パラメータによってインデックス付けされた半モジュラー推論(SMI)スキームの新しいファミリーを特別なケースとして記述する。 提案手法を選択するために,メタラーニング基準と推定手順を与える。 これは誤特定がないときにベイズ推論を返す。 このフレームワークは自然にマルチモジュールモデルに適用される。 カットモデル推論は、よく特定されたモジュールから不特定なモジュールへの指示された情報フローを可能にするが、その逆ではない。 既存の代替電力後方法では、情報フローを調整可能だが無指示で制御し、いくつかの設定で予測を改善する。 対照的に、SMIはモジュール間の調整および指示可能な情報フローを可能にする。 文献とモチベーションの高い考古学的データセットから,本手法を2つの標準テストケースで紹介する。

Bayesian statistical inference loses predictive optimality when generative models are misspecified. Working within an existing coherent loss-based generalisation of Bayesian inference, we show existing Modular/Cut-model inference is coherent, and write down a new family of Semi-Modular Inference (SMI) schemes, indexed by an influence parameter, with Bayesian inference and Cut-models as special cases. We give a meta-learning criterion and estimation procedure to choose the inference scheme. This returns Bayesian inference when there is no misspecification. The framework applies naturally to Multi-modular models. Cut-model inference allows directed information flow from well-specified modules to misspecified modules, but not vice versa. An existing alternative power posterior method gives tunable but undirected control of information flow, improving prediction in some settings. In contrast, SMI allows tunable and directed information flow between modules. We illustrate our methods on two standard test cases from the literature and a motivating archaeological data set.
翻訳日:2022-12-23 09:13:40 公開日:2020-03-15
# RCNet:MIMO-OFDMシンボル検出のための深部RNNへの構造情報の導入

RCNet: Incorporating Structural Information into Deep RNN for MIMO-OFDM Symbol Detection with Limited Training ( http://arxiv.org/abs/2003.06923v1 )

ライセンス: Link先を確認
Zhou Zhou, Lingjia Liu, Shashank Jere, Jianzhong (Charlie) Zhang, and Yang Yi(参考訳) 本稿では,特殊リカレントニューラルネットワーク(RNN)に着目した学習型MIMO-OFDMシンボル検出戦略について検討する。 まず,ofdm信号に固有の構造情報を活用するために,時間周波数rcを導入する。 時間領域rcと時間周波数rcを構成要素として、浅層rcからrcnetへの2つの拡張を提供する。 1) 複数の時間領域rcsを積み重ねること 2)複数の時間周波数RCを深い構造に積み重ねる。 RNNダイナミックス、MIMO-OFDM信号の時間周波数構造、ディープネットワークの組み合わせにより、RCNetはMIMO-OFDM信号の干渉および非線形歪みを処理し、既存の手法より優れている。 既存のNNベースの検出戦略とは異なり、RCNetは限られたトレーニングセット(標準モデルベースアプローチと同様の量の参照信号/トレーニング)でも優れた一般化性能を提供する。 数値実験により、送信機におけるパワーアンプ圧縮や受信機における有限量子化分解によるMIMO-OFDM信号の非線形歪みを補償することにより、導入したRCNetは、浅いRC構造よりも高速な学習収束と最大20%のビット誤り率が得られることを示した。

In this paper, we investigate learning-based MIMO-OFDM symbol detection strategies focusing on a special recurrent neural network (RNN) -- reservoir computing (RC). We first introduce the Time-Frequency RC to take advantage of the structural information inherent in OFDM signals. Using the time domain RC and the time-frequency RC as the building blocks, we provide two extensions of the shallow RC to RCNet: 1) Stacking multiple time domain RCs; 2) Stacking multiple time-frequency RCs into a deep structure. The combination of RNN dynamics, the time-frequency structure of MIMO-OFDM signals, and the deep network enables RCNet to handle the interference and nonlinear distortion of MIMO-OFDM signals to outperform existing methods. Unlike most existing NN-based detection strategies, RCNet is also shown to provide a good generalization performance even with a limited training set (i.e, similar amount of reference signals/training as standard model-based approaches). Numerical experiments demonstrate that the introduced RCNet can offer a faster learning convergence and as much as 20% gain in bit error rate over a shallow RC structure by compensating for the nonlinear distortion of the MIMO-OFDM signal, such as due to power amplifier compression in the transmitter or due to finite quantization resolution in the receiver.
翻訳日:2022-12-23 09:13:01 公開日:2020-03-15
# プロト・オブジェクトに基づく視聴覚サリエンシーマップ

A proto-object based audiovisual saliency map ( http://arxiv.org/abs/2003.06779v1 )

ライセンス: Link先を確認
Sudarshan Ramenahalli(参考訳) 自然環境とそれとの相互作用は本質的にはマルチセンサーであり、視覚、触覚、聴覚を配置し、環境を知覚し、学習し、対話することができる。 本研究の目的は,多感覚情報,特に視覚と音声を用いたシーン分析アルゴリズムの開発である。 動的自然シーンの分析のためのproto-object based audiovisual saliency map (avsm) を開発した。 音の方向を測ることのできる360ドル(約3万3000円)の視野を持つ特殊なオーディオヴィジュアルカメラを用いて、時空間的に整列したオーディオヴィジュアルデータを収集する。 本稿では,サルトオブジェクトの検出と局所化におけるproto-object-based audio visual saliency mapの性能が,人間の判断と一致していることを示す。 さらに,視覚特徴量マップと聴覚特徴量マップの線形結合として計算したproto-objectベースのavsmは,一感覚的サルエンシーマップと比較して,有効なサルエントイベントを多く捉えている。 このようなアルゴリズムは、監視、ロボットナビゲーション、ビデオ圧縮および関連するアプリケーションに有用である。

Natural environment and our interaction with it is essentially multisensory, where we may deploy visual, tactile and/or auditory senses to perceive, learn and interact with our environment. Our objective in this study is to develop a scene analysis algorithm using multisensory information, specifically vision and audio. We develop a proto-object based audiovisual saliency map (AVSM) for the analysis of dynamic natural scenes. A specialized audiovisual camera with $360 \degree$ Field of View, capable of locating sound direction, is used to collect spatiotemporally aligned audiovisual data. We demonstrate that the performance of proto-object based audiovisual saliency map in detecting and localizing salient objects/events is in agreement with human judgment. In addition, the proto-object based AVSM that we compute as a linear combination of visual and auditory feature conspicuity maps captures a higher number of valid salient events compared to unisensory saliency maps. Such an algorithm can be useful in surveillance, robotic navigation, video compression and related applications.
翻訳日:2022-12-23 09:12:36 公開日:2020-03-15
# 孤立性肺結節悪性度の自動評価のための畳み込みニューラルネットワークアーキテクチャの実験

Experimenting with Convolutional Neural Network Architectures for the automatic characterization of Solitary Pulmonary Nodules' malignancy rating ( http://arxiv.org/abs/2003.06801v1 )

ライセンス: Link先を確認
Ioannis D. Apostolopoulos(参考訳) 肺がんは世界中でがんによる死亡の最も多い原因である。 コンピュータ・トモグラフィ(CT)胸部CTにおける孤立性肺結節(SPN)の早期および自動診断は,早期治療と経時的治療からの医師の解放に役立つ。 ディープラーニングは多くの医療画像診断領域で人気があり、影響力のある方法として証明されている。 本研究では,PET/CTスキャナーを用いたCT画像における良性肺結節と悪性肺結節の診断分類の問題点を考察する。 より具体的には、実験的な畳み込みニューラルネットワーク(cnn)アーキテクチャを開発し、パラメータをチューニングし、それらの振る舞いを調査し、正確な分類のための最適な設定を定義する。 実験では,パトラ大学核医学研究所から取得したPET/CT画像と,Lung Image Database Consortium Image Collection (LIDC-IDRI) と呼ばれる公開データベースを利用する。 さらに,新しいインスタンスを生成するために単純なデータ拡張を適用し,開発したネットワークの性能を検査する。 PET/CTデータセットとLIDC-IDRIデータセットを構成する結節画像の選択において、91%と93%の分類精度を実現する。 その結果, CNNは結節分類における信頼度法であることがわかった。 また,データ拡張によりCNNの堅牢性が向上することを確認した。

Lung Cancer is the most common cause of cancer-related death worldwide. Early and automatic diagnosis of Solitary Pulmonary Nodules (SPN) in Computer Tomography (CT) chest scans can provide early treatment as well as doctor liberation from time-consuming procedures. Deep Learning has been proven as a popular and influential method in many medical imaging diagnosis areas. In this study, we consider the problem of diagnostic classification between benign and malignant lung nodules in CT images derived from a PET/CT scanner. More specifically, we intend to develop experimental Convolutional Neural Network (CNN) architectures and conduct experiments, by tuning their parameters, to investigate their behavior, and to define the optimal setup for the accurate classification. For the experiments, we utilize PET/CT images obtained from the Laboratory of Nuclear Medicine of the University of Patras, and the publically available database called Lung Image Database Consortium Image Collection (LIDC-IDRI). Furthermore, we apply simple data augmentation to generate new instances and to inspect the performance of the developed networks. Classification accuracy of 91% and 93% on the PET/CT dataset and on a selection of nodule images form the LIDC-IDRI dataset, is achieved accordingly. The results demonstrate that CNNs are a trustworth method for nodule classification. Also, the experiment confirms that data augmentation enhances the robustness of the CNNs.
翻訳日:2022-12-23 09:12:17 公開日:2020-03-15
# 非拘束ビデオにおける動作反復計数のための深い特徴を有するエネルギーベース周期性マイニング

Energy-based Periodicity Mining with Deep Features for Action Repetition Counting in Unconstrained Videos ( http://arxiv.org/abs/2003.06838v1 )

ライセンス: Link先を確認
Jianqin Yin and Yanchun Wu and Huaping Liu and Yonghao Dang and Zhiyi Liu and Jun Liu(参考訳) アクション反復計数(Action repetition counting)とは、1つのアクションにおける反復運動の発生時刻を推定することであり、これは比較的新しい、重要な、そして難しい測定問題である。 そこで本研究では, 従来の2つの側面において, 事前処理を行わず, 任意の周期性行動に適用可能な新しい手法を提案する。 提案手法は,前処理を行なわずに実応用に便利であり,任意の周期性作用を処理することにより,実環境に適合する。 In terms of methodology, firstly, we analyze the movement patterns of the repetitive actions based on the spatial and temporal features of actions extracted by deep ConvNets; Secondly, the Principal Component Analysis algorithm is used to generate the intuitive periodic information from the chaotic high-dimensional deep features; Thirdly, the periodicity is mined based on the high-energy rule using Fourier transform; Finally, the inverse Fourier transform with a multi-stage threshold filter is proposed to improve the quality of the mined periodicity, and peak detection is introduced to finish the repetition counting. 私たちの作品は2つあります。 1) 行動認識のために抽出された深い特徴が反復行動の自己相似周期性をうまくモデル化できる重要な知見を提示する。 2) 深い特徴量を用いた高エネルギー周期性マイニングルールが提示され, 事前処理をせずに任意のアクションを処理できる。 実験の結果,提案手法は公開データセットYT Segments と QUVA で比較した結果が得られた。

Action repetition counting is to estimate the occurrence times of the repetitive motion in one action, which is a relatively new, important but challenging measurement problem. To solve this problem, we propose a new method superior to the traditional ways in two aspects, without preprocessing and applicable for arbitrary periodicity actions. Without preprocessing, the proposed model makes our method convenient for real applications; processing the arbitrary periodicity action makes our model more suitable for the actual circumstance. In terms of methodology, firstly, we analyze the movement patterns of the repetitive actions based on the spatial and temporal features of actions extracted by deep ConvNets; Secondly, the Principal Component Analysis algorithm is used to generate the intuitive periodic information from the chaotic high-dimensional deep features; Thirdly, the periodicity is mined based on the high-energy rule using Fourier transform; Finally, the inverse Fourier transform with a multi-stage threshold filter is proposed to improve the quality of the mined periodicity, and peak detection is introduced to finish the repetition counting. Our work features two-fold: 1) An important insight that deep features extracted for action recognition can well model the self-similarity periodicity of the repetitive action is presented. 2) A high-energy based periodicity mining rule using deep features is presented, which can process arbitrary actions without preprocessing. Experimental results show that our method achieves comparable results on the public datasets YT Segments and QUVA.
翻訳日:2022-12-23 09:06:48 公開日:2020-03-15
# Deep Affinity Net: Affinityによるインスタンスセグメンテーション

Deep Affinity Net: Instance Segmentation via Affinity ( http://arxiv.org/abs/2003.06849v1 )

ライセンス: Link先を確認
Xingqian Xu, Mang Tik Chiu, Thomas S. Huang, Honghui Shi(参考訳) 現代のインスタンスセグメンテーションのアプローチのほとんどは、2つのカテゴリに分類される: オブジェクト境界ボックスを最初に検出し、その後にトリミングやセグメンテーションインスタンスに使用する領域ベースのアプローチと、個々のインスタンスをキーポイントのセットで表現するキーポイントベースのアプローチ。 これら2つのパラダイムの成熟度にもかかわらず、高密度に予測された親和性とグラフ分割アルゴリズムに基づいてインスタンスをセグメント化する別の親和性ベースのパラダイムを報告したい。 このような親和性に基づくアプローチは、領域やキーポイント以外の高レベルグラフの機能をインスタンスセグメンテーションタスクに直接適用できることを示している。 本研究では,新しいグラフ分割アルゴリズムCascade-GAECを伴って,効果的な親和性に基づくアプローチであるDeep Affinity Netを提案する。 ベルとホイッスルがなければ、我々のエンドツーエンドモデルはCityscapes valで32.4%AP、テストで27.5%APとなる。 すべてのアフィニティベースのモデルの中で、最高のシングルショット結果と最速ランニングタイムを達成する。 また、地域ベースのMask R-CNNよりも優れている。

Most of the modern instance segmentation approaches fall into two categories: region-based approaches in which object bounding boxes are detected first and later used in cropping and segmenting instances; and keypoint-based approaches in which individual instances are represented by a set of keypoints followed by a dense pixel clustering around those keypoints. Despite the maturity of these two paradigms, we would like to report an alternative affinity-based paradigm where instances are segmented based on densely predicted affinities and graph partitioning algorithms. Such affinity-based approaches indicate that high-level graph features other than regions or keypoints can be directly applied in the instance segmentation task. In this work, we propose Deep Affinity Net, an effective affinity-based approach accompanied with a new graph partitioning algorithm Cascade-GAEC. Without bells and whistles, our end-to-end model results in 32.4% AP on Cityscapes val and 27.5% AP on test. It achieves the best single-shot result as well as the fastest running time among all affinity-based models. It also outperforms the region-based method Mask R-CNN.
翻訳日:2022-12-23 09:05:58 公開日:2020-03-15
# 新しい品質推定器を用いた多段曲線座標変換に基づく文書画像デワープ

Multistage Curvilinear Coordinate Transform Based Document Image Dewarping using a Novel Quality Estimator ( http://arxiv.org/abs/2003.06872v1 )

ライセンス: Link先を確認
Tanmoy Dasgupta and Nibaran Das and Mita Nasipuri(参考訳) 本研究は、非線形に歪んだ文書画像のデウォープを高速かつ改良した手法を示す。 画像は、曲線ホモグラフィを用いて最適な逆射影を推定することにより、まずページレベルで変形する。 次に、並列性、直交性などを測定するために、テキスト行と直線オブジェクトの特性に関する一連のメトリクスを評価することにより、プロセスの質を推定する。 これらは特に、根底的な真実を必要とせずに、デウォーププロセスの品質を推定するために設計されている。 品質が満足できないと推定された場合、ページレベルの復号処理をより細かい近似で繰り返す。 これに続いて行レベルのデワープ処理が行われ、個々のテキスト行でワープを細かく修正する。 この手法はCBDAR 2007 / IUPR 2011の文書画像デウォープデータセットでテストされており、これまでで最も短い時間で最高のOCR精度が得られる。 この方法論の有用性は、DocUNet 2018データセットでもいくつかの微調整で評価されており、同等の結果が得られている。

The present work demonstrates a fast and improved technique for dewarping nonlinearly warped document images. The images are first dewarped at the page-level by estimating optimum inverse projections using curvilinear homography. The quality of the process is then estimated by evaluating a set of metrics related to the characteristics of the text lines and rectilinear objects for measuring parallelism, orthogonality, etc. These are designed specifically to estimate the quality of the dewarping process without the need of any ground truth. If the quality is estimated to be unsatisfactory, the page-level dewarping process is repeated with finer approximations. This is followed by a line-level dewarping process that makes granular corrections to the warps in individual text-lines. The methodology has been tested on the CBDAR 2007 / IUPR 2011 document image dewarping dataset and is seen to yield the best OCR accuracy in the shortest amount of time, till date. The usefulness of the methodology has also been evaluated on the DocUNet 2018 dataset with some minor tweaks, and is seen to produce comparable results.
翻訳日:2022-12-23 09:05:37 公開日:2020-03-15
# 公正を正す - 実践者のためのツールボックスを目指して

Getting Fairness Right: Towards a Toolbox for Practitioners ( http://arxiv.org/abs/2003.06920v1 )

ライセンス: Link先を確認
Boris Ruf, Chaouki Boutharouite, Marcin Detyniecki(参考訳) バイアスを意図せずに埋め込んで再現するAIシステムの潜在的なリスクは、マシンラーニング実践者や社会全体の注目を集めている。 政策立案者がアルゴリズムとai技術の標準を設定する意思があるため、自動化されたシステムによる決定が公正で差別的でないことを強制するために、既存の規制を洗練する方法に関する問題は再び重要である。 一方、研究者たちは、フェアネスに関する様々な既存の指標が統計的に相互排他的であり、適切な選択はユースケースとフェアネスの定義に大きく依存することを示した。 公正なAIを実装するための解決策は純粋に数学的ではなく、公正さの望ましい性質を定義するためにステークホルダーのコミットメントを必要とすることを認識し、本稿では、公正なAI実践を保証するためのツールボックスのドラフトを提案する。 アプリケーションの性質と利用可能なトレーニングデータに加えて、法的要件や倫理的、哲学的、文化的側面にも基いて、ツールボックスは最も適切なフェアネス目標を特定することを目的としています。 このアプローチは、フェアネスメトリクスの複雑な風景を構造化しようと試み、それゆえに、異なるオプションが非技術者によりアクセスしやすくする。 公正なAIのための銀の弾丸ソリューションがないことが証明されたこのツールボックスは、彼らのローカルコンテキストに関して可能な限り公平なAIシステムを生成することを意図している。

The potential risk of AI systems unintentionally embedding and reproducing bias has attracted the attention of machine learning practitioners and society at large. As policy makers are willing to set the standards of algorithms and AI techniques, the issue on how to refine existing regulation, in order to enforce that decisions made by automated systems are fair and non-discriminatory, is again critical. Meanwhile, researchers have demonstrated that the various existing metrics for fairness are statistically mutually exclusive and the right choice mostly depends on the use case and the definition of fairness. Recognizing that the solutions for implementing fair AI are not purely mathematical but require the commitments of the stakeholders to define the desired nature of fairness, this paper proposes to draft a toolbox which helps practitioners to ensure fair AI practices. Based on the nature of the application and the available training data, but also on legal requirements and ethical, philosophical and cultural dimensions, the toolbox aims to identify the most appropriate fairness objective. This approach attempts to structure the complex landscape of fairness metrics and, therefore, makes the different available options more accessible to non-technical people. In the proven absence of a silver bullet solution for fair AI, this toolbox intends to produce the fairest AI systems possible with respect to their local context.
翻訳日:2022-12-23 09:04:18 公開日:2020-03-15
# ディープニューラルネットワーク音響モデルの話者適応のためのガウス混合モデルフレームワークの検討

Exploring Gaussian mixture model framework for speaker adaptation of deep neural network acoustic models ( http://arxiv.org/abs/2003.06894v1 )

ライセンス: Link先を確認
Natalia Tomashenko, Yuri Khokhlov, Yannick Esteve(参考訳) 本稿では,ディープニューラルネットワーク(DNN)音響モデルの適応のためのGMMDの特徴について検討する。 GMMD特徴抽出に使用される補助GMMモデルのMAP適応を最大化することにより,GMMD特徴量に基づいて訓練したDNNの適応を行う。 DNNとTDNN(Time-delay Neural Network)という,2つの異なるニューラルネットワークアーキテクチャにおいて,GMMD機能とボトルネックやMFCC機能との融合を検討する。 提案手法を用いて, 最大極大線形回帰(fMLLR)に基づくiベクターや特徴空間適応手法などの異なる種類の適応手法を解析・比較し, それらの相補性を特徴レベル, 後方レベル, 格子レベルなどの様々な種類の融合を用いて検討し, 組み合わせの最良の方法を見出す。 Experimental results on the TED-LIUM corpus show that the proposed adaptation technique can be effectively integrated into DNN and TDNN setups at different levels and provide additional gain in recognition performance: up to 6% of relative word error rate reduction (WERR) over the strong feature-space adaptation techniques based on maximum likelihood linear regression (fMLLR) speaker adapted DNN baseline, and up to 18% of relative WERR in comparison with a speaker independent (SI) DNN baseline model, trained on conventional features. TDNNモデルの場合、提案手法はSIベースラインと比較して最大26%の相対WERRを達成し、i-vectorsを用いたモデルと比較すると13%も向上する。 様々な視点から適用されたGMMDの特徴の分析は、異なるレベルでの有効性を示す。

In this paper we investigate the GMM-derived (GMMD) features for adaptation of deep neural network (DNN) acoustic models. The adaptation of the DNN trained on GMMD features is done through the maximum a posteriori (MAP) adaptation of the auxiliary GMM model used for GMMD feature extraction. We explore fusion of the adapted GMMD features with conventional features, such as bottleneck and MFCC features, in two different neural network architectures: DNN and time-delay neural network (TDNN). We analyze and compare different types of adaptation techniques such as i-vectors and feature-space adaptation techniques based on maximum likelihood linear regression (fMLLR) with the proposed adaptation approach, and explore their complementarity using various types of fusion such as feature level, posterior level, lattice level and others in order to discover the best possible way of combination. Experimental results on the TED-LIUM corpus show that the proposed adaptation technique can be effectively integrated into DNN and TDNN setups at different levels and provide additional gain in recognition performance: up to 6% of relative word error rate reduction (WERR) over the strong feature-space adaptation techniques based on maximum likelihood linear regression (fMLLR) speaker adapted DNN baseline, and up to 18% of relative WERR in comparison with a speaker independent (SI) DNN baseline model, trained on conventional features. For TDNN models the proposed approach achieves up to 26% of relative WERR in comparison with a SI baseline, and up 13% in comparison with the model adapted by using i-vectors. The analysis of the adapted GMMD features from various points of view demonstrates their effectiveness at different levels.
翻訳日:2022-12-23 09:03:31 公開日:2020-03-15
# 分類損失と特徴量によるチャンネルプルーニング

Channel Pruning Guided by Classification Loss and Feature Importance ( http://arxiv.org/abs/2003.06757v1 )

ライセンス: Link先を確認
Jinyang Guo, Wanli Ouyang, Dong Xu(参考訳) 本研究では,層別チャネルプルーニング法であるチャネルプルーニング法を,分類損失と特徴重要度(cpli)を指標として提案する。 本手法は, チャネル切断プロセスにおいて, 次の層から特徴を再構築する方法のみを考慮した既存の層間チャネル切断法とは対照的に, 分類損失を考慮に入れている。 また,次の刈り上げ段階では,復元された特徴が取り除かれることも観察した。 そのため、これらの機能を再構築する必要はない。 そこで本稿では,重要でない特徴の影響を抑えるための新たな戦略を提案する。 CIFAR-10, ImageNet, UCF-101の3つのベンチマークデータセットに関する総合的な実験により, CPLI法の有効性が示された。

In this work, we propose a new layer-by-layer channel pruning method called Channel Pruning guided by classification Loss and feature Importance (CPLI). In contrast to the existing layer-by-layer channel pruning approaches that only consider how to reconstruct the features from the next layer, our approach additionally take the classification loss into account in the channel pruning process. We also observe that some reconstructed features will be removed at the next pruning stage. So it is unnecessary to reconstruct these features. To this end, we propose a new strategy to suppress the influence of unimportant features (i.e., the features will be removed at the next pruning stage). Our comprehensive experiments on three benchmark datasets, i.e., CIFAR-10, ImageNet, and UCF-101, demonstrate the effectiveness of our CPLI method.
翻訳日:2022-12-23 08:57:26 公開日:2020-03-15
# エンド・ツー・エンドビデオ異常検出のための自己学習深度回帰法

Self-trained Deep Ordinal Regression for End-to-End Video Anomaly Detection ( http://arxiv.org/abs/2003.06780v1 )

ライセンス: Link先を確認
Guansong Pang, Cheng Yan, Chunhua Shen, Anton van den Hengel, Xiao Bai(参考訳) ビデオの異常検出は、人間が興味をそそられる可能性のあるイベントに注目することを可能にするため、様々な現実のアプリケーションにとって重要な実用的重要性である。 ビデオ異常検出に自己学習型深層順序回帰を適用することで,既存の手法の2つの重要な限界を克服できることを示す。 1)手動ラベル付き正規訓練データに大きく依存していること、及び 2)副最適特徴学習。 代用2クラス順序回帰タスクを定式化することにより,手動でラベル付けされた正規/異常データを必要としない共同表現学習と異常スコアを可能にする,エンドツーエンドのトレーニング可能なビデオ異常検出手法を考案する。 8つの実世界の映像シーンにおける実験により,提案手法は,ラベル付きトレーニングデータを必要としない最先端の手法よりも高い性能を示し,同定された異常の簡易かつ正確な位置推定を可能にする。 さらに,本手法は,異常が稀であり,偽陰性コストが高いアプリケーションにおいて重要となる,効果的なループ内異常検出を提供することを示す。

Video anomaly detection is of critical practical importance to a variety of real applications because it allows human attention to be focused on events that are likely to be of interest, in spite of an otherwise overwhelming volume of video. We show that applying self-trained deep ordinal regression to video anomaly detection overcomes two key limitations of existing methods, namely, 1) being highly dependent on manually labeled normal training data; and 2) sub-optimal feature learning. By formulating a surrogate two-class ordinal regression task we devise an end-to-end trainable video anomaly detection approach that enables joint representation learning and anomaly scoring without manually labeled normal/abnormal data. Experiments on eight real-world video scenes show that our proposed method outperforms state-of-the-art methods that require no labeled training data by a substantial margin, and enables easy and accurate localization of the identified anomalies. Furthermore, we demonstrate that our method offers effective human-in-the-loop anomaly detection which can be critical in applications where anomalies are rare and the false-negative cost is high.
翻訳日:2022-12-23 08:56:50 公開日:2020-03-15
# オフライン手書き文字認識のための高度なディープラーニングアーキテクチャの性能評価

Performance Evaluation of Advanced Deep Learning Architectures for Offline Handwritten Character Recognition ( http://arxiv.org/abs/2003.06794v1 )

ライセンス: Link先を確認
Moazam Soomro, Muhammad Ali Farooq, Rana Hammad Raza(参考訳) 本稿では,手書き文字の頑健かつ正確な分類のための文字認識比較と性能評価について述べる。 このシステムは、生のピクセル値から特徴を収集し、高度な多層深層ニューラルネットワークを利用する。 隠れた層は、従来のニューラルネットワークから複雑な特徴を学習するため、非線形特徴の深い階層を積み重ねる。 NVIDIA DIGITSのCaffe AlexNetとGoogleNetモデルを含む、ディープラーニングアーキテクチャの2つの状態が使用されている。これらのフレームワークは、多様性と複雑性を取り入れた2つの異なるデータセットでトレーニングされ、テストされた。 そのうちの1つは、7705文字からなる公開データセットであるchars74kで、英語のアルファベットと数値の数字を持つ。 他のデータセットは4320文字で構成されている。 ローカルデータセットは62のクラスで構成され、40人の被験者によって作成された。 また、上段と下段の英語アルファベットと数字の数字も含んでいる。 データセット全体は、トレーニングの80%とテストフェーズの20%の比率で分割される。 訓練に要する時間はおよそ90分である。 検証部では,得られた結果を基部と比較した。 AlexNetの精度は77.77%、Google Netは88.89%だった。 GoogleNetの精度の高いレベルは、それぞれがプール、さまざまなスケールでの畳み込み、結合手順を含む、開始モジュールのユニークな組み合わせである。

This paper presents a hand-written character recognition comparison and performance evaluation for robust and precise classification of different hand-written characters. The system utilizes advanced multilayer deep neural network by collecting features from raw pixel values. The hidden layers stack deep hierarchies of non-linear features since learning complex features from conventional neural networks is very challenging. Two state of the art deep learning architectures were used which includes Caffe AlexNet and GoogleNet models in NVIDIA DIGITS.The frameworks were trained and tested on two different datasets for incorporating diversity and complexity. One of them is the publicly available dataset i.e. Chars74K comprising of 7705 characters and has upper and lowercase English alphabets, along with numerical digits. While the other dataset created locally consists of 4320 characters. The local dataset consists of 62 classes and was created by 40 subjects. It also consists upper and lowercase English alphabets, along with numerical digits. The overall dataset is divided in the ratio of 80% for training and 20% for testing phase. The time required for training phase is approximately 90 minutes. For validation part, the results obtained were compared with the groundtruth. The accuracy level achieved with AlexNet was 77.77% and 88.89% with Google Net. The higher accuracy level of GoogleNet is due to its unique combination of inception modules, each including pooling, convolutions at various scales and concatenation procedures.
翻訳日:2022-12-23 08:55:32 公開日:2020-03-15
# VCNet: ブラインド画像へのロバストなアプローチ

VCNet: A Robust Approach to Blind Image Inpainting ( http://arxiv.org/abs/2003.06816v1 )

ライセンス: Link先を確認
Yi Wang, Ying-Cong Chen, Xin Tao, Jiaya Jia(参考訳) blind inpaintingは、画像に欠けている領域のマスクを指定することなく、自動的にビジュアルコンテンツを完成させるタスクである。 以前の作業では、欠落している領域パターンが知られており、その適用範囲が制限されていると仮定している。 本稿では,新しい盲点塗装設定を定義して仮定を緩和し,未知の未知領域パターンに対して,盲点塗装ニューラルネットワークのトレーニングを堅牢にする。 具体的には,2段階の視覚的整合性ネットワーク(VCN)を提案する。 この手順では、避けられない潜在的なマスク予測エラーは、その後の修復において深刻なアーティファクトにつながる。 この問題に対処するため、VCNはまず意味的に一貫性のない領域を予測する。 その後、新しい空間正規化を用いてこれらの推定欠落領域を修復し、VCNはマスク予測エラーに対して堅牢である。 このように、意味的に説得力があり、視覚的に説得力のあるコンテンツが生成される。 本手法はブラインド画像インパインティングにおいて有効かつ堅牢であることを示すため,広範な実験を行った。 当社のVCNは幅広いアプリケーションを可能にしています。

Blind inpainting is a task to automatically complete visual contents without specifying masks for missing areas in an image. Previous works assume missing region patterns are known, limiting its application scope. In this paper, we relax the assumption by defining a new blind inpainting setting, making training a blind inpainting neural system robust against various unknown missing region patterns. Specifically, we propose a two-stage visual consistency network (VCN), meant to estimate where to fill (via masks) and generate what to fill. In this procedure, the unavoidable potential mask prediction errors lead to severe artifacts in the subsequent repairing. To address it, our VCN predicts semantically inconsistent regions first, making mask prediction more tractable. Then it repairs these estimated missing regions using a new spatial normalization, enabling VCN to be robust to the mask prediction errors. In this way, semantically convincing and visually compelling content is thus generated. Extensive experiments are conducted, showing our method is effective and robust in blind image inpainting. And our VCN allows for a wide spectrum of applications.
翻訳日:2022-12-23 08:54:20 公開日:2020-03-15
# FGSD:高解像度衛星画像における細粒度船体検出用データセット

FGSD: A Dataset for Fine-Grained Ship Detection in High Resolution Satellite Images ( http://arxiv.org/abs/2003.06832v1 )

ライセンス: Link先を確認
Kaiyan Chen, Ming Wu, Jiaming Liu, Chuang Zhang(参考訳) 高解像度リモートセンシング画像を用いた船舶検出は,海面制御に寄与する重要な課題である。 複雑な背景と特別な視角は、船の検知を高品質なデータセットにある程度依存させる。 しかし、既存の船舶検出データセットに船の正確な分類と正確な位置を与える研究はほとんどない。 船舶検出研究をさらに推進するために,fgsdと名づけられた細粒度船舶検出データセットを新たに導入した。 データセットは、世界中の複数の大きな港からの船サンプルを含む高解像度のリモートセンシングイメージを収集する。 船のサンプルは細分化され、水平および回転のバウンディングボックスで注釈付けされた。 データセットの情報をさらに詳細にするため,我々は船舶の向きを表す新しい表現法を提唱した。 将来の調査では、新しいクラスとしてのドックがデータセットに注釈付けされている。 さらに、FGSDには、ソースポート、解像度、対応するGoogleEarthの解像度レベルなど、画像の豊富な情報が提供されている。 FGSDは現在最も包括的な船舶検知データセットであり、まもなく利用可能になる予定です。 本論文ではFGSDのベースラインについても述べる。

Ship detection using high-resolution remote sensing images is an important task, which contribute to sea surface regulation. The complex background and special visual angle make ship detection relies in high quality datasets to a certain extent. However, there is few works on giving both precise classification and accurate location of ships in existing ship detection datasets. To further promote the research of ship detection, we introduced a new fine-grained ship detection datasets, which is named as FGSD. The dataset collects high-resolution remote sensing images that containing ship samples from multiple large ports around the world. Ship samples were fine categorized and annotated with both horizontal and rotating bounding boxes. To further detailed the information of the dataset, we put forward a new representation method of ships' orientation. For future research, the dock as a new class was annotated in the dataset. Besides, rich information of images were provided in FGSD, including the source port, resolution and corresponding GoogleEarth' s resolution level of each image. As far as we know, FGSD is the most comprehensive ship detection dataset currently and it'll be available soon. Some baselines for FGSD are also provided in this paper.
翻訳日:2022-12-23 08:54:01 公開日:2020-03-15
# 深層畳み込みニューラルネットワークを用いた立方体球面上のデータ駆動地球天気予測の改善

Improving data-driven global weather prediction using deep convolutional neural networks on a cubed sphere ( http://arxiv.org/abs/2003.11927v1 )

ライセンス: Link先を確認
Jonathan A. Weyn, Dale R. Durran, Rich Caruana(参考訳) 本稿では,CNN(Deep Convolutional Neural Network)を用いたデータ駆動型グローバル気象予報フレームワークを提案する。 このフレームワークの新しい開発には、キュービッドスフィアグリッドへのオフラインボリューム保守マッピング、CNNアーキテクチャの改善、および予測シーケンスにおける複数のステップでの損失関数の最小化が含まれる。 立方体球再マッピングは畳み込み操作が行われる立方体面の歪みを最小限に抑え、cnnにおけるパディングの自然な境界条件を提供する。 改良されたモデルでは,無期限に安定な天気予報が生成され,数週間以上のリードタイムで現実的な気象パターンが生成される。 短距離から中距離の予測では, 持続性, 気候学, および粗分解能動的数値天気予報(NWP)モデルより有意に優れる。 当然のことながら、我々の予測は最先端の運用NWPシステムよりも悪い。 データ駆動モデルは、入力された大気状態変数から複雑な表面温度パターンを予測できる。 年次時間スケールでは,大気上層における太陽の強制力の所定の変動によってのみ,現実的な季節周期が生じる。 現在、運用上の天気予報モデルよりも精度は低いが、我々のデータ駆動CNNはこれらのモデルよりもはるかに高速に実行しており、機械学習が大規模な天気予報に有用なツールであることを示唆している。

We present a significantly-improved data-driven global weather forecasting framework using a deep convolutional neural network (CNN) to forecast several basic atmospheric variables on a global grid. New developments in this framework include an offline volume-conservative mapping to a cubed-sphere grid, improvements to the CNN architecture, and the minimization of the loss function over multiple steps in a prediction sequence. The cubed-sphere remapping minimizes the distortion on the cube faces on which convolution operations are performed and provides natural boundary conditions for padding in the CNN. Our improved model produces weather forecasts that are indefinitely stable and produce realistic weather patterns at lead times of several weeks and longer. For short- to medium-range forecasting, our model significantly outperforms persistence, climatology, and a coarse-resolution dynamical numerical weather prediction (NWP) model. Unsurprisingly, our forecasts are worse than those from a high-resolution state-of-the-art operational NWP system. Our data-driven model is able to learn to forecast complex surface temperature patterns from few input atmospheric state variables. On annual time scales, our model produces a realistic seasonal cycle driven solely by the prescribed variation in top-of-atmosphere solar forcing. Although it is currently less accurate than operational weather forecasting models, our data-driven CNN executes much faster than those models, suggesting that machine learning could prove to be a valuable tool for large-ensemble forecasting.
翻訳日:2022-12-23 08:48:37 公開日:2020-03-15
# multifidelity gaussian process modeling を用いた材料パラメータ空間における低誤差領域の低コスト探索

Cost-effective search for lower-error region in material parameter space using multifidelity Gaussian process modeling ( http://arxiv.org/abs/2003.13428v1 )

ライセンス: Link先を確認
Shion Takeno, Yuhki Tsukada, Hitoshi Fukuoka, Toshiyuki Koyama, Motoki Shiga, and Masayuki Karasuyama(参考訳) 沈殿形状に関する情報は材料パラメータの推定に不可欠である。 そこで,本研究では,実験画像に類似した形状の沈殿物を生成する材料パラメータ空間の領域を推定することを検討した。 この領域は低エラー領域(LER)と呼ばれ、沈殿物に含まれる物質の固有の情報を反映している。 しかし、モデルの正確な計算はパラメータの探索に何度も必要となるため、ler推定の計算コストは高くなる。 この難しさを克服するために、我々は、異なる精度レベル(忠実度)の複数の計算からトレーニングデータをサンプリングできるガウスプロセスベースのマルチフィデリティモデリングを用いた。 低忠実度サンプルは精度が低いが、高忠実度サンプルよりも計算コストが低い。 提案手法は,LER推定の精度を高めるために,最もコスト効率の良い点対と忠実度を反復的に決定する。 Mg系合金におけるMgZn2とMg-Mg相の界面エネルギーと格子ミスマッチを推定し,本手法の有効性を実証した。 その結果, 正確なLER推定に要するサンプリングコストを大幅に削減できることがわかった。

Information regarding precipitate shapes is critical for estimating material parameters. Hence, we considered estimating a region of material parameter space in which a computational model produces precipitates having shapes similar to those observed in the experimental images. This region, called the lower-error region (LER), reflects intrinsic information of the material contained in the precipitate shapes. However, the computational cost of LER estimation can be high because the accurate computation of the model is required many times to better explore parameters. To overcome this difficulty, we used a Gaussian-process-based multifidelity modeling, in which training data can be sampled from multiple computations with different accuracy levels (fidelity). Lower-fidelity samples may have lower accuracy, but the computational cost is lower than that for higher-fidelity samples. Our proposed sampling procedure iteratively determines the most cost-effective pair of a point and a fidelity level for enhancing the accuracy of LER estimation. We demonstrated the efficiency of our method through estimation of the interface energy and lattice mismatch between MgZn2 and {\alpha}-Mg phases in an Mg-based alloy. The results showed that the sampling cost required to obtain accurate LER estimation could be drastically reduced.
翻訳日:2022-12-23 08:48:12 公開日:2020-03-15
# ロボットマニピュレーションのための能動的知覚と表現

Active Perception and Representation for Robotic Manipulation ( http://arxiv.org/abs/2003.06734v1 )

ライセンス: Link先を確認
Youssef Zaky, Gaurav Paruthi, Bryan Tripp, James Bergstra(参考訳) 視覚動物の大部分は、目、頭、または身体を積極的に制御し、環境の異なる部分に視線を向ける。 対照的に、ロボット操作における強化学習の最近の応用は、カメラを受動的センサーとして採用している。 これらは、固定されたポーズからシーンを見るために慎重に配置される。 能動的知覚により、動物は世界に関する最も関連性の高い情報を収集し、必要に応じて計算資源に集中することができる。 また、異なる距離や視点からオブジェクトを見ることができ、環境の抽象的な表現を学ぶための豊かな視覚体験を提供する。 霊長類視覚運動システムに触発されて、能動的知覚の利点を利用して操作タスクを遂行するフレームワークを提案する。 エージェントは視点変化を利用してオブジェクトをローカライズし、状態表現を自己監督的に学習し、ゴール指向アクションを実行する。 6自由度動作空間を有する模擬把持作業に本モデルを適用した。 パッシブな固定カメラと比較すると、アクティブモデルは目標の把握において8%パフォーマンスが向上する。 バニラ深度Q-ラーニングアルゴリズムと比較して、我々のモデルは少なくとも4倍のサンプリング効率を示し、アクティブな知覚と表現学習の両方の利点を強調している。

The vast majority of visual animals actively control their eyes, heads, and/or bodies to direct their gaze toward different parts of their environment. In contrast, recent applications of reinforcement learning in robotic manipulation employ cameras as passive sensors. These are carefully placed to view a scene from a fixed pose. Active perception allows animals to gather the most relevant information about the world and focus their computational resources where needed. It also enables them to view objects from different distances and viewpoints, providing a rich visual experience from which to learn abstract representations of the environment. Inspired by the primate visual-motor system, we present a framework that leverages the benefits of active perception to accomplish manipulation tasks. Our agent uses viewpoint changes to localize objects, to learn state representations in a self-supervised manner, and to perform goal-directed actions. We apply our model to a simulated grasping task with a 6-DoF action space. Compared to its passive, fixed-camera counterpart, the active model achieves 8% better performance in targeted grasping. Compared to vanilla deep Q-learning algorithms, our model is at least four times more sample-efficient, highlighting the benefits of both active perception and representation learning.
翻訳日:2022-12-23 08:47:51 公開日:2020-03-15
# 2D-3D対応の学習

Learning 2D-3D Correspondences To Solve The Blind Perspective-n-Point Problem ( http://arxiv.org/abs/2003.06752v1 )

ライセンス: Link先を確認
Liu Liu, Dylan Campbell, Hongdong Li, Dingfu Zhou, Xibin Song and Ruigang Yang(参考訳) 従来の絶対カメラのポーズは、pnp(pointer-n-point)ソルバで、2d画像ピクセルと3dポイントの対応が与えられると仮定することが多い。 2D点と3D点の対応が先行的でない場合、タスクはより困難な盲点PnP問題となる。 本稿では、6-DoF絶対カメラポーズと2D--3D対応を同時に解くディープCNNモデルを提案する。 我々のモデルは3つのニューラルネットワークモジュールからなる。 まず、2D画像キーポイントと3Dシーンポイントの両方に直接2ストリームのPointNetインスパイアされたネットワークを適用し、局所情報と文脈情報の両方を利用した識別的ポイントワイド特徴を抽出する。 第2に,グローバルな特徴マッチングモジュールを用いて,全2D-3D対の適合性行列を推定する。 第三に、得られた整合性行列を分類モジュールに入力し、不整合性マッチを曖昧にする。 ネットワーク全体がエンドツーエンドにトレーニングされ、6-DoFカメラのポーズを回復するためにのみ、テスト時に堅牢なモデルフィッティング(P3P-RANSAC)が続く。 実データとシミュレーションデータの両方に対する広範囲なテストの結果,本手法は既存の手法を実質的に上回っており,最先端の精度で毎秒数千点の処理が可能であった。

Conventional absolute camera pose via a Perspective-n-Point (PnP) solver often assumes that the correspondences between 2D image pixels and 3D points are given. When the correspondences between 2D and 3D points are not known a priori, the task becomes the much more challenging blind PnP problem. This paper proposes a deep CNN model which simultaneously solves for both the 6-DoF absolute camera pose and 2D--3D correspondences. Our model comprises three neural modules connected in sequence. First, a two-stream PointNet-inspired network is applied directly to both the 2D image keypoints and the 3D scene points in order to extract discriminative point-wise features harnessing both local and contextual information. Second, a global feature matching module is employed to estimate a matchability matrix among all 2D--3D pairs. Third, the obtained matchability matrix is fed into a classification module to disambiguate inlier matches. The entire network is trained end-to-end, followed by a robust model fitting (P3P-RANSAC) at test time only to recover the 6-DoF camera pose. Extensive tests on both real and simulated data have shown that our method substantially outperforms existing approaches, and is capable of processing thousands of points a second with the state-of-the-art accuracy.
翻訳日:2022-12-23 08:45:45 公開日:2020-03-15
# MotionNet:Bird's Eye View Mapsに基づく自律走行のための共同知覚と運動予測

MotionNet: Joint Perception and Motion Prediction for Autonomous Driving Based on Bird's Eye View Maps ( http://arxiv.org/abs/2003.06754v1 )

ライセンス: Link先を確認
Pengxiang Wu, Siheng Chen, Dimitris Metaxas(参考訳) 環境状態、特に物体の存在とその運動行動を確実に認識する能力は、自律運転に不可欠である。 本研究では,3次元点雲からの知覚と運動予測を協調的に行うために,MotionNetと呼ばれる効率的な深層モデルを提案する。 MotionNetは、入力としてLiDARのシーケンスをスイープし、各グリッドセル内のオブジェクトカテゴリとモーション情報をエンコードする鳥の目視マップ(BEV)を出力する。 MotionNetのバックボーンは、階層的な方法で深い空間的特徴と時間的特徴を抽出する、新しい時空間ピラミッドネットワークである。 空間と時間の両方で予測の滑らかさを強制するため、motionnetのトレーニングはさらに新しい空間的および時間的一貫性の損失を伴う正規化される。 広範な実験により,提案手法は,最新のシーンフローや3dオブジェクト検出法など,最先端の手法を全般的に上回っていることが示された。 このことは,提案手法がバウンディングボックスベースシステムへのバックアップとして機能し,自律運転時の運動プランナに補完情報を提供する可能性を示している。 コードはhttps://github.com/pxiangwu/MotionNetで入手できる。

The ability to reliably perceive the environmental states, particularly the existence of objects and their motion behavior, is crucial for autonomous driving. In this work, we propose an efficient deep model, called MotionNet, to jointly perform perception and motion prediction from 3D point clouds. MotionNet takes a sequence of LiDAR sweeps as input and outputs a bird's eye view (BEV) map, which encodes the object category and motion information in each grid cell. The backbone of MotionNet is a novel spatio-temporal pyramid network, which extracts deep spatial and temporal features in a hierarchical fashion. To enforce the smoothness of predictions over both space and time, the training of MotionNet is further regularized with novel spatial and temporal consistency losses. Extensive experiments show that the proposed method overall outperforms the state-of-the-arts, including the latest scene-flow- and 3D-object-detection-based methods. This indicates the potential value of the proposed method serving as a backup to the bounding-box-based system, and providing complementary information to the motion planner in autonomous driving. Code is available at https://github.com/pxiangwu/MotionNet.
翻訳日:2022-12-23 08:45:19 公開日:2020-03-15
# 逆オートエンコーダを用いた統一型マルチドメイン学習とデータインプテーション

Unified Multi-Domain Learning and Data Imputation using Adversarial Autoencoder ( http://arxiv.org/abs/2003.07779v1 )

ライセンス: Link先を確認
Andre Mendes, Julian Togelius, Leandro dos Santos Coelho(参考訳) 本稿では,マルチドメイン学習(MDL),データ計算(DI),マルチタスク学習(MTL)を組み合わせた新しいフレームワークを提案する。 本手法のコアとなるのは,(1)ドメイン間の差を小さくするためにドメイン不変な埋め込みを生成すること,(2)各ドメインのデータ分布を学習し,欠落データに対するデータ計算を正しく行うこと,である。 MDLでは、最大平均離散(MMD)測度を用いて、領域分布を整列する。 DI では,ジェネレータが欠落したデータに対して情報を補充し,識別器が実値と暗示値の区別を試みる,逆方向のアプローチを用いる。 最後に、埋め込みにおける普遍的特徴表現を用いて、任意のドメインからの入力を与えられたMTLを使用して分類器を訓練し、すべてのドメインのラベルを予測する。 提案手法は,非構造化データを用いた画像認識におけるDG-DI,構造化データを用いたグレード推定におけるMTL-DI,混合データを用いた選択プロセスにおけるMDMTL-DI,の3つの異なる条件下での他の最先端手法と比較して,優れた性能を示す。

We present a novel framework that can combine multi-domain learning (MDL), data imputation (DI) and multi-task learning (MTL) to improve performance for classification and regression tasks in different domains. The core of our method is an adversarial autoencoder that can: (1) learn to produce domain-invariant embeddings to reduce the difference between domains; (2) learn the data distribution for each domain and correctly perform data imputation on missing data. For MDL, we use the Maximum Mean Discrepancy (MMD) measure to align the domain distributions. For DI, we use an adversarial approach where a generator fill in information for missing data and a discriminator tries to distinguish between real and imputed values. Finally, using the universal feature representation in the embeddings, we train a classifier using MTL that given input from any domain, can predict labels for all domains. We demonstrate the superior performance of our approach compared to other state-of-art methods in three distinct settings, DG-DI in image recognition with unstructured data, MTL-DI in grade estimation with structured data and MDMTL-DI in a selection process using mixed data.
翻訳日:2022-12-23 08:38:17 公開日:2020-03-15
# 階層モデル:高次元における内在分離性

Hierarchical Models: Intrinsic Separability in High Dimensions ( http://arxiv.org/abs/2003.07770v1 )

ライセンス: Link先を確認
Wen-Yan Lin(参考訳) 長年、高次元データが奇妙なパターンを示すことに気付いてきた。 これは「祝福」または「呪文」と様々な解釈がなされており、文学における不快な矛盾の原因となっている。 我々は,これらのパターンを階層的生成プロセスから生ずることを提案する。 プロセスモデリングは、多くの異なる理論と結果を調和させる制約の網を作ります。 このモデルはまた、機械学習に活用できる自然分離性を持つ高次元データも含んでいる。 本研究では,オープンセット学習問題を数学的に定義し,質的かつ定量的な性能向上につながることを実証する。

It has long been noticed that high dimension data exhibits strange patterns. This has been variously interpreted as either a "blessing" or a "curse", causing uncomfortable inconsistencies in the literature. We propose that these patterns arise from an intrinsically hierarchical generative process. Modeling the process creates a web of constraints that reconcile many different theories and results. The model also implies high dimensional data posses an innate separability that can be exploited for machine learning. We demonstrate how this permits the open-set learning problem to be defined mathematically, leading to qualitative and quantitative improvements in performance.
翻訳日:2022-12-23 08:37:53 公開日:2020-03-15
# MOEA/D と Levy Flight を用いたポートフォリオ最適化問題の解法

Solving Portfolio Optimization Problems Using MOEA/D and Levy Flight ( http://arxiv.org/abs/2003.06737v1 )

ライセンス: Link先を確認
Yifan He, Claus Aranha(参考訳) ポートフォリオ最適化は、リターンとリスクの間のより良いトレードオフを達成するために、一連の金融資産に資本を割り当てる必要がある金融タスクである。 この問題を解決するために、近年の研究では、その自然二目的構造に多目的進化アルゴリズム(MOEA)を適用している。 本稿では,L\'evy Flightと命名された分布型突然変異法をMOEA/Dという分解型MOEAに注入する手法を提案する。 提案アルゴリズムは,3つのMOEA/D-likeアルゴリズム,NSGA-II,および5つのポートフォリオ最適化ベンチマークにおいて,制約のないORライブラリで31から225までの大きさの分散ベースの突然変異法と比較し,6つの指標で評価する。 数値的な結果と統計的テストは、ほとんどのケースでこの方法が比較法を上回ることができることを示している。 levy flightは最適化の早い段階でグローバル検索を促進することで,この改善にどのように寄与するかを分析した。 突然変異法と問題の性質の相互作用を考慮し、この改善について説明する。

Portfolio optimization is a financial task which requires the allocation of capital on a set of financial assets to achieve a better trade-off between return and risk. To solve this problem, recent studies applied multi-objective evolutionary algorithms (MOEAs) for its natural bi-objective structure. This paper presents a method injecting a distribution-based mutation method named L\'evy Flight into a decomposition based MOEA named MOEA/D. The proposed algorithm is compared with three MOEA/D-like algorithms, NSGA-II, and other distribution-based mutation methods on five portfolio optimization benchmarks sized from 31 to 225 in OR library without constraints, assessing with six metrics. Numerical results and statistical test indicate that this method can outperform comparison methods in most cases. We analyze how Levy Flight contributes to this improvement by promoting global search early in the optimization. We explain this improvement by considering the interaction between mutation method and the property of the problem.
翻訳日:2022-12-23 08:37:44 公開日:2020-03-15
# 機械学習システムにおけるカーネルの自動選択に向けて:SYCLケーススタディ

Towards automated kernel selection in machine learning systems: A SYCL case study ( http://arxiv.org/abs/2003.06795v1 )

ライセンス: Link先を確認
John Lawson(参考訳) 計算カーネルの自動チューニングは、主に固定入力サイズの問題に対する最適なカーネルパラメータを見つけることに焦点を当てた、一般的な研究分野である。 このアプローチは、ネットワークトポロジーが一定である機械学習モデルをデプロイするのに適しているが、機械学習の研究は、しばしばネットワークトポロジーとハイパーパラメータを変更することを伴う。 従来のカーネルの自動チューニングは、このケースでは影響が限られており、ライブラリが機械学習の研究を加速するためには、より一般的なカーネルの選択が必要である。 本稿では,デスクトップGPUから組み込みアクセラレータに至るまで,多種多様なデバイスをターゲットにしたライブラリに高性能なSYCLカーネルをデプロイするケーススタディにおいて,機械学習を用いたカーネル選択の初期結果を示す。 研究手法はより一般的に適用され、同様に他の異種プログラミングシステムと統合することができる。 自動チューニングと機械学習を組み合わせることで、これらのカーネル選択プロセスは、新しいハードウェアで高いパフォーマンスを達成するために、ほとんど開発者の努力なしにデプロイできる。

Automated tuning of compute kernels is a popular area of research, mainly focused on finding optimal kernel parameters for a problem with fixed input sizes. This approach is good for deploying machine learning models, where the network topology is constant, but machine learning research often involves changing network topologies and hyperparameters. Traditional kernel auto-tuning has limited impact in this case; a more general selection of kernels is required for libraries to accelerate machine learning research. In this paper we present initial results using machine learning to select kernels in a case study deploying high performance SYCL kernels in libraries that target a range of heterogeneous devices from desktop GPUs to embedded accelerators. The techniques investigated apply more generally and could similarly be integrated with other heterogeneous programming systems. By combining auto-tuning and machine learning these kernel selection processes can be deployed with little developer effort to achieve high performance on new hardware.
翻訳日:2022-12-23 08:37:09 公開日:2020-03-15
# 多段プロセスのための逆エンコーダ・マルチタスクデコーダ

Adversarial Encoder-Multi-Task-Decoder for Multi-Stage Processes ( http://arxiv.org/abs/2003.06899v1 )

ライセンス: Link先を確認
Andre Mendes, Julian Togelius, Leandro dos Santos Coelho(参考訳) 多段階プロセスでは、決定は順序付けられた段階の順序で行われる。 初期の段階は通常、一般的な情報(より容易に収集できる)で観測されるが、後期段階は観測が少ないが、より具体的なデータを持っている。 この状況は、情報の増大中にサンプルサイズが1段階からもう1段階に減少する二重ファンネル構造で表すことができる。 このシナリオでの訓練用分類器は、初期段階の情報は学習すべき異なるパターン(アンダーフィット)を含んでいないため、難しい。 対照的に、後段の小さなサンプルサイズはオーバーフィッティングを引き起こすことがある。 本稿では,AAE(Adversarial Autoencoder),MTL(Multi-task Learning),MLSSL(Multi-label semi-supervised learning)を組み合わせたフレームワークを導入することにより,両事例に対処する。 我々は,AME のデコーダを MTL コンポーネントで改良し,元の入力と特徴ネットを共同で再構築し,次の段階の機能を予測する。 また、予測におけるシーケンスパターンを保証するために、MLSSL分類器の出力にシーケンス制約を導入する。 異なる領域の実際のデータ(選択プロセス、診断)を用いて、我々のアプローチは他の最先端手法よりも優れていることを示す。

In multi-stage processes, decisions occur in an ordered sequence of stages. Early stages usually have more observations with general information (easier/cheaper to collect), while later stages have fewer observations but more specific data. This situation can be represented by a dual funnel structure, in which the sample size decreases from one stage to the other while the information increases. Training classifiers in this scenario is challenging since information in the early stages may not contain distinct patterns to learn (underfitting). In contrast, the small sample size in later stages can cause overfitting. We address both cases by introducing a framework that combines adversarial autoencoders (AAE), multi-task learning (MTL), and multi-label semi-supervised learning (MLSSL). We improve the decoder of the AAE with an MTL component so it can jointly reconstruct the original input and use feature nets to predict the features for the next stages. We also introduce a sequence constraint in the output of an MLSSL classifier to guarantee the sequential pattern in the predictions. Using real-world data from different domains (selection process, medical diagnosis), we show that our approach outperforms other state-of-the-art methods.
翻訳日:2022-12-23 08:36:52 公開日:2020-03-15
# マルチリレーショナル・ロバスト学習のためのテンソルグラフ畳み込みネットワーク

Tensor Graph Convolutional Networks for Multi-relational and Robust Learning ( http://arxiv.org/abs/2003.07729v1 )

ライセンス: Link先を確認
Vassilis N. Ioannidis, Antonio G. Marques, Georgios B. Giannakis(参考訳) データ・デルージュ」の時代は、グラフベースの学習手法と、社会学や生物学から交通・通信まで幅広い応用に新たな関心を喚起した。 本稿では,グラフの集合に関連したデータから,スケーラブルな半教師付き学習(SSL)を実現するテンソルグラフ畳み込みネットワーク(TGCN)を提案する。 新しいtgcnアーキテクチャの重要な側面は、学習可能な重みによるテンソルグラフの異なる関係への動的適応と、滑らかさを促進し過剰パラメータ化を緩和するためのグラフベースの正規化子の検討である。 究極の目標は、複雑で高度に非線形なデータ関連を発見し、複数のタイプの関係を結合(および選択)し、グラフサイズに優雅にスケールし、グラフエッジの摂動に対して堅牢である、強力な学習アーキテクチャを設計することだ。 提案されたアーキテクチャは、ノードが自然に異なる関係(例えば、ソーシャルネットワークにおける家族、友情、仕事の関係を捉えるマルチリレーショナルグラフ)に関与するアプリケーションだけでなく、グラフに一定の不確実性が伴う堅牢な学習セットアップや、異なるテンソルスラブが名目グラフの異なるバージョン(実現)に対応するアプリケーションにも関係している。 数値実験により,提案アーキテクチャは標準的なGCNと比較して顕著な性能向上を実現し,最先端の敵攻撃に対処し,タンパク質間相互作用ネットワーク上でのSSL性能を著しく向上させることを示した。

The era of "data deluge" has sparked renewed interest in graph-based learning methods and their widespread applications ranging from sociology and biology to transportation and communications. In this context of graph-aware methods, the present paper introduces a tensor-graph convolutional network (TGCN) for scalable semi-supervised learning (SSL) from data associated with a collection of graphs, that are represented by a tensor. Key aspects of the novel TGCN architecture are the dynamic adaptation to different relations in the tensor graph via learnable weights, and the consideration of graph-based regularizers to promote smoothness and alleviate over-parameterization. The ultimate goal is to design a powerful learning architecture able to: discover complex and highly nonlinear data associations, combine (and select) multiple types of relations, scale gracefully with the graph size, and remain robust to perturbations on the graph edges. The proposed architecture is relevant not only in applications where the nodes are naturally involved in different relations (e.g., a multi-relational graph capturing family, friendship and work relations in a social network), but also in robust learning setups where the graph entails a certain level of uncertainty, and the different tensor slabs correspond to different versions (realizations) of the nominal graph. Numerical tests showcase that the proposed architecture achieves markedly improved performance relative to standard GCNs, copes with state-of-the-art adversarial attacks, and leads to remarkable SSL performance over protein-to-protein interaction networks.
翻訳日:2022-12-23 08:36:15 公開日:2020-03-15
# 地域的・グローバルな手がかりを取り入れたフィギュアグラウンド組織モデル

A model of figure ground organization incorporating local and global cues ( http://arxiv.org/abs/2003.06731v1 )

ライセンス: Link先を確認
Sudarshan Ramenahalli(参考訳) 図形地上組織(FGO) -- 視覚的なシーンにおける物体の空間的な深度順序を推測する - は、閉塞境界のどの側が図形(オブザーバに近づき、どの側がグラウンド(オブザーバから遠ざかる)かを決定する。 凸性のようなグローバルなキューとT接合のような局所的なキューの組み合わせがこのプロセスに関与している。 本稿では, fgo の生物動機的フィードフォワード計算モデルとして, 凸性, 包囲性, 平行性を大域的手がかりとして, スペクトル異方性 (sa) を局所的手がかりとして用いた。 SAは生物学的に妥当な方法で計算されるが、T-ジャンクションの含有は生物学的に動機づけられる。 このモデルは、色、強度、方向の3つの独立した特徴チャネルで構成されるが、これらの特性はオブジェクトの特徴に特有のため、向き付けチャネルにのみ導入される。 それぞれの局所的手がかりを独立に加え,同時に局所的手がかりを持たないモデルに適用する効果について検討した。 我々は、BSDS 300図面データセットを用いて、各境界位置における図形分類精度(FGCA)に基づいてモデル性能を評価する。 各局所キューは単独で追加されると、独立したFGOキューとしての有用性を示すモデルのFGCAを統計的に有意に改善する。 両方の局所的手がかりを持つモデルは個々の手がかりを持つモデルよりも高いFGCAを達成し、SAとT-ジャンクションは相互に矛盾しないことを示す。 局所的手がかりのないモデルと比較して、両方の局所的手がかりを持つフィードフォワードモデルはFGCAの点で$\geq 8.78$%改善される。

Figure Ground Organization (FGO) -- inferring spatial depth ordering of objects in a visual scene -- involves determining which side of an occlusion boundary is figure (closer to the observer) and which is ground (further away from the observer). A combination of global cues, like convexity, and local cues, like T-junctions are involved in this process. We present a biologically motivated, feed forward computational model of FGO incorporating convexity, surroundedness, parallelism as global cues and Spectral Anisotropy (SA), T-junctions as local cues. While SA is computed in a biologically plausible manner, the inclusion of T-Junctions is biologically motivated. The model consists of three independent feature channels, Color, Intensity and Orientation, but SA and T-Junctions are introduced only in the Orientation channel as these properties are specific to that feature of objects. We study the effect of adding each local cue independently and both of them simultaneously to the model with no local cues. We evaluate model performance based on figure-ground classification accuracy (FGCA) at every border location using the BSDS 300 figure-ground dataset. Each local cue, when added alone, gives statistically significant improvement in the FGCA of the model suggesting its usefulness as an independent FGO cue. The model with both local cues achieves higher FGCA than the models with individual cues, indicating SA and T-Junctions are not mutually contradictory. Compared to the model with no local cues, the feed-forward model with both local cues achieves $\geq 8.78$% improvement in terms of FGCA.
翻訳日:2022-12-23 08:30:06 公開日:2020-03-15
# ノイズランク:依存モデルによる教師なしラベルノイズ低減

NoiseRank: Unsupervised Label Noise Reduction with Dependence Models ( http://arxiv.org/abs/2003.06729v1 )

ライセンス: Link先を確認
Karishma Sharma, Pinar Donmez, Enming Luo, Yan Liu, I. Zeki Yalniz(参考訳) ラベルノイズは、ノイズの多いチャネルから取得したデータセットでますます広まっている。 ラベルノイズを検出して削除する既存のアプローチは、一般的にある種の監視に依存している。 本稿では,マルコフ確率場(mrf)を用いた教師なしラベル雑音低減のためのノイズランクを提案する。 本研究では,データセットを誤ってラベル付けしたインスタンスの後方確率を推定する依存モデルを構築し,その推定確率に基づいてランク付けする。 我々の方法 1) 接地ラベルの監督やラベルや騒音分布の事前管理は不要である。 2) 設計により解釈可能であり, ラベルノイズ除去の透明性が期待できる。 3) 分類/最適化フレームワークやコンテンツモダリティとは無関係である。 これらの利点は、1つ以上の条件で制約された以前の作業とは異なり、実際のノイズ設定において広範囲に適用可能である。 NoiseRankは、Food101-N(~20%ノイズ)の最先端の分類を改善し、高雑音クロチング-1M(~40%ノイズ)に有効である。

Label noise is increasingly prevalent in datasets acquired from noisy channels. Existing approaches that detect and remove label noise generally rely on some form of supervision, which is not scalable and error-prone. In this paper, we propose NoiseRank, for unsupervised label noise reduction using Markov Random Fields (MRF). We construct a dependence model to estimate the posterior probability of an instance being incorrectly labeled given the dataset, and rank instances based on their estimated probabilities. Our method 1) Does not require supervision from ground-truth labels, or priors on label or noise distribution. 2) It is interpretable by design, enabling transparency in label noise removal. 3) It is agnostic to classifier architecture/optimization framework and content modality. These advantages enable wide applicability in real noise settings, unlike prior works constrained by one or more conditions. NoiseRank improves state-of-the-art classification on Food101-N (~20% noise), and is effective on high noise Clothing-1M (~40% noise).
翻訳日:2022-12-23 08:29:16 公開日:2020-03-15
# beyond without forgetting:disjoint datasetsを用いた分類のためのマルチタスク学習

Beyond without Forgetting: Multi-Task Learning for Classification with Disjoint Datasets ( http://arxiv.org/abs/2003.06746v1 )

ライセンス: Link先を確認
Yan Hong, Li Niu, Jianfu Zhang, Liqing Zhang(参考訳) 解離データセットを用いた分類のためのマルチタスク学習(MTL)は、1つのタスクにラベル付きデータセットが1つしかない場合にMTLを探索することを目的としている。 既存のメソッドでは、各タスクに対してラベルのないデータセットは、このタスクを容易にするために完全に悪用されない。 半教師付き学習にインスパイアされ、擬似ラベル付きラベル付きラベル付きデータセットを使用して各タスクを容易にする。 しかし、大きな問題は2つあります。 1) 擬似ラベルは非常にうるさい。 2)未ラベルデータセットと各タスクのラベル付きデータセットには,かなりのデータ分散ミスマッチがある。 これらの問題に対処するため,提案するMTL with Selective Augmentation (MTL-SA) 法は,ラベル付きデータセットに信頼度の高い擬似ラベルを付加したラベル付きデータセットのトレーニングサンプルを選択する。 次に、選択したトレーニングサンプルを使用して情報を追加し、残りのトレーニングサンプルを使用して情報を保存する。 MTL-SA法の有効性を示す顔中心および人中心の応用に関する大規模な実験を行った。

Multi-task Learning (MTL) for classification with disjoint datasets aims to explore MTL when one task only has one labeled dataset. In existing methods, for each task, the unlabeled datasets are not fully exploited to facilitate this task. Inspired by semi-supervised learning, we use unlabeled datasets with pseudo labels to facilitate each task. However, there are two major issues: 1) the pseudo labels are very noisy; 2) the unlabeled datasets and the labeled dataset for each task has considerable data distribution mismatch. To address these issues, we propose our MTL with Selective Augmentation (MTL-SA) method to select the training samples in unlabeled datasets with confident pseudo labels and close data distribution to the labeled dataset. Then, we use the selected training samples to add information and use the remaining training samples to preserve information. Extensive experiments on face-centric and human-centric applications demonstrate the effectiveness of our MTL-SA method.
翻訳日:2022-12-23 08:29:00 公開日:2020-03-15
# クロスモーダルメモリ探索による視線ナビゲーション

Vision-Dialog Navigation by Exploring Cross-modal Memory ( http://arxiv.org/abs/2003.06745v1 )

ライセンス: Link先を確認
Yi Zhu, Fengda Zhu, Zhaohuan Zhan, Bingqian Lin, Jianbin Jiao, Xiaojun Chang, Xiaodan Liang(参考訳) 視覚ダイアログナビゲーションは、自然言語を補助し、人間の反応に応じてナビゲートするための絶え間ない会話の能力に恵まれたエージェントを学習する、視覚言語ディシプリナターゲットにおける新しい聖なる作業である。 視覚言語ナビゲーションにおける一般的な課題に加えて、視覚ダイアログナビゲーションは、対話履歴からの時間的コンテキストに関する一連の質問の言語意図にうまく対応し、ダイアログとビジュアルシーンの両方を共用する必要がある。 本稿では,歴史的ナビゲーション行動に関連する豊富な情報を記憶し,理解するためのクロスモーダルメモリネットワーク(CMN)を提案する。 CMNは言語記憶モジュール(L-mem)と視覚記憶モジュール(V-mem)の2つのメモリモジュールから構成される。 特に,L-memは,多視点アテンション機構を用いて,現在の言語相互作用と対話履歴の潜時関係を学習する。 V-memは、現在のビジュアルビューと以前のナビゲーションアクションに関するクロスモーダルメモリを関連付けることを学ぶ。 クロスモーダルメモリは、言語間注意と言語間注意とを介して生成される。 l-memとv-memの協調学習の恩恵を受け、cmnは、現在のステップである歴史的なナビゲーションアクションの決定に関する記憶を探索することができる。 CVDNデータセットの実験では、CMNは従来の最先端モデルよりも、目に見える環境と目に見えない環境の両方で大きな差があることが示されています。

Vision-dialog navigation posed as a new holy-grail task in vision-language disciplinary targets at learning an agent endowed with the capability of constant conversation for help with natural language and navigating according to human responses. Besides the common challenges faced in visual language navigation, vision-dialog navigation also requires to handle well with the language intentions of a series of questions about the temporal context from dialogue history and co-reasoning both dialogs and visual scenes. In this paper, we propose the Cross-modal Memory Network (CMN) for remembering and understanding the rich information relevant to historical navigation actions. Our CMN consists of two memory modules, the language memory module (L-mem) and the visual memory module (V-mem). Specifically, L-mem learns latent relationships between the current language interaction and a dialog history by employing a multi-head attention mechanism. V-mem learns to associate the current visual views and the cross-modal memory about the previous navigation actions. The cross-modal memory is generated via a vision-to-language attention and a language-to-vision attention. Benefiting from the collaborative learning of the L-mem and the V-mem, our CMN is able to explore the memory about the decision making of historical navigation actions which is for the current step. Experiments on the CVDN dataset show that our CMN outperforms the previous state-of-the-art model by a significant margin on both seen and unseen environments.
翻訳日:2022-12-23 08:27:45 公開日:2020-03-15
# アスペクトベースオピニオンマイニングのための外国語ラベルデータの活用

Leveraging Foreign Language Labeled Data for Aspect-Based Opinion Mining ( http://arxiv.org/abs/2003.06858v1 )

ライセンス: Link先を確認
Nguyen Thi Thanh Thuy, Ngo Xuan Bach, Tu Minh Phuong(参考訳) アスペクトベースの意見マイニングは、アスペクトカテゴリー抽出と感情極性分類という2つのサブタスクからなる、意見テキストのアスペクトレベルでの感情を特定するタスクである。 アスペクトカテゴリー抽出は、製品の特徴などの意見対象を検出し分類することを目的としているが、感情極性分類は、各特定されたアスペクトに対して、肯定的、否定的、中立的な感情ラベルを割り当てる。 教師付き学習方法は、このタスクにより良い精度をもたらすことが示されているが、ラベル付きデータが必要である。 この問題に対処するために,外国語(この場合は英語)のラベル付きデータを自動翻訳ツール(google translate)でベトナム語に翻訳する,アスペクトに基づく意見マイニング手法を提案する。 異なる言語におけるアスペクトや意見が異なる単語で表現されるため、他の特徴に加えて、単語の埋め込みを用いて、原文と翻訳文の語彙差を低減し、アスペクトカテゴリー抽出と感情極性分類プロセスの有効性を向上させることを提案する。 また,ベトナムのレストランレビューから抽出されたアスペクトカテゴリと感情極性の注釈付きコーパスを導入し,コーパスに関する一連の実験を行った。 実験の結果,提案手法の有効性が示された。

Aspect-based opinion mining is the task of identifying sentiment at the aspect level in opinionated text, which consists of two subtasks: aspect category extraction and sentiment polarity classification. While aspect category extraction aims to detect and categorize opinion targets such as product features, sentiment polarity classification assigns a sentiment label, i.e. positive, negative, or neutral, to each identified aspect. Supervised learning methods have been shown to deliver better accuracy for this task but they require labeled data, which is costly to obtain, especially for resource-poor languages like Vietnamese. To address this problem, we present a supervised aspect-based opinion mining method that utilizes labeled data from a foreign language (English in this case), which is translated to Vietnamese by an automated translation tool (Google Translate). Because aspects and opinions in different languages may be expressed by different words, we propose using word embeddings, in addition to other features, to reduce the vocabulary difference between the original and translated texts, thus improving the effectiveness of aspect category extraction and sentiment polarity classification processes. We also introduce an annotated corpus of aspect categories and sentiment polarities extracted from restaurant reviews in Vietnamese, and conduct a series of experiments on the corpus. Experimental results demonstrate the effectiveness of the proposed approach.
翻訳日:2022-12-23 08:27:23 公開日:2020-03-15