このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20200802)

# 新しい物理学のためのモデル独立探索のための量子アルゴリズム

A quantum algorithm for model independent searches for new physics ( http://arxiv.org/abs/2003.02181v2 )

ライセンス: Link先を確認
Konstantin T. Matchev, Prasanth Shyamsundar and Jordan Smolinsky(参考訳) 多次元双対衝突型衝突型データの非モデル化異常を探索する新しい量子技術を提案する。 我々は,Ising格子スピンサイトを各ビンに関連付けることを提案し,Ising Hamiltonianは観測データとそれに対応する理論的な期待値から適切に構成する。 データに空間的に相関する異常を捉えるために,近傍のサイト間のスピンスピン相互作用と自己相互作用を導入する。 結果のイジング・ハミルトニアンの基底状態エネルギーは、古典的あるいは断熱的量子最適化によって計算できる新しいテスト統計量として利用することができる。 テストの統計は、最もよく使われる適合度テストよりも優れています。 この新しいアプローチは、統計ノイズと真の新しい物理信号の典型的な相違を利用することにより、見た目上の効果を大幅に低減する。

We propose a novel quantum technique to search for unmodelled anomalies in multi-dimensional binned collider data. We propose to associate an Ising lattice spin site with each bin, with the Ising Hamiltonian suitably constructed from the observed data and a corresponding theoretical expectation. In order to capture spatially correlated anomalies in the data, we introduce spin-spin interactions between neighboring sites, as well as self-interactions. The ground state energy of the resulting Ising Hamiltonian can be used as a new test statistic, which can be computed either classically or via adiabatic quantum optimization. We demonstrate that our test statistic outperforms some of the most commonly used goodness-of-fit tests. The new approach greatly reduces the look-elsewhere effect by exploiting the typical differences between statistical noise and genuine new physics signals.
翻訳日:2023-05-31 05:16:37 公開日:2020-08-02
# コンパクト化空間型余剰次元とブランヒッグス場

Compactified Spacelike Extra Dimension & Brane-Higgs Field ( http://arxiv.org/abs/2005.00292v2 )

ライセンス: Link先を確認
Florian Nortier(参考訳) 小さな歪んだ空間状外次元(SED)を持つパラダイムでは、ヒッグス場は一般に、重力スケールがワープ因子によってTeVに再シフトされるSED(TeV-brane)の境界に局在する。 SMゲージボソンとフェルミオンが歪んだSEDに伝播すると、フェルミオンの質量階層を生成することができる。 したがって,本論文で詳述するように,一貫性の欠如に苦しむ正規化プロセスを適用し,文献で行われているようなフェルミオンに対して,tev-brane局所化質量を慎重に扱うことが重要である。 論文の第1部は、5Dフェルミオンのブレーン局在化質量項の治療に費やされており、これは重力のギボンズ・ホーキング項と同様、SED境界に新しいラグランジアン項を導入する必要がある。 第2部は、様々なブレーン局所化項(運動項、マヨラナ質量など)に異なる方法(関数/分布場、4d/5d計算等)を適用することと、いくつかの分類されたモデル(フラット/ウォード次元、インターバル/オービフォールドなど)への一般化である。 第三部では、多数の同じ小葉/小葉/小葉を持つ星座グラフ上の平坦なSEDのコンパクト化を提案する。 大容量のコンパクト化空間を得るため、大きなコンパクト化長さを持たずに安定化する。 我々は5次元フェルミオンのアプローチを用いて、小さなディラックニュートリノ質量(左利きの局所化ニュートリノと右利きのバルクモデル)のおもちゃモデルを構築した。

In the paradigm with a small warped Spacelike Extra Dimensions (SED), the Higgs field is in general localized at a boundary of the SED (TeV-brane) where the gravity scale is redshifted to the TeV by a warp factor. If the SM gauge bosons and fermions propagate into the warped SED, one can generate the mass hierarchy for fermions. It is thus crucial to treat carefully the TeV-brane localized masses for such fermions, which is done in the literature by applying a regularization process suffering from a lack of consistency and more importantly being useless, as we demonstrate in detail in the present thesis. The first part of the thesis is devoted to the treatment of brane localized mass terms for 5D fermions, which requires the introduction of new Lagrangian terms at the SED boundaries, similar to the Gibbons-Hawking terms in gravity. The second part consists in applying different methods (function/distribution fields, 4D/5D calculations, etc) to various brane localized terms (kinetic terms, Majorana masses, etc), as well as a generalization to several classified models (flat/warped dimensions, intervalle/orbifold, etc). In the third part, we propose to compactify a flat SED on a star/rose graph with a large number of identical small leaves/petals. We obtain a compactified space with a large volume without a large compactification length to stabilize. We use the approach of 5D fermions to build a toy model of small Dirac neutrino masses (brane localized left-handed neutrinos and bulk right-handed ones).
翻訳日:2023-05-21 14:59:32 公開日:2020-08-02
# 散逸相転移に近い2パラメータ位相空間変位推定

Enhanced Two-Parameter Phase-Space-Displacement Estimation Close to Dissipative Phase Transition ( http://arxiv.org/abs/2006.02075v2 )

ライセンス: Link先を確認
Peter A. Ivanov(参考訳) 位相空間変位を特徴付ける2つの共役変数のジョイント推定のための,駆動散逸型量子システムに基づく量子センサを提案する。 量子プローブは2つのレベル原子を持つ格子系と双極子結合を介して相互作用するボゾンモードからなる。 コヒーレントダイナミクスとボソニック励起の損失の散逸過程の間の相互作用は、非解析的な振る舞いを示す定常状態をもたらす。 散逸相転移に近づいた場合,共役パラメータの一つの感度は,変位の位相の大きさが著しく向上する可能性が示唆された。 さらに、2つのパラメータの測定の不確かさの和は、標準量子限界を克服できることを示す。

I propose a quantum sensor based on driven-dissipative quantum system for the joint estimation of two conjugated variables characterizing the phase space displacement. The quantum probe consists of lattice system with two level atoms and bosonic modes which interact via dipolar coupling. Interplay between the coherent dynamics and dissipative processes of losses of bosonic excitations leads to a steady state which exhibits a non-analytical behaviour. I show that close to the dissipative phase transition the sensitivity of one of the conjugated parameters either the magnitude of the phase of the displacement can be significantly enhanced. Moreover, I show that the sum of the measurement uncertainties of the two parameters can overcome the standard quantum limit.
翻訳日:2023-05-17 06:51:03 公開日:2020-08-02
# デジタル通貨と経済危機:国家の対応を助ける

Digital Currency and Economic Crises: Helping States Respond ( http://arxiv.org/abs/2006.03023v3 )

ライセンス: Link先を確認
Geoffrey Goodell, Hazem Danny Al-Nakib, Paolo Tasca(参考訳) 執筆時点での現在の危機は金融界に大きな影響を与えており、マイクロレベルとマクロレベルの経済を活性化するための創造的なアプローチの必要性が持ち込まれている。 この非公式な分析・設計提案では、金融技術革新の軌道を明るい未来に向けて整えつつ、デジタル資産のインフラが、金融・財政政策の有用なツールであり、特に危機時の既存のツールの有効化にどのように役立つかを述べる。 我々は、銀行関係のない人々が電子的かつプライベートに取引できるデジタル通貨へのアプローチを提案し、そこには、キャッシュレスでなければならないインターネット購入とポイント・オブ・セールの両方が含まれる。 また、より効率的で透明性の高い決済、金融・財政政策の実施、システム的リスクの管理を可能にするデジタル通貨へのアプローチを提案する。 デジタル通貨は中央銀行のデジタル通貨(CBDC)として、あるいは政府によって発行され、公的資金または財務資産によって担保される。 提案したアーキテクチャは、銀行やその他の金融サービス事業者が運営し、政府規制当局が監督する枠組み内で運用される。 我々は、今こそ、現在の危機だけでなく、地政学的リスク、デジタル経済の継続的なグローバル化、テクノロジーがもたらす価値とリスクの変化による将来の危機を予見するため、そのようなシステムの開発を行うための行動の時であると主張している。

The current crisis, at the time of writing, has had a profound impact on the financial world, introducing the need for creative approaches to revitalising the economy at the micro level as well as the macro level. In this informal analysis and design proposal, we describe how infrastructure for digital assets can serve as a useful monetary and fiscal policy tool and an enabler of existing tools in the future, particularly during crises, while aligning the trajectory of financial technology innovation toward a brighter future. We propose an approach to digital currency that would allow people without banking relationships to transact electronically and privately, including both internet purchases and point-of-sale purchases that are required to be cashless. We also propose an approach to digital currency that would allow for more efficient and transparent clearing and settlement, implementation of monetary and fiscal policy, and management of systemic risk. The digital currency could be implemented as central bank digital currency (CBDC), or it could be issued by the government and collateralised by public funds or Treasury assets. Our proposed architecture allows both manifestations and would be operated by banks and other money services businesses, operating within a framework overseen by government regulators. We argue that now is the time for action to undertake development of such a system, not only because of the current crisis but also in anticipation of future crises resulting from geopolitical risks, the continued globalisation of the digital economy, and the changing value and risks that technology brings.
翻訳日:2023-05-17 04:10:22 公開日:2020-08-02
# 熱気体中における集合スピン状態の量子ダイナミクス

Quantum Dynamics of Collective Spin States in a Thermal Gas ( http://arxiv.org/abs/2006.04243v2 )

ライセンス: Link先を確認
Roy Shaham, Or Katz, Ofer Firstenberg(参考訳) 常温以上でのアルカリまたは希ガス原子のアンサンブルは、長寿命スピンのため量子光学やメトロジーに広く応用されている。 彼らの集団スピン状態は、バルクと境界における原子の熱運動にもかかわらず、非古典的非局所相関を維持する。 本稿では,これらの系における原子拡散の効果を確率的,完全に量子的に記述する。 我々はBloch-Heisenberg-Langevin形式を用いて、拡散に起因する量子ノイズと、典型的な壁コーティングに対応する様々な境界条件を考慮し、空間的原子間相関を持つ非古典スピン状態の力学をモデル化する。 例として, スピンノイズ分光法, 収縮したスピン状態の時間的緩和, ハイブリッドシステムにおける2つのスピン種間のコヒーレントカップリングのモデルを適用した。

Ensembles of alkali or noble-gas atoms at room temperature and above are widely applied in quantum optics and metrology owing to their long-lived spins. Their collective spin states maintain nonclassical nonlocal correlations, despite the atomic thermal motion in the bulk and at the boundaries. Here we present a stochastic, fully-quantum description of the effect of atomic diffusion in these systems. We employ the Bloch-Heisenberg-Langevin formalism to account for the quantum noise originating from diffusion and from various boundary conditions corresponding to typical wall coatings, thus modeling the dynamics of nonclassical spin states with spatial inter-atomic correlations. As examples, we apply the model to calculate spin noise spectroscopy, temporal relaxation of squeezed spin states, and the coherent coupling between two spin species in a hybrid system.
翻訳日:2023-05-16 09:07:08 公開日:2020-08-02
# ボルン-オッペンハイマー近似における四体問題について

On the four-body problem in the Born-Oppenheimer approximation ( http://arxiv.org/abs/2007.14948v2 )

ライセンス: Link先を確認
C. A. Escobar and A. Mart\'in-Ruiz(参考訳) 任意の質量の m_1,m_2,m_3$ と $m_4$ を持つ$\mathbb{r}^d$ (d\geq 3$) の4つの粒子の量子問題は、調和振動子ポテンシャルを介して相互作用する。 このモデルは正確な可溶性とボルン・オッペンハイマー近似の臨界解析を可能にする。 研究は地上レベルに限定されている。 2つの重質量が$m_1=m_2=M$と2つの軽粒子が$m_3=m_4=m$である場合、特に注意を払う。 プーズ級数の最初の2項の和は、次元を持たないパラメータ $\sigma=\frac{m}{M}$、波動関数 $\psi_0=e^{-\Phi}$ の正確な位相 $\Phi$ と対応する基底状態エネルギー $E_0$ の和で、ちょうどボルン=オッペンハイマー近似で得られる値と一致する。 h_2$分子と化合物であるh_2o_2$(過酸化水素)の物理関係の粗いモデルについて詳述する。 任意の数の粒子に対して、調和振動子ポテンシャルを介して相互作用する自由度(d\geq n-1$)を持つ一般化も簡単に議論される。

The quantum problem of four particles in $\mathbb{R}^d$ ($d\geq 3$), with arbitrary masses $m_1,m_2,m_3$ and $m_4$, interacting through an harmonic oscillator potential is considered. This model allows exact solvability and a critical analysis of the Born-Oppenheimer approximation. The study is restricted to the ground state level. We pay special attention to the case of two equally heavy masses $m_1=m_2=M$ and two light particles $m_3=m_4=m$. It is shown that the sum of the first two terms of the Puiseux series, in powers of the dimensionless parameter $\sigma=\frac{m}{M}$, of the exact phase $\Phi$ of the wave function $\psi_0=e^{-\Phi}$ and the corresponding ground state energy $E_0$, coincide exactly with the values obtained in the Born-Oppenheimer approximation. A physically relevant rough model of the $H_2$ molecule and of the chemical compound $H_2O_2$ (Hydrogen peroxide) is described in detail. The generalization to an arbitrary number of particles $n$, with $d$ degrees of freedom ($d\geq n-1$), interacting through an harmonic oscillator potential is briefly discussed as well.
翻訳日:2023-05-07 20:35:03 公開日:2020-08-02
# NP問題のイジング定式化における複素性連続体

Complexity continuum within Ising formulation of NP problems ( http://arxiv.org/abs/2008.00466v1 )

ライセンス: Link先を確認
Kirill P. Kalinin and Natalia G. Berloff(参考訳) 古典的フォン・ノイマンアーキテクチャに対する計算上優位性を達成するための有望なアプローチは、古典的および量子ハードウェアをイジングマシンとして探索する。 イジングハミルトニアンの最小化は、ある相互作用行列類に対するnp-ハード問題として知られているが、すべての問題インスタンスが同値に最適化しにくいわけではない。 本稿では,計算的にシンプルなインスタンスを'最適化簡易基準'で識別する。 このような最適化の単純さは、スピングラスからk-正則最大カット問題まで幅広いモデルで見られる。 多くの光学系、フォトニック系、電子系は、この基準を満たす問題を最適化するために自然に操作できるニューロモルフィックアーキテクチャであるため、このような問題は、新しいイジングマシンの計算上の利点を説明するためにしばしば選択される。 さらに、より複雑な「再配線」可能な循環結合行列を解析することにより、スパースモデルと密度モデルの中間複雑性を探索する。 同じNP-hardクラス内の簡単で難しいインスタンスを区別するための魅力的なアプローチは、新しい物理シミュレータと物理に着想を得たアルゴリズムの性能評価のための標準化された手順を開発するための出発点となる。

A promising approach to achieve computational supremacy over the classical von Neumann architecture explores classical and quantum hardware as Ising machines. The minimisation of the Ising Hamiltonian is known to be NP-hard problem for certain interaction matrix classes, yet not all problem instances are equivalently hard to optimise. We propose to identify computationally simple instances with an `optimisation simplicity criterion'. Such optimisation simplicity can be found for a wide range of models from spin glasses to k-regular maximum cut problems. Many optical, photonic, and electronic systems are neuromorphic architectures that can naturally operate to optimise problems satisfying this criterion and, therefore, such problems are often chosen to illustrate the computational advantages of new Ising machines. We further probe an intermediate complexity for sparse and dense models by analysing circulant coupling matrices, that can be `rewired' to introduce greater complexity. A compelling approach for distinguishing easy and hard instances within the same NP-hard class of problems can be a starting point in developing a standardised procedure for the performance evaluation of emerging physical simulators and physics-inspired algorithms.
翻訳日:2023-05-07 08:43:50 公開日:2020-08-02
# セレチ・ド・セレチの労働問題における「人種的問題」の考察

An\'alisis jur\'idico de la discriminaci\'on algor\'itmica en los procesos de selecci\'on laboral ( http://arxiv.org/abs/2008.00371v1 )

ライセンス: Link先を確認
Andr\'es P\'aez, Natalia Ram\'irez-Bustamante(参考訳) ジョブアプリケーション処理における機械学習システムの使用により、プロセスはアジャイルで効率的になったが、同時に、平等、信頼性、透明性という面で問題を生み出した。 本稿では、アメリカ合衆国における求職プロセスにおけるMLの利用について説明するとともに、検出された人種的・性的偏見について述べる。 これらのバイアスの検出と分析を妨げる実用的および法的障害がある。 また、法的な観点からアルゴリズム的差別にどうアプローチするかも不明である。 分析ツールとして米国における異種衝突説が考えられるが、コロンビア法のような他の法体系に適応する際の制限や問題をいくつか示す。 結論として、アルゴリズムの差別に関する法的分析が提供すべきデシラタを提供する。

The use of machine learning systems in processing job applications has made the process agile and efficient, but at the same time it has created problems in terms of equality, reliability and transparency. In this paper we explain some of the uses of ML in job selection processes in the United States, and we present some the racial and sexual biases that have been detected. There are both practical and legal obstacles that impede the detection and analysis of these biases. It is also unclear how to approach algorithmic discrimination from a legal point of view. A possible analytical tool is provided by the American doctrine of Disparate Impact, but we show some of its limitations and problems when adapted to other legal systems, such as Colombian law. To conclude, we offer some desiderata that any legal analysis of algorithmic discrimination should provide.
翻訳日:2023-05-07 08:43:02 公開日:2020-08-02
# 全「ループホールフリー」ベル型定理のループホールについて

Comment on "A Loophole of All "Loophole-Free" Bell-Type Theorems" ( http://arxiv.org/abs/2008.00369v1 )

ライセンス: Link先を確認
Justo Pastor Lambare(参考訳) 最近の論文(Found Sci (2020) https://doi.org/10.1007/s10699-020-09666-0)で、Marek Czachor はベルの不等式を証明できないと主張している。 彼はベルの不等式を正統的に解釈する問題を正しく特定し、それらを元の方法で扱ったにもかかわらず、ジョン・スチュワート・ベルによって与えられた元の定式化とは関係がない。

In a recent article (Found Sci (2020) https://doi.org/10.1007/s10699-020-09666-0) Marek Czachor claims that the Bell inequality cannot be proved because variables of complementary measurements cannot be added or multiplied. Even though he has correctly identified the problems existing with the orthodox interpretation of the Bell inequality and dealt with them in an original way, the interpretation he addresses do not pertain to the original formulation given by John Stewart Bell.
翻訳日:2023-05-07 08:42:49 公開日:2020-08-02
# ローレンツ共変量子力学構築のためのdiracの取り組みの統合

Integration of Dirac's Efforts to construct Lorentz-covariant Quantum Mechanics ( http://arxiv.org/abs/2008.00551v1 )

ライセンス: Link先を確認
Young S. Kim and Marilyn E. Noz(参考訳) ポール・A・M・ディラックの生涯の努力はローレンツ共変世界における局在量子系の構築であった。 1927年、彼は時間エネルギーの不確実性はローレンツ共変写像に含めるべきであると述べた。 1945年、彼は空間変数と時間変数の両方に局所化された正規化ガウス関数を用いてローレンツ群の表現を構築しようとした。 1949年、彼は時間的な振動を排除するためにインスタントフォームを導入した。 彼はローレンツブースターの光円錐座標系も導入した。 1949年には、同質なローレンツ群のリー代数はローレンツ共変世界の不確かさ関係として機能できると述べた。 これら3つの論文を統合することで、ローレンツ変換が可能な高調波発振器波動関数を生成することができる。 さらに1963年、ディラックは2つの結合振動子を考え、10個の生成子を持つ$o(3,\,2)$ド・ジッター群の生成元に対するリー代数を導出した。 この群を、アインシュタインのローレンツ共変世界における量子力学の基本対称性を構成する10個の生成子を持つ不均一ローレンツ群に縮約できることが証明されている。

The lifelong efforts of Paul A. M. Dirac were to construct localized quantum systems in the Lorentz covariant world. In 1927, he noted that the time-energy uncertainty should be included in the Lorentz-covariant picture. In 1945, he attempted to construct a representation of the Lorentz group using a normalizable Gaussian function localized both in the space and time variables. In 1949, he introduced his instant form to exclude time-like oscillations. He also introduced the light-cone coordinate system for Lorentz boosts. Also in 1949, he stated the Lie algebra of the inhomogeneous Lorentz group can serve as the uncertainty relations in the Lorentz-covariant world. It is possible to integrate these three papers to produce the harmonic oscillator wave function which can be Lorentz-transformed. In addition, Dirac, in 1963, considered two coupled oscillators to derive the Lie algebra for the generators of the $O(3,\,2)$ de Sitter group, which has ten generators. It is proven possible to contract this group to the inhomogeneous Lorentz group with ten generators, which constitute the fundamental symmetry of quantum mechanics in Einstein's Lorentz-covariant world.
翻訳日:2023-05-07 08:38:58 公開日:2020-08-02
# 小型原子ビームを用いた高感度原子-光相互作用用マイクロリング共振器

High Quality factor micro-ring resonator for strong atom-light interactions using miniature atomic beams ( http://arxiv.org/abs/2008.00541v1 )

ライセンス: Link先を確認
Ali Eshaghian Dorche, Bochao Wei, Chandra Raman, Ali Adibi(参考訳) 原子ビームとアニーリングフリー高品質(Q)マイクロ共振器との強い相互作用に対して、集積フォトニックプラットフォームが提案されている。 我々は、$^{87}$Rbから$~780$ nmの光遷移の周囲に1.55\times10^6$の負荷Qを積んだ薄膜のSiNマイクロ共振器を作製した。 このqは、デバイスを高温でアニールすることなく実現され、光電子回路を含む将来の完全統合プラットフォームも実現される。 推定単光子ラビ周波数(2g)は、共振器上の100nmの高さで$2\boldsymbol{\pi}}\times$64 MHzである。 シミュレーションの結果, 長手速度0.2m/sから30m/sの小型原子ビームは共振器と強く相互作用し, 単一原子遷移の検出とスケーラブルな単一原子フォトニックデバイスの実現を可能にした。 同様のQを持つレーストラック共振器は、300m/s程度の速度で熱原子ビームを検出するのに使用できる。

An integrated photonic platform is proposed for strong interactions between atomic beams and annealing-free high-quality-factor (Q) microresonators. We fabricated a thin-film, air-clad SiN microresonator with a loaded Q of $1.55\times10^6$ around the optical transition of $^{87}$Rb at $~780$ nm. This Q is achieved without annealing the devices at high temperatures, enabling future fully integrated platforms containing optoelectronic circuitry as well. The estimated single-photon Rabi frequency (2g) is ${2\boldsymbol{\pi}}\times$64 MHz at a height of 100 nm above the resonator. Our simulation result indicates that miniature atomic beams with a longitudinal speed of 0.2 m/s to 30 m/s will strongly interact with our resonator, allowing for the detection of single-atom transits and the realization of scalable single-atom photonic devices. Racetrack resonators with a similar Q can be used to detect thermal atomic beams with velocities around 300 m/s.
翻訳日:2023-05-07 08:38:27 公開日:2020-08-02
# トロールのためのトロール:データセット

Trawling for Trolling: A Dataset ( http://arxiv.org/abs/2008.00525v1 )

ライセンス: Link先を確認
Hitkul, Karmanya Aggarwal, Pakhi Bamdev, Debanjan Mahata, Rajiv Ratn Shah and Ponnurangam Kumaraguru(参考訳) 攻撃的コンテンツを自動的に検出し、フィルタリングする能力は、リッチで多様なデジタル会話を確実にするために重要である。 トロール(英: trolling)は、ソーシャルメディアで広く使われている、有害または不快なコンテンツの一種であるが、攻撃的コンテンツ検出のためのデータセットでは過小評価されている。 本稿では,攻撃的コンテンツのサブカテゴリとしてトロールをモデル化するデータセットを提案する。 データセットは、よく知られたデータセットからサンプルを収集し、攻撃的コンテンツのさまざまなカテゴリの正確な定義に沿って再注釈することで作成された。 データセットには12,490のサンプルがあり、5つのクラスに分かれている。 Twitter、Reddit、Wikipedia Talk Pagesのコンテンツを含む。 データセットでトレーニングされたモデルは、重要なハイパーパラメータチューニングを伴わずに良好なパフォーマンスを示し、意味のある言語情報を効果的に学習することができる。 これらのモデルはデータアブレーションに敏感であり、データセットには散発的な統計的アーティファクトがほとんどなく、それ以外は分類モデルを混乱させ混乱させる可能性があることを示唆している。

The ability to accurately detect and filter offensive content automatically is important to ensure a rich and diverse digital discourse. Trolling is a type of hurtful or offensive content that is prevalent in social media, but is underrepresented in datasets for offensive content detection. In this work, we present a dataset that models trolling as a subcategory of offensive content. The dataset was created by collecting samples from well-known datasets and reannotating them along precise definitions of different categories of offensive content. The dataset has 12,490 samples, split across 5 classes; Normal, Profanity, Trolling, Derogatory and Hate Speech. It encompasses content from Twitter, Reddit and Wikipedia Talk Pages. Models trained on our dataset show appreciable performance without any significant hyperparameter tuning and can potentially learn meaningful linguistic information effectively. We find that these models are sensitive to data ablation which suggests that the dataset is largely devoid of spurious statistical artefacts that could otherwise distract and confuse classification models.
翻訳日:2023-05-07 08:37:40 公開日:2020-08-02
# 退化した例外点近傍の摂動理論

Perturbation theory near degenerate exceptional points ( http://arxiv.org/abs/2008.00479v1 )

ライセンス: Link先を確認
Miloslav Znojil(参考訳) ユニタリシステムの量子力学の全体的な枠組みにおいて、摂動理論のかなり洗練された新しいバージョンが開発されている。 第一に、摂動ハミルトニアン$H=H_0+\lambda V$は非エルミート的であり、観測不能例外点(EP)縮退極限$H_0$に近いと仮定される。 第二に、このEP極限において、退化未摂動固有値の幾何乗法$L$が、既存の研究の大多数とは対照的に1より大きいと仮定される。 これらの仮定の下では、境界状態の構成方法を記述する。 具体的な微妙な特徴は、前列のレシピで示される。 L$の値と摂動の行列要素の構造の間の直観的接続の出現、EP特異点の展開過程の安定性とユニタリ性の損失の可能性について詳述する。

In an overall framework of quantum mechanics of unitary systems a rather sophisticated new version of perturbation theory is developed. What is assumed is, firstly, that the perturbed Hamiltonians $H=H_0+\lambda V$ are non-Hermitian and lie close to their unobservable exceptional-point (EP) degeneracy limit $H_0$. Secondly, in this EP limit, the geometric multiplicity $L$ of the degenerate unperturbed eigenvalue $E_0$ is assumed, in contrast to the majority of existing studies, larger than one. Under these assumptions the method of construction of the bound states is described. Its specific subtleties are illustrated via the leading-order recipe. The emergence of a counterintuitive connection between the value of $L$, the structure of the matrix elements of perturbations, and the possible loss of the stability and unitarity of the processes of the unfolding of the EP singularity is given a detailed explanation.
翻訳日:2023-05-07 08:37:04 公開日:2020-08-02
# 二次元領域における幾何学的摂動による点相互作用の近似

Approximation of point interactions by geometric perturbations in two-dimensional domains ( http://arxiv.org/abs/2008.00478v1 )

ライセンス: Link先を確認
Denis I. Borisov, Pavel Exner(参考訳) 点相互作用を持つ平面領域における二階楕円作用素の新たな近似法を提案する。 これは幾何学的性質であり、近似族は、同じ記号を持つ作用素と、小さな穴を持つ領域上の正則係数からなる。 その境界では、ロビン条件は穴の線形サイズに依存する係数で課される。 穴が一点に縮まり、境界条件のパラメータが非線形かつ特異な適切な方法でスケールされると、指示された族はノルム分解的意味において点相互作用を持つ作用素に収束することを示す。 この分解率収束は、いくつかの作用素ノルムに対して確立され、収束率の順序-シャープ推定が提供される。

We present a new type of approximation of a second-order elliptic operator in a planar domain with a point interaction. It is of a geometric nature, the approximating family consists of operators with the same symbol and regular coefficients on the domain with a small hole. At the boundary of it Robin condition is imposed with the coefficient which depends on the linear size of a hole. We show that as the hole shrinks to a point and the parameter in the boundary condition is scaled in a suitable way, nonlinear and singular, the indicated family converges in the norm-resolvent sense to the operator with the point interaction. This resolvent convergence is established with respect to several operator norms and order-sharp estimates of the convergence rates are provided.
翻訳日:2023-05-07 08:36:47 公開日:2020-08-02
# 対立政策を組み込んだ模倣学習の防止

Preventing Imitation Learning with Adversarial Policy Ensembles ( http://arxiv.org/abs/2002.01059v2 )

ライセンス: Link先を確認
Albert Zhan, Stas Tiomkin, Pieter Abbeel(参考訳) 模倣学習は、政策プライバシに関する問題を引き起こす専門家を観察することで、ポリシーを再現することができる。 人間のようなポリシーや、展開されたロボットに関するポリシーは、所有者の同意なしに全てクローン化できる。 プロプライエタリなポリシーをクローンする外部オブザーバに対して、どうすれば保護できるのか? この疑問に答えるために,我々は,外部のオブザーバが役に立たないことが保証される準最適政策のアンサンブルをトレーニングする,新たな強化学習フレームワークを導入する。 制約付き最適化問題では,プロプライエタリなポリシーを改善することを目的としており,同時に外部オブザーバの仮想ポリシーを劣化させる。 我々は,この新たな最適化問題を解決するために,標準ポリシー勾配アルゴリズムを改良し,扱いやすいアルゴリズムを設計した。 我々の定式化は、機密性や敵対行動のレンズで解釈できるので、この研究のより広い視点で見ることができます。 本稿では,上記の最適化問題に対する解として,改良ポリシー勾配アルゴリズムによって計算された「非可解」アンサンブルの存在を実証する。 我々の知る限り、これは強化学習における政策の保護に関する最初の研究である。

Imitation learning can reproduce policies by observing experts, which poses a problem regarding policy privacy. Policies, such as human, or policies on deployed robots, can all be cloned without consent from the owners. How can we protect against external observers cloning our proprietary policies? To answer this question we introduce a new reinforcement learning framework, where we train an ensemble of near-optimal policies, whose demonstrations are guaranteed to be useless for an external observer. We formulate this idea by a constrained optimization problem, where the objective is to improve proprietary policies, and at the same time deteriorate the virtual policy of an eventual external observer. We design a tractable algorithm to solve this new optimization problem by modifying the standard policy gradient algorithm. Our formulation can be interpreted in lenses of confidentiality and adversarial behaviour, which enables a broader perspective of this work. We demonstrate the existence of "non-clonable" ensembles, providing a solution to the above optimization problem, which is calculated by our modified policy gradient algorithm. To our knowledge, this is the first work regarding the protection of policies in Reinforcement Learning.
翻訳日:2023-01-05 05:35:11 公開日:2020-08-02
# 正規化最適輸送は地上コストの逆である

Regularized Optimal Transport is Ground Cost Adversarial ( http://arxiv.org/abs/2002.03967v3 )

ライセンス: Link先を確認
Fran\c{c}ois-Pierre Paty, Marco Cuturi(参考訳) 最適輸送問題(OT)の正規化は、OT理論が機械学習の分野に影響を与えることが証明されている。 例えば、エントロピーによるOT問題の正規化は、Sinkhornアルゴリズムを用いたより高速な計算とより良い微分をもたらし、古典的なOTよりも優れたサンプル複雑性境界をもたらすことが知られている。 本研究では,本手法を出発点とし,強固なメカニズムとしての正則化の新しい解釈を提案し,ot の任意の凸正則化を基底コスト逆として解釈できることをフェンシェル双対性を用いて示す。 これは同時に、地上空間上のロバストな異種性測度へのアクセスを与え、他のアプリケーションで使用することができる。 我々は、この堅牢なコストを計算するアルゴリズムを提案し、このアプローチの興味を実証的に示す。

Regularizing the optimal transport (OT) problem has proven crucial for OT theory to impact the field of machine learning. For instance, it is known that regularizing OT problems with entropy leads to faster computations and better differentiation using the Sinkhorn algorithm, as well as better sample complexity bounds than classic OT. In this work we depart from this practical perspective and propose a new interpretation of regularization as a robust mechanism, and show using Fenchel duality that any convex regularization of OT can be interpreted as ground cost adversarial. This incidentally gives access to a robust dissimilarity measure on the ground space, which can in turn be used in other applications. We propose algorithms to compute this robust cost, and illustrate the interest of this approach empirically.
翻訳日:2023-01-02 07:59:52 公開日:2020-08-02
# 100kパラメータを用いた高効率サルエント物体検出

Highly Efficient Salient Object Detection with 100K Parameters ( http://arxiv.org/abs/2003.05643v2 )

ライセンス: Link先を確認
Shang-Hua Gao, Yong-Qiang Tan, Ming-Ming Cheng, Chengze Lu, Yunpeng Chen, Shuicheng Yan(参考訳) サルエント物体検出モデルは、各画素を正確に予測するためにかなりの計算コストを必要とすることが多く、低消費電力デバイスでは適用できない。 本稿では,ネットワーク効率を向上し,計算コストとモデル性能の矛盾を解消することを目的とする。 我々は,新しい動的重み減衰法により表現冗長性を低減しつつ,ステージ内およびクロスステージ両方のマルチスケール特徴を効率的に活用する,フレキシブルな畳み込みモジュールOctoConv(gOctConv)を提案する。 効果的な動的重み減衰スキームは、トレーニング中のパラメータのスパーシティを安定的に向上させ、goctconvの各スケールで学習可能なチャネル数をサポートし、性能低下によってパラメータの80%を削減できる。 goctconvを利用することで、非常に軽量なcsnetモデルを構築し、一般的なsalientオブジェクト検出ベンチマークで、約0.2%の大規模モデルのパラメータ(100k)と同等のパフォーマンスを実現します。

Salient object detection models often demand a considerable amount of computation cost to make precise prediction for each pixel, making them hardly applicable on low-power devices. In this paper, we aim to relieve the contradiction between computation cost and model performance by improving the network efficiency to a higher degree. We propose a flexible convolutional module, namely generalized OctConv (gOctConv), to efficiently utilize both in-stage and cross-stages multi-scale features, while reducing the representation redundancy by a novel dynamic weight decay scheme. The effective dynamic weight decay scheme stably boosts the sparsity of parameters during training, supports learnable number of channels for each scale in gOctConv, allowing 80% of parameters reduce with negligible performance drop. Utilizing gOctConv, we build an extremely light-weighted model, namely CSNet, which achieves comparable performance with about 0.2% parameters (100k) of large models on popular salient object detection benchmarks.
翻訳日:2022-12-24 14:58:03 公開日:2020-08-02
# DriftSurf:概念ドリフト下でのリスク競合学習アルゴリズム

DriftSurf: A Risk-competitive Learning Algorithm under Concept Drift ( http://arxiv.org/abs/2003.06508v2 )

ライセンス: Link先を確認
Ashraf Tahmasbi, Ellango Jothimurugesan, Srikanta Tirthapura, Phillip B. Gibbons(参考訳) ストリーミングデータから学ぶとき、コンセプトドリフト(concept drift)とも呼ばれるデータ分散の変化は、事前に学習したモデルが不正確で、新しいモデルをトレーニングする必要がある。 本研究では,従来のドリフト検出法を拡張した適応学習アルゴリズムを提案する。 この手法の利点は, 安定状態において積極的にドリフト検出を行うことで高い検出率を達成できるが, 実際のドリフトに迅速に反応し, ほとんどの偽陽性を排除しながら, スタンドアロンドリフト検出の偽陽性率を軽減できることである。 このアルゴリズムは基本学習器では一般的であり、様々な教師付き学習問題に適用することができる。 我々の理論的分析は、アルゴリズムのリスクは、いつ(突然)ドリフトが起こるかというオラクルの知識を持つアルゴリズムと競合することを示している。 概念ドリフトを用いた合成データと実データの実験により, 理論的解析が確立された。

When learning from streaming data, a change in the data distribution, also known as concept drift, can render a previously-learned model inaccurate and require training a new model. We present an adaptive learning algorithm that extends previous drift-detection-based methods by incorporating drift detection into a broader stable-state/reactive-state process. The advantage of our approach is that we can use aggressive drift detection in the stable state to achieve a high detection rate, but mitigate the false positive rate of standalone drift detection via a reactive state that reacts quickly to true drifts while eliminating most false positives. The algorithm is generic in its base learner and can be applied across a variety of supervised learning problems. Our theoretical analysis shows that the risk of the algorithm is competitive to an algorithm with oracle knowledge of when (abrupt) drifts occur. Experiments on synthetic and real datasets with concept drifts confirm our theoretical analysis.
翻訳日:2022-12-24 01:13:01 公開日:2020-08-02
# モノのインターネットにおけるフェデレーション学習と分割学習のエンドツーエンド評価

End-to-End Evaluation of Federated Learning and Split Learning for Internet of Things ( http://arxiv.org/abs/2003.13376v2 )

ライセンス: Link先を確認
Yansong Gao, Minki Kim, Sharif Abuadbba, Yeonjae Kim, Chandra Thapa, Kyuyeon Kim, Seyit A. Camtepe, Hyoungshick Kim, Surya Nepal(参考訳) この研究は、学習パフォーマンスとデバイス実装のオーバーヘッドの観点から、フェデレート学習(FL)とニューラルネットワーク(SplitNN)を現実のIoT設定で評価し比較する最初の試みである。 さまざまなデータセット、さまざまなモデルアーキテクチャ、複数のクライアント、さまざまなパフォーマンスメトリクスを検討します。 モデルの精度と収束速度の指標によって規定される学習性能について,不均衡データや非独立データ,同一分散データ(非IIDデータ)など,異なるタイプのデータ分布下でFLとSplitNNを実証的に評価する。 不均衡なデータ分布ではSplitNNの学習性能はFLより優れているが,非IIDデータ分布ではFLより劣っていることを示す。 実装のオーバヘッドとして,Raspberry Pi上でFLとSplitNNの両方をエンドツーエンドにマウントし,トレーニング時間,実際のLAN設定下での通信オーバヘッド,消費電力,メモリ使用量などのオーバヘッドを総合的に評価する。 我々の重要な観察は、通信トラフィックが主な関心事であるIoTシナリオにおいて、FLは、以前の統計分析を実証的に裏付けるSplitNNに比べて、FLの方が通信オーバヘッドが大幅に低いため、SplitNNよりもパフォーマンスが良いように見えることです。 さらに,SplitNNに関するいくつかの未認識の制限を明らかにし,今後の研究の基盤となる。

This work is the first attempt to evaluate and compare felderated learning (FL) and split neural networks (SplitNN) in real-world IoT settings in terms of learning performance and device implementation overhead. We consider a variety of datasets, different model architectures, multiple clients, and various performance metrics. For learning performance, which is specified by the model accuracy and convergence speed metrics, we empirically evaluate both FL and SplitNN under different types of data distributions such as imbalanced and non-independent and identically distributed (non-IID) data. We show that the learning performance of SplitNN is better than FL under an imbalanced data distribution, but worse than FL under an extreme non-IID data distribution. For implementation overhead, we end-to-end mount both FL and SplitNN on Raspberry Pis, and comprehensively evaluate overheads including training time, communication overhead under the real LAN setting, power consumption and memory usage. Our key observations are that under IoT scenario where the communication traffic is the main concern, the FL appears to perform better over SplitNN because FL has the significantly lower communication overhead compared with SplitNN, which empirically corroborate previous statistical analysis. In addition, we reveal several unrecognized limitations about SplitNN, forming the basis for future research.
翻訳日:2022-12-18 08:47:50 公開日:2020-08-02
# 野生における透明物体のセグメンテーション

Segmenting Transparent Objects in the Wild ( http://arxiv.org/abs/2003.13948v3 )

ライセンス: Link先を確認
Enze Xie, Wenjia Wang, Wenhai Wang, Mingyu Ding, Chunhua Shen, Ping Luo(参考訳) 窓やガラス製の瓶などの透明な物体は現実世界に広く存在している。 透明な物体のセグメンテーションは、画像背景から受け継がれた多様な外観を持ち、周囲と類似した外観を持つため、困難である。 このタスクの技術的難しさに加えて、このタスクを探索するために特別に設計された、いくつかの以前のデータセットのみが収集される。 手動のアノテーションを使わずに数千枚の画像に制限されたサンプルサイズを持つか、コンピュータグラフィックス(すなわち実際の画像ではない)を使って全ての画像を生成する。 この重要な問題に対処するために、本研究では、トランス10kと呼ばれる透明なオブジェクトセグメンテーションのための大規模データセットを提案し、既存のデータセットの10倍の大きさの手動アノテーションを備えた、実際のシナリオの10,428の画像からなる。 図1に示すように、Trans10Kの透明な物体はスケール、視点、閉塞の多様性が高いため、非常に難しい。 本稿では,トランス10kの有効性を評価するために,境界を透明な物体のセグメンテーションを改善する手掛かりとして利用する新しい境界認識セグメンテーション手法であるtranslabを提案する。 広範囲にわたる実験とアブレーション研究は、Trans10Kの有効性を示し、TransLabにおける学習対象境界の実用性を検証する。 例えば、TransLabは、ディープラーニングに基づく20の最近のオブジェクトセグメンテーションメソッドを著しく上回り、このタスクがほとんど未解決であることを示している。 Trans10KとTransLabはどちらも学術と産業の両方に重要な貢献をしており、将来の研究や応用を促進すると信じています。

Transparent objects such as windows and bottles made by glass widely exist in the real world. Segmenting transparent objects is challenging because these objects have diverse appearance inherited from the image background, making them had similar appearance with their surroundings. Besides the technical difficulty of this task, only a few previous datasets were specially designed and collected to explore this task and most of the existing datasets have major drawbacks. They either possess limited sample size such as merely a thousand of images without manual annotations, or they generate all images by using computer graphics method (i.e. not real image). To address this important problem, this work proposes a large-scale dataset for transparent object segmentation, named Trans10K, consisting of 10,428 images of real scenarios with carefully manual annotations, which are 10 times larger than the existing datasets. The transparent objects in Trans10K are extremely challenging due to high diversity in scale, viewpoint and occlusion as shown in Fig. 1. To evaluate the effectiveness of Trans10K, we propose a novel boundary-aware segmentation method, termed TransLab, which exploits boundary as the clue to improve segmentation of transparent objects. Extensive experiments and ablation studies demonstrate the effectiveness of Trans10K and validate the practicality of learning object boundary in TransLab. For example, TransLab significantly outperforms 20 recent object segmentation methods based on deep learning, showing that this task is largely unsolved. We believe that both Trans10K and TransLab have important contributions to both the academia and industry, facilitating future researches and applications.
翻訳日:2022-12-18 01:05:26 公開日:2020-08-02
# MDP計画のためのトレードオフ型コントラスト記述

Tradeoff-Focused Contrastive Explanation for MDP Planning ( http://arxiv.org/abs/2004.12960v2 )

ライセンス: Link先を確認
Roykrong Sukkerd, Reid Simmons, and David Garlan(参考訳) エンドユーザーによる自動エージェントへの信頼は、自動意思決定と計画が人々の生活の多くの側面でますます利用されているため重要である。 実際の計画の応用では、複数の最適化目標がしばしば関与する。 したがって、プランニングエージェントの決定は、競合する目的間の複雑なトレードオフを伴う可能性がある。 エンドユーザは、目的値に基づいて、エージェントが特定の計画ソリューションを決定する理由を理解することは困難である。 結果として、ユーザーはエージェントが正しい決定をしているかどうかを知らず、信頼を欠いている可能性がある。 本研究では,マルチオブジェクト型MDP計画エージェントが,ドメインレベルの概念の観点からトレードオフの合理性を伝達する手段として,その決定を説明できるアプローチを,対照的な説明に基づいて提案する。 我々は,移動ロボットナビゲーション領域における説明手法の有効性を評価するために,人体実験を行う。 その結果,提案手法は,計画エージェントのトレードオフ合理性に対するユーザの理解,信頼度を著しく向上させることがわかった。

End-users' trust in automated agents is important as automated decision-making and planning is increasingly used in many aspects of people's lives. In real-world applications of planning, multiple optimization objectives are often involved. Thus, planning agents' decisions can involve complex tradeoffs among competing objectives. It can be difficult for the end-users to understand why an agent decides on a particular planning solution on the basis of its objective values. As a result, the users may not know whether the agent is making the right decisions, and may lack trust in it. In this work, we contribute an approach, based on contrastive explanation, that enables a multi-objective MDP planning agent to explain its decisions in a way that communicates its tradeoff rationale in terms of the domain-level concepts. We conduct a human subjects experiment to evaluate the effectiveness of our explanation approach in a mobile robot navigation domain. The results show that our approach significantly improves the users' understanding, and confidence in their understanding, of the tradeoff rationale of the planning agent.
翻訳日:2022-12-09 05:48:27 公開日:2020-08-02
# レシートデータからマルチタイムスケール消費パターンの検出:非負のテンソル因子化アプローチ

Detecting multi-timescale consumption patterns from receipt data: A non-negative tensor factorization approach ( http://arxiv.org/abs/2004.13277v2 )

ライセンス: Link先を確認
Akira Matsui, Teruyoshi Kobayashi, Daisuke Moriwaki, Emilio Ferrara(参考訳) 消費者の行動を理解することは、マーケティング戦略だけでなく、経済政策の管理にも重要である。 しかし, 消費パターンの検出は, 消費者の行動に影響を及ぼす様々な要因, 消費者の人口動態, 概日リズム, 季節周期などを考慮する必要がある高次元問題である。 そこで我々は,スキャンしたレシートの大規模なデータセットから,消費者のマルチスケール支出パターンを抽出する手法を開発した。 我々は、非負のテンソル因子化(NTF)を用いて、週内および週間消費パターンを一度に検出する。 提案手法により,異なる時間スケールで相関する消費パターンに基づいて消費者を特徴付けることができる。

Understanding consumer behavior is an important task, not only for developing marketing strategies but also for the management of economic policies. Detecting consumption patterns, however, is a high-dimensional problem in which various factors that would affect consumers' behavior need to be considered, such as consumers' demographics, circadian rhythm, seasonal cycles, etc. Here, we develop a method to extract multi-timescale expenditure patterns of consumers from a large dataset of scanned receipts. We use a non-negative tensor factorization (NTF) to detect intra- and inter-week consumption patterns at one time. The proposed method allows us to characterize consumers based on their consumption patterns that are correlated over different timescales.
翻訳日:2022-12-08 22:16:28 公開日:2020-08-02
# 野生のシーンテキスト画像の超高解像度化

Scene Text Image Super-Resolution in the Wild ( http://arxiv.org/abs/2005.03341v3 )

ライセンス: Link先を確認
Wenjia Wang, Enze Xie, Xuebo Liu, Wenhai Wang, Ding Liang, Chunhua Shen, and Xiang Bai(参考訳) 低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。 低解像度のテキスト画像を認識することは、詳細なコンテンツ情報を失うため、認識精度が低下するため難しい。 直感的な解決策は、前処理として超解像(SR)技術を導入することである。 しかし、従来の単一画像超解像法(SISR)は、合成低解像度画像(例えば、バイコビックダウンサンプリング)で訓練されており、実際の低解像度テキスト認識には適していない。 そこで本研究では,実際のシーンテキストSRデータセットであるTextZoomを提案する。 実際の低解像度と高解像度の2枚の画像を、野生の焦点距離の異なるカメラで撮影する。 図1に示すように、合成データよりも正確で挑戦的です。 認識精度の即興化がScene Text SRの究極の目標であると主張する。 この目的のために、TSRNと呼ばれる3つの新しいモジュールを備えた新しいテキスト超解法ネットワークを開発した。 1)テキスト画像の逐次情報を抽出するために,逐次的残差ブロックを提案する。 2) 文字境界を鋭くするために境界認識損失を設計する。 (3) TextZoomのアライメント問題を軽減するために, 中央アライメントモジュールを提案する。 TextZoomの大規模な実験により、我々のTSRNはCRNNの13%以上、ASTERとMORANの約9.0%の認識精度を合成SRデータと比較して大幅に向上することが示された。 さらに、TSRNは、TextZoomにおけるLR画像の認識精度を高めるために、7つの最先端SR手法よりも明らかに優れています。 例えば、LapSRNを5%以上、ASTERとCRNNの認識精度の8%以上で上回っている。 以上の結果から,低解像度テキスト認識の課題は解決に至らず,さらなる研究が必要であることが示唆された。

Low-resolution text images are often seen in natural scenes such as documents captured by mobile phones. Recognizing low-resolution text images is challenging because they lose detailed content information, leading to poor recognition accuracy. An intuitive solution is to introduce super-resolution (SR) techniques as pre-processing. However, previous single image super-resolution (SISR) methods are trained on synthetic low-resolution images (e.g.Bicubic down-sampling), which is simple and not suitable for real low-resolution text recognition. To this end, we pro-pose a real scene text SR dataset, termed TextZoom. It contains paired real low-resolution and high-resolution images which are captured by cameras with different focal length in the wild. It is more authentic and challenging than synthetic data, as shown in Fig. 1. We argue improv-ing the recognition accuracy is the ultimate goal for Scene Text SR. In this purpose, a new Text Super-Resolution Network termed TSRN, with three novel modules is developed. (1) A sequential residual block is proposed to extract the sequential information of the text images. (2) A boundary-aware loss is designed to sharpen the character boundaries. (3) A central alignment module is proposed to relieve the misalignment problem in TextZoom. Extensive experiments on TextZoom demonstrate that our TSRN largely improves the recognition accuracy by over 13%of CRNN, and by nearly 9.0% of ASTER and MORAN compared to synthetic SR data. Furthermore, our TSRN clearly outperforms 7 state-of-the-art SR methods in boosting the recognition accuracy of LR images in TextZoom. For example, it outperforms LapSRN by over 5% and 8%on the recognition accuracy of ASTER and CRNN. Our results suggest that low-resolution text recognition in the wild is far from being solved, thus more research effort is needed.
翻訳日:2022-12-05 23:33:06 公開日:2020-08-02
# 不確実性定量化による音声認識の逆例検出

Detecting Adversarial Examples for Speech Recognition via Uncertainty Quantification ( http://arxiv.org/abs/2005.14611v2 )

ライセンス: Link先を確認
Sina D\"aubener, Lea Sch\"onherr, Asja Fischer, Dorothea Kolossa(参考訳) 機械学習システム、特に自動音声認識(ASR)システムは、攻撃者が入力を悪意を持って変更する敵攻撃に対して脆弱である。 asrシステムの場合、最も興味深いケースはターゲット攻撃であり、攻撃者は任意のオーディオサンプルで特定のターゲットの転写を認識するようシステムを強制することを目的としている。 高度な準受容不能な攻撃の増加は、対策の問題を引き起こす。 本稿では,ハイブリッドASRシステムに注目し,攻撃中の不確実性を示す能力に関する4つの音響モデルを比較する。フィードフォワードニューラルネットワークと,不確実性定量化に特化した3つのニューラルネットワーク,すなわちベイズニューラルネットワーク,モンテカルロドロップアウト,深層アンサンブル。 入力が良性であるか逆性であるかを評価するための単純な一級分類モデルを構築するために、音響モデルの不確実性尺度を用いる。 このアプローチにより、受信演算子曲線スコア0.99以上の領域の逆例を検出することができる。 不確実性定量化のためのニューラルネットワークは、標準的なハイブリッドASRシステムと比較して悪意のあるターゲットテキストの認識精度が低い攻撃に対する脆弱性を同時に減少させる。

Machine learning systems and also, specifically, automatic speech recognition (ASR) systems are vulnerable against adversarial attacks, where an attacker maliciously changes the input. In the case of ASR systems, the most interesting cases are targeted attacks, in which an attacker aims to force the system into recognizing given target transcriptions in an arbitrary audio sample. The increasing number of sophisticated, quasi imperceptible attacks raises the question of countermeasures. In this paper, we focus on hybrid ASR systems and compare four acoustic models regarding their ability to indicate uncertainty under attack: a feed-forward neural network and three neural networks specifically designed for uncertainty quantification, namely a Bayesian neural network, Monte Carlo dropout, and a deep ensemble. We employ uncertainty measures of the acoustic model to construct a simple one-class classification model for assessing whether inputs are benign or adversarial. Based on this approach, we are able to detect adversarial examples with an area under the receiving operator curve score of more than 0.99. The neural networks for uncertainty quantification simultaneously diminish the vulnerability to the attack, which is reflected in a lower recognition accuracy of the malicious target text in comparison to a standard hybrid ASR system.
翻訳日:2022-11-29 13:42:45 公開日:2020-08-02
# 多変量タイムリーのための説明可能な時間ネットワーク

Instance Explainable Temporal Network For Multivariate Timeseries ( http://arxiv.org/abs/2005.13037v2 )

ライセンス: Link先を確認
Naveen Madiraju, Homa Karimabadi(参考訳) ディープネットワークは広く採用されているが、その欠点の1つはブラックボックスの性質である。 機械学習における特に難しい問題は、多変量時系列(mvts)分類である。 MVTSデータは、多くのアプリケーションで発生し、センサやIoTデバイスの爆発的な成長により、ますます広まりつつある。 本稿では,推論の各インスタンスの分類決定において重要なチャネルを識別する新しいネットワーク(IETNet)を提案する。 この機能はまた、非予測変数の識別と削除を可能にし、そうでなければオーバーフィットや不正確なモデルにつながる。 IETNetは、時間的特徴抽出、変数選択、共同変数の相互作用を単一の学習フレームワークに組み合わせたエンドツーエンドネットワークである。 IETNetは、時間的特徴のための1D畳み込み、注目層を用いた可変クラス割り当てのための新しいチャネルゲート層を使用して、クロスチャネル推論を行い、分類目的を実行する。 学習した時間的特徴とチャネルの洞察を得るため,時間とチャネルの双方に沿って注目領域を抽出する。 n体シミュレーションと宇宙船センサデータから,多変量時系列データを用いて,このネットワークの実現性を示す。

Although deep networks have been widely adopted, one of their shortcomings has been their blackbox nature. One particularly difficult problem in machine learning is multivariate time series (MVTS) classification. MVTS data arise in many applications and are becoming ever more pervasive due to explosive growth of sensors and IoT devices. Here, we propose a novel network (IETNet) that identifies the important channels in the classification decision for each instance of inference. This feature also enables identification and removal of non-predictive variables which would otherwise lead to overfit and/or inaccurate model. IETNet is an end-to-end network that combines temporal feature extraction, variable selection, and joint variable interaction into a single learning framework. IETNet utilizes an 1D convolutions for temporal features, a novel channel gate layer for variable-class assignment using an attention layer to perform cross channel reasoning and perform classification objective. To gain insight into the learned temporal features and channels, we extract region of interest attention map along both time and channels. The viability of this network is demonstrated through a multivariate time series data from N body simulations and spacecraft sensor data.
翻訳日:2022-11-28 23:21:10 公開日:2020-08-02
# ロボットの動作を解釈する環境設計

Designing Environments Conducive to Interpretable Robot Behavior ( http://arxiv.org/abs/2007.00820v2 )

ライセンス: Link先を確認
Anagha Kulkarni, Sarath Sreedharan, Sarah Keren, Tathagata Chakraborti, David Smith and Subbarao Kambhampati(参考訳) 解釈可能な行動を生成するロボットの設計は、効果的な人間とロボットの協調を実現するための前提条件である。 つまり、ロボットは人間の期待に合致した行動を生成できなければならず、必要に応じてループ内の人間に説明を提供する必要がある。 しかし、任意の環境でそのような行動を示すことはロボットにとって非常に高価であり、場合によってはロボットが期待する行動を示すことさえできないこともある。 構造された環境(倉庫やレストランなど)を考えると、ロボットの振る舞いの解釈可能性を高めるために環境を設計したり、ロボットの振る舞いに対する人間の期待を形作ることもできる。 本稿では,説明可能な行動として文献で知られている解釈可能な行動のタイプを促進するツールとして,環境設計の機会と限界について考察する。 我々は,複数のタスクにまたがる設計を時間軸に考慮した新しい環境設計フレームワークを定式化する。 さらに,説明可能な行動の時間的側面と,設計コストと説明可能な行動を生成するコストとの間に生じるトレードオフについて検討する。

Designing robots capable of generating interpretable behavior is a prerequisite for achieving effective human-robot collaboration. This means that the robots need to be capable of generating behavior that aligns with human expectations and, when required, provide explanations to the humans in the loop. However, exhibiting such behavior in arbitrary environments could be quite expensive for robots, and in some cases, the robot may not even be able to exhibit the expected behavior. Given structured environments (like warehouses and restaurants), it may be possible to design the environment so as to boost the interpretability of the robot's behavior or to shape the human's expectations of the robot's behavior. In this paper, we investigate the opportunities and limitations of environment design as a tool to promote a type of interpretable behavior -- known in the literature as explicable behavior. We formulate a novel environment design framework that considers design over multiple tasks and over a time horizon. In addition, we explore the longitudinal aspect of explicable behavior and the trade-off that arises between the cost of design and the cost of generating explicable behavior over a time horizon.
翻訳日:2022-11-14 14:18:53 公開日:2020-08-02
# 活性化としての注意

Attention as Activation ( http://arxiv.org/abs/2007.07729v2 )

ライセンス: Link先を確認
Yimian Dai and Stefan Oehmcke and Fabian Gieseke and Yiquan Wu and Kobus Barnard(参考訳) アクティベーション機能とアテンション機構は通常、異なる目的を持ち、異なる進化を遂げたものとして扱われる。 しかし、どちらの概念も非線形ゲーティング関数として定式化することができる。 その類似性に触発されて,アクティベーション機能とアテンション機構の統合として,アテンションアクティベーションアクティベーションユニット(atac)と呼ばれる新しいタイプのアクティベーションユニットを提案する。 特に,ポイントワイズなクロスチャネル特徴コンテキストを局所的に集約する,非線形活性化と要素ワイズ特徴の洗練を同時に行うローカルチャネルアテンションモジュールを提案する。 畳み込みネットワークにおいて、よく知られた整列線形単位をそのようなatac単位に置き換えることで、より少ないパラメータでかなり優れた性能を発揮する完全注意ネットワークを構築することができる。 ネットワーク深さの異なる複数のホストネットワークを用いて,ATACユニットの詳細なアブレーション実験を行い,その有効性と効率を実証した。 さらに,既存のアクティベーション機能と,CIFAR-10,CIFAR-100,ImageNetデータセットの注意機構を比較した。 実験の結果,提案するatacユニットで構築したネットワークは,同等のパラメータが与えられた場合,競合相手よりも性能が向上することがわかった。

Activation functions and attention mechanisms are typically treated as having different purposes and have evolved differently. However, both concepts can be formulated as a non-linear gating function. Inspired by their similarity, we propose a novel type of activation units called attentional activation (ATAC) units as a unification of activation functions and attention mechanisms. In particular, we propose a local channel attention module for the simultaneous non-linear activation and element-wise feature refinement, which locally aggregates point-wise cross-channel feature contexts. By replacing the well-known rectified linear units by such ATAC units in convolutional networks, we can construct fully attentional networks that perform significantly better with a modest number of additional parameters. We conducted detailed ablation studies on the ATAC units using several host networks with varying network depths to empirically verify the effectiveness and efficiency of the units. Furthermore, we compared the performance of the ATAC units against existing activation functions as well as other attention mechanisms on the CIFAR-10, CIFAR-100, and ImageNet datasets. Our experimental results show that networks constructed with the proposed ATAC units generally yield performance gains over their competitors given a comparable number of parameters.
翻訳日:2022-11-10 06:02:27 公開日:2020-08-02
# 深層学習のバックドア攻撃と対策 : 総合的なレビュー

Backdoor Attacks and Countermeasures on Deep Learning: A Comprehensive Review ( http://arxiv.org/abs/2007.10760v3 )

ライセンス: Link先を確認
Yansong Gao, Bao Gia Doan, Zhi Zhang, Siqi Ma, Jiliang Zhang, Anmin Fu, Surya Nepal, and Hyoungshick Kim(参考訳) この研究は、コミュニティにバックドア攻撃のタイムリーなレビューとディープラーニング対策を提供する。 攻撃者の能力と機械学習パイプラインの影響を受けたステージにより、攻撃面は広く認識され、コード中毒、アウトソーシング、事前訓練されたデータ収集、協調学習、デプロイ後の6つのカテゴリに分類される。 これにより、各カテゴリの攻撃が組み合わされる。 対策は、ブラインドバックドア除去、オフラインバックドア検査、オンラインバックドア検査、ポストバックドア除去の4つの一般的なクラスに分類される。 そこで我々は,対策を見直し,その利点と欠点を比較し分析する。 我々はまた、調査中のバックドアアタックの反面についてもレビューした。 一 深層学習モデルの知的財産権の保護 二 敵の例攻撃を捕えるために新婚夫婦として振る舞うこと。 三 データ提供者が要求するデータ削除の検証 総じて、防衛に関する調査は攻撃の背後には遠く、あらゆる種類のバックドア攻撃を防止することができる防衛は一つもない。 場合によっては、攻撃者は適応攻撃で既存の防御を知的にバイパスすることができる。 システムレビューから得られた知見を踏まえて,物理的トリガ攻撃による実証的セキュリティ評価,特により効率的かつ実用的な対策が提案されているバックドアに関する今後の研究の鍵となる分野について述べる。

This work provides the community with a timely comprehensive review of backdoor attacks and countermeasures on deep learning. According to the attacker's capability and affected stage of the machine learning pipeline, the attack surfaces are recognized to be wide and then formalized into six categorizations: code poisoning, outsourcing, pretrained, data collection, collaborative learning and post-deployment. Accordingly, attacks under each categorization are combed. The countermeasures are categorized into four general classes: blind backdoor removal, offline backdoor inspection, online backdoor inspection, and post backdoor removal. Accordingly, we review countermeasures, and compare and analyze their advantages and disadvantages. We have also reviewed the flip side of backdoor attacks, which are explored for i) protecting intellectual property of deep learning models, ii) acting as a honeypot to catch adversarial example attacks, and iii) verifying data deletion requested by the data contributor.Overall, the research on defense is far behind the attack, and there is no single defense that can prevent all types of backdoor attacks. In some cases, an attacker can intelligently bypass existing defenses with an adaptive attack. Drawing the insights from the systematic review, we also present key areas for future research on the backdoor, such as empirical security evaluations from physical trigger attacks, and in particular, more efficient and practical countermeasures are solicited.
翻訳日:2022-11-08 04:38:56 公開日:2020-08-02
# CNNを用いた悪意のあるPDFの検出

Detecting malicious PDF using CNN ( http://arxiv.org/abs/2007.12729v2 )

ライセンス: Link先を確認
Raphael Fettaya and Yishay Mansour(参考訳) 悪意のあるPDFファイルは、コンピュータセキュリティに対する最大の脅威の1つだ。 それらを検出するために、手書きのシグネチャや手動の特徴抽出に基づく機械学習を用いて重要な研究が行われた。 これらのアプローチはどちらも時間を要するため、事前知識が必要であり、新たに発見された脆弱性ごとに機能のリストを更新する必要がある。 本研究では,ファイルのバイトレベルでの畳み込みニューラルネットワーク(CNN)のアンサンブルを利用する新しいアルゴリズムを提案する。 オンラインダウンロード可能な90000ファイルのデータセットを用いて、我々のアプローチはPDFマルウェアの高検出率(94%)を維持し、新しい悪意のあるファイルも検出している。 CNNネットワークから自動生成した特徴とクラスタリングアルゴリズムを適用することにより、抗ウイルスラベルと結果のクラスタとの間に高い類似性が得られる。

Malicious PDF files represent one of the biggest threats to computer security. To detect them, significant research has been done using handwritten signatures or machine learning based on manual feature extraction. Those approaches are both time-consuming, require significant prior knowledge and the list of features has to be updated with each newly discovered vulnerability. In this work, we propose a novel algorithm that uses an ensemble of Convolutional Neural Network (CNN) on the byte level of the file, without any handcrafted features. We show, using a data set of 90000 files downloadable online, that our approach maintains a high detection rate (94%) of PDF malware and even detects new malicious files, still undetected by most antiviruses. Using automatically generated features from our CNN network, and applying a clustering algorithm, we also obtain high similarity between the antiviruses' labels and the resulting clusters.
翻訳日:2022-11-07 07:16:55 公開日:2020-08-02
# ランダム森林による米国の政策成果の予測

Predicting United States policy outcomes with Random Forests ( http://arxiv.org/abs/2008.07338v1 )

ライセンス: Link先を確認
Shawn McGuire, Charles Delahunt(参考訳) 20年間のアメリカ合衆国政府の立法成果と富裕層、一般人口、多様な利害団体の政策選好は、Gilens, Page et al. (2014)によってキュレーションされ分析された詳細なデータセットで収集された。 その結果,富裕層の嗜好は政策の結果と強く相関することがわかったが,一般住民の嗜好は富裕層の嗜好と結びついてはいないことがわかった。 彼らの分析は古典的統計推論、特にロジスティック回帰のツールを適用した。 本稿では,機械学習からランダムフォレスト分類器(rfs)の補完ツールを用いて,girensデータセットの解析を行う。 予測と推測の2つの主要な知見を提示する。 (i)ホールドアウトテストセットは、富裕層と少数の利害関係グループ、および政策領域ラベルの選好のみを相談するモデルによって、約70%のバランスのとれた精度で予測することができる。 これらの結果は、1997年以前のケースでトレーニングされたモデルが"future"(1997年以降)を予測したレトロディクションを含む。 この詳細なデータセットでは、ベースライン(チャンス)よりも精度が20%向上していることは、米国の政策成果において、少数の富裕層が高い重要性を持っていることを示している。 2)RFモデルの特徴選択手法は,特に利害グループ(経済学者)の健全なサブセットを特定する。 これらは、政府の政策決定のダイナミクスをさらに調査するために使用することができ、また、このようなデータセットに対する推論のためのRF特徴選択手法の潜在的な価値の例を提供する。

Two decades of U.S. government legislative outcomes, as well as the policy preferences of rich people, the general population, and diverse interest groups, were captured in a detailed dataset curated and analyzed by Gilens, Page et al. (2014). They found that the preferences of the rich correlated strongly with policy outcomes, while the preferences of the general population did not, except via a linkage with rich people's preferences. Their analysis applied the tools of classical statistical inference, in particular logistic regression. In this paper we analyze the Gilens dataset using the complementary tools of Random Forest classifiers (RFs), from Machine Learning. We present two primary findings, concerning respectively prediction and inference: (i) Holdout test sets can be predicted with approximately 70% balanced accuracy by models that consult only the preferences of rich people and a small number of powerful interest groups, as well as policy area labels. These results include retrodiction, where models trained on pre-1997 cases predicted "future" (post-1997) cases. The 20% gain in accuracy over baseline (chance), in this detailed but noisy dataset, indicates the high importance of a few wealthy players in U.S. policy outcomes, and aligns with a body of research indicating that the U.S. government has significant plutocratic tendencies. (ii) The feature selection methods of RF models identify especially salient subsets of interest groups (economic players). These can be used to further investigate the dynamics of governmental policy making, and also offer an example of the potential value of RF feature selection methods for inference on datasets such as this.
翻訳日:2022-11-03 20:03:11 公開日:2020-08-02
# 極低ビットレート映像の多モードソフトデコーディング

Deep Multi-modality Soft-decoding of Very Low Bit-rate Face Videos ( http://arxiv.org/abs/2008.01652v1 )

ライセンス: Link先を確認
Yanhui Guo, Xi Zhang, Xiaolin Wu(参考訳) 本稿では,音声頭部の低ビットレート映像を復元するディープ多モードニューラルネットワークを提案する。 このようなビデオコンテンツは、ソーシャルメディア、遠隔会議、遠隔教育、遠隔医療などで非常に一般的であり、帯域幅が限られている場合が多い。 提案手法は,話者の3つのモード,映像,音声,感情状態の相関を利用して,空間的なダウンサンプリングと量子化による映像圧縮アーチファクトを除去する。 複雑な非線形の相互モダリティ相関は解析的かつ明示的にモデル化することが非常に困難であるため、ディープラーニングアプローチはビデオ復元作業に最適であることが判明した。 この新しい方法はビデオポストプロセッサで、攻撃的に圧縮された音声ヘッドビデオの知覚的品質を大幅に向上させると同時に、既存のビデオ圧縮標準と完全に互換性がある。

We propose a novel deep multi-modality neural network for restoring very low bit rate videos of talking heads. Such video contents are very common in social media, teleconferencing, distance education, tele-medicine, etc., and often need to be transmitted with limited bandwidth. The proposed CNN method exploits the correlations among three modalities, video, audio and emotion state of the speaker, to remove the video compression artifacts caused by spatial down sampling and quantization. The deep learning approach turns out to be ideally suited for the video restoration task, as the complex non-linear cross-modality correlations are very difficult to model analytically and explicitly. The new method is a video post processor that can significantly boost the perceptual quality of aggressively compressed talking head videos, while being fully compatible with all existing video compression standards.
翻訳日:2022-11-03 20:02:20 公開日:2020-08-02
# 重み付きグラフのフリク型メトリゼーションについて

On Frink's type metrization of weighted graphs ( http://arxiv.org/abs/2008.00569v1 )

ライセンス: Link先を確認
Mar\'ia Florencia Acosta and Hugo Aimar and Ivana G\'omez(参考訳) ここでは、可算基底を持つ一様性のメートル法定理の技法を用いて、有界重み付き無向グラフの頂点 $x$ と $y$ の間の計量 $d(x,y)$ を生成するための明示的なアルゴリズムを提供し、テストし、比較する。

Using the technique of the metrization theorem of uniformities with countable bases, in this note we provide, test and compare an explicit algorithm to produce a metric $d(x,y)$ between the vertices $x$ and $y$ of an affinity weighted undirected graph.
翻訳日:2022-11-03 20:02:05 公開日:2020-08-02
# copulaモデルを用いたslamの変分フィルタリング

Variational Filtering with Copula Models for SLAM ( http://arxiv.org/abs/2008.00504v1 )

ライセンス: Link先を確認
John D. Martin, Kevin Doherty, Caralyn Cyr, Brendan Englot, John Leonard(参考訳) 自律移動ロボットの動作には,変数を推定し,ポーズを推定する能力が不可欠である。 ほとんどの場合、これらの変数間の共有依存は多変量ガウス分布を通してモデル化されるが、その仮定が非現実的である多くの状況がある。 本稿では,この仮定を緩和し,多変量依存をコプラモデルで表わす分布のより広いクラスと同時局所化とマッピング(SLAM)を実現する方法について述べる。 分布モデルとコプラを逐次モンテカルロ推定器に統合し、勾配に基づく最適化によって未知のモデルパラメータがいかに学習できるかを示す。 提案手法は,不確実なデータアソシエーションや非線形遷移モデルなど,ガウス的仮定が明確に違反する環境において有効であることを示す。

The ability to infer map variables and estimate pose is crucial to the operation of autonomous mobile robots. In most cases the shared dependency between these variables is modeled through a multivariate Gaussian distribution, but there are many situations where that assumption is unrealistic. Our paper shows how it is possible to relax this assumption and perform simultaneous localization and mapping (SLAM) with a larger class of distributions, whose multivariate dependency is represented with a copula model. We integrate the distribution model with copulas into a Sequential Monte Carlo estimator and show how unknown model parameters can be learned through gradient-based optimization. We demonstrate our approach is effective in settings where Gaussian assumptions are clearly violated, such as environments with uncertain data association and nonlinear transition models.
翻訳日:2022-11-03 19:57:26 公開日:2020-08-02
# 圧縮映像の知覚的品質向上のための多レベルウェーブレットベース生成逆ネットワーク

Multi-level Wavelet-based Generative Adversarial Network for Perceptual Quality Enhancement of Compressed Video ( http://arxiv.org/abs/2008.00499v1 )

ライセンス: Link先を確認
Jianyi Wang, Xin Deng, Mai Xu, Congyong Chen, Yuhang Song(参考訳) 過去数年間、ディープラーニングによるビデオの品質向上が急速に進展している。 既存の手法は主に、その知覚的品質を無視しながら、圧縮映像の客観的品質を高めることに焦点を当てている。 本稿では,圧縮映像の知覚的品質の向上に着目する。 我々の観察では、知覚品質の向上は主にウェーブレット領域の高周波サブバンドの回復に依存している。 そこで本研究では,マルチレベルウェーブレットパケット変換 (wpt) に基づく新しい生成型逆ネットワーク (gan) を提案し,マルチレベルウェーブレットベースgan (mw-gan) と呼ばれる圧縮ビデオの知覚品質を向上させる。 MW-GANではまず,時間的情報を得るためにピラミッド構造を用いて動き補償を行う。 そこで本研究では,wavelet-dense residual blocks (wdrb) を用いたウェーブレット再構成ネットワークを提案する。 さらに、ビデオフレームの高頻度詳細回復を促進するため、WPTを介してMW-GANの対向損失を追加する。 実験の結果,本手法の優位性が示された。

The past few years have witnessed fast development in video quality enhancement via deep learning. Existing methods mainly focus on enhancing the objective quality of compressed video while ignoring its perceptual quality. In this paper, we focus on enhancing the perceptual quality of compressed video. Our main observation is that enhancing the perceptual quality mostly relies on recovering high-frequency sub-bands in wavelet domain. Accordingly, we propose a novel generative adversarial network (GAN) based on multi-level wavelet packet transform (WPT) to enhance the perceptual quality of compressed video, which is called multi-level wavelet-based GAN (MW-GAN). In MW-GAN, we first apply motion compensation with a pyramid architecture to obtain temporal information. Then, we propose a wavelet reconstruction network with wavelet-dense residual blocks (WDRB) to recover the high-frequency details. In addition, the adversarial loss of MW-GAN is added via WPT to further encourage high-frequency details recovery for video frames. Experimental results demonstrate the superiority of our method.
翻訳日:2022-11-03 19:56:51 公開日:2020-08-02
# ハイパースペクトル画像分類のための非局所特徴の効率的な深層学習

Efficient Deep Learning of Non-local Features for Hyperspectral Image Classification ( http://arxiv.org/abs/2008.00542v1 )

ライセンス: Link先を確認
Yu Shen, Sijie Zhu, Chen Chen, Qian Du, Liang Xiao, Jianyu Chen, Delu Pan(参考訳) 畳み込みニューラルネットワーク(CNN)のようなディープラーニングに基づく手法は、ハイパースペクトル画像(HSI)分類においてその効率を実証している。 これらの手法は局所パッチ内のスペクトル空間識別特徴を自動的に学習することができる。 しかし、hsi内の各画素は、その近傍の画素と関係しているだけでなく、自分自身から遠く離れたピクセルとも接続している。 そこで, ENL-FCN という名前の効率的な非局所モジュールを持つ深層完全畳み込みネットワーク (FCN) をHSI分類に組み込む手法を提案する。 提案フレームワークでは,深部FCNが全HSIを入力とみなし,局所受容領域におけるスペクトル空間情報を抽出する。 効率的な非ローカルモジュールは、長い範囲のコンテキスト情報をキャプチャする学習ユニットとしてネットワークに埋め込まれる。 従来の非局所ニューラルネットワークとは異なり、長距離文脈情報は計算効率のために特別に設計されたcriss-crossパスから抽出される。 さらに、繰り返し操作を用いることで、各画素の応答をHSIの全画素から集約する。 提案するENL-FCNの利点は3つある。 1) 長距離コンテキスト情報を効果的に組み込む。 2) 効率的なモジュールは、プラグアンドプレイ方式でディープニューラルネットワークに自由に組み込むことができ、 3) 学習パラメータがはるかに少なく、計算リソースも少なくなります。 3つのhsiデータセットで行った実験により,提案手法は,hsiの先駆的深層ニューラルネットワークと比較して,計算コストの低減とともに最先端の分類性能を実現することが示された。

Deep learning based methods, such as Convolution Neural Network (CNN), have demonstrated their efficiency in hyperspectral image (HSI) classification. These methods can automatically learn spectral-spatial discriminative features within local patches. However, for each pixel in an HSI, it is not only related to its nearby pixels but also has connections to pixels far away from itself. Therefore, to incorporate the long-range contextual information, a deep fully convolutional network (FCN) with an efficient non-local module, named ENL-FCN, is proposed for HSI classification. In the proposed framework, a deep FCN considers an entire HSI as input and extracts spectral-spatial information in a local receptive field. The efficient non-local module is embedded in the network as a learning unit to capture the long-range contextual information. Different from the traditional non-local neural networks, the long-range contextual information is extracted in a specially designed criss-cross path for computation efficiency. Furthermore, by using a recurrent operation, each pixel's response is aggregated from all pixels of HSI. The benefits of our proposed ENL-FCN are threefold: 1) the long-range contextual information is incorporated effectively, 2) the efficient module can be freely embedded in a deep neural network in a plug-and-play fashion, and 3) it has much fewer learning parameters and requires less computational resources. The experiments conducted on three popular HSI datasets demonstrate that the proposed method achieves state-of-the-art classification performance with lower computational cost in comparison with several leading deep neural networks for HSI.
翻訳日:2022-11-03 19:56:14 公開日:2020-08-02
# SCNet: サイドチャネル攻撃を自動化するニューラルネットワーク

SCNet: A Neural Network for Automated Side-Channel Attack ( http://arxiv.org/abs/2008.00476v1 )

ライセンス: Link先を確認
Guanlin Li, Chang Liu, Han Yu, Yanhong Fan, Libang Zhang, Zongyue Wang, Meiqin Wang(参考訳) サイドチャネル攻撃は、アルゴリズムの弱点ではなく、コンピュータシステムの実装に関する情報に基づく攻撃方法である。 電力消費、電磁漏れ、音などのシステム特性に関する情報は、サイドチャネル攻撃によってシステムに侵入することができる。 多くの研究がこの分野に向けられている。 しかし、そのような攻撃は依然として強力な技術を必要とするため、専門家が効果的に行うことができる。 本稿では,サイドチャネル攻撃を自動実行するSCNetを提案する。 また、このネットワークをサイドチャネルのドメイン知識と異なるディープラーニングモデルを組み合わせて設計し、パフォーマンスを改善し、結果を説明する。 その結果,本モデルではパラメータが少なく,優れた性能が得られた。 提案モデルは,コンピュータシステムの堅牢性を自動テストするための有用なツールである。

The side-channel attack is an attack method based on the information gained about implementations of computer systems, rather than weaknesses in algorithms. Information about system characteristics such as power consumption, electromagnetic leaks and sound can be exploited by the side-channel attack to compromise the system. Much research effort has been directed towards this field. However, such an attack still requires strong skills, thus can only be performed effectively by experts. Here, we propose SCNet, which automatically performs side-channel attacks. And we also design this network combining with side-channel domain knowledge and different deep learning model to improve the performance and better to explain the result. The results show that our model achieves good performance with fewer parameters. The proposed model is a useful tool for automatically testing the robustness of computer systems.
翻訳日:2022-11-03 19:55:16 公開日:2020-08-02
# ウズベク映画レビューコメントの意見分類における絵文字の影響の検討

Investigating the Effect of Emoji in Opinion Classification of Uzbek Movie Review Comments ( http://arxiv.org/abs/2008.00482v1 )

ライセンス: Link先を確認
Ilyos Rabbimov, Iosif Mporas, Vasiliki Simaki, Sami Kobilov(参考訳) ソーシャルメディア投稿に対する意見のマイニングはますます人気が高まっている。 ユーザーは、単語だけでなく、エモティコンや絵文字のような画像記号も使う。 本稿では、ウズベク語テキストの意見分類における絵文字に基づく機能の影響、特にyoutubeからの映画レビューコメントについて検討する。 いくつかの分類アルゴリズムがテストされ、絵文字に基づく特徴の識別能力を評価するために特徴ランキングが行われる。

Opinion mining on social media posts has become more and more popular. Users often express their opinion on a topic not only with words but they also use image symbols such as emoticons and emoji. In this paper, we investigate the effect of emoji-based features in opinion classification of Uzbek texts, and more specifically movie review comments from YouTube. Several classification algorithms are tested, and feature ranking is performed to evaluate the discriminative ability of the emoji-based features.
翻訳日:2022-11-03 19:49:04 公開日:2020-08-02
# SemEval-2020 Task 5: Counterfactual Recognition

SemEval-2020 Task 5: Counterfactual Recognition ( http://arxiv.org/abs/2008.00563v1 )

ライセンス: Link先を確認
Xiaoyu Yang, Stephen Obadinma, Huasha Zhao, Qiong Zhang, Stan Matwin, Xiaodan Zhu(参考訳) 本稿では,SemEval-2020の共有タスク5(CR)タスクを提案する。 カウンターファクトリーは、起こらなかったり起こらなかったり、事実(関与者)に逆らうような行動や状況によって生じる潜在的な結果(結果)を記述している。 カウンターファクチュアルシンキングは人間の認知システムの重要な特徴であり、先駆者と結果と因果関係を結びつける。 我々のタスクは2つのサブタスクを持つ自然言語における反ファクト認識のベンチマークを提供する。 Subtask-1は、ある文が偽造文であるか否かを決定することを目的としている。 Subtask-2は、該当するシステムに対して、所定の偽造声明を抽出することを要求する。 SemEval-2020の公式評価期間中に27件のSubtask-1と11件のSubtask-2を提出した。 データ、ベースラインコード、リーダーボードはhttps://competitions.codalab.org/competitions/21691にある。 データとベースラインコードはhttps://zenodo.org/record/3932442.com/で入手できる。

We present a counterfactual recognition (CR) task, the shared Task 5 of SemEval-2020. Counterfactuals describe potential outcomes (consequents) produced by actions or circumstances that did not happen or cannot happen and are counter to the facts (antecedent). Counterfactual thinking is an important characteristic of the human cognitive system; it connects antecedents and consequents with causal relations. Our task provides a benchmark for counterfactual recognition in natural language with two subtasks. Subtask-1 aims to determine whether a given sentence is a counterfactual statement or not. Subtask-2 requires the participating systems to extract the antecedent and consequent in a given counterfactual statement. During the SemEval-2020 official evaluation period, we received 27 submissions to Subtask-1 and 11 to Subtask-2. The data, baseline code, and leaderboard can be found at https://competitions.codalab.org/competitions/21691. The data and baseline code are also available at https://zenodo.org/record/3932442.
翻訳日:2022-11-03 19:48:55 公開日:2020-08-02
# 構造因果モデルは(解決可能な)クレダルネットワークである

Structural Causal Models Are (Solvable by) Credal Networks ( http://arxiv.org/abs/2008.00463v1 )

ライセンス: Link先を確認
Marco Zaffalon and Alessandro Antonucci and Rafael Caba\~nas(参考訳) 構造因果モデルは内因性(マニュフェスト)と外因性(ラテント)の変数から成り立っている。 内因性観察は外因性変数の確率に線形制約をもたらすことを示す。 これにより、因果モデルをクレダルネットワークに正確にマッピングすることができる。 その結果、干渉や反事実などの因果推論は、干潟網の更新のための標準的なアルゴリズムによって得ることができる。 これらの値は同定可能なケースでネイティブにシャープ値を返すが、正確な境界に対応する間隔は特定できないクエリに対して生成される。 上記の写像をコンパクトに導出できる因果モデルのキャラクタリゼーションと一般モデルのスケーラビリティに関する議論が与えられる。 この貢献は、構造因果モデルをクレダルネットワークによって表現し、因果推論を体系的に計算するための体系的アプローチと見なされるべきである。 方法論を明確にするために,実証的な例をいくつか紹介する。 広範な実験により、クレーダルネットワークの近似アルゴリズムは、実規模問題において直ちに因果推論を行うことができることが示された。

A structural causal model is made of endogenous (manifest) and exogenous (latent) variables. We show that endogenous observations induce linear constraints on the probabilities of the exogenous variables. This allows to exactly map a causal model into a credal network. Causal inferences, such as interventions and counterfactuals, can consequently be obtained by standard algorithms for the updating of credal nets. These natively return sharp values in the identifiable case, while intervals corresponding to the exact bounds are produced for unidentifiable queries. A characterization of the causal models that allow the map above to be compactly derived is given, along with a discussion about the scalability for general models. This contribution should be regarded as a systematic approach to represent structural causal models by credal networks and hence to systematically compute causal inferences. A number of demonstrative examples is presented to clarify our methodology. Extensive experiments show that approximate algorithms for credal networks can immediately be used to do causal inference in real-size problems.
翻訳日:2022-11-03 19:48:40 公開日:2020-08-02
# 深層多スケール成分辞書によるブラインド顔復元

Blind Face Restoration via Deep Multi-scale Component Dictionaries ( http://arxiv.org/abs/2008.00418v1 )

ライセンス: Link先を確認
Xiaoming Li, Chaofeng Chen, Shangchen Zhou, Xianhui Lin, Wangmeng Zuo, Lei Zhang(参考訳) 近年の参照型顔復元法は, 実際の低品質画像の高頻度細部を復元する能力に優れており, 注目されている。 しかし、これらの手法のほとんどは同一のアイデンティティの高品質な参照画像を必要とするため、限られた場面でのみ適用できる。 本稿では,劣化した観測の復元過程をガイドするディープフェイス辞書ネットワーク(DFDNet)を提案する。 まず、K-meansを用いて、高品質な画像から知覚的に重要な顔成分(白、左目、鼻、口)の深い辞書を生成する。 次に、劣化した入力を用いて、対応する辞書から最も類似した特徴をマッチングして選択し、提案した辞書特徴伝達(DFT)ブロックを介して、高品質な詳細を入力に転送する。 特に、入力と辞書の特徴(例えば、照明)のスタイル多様性をなくすためにコンポーネント・アデインを活用し、その辞書特徴を入力に適応的に融合させるための信頼度スコアを提案する。 最後に,複数規模の辞書を漸進的に採用し,粗大から細かな復元を実現する。 実験により,提案手法は定量評価と定性評価の両方において有意な性能を達成でき,さらに重要なことは,実劣化画像に対する現実的かつ有望な結果が得られることである。 ソースコードとモデルは \url{https://github.com/csxmli2016/dfdnet} で入手できる。

Recent reference-based face restoration methods have received considerable attention due to their great capability in recovering high-frequency details on real low-quality images. However, most of these methods require a high-quality reference image of the same identity, making them only applicable in limited scenes. To address this issue, this paper suggests a deep face dictionary network (termed as DFDNet) to guide the restoration process of degraded observations. To begin with, we use K-means to generate deep dictionaries for perceptually significant face components (\ie, left/right eyes, nose and mouth) from high-quality images. Next, with the degraded input, we match and select the most similar component features from their corresponding dictionaries and transfer the high-quality details to the input via the proposed dictionary feature transfer (DFT) block. In particular, component AdaIN is leveraged to eliminate the style diversity between the input and dictionary features (\eg, illumination), and a confidence score is proposed to adaptively fuse the dictionary feature to the input. Finally, multi-scale dictionaries are adopted in a progressive manner to enable the coarse-to-fine restoration. Experiments show that our proposed method can achieve plausible performance in both quantitative and qualitative evaluation, and more importantly, can generate realistic and promising results on real degraded images without requiring an identity-belonging reference. The source code and models are available at \url{https://github.com/csxmli2016/DFDNet}.
翻訳日:2022-11-03 19:47:55 公開日:2020-08-02
# 効率的な3次元再構成のための確率的バンドル調整法

Stochastic Bundle Adjustment for Efficient and Scalable 3D Reconstruction ( http://arxiv.org/abs/2008.00446v1 )

ライセンス: Link先を確認
Lei Zhou, Zixin Luo, Mingmin Zhen, Tianwei Shen, Shiwei Li, Zhuofei Huang, Tian Fang, Long Quan(参考訳) カメラ数に比例するReduced Camera System(RCS)を解く際のボトルネックによって、Levenberg-Marquardt (LM)アルゴリズムのような現在のバンドル調整ソルバが制限される。 問題がスケールアップされた場合、このステップは単一の計算ノードに対して効率的でも管理可能でもない。 本研究では,LM イテレーションのほぼ内において RCS を分解して効率と拡張性を向上する確率的バンドル調整アルゴリズムを提案する。 まず、可視性グラフのクラスタリングに基づいて、クラスタ間の等式制約を導入することにより、LMイテレーションの二次プログラミング問題を再構成する。 次に, 確率制約問題に緩和し, サンプル化凸プログラムを用いて解くことを提案する。 この緩和は、制約によって具現化されたクラスタ間の相互依存を取り除くことを目的としており、大きなRCSを独立した線形サブプロブレムに分解することができる。 非順序のインターネット画像セットと逐次SLAM画像セットの数値実験と大規模データセットの分散実験は,提案手法の高効率性とスケーラビリティを実証した。 コードはhttps://github.com/zlthinker/stbaでリリースされる。

Current bundle adjustment solvers such as the Levenberg-Marquardt (LM) algorithm are limited by the bottleneck in solving the Reduced Camera System (RCS) whose dimension is proportional to the camera number. When the problem is scaled up, this step is neither efficient in computation nor manageable for a single compute node. In this work, we propose a stochastic bundle adjustment algorithm which seeks to decompose the RCS approximately inside the LM iterations to improve the efficiency and scalability. It first reformulates the quadratic programming problem of an LM iteration based on the clustering of the visibility graph by introducing the equality constraints across clusters. Then, we propose to relax it into a chance constrained problem and solve it through sampled convex program. The relaxation is intended to eliminate the interdependence between clusters embodied by the constraints, so that a large RCS can be decomposed into independent linear sub-problems. Numerical experiments on unordered Internet image sets and sequential SLAM image sets, as well as distributed experiments on large-scale datasets, have demonstrated the high efficiency and scalability of the proposed approach. Codes are released at https://github.com/zlthinker/STBA.
翻訳日:2022-11-03 19:47:30 公開日:2020-08-02
# Recurrent Structure-Detail Network を用いたビデオ超解像

Video Super-Resolution with Recurrent Structure-Detail Network ( http://arxiv.org/abs/2008.00455v1 )

ライセンス: Link先を確認
Takashi Isobe, Xu Jia, Shuhang Gu, Songjiang Li, Shengjin Wang, Qi Tian(参考訳) ほとんどのビデオ超解像法は、時間的スライディングウィンドウ内の隣接するフレームの助けを借りて単一の参照フレームを超解する。 リカレントベースのメソッドに比べて効率が低くなります。 そこで本研究では,従来のフレームを有効かつ効率的に利用し,現在のフレームを超解するビデオ超解法を提案する。 入力を、複数の提案された2ストリーム構造-詳細ブロックからなる繰り返しユニットに供給される構造と詳細コンポーネントに分割する。 また、現在のフレームが隠蔽状態からの情報を選択的に使用できるようにする隠蔽状態適応モジュールを導入し、外観変化やエラー蓄積に対する堅牢性を高める。 広範なアブレーション実験により,提案モジュールの有効性が検証された。 いくつかのベンチマークデータセットの実験は、ビデオ超解像における最先端手法と比較して提案手法の優れた性能を示す。

Most video super-resolution methods super-resolve a single reference frame with the help of neighboring frames in a temporal sliding window. They are less efficient compared to the recurrent-based methods. In this work, we propose a novel recurrent video super-resolution method which is both effective and efficient in exploiting previous frames to super-resolve the current frame. It divides the input into structure and detail components which are fed to a recurrent unit composed of several proposed two-stream structure-detail blocks. In addition, a hidden state adaptation module that allows the current frame to selectively use information from hidden state is introduced to enhance its robustness to appearance change and error accumulation. Extensive ablation study validate the effectiveness of the proposed modules. Experiments on several benchmark datasets demonstrate the superior performance of the proposed method compared to state-of-the-art methods on video super-resolution.
翻訳日:2022-11-03 19:47:11 公開日:2020-08-02
# セマンティックセグメンテーションに対するテンソル低ランク再建術

Tensor Low-Rank Reconstruction for Semantic Segmentation ( http://arxiv.org/abs/2008.00490v1 )

ライセンス: Link先を確認
Wanli Chen, Xinge Zhu, Ruoqi Sun, Junjun He, Ruiyu Li, Xiaoyong Shen, and Bei Yu(参考訳) 文脈情報は意味セグメンテーションの成功に欠かせない役割を果たす。 近年,非局所的自己照準に基づく手法が文脈情報収集に有効であることが判明した。 所望のコンテキストは空間的およびチャネル的注意で構成されているため、3D表現は適切な定式化である。 しかし、これらの非局所的な手法は、2次元の類似性行列に基づいて3次元の文脈情報を記述する。 もう一つの方法は、文脈情報を圧縮なしで直接モデル化することである。 しかし、この取り組みは基本的な難しさ、すなわち文脈情報の高位な性質に直面する。 本稿では,空間圧縮を回避するだけでなく,高階化の難しさに対処する3次元コンテキスト表現をモデル化する新しい手法を提案する。 ここではテンソル標準-ポリド分解理論(高階テンソルをランク1テンソルの組み合わせとして表現できる)に着想を得て、低階から高階の文脈再構成フレームワーク(RecoNet)を設計する。 具体的には、まずテンソル生成モジュール(TGM)を導入し、複数のランク-1テンソルを生成し、コンテキスト特徴の断片をキャプチャする。 次に、これらのランク1テンソルを用いて、提案したテンソル再構成モジュール(TRM)を介して高階のコンテキスト特徴を復元する。 大規模な実験により,本手法は様々な公開データセットの最先端性を実現する。 また,提案手法は従来の非局所的手法に比べて100倍以上の計算コストがかかる。

Context information plays an indispensable role in the success of semantic segmentation. Recently, non-local self-attention based methods are proved to be effective for context information collection. Since the desired context consists of spatial-wise and channel-wise attentions, 3D representation is an appropriate formulation. However, these non-local methods describe 3D context information based on a 2D similarity matrix, where space compression may lead to channel-wise attention missing. An alternative is to model the contextual information directly without compression. However, this effort confronts a fundamental difficulty, namely the high-rank property of context information. In this paper, we propose a new approach to model the 3D context representations, which not only avoids the space compression but also tackles the high-rank difficulty. Here, inspired by tensor canonical-polyadic decomposition theory (i.e, a high-rank tensor can be expressed as a combination of rank-1 tensors.), we design a low-rank-to-high-rank context reconstruction framework (i.e, RecoNet). Specifically, we first introduce the tensor generation module (TGM), which generates a number of rank-1 tensors to capture fragments of context feature. Then we use these rank-1 tensors to recover the high-rank context features through our proposed tensor reconstruction module (TRM). Extensive experiments show that our method achieves state-of-the-art on various public datasets. Additionally, our proposed method has more than 100 times less computational cost compared with conventional non-local-based methods.
翻訳日:2022-11-03 19:46:41 公開日:2020-08-02
# スイスの選抜湖沼における氷の総合的モニタリング 最終プロジェクト報告

Integrated monitoring of ice in selected Swiss lakes. Final project report ( http://arxiv.org/abs/2008.00512v1 )

ライセンス: Link先を確認
Manu Tom, Melanie Suetterlin, Damien Bouffard, Mathias Rothermel, Stefan Wunderle, Emmanuel Baltsavias(参考訳) 湖氷を含む様々な湖の観測物は気候や気候変動に関係しており、長期監視の好機となっている。 そのため、湖は(湖氷の一部として)地球気候観測システム(GCOS)の基本気候変動(ECV)と見なされている。 スイスの湖氷を統合的に監視する必要性に続き、GCOSスイスのフレームワークのMeteoSwissはこの2年間のプロジェクトを支援し、衛星画像の使用だけでなく、ウェブカメラやその場測定の可能性を探求した。 本プロジェクトの目的は、様々な入力データと処理方法の統合に焦点をあて、対象とする湖の監視と氷の量、特に氷点/降期日の検出である。 セントモリッツ湖、シルヴァプラナ湖、シルス湖、シルル湖、グリフェン湖、エーゲリ湖で、観測期間中は最初の4つの湖のみが凍結して処理された。 観測期間は主に2016-17年の冬であった。 プロジェクト期間中、様々なアプローチを開発し、実装し、テストし、比較した。 まず,光センサmodisとviirからの低空間解像度 (250~1000 m) と高時間解像度 (1日) の衛星画像を用いた。 次に, パイロットプロジェクトとして, 既存のウェブカメラの利用について検討した。 (a)衛星データによる結果の検証及び (b)衛星画像では観測できない、特にセントモリッツ湖のような小さな湖では、湖氷の独立した推定が可能であった。 第3に, 融解前の氷床下および凍結前の温度分布および部分圧力の発達を特徴付けるため, その場測定を行った。 本報告ではプロジェクト成果について述べる。

Various lake observables, including lake ice, are related to climate and climate change and provide a good opportunity for long-term monitoring. Lakes (and as part of them lake ice) is therefore considered an Essential Climate Variable (ECV) of the Global Climate Observing System (GCOS). Following the need for an integrated multi-temporal monitoring of lake ice in Switzerland, MeteoSwiss in the framework of GCOS Switzerland supported this 2-year project to explore not only the use of satellite images but also the possibilities of Webcams and in-situ measurements. The aim of this project is to monitor some target lakes and detect the extent of ice and especially the ice-on/off dates, with focus on the integration of various input data and processing methods. The target lakes are: St. Moritz, Silvaplana, Sils, Sihl, Greifen and Aegeri, whereby only the first four were mainly frozen during the observation period and thus processed. The observation period was mainly the winter 2016-17. During the project, various approaches were developed, implemented, tested and compared. Firstly, low spatial resolution (250 - 1000 m) but high temporal resolution (1 day) satellite images from the optical sensors MODIS and VIIRS were used. Secondly, and as a pilot project, the use of existing public Webcams was investigated for (a) validation of results from satellite data, and (b) independent estimation of lake ice, especially for small lakes like St. Moritz, that could not be possibly monitored in the satellite images. Thirdly, in-situ measurements were made in order to characterize the development of the temperature profiles and partly pressure before freezing and under the ice-cover until melting. This report presents the results of the project work.
翻訳日:2022-11-03 19:46:18 公開日:2020-08-02
# 人間の行動認識のためのビジョンと慣性センシングフュージョン : レビュー

Vision and Inertial Sensing Fusion for Human Action Recognition : A Review ( http://arxiv.org/abs/2008.00380v1 )

ライセンス: Link先を確認
Sharmin Majumder, Nasser Kehtarnavaz(参考訳) 人間の行動認識は、ビデオ監視、人間のコンピュータインタラクション、補助生活、ゲームなど、多くのアプリケーションで使われている。 視覚と慣性センシングの融合は、各センシングモダリティが個別に使用される状況と比較して認識能力を向上させることを示す多くの論文が文献に載っている。 本稿では,人間の行動認識を行うために,視覚と慣性センシングが融合フレームワーク内で同時に使用される論文の調査を行う。 調査した論文は、融合アプローチ、特徴、分類器、および考慮されたマルチモダリティデータセットの観点で分類される。 現実的な条件下でこれらの2つのセンシングモダリティの融合を展開するための課題と将来の方向性も述べられている。

Human action recognition is used in many applications such as video surveillance, human computer interaction, assistive living, and gaming. Many papers have appeared in the literature showing that the fusion of vision and inertial sensing improves recognition accuracies compared to the situations when each sensing modality is used individually. This paper provides a survey of the papers in which vision and inertial sensing are used simultaneously within a fusion framework in order to perform human action recognition. The surveyed papers are categorized in terms of fusion approaches, features, classifiers, as well as multimodality datasets considered. Challenges as well as possible future directions are also stated for deploying the fusion of these two sensing modalities under realistic conditions.
翻訳日:2022-11-03 19:39:26 公開日:2020-08-02
# 今後の展望:物理相互作用による教師なし構造力学モデル

Hindsight for Foresight: Unsupervised Structured Dynamics Models from Physical Interaction ( http://arxiv.org/abs/2008.00456v1 )

ライセンス: Link先を確認
Iman Nematollahi and Oier Mees and Lukas Hermann and Wolfram Burgard(参考訳) エージェントが世界と相互作用することを学ぶ上で重要な課題は、物体の物理的性質を推論し、応用力の影響下でそのダイナミクスを予見することである。 多くのオブジェクトやシーンとのインタラクションを通じて学習をスケールするためには、ロボットは人間の監督を必要とせず、現実の体験から自身のパフォーマンスを向上させる必要がある。 そこで本研究では,ラベルのない3次元点雲や画像からロボットのインタラクションのダイナミクスをモデル化する新しい手法を提案する。 従来のアプローチとは異なり,本手法ではトラッカや事前学習された知覚ネットワークによって提供される地上データアソシエーションは不要である。 ラベルのない実世界のインタラクションデータから学ぶために,推定3dクラウド,アクション,および2dイメージの一貫性を観測データで強制する。 共同フォワードおよび逆ネットワークは,シーンをサルエント対象に分割し,適用された動作の影響下での3次元動作を予測する。 さらに,動作条件付き3次元シーンフロー,オブジェクトマスク,2次元光フローを創発特性として出力する。 シミュレーションと実世界のデータの両方において、我々の定式化がビジュモータ制御と計画に使用できる効果的な解釈可能なモデルをもたらすことを示す。 ビデオ、コード、データセットはhttp://hind4sight.cs.uni-freiburg.deで利用可能である。

A key challenge for an agent learning to interact with the world is to reason about physical properties of objects and to foresee their dynamics under the effect of applied forces. In order to scale learning through interaction to many objects and scenes, robots should be able to improve their own performance from real-world experience without requiring human supervision. To this end, we propose a novel approach for modeling the dynamics of a robot's interactions directly from unlabeled 3D point clouds and images. Unlike previous approaches, our method does not require ground-truth data associations provided by a tracker or any pre-trained perception network. To learn from unlabeled real-world interaction data, we enforce consistency of estimated 3D clouds, actions and 2D images with observed ones. Our joint forward and inverse network learns to segment a scene into salient object parts and predicts their 3D motion under the effect of applied actions. Moreover, our object-centric model outputs action-conditioned 3D scene flow, object masks and 2D optical flow as emergent properties. Our extensive evaluation both in simulation and with real-world data demonstrates that our formulation leads to effective, interpretable models that can be used for visuomotor control and planning. Videos, code and dataset are available at http://hind4sight.cs.uni-freiburg.de
翻訳日:2022-11-03 19:38:56 公開日:2020-08-02
# 映像データに対する画像サリエンシー深層モデル適応のためのプラグ・アンド・プレイ方式

A Plug-and-play Scheme to Adapt Image Saliency Deep Model for Video Data ( http://arxiv.org/abs/2008.09103v1 )

ライセンス: Link先を確認
Yunxiao Li, Shuai Li, Chenglizhao Chen, Aimin Hao, Hong Qin(参考訳) 深層学習技術の急速な発展により、空間情報のみによって訓練された画像塩分深層モデルは時折、空間情報と時間情報の両方で訓練されたモデルに匹敵する映像データの検出性能を達成している。 しかし、時間情報の考慮が少なくなるため、時間情報に支配される映像系列において、画像の鮮度深度モデルが脆弱になる可能性がある。 このように、最新のビデオサリエンシー検出手法では、空間的深層モデルから始まり、精巧に設計された時間的深層モデルからネットワークアーキテクチャを採用する。 しかし,そのような手法は単一ストリーム学習手法から生じる性能ボトルネックに容易に遭遇するので,全体の検出性能は空間的深層モデルによって決定される。 本稿では,現在の主流手法とは対照的に,新たに検出・符号化された時間情報を用いて映像データに対する事前訓練された画像サリエンシー深層モデルを弱く再訓練する新しいプラグ・アンド・プレイ方式を提案する。 したがって、再訓練された画像サリエンシー深層モデルは、時間的サリエンシー認識を維持でき、検出性能が大幅に向上する。 さらに,本手法は,既訓練画像の深度モデルに適応して,高品質な映像の鮮度検出を実現するのに有効である。 さらに,本手法のデータとソースコードも公開されている。

With the rapid development of deep learning techniques, image saliency deep models trained solely by spatial information have occasionally achieved detection performance for video data comparable to that of the models trained by both spatial and temporal information. However, due to the lesser consideration of temporal information, the image saliency deep models may become fragile in the video sequences dominated by temporal information. Thus, the most recent video saliency detection approaches have adopted the network architecture starting with a spatial deep model that is followed by an elaborately designed temporal deep model. However, such methods easily encounter the performance bottleneck arising from the single stream learning methodology, so the overall detection performance is largely determined by the spatial deep model. In sharp contrast to the current mainstream methods, this paper proposes a novel plug-and-play scheme to weakly retrain a pretrained image saliency deep model for video data by using the newly sensed and coded temporal information. Thus, the retrained image saliency deep model will be able to maintain temporal saliency awareness, achieving much improved detection performance. Moreover, our method is simple yet effective for adapting any off-the-shelf pre-trained image saliency deep model to obtain high-quality video saliency detection. Additionally, both the data and source code of our method are publicly available.
翻訳日:2022-11-03 19:38:13 公開日:2020-08-02
# 拡張可能な多言語事前学習と微調整による多言語翻訳

Multilingual Translation with Extensible Multilingual Pretraining and Finetuning ( http://arxiv.org/abs/2008.00401v1 )

ライセンス: Link先を確認
Yuqing Tang, Chau Tran, Xian Li, Peng-Jen Chen, Naman Goyal, Vishrav Chaudhary, Jiatao Gu, Angela Fan(参考訳) 最近の研究は、異なる言語で様々なタスクに使用できる1つのモデルを作成するための多言語事前訓練の可能性を示している。 先行研究である多言語事前学習では、バイテキストの微調整によって機械翻訳システムが作成できることが実証されている。 本研究では,多言語翻訳モデルを多言語微調整により作成できることを示す。 1つの方向を微調整する代わりに、事前訓練されたモデルは複数の方向を同時に微調整する。 スクラッチからトレーニングされた多言語モデルと比較して、事前訓練されたモデルから始めると、ラベルなしの大量の単言語データの利点が取り入れられ、バイテキストが利用できない低リソース言語では特に重要である。 事前訓練されたモデルは、性能を損なうことなく追加の言語を組み込むことができることを示す。 我々はmBARTの言語数を2倍にし、50言語の多言語機械翻訳モデルをサポートする。 最後に、低、中、高リソース言語をカバーするML50ベンチマークを作成し、トレーニングデータと評価データの標準化により再現可能な研究を容易にする。 ml50では,2言語ベースラインよりも平均9.3 bleuをスクラッチから改善しながら,最強ベースライン(スクラッチから多言語かバイリンガルの微調整か)よりも平均1 bleuが向上することを示す。

Recent work demonstrates the potential of multilingual pretraining of creating one model that can be used for various tasks in different languages. Previous work in multilingual pretraining has demonstrated that machine translation systems can be created by finetuning on bitext. In this work, we show that multilingual translation models can be created through multilingual finetuning. Instead of finetuning on one direction, a pretrained model is finetuned on many directions at the same time. Compared to multilingual models trained from scratch, starting from pretrained models incorporates the benefits of large quantities of unlabeled monolingual data, which is particularly important for low resource languages where bitext is not available. We demonstrate that pretrained models can be extended to incorporate additional languages without loss of performance. We double the number of languages in mBART to support multilingual machine translation models of 50 languages. Finally, we create the ML50 benchmark, covering low, mid, and high resource languages, to facilitate reproducible research by standardizing training and evaluation data. On ML50, we demonstrate that multilingual finetuning improves on average 1 BLEU over the strongest baselines (being either multilingual from scratch or bilingual finetuning) while improving 9.3 BLEU on average over bilingual baselines from scratch.
翻訳日:2022-11-03 19:37:36 公開日:2020-08-02
# 伝達学習の分離的視点

A Foliated View of Transfer Learning ( http://arxiv.org/abs/2008.00546v1 )

ライセンス: Link先を確認
Janith Petangoda, Nick A. M. Monk and Marc Peter Deisenroth(参考訳) 転送学習は、既知のソリューションから関連するタスクへ関連する知識を転送することにより、新しいタスクが解決される学習プロセスを考える。 これは実験的に研究されているが、関連するタスクが何であるか、どのように悪用されるかを明らかにする、転送学習問題の基本的な説明が欠けている。 本研究では,タスク間の関連性の定義を提示し,このような関係を表現する数学的枠組みとして葉を同定する。

Transfer learning considers a learning process where a new task is solved by transferring relevant knowledge from known solutions to related tasks. While this has been studied experimentally, there lacks a foundational description of the transfer learning problem that exposes what related tasks are, and how they can be exploited. In this work, we present a definition for relatedness between tasks and identify foliations as a mathematical framework to represent such relationships.
翻訳日:2022-11-03 19:30:50 公開日:2020-08-02
# 幾何学的に富んだ潜在空間

Geometrically Enriched Latent Spaces ( http://arxiv.org/abs/2008.00565v1 )

ライセンス: Link先を確認
Georgios Arvanitidis, S{\o}ren Hauberg, Bernhard Sch\"olkopf(参考訳) 生成モデルにおける一般的な仮定は、生成器が潜在空間をユークリッド環境空間に浸すというものである。 代わりに、周囲空間をリーマン多様体とみなし、関連するリーマン計量を通じて領域知識を符号化することができる。 最短経路は、学習された多様体に従い、周囲の幾何学を尊重するために、潜在空間でそれに従って定義される。 環境メトリックを注意深く設計することで、最短経路は決定論的生成元であっても、誤解を招くようなバイアスを生じさせることを保証できる。 提案手法は,確率的および決定論的生成器を用いて学習した表現の解釈可能性を向上させる。

A common assumption in generative models is that the generator immerses the latent space into a Euclidean ambient space. Instead, we consider the ambient space to be a Riemannian manifold, which allows for encoding domain knowledge through the associated Riemannian metric. Shortest paths can then be defined accordingly in the latent space to both follow the learned manifold and respect the ambient geometry. Through careful design of the ambient metric we can ensure that shortest paths are well-behaved even for deterministic generators that otherwise would exhibit a misleading bias. Experimentally we show that our approach improves interpretability of learned representations both using stochastic and deterministic generators.
翻訳日:2022-11-03 19:30:43 公開日:2020-08-02
# 知識蒸留のための識別可能な特徴集約探索

Differentiable Feature Aggregation Search for Knowledge Distillation ( http://arxiv.org/abs/2008.00506v1 )

ライセンス: Link先を確認
Yushuo Guan, Pengyu Zhao, Bingxuan Wang, Yuanxing Zhang, Cong Yao, Kaigui Bian, Jian Tang(参考訳) 知識蒸留はモデル圧縮においてますます重要になっている。 これは、洗練された教師ネットワークからの出力分布と特徴マップを監督することで、小型の学生ネットワークのパフォーマンスを高める。 いくつかの最近の研究は、学生ネットワークをより監督するために、マルチティーラー蒸留を導入している。 しかし, マルチティーチンガー蒸留法の有効性には, コストのかかる計算資源が伴う。 知識蒸留の効率性と有効性の両方に取り組むため,多元的特徴地図から情報的監督を抽出し,単元蒸留フレームワークにおける多元的蒸留を模倣する特徴集約法を提案する。 具体的には,ニューラルアーキテクチャ探索においてdartに動機づけられた2段階微分可能な特徴集約探索法であるdfaを導入し,その集約を効率的に探索する。 第一段階において、dfaは探索問題を二段階最適化として定式化し、生徒から教師への経路と教師から生徒への経路からなる新しい橋梁損失を利用して適切な特徴集約を求める。 2つのパスは2つのプレイヤーとして機能し、統一されたアーキテクチャパラメータを反対方向に最適化し、同時に特徴集約の表現性と学習性を保証する。 第2段階では、DFAは、導出された特徴集約を伴う知識蒸留を行う。 実験の結果,DFAはCIFAR-100およびCINIC-10データセットの各種教師学習環境下での既存手法よりも優れており,設計の有効性とロバスト性を検証している。

Knowledge distillation has become increasingly important in model compression. It boosts the performance of a miniaturized student network with the supervision of the output distribution and feature maps from a sophisticated teacher network. Some recent works introduce multi-teacher distillation to provide more supervision to the student network. However, the effectiveness of multi-teacher distillation methods are accompanied by costly computation resources. To tackle with both the efficiency and the effectiveness of knowledge distillation, we introduce the feature aggregation to imitate the multi-teacher distillation in the single-teacher distillation framework by extracting informative supervision from multiple teacher feature maps. Specifically, we introduce DFA, a two-stage Differentiable Feature Aggregation search method that motivated by DARTS in neural architecture search, to efficiently find the aggregations. In the first stage, DFA formulates the searching problem as a bi-level optimization and leverages a novel bridge loss, which consists of a student-to-teacher path and a teacher-to-student path, to find appropriate feature aggregations. The two paths act as two players against each other, trying to optimize the unified architecture parameters to the opposite directions while guaranteeing both expressivity and learnability of the feature aggregation simultaneously. In the second stage, DFA performs knowledge distillation with the derived feature aggregation. Experimental results show that DFA outperforms existing methods on CIFAR-100 and CINIC-10 datasets under various teacher-student settings, verifying the effectiveness and robustness of the design.
翻訳日:2022-11-03 19:30:13 公開日:2020-08-02
# 新型コロナウイルス治療における共通治療とエピデミックコントロールのバランス:トランスフォーメーション・アンド・ディバイドの進化最適化

Balancing Common Treatment and Epidemic Control in Medical Procurement during COVID-19: Transform-and-Divide Evolutionary Optimization ( http://arxiv.org/abs/2008.00395v1 )

ライセンス: Link先を確認
Yu-Jun Zheng, Xin Chen, Tie-Er Gan, Min-Xia Zhang, Wei-Guo Sheng and Ling Wang(参考訳) 新型コロナウイルス(covid-19)などのパンデミックに伴う病院の医療物資調達において、共通疾患の治療と流行対策のバランスをとることが重要な目的である。 この問題は、共通の疾患治療と流行抑制の効果を同時に最適化するための双方向最適化問題として定式化することができる。 しかし,大量の供給量,効果評価の難しさ,厳密な予算制約などにより,既存の進化的多目的アルゴリズムが問題のパレート面を効率的に近似することは困難である。 本稿では,まず,従来の高次元制約多目的最適化問題を低次元制約非制約多目的最適化問題に変換し,既存の進化多目的アルゴリズムによって効率よく解けるような単純な単目的最適化サブプロブレムの集合を解くことにより,変換問題に対する各解を評価する。 中国江江省の6つの病院に、新型コロナウイルスのピーク時にトランスフォーメーション・アンド・ディバイドの進化最適化アプローチを適用した。 その結果,提案手法は,元の問題を直接解いた方法よりもはるかに優れた性能を示した。 また,問題固有の知識に基づく変換・分割進化最適化は,他の多くの複雑な問題に対する効率的な解法であり,それゆえ,進化的アルゴリズムの応用分野を拡大することができることを示した。

Balancing common disease treatment and epidemic control is a key objective of medical supplies procurement in hospitals during a pandemic such as COVID-19. This problem can be formulated as a bi-objective optimization problem for simultaneously optimizing the effects of common disease treatment and epidemic control. However, due to the large number of supplies, difficulties in evaluating the effects, and the strict budget constraint, it is difficult for existing evolutionary multiobjective algorithms to efficiently approximate the Pareto front of the problem. In this paper, we present an approach that first transforms the original high-dimensional, constrained multiobjective optimization problem to a low-dimensional, unconstrained multiobjective optimization problem, and then evaluates each solution to the transformed problem by solving a set of simple single-objective optimization subproblems, such that the problem can be efficiently solved by existing evolutionary multiobjective algorithms. We applied the transform-and-divide evolutionary optimization approach to six hospitals in Zhejiang Province, China, during the peak of COVID-19. Results showed that the proposed approach exhibits significantly better performance than that of directly solving the original problem. Our study has also shown that transform-and-divide evolutionary optimization based on problem-specific knowledge can be an efficient solution approach to many other complex problems and, therefore, enlarge the application field of evolutionary algorithms.
翻訳日:2022-11-03 19:29:23 公開日:2020-08-02
# ディープラーニングモデルのブラックボックストロイニング : 非インタラクティブネットワーク構造とバイナリチェンジを用いて

Blackbox Trojanising of Deep Learning Models : Using non-intrusive network structure and binary alterations ( http://arxiv.org/abs/2008.00408v1 )

ライセンス: Link先を確認
Jonathan Pan(参考訳) 近年の人工知能の進歩、すなわちDeep Learningは、多くのアプリケーションで採用を高めている。 生活に大きく依存している程度に重要な役割を担っている人もいます。 しかし、あらゆる技術と同様に、悪意のあるアクターが悪用できる脆弱性がある。 悪質なソフトウェアトロイの木馬のような悪質な行為をサポートするために、善意を意図したこれらのテクノロジーを二重目的の道具に変えようとする。 積極的な防御の一環として、研究者はそのような脆弱性を積極的に特定し、その後に保護策を開発することができる。 本研究は,深層学習画像分類モデルに対する単純なネットワーク構造修正を用いた,新しいブラックボックスのトロイの木馬アプローチを探求する。 本研究は,このような簡単なエクスプロイトの発生を保護するための提案について論じる。 この研究は、aiのイノベーションと導入の意図した利益を保護できるように、これらのモデルに十分なセーフガードを提供することの重要性を強調している。

Recent advancements in Artificial Intelligence namely in Deep Learning has heightened its adoption in many applications. Some are playing important roles to the extent that we are heavily dependent on them for our livelihood. However, as with all technologies, there are vulnerabilities that malicious actors could exploit. A form of exploitation is to turn these technologies, intended for good, to become dual-purposed instruments to support deviant acts like malicious software trojans. As part of proactive defense, researchers are proactively identifying such vulnerabilities so that protective measures could be developed subsequently. This research explores a novel blackbox trojanising approach using a simple network structure modification to any deep learning image classification model that would transform a benign model into a deviant one with a simple manipulation of the weights to induce specific types of errors. Propositions to protect the occurrence of such simple exploits are discussed in this research. This research highlights the importance of providing sufficient safeguards to these models so that the intended good of AI innovation and adoption may be protected.
翻訳日:2022-11-03 19:28:57 公開日:2020-08-02
# 効率的な機械学習モデル選択のためのベイズ最適化

Bayesian Optimization for Selecting Efficient Machine Learning Models ( http://arxiv.org/abs/2008.00386v1 )

ライセンス: Link先を確認
Lidan Wang, Franck Dernoncourt, Trung Bui(参考訳) 多くの機械学習モデルのパフォーマンスは、ハイパーパラメータ設定に依存する。 Bayesian Optimizationは、反復的シーケンシャルプロセス中に最適なハイパーパラメータを特定することを目的とした機械学習アルゴリズムのハイパーパラメータ最適化ツールとして成功している。 しかし、ベイズ最適化アルゴリズムの多くは、有効性のみのモデルを選択し、モデルの訓練効率の重要な問題を無視するように設計されている。 実世界のアプリケーションでは、モデルの有効性とトレーニング時間の両方が重要であることを考えると、実運用環境でのデプロイに必要な厳密なトレーニング時間要件を満たすことができないかもしれない。 本稿では,予測効率とトレーニング効率の両立のためのモデル協調最適化のための統一ベイズ最適化フレームワークを提案する。 本稿では,この2つの指標間のトレードオフを捉え,ベイズ最適化の原理を用いて協調的に最適化する方法を示す。 レコメンデーションタスクのモデル選択実験は、この方法で選択されたモデルが、最先端のベイズ最適化アルゴリズムと比較して強い効率を維持しながら、モデルのトレーニング効率を著しく改善することを示している。

The performance of many machine learning models depends on their hyper-parameter settings. Bayesian Optimization has become a successful tool for hyper-parameter optimization of machine learning algorithms, which aims to identify optimal hyper-parameters during an iterative sequential process. However, most of the Bayesian Optimization algorithms are designed to select models for effectiveness only and ignore the important issue of model training efficiency. Given that both model effectiveness and training time are important for real-world applications, models selected for effectiveness may not meet the strict training time requirements necessary to deploy in a production environment. In this work, we present a unified Bayesian Optimization framework for jointly optimizing models for both prediction effectiveness and training efficiency. We propose an objective that captures the tradeoff between these two metrics and demonstrate how we can jointly optimize them in a principled Bayesian Optimization framework. Experiments on model selection for recommendation tasks indicate models selected this way significantly improves model training efficiency while maintaining strong effectiveness as compared to state-of-the-art Bayesian Optimization algorithms.
翻訳日:2022-11-03 19:22:37 公開日:2020-08-02
# スクリーンキャストチュートリアルによるビデオ質問応答

Video Question Answering on Screencast Tutorials ( http://arxiv.org/abs/2008.00544v1 )

ライセンス: Link先を確認
Wentian Zhao, Seokhwan Kim, Ning Xu, Hailin Jin(参考訳) 本稿では,スクリーンキャストチュートリアルに新たな質問応答タスクを提案する。 ソフトウェアのためのチュートリアルビデオから,質問,回答,コンテキストトリプルを含むデータセットを紹介する。 他のビデオ質問応答作業とは異なり、データセットのすべての回答はドメイン知識ベースに基づいています。 ワンショット認識アルゴリズムは,映像質問応答の性能向上に役立つ視覚的手がかりを抽出するように設計されている。 また,データセットからビデオコンテキストの様々な側面に基づいて,複数のベースラインニューラルネットワークアーキテクチャを提案する。 実験の結果,提案モデルでは,マルチモーダルコンテキストとドメイン知識を組み込むことで,質問応答性能を著しく向上することが示された。

This paper presents a new video question answering task on screencast tutorials. We introduce a dataset including question, answer and context triples from the tutorial videos for a software. Unlike other video question answering works, all the answers in our dataset are grounded to the domain knowledge base. An one-shot recognition algorithm is designed to extract the visual cues, which helps enhance the performance of video question answering. We also propose several baseline neural network architectures based on various aspects of video contexts from the dataset. The experimental results demonstrate that our proposed models significantly improve the question answering performances by incorporating multi-modal contexts and domain knowledge.
翻訳日:2022-11-03 19:22:18 公開日:2020-08-02
# 非線形決定木の2レベル最適化による分類問題に対する解釈可能なルール発見

Interpretable Rule Discovery Through Bilevel Optimization of Split-Rules of Nonlinear Decision Trees for Classification Problems ( http://arxiv.org/abs/2008.00410v1 )

ライセンス: Link先を確認
Yashesh Dhebar and Kalyanmoy Deb(参考訳) 設計,制御,その他の実用目的を含む教師付き分類問題に対して,ユーザは高度に正確な分類器を見つけることに関心があるだけでなく,取得した分類器の解釈も容易であることを要求している。 分類器の解釈可能性の定義は、ケースによって異なるが、人間の解釈可能な分類器では、単純化された数学的用語で表現できるように制限する。 新たなアプローチとして、非線形決定木(NLDT)を用いた単純な数学的規則の集合として分類器を表現する。 ツリーの各条件(非終端)ノードは、与えられた条件ノード内のデータセットを2つの非重複部分集合に分割するために特徴を含む非線形数学的規則(スプリットルール)を表す。 この分割は、子ノードの不純物を最小化することを目的としている。 各条件ノードにおける分割ルールの構造と決定木の深さを制限することにより、分類器の解釈可能性を保証する。 与えられた条件付きノードにおける非線形スプリットルールは、上位レベルがスプリットルールの解釈可能な構造に到達することに集中する一方、下位レベルはルールの個々の構成要素の最も適切な重み(共効率)を達成し、2つの子ノードの純不純物を最小化する進化的二値最適化アルゴリズムを用いて得られる。 提案アルゴリズムの性能は, 制御されたテスト問題, 既存のベンチマーク問題, 産業問題で実証される。 2~500種類の問題の結果は、より困難で複雑な分類タスクに提案手法を適用するためのさらなる範囲を奨励し、開放している。

For supervised classification problems involving design, control, other practical purposes, users are not only interested in finding a highly accurate classifier, but they also demand that the obtained classifier be easily interpretable. While the definition of interpretability of a classifier can vary from case to case, here, by a humanly interpretable classifier we restrict it to be expressed in simplistic mathematical terms. As a novel approach, we represent a classifier as an assembly of simple mathematical rules using a non-linear decision tree (NLDT). Each conditional (non-terminal) node of the tree represents a non-linear mathematical rule (split-rule) involving features in order to partition the dataset in the given conditional node into two non-overlapping subsets. This partitioning is intended to minimize the impurity of the resulting child nodes. By restricting the structure of split-rule at each conditional node and depth of the decision tree, the interpretability of the classifier is assured. The non-linear split-rule at a given conditional node is obtained using an evolutionary bilevel optimization algorithm, in which while the upper-level focuses on arriving at an interpretable structure of the split-rule, the lower-level achieves the most appropriate weights (coefficients) of individual constituents of the rule to minimize the net impurity of two resulting child nodes. The performance of the proposed algorithm is demonstrated on a number of controlled test problems, existing benchmark problems, and industrial problems. Results on two to 500-feature problems are encouraging and open up further scopes of applying the proposed approach to more challenging and complex classification tasks.
翻訳日:2022-11-03 19:22:09 公開日:2020-08-02
# 異常の正しい場所を探す: 自動位置学習による説明可能なAI

Looking in the Right place for Anomalies: Explainable AI through Automatic Location Learning ( http://arxiv.org/abs/2008.00363v1 )

ライセンス: Link先を確認
Satyananda Kashyap, Alexandros Karargyris, Joy Wu, Yaniv Gur, Arjun Sharma, Ken C. L. Wong, Mehdi Moradi, Tanveer Syeda-Mahmood(参考訳) 深層学習は、医療画像における異常認識に対する事実上のアプローチとなっている。 医療画像を異常ラベルに分類する「ブラックボックス」の手法は、特に臨床医の受け入れに問題を引き起こす。 現在の説明可能なai手法は、ヒートマップのような可視化による正当化を提供するが、ネットワークが異常を完全に含む関連画像領域に焦点を当てていることを保証することはできない。 本稿では,予測された位置を重なり合うように異常が保証される,説明可能なAIへのアプローチを開発する。 これは、テキストレポートから位置特定ラベルを自動的に抽出し、Bi-Directional Long Short-Term Memory Recurrent Neural Networks (Bi-LSTM)とDenseNet-121のハイブリッド組み合わせを用いて、期待する位置とラベルとの関係を学習することで実現される。 ResNet101に基づく後続の注意誘導推論ネットワークにバイアスを与えるためにこの期待位置を使用することで、期待位置における異常の分離が実現される。 この方法は大きな胸部x線データセットで評価される。

Deep learning has now become the de facto approach to the recognition of anomalies in medical imaging. Their 'black box' way of classifying medical images into anomaly labels poses problems for their acceptance, particularly with clinicians. Current explainable AI methods offer justifications through visualizations such as heat maps but cannot guarantee that the network is focusing on the relevant image region fully containing the anomaly. In this paper, we develop an approach to explainable AI in which the anomaly is assured to be overlapping the expected location when present. This is made possible by automatically extracting location-specific labels from textual reports and learning the association of expected locations to labels using a hybrid combination of Bi-Directional Long Short-Term Memory Recurrent Neural Networks (Bi-LSTM) and DenseNet-121. Use of this expected location to bias the subsequent attention-guided inference network based on ResNet101 results in the isolation of the anomaly at the expected location when present. The method is evaluated on a large chest X-ray dataset.
翻訳日:2022-11-03 19:21:22 公開日:2020-08-02
# ニューラルネットワークによる構造予測のためのタンパク質一次配列の最適符号化の検討

An Investigation in Optimal Encoding of Protein Primary Sequence for Structure Prediction by Artificial Neural Networks ( http://arxiv.org/abs/2008.00539v1 )

ライセンス: Link先を確認
Aaron Hein, Casey Cole, Homayoun Valafar(参考訳) 機械学習とニューラルネットワークの利用は、主にデータへのアクセシビリティの増大と計算能力の増大により、ここ数年で急激に増加している。 予測タスクに機械学習の力を利用するのはますます簡単になっています。 タンパク質構造予測は、ニューラルネットワークがますます普及し、成功している分野のひとつだ。 ANNは非常に強力だが、最適な結果を得るためには、最も適切な入出力符号化、アーキテクチャ、クラスを選択する必要がある。 本研究では,従来型および新たに提案してきた入力エンコーディングの効果を検証・評価し,最適なアーキテクチャを選定した。 11種類の入力エンコーディング,11種類の代替ウィンドウサイズ,7種類のアーキテクチャを検討した。 3ヶ月で1万以上のタンパク質構造を訓練し, 試験するために, 合計で2,541種類の置換を行った。 調査の結果,1ホット符号化,LSTMの使用,ウィンドウサイズ9,11,15が最適であることがわかった。 この最適化により, 14{\deg} - 16{\deg} および {\psi} dihedral を 23{\deg}-25{\deg} に予測することにより, タンパク質構造予測の質を向上させることができた。 これは以前と類似した調査に比べて顕著な改善である。

Machine learning and the use of neural networks has increased precipitously over the past few years primarily due to the ever-increasing accessibility to data and the growth of computation power. It has become increasingly easy to harness the power of machine learning for predictive tasks. Protein structure prediction is one area where neural networks are becoming increasingly popular and successful. Although very powerful, the use of ANN require selection of most appropriate input/output encoding, architecture, and class to produce the optimal results. In this investigation we have explored and evaluated the effect of several conventional and newly proposed input encodings and selected an optimal architecture. We considered 11 variations of input encoding, 11 alternative window sizes, and 7 different architectures. In total, we evaluated 2,541 permutations in application to the training and testing of more than 10,000 protein structures over the course of 3 months. Our investigations concluded that one-hot encoding, the use of LSTMs, and window sizes of 9, 11, and 15 produce the optimal outcome. Through this optimization, we were able to improve the quality of protein structure prediction by predicting the {\phi} dihedrals to within 14{\deg} - 16{\deg} and {\psi} dihedrals to within 23{\deg}- 25{\deg}. This is a notable improvement compared to previously similar investigations.
翻訳日:2022-11-03 19:20:26 公開日:2020-08-02