このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20210310となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 家庭内スマートホーム環境における高齢者の栄養失調の検出 Detecting impending malnutrition of elderly people in domestic smart home environments ( http://arxiv.org/abs/2003.14159v2 ) ライセンス: Link先を確認 | Bj\"orn Friedrich, J\"urgen Bauer, Andreas Hein | (参考訳) 適切な栄養は高齢者の健康と自立にとって非常に重要である。
体重の著しい減少や体重指数の低下は栄養失調の指標である。
bmiの継続的なモニタリングにより、医師や栄養士は栄養失調に介入することができる。
しかしながら、プロフェッショナルによるBMIの継続的監視は適用不可能であり、自己監視は信頼性が低い。
本稿では,環境センサを用いたBMIのトレンドモニタリング手法を紹介する。
環境センサーは、人が家で食事を準備するのに費やす時間を測定するために使用される。
4週間の平均時間の傾向が変わると、この4週間のBMIの傾向も変わる。
どちらの値も強い相関を示す。
したがって、食事準備の平均時間は、医師や栄養士がさらに患者を診察し、差し迫った栄養失調を認識し、栄養失調の初期段階に介入するのに適した指標である。
この手法は、85歳以上の20人の被験者による10ヶ月のフィールド調査で収集された実世界のデータセットでテストされている。 Proper nutrition is very important for the well-being and independence of elderly people. A significant loss of body weight or a decrease of the Body Mass Index respectively is an indicator for malnutrition. A continuous monitoring of the BMI enables doctors and nutritionists to intervene on impending malnutrition. However, continuous monitoring of the BMI by professionals is not applicable and self-monitoring not reliable. In this article a method for monitoring the trend of the BMI based on ambient sensors is introduced. The ambient sensors are used to measure the time a person spends for preparing meals at home. When the trend of the average time for 4 weeks changes, so does the trend of the BMI for those 4 weeks. Both values show a very strong correlation. Thus, the average time for preparing a meal is a suitable indicator for doctors and nutritionists to examine the patient further, become aware of an impending malnutrition, and intervene at an early stage of malnutrition. The method has been tested on a real-world dataset collected during a 10-month field study with 20 participants of an age of about 85 years. | 翻訳日:2023-05-27 07:52:11 公開日:2021-03-10 |
# 極端ノイズを克服する量子鍵分布:高次元エンタングルメントを用いた同時部分空間符号化 Quantum key distribution overcoming extreme noise: simultaneous subspace coding using high-dimensional entanglement ( http://arxiv.org/abs/2004.12824v2 ) ライセンス: Link先を確認 | Mirdit Doda, Marcus Huber, Gl\'aucia Murta, Matej Pivoluska, Martin Plesch, Chrysoula Vlachou | (参考訳) 高次元の絡み合いは光子の情報容量を増やすことを約束し、現在は1つの光子の時空間的自由度を利用して定期的に生成される。
これらのシステムの興味深い特徴は、データに強いノイズがあるにもかかわらず、絡み合いを証明できることだ。
また,高次元システムの変異部分空間を同時に使用するプロトコルを導入することで,量子鍵分布に対するノイズの多い高次元エンタングルメントを活用できることを示す。
我々のプロトコルは、qubitプロトコルが失敗する非常にノイズの多い実験条件でも秘密鍵を確立するのに使うことができる。
そこで本稿では,高次元エンタングルメントの最も一般的な2つの源である時間ビンと空間モードに適用するノイズモデルのためのプロトコルの性能を解析する。 High-dimensional entanglement promises to increase the information capacity of photons and is now routinely generated exploiting spatio-temporal degrees of freedom of single photons. A curious feature of these systems is the possibility to certify entanglement despite strong noise in the data. We show that it is also possible to exploit this noisy high-dimensional entanglement for quantum key distribution by introducing a protocol that uses mutliple subspaces of the high-dimensional system simultaneously. Our protocol can be used to establish a secret key even in extremely noisy experimental conditions, where qubit protocols fail. To show that, we analyze the performance of our protocol for noise models that apply to the two most commonly used sources of high-dimensional entanglement: time bins and spatial modes. | 翻訳日:2023-05-22 00:10:41 公開日:2021-03-10 |
# チャープパルスを用いた量子エミッタのリモートアドレス指定 Remote Individual Addressing of Quantum Emitters with Chirped Pulses ( http://arxiv.org/abs/2005.07506v2 ) ライセンス: Link先を確認 | Silvia Casulleras and Carlos Gonzalez-Ballestero and Patrick Maurer and Juan Jos\'e Garc\'ia-Ripoll and Oriol Romero-Isart | (参考訳) 我々は,バンドギャップ近傍を伝播するチャープパルスを用いて量子エミッタを遠隔処理することを提案する。
我々は,二次分散関係を持つ媒体において,その発生過程において動的にサブ波長のスポットサイズに自己圧縮するチャープパルスの特定のファミリーを導入する。
パルスの圧縮距離と幅を初期パラメータで調整する方法を解析的に記述する。
これらのパルスと量子エミッタの相互作用は、パルスチャープによって引き起こされる効果的なランダウ・ツェナー過程により、その位置に対して高い感度を示す。
本研究は, 構造貯水池に結合した量子エミッタ分野における強力な制御・探索ツールとしてパルス工学を提案する。 We propose to use chirped pulses propagating near a bandgap to remotely address quantum emitters. We introduce a particular family of chirped pulses that dynamically self-compress to sub-wavelength spot sizes during their evolution in a medium with a quadratic dispersion relation. We analytically describe how the compression distance and width of the pulse can be tuned through its initial parameters. We show that the interaction of such pulses with a quantum emitter is highly sensitive to its position due to effective Landau-Zener processes induced by the pulse chirping. Our results propose pulse engineering as a powerful control and probing tool in the field of quantum emitters coupled to structured reservoirs. | 翻訳日:2023-05-20 03:26:01 公開日:2021-03-10 |
# 相互バイアスのないベースの選択と結果ラベル付けが測定結果の機密性に影響を及ぼす Choice of mutually unbiased bases and outcome labelling affects measurement outcome secrecy ( http://arxiv.org/abs/2006.08226v2 ) ライセンス: Link先を確認 | Mirdit Doda, Matej Pivoluska, and Martin Plesch | (参考訳) Mutually Unbiased Bases (MUB) は、量子情報処理における多くのプロトコルにおいて重要な要素である。
これらのベースで実施される測定は、測定結果のランダム性または秘密性を証明するために使用される最大範囲に偏らない。
本研究では, MUB の特定の特性が, 測定結果のラベル付けなど, 特定の選択に決定的に依存していることを示す。
もし測定がコヒーレントな方法で選択された場合、結果の機密性は特定のMUB測定セットで完全に失われるが、部分的に他の測定には保持される。
これは、MBUが使用される幅広いアプリケーションに影響を及ぼす可能性がある。 Mutually unbiased bases (MUBs) are a crucial ingredient for many protocols in quantum information processing. Measurements performed in these bases are unbiased to the maximally possible extent, which is used to prove randomness or secrecy of measurement results. In this work we show that certain properties of sets of MUBs crucially depend on their specific choice, including, somewhat surprisingly, measurement outcome labelling. If measurements are chosen in a coherent way, the secrecy of the result can be completely lost for specific sets of MUB measurements, while partially retained for others. This can potentially impact a broad spectrum of applications, where MUBs are utilized. | 翻訳日:2023-05-13 20:27:45 公開日:2021-03-10 |
# 非ハーミタン高調波発振器における量子相転移 Quantum phase transitions in nonhermitian harmonic oscillator ( http://arxiv.org/abs/2008.04012v2 ) ライセンス: Link先を確認 | Miloslav Znojil | (参考訳) ストーンの定理は、物理的ヒルベルト空間 ${\cal H}$ において、安定量子系の時間進化はユニタリであることと、対応するハミルトニアン$H$が自己共役であることを要求する。
時として、進化のより単純な図面は、非エルミートであるが${\cal PT}-$対称であるような明らかに非物理的ヒルベルト空間${\cal K}$で構築されることがある。
応用において、残念ながら、物理的ヒルベルト空間 ${\cal h}$ の再構成に必要な重要な技術的障害を回避するのに成功するのは滅多にない。
スパイクされた高調波発振器の$$$対称版に対して、避けられないレベルの交差の力学系において、${\cal H}$の再構成は実現可能となり、さらに非数値的な方法で得られることを示す。
このような${\cal H}$の再構成の一般的な形式は、真の、現象学的に最も魅力的な量子相転移の瞬間として、取り外し可能なすべての例外的でない交叉点を描画することができる。 The Stone theorem requires that in a physical Hilbert space ${\cal H}$ the time-evolution of a stable quantum system is unitary if and only if the corresponding Hamiltonian $H$ is self-adjoint. Sometimes, a simpler picture of the evolution may be constructed in a manifestly unphysical Hilbert space ${\cal K}$ in which $H$ is nonhermitian but ${\cal PT}-$symmetric. In applications, unfortunately, one only rarely succeeds in circumventing the key technical obstacle which lies in the necessary reconstruction of the physical Hilbert space ${\cal H}$. For a ${\cal PT}-$symmetric version of the spiked harmonic oscillator we show that in the dynamical regime of the unavoided level crossings such a reconstruction of ${\cal H}$ becomes feasible and, moreover, obtainable by non-numerical means. The general form of such a reconstruction of ${\cal H}$ enables one to render every exceptional unavoided-crossing point tractable as a genuine, phenomenologically most appealing quantum-phase-transition instant. | 翻訳日:2023-05-06 16:10:43 公開日:2021-03-10 |
# 導波路における位相エンハンス非逆散乱と光子吸収 Topology-Enhanced Nonreciprocal Scattering and Photon Absorption in a Waveguide ( http://arxiv.org/abs/2008.04741v3 ) ライセンス: Link先を確認 | Wei Nie, Tao Shi, Franco Nori, Yu-xi Liu | (参考訳) トポロジカル物質とトポロジカル光学は様々なシステムで研究され、材料科学やフォトニクス技術に有望な応用が期待されている。
これらの進歩は、トポロジカルな物質と光の相互作用の研究、および光-物質相互作用におけるトポロジカルな保護を動機付けている。
本研究では,導波路に面したトポロジカル原子アレイについて検討する。
光間相互作用はトポロジーによって非自明に修正され、新しい光学現象をもたらす。
例えば、$\gamma/\gamma_0\gg 1$ であり、ここでは$\gamma$ と $\gamma_0$ はそれぞれ導波路と環境への原子崩壊である。
この非従来的な光子吸収を理解するために,マルチチャネル散乱法を提案し,エッジおよびバルク状態チャネルの相互作用スペクトルについて検討する。
インバージョンと時間反転対称性を破ることで、光異方性は反射過程に有効であるが、伝送は等方的である。
エッジ状態チャネルの摂動解析により、反射過程の異方性は導波路を介する非エルミート相互作用に由来することを示した。
しかし、非エルミート相互作用における反転対称性は伝達等方性を与える。
トポロジーで保護された原子間隔では、亜ラジアントエッジ状態は大きな異方性を示す。
エッジ状態チャネルとバルク状態チャネルの相互作用により、大きなトポロジカルバンドギャップは導波路内の光子の非逆反射を増強し、時間反転対称性が弱く破れ、すなわち$\gamma_0/\gamma\ll 1$ となり、完全な光子吸収を生成する。
本提案は超伝導量子回路に実装可能であることを示す。
位相強調光子吸収は量子検出に有用である。
この研究は、トポロジカル量子物質で光を操作する可能性を示している。 Topological matter and topological optics have been studied in many systems, with promising applications in materials science and photonics technology. These advances motivate the study of the interaction between topological matter and light, as well as topological protection in light-matter interactions. In this work, we study a waveguide-interfaced topological atom array. The light-matter interaction is nontrivially modified by topology, yielding novel optical phenomena. We find topology-enhanced photon absorption from the waveguide for large Purcell factor, i.e., $\Gamma/\Gamma_0\gg 1$, where $\Gamma$ and $\Gamma_0$ are the atomic decays to waveguide and environment, respectively. To understand this unconventional photon absorption, we propose a multi-channel scattering approach and study the interaction spectra for edge- and bulk-state channels. We find that, by breaking inversion and time-reversal symmetries, optical anisotropy is enabled for reflection process, but the transmission is isotropic. Through a perturbation analysis of the edge-state channel, we show that the anisotropy in the reflection process originates from the waveguide-mediated non-Hermitian interaction. However, the inversion symmetry in the non-Hermitian interaction makes the transmission isotropic. At a topology-protected atomic spacing, the subradiant edge state exhibits huge anisotropy. Due to the interplay between edge- and bulk-state channels, a large topological bandgap enhances nonreciprocal reflection of photons in the waveguide for weakly broken time-reversal symmetry, i.e., $\Gamma_0/\Gamma\ll 1$, producing complete photon absorption. We show that our proposal can be implemented in superconducting quantum circuits. The topology-enhanced photon absorption is useful for quantum detection. This work shows the potential to manipulate light with topological quantum matter. | 翻訳日:2023-05-06 14:01:56 公開日:2021-03-10 |
# 物質波干渉計における物理的に重要な位相シフト Physically significant phase shifts in matter-wave interferometry ( http://arxiv.org/abs/2008.05609v2 ) ライセンス: Link先を確認 | Chris Overstreet, Peter Asenbaum, and Mark A. Kasevich | (参考訳) 物質波干渉計の位相を計算するための多くの異なる形式が存在する。
しかし、特定の干渉計が実際に測定しているものや、与えられた古典的測定が等価な情報を提供するかどうかについて、物理的な直観を発達させることは困難である。
本稿では, 干渉計位相の物理量について, 一連の思考実験を通じて検討する。
低次ポテンシャルでは、単一の内部状態を持つ物質波干渉計が古典的な試験対象の位置測定の和と同じ情報を提供する。
高次ポテンシャルでは、干渉計位相は干渉計アームの運動から分離され、位相は干渉計軌道上の任意の位置測定で得られない情報を含む。
この高次ポテンシャルの位相シフトは、物質波干渉計と古典的な測定装置を根本的に区別する。 Many different formalisms exist for computing the phase of a matter-wave interferometer. However, it can be challenging to develop physical intuition about what a particular interferometer is actually measuring or about whether a given classical measurement provides equivalent information. Here we investigate the physical content of the interferometer phase through a series of thought experiments. In low-order potentials, a matter-wave interferometer with a single internal state provides the same information as a sum of position measurements of a classical test object. In high-order potentials, the interferometer phase becomes decoupled from the motion of the interferometer arms, and the phase contains information that cannot be obtained by any set of position measurements on the interferometer trajectory. This phase shift in a high-order potential fundamentally distinguishes matter-wave interferometers from classical measuring devices. | 翻訳日:2023-05-06 11:16:49 公開日:2021-03-10 |
# ウィグナーの友人と準理想時計 Wigner's friend and the quasi-ideal clock ( http://arxiv.org/abs/2009.10218v2 ) ライセンス: Link先を確認 | Vinicius P. Rossi, Diogo O. Soares-Pinto | (参考訳) 1962年、ユージン・P・ウィグナー(Eugene P. Wigner)は、測定におけるユニタリ進化と波動関数の減少の間の量子論の不整合性を強調する思考実験を導入した。
この研究の結果、ウィグナーの友人シナリオと呼ばれる一連の思考実験が生まれ、量子理論の多くのフレームワークや解釈に関する洞察を提供してきた。
最近、Daniela Frauchiger と Renato Renner が得たノーゴーの定理は、ウィグナーの友人とその理論を検証する可能性に注意を向けた。
この結果に対する多くの回答は、思考実験のタイミングがパラドックスをもたらす可能性があることを指摘した。
本研究では、Wigner's Friend Scenarioの孤立した友人が外部観測者と時間参照フレームを共有せず、量子時計で時間を追跡する必要がある場合、何が起こるのかを問う。
この目的のために、量子参照系の理論と非対称性の量子資源理論によって提供される概念を再現し、このシナリオにおける時間の内部化の方法を学習し、mischa p. woods、ralph silva、jonathan oppenheimによって提案された準理想時計と呼ばれる実現可能な量子時計のモデルを導入する。
その結果,このアプローチでは非一貫性な振る舞いは生じず,wigner側の不正確な時計でもsuperobserverとその友人との意見の相違は持続することがわかった。
しかし、この時計モデルのガウス的拡散は観測可能なものがパラドックスを生じないかを制御でき、この分析が深まることの意義を示している。 In 1962, Eugene P. Wigner introduced a thought experiment that highlighted the incompatibility in quantum theory between unitary evolution and wave function reduction in a measurement. This work resulted in a class of thought experiments often called Wigner's Friend Scenarios, which have been providing insights over many frameworks and interpretations of quantum theory. Recently, a no-go theorem obtained by Daniela Frauchiger and Renato Renner brought attention back to the Wigner's Friend and its potential of putting theories to test. Many answers to this result pointed out how timing in the thought experiment could be yielding a paradox. In this work, we ask what would happen if the isolated friend in a Wigner's Friend Scenario did not share a time reference frame with the outer observer, and time should be tracked by a quantum clock. For this purpose, we recollect concepts provided by the theory of quantum reference frames and the quantum resource theory of asymmetry, to learn how to internalize time in this scenario, and introduce a model for a feasible quantum clock proposed by Mischa P. Woods, Ralph Silva and Jonathan Oppenheim, called the quasi-ideal clock. Our results have shown that no decoherent behavior comes from this approach, and the disagreement between the superobserver and its friend persists even for an imprecise clock on Wigner's side. However, the gaussian spread of this clock model can control what observables do not raise a paradox, indicating the relevance of deepening this analysis. | 翻訳日:2023-05-01 09:05:41 公開日:2021-03-10 |
# 相互作用系の絡み合いハミルトニアン:局所温度近似とそれ以上 Entanglement Hamiltonian of Interacting Systems: Local Temperature Approximation and Beyond ( http://arxiv.org/abs/2012.05248v2 ) ライセンス: Link先を確認 | Mahdieh Pourjafarabadi, Hanieh Najafzadeh, Mohammad-Sadegh Vaezi, and Abolhassan Vaezi | (参考訳) 相互作用する格子フェルミオンとスピンモデルの基底状態に対する様々な部分領域の絡み合いハミルトニアン(EH)の第2量子化形式について検討する。
EH とモデルハミルトニアン自身との関係は、一般の局所ハミルトニアン基底状態の未解決問題である。
本稿では,EHが実際に局所的であり,その支配的成分がハミルトン模型に存在する用語と関連していることを示す。
a)離散格子系
b) 創発的共形あるいはローレンツ対称性を持たないシステム、及び
(c)非平坦な境界を持つサブシステムに対して、比較的強い相互作用がある。
与えられた点における局所温度は、サブシステムと環境の境界からの距離に逆比例することを示す。
我々は、EHの下位支配項も見つけ、それらがサブシステムの境界から著しく抑制され、その近傍に比較的小さいことを示す。 We investigate the second quantization form of the entanglement Hamiltonian (EH) of various subregions for the ground-state of several interacting lattice fermions and spin models. The relation between the EH and the model Hamiltonian itself is an unsolved problem for the ground-state of generic local Hamiltonians. In this letter, we demonstrate that the EH is practically local and its dominant components are related to the terms present in the model Hamiltonian up to a smooth spatially varying temperature even for (a) discrete lattice systems, (b) systems with no emergent conformal or Lorentz symmetry, and (c) for subsystems with non-flat boundaries, up to relatively strong interactions. We show that the mentioned local temperature at a given point decays inversely proportional to its distance from the boundary between the subsystem and the environment. We find the subdominant terms in the EH as well and show that they are severely suppressed away from the boundaries of subsystem and are relatively small near them. | 翻訳日:2023-04-21 07:57:50 公開日:2021-03-10 |
# 爆発対称性によるトレーニングQAOAのコスト削減 Exploiting Symmetry Reduces the Cost of Training QAOA ( http://arxiv.org/abs/2101.10296v3 ) ライセンス: Link先を確認 | Ruslan Shaydulin, Stefan M. Wild | (参考訳) 量子近似最適化アルゴリズム(QAOA)の実用化に向けた有望なアプローチは、量子コンピュータ上で最適化されたパラメータでQAOAから解をサンプリングし、シミュレーションにおいて古典的にQAOAパラメータを見つけることである。
シミュレーションではQAOAエネルギーの繰り返し評価が必要である。
本稿では,問題の対称性を生かしてqaoaエネルギーの評価を加速する新しい手法を提案する。
目的関数の古典的対称性と、QAOAエネルギーに関するコストハミルトニアン項の対称性の関連性を示す。
対称性によって連結されていない項のみを考慮すれば,qaoaエネルギーの評価コストを大幅に削減できることを示す。
我々のアプローチは一般に、既知の対称性の部分群に適用され、グラフ問題に限定されない。
本結果は非局所的QAOA一般化RQAOAに直接適用可能である。
本稿では,問題の対称性を計算するために利用可能な高速グラフ自己同型解法について概説する。
我々は,最大1万ノードの48グラフのベンチマーク上で,最先端テンソルネットワークシミュレータとグラフ自己同型解法を用いて,MaxCut問題に対する提案手法を実装した。
我々の手法は、考慮されたグラフの71.7 %$に対して$p=1$の改善を提供し、中央値の4.06$は、グラフの62.5 %$が自己同型解法にとって難しいことが知られているベンチマークで示される。 A promising approach to the practical application of the Quantum Approximate Optimization Algorithm (QAOA) is finding QAOA parameters classically in simulation and sampling the solutions from QAOA with optimized parameters on a quantum computer. Doing so requires repeated evaluations of QAOA energy in simulation. We propose a novel approach for accelerating the evaluation of QAOA energy by leveraging the symmetry of the problem. We show a connection between classical symmetries of the objective function and the symmetries of the terms of the cost Hamiltonian with respect to the QAOA energy. We show how by considering only the terms that are not connected by symmetry, we can significantly reduce the cost of evaluating the QAOA energy. Our approach is general and applies to any known subgroup of symmetries and is not limited to graph problems. Our results are directly applicable to nonlocal QAOA generalization RQAOA. We outline how available fast graph automorphism solvers can be leveraged for computing the symmetries of the problem in practice. We implement the proposed approach on the MaxCut problem using a state-of-the-art tensor network simulator and a graph automorphism solver on a benchmark of 48 graphs with up to 10,000 nodes. Our approach provides an improvement for $p=1$ on $71.7\%$ of the graphs considered, with a median speedup of $4.06$, on a benchmark where $62.5\%$ of the graphs are known to be hard for automorphism solvers. | 翻訳日:2023-04-14 00:42:10 公開日:2021-03-10 |
# 計算ツールによる創造性向上 Performing Creativity With Computational Tools ( http://arxiv.org/abs/2103.05533v2 ) ライセンス: Link先を確認 | Daniel Lopes, J\'essica Parente, Pedro Silva, Lic\'inio Roque, Penousal machado | (参考訳) 人々のワークフローに新しいツールを導入することは、常に新しい創造的な道の原動力です。
本稿では,創造的タスクのパフォーマンス,特にグラフィックデザインにおける計算ツールの利用が与える影響について論じる。
この研究は、グラフィックデザイン、データサイエンス、コンピュータアート、音楽、データビジュアライゼーションの分野で働く12人を対象にした、半構造化インタビューのセットに適用された、接地理論の方法論によって進められた。
この結果は、新しいインテリジェントなクリエイティビティ支援ツールの開発に投資する価値がない、といういくつかのシナリオを示唆している。 The introduction of new tools in people's workflow has always been promotive of new creative paths. This paper discusses the impact of using computational tools in the performance of creative tasks, especially focusing on graphic design. The study was driven by a grounded theory methodology, applied to a set of semi-structured interviews, made to twelve people working in the areas of graphic design, data science, computer art, music and data visualisation. Among other questions, the results suggest some scenarios in which it is or it is not worth investing in the development of new intelligent creativity-aiding tools. | 翻訳日:2023-04-08 15:51:33 公開日:2021-03-10 |
# スマートホームにおける老年期アセスメントスコアと活動の相関分析 Analysing the Correlation of Geriatric Assessment Scores and Activity in Smart Homes ( http://arxiv.org/abs/2103.05971v1 ) ライセンス: Link先を確認 | Bj\"orn Friedrich, Enno-Edzard Steen, Sebastian Fudickar, Andreas Hein | (参考訳) 高齢者の体力と運動量の連続的なモニタリングは,早期の健康維持と疾患治療に重要である。
しかし、医師による頻繁な検診はロジスティックな能力を超えている。
代替のアプローチは、周囲センサーによる機能的測定の自動的かつ非侵襲的な収集である。
本論文では,環境運動センサのデータと,体力評価の確立した短期的性能バッタリ,ティネッティ,タイムドアップ・アンド・ゴーの相関について述べる。
動作センサイベントの平均回数を,評価スコアと相関する活動指標として用いた。
実世界のデータセットの評価は、標準化された老年医学的身体的評価のスコアと中程度から強い相関を示す。 A continuous monitoring of the physical strength and mobility of elderly people is important for maintaining their health and treating diseases at an early stage. However, frequent screenings by physicians are exceeding the logistic capacities. An alternate approach is the automatic and unobtrusive collection of functional measures by ambient sensors. In the current publication, we show the correlation among data of ambient motion sensors and the well-established mobility assessments Short-Physical-Performance-Battery, Tinetti and Timed Up & Go. We use the average number of motion sensor events as activity measure for correlation with the assessment scores. The evaluation on a real-world dataset shows a moderate to strong correlation with the scores of standardised geriatrics physical assessments. | 翻訳日:2023-04-08 13:53:05 公開日:2021-03-10 |
# 量子波動関数の直接測定におけるポスト選択効率の向上 Increase the Efficiency of Post-selection in Direct Measurement of Quantum Wave Function ( http://arxiv.org/abs/2103.05884v1 ) ライセンス: Link先を確認 | Yong-Li Wen, Shanchao Zhang, Hui Yan, Shi-Liang Zhu | (参考訳) 直接弱いあるいは強い量子波動関数の測定はポストセレクションに基づいて実証されているが、この測定の効率はポストセレクションの成功確率によって著しく制限されている。
本稿では,ポインターと波動関数の結合後,液晶板を挿入するだけで光子の波動関数を直接測定する修正手法を提案する。
提案手法はポストセレクションの効率を大幅に向上させることができる。
数値シミュレーションにより,提案手法は高分解能,高忠実度で高い効率が得られることが示された。 Direct weak or strong measurement of quantum wave function has been demonstrated based on the post-selection; however, the efficiency of the measurement is greatly limited by the success probability of the post-selection. Here we propose a modified scheme to directly measure photon's wave function by simply inserting a liquid crystal plate after the coupling between the pointer and wave function. Our modified method can significantly increase the efficiency of the post selection. Numerical simulations demonstrate that our proposal can have a greater efficiency in higher resolution and higher fidelity. | 翻訳日:2023-04-08 13:52:29 公開日:2021-03-10 |
# アクティブ相関型マッハツェンダー干渉計の感度に及ぼす損失の影響 Effects of losses on the sensitivity of an actively correlated Mach-Zehnder interferometer ( http://arxiv.org/abs/2103.05868v1 ) ライセンス: Link先を確認 | Qiang Wang, Gao-Feng Jiao, Zhifei Yu, L. Q. Chen, Weiping Zhang and Chun-Hua Yuan | (参考訳) 我々は, 位相吸収法により得られた量子フィッシャー情報が外部位相参照なしで適切な位相検出限界を与えることのできる, 能動的に相関したマッハ・ツェンダー干渉計 (ACMZI) の量子Cram\'{e}r-Rao境界について理論的に検討した。
損失の有無でホモダイン検出と強度検出の手法を用いて位相感度を数値計算する。
無損失かつ非常に低い損失条件下では、acmziは標準量子限界(sql)を超えるバランスのとれたケースで操作される。
損失が増加するにつれて、感度の低下が増加する。
しかし、一定の範囲内でビーム再結合プロセスの利得パラメータを調整でき、感度の低下を低減し、不均衡な状況下でも感度がsqlを上回り続けることができる。
本手法は損失を考慮した位相推定の最適化手法を提供する。 We theoretically studied the quantum Cram\'{e}r-Rao bound of an actively correlated Mach-Zehnder interferometer (ACMZI), where the quantum Fisher information obtained by the phase-averaging method can give the proper phase-sensing limit without any external phase reference. We numerically calculate the phase sensitivities with the method of homodyne detection and intensity detection in the presence of losses. Under lossless and very low loss conditions, the ACMZI is operated in a balanced case to beat the standard quantum limit (SQL). As the loss increases, the reduction in sensitivity increases. However within a certain range, we can adjust the gain parameters of the beam recombination process to reduce the reduction in sensitivity and realize the sensitivity can continue to beat the SQL in an unbalanced situation. Our scheme provides an optimization method of phase estimation in the presence of losses. | 翻訳日:2023-04-08 13:52:11 公開日:2021-03-10 |
# 不確かさを伴う割当方針の人間知覚のモデル化について On Modeling Human Perceptions of Allocation Policies with Uncertain Outcomes ( http://arxiv.org/abs/2103.05827v1 ) ライセンス: Link先を確認 | Hoda Heidari, Solon Barocas, Jon Kleinberg, and Karen Levy | (参考訳) 多くの政策は、自然に不確実である利益や利益を割り当てている:それらは、個人が損害や利益を負う確率が異なる人口の分布を生み出す。
このように、異なるポリシーの比較には、対応する確率分布の比較が含まれており、多くの場合、選択されたポリシーは、それらが生み出す総害や利益の期待値のみに基づいて、好みによって説明することが難しい。
期待値分析が十分な説明の枠組みでない場合、これらの分布に対する社会的嗜好の合理的なモデルは何でしょうか。
本稿では,行動科学の確率重み付けの枠組みに基づき,数十年にわたって人々が確率をどう知覚するかという体系的偏見を特定してきた。
確率重み付けは,リスクの確率分布よりも選好の予測や,期待値分析とは全く異なる機能を持つ利益に利用できることを示すとともに,多くのケースにおいて,他の手段で動機付けが難しい政策選好の潜在的な説明を提供する。
特に, 確率重み付けの歪曲効果を考慮し, 知覚的全損を最小化し, 知覚的全利益を最大化するための最適方針を特定し, その割当戦略に類似した実世界政策を数多く検討した。
我々の分析では、政策選択に関する具体的な勧告は提供していないが、本質的には自然に解釈され、政策選択における観察された現象を記述しようとしている。 Many policies allocate harms or benefits that are uncertain in nature: they produce distributions over the population in which individuals have different probabilities of incurring harm or benefit. Comparing different policies thus involves a comparison of their corresponding probability distributions, and we observe that in many instances the policies selected in practice are hard to explain by preferences based only on the expected value of the total harm or benefit they produce. In cases where the expected value analysis is not a sufficient explanatory framework, what would be a reasonable model for societal preferences over these distributions? Here we investigate explanations based on the framework of probability weighting from the behavioral sciences, which over several decades has identified systematic biases in how people perceive probabilities. We show that probability weighting can be used to make predictions about preferences over probabilistic distributions of harm and benefit that function quite differently from expected-value analysis, and in a number of cases provide potential explanations for policy preferences that appear hard to motivate by other means. In particular, we identify optimal policies for minimizing perceived total harm and maximizing perceived total benefit that take the distorting effects of probability weighting into account, and we discuss a number of real-world policies that resemble such allocational strategies. Our analysis does not provide specific recommendations for policy choices, but is instead fundamentally interpretive in nature, seeking to describe observed phenomena in policy choices. | 翻訳日:2023-04-08 13:50:53 公開日:2021-03-10 |
# ソーシャルメディア利用者抗議者の検出性と密度の空間的変動について On spatial variation in the detectability and density of social media user protest supporters ( http://arxiv.org/abs/2103.06063v1 ) ライセンス: Link先を確認 | V\'ictor H. Mas\'ias, Fernando Crespo, Pilar Navarro R., Razan Masood, Nicole C. Kr\"amer, and H. Ulrich Hoppe | (参考訳) ソーシャルメディア上での抗議活動については多くが公表されているが、そのような出来事におけるソーシャルメディア利用者の空間的行動の特徴付けを試みた作品はほとんどない。
今回報告した研究は、メキシコシティでの抗議行動中のユーザの空間的検出性と密度の変動に対する、構築された環境の影響、抗議場所への物理的な近接、および集団投稿リズムを決定するために、空間的キャプチャー手法を用いている。
ベストオブザードモデルは, 利用者の空間密度を説明するとともに, ソーシャルメディア利用者の抗議者の検出可能性が高いこと, 集団投稿リズムと観察日が重要な説明要因であることが示唆された。
その結果, 集団空間行動の研究は, ユーザの活動センタや都市環境に焦点をあてることによって, 抗議場所との物理的な近接よりも, 抗議イベント中のユーザの検出可能性や密度の空間的変動を適切に説明できないことが示唆された。 Although much has been published regarding street protests on social media, few works have attempted to characterize social media users' spatial behavior in such events. The research reported here uses spatial capture-recapture methods to determine the influence of the built environment, physical proximity to protest location, and collective posting rhythm on variations in users' spatial detectability and density during a protest in Mexico City. The best-obtained model, together with explaining the spatial density of users, shows that there is high variability in the detectability of social media user protest supporters and that the collective posting rhythm and the day of observation are significant explanatory factors. The implication is that studies of collective spatial behavior would benefit by focussing on users' activity centres and their urban environment, rather than their physical proximity to the protest location, the latter being unable to adequately explain spatial variations in users' detectability and density during the protest event. | 翻訳日:2023-04-08 13:43:01 公開日:2021-03-10 |
# サイドチャネルフリー量子鍵分布実験 Experimental Side-Channel-Free Quantum Key Distribution ( http://arxiv.org/abs/2103.06058v1 ) ライセンス: Link先を確認 | Chi Zhang, Xiao-Long Hu, Jiu-Peng Chen, Yang Liu, Weijun Zhang, Zong-Wen Yu, Hao Li, Lixing You, Zhen Wang, Xiang-Bin Wang, Qiang Zhang, Jian-Wei Pan | (参考訳) 量子鍵分布は理論上、遠隔ユーザーに対して無条件で安全な鍵交換を提供することができる。
しかし、実際には、ほとんどの量子鍵配布システムにおいて、量子ハッカーは、光子周波数スペクトル、放出時間、伝播方向、空間角運動量などのソースのサイドチャネルを聴くことによって、セキュアな鍵を盗む可能性がある。
デザイナーが面倒を見るかどうかに関わらず、どのエンコーディング空間にもサイドチャネルが存在する可能性があるため、この種の攻撃を防ぐのは難しい。
本稿では、測定デバイスに依存しないだけでなく、ソース内のすべてのサイドチャネル攻撃に免疫を持つ、サイドチャネルフリーな量子鍵分散プロトコルを実験的に実現する。
我々は50km繊維スプールを通して1パルスあたり4.80e-7のセキュアな鍵レートを達成する。 Quantum key distribution can provide unconditionally secure key exchange for remote users in theory. In practice, however, in most quantum key distribution systems, quantum hackers might steal the secure keys by listening to the side channels in the source, such as the photon frequency spectrum, emission time, propagation direction, spatial angular momentum, and so on. It is hard to prevent such kinds of attacks because side channels may exist in any of the encoding space whether the designers take care of or not. Here we report an experimental realization of a side-channel-free quantum key distribution protocol which is not only measurement-device-independent, but also immune to all side-channel attacks in the source. We achieve a secure key rate of 4.80e-7 per pulse through 50 km fiber spools. | 翻訳日:2023-04-08 13:42:17 公開日:2021-03-10 |
# ソーシャル顧客関係管理のための対話型ソーシャルネットワークを用いた学習組織 Learning Organization using Conversational Social Network for Social Customer Relationship Management Effort ( http://arxiv.org/abs/2103.06051v1 ) ライセンス: Link先を確認 | Andry Alamsyah, Yahya Peranginangin, Gabriel Nurhadi | (参考訳) 各組織の課題は,モバイルやビッグデータ,相互接続された世界,モノのインターネットといった,より複雑なテクノロジへの適応方法です。
目的を達成するためには、組織内外の相互接続された個人をどのように活用するかを理解する必要がある。
学習組織は、相手とのつながりを聴き、維持することで、変革を続けています。
顧客関係管理は、ビジネス組織が成長し、将来を保証する上で重要な情報源です。
相互に繋がった人々が情報を得て、すぐに影響を受ける複雑なソーシャルネットワークは、確かにビジネス組織にとって大きな課題です。
これらの複雑な技術の組み合わせは、市場が何を望んでいるか、市場競争を理解し、市場セグメンテーションを理解する能力などの興味深い洞察を提供する。
本稿では、組織変革の一環として、企業組織がブランド問題に関するtwitter上での会話を掘り起こし、顧客関係管理の文脈で分析し、市場に関するいくつかの洞察を引き出す方法を示す。 The challenge of each organization is how they adapt to the shift of more complex technology such as mobile, big data, interconnected world, and the Internet of things. In order to achieve their objective, they must understand how to take advantage of the interconnected individuals inside and outside the organization. Learning organization continues to transform by listening and maintain the connection with their counterparts. Customer relationship management is an important source for business organizations to grow and to assure their future. The complex social network, where interconnected peoples get information and get influenced very quickly, certainly a big challenge for business organizations. The combination of these complex technologies provides intriguing insight such as the capabilities to listen to what the markets want, to understand their market competition, and to understand their market segmentation. In this paper, as a part of organization transformation, we show how a business organization mine online conversational in Twitter related to their brand issue and analyze them in the context of customer relationship management to extract several insights regarding their market. | 翻訳日:2023-04-08 13:42:03 公開日:2021-03-10 |
# 2kmマルチコアファイバー上のパスエンコード高次元量子通信 Path-encoded high-dimensional quantum communication over a 2 km multicore fiber ( http://arxiv.org/abs/2103.05992v1 ) ライセンス: Link先を確認 | Beatrice Da Lio, Daniele Cozzolino, Nicola Biagi, Yunhong Ding, Karsten Rottwitt, Alessandro Zavatta, Davide Bacco, Leif K. Oxenl{\o}we | (参考訳) 高次元量子状態に基づく量子鍵分布(QKD)プロトコルは、エラー耐性を向上しながら鍵レート生成を増大させる経路を示しており、2次元QKDプロトコルの限界を克服している。
それでも、高次元量子状態のファイバーリンクによる信頼性の高い伝送は、その応用を促進するために対処しなければならない課題である。
本稿では、パスエンコードされた高次元量子状態の2kmのマルチコアファイバー上での信頼性の高い伝送を示す。
位相同期ループシステムを利用すると、安定した干渉検出が保証され、低いエラーレートと6.3Mbit/sの秘密鍵レートが生成される。 Quantum key distribution (QKD) protocols based on high-dimensional quantum states have shown the route to increase the key rate generation while benefiting of enhanced error tolerance, thus overcoming the limitations of two-dimensional QKD protocols. Nonetheless, the reliable transmission through fiber links of high-dimensional quantum states remains an open challenge that must be addressed to boost their application. Here, we demonstrate the reliable transmission over a 2 km long multicore fiber of path-encoded high-dimensional quantum states. Leveraging on a phase-locked loop system, a stable interferometric detection is guaranteed, allowing for low error rates and the generation of 6.3 Mbit/s of secret key rate. | 翻訳日:2023-04-08 13:41:45 公開日:2021-03-10 |
# マイクロファブリケード二重接合セグメンテーションイオントラップの設計・製造・特性評価 Design, fabrication and characterisation of a micro-fabricated double-junction segmented ion trap ( http://arxiv.org/abs/2103.05978v1 ) ライセンス: Link先を確認 | Chiara Decaroli, Roland Matt, Robin Oswald, Maryse Ernzer, Jeremy Flannery, Simon Ragg, Jonathan P. Home | (参考訳) 2次元イオン輸送のための一対の接合を含む精密加工シリカガラスウェハのスタックから作製した3次元ポールイオントラップの実装について述べる。
このトラップは142個の専用電極を持ち、イオンの列を保持する複数の電位井戸を定義するのに使用できる。
時変ポテンシャルを供給することにより、イオン列の移動と再構成も可能となる。
本稿では,異なるパラメータ条件の探索と可能な最適化と設計選択を含む,トラップの設計,シミュレーション,製造,パッケージングについて述べる。
このトラップの初期試験の結果は、加熱速度と接合輸送の測定を含む。 We describe the implementation of a three-dimensional Paul ion trap fabricated from a stack of precision-machined silica glass wafers, which incorporates a pair of junctions for 2-dimensional ion transport. The trap has 142 dedicated electrodes which can be used to define multiple potential wells in which strings of ions can be held. By supplying time-varying potentials, this also allows for transport and re-configuration of ion strings. We describe the design, simulation, fabrication and packaging of the trap, including explorations of different parameter regimes and possible optimizations and design choices. We give results of initial testing of the trap, including measurements of heating rates and junction transport. | 翻訳日:2023-04-08 13:41:34 公開日:2021-03-10 |
# 核磁気共鳴実験の量子感度限界 : 新しい基礎物理を求めて Quantum sensitivity limits of nuclear magnetic resonance experiments searching for new fundamental physics ( http://arxiv.org/abs/2103.06284v1 ) ライセンス: Link先を確認 | Deniz Aybas, Hendrik Bekker, John W. Blanchard, Dmitry Budker, Gary P. Centers, Nataniel L. Figueroa, Alexander V. Gramolin, Derek F. Jackson Kimball, Arne Wickenbrock, Alexander O. Sushkov | (参考訳) 核磁気共鳴は、超光子のようなダークマターを探索するための有望な実験手法である。
宇宙軸スピン沈降実験(CASPEr)のような探索は、最終的に量子力学的ノイズ源、特にスピン投射ノイズによって制限される。
このような基本的な限界をどのように達成できるかを議論する。
磁気共鳴実験の回路モデルを検討し、スピン投影ノイズ、熱雑音、増幅器ノイズの3つのノイズ源を定量化する。
総雑音スペクトルの計算は、核スピンの存在による回路インピーダンスの変化とスピンアンサンブルの回路バックアクションを考慮に入れている。
回路バックアクションの抑制は、アクシオン様ダークマター探索のスピン投影ノイズを量子色力学アクシオン感度に到達するために特に重要である。 Nuclear magnetic resonance is a promising experimental approach to search for ultra-light axion-like dark matter. Searches such as the cosmic axion spin-precession experiments (CASPEr) are ultimately limited by quantum-mechanical noise sources, in particular, spin-projection noise. We discuss how such fundamental limits can potentially be reached. We consider a circuit model of a magnetic resonance experiment and quantify three noise sources: spin-projection noise, thermal noise, and amplifier noise. Calculation of the total noise spectrum takes into account the modification of the circuit impedance by the presence of nuclear spins, as well as the circuit back-action on the spin ensemble. Suppression of the circuit back-action is especially important in order for the spin-projection noise limits of searches for axion-like dark matter to reach the quantum chromodynamic axion sensitivity. | 翻訳日:2023-04-08 13:34:38 公開日:2021-03-10 |
# 連続監視量子高調波発振器の確率経路積分解析 Stochastic Path Integral Analysis of the Continuously Monitored Quantum Harmonic Oscillator ( http://arxiv.org/abs/2103.06111v1 ) ライセンス: Link先を確認 | Tathagata Karmakar, Philippe Lewalle, and Andrew N. Jordan | (参考訳) 我々は,一般ガウス状態における量子単純調和振動子の進化を,時間連続な弱位置と運動量測定を同時に行うことを考える。
位置と運動量予測値に対する確率的進化方程式と、系の特性関数から共分散行列要素を導出する。
Chantasri-Dressel-Jordan (CDJ) 形式主義(Chantasri et al.~2013, 2015)をこの連続変数系に一般化することにより、確率的ハミルトニアンと作用を構築する。
行動過激化は、最も読みやすい経路と量子軌道の方程式を与える。
共分散行列要素の定常状態に対して、これらの最も類似した経路に対する解析解が得られる。
CDJ形式を用いて、任意の初期状態から正確に始まる最終状態確率密度を計算する。
また,最適経路解とシミュレーションされた確率軌道の平均値との一致を示す。
本研究は, 測定過程におけるシステムの機械的エネルギーの時間依存性に関する知見を提供し, 量子計測エンジン/冷凍機実験におけるその重要性を示唆するものである。 We consider the evolution of a quantum simple harmonic oscillator in a general Gaussian state under simultaneous time-continuous weak position and momentum measurements. We deduce the stochastic evolution equations for position and momentum expectation values and the covariance matrix elements from the system's characteristic function. By generalizing the Chantasri-Dressel-Jordan (CDJ) formalism (Chantasri et al.~2013 and 2015) to this continuous variable system, we construct its stochastic Hamiltonian and action. Action extremization gives us the equations for the most-likely readout paths and quantum trajectories. For steady states of the covariance matrix elements, the analytical solutions for these most-likely paths are obtained. Using the CDJ formalism we calculate final state probability densities exactly starting from any initial state. We also demonstrate the agreement between the optimal path solutions and the averages of simulated clustered stochastic trajectories. Our results provide insights into the time dependence of the mechanical energy of the system during the measurement process, motivating their importance for quantum measurement engine/refrigerator experiments. | 翻訳日:2023-04-08 13:32:44 公開日:2021-03-10 |
# IoTベースのリモートフォールモニタリングフレームワーク An IoT-Based Framework for Remote Fall Monitoring ( http://arxiv.org/abs/2105.09461v1 ) ライセンス: Link先を確認 | Ayman Al-Kababji, Abbes Amira, Faycal Bensaali, Abdulah Jarouf, Lisan Shidqi, Hamza Djelouat | (参考訳) 転倒検出は深刻な医療問題であり、解決する必要がある。
急激な医療介入なしに転倒すると、特に単独で生活する場合、高齢者の生存確率は低下する。
したがって、フォール検出アルゴリズムを高精度で開発する必要性がある。
本稿では,クラウドに接続されたゲートウェイデバイスを介してモバイルアプリケーションへデータを送信するセンシングデバイスを含む,新しい転倒検出用iotベースのシステムを提案する。
そして、既存のデータセットから取得した3軸加速度計データから複数の特徴を抽出するアルゴリズム的な側面に焦点を移す。
その結果,転倒決定に有効な特徴として,連続ウェーブレット変換(CWT)の重要性が強調された。
CWT, 信号エネルギー(SE), 信号マグニチュード領域(SMA), 信号ベクトルマグニチュード(SVM)の特徴は, K-Nearest Neighbors (KNN) と E-Nearest Neighbors (ENN) を用いた有望な分類結果を示している。
すべてのパフォーマンス指標(精度、リコール、精度、特異性、F1スコア)に対して、達成された結果は、小さなデータセットの95%以上であり、同じアルゴリズムにより、前述のUniMiB-SHARデータセット上の基準で98.47%以上のスコアが達成され、単一のテストレコードの分類時間は極めて効率的でリアルタイムである。 Fall detection is a serious healthcare issue that needs to be solved. Falling without quick medical intervention would lower the chances of survival for the elderly, especially if living alone. Hence, the need is there for developing fall detection algorithms with high accuracy. This paper presents a novel IoT-based system for fall detection that includes a sensing device transmitting data to a mobile application through a cloud-connected gateway device. Then, the focus is shifted to the algorithmic aspect where multiple features are extracted from 3-axis accelerometer data taken from existing datasets. The results emphasize on the significance of Continuous Wavelet Transform (CWT) as an influential feature for determining falls. CWT, Signal Energy (SE), Signal Magnitude Area (SMA), and Signal Vector Magnitude (SVM) features have shown promising classification results using K-Nearest Neighbors (KNN) and E-Nearest Neighbors (ENN). For all performance metrics (accuracy, recall, precision, specificity, and F1 Score), the achieved results are higher than 95% for a dataset of small size, while more than 98.47% score is achieved in the aforementioned criteria over the UniMiB-SHAR dataset by the same algorithms, where the classification time for a single test record is extremely efficient and is real-time | 翻訳日:2023-04-08 13:25:42 公開日:2021-03-10 |
# 制約付き多目的最適化のための改良型2階層進化アルゴリズム An Improved Two-Archive Evolutionary Algorithm for Constrained Multi-Objective Optimization ( http://arxiv.org/abs/2103.06382v1 ) ライセンス: Link先を確認 | Xinyu Shan, Ke Li | (参考訳) 制約付き多目的最適化問題(CMOP)は、実世界のエンジニアリング最適化シナリオにおいてユビキタスである。
制約付き多目的最適化の重要な問題は、収束、多様性、実現可能性のバランスを取ることである。
近年,制約付き多目的最適化(c-taea)のための2階層型進化アルゴリズムが提案されている。
しかし、2つの共進化するアーカイブ間のコラボレーションメカニズムの単純な実装により、c-taeaは、制約を考慮せず、\textit{pseudo} pareto-optimal frontが \textit{feasible} pareto-optimal frontを支配する問題を解くのに苦労している。
本稿では,2つの共進化アーカイブの更新機構を改良したc-taea-ii(c-taea-ii)と,共進化アーカイブ間のコラボレーションを促進する適応的交尾選択機構を提案する。
実験結果は,提案するc-taea-iiの競合性を示し,5つの代表的な制約付き進化的多目的最適化アルゴリズムと比較した。 Constrained multi-objective optimization problems (CMOPs) are ubiquitous in real-world engineering optimization scenarios. A key issue in constrained multi-objective optimization is to strike a balance among convergence, diversity and feasibility. A recently proposed two-archive evolutionary algorithm for constrained multi-objective optimization (C-TAEA) has be shown as a latest algorithm. However, due to its simple implementation of the collaboration mechanism between its two co-evolving archives, C-TAEA is struggling when solving problems whose \textit{pseudo} Pareto-optimal front, which does not take constraints into consideration, dominates the \textit{feasible} Pareto-optimal front. In this paper, we propose an improved version C-TAEA, dubbed C-TAEA-II, featuring an improved update mechanism of two co-evolving archives and an adaptive mating selection mechanism to promote a better collaboration between co-evolving archives. Empirical results demonstrate the competitiveness of the proposed C-TAEA-II in comparison with five representative constrained evolutionary multi-objective optimization algorithms. | 翻訳日:2023-04-08 13:24:53 公開日:2021-03-10 |
# 多目的強化学習に基づくマルチマイクログリッドシステム最適化問題 Multi-Objective Reinforcement Learning based Multi-Microgrid System Optimisation Problem ( http://arxiv.org/abs/2103.06380v1 ) ライセンス: Link先を確認 | Jiangjiao Xu, Ke Li, and Mohammad Abusara | (参考訳) エネルギー貯蔵システムと分散型再生可能エネルギー源を備えたマイクログリッドは、従来の電力消費の削減とCO_2$の排出の削減に重要な役割を果たしている。
マルチマイクログリッドと分散電力グリッドの接続により、システムのセキュリティとプライバシを高めるため、より堅牢で信頼性の高い操作が容易になる。
提案モデルは,スマートグリッド層,独立系オペレータ(iso)層,電力グリッド層という3層からなる。
各レイヤはそのメリットを最大化することを目指している。
これらの目的を達成するために、多目的強化学習(MORL)技術に基づいて、インテリジェントなマルチグリッドエネルギー管理手法を提案する。
特定の参加者を好まないように、非支配的なソリューションを選択して公正な設計を行う。
シミュレーションの結果,MORLの性能を実証し,提案手法の有効性を検証した。 Microgrids with energy storage systems and distributed renewable energy sources play a crucial role in reducing the consumption from traditional power sources and the emission of $CO_2$. Connecting multi microgrid to a distribution power grid can facilitate a more robust and reliable operation to increase the security and privacy of the system. The proposed model consists of three layers, smart grid layer, independent system operator (ISO) layer and power grid layer. Each layer aims to maximise its benefit. To achieve these objectives, an intelligent multi-microgrid energy management method is proposed based on the multi-objective reinforcement learning (MORL) techniques, leading to a Pareto optimal set. A non-dominated solution is selected to implement a fair design in order not to favour any particular participant. The simulation results demonstrate the performance of the MORL and verify the viability of the proposed approach. | 翻訳日:2023-04-08 13:24:34 公開日:2021-03-10 |
# 超対称量子力学におけるモジュラー作用素と絡み合い Modular Operators and Entanglement in Supersymmetric Quantum Mechanics ( http://arxiv.org/abs/2103.06353v1 ) ライセンス: Link先を確認 | Rupak Chatterjee and Ting Yu | (参考訳) トミタ・タケサキのフォン・ノイマン代数へのモジュラー作用素のアプローチは、ある超対称量子力学系の代数構造において解明される。
フォン・ノイマン代数は系の作用素から構成される。
超対称2次元系の双対無限縮退構造を特徴付ける明示作用素はモジュラ共役作用素によって与えられる。
さらに、共起を用いたこれらの超対称系の生成の絡み合いは、この反一元的反線型作用素を絡み合いの定量的尺度として直接的物理的意味を与える絡み合い双部分超多元状態におけるモジュラ共役作用素の期待値と関係があることが示される。
最後に、この理論はグラフェンに見られるような2次元ディラックフェルミオンや超対称Jaynes Cummings Modelにも適用される。 The modular operator approach of Tomita-Takesaki to von Neumann algebras is elucidated in the algebraic structure of certain supersymmetric quantum mechanical systems. A von Neumann algebra is constructed from the operators of the system. An explicit operator characterizing the dual infinite degeneracy structure of a supersymmetric two dimensional system is given by the modular conjugation operator. Furthermore, the entanglement of formation for these supersymmetric systems using concurrence is shown to be related to the expectation value of the modular conjugation operator in an entangled bi-partite supermultiplet state thus providing a direct physical meaning to this anti-unitary, anti-linear operator as a quantitative measure of entanglement. Finally, the theory is applied to the case of two-dimensional Dirac fermions, as is found in graphene, and a supersymmetric Jaynes Cummings Model. | 翻訳日:2023-04-08 13:23:54 公開日:2021-03-10 |
# 超低温極性分子におけるロバスト貯蔵量子ビット Robust storage qubits in ultracold polar molecules ( http://arxiv.org/abs/2103.06310v1 ) ライセンス: Link先を確認 | Philip D. Gregory, Jacob A. Blackmore, Sarah L. Bromley, Jeremy M. Hutson and Simon L. Cornish | (参考訳) 長期間のコヒーレンスを持つ量子状態は、量子計算、シミュレーション、メトロジーに不可欠である。
一重項回転基底状態において作製された超低温分子の核スピン状態は量子情報の符号化と保存に優れた候補である。
しかし、これらの量子ビットのすべてのデコヒーレンス源を理解し、それらを取り除き、最長のコヒーレンス時間に達することが重要である。
本稿では,高分解能ラムゼイ分光法を用いて,RbCs分子の光学的に閉じ込められた超低温ガス中での貯蔵量子ビットの脱コヒーレンス機構を解明する。
分子の超微細構造の詳細な理解に導かれ、一対の超微細構造が同じ磁気モーメントを持つ場所に磁場をチューニングする。
これらの状態は量子ビットを形成し、磁場の変動に敏感である。
我々の実験では、回転状態の弱い混合に起因する、状態間の予期しない微分テンソル光シフトが明らかになった。
線形偏光トラップ光と印加磁場との角度を$\arccos{(1/\sqrt{3})}\approx55^{\circ}$という魔法の角度に設定することにより、この光シフトをいかに除去できるかを示す。
これにより、コヒーレンス時間は6.9 s(90%信頼レベル)を超える。
量子計算プラットフォームとしての超低温分子の可能性を明らかにする。 Quantum states with long-lived coherence are essential for quantum computation, simulation and metrology. The nuclear spin states of ultracold molecules prepared in the singlet rovibrational ground state are an excellent candidate for encoding and storing quantum information. However, it is important to understand all sources of decoherence for these qubits, and then eliminate them, in order to reach the longest possible coherence times. Here, we fully characterise the dominant mechanisms for decoherence of a storage qubit in an optically trapped ultracold gas of RbCs molecules using high-resolution Ramsey spectroscopy. Guided by a detailed understanding of the hyperfine structure of the molecule, we tune the magnetic field to where a pair of hyperfine states have the same magnetic moment. These states form a qubit, which is insensitive to variations in magnetic field. Our experiments reveal an unexpected differential tensor light shift between the states, caused by weak mixing of rotational states. We demonstrate how this light shift can be eliminated by setting the angle between the linearly polarised trap light and the applied magnetic field to a magic angle of $\arccos{(1/\sqrt{3})}\approx55^{\circ}$. This leads to a coherence time exceeding 6.9 s (90% confidence level). Our results unlock the potential of ultracold molecules as a platform for quantum computation. | 翻訳日:2023-04-08 13:23:38 公開日:2021-03-10 |
# 強化学習エージェントの量子スピードアップ実験 Experimental quantum speed-up in reinforcement learning agents ( http://arxiv.org/abs/2103.06294v1 ) ライセンス: Link先を確認 | Valeria Saggio, Beate E. Asenbeck, Arne Hamann, Teodor Str\"omberg, Peter Schiansky, Vedran Dunjko, Nicolai Friis, Nicholas C. Harris, Michael Hochberg, Dirk Englund, Sabine W\"olk, Hans J. Briegel and Philip Walther | (参考訳) 迅速かつ効率的に学習できるアルゴリズムの需要の増加は、人工知能(AI)分野における開発の増加につながった。
AIにおける重要なパラダイムは強化学習(RL)であり、エージェントは通信チャネルを介して信号を交換することで環境と対話する。
エージェントは、得られたフィードバックに基づいて行動を更新して学習することができる。
実用的なアプリケーションにとって重要な質問は、エージェントがいかに素早く応答を学べるかである。
したがって、本質的なメリットは学習時間である。
様々な研究が量子力学を利用してエージェントの意思決定プロセスを高速化しているが、学習時間の削減はまだ実証されていない。
本稿では,エージェントの学習を環境との量子通信チャネルを利用して促進するRL実験について述べる。
さらに,古典的コミュニケーションと組み合わせることで,これらの改善の評価が可能となり,さらに学習の進捗を最適に制御できることを示す。
この新たなシナリオは、量子通信と古典通信のラウンドを交互に行うハイブリッドエージェントを考えることで実証される。
我々は,この学習プロトコルを,コンパクトで完全に調整可能な集積ナノフォトニックプロセッサ上に実装する。
デバイスは通信波長の光子とインターフェースし、高速なアクティブフィードバック機構を備えており、将来の大規模量子通信ネットワークに容易に統合できる設定でエージェントの系統的な量子アドバンテージを実証することができる。 Increasing demand for algorithms that can learn quickly and efficiently has led to a surge of development within the field of artificial intelligence (AI). An important paradigm within AI is reinforcement learning (RL), where agents interact with environments by exchanging signals via a communication channel. Agents can learn by updating their behaviour based on obtained feedback. The crucial question for practical applications is how fast agents can learn to respond correctly. An essential figure of merit is therefore the learning time. While various works have made use of quantum mechanics to speed up the agent's decision-making process, a reduction in learning time has not been demonstrated yet. Here we present a RL experiment where the learning of an agent is boosted by utilizing a quantum communication channel with the environment. We further show that the combination with classical communication enables the evaluation of such an improvement, and additionally allows for optimal control of the learning progress. This novel scenario is therefore demonstrated by considering hybrid agents, that alternate between rounds of quantum and classical communication. We implement this learning protocol on a compact and fully tunable integrated nanophotonic processor. The device interfaces with telecom-wavelength photons and features a fast active feedback mechanism, allowing us to demonstrate the agent's systematic quantum advantage in a setup that could be readily integrated within future large-scale quantum communication networks. | 翻訳日:2023-04-08 13:22:46 公開日:2021-03-10 |
# 投影モデル解析に基づく無焦点光場カメラの2段階校正法 A Two-step Calibration Method for Unfocused Light Field Camera Based on Projection Model Analysis ( http://arxiv.org/abs/2001.03734v2 ) ライセンス: Link先を確認 | Dongyang Jin, Saiping Zhang, Xiao Huo, Wei Zhang, Fuzheng Yang | (参考訳) 光界カメラの正確な校正は、その応用に不可欠である。
ここ数十年、この地域は急速な進歩を遂げてきた。
本稿では,まず,光線と画素の対応,3次元物理点と画素,および捕獲光場の3次元物理点と3次元信号構造を含む3つの表現でさらに解釈されたキャリブレーションのための画像投影モデルについて詳細な解析を行った。
解析に基づき,投影モデルのパラメータを方向パラメータセットと深さパラメータセットに分類した。
次に,各パラメータの組を扱うステップ毎に,2段階のキャリブレーション手法を提案する。
提案手法は,従来のカメラキャリブレーション手法を方向パラメータセットに再利用することができる。
深部パラメータセットの簡易生画像に基づく校正も提案されている。
提案手法の性能評価のために系統的検証を行った。
実験結果から,提案手法の精度とロバスト性は,様々なベンチマーク基準で評価された。 Accurately calibrating light field camera is essential to its applications. Rapid progress has been made in this area in the past decades. In this paper, detailed analysis was first performed towards the state of the art projection models for calibration which were further interpreted in three representations, including the correspondence between rays and pixels, 3D physical points and pixels and between 3D physical points and 3D signal structure of the captured light field. Based on the analysis, parameters in the projection model were grouped into direction parameter set and depth parameter set. A two-step calibration method was then proposed with each step dealing with each set of parameters. The proposed method is able to reuse traditional camera calibration methods for the direction parameter set. A simply raw image-based calibration of depth parameter set was further proposed. Systematic validations were conducted to evaluate the performance of the proposed calibration method. Experimental results show that the accuracy and robustness of the proposed method outperforms its counterparts under various benchmark criteria. | 翻訳日:2023-01-12 09:34:34 公開日:2021-03-10 |
# リッジ回帰のための決定論的ストリーミングスケッチ A Deterministic Streaming Sketch for Ridge Regression ( http://arxiv.org/abs/2002.02013v4 ) ライセンス: Link先を確認 | Benwei Shi and Jeff M. Phillips | (参考訳) リッジ回帰推定のための決定論的空間効率アルゴリズムを提案する。
d$機能と十分な正規化パラメータを持つn$データポイントに対して、$o(d/\varepsilon)$スペースのみを使用して、$\varepsilon$ l$_2$エラーの解を提供する。
これは最初の$o(d^2)$空間決定論的ストリーミングアルゴリズムであり、この古典的な問題に対する解誤差とリスクが保証されている。
このアルゴリズムは、共分散行列を周波数方向の変種でスケッチし、挿入専用ストリームとさまざまな分散データ設定で操作することができる。
合成および実世界のデータセット上でのランダム化されたスケッチアルゴリズムと比較すると,空間と類似時間が少なく,経験的誤差が少ない。 We provide a deterministic space-efficient algorithm for estimating ridge regression. For $n$ data points with $d$ features and a large enough regularization parameter, we provide a solution within $\varepsilon$ L$_2$ error using only $O(d/\varepsilon)$ space. This is the first $o(d^2)$ space deterministic streaming algorithm with guaranteed solution error and risk bound for this classic problem. The algorithm sketches the covariance matrix by variants of Frequent Directions, which implies it can operate in insertion-only streams and a variety of distributed data settings. In comparisons to randomized sketching algorithms on synthetic and real-world datasets, our algorithm has less empirical error using less space and similar time. | 翻訳日:2023-01-03 21:20:45 公開日:2021-03-10 |
# 自由か深さか:深ベイズニューラルネットワークは複雑な後部近似を必要としない Liberty or Depth: Deep Bayesian Neural Nets Do Not Need Complex Weight Posterior Approximations ( http://arxiv.org/abs/2002.03704v4 ) ライセンス: Link先を確認 | Sebastian Farquhar, Lewis Smith, Yarin Gal | (参考訳) ベイジアンニューラルネットワークにおける変分推論の平均場近似は厳しく制限的であり、ディープネットワークではそうではないという長年の仮定に挑戦する。
深部平均場変動重み後部は, 複雑な重み後部を有する浅部ネットワークによって引き起こされる機能空間に類似した分布を誘導できることを示す。
小型モデルにおけるハミルトニアンモンテカルロの重量と,大規模環境での対角--構造共分散を比較することにより,理論的な貢献を実証的に検証した。
複雑変分後部はしばしば高価で実装が難しいため,より深いモデルにおける平均場変分推論の使用は,構造化近似に代わる実用的かつ理論的に正当化された代替手段である可能性が示唆された。 We challenge the longstanding assumption that the mean-field approximation for variational inference in Bayesian neural networks is severely restrictive, and show this is not the case in deep networks. We prove several results indicating that deep mean-field variational weight posteriors can induce similar distributions in function-space to those induced by shallower networks with complex weight posteriors. We validate our theoretical contributions empirically, both through examination of the weight posterior using Hamiltonian Monte Carlo in small models and by comparing diagonal- to structured-covariance in large settings. Since complex variational posteriors are often expensive and cumbersome to implement, our results suggest that using mean-field variational inference in a deeper model is both a practical and theoretically justified alternative to structured approximations. | 翻訳日:2023-01-02 07:51:39 公開日:2021-03-10 |
# GraphTCN:人間の軌道予測のための時空間相互作用モデリング GraphTCN: Spatio-Temporal Interaction Modeling for Human Trajectory Prediction ( http://arxiv.org/abs/2003.07167v6 ) ライセンス: Link先を確認 | Chengxin Wang, Shaofeng Cai, Gary Tan | (参考訳) エージェントの隣人の将来の経路を正確にかつタイムリーに予測することは、衝突回避のための自律的応用の中心である。
従来のアプローチ、例えばLSTMベースのモデルでは、特に長いシーケンス予測において、予測にかなりの計算コストがかかる。
より効率的で正確な軌道予測を支援するために,空間的相互作用を社会グラフとしてモデル化し,時間的畳み込みネットワークを用いて時空間的相互作用をキャプチャする,cnnベースの空間時空間グラフフレームワークgraphtcnを提案する。
従来のモデルとは対照的に、我々のモデルの空間的および時間的モデリングは各局所時間ウィンドウ内で計算される。
したがって、非常に高い効率で並列に実行でき、一方で最高のパフォーマンスのアプローチに匹敵する精度を持つ。
実験の結果, 各種軌道予測ベンチマークデータセットにおける最先端モデルと比較して, 効率と精度の両面で良好な性能が得られることを確認した。 Predicting the future paths of an agent's neighbors accurately and in a timely manner is central to the autonomous applications for collision avoidance. Conventional approaches, e.g., LSTM-based models, take considerable computational costs in the prediction, especially for the long sequence prediction. To support more efficient and accurate trajectory predictions, we propose a novel CNN-based spatial-temporal graph framework GraphTCN, which models the spatial interactions as social graphs and captures the spatio-temporal interactions with a modified temporal convolutional network. In contrast to conventional models, both the spatial and temporal modeling of our model are computed within each local time window. Therefore, it can be executed in parallel for much higher efficiency, and meanwhile with accuracy comparable to best-performing approaches. Experimental results confirm that our model achieves better performance in terms of both efficiency and accuracy as compared with state-of-the-art models on various trajectory prediction benchmark datasets. | 翻訳日:2022-12-23 03:31:25 公開日:2021-03-10 |
# 時間的健康データから説明を生成するための枠組み A Framework for Generating Explanations from Temporal Personal Health Data ( http://arxiv.org/abs/2003.09530v2 ) ライセンス: Link先を確認 | Jonathan J. Harris, Ching-Hua Chen, Mohammed J. Zaki | (参考訳) 個人が個人の健康データ(心拍数、歩数、食品ログなど)を追跡するのが簡単になった一方で、データの収集と意味のある説明の生成の間には、利用者が自分のデータが何を意味するのかをよりよく理解するための広い亀裂がある。
データの理解度が高まると、ユーザーは新たな情報に取り組み、健康目標に近づいていくことができる。
データ収集と説明生成のギャップを埋めることを目的として,ユーザの傾向に関するヒントとなる可能性のある興味深い行動所見をマイニングする。
我々の焦点は、情報的要約テンプレート(protoforms)のセットを通じて、時間的個人的健康データの説明可能性を改善することである。
これらのプロトフォームは、ユーザが健康目標を評価するのに役立つ評価ベースのサマリーと、暗黙的な行動を説明するパターンベースのサマリーの両方にまたがる。
個々のユーザに加えて、私たちが使用するprotoformsも、人口レベルの要約用に設計されています。
本手法は,実ユーザデータから要約(不変量と多変量の両方)を生成し,興味深く有用な説明を生成できることを示す。 Whereas it has become easier for individuals to track their personal health data (e.g., heart rate, step count, food log), there is still a wide chasm between the collection of data and the generation of meaningful explanations to help users better understand what their data means to them. With an increased comprehension of their data, users will be able to act upon the newfound information and work towards striving closer to their health goals. We aim to bridge the gap between data collection and explanation generation by mining the data for interesting behavioral findings that may provide hints about a user's tendencies. Our focus is on improving the explainability of temporal personal health data via a set of informative summary templates, or "protoforms." These protoforms span both evaluation-based summaries that help users evaluate their health goals and pattern-based summaries that explain their implicit behaviors. In addition to individual users, the protoforms we use are also designed for population-level summaries. We apply our approach to generate summaries (both univariate and multivariate) from real user data and show that our system can generate interesting and useful explanations. | 翻訳日:2022-12-21 22:51:03 公開日:2021-03-10 |
# R'enyi情報測度を用いたアクティブ再帰ベイズ推定 Active recursive Bayesian inference using R\'enyi information measures ( http://arxiv.org/abs/2004.03139v2 ) ライセンス: Link先を確認 | Yeganeh M. Marghi, Aziz Kocanaogullari, Murat Akcakaya, Deniz Erdogmus | (参考訳) 再帰ベイズ推論(recursive bayesian inference, rbi)は、ストリーミングノイズ観測を伴うリアルタイム設定における最適なベイズ潜在変数推定を提供する。
アクティブRBIは、確実な決定が下されるまで、より情報的な観察につながるクエリを効果的に選択し、不確実性を迅速に減らそうとする。
しかし、一般的には推論とクエリメカニズムの最適目的が一緒に選択されない。
さらに,従来のアクティブクエリ手法は,事前情報の誤解を招くため停滞する。
本稿では,Renyi entropy と $\alpha$-divergence を通じて推論とクエリ選択を統一したアクティブな RBI フレームワークを提案する。
また,renyiエントロピーに基づく新たな目標と,その変化であるモーメントを提案する。
提案したアクティブなRBIフレームワークは、協調したアクティブなクエリと決定を特定の信頼度で提供する確率単純度の後部変化の軌跡に適用する。
特定の仮定の下では,提案手法が,ありそうにない事象の選択を許すことで,相互情報などの従来の手法を上回っていることを解析的に示す。
本稿では,レストランレコメンデーションとブレイン・コンピュータ・インタフェース(BCI)タイピングシステムの2つの応用に関する実証的および実験的性能評価を行う。 Recursive Bayesian inference (RBI) provides optimal Bayesian latent variable estimates in real-time settings with streaming noisy observations. Active RBI attempts to effectively select queries that lead to more informative observations to rapidly reduce uncertainty until a confident decision is made. However, typically the optimality objectives of inference and query mechanisms are not jointly selected. Furthermore, conventional active querying methods stagger due to misleading prior information. Motivated by information theoretic approaches, we propose an active RBI framework with unified inference and query selection steps through Renyi entropy and $\alpha$-divergence. We also propose a new objective based on Renyi entropy and its changes called Momentum that encourages exploration for misleading prior cases. The proposed active RBI framework is applied to the trajectory of the posterior changes in the probability simplex that provides a coordinated active querying and decision making with specified confidence. Under certain assumptions, we analytically demonstrate that the proposed approach outperforms conventional methods such as mutual information by allowing the selections of unlikely events. We present empirical and experimental performance evaluations on two applications: restaurant recommendation and brain-computer interface (BCI) typing systems. | 翻訳日:2022-12-15 23:40:47 公開日:2021-03-10 |
# キーワード支援トピックモデル Keyword Assisted Topic Models ( http://arxiv.org/abs/2004.05964v2 ) ライセンス: Link先を確認 | Shusei Eshima, Kosuke Imai and Tomoya Sasaki | (参考訳) 近年,その拡張性から,確率論的トピックモデルに基づく完全自動コンテンツ分析が社会科学者の間で普及している。
モデルの教師なしの性質は、事前の知識なしにコーパス内のトピックを探索するのに適している。
しかし、研究者は、これらのモデルは、しばしば不注意に類似したコンテンツを持つ複数のトピックを作成し、異なるテーマを一つのトピックに組み合わせることで、副次的関心の特定の概念を計測できないことを発見した。
本稿では,少数のキーワードを提供することで,トピックモデルの計測性能が大幅に向上することを示す。
提案したキーワードアシストトピックモデル(keyATM)の重要な利点は、キーワードの仕様が、データにモデルを適用する前にトピックをラベル付けする必要があることである。
これは、経験的発見の客観性を損なうポストホックなトピック解釈と調整の広範な実践とは対照的である。
我々のアプリケーションでは、KeyATMはより解釈可能な結果を提供し、文書分類性能が良く、標準トピックモデルよりもトピックの数に敏感でないことがわかった。
最後に、キーATMは共変量とモデル時間トレンドを組み込むこともできることを示す。
提案手法の実装にはオープンソースソフトウェアパッケージが利用できる。 In recent years, fully automated content analysis based on probabilistic topic models has become popular among social scientists because of their scalability. The unsupervised nature of the models makes them suitable for exploring topics in a corpus without prior knowledge. However, researchers find that these models often fail to measure specific concepts of substantive interest by inadvertently creating multiple topics with similar content and combining distinct themes into a single topic. In this paper, we empirically demonstrate that providing a small number of keywords can substantially enhance the measurement performance of topic models. An important advantage of the proposed keyword assisted topic model (keyATM) is that the specification of keywords requires researchers to label topics prior to fitting a model to the data. This contrasts with a widespread practice of post-hoc topic interpretation and adjustments that compromises the objectivity of empirical findings. In our application, we find that keyATM provides more interpretable results, has better document classification performance, and is less sensitive to the number of topics than the standard topic models. Finally, we show that keyATM can also incorporate covariates and model time trends. An open-source software package is available for implementing the proposed methodology. | 翻訳日:2022-12-14 00:18:11 公開日:2021-03-10 |
# 教師付きコントラスト学習 Supervised Contrastive Learning ( http://arxiv.org/abs/2004.11362v5 ) ライセンス: Link先を確認 | Prannay Khosla, Piotr Teterwak, Chen Wang, Aaron Sarna, Yonglong Tian, Phillip Isola, Aaron Maschinot, Ce Liu, Dilip Krishnan | (参考訳) 近年,自己教師あり表現学習に応用されたコントラスト学習が復活し,深層画像モデルの教師なし訓練における芸術的パフォーマンスの状態を呈している。
現代のバッチコントラストアプローチは、トリプレット、マックスマージン、Nペア損失といった従来のコントラスト損失よりもはるかに優れている。
本研究では,自己教師付きバッチコントラストアプローチを完全教師付き設定に拡張し,ラベル情報を効果的に活用する。
同じクラスに属する点のクラスタは埋め込み空間にまとめられ、同時に異なるクラスからサンプルのクラスタを分離する。
教師付きコントラスト (supcon) 損失の2つの可能なバージョンを分析し, 損失の最適定式化を同定した。
ResNet-200では、ImageNetデータセットでトップ1の精度が81.4%に達しています。
他のデータセットと2つのresnet変種に対して、クロスエントロピーよりも一貫性のあるアウトパフォーマンスを示す。
この損失は、自然腐敗に対する堅牢性の利点を示し、オプティマイザやデータ拡張といったハイパーパラメータの設定に対してより安定である。
私たちのロス関数は実装が簡単で、TensorFlowコードの参照はhttps://t.ly/supconでリリースされます。 Contrastive learning applied to self-supervised representation learning has seen a resurgence in recent years, leading to state of the art performance in the unsupervised training of deep image models. Modern batch contrastive approaches subsume or significantly outperform traditional contrastive losses such as triplet, max-margin and the N-pairs loss. In this work, we extend the self-supervised batch contrastive approach to the fully-supervised setting, allowing us to effectively leverage label information. Clusters of points belonging to the same class are pulled together in embedding space, while simultaneously pushing apart clusters of samples from different classes. We analyze two possible versions of the supervised contrastive (SupCon) loss, identifying the best-performing formulation of the loss. On ResNet-200, we achieve top-1 accuracy of 81.4% on the ImageNet dataset, which is 0.8% above the best number reported for this architecture. We show consistent outperformance over cross-entropy on other datasets and two ResNet variants. The loss shows benefits for robustness to natural corruptions and is more stable to hyperparameter settings such as optimizers and data augmentations. Our loss function is simple to implement, and reference TensorFlow code is released at https://t.ly/supcon. | 翻訳日:2022-12-10 08:53:43 公開日:2021-03-10 |
# aibench training: 業界標準のaiトレーニングベンチマーク AIBench Training: Balanced Industry-Standard AI Training Benchmarking ( http://arxiv.org/abs/2004.14690v4 ) ライセンス: Link先を確認 | Fei Tang, Wanling Gao, Jianfeng Zhan, Chuanxin Lan, Xu Wen, Lei Wang, Chunjie Luo, Jiahui Dai, Zheng Cao, Xingwang Xiong, Zihan Jiang, Tianshu Hao, Fanda Fan, Fan Zhang, Yunyou Huang, Jianan Chen, Mengjia Du, Rui Ren, Chen Zheng, Daoyi Zheng, Haoning Tang, Kunlin Zhan, Biao Wang, Defei Kong, Minghe Yu, Chongkang Tan, Huan Li, Xinhui Tian, Yatao Li, Junchao Shao, Zhenyu Wang, Xiaoyu Wang, and Hainan Ye | (参考訳) 新しいAIアーキテクチャ/システムの初期評価には、安価なベンチマークが必要だ。
MLPerfaloneのようないくつかのAIコンポーネントベンチマークのみを他の段階で使用すると、誤った結論につながる可能性がある。
さらに、学習のダイナミクスはよく理解されておらず、ベンチマークのシェルフライフは短い。
本稿では,バランスの取れたベンチマーク手法を提案する。
私たちは現実世界のベンチマークを使って、学習力学に最も大きな影響を及ぼす要因をカバーしています。
インターネットサービスAIドメインに関する徹底的な調査を行い、最先端のモデルを用いて19の代表的なAIタスクを特定し、実装する。
リピータブルなパフォーマンスランキング(RPRサブセット)とワークロード評価(WCサブセット)では、2つのサブセットを最低限に抑える。
私たちはこれまでで最も包括的なAIトレーニングベンチマークスイートに貢献しています。
The evaluations show: (1) AIBench Training (v1.1) outperforms MLPerfTraining (v0.7) in terms of diversity and representativeness of model complexity, computational cost, convergent rate, computation, and memory access patterns, and hotspot functions; (2) Against the AIBench full benchmarks, its RPR subset shortens the benchmarking cost by 64%, while maintaining the primary workload characteristics; (3) The performance ranking shows the single-purpose AI accelerator like TPU with the optimized TensorFlowframework performs better than that of GPUs while losing the latter's general support for various AI models.
仕様、ソースコード、パフォーマンス番号はAIBenchのホームページ https://www.benchcouncil.org/aibench-training/index.htmlから入手できる。 Earlier-stage evaluations of a new AI architecture/system need affordable benchmarks. Only using a few AI component benchmarks like MLPerfalone in the other stages may lead to misleading conclusions. Moreover, the learning dynamics are not well understood, and the benchmarks' shelf-life is short. This paper proposes a balanced benchmarking methodology. We use real-world benchmarks to cover the factors space that impacts the learning dynamics to the most considerable extent. After performing an exhaustive survey on Internet service AI domains, we identify and implement nineteen representative AI tasks with state-of-the-art models. For repeatable performance ranking (RPR subset) and workload characterization (WC subset), we keep two subsets to a minimum for affordability. We contribute by far the most comprehensive AI training benchmark suite. The evaluations show: (1) AIBench Training (v1.1) outperforms MLPerfTraining (v0.7) in terms of diversity and representativeness of model complexity, computational cost, convergent rate, computation, and memory access patterns, and hotspot functions; (2) Against the AIBench full benchmarks, its RPR subset shortens the benchmarking cost by 64%, while maintaining the primary workload characteristics; (3) The performance ranking shows the single-purpose AI accelerator like TPU with the optimized TensorFlowframework performs better than that of GPUs while losing the latter's general support for various AI models. The specification, source code, and performance numbers are available from the AIBench homepage https://www.benchcouncil.org/aibench-training/index.html. | 翻訳日:2022-12-08 03:21:59 公開日:2021-03-10 |
# 等尺変換不変量および等変グラフ畳み込みネットワーク Isometric Transformation Invariant and Equivariant Graph Convolutional Networks ( http://arxiv.org/abs/2005.06316v4 ) ライセンス: Link先を確認 | Masanobu Horie, Naoki Morita, Toshiaki Hishinuma, Yu Ihara, Naoto Mitsume | (参考訳) グラフはオブジェクト間の対関係を表現する上で最も重要なデータ構造の1つである。
特に、ユークリッド空間に埋め込まれたグラフは、物理シミュレーションのような実問題を解くのに不可欠である。
ユークリッド空間のグラフを物理シミュレーションに適用するための重要な要件は、等方変換不変性と同変特徴を計算効率良く学習し推論することである。
本稿では、グラフ畳み込みネットワークに基づく変換不変量および同変モデルの集合isogcnsを提案する。
提案モデルは,幾何学的および物理シミュレーションデータに関連するタスクの最先端手法と比較して,競争力のある性能を示す。
さらに,提案モデルは1m頂点を持つグラフまでスケールアップでき,既存の同変モデルでは達成できない従来の有限要素解析よりも高速に推論を行うことができる。 Graphs are one of the most important data structures for representing pairwise relations between objects. Specifically, a graph embedded in a Euclidean space is essential to solving real problems, such as physical simulations. A crucial requirement for applying graphs in Euclidean spaces to physical simulations is learning and inferring the isometric transformation invariant and equivariant features in a computationally efficient manner. In this paper, we propose a set of transformation invariant and equivariant models based on graph convolutional networks, called IsoGCNs. We demonstrate that the proposed model has a competitive performance compared to state-of-the-art methods on tasks related to geometrical and physical simulation data. Moreover, the proposed model can scale up to graphs with 1M vertices and conduct an inference faster than a conventional finite element analysis, which the existing equivariant models cannot achieve. | 翻訳日:2022-12-03 10:15:29 公開日:2021-03-10 |
# ベイズ型深層学習に基づく半教師付き領域適応手法による土地被覆マッピング A Bayesian-inspired, deep learning-based, semi-supervised domain adaptation technique for land cover mapping ( http://arxiv.org/abs/2005.11930v2 ) ライセンス: Link先を確認 | Benjamin Lucas, Charlotte Pelletier, Daniel Schmidt, Geoffrey I. Webb, and Fran\c{c}ois Petitjean | (参考訳) 土地被覆地図は多くの種類の環境研究・管理において重要な入力変数である。
機械学習技術によって自動生成されるが、これらの技術は高いレベルの精度を達成するために十分なトレーニングデータを必要とする。
ラベル付きトレーニングデータが不足している場合、研究者が使用するテクニックはドメイン適応(da)で、ソースドメインと呼ばれる別の領域のデータを使用して分類器をトレーニングし、このモデルを使用して学習領域や対象ドメインをマップする。
本論文のシナリオは半教師付きDAと呼ばれ,いくつかのラベル付きサンプルが対象ドメインで利用可能である。
本稿では,ベイズにインスパイアされた深層学習に基づく半教師付きDA技術であるSourcererを紹介し,SITSデータから土地被覆地図を作成する。
このテクニックは、ソースドメインでトレーニングされた畳み込みニューラルネットワークを使用し、モデルウェイトに新しい正規化器を適用することで、利用可能なターゲットドメインでさらにトレーニングを行う。
正規化器は、ターゲットデータに適合するようにモデルが修正された度合いを調整し、ターゲットデータが少ない場合に変化の度合いを制限し、ターゲットデータ量が増加するにつれて増加させる。
Sentinel-2 時系列画像に対する実験は、Sourcerer と最先端の2つの半教師付きドメイン適応技術と4つのベースラインモデルを比較した。
我々は、異なる2つのソースターゲットドメインペアリングにおいて、Sourcererが利用可能なラベル付きターゲットデータに対して、他のすべてのメソッドより優れていることを示す。
実際、より難しいターゲットドメインでの結果は、(ラベル付きターゲットデータがない場合)sourcererの開始精度が20,000のラベル付きターゲットインスタンスでトレーニングされた次の最先端のメソッドよりも大きいことを示している。 Land cover maps are a vital input variable to many types of environmental research and management. While they can be produced automatically by machine learning techniques, these techniques require substantial training data to achieve high levels of accuracy, which are not always available. One technique researchers use when labelled training data are scarce is domain adaptation (DA) -- where data from an alternate region, known as the source domain, are used to train a classifier and this model is adapted to map the study region, or target domain. The scenario we address in this paper is known as semi-supervised DA, where some labelled samples are available in the target domain. In this paper we present Sourcerer, a Bayesian-inspired, deep learning-based, semi-supervised DA technique for producing land cover maps from SITS data. The technique takes a convolutional neural network trained on a source domain and then trains further on the available target domain with a novel regularizer applied to the model weights. The regularizer adjusts the degree to which the model is modified to fit the target data, limiting the degree of change when the target data are few in number and increasing it as target data quantity increases. Our experiments on Sentinel-2 time series images compare Sourcerer with two state-of-the-art semi-supervised domain adaptation techniques and four baseline models. We show that on two different source-target domain pairings Sourcerer outperforms all other methods for any quantity of labelled target data available. In fact, the results on the more difficult target domain show that the starting accuracy of Sourcerer (when no labelled target data are available), 74.2%, is greater than the next-best state-of-the-art method trained on 20,000 labelled target instances. | 翻訳日:2022-11-29 05:11:10 公開日:2021-03-10 |
# toan: 少ないラベル付きサンプルで細粒度画像分類を行うターゲット指向アライメントネットワーク TOAN: Target-Oriented Alignment Network for Fine-Grained Image Categorization with Few Labeled Samples ( http://arxiv.org/abs/2005.13820v2 ) ライセンス: Link先を確認 | Huaxi Huang, Junjie Zhang, Jian Zhang, Qiang Wu, Chang Xu | (参考訳) FGFS(Few-Shot set)の下での細粒度視覚分類におけるクラス内偏差の増大とクラス間ゆらぎの低さの課題は、少ないラベル付きサンプルでより深刻である。
高次特徴は、FGFSのサブカテゴリ間の微妙な差異を明らかにするために通常開発されるが、高いクラス内分散を扱うには効果が低い。
本稿では,対象とする問合せ画像と支援クラスとのきめ細かな関係を調べるための目標指向アライメントネットワーク(toan)を提案する。
各サポート画像の特徴は、埋め込み特徴空間内のクエリ特徴と一致するように変換され、各カテゴリ内での差異を明示的に低減する。
さらに, 従来のFGFSアプローチと異なり, 大域的画像上の高次特徴を識別的部分の明確な考慮なく考案し, 合成概念表現をグローバルな2次プールに組み込むことにより, 識別的細粒度特徴を生成する。
最先端モデルと比較して,TOANの有効性を示すために,4つのきめ細かいベンチマーク実験を行った。 The challenges of high intra-class variance yet low inter-class fluctuations in fine-grained visual categorization are more severe with few labeled samples, \textit{i.e.,} Fine-Grained categorization problems under the Few-Shot setting (FGFS). High-order features are usually developed to uncover subtle differences between sub-categories in FGFS, but they are less effective in handling the high intra-class variance. In this paper, we propose a Target-Oriented Alignment Network (TOAN) to investigate the fine-grained relation between the target query image and support classes. The feature of each support image is transformed to match the query ones in the embedding feature space, which reduces the disparity explicitly within each category. Moreover, different from existing FGFS approaches devise the high-order features over the global image with less explicit consideration of discriminative parts, we generate discriminative fine-grained features by integrating compositional concept representations to global second-order pooling. Extensive experiments are conducted on four fine-grained benchmarks to demonstrate the effectiveness of TOAN compared with the state-of-the-art models. | 翻訳日:2022-11-27 05:19:59 公開日:2021-03-10 |
# モデル木を伴うベイズ加法回帰木 Bayesian Additive Regression Trees with Model Trees ( http://arxiv.org/abs/2006.07493v5 ) ライセンス: Link先を確認 | Estev\~ao B. Prado, Rafael A. Moral and Andrew C. Parnell | (参考訳) Bayesian Additive Regression Trees (BART)は木に基づく機械学習手法であり、回帰問題や分類問題にうまく適用されている。
BARTは、弱い学習者として機能し、非線形および高次相互作用の存在を予測するために非常に柔軟である一連の木に規則化の優先順位を仮定する。
本稿では,モデルツリーBART(MOTR-BART)と呼ばれるBARTの拡張について紹介する。
MOTR-BARTでは、予測のためのノードレベルでのユニークな値ではなく、対応する木の分割変数として使用される共変量を考慮した線形予測器が推定される。
提案手法では, 局所的線形性はBARTよりも効率的に取得でき, BARTと同等以上の性能を達成するためには, 木を少なくする必要がある。
シミュレーション研究と実データ応用により,MOTR-BARTを主な競合相手と比較する。
MOTR-BART実装のRコードはhttps://github.com/ebprado/MOTR-BARTで公開されている。 Bayesian Additive Regression Trees (BART) is a tree-based machine learning method that has been successfully applied to regression and classification problems. BART assumes regularisation priors on a set of trees that work as weak learners and is very flexible for predicting in the presence of non-linearity and high-order interactions. In this paper, we introduce an extension of BART, called Model Trees BART (MOTR-BART), that considers piecewise linear functions at node levels instead of piecewise constants. In MOTR-BART, rather than having a unique value at node level for the prediction, a linear predictor is estimated considering the covariates that have been used as the split variables in the corresponding tree. In our approach, local linearities are captured more efficiently and fewer trees are required to achieve equal or better performance than BART. Via simulation studies and real data applications, we compare MOTR-BART to its main competitors. R code for MOTR-BART implementation is available at https://github.com/ebprado/MOTR-BART. | 翻訳日:2022-11-22 03:06:58 公開日:2021-03-10 |
# 繰り返しニューラルネットワークにおける連続学習 Continual Learning in Recurrent Neural Networks ( http://arxiv.org/abs/2006.12109v3 ) ライセンス: Link先を確認 | Benjamin Ehret, Christian Henning, Maria R. Cervera, Alexander Meulemans, Johannes von Oswald, Benjamin F. Grewe | (参考訳) 破滅的な忘れを抑えるために多種多様な連続学習法(CL)が提案されているが、繰り返しニューラルネットワーク(RNN)を用いたシーケンシャルデータ処理の有効性について、徹底的に検討されている。
本稿では,さまざまな逐次データベンチマークを用いて,確立されたCL手法の総合評価を行う。
具体的には、RNNに弾性重み強化などの重み重要度法を適用する際に生じる特異性について光を当てた。
フィードフォワードネットワークとは対照的に、RNNは共有重みの集合を反復的に再利用し、入力サンプルを処理するために作業メモリを必要とする。
重み付与手法の性能は, 処理シーケンスの長さに直接影響するものではなく, 高い作業メモリ要求によって直接影響を受けることを示し, その後のタスクを学習するための可塑性の低下による安定性の必要性が高まることを示した。
さらに、線形rnnの研究により、この解釈を支持する理論的議論を提供する。
本研究は, 確立したCL法を再帰的に移植できることを示すとともに, ハイパーネットワークスに基づく最近の正規化手法は, 重量重み付け法よりも優れており, RNNにおけるCLの有望な候補として浮上していることを示す。
全体として、フィードフォワードネットワークとRNNにおけるCLの差異に関する洞察を提供するとともに、逐次データにおけるCLに取り組む効果的なソリューションへと導く。 While a diverse collection of continual learning (CL) methods has been proposed to prevent catastrophic forgetting, a thorough investigation of their effectiveness for processing sequential data with recurrent neural networks (RNNs) is lacking. Here, we provide the first comprehensive evaluation of established CL methods on a variety of sequential data benchmarks. Specifically, we shed light on the particularities that arise when applying weight-importance methods, such as elastic weight consolidation, to RNNs. In contrast to feedforward networks, RNNs iteratively reuse a shared set of weights and require working memory to process input samples. We show that the performance of weight-importance methods is not directly affected by the length of the processed sequences, but rather by high working memory requirements, which lead to an increased need for stability at the cost of decreased plasticity for learning subsequent tasks. We additionally provide theoretical arguments supporting this interpretation by studying linear RNNs. Our study shows that established CL methods can be successfully ported to the recurrent case, and that a recent regularization approach based on hypernetworks outperforms weight-importance methods, thus emerging as a promising candidate for CL in RNNs. Overall, we provide insights on the differences between CL in feedforward networks and RNNs, while guiding towards effective solutions to tackle CL on sequential data. | 翻訳日:2022-11-18 04:54:42 公開日:2021-03-10 |
# 検証可能な可逆的分布データのロバスト検出 Certifiably Adversarially Robust Detection of Out-of-Distribution Data ( http://arxiv.org/abs/2007.08473v3 ) ライセンス: Link先を確認 | Julian Bitterwolf, Alexander Meinke and Matthias Hein | (参考訳) ディープニューラルネットワークは、明らかにどのクラスに属しないout-of-distribution(ood)入力に適用すると、自信過剰であることが知られている。
分類器の不確かさの信頼性評価が重要な特性であり、システムが人間の介入を誘発したり、安全な状態に移行したりすることができるため、安全クリティカルなアプリケーションではこれは問題となる。
本稿では,OOD点の信頼度を低くするだけでなく,その周辺の$l_\infty$-ballにも適用することで,OOD検出の証明可能な最悪のケースを保証することを目的とする。
この目的のために、$l_\infty$-ball の最大信頼度を上限とし、トレーニング中にこの上限を最小化するために interval bound propagation (ipp) を用いる。
トレーニング時に見られるOODデータセットを超えて一般化されたOODデータの信頼性の非自明な境界が可能であることを示す。
さらに、予測性能が著しく低下する証明された敵の堅牢性とは対照的に、最悪の場合のOOD検出は精度に大きな損失を伴わずに可能である。 Deep neural networks are known to be overconfident when applied to out-of-distribution (OOD) inputs which clearly do not belong to any class. This is a problem in safety-critical applications since a reliable assessment of the uncertainty of a classifier is a key property, allowing the system to trigger human intervention or to transfer into a safe state. In this paper, we aim for certifiable worst case guarantees for OOD detection by enforcing not only low confidence at the OOD point but also in an $l_\infty$-ball around it. For this purpose, we use interval bound propagation (IBP) to upper bound the maximal confidence in the $l_\infty$-ball and minimize this upper bound during training time. We show that non-trivial bounds on the confidence for OOD data generalizing beyond the OOD dataset seen at training time are possible. Moreover, in contrast to certified adversarial robustness which typically comes with significant loss in prediction performance, certified guarantees for worst case OOD detection are possible without much loss in accuracy. | 翻訳日:2022-11-09 21:55:43 公開日:2021-03-10 |
# 楽しみと利益のためのトロイの木馬言語モデル Trojaning Language Models for Fun and Profit ( http://arxiv.org/abs/2008.00312v2 ) ライセンス: Link先を確認 | Xinyang Zhang, Zheng Zhang, Shouling Ji and Ting Wang | (参考訳) 近年、自然言語処理(NLP)システム構築の新しいパラダイムが出現している。汎用、事前訓練された言語モデル(LM)は、単純な下流モデルで構成され、様々なNLPタスクのために微調整されている。
このパラダイムシフトは、システム開発サイクルを大幅に単純化します。
しかし、多くのlmmが信頼できない第三者によって提供されているため、標準化や規制の欠如は重大なセキュリティ上の影響を伴う。
このギャップを埋めるために、悪質なLMがNLPシステムにもたらすセキュリティ脅威を研究する。
特にTROJAN-LMは、悪質に製作されたLMがホストNLPシステムを高度に予測可能な方法で故障させる新しい種類のトロイの木馬攻撃である。
3つの最先端のLM(BERT, GPT-2, XLNet)のセキュリティクリティカルなNLPタスク(有毒なコメント検出, 質問応答, テキスト補完)とクラウドソーシングプラットフォームに関するユーザスタディを実証的に研究することにより, TROJAN-LMが次のような特性を持っていることを示す。
(i)柔軟性 - 敵は任意の単語の論理的な組み合わせ(例えば、'and'、'or'、'xor')をトリガーとして柔軟に無効にすることができる。
(ii) 有効性 - トリガー埋め込み入力が存在する場合、相手が望んでいたようにホストシステムは高い確率で誤動作する。
(iii)特異性 - トロイの木馬のlmsは、清潔な入力に対する良質な機能とは区別がつかない機能であり、
(iv)フルエンシー(fluency) - トリガー埋め込みされた入力は、流れる自然言語として見え、周囲の状況と非常に関連がある。
我々は,TROJAN-LMの実用性に関する分析的正当性を提供し,その可能性とその課題についてさらに議論する。 Recent years have witnessed the emergence of a new paradigm of building natural language processing (NLP) systems: general-purpose, pre-trained language models (LMs) are composed with simple downstream models and fine-tuned for a variety of NLP tasks. This paradigm shift significantly simplifies the system development cycles. However, as many LMs are provided by untrusted third parties, their lack of standardization or regulation entails profound security implications, which are largely unexplored. To bridge this gap, this work studies the security threats posed by malicious LMs to NLP systems. Specifically, we present TROJAN-LM, a new class of trojaning attacks in which maliciously crafted LMs trigger host NLP systems to malfunction in a highly predictable manner. By empirically studying three state-of-the-art LMs (BERT, GPT-2, XLNet) in a range of security-critical NLP tasks (toxic comment detection, question answering, text completion) as well as user studies on crowdsourcing platforms, we demonstrate that TROJAN-LM possesses the following properties: (i) flexibility - the adversary is able to flexibly dene logical combinations (e.g., 'and', 'or', 'xor') of arbitrary words as triggers, (ii) efficacy - the host systems misbehave as desired by the adversary with high probability when trigger-embedded inputs are present, (iii) specificity - the trojan LMs function indistinguishably from their benign counterparts on clean inputs, and (iv) fluency - the trigger-embedded inputs appear as fluent natural language and highly relevant to their surrounding contexts. We provide analytical justification for the practicality of TROJAN-LM, and further discuss potential countermeasures and their challenges, which lead to several promising research directions. | 翻訳日:2022-11-04 00:29:48 公開日:2021-03-10 |
# インバータブルニューラルネットワークによるmrフィンガープリントの学習ブロックシミュレーション Learning Bloch Simulations for MR Fingerprinting by Invertible Neural Networks ( http://arxiv.org/abs/2008.04139v2 ) ライセンス: Link先を確認 | Fabian Balsiger, Alain Jungo, Olivier Scheidegger, Benjamin Marty, Mauricio Reyes | (参考訳) MRF(MR resonance fingerprinting)は、高速かつマルチパラメトリックなMRイメージングを可能にする。
高速な取得にもかかわらず、辞書マッチングに基づくMDFの最先端の再構築は遅く、スケーラビリティに欠ける。
これらの制限を克服するため、ニューラルネットワーク(NN)は近年、指紋からMRパラメータを推定する手法が提案されている。
そこで我々は,NNベースのMRF再構成を見直し,MRパラメータから指紋への前方処理と,指紋からMRパラメータへの後方処理を,可逆ニューラルネットワーク(INN)を活用して共同で学習する。
概念実証として,より優れたMRパラメータ推定のための前方過程,すなわちBlochシミュレーションの利点を示す様々な実験を行った。
この利点はMRパラメータ推定が困難である場合に特に強調される。
したがって、IMN は現在の MRF 再構築のための後方ベースNN の代替となる可能性がある。 Magnetic resonance fingerprinting (MRF) enables fast and multiparametric MR imaging. Despite fast acquisition, the state-of-the-art reconstruction of MRF based on dictionary matching is slow and lacks scalability. To overcome these limitations, neural network (NN) approaches estimating MR parameters from fingerprints have been proposed recently. Here, we revisit NN-based MRF reconstruction to jointly learn the forward process from MR parameters to fingerprints and the backward process from fingerprints to MR parameters by leveraging invertible neural networks (INNs). As a proof-of-concept, we perform various experiments showing the benefit of learning the forward process, i.e., the Bloch simulations, for improved MR parameter estimation. The benefit especially accentuates when MR parameter estimation is difficult due to MR physical restrictions. Therefore, INNs might be a feasible alternative to the current solely backward-based NNs for MRF reconstruction. | 翻訳日:2022-10-31 23:21:11 公開日:2021-03-10 |
# AutoKG: 質問応答のための構造化されていないドキュメントから仮想知識グラフを構築する AutoKG: Constructing Virtual Knowledge Graphs from Unstructured Documents for Question Answering ( http://arxiv.org/abs/2008.08995v2 ) ライセンス: Link先を確認 | Seunghak Yu, Tianxing He, James Glass | (参考訳) 知識グラフ(KG)は、質問応答システムにきめ細かい詳細を提供する利点がある。
残念なことに、信頼できるKGの構築には時間と費用がかかる。
そこで本稿では,外部アライメントを必要としない非構造化文書からKGを自動的に構築するフレームワークを提案する。
まず,非構造化文書から表層的な知識タプルを抽出し,文脈情報でエンコードする。
同様のコンテキスト意味を持つエンティティは、内部アライメントを通してリンクされ、グラフ構造を形成する。
これにより、生成したkgを手動プロセスなしで横断することで、複数の文書から所望の情報を抽出することができる。
WikiMoviesとMetaQAのデータセットをタプルレベルの検索タスクに書き換えることで,検索に基づくQAシステムの性能を評価する。
実験の結果,提案手法は従来の検索手法よりも高い性能を示した。 Knowledge graphs (KGs) have the advantage of providing fine-grained detail for question-answering systems. Unfortunately, building a reliable KG is time-consuming and expensive as it requires human intervention. To overcome this issue, we propose a novel framework to automatically construct a KG from unstructured documents that does not require external alignment. We first extract surface-form knowledge tuples from unstructured documents and encode them with contextual information. Entities with similar context semantics are then linked through internal alignment to form a graph structure. This allows us to extract the desired information from multiple documents by traversing the generated KG without a manual process. We examine its performance in retrieval based QA systems by reformulating the WikiMovies and MetaQA datasets into a tuple-level retrieval task. The experimental results show that our method outperforms traditional retrieval methods by a large margin. | 翻訳日:2022-10-27 03:32:31 公開日:2021-03-10 |
# OpenBot:スマートフォンをロボットに変える OpenBot: Turning Smartphones into Robots ( http://arxiv.org/abs/2008.10631v2 ) ライセンス: Link先を確認 | Matthias M\"uller, Vladlen Koltun | (参考訳) 現在のロボットは高価か、感覚豊かさ、計算能力、通信能力に重大な妥協をもたらす。
我々は,スマートフォンを利用してロボットに広範なセンサスイート,強力な計算能力,最先端の通信チャネル,繁栄するソフトウェアエコシステムへのアクセスを提供する。
われわれは50ドルの小型電気自動車を設計し、標準のAndroidスマートフォンのロボットボディとして機能する。
我々は,スマートフォンがこの身体を移動操作に使用できるソフトウェアスタックを開発し,そのシステムが人追従や非構造化環境でのリアルタイム自律ナビゲーションといった高度なロボット作業をサポートするのに十分強力であることを実証する。
制御された実験は、提示されたアプローチがさまざまなスマートフォンとロボットボディで堅牢であることを実証する。
私たちの作品のビデオはhttps://www.youtube.com/watch?
v=qc8hFLyWDOM Current robots are either expensive or make significant compromises on sensory richness, computational power, and communication capabilities. We propose to leverage smartphones to equip robots with extensive sensor suites, powerful computational abilities, state-of-the-art communication channels, and access to a thriving software ecosystem. We design a small electric vehicle that costs $50 and serves as a robot body for standard Android smartphones. We develop a software stack that allows smartphones to use this body for mobile operation and demonstrate that the system is sufficiently powerful to support advanced robotics workloads such as person following and real-time autonomous navigation in unstructured environments. Controlled experiments demonstrate that the presented approach is robust across different smartphones and robot bodies. A video of our work is available at https://www.youtube.com/watch?v=qc8hFLyWDOM | 翻訳日:2022-10-25 11:51:33 公開日:2021-03-10 |
# 因子MDPの効率的な強化学習と制約付きRLへの応用 Efficient Reinforcement Learning in Factored MDPs with Application to Constrained RL ( http://arxiv.org/abs/2008.13319v3 ) ライセンス: Link先を確認 | Xiaoyu Chen, Jiachen Hu, Lihong Li, Liwei Wang | (参考訳) マルコフ決定過程(FMDP)における強化学習(RL)について検討した。
本稿では,FMDPの分解構造を利用したFMDP-BFアルゴリズムを提案する。
fmdp-bfの後悔は、非分解mdp向けに設計された最適アルゴリズムよりも指数関数的に小さいことが示され、fmdps~\citep{osband2014near} に対して、$\sqrt{h|\mathcal{s}_i|}$ の因子で、$|\mathcal{s}_i|$ は分解された状態部分空間の濃度であり、$h$ は計画地平線である。
境界の最適性を示すために、fmdp の下限も提供し、これは我々のアルゴリズムがほぼ最適の w.r.t. 時間ステップ $t$, horizon $h$, factored state-action subspace cardinality であることを示している。
最後に,knapsack 制約付き RL (RLwK) と呼ばれる制約付き RL の新たな定式化について検討し,FMDP-BF に基づく最初のサンプル効率アルゴリズムを提供する。 Reinforcement learning (RL) in episodic, factored Markov decision processes (FMDPs) is studied. We propose an algorithm called FMDP-BF, which leverages the factorization structure of FMDP. The regret of FMDP-BF is shown to be exponentially smaller than that of optimal algorithms designed for non-factored MDPs, and improves on the best previous result for FMDPs~\citep{osband2014near} by a factored of $\sqrt{H|\mathcal{S}_i|}$, where $|\mathcal{S}_i|$ is the cardinality of the factored state subspace and $H$ is the planning horizon. To show the optimality of our bounds, we also provide a lower bound for FMDP, which indicates that our algorithm is near-optimal w.r.t. timestep $T$, horizon $H$ and factored state-action subspace cardinality. Finally, as an application, we study a new formulation of constrained RL, known as RL with knapsack constraints (RLwK), and provides the first sample-efficient algorithm based on FMDP-BF. | 翻訳日:2022-10-23 06:33:30 公開日:2021-03-10 |
# Ref-NMS:2段階参照表現接地におけるボトルネックの破断提案 Ref-NMS: Breaking Proposal Bottlenecks in Two-Stage Referring Expression Grounding ( http://arxiv.org/abs/2009.01449v3 ) ライセンス: Link先を確認 | Long Chen, Wenbo Ma, Jun Xiao, Hanwang Zhang, Shih-Fu Chang | (参考訳) 参照式基底を解くための一般的なフレームワークは、以下の2段階のプロセスに基づいている。
1)対象検出器による提案の検出及び
2) 提案の1つへのレファレンスを接頭辞する。
既存の2段階のソリューションは主に、提案と表現の整合性を目的とした、基礎的なステップに重点を置いている。
本稿では,この2つの段階における提案の役割間の明らかなミスマッチを見落としている。提案は,検出信頼度(式非依存)のみに基づいて提案を生成し,提案が表現のすべての正しいインスタンス(式認識)を含むことを期待する。
このミスマッチにより、現在の2段階の手法は、検出された提案と接地された提案の間で厳しい性能低下に苦しむ。
この目的のために,表現認識型提案を第1段階で生成する最初の手法であるRef-NMSを提案する。
ref-nmsは式中のすべての名詞をクリティカルオブジェクトとみなし、各ボックスをクリティカルオブジェクトにアライメントするためのスコアを予測する軽量モジュールを導入している。
これらのスコアは、NMS操作を誘導して、表現に関係なくボックスをフィルタリングし、クリティカルオブジェクトのリコールを増加させ、グラウンド性能を大幅に改善する。
Ref-NMSは接地ステップに依存しないため、最先端の2段階法に容易に組み込むことができる。
いくつかのバックボーン、ベンチマーク、タスクに関する大規模なアブレーション研究は、一貫してRef-NMSの優位性を示している。
コードはhttps://github.com/chopinsharp/ref-nms。 The prevailing framework for solving referring expression grounding is based on a two-stage process: 1) detecting proposals with an object detector and 2) grounding the referent to one of the proposals. Existing two-stage solutions mostly focus on the grounding step, which aims to align the expressions with the proposals. In this paper, we argue that these methods overlook an obvious mismatch between the roles of proposals in the two stages: they generate proposals solely based on the detection confidence (i.e., expression-agnostic), hoping that the proposals contain all right instances in the expression (i.e., expression-aware). Due to this mismatch, current two-stage methods suffer from a severe performance drop between detected and ground-truth proposals. To this end, we propose Ref-NMS, which is the first method to yield expression-aware proposals at the first stage. Ref-NMS regards all nouns in the expression as critical objects, and introduces a lightweight module to predict a score for aligning each box with a critical object. These scores can guide the NMS operation to filter out the boxes irrelevant to the expression, increasing the recall of critical objects, resulting in a significantly improved grounding performance. Since Ref- NMS is agnostic to the grounding step, it can be easily integrated into any state-of-the-art two-stage method. Extensive ablation studies on several backbones, benchmarks, and tasks consistently demonstrate the superiority of Ref-NMS. Codes are available at: https://github.com/ChopinSharp/ref-nms. | 翻訳日:2022-10-22 06:51:18 公開日:2021-03-10 |
# 汎用ハードウェアと専用ハードウェアを用いたキーワードスポッティングのためのハードウェアアウェアネストレーニング Hardware Aware Training for Efficient Keyword Spotting on General Purpose and Specialized Hardware ( http://arxiv.org/abs/2009.04465v3 ) ライセンス: Link先を確認 | Peter Blouw, Gurshaant Malik, Benjamin Morcos, Aaron R. Voelker, and Chris Eliasmith | (参考訳) キーワードスポッティング(kws)は、携帯電話、ウェアラブル、車など、多くのモバイルおよびエッジアプリケーションにとって重要なユーザインターフェースを提供する。
KWSシステムは通常「常時オン」であるので、精度と電力効率の最大化は実用性の中心である。
本研究では,ハードウェアアウェアネストレーニング(hat)を使用して,lmu(legendre memory unit)に基づいた新たなkwsニューラルネットワークを構築し,最先端(sota)精度とパラメータ数を削減した。
これにより、ニューラルネットワークは標準ハードウェア(212$\mu$W)上で効率的に動作することができる。
また、SotA電力効率8.79$\mu$Wを実現し、汎用低消費電力ハードウェア(マイクロコントローラ)を24倍、特別目的ASICを16倍に高めるカスタム設計のアクセラレータハードウェアの電力要求を特徴付ける。 Keyword spotting (KWS) provides a critical user interface for many mobile and edge applications, including phones, wearables, and cars. As KWS systems are typically 'always on', maximizing both accuracy and power efficiency are central to their utility. In this work we use hardware aware training (HAT) to build new KWS neural networks based on the Legendre Memory Unit (LMU) that achieve state-of-the-art (SotA) accuracy and low parameter counts. This allows the neural network to run efficiently on standard hardware (212$\mu$W). We also characterize the power requirements of custom designed accelerator hardware that achieves SotA power efficiency of 8.79$\mu$W, beating general purpose low power hardware (a microcontroller) by 24x and special purpose ASICs by 16x. | 翻訳日:2022-10-20 11:40:48 公開日:2021-03-10 |
# マルチスペクトルCTにおけるマルチチャネルポッツを用いた再構成 Multi-Channel Potts-Based Reconstruction for Multi-Spectral Computed Tomography ( http://arxiv.org/abs/2009.05814v2 ) ライセンス: Link先を確認 | Lukas Kiefer, Stefania Petra, Martin Storath, Andreas Weinmann | (参考訳) マルチスペクトルX線CT(Multi-spectral X-ray Computed Tomography)の設定において、光子計数とエネルギー識別検出器による計測からマルチチャネル画像の再構成を検討する。
本研究の目的は,マルチスペクトルCT画像のチャネル間に存在することが知られている強い構造相関を利用することである。
そこで我々は,全チャネルを共同で再構築する前に,マルチチャネルポットを採用する。
この前者は、強い相関チャネルを持つ断片的定数解を生成する。
特にエッジは、テレビベースの方法よりも有利なチャンネル間で同じ空間的位置を持つように強制される。
Pottsは2つのフレームワークで事前に検討しています。
(a)変分ポッツモデルの文脈における、及び
(b)基本的な反復的最小二乗解法のイテレートを摂動するポッツ重ね合わせアプローチ。
乗算器 (ADMM) アプローチの交互方向法と Potts-superiorized conjugate gradient method を特に好適に同定する。
数値実験では,Pottsの従来手法と既存のテレビ方式のマルチスペクトルCTデータとの比較を行い,複合固体の再現性を向上した。 We consider reconstructing multi-channel images from measurements performed by photon-counting and energy-discriminating detectors in the setting of multi-spectral X-ray computed tomography (CT). Our aim is to exploit the strong structural correlation that is known to exist between the channels of multi-spectral CT images. To that end, we adopt the multi-channel Potts prior to jointly reconstruct all channels. This prior produces piecewise constant solutions with strongly correlated channels. In particular, edges are enforced to have the same spatial position across channels which is a benefit over TV-based methods. We consider the Potts prior in two frameworks: (a) in the context of a variational Potts model, and (b) in a Potts-superiorization approach that perturbs the iterates of a basic iterative least squares solver. We identify an alternating direction method of multipliers (ADMM) approach as well as a Potts-superiorized conjugate gradient method as particularly suitable. In numerical experiments, we compare the Potts prior based approaches to existing TV-type approaches on realistically simulated multi-spectral CT data and obtain improved reconstruction for compound solid bodies. | 翻訳日:2022-10-19 08:23:53 公開日:2021-03-10 |
# 確率遅延を用いた非同期分散最適化 Asynchronous Distributed Optimization with Stochastic Delays ( http://arxiv.org/abs/2009.10717v3 ) ライセンス: Link先を確認 | Margalit Glasgow, Mary Wootters | (参考訳) 中央パラメータサーバを用いた分散データ設定における非同期有限和最小化について検討する。
非同期性は、データがすべてのマシンでアクセス可能な並列環境ではよく理解されている — 例えば、sagaのような分散縮小勾配アルゴリズムの変更はうまく機能する — 分散データ設定では、ほとんど知られていない。
分散データ設定のためのSAGAに基づくアルゴリズムADSAGAを開発し、多くのマシン間でデータを分割する。
m$マシンの場合、$m$の平均遅延は$m$で、ADSAGAは$\tilde{O}\left(\left(n + \sqrt{m}\kappa\right)\log(1/\epsilon)\right)$イテレーション、$n$はコンポーネント関数の数であり、$\kappa$は条件数である。
この複雑さは、複雑さ $\tilde{O}\left(\left(n + \kappa\right)\log(1/\epsilon)\right)$ of SAGA \textit{without delays} と複雑性 $\tilde{O}\left(\left(n + m\kappa\right)\log(1/\epsilon)\right)$ of parallel asynchronous algorithm ここでは遅延が \textit{arbitrary} ($O(m)$で束縛されている)であり、データは全アクセス可能である。
分散データ設定と任意の遅延を持つ既存の非同期アルゴリズムは、$\tilde{O}(n^2\kappa\log(1/\epsilon))$ iterationsに収束することが示されている。
我々は,adsagaの反復複雑性とウォールクロック性能を,同期ミニバッチアルゴリズムを含む既存の並列分散アルゴリズムと比較した。
この結果から,SGD や同期手法に対する分散還元非同期手法のウォールクロックの利点が示された。 We study asynchronous finite sum minimization in a distributed-data setting with a central parameter server. While asynchrony is well understood in parallel settings where the data is accessible by all machines -- e.g., modifications of variance-reduced gradient algorithms like SAGA work well -- little is known for the distributed-data setting. We develop an algorithm ADSAGA based on SAGA for the distributed-data setting, in which the data is partitioned between many machines. We show that with $m$ machines, under a natural stochastic delay model with an mean delay of $m$, ADSAGA converges in $\tilde{O}\left(\left(n + \sqrt{m}\kappa\right)\log(1/\epsilon)\right)$ iterations, where $n$ is the number of component functions, and $\kappa$ is a condition number. This complexity sits squarely between the complexity $\tilde{O}\left(\left(n + \kappa\right)\log(1/\epsilon)\right)$ of SAGA \textit{without delays} and the complexity $\tilde{O}\left(\left(n + m\kappa\right)\log(1/\epsilon)\right)$ of parallel asynchronous algorithms where the delays are \textit{arbitrary} (but bounded by $O(m)$), and the data is accessible by all. Existing asynchronous algorithms with distributed-data setting and arbitrary delays have only been shown to converge in $\tilde{O}(n^2\kappa\log(1/\epsilon))$ iterations. We empirically compare on least-squares problems the iteration complexity and wallclock performance of ADSAGA to existing parallel and distributed algorithms, including synchronous minibatch algorithms. Our results demonstrate the wallclock advantage of variance-reduced asynchronous approaches over SGD or synchronous approaches. | 翻訳日:2022-10-15 22:06:45 公開日:2021-03-10 |
# ユークリッド距離保存のための高速バイナリ埋め込み Faster Binary Embeddings for Preserving Euclidean Distances ( http://arxiv.org/abs/2010.00712v2 ) ライセンス: Link先を確認 | Jinjie Zhang, Rayan Saab | (参考訳) 本稿では,高次元データセット $\mathcal{T}\subseteq\mathbb{R}^n$ を立方体 $\{\pm 1\}^m$ のバイナリ列に変換する,高速で保存可能なバイナリ埋め込みアルゴリズムを提案する。
$\mathcal{T}$ が well-spread (つまり非スパース) ベクトルからなるとき、埋め込み法は安定なノイズシェーピング量子化スキームを $A x$ に適用する。
これはほとんどのバイナリ埋め込みメソッドとは対照的で、通常は埋め込みに$x\mapsto \mathrm{sign}(Ax)$を使用する。
さらに、$\mathcal{T}$の要素間のユークリッド距離は、高速線型変換の下で$\{\pm 1\}^m$の像上の$\ell_1$ノルムによって近似されることを示す。
これは、代わりにハミング距離を使用する標準的な方法とは対照的である。
我々の方法は高速かつメモリ効率が良く、時間複雑性は$O(m)$、空間複雑性は$O(m)$である。
さらに、この手法は正確であり、関連する誤差は、連続値のジョンソン-リンデンシュトラウス埋め込みと、埋め込み次元が$m$増加するにつれて多項式減衰を許容する量子化誤差に匹敵することを示す。
したがって、所望の精度を達成するために必要なバイナリコードの長さは非常に小さく、精度を損なうことなくさらに圧縮できることを示す。
この結果を説明するために,提案手法を自然画像上でテストし,強力な性能を実現することを示す。 We propose a fast, distance-preserving, binary embedding algorithm to transform a high-dimensional dataset $\mathcal{T}\subseteq\mathbb{R}^n$ into binary sequences in the cube $\{\pm 1\}^m$. When $\mathcal{T}$ consists of well-spread (i.e., non-sparse) vectors, our embedding method applies a stable noise-shaping quantization scheme to $A x$ where $A\in\mathbb{R}^{m\times n}$ is a sparse Gaussian random matrix. This contrasts with most binary embedding methods, which usually use $x\mapsto \mathrm{sign}(Ax)$ for the embedding. Moreover, we show that Euclidean distances among the elements of $\mathcal{T}$ are approximated by the $\ell_1$ norm on the images of $\{\pm 1\}^m$ under a fast linear transformation. This again contrasts with standard methods, where the Hamming distance is used instead. Our method is both fast and memory efficient, with time complexity $O(m)$ and space complexity $O(m)$. Further, we prove that the method is accurate and its associated error is comparable to that of a continuous valued Johnson-Lindenstrauss embedding plus a quantization error that admits a polynomial decay as the embedding dimension $m$ increases. Thus the length of the binary codes required to achieve a desired accuracy is quite small, and we show it can even be compressed further without compromising the accuracy. To illustrate our results, we test the proposed method on natural images and show that it achieves strong performance. | 翻訳日:2022-10-12 07:53:49 公開日:2021-03-10 |
# 進行成長型GANを用いた合成胸部X線の臨床リアリズムの評価 Evaluating the Clinical Realism of Synthetic Chest X-Rays Generated Using Progressively Growing GANs ( http://arxiv.org/abs/2010.03975v2 ) ライセンス: Link先を確認 | Bradley Segal, David M. Rubin, Grace Rubin, Adam Pantanowitz | (参考訳) 胸部x線は多くの患者の作業において重要なツールである。
ほとんどの医用画像モードと同様に、それらは非常にマルチモーダルであり、様々な条件の組み合わせを可視化することができる。
新たな診断ツールを開発するために、ラベル付きデータの量を増やす必要性はますます高まっているが、これは許可要求と倫理承認によるアクセスを制限する患者の機密性に関する懸念に対する直接的な反対である。
以前の研究は、トレーニングデータを強化するためにイメージを合成するクラス固有のganを作成することで、これらの懸念に対処しようとした。
これらのアプローチは、モデルサイズとクラス番号の間の計算トレードオフを導入し、それらが生成できる品質に一定の制限を課すため、スケールできない。
本稿では,GANからの効率的なマルチモーダルサンプリングを可能にする潜在クラス最適化を導入し,ラベル付き生成された大量のアーカイブを合成することで,この問題に対処する。
PGGANを非教師的X線合成の課題に適用し, 放射線医に検査結果の臨床的リアリズムを評価した。
本研究は,本モデルにより得られた疾患の多様性の程度を概観するとともに,その病態の諸性質について詳細に検討する。
我々は、Fr'echet Inception Distance (FID) を用いて、X線生成の質を測定し、それらが他の高分解能タスクと類似していることを確認する。
我々は、放射線学者に実検と偽検を区別するよう依頼することで、X線臨床リアリズムを定量化し、生成が偶然よりもリアルに分類される可能性が高いことを発見した。
本研究は,実スキャンによる合成分類モデルの性能評価により,これらの知見を裏付けるものである。
PGGANの限界と、制御可能で現実的な生成を実現する方法について論じる。 Chest x-rays are a vital tool in the workup of many patients. Similar to most medical imaging modalities, they are profoundly multi-modal and are capable of visualising a variety of combinations of conditions. There is an ever pressing need for greater quantities of labelled data to develop new diagnostic tools, however this is in direct opposition to concerns regarding patient confidentiality which constrains access through permission requests and ethics approvals. Previous work has sought to address these concerns by creating class-specific GANs that synthesise images to augment training data. These approaches cannot be scaled as they introduce computational trade offs between model size and class number which places fixed limits on the quality that such generates can achieve. We address this concern by introducing latent class optimisation which enables efficient, multi-modal sampling from a GAN and with which we synthesise a large archive of labelled generates. We apply a PGGAN to the task of unsupervised x-ray synthesis and have radiologists evaluate the clinical realism of the resultant samples. We provide an in depth review of the properties of varying pathologies seen on generates as well as an overview of the extent of disease diversity captured by the model. We validate the application of the Fr\'echet Inception Distance (FID) to measure the quality of x-ray generates and find that they are similar to other high resolution tasks. We quantify x-ray clinical realism by asking radiologists to distinguish between real and fake scans and find that generates are more likely to be classed as real than by chance, but there is still progress required to achieve true realism. We confirm these findings by evaluating synthetic classification model performance on real scans. We conclude by discussing the limitations of PGGAN generates and how to achieve controllable, realistic generates. | 翻訳日:2022-10-09 22:53:07 公開日:2021-03-10 |
# 混合データディープガウス混合モデル:混合データセットのクラスタリングモデル Mixed data Deep Gaussian Mixture Model: A clustering model for mixed datasets ( http://arxiv.org/abs/2010.06661v2 ) ライセンス: Link先を確認 | Robin Fuchs, Denys Pommeret, Cinzia Viroli | (参考訳) 混合データのクラスタリングは、変数の非常に異質な性質に固有の多くの課題を示す。
この多様性にもかかわらず、クラスタリングアルゴリズムは、グループを設計するために変数から識別情報の断片を抽出することができるべきである。
本研究では,連続データと非連続データに分離して実行されるクラスタリングをマージする自動手法として,混合ディープガウス混合モデル(mdgmm)と呼ばれる多層アーキテクチャモデルに基づくクラスタリング手法を提案する。
このアーキテクチャは柔軟性があり、連続データや非連続データにも適用することができる。
この意味で、一般化線形潜在変数モデルと深いガウス混合モデルを一般化する。
また,「オンザフライ」のデータセットに対して,モデルの最適仕様と最適なクラスタ数を選択する新しい初期化戦略とデータ駆動手法を設計した。
さらに,混合データセットを可視化するための有用なツールとして,データの連続的低次元表現も提供する。
最後に,本手法の性能を,現在使われている複数のデータセットに対する最先端の混合データクラスタリングモデルと比較した。 Clustering mixed data presents numerous challenges inherent to the very heterogeneous nature of the variables. A clustering algorithm should be able, despite of this heterogeneity, to extract discriminant pieces of information from the variables in order to design groups. In this work we introduce a multilayer architecture model-based clustering method called Mixed Deep Gaussian Mixture Model (MDGMM) that can be viewed as an automatic way to merge the clustering performed separately on continuous and non-continuous data. This architecture is flexible and can be adapted to mixed as well as to continuous or non-continuous data. In this sense we generalize Generalized Linear Latent Variable Models and Deep Gaussian Mixture Models. We also design a new initialisation strategy and a data driven method that selects the best specification of the model and the optimal number of clusters for a given dataset "on the fly". Besides, our model provides continuous low-dimensional representations of the data which can be a useful tool to visualize mixed datasets. Finally, we validate the performance of our approach comparing its results with state-of-the-art mixed data clustering models over several commonly used datasets. | 翻訳日:2022-10-07 23:03:58 公開日:2021-03-10 |
# 条件付情報計測による高速損失限度とニューラルネットワークへの応用 Fast-Rate Loss Bounds via Conditional Information Measures with Applications to Neural Networks ( http://arxiv.org/abs/2010.11552v3 ) ライセンス: Link先を確認 | Fredrik Hellstr\"om and Giuseppe Durisi | (参考訳) 本稿では、有界損失関数の場合のランダム化学習アルゴリズムのテスト損失の境界を導出する枠組みを提案する。
Steinke & Zakynthinou (2020) を参考に、この枠組みは、トレーニングセットが生成されるより大きなデータセットの集合を考えると、出力仮説とトレーニングセットの選択の間の条件情報密度に依存する境界に導かれる。
さらに、バウンダリは平均的なテスト損失と尾の確率に関係しており、PAC-ベイジアンと単線設定の両方に関係している。
条件情報密度がトレーニングセットのサイズ$n$で一様ならば、我々の境界は1/n$として崩壊する。
これは、文献で利用できる条件情報測度を含む尾の境界とは対照的であり、従って1/\sqrt{n}$依存度は低い。
我々は、MNISTとFashion-MNISTでトレーニングされたニューラルネットワークアーキテクチャで達成可能なテスト損失の無作為な見積もりにつながることを示すことで、テールバウンドの有用性を実証する。 We present a framework to derive bounds on the test loss of randomized learning algorithms for the case of bounded loss functions. Drawing from Steinke & Zakynthinou (2020), this framework leads to bounds that depend on the conditional information density between the the output hypothesis and the choice of the training set, given a larger set of data samples from which the training set is formed. Furthermore, the bounds pertain to the average test loss as well as to its tail probability, both for the PAC-Bayesian and the single-draw settings. If the conditional information density is bounded uniformly in the size $n$ of the training set, our bounds decay as $1/n$. This is in contrast with the tail bounds involving conditional information measures available in the literature, which have a less benign $1/\sqrt{n}$ dependence. We demonstrate the usefulness of our tail bounds by showing that they lead to nonvacuous estimates of the test loss achievable with some neural network architectures trained on MNIST and Fashion-MNIST. | 翻訳日:2022-10-04 06:04:28 公開日:2021-03-10 |
# 過パラメータニューラルネットワークの最適化アルゴリズムに関する動的考察 A Dynamical View on Optimization Algorithms of Overparameterized Neural Networks ( http://arxiv.org/abs/2010.13165v2 ) ライセンス: Link先を確認 | Zhiqi Bu, Shiyun Xu, Kan Chen | (参考訳) 効率的な最適化アルゴリズムを備えると、損失関数が非凸かつ非滑らかであっても、過パラメータ化されたニューラルネットワークは高い性能を示す。
勾配降下(gd)を用いたニューラルネットワークの学習による損失ダイナミクスの理解に多くの研究が注力してきたが、本研究では一般に用いられる幅広い最適化アルゴリズムを考察する。
例えば、力学系の観点からは、重ボール法(HB法)は平均二乗誤差(MSE法)を線形速度(GD法と類似)で収束させることができるが、ネステロフ加速勾配勾配(NAG法)は平均二乗誤差(MSE法)に収束するのみである。
この結果は、ニューラルネットワークとReLUアクティベーションによる有限過パラメータニューラルネットワークの接続に依存しており、最適化アルゴリズムの制限された常微分方程式(ODE)の解析に繋がる。
重みに対する非凸損失の最適化は、予測誤差に対する強い凸損失の最適化と一致することを示す。
その結果,古典凸最適化理論を応用して,ニューラルネットワークの収束挙動を理解することができる。
このアプローチは他の最適化アルゴリズムやネットワークアーキテクチャにも拡張できると考えています。 When equipped with efficient optimization algorithms, the over-parameterized neural networks have demonstrated high level of performance even though the loss function is non-convex and non-smooth. While many works have been focusing on understanding the loss dynamics by training neural networks with the gradient descent (GD), in this work, we consider a broad class of optimization algorithms that are commonly used in practice. For example, we show from a dynamical system perspective that the Heavy Ball (HB) method can converge to global minimum on mean squared error (MSE) at a linear rate (similar to GD); however, the Nesterov accelerated gradient descent (NAG) may only converges to global minimum sublinearly. Our results rely on the connection between neural tangent kernel (NTK) and finite over-parameterized neural networks with ReLU activation, which leads to analyzing the limiting ordinary differential equations (ODE) for optimization algorithms. We show that, optimizing the non-convex loss over the weights corresponds to optimizing some strongly convex loss over the prediction error. As a consequence, we can leverage the classical convex optimization theory to understand the convergence behavior of neural networks. We believe our approach can also be extended to other optimization algorithms and network architectures. | 翻訳日:2022-10-03 04:30:49 公開日:2021-03-10 |
# スマートメータデータを用いた活動検出とモデリング:概念とケーススタディ Activity Detection And Modeling Using Smart Meter Data: Concept And Case Studies ( http://arxiv.org/abs/2010.13288v2 ) ライセンス: Link先を確認 | Hao Wang, Gonzague Henri, Chin-Woo Tan, Ram Rajagopal | (参考訳) 住宅の消費者が消費する電力は世界の電力消費のかなりの部分を占めており、電力会社は広く普及している高度測定インフラのおかげで高分解能の負荷データを集めることができる。
非インタラクティブな負荷監視によるアプライアンス負荷分散に対する研究の関心が高まっている。
家電機器の電力消費は消費者の行動と直接的に関連しているため,本論文では,新たな,より効果的なアプローチ,すなわち活動分散を提案する。
本稿では, 従来の機器の負荷分散に対して, アクティブデアグリゲーションの概念を論じる。
住宅負荷データと特徴量に基づくアクティビティ検出に機械学習を活用するフレームワークを開発する。
本研究は,行動検出手法の有効性を示す数値ケーススタディと,時間依存行動モデルによる消費者行動の分析を行う。
最後に、アクティビティの分散と今後の研究の方向性から利益を得られる可能性のあるユースケースについて論じる。 Electricity consumed by residential consumers counts for a significant part of global electricity consumption and utility companies can collect high-resolution load data thanks to the widely deployed advanced metering infrastructure. There has been a growing research interest toward appliance load disaggregation via nonintrusive load monitoring. As the electricity consumption of appliances is directly associated with the activities of consumers, this paper proposes a new and more effective approach, i.e., activity disaggregation. We present the concept of activity disaggregation and discuss its advantage over traditional appliance load disaggregation. We develop a framework by leverage machine learning for activity detection based on residential load data and features. We show through numerical case studies to demonstrate the effectiveness of the activity detection method and analyze consumer behaviors by time-dependent activity modeling. Last but not least, we discuss some potential use cases that can benefit from activity disaggregation and some future research directions. | 翻訳日:2022-10-02 20:08:31 公開日:2021-03-10 |
# 変形可能な形状モデルの3次元ランドマークへのロバスト適合に基づく顔のフロンダライゼーション Face Frontalization Based on Robustly Fitting a Deformable Shape Model to 3D Landmarks ( http://arxiv.org/abs/2010.13676v2 ) ライセンス: Link先を確認 | Zhiqi Kang, Mostafa Sadeghi and Radu Horaud | (参考訳) 顔の正面化は、正面の面を任意に見る面から合成することからなる。
本論文の主な貢献は,画素対ピクセルワープを可能にする頑健な顔アライメント法である。
任意の面から抽出した3dランドマークのセットと、正面視変形可能な顔モデルによってパラメータ化された3dランドマークのセットとである2つの3dポイントセット間の剛性変換(スケール、回転、変換)と非剛性変形を同時に推定する。
提案手法の重要な利点は、ノイズ(小さな摂動)と外れ値(大きな誤差)の両方を扱う能力である。
本研究では,一般学生のt-確率分布関数を用いて,データ中の非ガウス誤差に影響を受けない重み付き分布をモデル化する。
本稿では,予測最大化(EM)アルゴリズムについて詳述する。
(i)厳格なパラメータ。
(ii)変形パラメータ、及び
(iii)学生t分布パラメータ。
また,前面とそれに対応する表面とのゼロ平均正規化相互相関を用いて,前面化の性能を評価することを提案する。
この目的のために、私たちは、プロファイルビューとフロントビューの顔のペアを含むデータセットを使用します。
この評価は、画像と画像の直接比較に基づいて、正面化が顔認識に与える影響を分析し、間接評価とは対照的である。 Face frontalization consists of synthesizing a frontally-viewed face from an arbitrarily-viewed one. The main contribution of this paper is a robust face alignment method that enables pixel-to-pixel warping. The method simultaneously estimates the rigid transformation (scale, rotation, and translation) and the non-rigid deformation between two 3D point sets: a set of 3D landmarks extracted from an arbitrary-viewed face, and a set of 3D landmarks parameterized by a frontally-viewed deformable face model. An important merit of the proposed method is its ability to deal both with noise (small perturbations) and with outliers (large errors). We propose to model inliers and outliers with the generalized Student's t-probability distribution function, a heavy-tailed distribution that is immune to non-Gaussian errors in the data. We describe in detail the associated expectation-maximization (EM) algorithm that alternates between the estimation of (i) the rigid parameters, (ii) the deformation parameters, and (iii) the Student-t distribution parameters. We also propose to use the zero-mean normalized cross-correlation, between a frontalized face and the corresponding ground-truth frontally-viewed face, to evaluate the performance of frontalization. To this end, we use a dataset that contains pairs of profile-viewed and frontally-viewed faces. This evaluation, based on direct image-to-image comparison, stands in contrast with indirect evaluation, based on analyzing the effect of frontalization on face recognition. | 翻訳日:2022-10-02 19:24:48 公開日:2021-03-10 |
# 絡み合いによるバレン高原 Entanglement Induced Barren Plateaus ( http://arxiv.org/abs/2010.15968v2 ) ライセンス: Link先を確認 | Carlos Ortiz Marrero, M\'aria Kieferov\'a, Nathan Wiebe | (参考訳) 我々は、量子ニューラルネットワークにおける可視単位と隠れ単位の行き詰まりが学習を妨げていると主張する。
特に、エンタングルメントエントロピーにおける体積法則を満たす量子ニューラルネットワークは、高い確率で学習するには適さないモデルを生み出すことが示される。
量子熱力学の議論を用いて、この体積法則は典型的であり、絡み合いによる最適化景観にバレンプラトーが存在することを示す。
より正確には、可視層上の任意の有界対象関数に対して、その対象関数の期待値のリプシッツ定数は、高い確率で隠れサブシステムの次元と逆スケールすることを示す。
勾配降下法と勾配フリー法の両方が故障する可能性を示す。
同様の問題は量子ボルツマンマシンでも起こり得るが、隠れ部分空間と可視部分空間の間の結合に関するより強い仮定が必要である。
このような生成モデルの事前学習は、これらの不毛高原をナビゲートする方法を提供する可能性がある。 We argue that an excess in entanglement between the visible and hidden units in a Quantum Neural Network can hinder learning. In particular, we show that quantum neural networks that satisfy a volume-law in the entanglement entropy will give rise to models not suitable for learning with high probability. Using arguments from quantum thermodynamics, we then show that this volume law is typical and that there exists a barren plateau in the optimization landscape due to entanglement. More precisely, we show that for any bounded objective function on the visible layers, the Lipshitz constants of the expectation value of that objective function will scale inversely with the dimension of the hidden-subsystem with high probability. We show how this can cause both gradient descent and gradient-free methods to fail. We note that similar problems can happen with quantum Boltzmann machines, although stronger assumptions on the coupling between the hidden/visible subspaces are necessary. We highlight how pretraining such generative models may provide a way to navigate these barren plateaus. | 翻訳日:2022-10-01 23:56:55 公開日:2021-03-10 |
# 半振幅変分推論の強化による双曲グラフ埋め込み Hyperbolic Graph Embedding with Enhanced Semi-Implicit Variational Inference ( http://arxiv.org/abs/2011.00194v2 ) ライセンス: Link先を確認 | Ali Lotfi Rezaabad, Rahi Kalantari, Sriram Vishwanath, Mingyuan Zhou, Jonathan Tamir | (参考訳) 物理・社会・情報科学における関係データの効率的なモデリングは、データの複雑な依存関係のため困難である。
本研究では,半単純グラフ変分オートエンコーダを用いて,低次元グラフ潜在表現における高次統計をキャプチャする。
我々は、階層構造を示すグラフを効率的に表現するために、ポインケア埋め込みを通して潜在空間に双曲幾何学を組み込む。
古典的変分推論における単純な後潜分布の仮定に対処するため、半単純階層的変分ベイを用いて、重み、多重モード、歪み、高相関の潜時構造を示すグラフデータの後進を暗黙的に捉える。
既存の半単純変分推定対象は、観測されたグラフの情報を確実に減少させることを示す。
この観察に基づいて,入力空間と潜在空間の間に生じる豊富な相関を捉えるために,半単純変分推論学習目標に付加的な相互情報項を推定・付加する。
この正規化項をpoincare埋め込みと組み合わせることで、学習されたハイレベル表現の品質が向上し、より柔軟で忠実なグラフィカルモデリングが可能になることを示す。
提案手法は,エッジリンク予測やノード分類のためにユークリッドおよび双曲空間において,既存のグラフ変分オートエンコーダよりも優れていることを示す。 Efficient modeling of relational data arising in physical, social, and information sciences is challenging due to complicated dependencies within the data. In this work, we build off of semi-implicit graph variational auto-encoders to capture higher-order statistics in a low-dimensional graph latent representation. We incorporate hyperbolic geometry in the latent space through a Poincare embedding to efficiently represent graphs exhibiting hierarchical structure. To address the naive posterior latent distribution assumptions in classical variational inference, we use semi-implicit hierarchical variational Bayes to implicitly capture posteriors of given graph data, which may exhibit heavy tails, multiple modes, skewness, and highly correlated latent structures. We show that the existing semi-implicit variational inference objective provably reduces information in the observed graph. Based on this observation, we estimate and add an additional mutual information term to the semi-implicit variational inference learning objective to capture rich correlations arising between the input and latent spaces. We show that the inclusion of this regularization term in conjunction with the Poincare embedding boosts the quality of learned high-level representations and enables more flexible and faithful graphical modeling. We experimentally demonstrate that our approach outperforms existing graph variational auto-encoders both in Euclidean and in hyperbolic spaces for edge link prediction and node classification. | 翻訳日:2022-10-01 04:30:40 公開日:2021-03-10 |
# ASAD: Twitterベースのベンチマークアラビア感性分析データセット ASAD: A Twitter-based Benchmark Arabic Sentiment Analysis Dataset ( http://arxiv.org/abs/2011.00578v3 ) ライセンス: Link先を確認 | Basma Alharbi, Hind Alamro, Manal Alshehri, Zuhair Khayyat, Manal Kalkatawi, Inji Ibrahim Jaber, Xiangliang Zhang | (参考訳) 本稿では,1位と2位と3位にそれぞれ10000 USD,5000 USD,2000 USDを授与したKAUST主催のコンペティション3でローンチした,アラビア感覚分析(ASAD)のためのTwitterベースの新しいベンチマークデータセットの詳細を説明する。
他のアラビア語データセットと比較すると、asadは大規模な高品質な注釈付きデータセット(95万ツイートを含む)で、3種類の感情ラベル(ポジティブ、ネガティブ、ニュートラル)がある。
本稿では,データ収集プロセスとアノテーションプロセスの詳細について述べる。
さらに,コンペティションタスクのベースラインモデルをいくつか実装し,参加者のコンペティションへの参照として結果を報告する。 This paper provides a detailed description of a new Twitter-based benchmark dataset for Arabic Sentiment Analysis (ASAD), which is launched in a competition3, sponsored by KAUST for awarding 10000 USD, 5000 USD and 2000 USD to the first, second and third place winners, respectively. Compared to other publicly released Arabic datasets, ASAD is a large, high-quality annotated dataset(including 95K tweets), with three-class sentiment labels (positive, negative and neutral). We presents the details of the data collection process and annotation process. In addition, we implement several baseline models for the competition task and report the results as a reference for the participants to the competition. | 翻訳日:2022-09-30 22:53:28 公開日:2021-03-10 |
# 実世界へのフルアクティベートマルチロータの統合 Integration of Fully-Actuated Multirotors into Real-World Applications ( http://arxiv.org/abs/2011.06666v2 ) ライセンス: Link先を確認 | Azarakhsh Keipour, Mohammadreza Mousaei, Andrew T Ashley, Sebastian Scherer | (参考訳) 完全に活性化されたマルチロータの導入は、多くの現実世界アプリケーションに対する新しい可能性とより効率的なソリューションへの扉を開いた。
しかし、これらのロボットをフル活用するための新しいツールの必要性から、彼らの統合は予想よりも遅かった。
われわれが知る限り、現在フルアクティベートされたマルチローターに取り組んでいるすべてのグループが、ロボットを使うための新しい完全な(6-D)ツールと方法を開発しています。
本稿では,不動ロボットと新しい完全動車とのギャップを埋める手法を提案する。
このアプローチは、既存の非作動型飛行制御装置を拡張して、完全作動型ロボットをサポートするか、既存の非作動型飛行スタックをサポートするために既存の完全作動型制御装置を強化することができる。
我々は,非作動型コントローラ,ツール,プランナ,遠隔操作インターフェースなどで動作する姿勢戦略を導入し,全動作の活用を可能にした。
さらに, 多数の完全作動型UAV設計が抱える限界側面推力を適切に処理できる新しい手法が提案されている。
戦略は軽量でシンプルで、利用可能なツールをこれらの新しい車両と迅速に統合することで、新しい現実世界のアプリケーションを素早く開発することができる。
ロボットの実際の実験と、複数のUAVアーキテクチャを基礎とする様々な制御方法によるシミュレーションは、これらの戦略をどのように活用して、既存の飛行制御装置をフルアクティベートしたアプリケーションに拡張できるかを示している。
我々は,提案手法により拡張されたpx4ファームウェアのソースコードを提供し,飛行スタックの残りを変更せずに,完全に作動した車両をシームレスにサポートするように修正可能なマルチロータ用飛行制御装置の例を示した。 The introduction of fully-actuated multirotors has opened the door to new possibilities and more efficient solutions to many real-world applications. However, their integration had been slower than expected, partly due to the need for new tools to take full advantage of these robots. As far as we know, all the groups currently working on the fully-actuated multirotors develop new full-pose (6-D) tools and methods to use their robots, which is inefficient, time-consuming, and requires many resources. We propose a way of bridging the gap between the tools already available for underactuated robots and the new fully-actuated vehicles. The approach can extend the existing underactuated flight controllers to support the fully-actuated robots, or enhance the existing fully-actuated controllers to support existing underactuated flight stacks. We introduce attitude strategies that work with the underactuated controllers, tools, planners and remote control interfaces, all while allowing taking advantage of the full actuation. Moreover, new methods are proposed that can properly handle the limited lateral thrust suffered by many fully-actuated UAV designs. The strategies are lightweight, simple, and allow rapid integration of the available tools with these new vehicles for the fast development of new real-world applications. The real experiments on our robots and simulations on several UAV architectures with different underlying controller methods show how these strategies can be utilized to extend existing flight controllers for fully-actuated applications. We have provided the source code for the PX4 firmware enhanced with our proposed methods to showcase an example flight controller for underactuated multirotors that can be modified to seamlessly support fully-actuated vehicles while retaining the rest of the flight stack unchanged. | 翻訳日:2022-09-26 07:33:50 公開日:2021-03-10 |
# 医療概念ドメインの自動符号化:身体活動報告を機能・障害・健康の国際分類にリンクする Automated Coding of Under-Studied Medical Concept Domains: Linking Physical Activity Reports to the International Classification of Functioning, Disability, and Health ( http://arxiv.org/abs/2011.13978v2 ) ライセンス: Link先を確認 | Denis Newman-Griffis and Eric Fosler-Lussier | (参考訳) 臨床的ナラティブと標準化された語彙とコーディングシステムとのリンクは、分析のために医療用テキストの情報をアンロックする重要なコンポーネントである。
しかし、医療概念の多くの領域では、医学テキストの効果的なコーディングを支援するための用語が発達していない。
本稿では,医学情報の自動符号化のための自然言語処理(NLP)技術を開発するためのフレームワークについて述べる。
モビリティは、治療後の治療や手術の成果から慢性的な衰弱や障害に至るまで、多くの健康対策の構成要素であり、国際機能・障害・健康分類(icf)に規定されている。
しかし、移動性やその他の機能的活動は医学情報学において未研究のままであり、icfも一般的に使われる医学用語も実際には機能的ステータス用語を捉えていない。
データ駆動型パラダイム(分類と候補選択)を2つ検討し、理学療法の遭遇からの臨床物語のデータセットを用いて、モビリティの物語観察を標準化されたicfコードに結びつけた。
言語モデリングと単語埋め込みの最近の進歩は、確立された機械学習モデルと新しいディープラーニングアプローチの特徴として使われ、ICFコードにモビリティアクティビティレポートをリンクするマクロF-1スコアが84%に達した。
分類と候補選択の両方のアプローチは、未熟な領域における自動コーディングの異なる強みを示し、それらの組み合わせが強調する。
(i)小さな注釈付きデータセット
(ii)利害関係規定の専門的定義,及び
(iii)代表的なテキストコーパスは、高いパフォーマンスの自動化コーディングシステムを作成するのに十分である。
本研究は,NLPツールのさらなる発展に寄与し,臨床医療・研究における様々な専門的応用に寄与する。 Linking clinical narratives to standardized vocabularies and coding systems is a key component of unlocking the information in medical text for analysis. However, many domains of medical concepts lack well-developed terminologies that can support effective coding of medical text. We present a framework for developing natural language processing (NLP) technologies for automated coding of under-studied types of medical information, and demonstrate its applicability via a case study on physical mobility function. Mobility is a component of many health measures, from post-acute care and surgical outcomes to chronic frailty and disability, and is coded in the International Classification of Functioning, Disability, and Health (ICF). However, mobility and other types of functional activity remain under-studied in medical informatics, and neither the ICF nor commonly-used medical terminologies capture functional status terminology in practice. We investigated two data-driven paradigms, classification and candidate selection, to link narrative observations of mobility to standardized ICF codes, using a dataset of clinical narratives from physical therapy encounters. Recent advances in language modeling and word embedding were used as features for established machine learning models and a novel deep learning approach, achieving a macro F-1 score of 84% on linking mobility activity reports to ICF codes. Both classification and candidate selection approaches present distinct strengths for automated coding in under-studied domains, and we highlight that the combination of (i) a small annotated data set; (ii) expert definitions of codes of interest; and (iii) a representative text corpus is sufficient to produce high-performing automated coding systems. This study has implications for the ongoing growth of NLP tools for a variety of specialized applications in clinical care and research. | 翻訳日:2022-09-20 01:28:46 公開日:2021-03-10 |
# 臨床テキストからのcovid-19診断と症状の抽出--新しい注釈付きコーパスと神経イベント抽出フレームワーク Extracting COVID-19 Diagnoses and Symptoms From Clinical Text: A New Annotated Corpus and Neural Event Extraction Framework ( http://arxiv.org/abs/2012.00974v2 ) ライセンス: Link先を確認 | Kevin Lybarger, Mari Ostendorf, Matthew Thompson, Meliha Yetisgen | (参考訳) コロナウイルス病2019(COVID-19)は世界的なパンデミックである。
新型コロナウイルスの発生以来、多くのことが学んできたが、感染拡大の追跡、症状の記述、感染の深刻さの予測、医療利用の予測など、多くの疑問がある。
フリーテキスト臨床ノートにはこれらの疑問を解決するための重要な情報が含まれている。
データ駆動、自動情報抽出モデルは、このテキストエンコードされた情報を大規模研究に利用するために必要である。
本研究は、covid-19 annotated clinical text(cact)コーパスと呼ばれる新しい臨床コーパスを提示し、covid-19の診断、テスト、臨床プレゼンテーションを特徴付ける詳細な注釈を含む1,472のノートからなる。
本研究では,すべてのアノテート現象を共同抽出し,関連するアサーション値(0.83-0.97 F1,アサーション0.73-0.79 F1)を用いて,COVID-19および症状事象の同定に高い性能を発揮するスパンベースのイベント抽出モデルを提案する。
二次利用アプリケーションでは、構造化患者データ(例えば、患者データ)を用いて、新型コロナウイルス検査結果の予測について検討した。
バイタルサインと検査結果) 自動的に症状情報を抽出する。
自動抽出された症状は、構造化データだけでなく予測性能を向上させる。 Coronavirus disease 2019 (COVID-19) is a global pandemic. Although much has been learned about the novel coronavirus since its emergence, there are many open questions related to tracking its spread, describing symptomology, predicting the severity of infection, and forecasting healthcare utilization. Free-text clinical notes contain critical information for resolving these questions. Data-driven, automatic information extraction models are needed to use this text-encoded information in large-scale studies. This work presents a new clinical corpus, referred to as the COVID-19 Annotated Clinical Text (CACT) Corpus, which comprises 1,472 notes with detailed annotations characterizing COVID-19 diagnoses, testing, and clinical presentation. We introduce a span-based event extraction model that jointly extracts all annotated phenomena, achieving high performance in identifying COVID-19 and symptom events with associated assertion values (0.83-0.97 F1 for events and 0.73-0.79 F1 for assertions). In a secondary use application, we explored the prediction of COVID-19 test results using structured patient data (e.g. vital signs and laboratory results) and automatically extracted symptom information. The automatically extracted symptoms improve prediction performance, beyond structured data alone. | 翻訳日:2021-05-25 04:13:07 公開日:2021-03-10 |
# ロボットシステムのための人間の触覚ジェスチャー解釈 Human Haptic Gesture Interpretation for Robotic Systems ( http://arxiv.org/abs/2012.01959v3 ) ライセンス: Link先を確認 | Elizabeth Bibit Bianchini, Prateek Verma and Kenneth Salisbury | (参考訳) 物理的な人間とロボットの相互作用(phri)は、人間と人間の相互作用よりも効率的で通信性が低い。
人間のタッチジェスチャーを解釈するのは、人間とロボットの能力の間に極端なギャップがある、面倒で難しい作業だ。
人間のタッチ認識能力、センサーの違い、ジェスチャクラス、特徴セット、そして分類アルゴリズムを実証する以前の作品の中には、転送不能な結果のコングロマリットと標準の欠如がある。
このギャップに対処するため,本研究は,1)文献で特定されるジェスチャーの特徴の大部分を網羅する4つのタッチジェスチャークラス,2)内部の手首トルクセンサのみを備えた共通のpHRIロボットアーム上の広範囲な力データセットの収集,3)特徴セットと分類アルゴリズムの組み合わせの徹底的な性能比較を行う。
提案したジェスチャ定義のうち高い分類精度をテストセットで示し、ニューラルネットワークの分類器が特徴セットとアルゴリズムの他の組み合わせよりも優れていることを強調した。 Physical human-robot interactions (pHRI) are less efficient and communicative than human-human interactions, and a key reason is a lack of informative sense of touch in robotic systems. Interpreting human touch gestures is a nuanced, challenging task with extreme gaps between human and robot capability. Among prior works that demonstrate human touch recognition capability, differences in sensors, gesture classes, feature sets, and classification algorithms yield a conglomerate of non-transferable results and a glaring lack of a standard. To address this gap, this work presents 1) four proposed touch gesture classes that cover the majority of the gesture characteristics identified in the literature, 2) the collection of an extensive force dataset on a common pHRI robotic arm with only its internal wrist force-torque sensor, and 3) an exhaustive performance comparison of combinations of feature sets and classification algorithms on this dataset. We demonstrate high classification accuracies among our proposed gesture definitions on a test set, emphasizing that neural network classifiers on the raw data outperform other combinations of feature sets and algorithms. | 翻訳日:2021-05-23 15:05:06 公開日:2021-03-10 |
# バイシブル・サーマルパーソン再同定のための双極性三重項損失を持つ強いが単純なベースライン Strong but Simple Baseline with Dual-Granularity Triplet Loss for Visible-Thermal Person Re-Identification ( http://arxiv.org/abs/2012.05010v2 ) ライセンス: Link先を確認 | Haijun Liu, Yanxia Chai, Xiaoheng Tan, Dong Li and Xichuan Zhou | (参考訳) 本稿では,可視的熱的人物再同定(vt-reid)に対する概念的に単純かつ効果的な双粒度三重項損失を提案する。
一般に、ReIDモデルは常にサンプルベースの三重項損失と粒度レベルからの識別損失で訓練される。
粗粒度レベルからクラス内コンパクト性やクラス間識別を促進するために、センターベース損失を導入することが可能である。
提案する双粒度三重項損失は,プール処理やバッチ正規化といった典型的な操作の単純な構成と相まって,階層的な細粒度から粗粒度まで,サンプルベース三重項損失と中心ベース三重項損失をうまく整理する。
RegDBとSYSU-MM01データセットの実験では、グローバルな特徴のみにより、二重粒度3重項の損失はVT-ReIDの性能を著しく向上させることができる。
高品質で将来の研究を促進するために、強力なVT-ReIDベースラインとなる可能性がある。 In this letter, we propose a conceptually simple and effective dual-granularity triplet loss for visible-thermal person re-identification (VT-ReID). In general, ReID models are always trained with the sample-based triplet loss and identification loss from the fine granularity level. It is possible when a center-based loss is introduced to encourage the intra-class compactness and inter-class discrimination from the coarse granularity level. Our proposed dual-granularity triplet loss well organizes the sample-based triplet loss and center-based triplet loss in a hierarchical fine to coarse granularity manner, just with some simple configurations of typical operations, such as pooling and batch normalization. Experiments on RegDB and SYSU-MM01 datasets show that with only the global features our dual-granularity triplet loss can improve the VT-ReID performance by a significant margin. It can be a strong VT-ReID baseline to boost future research with high quality. | 翻訳日:2021-05-16 02:02:43 公開日:2021-03-10 |
# DAX:ニューラルネットワークのためのDeep Argumentative eXplanation DAX: Deep Argumentative eXplanation for Neural Networks ( http://arxiv.org/abs/2012.05766v3 ) ライセンス: Link先を確認 | Emanuele Albini, Piyawat Lertvittayakumjorn, Antonio Rago and Francesca Toni | (参考訳) 近年のeXplainable AI(XAI)への注目は急速に高まっているが、文献での説明ではニューラルネットワーク(NN)の実際の機能に関する洞察はほとんど得られず、透明性を著しく制限している。
我々は,計算的議論(意見が重要な様々な設定で推論抽象化を提供するシンボリックaiの一種)を,深層的議論的説明(daxs)を基盤とする足場として活用し,nnsを説明する手法を提案する。
3つのDAXインスタンス化(様々なニューラルアーキテクチャやタスク)を定義し、安定性、計算コスト、深さの重要性を実証的に評価する。
また、テキスト分類モデルのためのDAXを用いた人間実験を行い、人間に理解でき、判断に沿うとともに、ユーザ受け入れの観点からは競合し、議論的な精神をもった既存のXAIへのアプローチを示す。 Despite the rapid growth in attention on eXplainable AI (XAI) of late, explanations in the literature provide little insight into the actual functioning of Neural Networks (NNs), significantly limiting their transparency. We propose a methodology for explaining NNs, providing transparency about their inner workings, by utilising computational argumentation (a form of symbolic AI offering reasoning abstractions for a variety of settings where opinions matter) as the scaffolding underpinning Deep Argumentative eXplanations (DAXs). We define three DAX instantiations (for various neural architectures and tasks) and evaluate them empirically in terms of stability, computational cost, and importance of depth. We also conduct human experiments with DAXs for text classification models, indicating that they are comprehensible to humans and align with their judgement, while also being competitive, in terms of user acceptance, with existing approaches to XAI that also have an argumentative spirit. | 翻訳日:2021-05-15 06:27:32 公開日:2021-03-10 |
# ベイズネットワーク分類器に対する影響駆動型説明 Influence-Driven Explanations for Bayesian Network Classifiers ( http://arxiv.org/abs/2012.05773v3 ) ライセンス: Link先を確認 | Antonio Rago, Emanuele Albini, Pietro Baroni and Francesca Toni | (参考訳) 近年のaiにおける最も差し迫った問題の1つは、多くのモデルの説明可能性の欠如に対処する必要性である。
我々は, 離散ベイズネットワーク分類器(bcs)の説明に注目し, 入力変数と出力変数だけではなく, 中間変数を説明に含めることで, 内部動作の透明性を高めることを目標としている。
提案されたBCに対する影響駆動的説明(IDX)は、BC内の変数間の因果関係を用いて体系的に生成され、インフルエンスと呼ばれ、その振る舞いに従って関係性と呼ばれる論理的要求によって分類される。
これらの関係性はどちらもヒューリスティックな説明方法を超えた保証を提供し、説明の基盤となる情報が特定の文脈やユーザの要求に合わせて調整されることを可能にする。
我々は,BCの様々な形態,例えばナイーブやマルチラベル,バイナリやカテゴリなどを説明するIDXの能力を実証するとともに,BCの文献からの説明への最近のアプローチを統合する。
理論的および経験的分析によりidxを評価し,既存の説明法と比較した場合,その有意なアドバンテージを示す。 One of the most pressing issues in AI in recent years has been the need to address the lack of explainability of many of its models. We focus on explanations for discrete Bayesian network classifiers (BCs), targeting greater transparency of their inner workings by including intermediate variables in explanations, rather than just the input and output variables as is standard practice. The proposed influence-driven explanations (IDXs) for BCs are systematically generated using the causal relationships between variables within the BC, called influences, which are then categorised by logical requirements, called relation properties, according to their behaviour. These relation properties both provide guarantees beyond heuristic explanation methods and allow the information underpinning an explanation to be tailored to a particular context's and user's requirements, e.g., IDXs may be dialectical or counterfactual. We demonstrate IDXs' capability to explain various forms of BCs, e.g., naive or multi-label, binary or categorical, and also integrate recent approaches to explanations for BCs from the literature. We evaluate IDXs with theoretical and empirical analyses, demonstrating their considerable advantages when compared with existing explanation methods. | 翻訳日:2021-05-15 06:27:13 公開日:2021-03-10 |
# AdvantageNAS: クレジット割り当てによる効率的なニューラルネットワーク検索 AdvantageNAS: Efficient Neural Architecture Search with Credit Assignment ( http://arxiv.org/abs/2012.06138v2 ) ライセンス: Link先を確認 | Rei Sato, Jun Sakuma, Youhei Akimoto | (参考訳) ニューラルネットワークサーチ(NAS)は、人間の努力や専門知識なしに、ニューラルネットワークアーキテクチャを自動設計するためのアプローチである。
しかし、NASの計算コストが高いため、商用アプリケーションでは使用が制限される。
最近の2つのNASパラダイム、すなわちワンショットとスパース伝播は、それぞれ時間と空間の複雑さを減らし、この問題を解決する手がかりを提供する。
本稿では,単発・スパース伝搬NAS,すなわちアドバンテージNASの探索戦略を提案する。
AdvantageNASは、アーキテクチャ更新の勾配推定にクレジット代入を導入することにより、探索効率を向上させる勾配ベースのアプローチである。
NAS-Bench-201 および PTB データセットを用いた実験により,AdvantageNAS が既存のスパース伝搬NAS と比較して,限られた時間予算下で高い性能のアーキテクチャを発見することが示された。
advantagenasの信頼性をさらに解明するため、理論的に検討し、期待損失を単調に改善し収束することを発見した。 Neural architecture search (NAS) is an approach for automatically designing a neural network architecture without human effort or expert knowledge. However, the high computational cost of NAS limits its use in commercial applications. Two recent NAS paradigms, namely one-shot and sparse propagation, which reduce the time and space complexities, respectively, provide clues for solving this problem. In this paper, we propose a novel search strategy for one-shot and sparse propagation NAS, namely AdvantageNAS, which further reduces the time complexity of NAS by reducing the number of search iterations. AdvantageNAS is a gradient-based approach that improves the search efficiency by introducing credit assignment in gradient estimation for architecture updates. Experiments on the NAS-Bench-201 and PTB dataset show that AdvantageNAS discovers an architecture with higher performance under a limited time budget compared to existing sparse propagation NAS. To further reveal the reliabilities of AdvantageNAS, we investigate it theoretically and find that it monotonically improves the expected loss and thus converges. | 翻訳日:2021-05-11 03:08:00 公開日:2021-03-10 |
# (参考訳) 条件付きテキスト生成のための逆摂動を用いたコントラスト学習 Contrastive Learning with Adversarial Perturbations for Conditional Text Generation ( http://arxiv.org/abs/2012.07280v6 ) ライセンス: CC BY 4.0 | Seanie Lee, Dong Bok Lee, Sung Ju Hwang | (参考訳) 近年, Transformer アーキテクチャを用いたSequence-to-Sequence (seq2seq) モデルは,機械翻訳などの条件付きテキスト生成タスクにおいて顕著な性能を発揮している。
しかし、それらの多くは、トレーニング中に誤って生成されたトークンに晒されることなく、各ステップで与えられた基底真理ラベルを強制する教師の強制で訓練されており、それは"露光バイアス"問題として知られる、見当たらない入力への一般化を損なう。
本研究では,正のペアと負のペアを対比することにより条件付きテキスト生成問題を軽減することを提案する。
しかし, ランダムな非ターゲット配列を負の例として用いて, 逆学習フレームワークを用いてモデルを訓練することは, 特に大きなテキストコーパスで事前学習したモデルでは, 正しい出力と容易に区別できるため, 最適以下である。
また、ポジティブな例を生成するにはドメイン固有の拡張ヒューリスティックが必要である。
そこで本研究では,seq2seqモデルの対比学習のための正・負のサンプル生成法を提案する。
具体的には,条件付き確率を最小化するために入力列に小さな摂動を追加して負の例を生成し,条件付き確率が高いよう強制しながら大きな摂動を付加することで正の例を生成する。
このような「ハード」な正対と負の対が我々の手法で生成され、正しい出力と間違った出力をよりよく区別するためにモデルが導かれる。
提案手法は,3つのテキスト生成タスク(機械翻訳,テキスト要約,質問生成)におけるSeq2seqの一般化を大幅に改善することを示す。 Recently, sequence-to-sequence (seq2seq) models with the Transformer architecture have achieved remarkable performance on various conditional text generation tasks, such as machine translation. However, most of them are trained with teacher forcing with the ground truth label given at each time step, without being exposed to incorrectly generated tokens during training, which hurts its generalization to unseen inputs, that is known as the "exposure bias" problem. In this work, we propose to mitigate the conditional text generation problem by contrasting positive pairs with negative pairs, such that the model is exposed to various valid or incorrect perturbations of the inputs, for improved generalization. However, training the model with naive contrastive learning framework using random non-target sequences as negative examples is suboptimal, since they are easily distinguishable from the correct output, especially so with models pretrained with large text corpora. Also, generating positive examples requires domain-specific augmentation heuristics which may not generalize over diverse domains. To tackle this problem, we propose a principled method to generate positive and negative samples for contrastive learning of seq2seq models. Specifically, we generate negative examples by adding small perturbations to the input sequence to minimize its conditional likelihood, and positive examples by adding large perturbations while enforcing it to have a high conditional likelihood. Such "hard" positive and negative pairs generated using our method guides the model to better distinguish correct outputs from incorrect ones. We empirically show that our proposed method significantly improves the generalization of the seq2seq on three text generation tasks - machine translation, text summarization, and question generation. | 翻訳日:2021-05-09 08:11:35 公開日:2021-03-10 |
# エージェントクラス情報を用いた異種マルチエージェント強化学習におけるエージェント間コミュニケーションの特化 Specializing Inter-Agent Communication in Heterogeneous Multi-Agent Reinforcement Learning using Agent Class Information ( http://arxiv.org/abs/2012.07617v2 ) ライセンス: Link先を確認 | Douglas De Rizzo Meneghetti, Reinaldo Augusto da Costa Bianchi | (参考訳) グラフニューラルネットワークとのエージェント通信の最近の進歩に触発されて、ノードラベルがエージェントクラスとエッジラベル、エージェントの2つのクラス間の通信タイプを表す有向ラベル付き異種エージェントグラフとして、マルチエージェント通信能力の表現を提案する。
また、各エージェントクラス間の交換メッセージへの個々の変換を学習することにより、完全に協調した多エージェントタスクにおけるコミュニケーションを専門とするニューラルネットワークアーキテクチャを導入する。
また,異種エージェントの環境に対するパラメータ共有を伴うエンコーディングおよびアクション選択モジュールを用いることで,エージェントクラスが多数動作する環境において,同等あるいは優れた性能を示す。 Inspired by recent advances in agent communication with graph neural networks, this work proposes the representation of multi-agent communication capabilities as a directed labeled heterogeneous agent graph, in which node labels denote agent classes and edge labels, the communication type between two classes of agents. We also introduce a neural network architecture that specializes communication in fully cooperative heterogeneous multi-agent tasks by learning individual transformations to the exchanged messages between each pair of agent classes. By also employing encoding and action selection modules with parameter sharing for environments with heterogeneous agents, we demonstrate comparable or superior performance in environments where a larger number of agent classes operates. | 翻訳日:2021-05-08 14:37:25 公開日:2021-03-10 |
# Shape My Face:表面から表面への変換による3D顔スキャンの登録 Shape My Face: Registering 3D Face Scans by Surface-to-Surface Translation ( http://arxiv.org/abs/2012.09235v2 ) ライセンス: Link先を確認 | Mehdi Bahri, Eimear O' Sullivan, Shunwang Gong, Feng Liu, Xiaoming Liu, Michael M. Bronstein, Stefanos Zafeiriou | (参考訳) 標準登録アルゴリズムは、慎重に事前処理と手作業で登録するために各面に独立して適用する必要がある。
近年、学習に基づくアプローチにより、以前に訓練されたモデルによる推論の実行に対する新しいスキャンの登録を減らしている。
本稿では,登録タスクを表面から表面への変換問題としてキャストし,生の3d顔スキャンから直接潜在幾何情報を確実にキャプチャするモデルを設計する。
改良されたポイントクラウドエンコーダに基づく強力なエンコーダ・デコーダアーキテクチャであるShape-My-Face(SMF)、新しい視覚的アテンション機構、スキップ接続を備えたグラフ畳み込みデコーダ、メッシュ畳み込みをスムーズに統合する特殊な口モデルを紹介する。
以前の最先端の機械学習アルゴリズムによる顔スキャンの非厳密な登録と比較して、SMFは生データを事前に定義された顔テンプレートで厳格に整列させる必要がある。
さらに,我々のモデルでは,最小限の監視でトポロジカルなメッシュを提供し,より高速なトレーニング時間を提供し,トレーニング可能なパラメータを桁違いに削減し,ノイズに対してより頑健で,これまで見つからなかったデータセットに一般化することができる。
多様なデータに基づいて登録の質を広く評価する。
我々は,異なるモード,センサタイプ,解像度の面スキャンを用いて,モデルのロバスト性と一般化性を示す。
最後に,スキャンを登録する学習により,SMFは線形・非線形のハイブリッドモデルを生成することを示す。
SMFの潜伏空間のマニピュレーションは、表現の移動のような形状生成や形態形成の応用を可能にする。
コモディティハードウェア上で9つの大規模データベースからなる人間の顔のデータセット上でsmfをトレーニングする。 Standard registration algorithms need to be independently applied to each surface to register, following careful pre-processing and hand-tuning. Recently, learning-based approaches have emerged that reduce the registration of new scans to running inference with a previously-trained model. In this paper, we cast the registration task as a surface-to-surface translation problem, and design a model to reliably capture the latent geometric information directly from raw 3D face scans. We introduce Shape-My-Face (SMF), a powerful encoder-decoder architecture based on an improved point cloud encoder, a novel visual attention mechanism, graph convolutional decoders with skip connections, and a specialized mouth model that we smoothly integrate with the mesh convolutions. Compared to the previous state-of-the-art learning algorithms for non-rigid registration of face scans, SMF only requires the raw data to be rigidly aligned (with scaling) with a pre-defined face template. Additionally, our model provides topologically-sound meshes with minimal supervision, offers faster training time, has orders of magnitude fewer trainable parameters, is more robust to noise, and can generalize to previously unseen datasets. We extensively evaluate the quality of our registrations on diverse data. We demonstrate the robustness and generalizability of our model with in-the-wild face scans across different modalities, sensor types, and resolutions. Finally, we show that, by learning to register scans, SMF produces a hybrid linear and non-linear morphable model. Manipulation of the latent space of SMF allows for shape generation, and morphing applications such as expression transfer in-the-wild. We train SMF on a dataset of human faces comprising 9 large-scale databases on commodity hardware. | 翻訳日:2021-05-03 03:03:03 公開日:2021-03-10 |
# (参考訳) 局所観測を用いた分布地図分類 Distributed Map Classification using Local Observations ( http://arxiv.org/abs/2012.10480v2 ) ライセンス: CC BY 4.0 | Guangyi Liu, Arash Amini, Martin Tak\'a\v{c}, H\'ector Mu\~noz-Avila, and Nader Motee | (参考訳) コミュニケーションロボットのチームを用いて地図を分類する問題を考察する。
全てのロボットが視覚知覚能力の局所化を図り、近隣のロボットと情報を交換できると考えられる。
グラフ分解手法を用いて,全てのロボットが近隣のロボットと通信し,情報を融合し,地図分類のための環境の最も有意義な部分への次の移動を計画できるオフライン学習構造を提案する。
主なアイデアは、与えられた無向グラフを有向星グラフの結合に分解し、有界数の星グラフを訓練するロボットを訓練することである。
これにより、オフライントレーニングの計算コストを大幅に削減し、学習をスケーラブルにする(ロボットの数に依存しない)。
本手法は,多数の通信ロボットを用いた大規模環境における高速地図分類に特に有用である。
提案手法の有効性を広範囲なシミュレーションにより検証する。 We consider the problem of classifying a map using a team of communicating robots. It is assumed that all robots have localized visual sensing capabilities and can exchange their information with neighboring robots. Using a graph decomposition technique, we proposed an offline learning structure that makes every robot capable of communicating with and fusing information from its neighbors to plan its next move towards the most informative parts of the environment for map classification purposes. The main idea is to decompose a given undirected graph into a union of directed star graphs and train robots w.r.t a bounded number of star graphs. This will significantly reduce the computational cost of offline training and makes learning scalable (independent of the number of robots). Our approach is particularly useful for fast map classification in large environments using a large number of communicating robots. We validate the usefulness of our proposed methodology through extensive simulations. | 翻訳日:2021-05-01 19:59:42 公開日:2021-03-10 |
# ロボットの協調運動に向けて : 変換木における運動政策のエンドツーエンド学習 Towards Coordinated Robot Motions: End-to-End Learning of Motion Policies on Transform Trees ( http://arxiv.org/abs/2012.13457v2 ) ライセンス: Link先を確認 | M. Asif Rana, Anqi Li, Dieter Fox, Sonia Chernova, Byron Boots, Nathan Ratliff | (参考訳) 複数のタスクを同時にこなすロボットの動きを生成することは、ロボットが課す幾何学的制約のために難しい。
本稿では,人間の実演から構造化ポリシーを学習し,マルチタスク問題を解決することを提案する。
我々の構造化ポリシーは、異なる空間におけるサブタスクポリシーを組み合わせるためのフレームワークであるRMPflowにインスパイアされている。
ポリシー構造は、1)タスクの完了に直接関連するスペースを特定する、2)学習する必要のない特定のタスクのためのポリシーを設計するためのインタフェースを提供する。
タスク空間上の動作の偏りを強調し,マルチタスク問題に適したエンドツーエンド学習目標関数を導出する。
さらに、学習したポリシークラスから発生する動きは安定することが保証される。
7-DOF Rethink Sawyer ロボットを用いた3つのロボット作業の質的,定量的評価により,提案手法の有効性を検証する。 Generating robot motion that fulfills multiple tasks simultaneously is challenging due to the geometric constraints imposed by the robot. In this paper, we propose to solve multi-task problems through learning structured policies from human demonstrations. Our structured policy is inspired by RMPflow, a framework for combining subtask policies on different spaces. The policy structure provides the user an interface to 1) specifying the spaces that are directly relevant to the completion of the tasks, and 2) designing policies for certain tasks that do not need to be learned. We derive an end-to-end learning objective function that is suitable for the multi-task problem, emphasizing the deviation of motions on task spaces. Furthermore, the motion generated from the learned policy class is guaranteed to be stable. We validate the effectiveness of our proposed learning framework through qualitative and quantitative evaluations on three robotic tasks on a 7-DOF Rethink Sawyer robot. | 翻訳日:2021-04-25 08:05:27 公開日:2021-03-10 |
# 外部記憶における結合による創発的シンボル Emergent Symbols through Binding in External Memory ( http://arxiv.org/abs/2012.14601v2 ) ライセンス: Link先を確認 | Taylor W. Webb, Ishan Sinha, Jonathan D. Cohen | (参考訳) 人間の知能の重要な側面は、高次元の感覚データから直接抽象的な規則を推論し、限られた量の訓練経験しか与えない能力である。
深層ニューラルネットワークアルゴリズムは、高次元データから直接学習する強力なツールであることが証明されているが、現在、抽象ルールをデータ効率良く導入するための能力が欠けているため、シンボル処理のメカニズムはこの能力を考慮する必要がある、と主張する人もいる。
本稿では,外部メモリを付加した再帰型ネットワークであるEmergent Symbol Binding Network (ESBN)を導入することにより,このギャップを埋める方向に進む。
このバインディングメカニズムにより、シンボルのような表現が、明示的にシンボル処理機構を組み込む必要なしに学習プロセスを通して実現され、ESBNは、それらのルールが適用される特定のエンティティから抽象化された方法でルールを学ぶことができる。
一連のタスクを通じて、このアーキテクチャは、限られた数のトレーニング例しか与えない新しいエンティティへの学習ルールのほぼ完全な一般化を示し、他の多くの競合ニューラルネットワークアーキテクチャよりも優れています。 A key aspect of human intelligence is the ability to infer abstract rules directly from high-dimensional sensory data, and to do so given only a limited amount of training experience. Deep neural network algorithms have proven to be a powerful tool for learning directly from high-dimensional data, but currently lack this capacity for data-efficient induction of abstract rules, leading some to argue that symbol-processing mechanisms will be necessary to account for this capacity. In this work, we take a step toward bridging this gap by introducing the Emergent Symbol Binding Network (ESBN), a recurrent network augmented with an external memory that enables a form of variable-binding and indirection. This binding mechanism allows symbol-like representations to emerge through the learning process without the need to explicitly incorporate symbol-processing machinery, enabling the ESBN to learn rules in a manner that is abstracted away from the particular entities to which those rules apply. Across a series of tasks, we show that this architecture displays nearly perfect generalization of learned rules to novel entities given only a limited number of training examples, and outperforms a number of other competitive neural network architectures. | 翻訳日:2021-04-18 20:42:46 公開日:2021-03-10 |
# VinVL:視覚言語モデルにおける視覚表現の再検討 VinVL: Revisiting Visual Representations in Vision-Language Models ( http://arxiv.org/abs/2101.00529v2 ) ライセンス: Link先を確認 | Pengchuan Zhang, Xiujun Li, Xiaowei Hu, Jianwei Yang, Lei Zhang, Lijuan Wang, Yejin Choi, Jianfeng Gao | (参考訳) 本稿では、視覚言語(VL)タスクの視覚表現を改善するための詳細な研究を行い、画像のオブジェクト中心表現を提供するための改善されたオブジェクト検出モデルを開発する。
最も広く使われている \emph{bottom-up and top-down} モデルである \cite{anderson2018bottom} と比較すると、新しいモデルはより大きく、VLタスクによく設計されており、複数のパブリックアノテーション付きオブジェクト検出データセットを組み合わせた、はるかに大きなトレーニングコーパスで事前訓練されている。
したがって、よりリッチな視覚オブジェクトと概念の集合の表現を生成することができる。
従来のVL研究は、視覚言語融合モデルの改善とオブジェクト検出モデルの改善に重点を置いていたが、VLモデルでは視覚的特徴が著しく重要であることを示す。
実験では,新しいオブジェクト検出モデルによって生成された視覚的特徴をトランスフォーマーベースのVL融合モデルである \oscar \cite{li2020oscar} に供給し,改良されたアプローチ \short\ を用いてVLモデルを事前学習し,広範囲の下流VLタスクで微調整する。
その結果,新しい視覚的特徴は全VLタスクのパフォーマンスを著しく改善し,7つの公開ベンチマークで最新の結果が得られた。
新しいオブジェクト検出モデルを公開します。 This paper presents a detailed study of improving visual representations for vision language (VL) tasks and develops an improved object detection model to provide object-centric representations of images. Compared to the most widely used \emph{bottom-up and top-down} model \cite{anderson2018bottom}, the new model is bigger, better-designed for VL tasks, and pre-trained on much larger training corpora that combine multiple public annotated object detection datasets. Therefore, it can generate representations of a richer collection of visual objects and concepts. While previous VL research focuses mainly on improving the vision-language fusion model and leaves the object detection model improvement untouched, we show that visual features matter significantly in VL models. In our experiments we feed the visual features generated by the new object detection model into a Transformer-based VL fusion model \oscar \cite{li2020oscar}, and utilize an improved approach \short\ to pre-train the VL model and fine-tune it on a wide range of downstream VL tasks. Our results show that the new visual features significantly improve the performance across all VL tasks, creating new state-of-the-art results on seven public benchmarks. We will release the new object detection model to public. | 翻訳日:2021-04-13 07:24:32 公開日:2021-03-10 |
# (参考訳) BERTによる特許における参照マイニングの改善 Improving reference mining in patents with BERT ( http://arxiv.org/abs/2101.01039v3 ) ライセンス: CC BY 4.0 | Ken Voskuil and Suzan Verberne | (参考訳) 本稿では,特許から科学的参照を抽出することの課題に対処する。
本稿では,この課題をシーケンスラベリングタスクとしてアプローチし,BERTモデルの長列抽出におけるメリットについて検討する。
科学文献への特許の言及は、科学と産業の関係を研究するために重要である。
ほとんどの先行研究は、この分析のために、特許アーカイブのメタデータで提供されるフロントページ引用のみを使用する。
本稿では,条件付き確率場 (crf) と flair を用いた参照抽出のための事前作業について述べる。
トレーニングデータの品質を改善し,ラベル付きデータ(BERT, BioBERT, sciBERT)に基づいて3つのBERTモデルをトレーニングする。
トレーニングデータの改善によって,トレーニングモデルの品質が大幅に向上することが分かりました。
さらに、BERTモデルはCRFとFrairを破り、クロスバリデーションで97%のリコールスコアを得た。
最良のモデルでは、3万の特許の膨大なコレクションをラベル付けし、引用を抽出し、それらをWeb of Scienceデータベースの出版物にマッチさせる。
従来のトレーニングデータとメソッドより50%多く参照し、合計で735万参照している。
これらの特許公開リンクにより、後続の研究は、どの種類の科学的研究が発明につながるかをさらに分析する。 In this paper we address the challenge of extracting scientific references from patents. We approach the problem as a sequence labelling task and investigate the merits of BERT models to the extraction of these long sequences. References in patents to scientific literature are relevant to study the connection between science and industry. Most prior work only uses the front-page citations for this analysis, which are provided in the metadata of patent archives. In this paper we build on prior work using Conditional Random Fields (CRF) and Flair for reference extraction. We improve the quality of the training data and train three BERT-based models on the labelled data (BERT, bioBERT, sciBERT). We find that the improved training data leads to a large improvement in the quality of the trained models. In addition, the BERT models beat CRF and Flair, with recall scores around 97% obtained with cross validation. With the best model we label a large collection of 33 thousand patents, extract the citations, and match them to publications in the Web of Science database. We extract 50% more references than with the old training data and methods: 735 thousand references in total. With these patent-publication links, follow-up research will further analyze which types of scientific work lead to inventions. | 翻訳日:2021-04-12 04:53:35 公開日:2021-03-10 |
# (参考訳) スパイキングニューロンに対する線形制約学習 Linear Constraints Learning for Spiking Neurons ( http://arxiv.org/abs/2103.12564v1 ) ライセンス: CC BY 4.0 | Huy Le Nguyen, Dominique Chu | (参考訳) スパイク符号化ニューロンを用いて正確なスパイクタイミングで情報をエンコーディングすることは、レート符号化アプローチよりも計算能力が高いことが示されている。
しかし、スパイクニューロンに対する既存の教師あり学習アルゴリズムは複雑であり、時間の複雑さをもたらす。
これらの制限に対処するために,教師付きマルチスパイク学習アルゴリズムを提案する。
本研究では,線形制約満足度問題として大量の重み付け更新を定式化し,効率的に解くことができる。
実験の結果,本手法はMNISTデータセット上の既存のアルゴリズムと比較して効率が良いことがわかった。
さらに, LIFニューロンモデルの分類能力について, システムのいくつかのパラメータと比較して実験を行った。 Encoding information with precise spike timings using spike-coded neurons has been shown to be more computationally powerful than rate-coded approaches. However, most existing supervised learning algorithms for spiking neurons are complicated and offer poor time complexity. To address these limitations, we propose a supervised multi-spike learning algorithm which reduces the required number of training iterations. We achieve this by formulating a large number of weight updates as a linear constraint satisfaction problem, which can be solved efficiently. Experimental results show this method offers better efficiency compared to existing algorithms on the MNIST dataset. Additionally, we provide experimental results on the classification capacity of the LIF neuron model, relative to several parameters of the system. | 翻訳日:2021-04-05 04:07:16 公開日:2021-03-10 |
# 部分微分方程式は、ニューラルネットワークの生成に必要なすべてである -- 物理人工知能システムの理論 Partial Differential Equations is All You Need for Generating Neural Architectures -- A Theory for Physical Artificial Intelligence Systems ( http://arxiv.org/abs/2103.08313v1 ) ライセンス: Link先を確認 | Ping Guo, Kaizhu Huang, and Zenglin Xu | (参考訳) 本研究では、統計物理学における反応拡散方程式、量子力学におけるSchr\"odinger方程式、パル軸光学におけるヘルムホルツ方程式を神経偏微分方程式(NPDE)に一般化し、人工知能研究の分野における基本方程式とみなすことができる。
数値解を見つけるためにNPDEを判別するために有限差分法を採用し、多層パーセプトロン、畳み込みニューラルネットワーク、繰り返しニューラルネットワークを含むディープニューラルネットワークアーキテクチャの基本構成ブロックを生成する。
また,適応モーメント推定,L-BFGS,擬似逆学習アルゴリズム,偏微分方程式制約最適化などの学習戦略についても述べる。
我々は、解釈可能なディープニューラルネットワークの物理的なイメージを示すことは重要であると信じており、アナログコンピューティングデバイス設計に適用でき、物理的人工知能への道を開くことができる。 In this work, we generalize the reaction-diffusion equation in statistical physics, Schr\"odinger equation in quantum mechanics, Helmholtz equation in paraxial optics into the neural partial differential equations (NPDE), which can be considered as the fundamental equations in the field of artificial intelligence research. We take finite difference method to discretize NPDE for finding numerical solution, and the basic building blocks of deep neural network architecture, including multi-layer perceptron, convolutional neural network and recurrent neural networks, are generated. The learning strategies, such as Adaptive moment estimation, L-BFGS, pseudoinverse learning algorithms and partial differential equation constrained optimization, are also presented. We believe it is of significance that presented clear physical image of interpretable deep neural networks, which makes it be possible for applying to analog computing device design, and pave the road to physical artificial intelligence. | 翻訳日:2021-04-05 01:03:35 公開日:2021-03-10 |
# BrainNetGAN:認知症分類のための生成的対向ネットワークを用いた脳接続データの拡張 BrainNetGAN: Data augmentation of brain connectivity using generative adversarial network for dementia classification ( http://arxiv.org/abs/2103.08494v1 ) ライセンス: Link先を確認 | Chao Li, Yiran Wei, Xi Chen | (参考訳) アルツハイマー病 (ad) は最も一般的な年齢関連認知症である。
正確な管理のために認知症リスクのある個人を特定することは依然として課題である。
脳MRIは、脳の老化を検出する非侵襲的なバイオマーカーを提供する。
拡散MRIで検出された脳構造変化が認知症と関連しているという以前の証拠がある。
マウント研究は脳を複雑なネットワークとして概念化し、様々な神経学的、精神医学的障害を特徴づけるこのアプローチの有用性を示した。
したがって,構造的結合性は認知症分類において有望である。
提案したBrainNetGANは、二元認知症分類タスクのための脳構造接続行列を増強する、生成的対向ネットワークである。
拡散MRIデータに対するトラクトグラフィーを用いて、分離した脳領域間の構造接続行列を構築した。
BrainNetGANモデルは、実際の脳ネットワークデータの潜伏分布を反映する偽の脳接続行列を生成するように訓練されている。
最後に,二元性認知症分類のための畳み込みニューラルネットワーク分類器を提案する。
数値計算の結果,BrainNetGANデータセットを用いて,テストセットのバイナリ分類性能が改善された。
提案手法では,任意の数の拡張連結行列を素早く合成でき,同様の分類タスクに容易に移行できる。 Alzheimer's disease (AD) is the most common age-related dementia. It remains a challenge to identify the individuals at risk of dementia for precise management. Brain MRI offers a noninvasive biomarker to detect brain aging. Previous evidence shows that the brain structural change detected by diffusion MRI is associated with dementia. Mounting studies has conceptualised the brain as a complex network, which has shown the utility of this approach in characterising various neurological and psychiatric disorders. Therefore, the structural connectivity shows promise in dementia classification. The proposed BrainNetGAN is a generative adversarial network variant to augment the brain structural connectivity matrices for binary dementia classification tasks. Structural connectivity matrices between separated brain regions are constructed using tractography on diffusion MRI data. The BrainNetGAN model is trained to generate fake brain connectivity matrices, which are expected to reflect latent distribution of the real brain network data. Finally, a convolutional neural network classifier is proposed for binary dementia classification. Numerical results show that the binary classification performance in the testing set was improved using the BrainNetGAN augmented dataset. The proposed methodology allows quick synthesis of an arbitrary number of augmented connectivity matrices and can be easily transferred to similar classification tasks. | 翻訳日:2021-04-05 01:02:59 公開日:2021-03-10 |
# 資金調達における最適ターゲット:機械学習アプローチ Optimal Targeting in Fundraising: A Machine Learning Approach ( http://arxiv.org/abs/2103.10251v1 ) ライセンス: Link先を確認 | Tobias Cagala, Ulrich Glogowsky, Johannes Rincke, Anthony Strittmatter | (参考訳) 本稿では,資金調達効果を高める手段として,最適ターゲティングについて検討する。
我々は無条件ギフトで潜在的ドナーをランダムに提供し、因果機械学習技術を用いて、この資金集めツールを予測されたネットドナーに"最適"にターゲットする。
この戦略により、我々の募金活動は損失を回避し、利用可能な資金を大幅に増やし、その結果、サービスと商品の供給を増やすことができる。
さらに、これらの利益を実現するために、慈善団体は簡単に利用できるデータに頼るだけでよい。
無駄な資源をターゲットとした資金調達を控える慈善団体を結論づける。 This paper studies optimal targeting as a means to increase fundraising efficacy. We randomly provide potential donors with an unconditional gift and use causal-machine learning techniques to "optimally" target this fundraising tool to the predicted net donors: individuals who, in expectation, give more than their solicitation costs. With this strategy, our fundraiser avoids lossy solicitations, significantly boosts available funds, and, consequently, can increase service and goods provision. Further, to realize these gains, the charity can merely rely on readily available data. We conclude that charities that refrain from fundraising targeting waste significant resources. | 翻訳日:2021-04-05 01:02:26 公開日:2021-03-10 |
# Lane-Keeping性能に基づく自動機械学習(AutoML)によるトラクション検出 An Automated Machine Learning (AutoML) Method for Driving Distraction Detection Based on Lane-Keeping Performance ( http://arxiv.org/abs/2103.08311v1 ) ライセンス: Link先を確認 | Chen Chai, Juanwu Lu, Xuan Jiang, Xiupeng Shi, Zeng Zeng | (参考訳) スマートフォンの豊か化により、携帯電話の使用による混乱が安全を脅かされている。
運転の邪魔を和らげる有望な方法は、それらを検出し、リアルタイムの安全警告を与えることである。
しかし、既存の検出アルゴリズムは2つの大きな課題に直面している。車載カメラセンサーによるユーザ受け入れの低下と、ドライバの個人差による事前学習モデルの不確実性である。
そこで本研究では,車線保持性能データに基づいて,最適モデルを自己学習するドメイン固有自動機械学習(AutoML)を提案する。
AutoMLは、知識ベースの特徴抽出、再帰的特徴除去(RFE)による特徴選択、アルゴリズムの選択、ベイズ最適化によるハイパーパラメータ自動チューニングを含む、重要なモデリングステップを自動最適化パイプラインに統合する。
XGBoostをベースとしたAutoMLメソッドはAutoGBMと呼ばれ、予測と特徴ランキングのための分類器として構築されている。
このモデルは、短いメッセージのブラウジング、長いメッセージのブラウジング、電話の応答という、電話使用による3つの運転妨害のシミュレーション実験に基づいてテストされる。
提案手法は, グループレベルでは80\%, 個人精度では90\%の予測能力を有し, 良好な結果予測を実現するため, 信頼度が高く, 携帯電話関連運転障害の予測に有望であることがわかった。
さらに、各障害タイプとドライバが異なる最適化されたハイパーパラメータ値を必要とするという事実も発覚し、運転障害を検出するためにAutoMLを利用する必要性を再確認した。
目的のAutoGBMは機能が少ないだけでなく、システム設計に関するデータ駆動の洞察も提供する。 With the enrichment of smartphones, driving distractions caused by phone usages have become a threat to driving safety. A promising way to mitigate driving distractions is to detect them and give real-time safety warnings. However, existing detection algorithms face two major challenges, low user acceptance caused by in-vehicle camera sensors, and uncertain accuracy of pre-trained models due to drivers individual differences. Therefore, this study proposes a domain-specific automated machine learning (AutoML) to self-learn the optimal models to detect distraction based on lane-keeping performance data. The AutoML integrates the key modeling steps into an auto-optimizable pipeline, including knowledge-based feature extraction, feature selection by recursive feature elimination (RFE), algorithm selection, and hyperparameter auto-tuning by Bayesian optimization. An AutoML method based on XGBoost, termed AutoGBM, is built as the classifier for prediction and feature ranking. The model is tested based on driving simulator experiments of three driving distractions caused by phone usage: browsing short messages, browsing long messages, and answering a phone call. The proposed AutoGBM method is found to be reliable and promising to predict phone-related driving distractions, which achieves satisfactory results prediction, with a predictive power of 80\% on group level and 90\% on individual level accuracy. Moreover, the results also evoke the fact that each distraction types and drivers require different optimized hyperparameters values, which reconfirm the necessity of utilizing AutoML to detect driving distractions. The purposed AutoGBM not only produces better performance with fewer features; but also provides data-driven insights about system design. | 翻訳日:2021-04-05 01:02:15 公開日:2021-03-10 |
# ニューラルアーキテクチャ探索のためのトレーニングレスモデル性能推定 Trainless Model Performance Estimation for Neural Architecture Search ( http://arxiv.org/abs/2103.08312v1 ) ライセンス: Link先を確認 | Ekaterina Gracheva | (参考訳) ニューラルアーキテクチャサーチは、ディープラーニング分野において欠かせない部分となっている。
現代的な手法では、タスクに最適なアーキテクチャを見つけ出すことができますし、スクラッチからネットワークを構築することもできますが、通常は膨大なトレーニングが必要です。
本稿では,その非学習性能に基づいてタスクに適したアーキテクチャを見出すための簡易な手法を提案する。
本稿では,基準偏差を平均値で割った非トレーニング精度の相対標準偏差として,メトリックスコアを導入する。
各ニューラルネットワークアーキテクチャの統計は、単一のデータバッチ上の異なる種を持つ複数の初期化で計算される。
最も低いメートル法スコアを持つアーキテクチャは、CIFAR-10、CIFAR-100、ImageNetのダウンスケール版に対して平均911.90 \pm 2.27$、64.08 \pm 5.63$、38.76 \pm 6.62$の精度を持つ。
その結果、優れたアーキテクチャはトレーニング前の初期化に対して安定すべきであることが示された。
この手続きにはcifarが約190ドル、imagenetが133.9ドル、画像が256ドル、初期化が100ドルかかる。 Neural architecture search has become an indispensable part of the deep learning field. Modern methods allow to find out the best performing architectures for a task, or to build a network from scratch, but they usually require a tremendous amount of training. In this paper we present a simple method, allowing to discover a suitable architecture for a task based on its untrained performance. We introduce the metric score as the relative standard deviation of the untrained accuracy, which is the standard deviation divided by the mean. Statistics for each neural architecture are calculated over multiple initialisations with different seeds on a single batch of data. An architecture with the lowest metric score value has on average an accuracy of $91.90 \pm 2.27$, $64.08 \pm 5.63$ and $38.76 \pm 6.62$ for CIFAR-10, CIFAR-100 and a downscaled version of ImageNet, respectively. The results show that a good architecture should be stable against initialisations before training. The procedure takes about $190$ s for CIFAR and $133.9$ s for ImageNet, on a batch of $256$ images and $100$ initialisations. | 翻訳日:2021-04-05 01:01:45 公開日:2021-03-10 |
# エネルギー劣化ネットワーク(EDeN) Energy Decay Network (EDeN) ( http://arxiv.org/abs/2103.15552v1 ) ライセンス: Link先を確認 | Jamie Nicholas Shelley, Optishell Consultancy | (参考訳) この論文とそれに伴うPythonとC++ Frameworkは、狭義の(差別に基づく)AIで認識された問題の著者たちの製品である。
(Artificial Intelligence) The Framework attempts to develop a genetic transfer of experience through potential structural expressions using a common regulation/exchange value (energy) to create a model whereby neural architecture and all unit processes are co-dependently developed by genetic and real time signal processing influences; successful routes are defined by stability of the spike distribution per epoch which is influenced by genetically encoded morphological development biases.These principles are aimed towards creating a diverse and robust network that is capable of adapting to general tasks by training within a simulation designed for transfer learning to other mediums at scale. This paper and accompanying Python and C++ Framework is the product of the authors perceived problems with narrow (Discrimination based) AI. (Artificial Intelligence) The Framework attempts to develop a genetic transfer of experience through potential structural expressions using a common regulation/exchange value (energy) to create a model whereby neural architecture and all unit processes are co-dependently developed by genetic and real time signal processing influences; successful routes are defined by stability of the spike distribution per epoch which is influenced by genetically encoded morphological development biases.These principles are aimed towards creating a diverse and robust network that is capable of adapting to general tasks by training within a simulation designed for transfer learning to other mediums at scale. | 翻訳日:2021-04-05 01:01:27 公開日:2021-03-10 |
# 生成対立ネットワークを用いた事前学習したエンドツーエンド音声認識の微調整 Fine-tuning of Pre-trained End-to-end Speech Recognition with Generative Adversarial Networks ( http://arxiv.org/abs/2103.13329v1 ) ライセンス: Link先を確認 | Md Akmal Haidar and Mehdi Rezagholizadeh | (参考訳) GAN(Generative Adversarial Network)を用いたエンド・ツー・エンド(E2E)ASRシステムの逆トレーニングを低リソースASRコーパスに対して行った。
GANは、2プレイヤーのmin-maxゲームを通して真のデータ表現を学ぶのに役立つ。
しかし、ganフレームワークを用いた大規模asrコーパスを用いたe2e asrモデルのトレーニングは、高分散勾配更新と顔収束問題のために過度に時間がかかる可能性があるため、検討されていない。
本稿では,asrモデルが生成器として動作し,判別器が実データとasr出力を区別しようとするgan目的を用いて,事前学習したasrモデルを微調整する新しい枠組みを提案する。
ASRモデルが事前学習されているため、ASRモデル出力(ソフト分布ベクトル)が判別器からより高いスコアを得るのに役立ち、GANフレームワーク内で識別器のタスクを困難にすることで、微調整段階におけるASRモデルの性能を向上させることができると仮定する。
ここでは、事前学習されたASRモデルを、追加の対向損失を用いて判別器に対して微調整する。
完全なLibriSpeechデータセットを用いた実験により,提案手法はベースラインや従来のGANベースの逆数モデルよりも優れていることがわかった。 Adversarial training of end-to-end (E2E) ASR systems using generative adversarial networks (GAN) has recently been explored for low-resource ASR corpora. GANs help to learn the true data representation through a two-player min-max game. However, training an E2E ASR model using a large ASR corpus with a GAN framework has never been explored, because it might take excessively long time due to high-variance gradient updates and face convergence issues. In this paper, we introduce a novel framework for fine-tuning a pre-trained ASR model using the GAN objective where the ASR model acts as a generator and a discriminator tries to distinguish the ASR output from the real data. Since the ASR model is pre-trained, we hypothesize that the ASR model output (soft distribution vectors) helps to get higher scores from the discriminator and makes the task of the discriminator harder within our GAN framework, which in turn improves the performance of the ASR model in the fine-tuning stage. Here, the pre-trained ASR model is fine-tuned adversarially against the discriminator using an additional adversarial loss. Experiments on full LibriSpeech dataset show that our proposed approach outperforms baselines and conventional GAN-based adversarial models. | 翻訳日:2021-04-05 01:01:18 公開日:2021-03-10 |
# 大規模産業用IoTのための機械学習 Machine Learning for Massive Industrial Internet of Things ( http://arxiv.org/abs/2103.08308v1 ) ライセンス: Link先を確認 | Hui Zhou, Changyang She, Yansha Deng, Mischa Dohler, and Arumugam Nallanathan | (参考訳) 産業用モノのインターネット(Industrial Internet of Things, IIoT)は、モノのインターネット(Internet of Things)技術を産業用環境に統合することによって、将来の製造設備に革命をもたらす。
大規模なIIoTデバイスのデプロイでは、無線ネットワークがさまざまなQoS(Quality-of-Service)要件でユビキタス接続をサポートすることは困難である。
機械学習は無線ネットワークを最適化するための強力なデータ駆動ツールとされているが、独自の特徴を持つ巨大なIIoT問題に機械学習を適用する方法はまだ未解決である。
本稿では,一般的な大規模非クリティカルかつクリティカルなIIoTユースケースのQoS要件をまず要約する。
次に、巨大なIIoTシナリオにおけるユニークな特徴と、その制限と潜在的研究方向で対応する機械学習ソリューションを特定します。
さらに、大規模IIoTにおける個別層と層間問題に対する既存の機械学習ソリューションについて述べる。
最後に,深層ニューラルネットワークと深層強化学習技術に基づく大規模アクセス問題の事例研究を行い,大規模iiotシナリオにおける機械学習の有効性を検証する。 Industrial Internet of Things (IIoT) revolutionizes the future manufacturing facilities by integrating the Internet of Things technologies into industrial settings. With the deployment of massive IIoT devices, it is difficult for the wireless network to support the ubiquitous connections with diverse quality-of-service (QoS) requirements. Although machine learning is regarded as a powerful data-driven tool to optimize wireless network, how to apply machine learning to deal with the massive IIoT problems with unique characteristics remains unsolved. In this paper, we first summarize the QoS requirements of the typical massive non-critical and critical IIoT use cases. We then identify unique characteristics in the massive IIoT scenario, and the corresponding machine learning solutions with its limitations and potential research directions. We further present the existing machine learning solutions for individual layer and cross-layer problems in massive IIoT. Last but not the least, we present a case study of massive access problem based on deep neural network and deep reinforcement learning techniques, respectively, to validate the effectiveness of machine learning in massive IIoT scenario. | 翻訳日:2021-04-05 01:00:33 公開日:2021-03-10 |
# 脳-コンピュータインタフェースにおける脳波モータ画像復号のためのモデル非依存メタラーニング Model-Agnostic Meta-Learning for EEG Motor Imagery Decoding in Brain-Computer-Interfacing ( http://arxiv.org/abs/2103.08664v1 ) ライセンス: Link先を確認 | Denghao Li, Pablo Ortega, Xiaoxi Wei and Aldo Faisal | (参考訳) 本稿では,脳波BCIデコーダのトレーニングのためのメタラーニングのアイデアを紹介する。
Meta-Learningは、機械学習システムのトレーニング方法であり、学習を学ぶ。
ここでは、メタラーニングを単純なDeep Learning BCIアーキテクチャに適用し、同じアーキテクチャ上でのトランスファーラーニングと比較する。
私たちのメタラーニング戦略は、bciデコーダの最適なパラメータを見つけ、異なるユーザと記録セッションを素早く一般化できるようにします。
我々のアルゴリズムを physionet eeg motor image dataset でテストした。
提案手法は運動画像の分類精度を60%から80%に向上させ,低データ条件下での他のアルゴリズムよりも優れていた。
私たちは、メタラーニングや学習から学習へのアプローチを確立することで、ニューラルネットワークのデコーダを迅速にセットアップし、それらを日々の生活にもっと適させるという課題に、ニューラルエンジニアリングと人間が直面するのに役立つと信じています。 We introduce here the idea of Meta-Learning for training EEG BCI decoders. Meta-Learning is a way of training machine learning systems so they learn to learn. We apply here meta-learning to a simple Deep Learning BCI architecture and compare it to transfer learning on the same architecture. Our Meta-learning strategy operates by finding optimal parameters for the BCI decoder so that it can quickly generalise between different users and recording sessions -- thereby also generalising to new users or new sessions quickly. We tested our algorithm on the Physionet EEG motor imagery dataset. Our approach increased motor imagery classification accuracy between 60% to 80%, outperforming other algorithms under the little-data condition. We believe that establishing the meta-learning or learning-to-learn approach will help neural engineering and human interfacing with the challenges of quickly setting up decoders of neural signals to make them more suitable for daily-life. | 翻訳日:2021-04-05 01:00:16 公開日:2021-03-10 |
# emonet: 多言語音声感情認識のためのトランスファー学習フレームワーク EmoNet: A Transfer Learning Framework for Multi-Corpus Speech Emotion Recognition ( http://arxiv.org/abs/2103.08310v1 ) ライセンス: Link先を確認 | Maurice Gerczuk and Shahin Amiriparian and Sandra Ottl and Bj\"orn Schuller | (参考訳) 本稿では,多体音声感情認識(SER)の話題について,深層移動学習の観点から考察する。
感情音声データの大規模なコーパスであるエモセットは、既存の多数のサーコーパスから組み立てられる。
EmoSetには、26のSERコーパスから84181のオーディオ録音が含まれており、合計65時間を超える。
コーパスを使用して、マルチコーパス音声感情認識のための新しいフレームワーク、すなわちEmoNetを作成する。
ディープresnetアーキテクチャと残差アダプタの組み合わせは、マルチドメイン視覚認識の分野からエモセット上のマルチコーパスサーに転送される。
ResNetの2つの適切なベースラインと従来型のトレーニングおよび転送設定と比較して、残留アダプタアプローチは、26コーパスすべてでマルチドメインSERモデルのパラメータ効率的なトレーニングを可能にする。
1つのデータベースでトレーニングされたモデルのパラメータ数を3.5ドルしか持たない共有モデルは、EmoSetの26コーパスのうち21でパフォーマンスが向上する。
McNemarのテストによって測定されたこれらの改善は、10個のデータセットに対して$p<0.05$でさらに重要であり、残りのアダプタ転送実験でわずか2つのコーパスしか減少しない。
最後に、EmoNetフレームワークをhttps://github.com/EIHW/EmoNet.comでユーザと開発者に公開しています。
EmoNetは、包括的にドキュメント化され、さまざまなマルチコーパス転送学習設定で使用できる広範なコマンドラインインターフェースを提供する。 In this manuscript, the topic of multi-corpus Speech Emotion Recognition (SER) is approached from a deep transfer learning perspective. A large corpus of emotional speech data, EmoSet, is assembled from a number of existing SER corpora. In total, EmoSet contains 84181 audio recordings from 26 SER corpora with a total duration of over 65 hours. The corpus is then utilised to create a novel framework for multi-corpus speech emotion recognition, namely EmoNet. A combination of a deep ResNet architecture and residual adapters is transferred from the field of multi-domain visual recognition to multi-corpus SER on EmoSet. Compared against two suitable baselines and more traditional training and transfer settings for the ResNet, the residual adapter approach enables parameter efficient training of a multi-domain SER model on all 26 corpora. A shared model with only $3.5$ times the number of parameters of a model trained on a single database leads to increased performance for 21 of the 26 corpora in EmoSet. Measured by McNemar's test, these improvements are further significant for ten datasets at $p<0.05$ while there are just two corpora that see only significant decreases across the residual adapter transfer experiments. Finally, we make our EmoNet framework publicly available for users and developers at https://github.com/EIHW/EmoNet. EmoNet provides an extensive command line interface which is comprehensively documented and can be used in a variety of multi-corpus transfer learning settings. | 翻訳日:2021-04-05 00:59:27 公開日:2021-03-10 |
# オートエンコーダネットワークを用いた離散減衰信号の高速パラメータ推定 Rapid parameter estimation of discrete decaying signals using autoencoder networks ( http://arxiv.org/abs/2103.08663v1 ) ライセンス: Link先を確認 | Jim C. Visschers, Dmitry Budker, Lykourgos Bougas | (参考訳) 本研究では,離散サンプリング信号の信号パラメータの高速抽出にオートエンコーダネットワークを用いることを実証する。
特に、密度の高いオートエンコーダネットワークを用いて、指数関数的減衰信号や減衰振動から興味のあるパラメータを抽出する。
3段階のトレーニング手法とニューラルネットワークサイズを慎重に選択することにより、従来のアルゴリズムによる信号分析手法と比較して、オートエンコーダネットワークの潜時空間から直接関連する信号パラメータを大幅に改善できる。
本手法の精度と精度は従来のアルゴリズムに基づく信号解析法とよく似ており, 抽出された信号パラメータがクレーア・ラオ下限によって与えられた基本パラメータ推定限界に近づいていることを示す。
さらに, オートエンコーダネットワークは信号解析が可能であり, パラメータ抽出は75 khzの速度で, 従来の手法と同等の精度で桁違いに高速化できることを示した。
最後に,データ取得システムとデータ解析システム間の転送速度を最適化することで,200khz以下の解析レートが実現可能であることを示す。 In this work we demonstrate the use of autoencoder networks for rapid extraction of the signal parameters of discretely sampled signals. In particular, we use dense autoencoder networks to extract the parameters of interest from exponentially decaying signals and decaying oscillations. Using a three-stage training method and careful choice of the neural network size, we are able to retrieve the relevant signal parameters directly from the latent space of the autoencoder network at significantly improved rates compared to traditional algorithmic signal-analysis approaches. We show that the achievable precision and accuracy of this method of analysis is similar to conventional, algorithm-based signal analysis methods, by demonstrating that, the extracted signal parameters are approaching their fundamental parameter estimation limit as provided by the Cram\'er-Rao lower bound. Furthermore, we demonstrate that autoencoder networks are able to achieve signal analysis, and, hence, parameter extraction, at rates of 75 kHz, orders-of-magnitude faster than conventional techniques with equal precision. Finally, we explore the limitations of our approach, demonstrating that analysis rates of $>$200 kHz are feasible with further optimization of the transfer rate between the data-acquisition system and data-analysis system. | 翻訳日:2021-04-05 00:59:06 公開日:2021-03-10 |
# リアルタイム手振り認識のための新しい形状マッチング記述子 A novel shape matching descriptor for real-time hand gesture recognition ( http://arxiv.org/abs/2101.03923v2 ) ライセンス: Link先を確認 | Michalis Lazarou, Bo Li, Tania Stathaki | (参考訳) 現在の手のジェスチャー認識手法は機械学習の利用に大きく依存している。
しかし、例えばデータが不足しているような状況では、機械学習をうまく適用できないシナリオがある。
これは、クエリと各ジェスチャーがユニークなクラスを表すハンドジェスチャのデータセットの間に1対1のマッチングが必要な場合である。
学習アルゴリズムを訓練できない状況では、特徴抽出のような古典的なコンピュータビジョン技術を使ってオブジェクト間の類似性を識別することができる。
形状は画像から抽出できる最も重要な特徴の1つであるが、最も正確な形状マッチングアルゴリズムはリアルタイムアプリケーションでは計算的に非効率である。
本稿では,リアルタイムハンドジェスチャー認識のための新しい形状マッチング手法を提案する。
筆者らが収集した手振りデータセットとMPEG-7データセットの修正版を用いて,本手法と他の形状マッチング手法との比較実験を行った。
提案手法は,他の手法よりも優れ,リアルタイムアプリケーションにおける精度と計算効率の優れた組み合わせを提供する。 The current state-of-the-art hand gesture recognition methodologies heavily rely in the use of machine learning. However there are scenarios that machine learning cannot be applied successfully, for example in situations where data is scarce. This is the case when one-to-one matching is required between a query and a dataset of hand gestures where each gesture represents a unique class. In situations where learning algorithms cannot be trained, classic computer vision techniques such as feature extraction can be used to identify similarities between objects. Shape is one of the most important features that can be extracted from images, however the most accurate shape matching algorithms tend to be computationally inefficient for real-time applications. In this work we present a novel shape matching methodology for real-time hand gesture recognition. Extensive experiments were carried out comparing our method with other shape matching methods with respect to accuracy and computational complexity using our own collected hand gesture dataset and a modified version of the MPEG-7 dataset.%that is widely used for comparing 2D shape matching algorithms. Our method outperforms the other methods and provides a good combination of accuracy and computational efficiency for real-time applications. | 翻訳日:2021-04-04 14:40:40 公開日:2021-03-10 |
# (参考訳) MLPF:グラフニューラルネットワークを用いた効率的な機械学習粒子フロー再構成 MLPF: Efficient machine-learned particle-flow reconstruction using graph neural networks ( http://arxiv.org/abs/2101.08578v2 ) ライセンス: CC BY 4.0 | Joosep Pata, Javier Duarte, Jean-Roch Vlimant, Maurizio Pierini, Maria Spiropulu | (参考訳) 汎用粒子検出器では、粒子フローアルゴリズムを用いて、熱量計とトラッカーからの情報を組み合わせることで、事象の包括的粒子レベルビューを再構築することができ、ジェットの検出器分解能と欠落する横運動量を大幅に改善することができる。
CERN 大型ハドロン衝突型加速器 (LHC) の高輝度化の計画を考えると、既存の再構成アルゴリズムを再検討し、多くの陽子-陽子相互作用を持つ環境において、物理と計算性能の両方が十分であることを保証する必要がある。
機械学習は、ヘテロジニアスコンピューティングプラットフォームに適した計算効率の良いイベント再構成の見通しを提供する一方で、粒状検出器のルールベースのアルゴリズムよりも、再現性を大幅に改善する。
本稿では、並列化可能で計算効率が高く、スケーラブルなグラフニューラルネットワークをシミュレーションイベントにマルチタスク目的を用いて最適化した、新しい、エンドツーエンドのトレーニング可能な、マシン主導のパーティクルフローアルゴリズムであるmlpfを紹介する。
プロトン-陽子衝突で生成するトップクォーク-反クォーク対のモンテカルロデータセットにおけるmlpfアルゴリズムの物理と計算性能について,高輝度lhcに期待される条件と類似した条件で報告する。
mlpfアルゴリズムは、ルールベースベンチマークアルゴリズムに対する物理応答を改善し、ハイピレップ環境における計算スケーラブルな粒子フロー再構成を実証する。 In general-purpose particle detectors, the particle-flow algorithm may be used to reconstruct a comprehensive particle-level view of the event by combining information from the calorimeters and the trackers, significantly improving the detector resolution for jets and the missing transverse momentum. In view of the planned high-luminosity upgrade of the CERN Large Hadron Collider (LHC), it is necessary to revisit existing reconstruction algorithms and ensure that both the physics and computational performance are sufficient in an environment with many simultaneous proton-proton interactions (pileup). Machine learning may offer a prospect for computationally efficient event reconstruction that is well-suited to heterogeneous computing platforms, while significantly improving the reconstruction quality over rule-based algorithms for granular detectors. We introduce MLPF, a novel, end-to-end trainable, machine-learned particle-flow algorithm based on parallelizable, computationally efficient, and scalable graph neural networks optimized using a multi-task objective on simulated events. We report the physics and computational performance of the MLPF algorithm on a Monte Carlo dataset of top quark-antiquark pairs produced in proton-proton collisions in conditions similar to those expected for the high-luminosity LHC. The MLPF algorithm improves the physics response with respect to a rule-based benchmark algorithm and demonstrates computationally scalable particle-flow reconstruction in a high-pileup environment. | 翻訳日:2021-03-21 15:35:09 公開日:2021-03-10 |
# (参考訳) 経験的モードモデリング: ノイズデータからの非線形ダイナミクスの復元と予測のためのデータ駆動アプローチ Empirical Mode Modeling: A data-driven approach to recover and forecast nonlinear dynamics from noisy data ( http://arxiv.org/abs/2103.07281v1 ) ライセンス: CC BY 4.0 | Joseph Park, Gerald M Pao, Erik Stabenau, George Sugihara, Thomas Lorimer | (参考訳) データ駆動型モデルフリー分析は、複雑な非線形システムの発見と予測のための自然な選択である。
システム状態空間で動作する方法は、明示的な多次元状態空間を必要とするか、あるいは利用可能な観測から近似されたものである。
観測データはノイズでしばしばサンプリングされるため、ノイズは解析性能を低下させる状態空間表現を損なう可能性がある。
そこで,我々は経験的モードモデリングと呼ぶ経験的動的モデリングを用いて経験的モード分解の合成を評価し,ノイズの存在下での状態空間表現の情報量を増やす。
数学的、生態学的に重要な3つの状態空間表現に対する物理応用の評価は、経験的モードモデリングがノイズの存在下でデータ駆動、モデルフリー、状態空間分析に有用であることを示唆している。 Data-driven, model-free analytics are natural choices for discovery and forecasting of complex, nonlinear systems. Methods that operate in the system state-space require either an explicit multidimensional state-space, or, one approximated from available observations. Since observational data are frequently sampled with noise, it is possible that noise can corrupt the state-space representation degrading analytical performance. Here, we evaluate the synthesis of empirical mode decomposition with empirical dynamic modeling, which we term empirical mode modeling, to increase the information content of state-space representations in the presence of noise. Evaluation of a mathematical, and, an ecologically important geophysical application across three different state-space representations suggests that empirical mode modeling may be a useful technique for data-driven, model-free, state-space analysis in the presence of noise. | 翻訳日:2021-03-16 03:52:44 公開日:2021-03-10 |
# (参考訳) PatchNet -- 効率的なビデオ処理のための短距離テンプレートマッチング PatchNet -- Short-range Template Matching for Efficient Video Processing ( http://arxiv.org/abs/2103.07371v1 ) ライセンス: CC0 1.0 | Huizi Mao, Sibo Zhu, Song Han, William J. Dally | (参考訳) オブジェクト認識は、多くのビデオ処理タスクにおいて基本的な問題であり、デバイス上のビデオ認識の道のりを、低い計算コストで正確に見つけ出す。
PatchNetは、隣接するビデオフレーム内のオブジェクトにマッチする効率的な畳み込みニューラルネットワークである。
ピクセル機能の代わりにパッチワイドの相関機能を学ぶ。
PatchNetは非常にコンパクトで、わずか58MFLOPs、$5\times$ MobileNetV2よりシンプルです。
ビデオオブジェクト検出と視覚オブジェクト追跡という2つのタスクでその応用を実演する。
ImageNet VIDでは、PatchNetはR-FCN ResNet-101のフロップを5倍、EfficientDet-D0は3.4倍、mAP損失は1%未満です。
OTB2015 では、PatchNet は SiamFC と SiamRPN を 2.5x 削減します。
Jetson Nanoの実験では、フロップ減少に伴う2.8倍から4.3倍の速度アップが実証されている。
コードはhttps://github.com/RalphMao/PatchNetで公開されている。 Object recognition is a fundamental problem in many video processing tasks, accurately locating seen objects at low computation cost paves the way for on-device video recognition. We propose PatchNet, an efficient convolutional neural network to match objects in adjacent video frames. It learns the patchwise correlation features instead of pixel features. PatchNet is very compact, running at just 58MFLOPs, $5\times$ simpler than MobileNetV2. We demonstrate its application on two tasks, video object detection and visual object tracking. On ImageNet VID, PatchNet reduces the flops of R-FCN ResNet-101 by 5x and EfficientDet-D0 by 3.4x with less than 1% mAP loss. On OTB2015, PatchNet reduces SiamFC and SiamRPN by 2.5x with no accuracy loss. Experiments on Jetson Nano further demonstrate 2.8x to 4.3x speed-ups associated with flops reduction. Code is open sourced at https://github.com/RalphMao/PatchNet. | 翻訳日:2021-03-16 03:41:16 公開日:2021-03-10 |
# (参考訳) Jigsawのパズルとしての顔画像:生成的対向ネットワークを用いた機械の人間の顔の合成知覚 Face Images as Jigsaw Puzzles: Compositional Perception of Human Faces for Machines Using Generative Adversarial Networks ( http://arxiv.org/abs/2103.06331v1 ) ライセンス: CC BY 4.0 | Mahla Abdolahnejad and Peter Xiaoping Liu | (参考訳) HRI(Human-Robot-Interaction)の重要な目標は、機械が人間の顔認識に近いレベルを達成することです。
機械学習と人間の知能の重要な違いの1つは、構成性の欠如です。
本稿では,より小さな部品からなる顔画像の分布を生成的敵ネットワークで学習するための新しい手法を提案する。
これにより、より柔軟なマシンフェイス認識と、外部トレーニング例への一般化が容易になる。
このモデルでは,部品を組み立てることで,現実的な高品質な顔画像が作成可能であることを実証する。
さらに,このモデルが顔の部位と分布の関係を学習することを示した。
したがって、特定の顔の部分は生成された顔画像間で交換可能である。 An important goal in human-robot-interaction (HRI) is for machines to achieve a close to human level of face perception. One of the important differences between machine learning and human intelligence is the lack of compositionality. This paper introduces a new scheme to enable generative adversarial networks to learn the distribution of face images composed of smaller parts. This results in a more flexible machine face perception and easier generalization to outside training examples. We demonstrate that this model is able to produce realistic high-quality face images by generating and piecing together the parts. Additionally, we demonstrate that this model learns the relations between the facial parts and their distributions. Therefore, the specific facial parts are interchangeable between generated face images. | 翻訳日:2021-03-13 10:58:41 公開日:2021-03-10 |
# (参考訳) 変分オートエンコーダの敵攻撃に対する脆弱性診断 Diagnosing Vulnerability of Variational Auto-Encoders to Adversarial Attacks ( http://arxiv.org/abs/2103.06701v1 ) ライセンス: CC BY 4.0 | Anna Kuzina, Max Welling, Jakub M. Tomczak | (参考訳) 本研究では,変分オートエンコーダ(VAE)に対する敵攻撃について検討する。
所定の潜入コード(監視攻撃)を取得するためにデータポイントを変更するか、または劇的に異なるコード(監視されていない攻撃)を取得する方法を示します。
モデル修正($-VAE, NVAE)がVAEのロバスト性に及ぼす影響について検討し, 定量化のための指標を提案する。 In this work, we explore adversarial attacks on the Variational Autoencoders (VAE). We show how to modify data point to obtain a prescribed latent code (supervised attack) or just get a drastically different code (unsupervised attack). We examine the influence of model modifications ($\beta$-VAE, NVAE) on the robustness of VAEs and suggest metrics to quantify it. | 翻訳日:2021-03-13 08:16:58 公開日:2021-03-10 |
# (参考訳) 現実的劣化画像を用いた超解像超解像 Super-Resolving Beyond Satellite Hardware Using Realistically Degraded Images ( http://arxiv.org/abs/2103.06270v1 ) ライセンス: CC BY 4.0 | Jack White, Alex Codoreanu, Ignacio Zuleta, Colm Lynch, Giovanni Marchisio, Stephen Petrie, Alan R. Duffy | (参考訳) 現代の深層超解法(SR)ネットワークは、画像再構成と拡張において貴重な技術として確立されている。
しかし、これらのネットワークは通常、実際の画像に存在する典型的な画像劣化ノイズを欠いたベンチマーク画像データに基づいて訓練およびテストされます。
本稿では、現実的に劣化した衛星画像の再構成におけるSR性能の評価により、実リモートセンシングペイロードにおける深部SRの使用の可能性を検証する。
本研究では, 深層超分解能ネットワーク(EDSR)と呼ばれる最先端のSR技術を用いて, 領域特異的な事前学習なしに, 地上サンプリング距離の低い画像の符号化画素データを復元できることを実証した。
しかし、この回復は選択された地理的タイプによって異なる。
その結果、カスタムトレーニングは頭上の画像の再構築をさらに改善する可能性があり、新しい衛星ハードウェアは、深層SRが後者の欠如を克服することができるが前者ではないため、ピクセルサイズを最小化するよりも光学性能を優先すべきである。 Modern deep Super-Resolution (SR) networks have established themselves as valuable techniques in image reconstruction and enhancement. However, these networks are normally trained and tested on benchmark image data that lacks the typical image degrading noise present in real images. In this paper, we test the feasibility of using deep SR in real remote sensing payloads by assessing SR performance in reconstructing realistically degraded satellite images. We demonstrate that a state-of-the-art SR technique called Enhanced Deep Super-Resolution Network (EDSR), without domain specific pre-training, can recover encoded pixel data on images with poor ground sampling distance, provided the ground resolved distance is sufficient. However, this recovery varies amongst selected geographical types. Our results indicate that custom training has potential to further improve reconstruction of overhead imagery, and that new satellite hardware should prioritise optical performance over minimising pixel size as deep SR can overcome a lack of the latter but not the former. | 翻訳日:2021-03-13 06:07:48 公開日:2021-03-10 |
# (参考訳) 相互情報最大化によるハードアテンション制御 Hard Attention Control By Mutual Information Maximization ( http://arxiv.org/abs/2103.06371v1 ) ライセンス: CC BY 4.0 | Himanshu Sahni and Charles Isbell | (参考訳) 生物エージェントは、環境からの情報の受信率を制限するために注意の原則を採用してきた。
人工エージェントが周囲の限られたビューにしかアクセスできない場合、どのようにしてタスクを効果的に解決するために注意を制御することができますか?
本稿では,各ステップにおける環境状態と注目位置の相互情報を最大化することにより,ハードアテンションウィンドウの制御方法を学ぶためのアプローチを提案する。
エージェントは、その状態に関する予測を行うために内部世界モデルを採用し、予測が間違っている可能性がある場所に注目します。
注意は、部分的な観察を保存し、観察されていない状態を追跡する動的メモリアーキテクチャと共同訓練されます。
本手法は, 部分観測の系列から完全状態を予測するのに有効であることを示す。
また, エージェントの内部表現, 生きたメンタルマップは, 2つの部分観測可能な強化学習タスクの制御に利用できることを示した。
トレーニングされたエージェントのビデオはhttps://sites.google.com/view/hard-attention-controlで見ることができる。 Biological agents have adopted the principle of attention to limit the rate of incoming information from the environment. One question that arises is if an artificial agent has access to only a limited view of its surroundings, how can it control its attention to effectively solve tasks? We propose an approach for learning how to control a hard attention window by maximizing the mutual information between the environment state and the attention location at each step. The agent employs an internal world model to make predictions about its state and focuses attention towards where the predictions may be wrong. Attention is trained jointly with a dynamic memory architecture that stores partial observations and keeps track of the unobserved state. We demonstrate that our approach is effective in predicting the full state from a sequence of partial observations. We also show that the agent's internal representation of the surroundings, a live mental map, can be used for control in two partially observable reinforcement learning tasks. Videos of the trained agent can be found at https://sites.google.com/view/hard-attention-control. | 翻訳日:2021-03-13 04:48:44 公開日:2021-03-10 |
# (参考訳) リコメンダーシステムにおける人気バイアスのユーザ中心評価 User-centered Evaluation of Popularity Bias in Recommender Systems ( http://arxiv.org/abs/2103.06364v1 ) ライセンス: CC BY 4.0 | Himan Abdollahpouri, Masoud Mansoury, Robin Burke, Bamshad Mobasher, Edward Malthouse | (参考訳) レコメンデーションとランキングシステムは人気バイアスに悩まされていることが知られており、アルゴリズムは人気アイテムを数個選んで、他の項目の大半を下書きする傾向にある。
先行研究では、人気バイアスを緩和し、ロングテール、あまり人気のないアイテムの推奨を強化する様々なアプローチを調査した。
これらのアプローチの有効性は、しばしば異なる指標を用いて評価され、人気アイテムの過剰濃度が減少する程度を評価する。
しかし,このバイアスに対するユーザ中心の評価にはあまり注意が払われていない。
本稿では,これらのアルゴリズムをユーザの視点から評価したい場合,人気バイアスの緩和を評価するための既存の指標の限界を示すとともに,これらの制限に対処できる新しい指標を提案する。
さらに,ユーザ中心の観点から,人気バイアスを緩和する効果的なアプローチを提案する。
最後に,近年提案されている最新技術を用いて,人気バイアスを軽減し,既存の指標やユーザの視点から評価する手法について検討する。
2つの公開データセットを用いた実験結果から,既存の人気バイアス緩和手法は,人気項目に対するユーザの寛容さを無視することが示された。
提案手法は,既存指標を改良しつつ,利用者間の人気バイアスを効果的に解消する。 Recommendation and ranking systems are known to suffer from popularity bias; the tendency of the algorithm to favor a few popular items while under-representing the majority of other items. Prior research has examined various approaches for mitigating popularity bias and enhancing the recommendation of long-tail, less popular, items. The effectiveness of these approaches is often assessed using different metrics to evaluate the extent to which over-concentration on popular items is reduced. However, not much attention has been given to the user-centered evaluation of this bias; how different users with different levels of interest towards popular items are affected by such algorithms. In this paper, we show the limitations of the existing metrics to evaluate popularity bias mitigation when we want to assess these algorithms from the users' perspective and we propose a new metric that can address these limitations. In addition, we present an effective approach that mitigates popularity bias from the user-centered point of view. Finally, we investigate several state-of-the-art approaches proposed in recent years to mitigate popularity bias and evaluate their performances using the existing metrics and also from the users' perspective. Our experimental results using two publicly-available datasets show that existing popularity bias mitigation techniques ignore the users' tolerance towards popular items. Our proposed user-centered method can tackle popularity bias effectively for different users while also improving the existing metrics. | 翻訳日:2021-03-13 01:17:43 公開日:2021-03-10 |
# (参考訳) 解剖学的変異とマルチベンダスキャナデータを用いたct椎間板分割データセット A Computed Tomography Vertebral Segmentation Dataset with Anatomical Variations and Multi-Vendor Scanner Data ( http://arxiv.org/abs/2103.06360v1 ) ライセンス: CC BY 4.0 | Hans Liebl (1), David Schinz (1), Anjany Sekuboyina (1 and 2), Luca Malagutti (1), Maximilian T. L\"offler (3), Amirhossein Bayat (1 and 2), Malek El Husseini (1 and 2), Giles Tetteh (1 and 2), Katharina Grau (1), Eva Niederreiter (1), Thomas Baum (1), Benedikt Wiestler (1), Bjoern Menze (2), Rickmer Braren (4), Claus Zimmer (1), Jan S. Kirschke (1) ((1) Department of Diagnostic and Interventional Neuroradiology, School of Medicine, Klinikum rechts der Isar, Technical University of Munich, Germany (2) Department of Informatics, Technical University of Munich, Germany (3) Department of Diagnostic and Interventional Radiology, University Medical Center Freiburg, Freiburg im Breisgau, Germany (4) Department of Diagnostic and Interventional Radiology, School of Medicine, Klinikum rechts der Isar, Technical University of Munich, Germany) | (参考訳) ディープラーニングアルゴリズムの出現により、完全に自動化された放射線画像解析が到達範囲内にある。
脊椎イメージングでは、いくつかのアトラスと形状に基づく深層学習セグメンテーションアルゴリズムが提案され、その後、形態学と病理学の自動解析が可能となった。
最初の大規模Vertebrae Segmentation Challenge (VerSe 2019)は、これらが正常な解剖学的に良好に機能することを示したが、トレーニングデータセットに頻繁に存在しない変種では失敗する。
この経験に基づいて,VerSe 2020データセットの大幅な増加と,VerSeチャレンジの第2回(MICCAI 2020, Lima, Peru)の結果について報告する。
VerSe 2020は、4つの異なるスキャナーメーカーから複数のセンターで収集され、列挙異常 (n=77) や移行椎骨 (n=161) などの解剖学的変異を示すケースが豊富である300名の被験者の注釈付き脊椎CT画像を含む。
メタデータには、脊椎ラベリング情報、ヒトと機械のハイブリッドアルゴリズムと解剖学的評価を用いて得られたボクセルレベルのセグメンテーションマスクが含まれており、堅牢で正確なセグメンテーションアルゴリズムの開発とベンチマークを可能にする。 With the advent of deep learning algorithms, fully automated radiological image analysis is within reach. In spine imaging, several atlas- and shape-based as well as deep learning segmentation algorithms have been proposed, allowing for subsequent automated analysis of morphology and pathology. The first Large Scale Vertebrae Segmentation Challenge (VerSe 2019) showed that these perform well on normal anatomy, but fail in variants not frequently present in the training dataset. Building on that experience, we report on the largely increased VerSe 2020 dataset and results from the second iteration of the VerSe challenge (MICCAI 2020, Lima, Peru). VerSe 2020 comprises annotated spine computed tomography (CT) images from 300 subjects with 4142 fully visualized and annotated vertebrae, collected across multiple centres from four different scanner manufacturers, enriched with cases that exhibit anatomical variants such as enumeration abnormalities (n=77) and transitional vertebrae (n=161). Metadata includes vertebral labelling information, voxel-level segmentation masks obtained with a human-machine hybrid algorithm and anatomical ratings, to enable the development and benchmarking of robust and accurate segmentation algorithms. | 翻訳日:2021-03-13 01:00:35 公開日:2021-03-10 |
# (参考訳) サイバー物理システムの学習に基づく脆弱性解析 Learning-Based Vulnerability Analysis of Cyber-Physical Systems ( http://arxiv.org/abs/2103.06271v1 ) ライセンス: CC BY 4.0 | Amir Khazraei, Spencer Hallyburton, Qitong Gao, Yu Wang and Miroslav Pajic | (参考訳) 本研究は,サイバー物理システム(CPS)の脆弱性解析におけるディープラーニングの利用に焦点を当てる。
具体的には、低レベル制御が拡張カルマンフィルタ(EKF)や異常検知器などに基づいているCPS(ロボット工学など)で広く使用されている制御アーキテクチャを検討する。
本研究の目的は,システム動作を最大に劣化させるステルス攻撃を設計できる学習可能な攻撃ジェネレータを開発することである。
ランタイム情報の一部がアタッカーに認識される学習ベースのグレーボックスフレームワークにこのような問題をどのようにキャストするかを示し、フィードフォワードニューラルネットワーク(FNN)に基づく2つのモデルを紹介します。両方のモデルはオフラインでトレーニングされ、推定エラーに対する攻撃効果と異常検出に使用される残留信号を組み合わせたコスト関数を使用して、トレーニングされたモデルがそのような効果的なセンサー攻撃をリアルタイムで再帰的に生成できるようにします。
提案手法の有効性をいくつかのケーススタディに示す。 This work focuses on the use of deep learning for vulnerability analysis of cyber-physical systems (CPS). Specifically, we consider a control architecture widely used in CPS (e.g., robotics), where the low-level control is based on e.g., the extended Kalman filter (EKF) and an anomaly detector. To facilitate analyzing the impact potential sensing attacks could have, our objective is to develop learning-enabled attack generators capable of designing stealthy attacks that maximally degrade system operation. We show how such problem can be cast within a learning-based grey-box framework where parts of the runtime information are known to the attacker, and introduce two models based on feed-forward neural networks (FNN); both models are trained offline, using a cost function that combines the attack effects on the estimation error and the residual signal used for anomaly detection, so that the trained models are capable of recursively generating such effective sensor attacks in real-time. The effectiveness of the proposed methods is illustrated on several case studies. | 翻訳日:2021-03-12 23:04:21 公開日:2021-03-10 |
# (参考訳) 近似推論による軌道最適化の進展:探索、共分散制御、適応リスク Advancing Trajectory Optimization with Approximate Inference: Exploration, Covariance Control and Adaptive Risk ( http://arxiv.org/abs/2103.06319v1 ) ライセンス: CC BY 4.0 | Joe Watson, Jan Peters | (参考訳) 離散時間確率的最適制御は、有意な不確実性の下での一般非線形システムにとって困難な問題であり、実用的ソルバは通常、確実性等価仮定、再計画および/または広範な正規化に依存する。
推論としての制御(英: Control as inference)は、確率的制御を等価な推論問題とみなすアプローチであり、探索や正規化など既存の手法よりも望ましい性質を示している。
我々は、制御(i2c)アルゴリズムの入力推論を特に検討し、高度な軌道最適化を可能にする3つの重要な特性を導出する:オープンループオプティマイマの利点と非線形システムのために最適化するときのクローズドループ分散減少を組み合わせた「専門家」線形ガウスコントローラ、推論定式化からの固有の適応リスク感受性、およびわずかなアルゴリズムの調整だけで共分散制御機能。 Discrete-time stochastic optimal control remains a challenging problem for general, nonlinear systems under significant uncertainty, with practical solvers typically relying on the certainty equivalence assumption, replanning and/or extensive regularization. Control as inference is an approach that frames stochastic control as an equivalent inference problem, and has demonstrated desirable qualities over existing methods, namely in exploration and regularization. We look specifically at the input inference for control (i2c) algorithm, and derive three key characteristics that enable advanced trajectory optimization: An `expert' linear Gaussian controller that combines the benefits of open-loop optima and closed-loop variance reduction when optimizing for nonlinear systems, inherent adaptive risk sensitivity from the inference formulation, and covariance control functionality with only a minor algorithmic adjustment. | 翻訳日:2021-03-12 22:28:47 公開日:2021-03-10 |
# (参考訳) マルチモダリティとは? What is Multimodality? ( http://arxiv.org/abs/2103.06304v1 ) ライセンス: CC BY 4.0 | Letitia Parcalabescu, Nils Trost, Anette Frank | (参考訳) 近年は、ビジョン、テキスト、スピーチなどを組み合わせたマルチモーダル機械学習の分野で急速な発展を見せています。
本稿では,機械学習の時代に不適であることを証明した,時代遅れのマルチモーダリティの定義をどう利用するかを説明する。
与えられた機械学習タスクに関連する表現と情報に焦点を当てたマルチモーダル機械学習の文脈における(マルチ)モダリティの新しいタスク相対性定義を提案する。
新しいマルチモーダルの定義では、マルチモーダル研究の欠落基盤、言語基盤の重要な構成要素、そしてNLUにとって重要なマイルストーンを提供することを目指しています。 The last years have shown rapid developments in the field of multimodal machine learning, combining e.g., vision, text or speech. In this position paper we explain how the field uses outdated definitions of multimodality that prove unfit for the machine learning era. We propose a new task-relative definition of (multi)modality in the context of multimodal machine learning that focuses on representations and information that are relevant for a given machine learning task. With our new definition of multimodality we aim to provide a missing foundation for multimodal research, an important component of language grounding and a crucial milestone towards NLU. | 翻訳日:2021-03-12 21:07:55 公開日:2021-03-10 |
# (参考訳) 真理はいかにフェイクニュースに進化するか?
偽ニュースの進化に関する実証的研究 How does Truth Evolve into Fake News? An Empirical Study of Fake News Evolution ( http://arxiv.org/abs/2103.05944v1 ) ライセンス: CC BY 4.0 | Mingfei Guo, Xiuying Chen, Juntao Li, Dongyan Zhao, Rui Yan | (参考訳) インターネットからフェイクニュースを自動的に識別することは、詐欺検出タスクで難しい問題です。
オンラインニュースは伝播中に常に修正され、例えば悪意のあるユーザーが元の真実を歪め、偽ニュースを作る。
しかし、継続的進化のプロセスは前例のない偽ニュースを生成し、オリジナルのモデルを騙すことになる。
偽ニュース進化過程を追跡する新しいデータセットであるFake News Evolution(FNE)データセットを提示する。
我々のデータセットは950のペアデータで構成されており、それぞれが進化過程の3つの重要なフェーズ、すなわち真実、フェイクニュース、そして進化したフェイクニュースを表す記事で構成されています。
進化中の特徴を観察し,誤情報技術,テキスト類似性,キーワードトップ10,分類精度,発話部分,感情特性について検討した。 Automatically identifying fake news from the Internet is a challenging problem in deception detection tasks. Online news is modified constantly during its propagation, e.g., malicious users distort the original truth and make up fake news. However, the continuous evolution process would generate unprecedented fake news and cheat the original model. We present the Fake News Evolution (FNE) dataset: a new dataset tracking the fake news evolution process. Our dataset is composed of 950 paired data, each of which consists of articles representing the three significant phases of the evolution process, which are the truth, the fake news, and the evolved fake news. We observe the features during the evolution and they are the disinformation techniques, text similarity, top 10 keywords, classification accuracy, parts of speech, and sentiment properties. | 翻訳日:2021-03-12 16:13:48 公開日:2021-03-10 |
# (参考訳) ゼロショットニューラルマシン翻訳のための自己学習 Self-Learning for Zero Shot Neural Machine Translation ( http://arxiv.org/abs/2103.05951v1 ) ライセンス: CC BY 4.0 | Surafel M. Lakew, Matteo Negri, Marco Turchi | (参考訳) モノリンガルデータを用いたニューラルマシン翻訳(NMT)手法は、資源の豊富な条件を着実に改善しています。
しかし、現実世界の低リソース言語を用いた評価は未だに不十分なパフォーマンスをもたらす。
本研究は、ゼロショットソースとターゲット言語で並列データを共有するピボット言語を仮定することなく学習する、新しいゼロショットNMTモデリング手法を提案する。
このアプローチは,少なくとも目標言語を観察する事前学習されたnmtモデルからの初期化,ターゲットの単言語データを活用したソースサイドの拡張,ゼロショットペアへの初期モデル最適化の学習という3つの段階に基づいている。
言語族, スクリプト, 関連性の4つの異なるゼロショットペアによる経験的発見は, 教師付きバイリンガルベースラインに対する最大5.93BLEUの改善によるアプローチの有効性を示した。
教師なしNMTと比較して,ドメインミスマッチ設定においても一貫した改善が観察され,本手法の有用性が確認された。 Neural Machine Translation (NMT) approaches employing monolingual data are showing steady improvements in resource rich conditions. However, evaluations using real-world low-resource languages still result in unsatisfactory performance. This work proposes a novel zero-shot NMT modeling approach that learns without the now-standard assumption of a pivot language sharing parallel data with the zero-shot source and target languages. Our approach is based on three stages: initialization from any pre-trained NMT model observing at least the target language, augmentation of source sides leveraging target monolingual data, and learning to optimize the initial model to the zero-shot pair, where the latter two constitute a self-learning cycle. Empirical findings involving four diverse (in terms of a language family, script and relatedness) zero-shot pairs show the effectiveness of our approach with up to +5.93 BLEU improvement against a supervised bilingual baseline. Compared to unsupervised NMT, consistent improvements are observed even in a domain-mismatch setting, attesting to the usability of our method. | 翻訳日:2021-03-12 16:04:59 公開日:2021-03-10 |
# (参考訳) チームフェニックス - WASSA 2021: 事前学習された言語モデルによるニュース記事の感情分析 Team Phoenix at WASSA 2021: Emotion Analysis on News Stories with Pre-Trained Language Models ( http://arxiv.org/abs/2103.06057v1 ) ライセンス: CC BY 4.0 | Yash Butala, Kanishk Singh, Adarsh Kumar and Shrey Shrivastava | (参考訳) 感情は人類の基本である。
人間のような方法で社会的相互作用を認識し、理解し、応答する能力は、特にソーシャルメディアボットにおいて、人工エージェントで最も望ましい能力の1つです。
過去数年間、言語における感情的側面の計算的理解と検出は、人間とコンピュータの相互作用の進歩に不可欠であった。
WASSA Shared Task 2021は2つのトラック、Track-1 for EmpathyとDistress PredictionとTrack-2 for Multi-Dimension Emotion Predictionをエッセイレベルでリリースした。
我々は、wasa 2021共有タスク(トラック1とトラック2の両方)のシステムエントリについて説明し、トラック固有のタスクのために事前訓練された言語モデルからの情報を活用した。
提案モデルは,平均ピアソンスコア0.417,マクロf1スコア0.502をトラック1とトラック2で達成した。
共有タスクリーダーボードでは、トラック1で4位、トラック2で2位を確保しました。 Emotion is fundamental to humanity. The ability to perceive, understand and respond to social interactions in a human-like manner is one of the most desired capabilities in artificial agents, particularly in social-media bots. Over the past few years, computational understanding and detection of emotional aspects in language have been vital in advancing human-computer interaction. The WASSA Shared Task 2021 released a dataset of news-stories across two tracks, Track-1 for Empathy and Distress Prediction and Track-2 for Multi-Dimension Emotion prediction at the essay-level. We describe our system entry for the WASSA 2021 Shared Task (for both Track-1 and Track-2), where we leveraged the information from Pre-trained language models for Track-specific Tasks. Our proposed models achieved an Average Pearson Score of 0.417 and a Macro-F1 Score of 0.502 in Track 1 and Track 2, respectively. In the Shared Task leaderboard, we secured 4th rank in Track 1 and 2nd rank in Track 2. | 翻訳日:2021-03-12 15:42:18 公開日:2021-03-10 |
# 双方向事前翻訳による多数投票によるバイテクスト検索の改善 Majority Voting with Bidirectional Pre-translation Improves Bitext Retrieval ( http://arxiv.org/abs/2103.06369v1 ) ライセンス: Link先を確認 | Alex Jones and Derry Tanti Wijaya | (参考訳) 高品質の並列コーポラの取得は、NMTシステムのトレーニングに非常に重要です。
しかし、多くの言語ペアは十分な金本位制の訓練データを持っていないため、2つの言語でペアの文書からいわゆる"pseudo-parallel"文をマイニングする手法が一般的である。
本稿では,現在の手法の問題点を概説し,それらの問題に対する計算学的に経済的な解決策を提案し,タトエバ類似度検索ベンチマークと下流タスク,すなわちNMTでの新しい手法で成功を実証する。
資源関連要因(リソース関連因子)の効果を明らかにする。
バイテキストマイニングアプローチの最適選択に関する単言語/バイリンガルデータ(ある言語でどの程度)と、他の言語で観測されているbuccデータセットとのエコー問題。
実験に使用されるコードとデータは公開されています。 Obtaining high-quality parallel corpora is of paramount importance for training NMT systems. However, as many language pairs lack adequate gold-standard training data, a popular approach has been to mine so-called "pseudo-parallel" sentences from paired documents in two languages. In this paper, we outline some problems with current methods, propose computationally economical solutions to those problems, and demonstrate success with novel methods on the Tatoeba similarity search benchmark and on a downstream task, namely NMT. We uncover the effect of resource-related factors (i.e. how much monolingual/bilingual data is available for a given language) on the optimal choice of bitext mining approach, and echo problems with the oft-used BUCC dataset that have been observed by others. We make the code and data used for our experiments publicly available. | 翻訳日:2021-03-12 15:02:18 公開日:2021-03-10 |
# タスク指向対話における因果認識型安全ポリシー改善 Causal-aware Safe Policy Improvement for Task-oriented dialogue ( http://arxiv.org/abs/2103.06370v1 ) ライセンス: Link先を確認 | Govardana Sachithanandam Ramachandran, Kazuma Hashimoto, Caiming Xiong | (参考訳) 複雑なタスクを解決するための強化学習(rl)の最近の成功は、訓練された環境を探索し活用する能力に起因していることが多い。
安価なシミュレータは、政治上のサンプルデータに利用できるため、サンプル効率は通常問題ではない。
一方、タスク指向対話は通常、人間のデモを用いて収集されたオフラインデータから学習される。
多様なデモの収集と注釈は高価である。
残念なことに、非政治的データで訓練されたRL手法の使用は、人間の反応の確率性や対話管理システムの非マルコフ的信念状態によってさらに悪化するバイアスや一般化の問題を引き起こす。
そこで本研究では,タスク指向対話政策学習のためのバッチrlフレームワーク,causal aware safe policy improvement (caspi)を提案する。
本手法は,対話政策のパフォーマンスを保証し,実演データを模倣するのではなく,人間の反応の背後にある意図に従って報酬を形作ることを学習する。
Multiwoz2.0データセットの対話対テキスト生成およびエンドツーエンド対話タスクにおけるこのフレームワークの有効性を実証する。
提案手法は,いずれの場合においても,これらの測定値の現況を上回っている。
エンド・ツー・エンドの場合、我々の手法はデータの10倍のトレーニングしか行わず、4つの評価指標のうち3つで現在の状態を達成できた。 The recent success of reinforcement learning's (RL) in solving complex tasks is most often attributed to its capacity to explore and exploit an environment where it has been trained. Sample efficiency is usually not an issue since cheap simulators are available to sample data on-policy. On the other hand, task oriented dialogues are usually learnt from offline data collected using human demonstrations. Collecting diverse demonstrations and annotating them is expensive. Unfortunately, use of RL methods trained on off-policy data are prone to issues of bias and generalization, which are further exacerbated by stochasticity in human response and non-markovian belief state of a dialogue management system. To this end, we propose a batch RL framework for task oriented dialogue policy learning: causal aware safe policy improvement (CASPI). This method gives guarantees on dialogue policy's performance and also learns to shape rewards according to intentions behind human responses, rather than just mimicking demonstration data; this couple with batch-RL helps overall with sample efficiency of the framework. We demonstrate the effectiveness of this framework on a dialogue-context-to-text Generation and end-to-end dialogue task of the Multiwoz2.0 dataset. The proposed method outperforms the current state of the art on these metrics, in both case. In the end-to-end case, our method trained only on 10\% of the data was able to out perform current state in three out of four evaluation metrics. | 翻訳日:2021-03-12 15:02:02 公開日:2021-03-10 |
# Sparse と Disentangled Latent Representation による連続的セマンティックセマンティックセマンティックセグメンテーション Continual Semantic Segmentation via Repulsion-Attraction of Sparse and Disentangled Latent Representations ( http://arxiv.org/abs/2103.06342v1 ) ライセンス: Link先を確認 | Umberto Michieli and Pietro Zanuttigh | (参考訳) ディープニューラルネットワークは、新しいタスクを学ぶ際に古いタスクを忘れてしまうという大きな制限に苦しむ。
本稿では,意味セグメンテーションにおけるクラスインクリメンタル連続学習に注目し,新しいカテゴリを時間とともに提供し,事前のトレーニングデータは保持しない。
提案された連続学習スキームは、潜在空間を形作り、新しいクラスの認識を改善しながら忘れを減らす。
私たちのフレームワークは、3つの新しいコンポーネントによって駆動されています。
第一に、プロトタイプマッチングは古いクラスでの潜在空間一貫性を強制し、エンコーダは前述のクラスで同様の潜在表現を次のステップで生成するように制限する。
第二に、スパーシフィケーション機能により、潜在空間に新しいクラスを収容できる空間を作ることができる。
最後に、コントラスト学習は、異なるクラスの機能を分解しながら、セマンティクスに応じて特徴をクラスタリングするために使用される。
Pascal VOC2012とADE20Kデータセットの広範な評価は、私たちのアプローチの有効性を示し、最先端の方法を大幅に上回っています。 Deep neural networks suffer from the major limitation of catastrophic forgetting old tasks when learning new ones. In this paper we focus on class incremental continual learning in semantic segmentation, where new categories are made available over time while previous training data is not retained. The proposed continual learning scheme shapes the latent space to reduce forgetting whilst improving the recognition of novel classes. Our framework is driven by three novel components which we also combine on top of existing techniques effortlessly. First, prototypes matching enforces latent space consistency on old classes, constraining the encoder to produce similar latent representation for previously seen classes in the subsequent steps. Second, features sparsification allows to make room in the latent space to accommodate novel classes. Finally, contrastive learning is employed to cluster features according to their semantics while tearing apart those of different classes. Extensive evaluation on the Pascal VOC2012 and ADE20K datasets demonstrates the effectiveness of our approach, significantly outperforming state-of-the-art methods. | 翻訳日:2021-03-12 15:00:44 公開日:2021-03-10 |
# 長文質問応答の進歩へのハードル Hurdles to Progress in Long-form Question Answering ( http://arxiv.org/abs/2103.06332v1 ) ライセンス: Link先を確認 | Kalpesh Krishna, Aurko Roy, Mohit Iyyer | (参考訳) 長文質問応答(LFQA)の課題は、与えられた質問に関連する文書を検索し、それを用いて段落長の回答を生成することである。
近年,LFQA に対して多くのモデルが提案されているが,本論文では,タスクの定式化が,現在有意義なモデリングの進歩を妨げている評価やデータセット作成に関する根本的な課題を提起している。
これらの課題を実証するために,我々はまず,eli5 lfqaデータセットの最先端性能を実現するために,スパース注意とコントラストレトリバー学習に依存する新しいシステムを設計した。
While our system tops the public leaderboard, a detailed analysis reveals several troubling trends: (1) our system's generated answers are not actually grounded in the documents that it retrieves; (2) ELI5 contains significant train / test overlap, as at least 81% of ELI5 validation questions occur in paraphrased form in the training set; (3) ROUGE-L is not an informative metric of generated answer quality and can be easily gamed; and (4) human evaluations used for other text generation tasks are unreliable for LFQA.
これらの各課題を緩和するための提案を行い、より厳密なLFQA研究と将来有意義な進歩につながることを願っています。 The task of long-form question answering (LFQA) involves retrieving documents relevant to a given question and using them to generate a paragraph-length answer. While many models have recently been proposed for LFQA, we show in this paper that the task formulation raises fundamental challenges regarding evaluation and dataset creation that currently preclude meaningful modeling progress. To demonstrate these challenges, we first design a new system that relies on sparse attention and contrastive retriever learning to achieve state-of-the-art performance on the ELI5 LFQA dataset. While our system tops the public leaderboard, a detailed analysis reveals several troubling trends: (1) our system's generated answers are not actually grounded in the documents that it retrieves; (2) ELI5 contains significant train / test overlap, as at least 81% of ELI5 validation questions occur in paraphrased form in the training set; (3) ROUGE-L is not an informative metric of generated answer quality and can be easily gamed; and (4) human evaluations used for other text generation tasks are unreliable for LFQA. We provide suggestions to mitigate each of these issues, which we hope will lead to more rigorous LFQA research and meaningful progress in the future. | 翻訳日:2021-03-12 14:57:55 公開日:2021-03-10 |
# 自己改善トラジェクティブ・コントラスト学習による文脈ベースメタ強化学習の改善 Improving Context-Based Meta-Reinforcement Learning with Self-Supervised Trajectory Contrastive Learning ( http://arxiv.org/abs/2103.06386v1 ) ライセンス: Link先を確認 | Bernie Wang, Simon Xu, Kurt Keutzer, Yang Gao, Bichen Wu | (参考訳) メタ強化学習は通常、単一のタスク強化学習方法よりも大きなサンプルの順序を必要とします。
これはメタトレーニングがより多様な分散に対処し、コンテキストエンコーダのような余分なコンポーネントを訓練する必要があるためである。
そこで本研究では,メタトレーニングを改善するためにTCL(Trajectory Contrastive Learning)と名付けた,新たな自己監督型学習タスクを提案する。
TCLはコントラスト学習を採用し、同じ軌道から2つの遷移ウィンドウがサンプリングされるかどうかを予測するためにコンテキストエンコーダを訓練する。
TCLはコンテキストベースのメタRLの自然な階層構造を利用し、最小限の仮定を行い、コンテキストベースのメタRLアルゴリズムに適用できる。
コンテキストエンコーダのトレーニングを加速し、メタトレーニング全体を改善します。
実験によると、TCLは、メタRL MuJoCo(6の5)とメタワールドベンチマーク(50の44)の両方のほとんどの環境において、強力なメタRLベースラインよりも優れています。 Meta-reinforcement learning typically requires orders of magnitude more samples than single task reinforcement learning methods. This is because meta-training needs to deal with more diverse distributions and train extra components such as context encoders. To address this, we propose a novel self-supervised learning task, which we named Trajectory Contrastive Learning (TCL), to improve meta-training. TCL adopts contrastive learning and trains a context encoder to predict whether two transition windows are sampled from the same trajectory. TCL leverages the natural hierarchical structure of context-based meta-RL and makes minimal assumptions, allowing it to be generally applicable to context-based meta-RL algorithms. It accelerates the training of context encoders and improves meta-training overall. Experiments show that TCL performs better or comparably than a strong meta-RL baseline in most of the environments on both meta-RL MuJoCo (5 of 6) and Meta-World benchmarks (44 out of 50). | 翻訳日:2021-03-12 14:56:53 公開日:2021-03-10 |
# 機械学習技術に基づく自動肝組織デライン化:調査,現状,今後の方向性 Automated liver tissues delineation based on machine learning techniques: A survey, current trends and future orientations ( http://arxiv.org/abs/2103.06384v1 ) ライセンス: Link先を確認 | Ayman Al-Kababji, Faycal Bensaali, Sarada Prasad Dakua | (参考訳) 近年、機械学習とコンピュータビジョンがどのように成長したかは否定できない。
彼らの最大の利点は、その自動化、適合性、そして再現可能な方法で数秒で驚くべき結果を生成する能力にある。
これは、現在のグラフィカル処理ユニットのコンピューティング能力に到達したユビキタスな進歩と、そのような技術の高効率な実装によって支援されています。
そこで本研究では,2014年から2020年にかけて,研究者が肝臓,肝腫瘍,肝血管構造を分類するために用いた,さまざまな機械学習アルゴリズムについて検討した。
関心組織(肝硬膜腫,肝腫瘍,肝血管)に基づいて調査した研究を分割し,同時に複数の課題に取り組む研究を強調した。
さらに、機械学習アルゴリズムは教師付きまたは教師なしのいずれにも分類され、特定のスキームに該当する作業量が重要であればさらに分割される。
さらに、前述の組織のマスクを含む文献やウェブサイトに見られるさまざまなデータセットや課題を徹底的に議論し、主催者のオリジナルの貢献と他の研究者の貢献を強調する。
また、文献で過度に使用されるメトリクスは、我々のレビューにおいて、その課題に対するそれらの関連性を強調している。
最後に、革新的な研究者が取り組むべき重要な課題と将来の方向性が強調され、船舶のセグメンテーションの課題に関する多くの研究の不足、そしてなぜその欠落を加速的に対処する必要があるのかなどの対処が必要なギャップが露呈されます。 There is no denying how machine learning and computer vision have grown in the recent years. Their highest advantages lie within their automation, suitability, and ability to generate astounding results in a matter of seconds in a reproducible manner. This is aided by the ubiquitous advancements reached in the computing capabilities of current graphical processing units and the highly efficient implementation of such techniques. Hence, in this paper, we survey the key studies that are published between 2014 and 2020, showcasing the different machine learning algorithms researchers have used to segment the liver, hepatic-tumors, and hepatic-vasculature structures. We divide the surveyed studies based on the tissue of interest (hepatic-parenchyma, hepatic-tumors, or hepatic-vessels), highlighting the studies that tackle more than one task simultaneously. Additionally, the machine learning algorithms are classified as either supervised or unsupervised, and further partitioned if the amount of works that fall under a certain scheme is significant. Moreover, different datasets and challenges found in literature and websites, containing masks of the aforementioned tissues, are thoroughly discussed, highlighting the organizers original contributions, and those of other researchers. Also, the metrics that are used excessively in literature are mentioned in our review stressing their relevancy to the task at hand. Finally, critical challenges and future directions are emphasized for innovative researchers to tackle, exposing gaps that need addressing such as the scarcity of many studies on the vessels segmentation challenge, and why their absence needs to be dealt with in an accelerated manner. | 翻訳日:2021-03-12 14:51:43 公開日:2021-03-10 |
# Sentence Objectives Frameworkを用いた階層的注意ネットワークを用いたARDSの同定 Identifying ARDS using the Hierarchical Attention Network with Sentence Objectives Framework ( http://arxiv.org/abs/2103.06352v1 ) ライセンス: Link先を確認 | Kevin Lybarger, Linzee Mabrey, Matthew Thau, Pavan K. Bhatraju, Mark Wurfel, Meliha Yetisgen | (参考訳) 急性呼吸困難症候群(ARDS)は、しばしば未診断または後期診断される生命を脅かす状態である。
ARDSは、特にCOVID-19に感染した人々で顕著です。
自由テキスト胸部X線写真報告におけるARDSインジケーターの自動同定と因子の確立について検討する。
胸部X線写真レポートの新たな注釈付きコーパスを提示し、文章分類フレームワークHANSO(Hierarchical Attention Network with Sentence Objectives)を導入する。
HANSOはきめ細かいアノテーションを使用して文書分類のパフォーマンスを改善します。
HANSOは, 注釈付きスパンがうるさい場合でも, 関連アノテーションを利用して, 高い性能でARDS関連情報を抽出することができる。
HANSOは、注釈付き胸部X線写真画像をゴールドスタンダードとして使用し、ARDSの指標である両側浸潤物を特定し、ヒトのアノテーション(0.84 F1)に匹敵する性能(0.87 F1)で胸部X線写真報告を行う。
このアルゴリズムは、臨床医や研究者によるardsのより効率的かつ迅速な同定を促進し、患者ケアを改善する新しい治療法の開発に寄与する。 Acute respiratory distress syndrome (ARDS) is a life-threatening condition that is often undiagnosed or diagnosed late. ARDS is especially prominent in those infected with COVID-19. We explore the automatic identification of ARDS indicators and confounding factors in free-text chest radiograph reports. We present a new annotated corpus of chest radiograph reports and introduce the Hierarchical Attention Network with Sentence Objectives (HANSO) text classification framework. HANSO utilizes fine-grained annotations to improve document classification performance. HANSO can extract ARDS-related information with high performance by leveraging relation annotations, even if the annotated spans are noisy. Using annotated chest radiograph images as a gold standard, HANSO identifies bilateral infiltrates, an indicator of ARDS, in chest radiograph reports with performance (0.87 F1) comparable to human annotations (0.84 F1). This algorithm could facilitate more efficient and expeditious identification of ARDS by clinicians and researchers and contribute to the development of new therapies to improve patient care. | 翻訳日:2021-03-12 14:49:51 公開日:2021-03-10 |
# レポート:ツイートの自己報告に基づいて、twitterユーザーの正確な年齢を自動的に抽出する ReportAGE: Automatically extracting the exact age of Twitter users based on self-reports in tweets ( http://arxiv.org/abs/2103.06357v1 ) ライセンス: Link先を確認 | Ari Z. Klein, Arjun Magge, Graciela Gonzalez-Hernandez | (参考訳) 研究アプリケーションにおけるソーシャルメディアデータの有用性向上には,利用者年齢を含むソーシャルメディア研究人口の人口統計情報を自動的に検出する手法が必要である。
本研究の目的は、ツイート中の自己報告に基づいて、ユーザの正確な年齢を自動的に識別する手法を開発し、評価することである。
エンドツーエンドの自動自然言語処理(NLP)パイプラインであるReportAGEには、年齢に言及する可能性のあるツイートを検索するためのクエリパターン、ユーザの正確な年齢("age"Tweet)を自己レポートする検索ツイートを識別する分類器、年齢を識別するためのルールベースの抽出が含まれている。
レポートの作成と評価のために,クエリパターンにマッチする11,000のつぶやきを手作業でアノテートした。
5つの注釈者全員によって注釈付された1000のツイートに基づいて、注釈間合意(fleiss' kappa)は「年齢」と「年齢なし」のツイートを識別する0.80、注釈者が同意した「年齢」のツイートのうち正確な年齢を特定する0.95であった。
ディープニューラルネットワーク分類器は、roberta-large pretrainedモデルに基づいて、"age"クラスで0.914(precision = 0.905, recall = 0.942)の最高値を達成した。
分類器の予測を用いて年齢抽出を評価すると、"age"クラスに対して0.855(precision = 0.805, recall = 0.914)のf1スコアを達成した。
ホールドアウトテストセットで直接評価すると、"age"クラスに対して0.931(precision = 0.873, recall = 0.998)のf1スコアを達成した。
われわれは、245,927ユーザーが投稿した12億以上のツイートにReportAGEを配置し、その年齢を132,637人(54%)と予測した。
この多数のユーザに正確な年齢の検出をスケールすることは、既存のバイナリやマルチクラス分類アプローチの既定年齢グループと一致しない研究アプリケーションのためのソーシャルメディアデータの有用性を前進させることができる。 Advancing the utility of social media data for research applications requires methods for automatically detecting demographic information about social media study populations, including users' age. The objective of this study was to develop and evaluate a method that automatically identifies the exact age of users based on self-reports in their tweets. Our end-to-end automatic natural language processing (NLP) pipeline, ReportAGE, includes query patterns to retrieve tweets that potentially mention an age, a classifier to distinguish retrieved tweets that self-report the user's exact age ("age" tweets) and those that do not ("no age" tweets), and rule-based extraction to identify the age. To develop and evaluate ReportAGE, we manually annotated 11,000 tweets that matched the query patterns. Based on 1000 tweets that were annotated by all five annotators, inter-annotator agreement (Fleiss' kappa) was 0.80 for distinguishing "age" and "no age" tweets, and 0.95 for identifying the exact age among the "age" tweets on which the annotators agreed. A deep neural network classifier, based on a RoBERTa-Large pretrained model, achieved the highest F1-score of 0.914 (precision = 0.905, recall = 0.942) for the "age" class. When the age extraction was evaluated using the classifier's predictions, it achieved an F1-score of 0.855 (precision = 0.805, recall = 0.914) for the "age" class. When it was evaluated directly on the held-out test set, it achieved an F1-score of 0.931 (precision = 0.873, recall = 0.998) for the "age" class. We deployed ReportAGE on more than 1.2 billion tweets posted by 245,927 users, and predicted ages for 132,637 (54%) of them. Scaling the detection of exact age to this large number of users can advance the utility of social media data for research applications that do not align with the predefined age groupings of extant binary or multi-class classification approaches. | 翻訳日:2021-03-12 14:49:32 公開日:2021-03-10 |
# 構造からの移動とrgbd深部融合 Structure-From-Motion and RGBD Depth Fusion ( http://arxiv.org/abs/2103.06366v1 ) ライセンス: Link先を確認 | Akash Chandrashekar, John Papadakis, Andrew Willis, Jamie Gantert | (参考訳) 本稿では,sfm(structure-from-motion)による深度推定をセンサ深度計測と統合することにより,典型的なrgbdセンサを補強する手法について述べる。
RGBD深度検知技術における限界は,(1)遠方面(>5m),(2)暗黒面,(3)明るく照らされた屋内シーン,(4)太陽が照らされた屋外シーンの4つの重要な文脈における深度測定を防止する。
SfM技術はRGB画像シーケンスのみからの多視点再構成により深度を算出する。
したがって、SfMの深さ推定は同じ制限を被らず、前述の4つの状況で計算することができる。
本研究は,RGBD深度データとSfM推定深度データを融合して,ロボットのローカライゼーションやマッピング,オブジェクト認識やトラッキングなど,多くの重要な下流アプリケーションで処理可能な,改良された深度ストリームを生成する。 This article describes a technique to augment a typical RGBD sensor by integrating depth estimates obtained via Structure-from-Motion (SfM) with sensor depth measurements. Limitations in the RGBD depth sensing technology prevent capturing depth measurements in four important contexts: (1) distant surfaces (>5m), (2) dark surfaces, (3) brightly lit indoor scenes and (4) sunlit outdoor scenes. SfM technology computes depth via multi-view reconstruction from the RGB image sequence alone. As such, SfM depth estimates do not suffer the same limitations and may be computed in all four of the previously listed circumstances. This work describes a novel fusion of RGBD depth data and SfM-estimated depths to generate an improved depth stream that may be processed by one of many important downstream applications such as robotic localization and mapping, as well as object recognition and tracking. | 翻訳日:2021-03-12 14:47:15 公開日:2021-03-10 |
# プログラム理解と生成のための統一事前学習 Unified Pre-training for Program Understanding and Generation ( http://arxiv.org/abs/2103.06333v1 ) ライセンス: Link先を確認 | Wasi Uddin Ahmad and Saikat Chakraborty and Baishakhi Ray and Kai-Wei Chang | (参考訳) コード要約と生成により、プログラミング言語(PL)と自然言語(NL)の変換が促進される一方、コード翻訳はレガシーコードのPLから別のPLへのマイグレーションに有効である。
本稿では,プログラムと言語理解と生成タスクの幅広いスペクトルを実行できるシーケンス・ツー・シーケンスモデルplbartについて述べる。
PLBARTは、JavaとPythonの関数と関連するNLテキストの広範なコレクションに、自動エンコーディングを通知することで事前トレーニングされている。
コード要約、生成、7つのプログラミング言語の翻訳を含む言語生成タスクの実験は、plbartが最先端モデルよりも優れており、あるいは競合することを示している。
さらに、プログラム修復、クローン検出、脆弱なコード検出などの識別タスクの実験は、プログラム理解におけるPLBARTの有効性を示している。
さらに分析により、plbartはプログラムの意味論に不可欠なプログラム構文、スタイル(例えば識別子命名規則)、論理フロー(例えば、elseブロック内のブロックが他のifブロックと等価である場合)を学習し、限られたアノテーションでさえ優れていることが明らかになった。 Code summarization and generation empower conversion between programming language (PL) and natural language (NL), while code translation avails the migration of legacy code from one PL to another. This paper introduces PLBART, a sequence-to-sequence model capable of performing a broad spectrum of program and language understanding and generation tasks. PLBART is pre-trained on an extensive collection of Java and Python functions and associated NL text via denoising autoencoding. Experiments on language generation tasks, including code summarization, generation, translation in seven programming languages show that PLBART outperforms or rivals state-of-the-art models. Moreover, experiments on discriminative tasks, e.g., program repair, clone detection, and vulnerable code detection demonstrate PLBART's effectiveness in program understanding. Furthermore, analysis reveals that PLBART learns program syntax, style (e.g., identifier naming convention), logical flow (e.g., if block inside an else block is equivalent to else if block) that are crucial to program semantics and thus excels even with limited annotations. | 翻訳日:2021-03-12 14:42:27 公開日:2021-03-10 |
# S4RL: 驚くほど単純なオフライン強化学習の自己監督 S4RL: Surprisingly Simple Self-Supervision for Offline Reinforcement Learning ( http://arxiv.org/abs/2103.06326v1 ) ライセンス: Link先を確認 | Samarth Sinha, Animesh Garg | (参考訳) オフライン強化学習は、対話なしに大規模なデータセットからポリシーを学ぶことを提案する。
これらのアルゴリズムにより、環境に転送可能なデータから有用なスキルを学ぶことができ、トレーニングされたポリシーを、自動運転車のような対話がコストがかかる、あるいは危険な現実の環境で展開することが可能になった。
しかし、現在のアルゴリズムは、トレーニング対象のデータセットにオーバーフィットし、デプロイ時に環境への悪いアウトオブディストリビューション(OOD)一般化を実行する。
本稿では,環境にデプロイした場合の一般化と補間に優れた値関数を学習するために,状態からのデータ拡張を利用する,驚くほどシンプルな自己スーパービジョンアルゴリズム(s4rl)を提案する。
我々は、OODデータに外挿可能な値関数の学習を支援する異なるデータ拡張手法と、データ拡張とオフラインRLアルゴリズムを組み合わせてポリシーを学習する方法を検討する。
S4RLを使用することにより、D4RLの一般的なベンチマークデータセット上のほとんどのベンチマークオフライン強化学習タスクにおいて、シンプルで簡単に実装できることを実験的に示しました。 Offline reinforcement learning proposes to learn policies from large collected datasets without interaction. These algorithms have made it possible to learn useful skills from data that can then be transferred to the environment, making it feasible to deploy the trained policies in real-world settings where interactions may be costly or dangerous, such as self-driving. However, current algorithms overfit to the dataset they are trained on and perform poor out-of-distribution (OOD) generalization to the environment when deployed. We propose a Surprisingly Simple Self-Supervision algorithm (S4RL), which utilizes data augmentations from states to learn value functions that are better at generalizing and extrapolating when deployed in the environment. We investigate different data augmentation techniques that help learning a value function that can extrapolate to OOD data, and how to combine data augmentations and offline RL algorithms to learn a policy. We experimentally show that using S4RL significantly improves the state-of-the-art on most benchmark offline reinforcement learning tasks on popular benchmark datasets from D4RL, despite being simple and easy to implement. | 翻訳日:2021-03-12 14:42:06 公開日:2021-03-10 |
# ニューラルネットワークを用いた非線形次元低減のための局所類似性保存フレームワーク A Local Similarity-Preserving Framework for Nonlinear Dimensionality Reduction with Neural Networks ( http://arxiv.org/abs/2103.06383v1 ) ライセンス: Link先を確認 | Xiang Wang, Xiaoyong Li, Junxing Zhu, Zichen Xu, Kaijun Ren, Weiming Zhang, Xinwang Liu, Kui Yu | (参考訳) 現実世界のデータは通常高い次元を持ち、次元の呪いを緩和することが重要である。
高次元のデータは通常、コヒーレントな構造であり、データの真の自由度は比較的小さい。
問題を緩和するグローバルおよびローカル次元の減少方法があります。
局所次元還元の既存の方法のほとんどは固有値または特異値分解との埋め込みを得るが、ここでは計算の複雑性は大量のデータに対して非常に高い。
本稿では、単語の埋め込み表現学習における最近の進歩を一般化し、行列の次元化を一般化する、Vec2vecという新しい局所非線形アプローチを提案する。
計算複雑性を低減するために、隠れた1つの層しか持たないニューラルネットワークを用いた非線形埋め込みを得る。
ニューラルネットワークをトレーニングするために,マトリクスの近傍類似度グラフを構築し,ランダムウォーク特性を利用してデータポイントのコンテキストを定義する。
vec2vecは多数の高次元データにおいて最先端の局所次元低減法よりも効率的である。
8つの実データセット上のデータ分類とクラスタリングの広範な実験は、統計仮説テストにおいて、Vec2vecがいくつかの古典的な次元還元方法よりも優れていることを示し、最近開発された最先端のUMAPと競合している。 Real-world data usually have high dimensionality and it is important to mitigate the curse of dimensionality. High-dimensional data are usually in a coherent structure and make the data in relatively small true degrees of freedom. There are global and local dimensionality reduction methods to alleviate the problem. Most of existing methods for local dimensionality reduction obtain an embedding with the eigenvalue or singular value decomposition, where the computational complexities are very high for a large amount of data. Here we propose a novel local nonlinear approach named Vec2vec for general purpose dimensionality reduction, which generalizes recent advancements in embedding representation learning of words to dimensionality reduction of matrices. It obtains the nonlinear embedding using a neural network with only one hidden layer to reduce the computational complexity. To train the neural network, we build the neighborhood similarity graph of a matrix and define the context of data points by exploiting the random walk properties. Experiments demenstrate that Vec2vec is more efficient than several state-of-the-art local dimensionality reduction methods in a large number of high-dimensional data. Extensive experiments of data classification and clustering on eight real datasets show that Vec2vec is better than several classical dimensionality reduction methods in the statistical hypothesis test, and it is competitive with recently developed state-of-the-art UMAP. | 翻訳日:2021-03-12 14:41:45 公開日:2021-03-10 |
# 新機能統合とモデル結合によるVMAFの強化 Enhancing VMAF through New Feature Integration and Model Combination ( http://arxiv.org/abs/2103.06338v1 ) ライセンス: Link先を確認 | Fan Zhang and Angeliki Katsenou and Christos Bampis and Lukas Krasula and Zhi Li and David Bull | (参考訳) VMAFは、SVMレグレッションによる複数の品質メトリックとビデオ機能を組み合わせた、ストリーミングアプリケーション用に設計された機械学習ベースのビデオ品質評価方法です。
従来の品質評価法に比べて主観的意見との相関が高い。
本稿では,複数のモデルの組み合わせとともに,新しいビデオ機能と代替品質指標(多様なプールから選択された)の統合によるVMAFの強化を提案する。
提案手法により,異なる内容と歪み特性を持つ複数のデータベースのトレーニングが可能となる。
拡張VMAF法は8つのHDビデオデータベース上で評価され,従来のVMAFモデル (0.6.1) と他のベンチマーク品質指標を一貫して上回り,主観的基底真理データと高い相関を示した。 VMAF is a machine learning based video quality assessment method, originally designed for streaming applications, which combines multiple quality metrics and video features through SVM regression. It offers higher correlation with subjective opinions compared to many conventional quality assessment methods. In this paper we propose enhancements to VMAF through the integration of new video features and alternative quality metrics (selected from a diverse pool) alongside multiple model combination. The proposed combination approach enables training on multiple databases with varying content and distortion characteristics. Our enhanced VMAF method has been evaluated on eight HD video databases, and consistently outperforms the original VMAF model (0.6.1) and other benchmark quality metrics, exhibiting higher correlation with subjective ground truth data. | 翻訳日:2021-03-12 14:40:14 公開日:2021-03-10 |
# タントラ:タイミングベースの広告ネットワークトラフィックリフォーム攻撃 TANTRA: Timing-Based Adversarial Network Traffic Reshaping Attack ( http://arxiv.org/abs/2103.06297v1 ) ライセンス: Link先を確認 | Yam Sharon and David Berend and Yang Liu and Asaf Shabtai and Yuval Elovici | (参考訳) ネットワーク侵入攻撃は既知の脅威である。
このような攻撃を検出するため、ネットワーク侵入検知システム(NIDS)が開発された。
これらのシステムは、ネットワークトラフィックから抽出された特徴の高次元ベクトルに機械学習モデルを適用し、侵入を検出する。
NIDSの進歩は、攻撃者がこれらのシステムに検知されずに攻撃を実行しなければならないことを困難にしている。
NIDSをバイパスする以前の研究は、主に攻撃トラフィックから抽出された機能を妨害して検出システムを騙すことに重点を置いていたが、これは攻撃の機能を阻害する可能性がある。
本研究では、さまざまなNIDSをバイパスできる、エンドツーエンドのタイミングベースのAdversarial Network Traffic Reformingping AttackであるTANTRAを紹介します。
我々の回避攻撃は、ターゲットネットワークの良性パケット間の時間差を学習するために訓練された長い短期記憶(LSTM)ディープニューラルネットワーク(DNN)を利用する。
トレーニングされたlstmは、コンテンツを変更することなく、悪意のあるトラフィックパケット(攻撃)間の時間差を設定するために使用され、良質なネットワークトラフィックのように“保持”され、侵入として検出されない。
8つの一般的な侵入攻撃と3つの最先端のNIDSシステム上でTANTRAを評価し、ネットワーク侵入検出システム評価の平均成功率99.99\%を達成します。
また,この新たな回避攻撃に対処する新たな緩和手法を提案する。 Network intrusion attacks are a known threat. To detect such attacks, network intrusion detection systems (NIDSs) have been developed and deployed. These systems apply machine learning models to high-dimensional vectors of features extracted from network traffic to detect intrusions. Advances in NIDSs have made it challenging for attackers, who must execute attacks without being detected by these systems. Prior research on bypassing NIDSs has mainly focused on perturbing the features extracted from the attack traffic to fool the detection system, however, this may jeopardize the attack's functionality. In this work, we present TANTRA, a novel end-to-end Timing-based Adversarial Network Traffic Reshaping Attack that can bypass a variety of NIDSs. Our evasion attack utilizes a long short-term memory (LSTM) deep neural network (DNN) which is trained to learn the time differences between the target network's benign packets. The trained LSTM is used to set the time differences between the malicious traffic packets (attack), without changing their content, such that they will "behave" like benign network traffic and will not be detected as an intrusion. We evaluate TANTRA on eight common intrusion attacks and three state-of-the-art NIDS systems, achieving an average success rate of 99.99\% in network intrusion detection system evasion. We also propose a novel mitigation technique to address this new evasion attack. | 翻訳日:2021-03-12 14:37:52 公開日:2021-03-10 |
# リニアマッピングに基づく変分アンサンブルカルマンフィルタ Linear-Mapping based Variational Ensemble Kalman Filter ( http://arxiv.org/abs/2103.06315v1 ) ライセンス: Link先を確認 | Linjie Wen, Jinglai Li | (参考訳) 一般観測モデルにおける問題に対する線形マッピングに基づく変分カルマンフィルタを提案する。
具体的には,先行アンサンブルから後方アンサンブルへの線形写像を構成するために提案手法を定式化し,変換された分布と実際の後方の分布とのKulback-Leibler分散を最小化することにより線形写像を算出する。 We propose a linear-mapping based variational Ensemble Kalman filter for problems with generic observation models. Specifically, the proposed method is formulated as to construct a linear mapping from the prior ensemble to the posterior one, and the linear mapping is computed by minimizing the Kullback-Leibler divergence between the transformed distribution by the linear mapping and the actual posterior. | 翻訳日:2021-03-12 14:35:33 公開日:2021-03-10 |
# 半環辞書を用いた関数型コレクションプログラミング Functional Collection Programming with Semi-Ring Dictionaries ( http://arxiv.org/abs/2103.06376v1 ) ライセンス: Link先を確認 | Amir Shaikhha, Mathieu Huot, Jaclyn Smith, Dan Olteanu | (参考訳) 本稿では, 集合, 多重集合, 配列, ベクトル, 行列などの他のコレクション型をサブスクライブする, 合成および純粋関数型コレクションの強力なクラスであるセミリング辞書を紹介する。
そこで我々は,半環辞書を中心とした静的型付け言語SDQLを開発し,アグリゲーションや関数コレクション,線形代数といった関係代数学の表現をエンコードする。
さらに、これらの辞書の背後にある半環代数構造のおかげで、SDQLはデータベースや線形代数でよく使われる幅広い最適化を統一する。
その結果、SDQLは、データベースシステムまたは線形代数フレームワークに限られる最適化をまとめることで、ハイブリッドデータベースと線形代数ワークロードの効率的な処理を可能にします。
実験結果から,少数のリレーショナルおよびリニア代数のワークロードがSDQL言語と最適化を活用できることが示唆された。
全体として、sdqlは(ネストしない、フラットな)リレーショナルデータのための最先端のインメモリシステムであるtyperとtectorwiseの競合性能を達成し、線形代数ワークロードのscipyに対する平均2倍のスピードアップを達成している。
最後に、ネストしたバイオメディカルデータに対する線形代数処理を含むハイブリッドワークロードの場合、sdqlは最先端のネストリレーショナルエンジンであるtransnce上で最大1桁のスピードアップを行うことができる。 This paper introduces semi-ring dictionaries, a powerful class of compositional and purely functional collections that subsume other collection types such as sets, multisets, arrays, vectors, and matrices. We develop SDQL, a statically typed language centered around semi-ring dictionaries, that can encode expressions in relational algebra with aggregations, functional collections, and linear algebra. Furthermore, thanks to the semi-ring algebraic structures behind these dictionaries, SDQL unifies a wide range of optimizations commonly used in databases and linear algebra. As a result, SDQL enables efficient processing of hybrid database and linear algebra workloads, by putting together optimizations that are otherwise confined to either database systems or linear algebra frameworks. Through experimental results, we show that a handful of relational and linear algebra workloads can take advantage of the SDQL language and optimizations. Overall, we observe that SDQL achieves competitive performance to Typer and Tectorwise, which are state-of-the-art in-memory systems for (flat, not nested) relational data, and achieves an average 2x speedup over SciPy for linear algebra workloads. Finally, for hybrid workloads involving linear algebra processing over nested biomedical data, SDQL can give up to one order of magnitude speedup over Trance, a state-of-the-art nested relational engine. | 翻訳日:2021-03-12 14:35:23 公開日:2021-03-10 |
# 天文化学タギングにおける離散表現学習 Disentangled Representation Learning for Astronomical Chemical Tagging ( http://arxiv.org/abs/2103.06377v1 ) ライセンス: Link先を確認 | Damien de Mijolla, Melissa Ness, Serena Viti, Adam Wheeler | (参考訳) 現代の天文学調査は、数百万の恒星のスペクトルデータを観測している。
これらのスペクトルは、銀河の形成と化学濃縮の歴史を追跡できる化学情報を含んでいる。
しかし、スペクトルから情報を抽出し、正確で正確な化学量測定を行うことは困難です。
本稿では,他のパラメータから恒星スペクトルの変化の化学的要因を分離するためのデータ駆動手法を提案する。
\teff, \logg, \feh)。
これにより、これらのパラメータを取り除き、各恒星のスペクトル投影を構築することができる。
このことは、元素の存在量自体の初歩的な知識を持たず、そのため、合成恒星スペクトルに依存するモデリングに関連する不確実性や体系を回避できる。
変動の既知の非化学的要因を取り除くために,不連続スペクトル表現を学習するニューラルネットワークアーキテクチャを開発し,実装する。
合成APOGEE様データセットの離散スペクトルを用いて、化学的に同一の恒星の回収をシミュレートする。
このリカバリは信号対雑音比の関数として減少するが、ニューラルネットワークアーキテクチャはより単純なモデリング選択よりも優れていることを示す。
本研究は,データ駆動アビダンスフリーケミカルタギングの実現可能性を示す。 Modern astronomical surveys are observing spectral data for millions of stars. These spectra contain chemical information that can be used to trace the Galaxy's formation and chemical enrichment history. However, extracting the information from spectra, and making precise and accurate chemical abundance measurements are challenging. Here, we present a data-driven method for isolating the chemical factors of variation in stellar spectra from those of other parameters (i.e. \teff, \logg, \feh). This enables us to build a spectral projection for each star with these parameters removed. We do this with no ab initio knowledge of elemental abundances themselves, and hence bypass the uncertainties and systematics associated with modeling that rely on synthetic stellar spectra. To remove known non-chemical factors of variation, we develop and implement a neural network architecture that learns a disentangled spectral representation. We simulate our recovery of chemically identical stars using the disentangled spectra in a synthetic APOGEE-like dataset. We show that this recovery declines as a function of the signal to noise ratio, but that our neural network architecture outperforms simpler modeling choices. Our work demonstrates the feasibility of data-driven abundance-free chemical tagging. | 翻訳日:2021-03-12 14:34:57 公開日:2021-03-10 |
# (参考訳) TransMed:トランスフォーマーがマルチモーダル医療画像分類を進める TransMed: Transformers Advance Multi-modal Medical Image Classification ( http://arxiv.org/abs/2103.05940v1 ) ライセンス: CC BY 4.0 | Yin Dai and Yifan Gao | (参考訳) 過去10年間で、畳み込みニューラルネットワーク(CNN)は、疾患分類、腫瘍分割、病変検出などの医療画像分析タスクで非常に競争力のあるパフォーマンスを示しています。
CNNは画像の局所的な特徴を抽出する上で大きな利点がある。
しかし、畳み込み操作の局所性のために、それは長距離関係をうまく扱うことができません。
近年,コンピュータビジョンにトランスフォーマーが適用され,大規模データセットで大きな成功を収めている。
自然画像と比較して、マルチモーダルな医用画像は明確かつ重要な長距離依存を持ち、効果的なマルチモーダル融合戦略はディープモデルの性能を大幅に向上させることができる。
これにより,トランスフォーマー構造を解析し,マルチモーダル医療画像に適用することが可能になる。
既存のトランスフォーマーベースのネットワークアーキテクチャは、パフォーマンス向上のために大規模なデータセットを必要とする。
しかし、医用画像データセットは比較的小さいため、純粋なトランスフォーマーを医用画像解析に適用することは困難である。
そこで,マルチモーダル医療画像分類のためのTransMedを提案する。
TransMedはCNNとトランスフォーマーの利点を組み合わせて、画像の低レベル特徴を効率的に抽出し、モダリティ間の長距離依存関係を確立する。
術前の耳下腺腫瘍診断の難易度をモデルとして評価し,本手法の有用性を検討した。
CNNとトランスフォーマーの組み合わせは多くの医療画像解析タスクにおいて大きな可能性を秘めていると我々は主張する。
私たちの最良の知識に、これは医療画像分類にトランスを適用する最初の仕事です。 Over the past decade, convolutional neural networks (CNN) have shown very competitive performance in medical image analysis tasks, such as disease classification, tumor segmentation, and lesion detection. CNN has great advantages in extracting local features of images. However, due to the locality of convolution operation, it can not deal with long-range relationships well. Recently, transformers have been applied to computer vision and achieved remarkable success in large-scale datasets. Compared with natural images, multi-modal medical images have explicit and important long-range dependencies, and effective multi-modal fusion strategies can greatly improve the performance of deep models. This prompts us to study transformer-based structures and apply them to multi-modal medical images. Existing transformer-based network architectures require large-scale datasets to achieve better performance. However, medical imaging datasets are relatively small, which makes it difficult to apply pure transformers to medical image analysis. Therefore, we propose TransMed for multi-modal medical image classification. TransMed combines the advantages of CNN and transformer to efficiently extract low-level features of images and establish long-range dependencies between modalities. We evaluated our model for the challenging problem of preoperative diagnosis of parotid gland tumors, and the experimental results show the advantages of our proposed method. We argue that the combination of CNN and transformer has tremendous potential in a large number of medical image analysis tasks. To our best knowledge, this is the first work to apply transformers to medical image classification. | 翻訳日:2021-03-12 14:30:02 公開日:2021-03-10 |
# (参考訳) FSCE:Contrastive Proposal EncodingによるFew-Shotオブジェクト検出 FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding ( http://arxiv.org/abs/2103.05950v1 ) ライセンス: CC BY 4.0 | Bo Sun, Banghuai Li, Shengcai Cai, Ye Yuan, Chi Zhang | (参考訳) 未確認物体(FSOD)と呼ばれる非常に少数の訓練例から、未確認物体の認識に新たな関心がもたらされた。
最近の研究では、優れた機能埋め込みが有利な数ショット学習パフォーマンスを達成する鍵であることを実証している。
We observed object proposals with different Intersection-of-Union (IoU) scores is similar to the intra-image augmentation used in contrastive approach。
そして、我々はこの類推を活用し、FSODでより堅牢なオブジェクト表現を達成するために、教師付きコントラスト学習を組み込む。
対比提案符号化(FSCE)によるFew-Shotオブジェクト検出について述べる。これは、検出されたオブジェクトの分類を容易にする対比認識オブジェクト提案符号化を学習するためのシンプルで効果的なアプローチである。
稀なオブジェクトの平均精度 (ap) の低下は、主に新しいインスタンスを使用可能なクラスとして誤分類することによるものである。
また, インスタンスレベルのクラス内コンパクト性とクラス間分散を, コントラスト的提案符号化損失(CPE損失)を通じて促進することにより, 誤分類問題を緩和する。
我々の設計は、あらゆるショットとすべてのデータ分割において現在の最先端の作業よりも優れており、標準ベンチマークPASCAL VOCでは+8.8%、挑戦的なCOCOベンチマークでは+2.7%である。
https://github.com/bsun0802/fsce.git Emerging interests have been brought to recognize previously unseen objects given very few training examples, known as few-shot object detection (FSOD). Recent researches demonstrate that good feature embedding is the key to reach favorable few-shot learning performance. We observe object proposals with different Intersection-of-Union (IoU) scores are analogous to the intra-image augmentation used in contrastive approaches. And we exploit this analogy and incorporate supervised contrastive learning to achieve more robust objects representations in FSOD. We present Few-Shot object detection via Contrastive proposals Encoding (FSCE), a simple yet effective approach to learning contrastive-aware object proposal encodings that facilitate the classification of detected objects. We notice the degradation of average precision (AP) for rare objects mainly comes from misclassifying novel instances as confusable classes. And we ease the misclassification issues by promoting instance level intra-class compactness and inter-class variance via our contrastive proposal encoding loss (CPE loss). Our design outperforms current state-of-the-art works in any shot and all data splits, with up to +8.8% on standard benchmark PASCAL VOC and +2.7% on challenging COCO benchmark. Code is available at: https://github.com/bsun0802/FSCE.git | 翻訳日:2021-03-12 14:17:48 公開日:2021-03-10 |
# (参考訳) COLA-Net:画像復元のための協調型注意ネットワーク COLA-Net: Collaborative Attention Network for Image Restoration ( http://arxiv.org/abs/2103.05961v1 ) ライセンス: CC BY 4.0 | Chong Mou, Jian Zhang, Xiaopeng Fan, Hangfan Liu, Ronggang Wang | (参考訳) 局所的および非局所的注意に基づく手法は、様々な画像復元タスクでよく研究され、有望なパフォーマンスをもたらす。
しかし、既存の手法のほとんどは、一種類の注意機構(ローカルまたは非ローカル)のみに焦点を当てている。
さらに、自然画像の自己相似性を生かして、既存の画素単位の非局所的注意操作は、画像変性による長距離依存を特徴づける過程でずれを引き起こす傾向がある。
そこで本論文では,局所的および非局所的な注意メカニズムを組み合わせ,複雑なテクスチャと反復的な詳細を持つ領域の画像コンテンツを復元する試みとして,画像復元のための新たな協調的注意ネットワーク(COLA-Net)を提案する。
さらに, 3次元パッチによる長距離特徴対応を捉えるために, 有効かつ堅牢なパッチワイズ非局所注意モデルを開発した。
合成画像のデノイジング,実画像デノイジング,圧縮アーティファクト削減タスクに関する広範な実験により,本提案手法は,計算複雑性を維持しつつ,ピーク信号対ノイズ比と視覚知覚の両方において最先端の性能を実現することができることを示した。
ソースコードはhttps://github.com/MC-E/COLA-Netで入手できる。 Local and non-local attention-based methods have been well studied in various image restoration tasks while leading to promising performance. However, most of the existing methods solely focus on one type of attention mechanism (local or non-local). Furthermore, by exploiting the self-similarity of natural images, existing pixel-wise non-local attention operations tend to give rise to deviations in the process of characterizing long-range dependence due to image degeneration. To overcome these problems, in this paper we propose a novel collaborative attention network (COLA-Net) for image restoration, as the first attempt to combine local and non-local attention mechanisms to restore image content in the areas with complex textures and with highly repetitive details respectively. In addition, an effective and robust patch-wise non-local attention model is developed to capture long-range feature correspondences through 3D patches. Extensive experiments on synthetic image denoising, real image denoising and compression artifact reduction tasks demonstrate that our proposed COLA-Net is able to achieve state-of-the-art performance in both peak signal-to-noise ratio and visual perception, while maintaining an attractive computational complexity. The source code is available on https://github.com/MC-E/COLA-Net. | 翻訳日:2021-03-12 13:59:31 公開日:2021-03-10 |
# (参考訳) SDD-FIQA:類似分布距離を用いた教師なし顔画像品質評価 SDD-FIQA: Unsupervised Face Image Quality Assessment with Similarity Distribution Distance ( http://arxiv.org/abs/2103.05977v1 ) ライセンス: CC BY 4.0 | Fu-Zhao Ou, Xingyu Chen, Ruixin Zhang, Yuge Huang, Shaoxin Li, Jilin Li, Yong Li, Liujuan Cao, and Yuan-Gen Wang | (参考訳) 近年、顔画像品質評価(FIQA)は、制約のないシナリオにおける認識性能の安定性と信頼性を保証するために、顔認識システムの不可欠な部分となっています。
この目的のために、FIQAメソッドは、本質的特性と顔画像の認識可能性の両方を考慮するべきである。
先行研究のほとんどは,部分的クラス内情報のみを考慮に入れた質スコアとして,サンプル単位の埋め込み不確実性やペア単位の類似性を推定することを目的としている。
しかし、これらの方法は、顔画像の認識可能性を推定するためのクラス間の貴重な情報を無視します。
本研究では,高品質な顔画像はクラス内サンプルと類似し,クラス間サンプルと相似であるべきだと論じる。
そこで本稿では,顔画像品質評価のための類似度分布距離(SDD-FIQA)を組み込んだ新しい教師なしFIQA手法を提案する。
本手法は,クラス内類似度分布とクラス間類似度分布の間のWasserstein Distance (WD)を計算することにより,品質疑似ラベルを生成する。
これらの品質疑似ラベルにより、品質予測のための回帰ネットワークのトレーニングが可能です。
ベンチマークデータセットに関する広範な実験は、提案されたSDD-FIQAが最先端を圧倒的なマージンで上回っていることを示しています。
一方,本手法は異なる認識システムにまたがって優れた一般化を示す。 In recent years, Face Image Quality Assessment (FIQA) has become an indispensable part of the face recognition system to guarantee the stability and reliability of recognition performance in an unconstrained scenario. For this purpose, the FIQA method should consider both the intrinsic property and the recognizability of the face image. Most previous works aim to estimate the sample-wise embedding uncertainty or pair-wise similarity as the quality score, which only considers the information from partial intra-class. However, these methods ignore the valuable information from the inter-class, which is for estimating to the recognizability of face image. In this work, we argue that a high-quality face image should be similar to its intra-class samples and dissimilar to its inter-class samples. Thus, we propose a novel unsupervised FIQA method that incorporates Similarity Distribution Distance for Face Image Quality Assessment (SDD-FIQA). Our method generates quality pseudo-labels by calculating the Wasserstein Distance (WD) between the intra-class similarity distributions and inter-class similarity distributions. With these quality pseudo-labels, we are capable of training a regression network for quality prediction. Extensive experiments on benchmark datasets demonstrate that the proposed SDD-FIQA surpasses the state-of-the-arts by an impressive margin. Meanwhile, our method shows good generalization across different recognition systems. | 翻訳日:2021-03-12 13:36:38 公開日:2021-03-10 |
# (参考訳) ロバスト顔検出のための広アスペクト比マッチング Wide Aspect Ratio Matching for Robust Face Detection ( http://arxiv.org/abs/2103.05993v1 ) ライセンス: CC BY 4.0 | Shi Luo, Xiongfei Li, Xiaoli Zhang | (参考訳) 近年,顔検出におけるアンカーベース手法の進歩が目覚ましい。
アンカー設計とアンカーマッチング戦略が決定されると、多くのポジティブアンカーがサンプリングされる。
しかしながら、極端なアスペクト比の顔は常に標準アンカーマッチング戦略に従ってサンプリングされない。
実際、アンカーと極端なアスペクト比面の間の最大IoUsはまだ固定サンプリングしきい値よりも低いです。
本稿ではまず,各面の最大IoUに影響を与える要因を理論的に検討する。
そして、アンカーマッチングシミュレーションを行い、顔のアスペクト比のサンプリング範囲を評価する。
また,広範囲のアスペクト比において,地対面からより代表的な正のアンカーを収集する広いアスペクト比マッチング(warm)戦略を提案する。
最後に,receptive field diversity(rfd)モジュールという新しい機能拡張モジュールを提案し,異なるアスペクト比に対応する多様な受容フィールドを提供する。
広範な実験により, WIDER FACE や FDDB データセットなど, 難易度の高い顔検出ベンチマークにおいて, 検出器が極端にアスペクト比を捕捉し, 有望な検出性能を達成できることが示された。 Recently, anchor-based methods have achieved great progress in face detection. Once anchor design and anchor matching strategy determined, plenty of positive anchors will be sampled. However, faces with extreme aspect ratio always fail to be sampled according to standard anchor matching strategy. In fact, the max IoUs between anchors and extreme aspect ratio faces are still lower than fixed sampling threshold. In this paper, we firstly explore the factors that affect the max IoU of each face in theory. Then, anchor matching simulation is performed to evaluate the sampling range of face aspect ratio. Besides, we propose a Wide Aspect Ratio Matching (WARM) strategy to collect more representative positive anchors from ground-truth faces across a wide range of aspect ratio. Finally, we present a novel feature enhancement module, named Receptive Field Diversity (RFD) module, to provide diverse receptive field corresponding to different aspect ratios. Extensive experiments show that our method can help detectors better capture extreme aspect ratio faces and achieve promising detection performance on challenging face detection benchmarks, including WIDER FACE and FDDB datasets. | 翻訳日:2021-03-12 13:16:48 公開日:2021-03-10 |
# (参考訳) 教師なし画像分割のためのディープスーパーピクセルカット Deep Superpixel Cut for Unsupervised Image Segmentation ( http://arxiv.org/abs/2103.06031v1 ) ライセンス: CC BY 4.0 | Qinghong Lin, Weichan Zhong, Jianglin Lu | (参考訳) 最も重要な視覚課題の一つである画像分割は長年にわたって研究されてきた。
初期のアルゴリズムのほとんどは教師なしの手法であり、手作りの機能を使って画像を多くの領域に分割する。
近年,ディープラーニング技術の成功により,画像セグメンテーションにおいてCNNベースの手法が優れた性能を示した。
しかし、これらの手法は多くの人間のアノテーションに依存しており、収集にはコストがかかる。
本論文では,以下の2つの段階を含む,画像分割の詳細な非監視手法を提案する。
まず,スーパーピクセルワイドオートエンコーダ(SuperAE)を用いて,スムーズな画像の埋め込みと再構成を学習し,そのスムーズな画像を渡してスーパーピクセルを生成する。
次に,超画素間の深い類似度を測定し,ソフトパーティショニング問題として画像分割を定式化する,deep superpixel cut(dsc)と呼ばれる新しいクラスタリングアルゴリズムを提案する。
バックプロパゲーションにより、DSCはスーパーピクセルを知覚領域に適応的に分割する。
BSDS500データセットの実験結果から,提案手法の有効性が示された。 Image segmentation, one of the most critical vision tasks, has been studied for many years. Most of the early algorithms are unsupervised methods, which use hand-crafted features to divide the image into many regions. Recently, owing to the great success of deep learning technology, CNNs based methods show superior performance in image segmentation. However, these methods rely on a large number of human annotations, which are expensive to collect. In this paper, we propose a deep unsupervised method for image segmentation, which contains the following two stages. First, a Superpixelwise Autoencoder (SuperAE) is designed to learn the deep embedding and reconstruct a smoothed image, then the smoothed image is passed to generate superpixels. Second, we present a novel clustering algorithm called Deep Superpixel Cut (DSC), which measures the deep similarity between superpixels and formulates image segmentation as a soft partitioning problem. Via backpropagation, DSC adaptively partitions the superpixels into perceptual regions. Experimental results on the BSDS500 dataset demonstrate the effectiveness of the proposed method. | 翻訳日:2021-03-12 13:03:11 公開日:2021-03-10 |
# (参考訳) イベントカメラ用時系列最新のイベントボリューム(TORE) Time-Ordered Recent Event (TORE) Volumes for Event Cameras ( http://arxiv.org/abs/2103.06108v1 ) ライセンス: CC BY 4.0 | R. Wes Baldwin, Ruixu Liu, Mohammed Almatrafi, Vijayan Asari, Keigo Hirakawa | (参考訳) イベントカメラは、非常に低遅延で広いダイナミックレンジの高速イメージングを可能にするエキサイティングで新しいセンサーモダリティです。
残念ながら、ほとんどの機械学習アーキテクチャは、イベントカメラから生成されたようなスパースデータを直接扱うように設計されていない。
イベントカメラの多くの最先端のアルゴリズムは、重要なタイミング情報を隠蔽し、データ量を増やし、全体的なネットワークパフォーマンスを制限する、補間されたイベント表現に依存しています。
本稿では,時系列最近のイベント(TORE)ボリュームというイベント表現を詳述する。
TOREボリュームは、最小限の情報損失で生のスパイクタイミング情報をコンパクトに格納するように設計されています。
このバイオインスパイアされた設計はメモリ効率が良く、計算が速く、時間ブロックを避ける。
固定および予め定義されたフレームレート)で、過去のデータからの"ローカルメモリ"を含んでいる。
設計は、さまざまな課題(例えば、)で評価される。
イベントデノイジング、画像再構成、分類、および人間のポーズ推定)は、最先端のパフォーマンスを劇的に改善することが示されています。
TOREボリュームは、現在イベント表現を利用しているアルゴリズムの簡単に実装できる代替品です。 Event cameras are an exciting, new sensor modality enabling high-speed imaging with extremely low-latency and wide dynamic range. Unfortunately, most machine learning architectures are not designed to directly handle sparse data, like that generated from event cameras. Many state-of-the-art algorithms for event cameras rely on interpolated event representations - obscuring crucial timing information, increasing the data volume, and limiting overall network performance. This paper details an event representation called Time-Ordered Recent Event (TORE) volumes. TORE volumes are designed to compactly store raw spike timing information with minimal information loss. This bio-inspired design is memory efficient, computationally fast, avoids time-blocking (i.e. fixed and predefined frame rates), and contains "local memory" from past data. The design is evaluated on a wide range of challenging tasks (e.g. event denoising, image reconstruction, classification, and human pose estimation) and is shown to dramatically improve state-of-the-art performance. TORE volumes are an easy-to-implement replacement for any algorithm currently utilizing event representations. | 翻訳日:2021-03-12 12:50:17 公開日:2021-03-10 |
# 論文「CME」の改訂 Modified our paper "CME" ( http://arxiv.org/abs/2103.04612v2 ) ライセンス: Link先を確認 | Bohao Li | (参考訳) 本論文は著者によって誤りにより修正されている。 This paper has been modified by the author due to errors. | 翻訳日:2021-03-12 12:22:58 公開日:2021-03-10 |
# (参考訳) 骨年齢推定のための逆回帰学習 Adversarial Regression Learning for Bone Age Estimation ( http://arxiv.org/abs/2103.06149v1 ) ライセンス: CC0 1.0 | Youshan Zhang and Brian D. Davison | (参考訳) 小児の内分泌疾患の診断における骨格年齢の決定には,手書きX線写真による骨年齢の推定が不可欠である。
しかしながら、既存の自動メソッドは、トレーニングサンプルとテストサンプルの相違を考慮せずに、テスト画像にのみモデルを適用するため、一般化能力が低下する。
本稿では,骨年齢推定のための逆回帰学習ネットワーク(ARLNet)を提案する。
具体的には、細かく調整されたインセプションV3ニューラルネットワークから骨の特徴を抽出し、トレーニングの回帰率の損失を提案します。
トレーニングデータとテストデータとの相違を減らすために,学習データからテストデータへの遷移を保証するために,逆回帰損失と特徴再構成損失を提案し,その逆も提案し,トレーニングデータとテストデータの両方から不変な特徴を保存する。
実験の結果,提案モデルが最先端の手法を上回っていることが示された。 Estimation of bone age from hand radiographs is essential to determine skeletal age in diagnosing endocrine disorders and depicting the growth status of children. However, existing automatic methods only apply their models to test images without considering the discrepancy between training samples and test samples, which will lead to a lower generalization ability. In this paper, we propose an adversarial regression learning network (ARLNet) for bone age estimation. Specifically, we first extract bone features from a fine-tuned Inception V3 neural network and propose regression percentage loss for training. To reduce the discrepancy between training and test data, we then propose adversarial regression loss and feature reconstruction loss to guarantee the transition from training data to test data and vice versa, preserving invariant features from both training and test data. Experimental results show that the proposed model outperforms state-of-the-art methods. | 翻訳日:2021-03-12 12:19:24 公開日:2021-03-10 |
# (参考訳) 対話型機械学習におけるユースケースと手法の連携に向けて Towards Connecting Use Cases and Methods in Interpretable Machine Learning ( http://arxiv.org/abs/2103.06254v1 ) ライセンス: CC BY 4.0 | Valerie Chen, Jeffrey Li, Joon Sik Kim, Gregory Plumb, Ameet Talwalkar | (参考訳) IML(Interpretable Machine Learning)の分野への関心が高まっているにもかかわらず、研究者の手法がターゲットとする技術的目標と消費者のユースケースの高レベル目標との間に大きなギャップが持続する。
本研究では,IML法の基礎的研究と評価を実用的分類学に合成する。
この分類法は、研究者と消費者のギャップを概念化するツールとして機能し、その方法とユースケースコンポーネント間の接続の欠如によって説明される。
また、研究者や消費者が協力して、どのようなユースケースに有用な方法を見つけられるように、3段階のワークフローを記述する基盤も提供しています。
最終的に、このワークフローから得られた結果に基づいて、より完全な分類法によって、消費者は、ターゲットとするユースケースや研究者が提案する方法の適切なユースケースを特定するための適切な方法を見つけることができるようになるだろう。 Despite increasing interest in the field of Interpretable Machine Learning (IML), a significant gap persists between the technical objectives targeted by researchers' methods and the high-level goals of consumers' use cases. In this work, we synthesize foundational work on IML methods and evaluation into an actionable taxonomy. This taxonomy serves as a tool to conceptualize the gap between researchers and consumers, illustrated by the lack of connections between its methods and use cases components. It also provides the foundation from which we describe a three-step workflow to better enable researchers and consumers to work together to discover what types of methods are useful for what use cases. Eventually, by building on the results generated from this workflow, a more complete version of the taxonomy will increasingly allow consumers to find relevant methods for their target use cases and researchers to identify applicable use cases for their proposed methods. | 翻訳日:2021-03-12 12:08:14 公開日:2021-03-10 |
# (参考訳) Attribute-augmented Graph Neural Networksによる逐次推奨の改善 Improving Sequential Recommendation with Attribute-augmented Graph Neural Networks ( http://arxiv.org/abs/2103.05923v1 ) ライセンス: CC BY 4.0 | Xinzhou Dong, Beihong Jin, Wei Zhuo, Beibei Li, Taofeng Xue | (参考訳) 多くの実用的なレコメンデーションシステムは、ユーザとイテムのインタラクションをマイニングするだけでなく、ユーザが対話するアイテムの豊富な属性情報を完全に無視することで、異なるユーザに対してアイテムレコメンデーションを提供する。
本稿では,Murzimという属性拡張グラフニューラルネットワークモデルを提案する。
murzimはユーザとアイテムのインタラクションシーケンスと対応するアイテム属性シーケンスから構築されたグラフを入力として取ります。
GNNとノードアグリゲーションとアテンションネットワークを組み合わせることで、Murzimはユーザーの好みパターンをキャプチャし、ユーザーとアイテムのインタラクションシーケンスの埋め込みを生成し、次の項目の予測を通じてレコメンデーションを生成することができる。
複数のデータセットに対して広範な実験を行う。
実験の結果,murzimはリコールやmrrの点で最先端の手法よりも優れており,より優れたレコメンデーションを生成するために,murzimがアイテム属性情報を利用できることを示した。
現在、murzimはインド最大のストリーミングプラットフォームであるmx playerに展開されており、数万人のユーザーのために動画を推奨している。 Many practical recommender systems provide item recommendation for different users only via mining user-item interactions but totally ignoring the rich attribute information of items that users interact with. In this paper, we propose an attribute-augmented graph neural network model named Murzim. Murzim takes as input the graphs constructed from the user-item interaction sequences and corresponding item attribute sequences. By combining the GNNs with node aggregation and an attention network, Murzim can capture user preference patterns, generate embeddings for user-item interaction sequences, and then generate recommendations through next-item prediction. We conduct extensive experiments on multiple datasets. Experimental results show that Murzim outperforms several state-of-the-art methods in terms of recall and MRR, which illustrates that Murzim can make use of item attribute information to produce better recommendations. At present, Murzim has been deployed in MX Player, one of India's largest streaming platforms, and is recommending videos for tens of thousands of users. | 翻訳日:2021-03-12 11:22:58 公開日:2021-03-10 |
# (参考訳) 認知モデルを用いた人-コンピュータインタラクションのためのウォームスタート強化学習エージェントの訓練 Using Cognitive Models to Train Warm Start Reinforcement Learning Agents for Human-Computer Interactions ( http://arxiv.org/abs/2103.06160v1 ) ライセンス: CC BY 4.0 | Chao Zhang, Shihan Wang, Henk Aarts and Mehdi Dastani | (参考訳) ヒューマンコンピュータインタラクションアプリケーションにおける強化学習(RL)エージェントは、正常に動作する前に繰り返しユーザーインタラクションを必要とする。
この「コールドスタート」問題に対処するため、実ユーザに適用する前に認知モデルを用いてRLエージェントを事前訓練する手法を提案する。
関連する認知モデルを簡単に検討した後,本研究の方法論的アプローチと,先行研究と継続研究の2つのケーススタディについて述べる。
このポジションペーパーは、RL、HCI、認知科学研究者間の対話を刺激し、アプローチの最大限の可能性を探ることを願っています。 Reinforcement learning (RL) agents in human-computer interactions applications require repeated user interactions before they can perform well. To address this "cold start" problem, we propose a novel approach of using cognitive models to pre-train RL agents before they are applied to real users. After briefly reviewing relevant cognitive models, we present our general methodological approach, followed by two case studies from our previous and ongoing projects. We hope this position paper stimulates conversations between RL, HCI, and cognitive science researchers in order to explore the full potential of the approach. | 翻訳日:2021-03-12 11:11:54 公開日:2021-03-10 |
# (参考訳) fMRIを用いた自殺予測の批判的再評価 A critical reappraisal of predicting suicidal ideation using fMRI ( http://arxiv.org/abs/2103.06114v1 ) ライセンス: CC BY 4.0 | Timothy Verstynen, Konrad Kording | (参考訳) 多くの精神疾患では、神経イメージングは前言的な精神プロセスへのアクセスを提供することで診断と治療に革命をもたらす可能性があります。
彼らの研究「自殺と感情の概念の神経表現の機械学習は自殺の若者を識別します。
「1、just、そして同僚は、死亡に関連する言葉や概念の提示中に、ヒト参加者のボクセルワイズfmri応答を訓練したナイーブ・ベイズ分類器は、個人が91%の分類精度で自殺イデオロギーを報告したかどうかを予測することができる。
本稿では,著者が用いた手法の再評価を行い,同じデータセットの再解析を行い,著者の精度を疑問視する。 For many psychiatric disorders, neuroimaging offers a potential for revolutionizing diagnosis and treatment by providing access to preverbal mental processes. In their study "Machine learning of neural representations of suicide and emotion concepts identifies suicidal youth."1, Just and colleagues report that a Naive Bayes classifier, trained on voxelwise fMRI responses in human participants during the presentation of words and concepts related to mortality, can predict whether an individual had reported having suicidal ideations with a classification accuracy of 91%. Here we report a reappraisal of the methods employed by the authors, including re-analysis of the same data set, that calls into question the accuracy of the authors findings. | 翻訳日:2021-03-12 11:05:45 公開日:2021-03-10 |
# (参考訳) 多球画像を用いた6-DoF全方位映像の構成学習 Learning to compose 6-DoF omnidirectional videos using multi-sphere images ( http://arxiv.org/abs/2103.05842v1 ) ライセンス: CC BY 4.0 | Jisheng Li, Yuze He, Yubin Hu, Yuxing Han, Jiangtao Wen | (参考訳) Omnidirectional VideoはVirtual Realityの重要なコンポーネントである。
6自由度 (6-dof) で見ることのできるコンテンツを生成するために様々な方法が提案されているが、既存のシステムは通常、複雑な深度推定、画像のインペインティング、前処理を含む。
本論文では,3D ConvNetを用いて6-DoF VRで体験できる多球画像(MSI)表現を生成するシステムを提案する。
このシステムは、奥行きマップやセグメンテーションマスクを必要とせずに、従来の全方向VRカメラの映像を直接利用し、6-DoF全方向ビデオ合成の全体的な複雑さを大幅に単純化する。
新たに設計されたfeeded sphere sweep volume (wssv) fusing技術を使えば、ほとんどのパノラマvrカメラのセットアップと互換性がある。
高品質なアーティファクトフリーな6-dofコンテンツに対する基礎的真理生成手法を提案し,研究開発コミュニティによる6-dofコンテンツ生成に利用可能である。 Omnidirectional video is an essential component of Virtual Reality. Although various methods have been proposed to generate content that can be viewed with six degrees of freedom (6-DoF), existing systems usually involve complex depth estimation, image in-painting or stitching pre-processing. In this paper, we propose a system that uses a 3D ConvNet to generate a multi-sphere images (MSI) representation that can be experienced in 6-DoF VR. The system utilizes conventional omnidirectional VR camera footage directly without the need for a depth map or segmentation mask, thereby significantly simplifying the overall complexity of the 6-DoF omnidirectional video composition. By using a newly designed weighted sphere sweep volume (WSSV) fusing technique, our approach is compatible with most panoramic VR camera setups. A ground truth generation approach for high-quality artifact-free 6-DoF contents is proposed and can be used by the research and development community for 6-DoF content generation. | 翻訳日:2021-03-12 11:01:37 公開日:2021-03-10 |
# (参考訳) サイド情報の誘導によるパンスハーピングのための深層畳み込みスパース符号化ネットワーク Deep Convolutional Sparse Coding Network for Pansharpening with Guidance of Side Information ( http://arxiv.org/abs/2103.05946v1 ) ライセンス: CC BY 4.0 | Shuang Xu and Jiangshe Zhang and Kai Sun and Zixiang Zhao and Lu Huang and Junmin Liu and Chunxia Zhang | (参考訳) Pansharpeningはリモートセンシングの分野で基本的な問題です。
本稿では,部分案内型畳み込みスパース符号化(SCSC)モデルを提案する。
鍵となる考え方は、低分解能マルチスペクトル画像をパンクロマティック画像関連特徴マップとパンクロマティック画像関連特徴マップに分割することであり、パンクロマティック画像の側情報によって前者が正規化される。
アルゴリズムアンローリング技術の原理により、提案モデルはSCSCpansharpening neural Network(SCSC-PNN)と呼ばれるディープニューラルネットワークとして一般化される。
3つの衛星の13の古典的な方法および最先端の方法と比較されて、数値実験はSCSC-PNNが他より優秀であることを示します。
コードはhttps://github.com/xsxjtu/SCSC-PNNで入手できる。 Pansharpening is a fundamental issue in remote sensing field. This paper proposes a side information partially guided convolutional sparse coding (SCSC) model for pansharpening. The key idea is to split the low resolution multispectral image into a panchromatic image related feature map and a panchromatic image irrelated feature map, where the former one is regularized by the side information from panchromatic images. With the principle of algorithm unrolling techniques, the proposed model is generalized as a deep neural network, called as SCSC pansharpening neural network (SCSC-PNN). Compared with 13 classic and state-of-the-art methods on three satellites, the numerical experiments show that SCSC-PNN is superior to others. The codes are available at https://github.com/xsxjtu/SCSC-PNN. | 翻訳日:2021-03-12 10:48:08 公開日:2021-03-10 |
# (参考訳) DSEC:シナリオを駆動するためのステレオイベントカメラデータセット DSEC: A Stereo Event Camera Dataset for Driving Scenarios ( http://arxiv.org/abs/2103.06011v1 ) ライセンス: CC BY 4.0 | Mathias Gehrig, Willem Aarents, Daniel Gehrig, Davide Scaramuzza | (参考訳) 一度学術ベンチャーになった自動運転は、過去10年間で比類のない企業資金を得ています。
しかし、現在の自動運転車の運転条件は理想的なシナリオに限られている。
これは、夜間、日の出、日没といった困難な照明条件での運転が未解決の問題であることを意味する。
これらのケースでは、標準カメラは低照度と高ダイナミックレンジ性能の点で限界まで押し上げられている。
これらの課題を解決するために、このような厳しい照明条件を含み、豊富な感覚データを提供する新しいデータセットであるDSECを提案します。
DSECは、2つのカラーフレームカメラと2つの高解像度モノクロームイベントカメラの広いベースラインステレオ設定からデータを提供する。
さらに、ライダーデータとRTK GPS測定値を収集し、両ハードウェアはすべてのカメラデータと同期する。
このデータセットの特徴の1つは、高解像度のイベントカメラを含むことである。
イベントカメラは、高い時間分解能と高いダイナミックレンジ性能で注目を集めています。
しかし、その斬新さから、運転シナリオにおけるイベントカメラデータセットは稀である。
本研究は,イベントカメラを用いた初の高分解能大規模ステレオデータセットを提案する。
このデータセットは、様々な照明条件で駆動することによって収集された53のシーケンスを含み、イベントベースのステレオアルゴリズムの開発と評価のための真実の相違を提供する。 Once an academic venture, autonomous driving has received unparalleled corporate funding in the last decade. Still, the operating conditions of current autonomous cars are mostly restricted to ideal scenarios. This means that driving in challenging illumination conditions such as night, sunrise, and sunset remains an open problem. In these cases, standard cameras are being pushed to their limits in terms of low light and high dynamic range performance. To address these challenges, we propose, DSEC, a new dataset that contains such demanding illumination conditions and provides a rich set of sensory data. DSEC offers data from a wide-baseline stereo setup of two color frame cameras and two high-resolution monochrome event cameras. In addition, we collect lidar data and RTK GPS measurements, both hardware synchronized with all camera data. One of the distinctive features of this dataset is the inclusion of high-resolution event cameras. Event cameras have received increasing attention for their high temporal resolution and high dynamic range performance. However, due to their novelty, event camera datasets in driving scenarios are rare. This work presents the first high-resolution, large-scale stereo dataset with event cameras. The dataset contains 53 sequences collected by driving in a variety of illumination conditions and provides ground truth disparity for the development and evaluation of event-based stereo algorithms. | 翻訳日:2021-03-12 10:38:27 公開日:2021-03-10 |
# (参考訳) モデル化深層学習による光フィールド顕微鏡の神経局在化への応用 Model-inspired Deep Learning for Light-Field Microscopy with Application to Neuron Localization ( http://arxiv.org/abs/2103.06164v1 ) ライセンス: CC BY 4.0 | Pingfan Song, Herman Verinaz Jadan, Carmel L. Howe, Peter Quicke, Amanda J. Foust, Pier Luigi Dragotti | (参考訳) 光電場顕微鏡は入射光線の空間的および角度的情報を捉えることができる。
そこで本研究では,光フィールド顕微鏡画像を用いた高速かつ堅牢なソースの3Dローカリゼーションを実現するモデルに基づく深層学習手法を提案する。
これは、エピポーラ平面画像(EPI)を対応するスパース符号にマッピングするために、畳み込みスパース符号化(CSC)問題を効率的に解くディープネットワークを開発することで達成される。
ネットワークアーキテクチャはConvolutional Iterative Shrinkage and Thresholding Algorithm (ISTA)を解き放ち、ネットワークパラメータはトレーニングデータセットから学習することによって体系的に設計されている。
このような原則化された設計により、ディープネットワークはモデルに含まれるドメイン知識とデータから得られる新しいパラメータの両方を活用でき、モデルベースと学習ベースの方法の利点を組み合わせることができます。
光場からの哺乳類ニューロンの局在に関する実用的な実験は、提案されたアプローチが同時に性能、解釈可能性および効率を高めることを示した。 Light-field microscopes are able to capture spatial and angular information of incident light rays. This allows reconstructing 3D locations of neurons from a single snap-shot.In this work, we propose a model-inspired deep learning approach to perform fast and robust 3D localization of sources using light-field microscopy images. This is achieved by developing a deep network that efficiently solves a convolutional sparse coding (CSC) problem to map Epipolar Plane Images (EPI) to corresponding sparse codes. The network architecture is designed systematically by unrolling the convolutional Iterative Shrinkage and Thresholding Algorithm (ISTA) while the network parameters are learned from a training dataset. Such principled design enables the deep network to leverage both domain knowledge implied in the model, as well as new parameters learned from the data, thereby combining advantages of model-based and learning-based methods. Practical experiments on localization of mammalian neurons from light-fields show that the proposed approach simultaneously provides enhanced performance, interpretability and efficiency. | 翻訳日:2021-03-12 10:22:27 公開日:2021-03-10 |
# (参考訳) 弱ラベルと解剖学的知識--TOF-MRAにおける頭蓋内動脈瘤検出のための深層学習の実践 Weak labels and anatomical knowledge: making deep learning practical for intracranial aneurysm detection in TOF-MRA ( http://arxiv.org/abs/2103.06168v1 ) ライセンス: CC BY-SA 4.0 | Tommaso Di Noto, Guillaume Marie, Sebastien Tourbier, Yasser Alem\'an-G\'omez, Oscar Esteban, Guillaume Saliou, Meritxell Bach Cuadra, Patric Hagmann, Jonas Richiardi | (参考訳) 教師付きセグメンテーションアルゴリズムは、自動異常検出のための最先端の結果を得る。
しかし、これらのモデルは、医療専門家のために描くのに時間がかかるボキセルワイズラベルを必要とします。
voxel-wiseアノテーションの興味深い代替案は、弱いラベルの使用である。これらは粗い、または大きすぎるアノテーションであり、精度は低いが、作成がかなり高速である。
本研究では,脳動脈瘤検出の課題に対して,大小の弱いラベルを用いてトレーニングした,完全自動化されたディープニューラルネットワークを開発する。
さらに,脳動脈瘤は主に特定の解剖学的位置に存在するため,トレーニングと推論の両方において脳血管の基盤となる解剖学を活かしたモデルを構築した。
本研究では,TOF-MRA(Time-Of-Flight Magnetic Resonance Angiography)を施行し,合計154例の動脈瘤を呈した250名(120名,130名)に適用した。
アルゴリズムの堅牢性を評価するために、我々はTOF-MRAデータ(93患者、20制御、125動脈瘤)のためのMICCAIチャレンジに参加しました。
当社のネットワークは、社内データで平均77%の感度を達成し、患者1人当たりの平均False Positive(FP)レートは0.72です。
その代わり、チャレンジデータでは、平均fpレート1.18で59%の感度を達成し、検出では7位/14位、オープンリーダーボードでは4位/11位となった。
破裂リスクに対する検出性能の計算では, 2つの危険群 (p = 0.12) の統計的差は認められなかったが, 危険動脈瘤に対する感受性は高く(78%)であった。
本手法は, 臨床に有用な感度を, 弱いラベルと先行解剖学的知識を用いて達成できることを示唆し, 時間とデータに制限のある病院への深層学習の可能性を広げるものである。 Supervised segmentation algorithms yield state-of-the-art results for automated anomaly detection. However, these models require voxel-wise labels which are time-consuming to draw for medical experts. An interesting alternative to voxel-wise annotations is the use of weak labels: these can be coarse or oversized annotations that are less precise, but considerably faster to create. In this work, we address the task of brain aneurysm detection by developing a fully automated, deep neural network that is trained utilizing oversized weak labels. Furthermore, since aneurysms mainly occur in specific anatomical locations, we build our model leveraging the underlying anatomy of the brain vasculature both during training and inference. We apply our model to 250 subjects (120 patients, 130 controls) who underwent Time-Of-Flight Magnetic Resonance Angiography (TOF-MRA) and presented a total of 154 aneurysms. To assess the robustness of the algorithm, we participated in a MICCAI challenge for TOF-MRA data (93 patients, 20 controls, 125 aneurysms) which allowed us to obtain results also for subjects coming from a different institution. Our network achieves an average sensitivity of 77% on our in-house data, with a mean False Positive (FP) rate of 0.72 per patient. Instead, on the challenge data, we attain a sensitivity of 59% with a mean FP rate of 1.18, ranking in 7th/14 position for detection and in 4th/11 for segmentation on the open leaderboard. When computing detection performances with respect to aneurysms' risk of rupture, we found no statistical difference between two risk groups (p = 0.12), although the sensitivity for dangerous aneurysms was higher (78%). Our approach suggests that clinically useful sensitivity can be achieved using weak labels and exploiting prior anatomical knowledge; this expands the feasibility of deep learning studies to hospitals that have limited time and data. | 翻訳日:2021-03-12 10:12:30 公開日:2021-03-10 |
# (参考訳) 半緩和最適輸送のための高速ブロック座標Frank-Wolfeアルゴリズム Fast block-coordinate Frank-Wolfe algorithm for semi-relaxed optimal transport ( http://arxiv.org/abs/2103.05857v1 ) ライセンス: CC BY 4.0 | Takumi Fukunaga, Hiroyuki Kasai | (参考訳) 空間的位置を考慮した2つの確率分布間の距離を提供する最適輸送(OT)が,幅広い応用に応用されている。
OT問題の計算には、厳密な質量保存制約を持つ線形プログラミングの解決が必要である。
この要求は大規模問題への適用を妨げる。
この問題を軽減するため、最近提案された relaxed-ot アプローチでは、そのような制約を緩和することでより高速なアルゴリズムを使用する。
実用上の有効性が実証されている。
それでも、収束は遅い。
この目的のために, 凸半相対型otに対処し, 分散解を与える高速ブロック座標frank-wolfe (bcfw) アルゴリズムを提案する。
具体的には、最悪の収束反復の上限と、線型化双対性ギャップとラグランジアン双対性ギャップの等価性を提供する。
bcfwの3つの高速変種も提案されている。
色伝達問題における数値的な評価は,提案アルゴリズムが異なる設定で最先端のアルゴリズムより優れていることを示す。 Optimal transport (OT), which provides a distance between two probability distributions by considering their spatial locations, has been applied to widely diverse applications. Computing an OT problem requires solution of linear programming with tight mass-conservation constraints. This requirement hinders its application to large-scale problems. To alleviate this issue, the recently proposed relaxed-OT approach uses a faster algorithm by relaxing such constraints. Its effectiveness for practical applications has been demonstrated. Nevertheless, it still exhibits slow convergence. To this end, addressing a convex semi-relaxed OT, we propose a fast block-coordinate Frank-Wolfe (BCFW) algorithm, which gives sparse solutions. Specifically, we provide their upper bounds of the worst convergence iterations, and equivalence between the linearization duality gap and the Lagrangian duality gap. Three fast variants of the proposed BCFW are also proposed. Numerical evaluations in color transfer problem demonstrate that the proposed algorithms outperform state-of-the-art algorithms across different settings. | 翻訳日:2021-03-12 08:20:00 公開日:2021-03-10 |
# (参考訳) 重み付き有限オートマトンとしてコードされる自律行動の逆強化学習 Inverse Reinforcement Learning of Autonomous Behaviors Encoded as Weighted Finite Automata ( http://arxiv.org/abs/2103.05895v1 ) ライセンス: CC BY 4.0 | Tianyu Wang, Nikolay Atanasov | (参考訳) 本稿では,論理タスク仕様とコスト関数を実演から学習する手法を提案する。
線形時間論理(LTL)公式は、自律システムの複雑な目的や制約を表現するために広く用いられている。
しかし、このような仕様は手作業で構築するのは困難かもしれない。
その代わりに、時間的論理構造と遷移コストを自律エージェントによって推測する必要があるタスクの実行を実証する。
本稿では,タスクの未知論理構造を近似した重み付き有限オートマトン(WFA)の抽出にスペクトル学習手法を用いる。
その後、ハイレベルタスクガイダンスのためのWFAと低レベル制御のためのラベル付きマルコフ決定プロセス(L-MDP)の製品を定義し、実証者の行動に合わせたコスト関数を最適化する。
本手法は、推論されたタスク仕様の実行を新しい環境構成に一般化できることを実証する。 This paper presents a method for learning logical task specifications and cost functions from demonstrations. Linear temporal logic (LTL) formulas are widely used to express complex objectives and constraints for autonomous systems. Yet, such specifications may be challenging to construct by hand. Instead, we consider demonstrated task executions, whose temporal logic structure and transition costs need to be inferred by an autonomous agent. We employ a spectral learning approach to extract a weighted finite automaton (WFA), approximating the unknown logic structure of the task. Thereafter, we define a product between the WFA for high-level task guidance and a Labeled Markov decision process (L-MDP) for low-level control and optimize a cost function that matches the demonstrator's behavior. We demonstrate that our method is capable of generalizing the execution of the inferred task specification to new environment configurations. | 翻訳日:2021-03-12 08:18:34 公開日:2021-03-10 |
# (参考訳) ダイナミクスの異なるエージェントによる不完全なデモンストレーションから学ぶ Learning from Imperfect Demonstrations from Agents with Varying Dynamics ( http://arxiv.org/abs/2103.05910v1 ) ライセンス: CC BY 4.0 | Zhangjie Cao, Dorsa Sadigh | (参考訳) 模倣学習は、ロボットがデモから学ぶことを可能にする。
以前の模倣学習アルゴリズムは、通常、最適な専門家のデモンストレーションへのアクセスを想定している。
しかし、多くの実世界のアプリケーションでは、この仮定は限定的です。
収集されたほとんどのデモンストレーションは最適ではなく、わずかに異なるダイナミクスを持つエージェントによって生成される。
したがって,実演が最適でない場合や,ダイナミックスが異なるエージェントから引き出される場合,模倣学習の問題に対処できる。
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
提案したスコアは、より情報的なデモンストレーションから学び、あまり関係のないデモを無視します。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。 Imitation learning enables robots to learn from demonstrations. Previous imitation learning algorithms usually assume access to optimal expert demonstrations. However, in many real-world applications, this assumption is limiting. Most collected demonstrations are not optimal or are produced by an agent with slightly different dynamics. We therefore address the problem of imitation learning when the demonstrations can be sub-optimal or be drawn from agents with varying dynamics. We develop a metric composed of a feasibility score and an optimality score to measure how useful a demonstration is for imitation learning. The proposed score enables learning from more informative demonstrations, and disregarding the less relevant demonstrations. Our experiments on four environments in simulation and on a real robot show improved learned policies with higher expected return. | 翻訳日:2021-03-12 07:41:56 公開日:2021-03-10 |
# (参考訳) 地上の公平性:生産システムへのアルゴリズム公平性アプローチの適用 Fairness On The Ground: Applying Algorithmic Fairness Approaches to Production Systems ( http://arxiv.org/abs/2103.06172v1 ) ライセンス: CC BY 4.0 | Chlo\'e Bakalar, Renata Barreto, Miranda Bogen, Sam Corbett-Davies, Melissa Hall, Isabel Kloumann, Michelle Lam, Joaquin Qui\~nonero Candela, Manish Raghavan, Joshua Simons, Jonathan Tannen, Edmund Tong, Kate Vredenburgh, Jiejing Zhao | (参考訳) 機械学習システムによる決定が公平であることを保証するため、多くの技術的アプローチが提案されているが、実際のシステムでストレステストされているものはほとんどない。
本稿では,大規模技術企業のコンテキストにおいて,複雑な生産システムにアルゴリズムフェアネスアプローチを適用するという課題に対する,あるチームのアプローチの例を示す。
我々は,製品設計と政策設計の規範的問題(「システムの利害関係者の利益とニーズのトレードオフはどのようにあるべきか」など)をいかに切り離すかについて議論する。
システム実装の実証的な質問から("システムは実際に望ましいトレードオフを達成しているのか?
また、後者の質問に答えるアプローチも提示し、機械学習システムと人間のラベラーがこれらのトレードオフを異なる関連グループでどのように行っているかを測定することができます。
私たちは、フェアネスツールとアプローチを大規模で複雑なプロダクションシステムに統合した経験が、同様の課題に直面している他の実践者にとって役に立つことを願っています。 Many technical approaches have been proposed for ensuring that decisions made by machine learning systems are fair, but few of these proposals have been stress-tested in real-world systems. This paper presents an example of one team's approach to the challenge of applying algorithmic fairness approaches to complex production systems within the context of a large technology company. We discuss how we disentangle normative questions of product and policy design (like, "how should the system trade off between different stakeholders' interests and needs?") from empirical questions of system implementation (like, "is the system achieving the desired tradeoff in practice?"). We also present an approach for answering questions of the latter sort, which allows us to measure how machine learning systems and human labelers are making these tradeoffs across different relevant groups. We hope our experience integrating fairness tools and approaches into large-scale and complex production systems will be useful to other practitioners facing similar challenges, and illuminating to academics and researchers looking to better address the needs of practitioners. | 翻訳日:2021-03-12 07:09:25 公開日:2021-03-10 |
# (参考訳) 最大エントロピーRL(おそらく)はロバストなRL問題を解く Maximum Entropy RL (Provably) Solves Some Robust RL Problems ( http://arxiv.org/abs/2103.06257v1 ) ライセンス: CC BY 4.0 | Benjamin Eysenbach and Sergey Levine | (参考訳) 強化学習(RL)の潜在的な応用の多くは、エージェントが力学や報酬関数の障害に直面してうまく機能することを保証する必要がある。
本稿では,標準最大エントロピーRLが力学および報酬関数の障害に対して頑健であることを理論的に証明する。
MaxEnt RLのこの能力は、以前の作業で実証的に観察されていますが、私たちの知識を最大限に活用することは、MaxEnt RL堅牢なセットの最初の厳格な証明と理論的特徴付けを提供します。
従来のロバストなRLアルゴリズムは、報酬関数やダイナミックスと同様の障害を扱うように設計されているが、これらの手法は通常、ベースRLアルゴリズムの上に可動部とハイパーパラメータを追加する必要がある。
対照的に、我々の理論結果は MaxEnt RL 自体が特定の障害に対して堅牢であり、追加の修正を必要としないことを示唆している。
これは、MaxEnt RLが最高の堅牢なRL法であることを意味するわけではないが、MaxEnt RLは驚くほど単純で、形式的な保証を持っている。 Many potential applications of reinforcement learning (RL) require guarantees that the agent will perform well in the face of disturbances to the dynamics or reward function. In this paper, we prove theoretically that standard maximum entropy RL is robust to some disturbances in the dynamics and the reward function. While this capability of MaxEnt RL has been observed empirically in prior work, to the best of our knowledge our work provides the first rigorous proof and theoretical characterization of the MaxEnt RL robust set. While a number of prior robust RL algorithms have been designed to handle similar disturbances to the reward function or dynamics, these methods typically require adding additional moving parts and hyperparameters on top of a base RL algorithm. In contrast, our theoretical results suggest that MaxEnt RL by itself is robust to certain disturbances, without requiring any additional modifications. While this does not imply that MaxEnt RL is the best available robust RL method, MaxEnt RL does possess a striking simplicity and appealing formal guarantees. | 翻訳日:2021-03-12 06:45:36 公開日:2021-03-10 |
# (参考訳) 非対称符号開口を用いたデフォーカスブラーのカーネルスケールと向きの推定 Learning to Estimate Kernel Scale and Orientation of Defocus Blur with Asymmetric Coded Aperture ( http://arxiv.org/abs/2103.05843v1 ) ライセンス: CC BY 4.0 | Jisheng Li, Qi Dai, Jiangtao Wen | (参考訳) 一貫したインフォーカス入力画像は、動的環境を知覚する機械ビジョンシステムにとって不可欠な前提条件です。
デフォーカスブラーは視覚システムの性能を著しく低下させる。
この問題に対処するために,デフォーカスブラーのカーネルスケールと向きを推定し,レンズ焦点を迅速に調整するディープラーニングベースのフレームワークを提案する。
パイプラインは,入力スタックから最適スライスを選択するために,可変数の入力仮説に対して3D ConvNetを利用する。
ランダムシャッフルとGumbel-softmaxを使用してネットワークパフォーマンスを改善します。
また, 様々な非対称符号化開口を有する合成デフォーカス画像を生成し, 訓練を容易にすることを提案する。
本フレームワークの有効性を実証するために実験を行った。 Consistent in-focus input imagery is an essential precondition for machine vision systems to perceive the dynamic environment. A defocus blur severely degrades the performance of vision systems. To tackle this problem, we propose a deep-learning-based framework estimating the kernel scale and orientation of the defocus blur to adjust lens focus rapidly. Our pipeline utilizes 3D ConvNet for a variable number of input hypotheses to select the optimal slice from the input stack. We use random shuffle and Gumbel-softmax to improve network performance. We also propose to generate synthetic defocused images with various asymmetric coded apertures to facilitate training. Experiments are conducted to demonstrate the effectiveness of our framework. | 翻訳日:2021-03-12 05:59:57 公開日:2021-03-10 |
# (参考訳) 全方位ビデオのための新しいタイルセグメンテーション方式 Novel tile segmentation scheme for omnidirectional video ( http://arxiv.org/abs/2103.05858v1 ) ライセンス: CC BY 4.0 | Jisheng Li, Ziyu Wen, Sihan Li, Yikai Zhao, Bichuan Guo, Jiangtao Wen | (参考訳) 通常の全方位ビデオエンコーディング技術は、マッププロジェクションを使用して、球形から1つまたは複数の2D形状にシーンを平らにします。
等角射影や立方射影を含む一般的な投影法は、様々なレベルの補間を持ち、多くの非情報収集画素を生成し、無駄なビットレートをもたらす。
本論文では,従来の等角投影方式と比較して,最大28%の画素面積と20%のBDレートを平均的に節約できるタイル型全方位ビデオ分割方式を提案する。 Regular omnidirectional video encoding technics use map projection to flatten a scene from a spherical shape into one or several 2D shapes. Common projection methods including equirectangular and cubic projection have varying levels of interpolation that create a large number of non-information-carrying pixels that lead to wasted bitrate. In this paper, we propose a tile based omnidirectional video segmentation scheme which can save up to 28% of pixel area and 20% of BD-rate averagely compared to the traditional equirectangular projection based approach. | 翻訳日:2021-03-12 05:49:26 公開日:2021-03-10 |
# (参考訳) 空間的注意に基づく全方向画像の非参照知覚品質予測ネットワーク Spatial Attention-based Non-reference Perceptual Quality Prediction Network for Omnidirectional Images ( http://arxiv.org/abs/2103.06116v1 ) ライセンス: CC BY 4.0 | Li Yang, Mai Xu, Deng Xin and Bo Feng | (参考訳) 視覚的注意と知覚的品質の相関が強いため、画像品質評価にヒトの唾液情報を使用しようとする手法は多い。
このメカニズムは優れた性能を得ることができるが、ネットワークは、全方位画像(ODI)に容易にアクセスできない人間の唾液ラベルを必要とする。
この問題を軽減するために,ODI(SAP-net)の非参照品質評価のための空間的注意に基づく知覚品質予測ネットワークを提案する。
SAP-netを駆動するために,1,080 ODIに対して200人の被験者の主観的スコアからなる大規模IQAデータセット(IQA-ODI)を構築した。
IQA-ODIには120の高品質のODIと960のODIがあり、JPEG圧縮とマップ投影の両方に障害がある。
人間の敬礼ラベルがないと、ネットワークは自己照査によってodisの人間の知覚的品質を適応的に推定でき、それによって品質スコアの予測性能が著しく向上する。
さらに,本手法は,ODIにおける品質評価タスクの計算複雑性を大幅に低減する。
広範な実験は、当社のネットワークがODIの品質評価のための9つの最先端の方法を上回ることを検証します。
データセットとコードは \url{ https://github.com/yanglixiaoshen/SAP-Net} で入手できる。 Due to the strong correlation between visual attention and perceptual quality, many methods attempt to use human saliency information for image quality assessment. Although this mechanism can get good performance, the networks require human saliency labels, which is not easily accessible for omnidirectional images (ODI). To alleviate this issue, we propose a spatial attention-based perceptual quality prediction network for non-reference quality assessment on ODIs (SAP-net). To drive our SAP-net, we establish a large-scale IQA dataset of ODIs (IQA-ODI), which is composed of subjective scores of 200 subjects on 1,080 ODIs. In IQA-ODI, there are 120 high quality ODIs as reference, and 960 ODIs with impairments in both JPEG compression and map projection. Without any human saliency labels, our network can adaptively estimate human perceptual quality on impaired ODIs through a self-attention manner, which significantly promotes the prediction performance of quality scores. Moreover, our method greatly reduces the computational complexity in quality assessment task on ODIs. Extensive experiments validate that our network outperforms 9 state-of-the-art methods for quality assessment on ODIs. The dataset and code have been available on \url{ https://github.com/yanglixiaoshen/SAP-Net}. | 翻訳日:2021-03-12 05:41:43 公開日:2021-03-10 |
# (参考訳) 動的ポース推定 Dynamical Pose Estimation ( http://arxiv.org/abs/2103.06182v1 ) ライセンス: CC BY 4.0 | Heng Yang, Chris Doran, Jean-Jacques Slotine | (参考訳) 既知の対応を与えられた2組の3次元幾何学的プリミティブを整列する問題を研究する。
最初の貢献は、このプリミティブアライメントフレームワークが、ポイントクラウド登録、プリミティブ(mesh)登録、カテゴリレベルの3D登録、アブソリューションポーズ推定(APE)、カテゴリレベルのAPEを含む5つの認識問題を統一することを示しています。
第2の貢献は、仮想ばねと減衰に起因する剛体力学をシミュレートすることで、プリミティブアライメント問題を解決するための、最初の汎用的で実用的なアルゴリズムであるDynAMical Pose Estimation (DAMP)を提案することである。
3つ目の貢献は、シミュレーションおよび実データにおける5つの知覚問題にDAMPを適用し、(i)DAMPが3D-3D対応を持つ最初の3つの問題において常に大域最適解に収束することを示し、(ii)DAMPは2D-3D対応を持つ最後の2つの問題において最適解に収束するが、DAMPは局所ミニマをエスケープするための単純なスキームで、ほとんど常に成功する。
我々の最後の貢献は、基礎となる力学系の平衡点の局所的な安定性を特徴付けることにより、DAMPの驚くべき経験的性能を解明し、点雲登録の際の大域収束結果を正式に証明することである。 We study the problem of aligning two sets of 3D geometric primitives given known correspondences. Our first contribution is to show that this primitive alignment framework unifies five perception problems including point cloud registration, primitive (mesh) registration, category-level 3D registration, absolution pose estimation (APE), and category-level APE. Our second contribution is to propose DynAMical Pose estimation (DAMP), the first general and practical algorithm to solve primitive alignment problem by simulating rigid body dynamics arising from virtual springs and damping, where the springs span the shortest distances between corresponding primitives. Our third contribution is to apply DAMP to the five perception problems in simulated and real datasets and demonstrate (i) DAMP always converges to the globally optimal solution in the first three problems with 3D-3D correspondences; (ii) although DAMP sometimes converges to suboptimal solutions in the last two problems with 2D-3D correspondences, with a simple scheme for escaping local minima, DAMP almost always succeeds. Our last contribution is to demystify the surprising empirical performance of DAMP and formally prove a global convergence result in the case of point cloud registration by charactering local stability of the equilibrium points of the underlying dynamical system. | 翻訳日:2021-03-12 05:29:18 公開日:2021-03-10 |
# (参考訳) 抽象パターン学習と言語モデリングのためのニューラルネットワークにおける関係重み付け Relational Weight Priors in Neural Networks for Abstract Pattern Learning and Language Modelling ( http://arxiv.org/abs/2103.06198v1 ) ライセンス: CC BY 4.0 | Radha Kopparti and Tillman Weyde | (参考訳) ディープニューラルネットワークは自然言語処理(NLP)における主要なアプローチとなっている。
しかし近年,NLPにおける深層学習の性能とデータ効率を抑える体系性に欠点があることが明らかになっている。
これらの欠点は、主に合成データに基づいて、低レベルの人工タスクで明確に示される。
抽象パターンは、見えないデータに対する一般化の観点から、ニューラルネットワークにとって難しい問題の最もよく知られた例である。
それらは価値ではなく、平等のような項目間の関係によって定義される。
これらの低レベル問題は、ニューラルネットワークが体系的に学習できないことを示しています。
本研究では,抽象パターンの等価性と距離関係の学習を促進する関係誘導バイアスを作成するための新しい方法として,組み込み関係に基づくパターン(ERBP)を提案する。
ERBPはRelation Based Patterns(RBP)をベースにしているが、ネットワーク重み付けの前にベイジアンとしてモデル化され、標準のネットワーク学習で正規化用語として実装されている。
ERBPは標準的なニューラルネットワークに簡単に統合でき、学習能力に影響を与えない。
我々の実験では、ERBPの先行は合成ノイズのない配列から抽象パターンを学習する際にほぼ完全に一般化される。
ERBPはまた、RNN、GRU、LSTMネットワークによるメロディーにおける単語と文字レベルの自然言語モデルとピッチ予測を改善します。
また,グラフ編集距離の学習や文の補足など,より複雑な作業でも改善が見られた。
ERBPは、RBPや標準ネットワークよりも一貫して改善されており、自然言語タスクのパフォーマンスに寄与する抽象パターン学習を可能にしている。 Deep neural networks have become the dominant approach in natural language processing (NLP). However, in recent years, it has become apparent that there are shortcomings in systematicity that limit the performance and data efficiency of deep learning in NLP. These shortcomings can be clearly shown in lower-level artificial tasks, mostly on synthetic data. Abstract patterns are the best known examples of a hard problem for neural networks in terms of generalisation to unseen data. They are defined by relations between items, such as equality, rather than their values. It has been argued that these low-level problems demonstrate the inability of neural networks to learn systematically. In this study, we propose Embedded Relation Based Patterns (ERBP) as a novel way to create a relational inductive bias that encourages learning equality and distance-based relations for abstract patterns. ERBP is based on Relation Based Patterns (RBP), but modelled as a Bayesian prior on network weights and implemented as a regularisation term in otherwise standard network learning. ERBP is is easy to integrate into standard neural networks and does not affect their learning capacity. In our experiments, ERBP priors lead to almost perfect generalisation when learning abstract patterns from synthetic noise-free sequences. ERBP also improves natural language models on the word and character level and pitch prediction in melodies with RNN, GRU and LSTM networks. We also find improvements in in the more complex tasks of learning of graph edit distance and compositional sentence entailment. ERBP consistently improves over RBP and over standard networks, showing that it enables abstract pattern learning which contributes to performance in natural language tasks. | 翻訳日:2021-03-12 01:59:29 公開日:2021-03-10 |
# (参考訳) AutoDO: スケーラブル確率的暗黙差分法によるラベルノイズ付きバイアスデータに対するロバスト自動拡張 AutoDO: Robust AutoAugment for Biased Data with Label Noise via Scalable Probabilistic Implicit Differentiation ( http://arxiv.org/abs/2103.05863v1 ) ライセンス: CC BY 4.0 | Denis Gudovskiy, Luca Rigazio, Shun Ishizaka, Kazuki Kozuka, Sotaro Tsukizawa | (参考訳) AutoAugmentはディープラーニングモデルに対する自動拡張手法への関心を呼び起こした。
これらの手法は、テストデータの一般化を改善する列車データに対する画像変換ポリシーを推定する。
政策探索の複雑さを減少させる方向に進化した最近の論文では、偏りやノイズのあるデータに適用した場合、これらの手法が堅牢でないことが示されている。
これらの制限を克服するために、テストデータと歪んだ列車データセット間の分布シフトを最小限に抑える、汎用自動データセット最適化(AutoDO)タスクとしてAutoAugmentを再構成します。
autodoモデルでは,ポイント毎のハイパーパラメータの集合を明示的に推定し,列車データの分布を柔軟に変化させる。
特に、強調、損失重み、および暗黙の微分を用いて共同で推定されるソフトラベルのためのハイパーパラメータを含む。
本研究では,fisher情報を用いた理論的な確率論的解釈を行い,その複雑性がデータセットサイズと線形にスケールすることを示す。
SVHN, CIFAR-10/100, ImageNet分類に関する実験では,従来の方法と比較して,ラベルノイズの偏りのあるデータセットの9.3%の改善と,低表現のSVHNクラスに対する36.6%の利得を示した。 AutoAugment has sparked an interest in automated augmentation methods for deep learning models. These methods estimate image transformation policies for train data that improve generalization to test data. While recent papers evolved in the direction of decreasing policy search complexity, we show that those methods are not robust when applied to biased and noisy data. To overcome these limitations, we reformulate AutoAugment as a generalized automated dataset optimization (AutoDO) task that minimizes the distribution shift between test data and distorted train dataset. In our AutoDO model, we explicitly estimate a set of per-point hyperparameters to flexibly change distribution of train data. In particular, we include hyperparameters for augmentation, loss weights, and soft-labels that are jointly estimated using implicit differentiation. We develop a theoretical probabilistic interpretation of this framework using Fisher information and show that its complexity scales linearly with the dataset size. Our experiments on SVHN, CIFAR-10/100, and ImageNet classification show up to 9.3% improvement for biased datasets with label noise compared to prior methods and, importantly, up to 36.6% gain for underrepresented SVHN classes. | 翻訳日:2021-03-12 01:30:52 公開日:2021-03-10 |
# (参考訳) MixMo: ディープサブネットによる複数の出力に対する複数の入力の混合 MixMo: Mixing Multiple Inputs for Multiple Outputs via Deep Subnetworks ( http://arxiv.org/abs/2103.06132v1 ) ライセンス: CC BY 4.0 | Alexandre Rame, Remy Sun, Matthieu Cord | (参考訳) 最近の戦略は、単一のベースネットワーク内に同時に多様なサブネットワークを組み込むことによって、無料でアンサンブルを実現した。
トレーニング中の主なアイデアは、各サブネットワークが同時に提供される複数の入力の1つだけを分類することを学ぶことです。
しかし、これらの複数の入力をどのように混合すべきかという疑問はまだ研究されていない。
本稿では,マルチインプットマルチアウトプット深層サブネットワーク学習のための新たな汎用フレームワークであるMixMoについて紹介する。
我々の主要な動機は、より適切な混合機構により、従来のアプローチに隠された最適下総和演算を置き換えることである。
そのためには、混合サンプルデータ強化の成功からインスピレーションを得ます。
機能、特にCutMixのパッチによるバイナリミキシングは、サブネットをより強く、より多様なものにすることによって、結果を向上します。
CIFAR-100およびTiny-ImageNet分類データセットの最新技術を改善します。
実装が容易で、推論にコストがかかることに加えて、我々のモデルはよりコストの高いデータ拡張深層アンサンブルよりも優れています。
我々は,従来の研究を補完する新たな研究ラインをオープンし,機能的に運用し,大規模ネットワークの表現性を向上する。 Recent strategies achieved ensembling for free by fitting concurrently diverse subnetworks inside a single base network. The main idea during training is that each subnetwork learns to classify only one of the multiple inputs simultaneously provided. However, the question of how these multiple inputs should be mixed has not been studied yet. In this paper, we introduce MixMo, a new generalized framework for learning multi-input multi-output deep subnetworks. Our key motivation is to replace the suboptimal summing operation hidden in previous approaches by a more appropriate mixing mechanism. For that purpose, we draw inspiration from successful mixed sample data augmentations. We show that binary mixing in features - particularly with patches from CutMix - enhances results by making subnetworks stronger and more diverse. We improve state of the art on the CIFAR-100 and Tiny-ImageNet classification datasets. In addition to being easy to implement and adding no cost at inference, our models outperform much costlier data augmented deep ensembles. We open a new line of research complementary to previous works, as we operate in features and better leverage the expressiveness of large networks. | 翻訳日:2021-03-12 01:07:47 公開日:2021-03-10 |
# (参考訳) 重要重量のマルチキャリブレーション分割 Multicalibrated Partitions for Importance Weights ( http://arxiv.org/abs/2103.05853v1 ) ライセンス: CC BY 4.0 | Parikshit Gopalan, Omer Reingold, Vatsal Sharan, Udi Wieder | (参考訳) 2つの分布が$R$と$P$をポイントに与える確率の比率は、重み付けまたは確率スコアとして知られ、多くの異なる分野、特に統計学と機械学習において基本的な役割を果たす。
その応用中、重要度重みはドメイン適応、異常検出、klダイバージェンスのような様々な多様性の推定の中心である。
私たちは、$R$と$P$が各ディストリビューションのサンプルからのみ与えられる共通の設定を検討します。
重みの見積に関する膨大な文献は、ヒューリスティックなものか、R$とP$に関する強い仮定、あるいは重要性の重みそのものに関するものである。
本稿では,重要度重みの推定に対する計算的視点を考察し,境界のある計算資源で得られる限界と可能性の要因について考察する。
我々は MaxEntropy アプローチを用いた以前の研究を大幅に強化し、$Q$ を$P$ に最も近い分布で定義し、これはすべての集合 $C \in \mathcal{C}$ に対して$R$ と同じように見えるが、$\mathcal{C}$ は集合の巨大な集合であるかもしれない。
マックスエントロピー法は、集合の基底真理重みの平均が明らかに大きい場合でも、$C \in \mathcal{C}$の集合に高い平均スコアを割り当てることに失敗することを示した。
同様に、平均スコアは$C \in \mathcal{C}$と過大評価される可能性がある。
したがって、サンドウィッチ境界を重み付けのセットワイズ精度の概念として定式化する。
これらの境界について検討し,重みから自然完全性と音質要件を捉えた。
標準学習可能性仮定の下でこれらの境界を満たす重みを計算する効率的なアルゴリズムを提案する。
我々の手法は、分布の領域の多重校正分割という新しい概念に依存しており、これはそれ自体が有用であるように見える。 The ratio between the probability that two distributions $R$ and $P$ give to points $x$ are known as importance weights or propensity scores and play a fundamental role in many different fields, most notably, statistics and machine learning. Among its applications, importance weights are central to domain adaptation, anomaly detection, and estimations of various divergences such as the KL divergence. We consider the common setting where $R$ and $P$ are only given through samples from each distribution. The vast literature on estimating importance weights is either heuristic, or makes strong assumptions about $R$ and $P$ or on the importance weights themselves. In this paper, we explore a computational perspective to the estimation of importance weights, which factors in the limitations and possibilities obtainable with bounded computational resources. We significantly strengthen previous work that use the MaxEntropy approach, that define the importance weights based on a distribution $Q$ closest to $P$, that looks the same as $R$ on every set $C \in \mathcal{C}$, where $\mathcal{C}$ may be a huge collection of sets. We show that the MaxEntropy approach may fail to assign high average scores to sets $C \in \mathcal{C}$, even when the average of ground truth weights for the set is evidently large. We similarly show that it may overestimate the average scores to sets $C \in \mathcal{C}$. We therefore formulate Sandwiching bounds as a notion of set-wise accuracy for importance weights. We study these bounds to show that they capture natural completeness and soundness requirements from the weights. We present an efficient algorithm that under standard learnability assumptions computes weights which satisfy these bounds. Our techniques rely on a new notion of multicalibrated partitions of the domain of the distributions, which appear to be useful objects in their own right. | 翻訳日:2021-03-12 00:38:51 公開日:2021-03-10 |
# (参考訳) 深部ニューラルネットワークの一般化予測に対するロバスト性 Robustness to Pruning Predicts Generalization in Deep Neural Networks ( http://arxiv.org/abs/2103.06002v1 ) ライセンス: CC BY 4.0 | Lorenz Kuhn, Clare Lyle, Aidan N. Gomez, Jonas Rothfuss, Yarin Gal | (参考訳) パラメータ数やノルムに基づいてモデルの単純さを捉えることを目的とした既存の一般化尺度は、過剰パラメータのディープニューラルネットワークにおける一般化の説明に失敗している。
本論文では, ネットワークの単純性について, 理論的に動機づけた新たな尺度について紹介する。prunability: the minimum \emph{fraction} of the network's parameters that can keep while pruning without affectly influence its training loss. ネットワークパラメータの最小の \emph{fraction} と呼ぶ。
本手法は,CIFAR-10で訓練された大規模な畳み込みネットワーク上でのモデルの一般化性能を高い精度で予測し,既存のプルーニングベース手法と異なりネットワークサイズで成長せず,特に困難な二重降下条件下でもテストセットの損失と高い相関性を示す。
最後に, プルーナビリティの成功は, モデルマージン, ミニマの平坦度, 最適化速度に基づく既知の複雑性尺度との関係から説明できないこと, 新たな尺度が既存の平坦度に基づく尺度と類似していること, および, その予測が他のベースラインと低い相互情報を示すことを明らかにする。 Existing generalization measures that aim to capture a model's simplicity based on parameter counts or norms fail to explain generalization in overparameterized deep neural networks. In this paper, we introduce a new, theoretically motivated measure of a network's simplicity which we call prunability: the smallest \emph{fraction} of the network's parameters that can be kept while pruning without adversely affecting its training loss. We show that this measure is highly predictive of a model's generalization performance across a large set of convolutional networks trained on CIFAR-10, does not grow with network size unlike existing pruning-based measures, and exhibits high correlation with test set loss even in a particularly challenging double descent setting. Lastly, we show that the success of prunability cannot be explained by its relation to known complexity measures based on models' margin, flatness of minima and optimization speed, finding that our new measure is similar to -- but more predictive than -- existing flatness-based measures, and that its predictions exhibit low mutual information with those of other baselines. | 翻訳日:2021-03-11 23:04:23 公開日:2021-03-10 |
# (参考訳) 区分的線形回帰と分類 Piecewise linear regression and classification ( http://arxiv.org/abs/2103.06189v1 ) ライセンス: CC BY 4.0 | Alberto Bemporad | (参考訳) 本論文では,特徴空間の多面分割上の片方向線形予測器を用いた多変量回帰と分類問題の解法を提案する。
PARC (Piecewise Affine Regression and Classification) と呼ばれる結果のアルゴリズムは, (i) 数値目標のリッジ回帰問題, (i) カテゴリー目標のソフトマックス回帰問題, (ii) 線形分離のソフトマックス回帰あるいはクラスタセントロイド計算, (ii) 予測精度と分割性のバランスをとる基準に基づいて, 異なるクラスタにトレーニングポイントを割り当てることとを交互に行う。
PARCは、適切に構築された客観的関数を最適化するブロックコーディネート下降アルゴリズムであり、有限個のステップでその関数の局所最小値に収束することを証明する。
アルゴリズムの精度は、合成および実世界のデータセット上で数値的に検証され、この手法は、得られた予測子を最適化モデルの一部として使用する場合に特に有用である線形回帰/分類の拡張を提供することを示す。
この論文で説明されているアルゴリズムのPython実装はhttp://cse.lab.imtlucca.it/~bemporad/parc で入手できる。 This paper proposes a method for solving multivariate regression and classification problems using piecewise linear predictors over a polyhedral partition of the feature space. The resulting algorithm that we call PARC (Piecewise Affine Regression and Classification) alternates between (i) solving ridge regression problems for numeric targets, softmax regression problems for categorical targets, and either softmax regression or cluster centroid computation for piecewise linear separation, and (ii) assigning the training points to different clusters on the basis of a criterion that balances prediction accuracy and piecewise-linear separability. We prove that PARC is a block-coordinate descent algorithm that optimizes a suitably constructed objective function, and that it converges in a finite number of steps to a local minimum of that function. The accuracy of the algorithm is extensively tested numerically on synthetic and real-world datasets, showing that the approach provides an extension of linear regression/classification that is particularly useful when the obtained predictor is used as part of an optimization model. A Python implementation of the algorithm described in this paper is available at http://cse.lab.imtlucca.it/~bemporad/parc . | 翻訳日:2021-03-11 22:39:38 公開日:2021-03-10 |
# (参考訳) 深層ニューラルネットワークの一般化と平坦性が相関する理由 Why Flatness Correlates With Generalization For Deep Neural Networks ( http://arxiv.org/abs/2103.06219v1 ) ライセンス: CC BY 4.0 | Shuofeng Zhang, Isaac Reid, Guillermo Valle P\'erez, Ard Louis | (参考訳) ロスランドスケープの局所平坦性は、ディープニューラルネットワーク(DNN)のより良い一般化と相関しており、多くの異なる局所平坦度尺度を生み出している。
ここでは、これらの測度は、局所的な大域的性質への近似であり、パラメータの集合の体積が特定の関数にマッピングされるため、一般化と相関する。
このグローバルボリュームは、初期化前にベイズ人と同等です。
テストセットでゼロ誤差を与える関数の場合、それは直接ベイズ後部に比例し、体積は平坦性よりも一般化のより堅牢で理論的に根拠付き予測器である。
パラメータ再スケーリングの下で平坦度測定は失敗するが、体積は不変であり、したがって一般化とよく相関している。
さらに、SGDの変種は平坦性一般化相関を破りうるが、体積一般化相関はそのままである。 The intuition that local flatness of the loss landscape is correlated with better generalization for deep neural networks (DNNs) has been explored for decades, spawning many different local flatness measures. Here we argue that these measures correlate with generalization because they are local approximations to a global property, the volume of the set of parameters mapping to a specific function. This global volume is equivalent to the Bayesian prior upon initialization. For functions that give zero error on a test set, it is directly proportional to the Bayesian posterior, making volume a more robust and theoretically better grounded predictor of generalization than flatness. Whilst flatness measures fail under parameter re-scaling, volume remains invariant and therefore continues to correlate well with generalization. Moreover, some variants of SGD can break the flatness-generalization correlation, while the volume-generalization correlation remains intact. | 翻訳日:2021-03-11 22:38:20 公開日:2021-03-10 |
# (参考訳) BIKED: データ駆動自転車設計のためのデータセットと機械学習ベンチマーク BIKED: A Dataset and Machine Learning Benchmarks for Data-Driven Bicycle Design ( http://arxiv.org/abs/2103.05844v1 ) ライセンス: CC BY 4.0 | Lyle Regenwetter, Brent Curry, Faez Ahmed | (参考訳) 本論文では,数百人のデザイナーが設計した自転車モデル4500点からなるデータセット「BIKED」について述べる。
自転車用のさまざまなデータ駆動設計アプリケーションを可能にし、一般的にデータ駆動設計方法の開発をサポートすると私たちは期待している。
データセットは、アセンブリイメージ、コンポーネントイメージ、数値設計パラメータ、クラスラベルを含む、さまざまな設計情報で構成されている。
本稿ではまず,データセットの処理について論じ,提供される各種特徴について述べる。
次に、教師なしクラスタリング研究を用いて、データのスケール、多様性、構造を説明します。
次に、さまざまなデータ駆動アプリケーションを調べます。
異なるトレーニングデータに基づいて訓練された10アルゴリズムのベースライン分類性能を提供する。
次に、パラメトリックデータ、画像データ、およびこれら2つの組み合わせを用いた3つのディープニューラルネットワークの分類性能を対比する。
訓練された分類モデルの1つを使用して、特定の設計パラメータが分類予測に影響を与える範囲をよりよく理解するために、Shapley Additive Explanations Analysisを実施します。
次に,画像とパラメトリックデータで学習した2つの変分オートエンコーダ(vaes)を用いて,自転車の再構成と設計合成をテストした。
さらに、元のパラメータ空間における補間タスクと外挿タスクのパフォーマンスと、VAEの潜入空間とを対比する。
最後に、この論文で積極的に検討された数を超える他のアプリケーションのためのいくつかのエキサイティングな可能性を議論し、データセットの全体的な長所と短所を要約します。 In this paper, we present "BIKED," a dataset comprised of 4500 individually designed bicycle models sourced from hundreds of designers. We expect BIKED to enable a variety of data-driven design applications for bicycles and generally support the development of data-driven design methods. The dataset is comprised of a variety of design information including assembly images, component images, numerical design parameters, and class labels. In this paper, we first discuss the processing of the dataset and present the various features provided. We then illustrate the scale, variety, and structure of the data using several unsupervised clustering studies. Next, we explore a variety of data-driven applications. We provide baseline classification performance for 10 algorithms trained on differing amounts of training data. We then contrast classification performance of three deep neural networks using parametric data, image data, and a combination of the two. Using one of the trained classification models, we conduct a Shapley Additive Explanations Analysis to better understand the extent to which certain design parameters impact classification predictions. Next, we test bike reconstruction and design synthesis using two Variational Autoencoders (VAEs) trained on images and parametric data. We furthermore contrast the performance of interpolation and extrapolation tasks in the original parameter space and the latent space of a VAE. Finally, we discuss some exciting possibilities for other applications beyond the few actively explored in this paper and summarize overall strengths and weaknesses of the dataset. | 翻訳日:2021-03-11 20:10:57 公開日:2021-03-10 |
# (参考訳) 半離散最適輸送:硬さ, 規則化, 数値解 Semi-Discrete Optimal Transport: Hardness, Regularization and Numerical Solution ( http://arxiv.org/abs/2103.06263v1 ) ライセンス: CC BY 4.0 | Bahar Taskesen, Soroosh Shafieezadeh-Abadeh, Daniel Kuhn | (参考訳) 離散的(おそらく非離散的)確率測度の間のワッサースタイン距離を評価する半離散的最適輸送問題は計算的に難しいと考えられている。
しかし、そのような問題は統計学、機械学習、コンピュータビジョンにおいて普遍的であるが、この認識は理論的な正当化を受けていない。
このギャップを埋めるために、2つの点で支持される離散確率測度と標準ハイパーキューブ上のルベーグ測度とのワッサーシュタイン距離の計算は既に#Pハードであることを示す。
この知見は,半離散的最適輸送問題に対する近似解を求めるきっかけとなる。
そこで我々は,不明瞭な確率分布に支配される付加的外乱による輸送コストを乱し,対象関数が与えられたあいまいさ集合内から最も悪質な外乱分布で滑らかになるような分布的に頑健な双対輸送問題を導入する。
さらに、双対目的関数の平滑化は主目的関数の正則化と等価であることを示し、いくつかの既知の新しい正則化スキームを生み出す曖昧性集合を同定する。
副産物として, 半離散的最適輸送問題と, 伝統的に心理学や経済学で研究されてきた離散的選択モデルとの関係を見出した。
正規化最適輸送問題を効率的に解くために,不正確な確率的勾配オラクルを用いた確率的勾配降下アルゴリズムを用いる。
新しい収束解析により、このアルゴリズムは、エントロピー正規化器による半離散最適輸送問題に対する既知の収束保証を改善することが明らかになった。 Semi-discrete optimal transport problems, which evaluate the Wasserstein distance between a discrete and a generic (possibly non-discrete) probability measure, are believed to be computationally hard. Even though such problems are ubiquitous in statistics, machine learning and computer vision, however, this perception has not yet received a theoretical justification. To fill this gap, we prove that computing the Wasserstein distance between a discrete probability measure supported on two points and the Lebesgue measure on the standard hypercube is already #P-hard. This insight prompts us to seek approximate solutions for semi-discrete optimal transport problems. We thus perturb the underlying transportation cost with an additive disturbance governed by an ambiguous probability distribution, and we introduce a distributionally robust dual optimal transport problem whose objective function is smoothed with the most adverse disturbance distributions from within a given ambiguity set. We further show that smoothing the dual objective function is equivalent to regularizing the primal objective function, and we identify several ambiguity sets that give rise to several known and new regularization schemes. As a byproduct, we discover an intimate relation between semi-discrete optimal transport problems and discrete choice models traditionally studied in psychology and economics. To solve the regularized optimal transport problems efficiently, we use a stochastic gradient descent algorithm with imprecise stochastic gradient oracles. A new convergence analysis reveals that this algorithm improves the best known convergence guarantee for semi-discrete optimal transport problems with entropic regularizers. | 翻訳日:2021-03-11 19:58:58 公開日:2021-03-10 |
# (参考訳) コントラスト損失による自律運転のためのドメイン非依存視覚表現の学習 Learning a Domain-Agnostic Visual Representation for Autonomous Driving via Contrastive Loss ( http://arxiv.org/abs/2103.05902v1 ) ライセンス: CC BY 4.0 | Dongseok Shim and H. Jin Kim | (参考訳) ディープニューラルネットワークは、セマンティックセグメンテーションや深さ推定などの自動運転アプリケーションで広く研究されている。
しかし、教師ありの方法でニューラルネットワークをトレーニングするには、大量の注釈付きラベルが必要となる。
近年,仮想環境から収集した合成データは,実世界のデータに比べて取得が容易で,精度も高いが,ドメインシフト問題による一般化が不十分であることが多い。
本論文では,2段階の非監視領域適応フレームワークであるDACL(Domain-Agnostic Contrastive Learning)を提案する。
DACLは、トレーニングとテストデータ分布の違いがある場合、ドメインに依存しない表現を学習してパフォーマンスの劣化を克服する。
提案手法は,従来の最先端手法と比較して単眼深度推定タスクの性能が向上し,セマンティックセグメンテーションタスクの有効性を示す。 Deep neural networks have been widely studied in autonomous driving applications such as semantic segmentation or depth estimation. However, training a neural network in a supervised manner requires a large amount of annotated labels which are expensive and time-consuming to collect. Recent studies leverage synthetic data collected from a virtual environment which are much easier to acquire and more accurate compared to data from the real world, but they usually suffer from poor generalization due to the inherent domain shift problem. In this paper, we propose a Domain-Agnostic Contrastive Learning (DACL) which is a two-stage unsupervised domain adaptation framework with cyclic adversarial training and contrastive loss. DACL leads the neural network to learn domain-agnostic representation to overcome performance degradation when there exists a difference between training and test data distribution. Our proposed approach achieves better performance in the monocular depth estimation task compared to previous state-of-the-art methods and also shows effectiveness in the semantic segmentation task. | 翻訳日:2021-03-11 19:57:43 公開日:2021-03-10 |
# (参考訳) 対称性とAI Symmetry meets AI ( http://arxiv.org/abs/2103.06115v1 ) ライセンス: CC BY 4.0 | Gabriela Barenboim, Johannes Hirn and Veronica Sanz | (参考訳) ニューラルネットワーク(NN)が、タスクの実行を学ぶ際に対称性の存在を発見できるかどうかを探索する。
このため、適切に制御された物理テンプレートに基づいて数百個のNNを訓練し、対称性の情報は提供されない。
これらのNNの最後に隠された層からの出力を対称性分類タスクの入力として、より少ない次元に投影し、対称性に関する情報が誘導なしで元のNNによって識別されたことを示す。
この手順の学際的な適用として、我々はピカソ、ポロック、ヴァンゴッホなどの異なるスタイルの芸術絵画における対称性の存在とレベルを特定します。 We explore whether Neural Networks (NNs) can {\it discover} the presence of symmetries as they learn to perform a task. For this, we train hundreds of NNs on a {\it decoy task} based on well-controlled Physics templates, where no information on symmetry is provided. We use the output from the last hidden layer of all these NNs, projected to fewer dimensions, as the input for a symmetry classification task, and show that information on symmetry had indeed been identified by the original NN without guidance. As an interdisciplinary application of this procedure, we identify the presence and level of symmetry in artistic paintings from different styles such as those of Picasso, Pollock and Van Gogh. | 翻訳日:2021-03-11 19:42:29 公開日:2021-03-10 |
# (参考訳) インターネットマーケットプレイスにおけるグローバル推論の効率的なアルゴリズム Efficient Algorithms for Global Inference in Internet Marketplaces ( http://arxiv.org/abs/2103.05277v2 ) ライセンス: CC BY 4.0 | Rohan Ramanath, Sathiya Keerthi, Yao Pan, Konstantin Salomatin, Kinjal Basu | (参考訳) インターネット市場(eコマース、ライドシェアリング、フードデリバリー、プロフェッショナルサービス、広告)における需要と供給のマッチングは、(数百万の)結合制約と(最大10億の)非結合ポリトープ制約を持つリニアプログラム(lp)として定式化できるグローバルな推論問題である。
近年まで、LP定式化によるWebスケールデータにおけるそのような問題の解決は難しかった。
最近の研究(basu et al., 2020)は、ポリトープの制約が単純である場合にそのような問題を解決するために二重分解に基づくアプローチを開発した。
この研究では、これらの単純なポリトープを超えて、より複雑な構造化されたポリトープ制約を必要とする現実世界のインターネットマーケットプレイスを示す必要性を動機付けます。
我々は、グローバルな推論問題に広く適用可能な新しいアルゴリズムにより、近年の文献を拡大する。
任意のポリトープに投影するポリトープ上の解の性質に関する理論的知見を用いて,効率的なインクリメンタルアルゴリズムを導出し,性能の大幅な向上を示す。
より優れた最適化ルーチンと適応アルゴリズムを使用して、目的の滑らかさを制御し、ソリューションの速度をさらに向上させます。
Webスケールマーケットプレイスデータを用いた実験結果から,本手法の有効性について紹介する。 Matching demand to supply in internet marketplaces (e-commerce, ride-sharing, food delivery, professional services, advertising) is a global inference problem that can be formulated as a Linear Program (LP) with (millions of) coupling constraints and (up to a billion) non-coupling polytope constraints. Until recently, solving such problems on web-scale data with an LP formulation was intractable. Recent work (Basu et al., 2020) developed a dual decomposition-based approach to solve such problems when the polytope constraints are simple. In this work, we motivate the need to go beyond these simple polytopes and show real-world internet marketplaces that require more complex structured polytope constraints. We expand on the recent literature with novel algorithms that are more broadly applicable to global inference problems. We derive an efficient incremental algorithm using a theoretical insight on the nature of solutions on the polytopes to project onto any arbitrary polytope, that shows massive improvements in performance. Using better optimization routines along with an adaptive algorithm to control the smoothness of the objective, improves the speed of the solution even further. We showcase the efficacy of our approach via experimental results on web-scale marketplace data. | 翻訳日:2021-03-11 19:33:50 公開日:2021-03-10 |
# (参考訳) BASAR:ブラックボックス攻撃による骨格的行動認識 BASAR:Black-box Attack on Skeletal Action Recognition ( http://arxiv.org/abs/2103.05266v2 ) ライセンス: CC BY 4.0 | Yunfeng Diao and Tianjia Shao and Yong-Liang Yang and Kun Zhou and He Wang | (参考訳) 骨格運動は、独立したデータソースまたは補完として人間の活動認識に重要な役割を果たします。
骨格に基づく活動認識器の堅牢性は近年疑問視されており、認識器の完全知識が攻撃者にアクセス可能な場合、敵攻撃に対して脆弱であることが示されている。
しかし、このホワイトボックス要件はたいていのシナリオでは過度に制限され、攻撃は真の脅威ではない。
本稿では,そのような脅威がブラックボックスの設定下でも存在することを示す。
そこで本研究では,最初のブラックボックス対人攻撃法BASARを提案する。
BASAR を通じて、敵対的攻撃は真に脅威であるだけでなく、非常に詐欺的であることを示す。なぜなら、対逆的サンプルは非多様体のみが存在するという共通の信念とは対照的に、オンマニホールド敵対的サンプルは骨格運動においてかなり一般的であるからである。
徹底的な評価と比較を通じて,バザールはモデル,データ,攻撃モードにまたがって攻撃を成功させることができることを示した。
過酷な知覚研究を通じて、効果的だが知覚不能な攻撃が達成できることを実証する。
異なるアクティビティ認識に対する攻撃を分析することで、BASARは脆弱性の潜在的な原因を特定し、どの分類器が攻撃に対してより堅牢になるかについての洞察を提供します。 Skeletal motion plays a vital role in human activity recognition as either an independent data source or a complement. The robustness of skeleton-based activity recognizers has been questioned recently, which shows that they are vulnerable to adversarial attacks when the full-knowledge of the recognizer is accessible to the attacker. However, this white-box requirement is overly restrictive in most scenarios and the attack is not truly threatening. In this paper, we show that such threats do exist under black-box settings too. To this end, we propose the first black-box adversarial attack method BASAR. Through BASAR, we show that adversarial attack is not only truly a threat but also can be extremely deceitful, because on-manifold adversarial samples are rather common in skeletal motions, in contrast to the common belief that adversarial samples only exist off-manifold. Through exhaustive evaluation and comparison, we show that BASAR can deliver successful attacks across models, data, and attack modes. Through harsh perceptual studies, we show that it achieves effective yet imperceptible attacks. By analyzing the attack on different activity recognizers, BASAR helps identify the potential causes of their vulnerability and provides insights on what classifiers are likely to be more robust against attack. | 翻訳日:2021-03-11 19:01:20 公開日:2021-03-10 |
# (参考訳) OPANAS: one-shot Path Aggregation Network Architecture Search for Object OPANAS: One-Shot Path Aggregation Network Architecture Search for Object ( http://arxiv.org/abs/2103.04507v2 ) ライセンス: CC0 1.0 | Tingting Liang, Yongtao Wang, Guosheng Hu, Zhi Tang, Haibin Ling | (参考訳) 近年、ニューラルアーキテクチャサーチ (NAS) を用いて特徴ピラミッドネットワーク (FPN) を設計し、視覚オブジェクト検出の有望な結果を得た。
そこで本研究では,検索効率と検出精度を有意に向上させる,新しいOne-Shot Path Aggregation Network Architecture Search(OPANAS)アルゴリズムを提案する。
具体的には、トップダウン、ボトムアップ、融合分割、スケール等化、スキップ接続、およびなしの検索空間を構築するために、6つの異種情報パスを最初に導入します。
次に,FPNの候補を高密度に連結した有向非巡回グラフで表現するFPNの新しい探索空間を提案する(各ノードは特徴ピラミッドであり,各エッジは6つの異種情報パスの1つである)。
第3に,最適なパスアグリゲーションアーキテクチャ,すなわちスーパーネットをまず学習し,次に進化アルゴリズムを用いて最適な候補を見つけるための効率的なワンショット探索法を提案する。
Experimental results demonstrate the efficacy of the proposed OPANAS for object detection: (1) OPANAS is more efficient than state-of-the-art methods (e.g., NAS-FPN and Auto-FPN), at significantly smaller searching cost (e.g., only 4 GPU days on MS-COCO); (2) the optimal architecture found by OPANAS significantly improves main-stream detectors including RetinaNet, Faster R-CNN and Cascade R-CNN, by 2.3-3.2 % mAP comparing to their FPN counterparts; and (3) a new state-of-the-art accuracy-speed trade-off (52.2 % mAP at 7.6 FPS) at smaller training costs than comparable state-of-the-arts.
コードはhttps://github.com/VDIGPKU/OPANASで公開されます。 Recently, neural architecture search (NAS) has been exploited to design feature pyramid networks (FPNs) and achieved promising results for visual object detection. Encouraged by the success, we propose a novel One-Shot Path Aggregation Network Architecture Search (OPANAS) algorithm, which significantly improves both searching efficiency and detection accuracy. Specifically, we first introduce six heterogeneous information paths to build our search space, namely top-down, bottom-up, fusing-splitting, scale-equalizing, skip-connect and none. Second, we propose a novel search space of FPNs, in which each FPN candidate is represented by a densely-connected directed acyclic graph (each node is a feature pyramid and each edge is one of the six heterogeneous information paths). Third, we propose an efficient one-shot search method to find the optimal path aggregation architecture, that is, we first train a super-net and then find the optimal candidate with an evolutionary algorithm. Experimental results demonstrate the efficacy of the proposed OPANAS for object detection: (1) OPANAS is more efficient than state-of-the-art methods (e.g., NAS-FPN and Auto-FPN), at significantly smaller searching cost (e.g., only 4 GPU days on MS-COCO); (2) the optimal architecture found by OPANAS significantly improves main-stream detectors including RetinaNet, Faster R-CNN and Cascade R-CNN, by 2.3-3.2 % mAP comparing to their FPN counterparts; and (3) a new state-of-the-art accuracy-speed trade-off (52.2 % mAP at 7.6 FPS) at smaller training costs than comparable state-of-the-arts. Code will be released at https://github.com/VDIGPKU/OPANAS. | 翻訳日:2021-03-11 18:59:56 公開日:2021-03-10 |
# (参考訳) Reactive Graspingのための未知オブジェクトの深層6-DoF追跡 Deep 6-DoF Tracking of Unknown Objects for Reactive Grasping ( http://arxiv.org/abs/2103.05401v2 ) ライセンス: CC BY 4.0 | Marc Tuscher, Julian H\"orz, Danny Driess, Marc Toussaint | (参考訳) 未知の物体のロボット操作は重要な研究分野である。
実用的応用は、ロボットが未知の環境と相互作用する必要がある多くの現実世界で起こります。
未知の物体追跡法, ポイントサンプリング法, 動的軌道計画法を提案することにより, 反応的把握の課題に取り組む。
オブジェクト追跡手法は,6-DoF未知のオブジェクト追跡手法に,Samese NetworksとIterative Closest Pointアプローチを組み合わせてポイントクラウド登録を行う。
この方法はさらなる訓練を必要とせず、騒音や咬合に頑健である。
従来は見つからなかった多種多様の物体をつかみ、物体の摂動やより低い把握点に対して堅牢なロボット操作システムを提案する。 Robotic manipulation of unknown objects is an important field of research. Practical applications occur in many real-world settings where robots need to interact with an unknown environment. We tackle the problem of reactive grasping by proposing a method for unknown object tracking, grasp point sampling and dynamic trajectory planning. Our object tracking method combines Siamese Networks with an Iterative Closest Point approach for pointcloud registration into a method for 6-DoF unknown object tracking. The method does not require further training and is robust to noise and occlusion. We propose a robotic manipulation system, which is able to grasp a wide variety of formerly unseen objects and is robust against object perturbations and inferior grasping points. | 翻訳日:2021-03-11 18:42:47 公開日:2021-03-10 |
# ELLA: 学習言語抽象化による探索 ELLA: Exploration through Learned Language Abstraction ( http://arxiv.org/abs/2103.05825v1 ) ライセンス: Link先を確認 | Suvir Mirchandani, Siddharth Karamcheti, Dorsa Sadigh | (参考訳) 言語命令を理解することができるエージェントの構築は、効果的で堅牢な人間とAIのコラボレーションに不可欠である。
最近の研究は, 合成言語を用いた環境下での強化学習によるエージェントの訓練に焦点が当てられているが, 長い水平, スパース・リワードタスクを定義し, 学習方針には経験のエピソードが数多く必要である。
そこで、ELA:Exploration through Learned Language Abstractionは、高レベルの命令とシンプルな低レベルの命令とを関連付けて、環境によって提供されるスパースな報酬を豊かにする報酬形成アプローチです。
ELLAには2つの重要な要素がある: 1)エージェントが低レベル命令を完了したときに識別する終了分類器と2)低レベル命令と高レベルタスクの成功とを相関する関連分類器である。
終端分類器は命令と終端状態のペアからオフラインで学習する。
特に、言語と抽象化の以前の作業から離れて、低レベルの命令に対する高レベルの命令の明示的な分解に頼ることなく、オンラインの関連性分類器を学びます。
さまざまな命令の複雑さと報酬のスパーシティを備えた複雑なグリッドワールド環境のスイートでは、ELLAは、競合する言語ベースの報酬形成とノーシェイピング方法と比較して、複数の環境におけるサンプル効率の大幅な向上を示しています。 Building agents capable of understanding language instructions is critical to effective and robust human-AI collaboration. Recent work focuses on training these instruction following agents via reinforcement learning in environments with synthetic language; however, these instructions often define long-horizon, sparse-reward tasks, and learning policies requires many episodes of experience. To this end, we introduce ELLA: Exploration through Learned Language Abstraction, a reward shaping approach that correlates high-level instructions with simpler low-level instructions to enrich the sparse rewards afforded by the environment. ELLA has two key elements: 1) A termination classifier that identifies when agents complete low-level instructions, and 2) A relevance classifier that correlates low-level instructions with success on high-level tasks. We learn the termination classifier offline from pairs of instructions and terminal states. Notably, in departure from prior work in language and abstraction, we learn the relevance classifier online, without relying on an explicit decomposition of high-level instructions to low-level instructions. On a suite of complex grid world environments with varying instruction complexities and reward sparsity, ELLA shows a significant gain in sample efficiency across several environments compared to competitive language-based reward shaping and no-shaping methods. | 翻訳日:2021-03-11 15:09:15 公開日:2021-03-10 |
# deepcpcfg: エンドツーエンド情報抽出のためのディープラーニングと文脈自由文法 DeepCPCFG: Deep Learning and Context Free Grammars for End-to-End Information Extraction ( http://arxiv.org/abs/2103.05908v1 ) ライセンス: Link先を確認 | Freddy C. Chua, Nigel P. Duffy | (参考訳) 深層学習と条件確率的文脈自由文法(CPCFG)を組み合わせることで,複雑な文書から構造化情報を抽出するエンドツーエンドシステムを構築する。
文書のクラスごとに、抽出する情報の構造を記述するCPCFGを作成します。
条件付き確率はディープニューラルネットワークによってモデル化される。
この文法を用いて2次元文書を解析し,抽出した情報を含む構造化レコードを直接生成する。
このシステムはエンドツーエンド(ドキュメント、レコード)ペアでトレーニングされる。
スキャンされた請求書から最新の結果を得るためにこのアプローチを適用します。 We combine deep learning and Conditional Probabilistic Context Free Grammars (CPCFG) to create an end-to-end system for extracting structured information from complex documents. For each class of documents, we create a CPCFG that describes the structure of the information to be extracted. Conditional probabilities are modeled by deep neural networks. We use this grammar to parse 2-D documents to directly produce structured records containing the extracted information. This system is trained end-to-end with (Document, Record) pairs. We apply this approach to extract information from scanned invoices achieving state-of-the-art results. | 翻訳日:2021-03-11 15:08:52 公開日:2021-03-10 |
# ロバスト性に対するポストホック特徴アライメントの限界 Limitations of Post-Hoc Feature Alignment for Robustness ( http://arxiv.org/abs/2103.05898v1 ) ライセンス: Link先を確認 | Collin Burns and Jacob Steinhardt | (参考訳) 機能アライメントは、トレーニング配信とテスト配信の間の機能アクティベーションの分布と一致する分散シフトへの堅牢性を改善するアプローチです。
機能アライメントに対する特に単純だが効果的なアプローチは、訓練されたニューラルネットワーク内の2つの分布間のバッチ正規化統計を調整することである。
このテクニックは最近、ロバスト性ベンチマークのパフォーマンスが素晴らしいため、新たな関心を集めている。
しかし、いつ、なぜこの方法が機能するのかはよく分かっていない。
アプローチをより詳細に調査し、いくつかの制限を特定します。
分散シフトの狭いセットでのみ有意に役立つことを示し、パフォーマンスを低下させるいくつかの設定を特定します。
また,このような制約が発生する理由として,そもそもこのアプローチが効果的である理由を指摘する。
私たちの調査結果は、このアプローチとUnsupervised Domain Adaptationの有用性を疑問に思っています。 Feature alignment is an approach to improving robustness to distribution shift that matches the distribution of feature activations between the training distribution and test distribution. A particularly simple but effective approach to feature alignment involves aligning the batch normalization statistics between the two distributions in a trained neural network. This technique has received renewed interest lately because of its impressive performance on robustness benchmarks. However, when and why this method works is not well understood. We investigate the approach in more detail and identify several limitations. We show that it only significantly helps with a narrow set of distribution shifts and we identify several settings in which it even degrades performance. We also explain why these limitations arise by pinpointing why this approach can be so effective in the first place. Our findings call into question the utility of this approach and Unsupervised Domain Adaptation more broadly for improving robustness in practice. | 翻訳日:2021-03-11 15:08:42 公開日:2021-03-10 |
# マルチラベル胸部X線分類における関係学習の視点 A Relational-learning Perspective to Multi-label Chest X-ray Classification ( http://arxiv.org/abs/2103.06220v1 ) ライセンス: Link先を確認 | Anjany Sekuboyina, Daniel O\~noro-Rubio, Jens Kleesiek and Brandon Malone | (参考訳) 胸部x線画像のマルチラベル分類は, 判別的手法を用いて頻繁に行われる。
画像を直接バイナリラベルにマップする方法を学びます。
このようなアプローチは、アノテーションの不確実性やラベル間の依存関係などの補助情報を組み込むことを困難にします。
そこで本研究では,エンコーダの予測性能を向上するだけでなく,新たなドメイン知識を導入するための一般的なフレームワークとして機能する,多ラベル分類の新たな知識グラフ再構成を提案する。
具体的には,胸部X線画像とそのラベルからマルチモーダル知識グラフを構築し,リンク予測問題としてマルチラベル分類を行う。
補助情報を組み込むことは、ノードと関係を追加することで簡単に実現できます。
公開ラジオグラフデータセット(CheXpert)でテストすると、ナイーブナレッジグラフを使用したリレーショナルリフォーマレーションは、83.5%のROC曲線の面積を達成し、純粋に差別的なアプローチよりも"sim 1"の改善によって、最先端のパフォーマンスを上回ります。 Multi-label classification of chest X-ray images is frequently performed using discriminative approaches, i.e. learning to map an image directly to its binary labels. Such approaches make it challenging to incorporate auxiliary information such as annotation uncertainty or a dependency among the labels. Building towards this, we propose a novel knowledge graph reformulation of multi-label classification, which not only readily increases predictive performance of an encoder but also serves as a general framework for introducing new domain knowledge. Specifically, we construct a multi-modal knowledge graph out of the chest X-ray images and its labels and pose multi-label classification as a link prediction problem. Incorporating auxiliary information can then simply be achieved by adding additional nodes and relations among them. When tested on a publicly-available radiograph dataset (CheXpert), our relational-reformulation using a naive knowledge graph outperforms the state-of-art by achieving an area-under-ROC curve of 83.5%, an improvement of "sim 1" over a purely discriminative approach. | 翻訳日:2021-03-11 15:08:28 公開日:2021-03-10 |
# amharic news text classification データセット An Amharic News Text classification Dataset ( http://arxiv.org/abs/2103.05639v1 ) ライセンス: Link先を確認 | Israel Abebe Azime and Nebil Mohammed | (参考訳) nlpでは、テキスト分類は私たちが解決しようとする主要な問題の1つであり、言語分析におけるその使用は説明がつかない。
ラベル付きトレーニングデータがないため、Amharicのような低リソース言語でこれらのタスクを行うのが難しくなった。
この種のデータを収集、ラベル付け、注釈付け、価値あるものにするタスクは、下級の研究者、学校、機械学習の実践者が言語に既存の分類モデルを実装することを奨励する。
本稿では,50万以上のニュース記事からなるアムハラ語のテキスト分類データセットを6つのクラスに分類することを目的とする。
このデータセットは、研究とより良いパフォーマンス実験を促進するための簡単なベースラインパフォーマンスで利用可能になります。 In NLP, text classification is one of the primary problems we try to solve and its uses in language analyses are indisputable. The lack of labeled training data made it harder to do these tasks in low resource languages like Amharic. The task of collecting, labeling, annotating, and making valuable this kind of data will encourage junior researchers, schools, and machine learning practitioners to implement existing classification models in their language. In this short paper, we aim to introduce the Amharic text classification dataset that consists of more than 50k news articles that were categorized into 6 classes. This dataset is made available with easy baseline performances to encourage studies and better performance experiments. | 翻訳日:2021-03-11 15:08:06 公開日:2021-03-10 |
# テキストデータの解釈可能なバイアス軽減:分類性能を維持しながら、患者ノートの性別バイアスを低減する Interpretable bias mitigation for textual data: Reducing gender bias in patient notes while maintaining classification performance ( http://arxiv.org/abs/2103.05841v1 ) ライセンス: Link先を確認 | Joshua R. Minot, Nicholas Cheney, Marc Maier, Danne C. Elbers, Christopher M. Danforth, and Peter Sheridan Dodds | (参考訳) 一般に医療システム、特に患者の治療決定と結果は、性別やその他の人口構成要素に基づくバイアスによって影響を受ける。
言語モデルが医学に適用されるにつれて、患者ケアに影響を与えるプロセスにアルゴリズム的公平性を構築することへの関心が高まっている。
この問題に対処する作業の多くは、言語モデルで符号化されたバイアス(コーパスの遠い読みから導かれる概念間の関係の統計的推定)に焦点を当てている。
この研究に基づいて,医療従事者や言語モデルによる単語選択がバイアスとどのように相互作用するかを検討する。
2つの臨床ノートから性別付き言語を識別・除去し,BERTに基づく性別分類器を用いた新しい脱バイアス法を記述した。
データ拡張による低~中レベルのバイアス除去のための健康状態分類タスクの最小劣化を示す。
最後に、言語モデルで符号化されるバイアスと、健康記録で経験的に観察されるバイアスを比較します。
本研究は,自然言語処理パイプラインにおけるバイアスを識別・低減するために,データ拡張を用いた解釈可能なアプローチを概説する。 Medical systems in general, and patient treatment decisions and outcomes in particular, are affected by bias based on gender and other demographic elements. As language models are increasingly applied to medicine, there is a growing interest in building algorithmic fairness into processes impacting patient care. Much of the work addressing this question has focused on biases encoded in language models -- statistical estimates of the relationships between concepts derived from distant reading of corpora. Building on this work, we investigate how word choices made by healthcare practitioners and language models interact with regards to bias. We identify and remove gendered language from two clinical-note datasets and describe a new debiasing procedure using BERT-based gender classifiers. We show minimal degradation in health condition classification tasks for low- to medium-levels of bias removal via data augmentation. Finally, we compare the bias semantically encoded in the language models with the bias empirically observed in health records. This work outlines an interpretable approach for using data augmentation to identify and reduce the potential for bias in natural language processing pipelines. | 翻訳日:2021-03-11 15:07:53 公開日:2021-03-10 |
# RL-CSDia:コンピュータサイエンス図の表現学習 RL-CSDia: Representation Learning of Computer Science Diagrams ( http://arxiv.org/abs/2103.05900v1 ) ライセンス: Link先を確認 | Shaowei Wang, LingLing Zhang, Xuan Luo, Yi Yang, Xin Hu, and Jun Liu | (参考訳) 最近のコンピュータビジョンの研究は、主に現実世界のシーンを表現する自然画像に焦点を当てている。
視覚的質問応答など、多様なタスクで優れたパフォーマンスを発揮します。
図は、教育分野で頻繁に現れる視覚表現の特別な形態であり、学習者がマルチモーダル知識を理解するために非常に重要です。
現在のダイアグラムの研究は、生物学や地理学などの自然の分野に焦点を当てており、その表現はまだ自然のイメージに類似している。
コンピュータサイエンスなどの他の図は複雑なトポロジと関係を含むグラフィックで構成されており、この種の図の研究はいまだに空白である。
グラフィックダイアグラムの理解の主な課題は、データの希少性と意味の混乱であり、それは主に表現の多様性に反映されます。
本稿では,コンピュータサイエンス・ダイアグラム(csdia)と呼ばれる新しいグラフィック図のデータセットを構築する。
1200以上の図とオブジェクトと関係の完全なアノテーションを含んでいる。
図中の様々な表現に起因する視覚ノイズを考慮して,図形のトポロジーを導入し,位相構造を解析する。
その後、トポロジー、視覚的特徴、テキストの3つの枝から図を表現するために、図解析ネット(DPN: Diagram Parsing Net)を提案し、図の理解能力を評価するために、図分類タスクにモデルを適用します。
提案されたDPNがダイアグラム理解に及ぼす影響を示した。 Recent studies on computer vision mainly focus on natural images that express real-world scenes. They achieve outstanding performance on diverse tasks such as visual question answering. Diagram is a special form of visual expression that frequently appears in the education field and is of great significance for learners to understand multimodal knowledge. Current research on diagrams preliminarily focuses on natural disciplines such as Biology and Geography, whose expressions are still similar to natural images. Another type of diagrams such as from Computer Science is composed of graphics containing complex topologies and relations, and research on this type of diagrams is still blank. The main challenges of graphic diagrams understanding are the rarity of data and the confusion of semantics, which are mainly reflected in the diversity of expressions. In this paper, we construct a novel dataset of graphic diagrams named Computer Science Diagrams (CSDia). It contains more than 1,200 diagrams and exhaustive annotations of objects and relations. Considering the visual noises caused by the various expressions in diagrams, we introduce the topology of diagrams to parse topological structure. After that, we propose Diagram Parsing Net (DPN) to represent the diagram from three branches: topology, visual feature, and text, and apply the model to the diagram classification task to evaluate the ability of diagrams understanding. The results show the effectiveness of the proposed DPN on diagrams understanding. | 翻訳日:2021-03-11 15:07:18 公開日:2021-03-10 |
# 条件付きadversarial debiasingによるバイアスデータからの非バイアス分類法学習に向けて Towards Learning an Unbiased Classifier from Biased Data via Conditional Adversarial Debiasing ( http://arxiv.org/abs/2103.06179v1 ) ライセンス: Link先を確認 | Christian Reimers and Paul Bodesheim and Jakob Runge and Joachim Denzler | (参考訳) 分類器のバイアスは、特に安全およびセキュリティクリティカルな分野における応用において、現代のディープラーニング手法の深刻な問題である。
分類器のバイアスはトレーニングデータセットのバイアスの直接的な結果であり、しばしば関連する特徴と無関係な特徴の共起によって引き起こされる。
この問題を解決するには、データセットから分類器へのバイアスの伝播を防ぐ学習アルゴリズムが必要です。
本稿では,訓練画像のラベルに急激な結びつきを持つが,検査画像のラベルとは統計的に独立な特徴に対処する,新たな逆偏り除去法を提案する。
したがって、トレーニング中に関連する機能の自動識別は、無関係な特徴によって乱される。
これは、皮膚がんの自動検出や運転支援など、多くのコンピュータビジョンタスクにおける幅広いバイアス関連の問題の場合である。
我々は、上記の偏見に対する既存の手法よりも、我々のアプローチが優れているという数学的証明によって論じる。
実験の結果,本手法は猫や犬の実世界画像を用いたベンチマークデータセットにおいて,最先端技術よりも優れた性能を示すことがわかった。 Bias in classifiers is a severe issue of modern deep learning methods, especially for their application in safety- and security-critical areas. Often, the bias of a classifier is a direct consequence of a bias in the training dataset, frequently caused by the co-occurrence of relevant features and irrelevant ones. To mitigate this issue, we require learning algorithms that prevent the propagation of bias from the dataset into the classifier. We present a novel adversarial debiasing method, which addresses a feature that is spuriously connected to the labels of training images but statistically independent of the labels for test images. Thus, the automatic identification of relevant features during training is perturbed by irrelevant features. This is the case in a wide range of bias-related problems for many computer vision tasks, such as automatic skin cancer detection or driver assistance. We argue by a mathematical proof that our approach is superior to existing techniques for the abovementioned bias. Our experiments show that our approach performs better than state-of-the-art techniques on a well-known benchmark dataset with real-world images of cats and dogs. | 翻訳日:2021-03-11 15:06:57 公開日:2021-03-10 |
# CUAD: 法律契約レビューのためのエキスパートアノテーション付きNLPデータセット CUAD: An Expert-Annotated NLP Dataset for Legal Contract Review ( http://arxiv.org/abs/2103.06268v1 ) ライセンス: Link先を確認 | Dan Hendrycks and Collin Burns and Anya Chen and Spencer Ball | (参考訳) 多くの専門ドメインは、大規模なラベル付きデータセットには高価なエキスパートアノテータを必要とするため、ディープラーニングには触れられません。
我々は、法的契約レビューのための新しいデータセットであるcontract understanding atticus dataset (cuad)を導入することで、法律領域におけるこのボトルネックに対処する。
CUADはThe Atticus Projectから数十名の法律専門家によって作成され、13,000以上のアノテーションで構成されている。
タスクは、人間がレビューする上で重要な契約の突出した部分を強調することです。
トランスフォーマーモデルの性能は初期段階にあるが,この性能はモデル設計とトレーニングデータセットサイズの影響を強く受けている。
これらの有望な結果にもかかわらず、改善の余地はまだある。
専門家によって注釈付けされた唯一の大規模で専門的なNLPベンチマークの1つとして、CUADはより広範なNLPコミュニティのための挑戦的な研究ベンチマークとして機能する。 Many specialized domains remain untouched by deep learning, as large labeled datasets require expensive expert annotators. We address this bottleneck within the legal domain by introducing the Contract Understanding Atticus Dataset (CUAD), a new dataset for legal contract review. CUAD was created with dozens of legal experts from The Atticus Project and consists of over 13,000 annotations. The task is to highlight salient portions of a contract that are important for a human to review. We find that Transformer models have nascent performance, but that this performance is strongly influenced by model design and training dataset size. Despite these promising results, there is still substantial room for improvement. As one of the only large, specialized NLP benchmarks annotated by experts, CUAD can serve as a challenging research benchmark for the broader NLP community. | 翻訳日:2021-03-11 15:06:22 公開日:2021-03-10 |
# 最大平均差における残留流の普遍近似 Universal Approximation of Residual Flows in Maximum Mean Discrepancy ( http://arxiv.org/abs/2103.05793v1 ) ライセンス: Link先を確認 | Zhifeng Kong, Kamalika Chaudhuri | (参考訳) 正規化フローは、簡単な可能性計算を提供する柔軟な深層生成モデルのクラスです。
経験的成功にもかかわらず、その表現性に関する理論的理解はほとんどない。
本研究では,リプシッツ残差ブロックからなる正規化流のクラスである残差流について検討する。
残差流は最大平均差の普遍近似であることを示す。
異なる仮定の下で近似を達成するために、残余ブロック数の上界を提供する。 Normalizing flows are a class of flexible deep generative models that offer easy likelihood computation. Despite their empirical success, there is little theoretical understanding of their expressiveness. In this work, we study residual flows, a class of normalizing flows composed of Lipschitz residual blocks. We prove residual flows are universal approximators in maximum mean discrepancy. We provide upper bounds on the number of residual blocks to achieve approximation under different assumptions. | 翻訳日:2021-03-11 15:05:26 公開日:2021-03-10 |
# 航空安全事象の前兆予測のためのマルチクラス多重インスタンス学習 Multi-Class Multiple Instance Learning for Predicting Precursors to Aviation Safety Events ( http://arxiv.org/abs/2103.06244v1 ) ライセンス: Link先を確認 | Marc-Henri Bleu-Laine, Tejas G. Puranik, Dimitri N. Mavris, Bryan Matthews | (参考訳) 近年、商業航空会社の業務から収集した航空データを活用して安全性を向上させる機械学習技術の適用が急速に拡大しています。
異常検出と予測保守が機械学習アプリケーションの主要なターゲットとなっている。
しかし,本論文は比較的新しい応用である前駆体の同定に焦点を当てている。
前駆体は、悪意のある出来事自体の前に起こる悪意のある出来事と相関するイベントです。
したがって、前駆者の採掘は、安全事故の背後にある理由と、将来の有害事象の可能性をオペレータに警告するためにフライト中に追跡することができる署名を識別する能力を理解することを含む多くの利点を提供します。
本研究は,MHCNN-RNNアーキテクチャを応用した,弱い教師付き学習タスクであるMIL(Multiple-instance Learning)フレームワークと,慎重に設計されたバイナリ分類器を組み合わせることを提案する。
マルチクラス分類器が作成され、比較され、バイナリ分類器を組み合わせて、MHCNN-RNNを複数の出力を扱うように修正することで、任意の飛行に対して異なる有害事象を予測できる。
その結果,複数の2値分類器の性能が向上し,接近時の高速・高経路角イベントを正確に予測できることがわかった。
複数のバイナリ分類器は、これらの事象と相関する航空機のパラメータを決定できる。
特定されたパラメータは、イベントの前兆と見なすことができ、将来これらのイベントを防止するためにさらに研究または追跡することができる。 In recent years, there has been a rapid growth in the application of machine learning techniques that leverage aviation data collected from commercial airline operations to improve safety. Anomaly detection and predictive maintenance have been the main targets for machine learning applications. However, this paper focuses on the identification of precursors, which is a relatively newer application. Precursors are events correlated with adverse events that happen prior to the adverse event itself. Therefore, precursor mining provides many benefits including understanding the reasons behind a safety incident and the ability to identify signatures, which can be tracked throughout a flight to alert the operators of the potential for an adverse event in the future. This work proposes using the multiple-instance learning (MIL) framework, a weakly supervised learning task, combined with carefully designed binary classifier leveraging a Multi-Head Convolutional Neural Network-Recurrent Neural Network (MHCNN-RNN) architecture. Multi-class classifiers are then created and compared, enabling the prediction of different adverse events for any given flight by combining binary classifiers, and by modifying the MHCNN-RNN to handle multiple outputs. Results obtained showed that the multiple binary classifiers perform better and are able to accurately forecast high speed and high path angle events during the approach phase. Multiple binary classifiers are also capable of determining the aircraft's parameters that are correlated to these events. The identified parameters can be considered precursors to the events and may be studied/tracked further to prevent these events in the future. | 翻訳日:2021-03-11 15:05:21 公開日:2021-03-10 |
# ニューラルネットワークのオーバーコンプリート表現における深い構造 Reframing Neural Networks: Deep Structure in Overcomplete Representations ( http://arxiv.org/abs/2103.05804v1 ) ライセンス: Link先を確認 | Calvin Murdock and Simon Lucey | (参考訳) 従来の浅い表現学習技術と比較して、ディープニューラルネットワークはほぼすべてのアプリケーションベンチマークで優れたパフォーマンスを達成しています。
しかし、その明確な実証的利点にもかかわらず、なぜそのような効果があるのかはまだよく分かっていない。
本稿では,構造化過剰フレームを用いた表現学習のための統一フレームワークであるdeep frame approximationを提案する。
正確な推論には反復最適化が必要であるが、フィードフォワードディープニューラルネットワークの操作によって近似することができる。
次に, モデル容量が, 深さ, 幅, スキップ接続などの超パラメータによって引き起こされるフレーム構造とどのように関連しているかを間接的に解析する。
これらの構造的差異を、表現の特異性と安定性に結びついたデータ非依存なコヒーレンス尺度であるディープフレームポテンシャルで定量化する。
モデル選択の基準として,resnets や densenets など,一般的なディープネットワークアーキテクチャ上での一般化誤差との相関性を示す。
また,反復最適化アルゴリズムを実装した繰り返しネットワークが,フィードフォワード近似に匹敵する性能を実現することを示す。
この確立されたオーバーコンプリート表現の理論との接続は、アドホックなエンジニアリングに依存しない原則付きディープネットワークアーキテクチャ設計の新たな方向性を示唆している。 In comparison to classical shallow representation learning techniques, deep neural networks have achieved superior performance in nearly every application benchmark. But despite their clear empirical advantages, it is still not well understood what makes them so effective. To approach this question, we introduce deep frame approximation, a unifying framework for representation learning with structured overcomplete frames. While exact inference requires iterative optimization, it may be approximated by the operations of a feed-forward deep neural network. We then indirectly analyze how model capacity relates to the frame structure induced by architectural hyperparameters such as depth, width, and skip connections. We quantify these structural differences with the deep frame potential, a data-independent measure of coherence linked to representation uniqueness and stability. As a criterion for model selection, we show correlation with generalization error on a variety of common deep network architectures such as ResNets and DenseNets. We also demonstrate how recurrent networks implementing iterative optimization algorithms achieve performance comparable to their feed-forward approximations. This connection to the established theory of overcomplete representations suggests promising new directions for principled deep network architecture design with less reliance on ad-hoc engineering. | 翻訳日:2021-03-11 15:04:37 公開日:2021-03-10 |
# 空間的一貫性表現学習 Spatially Consistent Representation Learning ( http://arxiv.org/abs/2103.06122v1 ) ライセンス: Link先を確認 | Byungseok Roh, Wuhyun Shin, Ildoo Kim, Sungwoong Kim | (参考訳) 自己教師付き学習はラベルのない画像から転送可能な表現を得るために広く使われている。
特に,近年のコントラスト学習手法は,下流画像分類課題において印象的な性能を示している。
これらの対照的手法は、セマンティック保存変換の下でイメージレベルで不変なグローバル表現を生成することに焦点を当てているが、局所表現の空間的一貫性を見落としやすいため、オブジェクト検出やインスタンスセグメンテーションなどのローカリゼーションタスクの事前トレーニングに制限がある。
さらに、既存のコントラスト法で使用される積極的に切り抜かれたビューは、単一の画像の意味的に異なる領域間の表現距離を最小化することができる。
本稿では,多目的および位置特定タスクのための空間整合表現学習アルゴリズム(scrl)を提案する。
特に,ランダムに切り取られた局所領域のコヒーレントな空間表現を幾何学的翻訳やズーム操作に従って生成しようとする,新しい自己教師付き目的を考案する。
ベンチマークデータセットを用いたダウンストリームローカライズタスクでは,画像レベルの教師付き事前学習や最先端の自己教師付き学習手法よりも優れたパフォーマンス改善が得られた。 Self-supervised learning has been widely used to obtain transferrable representations from unlabeled images. Especially, recent contrastive learning methods have shown impressive performances on downstream image classification tasks. While these contrastive methods mainly focus on generating invariant global representations at the image-level under semantic-preserving transformations, they are prone to overlook spatial consistency of local representations and therefore have a limitation in pretraining for localization tasks such as object detection and instance segmentation. Moreover, aggressively cropped views used in existing contrastive methods can minimize representation distances between the semantically different regions of a single image. In this paper, we propose a spatially consistent representation learning algorithm (SCRL) for multi-object and location-specific tasks. In particular, we devise a novel self-supervised objective that tries to produce coherent spatial representations of a randomly cropped local region according to geometric translations and zooming operations. On various downstream localization tasks with benchmark datasets, the proposed SCRL shows significant performance improvements over the image-level supervised pretraining as well as the state-of-the-art self-supervised learning methods. | 翻訳日:2021-03-11 15:04:21 公開日:2021-03-10 |
# 教師なしキーポイント検出のためのレグレッシブドメイン適応 Regressive Domain Adaptation for Unsupervised Keypoint Detection ( http://arxiv.org/abs/2103.06175v1 ) ライセンス: Link先を確認 | Junguang Jiang, Yifei Ji, Ximei Wang, Yufeng Liu, Jianmin Wang, Mingsheng Long | (参考訳) ドメイン適応(DA)は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的とする。
多くのDA理論とアルゴリズムが提案されているが、そのほとんどは分類設定に調整されており、特に実用的なキーポイント検出タスクでは回帰タスクに失敗する可能性がある。
この困難だが重要な課題に取り組むために、教師なしのキーポイント検出のためのレグレッシブドメイン適応(RegDA)法を提案する。
直近の理論的研究に触発されて、まず対向回帰器を用いて対象領域の差を最大化し、特徴発生器を訓練し、この差を最小限に抑える。
しかし、出力空間の寸法が高いため、このレグレッサーは、ソースのサポートから逸脱するサンプルを検出することができません。
この問題を克服するために,我々は2つの重要なアイデアを提案する。
まず、出力空間の確率密度がスパースであるという観測に基づいて、このスパーシティを記述するために空間確率分布を導入し、それを用いて逆レグレッサの学習を導く。
第二に、高次元空間の最適化難易度を緩和するため、対向訓練におけるミニマックスゲームを2つの逆目標の最小化に革新的に変換する。
広範な実験により, 異なるデータセット上のPCKの点で, 8% から 11% の大幅な改善が得られた。 Domain adaptation (DA) aims at transferring knowledge from a labeled source domain to an unlabeled target domain. Though many DA theories and algorithms have been proposed, most of them are tailored into classification settings and may fail in regression tasks, especially in the practical keypoint detection task. To tackle this difficult but significant task, we present a method of regressive domain adaptation (RegDA) for unsupervised keypoint detection. Inspired by the latest theoretical work, we first utilize an adversarial regressor to maximize the disparity on the target domain and train a feature generator to minimize this disparity. However, due to the high dimension of the output space, this regressor fails to detect samples that deviate from the support of the source. To overcome this problem, we propose two important ideas. First, based on our observation that the probability density of the output space is sparse, we introduce a spatial probability distribution to describe this sparsity and then use it to guide the learning of the adversarial regressor. Second, to alleviate the optimization difficulty in the high-dimensional space, we innovatively convert the minimax game in the adversarial training to the minimization of two opposite goals. Extensive experiments show that our method brings large improvement by 8% to 11% in terms of PCK on different datasets. | 翻訳日:2021-03-11 15:04:04 公開日:2021-03-10 |
# 小型TinyMLモデルの量子化ガイドトレーニング Quantization-Guided Training for Compact TinyML Models ( http://arxiv.org/abs/2103.06231v1 ) ライセンス: Link先を確認 | Sedigh Ghamari, Koray Ozcan, Thu Dinh, Andrey Melnikov, Juan Carvajal, Jan Ernst, Sek Chai | (参考訳) 量子化誘導訓練 (qgt) では, dnnのトレーニングを最適化された低ビット精度目標へ誘導し, 8ビット精度以下の極端圧縮レベルに達する。
標準的な量子化対応トレーニング(QAT)アプローチとは異なり、QGTはカスタマイズされた正規化を使用して、量子化エラーを減らしながら精度を最大化する分布への重み付けを奨励する。
このアプローチの主な利点の1つは、圧縮ボトルネックを特定する能力である。
ビジョンデータセットの最先端モデルアーキテクチャを用いてqgtを検証する。
また,81KBの小型モデルを用いたQGTの有効性を,浮動小数点ベースラインと比較してわずか3%の精度低下を保ちつつ,2ビット精度(17.7倍の縮小)で実証した。 We propose a Quantization Guided Training (QGT) method to guide DNN training towards optimized low-bit-precision targets and reach extreme compression levels below 8-bit precision. Unlike standard quantization-aware training (QAT) approaches, QGT uses customized regularization to encourage weight values towards a distribution that maximizes accuracy while reducing quantization errors. One of the main benefits of this approach is the ability to identify compression bottlenecks. We validate QGT using state-of-the-art model architectures on vision datasets. We also demonstrate the effectiveness of QGT with an 81KB tiny model for person detection down to 2-bit precision (representing 17.7x size reduction), while maintaining an accuracy drop of only 3% compared to a floating-point baseline. | 翻訳日:2021-03-11 15:03:39 公開日:2021-03-10 |
# 都市水の深層センシング Deep Sensing of Urban Waterlogging ( http://arxiv.org/abs/2103.05927v1 ) ライセンス: Link先を確認 | Shi-Wei Lo | (参考訳) モンスーンシーズンには、都市部で突然の洪水が頻繁に発生し、社会活動や経済活動が妨げられ、インフラや生活を脅かす可能性がある。
効率的な大規模集水センシング・情報システムを利用することで,災害管理を円滑にし,一般市民の意識を高め,洪水災害時の損失を軽減できる貴重なリアルタイム災害情報を提供できる。
そこで本研究では,深層ニューラルネットワークと情報通信技術による視覚センシング手法を開発し,ウォーターログセンシングとイベントロケーションマッピングを実現するエンドツーエンドのメカニズムを提供する。
台湾のモンスーン季節における深層センシングシステムの利用が実証され, 島全体での降水現象が予測された。
このシステムは、ビデオ物事のフレームワークのインターネットを介して約2379のビジョンソースを感知し、5分でイベント位置情報を送信できます。
提案手法は,全国的規模で水利きイベントを検知し,従来の水利きセンシング手法に代わる効率的かつ高度にスケーラブルな代替手段を提供する。 In the monsoon season, sudden flood events occur frequently in urban areas, which hamper the social and economic activities and may threaten the infrastructure and lives. The use of an efficient large-scale waterlogging sensing and information system can provide valuable real-time disaster information to facilitate disaster management and enhance awareness of the general public to alleviate losses during and after flood disasters. Therefore, in this study, a visual sensing approach driven by deep neural networks and information and communication technology was developed to provide an end-to-end mechanism to realize waterlogging sensing and event-location mapping. The use of a deep sensing system in the monsoon season in Taiwan was demonstrated, and waterlogging events were predicted on the island-wide scale. The system could sense approximately 2379 vision sources through an internet of video things framework and transmit the event-location information in 5 min. The proposed approach can sense waterlogging events at a national scale and provide an efficient and highly scalable alternative to conventional waterlogging sensing methods. | 翻訳日:2021-03-11 15:03:25 公開日:2021-03-10 |
# 可変レート離散表現学習 Variable-rate discrete representation learning ( http://arxiv.org/abs/2103.06089v1 ) ライセンス: Link先を確認 | Sander Dieleman, Charlie Nash, Jesse Engel, Karen Simonyan | (参考訳) 知覚信号における意味のある情報内容は通常不均等に分布する。
例えば、音声信号では、しばしば多くの沈黙があり、発音の速度はかなり異なることがあります。
本研究では,低速オートエンコーダ (SlowAEs) を高レベル変数レート離散表現の教師なし学習用として提案し,それを音声に適用する。
入力信号の正解情報の密度に応じて,結果のイベントベース表現が自動的に成長あるいは縮小し,忠実な信号再構成が可能であることを示す。
イベントベースの表現モデリングのためのランレングストランスフォーマー(RLT)を開発し、それらを音声ドメイン内の言語モデルの構築に使用し、文法的および意味的に一貫性のある発話と継続を生成することができる。 Semantically meaningful information content in perceptual signals is usually unevenly distributed. In speech signals for example, there are often many silences, and the speed of pronunciation can vary considerably. In this work, we propose slow autoencoders (SlowAEs) for unsupervised learning of high-level variable-rate discrete representations of sequences, and apply them to speech. We show that the resulting event-based representations automatically grow or shrink depending on the density of salient information in the input signals, while still allowing for faithful signal reconstruction. We develop run-length Transformers (RLTs) for event-based representation modelling and use them to construct language models in the speech domain, which are able to generate grammatical and semantically coherent utterances and continuations. | 翻訳日:2021-03-11 15:02:46 公開日:2021-03-10 |
# 高速かつ柔軟:抽象推論タスクにおけるヒューマンプログラム誘導 Fast and flexible: Human program induction in abstract reasoning tasks ( http://arxiv.org/abs/2103.05823v1 ) ライセンス: Link先を確認 | Aysja Johnson, Wai Keen Vong, Brenden M. Lake, Todd M. Gureckis | (参考訳) Abstraction and Reasoning Corpus (ARC) は、最近 Chollet (2019) によって提案された挑戦的なプログラム誘導データセットである。
ここでは、ARC(1000人中40人)のタスクのサブセットを解決する人間の行動研究から収集された最初の結果のセットを報告します。
このタスクのサブセットにはかなりのばらつきが含まれているが,本研究では,人間は基礎となるプログラムを推測し,新しいテスト入力例に対して,平均80%のタスクが解き,65%のタスクが80%以上の参加者によって解かれるように,正しいテスト結果を生成することができた。
さらに,生成過程における行動シーケンス内における行動の一貫性と変動性の興味深いパターン,タスク毎の変換を記述する自然言語記述,人間が犯したエラーなどを見いだす。
以上の結果から,タスクの関連する特徴や特性を迅速かつ確実に決定し,正しいソリューションを作成できることが示唆された。
将来のモデリング作業では、ここで収集した自然言語記述をARCの基盤となる意味論に結びつけることで、これらの知見を取り入れることができます。 The Abstraction and Reasoning Corpus (ARC) is a challenging program induction dataset that was recently proposed by Chollet (2019). Here, we report the first set of results collected from a behavioral study of humans solving a subset of tasks from ARC (40 out of 1000). Although this subset of tasks contains considerable variation, our results showed that humans were able to infer the underlying program and generate the correct test output for a novel test input example, with an average of 80% of tasks solved per participant, and with 65% of tasks being solved by more than 80% of participants. Additionally, we find interesting patterns of behavioral consistency and variability within the action sequences during the generation process, the natural language descriptions to describe the transformations for each task, and the errors people made. Our findings suggest that people can quickly and reliably determine the relevant features and properties of a task to compose a correct solution. Future modeling work could incorporate these findings, potentially by connecting the natural language descriptions we collected here to the underlying semantics of ARC. | 翻訳日:2021-03-11 15:02:20 公開日:2021-03-10 |
# AIシステムの非凝集評価を設計する:選択、考察、トレードオフ Designing Disaggregated Evaluations of AI Systems: Choices, Considerations, and Tradeoffs ( http://arxiv.org/abs/2103.06076v1 ) ライセンス: Link先を確認 | Solon Barocas, Anhong Guo, Ece Kamar, Jacquelyn Krones, Meredith Ringel Morris, Jennifer Wortman Vaughan, Duncan Wadsworth, Hanna Wallach | (参考訳) AIシステムの「分別評価」を行うことで、パフォーマンスの格差を明らかにした作品もいくつかあります。
これらの取り組みは、分散評価を設計する際に行わなければならない選択肢と、これらの設計選択とこれらの検討の間のトレードオフの根底にある重要な考慮事項に焦点をあてて構築されます。
分散評価の設計に関わる選択肢、考慮事項、トレードオフについてより深く理解することで、研究者、実践者、一般の人々が、特定のグループに対してAIシステムがいかにパフォーマンスを低下させるかを理解することができます。 Several pieces of work have uncovered performance disparities by conducting "disaggregated evaluations" of AI systems. We build on these efforts by focusing on the choices that must be made when designing a disaggregated evaluation, as well as some of the key considerations that underlie these design choices and the tradeoffs between these considerations. We argue that a deeper understanding of the choices, considerations, and tradeoffs involved in designing disaggregated evaluations will better enable researchers, practitioners, and the public to understand the ways in which AI systems may be underperforming for particular groups of people. | 翻訳日:2021-03-11 15:02:02 公開日:2021-03-10 |
# BCFNet: 注意メカニズムを備えたバランスの取れた協調フィルタリングネットワーク BCFNet: A Balanced Collaborative Filtering Network with Attention Mechanism ( http://arxiv.org/abs/2103.06105v1 ) ライセンス: Link先を確認 | Chang-Dong Wang, Zi-Yuan Hu, Jin Huang, Zhi-Hong Deng, Ling Huang, Jian-Huang Lai and Philip S. Yu | (参考訳) コラボレーティブフィルタリング(cf)ベースの推奨手法は広く研究されており、一般的には表現学習ベースのcf法とマッチング関数学習ベースのcf法という2つのタイプに分類することができる。
表現学習は、ユーザとアイテムの表現のための共通の低次元空間を学習しようとする。
この場合、共通のスペースで類似度が高い場合、ユーザーとアイテムはよりよく一致します。
マッチング関数学習は、ユーザとアイテムのペアをマッチングスコアにマップする複雑なマッチング関数を直接学習しようとする。
どちらの手法も開発が進んでいるが,2つの根本的な欠陥,すなわち表現学習は,ユーザやアイテムの潜在的な特徴に対する表現性に制限のあるドット製品を適用すること,マッチング関数学習は低ランク関係を捉える上で弱点を持つ。
このような欠点を克服するために,2種類の手法の長所を有するbcfnet( balanced collaborative filtering network)という新しい推奨モデルを提案する。
さらに注意機構は、暗黙のフィードバックの中で隠れた情報をよりよく捉え、ニューラルネットワークの学習能力を強化するように設計されている。
さらに、バランスモジュールは、DNNの過度な問題を軽減するように設計されている。
8つの実世界のデータセットに関する広範な実験は、提案されたモデルの有効性を示す。 Collaborative Filtering (CF) based recommendation methods have been widely studied, which can be generally categorized into two types, i.e., representation learning-based CF methods and matching function learning-based CF methods. Representation learning tries to learn a common low dimensional space for the representations of users and items. In this case, a user and item match better if they have higher similarity in that common space. Matching function learning tries to directly learn the complex matching function that maps user-item pairs to matching scores. Although both methods are well developed, they suffer from two fundamental flaws, i.e., the representation learning resorts to applying a dot product which has limited expressiveness on the latent features of users and items, while the matching function learning has weakness in capturing low-rank relations. To overcome such flaws, we propose a novel recommendation model named Balanced Collaborative Filtering Network (BCFNet), which has the strengths of the two types of methods. In addition, an attention mechanism is designed to better capture the hidden information within implicit feedback and strengthen the learning ability of the neural network. Furthermore, a balance module is designed to alleviate the over-fitting issue in DNNs. Extensive experiments on eight real-world datasets demonstrate the effectiveness of the proposed model. | 翻訳日:2021-03-11 15:01:51 公開日:2021-03-10 |
# 差分プライバシーを用いた量子機械学習 Quantum machine learning with differential privacy ( http://arxiv.org/abs/2103.06232v1 ) ライセンス: Link先を確認 | William M Watkins, Samuel Yen-Chi Chen, Shinjae Yoo | (参考訳) 量子機械学習(QML)は、画像認識から自然音声処理まで、さまざまな分類タスクに学習モデルを使用する傾向を補完することができます。
量子的な利点は、古典的コンピュータ上での量子演算の難解性によって生じる。
機械学習で使用される多くのデータセットはクラウドソースまたはプライベート情報を含んでいる。
私たちの知る限りでは、現在のQMLモデルにはプライバシー保護機能が装備されていない。
したがって、プライバシ保護アルゴリズムはQMLで実装する必要がある。
1つの解決策は、機械学習アルゴリズムを個別にプライベートにすることで、トレーニングデータセットに対する単一のデータポイントの影響を最小限に抑えることである。
異なるプライベート機械学習モデルが調査されているが、QMLの文脈では差分プライバシーはまだ研究されていない。
本研究では,微分プライベート最適化アルゴリズムを用いて,プライバシの保護を訓練したハイブリッド量子古典モデルを開発した。
プライバシー保護QMLの実証実験はこれが初めてである。
実験により,QMLはモデル精度を低下させることなく,ユーザの感応情報を保護できることが実証された。
量子モデルは古典的なコンピュータ上でシミュレートされテストされるが、近未来の量子デバイス(ノイズのある中間スケール量子[NISQ])に効率的に実装される可能性を示す。
このアプローチの成功は、空間的に分類された2次元データセットとバイナリMNIST分類の分類によって示される。
このプライバシー保護QMLの実装は、NISQテクノロジの機密性と正確な学習を保証します。 Quantum machine learning (QML) can complement the growing trend of using learned models for a myriad of classification tasks, from image recognition to natural speech processing. A quantum advantage arises due to the intractability of quantum operations on a classical computer. Many datasets used in machine learning are crowd sourced or contain some private information. To the best of our knowledge, no current QML models are equipped with privacy-preserving features, which raises concerns as it is paramount that models do not expose sensitive information. Thus, privacy-preserving algorithms need to be implemented with QML. One solution is to make the machine learning algorithm differentially private, meaning the effect of a single data point on the training dataset is minimized. Differentially private machine learning models have been investigated, but differential privacy has yet to be studied in the context of QML. In this study, we develop a hybrid quantum-classical model that is trained to preserve privacy using differentially private optimization algorithm. This marks the first proof-of-principle demonstration of privacy-preserving QML. The experiments demonstrate that differentially private QML can protect user-sensitive information without diminishing model accuracy. Although the quantum model is simulated and tested on a classical computer, it demonstrates potential to be efficiently implemented on near-term quantum devices (noisy intermediate-scale quantum [NISQ]). The approach's success is illustrated via the classification of spatially classed two-dimensional datasets and a binary MNIST classification. This implementation of privacy-preserving QML will ensure confidentiality and accurate learning on NISQ technology. | 翻訳日:2021-03-11 15:01:30 公開日:2021-03-10 |
# リバースエクスペリエンスリプレイを用いたストリーミング線形システム同定 Streaming Linear System Identification with Reverse Experience Replay ( http://arxiv.org/abs/2103.05896v1 ) ライセンス: Link先を確認 | Prateek Jain, Suhas S Kowshik, Dheeraj Nagaraj, Praneeth Netrapalli | (参考訳) ストリームアルゴリズムによる1つの軌道から確率的線形時間不変量(lti)力学系を推定する問題を考える。
この問題は、時系列解析で遭遇するベクトル自己回帰(VAR)モデルのパラメータを推定することと同等である(Hamilton (2020))。
最近の論文(Faradonbeh et al., 2018; Simchowitz et al., 2018; Sarkar and Rakhlin, 2019)では、通常の最小正方形(OLS)回帰を使用して、問題の最適な有限時間推定値を提供することができる。
しかし、このような手法はolsの最適なソリューションが利用可能なオフライン設定に適用できる。
しかし、強化学習(RL)で遭遇する多くの問題において、勾配オラクルを用いて囲碁上のパラメータを推定することが重要である。
Gy\orfi and Walk, 1996, Nagaraj et al., 2020) の相関データ点から確率勾配を用いる場合, SGD のような標準的な手法ではうまく機能しないため, この課題は困難である。
本研究では、RL文学(Lin, 1992)で普及した経験再生(ER)技術にインスパイアされた新しいアルゴリズムであるSGD with Reverse Experience Replay(SGD-RER)を提案する。
SGD-RERはデータを小さなバッファに分割し、個々のバッファに格納されたデータに対してSGDを後方に実行する。
このアルゴリズムは依存構造を正確に分解し、標準問題設定におけるパラメータ誤差と予測誤差の両方について理論的に最適な保証を得る。
したがって、線形システム同定の古典的問題であるVARモデル推定に対して、私たちの知る限り、最適なSGDスタイルのアルゴリズムを初めて提供する。
我々の研究は、オンライン手法でサンプル間の依存関係を最適に分解できるアルゴリズムの設計に、依存関係構造に関する知識が役立つことを示す。 We consider the problem of estimating a stochastic linear time-invariant (LTI) dynamical system from a single trajectory via streaming algorithms. The problem is equivalent to estimating the parameters of vector auto-regressive (VAR) models encountered in time series analysis (Hamilton (2020)). A recent sequence of papers (Faradonbeh et al., 2018; Simchowitz et al., 2018; Sarkar and Rakhlin, 2019) show that ordinary least squares (OLS) regression can be used to provide optimal finite time estimator for the problem. However, such techniques apply for offline setting where the optimal solution of OLS is available apriori. But, in many problems of interest as encountered in reinforcement learning (RL), it is important to estimate the parameters on the go using gradient oracle. This task is challenging since standard methods like SGD might not perform well when using stochastic gradients from correlated data points (Gy\"orfi and Walk, 1996; Nagaraj et al., 2020). In this work, we propose a novel algorithm, SGD with Reverse Experience Replay (SGD-RER), that is inspired by the experience replay (ER) technique popular in the RL literature (Lin, 1992). SGD-RER divides data into small buffers and runs SGD backwards on the data stored in the individual buffers. We show that this algorithm exactly deconstructs the dependency structure and obtains information theoretically optimal guarantees for both parameter error and prediction error for standard problem settings. Thus, we provide the first - to the best of our knowledge - optimal SGD-style algorithm for the classical problem of linear system identification aka VAR model estimation. Our work demonstrates that knowledge of dependency structure can aid us in designing algorithms which can deconstruct the dependencies between samples optimally in an online fashion. | 翻訳日:2021-03-11 15:00:59 公開日:2021-03-10 |
# ヘテロジニアスデータからのパーソナライズされた治療効果推定のためのツリーベースフェデレーション学習手法 A Tree-based Federated Learning Approach for Personalized Treatment Effect Estimation from Heterogeneous Data Sources ( http://arxiv.org/abs/2103.06261v1 ) ライセンス: Link先を確認 | Xiaoqing Tan, Chung-Chou H. Chang, Lu Tang | (参考訳) フェデレーション学習は、データプライバシ保護のために分散ヘルスデータネットワークから機密データを分析するための魅力的なフレームワークである。
このフレームワークの下で、ローカルサイトのデータパートナーは、データの分散を保ちながら、コーディネートサイトのオーケストレーションの下で分析モデルを共同構築する。
しかし、既存のフェデレーション学習手法では、サイト間のデータは主に地球人口の均質なサンプルであると仮定しており、推定や推論においてサイト間の余分な変動を適切に説明できていない。
マルチホスピタル型電子健康記録ネットワーク上に描画し, サイト分割によるデータソースの不均一性を積極的にモデル化しながら, 医療現場全体での個人化治療効果推定装置の効率よく解釈可能なツリーベースアンサンブルを構築した。
本手法の効率性は, 酸素飽和が病院の死亡率に及ぼす影響を検討し, 総合的数値解析によって裏付けられた。 Federated learning is an appealing framework for analyzing sensitive data from distributed health data networks due to its protection of data privacy. Under this framework, data partners at local sites collaboratively build an analytical model under the orchestration of a coordinating site, while keeping the data decentralized. However, existing federated learning methods mainly assume data across sites are homogeneous samples of the global population, hence failing to properly account for the extra variability across sites in estimation and inference. Drawing on a multi-hospital electronic health records network, we develop an efficient and interpretable tree-based ensemble of personalized treatment effect estimators to join results across hospital sites, while actively modeling for the heterogeneity in data sources through site partitioning. The efficiency of our method is demonstrated by a study of causal effects of oxygen saturation on hospital mortality and backed up by comprehensive numerical results. | 翻訳日:2021-03-11 15:00:28 公開日:2021-03-10 |
# コンピュータ診断のための深層学習と医用画像の特徴と臨床特徴の融合 Fusing Medical Image Features and Clinical Features with Deep Learning for Computer-Aided Diagnosis ( http://arxiv.org/abs/2103.05855v1 ) ライセンス: Link先を確認 | Songxiao Yang, Xiabi Liu, Zhongshu Zheng, Wei Wang, Xiaohong Ma | (参考訳) 現在のコンピュータ支援診断(CAD)方法は、主に医療画像に依存します。
実用的な臨床診断で考慮する必要がある臨床情報は、CADに完全に採用されていません。
本稿では,mri(mri)/ct画像と診断のための臨床情報を融合した深層学習に基づく新しい手法を提案する。
画像の特徴と臨床特徴を抽出する2つの神経層の経路が実行され、同時に、画像特徴の抽出を導くための注意として臨床特徴が使用される。
最後に、これらの2つの特徴は決定を下すために結合される。
本研究では,アルツハイマー病診断,軽度認知障害コンバータ予測,肝微小血管浸潤診断への応用について検討した。
本研究は, 臨床特徴によって導かれる画像特徴抽出値と, 診断性能を効果的かつ安定的に向上させる2種類の分類特徴の連結性を実証するものである。 Current Computer-Aided Diagnosis (CAD) methods mainly depend on medical images. The clinical information, which usually needs to be considered in practical clinical diagnosis, has not been fully employed in CAD. In this paper, we propose a novel deep learning-based method for fusing Magnetic Resonance Imaging (MRI)/Computed Tomography (CT) images and clinical information for diagnostic tasks. Two paths of neural layers are performed to extract image features and clinical features, respectively, and at the same time clinical features are employed as the attention to guide the extraction of image features. Finally, these two modalities of features are concatenated to make decisions. We evaluate the proposed method on its applications to Alzheimer's disease diagnosis, mild cognitive impairment converter prediction and hepatic microvascular invasion diagnosis. The encouraging experimental results prove the values of the image feature extraction guided by clinical features and the concatenation of two modalities of features for classification, which improve the performance of diagnosis effectively and stably. | 翻訳日:2021-03-11 14:59:50 公開日:2021-03-10 |
# VideoMoCo: 時間的対比の例を用いた対比ビデオ表現学習 VideoMoCo: Contrastive Video Representation Learning with Temporally Adversarial Examples ( http://arxiv.org/abs/2103.05905v1 ) ライセンス: Link先を確認 | Tian Pan, Yibing Song, Tianyu Yang, Wenhao Jiang, and Wei Liu | (参考訳) MoCoは教師なし画像表現学習に有効である。
本稿では,教師なし映像表現学習のためのVideoMoCoを提案する。
ビデオシーケンスを入力サンプルとして、MoCoの時系列特徴表現を2つの視点から改善します。
まず、このサンプルから時間的に複数のフレームをドロップアウトするジェネレータを導入する。
識別器は、フレーム削除に関係なく、類似した特徴表現を符号化する。
敵学習のトレーニングイテレーション中に異なるフレームを適応的に削除することで、この入力サンプルを拡張して時間的にロバストなエンコーダをトレーニングする。
第二に、コントラスト損失を計算する際に、時間減衰を用いてメモリキューのキー減衰をモデル化する。
キーエンキュー後にモーメントエンコーダが更新されると、コントラスト学習に現在の入力サンプルを使用すると、キーの表現能力が低下する。
この劣化は時間減衰によって反映され、入力サンプルに待ち行列の最近のキーに出席する。
その結果、経験的にプリテキストタスクを設計することなく、MoCoをビデオ表現の学習に適応します。
エンコーダの時間的ロバスト性を強化し,鍵の時間的減衰をモデル化することにより,ビデオモコはコントラスト学習に基づく時間的改善を行う。
UCF101およびHMDB51を含むベンチマークデータセットの実験は、VideoMoCoが最先端のビデオ表現学習方法として立っていることを示しています。 MoCo is effective for unsupervised image representation learning. In this paper, we propose VideoMoCo for unsupervised video representation learning. Given a video sequence as an input sample, we improve the temporal feature representations of MoCo from two perspectives. First, we introduce a generator to drop out several frames from this sample temporally. The discriminator is then learned to encode similar feature representations regardless of frame removals. By adaptively dropping out different frames during training iterations of adversarial learning, we augment this input sample to train a temporally robust encoder. Second, we use temporal decay to model key attenuation in the memory queue when computing the contrastive loss. As the momentum encoder updates after keys enqueue, the representation ability of these keys degrades when we use the current input sample for contrastive learning. This degradation is reflected via temporal decay to attend the input sample to recent keys in the queue. As a result, we adapt MoCo to learn video representations without empirically designing pretext tasks. By empowering the temporal robustness of the encoder and modeling the temporal decay of the keys, our VideoMoCo improves MoCo temporally based on contrastive learning. Experiments on benchmark datasets including UCF101 and HMDB51 show that VideoMoCo stands as a state-of-the-art video representation learning method. | 翻訳日:2021-03-11 14:59:32 公開日:2021-03-10 |
# Tree-LSTM Aspect Sentiment Triplet Extraction (TASTE) の組成依存性について教えてください。 Tell Me Why You Feel That Way: Processing Compositional Dependency for Tree-LSTM Aspect Sentiment Triplet Extraction (TASTE) ( http://arxiv.org/abs/2103.05815v1 ) ライセンス: Link先を確認 | A. Sutherland, S. Bensch, T. Hellstr\"om, S. Magg, S.Wermter | (参考訳) 感情分析は、文全体の感情の分類から、文に存在するターゲット、個々のターゲットが持っている感情、その感情の原因となる因果語が何であるかのコンテキスト情報の提供へと移行しました。
しかし、これは、エンティティ、その感情、およびその感情のための因果的言葉を決定する共同三重項タスクでニューラルネットワークを訓練するために必要なデータセットに、精巧な要件が配置されています。
主観的なアノテーションの積み重ねやドメイン・オーバーフィッティングに悩まされ、新しいコンテキストで適用するとモデル一般化が悪くなるため、この種のデータをトレーニングシステムに必要なのは問題になります。
これらの問題は、将来的に追加のコンテキスト要素を共同で決定しようとすると複雑になる可能性もあります。
これらの問題を緩和するために,三重項学習データを必要としない文から,係り受け木-LSTMの合成感情解析構造と相補的記号規則を用いたハイブリッドニューラルシンボリック手法を提案する。
本手法は,必要なデータを単純化し,Tree-LSTMを通して解釈しやすさを提供するとともに,最先端の手法に則して実行可能であることを示す。 Sentiment analysis has transitioned from classifying the sentiment of an entire sentence to providing the contextual information of what targets exist in a sentence, what sentiment the individual targets have, and what the causal words responsible for that sentiment are. However, this has led to elaborate requirements being placed on the datasets needed to train neural networks on the joint triplet task of determining an entity, its sentiment, and the causal words for that sentiment. Requiring this kind of data for training systems is problematic, as they suffer from stacking subjective annotations and domain over-fitting leading to poor model generalisation when applied in new contexts. These problems are also likely to be compounded as we attempt to jointly determine additional contextual elements in the future. To mitigate these problems, we present a hybrid neural-symbolic method utilising a Dependency Tree-LSTM's compositional sentiment parse structure and complementary symbolic rules to correctly extract target-sentiment-cause triplets from sentences without the need for triplet training data. We show that this method has the potential to perform in line with state-of-the-art approaches while also simplifying the data required and providing a degree of interpretability through the Tree-LSTM. | 翻訳日:2021-03-11 14:58:50 公開日:2021-03-10 |
# 音声言語理解のための結果ベースのポータブルフレームワーク A Result based Portable Framework for Spoken Language Understanding ( http://arxiv.org/abs/2103.06010v1 ) ライセンス: Link先を確認 | Lizhi Cheng, Weijia Jia, Wenmian Yang | (参考訳) タスク指向対話システムの中核的構成要素である音声言語理解(slu)は、シングルターン対話の研究において大きな進歩を遂げている。
しかし、既存のマルチターンSLU法は移植性が低く、他のシングルターンSLUモデルと互換性があるという意味では、マルチターン対話の性能は未だに満足できない。
さらに、既存のマルチターンSLU法は、現在の発話を予測する際に過去の予測結果を利用せず、有用な情報を無駄にします。
本稿では,これらの欠点を解消するために,RPFSLU (Result-based Portable Framework for SLU) を提案する。
RPFSLUは、ほとんどの既存のシングルターンSLUモデルがマルチターン対話からコンテキスト情報を取得し、現在の予測中の対話履歴における予測結果を最大限に活用します。
公開データセットKVRETの実験結果は、ベースライン内のすべてのSLUモデルがマルチターンSLUタスクでRPFSLUによって強化されることを示した。 Spoken language understanding (SLU), which is a core component of the task-oriented dialogue system, has made substantial progress in the research of single-turn dialogue. However, the performance in multi-turn dialogue is still not satisfactory in the sense that the existing multi-turn SLU methods have low portability and compatibility for other single-turn SLU models. Further, existing multi-turn SLU methods do not exploit the historical predicted results when predicting the current utterance, which wastes helpful information. To gap those shortcomings, in this paper, we propose a novel Result-based Portable Framework for SLU (RPFSLU). RPFSLU allows most existing single-turn SLU models to obtain the contextual information from multi-turn dialogues and takes full advantage of predicted results in the dialogue history during the current prediction. Experimental results on the public dataset KVRET have shown that all SLU models in baselines acquire enhancement by RPFSLU on multi-turn SLU tasks. | 翻訳日:2021-03-11 14:58:27 公開日:2021-03-10 |
# バイオメディカルテキストによる因果関係の知識に基づく抽出 Knowledge-based Extraction of Cause-Effect Relations from Biomedical Text ( http://arxiv.org/abs/2103.06078v1 ) ライセンス: Link先を確認 | Sachin Pawar, Ravina More, Girish K. Palshikar, Pushpak Bhattacharyya, Vasudeva Varma | (参考訳) バイオメディカルテキストから因果関係(CE)を抽出するための知識に基づくアプローチを提案する。
提案手法は,因果トリガを発見するための教師なし機械学習手法と,これらの因果トリガの原因/効果引数を識別するための高精度言語規則の組み合わせを組み合わせたものである。
568,528文からなる58,761個の白血病関連PubMed抽象語を用いたアプローチの評価を行った。
このコーパスから152,655ceのトリプレットを抽出でき、それぞれのトリプレットが原因フレーズ、効果フレーズ、因果トリガーで構成されている。
既存の知識ベースであるSemMedDB (Kilicoglu et al., 2012)と比較して、抽出数はおよそ2倍である。
さらに提案手法は500文のデータセット上で既存のSemRep(Rindflesch and Fiszman, 2003)よりも優れていた。 We propose a knowledge-based approach for extraction of Cause-Effect (CE) relations from biomedical text. Our approach is a combination of an unsupervised machine learning technique to discover causal triggers and a set of high-precision linguistic rules to identify cause/effect arguments of these causal triggers. We evaluate our approach using a corpus of 58,761 Leukaemia-related PubMed abstracts consisting of 568,528 sentences. We could extract 152,655 CE triplets from this corpus where each triplet consists of a cause phrase, an effect phrase and a causal trigger. As compared to the existing knowledge base - SemMedDB (Kilicoglu et al., 2012), the number of extractions are almost twice. Moreover, the proposed approach outperformed the existing technique SemRep (Rindflesch and Fiszman, 2003) on a dataset of 500 sentences. | 翻訳日:2021-03-11 14:58:10 公開日:2021-03-10 |
# エンティティとリレーションを共同で抽出するテクニック:調査 Techniques for Jointly Extracting Entities and Relations: A Survey ( http://arxiv.org/abs/2103.06118v1 ) ライセンス: Link先を確認 | Sachin Pawar, Pushpak Bhattacharyya, Girish K. Palshikar | (参考訳) 関係抽出は情報抽出において重要なタスクであり、エンティティ参照間の意味関係の識別を扱う。
伝統的に、関係抽出は「パイプライン」の方法でエンティティ抽出後に行われるので、関係抽出は、抽出されたエンティティの対の間に意味的関係が存在するかどうかを決定することだけに焦点を当てる。
これにより、エンティティ抽出段階から関係抽出段階へエラーが伝播する。
また、実体抽出は関係についての知識なしに行われます。
したがって, エンティティと関係抽出を共同で行うことは, 両者にとって有益であることがわかった。
本稿では,エンティティと関係を共同で抽出する様々な手法について検討する。
我々は,共同抽出に採用する手法,すなわち関節抽出の手法を分類する。
共同推論や共同モデリング、あるいは両方を採用するかどうか。
さらに,ジョイント推論とジョイントモデリングの代表的な手法について述べる。
また,これらのデータセットに対する統合抽出手法の評価手法と性能について述べる。
本稿では,一般領域共同抽出手法のバイオメディカルデータセットへの応用について簡単な解析を行った。
本調査は, 共同抽出手法の広い視野をカバーすることで, 情報抽出分野の研究者や実践者にとって有用である。 Relation Extraction is an important task in Information Extraction which deals with identifying semantic relations between entity mentions. Traditionally, relation extraction is carried out after entity extraction in a "pipeline" fashion, so that relation extraction only focuses on determining whether any semantic relation exists between a pair of extracted entity mentions. This leads to propagation of errors from entity extraction stage to relation extraction stage. Also, entity extraction is carried out without any knowledge about the relations. Hence, it was observed that jointly performing entity and relation extraction is beneficial for both the tasks. In this paper, we survey various techniques for jointly extracting entities and relations. We categorize techniques based on the approach they adopt for joint extraction, i.e. whether they employ joint inference or joint modelling or both. We further describe some representative techniques for joint inference and joint modelling. We also describe two standard datasets, evaluation techniques and performance of the joint extraction approaches on these datasets. We present a brief analysis of application of a general domain joint extraction approach to a Biomedical dataset. This survey is useful for researchers as well as practitioners in the field of Information Extraction, by covering a broad landscape of joint extraction techniques. | 翻訳日:2021-03-11 14:57:54 公開日:2021-03-10 |
# 複素スケジューリング問題に対する2段階フレームワークと強化学習に基づく最適化アルゴリズム A Two-stage Framework and Reinforcement Learning-based Optimization Algorithms for Complex Scheduling Problems ( http://arxiv.org/abs/2103.05847v1 ) ライセンス: Link先を確認 | Yongming He, Guohua Wu, Yingwu Chen and Witold Pedrycz | (参考訳) 多様性と複雑性のため、スケジューリングに効率的である一般的な解法はほとんど存在しない。
本研究では、強化学習(RL)と従来の運用研究(OR)のアルゴリズムを組み合わせ、複雑なスケジューリング問題に効率的に対処する2段階のフレームワークを開発する。
スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。
MDPはRLメソッドを通じて元の問題の検索空間を狭くし、混合整数プログラミングプロセスはORアルゴリズムによって解決される。
これら2つの段階は、終了基準が満たされるまで反復的にインタラクティブに行われる。
この考えの下では、RLとORの組み合わせ方法の2つの実装バージョンが提案される。
アジャイル地球観測衛星スケジューリング問題は、提案されたスケジューリングフレームワークと方法の有効性を示す例として選択される。
手法の収束と一般化能力は訓練シナリオの性能によって検証され、効率と精度は50の未訓練シナリオで検証される。
その結果,提案手法は,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
さらに、RLに基づく最適化アルゴリズムは、非学習アルゴリズムよりもスケーラビリティが強いことが分かる。
本研究は,強化学習法とヒューリスティック法,数理計画法を組み合わせた複合組合せ最適化問題を解く利点を明らかにした。 There hardly exists a general solver that is efficient for scheduling problems due to their diversity and complexity. In this study, we develop a two-stage framework, in which reinforcement learning (RL) and traditional operations research (OR) algorithms are combined together to efficiently deal with complex scheduling problems. The scheduling problem is solved in two stages, including a finite Markov decision process (MDP) and a mixed-integer programming process, respectively. This offers a novel and general paradigm that combines RL with OR approaches to solving scheduling problems, which leverages the respective strengths of RL and OR: The MDP narrows down the search space of the original problem through an RL method, while the mixed-integer programming process is settled by an OR algorithm. These two stages are performed iteratively and interactively until the termination criterion has been met. Under this idea, two implementation versions of the combination methods of RL and OR are put forward. The agile Earth observation satellite scheduling problem is selected as an example to demonstrate the effectiveness of the proposed scheduling framework and methods. The convergence and generalization capability of the methods are verified by the performance of training scenarios, while the efficiency and accuracy are tested in 50 untrained scenarios. The results show that the proposed algorithms could stably and efficiently obtain satisfactory scheduling schemes for agile Earth observation satellite scheduling problems. In addition, it can be found that RL-based optimization algorithms have stronger scalability than non-learning algorithms. This work reveals the advantage of combining reinforcement learning methods with heuristic methods or mathematical programming methods for solving complex combinatorial optimization problems. | 翻訳日:2021-03-11 14:57:39 公開日:2021-03-10 |
# Manifold Regularized Dynamic Network Pruning Manifold Regularized Dynamic Network Pruning ( http://arxiv.org/abs/2103.05861v1 ) ライセンス: Link先を確認 | Yehui Tang, Yunhe Wang, Yixing Xu, Yiping Deng, Chao Xu, Dacheng Tao, Chang Xu | (参考訳) ニューラルネットワークプルーニングは、深層モデルの計算の複雑さを低減し、リソース制限のあるデバイスに適切にデプロイするために不可欠なアプローチです。
従来の方法と比較して,最近開発された動的プルーニング法は,各入力インスタンスに対する冗長フィルタの変種を判定し,高い高速化を実現する。
既存の手法の多くは、各インスタンスの有効なサブネットワークを独立して発見し、異なる入力間の関係を利用しない。
与えられたネットワークアーキテクチャにおける冗長性を最大限に掘り下げるために,全てのインスタンスの多様体情報をプルーンネットワーク(manidp)の空間に埋め込むことで冗長フィルタを動的に除去する新しいパラダイムを提案する。
まず,学習セット内の画像間の認識複雑性と特徴類似性について検討する。
その後、インスタンスとprunedサブネットワーク間のマニホールド関係は、トレーニング手順に整列されます。
提案手法の有効性をいくつかのベンチマークで検証し,最先端手法と比較して精度と計算コストの両面で優れた性能を示した。
例えば、ResNet-34 の 55.3% FLOP を、ImageNet の 0.57% トップ-1 の精度劣化で削減できます。 Neural network pruning is an essential approach for reducing the computational complexity of deep models so that they can be well deployed on resource-limited devices. Compared with conventional methods, the recently developed dynamic pruning methods determine redundant filters variant to each input instance which achieves higher acceleration. Most of the existing methods discover effective sub-networks for each instance independently and do not utilize the relationship between different inputs. To maximally excavate redundancy in the given network architecture, this paper proposes a new paradigm that dynamically removes redundant filters by embedding the manifold information of all instances into the space of pruned networks (dubbed as ManiDP). We first investigate the recognition complexity and feature similarity between images in the training set. Then, the manifold relationship between instances and the pruned sub-networks will be aligned in the training procedure. The effectiveness of the proposed method is verified on several benchmarks, which shows better performance in terms of both accuracy and computational cost compared to the state-of-the-art methods. For example, our method can reduce 55.3% FLOPs of ResNet-34 with only 0.57% top-1 accuracy degradation on ImageNet. | 翻訳日:2021-03-11 14:56:00 公開日:2021-03-10 |
# 軌跡マッピングを用いたマグロの栄養管理と養殖魚槽への応用 Tuna Nutriment Tracking using Trajectory Mapping in Application to Aquaculture Fish Tank ( http://arxiv.org/abs/2103.05886v1 ) ライセンス: Link先を確認 | Hilmil Pradana and Keiichi Horio | (参考訳) 魚の供給のコストは、通常、総生産コストの約40%です。
タンク内の魚の状態を推定し、栄養素の量を調整することは、魚の給餌システムのコスト管理に重要な役割を担っている。
本手法は,養殖魚養殖場から採取したビデオの栄養状態の追跡に基づく。
追跡アプローチは、魚の行動についてより理解するために栄養の移動を認識するために適用されます。
近年,物体のより正確かつ高速な判定を行うトラッキングアルゴリズムの開発に注目する研究者が増えている。
残念なことに、最近の研究では、複雑な関係を持つ複数の物体の効率的で堅牢な追跡は未解決のままである。
したがって、水産養殖における追跡アルゴリズムの開発に注力することは、追跡対象には多くの水生生物が存在するため、より困難である。
上記の問題に追従することにより,実環境データセットにおいて一貫して機能する古典的最小コスト問題に基づくマグロ栄養トラッキングを開発する。
提案手法は平均誤差距離と標準偏差に対して21.32ピクセルと3.8ピクセルを達成した。
ヒトの注釈者によるデータに基づく定量的評価により,本手法は養殖魚の養殖に有用であり,実環境データセットにも広く適用可能であることが示された。 The cost of fish feeding is usually around 40 percent of total production cost. Estimating a state of fishes in a tank and adjusting an amount of nutriments play an important role to manage cost of fish feeding system. Our approach is based on tracking nutriments on videos collected from an active aquaculture fish farm. Tracking approach is applied to acknowledge movement of nutriment to understand more about the fish behavior. Recently, there has been increasing number of researchers focused on developing tracking algorithms to generate more accurate and faster determination of object. Unfortunately, recent studies have shown that efficient and robust tracking of multiple objects with complex relations remain unsolved. Hence, focusing to develop tracking algorithm in aquaculture is more challenging because tracked object has a lot of aquatic variant creatures. By following aforementioned problem, we develop tuna nutriment tracking based on the classical minimum cost problem which consistently performs well in real environment datasets. In evaluation, the proposed method achieved 21.32 pixels and 3.08 pixels for average error distance and standard deviation, respectively. Quantitative evaluation based on the data generated by human annotators shows that the proposed method is valuable for aquaculture fish farm and can be widely applied to real environment datasets. | 翻訳日:2021-03-11 14:55:43 公開日:2021-03-10 |
# 低レベルビジョンタスクに対するCOPY-BLEND Augmentationの評価 Evaluating COPY-BLEND Augmentation for Low Level Vision Tasks ( http://arxiv.org/abs/2103.05889v1 ) ライセンス: Link先を確認 | Pranjay Shyam, Sandeep Singh Sengar, Kuk-Jin Yoon, Kyung-Soo Kim | (参考訳) 領域修正に基づくデータ拡張技術により、高レベルの視覚タスク(オブジェクト検出、セマンティックセグメンテーション、画像分類など)の性能向上が示されている。
基盤となるアルゴリズムに、複数の識別機能に焦点を当てるように促す。
しかし、これらの技術は近隣地域との空間的関係を損なうため、低レベルの視覚タスク用に設計されたアルゴリズム(低照度画像強調、画像のデハージング、デブロアリングなど)を訓練する際に性能を低下させることができる。
回復した地域とその周辺地域のテキストの整合性は 効果的な性能を確保するために重要です
本論文では、ノイズの多い画像からパッチをコピーし、クリーンな画像にブレンドする単純なコピーブレンドデータ拡張技術の有効性を検討し、基礎となるアルゴリズムが影響を受けた領域をローカライズし、復元された画像の知覚的品質を高めることを保証する。
性能改善を評価するために,異なる領域修正に基づく拡張手法とともに広範囲な実験を行い,性能改善,データセットのトレーニング要件の削減,低光度画像強調,画像デハジング,画像デブラリングなどのタスク間の早期収束など,ベースラインアルゴリズムの変更を伴わずに報告を行う。 Region modification-based data augmentation techniques have shown to improve performance for high level vision tasks (object detection, semantic segmentation, image classification, etc.) by encouraging underlying algorithms to focus on multiple discriminative features. However, as these techniques destroy spatial relationship with neighboring regions, performance can be deteriorated when using them to train algorithms designed for low level vision tasks (low light image enhancement, image dehazing, deblurring, etc.) where textural consistency between recovered and its neighboring regions is important to ensure effective performance. In this paper, we examine the efficacy of a simple copy-blend data augmentation technique that copies patches from noisy images and blends onto a clean image and vice versa to ensure that an underlying algorithm localizes and recovers affected regions resulting in increased perceptual quality of a recovered image. To assess performance improvement, we perform extensive experiments alongside different region modification-based augmentation techniques and report observations such as improved performance, reduced requirement for training dataset, and early convergence across tasks such as low light image enhancement, image dehazing and image deblurring without any modification to baseline algorithm. | 翻訳日:2021-03-11 14:55:22 公開日:2021-03-10 |
# ES-Net:再識別でもっと学ぶための好意的な部分 ES-Net: Erasing Salient Parts to Learn More in Re-Identification ( http://arxiv.org/abs/2103.05918v1 ) ライセンス: Link先を確認 | Dong Shen, Shuai Zhao, Jinming Hu, Hao Feng, Deng Cai, Xiaofei He | (参考訳) インスタンスレベルの認識問題として、再識別(re-ID)には多様な機能をキャプチャするモデルが必要である。
しかし、継続的なトレーニングでは、再IDモデルは、過度の領域にますます注意を払っています。
結果として、モデルは少数の小さな領域のみにのみ注目し、他の重要な情報を無視することができる。
この現象は、特に小さな個体間変動データでモデルを評価する場合、性能を低下させる。
本論文では, 画像中のサラエント領域を消去し, 包括的な特徴を学習するためのネットワークであるES-Netを提案する。
ES-Netは、オブジェクトの信頼度を基準とし、トレーニングバッチ内で効率よくそれらを消去する新しい手法を提案する。
一方, オーバーラッシング問題を緩和するために, グローバルマックスとグローバル平均プールを一般化するトレーニング可能なプール層Pプーリングを用いる。
実験は2つの特定の再識別タスク(Person re-ID, Vehicle re-ID)で行われる。
ES-Netは3つのPerson re-IDベンチマークと2つのVine re-IDベンチマークで最先端の手法より優れています。
具体的には、mAP / Rank-1レート:Market1501の88.6% / 95.7%、DuckMTMC-reIDの78.8% / 89.2%、MSMT17の57.3% / 80.9%、Veri-776の81.9% / 97.0%。
ランク1/ランク5: 83.6% / 96.9% on VehicleID (Small)、79.9% / 93.5% on VehicleID (Medium)、76.9% / 90.7% on VehicleID (Large)。
さらに,視認されたサルエント領域は,ランキング結果に対する人間解釈可能な視覚的な説明を示す。 As an instance-level recognition problem, re-identification (re-ID) requires models to capture diverse features. However, with continuous training, re-ID models pay more and more attention to the salient areas. As a result, the model may only focus on few small regions with salient representations and ignore other important information. This phenomenon leads to inferior performance, especially when models are evaluated on small inter-identity variation data. In this paper, we propose a novel network, Erasing-Salient Net (ES-Net), to learn comprehensive features by erasing the salient areas in an image. ES-Net proposes a novel method to locate the salient areas by the confidence of objects and erases them efficiently in a training batch. Meanwhile, to mitigate the over-erasing problem, this paper uses a trainable pooling layer P-pooling that generalizes global max and global average pooling. Experiments are conducted on two specific re-identification tasks (i.e., Person re-ID, Vehicle re-ID). Our ES-Net outperforms state-of-the-art methods on three Person re-ID benchmarks and two Vehicle re-ID benchmarks. Specifically, mAP / Rank-1 rate: 88.6% / 95.7% on Market1501, 78.8% / 89.2% on DuckMTMC-reID, 57.3% / 80.9% on MSMT17, 81.9% / 97.0% on Veri-776, respectively. Rank-1 / Rank-5 rate: 83.6% / 96.9% on VehicleID (Small), 79.9% / 93.5% on VehicleID (Medium), 76.9% / 90.7% on VehicleID (Large), respectively. Moreover, the visualized salient areas show human-interpretable visual explanations for the ranking results. | 翻訳日:2021-03-11 14:54:59 公開日:2021-03-10 |
# MapFusion: HDMapによる3Dオブジェクト検出のための汎用フレームワーク MapFusion: A General Framework for 3D Object Detection with HDMaps ( http://arxiv.org/abs/2103.05929v1 ) ライセンス: Link先を確認 | Jin Fang, Dingfu Zhou, Xibin Song, Liangjun Zhang | (参考訳) 3Dオブジェクト検出は、自動運転における重要な認識コンポーネントです。
最近のアプローチは、Lidarセンサーのみに基づいており、カメラで融合している。
しかし、インテリジェントな車両の基本的なインフラであるマップ(High Definition Mapsなど)は、物体検出タスクの強化にあまり使われていない。
本稿では,地図情報を現代の3Dオブジェクト検出器パイプラインに統合する簡易かつ効果的なフレームワークであるMapFusionを提案する。
特に,hdマップの特徴抽出と融合のためのfeatureaggモジュールと,検出バックボーンのための補助セグメンテーションヘッドとしてmapegモジュールを設計した。
提案するmapfusionは検出器独立であり,様々な検出器に容易に統合できる。
大規模な公道走行データセットに対する3つの異なるベースラインの実験結果は、提案フレームワークの優位性を示している。
マップ情報を融合することにより、3つの強力な3dオブジェクト検出ベースラインで平均精度(map)が1.27ポイントから2.79ポイント向上する。 3D object detection is a key perception component in autonomous driving. Most recent approaches are based on Lidar sensors only or fused with cameras. Maps (e.g., High Definition Maps), a basic infrastructure for intelligent vehicles, however, have not been well exploited for boosting object detection tasks. In this paper, we propose a simple but effective framework - MapFusion to integrate the map information into modern 3D object detector pipelines. In particular, we design a FeatureAgg module for HD Map feature extraction and fusion, and a MapSeg module as an auxiliary segmentation head for the detection backbone. Our proposed MapFusion is detector independent and can be easily integrated into different detectors. The experimental results of three different baselines on large public autonomous driving dataset demonstrate the superiority of the proposed framework. By fusing the map information, we can achieve 1.27 to 2.79 points improvements for mean Average Precision (mAP) on three strong 3d object detection baselines. | 翻訳日:2021-03-11 14:54:27 公開日:2021-03-10 |
# AttaNet: 高速かつ正確なシーン解析のための注意強化ネットワーク AttaNet: Attention-Augmented Network for Fast and Accurate Scene Parsing ( http://arxiv.org/abs/2103.05930v1 ) ライセンス: Link先を確認 | Qi Song and Kangfu Mei and Rui Huang | (参考訳) セマンティックセグメンテーションモデルのパフォーマンスには、グローバルコンテキストとマルチレベルセマンティクスという2つの要素が非常に重要です。
しかし、両方の要素をキャプチャする特徴を生成することは、常に高い計算複雑性をもたらすため、リアルタイムシナリオでは問題となる。
本稿では,AttaNet(Attention-Augmented Network)と呼ばれる新しいモデルを提案し,効率を高く保ちながら,グローバルコンテキストとマルチレベルセマンティクスの両方をキャプチャする。
AttaNetは、Strip Attention Module (SAM) と Attention Fusion Module (AFM) の2つの主要なモジュールで構成されている。
分割精度の低い挑戦画像では、水平領域よりも垂直領域の方がはるかに多く、SAMはストリップ操作を用いて、非局所的なアプローチに比べて、文脈情報のほとんどを保持しながら、垂直方向にグローバルコンテキストを符号化する複雑さを劇的に低減する。
さらに、AFMは計算を制限するためのクロスレベルアグリゲーション戦略に従い、各画素の異なるレベルの機能の重要性を重み付けるための注意戦略を採用し、効率的なマルチレベル表現を得ます。
2つのセマンティクスセグメンテーションベンチマークについて広範な実験を行い,71fps/79.9%miou,130fps/78.5%miou,180fps/70.1%miouなど,都市景観における速度/精度トレードオフの異なるレベルを達成し,ade20kにおけるパフォーマンスも向上した。 Two factors have proven to be very important to the performance of semantic segmentation models: global context and multi-level semantics. However, generating features that capture both factors always leads to high computational complexity, which is problematic in real-time scenarios. In this paper, we propose a new model, called Attention-Augmented Network (AttaNet), to capture both global context and multilevel semantics while keeping the efficiency high. AttaNet consists of two primary modules: Strip Attention Module (SAM) and Attention Fusion Module (AFM). Viewing that in challenging images with low segmentation accuracy, there are a significantly larger amount of vertical strip areas than horizontal ones, SAM utilizes a striping operation to reduce the complexity of encoding global context in the vertical direction drastically while keeping most of contextual information, compared to the non-local approaches. Moreover, AFM follows a cross-level aggregation strategy to limit the computation, and adopts an attention strategy to weight the importance of different levels of features at each pixel when fusing them, obtaining an efficient multi-level representation. We have conducted extensive experiments on two semantic segmentation benchmarks, and our network achieves different levels of speed/accuracy trade-offs on Cityscapes, e.g., 71 FPS/79.9% mIoU, 130 FPS/78.5% mIoU, and 180 FPS/70.1% mIoU, and leading performance on ADE20K as well. | 翻訳日:2021-03-11 14:54:13 公開日:2021-03-10 |
# イベントベース視覚オドメトリーの時空間登録 Spatiotemporal Registration for Event-based Visual Odometry ( http://arxiv.org/abs/2103.05955v1 ) ライセンス: Link先を確認 | Daqi Liu Alvaro Parra and Tat-Jun Chin | (参考訳) イベントセンシングの有用な応用は、特に高時間分解能を必要とする設定において視覚計測である。
コントラスト最大化の最先端手法は、歪んだイベントの画像のコントラストを最大化することにより、一連のイベントから動きを回復する。
しかし、画像解像度と時間分解能のコストスケールは、コントラスト画像に十分な構造を与えるために大きなバッチサイズを必要とするため、制限することができる。
本研究では,イベントベース回転運動推定手法として時空間登録を提案する。
私たちは理論的にアプローチを正当化し、コントラスト最大化よりも基本的で実用的な利点を確立します。
特に、時空間登録は副産物として特徴トラックも生成し、グラフベースの平均運動の最適化により、効率的な視覚オドメトリーパイプラインを直接サポートします。
当社のビジュアルドオドメトリーパイプラインのシンプルさにより、毎秒1M以上のイベントを処理できます。
また,高精度ロボットアームを用いて,速度変動が大きい動き列を取得するビジュアルオドメトリーのための新しいイベントデータセットも提供した。 A useful application of event sensing is visual odometry, especially in settings that require high-temporal resolution. The state-of-the-art method of contrast maximisation recovers the motion from a batch of events by maximising the contrast of the image of warped events. However, the cost scales with image resolution and the temporal resolution can be limited by the need for large batch sizes to yield sufficient structure in the contrast image. In this work, we propose spatiotemporal registration as a compelling technique for event-based rotational motion estimation. We theoretcally justify the approach and establish its fundamental and practical advantages over contrast maximisation. In particular, spatiotemporal registration also produces feature tracks as a by-product, which directly supports an efficient visual odometry pipeline with graph-based optimisation for motion averaging. The simplicity of our visual odometry pipeline allows it to process more than 1 M events/second. We also contribute a new event dataset for visual odometry, where motion sequences with large velocity variations were acquired using a high-precision robot arm. | 翻訳日:2021-03-11 14:53:40 公開日:2021-03-10 |
# 自己スーパービジョンを超えて:バックボーンを改善するためのシンプルで効果的なネットワーク蒸留方法 Beyond Self-Supervision: A Simple Yet Effective Network Distillation Alternative to Improve Backbones ( http://arxiv.org/abs/2103.05959v1 ) ライセンス: Link先を確認 | Cheng Cui and Ruoyu Guo and Yuning Du and Dongliang He and Fu Li and Zewu Wu and Qiwen Liu and Shilei Wen and Jizhou Huang and Xiaoguang Hu and Dianhai Yu and Errui Ding and Yanjun Ma | (参考訳) 近年,事前学習モデルがニューラルネットワークの性能にどのように影響するかを明らかにする研究が進められている。
自己スーパービジョンと半教師付き学習技術はコミュニティによって広く研究されており、強力な事前学習モデルを得る上で大きな可能性を秘めている。
しかし、これらのモデルは膨大なトレーニングコスト(何億ものイメージやトレーニングイテレーション)を必要とします。
本論文では,既設の大規模モデルから知識蒸留を行い,既存のベースラインネットワークを改善することを提案する。
教師モデルが生成するソフトラベルと人による注釈付きハードラベルの両方に整合性を持たなければならない既存の知識蒸留フレームワークとは異なり,本ソリューションは,教師モデルと整合性のある生徒モデルの予測のみを駆動することによって蒸留を行う。
それゆえ、我々の蒸留設定は手作業でラベル付けされたデータを取り除き、教師モデルの能力を最大限活用するために追加のラベル付きデータで訓練することができる。
例えば、MobileNetV3-largeとResNet50-DのImageNet-1k検証セットのtop-1精度は、それぞれ75.2%から79%、79.1%から83%に大幅に改善することができる。
また,蒸留性能に影響を及ぼす主要因と,その効果の違いについても徹底的に分析した。
転送学習、オブジェクト検出、セマンティックセグメンテーションを含む広範な下流コンピュータビジョンタスクは、蒸留された事前訓練されたモデルから大幅に利益を得ることができます。
すべての実験はPaddlePaddleに基づいて実施されており、コードとssld接尾辞付き事前訓練モデルのシリーズはPaddleClasで利用可能である。 Recently, research efforts have been concentrated on revealing how pre-trained model makes a difference in neural network performance. Self-supervision and semi-supervised learning technologies have been extensively explored by the community and are proven to be of great potential in obtaining a powerful pre-trained model. However, these models require huge training costs (i.e., hundreds of millions of images or training iterations). In this paper, we propose to improve existing baseline networks via knowledge distillation from off-the-shelf pre-trained big powerful models. Different from existing knowledge distillation frameworks which require student model to be consistent with both soft-label generated by teacher model and hard-label annotated by humans, our solution performs distillation by only driving prediction of the student model consistent with that of the teacher model. Therefore, our distillation setting can get rid of manually labeled data and can be trained with extra unlabeled data to fully exploit capability of teacher model for better learning. We empirically find that such simple distillation settings perform extremely effective, for example, the top-1 accuracy on ImageNet-1k validation set of MobileNetV3-large and ResNet50-D can be significantly improved from 75.2% to 79% and 79.1% to 83%, respectively. We have also thoroughly analyzed what are dominant factors that affect the distillation performance and how they make a difference. Extensive downstream computer vision tasks, including transfer learning, object detection and semantic segmentation, can significantly benefit from the distilled pretrained models. All our experiments are implemented based on PaddlePaddle, codes and a series of improved pretrained models with ssld suffix are available in PaddleClas. | 翻訳日:2021-03-11 14:53:24 公開日:2021-03-10 |
# 適応的セット予測としてのHOI検出の修正 Reformulating HOI Detection as Adaptive Set Prediction ( http://arxiv.org/abs/2103.05983v1 ) ライセンス: Link先を確認 | Mingfei Chen, Yue Liao, Si Liu, Zhiyuan Chen, Fei Wang, Chen Qian | (参考訳) HOI(Human-Object Interaction)検出では、どの画像領域に集中すべきかを決定することが重要です。
従来のHOI検出器は、検出された人間と物体のペアか、あるいは事前に定義された相互作用位置に焦点を合わせ、効果的な特徴の学習を制限する。
本稿では,hoi検出を適応集合予測問題として再構成し,並列インスタンスとインタラクションブランチを用いた適応集合型一段階フレームワーク(as-net)を提案する。
これを達成するために、トレーニング可能なインタラクションクエリセットをトランスとのインタラクション予測セットにマップします。
各クエリは、マルチヘッドコアテンションを通じて、グローバルコンテキストから対話関連機能を適応的に集約する。
また、各接地面と相互作用予測とを一致させることにより、訓練過程を適応的に監視する。
さらに、インスタンスブランチからインタラクションブランチにインストラクティブ機能を導入するための効果的なインスタンス認識アテンションモジュールを設計する。
3つの難しいHOI検出データセットに、人間のポーズや言語機能を追加することなく、従来の最先端のメソッドを上回ります。
特に、大規模なHICO-DETデータセットで331\%$の相対的な改善を達成しています。
コードはhttps://github.com/yoyomimi/AS-Netで入手できる。 Determining which image regions to concentrate on is critical for Human-Object Interaction (HOI) detection. Conventional HOI detectors focus on either detected human and object pairs or pre-defined interaction locations, which limits learning of the effective features. In this paper, we reformulate HOI detection as an adaptive set prediction problem, with this novel formulation, we propose an Adaptive Set-based one-stage framework (AS-Net) with parallel instance and interaction branches. To attain this, we map a trainable interaction query set to an interaction prediction set with a transformer. Each query adaptively aggregates the interaction-relevant features from global contexts through multi-head co-attention. Besides, the training process is supervised adaptively by matching each ground-truth with the interaction prediction. Furthermore, we design an effective instance-aware attention module to introduce instructive features from the instance branch into the interaction branch. Our method outperforms previous state-of-the-art methods without any extra human pose and language features on three challenging HOI detection datasets. Especially, we achieve over $31\%$ relative improvement on a large scale HICO-DET dataset. Code is available at https://github.com/yoyomimi/AS-Net. | 翻訳日:2021-03-11 14:52:54 公開日:2021-03-10 |
# セルフスーパービジョンによるフェーショット学習のためのマルチプレテキストアテンションネットワーク Multi-Pretext Attention Network for Few-shot Learning with Self-supervision ( http://arxiv.org/abs/2103.05985v1 ) ライセンス: Link先を確認 | Hainan Li, Renshuai Tao, Jun Li, Haotong Qin, Yifu Ding, Shuo Wang and Xianglong Liu | (参考訳) 少ないショット学習は興味深い、そして難しい研究であり、機械は人間のような少数のサンプルから学習することができる。
既存の研究では、大量のラベルのないデータから補助情報を利用することは滅多にない。
教師なし学習はラベルなしデータを利用する効率的な手法として出現する。
既存の自己教師あり学習法は、常に増補によって単一のサンプルの幾何学的変換の組み合わせに依存するが、タスクにとって同じ重要な異なるサンプル間の内在的相関情報を真剣に無視する。
本研究では,補助サンプルに依存しず,入力サンプル間の内在的相関情報を利用する,自己教師付き学習のための新しい拡張フリー手法であるグラフ駆動クラスタリング(gc)を提案する。
さらに,従来の拡張信頼手法とGCを組み合わせた特定の注意機構を利用して,最適化した重みを適応的に学習し,性能を向上し,特徴抽出器がより普遍的な表現を得られるようにするマルチテキスト注意ネットワーク(MAN)を提案する。
miniImageNetおよびtieredImageNetデータセット上でMANを幅広く評価し、提案手法が最新(SOTA)関連手法より優れていることを実証した。 Few-shot learning is an interesting and challenging study, which enables machines to learn from few samples like humans. Existing studies rarely exploit auxiliary information from large amount of unlabeled data. Self-supervised learning is emerged as an efficient method to utilize unlabeled data. Existing self-supervised learning methods always rely on the combination of geometric transformations for the single sample by augmentation, while seriously neglect the endogenous correlation information among different samples that is the same important for the task. In this work, we propose a Graph-driven Clustering (GC), a novel augmentation-free method for self-supervised learning, which does not rely on any auxiliary sample and utilizes the endogenous correlation information among input samples. Besides, we propose Multi-pretext Attention Network (MAN), which exploits a specific attention mechanism to combine the traditional augmentation-relied methods and our GC, adaptively learning their optimized weights to improve the performance and enabling the feature extractor to obtain more universal representations. We evaluate our MAN extensively on miniImageNet and tieredImageNet datasets and the results demonstrate that the proposed method outperforms the state-of-the-art (SOTA) relevant methods. | 翻訳日:2021-03-11 14:52:35 公開日:2021-03-10 |
# ヒューマンパースのための品質認識ネットワーク Quality-Aware Network for Human Parsing ( http://arxiv.org/abs/2103.05997v1 ) ライセンス: Link先を確認 | Lu Yang and Qing Song and Zhihui Wang and Zhiwei Liu and Songcen Xu and Zhihao Li | (参考訳) ネットワーク出力の品質を推定する方法は重要な問題であり、現在、人間の解析の分野で効果的なソリューションはありません。
この問題を解決するために,出力確率マップに基づく統計手法を提案し,画素スコアと呼ばれる画素品質情報を算出する。
また,QAM(Quality-Aware Module)は,人間の解析結果の質を推定するために,異なる品質情報を融合するために提案されている。
QAMと簡潔で効果的なネットワーク設計を組み合わせて、人間の解析のための品質認識ネットワーク(QANet)を提案します。
QAMとQANetの優位性により、CIHP、MHP-v2、Pascal-Person-Part、LIPを含む3つの複数および1つのヒューマンパーシングベンチマークで最高のパフォーマンスを実現します。
トレーニングと推論時間を増やすことなく、QAMはAP$^\text{r}$ criterionを、複数の人間の解析タスクにおいて10ポイント以上改善する。
QAMは他のタスクにも拡張可能で、品質評価も良い。
インスタンスのセグメンテーション。
具体的には、QAMはCoCOおよびLVISv1.0データセットでマスクR-CNNを約1%mAP改善する。
提案したQAMとQANetに基づいて,CVPR2019 COCO DensePose Challengeでは総合システムが1位,CVPR2020 LIP Challengeでは1位と2位となった。
コードとモデルはhttps://github.com/soeaver/qanetで入手できる。 How to estimate the quality of the network output is an important issue, and currently there is no effective solution in the field of human parsing. In order to solve this problem, this work proposes a statistical method based on the output probability map to calculate the pixel quality information, which is called pixel score. In addition, the Quality-Aware Module (QAM) is proposed to fuse the different quality information, the purpose of which is to estimate the quality of human parsing results. We combine QAM with a concise and effective network design to propose Quality-Aware Network (QANet) for human parsing. Benefiting from the superiority of QAM and QANet, we achieve the best performance on three multiple and one single human parsing benchmarks, including CIHP, MHP-v2, Pascal-Person-Part and LIP. Without increasing the training and inference time, QAM improves the AP$^\text{r}$ criterion by more than 10 points in the multiple human parsing task. QAM can be extended to other tasks with good quality estimation, e.g. instance segmentation. Specifically, QAM improves Mask R-CNN by ~1% mAP on COCO and LVISv1.0 datasets. Based on the proposed QAM and QANet, our overall system wins 1st place in CVPR2019 COCO DensePose Challenge, and 1st place in Track 1 & 2 of CVPR2020 LIP Challenge. Code and models are available at https://github.com/soeaver/QANet. | 翻訳日:2021-03-11 14:52:15 公開日:2021-03-10 |
# 主成分に基づく画像分割--in vitro細胞コロニーの概説への新しいアプローチ Principal component-based image segmentation: a new approach to outline in vitro cell colonies ( http://arxiv.org/abs/2103.06022v1 ) ライセンス: Link先を確認 | Delmon Arous, Stefan Schrunner, Ingunn Hanson, Nina F.J. Edin, Eirik Malinen | (参考訳) 生体内クローン原性アッセイ(in vitro clonogenic assay)は、培養皿において細胞がコロニーを形成する能力を研究する技術である。
光イメージングにより、染色されたコロニーの皿をデジタルでスキャンして評価することができる。
染色コロニーの同定, 分節化および計数は, 高スループットスクリーニングおよび生物学的アッセイの定量的評価において重要な役割を担っている。
このような画像/スキャンされたアッセイの画像処理は、背景雑音や空間的に異なる照明などの画像/スキャン取得アーティファクトや、懸濁媒体内の汚染物質の影響を受け得る。
既存のアプローチではこれらの問題に対処するが、セグメンテーションの品質は特にノイズや低コントラストの画像でさらに改善する必要がある。
本研究では,主成分分析,k-meansクラスタリング,修正流域分割アルゴリズムを用いて,問合せされたコロニーを特徴付け,抽出,分割することにより,これらの課題を解消するための客観的かつ汎用的な機械学習手法を提案する。
空間的テクスチャアセスメントを通じて目に見えるコロニーを自動的に識別し、連続したセグメンテーションに備えて背景からそれらを判別することを目的としている。
提案するセグメンテーションアルゴリズムは,人間の観察者による手動計測と同様の品質を示した。
高いf1スコア (>0.9) と低いルート平均二乗誤差 (約14%) は、基底真理データと良い一致を示した。
さらに、それは最新の方法よりも優れています。
この方法論は将来のがん研究の応用において重要なツールとなるだろう。 The in vitro clonogenic assay is a technique to study the ability of a cell to form a colony in a culture dish. By optical imaging, dishes with stained colonies can be scanned and assessed digitally. Identification, segmentation and counting of stained colonies play a vital part in high-throughput screening and quantitative assessment of biological assays. Image processing of such pictured/scanned assays can be affected by image/scan acquisition artifacts like background noise and spatially varying illumination, and contaminants in the suspension medium. Although existing approaches tackle these issues, the segmentation quality requires further improvement, particularly on noisy and low contrast images. In this work, we present an objective and versatile machine learning procedure to amend these issues by characterizing, extracting and segmenting inquired colonies using principal component analysis, k-means clustering and a modified watershed segmentation algorithm. The intention is to automatically identify visible colonies through spatial texture assessment and accordingly discriminate them from background in preparation for successive segmentation. The proposed segmentation algorithm yielded a similar quality as manual counting by human observers. High F1 scores (>0.9) and low root-mean-square errors (around 14%) underlined good agreement with ground truth data. Moreover, it outperformed a recent state-of-the-art method. The methodology will be an important tool in future cancer research applications. | 翻訳日:2021-03-11 14:51:50 公開日:2021-03-10 |
# federated domain generalization on medical image segmentation via episodic learning in continuous frequency space (英語) FedDG: Federated Domain Generalization on Medical Image Segmentation via Episodic Learning in Continuous Frequency Space ( http://arxiv.org/abs/2103.06030v1 ) ライセンス: Link先を確認 | Quande Liu, Cheng Chen, Jing Qin, Qi Dou, Pheng-Ann Heng | (参考訳) フェデレーションラーニングは、分散医療機関がプライバシ保護を備えた共有予測モデルを共同で学習することを可能にします。
臨床展開では、連合学習で訓練されたモデルは、連邦外の完全に見えない病院に適用された場合、パフォーマンス低下に苦しむ可能性がある。
本稿では,フェデレートされたドメイン一般化(FedDG)の新たな課題を指摘した上で,フェデレーションされたモデルを複数の分散ドメインから学習し,直接対象ドメインに一般化することを目的とした。
本稿では,データ分散化の困難な制約の下で各クライアントがマルチソースデータ分散を活用できるようにすることにより,ELCFS(Episodic Learning in Continuous Frequency Space)と呼ばれる新しい手法を提案する。
私達のアプローチは有効な連続的な頻度スペース補間メカニズムを通してプライバシー保護の方法で顧客を渡る配分情報を送信します。
トランスファーマルチソース分布により,局所学習を領域分布シフトにさらし,特に医用画像分割シナリオにおけるモデル一般化の課題を満たすために,境界指向のエピソディック学習パラダイムを慎重に設計する。
本手法の有効性は,2つの医用画像分割作業における最先端および深部アブレーション実験よりも優れていた。
コードは「https://github.com/liuquande/FedDG-ELCFS」で入手できます。 Federated learning allows distributed medical institutions to collaboratively learn a shared prediction model with privacy protection. While at clinical deployment, the models trained in federated learning can still suffer from performance drop when applied to completely unseen hospitals outside the federation. In this paper, we point out and solve a novel problem setting of federated domain generalization (FedDG), which aims to learn a federated model from multiple distributed source domains such that it can directly generalize to unseen target domains. We present a novel approach, named as Episodic Learning in Continuous Frequency Space (ELCFS), for this problem by enabling each client to exploit multi-source data distributions under the challenging constraint of data decentralization. Our approach transmits the distribution information across clients in a privacy-protecting way through an effective continuous frequency space interpolation mechanism. With the transferred multi-source distributions, we further carefully design a boundary-oriented episodic learning paradigm to expose the local learning to domain distribution shifts and particularly meet the challenges of model generalization in medical image segmentation scenario. The effectiveness of our method is demonstrated with superior performance over state-of-the-arts and in-depth ablation experiments on two medical image segmentation tasks. The code is available at "https://github.com/liuquande/FedDG-ELCFS". | 翻訳日:2021-03-11 14:51:24 公開日:2021-03-10 |
# ImageNetにおける顔難読化の検討 A Study of Face Obfuscation in ImageNet ( http://arxiv.org/abs/2103.06191v1 ) ライセンス: Link先を確認 | Kaiyu Yang, Jacqueline Yau, Li Fei-Fei, Jia Deng, Olga Russakovsky | (参考訳) 画像の難読化(ぼやけ、モザイクなど)
プライバシー保護に広く使われています
しかし、コンピュータビジョンの研究は、しばしばオリジナルの不明瞭な画像へのアクセスを仮定してプライバシーを無視する。
本稿では,imagenetチャレンジにおける画像難読化について検討する。
ImageNetチャレンジのほとんどのカテゴリは、人々のカテゴリではありません。しかし、多くの偶発的な人々が画像の中にいます。
まずデータセットに面をアノテートします。
次に,典型的な難読化手法である顔のぼやけが分類精度に与える影響について検討する。
さまざまな深層ニューラルネットワークを顔画像上でベンチマークし、異なるカテゴリに対する異なる影響を観察します。
それでも、全体的な精度はわずかに低下する($\leq 0.68\%$)。
さらに,オブジェクト認識,シーン認識,顔属性分類,オブジェクト検出という4つの下流タスクへの転送学習を実験した。
結果は、顔が破れた画像で学んだ特徴が等しく転送可能であることを示している。
データとコードはhttps://github.com/princetonvisualai/imagenet-face-obfuscationで入手できる。 Image obfuscation (blurring, mosaicing, etc.) is widely used for privacy protection. However, computer vision research often overlooks privacy by assuming access to original unobfuscated images. In this paper, we explore image obfuscation in the ImageNet challenge. Most categories in the ImageNet challenge are not people categories; nevertheless, many incidental people are in the images, whose privacy is a concern. We first annotate faces in the dataset. Then we investigate how face blurring -- a typical obfuscation technique -- impacts classification accuracy. We benchmark various deep neural networks on face-blurred images and observe a disparate impact on different categories. Still, the overall accuracy only drops slightly ($\leq 0.68\%$), demonstrating that we can train privacy-aware visual classifiers with minimal impact on accuracy. Further, we experiment with transfer learning to 4 downstream tasks: object recognition, scene recognition, face attribute classification, and object detection. Results show that features learned on face-blurred images are equally transferable. Data and code are available at https://github.com/princetonvisualai/imagenet-face-obfuscation. | 翻訳日:2021-03-11 14:50:50 公開日:2021-03-10 |
# インボリューション:視覚認識のためのコンボリューションのインボリューションの反転 Involution: Inverting the Inherence of Convolution for Visual Recognition ( http://arxiv.org/abs/2103.06255v1 ) ライセンス: Link先を確認 | Duo Li, Jie Hu, Changhu Wang, Xiangtai Li, Qi She, Lei Zhu, Tong Zhang, Qifeng Chen | (参考訳) 畳み込みは現代のニューラルネットワークの中核的な要素であり、視覚におけるディープラーニングの急増を引き起こしている。
本研究では,視覚タスク,特に空間に依存しない,チャネル固有の標準畳み込みの原理を再考する。
その代わり,前述の畳み込みの設計原理を逆向きにすることで,ディープニューラルネットワークのための新しい原子操作を提案する。
さらに、最近人気のセルフアテンションオペレーターを軽視し、過度に複雑なインスタンス化としてInvolutionファミリーにサブミットします。
提案する畳み込み演算子は、イメージネット分類、ココ検出、セグメンテーションを含むいくつかの一般的なベンチマークで異なるディープラーニングモデルと、シティスケープセグメンテーションを駆動する、視覚認識のための新しい世代のニューラルネットワークを構築するための基本的なレンガとして活用することができる。
ResNet-50による畳み込みベースラインの性能は最大1.6%の精度、2.5%と2.4%のバウンディングボックスAP、4.7%は計算コストを66%、65%、72%、そして57%に圧縮しながら完全にIoUを意味する。
すべてのタスクのコードと事前トレーニングされたモデルはhttps://github.com/d-li14/involution.comで入手できる。 Convolution has been the core ingredient of modern neural networks, triggering the surge of deep learning in vision. In this work, we rethink the inherent principles of standard convolution for vision tasks, specifically spatial-agnostic and channel-specific. Instead, we present a novel atomic operation for deep neural networks by inverting the aforementioned design principles of convolution, coined as involution. We additionally demystify the recent popular self-attention operator and subsume it into our involution family as an over-complicated instantiation. The proposed involution operator could be leveraged as fundamental bricks to build the new generation of neural networks for visual recognition, powering different deep learning models on several prevalent benchmarks, including ImageNet classification, COCO detection and segmentation, together with Cityscapes segmentation. Our involution-based models improve the performance of convolutional baselines using ResNet-50 by up to 1.6% top-1 accuracy, 2.5% and 2.4% bounding box AP, and 4.7% mean IoU absolutely while compressing the computational cost to 66%, 65%, 72%, and 57% on the above benchmarks, respectively. Code and pre-trained models for all the tasks are available at https://github.com/d-li14/involution. | 翻訳日:2021-03-11 14:50:32 公開日:2021-03-10 |
# グラフ畳み込みネットワークの効率的なトレーニングのためのサンプリング方法:調査 Sampling methods for efficient training of graph convolutional networks: A survey ( http://arxiv.org/abs/2103.05872v1 ) ライセンス: Link先を確認 | Xin Liu, Mingyu Yan, Lei Deng, Guoqi Li, Xiaochun Ye, Dongrui Fan | (参考訳) グラフ畳み込みネットワーク(GCN)は,グラフ表現の学習性能が優れており,様々な研究分野から注目されている。
GCNは他の方法と比較してうまく機能しますが、まだ課題に直面しています。
大規模グラフに対するGCNモデルを従来の方法でトレーニングするには、高い計算とメモリコストが必要となる。
したがって,GCNの学習における効率性やスケーラビリティの面での急激なニーズにより,サンプリング手法が提案され,大きな効果が得られた。
本稿では,サンプリング機構に基づくサンプリング手法を分類し,gcnの効率的なトレーニングのためのサンプリング手法の包括的調査を行う。
サンプリング法の特徴と相違を強調するために,各カテゴリにおける詳細な比較を行い,さらに,各カテゴリにおけるサンプリング法の総合比較分析を行う。
最後に,サンプリング手法の課題と今後の研究方向性について論じる。 Graph Convolutional Networks (GCNs) have received significant attention from various research fields due to the excellent performance in learning graph representations. Although GCN performs well compared with other methods, it still faces challenges. Training a GCN model for large-scale graphs in a conventional way requires high computation and memory costs. Therefore, motivated by an urgent need in terms of efficiency and scalability in training GCN, sampling methods are proposed and achieve a significant effect. In this paper, we categorize sampling methods based on the sampling mechanisms and provide a comprehensive survey of sampling methods for efficient training of GCN. To highlight the characteristics and differences of sampling methods, we present a detailed comparison within each category and further give an overall comparative analysis for the sampling methods in all categories. Finally, we discuss some challenges and future research directions of the sampling methods. | 翻訳日:2021-03-11 14:49:48 公開日:2021-03-10 |
# S-ICD 埋込み適性検査のための深層学習法 Deep learning methods for screening patients' S-ICD implantation eligibility ( http://arxiv.org/abs/2103.06021v1 ) ライセンス: Link先を確認 | Anthony J. Dunn, Mohamed H. ElRefai, Paul R. Roberts, Stefano Coniglio, Benedict M. Wiles and Alain B. Zemkoho | (参考訳) 皮下植込み型除細動器(s-icds)は心室性不整脈による突然の心死の予防に用いられる。
T Wave Over Sensing (TWOS)は、S-ICDに固有のリスクであり、不適切なショックを引き起こす可能性がある。
TWOSの主要な予測器は、高いT:R比(T波とR波の振幅の比)である。
現在、患者の心電図(ECG)を10秒以上スクリーニングし、T:R比を測定し、S-ICD植込みの適性を決定する。
T:R比の経時変化のために、10秒は患者のT:R比の正常値を確実に決定するのに十分長くありません。
本稿では,畳み込みニューラルネットワーク(CNN)に基づく位相空間再構成行列を用いたモデルを開発し,R波やT波を明示的に検出することなく10秒ECGセグメントからT:R比を予測し,TWOSの問題を回避する。
このツールは、ずっと長い期間患者を自動的にスクリーニングし、その期間におけるt:r比の挙動を詳細に記述するために使うことができる。
また、より信頼性が高く記述的なスクリーニングにより、S-ICD移植に対する患者の適性を評価することもできる。 Subcutaneous Implantable Cardioverter-Defibrillators (S-ICDs) are used for prevention of sudden cardiac death triggered by ventricular arrhythmias. T Wave Over Sensing (TWOS) is an inherent risk with S-ICDs which can lead to inappropriate shocks. A major predictor of TWOS is a high T:R ratio (the ratio between the amplitudes of the T and R waves). Currently patients' Electrocardiograms (ECGs) are screened over 10 seconds to measure the T:R ratio, determining the patients' eligibility for S-ICD implantation. Due to temporal variations in the T:R ratio, 10 seconds is not long enough to reliably determine the normal values of a patient's T:R ratio. In this paper, we develop a convolutional neural network (CNN) based model utilising phase space reconstruction matrices to predict T:R ratios from 10-second ECG segments without explicitly locating the R or T waves, thus avoiding the issue of TWOS. This tool can be used to automatically screen patients over a much longer period and provide an in-depth description of the behaviour of the T:R ratio over that period. The tool can also enable much more reliable and descriptive screenings to better assess patients' eligibility for S-ICD implantation. | 翻訳日:2021-03-11 14:49:36 公開日:2021-03-10 |
# 古典的反復アルゴリズムに触発されたグラフニューラルネットワーク Graph Neural Networks Inspired by Classical Iterative Algorithms ( http://arxiv.org/abs/2103.06064v1 ) ライセンス: Link先を確認 | Yongyi Yang, Tang Liu, Yangkun Wang, Jinjing Zhou, Quan Gan, Zhewei Wei, Zheng Zhang, Zengfeng Huang, David Wipf | (参考訳) グラフニューラルネットワーク(GNN)の最近の成功にもかかわらず、一般的なアーキテクチャはしばしば、例えばグラフの異性愛または敵対的な攻撃の結果として生じるような、過密、長距離依存性、およびスプリアスエッジに対する感受性を含む重要な制限を示す。
これらの問題を少なくとも部分的には単純な透過的な枠組みで解決するため、我々は2つの古典的反復アルゴリズム、すなわち近勾配降下法と反復再重み付き最小二乗法(IRLS)の更新規則を模倣し統合するために設計された新しいGNN層を考える。
前者は拡張可能なベースGNNアーキテクチャを定義し、任意の伝搬ステップを許可することによって長距離依存性をキャプチャしながら、過スムージングに免疫的である。
対照的に、後者は根本的なエンドツーエンドのエネルギー関数に明示的に固定される新しい注意メカニズムを生成し、エッジの不確実性に関して安定性に寄与する。
組み合わせると、標準化されたベンチマーク、逆摂動グラフ、ヘテロフィリーグラフ、長距離依存を含むグラフなど、さまざまなシナリオで評価される非常に単純な頑健なモデルが得られる。
そこで我々は,各タスクに対して明示的に設計されているSOTA GNN手法との比較を行い,ノード分類の精度を向上する。 Despite the recent success of graph neural networks (GNN), common architectures often exhibit significant limitations, including sensitivity to oversmoothing, long-range dependencies, and spurious edges, e.g., as can occur as a result of graph heterophily or adversarial attacks. To at least partially address these issues within a simple transparent framework, we consider a new family of GNN layers designed to mimic and integrate the update rules of two classical iterative algorithms, namely, proximal gradient descent and iterative reweighted least squares (IRLS). The former defines an extensible base GNN architecture that is immune to oversmoothing while nonetheless capturing long-range dependencies by allowing arbitrary propagation steps. In contrast, the latter produces a novel attention mechanism that is explicitly anchored to an underlying end-toend energy function, contributing stability with respect to edge uncertainty. When combined we obtain an extremely simple yet robust model that we evaluate across disparate scenarios including standardized benchmarks, adversarially-perturbated graphs, graphs with heterophily, and graphs involving long-range dependencies. In doing so, we compare against SOTA GNN approaches that have been explicitly designed for the respective task, achieving competitive or superior node classification accuracy. | 翻訳日:2021-03-11 14:49:15 公開日:2021-03-10 |
# 交通予測のための時空間テンソルグラフ畳み込みネットワーク Spatial-Temporal Tensor Graph Convolutional Network for Traffic Prediction ( http://arxiv.org/abs/2103.06126v1 ) ライセンス: Link先を確認 | Xuran Xu, Tong Zhang, Chunyan Xu, Zhen Cui, and Jian Yang | (参考訳) 都市交通の指導と管理には正確な交通予測が不可欠である。
しかし,既存の交通予測モデルの多くは,交通データ間の空間的時間的依存を捉える場合の計算負担やメモリ空間を考慮していない。
本研究では,トラヒック速度予測を扱うための因子化空間-時間テンソルグラフ畳み込みネットワークを提案する。
トラフィックネットワークは、空間情報と時間情報を同時に統合するグラフにモデル化および統合されます。
さらに、グラフ畳み込みをテンソル空間に拡張し、空間時間グラフデータからより識別性の高い特徴を抽出するテンソルグラフ畳み込みネットワークを提案する。
計算負荷を軽減するために、我々はタッカーテンソル分解を取り、小さな空間、時間、および特徴モードで別々のフィルタリングを実行するテンソル畳み込みを導出する。
さらに、テンソル分解の過程でこれらの自明なコンポーネントを捨てる際に、トラフィックデータのノイズ抑制の恩恵を受ける。
2つの実世界のトラヒックスピードデータセットに関する広範囲な実験により、従来のトラヒック予測手法よりも効果が示され、その間に最先端のパフォーマンスが達成される。 Accurate traffic prediction is crucial to the guidance and management of urban traffics. However, most of the existing traffic prediction models do not consider the computational burden and memory space when they capture spatial-temporal dependence among traffic data. In this work, we propose a factorized Spatial-Temporal Tensor Graph Convolutional Network to deal with traffic speed prediction. Traffic networks are modeled and unified into a graph that integrates spatial and temporal information simultaneously. We further extend graph convolution into tensor space and propose a tensor graph convolution network to extract more discriminating features from spatial-temporal graph data. To reduce the computational burden, we take Tucker tensor decomposition and derive factorized a tensor convolution, which performs separate filtering in small-scale space, time, and feature modes. Besides, we can benefit from noise suppression of traffic data when discarding those trivial components in the process of tensor decomposition. Extensive experiments on two real-world traffic speed datasets demonstrate our method is more effective than those traditional traffic prediction methods, and meantime achieves state-of-the-art performance. | 翻訳日:2021-03-11 14:48:51 公開日:2021-03-10 |
# Range-GAN:Range-Constrained Generative Adversarial Network for Conditioned Design synthesis Range-GAN: Range-Constrained Generative Adversarial Network for Conditioned Design Synthesis ( http://arxiv.org/abs/2103.06230v1 ) ライセンス: Link先を確認 | Amin Heyrani Nobari, Wei Chen, Faez Ahmed | (参考訳) 典型的なエンジニアリング設計タスクは、特定の制約、すなわちパフォーマンスや属性要件を満たすまでデザインを反復的に変更する努力を必要とする。
過去の研究は、望ましい設計を特定の要求から直接生成する逆設計問題を解決する方法を提案しており、試行錯誤のプロセスは避けている。
それらのアプローチの中で、条件付き深層生成モデルは、1)複雑な高次元設計のために機能し、2)任意の条件で複数の代替設計を生成できるため、大きなポテンシャルを示す。
本研究では,条件付き深層生成モデルであるrange-ganを提案する。
ラベル認識型自己拡張手法を導入することにより,データ駆動逆設計問題におけるスパース条件付け問題に対処する。
また,所定の要求範囲を均等にカバーできる新しい均一性損失を提案する。
制約付き3次元形状生成の実例を通して,ラベル認識による自己表現は生成した3次元形状に対する制約満足度を平均14%向上させ,均一性損失は生成形状属性の均一性において平均125%向上することを示した。
この研究は、範囲制約を考慮したデータ駆動逆設計問題の基盤となり、条件空間に疎い領域が存在する。 Typical engineering design tasks require the effort to modify designs iteratively until they meet certain constraints, i.e., performance or attribute requirements. Past work has proposed ways to solve the inverse design problem, where desired designs are directly generated from specified requirements, thus avoid the trial and error process. Among those approaches, the conditional deep generative model shows great potential since 1) it works for complex high-dimensional designs and 2) it can generate multiple alternative designs given any condition. In this work, we propose a conditional deep generative model, Range-GAN, to achieve automatic design synthesis subject to range constraints. The proposed model addresses the sparse conditioning issue in data-driven inverse design problems by introducing a label-aware self-augmentation approach. We also propose a new uniformity loss to ensure generated designs evenly cover the given requirement range. Through a real-world example of constrained 3D shape generation, we show that the label-aware self-augmentation leads to an average improvement of 14% on the constraint satisfaction for generated 3D shapes, and the uniformity loss leads to a 125% average increase on the uniformity of generated shapes' attributes. This work laid the foundation for data-driven inverse design problems where we consider range constraints and there are sparse regions in the condition space. | 翻訳日:2021-03-11 14:48:33 公開日:2021-03-10 |
# creativegan: 創造的デザイン合成のための生成的広告ネットワークの編集 CreativeGAN: Editing Generative Adversarial Networks for Creative Design Synthesis ( http://arxiv.org/abs/2103.06242v1 ) ライセンス: Link先を確認 | Amin Heyrani Nobari, Muhammad Fathy Rashad, Faez Ahmed | (参考訳) ディープニューラルネットワークなどの最新の機械学習技術は、ビッグデータのパターンを発見し、正確な予測を行うことで、画像認識から言語理解まで、多くの分野を変革しています。
彼らはまた、製品の作成とイノベーションの実現に不可欠である新しいデザインを合成するための有望な結果を示した。
generative adversarial networks (gans) を含む生成モデルは、製品設計からメタマテリアル設計まで幅広い応用で設計合成に有効であることが証明されている。
これらの自動計算設計手法は、経験とヒューリスティックスを使ったアイデアを反復的に探求する時間を要するプロセスによって設計を作成する人間設計者を支援することができる。
しかし、'creative' デザインの自動合成にはまだ課題が残っている。
しかし、GANモデルは独自のデザインを生成することができず、イノベーションの鍵となり、AIベースの設計自動化アプリケーションに大きなギャップがあります。
本論文では,新しいデザインを作成するための自動手法であるCreativeGANを提案する。
デザインをユニークなものにするコンポーネントを識別し、GANモデルを変更することで、識別されたユニークなコンポーネントでデザインを生成する可能性が高まる。
この方法は、最先端のノベルティ検出、セグメンテーション、ノベルティローカライゼーション、書き換え、創造的デザイン合成のための生成モデルを組み合わせる。
自転車デザインのデータセットを用いて,ユニークなフレームとハンドルを備えた自転車デザインを新たに作成し,レアノベルティを幅広いデザインに一般化できることを実証した。
提案手法は,人間の介入を必要とせず,創造的デザインの合成と探索を再考する方法を示す。 Modern machine learning techniques, such as deep neural networks, are transforming many disciplines ranging from image recognition to language understanding, by uncovering patterns in big data and making accurate predictions. They have also shown promising results for synthesizing new designs, which is crucial for creating products and enabling innovation. Generative models, including generative adversarial networks (GANs), have proven to be effective for design synthesis with applications ranging from product design to metamaterial design. These automated computational design methods can support human designers, who typically create designs by a time-consuming process of iteratively exploring ideas using experience and heuristics. However, there are still challenges remaining in automatically synthesizing `creative' designs. GAN models, however, are not capable of generating unique designs, a key to innovation and a major gap in AI-based design automation applications. This paper proposes an automated method, named CreativeGAN, for generating novel designs. It does so by identifying components that make a design unique and modifying a GAN model such that it becomes more likely to generate designs with identified unique components. The method combines state-of-art novelty detection, segmentation, novelty localization, rewriting, and generative models for creative design synthesis. Using a dataset of bicycle designs, we demonstrate that the method can create new bicycle designs with unique frames and handles, and generalize rare novelties to a broad set of designs. Our automated method requires no human intervention and demonstrates a way to rethink creative design synthesis and exploration. | 翻訳日:2021-03-11 14:48:08 公開日:2021-03-10 |
# 外乱検出における色数と形状の影響:自動評価からユーザ評価まで Impacts of the Numbers of Colors and Shapes on Outlier Detection: from Automated to User Evaluation ( http://arxiv.org/abs/2103.06084v1 ) ライセンス: Link先を確認 | Loann Giovannangeli, Romain Giot, David Auber and Romain Bourqui | (参考訳) 効率的な表現の設計は、複雑なデータや大規模データを探索し分析するための実りある方法として確立されている。
これらの表現では、データは表現自体のニーズに応じて様々な視覚的属性で符号化される。
視覚特性に関するコヒーレントな設計選択を行うため、視覚検索分野は特徴の人間の脳知覚に基づくガイドラインを提案する。
しかし、情報視覚化表現は、これらのガイドラインが検証した量よりも多くのデータを記述する必要がある。
以来、情報可視化コミュニティはこれらのガイドラインをより広いパラメータ空間に拡張しました。
本稿では,視覚探索理論を情報可視化コンテキストに拡張することで,このテーマに寄与する。
ランダムに並べられた気晴らしのグリッドに未知のアウトリーヤを見つけるよう被験者に依頼される視覚的検索タスクを検討する。
刺激は分類データを視覚的に符号化するために色と形状の特徴によって定義される。
実験プロトコルは、機械学習モデルに基づくパラメータ空間削減ステップ(サブサンプリング)と、容量制限を測定し、仮説を検証するためのユーザ評価で構成されている。
その結果,外乱率のエンコードに使用される視覚的属性の数が主な難易度であることがわかった。
冗長にエンコードすると、表示の不均一性はタスクに影響を与えません。
1つの属性でエンコードすると、その容量制限(色は7、形は5)に達するまで、その属性の不均一性に依存します。
最後に、2つの属性を同時にエンコードすると、小さな異質性でもパフォーマンスが大幅に低下します。 The design of efficient representations is well established as a fruitful way to explore and analyze complex or large data. In these representations, data are encoded with various visual attributes depending on the needs of the representation itself. To make coherent design choices about visual attributes, the visual search field proposes guidelines based on the human brain perception of features. However, information visualization representations frequently need to depict more data than the amount these guidelines have been validated on. Since, the information visualization community has extended these guidelines to a wider parameter space. This paper contributes to this theme by extending visual search theories to an information visualization context. We consider a visual search task where subjects are asked to find an unknown outlier in a grid of randomly laid out distractor. Stimuli are defined by color and shape features for the purpose of visually encoding categorical data. The experimental protocol is made of a parameters space reduction step (i.e., sub-sampling) based on a machine learning model, and a user evaluation to measure capacity limits and validate hypotheses. The results show that the major difficulty factor is the number of visual attributes that are used to encode the outlier. When redundantly encoded, the display heterogeneity has no effect on the task. When encoded with one attribute, the difficulty depends on that attribute heterogeneity until its capacity limit (7 for color, 5 for shape) is reached. Finally, when encoded with two attributes simultaneously, performances drop drastically even with minor heterogeneity. | 翻訳日:2021-03-11 14:47:43 公開日:2021-03-10 |
# Social InteractionGAN: 多人数インタラクションシーケンス生成 SocialInteractionGAN: Multi-person Interaction Sequence Generation ( http://arxiv.org/abs/2103.05916v1 ) ライセンス: Link先を確認 | Louis Airale (M-PSI, PERCEPTION), Dominique Vaufreydaz (M-PSI), Xavier Alameda-Pineda (PERCEPTION) | (参考訳) 社会的相互作用における人間の行動の予測は、ソーシャルロボットや人工アバターの設計に重要な応用がある。
本論文では,ヒューマンインタラクション生成を離散的マルチシーケンス生成問題としてモデル化し,条件付きインタラクション生成のための新しい対比アーキテクチャであるSocialInteractionGANを提案する。
本モデルは,再帰型エンコーダデコーダジェネレータネットワークとデュアルストリームディスクリミネータ上に構築する。
このアーキテクチャにより、識別者は相互作用のリアリズムと個々のアクションシーケンスのリアリズムを共同で評価することができる。
各ストリーム内では、短いサブシーケンスで動作するリカレントネットワークが出力信号を局所的な評価で内包し、次の世代を誘導する。
相互作用する参加者の文脈情報はエージェント間で共有され、世代と差別評価プロセスの両方で再注入されます。
提案されたSocialInteractionGANは、相互に相互作用する人々の高いリアリズムアクションシーケンスを成功させ、反復的および畳み込み的差別的ベースラインの多様性に有利に比較することを示した。
改良インセプションスコア(modified inception score)とfr{\'e}chetインセプション距離メトリクス(fr{\'e}chet inception distance metrics)を用いて評価を行った。
生成されたシーケンスの分布は、実際のデータに近づきつつある。
特に私たちのモデルは、あらゆるアクションを活用しながら、インタラクションシーケンスのダイナミクスを適切に学習します。 Prediction of human actions in social interactions has important applications in the design of social robots or artificial avatars. In this paper, we model human interaction generation as a discrete multi-sequence generation problem and present SocialInteractionGAN, a novel adversarial architecture for conditional interaction generation. Our model builds on a recurrent encoder-decoder generator network and a dual-stream discriminator. This architecture allows the discriminator to jointly assess the realism of interactions and that of individual action sequences. Within each stream a recurrent network operating on short subsequences endows the output signal with local assessments, better guiding the forthcoming generation. Crucially, contextual information on interacting participants is shared among agents and reinjected in both the generation and the discriminator evaluation processes. We show that the proposed SocialInteractionGAN succeeds in producing high realism action sequences of interacting people, comparing favorably to a diversity of recurrent and convolutional discriminator baselines. Evaluations are conducted using modified Inception Score and Fr{\'e}chet Inception Distance metrics, that we specifically design for discrete sequential generated data. The distribution of generated sequences is shown to approach closely that of real data. In particular our model properly learns the dynamics of interaction sequences, while exploiting the full range of actions. | 翻訳日:2021-03-11 14:47:21 公開日:2021-03-10 |
# 自動話者自立型構音明瞭度評価システム Automatic Speaker Independent Dysarthric Speech Intelligibility Assessment System ( http://arxiv.org/abs/2103.06157v1 ) ライセンス: Link先を確認 | Ayush Tripathi and Swapnil Bhosale and Sunil Kumar Kopparapu | (参考訳) 構音障害(dysarthria)は、個人が発声において重要な役割を果たす筋肉を制御する能力を妨げる状態である。
唇、声帯、舌、横隔膜の動きを補助する筋肉の微細な制御の喪失は、異常な発声をもたらす。
個人が話す音声の明瞭さを分析して、構音の重症度を評価することができる。
連続知性評価は、言語病理学者が薬の影響を研究するだけでなく、パーソナライズドセラピーの計画にも役立つ。
a) 患者が実施し, (b) 臨床医が解釈し, 信頼性が高く, 自動的, 簡便な臨床医を支援する。
dysarthricデータの可用性の欠如は、患者が大量の発話を話すことを必要とする話者依存型自動知性評価システムの開発につながった。
本稿では, (a) 構音障害患者が話す必要のある最適な(小さい)発話数を選択するためのコスト最小化手順, (b) 患者に少数の単語を話すことを要求する4つの異なる話者独立知性評価システム, (c) 評価スコアが言語病理学者(slp)が対応できる知覚スコアに近いことを提案する。
患者が発声する少数の発話の必要性とSLPに関連しうるスコアは, ユーザビリティの観点から, 変形性関節症患者と臨床医の双方に有益である。 Dysarthria is a condition which hampers the ability of an individual to control the muscles that play a major role in speech delivery. The loss of fine control over muscles that assist the movement of lips, vocal chords, tongue and diaphragm results in abnormal speech delivery. One can assess the severity level of dysarthria by analyzing the intelligibility of speech spoken by an individual. Continuous intelligibility assessment helps speech language pathologists not only study the impact of medication but also allows them to plan personalized therapy. It helps the clinicians immensely if the intelligibility assessment system is reliable, automatic, simple for (a) patients to undergo and (b) clinicians to interpret. Lack of availability of dysarthric data has resulted in development of speaker dependent automatic intelligibility assessment systems which requires patients to speak a large number of utterances. In this paper, we propose (a) a cost minimization procedure to select an optimal (small) number of utterances that need to be spoken by the dysarthric patient, (b) four different speaker independent intelligibility assessment systems which require the patient to speak a small number of words, and (c) the assessment score is close to the perceptual score that the Speech Language Pathologist (SLP) can relate to. The need for small number of utterances to be spoken by the patient and the score being relatable to the SLP benefits both the dysarthric patient and the clinician from usability perspective. | 翻訳日:2021-03-11 14:46:24 公開日:2021-03-10 |
# ステアリング制御のためのエンドツーエンド駆動モデルへのオリエンテーションの導入 Incorporating Orientations into End-to-end Driving Model for Steering Control ( http://arxiv.org/abs/2103.05846v1 ) ライセンス: Link先を確認 | Peng Wan, Zhenbo Song, Jianfeng Lu | (参考訳) 本稿では,単眼画像シーケンスを入力とし,操舵制御角度を直接生成する,自律運転のためのエンド・ツー・エンドのディープニューラルネットワークモデルを提案する。
まず、エンドツーエンドの運転問題をローカルパス計画プロセスとしてモデル化します。
古典的計画アルゴリズムにおける環境表現に触発される(即ち)
ビーム曲率法)、画素方向の向きをネットワークに入力し、方向認識の特徴を学習する。
次に、トレーニングデータセットにおけるステアリング値の不均衡分布を扱うために、ステアリングロス2というコスト感受性損失関数の改善を提案する。
さらに、対応するLiDARおよび画像シーケンス、および標準的な運転行動を提供する新しいエンドツーエンドの運転データセットも提示します。
私たちのデータセットには、都市、国、オフロードなどの複数の運転シナリオが含まれます。
公開可能なLiVi-Setと当社独自のデータセットで多数の実験を行い,提案手法を用いたモデルが操舵角度を正確に予測できることを示した。 In this paper, we present a novel end-to-end deep neural network model for autonomous driving that takes monocular image sequence as input, and directly generates the steering control angle. Firstly, we model the end-to-end driving problem as a local path planning process. Inspired by the environmental representation in the classical planning algorithms(i.e. the beam curvature method), pixel-wise orientations are fed into the network to learn direction-aware features. Next, to handle the imbalanced distribution of steering values in training datasets, we propose an improvement on a cost-sensitive loss function named SteeringLoss2. Besides, we also present a new end-to-end driving dataset, which provides corresponding LiDAR and image sequences, as well as standard driving behaviors. Our dataset includes multiple driving scenarios, such as urban, country, and off-road. Numerous experiments are conducted on both public available LiVi-Set and our own dataset, and the results show that the model using our proposed methods can predict steering angle accurately. | 翻訳日:2021-03-11 14:45:57 公開日:2021-03-10 |
# タスク駆動型運転シーン分類のイメージベースアプローチ An Image-based Approach of Task-driven Driving Scene Categorization ( http://arxiv.org/abs/2103.05920v1 ) ライセンス: Link先を確認 | Shaochi Hu, Hanwei Fan, Biao Gao, XijunZhao and Huijing Zhao | (参考訳) 視覚認識による運転シーンの分類は、安全運転と自動運転車の下流タスクにとって重要な技術である。
従来の手法では、シーン関連オブジェクトを検出したり、細かなラベル付きシーン画像の大きなデータセットでトレーニングされた分類器を用いてシーンカテゴリを推論する。
キャンパスや公園のような散らかったダイナミックなシーンでは、人間の活動はルールによって強く制限されず、場所の機能的特性はオブジェクトと強く相関しない。
そこで、シーンカテゴリーを定義し、モデル化し、推論する方法は、ロボットがシーンを通り抜けるのを助けるのに非常に役立ちます。
本稿では,弱監督データを用いたタスク駆動運転場面分類手法を提案する。
運転シーンのフロントビュービデオを考えると、アンカーポイントのセットは、アンカーポイントがセマンティックラベルではなく、シーンのセマンティック属性を意味するインジケータが前のものと異なる人間のドライバーの意思決定に従うことによってマークされる。
コントラスト学習によって異なる意味的属性のシーンを識別する尺度が学習され、その尺度に基づいて駆動シーンのプロファイリングと分類法が開発された。
実験は、北京大学の混雑したダイナミックなキャンパスを通過した車両が記録されたフロントビューのビデオで行われます。
シーンは、直線道路、ターン道路、警告トラフィックに分類されます。
セマンティックシーンの類似度学習と運転シーンの分類の結果は広く研究され、シーンの分類の結果は学習ビデオで97.17 %、新しいシーンのビデオで85.44 %である。 Categorizing driving scenes via visual perception is a key technology for safe driving and the downstream tasks of autonomous vehicles. Traditional methods infer scene category by detecting scene-related objects or using a classifier that is trained on large datasets of fine-labeled scene images. Whereas at cluttered dynamic scenes such as campus or park, human activities are not strongly confined by rules, and the functional attributes of places are not strongly correlated with objects. So how to define, model and infer scene categories is crucial to make the technique really helpful in assisting a robot to pass through the scene. This paper proposes a method of task-driven driving scene categorization using weakly supervised data. Given a front-view video of a driving scene, a set of anchor points is marked by following the decision making of a human driver, where an anchor point is not a semantic label but an indicator meaning the semantic attribute of the scene is different from that of the previous one. A measure is learned to discriminate the scenes of different semantic attributes via contrastive learning, and a driving scene profiling and categorization method is developed based on that measure. Experiments are conducted on a front-view video that is recorded when a vehicle passed through the cluttered dynamic campus of Peking University. The scenes are categorized into straight road, turn road and alerting traffic. The results of semantic scene similarity learning and driving scene categorization are extensively studied, and positive result of scene categorization is 97.17 \% on the learning video and 85.44\% on the video of new scenes. | 翻訳日:2021-03-11 14:45:42 公開日:2021-03-10 |
# 点雲列におけるモデルフリー車両追跡と状態推定 Model-free Vehicle Tracking and State Estimation in Point Cloud Sequences ( http://arxiv.org/abs/2103.06028v1 ) ライセンス: Link先を確認 | Ziqi Pang, Zhichao Li, Naiyan Wang | (参考訳) 周囲の交通参加者の状態を推定することは、自動運転の中核にとどまる。
本稿では,第1フレームのオブジェクト状態を入力としてモデルフリーの単一オブジェクトトラッキング(SOT)と,その後のフレームにおける状態推定とトラッキングを共同で解決する,この問題の新たな設定について検討する。
この新しい設定の主な目的は、マルチオブジェクトトラッキングにおける一般的な「検出と追跡」スキームの強い制限を破ることです。
さらに,提案するタスクの副産物である点群をオーバーレイすることで形状が完成し,状態推定の性能が向上するだけでなく,多数の応用例があることに気付いた。
このタスクのベンチマークは今のところ利用できないため、新しいデータセットLiDAR-SOTとWaymo Openデータセットに基づいた対応する評価プロトコルを構築しています。
そこで我々は,点群登録,車両形状,動作優先度に基づく最適化アルゴリズムSOTrackerを提案する。
SOTrackerの有効性を定量的かつ定性的に証明し、LiDARデータの空間性や急激な動きの変化などを含む点雲におけるSOTの難問を明らかにする。
最後に,提案するタスクとアルゴリズムが,lidarスキャンのシミュレーション,モーションデータの生成,光学フローのアノテーションなど,他の自動運転アプリケーションにどのように役立つかについても検討する。
ベンチマークとアルゴリズムのコードとプロトコルはhttps://github.com/TuSimple/LiDAR_SOT/で入手できます。
ビデオデモはhttps://www.youtube.com/watch?v=BpHixKs91i8 です。 Estimating the states of surrounding traffic participants stays at the core of autonomous driving. In this paper, we study a novel setting of this problem: model-free single object tracking (SOT), which takes the object state in the first frame as input, and jointly solves state estimation and tracking in subsequent frames. The main purpose for this new setting is to break the strong limitation of the popular "detection and tracking" scheme in multi-object tracking. Moreover, we notice that shape completion by overlaying the point clouds, which is a by-product of our proposed task, not only improves the performance of state estimation but also has numerous applications. As no benchmark for this task is available so far, we construct a new dataset LiDAR-SOT and corresponding evaluation protocols based on the Waymo Open dataset. We then propose an optimization-based algorithm called SOTracker based on point cloud registration, vehicle shapes, and motion priors. Our quantitative and qualitative results prove the effectiveness of our SOTracker and reveal the challenging cases for SOT in point clouds, including the sparsity of LiDAR data, abrupt motion variation, etc. Finally, we also explore how the proposed task and algorithm may benefit other autonomous driving applications, including simulating LiDAR scans, generating motion data, and annotating optical flow. The code and protocols for our benchmark and algorithm are available at https://github.com/TuSimple/LiDAR_SOT/ . A video demonstration is at https://www.youtube.com/watch?v=BpHixKs91i8 . | 翻訳日:2021-03-11 14:45:15 公開日:2021-03-10 |
# 深い相互情報最大化によるクロスモーダル画像検索 Cross-modal Image Retrieval with Deep Mutual Information Maximization ( http://arxiv.org/abs/2103.06032v1 ) ライセンス: Link先を確認 | Chunbin Gu, Jiajun Bu, Xixi Zhou, Chengwei Yao, Dongfang Ma, Zhi Yu, Xifeng Yan | (参考訳) 本稿では,この画像と所望の画像の特定の修正を記述したテキストに加えて,入力がソース画像を含むクロスモーダル画像検索について検討する。
先行研究は通常、この課題に取り組むために3段階の戦略を用いる: 1) 入力の特徴を抽出する; 2) ソースイメージとその修正されたテキストの特徴を融合特徴を得るために融合させる; 3) 所望の画像とソースイメージと修正テキストとの類似度をディープメトリック学習を用いて学習する。
従来の画像/テキストエンコーダは距離メトリック学習の有用な表現と共通のペアベース損失関数を学習できるため、新しい融合ネットワークを設計することで検索精度が向上する。
しかし、これらの方法は、異なるモダリティの特徴の一貫性のない分布と表現によって引き起こされるモダリティギャップをうまく処理しないため、特徴融合と類似性学習に大きく影響します。
この問題を軽減するために,テキスト,画像,融合間の依存度を高めることにより,このギャップを橋渡しする手法として,対照的な自己教師型学習手法であるDeep InforMax(DIM)を採用した。
本手法では, テキストモダリティと画像モダリティの間のモダリティギャップを, 意味的には一致しない表現間の相互情報を最大化する。
さらに,画像エンコーダの低レベル層と融合ネットワークの高レベル層との間のDeep InforMaxを利用して,意味的に同一の融合特徴と所望の画像特徴の効果的な共通部分空間を求める。
3つの大規模ベンチマークデータセットに関する広範な実験により,異なるモダリティ間のモダリティギャップを橋渡しし,最先端の検索性能を実現することができた。 In this paper, we study the cross-modal image retrieval, where the inputs contain a source image plus some text that describes certain modifications to this image and the desired image. Prior work usually uses a three-stage strategy to tackle this task: 1) extract the features of the inputs; 2) fuse the feature of the source image and its modified text to obtain fusion feature; 3) learn a similarity metric between the desired image and the source image + modified text by using deep metric learning. Since classical image/text encoders can learn the useful representation and common pair-based loss functions of distance metric learning are enough for cross-modal retrieval, people usually improve retrieval accuracy by designing new fusion networks. However, these methods do not successfully handle the modality gap caused by the inconsistent distribution and representation of the features of different modalities, which greatly influences the feature fusion and similarity learning. To alleviate this problem, we adopt the contrastive self-supervised learning method Deep InforMax (DIM) to our approach to bridge this gap by enhancing the dependence between the text, the image, and their fusion. Specifically, our method narrows the modality gap between the text modality and the image modality by maximizing mutual information between their not exactly semantically identical representation. Moreover, we seek an effective common subspace for the semantically same fusion feature and desired image's feature by utilizing Deep InforMax between the low-level layer of the image encoder and the high-level layer of the fusion network. Extensive experiments on three large-scale benchmark datasets show that we have bridged the modality gap between different modalities and achieve state-of-the-art retrieval performance. | 翻訳日:2021-03-11 14:44:50 公開日:2021-03-10 |
# U-Net Transformer: 医療画像セグメンテーションのための自己およびクロスアテンション U-Net Transformer: Self and Cross Attention for Medical Image Segmentation ( http://arxiv.org/abs/2103.06104v1 ) ライセンス: Link先を確認 | Olivier Petit, Nicolas Thome, Cl\'ement Rambour, Luc Soler | (参考訳) 医療画像セグメンテーションは、複雑で低コントラストな解剖学的構造にとって特に困難です。
本稿では,イメージセグメンテーションのためのU字型アーキテクチャと,トランスフォーマーからの自己および相互アテンションを組み合わせたU-Transformerネットワークを提案する。
U-Transformerは、U-Netが長距離のコンテキスト相互作用と空間依存をモデル化できないことを克服している。
この目的のために、セルフアテンションモジュールはエンコーダ特徴間のグローバルな相互作用を活用する一方、スキップ接続におけるクロスアテンションは、非セマンティック特徴をフィルタリングすることでU-Netデコーダの空間的復元を可能にする。
2つの腹部CT画像データセットの実験は、U-NetおよびローカルアテンションU-Netと比較してU-Transformerがもたらした大きなパフォーマンス向上を示しています。
また,U-Transformerが生み出した自己認識と相互認識の両面の重要性を強調した。 Medical image segmentation remains particularly challenging for complex and low-contrast anatomical structures. In this paper, we introduce the U-Transformer network, which combines a U-shaped architecture for image segmentation with self- and cross-attention from Transformers. U-Transformer overcomes the inability of U-Nets to model long-range contextual interactions and spatial dependencies, which are arguably crucial for accurate segmentation in challenging contexts. To this end, attention mechanisms are incorporated at two main levels: a self-attention module leverages global interactions between encoder features, while cross-attention in the skip connections allows a fine spatial recovery in the U-Net decoder by filtering out non-semantic features. Experiments on two abdominal CT-image datasets show the large performance gain brought out by U-Transformer compared to U-Net and local Attention U-Nets. We also highlight the importance of using both self- and cross-attention, and the nice interpretability features brought out by U-Transformer. | 翻訳日:2021-03-11 14:44:18 公開日:2021-03-10 |
# Sim2Real 3D Object Classification using Spherical Kernel Point Convolution and a Deep Center Voting Scheme Sim2Real 3D Object Classification using Spherical Kernel Point Convolution and a Deep Center Voting Scheme ( http://arxiv.org/abs/2103.06134v1 ) ライセンス: Link先を確認 | Jean-Baptiste Weibel, Timothy Patten, Markus Vincze | (参考訳) ほとんどのサービスロボットタスクでは、オブジェクトの意味的理解が不可欠ですが、3Dオブジェクト分類は依然としてオープンな問題です。
人工的な3dモデルからの学習は、この問題に取り組むのに必要なアノテーションのコストを軽減するが、ほとんどの方法は、人工的な3dデータと実際の3dデータの違いに未だに苦労している。
我々は、これらの問題の原因は、多くの方法が形状ではなく、点座標から直接学習するという事実であると考えます。
グラフとして表される物体表面を直接利用する球状核点畳み込みと,分類結果に対するセグメンテーション不良の影響を制限するための投票方式について紹介する。
提案手法は,人工物体から実物体へ移動する際に,最先端の手法を最大36%改善する。 While object semantic understanding is essential for most service robotic tasks, 3D object classification is still an open problem. Learning from artificial 3D models alleviates the cost of annotation necessary to approach this problem, but most methods still struggle with the differences existing between artificial and real 3D data. We conjecture that the cause of those issue is the fact that many methods learn directly from point coordinates, instead of the shape, as the former is hard to center and to scale under variable occlusions reliably. We introduce spherical kernel point convolutions that directly exploit the object surface, represented as a graph, and a voting scheme to limit the impact of poor segmentation on the classification results. Our proposed approach improves upon state-of-the-art methods by up to 36% when transferring from artificial objects to real objects. | 翻訳日:2021-03-11 14:43:59 公開日:2021-03-10 |
# 適切なセグメンテーションメトリクスを使っているか?
DICE係数を超えるCNN訓練における人間の専門家知覚の相関関係の同定 Are we using appropriate segmentation metrics? Identifying correlates of human expert perception for CNN training beyond rolling the DICE coefficient ( http://arxiv.org/abs/2103.06205v1 ) ライセンス: Link先を確認 | Florian Kofler, Ivan Ezhov, Fabian Isensee, Fabian Balsiger, Christoph Berger, Maximilian Koerner, Johannes Paetzold, Hongwei Li, Suprosanna Shit, Richard McKinley, Spyridon Bakas, Claus Zimmer, Donna Ankerst, Jan Kirschke, Benedikt Wiestler, Bjoern H. Menze | (参考訳) 本研究では,質的人間エキスパート知覚の定量的相関について検討する。
バイオメディカル画像分割課題に考慮された現在の品質指標と損失関数は、専門家によるセグメンテーション品質評価と適度に相関していること、特に脳グリオーマの腫瘍増強など、臨床的に関連のある小さな構造について発見する。
本研究では,古典統計学と実験心理学を用いて,現代の深層学習手法を補完する複合損失関数を創出し,人間の品質評価に適合させる手法を提案する。
MRI画像で成人脳腫瘍を同定するためのCNNを訓練する場合、提案された4つの損失候補は、他のラベルチャネルのパフォーマンスを維持しながら、腫瘍ラベルを増強する臨床的に重要かつ最も難しいセグメント上の確立されたベースラインよりも優れています。 In this study, we explore quantitative correlates of qualitative human expert perception. We discover that current quality metrics and loss functions, considered for biomedical image segmentation tasks, correlate moderately with segmentation quality assessment by experts, especially for small yet clinically relevant structures, such as the enhancing tumor in brain glioma. We propose a method employing classical statistics and experimental psychology to create complementary compound loss functions for modern deep learning methods, towards achieving a better fit with human quality assessment. When training a CNN for delineating adult brain tumor in MR images, all four proposed loss candidates outperform the established baselines on the clinically important and hardest to segment enhancing tumor label, while maintaining performance for other label channels. | 翻訳日:2021-03-11 14:43:42 公開日:2021-03-10 |
# 相関イメージングのための登録誤差推定フレームワーク A registration error estimation framework for correlative imaging ( http://arxiv.org/abs/2103.06256v1 ) ライセンス: Link先を確認 | Guillaume Potier, Fr\'ed\'eric Lavancier, Stephan Kunne and Perrine Paul-Gilloteaux | (参考訳) コリレーティブイメージングワークフローは現在、バイオイメージングに広く使われており、少なくとも2つの異なる相補的なイメージングモードを使用して同じサンプルをイメージすることを目指している。
ワークフローの一部は、ソースイメージとターゲットイメージをリンクする変換を見つけることに依存します。
ポイントベースの登録における登録エラーの推定に特に興味があります。
本研究では, 登録問題に対する多変量線形回帰の応用を提案し, 剛性およびアフィン変換時および異方性雑音時における関連誤差推定の枠組みを提案する。
これらの開発は、生物学者がマルチモーダル相関画像を分析するための意思決定支援ツールとして使用することができ、ICYのオープンソースプラグインであるEc-CLEMの下で利用可能である。 Correlative imaging workflows are now widely used in bioimaging and aims to image the same sample using at least two different and complementary imaging modalities. Part of the workflow relies on finding the transformation linking a source image to a target image. We are specifically interested in the estimation of registration error in point-based registration. We propose an application of multivariate linear regression to solve the registration problem allowing us to propose a framework for the estimation of the associated error in the case of rigid and affine transformations and with anisotropic noise. These developments can be used as a decision-support tool for the biologist to analyze multimodal correlative images and are available under Ec-CLEM, an open-source plugin under ICY. | 翻訳日:2021-03-11 14:43:24 公開日:2021-03-10 |
# 機械学習に応用したトポロジー: グローバルからローカルへ Topology Applied to Machine Learning: From Global to Local ( http://arxiv.org/abs/2103.05796v1 ) ライセンス: Link先を確認 | Henry Adams and Michael Moy | (参考訳) 実例を用いて,2000年代初頭の持続的ホモロジーの誕生以来,応用トポロジーが進化してきた1つの方法を説明する。
最初のデータへのトポロジーの応用は、自然画像からの3-円3$ピクセルパッチの3つの円モデルや、2つの特異点の円を介してクラインボトルが取り付けられた球体であるシクロオクタン分子の構成空間など、データセットの全体的な形状を強調した。
全球形状の研究では、短い持続ホモロジーバーはサンプリングノイズとして無視される。
しかし、最近では永続ホモロジーがデータの局所幾何学に関する疑問に答えるために使われてきた。
例えば、機械学習の問題で使用するために、ローカルジオメトリをベクトル化する方法は?
永続的ホモロジーとそのベクトル化手法は、局所幾何学とグローバルトポロジの両方を機械学習に組み込む一般的な技術を提供する。
私たちのメタ仮説は、短いバーが多くの機械学習タスクの長いバーと同じくらい重要であるということです。
この主張を擁護するために, 形状認識, エージェントベースモデリング, 材料科学, 考古学, 生物学への永続的ホモロジーの適用について検討する。
さらに,永続ホモロジーを曲率やフラクタル次元を含む空間の幾何学的特徴と結びつける研究や,永続ホモロジーを機械学習に組み込むための様々な手法について検討した。 Through the use of examples, we explain one way in which applied topology has evolved since the birth of persistent homology in the early 2000s. The first applications of topology to data emphasized the global shape of a dataset, such as the three-circle model for $3 \times 3$ pixel patches from natural images, or the configuration space of the cyclo-octane molecule, which is a sphere with a Klein bottle attached via two circles of singularity. In these studies of global shape, short persistent homology bars are disregarded as sampling noise. More recently, however, persistent homology has been used to address questions about the local geometry of data. For instance, how can local geometry be vectorized for use in machine learning problems? Persistent homology and its vectorization methods, including persistence landscapes and persistence images, provide popular techniques for incorporating both local geometry and global topology into machine learning. Our meta-hypothesis is that the short bars are as important as the long bars for many machine learning tasks. In defense of this claim, we survey applications of persistent homology to shape recognition, agent-based modeling, materials science, archaeology, and biology. Additionally, we survey work connecting persistent homology to geometric features of spaces, including curvature and fractal dimension, and various methods that have been used to incorporate persistent homology into machine learning. | 翻訳日:2021-03-11 14:42:40 公開日:2021-03-10 |
# 均一凸集合上の線形バンド Linear Bandits on Uniformly Convex Sets ( http://arxiv.org/abs/2103.05907v1 ) ライセンス: Link先を確認 | Thomas Kerdreux, Christophe Roux, Alexandre d'Aspremont, Sebastian Pokutta | (参考訳) 線形バンディットアルゴリズムは、$\tilde{\mathcal{O}}(n\sqrt{T})$ コンパクト凸作用集合上の擬似調整境界 $\mathcal{K}\subset\mathbb{R}^n$ を生成し、構造上の仮定の2つのタイプは、より良い擬似補正境界をもたらす。
$\mathcal{K}$ が単純あるいは $\ell_p$ ball with $p\in]1,2]$ であるとき、$\tilde{\mathcal{O}}(\sqrt{nT})$ pseudo-regret bounds を持つバンディットアルゴリズムが存在する。
ここでは、$\tilde{\mathcal{O}}(\sqrt{nT})$の擬似残界を楽しむ $\ell_p$ 球を超えるいくつかの強凸集合のバンディットアルゴリズムを導出し、[BCB12, \S 5.5.] から開放的な質問に答える。
興味深いことに、作用集合が一様凸であるが必ずしも強凸でないとき、$\mathcal{O}(\sqrt{n})$より小さい次元依存を持つ擬回帰境界を得る。
しかし、これは、$\tilde{\mathcal{O}}(\sqrt{T})$と$\tilde{\mathcal{O}}(T)$の間に異なる$T$の漸近率を犠牲にしている。 Linear bandit algorithms yield $\tilde{\mathcal{O}}(n\sqrt{T})$ pseudo-regret bounds on compact convex action sets $\mathcal{K}\subset\mathbb{R}^n$ and two types of structural assumptions lead to better pseudo-regret bounds. When $\mathcal{K}$ is the simplex or an $\ell_p$ ball with $p\in]1,2]$, there exist bandits algorithms with $\tilde{\mathcal{O}}(\sqrt{nT})$ pseudo-regret bounds. Here, we derive bandit algorithms for some strongly convex sets beyond $\ell_p$ balls that enjoy pseudo-regret bounds of $\tilde{\mathcal{O}}(\sqrt{nT})$, which answers an open question from [BCB12, \S 5.5.]. Interestingly, when the action set is uniformly convex but not necessarily strongly convex, we obtain pseudo-regret bounds with a dimension dependency smaller than $\mathcal{O}(\sqrt{n})$. However, this comes at the expense of asymptotic rates in $T$ varying between $\tilde{\mathcal{O}}(\sqrt{T})$ and $\tilde{\mathcal{O}}(T)$. | 翻訳日:2021-03-11 14:42:14 公開日:2021-03-10 |
# 驚きの適切性のレビューと洗練 A Review and Refinement of Surprise Adequacy ( http://arxiv.org/abs/2103.05939v1 ) ライセンス: Link先を確認 | Michael Weiss and Rwiddhi Chakraborty and Paolo Tonella | (参考訳) Surprise Adequacy (SA)は、ディープラーニング(DL)テストにおいて、新しく最も有望なAdequacy基準の1つである。
適切な基準として、DLテストスイートの強度を評価するために使用されます。
さらに、トレーニングデータに十分に表現されていないディープニューラルネットワーク(DNN)への入力や、DNNの再トレーニング用のサンプルの選択にも使用されている。
しかし、テストスイートのSAメトリックの計算は、距離計算の二次数を含むため、非常に高価である可能性があります。
そこで,性能を最適化するが機能的に等価なsaの実装を開発・リリースし,評価時間を最大97\%削減した。
また,sa omputation アルゴリズムの改良版を提案し,さらなる評価速度の向上を目指す。
mnist について実験を行い,sa の分布検出能力に着目し,sa の初回リリース時に提示した結果の一部を再現した。
実験の結果, 改良された変種は通常のSAよりもかなり高速であり, 同等の結果が得られた。
私たちの実験結果は、dnnトレーニング手順に関連する非決定性に非常に敏感なsaの問題も露呈しています。 Surprise Adequacy (SA) is one of the emerging and most promising adequacy criteria for Deep Learning (DL) testing. As an adequacy criterion, it has been used to assess the strength of DL test suites. In addition, it has also been used to find inputs to a Deep Neural Network (DNN) which were not sufficiently represented in the training data, or to select samples for DNN retraining. However, computation of the SA metric for a test suite can be prohibitively expensive, as it involves a quadratic number of distance calculations. Hence, we developed and released a performance-optimized, but functionally equivalent, implementation of SA, reducing the evaluation time by up to 97\%. We also propose refined variants of the SA omputation algorithm, aiming to further increase the evaluation speed. We then performed an empirical study on MNIST, focused on the out-of-distribution detection capabilities of SA, which allowed us to reproduce parts of the results presented when SA was first released. The experiments show that our refined variants are substantially faster than plain SA, while producing comparable outcomes. Our experimental results exposed also an overlooked issue of SA: it can be highly sensitive to the non-determinism associated with the DNN training procedure. | 翻訳日:2021-03-11 14:41:44 公開日:2021-03-10 |
# 高次元機械学習における平均場法とアルゴリズム的視点 Mean-field methods and algorithmic perspectives for high-dimensional machine learning ( http://arxiv.org/abs/2103.05945v1 ) ライセンス: Link先を確認 | Benjamin Aubin | (参考訳) ほとんどの機械学習アルゴリズムの分析で生じる主な困難は、多数の相互作用するランダム変数を、解析的に、そして数値的に扱うことである。
この博士論文では、乱れたシステムの統計物理学のツールに基づいたアプローチを再検討する。
リッチな文献を通して開発され、多数の粒子のマクロな挙動を微視的相互作用から推測するように設計されている。
この研究の核心は、様々な理論モデルの位相図に光を当てるために、レプリカ法とメッセージパッシングアルゴリズムの深い関係を生かして、統計的閾値とアルゴリズム的しきい値の間の潜在的な差異を強調したものである。
基本的には、教師-学生パラダイムで生成された合成タスクとデータに焦点をあてる。
特に、これらの平均場法をベイズ最適解析に応用し、パーセプトロンに対するラデマチャー一般化境界を最悪のケースで解析し、一般化線形モデルの文脈における経験的リスク最小化を行う。
最後に,ニューラルネットワークを用いたランダム重み付き生成モデルを用いて,構造化事前情報を用いた推定モデルを解析するフレームワークを開発した。 The main difficulty that arises in the analysis of most machine learning algorithms is to handle, analytically and numerically, a large number of interacting random variables. In this Ph.D manuscript, we revisit an approach based on the tools of statistical physics of disordered systems. Developed through a rich literature, they have been precisely designed to infer the macroscopic behavior of a large number of particles from their microscopic interactions. At the heart of this work, we strongly capitalize on the deep connection between the replica method and message passing algorithms in order to shed light on the phase diagrams of various theoretical models, with an emphasis on the potential differences between statistical and algorithmic thresholds. We essentially focus on synthetic tasks and data generated in the teacher-student paradigm. In particular, we apply these mean-field methods to the Bayes-optimal analysis of committee machines, to the worst-case analysis of Rademacher generalization bounds for perceptrons, and to empirical risk minimization in the context of generalized linear models. Finally, we develop a framework to analyze estimation models with structured prior informations, produced for instance by deep neural networks based generative models with random weights. | 翻訳日:2021-03-11 14:41:23 公開日:2021-03-10 |
# 対称テンソル分解における対称性破壊 Symmetry Breaking in Symmetric Tensor Decomposition ( http://arxiv.org/abs/2103.06234v1 ) ライセンス: Link先を確認 | Yossi Arjevani, Joan Bruna, Michael Field, Joe Kileel, Matthew Trager, Francis Williams | (参考訳) 本稿では,対称テンソルのランク分解の計算に伴う最適化問題について考察する。
我々は、よく定義された意味で、この非常に非凸な最適化問題におけるミニマが、ターゲットテンソルの対称性を損なうが、あまり多くはないことを示す。
この対称性の破れ現象は、テンソルノルムの様々な選択に適用され、最近開発された対称性に基づく分析ツールのセットを使って最適化の風景を研究することができる。
対象関数が多変量多項式であるという事実は、対称性破れ現象に関するより洗練された情報を得るために計算代数学から記号的手法を適用することができる。 In this note, we consider the optimization problem associated with computing the rank decomposition of a symmetric tensor. We show that, in a well-defined sense, minima in this highly nonconvex optimization problem break the symmetry of the target tensor -- but not too much. This phenomenon of symmetry breaking applies to various choices of tensor norms, and makes it possible to study the optimization landscape using a set of recently-developed symmetry-based analytical tools. The fact that the objective function under consideration is a multivariate polynomial allows us to apply symbolic methods from computational algebra to obtain more refined information on the symmetry breaking phenomenon. | 翻訳日:2021-03-11 14:41:05 公開日:2021-03-10 |
# 逆問題に対する変分推論フレームワーク A Variational Inference Framework for Inverse Problems ( http://arxiv.org/abs/2103.05909v1 ) ライセンス: Link先を確認 | Luca Maestrini, Robert G. Aykroyd and Matt P. Wand | (参考訳) 変動ベイズ近似による逆問題モデル適合の枠組みを提案する。
この手法は、標準的なマルコフ連鎖モンテカルロ法と比較して、幅広いアプリケーションに対する統計モデル仕様の柔軟性、精度の向上、モデルの適合時間短縮を保証する。
私たちが説明する変分ベイズに対するメッセージパッシングと因子グラフフラグメントのアプローチは、近似推論アルゴリズムの実装を合理化し、ソフトウェア開発の基礎を形成する。
このようなアプローチにより、多数の応答分布とペナリゼーションを逆問題モデルに置き換えることができる。
解析は1次元および2次元の応答変数に概説されるが,変数間の弱い相互作用の無効化に基づくアルゴリズムステップの合理化は,高次元の逆問題に拡張可能である。
生体医学的・考古学的問題に動機づけられた画像処理アプリケーションもイラストに含まれています。 We present a framework for fitting inverse problem models via variational Bayes approximations. This methodology guarantees flexibility to statistical model specification for a broad range of applications, good accuracy performances and reduced model fitting times, when compared with standard Markov chain Monte Carlo methods. The message passing and factor graph fragment approach to variational Bayes we describe facilitates streamlined implementation of approximate inference algorithms and forms the basis to software development. Such approach allows for supple inclusion of numerous response distributions and penalizations into the inverse problem model. Albeit our analysis is circumscribed to one- and two-dimensional response variables, we lay down an infrastructure where streamlining algorithmic steps based on nullifying weak interactions between variables are extendible to inverse problems in higher dimensions. Image processing applications motivated by biomedical and archaeological problems are included as illustrations. | 翻訳日:2021-03-11 14:40:53 公開日:2021-03-10 |
# マルチモーダル医用画像におけるオーバーサンプリング誤差はギブス効果による Oversampling errors in multimodal medical imaging are due to the Gibbs effect ( http://arxiv.org/abs/2103.05964v1 ) ライセンス: Link先を確認 | Davide Poggiali, Diego Cecchin, Cristina Campi, Stefano De Marchi | (参考訳) マルチモーダルな3次元医用画像の解析には補間が必要であり, 必然的に補間誤差が生じる。
本研究では,アンダーサンプリングとオーバーサンプリング戦略を比較し,オーバーサンプリングエラーの所在を特定するために,3種類のニューロイメージングソフトウェアツールを組み込んだ3次元画像について検討する。
その結果,最下位画像サイズに対するアンダーサンプリングはセグメント誤差毎の平均値において有利であり,オーバーサンプリング誤差は勾配が急勾配である場合に大きく,ギブス効果を示すことがわかった。 To analyse multimodal 3-dimensional medical images, interpolation is required for resampling which - unavoidably - introduces an interpolation error. In this work we consider three segmented 3-dimensional images resampled with three different neuroimaging software tools for comparing undersampling and oversampling strategies and to identify where the oversampling error lies. The results indicate that undersampling to the lowest image size is advantageous in terms of mean value per segment errors and that the oversampling error is larger where the gradient is steeper, showing a Gibbs effect. | 翻訳日:2021-03-11 14:40:11 公開日:2021-03-10 |
# rmp2: ロボット学習のための構造化コンポーザブルポリシークラス RMP2: A Structured Composable Policy Class for Robot Learning ( http://arxiv.org/abs/2103.05922v1 ) ライセンス: Link先を確認 | Anqi Li, Ching-An Cheng, M. Asif Rana, Man Xie, Karl Van Wyk, Nathan Ratliff, Byron Boots | (参考訳) RMPflowが指定する構造化ポリシークラスを用いて、加速型ロボットシステムの動作ポリシーを学習する問題を検討する。
RMPflowはマルチタスク制御フレームワークであり、多くのロボティクス問題にうまく適用されている。
学習における構造化ポリシークラスとしてRMPflowを使用することは、十分な表現性、事前知識の異なるレベルを注入する柔軟性、ロボット間でポリシーを転送する能力など、いくつかのメリットがある。
しかし、エンドツーエンド学習のためのRMPflowポリシーの実装は、いくつかの計算課題に直面している。
本研究では、RMPflowのメッセージパッシングアルゴリズムを再検討し、RMPflowポリシーの計算に現代的な自動微分ツール(TensorFlowやPyTorchなど)を使用するRMP2という、より効率的な代替アルゴリズムを提案する。
新しい設計では,RMPflowの強みを保ちながら,1)複雑な変換を設計する簡単なプログラミングインターフェース,2)汎用非巡回グラフ(DAG)変換構造のサポート,3)ポリシー学習におけるエンドツーエンドの微分可能性,4)計算効率の向上など,自動微分の利点を生かしている。
これらの特徴により、rmp2はドメイン知識のエンコーディングに適した効率的なロボット学習のための構造化ポリシークラスとして扱うことができる。
本実験では,RMP2が付与する構造化ポリシクラスを使用することで,目標達成のための強化学習タスクにおけるポリシパフォーマンスと安全性を改善できることを示した。 We consider the problem of learning motion policies for acceleration-based robotics systems with a structured policy class specified by RMPflow. RMPflow is a multi-task control framework that has been successfully applied in many robotics problems. Using RMPflow as a structured policy class in learning has several benefits, such as sufficient expressiveness, the flexibility to inject different levels of prior knowledge as well as the ability to transfer policies between robots. However, implementing a system for end-to-end learning RMPflow policies faces several computational challenges. In this work, we re-examine the message passing algorithm of RMPflow and propose a more efficient alternate algorithm, called RMP2, that uses modern automatic differentiation tools (such as TensorFlow and PyTorch) to compute RMPflow policies. Our new design retains the strengths of RMPflow while bringing in advantages from automatic differentiation, including 1) easy programming interfaces to designing complex transformations; 2) support of general directed acyclic graph (DAG) transformation structures; 3) end-to-end differentiability for policy learning; 4) improved computational efficiency. Because of these features, RMP2 can be treated as a structured policy class for efficient robot learning which is suitable encoding domain knowledge. Our experiments show that using structured policy class given by RMP2 can improve policy performance and safety in reinforcement learning tasks for goal reaching in cluttered space. | 翻訳日:2021-03-11 14:39:59 公開日:2021-03-10 |
# 完全なグラディエントDQN強化学習: おそらく収束型スキーム Full Gradient DQN Reinforcement Learning: A Provably Convergent Scheme ( http://arxiv.org/abs/2103.05981v1 ) ライセンス: Link先を確認 | K. Avrachenkov, V.S. Borkar, H.P. Dolhare, K. Patil | (参考訳) DQN強化学習アルゴリズムを確率近似法としてo.d.eを用いて解析する。
(正規微分方程式) のアプローチと、ある理論的問題を指摘する。
そこで本研究では,音の理論的基礎を持つフルグラデーションdqn(fg-dqn,略してfg-dqn)と呼ばれる修正スキームを提案し,サンプル問題に対する元のスキームと比較する。
我々はFG-DQNのより良い性能を観察する。 We analyze the DQN reinforcement learning algorithm as a stochastic approximation scheme using the o.d.e. (for `ordinary differential equation') approach and point out certain theoretical issues. We then propose a modified scheme called Full Gradient DQN (FG-DQN, for short) that has a sound theoretical basis and compare it with the original scheme on sample problems. We observe a better performance for FG-DQN. | 翻訳日:2021-03-11 14:39:31 公開日:2021-03-10 |
# チェレンコフ望遠鏡アレイの背景拒絶手法としての光センサタイミング情報を用いた深層学習 Deep learning with photosensor timing information as a background rejection method for the Cherenkov Telescope Array ( http://arxiv.org/abs/2103.06054v1 ) ライセンス: Link先を確認 | Samuel Spencer, Thomas Armstrong, Jason Watson, Salvatore Mangano, Yves Renier, Garret Cotter | (参考訳) 新しい深層学習技術は、今後のチェレンコフ望遠鏡アレイ(CTA)のようなイメージング大気チェレンコフ望遠鏡(IACT)のための有望な新しい分析方法を提示します。
特に、畳み込みニューラルネットワーク(CNN)の使用は、チェレンコフシャワー画像に含まれるすべての情報を使用して、画像のパラメータ化の必要性を回避し、データの高速処理を可能にする、直接イベント分類方法を提供することができます。
この分野での既存の作業は、IACTカメラの光増倍器から統合された電荷の画像を利用してきたが、現在および今後のIACTカメラの大半は、トリガー後の光センサーの波形全体を読み取る能力を持っている。
カメラ平面における広範囲のエアシャワー(EAS)からのチェレンコフ光子の到着時間は、その放出の高度と望遠鏡からの衝撃距離に依存するため、これらの波形はIACTイベント分類に有用な情報を含む。
本研究は,プロトンおよび電子誘導easに対する背景拒絶法として,新しい深層学習手法を用いて,これらのカメラ画素波形を用いる可能性について検討する。
それらの情報を利用する手段は、波形パラメータの7つの追加2次元ピクセルマップを作成することであり、統合電荷画像と共に機械学習アルゴリズムに供給される。
最終的に、電子に対する唯一の分類力は事象の方向に基づくが、タイミング情報に基づく手法はガンマ/ハドロン分離における同様の電荷ベースの手法を上回っているように見える。
また,他の天体物理学実験において,深層学習とタイミング情報を組み合わせたイベント分類手法についても検討した。 New deep learning techniques present promising new analysis methods for Imaging Atmospheric Cherenkov Telescopes (IACTs) such as the upcoming Cherenkov Telescope Array (CTA). In particular, the use of Convolutional Neural Networks (CNNs) could provide a direct event classification method that uses the entire information contained within the Cherenkov shower image, bypassing the need to Hillas parameterise the image and allowing fast processing of the data. Existing work in this field has utilised images of the integrated charge from IACT camera photomultipliers, however the majority of current and upcoming generation IACT cameras have the capacity to read out the entire photosensor waveform following a trigger. As the arrival times of Cherenkov photons from Extensive Air Showers (EAS) at the camera plane are dependent upon the altitude of their emission and the impact distance from the telescope, these waveforms contain information potentially useful for IACT event classification. In this test-of-concept simulation study, we investigate the potential for using these camera pixel waveforms with new deep learning techniques as a background rejection method, against both proton and electron induced EAS. We find that a means of utilising their information is to create a set of seven additional 2-dimensional pixel maps of waveform parameters, to be fed into the machine learning algorithm along with the integrated charge image. Whilst we ultimately find that the only classification power against electrons is based upon event direction, methods based upon timing information appear to out-perform similar charge based methods for gamma/hadron separation. We also review existing methods of event classifications using a combination of deep learning and timing information in other astroparticle physics experiments. | 翻訳日:2021-03-11 14:39:20 公開日:2021-03-10 |
# パラメータ依存偏微分方程式の減数次モデルに対する深層学習法 A Deep Learning approach to Reduced Order Modelling of Parameter Dependent Partial Differential Equations ( http://arxiv.org/abs/2103.06183v1 ) ライセンス: Link先を確認 | Nicola R. Franco, Andrea Manzoni, Paolo Zunino | (参考訳) パラメータ依存型PDEの枠組みの中で,パラメータ対解写像の効率的な近似のためのDeep Neural Networksに基づく構築的アプローチを開発する。
この研究は、コルモゴロフ n-width の遅い崩壊を示す問題に対処する際に、低基底法のような最先端アルゴリズムの限界と欠点に動機づけられている。
私たちの仕事は、解多様体の高い忠実度近似を符号化および復号するために使用する深いオートエンコーダの使用に基づいています。
ニューラルネットワークの近似能力を十分に活用するために、我々は最小潜在次元の概念を基礎とするコルモゴロフ n-幅の非線形バージョンを考える。
この最小次元は解多様体の位相的性質と密接に関連していることを示し、二階楕円型PDEに特に重点を置く理論的な結果を与える。
最後に,提案手法を従来のPOD-Galerkin還元順序モデルと比較した数値実験を報告する。
特に、パラメトリライズされた対流拡散PDEを検討し、強い輸送場、特異項、確率係数の存在下で方法論をテストします。 Within the framework of parameter dependent PDEs, we develop a constructive approach based on Deep Neural Networks for the efficient approximation of the parameter-to-solution map. The research is motivated by the limitations and drawbacks of state-of-the-art algorithms, such as the Reduced Basis method, when addressing problems that show a slow decay in the Kolmogorov n-width. Our work is based on the use of deep autoencoders, which we employ for encoding and decoding a high fidelity approximation of the solution manifold. In order to fully exploit the approximation capabilities of neural networks, we consider a nonlinear version of the Kolmogorov n-width over which we base the concept of a minimal latent dimension. We show that this minimal dimension is intimately related to the topological properties of the solution manifold, and we provide some theoretical results with particular emphasis on second order elliptic PDEs. Finally, we report numerical experiments where we compare the proposed approach with classical POD-Galerkin reduced order models. In particular, we consider parametrized advection-diffusion PDEs, and we test the methodology in the presence of strong transport fields, singular terms and stochastic coefficients. | 翻訳日:2021-03-11 14:38:52 公開日:2021-03-10 |
# 強化学習におけるクレジットアサインメントの情報理論的視点 An Information-Theoretic Perspective on Credit Assignment in Reinforcement Learning ( http://arxiv.org/abs/2103.06224v1 ) ライセンス: Link先を確認 | Dilip Arumugam, Peter Henderson, Pierre-Luc Bacon | (参考訳) 強化学習における信用割当の課題をどう定式化するか?
一般的な直観は、難解なクレジット割り当ての鍵となる貢献者としての寛大さに注意を向け、伝統的なヒューリスティックスは、古典的な適格性トレースを呼び出すことで、ソリューションの一時的な厳格さに目を向ける。
我々は、クレジット割り当てが困難になるのは報酬自体のスパース性ではなく、emph{information sparsity}(情報スパース性)であると仮定する。
我々は、情報理論を用いてこの概念を定義し、クレジット割当が効率的な学習の障害である場合に特徴付けることを提案する。
この観点から、一定の行動方針の下で信用を測定するためのいくつかの情報理論のメカニズムを概説し、情報理論のポテンシャルを有能な与信割り当ての鍵となるツールとして強調する。 How do we formalize the challenge of credit assignment in reinforcement learning? Common intuition would draw attention to reward sparsity as a key contributor to difficult credit assignment and traditional heuristics would look to temporal recency for the solution, calling upon the classic eligibility trace. We posit that it is not the sparsity of the reward itself that causes difficulty in credit assignment, but rather the \emph{information sparsity}. We propose to use information theory to define this notion, which we then use to characterize when credit assignment is an obstacle to efficient learning. With this perspective, we outline several information-theoretic mechanisms for measuring credit under a fixed behavior policy, highlighting the potential of information theory as a key tool towards provably-efficient credit assignment. | 翻訳日:2021-03-11 14:38:33 公開日:2021-03-10 |
# 体操AIに関する調査 : シミュレータから研究課題へ A Survey of Embodied AI: From Simulators to Research Tasks ( http://arxiv.org/abs/2103.04918v3 ) ライセンス: Link先を確認 | Jiafei Duan, Samson Yu, Hui Li Tan, Hongyuan Zhu and Cheston Tan | (参考訳) ネットAI」の時代から「具体化AI」の時代へとパラダイムが変化し、AIアルゴリズムやエージェントは、インターネットから主に収集された画像、ビデオ、テキストのデータセットから学習しなくなりました。
その代わり、実物でもシミュレートであれ、環境との身体的相互作用を通じて学習する。
その結果、インボディードAI研究タスクの多様性をサポートするために、インボディードAIシミュレーターの需要が大幅に増加した。
このインボディードAIへの関心の高まりは、人工知能のさらなる追求に有益であるが、この分野に関する現代的で包括的な調査は行われていない。
本稿では、最先端のAIシミュレータと、それらの間の接続をマッピングする研究を包括的に調査する。
本論文では,9つの最先端のAIシミュレータを7つの特徴からベンチマークすることにより,AI研究におけるシミュレータの利用状況を把握することを目的とする。
最後に、AI研究課題のシミュレータとピラミッド階層に基づいて、AI-視覚探索、視覚ナビゲーション、および具体的質問応答(QA)における主要な研究課題を調査し、最先端のアプローチ、評価、データセットについて述べる。 There has been an emerging paradigm shift from the era of "internet AI" to "embodied AI", whereby AI algorithms and agents no longer simply learn from datasets of images, videos or text curated primarily from the internet. Instead, they learn through embodied physical interactions with their environments, whether real or simulated. Consequently, there has been substantial growth in the demand for embodied AI simulators to support a diversity of embodied AI research tasks. This growing interest in embodied AI is beneficial to the greater pursuit of artificial general intelligence, but there is no contemporary and comprehensive survey of this field. This paper comprehensively surveys state-of-the-art embodied AI simulators and research, mapping connections between these. By benchmarking nine state-of-the-art embodied AI simulators in terms of seven features, this paper aims to understand the simulators in their provision for use in embodied AI research. Finally, based upon the simulators and a pyramidal hierarchy of embodied AI research tasks, this paper surveys the main research tasks in embodied AI -- visual exploration, visual navigation and embodied question answering (QA), covering the state-of-the-art approaches, evaluation and datasets. | 翻訳日:2021-03-11 12:45:55 公開日:2021-03-10 |
# シーングラフ生成のためのセマンティックアンビジティの確率的モデル化 Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation ( http://arxiv.org/abs/2103.05271v2 ) ライセンス: Link先を確認 | Gengcong Yang, Jingyi Zhang, Yong Zhang, Baoyuan Wu, Yujiu Yang | (参考訳) 正確な」シーングラフを生成するために、ほぼ全ての既存手法は決定論的にペアワイズ関係を予測している。
しかし、視覚的関係はしばしば意味的に曖昧である。
具体的には,言語知識に着想を得て,同義的曖昧性,偽性曖昧性,多視点曖昧性という3つのタイプに分類した。
あいまいさは自然に、多様な予測の必要性を動機づける、"emph{implicit multi-label}"の問題に繋がる。
本研究では,プラグアンドプレイ確率不確実性モデリング(PUM)モジュールを提案する。
各組合地域をガウス分布としてモデル化し、その分散は対応する視覚コンテンツの不確実性を測定する。
従来の決定論的手法と比較して、不確実性モデリングは特徴表現の確率性をもたらし、自然に多様な予測を可能にする。
副産物として、PUMはよりきめ細かい関係をカバーし、頻繁な関係に対する偏見の問題を軽減する。
大規模ビジュアルゲノムベンチマークに関する広範な実験は、PUMと新たに提案されたResCAGCNを組み合わせることで、特に平均リコールメトリックの下で最先端のパフォーマンスを達成できることを示しています。
さらに,既存のモデルに組み込むことで,pumの普遍的有効性を証明し,多様で多彩な視覚関係を生み出す能力について洞察的な分析を行う。 To generate "accurate" scene graphs, almost all existing methods predict pairwise relationships in a deterministic manner. However, we argue that visual relationships are often semantically ambiguous. Specifically, inspired by linguistic knowledge, we classify the ambiguity into three types: Synonymy Ambiguity, Hyponymy Ambiguity, and Multi-view Ambiguity. The ambiguity naturally leads to the issue of \emph{implicit multi-label}, motivating the need for diverse predictions. In this work, we propose a novel plug-and-play Probabilistic Uncertainty Modeling (PUM) module. It models each union region as a Gaussian distribution, whose variance measures the uncertainty of the corresponding visual content. Compared to the conventional deterministic methods, such uncertainty modeling brings stochasticity of feature representation, which naturally enables diverse predictions. As a byproduct, PUM also manages to cover more fine-grained relationships and thus alleviates the issue of bias towards frequent relationships. Extensive experiments on the large-scale Visual Genome benchmark show that combining PUM with newly proposed ResCAGCN can achieve state-of-the-art performances, especially under the mean recall metric. Furthermore, we prove the universal effectiveness of PUM by plugging it into some existing models and provide insightful analysis of its ability to generate diverse yet plausible visual relationships. | 翻訳日:2021-03-11 12:45:35 公開日:2021-03-10 |
# ディープラーニングに基づく3Dセグメンテーション:調査 Deep Learning based 3D Segmentation: A Survey ( http://arxiv.org/abs/2103.05423v2 ) ライセンス: Link先を確認 | Yong He, Hongshan Yu, Xiaoyan Liu, Zhengeng Yang, Wei Sun, Yaonan Wang, Qiang Fu, Yanmei Zou and Ajmal Mian | (参考訳) 3Dオブジェクトセグメンテーションは、自動運転、ロボティクス、拡張現実、医療画像分析など、コンピュータビジョンの根本的かつ困難な問題です。
コンピュータビジョン、グラフィックス、機械学習コミュニティから大きな注目を集めています。
伝統的に、3dセグメンテーションは手作りの特徴と工学的手法で行われ、許容できる精度を達成できず、大規模データには一般化できなかった。
2Dコンピュータビジョンにおける大きな成功によって、ディープラーニング技術は、最近3Dセグメンテーションタスクの選択ツールにもなっている。
これにより、さまざまなベンチマークデータセットで評価された多くのメソッドが文献に流入しました。
本論文では,150以上の論文を対象とする深層学習に基づく3Dセグメンテーションの最近の進展を総合的に調査する。
最も一般的に使用されるパイプラインを要約し、ハイライトと欠点を説明し、これらのセグメンテーションメソッドの競合結果を分析する。
分析に基づいて、将来への有望な研究の方向性も提供する。 3D object segmentation is a fundamental and challenging problem in computer vision with applications in autonomous driving, robotics, augmented reality and medical image analysis. It has received significant attention from the computer vision, graphics and machine learning communities. Traditionally, 3D segmentation was performed with hand-crafted features and engineered methods which failed to achieve acceptable accuracy and could not generalize to large-scale data. Driven by their great success in 2D computer vision, deep learning techniques have recently become the tool of choice for 3D segmentation tasks as well. This has led to an influx of a large number of methods in the literature that have been evaluated on different benchmark datasets. This paper provides a comprehensive survey of recent progress in deep learning based 3D segmentation covering over 150 papers. It summarizes the most commonly used pipelines, discusses their highlights and shortcomings, and analyzes the competitive results of these segmentation methods. Based on the analysis, it also provides promising research directions for the future. | 翻訳日:2021-03-11 12:45:11 公開日:2021-03-10 |
# マルチスピーカマルチスタイルテキストから音声へのプリトレーニングと学習可能な話者表現の組み入れに関する研究 Investigating on Incorporating Pretrained and Learnable Speaker Representations for Multi-Speaker Multi-Style Text-to-Speech ( http://arxiv.org/abs/2103.04088v2 ) ライセンス: Link先を確認 | Chung-Ming Chien, Jheng-Hao Lin, Chien-yu Huang, Po-chun Hsu, Hung-yi Lee | (参考訳) 数発のマルチスピーカーマルチスタイルの音声クローニングタスクは、いくつかの参照サンプルを与えられたリファレンススピーカーに似た音声とスピーキングスタイルで発話を合成することです。
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
様々な種類の組込みのうち、音声変換によって事前学習された組込みは最高の性能を達成する。
事前訓練された話者表現と学習可能な話者表現を組み合わせたFastSpeech 2モデルは、少数ショット話者に大きな一般化能力を示し、ICASSP 2021 M2VoCチャレンジの1ショットトラックで2位を獲得した。 The few-shot multi-speaker multi-style voice cloning task is to synthesize utterances with voice and speaking style similar to a reference speaker given only a few reference samples. In this work, we investigate different speaker representations and proposed to integrate pretrained and learnable speaker representations. Among different types of embeddings, the embedding pretrained by voice conversion achieves the best performance. The FastSpeech 2 model combined with both pretrained and learnable speaker representations shows great generalization ability on few-shot speakers and achieved 2nd place in the one-shot track of the ICASSP 2021 M2VoC challenge. | 翻訳日:2021-03-11 12:44:57 公開日:2021-03-10 |