このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200929となっている論文です。

PDF登録状況(公開日: 20200929)

TitleAuthorsAbstract論文公表日・翻訳日
# 漸近クリロフ部分空間を持つ時間依存変分原理

Time Dependent Variational Principle with Ancillary Krylov Subspace ( http://arxiv.org/abs/2005.06104v3 )

ライセンス: Link先を確認
Mingru Yang and Steven R. White(参考訳) 本研究では, 有限行列積状態 (MPS) における時間依存性変動原理 (TDVP) を2次元系や長距離相互作用を持つ1次元系に対して適用するための改良手法を提案する。 本研究では,全球クリロフベクトルを用いた状態平均化により,mpsにおける時間発展状態を表現する手法を提案する。 投影誤差が大幅に低減され,大きな時間ステップが用いられても正確な時間発展が得られることを示した。 1サイトTDVPと組み合わせることで、我々のアプローチは、リアルタイム進化のためのユニタリ性を維持しながら、動的に結合次元を増大させる方法を提供する。 本手法は従来の2サイトTDVPよりも, より正確で, より遅い結合次元成長を示すことができる。

We propose an improved scheme to do the time dependent variational principle (TDVP) in finite matrix product states (MPS) for two-dimensional systems or one-dimensional systems with long range interactions. We present a method to represent the time-evolving state in a MPS with its basis enriched by state-averaging with global Krylov vectors. We show that the projection error is significantly reduced so that precise time evolution can still be obtained even if a larger time step is used. Combined with the one-site TDVP, our approach provides a way to dynamically increase the bond dimension while still preserving unitarity for real time evolution. Our method can be more accurate and exhibit slower bond dimension growth than the conventional two-site TDVP.
翻訳日:2023-05-20 07:58:42 公開日:2020-09-29
# シリコン量子井戸の谷分割に及ぼす量子ホールエッジストリップの影響

Effect of quantum Hall edge strips on valley splitting in silicon quantum wells ( http://arxiv.org/abs/2006.02305v2 )

ライセンス: Link先を確認
Brian Paquelet Wuetz, Merritt P. Losert, Alberto Tosato, Mario Lodari, Peter L. Bavdaz, Lucas Stehouwer, Payam Amin, James S. Clarke, Susan N. Coppersmith, Amir Sammak, Menno Veldhorst, Mark Friesen, and Giordano Scappucci(参考訳) 低次si量子井戸に閉じ込められた2次元電子における導電帯谷のエネルギー分割を決定する。 本研究では,広い範囲の充填因子に対して量子ホール状態における活性化エネルギー測定を行い,垂直磁場$b$とホール密度の谷分割依存性を調べる。 谷分割層の移動ギャップはB$と直線的に増加し、ホール密度とは著しく独立している。 データは、谷の分割がバルク密度ではなく、量子ホールエッジストリップ全体の密度が$eb/h$の漸進的な変化に依存する輸送モデルと一致している。 これらの結果に基づき、谷の分割は密度が116$\mu$ev/10$^{11}$cm$^{-2}$で増加すると推定され、ほぼ完全な量子井戸トップインタフェースの理論的予測と一致している。

We determine the energy splitting of the conduction-band valleys in two-dimensional electrons confined to low-disorder Si quantum wells. We probe the valley splitting dependence on both perpendicular magnetic field $B$ and Hall density by performing activation energy measurements in the quantum Hall regime over a large range of filling factors. The mobility gap of the valley-split levels increases linearly with $B$ and is strikingly independent of Hall density. The data are consistent with a transport model in which valley splitting depends on the incremental changes in density $eB/h$ across quantum Hall edge strips, rather than the bulk density. Based on these results, we estimate that the valley splitting increases with density at a rate of 116 $\mu$eV/10$^{11}$cm$^{-2}$, consistent with theoretical predictions for near-perfect quantum well top interfaces.
翻訳日:2023-05-17 06:40:11 公開日:2020-09-29
# 単一量子エミッタによる損失耐性フォトニッククラスター状態の決定論的生成

Deterministic Generation of Loss-Tolerant Photonic Cluster States with a Single Quantum Emitter ( http://arxiv.org/abs/2007.06608v2 )

ライセンス: Link先を確認
Yuan Zhan, Shuo Sun(参考訳) 木型絡み合い構造を有するフォトニッククラスター状態は、光子損失の量子誤差補正のための効率的な資源を構成する。 しかし、任意のサイズでツリークラスタ状態を生成することは、非常に難しい。 本稿では,1個の量子エミッタのみを用いて任意のサイズのフォトニックツリー状態を生成するプロトコルを提案する。 フォトニックエンタングルメントは、同じエミッタからの放出と再散乱の両方によって確立され、高速かつ資源効率の高いエンタングルメント生成を可能にする。 同じプロトコルを拡張して、より一般的なツリー型の絡み合った状態を生成することもできる。

A photonic cluster state with a tree-type entanglement structure constitutes an efficient resource for quantum error correction of photon loss. But the generation of a tree cluster state with an arbitrary size is notoriously difficult. Here, we propose a protocol to deterministically generate photonic tree states of arbitrary size by using only a single quantum emitter. Photonic entanglement is established through both emission and re-scattering from the same emitter, enabling fast and resource-efficient entanglement generation. The same protocol can also be extended to generate more general tree-type entangled states.
翻訳日:2023-05-10 04:17:42 公開日:2020-09-29
# RoboTed:倫理的リスクアセスメントのケーススタディ

RoboTed: a case study in Ethical Risk Assessment ( http://arxiv.org/abs/2007.15864v2 )

ライセンス: Link先を確認
Alan F.T. Winfield, Katie Winkle(参考訳) リスクアセスメント(英: Risk Assessment)は、リスクを発見して緩和する方法であり、それによって安全性が向上する。 倫理的リスク評価は同じアプローチを用いるが、安全リスクに加えて倫理的リスクをカバーするためにリスクの範囲を広げる。 本稿では,倫理的リスクアセスメント(era)を概説し,責任あるロボティクスの幅広い枠組みの中で時代を定めます。 次に、スマートロボットのおもちゃであるteddy bearのケーススタディで時代を説明している。 ケーススタディでは、ERAの価値と倫理的リスクの考慮が、いかにしてデザイン変更を促すかを示し、その結果、より倫理的で持続可能なロボットが生まれる。

Risk Assessment is a well known and powerful method for discovering and mitigating risks, and hence improving safety. Ethical Risk Assessment uses the same approach but extends the envelope of risk to cover ethical risks in addition to safety risks. In this paper we outline Ethical Risk Assessment (ERA) and set ERA within the broader framework of Responsible Robotics. We then illustrate ERA with a case study of a hypothetical smart robot toy teddy bear: RoboTed. The case study shows the value of ERA and how consideration of ethical risks can prompt design changes, resulting in a more ethical and sustainable robot.
翻訳日:2023-05-07 12:52:14 公開日:2020-09-29
# 開度測定-デバイス非依存量子鍵分布ネットワーク

Open-destination measurement-device-independent quantum key distribution network ( http://arxiv.org/abs/2009.13439v2 )

ライセンス: Link先を確認
Wen-Fei Cao, Yi-Zheng Zhen, Yu-Lin Zheng, Shuai Zhao, Feihu Xu, Li Li, Zeng-Bing Chen, Nai-Le Liu and Kai Chen(参考訳) 量子鍵分布(QKD)ネットワークは、複数の領域でセキュアなランダム性を共有することを約束する。 既存のQKDネットワークスキームやデモは信頼されたリレーに基づいており、ポイントツーポイントのシナリオに限定されている。 本稿では,オープンデスティネーション計測デバイス非依存qkdネットワークという,フレキシブルで拡張可能なスキームを提案する。 このスキームは信頼できないリレーと全ての検出器側チャネル攻撃に対するセキュリティを享受する。 特に、ネットワーク内の他のユーザの助けを借りて、キー配布を達成できる。 例として,2人のユーザがセキュアな通信を確立し,ソースと検出器の双方の不完全性を考慮し,現実的なシミュレーションを行う4ユーザネットワークを詳細に紹介する。

Quantum key distribution (QKD) networks hold promise for sharing secure randomness over multi-partities. Most existing QKD network schemes and demonstrations are based on trusted relays or limited to point-to-point scenario. Here, we propose a flexible and extensible scheme named as open-destination measurement-device-independent QKD network. The scheme enjoys security against untrusted relays and all detector side-channel attacks. Particularly, any users can accomplish key distribution under assistance of others in the network. As an illustration, we show in detail a four-user network where two users establish secure communication and present realistic simulations by taking into account imperfections of both sources and detectors.
翻訳日:2023-04-30 18:40:15 公開日:2020-09-29
# 光子状態の忠実性に関する3つの尺度

Three measures of fidelity for photon states ( http://arxiv.org/abs/2009.13842v1 )

ライセンス: Link先を確認
Iwo Bialynicki-Birula and Zofia Bialynicka-Birula(参考訳) 正準場量子化によって電磁場の量子記述を導入する標準的な方法が唯一の方法ではないことを示す。 ここで光子の相対論的量子力学を出発点として選んだ。 素粒子としての光子の処理は、量子化された電磁場による記述とスムーズに融合するが、本質的な違いも明らかである。 最も印象的な結果は、光子の量子状態に対する様々な忠実度尺度の出現である。 これらの測定は光子の局在を特徴づけるために用いられる。

We show that the standard method of introducing the quantum description of the electromagnetic field -- by canonical field quantization -- is not the only one. We have chosen here the relativistic quantum mechanics of the photon as the starting point. The treatment of photons as elementary particles merges smoothly with the description in terms of the quantized electromagnetic field but it also reveals some essential differences. The most striking result is the appearance of various measures of fidelity for quantum states of photons. These measures are used to characterize the localization of photons.
翻訳日:2023-04-30 16:34:54 公開日:2020-09-29
# 非アベリア格子ゲージ理論における弦・ハドロンダイナミクスのための低温原子量子シミュレータ

Cold Atom Quantum Simulator for String and Hadron Dynamics in Non-Abelian Lattice Gauge Theory ( http://arxiv.org/abs/2009.13969v1 )

ライセンス: Link先を確認
Raka Dasgupta and Indrakshi Raychowdhury(参考訳) 1+1)$-d非可換ゲージ理論のリアルタイムダイナミクスを、超低温原子実験の容量内で十分にシミュレーションするためのアナログ量子シミュレータを提案する。 このスキームは、二次元二部格子における2状態超低温フェルミオン系の実現とその後のトンネル力学の観察を要求する。 SU(2)格子ゲージ理論の新規ループ弦ハドロン形式に基づくこのシミュレーション手法は完全にSU(2)不変であり、弦破れやペア生成のような物理現象の正確な力学をシミュレートする。 このスキームはスケーラブルであり、弱いカップリングレジームの理論をシミュレートするのに特に効果的であり、強いカップリングレジームにおける理論のバルク限界は特定の近似までである。 また、格子ゲージ理論の正確なスペクトルと実時間ダイナミクスの数値ベンチマークを、実験的に実現可能なパラメータの範囲を持つ原子ハミルトニアンのスペクトルと比較する。

We propose an analog quantum simulator for simulating real time dynamics of $(1+1)$-d non-Abelian gauge theory well within the existing capacity of ultracold atom experiments. The scheme calls for the realization of a two-state ultracold fermionic system in a 1-dimensional bipartite lattice, and the observation of subsequent tunneling dynamics. Being based on novel loop string hadron formalism of SU(2) lattice gauge theory, this simulation technique is completely SU(2) invariant and simulates accurate dynamics of physical phenomena such as string breaking and/or pair production. The scheme is scalable, and particularly effective in simulating the theory in weak coupling regime, and also bulk limit of the theory in strong coupling regime up to certain approximations. This paper also presents a numerical benchmark comparison of exact spectrum and real time dynamics of lattice gauge theory to that of the atomic Hamiltonian with experimentally realizable range of parameters.
翻訳日:2023-04-30 16:32:12 公開日:2020-09-29
# 幸福を念頭に置いて日々の自動化を設計する

Designing everyday automation with well-being in mind ( http://arxiv.org/abs/2009.13919v1 )

ライセンス: Link先を確認
Holger Klapperich and Alarith Uhde and Marc Hassenzahl(参考訳) 今日では、自動化は産業に浸透するだけでなく、私たちのプライベートな日常生活のかなりの部分を占めるようになります。 コンビニエンスの増加と"人生の重要事項"のための時間の増加によって、自動化は私たちを日々の雑用から解放します。ロボット掃除場や自動化コーヒーメーカーはボタンを押してバリスタ品質のコーヒーを生産していると思われます。 多くの場合、これらのオファーは疑問を抱かずに受け入れられる。 しかし、より日常的な活動を自動化に委譲することで時間を節約できる一方で、楽しい、有意義な体験の機会も失うかもしれません。 2つのフィールド研究において、手作業によるプロセスは、コーヒー製造の例を用いて、より自動化されたプロセスよりも経験的な利点があることを実証する。 我々は、日々の自動化の潜在的な経験的コストと、より強力な自動化の利点と経験を調和させるために、自動化とインタラクションを設計する方法の戦略を説明する。

Nowadays, automation not only permeates industry but also becomes a substantial part of our private, everyday lives. Driven by the idea of increased convenience and more time for the "important things in life," automation relieves us from many daily chores - robots vacuum floors and automated coffee makers produce supposedly barista-quality coffee on the press of a button. In many cases, these offers are embraced by people without further questioning. However, while we save time by delegating more and more everyday activities to automation, we also may lose chances for enjoyable and meaningful experiences. In two field studies, we demonstrate that a manual process has experiential benefits over more automated processes by using the example of coffee-making. We present a way to account for potential experiential costs of everyday automation and strategies of how to design interaction with automation to reconcile experience with the advantages of a more and more powerful automation.
翻訳日:2023-04-30 16:31:09 公開日:2020-09-29
# 光位相共役による完全自動補償高次元量子暗号

Fully autocompensating high-dimensional quantum cryptography by optical phase conjugation ( http://arxiv.org/abs/2009.13915v1 )

ライセンス: Link先を確認
Jes\'us Li\~nares, Xes\'us Prieto-Blanco, Daniel Balado and Gabriel M. Carral(参考訳) 完全自動補償高次元量子暗号を実現するための光位相共役に基づく双方向量子通信システムを提案する。 摂動によるSU(2N)変換で表される2N空間および偏光モード間のランダム位相シフトと結合がアリスとボブの1ラウンドトリップ後に自動補償されることを証明した。 ボブは単一の光子の源または、代わりにコヒーレントな状態を使い、アリスはそれらを単一の光子レベルまで減衰させるので、高いセキュリティの高次元QKDプロトコルに対して非摂動1量子状態が生成される。

We present a bidirectional quantum communication system based on optical phase conjugation for achieving fully autocompensating high-dimensional quantum cryptography. We prove that random phase shifts and couplings among 2N spatial and polarization optical modes described by SU(2N) transformations due to perturbations are autocompensated after a single round trip between Alice and Bob. Bob can use a source of single photons or, alternatively, coherent states and then Alice attenuates them up to a single photon level, and thus non-perturbated 1-qudit states are generated for high-dimensional QKD protocols, as the BB84 one, of a higher security.
翻訳日:2023-04-30 16:30:54 公開日:2020-09-29
# 超決定論で世界はどのようなものか?

What does the world look like according to superdeterminism? ( http://arxiv.org/abs/2009.13908v1 )

ライセンス: Link先を確認
Augustin Baas, Baptiste Le Bihan(参考訳) ベルの不平等の侵害は、世界にとって重要な事実、すなわち非地方的であることを示すように思われる。 しかし、この結果は、それらを決定する可能性のある過去の事象に関して、測定設定の統計的独立性の仮定に依存している。 スーパー決定論(Super Determinism)とは、ベルの不平等を理由とする局所的決定論者が、この統計的独立の仮定を拒絶することで可能であるという見解を指す。 我々は,超決定論に関する諸問題,特に科学的法則と科学的推論の性質への影響を考察し,考察した。 我々は、この見解は少なくともいくつかの法則のネオヒューム的説明を必要としており、より一般に物理学や科学の他の分野における統計的独立性の使用に重大な問題を引き起こすと論じている。

The violation of Bell inequalities seems to establish an important fact about the world: that it is non-local. However, this result relies on the assumption of the statistical independence of the measurement settings with respect to potential past events that might have determined them. Superdeterminism refers to the view that a local, and determinist, account of Bell inequalities violations is possible, by rejecting this assumption of statistical independence. We examine and clarify various problems with superdeterminism, looking in particular at its consequences on the nature of scientific laws and scientific reasoning. We argue that the view requires a neo-Humean account of at least some laws, and creates a significant problem for the use of statistical independence in other parts of physics and science more generally.
翻訳日:2023-04-30 16:30:44 公開日:2020-09-29
# CMOSを用いたシリコン量子回路の低温制御

CMOS-based cryogenic control of silicon quantum circuits ( http://arxiv.org/abs/2009.14185v1 )

ライセンス: Link先を確認
Xiao Xue, Bishnu Patra, Jeroen P. G. van Dijk, Nodar Samkharadze, Sushil Subramanian, Andrea Corna, Charles Jeon, Farhana Sheikh, Esdras Juarez-Hernandez, Brando Perez Esparza, Huzaifa Rampurawala, Brent Carlton, Surej Ravikumar, Carlos Nieva, Sungwon Kim, Hyung-Jin Lee, Amir Sammak, Giordano Scappucci, Menno Veldhorst, Fabio Sebastiano, Masoud Babaie, Stefano Pellerano, Edoardo Charbon, Lieven M. K. Vandersypen(参考訳) 最も有望な量子アルゴリズムは、実用的なアプリケーションをターゲットにするときに数百万の量子ビットをホストする量子プロセッサを必要とする。 大規模量子計算への大きな挑戦は、相互接続の複雑さである。 現在の固体量子ビット実装では、希釈冷凍機における量子チップと室温エレクトロニクスとの間に大きなボトルネックが現れる。 高度なリソグラフィーは、CMOS制御エレクトロニクスとシリコンの量子ビットの両方の製造をサポートする。 電子回路が低温で動作するように設計されている場合、最終的に同じダイまたはパッケージ上のキュービットと統合され、配線ボトルネックを克服することができる。 ここでは3Kで動作する極低温CMOS制御チップを報告し、20mKに冷却されたシリコン量子ビットを駆動するためのマイクロ波バーストを出力する。 まず、制御チップをベンチマークし、理想的な量子ビットを想定した99.99%の忠実度量子ビット演算と電気的性能を求める。 次に、実際のシリコンスピン量子ビットをコヒーレントに制御し、低温制御チップが商用機器と同じ忠実性を達成することを確認する。 さらに,2量子ビット量子プロセッサ上で,多数のベンチマークプロトコルとDeutsch-Joszaアルゴリズムをプログラムすることで,制御チップの広範な機能を強調した。 これらの結果は、完全に統合されたスケーラブルなシリコンベースの量子コンピュータへの道を開く。

The most promising quantum algorithms require quantum processors hosting millions of quantum bits when targeting practical applications. A major challenge towards large-scale quantum computation is the interconnect complexity. In current solid-state qubit implementations, a major bottleneck appears between the quantum chip in a dilution refrigerator and the room temperature electronics. Advanced lithography supports the fabrication of both CMOS control electronics and qubits in silicon. When the electronics are designed to operate at cryogenic temperatures, it can ultimately be integrated with the qubits on the same die or package, overcoming the wiring bottleneck. Here we report a cryogenic CMOS control chip operating at 3K, which outputs tailored microwave bursts to drive silicon quantum bits cooled to 20mK. We first benchmark the control chip and find electrical performance consistent with 99.99% fidelity qubit operations, assuming ideal qubits. Next, we use it to coherently control actual silicon spin qubits and find that the cryogenic control chip achieves the same fidelity as commercial instruments. Furthermore, we highlight the extensive capabilities of the control chip by programming a number of benchmarking protocols as well as the Deutsch-Josza algorithm on a two-qubit quantum processor. These results open up the path towards a fully integrated, scalable silicon-based quantum computer.
翻訳日:2023-04-30 16:22:35 公開日:2020-09-29
# スピン対電荷変換によるダイヤモンド中の単一電子スピンの高忠実性単発読み出し

High-fidelity single-shot readout of single electron spin in diamond with spin-to-charge conversion ( http://arxiv.org/abs/2009.14172v1 )

ライセンス: Link先を確認
Qi Zhang, Yuhang Guo, Wentao Ji, Mengqi Wang, Jun Yin, Fei Kong, Yiheng Lin, Chunming Yin, Fazhan Shi, Ya Wang, Jiangfeng Du(参考訳) 量子ビットの高忠実度シングルショット読み出しは、フォールトトレラント量子コンピューティングとスケーラブル量子ネットワークにとって重要なコンポーネントである。 近年, ダイヤモンド中の窒素空洞 (NV) 中心は, 上述の応用の先駆的基盤となっている。 現在のNV電子スピンの単発読み出しは、低温での共鳴蛍光法に依存している。 しかし、スピンフリップ過程は光サイクリング遷移を中断するため、読み出し忠実性が制限される。 本稿では、スピンフリップ誤差を抑制するために、近赤外(NIR)光を利用したスピン間変換法を提案する。 この方法は、低温共鳴励起の高スピン選択性と光イオン化の高柔軟性を利用する。 我々は、NV中心電子スピンの単一ショット読み出しに対して、高ひずみおよび高速スピンフリップ過程の存在下で、全体的なフィデリティ$>95%を達成する。 さらなる改善により、この技術はフォールトトレラントしきい値を超えるスピン読み出し忠実性を達成できる可能性があり、統合光電子デバイスで応用できる可能性がある。

High fidelity single-shot readout of qubits is a crucial component for fault-tolerant quantum computing and scalable quantum networks. In recent years, the nitrogen-vacancy (NV) center in diamond has risen as a leading platform for the above applications. The current single-shot readout of the NV electron spin relies on resonance fluorescence method at cryogenic temperature. However, the the spin-flip process interrupts the optical cycling transition, therefore, limits the readout fidelity. Here, we introduce a spin-to-charge conversion method assisted by near-infrared (NIR) light to suppress the spin-flip error. This method leverages high spin-selectivity of cryogenic resonance excitation and high flexibility of photonionization. We achieve an overall fidelity $>$ 95% for the single-shot readout of an NV center electron spin in the presence of high strain and fast spin-flip process. With further improvements, this technique has the potential to achieve spin readout fidelity exceeding the fault-tolerant threshold, and may also find applications on integrated optoelectronic devices.
翻訳日:2023-04-30 16:22:17 公開日:2020-09-29
# スピン-1キタエフ・ハイゼンベルク鎖の量子相転移

Quantum phase transitions in the spin-1 Kitaev-Heisenberg chain ( http://arxiv.org/abs/2009.14159v1 )

ライセンス: Link先を確認
Wen-Long You and Gaoyong Sun and Jie Ren and Wing Chi Yu and Andrzej M. Ole\'s(参考訳) 近年,強いHundとスピン軌道結合を持つ多くの材料において,K>0$の相互作用の高スピンアナログが生じる可能性が示唆されている。 本研究では,Laczos 対角化法と密度行列再正規化法を用いて,$S=1$ Kitaev-Heisenberg モデルを数値解析する。 基底状態相図と量子相転移を局所的および非局所的スピン相関を用いて検討する。 負のハイゼンベルクカップリング $j<0$: a~ferromagnetic phase with $\langle s_i^zs_{i+1}^z\rangle>0$ and a intermediate left-left-right-phase with $\langle s_i^xs_{i+1}^x\rangle\neq 0$。 量子スピン液体は北エフ限界付近で安定であり、位相的ハルデン相は$J>0$である。

Recently, it has been proposed that higher-spin analogues of the Kitaev interactions $K>0$ may also occur in a number of materials with strong Hund's and spin-orbit coupling. In this work, we use Lanczos diagonalization and density matrix renormalization group methods to investigate numerically the $S=1$ Kitaev-Heisenberg model. The ground-state phase diagram and quantum phase transitions are investigated by employing local and nonlocal spin correlations. We identified two ordered phases at negative Heisenberg coupling $J<0$: a~ferromagnetic phase with $\langle S_i^zS_{i+1}^z\rangle>0$ and an intermediate left-left-right-right phase with $\langle S_i^xS_{i+1}^x\rangle\neq 0$. A~quantum spin liquid is stable near the Kitaev limit, while a topological Haldane phase is found for $J>0$.
翻訳日:2023-04-30 16:22:03 公開日:2020-09-29
# 希土類イオンの電気核波動関数を用いた普遍量子コンピューティング

Universal quantum computing using electro-nuclear wavefunctions of rare-earth ions ( http://arxiv.org/abs/2009.14126v1 )

ライセンス: Link先を確認
Manuel Grimm (1 and 2), Adrian Beckert (2 and 3), Gabriel Aeppli (2 and 3 and 4), Markus M\"uller (1) ((1) Condensed Matter Theory Group, Paul Scherrer Institut, (2) ETH Z\"urich, (3) Photon Science Division, Paul Scherrer Institut, (4) EPF Lausanne)(参考訳) 我々は,kramersレアアースイオンに基づくユニバーサル量子コンピューティングのためのスキームを提案する。 ゼーマン・スプリット電子結晶場基底状態の存在下で核スピンは量子情報を格納する「パッシブ」量子ビットとして作用する。 量子ビットは磁気モーメントを持つ励起結晶状態への高速コヒーレント遷移によって光学的に活性化される。 これらの状態間の双極子相互作用はcnotゲートの実装に使用される。 提案手法をシリコン中のリンドナー原子をベースとした類似の手法と比較し,CNOTゲート時間を大幅に改善したCNOTゲート時間について検討した。

We propose a scheme for universal quantum computing based on Kramers rare-earth ions. Their nuclear spins in the presence of a Zeeman-split electronic crystal field ground state act as 'passive' qubits which store quantum information. The qubits can be activated optically by fast coherent transitions to excited crystal field states with a magnetic moment. The dipole interaction between these states is used to implement CNOT gates. We compare our proposal with a similar one based on phosphorus donor atoms in silicon and discuss the significantly improved CNOT gate time as compared to rare-earth implementations via the slower dipole blockade.
翻訳日:2023-04-30 16:21:42 公開日:2020-09-29
# 蛍光光による量子レベルでのイオン振動の測定

Measuring ion oscillations at the quantum level with fluorescence light ( http://arxiv.org/abs/2009.14098v1 )

ライセンス: Link先を確認
G. Cerchiari, G. Araneda, L. Podhora, L. Slodi\v{c}ka, Y. Colombe and R. Blatt(参考訳) 単一フォノン感度の原子の機械的振動を検出する光学的手法を示す。 測定信号は、単一のトラップされた原子イオンによって散乱された光とミラー画像との干渉から生じる。 原子の運動は干渉経路の長さを変調し、したがって光子検出速度を変調する。 我々はドップラー冷却限界における原子の振動を検出し、位相空間における平均軌道を再構成する。 EIT冷却後の運動状態付近で単音節感度を示す。 これらの結果は、閉じ込められたナノ粒子のような基本的な関心を持つ他の光散乱器の運動検出に応用できる。

We demonstrate an optical method for detecting the mechanical oscillations of an atom with single-phonon sensitivity. The measurement signal results from the interference between the light scattered by a single trapped atomic ion and that of its mirror image. The motion of the atom modulates the interference path length and hence the photon detection rate. We detect the oscillations of the atom in the Doppler cooling limit and reconstruct average trajectories in phase space. We demonstrate single-phonon sensitivity near the ground state of motion after EIT cooling. These results could be applied for motion detection of other light scatterers of fundamental interest, such as trapped nanoparticles.
翻訳日:2023-04-30 16:21:33 公開日:2020-09-29
# 最適共変量子測定

Optimal covariant quantum measurements ( http://arxiv.org/abs/2009.14080v1 )

ライセンス: Link先を確認
Erkka Haapasalo, Juha-Pekka Pellonp\"a\"a(参考訳) 対称量子測定とそれに関連する共変可観測器をそれぞれ、計器および正の演算値測定としてモデル化する。 この研究の重点は、測度の最適性、すなわち極端性、情報完全性、および(rank-1)射影評価測度の相補的なクラスとは対照的なランク-1特性である。 この研究の前半は対称 w.r.t. 有限群における有限アウトカムの測定にのみ焦点をあて、そこでは同変楽器のポイントワイド クラウス演算子とこれらのクラウス演算子を用いた必要かつ十分な超越性条件に対する徹底的な特徴づけを導出する。 対称群に対する可観測性共変は可観測群の相補的最適性クラスの両方から代表の族を含むことを示すことによって共分散法の使用を動機付け、ランク1の射影値測度からのわずかな逸脱であっても極端な情報的完全次数1の可観測性が得られることを示した。 この研究の後半は、(おそらく)無限次元における連続的な測定に対して同様の結果をもたらす。 例えば、共変位相空間の機器、それらの構造、および極値の性質について研究する。

We discuss symmetric quantum measurements and the associated covariant observables modelled, respectively, as instruments and positive-operator-valued measures. The emphasis of this work are the optimality properties of the measurements, namely, extremality, informational completeness, and the rank-1 property which contrast the complementary class of (rank-1) projection-valued measures. The first half of this work concentrates solely on finite-outcome measurements symmetric w.r.t. finite groups where we derive exhaustive characterizations for the pointwise Kraus-operators of covariant instruments and necessary and sufficient extremality conditions using these Kraus-operators. We motivate the use of covariance methods by showing that observables covariant with respect to symmetric groups contain a family of representatives from both of the complementary optimality classes of observables and show that even a slight deviation from a rank-1 projection-valued measure can yield an extreme informationally complete rank-1 observable. The latter half of this work derives similar results for continuous measurements in (possibly) infinite dimensions. As an example we study covariant phase space instruments, their structure, and extremality properties.
翻訳日:2023-04-30 16:21:14 公開日:2020-09-29
# 散逸免疫光子-光子相関に対する量子ボルマン効果

Quantum Borrmann effect for dissipation-immune photon-photon correlations ( http://arxiv.org/abs/2009.14049v1 )

ライセンス: Link先を確認
Alexander V. Poshakinskiy and Alexander N. Poddubny(参考訳) 理論的には、2階相関関数 $g^{(2)}(t)$ は周期的ブラッグ空間の超伝導量子ビット配列を通して伝達される光子に対して導波路に結合する。 我々は,単一量子ビットの放射寿命と非放射寿命よりも,フォトン束縛とアンチ束縛がずっと長く続くことを実証する。 光子-光子相関は、ボルマン効果により非放射性散逸に免疫となり、これはブラッグ系に固有の光量子結合の強い非マルコフ的集団的特徴である。 この量子相関の持続性は、導波路量子電磁力学のセットアップの性能を高めるための新しい道を開く。

We study theoretically the second-order correlation function $g^{(2)}(t)$ for photons transmitted through a periodic Bragg-spaced array of superconducting qubits, coupled to a waveguide. We demonstrate that photon bunching and anti-bunching persist much longer than both radiative and non-radiative lifetimes of a single qubit. The photon-photon correlations become immune to non-radiative dissipation due to the Borrmann effect, that is a strongly non-Markovian collective feature of light-qubit coupling inherent to the Bragg regime. This persistence of quantum correlations opens new avenues for enhancing the performance of setups of waveguide quantum electrodynamics.
翻訳日:2023-04-30 16:20:49 公開日:2020-09-29
# カスケードエミッタの絡み合いとヘラルドの機構的理解

Mechanistic Understanding of Entanglement and Heralding in Cascade Emitters ( http://arxiv.org/abs/2009.14008v1 )

ライセンス: Link先を確認
Kobra N.Avanaki and George C. Schatz(参考訳) 半導体量子光源は、幅広い量子フォトニックタスク、特に量子コンピューティングや量子情報処理に適している。 ここでは、量子エミッター(qes)の特性を、オンデマンド単一光子の保持を含む実用的な量子特性を持つ絡み合い光子の源として理論的に検討する。 理論解析により、(1)単光子純度の研究、(2)1次および2次相関関数の研究、(3)エンタングル光子のシュミット数を決定することを含む、カスケード(二励起子)エミッタの特性を特徴づける。 カスケードエミッターのシュミット数から導かれた解析式は、第1光子と第2光子の減衰率の比に強い依存を示している。 生成した二光子の結合スペクトル密度を調べることで、純度と絡み合いの程度がヘラルド単一光子の生成とどのように結びついているかを示す。 さらに, 偏光効果, 微細構造の細分化, エキシトンとバイエクシトンの放出遅延を考慮したモデルを構築した。 拡張モデルは、絡み合った光子生成のメカニズムについてより詳細を提供し、システムを操作し、出力光子の純度を特徴付けるための追加の自由度を提供する。 理論的研究と解析は、オンデマンド単一光子の実験的設計と工学の基礎となる。

Semiconductor quantum light sources are favorable for a wide range of quantum photonic tasks, particularly quantum computing and quantum information processing. Here we theoretically investigate the properties of quantum emitters (QEs) as a source of entangled photons with practical quantum properties including heralding of on-demand single photons. Through the theoretical analysis, we characterize the properties of a cascade (biexciton) emitter, including (1) studies of single-photon purity, (2) investigating the first- and second- order correlation functions, and (3) determining the Schmidt number of the entangled photons. The analytical expression derived for the Schmidt number of the cascade emitters reveals a strong dependence on the ratio of decay rates of the first and second photons. Looking into the joint spectral density of the generated biphotons, we show how the purity and the degree of entanglement are connected to the production of heralded single photons. Our model is further developed to include polarization effects, fine structure splitting, and the emission delay between the exciton and biexciton emission. The extended model offers more details about the underlying mechanism of entangled photon production, and it provides additional degrees of freedom for manipulating the system and characterizing purity of the output photon. The theoretical investigations and the analysis provide a cornerstone for the experimental design and engineering of on-demand single photons.
翻訳日:2023-04-30 16:20:20 公開日:2020-09-29
# 新型コロナウイルス対策のための機械学習研究--ウイルス検出、拡散防止、医療支援

Machine Learning Research Towards Combating COVID-19: Virus Detection, Spread Prevention, and Medical Assistance ( http://arxiv.org/abs/2010.07036v1 )

ライセンス: Link先を確認
Osama Shahid, Mohammad Nasajpour, Seyedamin Pouriyeh, Reza M. Parizi, Meng Han, Maria Valero, Fangyu Li, Mohammed Aledhari, Quan Z. Sheng(参考訳) 新型コロナウイルスは2019年12月に初めて発見され、世界中で数千万人が感染している。 ウイルスは致命的であり、先行疾患や60歳以上の高齢者は死亡リスクが高い。 医療や医療業界は治療法の探究に向けて急増しており、ウイルスの感染拡大を緩和するさまざまな政策が改正されている。 機械学習(ML)メソッドは他のドメインで広く使用されているが、新型コロナウイルスの感染拡大をスクリーニング、追跡、予測するためのML支援診断システムへの需要が高まっている。 本稿では、mlがウイルスと戦う上で、これまでどのような役割を果たしてきたのか、主にスクリーニング、予測、ワクチンの観点から見ていく。 本研究は,本研究で使用可能なmlアルゴリズムとモデルの包括的調査を行い,ウイルスとの戦いを支援する。

COVID-19 was first discovered in December 2019 and has continued to rapidly spread across countries worldwide infecting thousands and millions of people. The virus is deadly, and people who are suffering from prior illnesses or are older than the age of 60 are at a higher risk of mortality. Medicine and Healthcare industries have surged towards finding a cure, and different policies have been amended to mitigate the spread of the virus. While Machine Learning (ML) methods have been widely used in other domains, there is now a high demand for ML-aided diagnosis systems for screening, tracking, and predicting the spread of COVID-19 and finding a cure against it. In this paper, we present a journey of what role ML has played so far in combating the virus, mainly looking at it from a screening, forecasting, and vaccine perspectives. We present a comprehensive survey of the ML algorithms and models that can be used on this expedition and aid with battling the virus.
翻訳日:2023-04-30 16:13:26 公開日:2020-09-29
# ボソン相互作用の量子増幅

Quantum amplification of boson-mediated interactions ( http://arxiv.org/abs/2009.14342v1 )

ライセンス: Link先を確認
S. C. Burd, R. Srinivas, H. M. Knaack, W. Ge, A. C. Wilson, D. J. Wineland, D. Leibfried, J. J. Bollinger, D. T. C. Allcock, and D. H. Slichter(参考訳) 量子オブジェクト間の強く正確に制御された相互作用は、量子情報処理、シミュレーション、センシング、およびエキゾチックな量子物質の形成に不可欠である。 弱い相互作用を持つ量子オブジェクトを結合するための確立されたパラダイムは、補助的なボソニック量子励起を使って相互作用を媒介する。 重要な例としては、原子、超伝導量子ビット、ダイヤモンドの色中心間の光子による相互作用、閉じ込められたイオンと光子とマイクロ波光子の間のフォノンによる相互作用などがある。 ボソンが媒介する相互作用は、原理的にはボソンチャネルのパラメトリック駆動によって増幅することができる。 この手法は様々な量子プラットフォームで提案されているが、実験室では実現されていない。 ここでは、トラップ電位のパラメトリック変調による2つの捕捉イオン量子ビット間のボソン媒介相互作用の増幅を実験的に実証する。 増幅は相互作用強度を最大3.25倍に増やし、2キュービットのエンタングゲートの速度測定によって検証する。 この増幅技術は、ボソンチャネルのパラメトリック変調が可能な任意の量子プラットフォームで使用することができ、新しいパラメータ機構の探索と量子情報処理の強化を可能にする。

Strong and precisely-controlled interactions between quantum objects are essential for quantum information processing, simulation, and sensing, and for the formation of exotic quantum matter. A well-established paradigm for coupling otherwise weakly-interacting quantum objects is to use auxiliary bosonic quantum excitations to mediate the interactions. Important examples include photon-mediated interactions between atoms, superconducting qubits, and color centers in diamond, and phonon-mediated interactions between trapped ions and between optical and microwave photons. Boson-mediated interactions can in principle be amplified through parametric driving of the boson channel; the drive need not couple directly to the interacting quantum objects. This technique has been proposed for a variety of quantum platforms, but has not to date been realized in the laboratory. Here we experimentally demonstrate the amplification of a boson-mediated interaction between two trapped-ion qubits by parametric modulation of the trapping potential. The amplification provides up to a 3.25-fold increase in the interaction strength, validated by measuring the speedup of two-qubit entangling gates. This amplification technique can be used in any quantum platform where parametric modulation of the boson channel is possible, enabling exploration of new parameter regimes and enhanced quantum information processing.
翻訳日:2023-04-30 16:12:58 公開日:2020-09-29
# Web上でのCNAMEクローキングに基づくトラッキング検出のための機械学習手法

A machine learning approach for detecting CNAME cloaking-based tracking on the Web ( http://arxiv.org/abs/2009.14330v1 )

ライセンス: Link先を確認
Ha Dao, Kensuke Fukuda(参考訳) ブラウザ内プライバシー保護技術は、エンドユーザをサードパーティのトラッキングから保護するために設計されている。 これらの対策との戦いにおいて、トラッキングプロバイダは、サードパーティのクッキーやリクエストをブロックするブラウザの問題を回避するために、cname cloaking based trackingと呼ばれる新しいテクニックを開発した。 このトラッキングテクニックを検出するために、ブラウザ拡張機能はオンデマンドDNSルックアップAPIを必要とする。 ただしこの機能はfirefoxブラウザでのみサポートされている。 本稿では,オンデマンドのDNS検索を使わずに,CNAMEクローキングに基づくトラッキングを検出するための教師付き機械学習手法を提案する。 我々の目標は、CNAMEのクローキング関連トラッキングに関連するサイトとリクエストの両方を検出することです。 ターゲットサイトのリストをクロールして、すべてのHTTP/HTTPSリクエストを属性で保存します。 次に、サブドメインのCNAMEレコードを調べ、よく知られた追跡フィルタリストに基づいてワイルドカードマッチングを適用することで、すべてのインスタンスを自動的にラベル付けする。 特徴を抽出した後、我々はCNAMEクローキングに基づくトラッキングに関連するサイトと要求を識別する教師付き分類モデルを構築した。 提案手法は,f1スコアが0.790点,リクエスト0.885点という,よく知られた追跡フィルタリストを上回っている。 特徴の置換の重要性を分析することで,xmlhttprequestsのスクリプト数と比率がサイト検出に差別的であり,urlリクエストの長さがリクエスト検出に有用であることを実証する。 最後に,2018 年のデータセットを用いてモデルのトレーニングを行い,2020 年のデータセット上で cname クローキングベースのトラッキングを用いて,サイトとリクエストの両方を検出する合理的なパフォーマンスを得ることにより,概念ドリフトを分析する。

Various in-browser privacy protection techniques have been designed to protect end-users from third-party tracking. In an arms race against these counter-measures, the tracking providers developed a new technique called CNAME cloaking based tracking to avoid issues with browsers that block third-party cookies and requests. To detect this tracking technique, browser extensions require on-demand DNS lookup APIs. This feature is however only supported by the Firefox browser. In this paper, we propose a supervised machine learning-based method to detect CNAME cloaking-based tracking without the on-demand DNS lookup. Our goal is to detect both sites and requests linked to CNAME cloaking-related tracking. We crawl a list of target sites and store all HTTP/HTTPS requests with their attributes. Then we label all instances automatically by looking up CNAME record of subdomain, and applying wildcard matching based on well-known tracking filter lists. After extracting features, we build a supervised classification model to distinguish site and request related to CNAME cloaking-based tracking. Our evaluation shows that the proposed approach outperforms well-known tracking filter lists: F1 scores of 0.790 for sites and 0.885 for requests. By analyzing the feature permutation importance, we demonstrate that the number of scripts and the proportion of XMLHttpRequests are discriminative for detecting sites, and the length of URL request is helpful in detecting requests. Finally, we analyze concept drift by using the 2018 dataset to train a model and obtain a reasonable performance on the 2020 dataset for detecting both sites and requests using CNAME cloaking-based tracking.
翻訳日:2023-04-30 16:12:26 公開日:2020-09-29
# 9〜GHzのシリコンフォトニクスと集積エレクトロニクスによる硬化光の測定

9~GHz measurement of squeezed light by interfacing silicon photonics and integrated electronics ( http://arxiv.org/abs/2009.14318v1 )

ライセンス: Link先を確認
Joel F. Tasker, Jonathan Frazer, Giacomo Ferranti, Euan J. Allen, L\'eandre F. Brunel, S\'ebastien Tanzilli, Virginia D'Auria and Jonathan C. F. Matthews(参考訳) フォトニック量子技術は、古典的な読み出し制御のための基盤となる量子ハードウェアと対応するエレクトロニクスの両方のモノリシックな製造によって強化することができる。 これにより、量子通信ノード、量子センサー、ランダムなソースなど、小さな量子デバイスの小型化と大量生産が可能になり、有用な量子コンピュータを組み立てるために必要な製造の精度と規模を約束する。 ここでは、CMOS互換シリコンとゲルマニウムオンシリコンナノフォトニクスとシリコン-ゲルマニウム集積増幅回路を組み合わせて、量子光のオンチップホモダインの検出性能を向上させる。 我々は、1.7GHzの3dB帯域を観測し、9GHzを超える性能に制限を加え、必要なフットプリントを0.84mmまで小さくする。 我々はこのデバイスを用いて、ニオブ酸リチウム導波路で発生した100MHzから9GHzの量子スクリュッド光を観測する。 これは、完全に統合されたアプローチが、これまで達成されたよりも高速な量子技術のホモダイン検出器を生み出し、フォトニック量子デバイスのフルスタック統合への道を開くことを示している。

Photonic quantum technology can be enhanced by monolithic fabrication of both the underpinning quantum hardware and the corresponding electronics for classical readout and control. Together, this enables miniaturisation and mass-manufacture of small quantum devices---such as quantum communication nodes, quantum sensors and sources of randomness---and promises the precision and scale of fabrication required to assemble useful quantum computers. Here we combine CMOS compatible silicon and germanium-on-silicon nano-photonics with silicon-germanium integrated amplification electronics to improve performance of on-chip homodyne detection of quantum light. We observe a 3 dB bandwidth of 1.7 GHz, shot-noise limited performance beyond 9 GHz and minaturise the required footprint to 0.84 mm. We use the device to observe quantum squeezed light, from 100 MHz to 9 GHz, generated in a lithium niobate waveguide. This demonstrates that an all-integrated approach yields faster homodyne detectors for quantum technology than has been achieved to-date and opens the way to full-stack integration of photonic quantum devices.
翻訳日:2023-04-30 16:12:04 公開日:2020-09-29
# 個人情報保護に関する一般法原則とその意義

The General Law Principles for Protection the Personal Data and their Importance ( http://arxiv.org/abs/2009.14313v1 )

ライセンス: Link先を確認
Jonatas S. de Souza, Jair M. Abe, Luiz A. de Lima, Nilson A. de Souza(参考訳) 急速な技術変化とグローバリゼーションは、個人データの保護と処理に関して新たな課題を生み出した。 2018年、ブラジルは、個人データの収集と扱い、データ保持者のセキュリティと整合性を保証するための提案を行う新しい法律を提出した。 本研究の目的は,個人データ保護に関する一般法の原則を強調し,個人データの漏えいの実態を報告し,その課題に対するインターネット利用者の関心とブラジル社会全体の利益を満足する利益の重要性について理解することにある。

Rapid technological change and globalization have created new challenges when it comes to the protection and processing of personal data. In 2018, Brazil presented a new law that has the proposal to inform how personal data should be collected and treated, to guarantee the security and integrity of the data holder. The purpose of this paper is to emphasize the principles of the General Law on Personal Data Protection, informing real cases of leakage of personal data and thus obtaining an understanding of the importance of gains that meet the interests of Internet users on the subject and its benefits to the entire Brazilian society.
翻訳日:2023-04-30 16:11:45 公開日:2020-09-29
# ブロックチェーンとIPFSを用いた分散型患者心電記録管理システム

Decentralized Patient Centric e-Health Record Management System using Blockchain and IPFS ( http://arxiv.org/abs/2009.14285v1 )

ライセンス: Link先を確認
Gaganjeet Reen, Manasi Mohandas and S Venkatesan(参考訳) エレクトロニック・ヘルス・レコード(EHR)は世界中で人気を集めている。 しかしながら、現在のEHRシステムには、プライバシとセキュリティに関する問題はかなりあります。 我々はこれらの問題の多くに解決策を提供するメカニズムを提案している。 認可されたEthereumブロックチェーンを使用することで、世界中の病院と患者の相互接続が可能になる。 この機構は、対称鍵暗号と非対称鍵暗号の組み合わせを用いて、セキュアなストレージとレコードの選択的アクセスを確保する。 患者の健康記録を完全に管理すると同時に、病院の医療記録へのアクセスを許可または無効にすることもできる。 我々はIPFS(inter Planet file system, 惑星間ファイルシステム)を用いて、分散したレコードを保存し、レコードの不変性を保証する。 提案モデルは,患者のプライバシを侵害することなく,疾患の統計も維持する。

Electronic Health Records(EHR) are gaining a lot of popularity all over the world. The current EHR systems however have their fair share of problems related to privacy and security. We have proposed a mechanism which provides a solution to most of these problems. Using a permissioned Ethereum blockchain allows the hospitals and patients across the world to be connected to each other. Our mechanism uses a combination of symmetric and asymmetric key cryptography to ensure the secure storage and selective access of records. It gives patients full control over their health records and also allows them to grant or revoke a hospital's access to his/her records. We have used IPFS(inter planetary file system) to store records which has the advantage of being distributed and ensures immutability of records. The proposed model also maintains the statistics of diseases without violating the privacy of any patient.
翻訳日:2023-04-30 16:11:35 公開日:2020-09-29
# 計算科学のデコロン化に向けて

Towards decolonising computational sciences ( http://arxiv.org/abs/2009.14258v1 )

ライセンス: Link先を確認
Abeba Birhane, Olivia Guest(参考訳) 本稿では,データや認知科学といった計算分野のデコロン化の道程について述べる。 この闘いには2つの基本的なステップが必要です a) 現在の制度が継承し、なおも、女性色(WoC)に対する、敵対的、保守的、抑圧的な行動及び原則を継承し、継続することの実現 b) 個人中心がシステムレベルの問題に対する解決策であるという考えを拒絶すること。 この2つのステップを無視するほど、より「我々の」学術システムは有害な構造を維持し、排除し、黒人女性や他のマイノリティ集団を傷つける。 これはまた、優生学や生理学など、信用できない疑似科学への扉を開いている。 我々は,過去の過ちを避けるための鍵をフィールドの歴史と遺産に託すことを提案する。 例えば、「多様性ボード」のようなイニシアチブは、表面的には改革的に見えるが、それでも中心的な白さを持ち、現状を維持するため、依然として有害である。 私たちは、科学、神経科学、認知科学、コンピュータサイエンス、データサイエンス、統計学、機械学習、人工知能など、科学の分野に限らず、草の根と最上位のイメージの両方を構築するために必要な対話を進めたいと考えています。 私たちは、これらの分野が停滞し、性差別的で人種差別主義者が共有した過去から離れて、多様な研究者の集団と、現状に批判的に挑戦する科学的アイデアの両方が歓迎されるエコシステムの彫刻と維持に進むことを望んでいる。

This article sets out our perspective on how to begin the journey of decolonising computational fields, such as data and cognitive sciences. We see this struggle as requiring two basic steps: a) realisation that the present-day system has inherited, and still enacts, hostile, conservative, and oppressive behaviours and principles towards women of colour (WoC); and b) rejection of the idea that centering individual people is a solution to system-level problems. The longer we ignore these two steps, the more "our" academic system maintains its toxic structure, excludes, and harms Black women and other minoritised groups. This also keeps the door open to discredited pseudoscience, like eugenics and physiognomy. We propose that grappling with our fields' histories and heritage holds the key to avoiding mistakes of the past. For example, initiatives such as "diversity boards" can still be harmful because they superficially appear reformatory but nonetheless center whiteness and maintain the status quo. Building on the shoulders of many WoC's work, who have been paving the way, we hope to advance the dialogue required to build both a grass-roots and a top-down re-imagining of computational sciences -- including but not limited to psychology, neuroscience, cognitive science, computer science, data science, statistics, machine learning, and artificial intelligence. We aspire for these fields to progress away from their stagnant, sexist, and racist shared past into carving and maintaining an ecosystem where both a diverse demographics of researchers and scientific ideas that critically challenge the status quo are welcomed.
翻訳日:2023-04-30 16:11:23 公開日:2020-09-29
# 局所性と完全相関は決定論を意味するか?

Does locality plus perfect correlation imply determinism? ( http://arxiv.org/abs/2009.14223v1 )

ライセンス: Link先を確認
Michael J.W. Hall(参考訳) 1964年のジョン・ベルの論文では、量子力学は局所隠れ変数とは相容れないという最初の証明がなされた。 決定論の仮定に依存しているのか、それとも、後に彼が主張するように、局所性と完全相関の仮定から決定論を導いたのかという、現在進行中の活発な議論がある。 本稿では,簡単な例と厳密な結果を通じて,議論の明確化を目指す。 ベルの1964年の論文(パラメータ独立)で用いられる局所性の弱い形式は、そのような導出には不十分である一方、結果独立と呼ばれる独立した形式は、弱い局所性が持たない場合でも十分である。 さらに、結果独立性は、それ自体が標準量子力学が不完全であることを意味する。 また、ベルの主張を支持するアインシュタイン=ローゼン=ポドルスキーの主張に対する訴えは、この議論の論理的ギャップを露呈する例を通して失敗することも示されている。 しかし、現実の基準をより強い基準に置き換えることで、1964年のベルの論文で必要とされる弱い局所性と決定論の両方を厳格に導出することができる。 量子解釈、局所性、古典的共通原因の帰結は、局所的古典的不確定主義の例を参照して簡単に議論される。

A 1964 paper by John Bell gave the first demonstration that quantum mechanics is incompatible with local hidden variables. There is an ongoing and vigorous debate on whether he relied on an assumption of determinism, or instead, as he later claimed, derived determinism from assumptions of locality and perfect correlation. This paper aims to bring clarity to the debate via simple examples and rigorous results. It is shown that the weak form of locality used in Bell's 1964 paper (parameter independence) is insufficient for such a derivation, whereas an independent form called outcome independence is sufficient even when weak locality does not hold. It further follows that outcome independence, by itself, implies that standard quantum mechanics is incomplete. It is also shown that an appeal by Bell to the Einstein-Rosen-Podolsky argument to support his claim fails, via examples that expose logical gaps in this argument. However, replacing the reality criterion underpinning the argument by a stronger criterion enables a rigorous derivation of both weak locality and determinism, as required for Bell's 1964 paper. Consequences for quantum interpretations, locality, and classical common causes are briefly discussed, with reference to an example of local classical indeterminism.
翻訳日:2023-04-30 16:10:37 公開日:2020-09-29
# 深部変分オートエンコーダによる新生断層タイプの検出とセグメンテーションのインプシット監視

Implicit supervision for fault detection and segmentation of emerging fault types with Deep Variational Autoencoders ( http://arxiv.org/abs/1912.12502v2 )

ライセンス: Link先を確認
Manuel Arias Chao, Bryan T. Adey, Olga Fink(参考訳) 安全クリティカルなシステムのデータ駆動障害診断は、トレーニング時に異常なシステム条件(すなわち障害タイプ)に関連するラベル付きデータの完全な欠如に直面していることが多い。 このシナリオにおけるデータ駆動型障害診断は、デプロイ中に未知の数と本質が生じる可能性があるため、オープンセットの学習問題である。 オープンセット診断のためのアルゴリズムの多くは、学習アルゴリズムで利用可能なラベル付きおよびラベルなしのデータをすべて活用しない一級分類と教師なしアルゴリズムである。 その結果、それらの故障検出およびセグメンテーション性能(すなわち、異なるタイプの故障を特定して分離する)は準最適となる。 本研究は,ラベル付きおよびラベルなしサンプルを用いた変分オートエンコーダ(VAE)のトレーニングと,健康状態の潜伏表現に対する暗黙の監督を導くことを提案する。 これにより、vaeの修正されたサンプリングプロセスとともに、既存の1クラスおよびクラスタリングアルゴリズムを使用して、未検出の障害タイプの検出とセグメンテーションを良好に行えるコンパクトで有益な潜在表現を生成する。 本稿では,提案手法を「適応サンプリング付き知識誘導変分オートエンコーダ(KIL-AdaVAE)」と呼ぶ。 提案手法の故障検出とセグメンテーション能力は, 実飛行条件下でのAdvanced Geared Turbofan 30000 (AGTF30) 力学モデルを用いた新しいシミュレーションケーススタディで実証された。 本研究では,提案手法が他の学習戦略(教師付き学習,埋込み学習,半教師付き学習)やディープラーニングアルゴリズムより優れており,断層検出と断層分割の性能が大幅に向上していることを示す。

Data-driven fault diagnostics of safety-critical systems often faces the challenge of a complete lack of labeled data associated with faulty system conditions (i.e., fault types) at training time. Since an unknown number and nature of fault types can arise during deployment, data-driven fault diagnostics in this scenario is an open-set learning problem. Most of the algorithms for open-set diagnostics are one-class classification and unsupervised algorithms that do not leverage all the available labeled and unlabeled data in the learning algorithm. As a result, their fault detection and segmentation performance (i.e., identifying and separating faults of different types) are sub-optimal. With this work, we propose training a variational autoencoder (VAE) with labeled and unlabeled samples while inducing implicit supervision on the latent representation of the healthy conditions. This, together with a modified sampling process of VAE, creates a compact and informative latent representation that allows good detection and segmentation of unseen fault types using existing one-class and clustering algorithms. We refer to the proposed methodology as "knowledge induced variational autoencoder with adaptive sampling" (KIL-AdaVAE). The fault detection and segmentation capabilities of the proposed methodology are demonstrated in a new simulated case study using the Advanced Geared Turbofan 30000 (AGTF30) dynamical model under real flight conditions. In an extensive comparison, we demonstrate that the proposed method outperforms other learning strategies (supervised learning, supervised learning with embedding and semi-supervised learning) and deep learning algorithms, yielding significant performance improvements on fault detection and fault segmentation.
翻訳日:2023-01-17 12:47:02 公開日:2020-09-29
# 共有エンコーダ・デコーダを用いた一段階物体検出器の位置学習の画素論的修正

Pixel-Semantic Revise of Position Learning A One-Stage Object Detector with A Shared Encoder-Decoder ( http://arxiv.org/abs/2001.01057v2 )

ライセンス: Link先を確認
Qian Li, Nan Guo, Xiaochun Ye, Dongrui Fan, and Zhimin Tang(参考訳) 近年,物体検出のための手法が多数提案されている。 意味的特徴によって、適応的にオブジェクトを検出できない。 本研究は, チャネルや空間的注意機構に基づいて, 物体を適応的に検出する手法を主に分析する。 いくつかの最先端検出器は、異なる特徴ピラミッドと多レベルセマンティック情報を強化するための多くのメカニズムを組み合わせる。 しかし、よりコストがかかる。 この研究は、注意機構を持つ共有エンコーダデコーダを備えたアンカーフリー検出器によって、共有特徴を抽出する。 バックボーン(ResNet-50など)から異なるレベルの機能を基本機能として検討する。 そして、これらの特徴を単純なモジュールに供給し、続いて検出器ヘッダーでオブジェクトを検出します。 意味的特徴を幾何学的位置の修正に利用し、検出器は位置のピクセル・セマンティックな修正である。 さらに重要なことは、この研究がマルチスケールオブジェクトに対する様々なプーリング戦略(平均値または最小値)の影響を分析し、最小プールによって小さなオブジェクトの検出性能が向上することである。 標準 MSCOCO 2014 ベースラインの ResNet-101 に基づく最先端 MNC と比較して,本手法では検出精度が3.8%向上した。

Recently, many methods have been proposed for object detection. They cannot detect objects by semantic features, adaptively. In this work, according to channel and spatial attention mechanisms, we mainly analyze that different methods detect objects adaptively. Some state-of-the-art detectors combine different feature pyramids with many mechanisms to enhance multi-level semantic information. However, they require more cost. This work addresses that by an anchor-free detector with shared encoder-decoder with attention mechanism, extracting shared features. We consider features of different levels from backbone (e.g., ResNet-50) as the basis features. Then, we feed the features into a simple module, followed by a detector header to detect objects. Meantime, we use the semantic features to revise geometric locations, and the detector is a pixel-semantic revising of position. More importantly, this work analyzes the impact of different pooling strategies (e.g., mean, maximum or minimum) on multi-scale objects, and finds the minimum pooling improve detection performance on small objects better. Compared with state-of-the-art MNC based on ResNet-101 for the standard MSCOCO 2014 baseline, our method improves detection AP of 3.8%.
翻訳日:2023-01-14 12:39:00 公開日:2020-09-29
# 確率的ブロックモデルを用いた二部ネットワークのコミュニティ検出

Community Detection in Bipartite Networks with Stochastic Blockmodels ( http://arxiv.org/abs/2001.11818v2 )

ライセンス: Link先を確認
Tzu-Chi Yen, Daniel B. Larremore(参考訳) 2部構成のネットワークでは、あるタイプのノードが他のタイプのノードと共通の接続パターンに従ってグループ化されているため、コミュニティ構造は非分類に制限されている。 これにより、確率的ブロックモデル(SBM)は、ブロック構造を持つネットワークの柔軟な生成モデルであり、二部類コミュニティ検出の直感的な選択である。 しかし、sbmの典型的な定式化は、二成分ネットワークの特殊構造を使用しない。 ここでは,SBMのベイズ的非パラメトリックな定式化とそれに対応するアルゴリズムを導入し,コミュニティの数をパロニカルに選択するバイパルタイトネットワークのコミュニティを効率的に見つける。 BiSBMは、データがノイズの多い場合の一般SBMよりもコミュニティ検出結果を改善し、モデル解決限界を$\sqrt{2}$で改善し、コミュニティ検出タスクに関連する複雑な最適化状況の理解を深める。 BiSBMと関連する高分解能階層型SBMの事前分布の特定の項を直接比較すると、より小さなスペーサーネットワークで人口が占めるコミュニティ検出問題に対して直感的であり、非階層型モデルはより柔軟である。

In bipartite networks, community structures are restricted to being disassortative, in that nodes of one type are grouped according to common patterns of connection with nodes of the other type. This makes the stochastic block model (SBM), a highly flexible generative model for networks with block structure, an intuitive choice for bipartite community detection. However, typical formulations of the SBM do not make use of the special structure of bipartite networks. Here we introduce a Bayesian nonparametric formulation of the SBM and a corresponding algorithm to efficiently find communities in bipartite networks which parsimoniously chooses the number of communities. The biSBM improves community detection results over general SBMs when data are noisy, improves the model resolution limit by a factor of $\sqrt{2}$, and expands our understanding of the complicated optimization landscape associated with community detection tasks. A direct comparison of certain terms of the prior distributions in the biSBM and a related high-resolution hierarchical SBM also reveals a counterintuitive regime of community detection problems, populated by smaller and sparser networks, where nonhierarchical models outperform their more flexible counterpart.
翻訳日:2023-01-07 18:21:15 公開日:2020-09-29
# 構文関係を持つ事象検出のためのエッジエンハンスグラフ畳み込みネットワーク

Edge-Enhanced Graph Convolution Networks for Event Detection with Syntactic Relation ( http://arxiv.org/abs/2002.10757v2 )

ライセンス: Link先を確認
Shiyao Cui, Bowen Yu, Tingwen Liu, Zhenyu Zhang, Xuebin Wang and Jinqiao Shi(参考訳) 情報抽出の重要なサブタスクであるイベント検出(ED)は、テキスト内の特定のイベントタイプのインスタンスを認識することを目的としている。 従来の研究により,グラフ畳み込みネットワークへの構文依存の統合の有効性が検証された。 しかし、これらの手法は通常、EDのためのリッチで有用な言語知識を伝達する依存性ラベル情報を無視する。 本稿では,エッジ拡張グラフ畳み込みネットワーク(EE-GCN)という新しいアーキテクチャを提案する。 具体的には、エッジ対応ノード更新モジュールは、特定の依存型を通じて構文的に接続された単語を集約することで表現表現を生成するように設計されている。 さらに、依存関係エッジに隠された手がかりを十分に探究するために、コンテキスト情報と関係表現を洗練するノードアウェアエッジ更新モジュールが導入された。 これら2つのモジュールは相互に補完され、相互に促進される。 本研究では,広く使用されているACE2005データセットについて実験を行った。

Event detection (ED), a key subtask of information extraction, aims to recognize instances of specific event types in text. Previous studies on the task have verified the effectiveness of integrating syntactic dependency into graph convolutional networks. However, these methods usually ignore dependency label information, which conveys rich and useful linguistic knowledge for ED. In this paper, we propose a novel architecture named Edge-Enhanced Graph Convolution Networks (EE-GCN), which simultaneously exploits syntactic structure and typed dependency label information to perform ED. Specifically, an edge-aware node update module is designed to generate expressive word representations by aggregating syntactically-connected words through specific dependency types. Furthermore, to fully explore clues hidden in dependency edges, a node-aware edge update module is introduced, which refines the relation representations with contextual information. These two modules are complementary to each other and work in a mutual promotion way. We conduct experiments on the widely used ACE2005 dataset and the results show significant improvement over competitive baseline methods.
翻訳日:2022-12-28 21:27:21 公開日:2020-09-29
# DPANet:RGB-D Salient Object Detectionのための奥行き電位対応ゲート注意ネットワーク

DPANet: Depth Potentiality-Aware Gated Attention Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2003.08608v4 )

ライセンス: Link先を確認
Zuyao Chen, Runmin Cong, Qianqian Xu, and Qingming Huang(参考訳) RGB-Dの有意な物体検出には,(1)モーダルRGB-Dデータの相補性を効果的に統合する方法,(2)信頼できない深度マップからの汚染効果の防止方法,の2つの課題がある。 実際、これらの2つの問題はリンクされ、相互に絡み合っているが、以前の手法は最初の問題にのみ焦点を合わせ、深度マップの品質の考慮を無視する傾向にあり、モデルが準最適状態に陥る可能性がある。 本稿では,これら2つの問題を総合モデルで相乗的に扱い,深度マップの可能性を明確にモデル化し,相互補完性を効果的に統合するDPANetという新しいネットワークを提案する。 深度ポテンシャル知覚を導入することにより、ネットワークは深度情報のポテンシャルを学習ベースで認識し、2つのモーダルデータの融合プロセスを導出し、汚染の発生を防止することができる。 融合プロセスのゲート型マルチモダリティアテンションモジュールは、ゲートコントローラによるアテンション機構を利用して、クロスモダリティの観点から長距離の依存関係をキャプチャする。 8つのデータセットに対する15の最先端手法との比較実験により,提案手法の有効性が定量的にも定性的にも示された。

There are two main issues in RGB-D salient object detection: (1) how to effectively integrate the complementarity from the cross-modal RGB-D data; (2) how to prevent the contamination effect from the unreliable depth map. In fact, these two problems are linked and intertwined, but the previous methods tend to focus only on the first problem and ignore the consideration of depth map quality, which may yield the model fall into the sub-optimal state. In this paper, we address these two issues in a holistic model synergistically, and propose a novel network named DPANet to explicitly model the potentiality of the depth map and effectively integrate the cross-modal complementarity. By introducing the depth potentiality perception, the network can perceive the potentiality of depth information in a learning-based manner, and guide the fusion process of two modal data to prevent the contamination occurred. The gated multi-modality attention module in the fusion process exploits the attention mechanism with a gate controller to capture long-range dependencies from a cross-modal perspective. Experimental results compared with 15 state-of-the-art methods on 8 datasets demonstrate the validity of the proposed approach both quantitatively and qualitatively.
翻訳日:2022-12-22 04:24:24 公開日:2020-09-29
# SAC: 疎適応接続による自己認識の促進と構造化

SAC: Accelerating and Structuring Self-Attention via Sparse Adaptive Connection ( http://arxiv.org/abs/2003.09833v3 )

ライセンス: Link先を確認
Xiaoya Li, Yuxian Meng, Mingxin Zhou, Qinghong Han, Fei Wu and Jiwei Li(参考訳) セルフアテンション機構は様々なタスクで広く用いられてきたが、入力長に関して二次コストの不幸な特性を持つため、長い入力を扱うことは困難である。 本稿では,Sparse Adaptive Connection (SAC) という自己注意の促進と構築手法を提案する。 sacでは、入力シーケンスをグラフとみなし、リンクされたノード間で注意操作を行う。 事前定義された構造(エッジ)を持つ以前の自己注意モデルとは対照的に、モデルはタスク固有のパフォーマンスを改善するために注目エッジを構築することを学ぶ。 このようにして、モデルは最もサルエントなノードを選択でき、シーケンス長に関係なく二次複雑性を低減できる。 SACに基づいて,従来の自己注意モデルが特別な場合であることを示す。 ニューラルネットワーク翻訳、言語モデリング、グラフ表現学習、画像分類に関する広範な実験を通じて、SACは最先端のモデルと競合し、メモリコストを大幅に削減することを示した。

While the self-attention mechanism has been widely used in a wide variety of tasks, it has the unfortunate property of a quadratic cost with respect to the input length, which makes it difficult to deal with long inputs. In this paper, we present a method for accelerating and structuring self-attentions: Sparse Adaptive Connection (SAC). In SAC, we regard the input sequence as a graph and attention operations are performed between linked nodes. In contrast with previous self-attention models with pre-defined structures (edges), the model learns to construct attention edges to improve task-specific performances. In this way, the model is able to select the most salient nodes and reduce the quadratic complexity regardless of the sequence length. Based on SAC, we show that previous variants of self-attention models are its special cases. Through extensive experiments on neural machine translation, language modeling, graph representation learning and image classification, we demonstrate SAC is competitive with state-of-the-art models while significantly reducing memory cost.
翻訳日:2022-12-21 05:05:03 公開日:2020-09-29
# モンテカルロ重み微分回帰による最適化hepパラメータの適合

Optimising HEP parameter fits via Monte Carlo weight derivative regression ( http://arxiv.org/abs/2003.12853v2 )

ライセンス: Link先を確認
Andrea Valassi (CERN, Information Technology Department)(参考訳) HEPイベント選択は、伝統的に二項分類の問題と考えられており、信号と背景の二項分類を含んでいる。 分布は粒子質量やカップリングに適合するが、信号微分断面積は位相空間の異なる領域で測定されたパラメータと異なる感度を持つため、信号事象は必ずしも等価ではない。 本稿では,HEPパラメータの評価と最適化のための数学的枠組みについて述べる。この感度はイベント・バイ・イベントに基づいて定義され,MCイベントに対しては,測定パラメータに関するMC重み導関数をモデル化する。 測定における統計誤差を最小化することは、異なる感度を持つ事象(すなわち分離)を解決する必要があることを意味する。 MC重みデリバティブは実データでは利用できないため,MCイベントに対して重みデリバティブの回帰器をトレーニングし,データイベントの1次元適合に最適な分割変数として用いることが提案されている。 このCHEP2019論文は、CHEP2018で発表された研究の拡張であり、特にイベント・バイ・イベントの感度は、分析から得られたフィッシャー情報と理想的な検出器で得られる可能性のある最大情報との間の「FIP」比の正確な計算を可能にする。 この表現を用いて,気象学で一般的に用いられる2つの指標(brier scoreとmse)と,hepとその領域における"シャープネス"の重要性について考察する。 最終的に、HEP分布の適合性は、確率的指標(FIPやMSEなど)を用いて最適化され評価されるべきである、と指摘する一方、ランキング指標(AUCなど)やしきい値(精度など)は、これらの特定の問題に限定的である。

HEP event selection is traditionally considered a binary classification problem, involving the dichotomous categories of signal and background. In distribution fits for particle masses or couplings, however, signal events are not all equivalent, as the signal differential cross section has different sensitivities to the measured parameter in different regions of phase space. In this paper, I describe a mathematical framework for the evaluation and optimization of HEP parameter fits, where this sensitivity is defined on an event-by-event basis, and for MC events it is modeled in terms of their MC weight derivatives with respect to the measured parameter. Minimising the statistical error on a measurement implies the need to resolve (i.e. separate) events with different sensitivities, which ultimately represents a non-dichotomous classification problem. Since MC weight derivatives are not available for real data, the practical strategy I suggest consists in training a regressor of weight derivatives against MC events, and then using it as an optimal partitioning variable for 1-dimensional fits of data events. This CHEP2019 paper is an extension of the study presented at CHEP2018: in particular, event-by-event sensitivities allow the exact computation of the "FIP" ratio between the Fisher information obtained from an analysis and the maximum information that could possibly be obtained with an ideal detector. Using this expression, I discuss the relationship between FIP and two metrics commonly used in Meteorology (Brier score and MSE), and the importance of "sharpness" both in HEP and in that domain. I finally point out that HEP distribution fits should be optimized and evaluated using probabilistic metrics (like FIP or MSE), whereas ranking metrics (like AUC) or threshold metrics (like accuracy) are of limited relevance for these specific problems.
翻訳日:2022-12-19 00:02:29 公開日:2020-09-29
# 深部ニューラルネットワークを用いた時間論理仕様を用いた連続運動計画

Continuous Motion Planning with Temporal Logic Specifications using Deep Neural Networks ( http://arxiv.org/abs/2004.02610v2 )

ライセンス: Link先を確認
Chuanzheng Wang, Yinan Li, Stephen L. Smith, Jun Liu(参考訳) 本稿では,連続状態と動作を伴う動作計画問題に対する制御ポリシーを合成するモデルフリー強化学習手法を提案する。 ロボットは、連続状態とアクション空間を備えたラベル付き離散時間マルコフ決定プロセス(MDP)としてモデル化される。 線形時間論理(LTL)は高レベルなタスクを指定するために用いられる。 次に,アクター-クリティック強化学習法を用いて,値関数とポリシを近似するためにディープニューラルネットワークを訓練する。 LTL仕様は、トレーニング中に厳密な報酬が利用可能になるよう、報酬を連続的に形作るための注釈付き極限決定性B\"uchiautoon(LDBA)に変換される。 強化学習を用いたLTL仕様による運動計画問題の解決方法として, 軌道をサンプリングし, 軌道がLTL式全体を満たす場合, トレーニングに高い報酬を与える方法がある。 しかし、そのような軌道を見つけるのに必要なサンプリングの複雑さは、連続状態と作用空間に対する複雑な ltl 公式を持つと高すぎる。 その結果、全てのサンプル軌道がオートマトンの初期状態から始まると、トレーニングに対する十分な報酬が得られる可能性は極めて低い。 本稿では,状態空間からの初期状態だけでなく,各訓練エピソードの開始時のオートマトンにおける任意の状態もサンプリングする手法を提案する。 カーライクなロボットを用いてシミュレーションでアルゴリズムをテストし、異なる作業構成とLTL仕様のポリシーをうまく学習できることを確認する。

In this paper, we propose a model-free reinforcement learning method to synthesize control policies for motion planning problems with continuous states and actions. The robot is modelled as a labeled discrete-time Markov decision process (MDP) with continuous state and action spaces. Linear temporal logics (LTL) are used to specify high-level tasks. We then train deep neural networks to approximate the value function and policy using an actor-critic reinforcement learning method. The LTL specification is converted into an annotated limit-deterministic B\"uchi automaton (LDBA) for continuously shaping the reward so that dense rewards are available during training. A na\"ive way of solving a motion planning problem with LTL specifications using reinforcement learning is to sample a trajectory and then assign a high reward for training if the trajectory satisfies the entire LTL formula. However, the sampling complexity needed to find such a trajectory is too high when we have a complex LTL formula for continuous state and action spaces. As a result, it is very unlikely that we get enough reward for training if all sample trajectories start from the initial state in the automata. In this paper, we propose a method that samples not only an initial state from the state space, but also an arbitrary state in the automata at the beginning of each training episode. We test our algorithm in simulation using a car-like robot and find out that our method can learn policies for different working configurations and LTL specifications successfully.
翻訳日:2022-12-17 09:55:13 公開日:2020-09-29
# SINDy-PI:非線形ダイナミクスの並列入射スパース同定のためのロバストアルゴリズム

SINDy-PI: A Robust Algorithm for Parallel Implicit Sparse Identification of Nonlinear Dynamics ( http://arxiv.org/abs/2004.02322v2 )

ライセンス: Link先を確認
Kadierdan Kaheman, J.Nathan Kutz, Steven L. Brunton(参考訳) 計測データからシステムの非線形ダイナミクスを正確にモデル化することは、非常に重要なトピックである。 非線形力学(SINDy)アルゴリズムのスパース同定は、データから力学系モデルを発見するための一手法である。 拡張は、有理関数によって記述される暗黙のダイナミクスやダイナミクスを特定するために開発されたが、これらの拡張はノイズに対して非常に敏感である。 本研究では,SINDy-PI(パラレル,暗黙)を開発し,暗黙的ダイナミクスと有理非線形性を同定する。 SINDy-PIフレームワークには、複数の最適化アルゴリズムと、モデル選択に対する原則的なアプローチが含まれている。 本アルゴリズムは, 暗黙の常微分方程式と偏微分方程式と保存則を, 限定的・雑音的データから学習する能力を示す。 特に,提案手法は,従来の手法よりも数桁高い雑音頑健であり,二重振り子ダイナミクスやベルーソフ・ジャボチンスキー(bz)反応など,従来シンディでは耐えられなかった複雑なodeとpdeダイナミクスのクラスを同定するために用いられる可能性がある。

Accurately modeling the nonlinear dynamics of a system from measurement data is a challenging yet vital topic. The sparse identification of nonlinear dynamics (SINDy) algorithm is one approach to discover dynamical systems models from data. Although extensions have been developed to identify implicit dynamics, or dynamics described by rational functions, these extensions are extremely sensitive to noise. In this work, we develop SINDy-PI (parallel, implicit), a robust variant of the SINDy algorithm to identify implicit dynamics and rational nonlinearities. The SINDy-PI framework includes multiple optimization algorithms and a principled approach to model selection. We demonstrate the ability of this algorithm to learn implicit ordinary and partial differential equations and conservation laws from limited and noisy data. In particular, we show that the proposed approach is several orders of magnitude more noise robust than previous approaches, and may be used to identify a class of complex ODE and PDE dynamics that were previously unattainable with SINDy, including for the double pendulum dynamics and the Belousov Zhabotinsky (BZ) reaction.
翻訳日:2022-12-16 12:28:05 公開日:2020-09-29
# 事前学習した多言語表現の言語中立性について

On the Language Neutrality of Pre-trained Multilingual Representations ( http://arxiv.org/abs/2004.05160v4 )

ライセンス: Link先を確認
Jind\v{r}ich Libovick\'y, Rudolf Rosa, Alexander Fraser(参考訳) マルチリンガルBERTやXLM-RoBERTaのような多言語コンテキスト埋め込みは、多くの多言語タスクに有用であることが証明されている。 前回の研究では、形態的および構文的タスクにおけるゼロショット転送学習を用いて間接的に表現の言語横断性を調査した。 代わりに,多言語文脈埋め込みの言語中立性を直接,語彙意味論に関して検討する。 この結果から,文脈的埋め込みは言語ニュートラルであり,言語中立性のために明示的に訓練された静的な単語型埋め込みよりも情報的であることが示唆された。 そこで本稿では,各言語に対する表現の教師なし中心化と,小さな並列データに明示的なプロジェクションを適用することで,より強力な言語中立性を実現するための2つの簡単な方法を提案する。 さらに,言語識別における最先端の精度に到達し,並列データを用いることなく,並列文の単語アライメントに関する統計的手法の性能を一致させる方法を示す。

Multilingual contextual embeddings, such as multilingual BERT and XLM-RoBERTa, have proved useful for many multi-lingual tasks. Previous work probed the cross-linguality of the representations indirectly using zero-shot transfer learning on morphological and syntactic tasks. We instead investigate the language-neutrality of multilingual contextual embeddings directly and with respect to lexical semantics. Our results show that contextual embeddings are more language-neutral and, in general, more informative than aligned static word-type embeddings, which are explicitly trained for language neutrality. Contextual embeddings are still only moderately language-neutral by default, so we propose two simple methods for achieving stronger language neutrality: first, by unsupervised centering of the representation for each language and second, by fitting an explicit projection on small parallel data. Besides, we show how to reach state-of-the-art accuracy on language identification and match the performance of statistical methods for word alignment of parallel sentences without using parallel data.
翻訳日:2022-12-15 02:54:22 公開日:2020-09-29
# 高忠実度画像変換のためのスペクトル一貫性UNet

Spectrally Consistent UNet for High Fidelity Image Transformations ( http://arxiv.org/abs/2004.10696v2 )

ライセンス: Link先を確認
Demetris Marnerides, Thomas Bashford-Rogers and Kurt Debattista(参考訳) 畳み込みニューラルネットワーク(convolutional neural network、cnns)は、その高い学習能力とアーキテクチャ的性質から、多くのイメージングタスクで使用される現在のデファクトモデルである。 ユビキタスなUNetアーキテクチャは、ローカル情報とグローバル情報を組み合わせた効率的なマルチスケールソリューションを提供する。 unetアーキテクチャの成功にもかかわらず、アップサンプリング層の使用はアーティファクトを引き起こす可能性がある。 本研究では、UNetsの構造バイアスとそれらが出力に与える影響を評価する方法を示し、フーリエ領域におけるそれらの影響を特徴づける。 unetアーキテクチャで使用されるとスペクトル的に一貫した出力を提供し、ガイド付きunet(gunet)を形成する新しいアップサンプリングモジュールが提案されている。 GUNetアーキテクチャを適用して評価し、例えば、グレースケール画像からの逆トーンマッピング/ダイナミックレンジ拡張およびカラー化の適用例を示し、高忠実度出力を提供する。

Convolutional Neural Networks (CNNs) are the current de-facto models used for many imaging tasks due to their high learning capacity as well as their architectural qualities. The ubiquitous UNet architecture provides an efficient and multi-scale solution that combines local and global information. Despite the success of UNet architectures, the use of upsampling layers can cause artefacts. In this work, a method for assessing the structural biases of UNets and the effects these have on the outputs is presented, characterising their impact in the Fourier domain. A new upsampling module is proposed, based on a novel use of the Guided Image Filter, that provides spectrally consistent outputs when used in a UNet architecture, forming the Guided UNet (GUNet). The GUNet architecture is applied and evaluated for example applications of inverse tone mapping/dynamic range expansion and colourisation from grey-scale images and is shown to provide higher fidelity outputs.
翻訳日:2022-12-10 17:47:14 公開日:2020-09-29
# YCB-M:オブジェクト認識と6DoF推定のためのマルチカメラRGB-Dデータセット

YCB-M: A Multi-Camera RGB-D Dataset for Object Recognition and 6DoF Pose Estimation ( http://arxiv.org/abs/2004.11657v2 )

ライセンス: Link先を確認
Till Grenzd\"orffer, Martin G\"unther and Joachim Hertzberg(参考訳) 近年,多種多様な3Dカメラが紹介されているが,オブジェクト認識とポーズ推定のためのデータセットが最も広く公開されている。 本研究では,7つの異なる3dカメラで撮影された32シーンのデータセットを,合計49,294フレームで提示する。 これにより、使用済みカメラの仕様に対するポーズ推定アルゴリズムの感度を評価し、カメラモデルからより独立したより堅牢なアルゴリズムを開発することができる。 逆に、我々のデータセットは、研究者が複数の異なるカメラと深度センシング技術からのデータを定量的に比較し、特定のタスクのためにカメラを選択する前にアルゴリズムを評価することができる。 データセットのシーンには、共通ベンチマークYCBオブジェクトとモデルセット[1],[2]の20の異なるオブジェクトが含まれています。 各被写体に対する6dofポーズ,ピクセル単位の分割,2dおよび3dバウンディングボックス,および各被写体の閉塞量の測定値を提供する。 我々はまた、最先端のオブジェクト認識とポーズ推定システム[3]上で、データセットを用いてカメラの初期評価を行った。

While a great variety of 3D cameras have been introduced in recent years, most publicly available datasets for object recognition and pose estimation focus on one single camera. In this work, we present a dataset of 32 scenes that have been captured by 7 different 3D cameras, totaling 49,294 frames. This allows evaluating the sensitivity of pose estimation algorithms to the specifics of the used camera and the development of more robust algorithms that are more independent of the camera model. Vice versa, our dataset enables researchers to perform a quantitative comparison of the data from several different cameras and depth sensing technologies and evaluate their algorithms before selecting a camera for their specific task. The scenes in our dataset contain 20 different objects from the common benchmark YCB object and model set [1], [2]. We provide full ground truth 6DoF poses for each object, per-pixel segmentation, 2D and 3D bounding boxes and a measure of the amount of occlusion of each object. We have also performed an initial evaluation of the cameras using our dataset on a state-of-the-art object recognition and pose estimation system [3].
翻訳日:2022-12-10 04:10:33 公開日:2020-09-29
# テキストデータ集合のための新しいプロトコルと負の結果

New Protocols and Negative Results for Textual Entailment Data Collection ( http://arxiv.org/abs/2004.11997v2 )

ライセンス: Link先を確認
Samuel R. Bowman, Jennimaria Palomaki, Livio Baldini Soares, and Emily Pitler(参考訳) 自然言語推論(NLI)データは、特に言語理解を必要とするタスクの事前トレーニングデータとして、ベンチマークに有用であることが証明されている。 しかしながら、このデータ収集に使用されたクラウドソーシングプロトコルには既知の問題があり、どちらの目的にも明示的に最適化されていないため、理想には程遠いものと思われる。 提案する4つの代替プロトコルは,アノテータが音質訓練例を作成することや,それらの例の品質と多様性を改善することを目的としている。 これらの代替手段と5番目のベースラインプロトコルを用いて、5つの新しい8.5kサンプルトレーニングセットを収集し比較する。 転送学習アプリケーションに焦点をあてた評価では、ベースラインデータセットでトレーニングされたモデルが下流タスクに優れた転送性能をもたらすという確固たる否定的な結果が得られましたが、我々の4つの新しい手法(最近のANLIも)はいずれもベースラインよりも改善を示さなかったのです。 小さなシルバーライニングでは、4つの新しいプロトコル、特にアノテータがプリフィルドテキストボックスを編集する場合、アノテーションアーティファクトに関する以前観測されていた問題を減らすことが観察された。

Natural language inference (NLI) data has proven useful in benchmarking and, especially, as pretraining data for tasks requiring language understanding. However, the crowdsourcing protocol that was used to collect this data has known issues and was not explicitly optimized for either of these purposes, so it is likely far from ideal. We propose four alternative protocols, each aimed at improving either the ease with which annotators can produce sound training examples or the quality and diversity of those examples. Using these alternatives and a fifth baseline protocol, we collect and compare five new 8.5k-example training sets. In evaluations focused on transfer learning applications, our results are solidly negative, with models trained on our baseline dataset yielding good transfer performance to downstream tasks, but none of our four new methods (nor the recent ANLI) showing any improvements over that baseline. In a small silver lining, we observe that all four new protocols, especially those where annotators edit pre-filled text boxes, reduce previously observed issues with annotation artifacts.
翻訳日:2022-12-10 03:43:48 公開日:2020-09-29
# 微調整サブワードシステムによる文字レベル変換器NMTの実現に向けて

Towards Reasonably-Sized Character-Level Transformer NMT by Finetuning Subword Systems ( http://arxiv.org/abs/2004.14280v2 )

ライセンス: Link先を確認
Jind\v{r}ich Libovick\'y, Alexander Fraser(参考訳) 文字レベルでTransformerアーキテクチャを適用するには、通常、訓練が困難で遅い非常に深いアーキテクチャが必要です。 これらの問題は、モデルのトークンにセグメンテーションを組み込むことによって部分的に克服できる。 サブワードモデルをトレーニングして文字に微調整することで、トークンセグメンテーションを必要とせずに文字レベルで機能するニューラルネットワーク翻訳モデルが得られることを示す。 バニラ6層トランスフォーマーベースアーキテクチャのみを使用します。 我々のキャラクタレベルモデルは、全体的な翻訳品質を多少悪化させながら、形態的現象を捉え、ノイズに対してより堅牢性を示す。 我々の研究は、非常に大きくないキャラクタベースモデルを訓練しやすく、高性能化するための重要な一歩である。

Applying the Transformer architecture on the character level usually requires very deep architectures that are difficult and slow to train. These problems can be partially overcome by incorporating a segmentation into tokens in the model. We show that by initially training a subword model and then finetuning it on characters, we can obtain a neural machine translation model that works at the character level without requiring token segmentation. We use only the vanilla 6-layer Transformer Base architecture. Our character-level models better capture morphological phenomena and show more robustness to noise at the expense of somewhat worse overall translation quality. Our study is a significant step towards high-performance and easy to train character-based models that are not extremely large.
翻訳日:2022-12-08 13:52:19 公開日:2020-09-29
# hero: video+language omni-representation pre-training用階層エンコーダ

HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training ( http://arxiv.org/abs/2005.00200v2 )

ライセンス: Link先を確認
Linjie Li, Yen-Chun Chen, Yu Cheng, Zhe Gan, Licheng Yu, Jingjing Liu(参考訳) 我々は,大規模ビデオ+言語全表現学習のための新しいフレームワークであるheroを提案する。 HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストはマルチモーダル融合によりクロスモーダル変換器によってキャプチャされ、グローバルビデオコンテキストはテンポラル変換器によってキャプチャされる。 Masked Language Modeling (MLM) と Masked Frame Modeling (MFM) の目的に加え、我々は2つの新しい事前学習タスクを設計する。 (i)ビデオ字幕マッチング(vsm)で、このモデルは、大域的及び局所的な時間的アライメントの両方を予測し、 (II)フレーム秩序モデリング(FOM)では、シャッフルされたビデオフレームの正しい順序をモデルが予測する。 HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチ文字インタラクションによる複雑な社会的ダイナミクスの理解を深める。 包括的な実験によってheroは、テキストベースのビデオ/ビデオモーメント検索、ビデオ質問応答(qa)、ビデオと言語による推論、さまざまなドメインにわたるビデオキャプションタスクといった、複数のベンチマークで新たな最先端を達成した。 how2qa と how2r for video qa and retrieval という2つの新しい挑戦的ベンチマークも紹介する。

We present HERO, a novel framework for large-scale video+language omni-representation learning. HERO encodes multimodal inputs in a hierarchical structure, where local context of a video frame is captured by a Cross-modal Transformer via multimodal fusion, and global video context is captured by a Temporal Transformer. In addition to standard Masked Language Modeling (MLM) and Masked Frame Modeling (MFM) objectives, we design two new pre-training tasks: (i) Video-Subtitle Matching (VSM), where the model predicts both global and local temporal alignment; and (ii) Frame Order Modeling (FOM), where the model predicts the right order of shuffled video frames. HERO is jointly trained on HowTo100M and large-scale TV datasets to gain deep understanding of complex social dynamics with multi-character interactions. Comprehensive experiments demonstrate that HERO achieves new state of the art on multiple benchmarks over Text-based Video/Video-moment Retrieval, Video Question Answering (QA), Video-and-language Inference and Video Captioning tasks across different domains. We also introduce two new challenging benchmarks How2QA and How2R for Video QA and Retrieval, collected from diverse video content over multimodalities.
翻訳日:2022-12-07 22:44:55 公開日:2020-09-29
# 局所確率的ボラティリティモデルのキャリブレーションに対する生成的逆ネットワークアプローチ

A generative adversarial network approach to calibration of local stochastic volatility models ( http://arxiv.org/abs/2005.02505v3 )

ライセンス: Link先を確認
Christa Cuchiero and Wahid Khosrawi and Josef Teichmann(参考訳) 本研究では,局所確率的ボラティリティ (LSV) モデルのキャリブレーションのための完全データ駆動型アプローチを提案し,特にボラティリティ表面のアドホック補間を回避した。 これを実現するために、フィードフォワードニューラルネットワークのファミリーによるレバレッジ関数をパラメータ化し、利用可能な市場オプション価格から直接パラメータを学習する。 このことは、ニューラルSDEと(因果)生成的敵ネットワークの文脈で見る必要がある:我々は特定のニューラルSDEによってボラティリティー面を生成し、その品質は、おそらく敵対的な方法で、市場価格までの距離を定量化することによって評価される。 キャリブレーション関数の最小化は, ヘッジとディープヘッジに基づく分散低減技術に強く依存しており, モデル価格とモデルインプリッドボラティリティの計算を, 少数のサンプルパスのみを用いて正確に行うことができる。 数値シミュレーションのためにsabr型lsvモデルを実装し,提案手法の精度と安定性を示す多数のボラティリティスマイルのサンプルについて,詳細な統計性能解析を行う。

We propose a fully data-driven approach to calibrate local stochastic volatility (LSV) models, circumventing in particular the ad hoc interpolation of the volatility surface. To achieve this, we parametrize the leverage function by a family of feed-forward neural networks and learn their parameters directly from the available market option prices. This should be seen in the context of neural SDEs and (causal) generative adversarial networks: we generate volatility surfaces by specific neural SDEs, whose quality is assessed by quantifying, possibly in an adversarial manner, distances to market prices. The minimization of the calibration functional relies strongly on a variance reduction technique based on hedging and deep hedging, which is interesting in its own right: it allows the calculation of model prices and model implied volatilities in an accurate way using only small sets of sample paths. For numerical illustration we implement a SABR-type LSV model and conduct a thorough statistical performance analysis on many samples of implied volatility smiles, showing the accuracy and stability of the method.
翻訳日:2022-12-06 14:34:14 公開日:2020-09-29
# 公正制約による乱流検出

Cyberbullying Detection with Fairness Constraints ( http://arxiv.org/abs/2005.06625v2 )

ライセンス: Link先を確認
Oguzhan Gencoglu(参考訳) サイバーバブルは、今日のデジタル社会において、オンライン社会の相互作用において広範な有害な現象である。 多くの計算研究は、機械学習アルゴリズムのサイバーいじめ検出性能の向上に重点を置いているが、提案されたモデルは意図しない社会的バイアスを担いで強化する傾向がある。 本研究では,「公正な制約でモデルトレーニングを指導することで,サイバーいじめ検出モデルの意図しない偏見を軽減するか?」という研究課題に答えようとしている。 そこで本研究では,公平性制約を適用可能なモデルトレーニング手法を提案し,そのアプローチを異なるデータセットで検証する。 モデル品質を損なうことなく,様々な非意図バイアスを効果的に軽減できることを実証する。 我々の研究は、サイバー社会の健康に対する偏見のない、透明で倫理的な機械学習ソリューションの追求に寄与していると信じています。

Cyberbullying is a widespread adverse phenomenon among online social interactions in today's digital society. While numerous computational studies focus on enhancing the cyberbullying detection performance of machine learning algorithms, proposed models tend to carry and reinforce unintended social biases. In this study, we try to answer the research question of "Can we mitigate the unintended bias of cyberbullying detection models by guiding the model training with fairness constraints?". For this purpose, we propose a model training scheme that can employ fairness constraints and validate our approach with different datasets. We demonstrate that various types of unintended biases can be successfully mitigated without impairing the model quality. We believe our work contributes to the pursuit of unbiased, transparent, and ethical machine learning solutions for cyber-social health.
翻訳日:2022-12-05 06:44:01 公開日:2020-09-29
# Fundus2Angio:網膜基底写真からフルオレセイン血管造影画像を生成するための条件付きGANアーキテクチャ

Fundus2Angio: A Conditional GAN Architecture for Generating Fluorescein Angiography Images from Retinal Fundus Photography ( http://arxiv.org/abs/2005.05267v2 )

ライセンス: Link先を確認
Sharif Amit Kamran, Khondker Fariha Hossain, Alireza Tavakkoli, Stewart Lee Zuckerbrod, Salah A. Baker, Kenton M. Sanders(参考訳) Fluorescein Angiography (FA) を用いた網膜血管変性の臨床的診断は、時間を要するプロセスであり、患者に重大な副作用をもたらす可能性がある。 血管造影では、深刻な副作用を引き起こし、致命的になり得る染料を挿入する必要がある。 現在、Fluorescein Angiography画像を生成する非侵襲的なシステムはない。 しかし、網膜基底撮影は、数秒で完了できる非侵襲的なイメージング技術である。 FAの必要をなくすため,基礎画像からFA画像へ変換する条件付き生成対向ネットワーク(GAN)を提案する。 提案したGANは,高品質なFA画像を生成することができる新しい残差ブロックで構成されている。 これらの画像は、網膜疾患の鑑別診断において、副作用の可能性のある侵襲的な処置を必要としない重要なツールである。 実験の結果,提案アーキテクチャは他の最先端生成ネットワークよりも優れていることがわかった。 さらに,本モデルでは実際の血管造影と区別できない定性的な結果が得られる。

Carrying out clinical diagnosis of retinal vascular degeneration using Fluorescein Angiography (FA) is a time consuming process and can pose significant adverse effects on the patient. Angiography requires insertion of a dye that may cause severe adverse effects and can even be fatal. Currently, there are no non-invasive systems capable of generating Fluorescein Angiography images. However, retinal fundus photography is a non-invasive imaging technique that can be completed in a few seconds. In order to eliminate the need for FA, we propose a conditional generative adversarial network (GAN) to translate fundus images to FA images. The proposed GAN consists of a novel residual block capable of generating high quality FA images. These images are important tools in the differential diagnosis of retinal diseases without the need for invasive procedure with possible side effects. Our experiments show that the proposed architecture outperforms other state-of-the-art generative networks. Furthermore, our proposed model achieves better qualitative results indistinguishable from real angiograms.
翻訳日:2022-12-04 20:48:12 公開日:2020-09-29
# セグメンテーションのない心臓異常検出のためのロバスト解釈型ディープラーニング分類器

A Robust Interpretable Deep Learning Classifier for Heart Anomaly Detection Without Segmentation ( http://arxiv.org/abs/2005.10480v2 )

ライセンス: Link先を確認
Theekshana Dissanayake, Tharindu Fernando, Simon Denman, Sridha Sridharan, Houman Ghaemmaghami, Clinton Fookes(参考訳) 伝統的に、異常な心臓音の分類は3段階のプロセスである。 第1段階では、心電図を分割して基本的な心臓音を検出し、その後特徴を抽出して分類する。 この分野の研究者の中には、セグメンテーションのステップは望ましくない計算負荷であると主張する者もいれば、特徴抽出の前段階として受け入れる者もいる。 分析の前に心臓の音を分割した研究で得られた精度を、そのステップを見落としているものと比較すると、特徴抽出の前に心臓の音をセグメント化するかどうかという問題は未解決のままである。 本研究では,心音分類の前段階として,心音分割の重要性を明示的に検討し,得られた知見を応用し,異常心音検出のためのロバスト分類器を提案する。 さらに、医療領域における説明可能な人工知能(AI)モデルの必要性を認識し、モデル解釈技術を用いて分類器が学習した隠れ表現を明らかにする。 実験の結果, セグメンテーションは心音の異常分類において重要な役割を担っていることがわかった。 新しい分類器は、ロバストで安定で、最も重要な説明が可能で、広く使われている物理式データセット上でほぼ100%正確であることが示されています。

Traditionally, abnormal heart sound classification is framed as a three-stage process. The first stage involves segmenting the phonocardiogram to detect fundamental heart sounds; after which features are extracted and classification is performed. Some researchers in the field argue the segmentation step is an unwanted computational burden, whereas others embrace it as a prior step to feature extraction. When comparing accuracies achieved by studies that have segmented heart sounds before analysis with those who have overlooked that step, the question of whether to segment heart sounds before feature extraction is still open. In this study, we explicitly examine the importance of heart sound segmentation as a prior step for heart sound classification, and then seek to apply the obtained insights to propose a robust classifier for abnormal heart sound detection. Furthermore, recognizing the pressing need for explainable Artificial Intelligence (AI) models in the medical domain, we also unveil hidden representations learned by the classifier using model interpretation techniques. Experimental results demonstrate that the segmentation plays an essential role in abnormal heart sound classification. Our new classifier is also shown to be robust, stable and most importantly, explainable, with an accuracy of almost 100% on the widely used PhysioNet dataset.
翻訳日:2022-12-01 00:11:18 公開日:2020-09-29
# 高次元データに対するロバスト最適輸送

Feature Robust Optimal Transport for High-dimensional Data ( http://arxiv.org/abs/2005.12123v4 )

ライセンス: Link先を確認
Mathis Petrovich and Chao Liang and Ryoma Sato and Yanbin Liu and Yao-Hung Hubert Tsai and Linchao Zhu and Yi Yang and Ruslan Salakhutdinov and Makoto Yamada(参考訳) 最適輸送は、分散比較、特徴選択、生成的敵ネットワークを含む応用における機械学習問題である。 本稿では,高次元データに対する特徴量ロバスト最適輸送(FROT)を提案する。 具体的には,識別的特徴を有する輸送計画を見いだす。 そこで我々は, FROT 問題を min-max 最適化問題として定式化し, FROT 問題の凸定式化をフランク・ウルフ最適化アルゴリズムを用いて提案し, Sinkhorn アルゴリズムを用いて, サブプロブレムを効率的に解けるようにした。 FROTは、選択した特徴から輸送計画を見つけるため、ノイズの特徴に対して堅牢である。 FROTの有効性を示すために,深いニューラルネットワークの層選択問題に対するFROTアルゴリズムを用いた意味対応手法を提案する。 合成およびベンチマーク実験により,提案手法は重要な層を決定することで強い対応性を見出すことができることを示した。 実世界の意味対応データセットにおいて,FROTアルゴリズムが最先端の性能を実現することを示す。

Optimal transport is a machine learning problem with applications including distribution comparison, feature selection, and generative adversarial networks. In this paper, we propose feature-robust optimal transport (FROT) for high-dimensional data, which solves high-dimensional OT problems using feature selection to avoid the curse of dimensionality. Specifically, we find a transport plan with discriminative features. To this end, we formulate the FROT problem as a min--max optimization problem. We then propose a convex formulation of the FROT problem and solve it using a Frank--Wolfe-based optimization algorithm, whereby the subproblem can be efficiently solved using the Sinkhorn algorithm. Since FROT finds the transport plan from selected features, it is robust to noise features. To show the effectiveness of FROT, we propose using the FROT algorithm for the layer selection problem in deep neural networks for semantic correspondence. By conducting synthetic and benchmark experiments, we demonstrate that the proposed method can find a strong correspondence by determining important layers. We show that the FROT algorithm achieves state-of-the-art performance in real-world semantic correspondence datasets.
翻訳日:2022-11-29 05:19:27 公開日:2020-09-29
# フェデレーション顔提示攻撃検出

Federated Face Presentation Attack Detection ( http://arxiv.org/abs/2005.14638v2 )

ライセンス: Link先を確認
Rui Shao, Pramuditha Perera, Pong C. Yuen, Vishal M. Patel(参考訳) 顔提示攻撃検出(fPAD)は、現代の顔認識パイプラインにおいて重要な役割を果たす。 異なる入力分布と異なる種類のスプーフ攻撃から顔画像で訓練した場合には、優れた一般化を伴う顔提示攻撃検出モデルが得られる。 実際、トレーニングデータ(実際の顔画像と偽画像の両方)は、法的およびプライバシー上の問題により、データ所有者間で直接共有されない。 本稿では,この課題を回避するために,FedPAD(Federated Face Presentation Detection)フレームワークを提案する。 FedPADはデータプライバシを保持しながら、異なるデータオーナで利用可能な豊富なfPAD情報を同時に活用する。 提案したフレームワークでは、各データオーナ(‘textit{datacenter}’と呼ばれる)が、独自のfPADモデルをローカルにトレーニングする。 サーバは、各データセンタ内のプライベートデータにアクセスすることなく、すべてのデータセンタからモデル更新を反復的に集約することで、グローバルなfPADモデルを学ぶ。 学習したグローバルモデルが収束すると、fPAD推論に使用される。 提案するFedPADフレームワークを評価するための実験環境について紹介し、fPADのフェデレート学習に関する様々な知見を提供するための広範な実験を行う。

Face presentation attack detection (fPAD) plays a critical role in the modern face recognition pipeline. A face presentation attack detection model with good generalization can be obtained when it is trained with face images from different input distributions and different types of spoof attacks. In reality, training data (both real face images and spoof images) are not directly shared between data owners due to legal and privacy issues. In this paper, with the motivation of circumventing this challenge, we propose Federated Face Presentation Attack Detection (FedPAD) framework. FedPAD simultaneously takes advantage of rich fPAD information available at different data owners while preserving data privacy. In the proposed framework, each data owner (referred to as \textit{data centers}) locally trains its own fPAD model. A server learns a global fPAD model by iteratively aggregating model updates from all data centers without accessing private data in each of them. Once the learned global model converges, it is used for fPAD inference. We introduce the experimental setting to evaluate the proposed FedPAD framework and carry out extensive experiments to provide various insights about federated learning for fPAD.
翻訳日:2022-11-26 23:41:27 公開日:2020-09-29
# オンライン確率凸最適化 - Wasserstein 距離変動

Online Stochastic Convex Optimization: Wasserstein Distance Variation ( http://arxiv.org/abs/2006.01397v2 )

ライセンス: Link先を確認
Iman Shames and Farhad Farokhi(参考訳) 分散的ロバスト最適化は、時間とともに著しくドリフトできる時間変化分布ではなく、固定された分布に対してしばしば研究される(例えば、経済の根底にある拡大と人口動態の進化による金融と社会学の場合)。 これは確率分布の理解条件をワッサーシュタイン距離を用いて動機付け、時間変化環境をモデル化することができる。 そして、これらの条件をオンライン確率最適化と組み合わせて決定に適応することができる。 確率分布が連続的に変化する確率変数によってパラメータ化される滑らかな凸関数の期待値の最小化を,意思決定者が行動する速度に類似した速度で追跡するオンライン近位勾配法を考える。 システムや制御文献に着想を得た推定・追跡誤差の概念を再検討し, 強い凸性, 勾配のリプシッツ性, 確率分布のドリフトの有界性について検討する。 さらに,一般実現可能な集合に対する計算予測は,オンライン実装には適さない(計算制約のため)ことを指摘し,正確なペナルティ法を提案する。 そうすることで、勾配の均一な有界性を緩和し、追跡と推定誤差の動的後悔境界を確立することができる。 さらに,制約厳密化手法を導入し,制約を満たす確率に締固めの量を関連づける。

Distributionally-robust optimization is often studied for a fixed set of distributions rather than time-varying distributions that can drift significantly over time (which is, for instance, the case in finance and sociology due to underlying expansion of economy and evolution of demographics). This motivates understanding conditions on probability distributions, using the Wasserstein distance, that can be used to model time-varying environments. We can then use these conditions in conjunction with online stochastic optimization to adapt the decisions. We considers an online proximal-gradient method to track the minimizers of expectations of smooth convex functions parameterised by a random variable whose probability distributions continuously evolve over time at a rate similar to that of the rate at which the decision maker acts. We revisit the concepts of estimation and tracking error inspired by systems and control literature and provide bounds for them under strong convexity, Lipschitzness of the gradient, and bounds on the probability distribution drift. Further, noting that computing projections for a general feasible sets might not be amenable to online implementation (due to computational constraints), we propose an exact penalty method. Doing so allows us to relax the uniform boundedness of the gradient and establish dynamic regret bounds for tracking and estimation error. We further introduce a constraint-tightening approach and relate the amount of tightening to the probability of satisfying the constraints.
翻訳日:2022-11-26 00:21:28 公開日:2020-09-29
# 分離可能な4点基本行列

Separable Four Points Fundamental Matrix ( http://arxiv.org/abs/2006.05926v2 )

ライセンス: Link先を確認
Gil Ben-Artzi(参考訳) 本稿では, RANSAC を用いたエピポーラホモグラフィ分解に基づく基本行列の計算手法を提案する。 分解に基づく表現の幾何学的意味を解析し、2つの独立な対応集合の連続的なサンプリング戦略を直接誘導することを示す。 提案手法は,イメージライン上に4つの対応があることを条件として,現在最小のアプローチに対して最小限の評価仮説を保証する。 実世界のイメージペアに対する我々のアプローチを検証し、高速で正確な結果を提供する。

We present a novel approach for RANSAC-based computation of the fundamental matrix based on epipolar homography decomposition. We analyze the geometrical meaning of the decomposition-based representation and show that it directly induces a consecutive sampling strategy of two independent sets of correspondences. We show that our method guarantees a minimal number of evaluated hypotheses with respect to current minimal approaches, on the condition that there are four correspondences on an image line. We validate our approach on real-world image pairs, providing fast and accurate results.
翻訳日:2022-11-23 06:00:40 公開日:2020-09-29
# 分光ディフューザCam:スペクトルフィルタアレイを用いたレンズレススナップショットハイパースペクトルイメージング

Spectral DiffuserCam: lensless snapshot hyperspectral imaging with a spectral filter array ( http://arxiv.org/abs/2006.08565v2 )

ライセンス: Link先を確認
Kristina Monakhova, Kyrollos Yanny, Neerja Aggarwal, Laura Waller(参考訳) ハイパースペクトルイメージングは、医学的診断から農業作物のモニタリングまで応用に有用であるが、従来の走査型ハイパースペクトルイメージングは、広く採用されるには明らかに遅くて高価である。 スナップショット技術は存在するが、しばしばベンチトップのバラバラな設定に限られる。 本稿では,スナップショットハイパースペクトルイメージングのための,新しい,コンパクトで,安価な計算カメラを提案する。 本システムは,イメージセンサに直接配置されたタイル付きスペクトルフィルタアレイと,センサに近接したディフューザから構成される。 世界の各点をスペクトルフィルタアレイ上のユニークな擬似ランダムパターンにマッピングし、多重化された時空間情報を符号化する。 空間制約のある逆問題の解法により、超スペクトル体積を超高画素解像度で回復する。 我々のハイパースペクトルイメージングフレームワークはフレキシブルであり、所定のアプリケーションに選択可能な連続または連続しないスペクトルフィルタで設計することができる。 システム設計の理論を提供し,試作装置の実証を行い,高いスペクトル分解能を持つ実験結果を示す。

Hyperspectral imaging is useful for applications ranging from medical diagnostics to agricultural crop monitoring; however, traditional scanning hyperspectral imagers are prohibitively slow and expensive for widespread adoption. Snapshot techniques exist but are often confined to bulky benchtop setups or have low spatio-spectral resolution. In this paper, we propose a novel, compact, and inexpensive computational camera for snapshot hyperspectral imaging. Our system consists of a tiled spectral filter array placed directly on the image sensor and a diffuser placed close to the sensor. Each point in the world maps to a unique pseudorandom pattern on the spectral filter array, which encodes multiplexed spatio-spectral information. By solving a sparsity-constrained inverse problem, we recover the hyperspectral volume with sub-super-pixel resolution. Our hyperspectral imaging framework is flexible and can be designed with contiguous or non-contiguous spectral filters that can be chosen for a given application. We provide theory for system design, demonstrate a prototype device, and present experimental results with high spatio-spectral resolution.
翻訳日:2022-11-21 05:20:41 公開日:2020-09-29
# 双方向モデルに基づく政策最適化

Bidirectional Model-based Policy Optimization ( http://arxiv.org/abs/2007.01995v2 )

ライセンス: Link先を確認
Hang Lai, Jian Shen, Weinan Zhang, Yong Yu(参考訳) モデルに基づく強化学習アプローチは、計画と意思決定をサポートするためにフォワードダイナミクスモデルを利用するが、モデルが不正確であれば破滅的に失敗する可能性がある。 モデルエラーと戦うための方法がいくつか存在するが、単一のフォワードモデルの可能性はまだ限られている。 本稿では,フォワードモデル予測における精度依存性を低減すべく,後方ダイナミクスモデルを構築することを提案する。 bmpo(bidirectional model-based policy optimization)と呼ばれる新しい手法を開発し、フォワードモデルとフォワードモデルの両方を利用して、ポリシー最適化のための短い分岐ロールアウトを生成する。 さらに、理論上は、単にフォワードモデルを用いたBMPOの方が優れていることを示すような、リターン不一致の厳密な境界を導出する。 広範囲な実験により、BMPOはサンプル効率と漸近性能の点で最先端のモデルベース手法より優れていることが示された。

Model-based reinforcement learning approaches leverage a forward dynamics model to support planning and decision making, which, however, may fail catastrophically if the model is inaccurate. Although there are several existing methods dedicated to combating the model error, the potential of the single forward model is still limited. In this paper, we propose to additionally construct a backward dynamics model to reduce the reliance on accuracy in forward model predictions. We develop a novel method, called Bidirectional Model-based Policy Optimization (BMPO) to utilize both the forward model and backward model to generate short branched rollouts for policy optimization. Furthermore, we theoretically derive a tighter bound of return discrepancy, which shows the superiority of BMPO against the one using merely the forward model. Extensive experiments demonstrate that BMPO outperforms state-of-the-art model-based methods in terms of sample efficiency and asymptotic performance.
翻訳日:2022-11-13 13:02:38 公開日:2020-09-29
# 畳み込みオートエンコーダによる文脈化音声単語表現

Contextualized Spoken Word Representations from Convolutional Autoencoders ( http://arxiv.org/abs/2007.02880v2 )

ライセンス: Link先を確認
Prakamya Mishra and Pranav Mathur(参考訳) 異なるnlpタスクを実行するためのテキストベースの言語モデルを構築するために多くの作業が行われたが、音声ベースの言語モデルの場合の研究はあまり行われていない。 本稿では,畳み込み型オートエンコーダに基づくニューラルアーキテクチャを提案し,様々な長さの音声単語の構文的かつ意味論的に適切な文脈化表現をモデル化する。 このような表現の使用は、音声ベースのNLPタスクに大きな進歩をもたらすだけでなく、これらのタスクを実行するために音声をテキストに変換しながら、トーン、表現、アクセントなどの情報の損失を削減できる。 提案モデルの性能は,(1)生成したベクトル空間の検証,(2)単語の類似度を測定するための3つのベンチマークデータセットにおける性能評価により検証される。 提案モデルでは,他の2つの言語モデルと比較して頑健性を示すことができた。

A lot of work has been done to build text-based language models for performing different NLP tasks, but not much research has been done in the case of audio-based language models. This paper proposes a Convolutional Autoencoder based neural architecture to model syntactically and semantically adequate contextualized representations of varying length spoken words. The use of such representations can not only lead to great advances in the audio-based NLP tasks but can also curtail the loss of information like tone, expression, accent, etc while converting speech to text to perform these tasks. The performance of the proposed model is validated by (1) examining the generated vector space, and (2) evaluating its performance on three benchmark datasets for measuring word similarities, against existing widely used text-based language models that are trained on the transcriptions. The proposed model was able to demonstrate its robustness when compared to the other two language-based models.
翻訳日:2022-11-13 02:26:51 公開日:2020-09-29
# 集合注意を伴う高速変圧器

Fast Transformers with Clustered Attention ( http://arxiv.org/abs/2007.04825v2 )

ライセンス: Link先を確認
Apoorv Vyas, Angelos Katharopoulos, Fran\c{c}ois Fleuret(参考訳) トランスフォーマーは、シーケンスモデリングにおいて様々なタスクで成功したモデルであることが証明されている。 しかしながら、注意行列の計算は、その鍵となる要素であり、シーケンス長に関して二次的な複雑さを持ち、大きなシーケンスに対して非常に高価である。 そこで本研究では,クエリ毎の注目度を計算する代わりに,クエリをクラスタにグループ化し,セントロイドのみの注意度を算出する。 この近似をさらに改善するために、計算されたクラスタを使ってクエリ毎に最も注目されるキーを特定し、正確なkey/query dot製品を計算する。 これにより、一定の数のクラスタのシーケンス長に関して線形複雑性を持つモデルが得られる。 我々は,2つの自動音声認識データセットに対するアプローチを評価し,そのモデルが与えられた計算予算に対して常にバニラ変換器より優れていることを示す。 最後に, GLUE と SQuAD ベンチマークに事前学習したBERT モデルを 25 個のクラスタで近似することにより, 最小数のクラスタで任意に複雑な注意分布を近似できることを実証した。

Transformers have been proven a successful model for a variety of tasks in sequence modeling. However, computing the attention matrix, which is their key component, has quadratic complexity with respect to the sequence length, thus making them prohibitively expensive for large sequences. To address this, we propose clustered attention, which instead of computing the attention for every query, groups queries into clusters and computes attention just for the centroids. To further improve this approximation, we use the computed clusters to identify the keys with the highest attention per query and compute the exact key/query dot products. This results in a model with linear complexity with respect to the sequence length for a fixed number of clusters. We evaluate our approach on two automatic speech recognition datasets and show that our model consistently outperforms vanilla transformers for a given computational budget. Finally, we demonstrate that our model can approximate arbitrarily complex attention distributions with a minimal number of clusters by approximating a pretrained BERT model on GLUE and SQuAD benchmarks with only 25 clusters and no loss in performance.
翻訳日:2022-11-12 03:31:05 公開日:2020-09-29
# データ駆動型物理:辞書学習から深層学習へ

Data-driven geophysics: from dictionary learning to deep learning ( http://arxiv.org/abs/2007.06183v2 )

ライセンス: Link先を確認
Siwei Yu and Jianwei Ma(参考訳) 物理現象の原理を理解することは不可欠な課題である。 モデル駆動」アプローチは長い間地球物理学の発展を支えてきたが、そのような手法は次元の呪いに苦しめられ、不正確に地下面をモデル化する可能性がある。 データ駆動技術は、ますます利用可能な物理データによってこれらの問題を克服する可能性がある。 本稿では,様々な物理シナリオにおける辞書学習から深層学習まで,データ駆動アプローチの基本概念と最近の進歩について概説する。 データ処理、反転、解釈を含む探査地球物理学は主に焦点が当てられる。 深海、地震、水資源、大気科学、衛星リモートセンシング、宇宙科学を含む地球科学の人工知能応用についても概説する。 深層学習を迅速に探求するためのコーディングチュートリアルと,初心者と興味ある物理読者のためのヒントの要約を紹介する。 教師なし学習、転送学習、マルチモーダル深層学習、連合学習、不確実性推定、学習の活性化など、地球物理学における深層学習を含む将来の研究に有望な方向が提供されている。

Understanding the principles of geophysical phenomena is an essential and challenging task. "Model-driven" approaches have supported the development of geophysics for a long time; however, such methods suffer from the curse of dimensionality and may inaccurately model the subsurface. "Data-driven" techniques may overcome these issues with increasingly available geophysical data. In this article, we review the basic concepts of and recent advances in data-driven approaches from dictionary learning to deep learning in a variety of geophysical scenarios. Explorational geophysics including data processing, inversion and interpretation will be mainly focused. Artificial intelligence applications on geoscience involving deep Earth, earthquake, water resource, atmospheric science, satellite remoe sensing and space sciences are also reviewed. We present a coding tutorial and a summary of tips for beginners and interested geophysical readers to rapidly explore deep learning. Some promising directions are provided for future research involving deep learning in geophysics, such as unsupervised learning, transfer learning, multimodal deep learning, federated learning, uncertainty estimation, and activate learning.
翻訳日:2022-11-11 00:52:44 公開日:2020-09-29
# OREBA: 食行動と関連する摂取を客観的に認識するためのデータセット

OREBA: A Dataset for Objectively Recognizing Eating Behaviour and Associated Intake ( http://arxiv.org/abs/2007.15831v3 )

ライセンス: Link先を確認
Philipp V. Rouast and Hamid Heydarian and Marc T. P. Adam and Megan E. Rollo(参考訳) 摂取ジェスチャーの自動検出は、食事の自動監視の重要な要素である。 慣性測定ユニット(IMU)やビデオカメラなど、いくつかの種類のセンサーがこの目的のために使用されている。 一般的な機械学習のアプローチでは、ラベル付きセンサーデータを使用して自動的に検出方法を学ぶ。 特にディープラーニングモデルに特徴的なのは,大規模なデータセットの必要性だ。 このニーズを満たすために、私たちはObjectively Recognizing Eating Behavior and Associated Intake (OREBA)データセットを収集しました。 OREBAデータセットは、共同食事中に記録された総合的なマルチセンサーデータを提供することを目的としている。 2つのシナリオがあり、100人の参加者が離散料理、102人の参加者が共食料理、合計9069人の摂取ジェスチャーがある。 利用可能なセンサデータは、両手に加速度計とジャイロスコープを備えた前面ビデオとimuの同期である。 本稿では,データ収集とアノテーションの詳細,およびセンサ処理の詳細について報告する。 深層学習モデルを用いたIMUと映像データの研究結果を報告し,今後の研究の基盤となるものと考えられる。 特に、最良のベースラインモデルは、ビデオを用いた離散皿では$f_1$ = 0.853、慣性データを用いた共有皿では$f_1$ = 0.852の性能を達成する。

Automatic detection of intake gestures is a key element of automatic dietary monitoring. Several types of sensors, including inertial measurement units (IMU) and video cameras, have been used for this purpose. The common machine learning approaches make use of the labeled sensor data to automatically learn how to make detections. One characteristic, especially for deep learning models, is the need for large datasets. To meet this need, we collected the Objectively Recognizing Eating Behavior and Associated Intake (OREBA) dataset. The OREBA dataset aims to provide comprehensive multi-sensor data recorded during the course of communal meals for researchers interested in intake gesture detection. Two scenarios are included, with 100 participants for a discrete dish and 102 participants for a shared dish, totalling 9069 intake gestures. Available sensor data consists of synchronized frontal video and IMU with accelerometer and gyroscope for both hands. We report the details of data collection and annotation, as well as details of sensor processing. The results of studies on IMU and video data involving deep learning models are reported to provide a baseline for future research. Specifically, the best baseline models achieve performances of $F_1$ = 0.853 for the discrete dish using video and $F_1$ = 0.852 for the shared dish using inertial data.
翻訳日:2022-11-04 06:31:49 公開日:2020-09-29
# 畳み込み型および長期記憶型ニューラルネットワークを用いた3次元CTスキャンにおける頭蓋内出血検出とサブタイプ分類

Accurate and Efficient Intracranial Hemorrhage Detection and Subtype Classification in 3D CT Scans with Convolutional and Long Short-Term Memory Neural Networks ( http://arxiv.org/abs/2008.00302v3 )

ライセンス: Link先を確認
Mihail Burduja, Radu Tudor Ionescu and Nicolae Verga(参考訳) 本稿では,RSNA脳内出血検出のためのシステムについて紹介する。 提案システムは,個々のCTスライスを入力とする畳み込みニューラルネットワーク(CNN)と,CNNが提供する入力特徴埋め込みを受信するLong Short-Term Memory(LSTM)ネットワークで構成される,軽量なディープニューラルネットワークアーキテクチャに基づいている。 効率的な処理のために,LSTMに有用なCNN特徴のサブセットを生成する様々な特徴選択法を検討する。 さらに、CTスライスを2倍に減らし、より高速にモデルを訓練できるようにします。 我々のモデルが速度と精度のバランスをとるように設計されているとしても、最終テストセットで重み付けされた平均ログ損失は0.04989であり、合計1345人の参加者から上位30位(2%)に入る。 我々の計算インフラでは利用できないが、CTスライスを元のスケールで処理することで性能が向上する可能性が高い。 他の人が結果を再現できるように、私たちはコードをhttps://github.com/warchildmd/ihdでオープンソースとして提供します。 課題の後, 放射線技師による主観的頭蓋内出血検出試験を行い, 深部モデルの性能はCTスキャンを専門とする医師と同等であることが示唆された。 私たちの研究のもうひとつの貢献は、Grad-CAMビジュアライゼーションをシステムに統合し、その予測に有用な説明を提供することです。 そこで我々は,頭蓋内出血の早期診断や第2の意見が必要な場合,本システムを有効な選択肢とみなす。

In this paper, we present our system for the RSNA Intracranial Hemorrhage Detection challenge. The proposed system is based on a lightweight deep neural network architecture composed of a convolutional neural network (CNN) that takes as input individual CT slices, and a Long Short-Term Memory (LSTM) network that takes as input feature embeddings provided by the CNN. For efficient processing, we consider various feature selection methods to produce a subset of useful CNN features for the LSTM. Furthermore, we reduce the CT slices by a factor of 2x, allowing ourselves to train the model faster. Even if our model is designed to balance speed and accuracy, we report a weighted mean log loss of 0.04989 on the final test set, which places us in the top 30 ranking (2%) from a total of 1345 participants. Although our computing infrastructure does not allow it, processing CT slices at their original scale is likely to improve performance. In order to enable others to reproduce our results, we provide our code as open source at https://github.com/warchildmd/ihd. After the challenge, we conducted a subjective intracranial hemorrhage detection assessment by radiologists, indicating that the performance of our deep model is on par with that of doctors specialized in reading CT scans. Another contribution of our work is to integrate Grad-CAM visualizations in our system, providing useful explanations for its predictions. We therefore consider our system as a viable option when a fast diagnosis or a second opinion on intracranial hemorrhage detection are needed.
翻訳日:2022-11-04 00:56:52 公開日:2020-09-29
# ロバストニューラルネットワークへの情報損失の最適化

Optimizing Information Loss Towards Robust Neural Networks ( http://arxiv.org/abs/2008.03072v2 )

ライセンス: Link先を確認
Philip Sperl and Konstantin B\"ottinger(参考訳) ニューラルネットワーク(NN)は敵の例に弱い。 このような入力は、攻撃されたnnの誤分類を引き起こすものの、良質な入力とわずかに異なる。 例を作るために必要な摂動は、しばしば無視可能であり、人間さえも受け入れがたい。 このような攻撃から深層学習システムを保護するため、対戦訓練が最も効果的と考えられるいくつかの対策が提案されている。 ここでnnは、計算コストと時間消費プロセスを形成する逆の例を使って反復的に再訓練され、しばしば性能が低下する。 高いレベルのセキュリティを提供しながら、敵対的トレーニングのマイナス面を克服するために、我々は \textit{entropic retraining}と呼ばれる新しいトレーニングアプローチを提案する。 情報理論にインスパイアされた分析に基づいて、エントロピーリトレーニングは、悪意のある例の煩雑な生成を必要とせずに、敵のトレーニングの効果を模倣する。 我々は経験的に、エントロピーリトレーニングは、与えられた元のデータのみに依存しながら、nnsのセキュリティとロバスト性が大幅に向上することを示している。 プロトタイプ実装では,様々なNNアーキテクチャやデータセットに対するアプローチの有効性を検証する。

Neural Networks (NNs) are vulnerable to adversarial examples. Such inputs differ only slightly from their benign counterparts yet provoke misclassifications of the attacked NNs. The required perturbations to craft the examples are often negligible and even human imperceptible. To protect deep learning-based systems from such attacks, several countermeasures have been proposed with adversarial training still being considered the most effective. Here, NNs are iteratively retrained using adversarial examples forming a computational expensive and time consuming process often leading to a performance decrease. To overcome the downsides of adversarial training while still providing a high level of security, we present a new training approach we call \textit{entropic retraining}. Based on an information-theoretic-inspired analysis, entropic retraining mimics the effects of adversarial training without the need of the laborious generation of adversarial examples. We empirically show that entropic retraining leads to a significant increase in NNs' security and robustness while only relying on the given original data. With our prototype implementation we validate and show the effectiveness of our approach for various NN architectures and data sets.
翻訳日:2022-11-02 01:02:36 公開日:2020-09-29
# サブゴール選択における人間専門家によるStarCraft IIの階層的強化学習

Hierarchical Reinforcement Learning in StarCraft II with Human Expertise in Subgoals Selection ( http://arxiv.org/abs/2008.03444v3 )

ライセンス: Link先を確認
Xinyi Xu and Tiancheng Huang and Pengfei Wei and Akshay Narayan and Tze-Yun Leong(参考訳) この研究は、階層的強化学習(HRL)の最近の進歩(Barto and Mahadevan 2003; Hengst 2010)、ヒューリスティックベースのサブゴール選択による学習効率の向上(Lin 1993; Andrychowicz et al. 2017)、タスクベースのカリキュラム学習(Bengio et al. 2009; Zaremba and Sutskever 2014)に触発されたものである。 本稿では,人的知識に基づく暗黙的なカリキュラム設計を通じて,HRLと経験的リプレイ,効果的なサブゴール選択を統合し,サンプル効率の学習を支援し,エージェントの行動の解釈可能性を高める新しい手法を提案する。 医療 (Buch, Ahmed, Maruthappu 2018) や法 (Cath 2018) では、倫理的および法的理由から、意思決定プロセスにおいて解釈可能性、説明可能性、透明性が不可欠である。 本手法は,抽象度の異なるサブゴールに分解することで,目的全体を達成するための複雑なタスクセットを単純化する。 関連する主観的知識を組み込むことで、rlの探索に費やされる計算資源、特に短時間でトランジッションダイナミクスを効果的に学習しモデル化できない高速、変化、複雑な環境を大幅に削減することができる。 2つのStarCraft II (SC2) のミニゲーム(Vinyals et al. 2017) による実験結果から,本手法はフラットおよびエンド・ツー・エンドのRL法よりも優れたサンプリング効率を実現し,エージェントの性能を説明する効果的な方法を提供する。

This work is inspired by recent advances in hierarchical reinforcement learning (HRL) (Barto and Mahadevan 2003; Hengst 2010), and improvements in learning efficiency from heuristic-based subgoal selection, experience replay (Lin 1993; Andrychowicz et al. 2017), and task-based curriculum learning (Bengio et al. 2009; Zaremba and Sutskever 2014). We propose a new method to integrate HRL, experience replay and effective subgoal selection through an implicit curriculum design based on human expertise to support sample-efficient learning and enhance interpretability of the agent's behavior. Human expertise remains indispensable in many areas such as medicine (Buch, Ahmed, and Maruthappu 2018) and law (Cath 2018), where interpretability, explainability and transparency are crucial in the decision making process, for ethical and legal reasons. Our method simplifies the complex task sets for achieving the overall objectives by decomposing them into subgoals at different levels of abstraction. Incorporating relevant subjective knowledge also significantly reduces the computational resources spent in exploration for RL, especially in high speed, changing, and complex environments where the transition dynamics cannot be effectively learned and modelled in a short time. Experimental results in two StarCraft II (SC2) (Vinyals et al. 2017) minigames demonstrate that our method can achieve better sample efficiency than flat and end-to-end RL methods, and provides an effective method for explaining the agent's performance.
翻訳日:2022-11-01 11:56:37 公開日:2020-09-29
# 合成エージェントを用いたヒューマン言語モデルのナビゲーション

Navigating Human Language Models with Synthetic Agents ( http://arxiv.org/abs/2008.04162v7 )

ライセンス: Link先を確認
Philip Feldman and Antonio Bucchiarone(参考訳) GPT-2/GPT-3のような現代の自然言語モデルは、一貫して検証可能な形式での人間の信念に関する膨大な量の情報を含んでいる。 これらのモデルが、これらのモデルを訓練するために使用されるデータを生成する人間の根底にある信念を正確に反映するように示せるならば、そのようなモデルは、インタビューや調査のような伝統的な方法と異なる方法で強力な社会学的ツールとなる。 本研究では,歴史チェスゲームのコーパス上でgpt-2を訓練し,合成エージェントのクラスターをモデルに"起動"し,テキスト文字列を用いてコンテキストと方向を創造する。 エージェント/モデルによって生成されたテキストに含まれる軌跡を比較し、チェス盤の既知の基礎的真理、合法性、遊びの歴史的パターンと比較する。 その結果, モデルを用いた動きの比率は, 人間のパターンと大きく類似していることが判明した。 さらに、このモデルがチェス盤の正確な潜伏表現を作成し、この知識を用いて、ボード全体の法的動きの軌跡をプロットできることが判明した。

Modern natural language models such as the GPT-2/GPT-3 contain tremendous amounts of information about human belief in a consistently testable form. If these models could be shown to accurately reflect the underlying beliefs of the human beings that produced the data used to train these models, then such models become a powerful sociological tool in ways that are distinct from traditional methods, such as interviews and surveys. In this study, We train a version of the GPT-2 on a corpora of historical chess games, and then "launch" clusters of synthetic agents into the model, using text strings to create context and orientation. We compare the trajectories contained in the text generated by the agents/model and compare that to the known ground truth of the chess board, move legality, and historical patterns of play. We find that the percentages of moves by piece using the model are substantially similar from human patterns. We further find that the model creates an accurate latent representation of the chessboard, and that it is possible to plot trajectories of legal moves across the board using this knowledge.
翻訳日:2022-10-31 22:20:01 公開日:2020-09-29
# チャンネルリーク、難読化の情報理論的限界、およびストリーミングデータのための最適プライバシーマスク設計

Channel Leakage, Information-Theoretic Limitations of Obfuscation, and Optimal Privacy Mask Design for Streaming Data ( http://arxiv.org/abs/2008.04893v5 )

ライセンス: Link先を確認
Song Fang and Quanyan Zhu(参考訳) 本稿では,まず,チャネル入力とチャネル出力の最小相互情報としてチャネルリークの概念を紹介する。 名前が示すように、チャネルリークは、悪意のある受信者への最小限の情報漏洩を定量化する。 広義には、対象の受信機への最大情報伝送を特徴付けるチャネル容量の二重概念と見なすことができる。 白色ガウシアンケース,色付きガウシアンケース,フェーディングケースに対するチャネルリークの明示的な公式を得る。 次に,この概念を用いて,ストリーミングデータに対するプライバシ・ディストリクトトレードオフ(およびプライバシ・パワートレードオフ)の観点からの難読化の基本的な制限を検討する。 私たちの結果は、プライバシーマスクを最適な方法で設計する方法を明確に示しています。

In this paper, we first introduce the notion of channel leakage as the minimum mutual information between the channel input and channel output. As its name indicates, channel leakage quantifies the minimum information leakage to the malicious receiver. In a broad sense, it can be viewed as a dual concept of channel capacity, which characterizes the maximum information transmission to the targeted receiver. We obtain explicit formulas of channel leakage for the white Gaussian case, the colored Gaussian case, and the fading case. We then utilize this notion to investigate the fundamental limitations of obfuscation in terms of privacy-distortion tradeoffs (as well as privacy-power tradeoffs) for streaming data; particularly, we derive analytical tradeoff equations for the stationary case, the non-stationary case, and the finite-time case. Our results also indicate explicitly how to design the privacy masks in an optimal way.
翻訳日:2022-10-31 12:38:22 公開日:2020-09-29
# アンサンブルスタンプとツリーの$\ell_p$-normロバスト性について

On $\ell_p$-norm Robustness of Ensemble Stumps and Trees ( http://arxiv.org/abs/2008.08755v2 )

ライセンス: Link先を確認
Yihan Wang, Huan Zhang, Hongge Chen, Duane Boning, Cho-Jui Hsieh(参考訳) 近年の研究では、アンサンブルの切り株や木が小さな入力摂動に弱いことが示されており、それらのモデルの堅牢性検証と防御が重要な研究課題となっている。 しかし、各ノードが純粋に1つの特徴値に基づいて決定する決定木の構造のため、以前のすべての作品は$\ell_\infty$ のノルム摂動のみを考える。 一般的な$\ell_p$ノルム摂動についてロバスト性を研究するためには、以前のアルゴリズムでは処理されていない異なる特徴に対する摂動の相関を考慮する必要がある。 本稿では,アンサンブル決定切り株や木々に対する一般的な$\ell_p$標準摂動に対するロバスト性検証と認証防御の問題について検討する。 アンサンブルスタブのロバスト性検証のために、完全検証は$p\in(0, \infty)$に対してnp完全であり、多項式時間アルゴリズムは$p=0$または$\infty$である。 p\in(0, \infty)$の場合、アンサンブルスタンプの音響検証のための効率的な動的プログラミングベースのアルゴリズムを開発する。 アンサンブルツリーの場合、従来のマルチレベルロバスト性検証アルゴリズムを $\ell_p$ norm に一般化する。 我々は,$\ell_p$ノルム摂動に関してアンサンブル・スランプと木を訓練するための最初の認証防衛法を実証し,実データセット上で実効性を検証する。

Recent papers have demonstrated that ensemble stumps and trees could be vulnerable to small input perturbations, so robustness verification and defense for those models have become an important research problem. However, due to the structure of decision trees, where each node makes decision purely based on one feature value, all the previous works only consider the $\ell_\infty$ norm perturbation. To study robustness with respect to a general $\ell_p$ norm perturbation, one has to consider the correlation between perturbations on different features, which has not been handled by previous algorithms. In this paper, we study the problem of robustness verification and certified defense with respect to general $\ell_p$ norm perturbations for ensemble decision stumps and trees. For robustness verification of ensemble stumps, we prove that complete verification is NP-complete for $p\in(0, \infty)$ while polynomial time algorithms exist for $p=0$ or $\infty$. For $p\in(0, \infty)$ we develop an efficient dynamic programming based algorithm for sound verification of ensemble stumps. For ensemble trees, we generalize the previous multi-level robustness verification algorithm to $\ell_p$ norm. We demonstrate the first certified defense method for training ensemble stumps and trees with respect to $\ell_p$ norm perturbations, and verify its effectiveness empirically on real datasets.
翻訳日:2022-10-27 02:56:33 公開日:2020-09-29
# 因果研究におけるキャリブレーションによる解釈可能なサブグループの安定な発見

Stable discovery of interpretable subgroups via calibration in causal studies ( http://arxiv.org/abs/2008.10109v2 )

ライセンス: Link先を確認
Raaz Dwivedi, Yan Shuo Tan, Briton Park, Mian Wei, Kevin Horgan, David Madigan, Bin Yu(参考訳) Yu と Kumbier の PCS フレームワークとランダムな実験のために,キャリブレーション (StaDISC) による解釈可能なサブグループの安定発見のための新しい手法を提案する。 stadiscは1999-2000年の vigor study の再分析中に開発され、当時承認されていたロフェコキシブ (vioxx) と古い薬物であるnaproxen (naproxen) との副作用のリスクを比較した 8076 人のランダム化対照試験 (rct) を行った。 vioxxは平均的かつnaproxenと比較して、消化管(gi)イベントのリスクは減少するが、血栓性心血管障害(cvt)のリスクは増加することが判明した。 stadiscを適用した結果,18の一般的な条件平均治療効果(cate)推定器を両結果に適合させ,キャリブレーションを用いてグローバルパフォーマンスの低さを示す。 しかし、それらは局所的によく校正され安定しており、(推定)平均治療効果よりも大きい患者群を識別することができる。 実際、StaDISCは、GI結果(研究サイズの29.4%)とCVT結果(11.0%)の3つの臨床的解釈可能なサブグループを発見した。 2001-2004年の承認研究は、2587人の患者を別々に実施したrctであり、stadiscの約束を裏付ける証拠となっている。

Building on Yu and Kumbier's PCS framework and for randomized experiments, we introduce a novel methodology for Stable Discovery of Interpretable Subgroups via Calibration (StaDISC), with large heterogeneous treatment effects. StaDISC was developed during our re-analysis of the 1999-2000 VIGOR study, an 8076 patient randomized controlled trial (RCT), that compared the risk of adverse events from a then newly approved drug, Rofecoxib (Vioxx), to that from an older drug Naproxen. Vioxx was found to, on average and in comparison to Naproxen, reduce the risk of gastrointestinal (GI) events but increase the risk of thrombotic cardiovascular (CVT) events. Applying StaDISC, we fit 18 popular conditional average treatment effect (CATE) estimators for both outcomes and use calibration to demonstrate their poor global performance. However, they are locally well-calibrated and stable, enabling the identification of patient groups with larger than (estimated) average treatment effects. In fact, StaDISC discovers three clinically interpretable subgroups each for the GI outcome (totaling 29.4% of the study size) and the CVT outcome (totaling 11.0%). Complementary analyses of the found subgroups using the 2001-2004 APPROVe study, a separate independently conducted RCT with 2587 patients, provides further supporting evidence for the promise of StaDISC.
翻訳日:2022-10-26 03:19:47 公開日:2020-09-29
# FeatGraph: グラフニューラルネットワークシステムのための柔軟で効率的なバックエンド

FeatGraph: A Flexible and Efficient Backend for Graph Neural Network Systems ( http://arxiv.org/abs/2008.11359v2 )

ライセンス: Link先を確認
Yuwei Hu, Zihao Ye, Minjie Wang, Jiali Yu, Da Zheng, Mu Li, Zheng Zhang, Zhiru Zhang, Yida Wang(参考訳) グラフニューラルネットワーク(GNN)は、グラフ上の機械学習に対する有望なアプローチとして人気が高まっている。 それぞれの頂点/エッジがスカラーに関連付けられる従来のグラフワークロードとは異なり、gnnは各頂点/エッジに特徴テンソルを付加する。 この付加的な特徴次元は、結果としてより複雑な頂点とエッジの計算と共に、既存のグラフ処理システムが利用できない局所性と並列性に大きな影響を及ぼす。 本稿では,グラフトラバース計算と特徴次元計算を併用することにより,GNNワークロードを高速化するFeatGraphを提案する。 featgraphは、各頂点/エッジにきめ細かいユーザー定義関数(udf)を持つ粗粒度のスパーステンプレートを合成することにより、多様なgnnモデルを表現できる柔軟なプログラミングインターフェースを提供する。 FeatGraphはグラフトラバースの最適化をスパーステンプレートに組み込んでおり、ユーザーは特徴次元スケジュール(FDS)でUDFの最適化を指定できる。 FeatGraphは、エンドツーエンドのGNNトレーニングと推論をCPUで最大32倍、GPUで最大7倍高速化する。

Graph neural networks (GNNs) are gaining increasing popularity as a promising approach to machine learning on graphs. Unlike traditional graph workloads where each vertex/edge is associated with a scalar, GNNs attach a feature tensor to each vertex/edge. This additional feature dimension, along with consequently more complex vertex- and edge-wise computations, has enormous implications on locality and parallelism, which existing graph processing systems fail to exploit. This paper proposes FeatGraph to accelerate GNN workloads by co-optimizing graph traversal and feature dimension computation. FeatGraph provides a flexible programming interface to express diverse GNN models by composing coarse-grained sparse templates with fine-grained user-defined functions (UDFs) on each vertex/edge. FeatGraph incorporates optimizations for graph traversal into the sparse templates and allows users to specify optimizations for UDFs with a feature dimension schedule (FDS). FeatGraph speeds up end-to-end GNN training and inference by up to 32x on CPU and 7x on GPU.
翻訳日:2022-10-24 22:23:32 公開日:2020-09-29
# 因果ブランケット:理論とアルゴリズムの枠組み

Causal blankets: Theory and algorithmic framework ( http://arxiv.org/abs/2008.12568v2 )

ライセンス: Link先を確認
Fernando E. Rosas, Pedro A.M. Mediano, Martin Biehl, Shamil Chandaria, Daniel Polani(参考訳) 本稿では,知覚行動ループ(PALO)を計算力学の原理に基づいてデータから直接識別する新しい枠組みを提案する。 我々のアプローチは因果毛布の概念に基づいており、感覚と活動変数を動的に十分な統計量、すなわち「違いを生み出す差」として捉えている。 さらに、我々の理論は、定常状態もマルコフ動力学も必要としないPALOを構築するための広く適用可能な手順を提供する。 この理論を用いて, 各両分節確率過程は因果毛布を持つが, 有効PALOの定式化に繋がる程度は, 両分節の統合情報によって異なることを示す。

We introduce a novel framework to identify perception-action loops (PALOs) directly from data based on the principles of computational mechanics. Our approach is based on the notion of causal blanket, which captures sensory and active variables as dynamical sufficient statistics -- i.e. as the "differences that make a difference." Moreover, our theory provides a broadly applicable procedure to construct PALOs that requires neither a steady-state nor Markovian dynamics. Using our theory, we show that every bipartite stochastic process has a causal blanket, but the extent to which this leads to an effective PALO formulation varies depending on the integrated information of the bipartition.
翻訳日:2022-10-24 02:32:42 公開日:2020-09-29
# ソースコード埋め込みの次元化に向けて

Towards Demystifying Dimensions of Source Code Embeddings ( http://arxiv.org/abs/2008.13064v3 )

ライセンス: Link先を確認
Md Rafiqul Islam Rabin, Arjun Mukherjee, Omprakash Gnawali, Mohammad Amin Alipour(参考訳) ソースコード表現は、プログラムの処理と解析に機械学習技術を適用する上で鍵となる。 ソースコードを表現する一般的なアプローチは、大量のプログラムでディープニューラルネットワークを訓練することで計算される高次元ベクトルを持つプログラムを表すニューラルネットワーク埋め込みである。 成功したが、これらのベクトルの内容とその特性についてはほとんど知られていない。 本稿では,code2vecニューラルソースコードの埋め込み内容をよりよく理解するための予備的な結果を示す。 特に、小さなケーススタディでは、code2vec埋め込みを使用してバイナリSVM分類子を作成し、それらのパフォーマンスと手作りの機能を比較する。 以上の結果から,手作り特徴は高次元のcode2vec 埋め込みに非常に近い性能を示し,手作り特徴よりも情報ゲインがcode2vec 埋め込みに均等に分散されていることが示唆された。 また、code2vec埋め込みは、手作りの機能よりも、少ない情報獲得で次元の除去にレジリエントであることが分かりました。 この結果が、これらのコード表現の原則分析と評価への一歩となることを願っています。

Source code representations are key in applying machine learning techniques for processing and analyzing programs. A popular approach in representing source code is neural source code embeddings that represents programs with high-dimensional vectors computed by training deep neural networks on a large volume of programs. Although successful, there is little known about the contents of these vectors and their characteristics. In this paper, we present our preliminary results towards better understanding the contents of code2vec neural source code embeddings. In particular, in a small case study, we use the code2vec embeddings to create binary SVM classifiers and compare their performance with the handcrafted features. Our results suggest that the handcrafted features can perform very close to the highly-dimensional code2vec embeddings, and the information gains are more evenly distributed in the code2vec embeddings compared to the handcrafted features. We also find that the code2vec embeddings are more resilient to the removal of dimensions with low information gains than the handcrafted features. We hope our results serve a stepping stone toward principled analysis and evaluation of these code representations.
翻訳日:2022-10-23 17:02:34 公開日:2020-09-29
# ディープラーニングアーキテクチャは情報を失うか? 可逆性は不可欠である

Are Deep Neural Architectures Losing Information? Invertibility Is Indispensable ( http://arxiv.org/abs/2009.03173v2 )

ライセンス: Link先を確認
Yang Liu and Zhenyue Qin and Saeed Anwar and Sabrina Caldwell and Tom Gedeon(参考訳) AlexNetの登場以来、さまざまなタスクのための新しいディープニューラルネットワークの設計は、一貫して生産的な研究の方向性だった。 実際に様々なアーキテクチャの例外的な性能にもかかわらず、我々は理論的問題:入力データの全ての情報を保存するためのディープニューラルネットワークアーキテクチャの条件は何か? 画像復元などのタスクは入力データの詳細な情報を可能な限り保持する必要があるため、ディープニューラルアーキテクチャにおける情報ロスレス状態を特定することは重要である。 深いニューラルアーキテクチャは、アーキテクチャが可逆である場合に限り、与えられたデータに関する最大詳細を保存できる。 Invertible Restoring Autoencoder (IRAE) ネットワークの利点は,画像デノイング,jpeg画像デプレッション,画像インパインティングの3つの摂動画像復元タスクにおける競合モデルと比較することで検証できる。 実験の結果、IRAEは非可逆性よりも一貫して優れていた。 私たちのモデルはパラメータもはるかに少ない。 したがって、残差ブロックやreluのようなディープニューラルネットワークの標準コンポーネントを、可逆的なコンポーネントに置き換える価値はあるかもしれない。 私たちの研究は、将来のディープラーニング研究に独自の視点と方向性をもたらすと信じています。

Ever since the advent of AlexNet, designing novel deep neural architectures for different tasks has consistently been a productive research direction. Despite the exceptional performance of various architectures in practice, we study a theoretical question: what is the condition for deep neural architectures to preserve all the information of the input data? Identifying the information lossless condition for deep neural architectures is important, because tasks such as image restoration require keep the detailed information of the input data as much as possible. Using the definition of mutual information, we show that: a deep neural architecture can preserve maximum details about the given data if and only if the architecture is invertible. We verify the advantages of our Invertible Restoring Autoencoder (IRAE) network by comparing it with competitive models on three perturbed image restoration tasks: image denoising, jpeg image decompression and image inpainting. Experimental results show that IRAE consistently outperforms non-invertible ones. Our model even contains far fewer parameters. Thus, it may be worthwhile to try replacing standard components of deep neural architectures, such as residual blocks and ReLU, with their invertible counterparts. We believe our work provides a unique perspective and direction for future deep learning research.
翻訳日:2022-10-21 02:47:15 公開日:2020-09-29
# 非線形ダイナミクスを識別し,データから雑音確率分布を抽出する自動微分法

Automatic Differentiation to Simultaneously Identify Nonlinear Dynamics and Extract Noise Probability Distributions from Data ( http://arxiv.org/abs/2009.08810v2 )

ライセンス: Link先を確認
Kadierdan Kaheman, Steven L. Brunton, J. Nathan Kutz(参考訳) 非線形力学のスパース同定(SINDy)は、時系列データから擬似力学モデルの発見と方程式の定式化のための回帰フレームワークである。 全てのシステム識別方法と同様に、ノイズ測定はモデル発見手順の精度と堅牢性を損なう。 本研究では,自動微分とRudyらによって同時に動機付けられた近年の時間的制約を組み込んだSINDyアルゴリズムの変種を開発する。 (i)データの復号化、 (ii)騒音確率分布の学習とパラメータ化、 (iii)時系列データの生成に責任を持つ微動力学系を特定すること。 このように、統合最適化フレームワーク内では、ノイズを信号から切り離すことができ、その結果、最先端手法の約2倍の堅牢性を持つアーキテクチャとなり、与えられた時系列信号の40%のノイズを処理し、ノイズ確率分布を明示的にパラメータ化する。 この手法は,ロトカ・ボルテラモデルから時空間ロレンツ96モデルまで,いくつかの数値例で実証する。 さらに,ガウス分布,一様分布,ガンマ分布,レイリー分布などの確率分布の多様性を同定できることを示す。

The sparse identification of nonlinear dynamics (SINDy) is a regression framework for the discovery of parsimonious dynamic models and governing equations from time-series data. As with all system identification methods, noisy measurements compromise the accuracy and robustness of the model discovery procedure. In this work, we develop a variant of the SINDy algorithm that integrates automatic differentiation and recent time-stepping constrained motivated by Rudy et al. for simultaneously (i) denoising the data, (ii) learning and parametrizing the noise probability distribution, and (iii) identifying the underlying parsimonious dynamical system responsible for generating the time-series data. Thus within an integrated optimization framework, noise can be separated from signal, resulting in an architecture that is approximately twice as robust to noise as state-of-the-art methods, handling as much as 40% noise on a given time-series signal and explicitly parametrizing the noise probability distribution. We demonstrate this approach on several numerical examples, from Lotka-Volterra models to the spatio-temporal Lorenz 96 model. Further, we show the method can identify a diversity of probability distributions including Gaussian, uniform, Gamma, and Rayleigh.
翻訳日:2022-10-19 08:23:04 公開日:2020-09-29
# hota:マルチオブジェクトトラッキングを評価するための高次メトリクス

HOTA: A Higher Order Metric for Evaluating Multi-Object Tracking ( http://arxiv.org/abs/2009.07736v2 )

ライセンス: Link先を確認
Jonathon Luiten, Aljosa Osep, Patrick Dendorfer, Philip Torr, Andreas Geiger, Laura Leal-Taixe, Bastian Leibe(参考訳) マルチオブジェクト追跡(MOT)の評価は非常に難しい。 以前の測定基準では、検出または関連の重要性が強調されていた。 そこで本研究では,新しいMOT評価指標HOTA(Higher Order Tracking Accuracy)を提案する。 HOTAは5つの基本的なエラータイプをそれぞれ別々に評価できるサブメトリックのファミリーに分解し、追跡性能の明確な分析を可能にする。 我々は,MOTChallengeベンチマークにおけるHOTAの有効性を評価し,既に確立された指標によって考慮されていないMOT性能の重要な側面を捉えることができることを示す。 さらに,HOTAスコアはトラッキング性能の人間の視覚的評価とよく一致していることを示す。

Multi-Object Tracking (MOT) has been notoriously difficult to evaluate. Previous metrics overemphasize the importance of either detection or association. To address this, we present a novel MOT evaluation metric, HOTA (Higher Order Tracking Accuracy), which explicitly balances the effect of performing accurate detection, association and localization into a single unified metric for comparing trackers. HOTA decomposes into a family of sub-metrics which are able to evaluate each of five basic error types separately, which enables clear analysis of tracking performance. We evaluate the effectiveness of HOTA on the MOTChallenge benchmark, and show that it is able to capture important aspects of MOT performance not previously taken into account by established metrics. Furthermore, we show HOTA scores better align with human visual evaluation of tracking performance.
翻訳日:2022-10-18 00:32:45 公開日:2020-09-29
# SSCR:自己監督型逆推論による反復言語に基づく画像編集

SSCR: Iterative Language-Based Image Editing via Self-Supervised Counterfactual Reasoning ( http://arxiv.org/abs/2009.09566v2 )

ライセンス: Link先を確認
Tsu-Jui Fu, Xin Eric Wang, Scott Grafton, Miguel Eckstein, William Yang Wang(参考訳) 反復言語ベースの画像編集(IL-BIE)タスクは、段階的に画像を編集するための反復命令に従う。 データ不足は、命令ベースの変更前後の大規模な画像のサンプル収集が困難であるため、ILBIEにとって重要な問題である。 しかし、人間は慣れ親しんだ画像インストラクションペアで表示しても、これらの編集タスクを実行します。 このような能力は、反現実的な思考と、すでに起こった出来事の代替案を考える能力から生まれる。 本稿では,データ不足を克服する対実的思考を取り入れた,自己改善型対実的推論(SSCR)フレームワークを提案する。 sscrは、モデルが以前の画像とペアリングした分散命令を考慮できる。 クロスタスク整合性 (CTC) の助けを借りて, 自己管理シナリオにおいて, 対実的命令を訓練する。 IBLIEデータセット(i-CLEVRとCoDraw)上に新たな技術(SOTA)を確立することにより,オブジェクトの同一性と位置の両方の観点から,SSCRがILBIEの正当性を向上することを示す。 トレーニングデータのわずか50%でも、sscrは完全なデータを使用するのに匹敵する結果が得られる。

Iterative Language-Based Image Editing (IL-BIE) tasks follow iterative instructions to edit images step by step. Data scarcity is a significant issue for ILBIE as it is challenging to collect large-scale examples of images before and after instruction-based changes. However, humans still accomplish these editing tasks even when presented with an unfamiliar image-instruction pair. Such ability results from counterfactual thinking and the ability to think about alternatives to events that have happened already. In this paper, we introduce a Self-Supervised Counterfactual Reasoning (SSCR) framework that incorporates counterfactual thinking to overcome data scarcity. SSCR allows the model to consider out-of-distribution instructions paired with previous images. With the help of cross-task consistency (CTC), we train these counterfactual instructions in a self-supervised scenario. Extensive results show that SSCR improves the correctness of ILBIE in terms of both object identity and position, establishing a new state of the art (SOTA) on two IBLIE datasets (i-CLEVR and CoDraw). Even with only 50% of the training data, SSCR achieves a comparable result to using complete data.
翻訳日:2022-10-16 04:59:25 公開日:2020-09-29
# 画像デノイジングのための単段テレビストークスモデルにおける交互最小化

Alternating minimization for a single step TV-Stokes model for image denoising ( http://arxiv.org/abs/2009.11973v2 )

ライセンス: Link先を確認
Bin Wu, Xue-Cheng Tai, and Talal Rahman(参考訳) 本論文は,完全結合tv-ストークスモデルを提案し,前述した修正tv-ストークスモデルが最初の反復である目的関数の交互最小化に基づくアルゴリズムを提案する。 このモデルは2階のトータル一般化変分モデルの一般化である。 収束解析が行われる。

The paper presents a fully coupled TV-Stokes model, and propose an algorithm based on alternating minimization of the objective functional whose first iteration is exactly the modified TV-Stokes model proposed earlier. The model is a generalization of the second order Total Generalized Variation model. A convergence analysis is given.
翻訳日:2022-10-15 05:25:57 公開日:2020-09-29
# 制御領域ネットワークのためのグラフベース侵入検知システム

Graph-Based Intrusion Detection System for Controller Area Networks ( http://arxiv.org/abs/2009.11440v2 )

ライセンス: Link先を確認
Riadul Islam, Rafi Ud Daula Refat, Sai Manikanta Yerram, Hafiz Malik(参考訳) コントロールエリアネットワーク(can)は自動車業界で最も広く利用されている車両内通信ネットワークである。 設計の単純さのため、セキュリティが保証される通信プロトコルに必要な要件のほとんどを欠いている。 しかし、安全で安全な環境は、自動運転車だけでなく、コネクテッドカーにも不可欠である。 そのため、CANセキュリティは自動車研究コミュニティにおいて重要なトピックの1つと考えられている。 本稿では,chi-squared法を用いて,あらゆる種類の強弱なサイバー攻撃を検出できる4段階侵入検知システムを提案する。 この研究は、canに初めて提案されたグラフベースの防御システムである。 その結果,DoS攻撃では5.26%の誤分類,ファジィ攻撃では10%の誤分類,リプレイ攻撃では4.76%の誤分類,スプーフィング攻撃では誤分類が認められなかった。 さらに,提案手法は,既存のidシーケンスに基づく手法と比較して,最大13.73%精度が向上した。

The controller area network (CAN) is the most widely used intra-vehicular communication network in the automotive industry. Because of its simplicity in design, it lacks most of the requirements needed for a security-proven communication protocol. However, a safe and secured environment is imperative for autonomous as well as connected vehicles. Therefore CAN security is considered one of the important topics in the automotive research community. In this paper, we propose a four-stage intrusion detection system that uses the chi-squared method and can detect any kind of strong and weak cyber attacks in a CAN. This work is the first-ever graph-based defense system proposed for the CAN. Our experimental results show that we have a very low 5.26% misclassification for denial of service (DoS) attack, 10% misclassification for fuzzy attack, 4.76% misclassification for replay attack, and no misclassification for spoofing attack. In addition, the proposed methodology exhibits up to 13.73% better accuracy compared to existing ID sequence-based methods.
翻訳日:2022-10-15 04:56:44 公開日:2020-09-29
# No Answer is Better than Wrong Answer: A Reflection Model for Document Level Machine Reading Comprehension

No Answer is Better Than Wrong Answer: A Reflection Model for Document Level Machine Reading Comprehension ( http://arxiv.org/abs/2009.12056v2 )

ライセンス: Link先を確認
Xuguang Wang, Linjun Shou, Ming Gong, Nan Duan and Daxin Jiang(参考訳) Natural Questions (NQ)ベンチマークセットは、Machine Reading Comprehensionに新たな課題をもたらす: 回答は、粒度の異なるレベル(長くて短い)だけでなく、よりリッチなタイプ(回答なし、Yes/no、シングルスパン、マルチスパンなど)も対象とする。 本稿では,この課題を対象とし,全ての回答タイプを体系的に扱う。 特に,2段階の学習手法を応用し,非解答事例と誤答事例を識別するリフレクションネットという新しい手法を提案する。 本手法の有効性を検証するために広範な実験を行った。 論文執筆時(2020年5月20日~20日)に,F1スコアは77.2点,64.1点,長短の両回答リーダボードの上位1点を達成した。

The Natural Questions (NQ) benchmark set brings new challenges to Machine Reading Comprehension: the answers are not only at different levels of granularity (long and short), but also of richer types (including no-answer, yes/no, single-span and multi-span). In this paper, we target at this challenge and handle all answer types systematically. In particular, we propose a novel approach called Reflection Net which leverages a two-step training procedure to identify the no-answer and wrong-answer cases. Extensive experiments are conducted to verify the effectiveness of our approach. At the time of paper writing (May.~20,~2020), our approach achieved the top 1 on both long and short answer leaderboard, with F1 scores of 77.2 and 64.1, respectively.
翻訳日:2022-10-14 22:22:54 公開日:2020-09-29
# ビデオ顔認識システム: retinaface-mnet-fasterとsecondary search

Video Face Recognition System: RetinaFace-mnet-faster and Secondary Search ( http://arxiv.org/abs/2009.13167v2 )

ライセンス: Link先を確認
Qian Li, Nan Guo, Xiaochun Ye, Dongrui Fan, and Zhimin Tang(参考訳) 顔認識はシーンで広く使われている。 しかし、異なる視覚環境は異なる方法を必要とするため、顔認識は複雑な環境では困難である。 そこで本稿では,映像中の複雑な顔について実験を行う。 まず,ファジィシーンや露出の少ない顔のための画像前処理モジュールを設計し,画像の強調を行う。 実験結果から, LFW, WIDER FACE, データセットにおいて, 有効画像前処理により0.11%, 0.2%, 1.4%の精度が向上することが示された。 次に,検出のためのRetinacFace-mnet-fasterと顔認識のための信頼しきい値仕様を提案し,損失率を低減した。 実験の結果,Tesla P40の640*480解像度でRetinaFace-mnetを高速化し,シングルスレッドでそれぞれ16.7%,70.2%の高速化を実現した。 最後に,HNSWを用いた二次探索機構を設計し,性能向上を図る。 提案手法は大規模データセットに適しており, 実験結果から, 単一フレーム検出における暴力的検索よりも82%高速であることがわかった。

Face recognition is widely used in the scene. However, different visual environments require different methods, and face recognition has a difficulty in complex environments. Therefore, this paper mainly experiments complex faces in the video. First, we design an image pre-processing module for fuzzy scene or under-exposed faces to enhance images. Our experimental results demonstrate that effective images pre-processing improves the accuracy of 0.11%, 0.2% and 1.4% on LFW, WIDER FACE and our datasets, respectively. Second, we propose RetinacFace-mnet-faster for detection and a confidence threshold specification for face recognition, reducing the lost rate. Our experimental results show that our RetinaFace-mnet-faster for 640*480 resolution on the Tesla P40 and single-thread improve speed of 16.7% and 70.2%, respectively. Finally, we design secondary search mechanism with HNSW to improve performance. Ours is suitable for large-scale datasets, and experimental results show that our method is 82% faster than the violent retrieval for the single-frame detection.
翻訳日:2022-10-13 22:24:54 公開日:2020-09-29
# ベトナムのソーシャルメディアデータセット上での複数のニューラルネットワークモデルを組み合わせた簡易かつ効率的なアンサンブル分類器

A Simple and Efficient Ensemble Classifier Combining Multiple Neural Network Models on Social Media Datasets in Vietnamese ( http://arxiv.org/abs/2009.13060v2 )

ライセンス: Link先を確認
Huy Duc Huynh, Hang Thi-Thuy Do, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen(参考訳) テキスト分類は自然言語処理の一般的な話題であり、現在世界中で多くの研究が進められている。 ソーシャルメディアにおけるデータの大幅な増加は、こうしたデータを分析する研究者の膨大な注意を必要とする。 この分野には多くの言語で様々な研究があるが、ベトナム語に限られている。 そこで本研究では,ベトナム語のテキストを3つの異なるベンチマークデータセットから分類することを目的とした。 この研究では、CNN、LSTM、およびそれらの変種を含む高度なディープラーニングモデルを使用し、最適化されている。 また、データセットに適用されていないBERTを実装しています。 実験では,各データセットの分類タスクに適したモデルを見出した。 単一モデルを活用するために,最高性能モデルを組み合わせたアンサンブルモデルを提案する。 私たちの1つのモデルはそれぞれのデータセットでポジティブな結果に到達します。 さらに,我々のアンサンブルモデルは3つのデータセットで最高の性能を達成する。 HSD-VLSPデータセットのF1スコアの86.96%、UIT-VSMECデータセットのF1スコアの65.79%、UIT-VSFCデータセットの感情とトピックの89.70%に達する。 したがって,本モデルでは,これらのデータセットの先行研究と比較して性能が向上する。

Text classification is a popular topic of natural language processing, which has currently attracted numerous research efforts worldwide. The significant increase of data in social media requires the vast attention of researchers to analyze such data. There are various studies in this field in many languages but limited to the Vietnamese language. Therefore, this study aims to classify Vietnamese texts on social media from three different Vietnamese benchmark datasets. Advanced deep learning models are used and optimized in this study, including CNN, LSTM, and their variants. We also implement the BERT, which has never been applied to the datasets. Our experiments find a suitable model for classification tasks on each specific dataset. To take advantage of single models, we propose an ensemble model, combining the highest-performance models. Our single models reach positive results on each dataset. Moreover, our ensemble model achieves the best performance on all three datasets. We reach 86.96% of F1- score for the HSD-VLSP dataset, 65.79% of F1-score for the UIT-VSMEC dataset, 92.79% and 89.70% for sentiments and topics on the UIT-VSFC dataset, respectively. Therefore, our models achieve better performances as compared to previous studies on these datasets.
翻訳日:2022-10-13 21:49:31 公開日:2020-09-29
# スコアインフォームド音源分離のためのBespoke Neural Networks

Bespoke Neural Networks for Score-Informed Source Separation ( http://arxiv.org/abs/2009.13729v1 )

ライセンス: Link先を確認
Ethan Manilow, Bryan Pardo(参考訳) 本稿では,任意の楽器を音響混合物から分離する簡易な方法を提案する。 入力混合物から対象機器に対して不整列なmidi転写が与えられると、分離する混合物と似た音のmidi転写から新たな混合物を合成する。 これにより、特定のbespokeタスクでネットワークをトレーニングするためのラベル付きトレーニングセットを作成することができます。 このモデルが元の混合物に適用された場合、この方法ができることを実証する。 1)不整合MIDIのみにアクセスして所望の楽器を分離することに成功した。 2 任意の楽器を分離し、 3) 既存のメソッドのわずかな時間で結果を得る。 私たちは読者に、ここで投稿されたデモを聴くように勧めています。

In this paper, we introduce a simple method that can separate arbitrary musical instruments from an audio mixture. Given an unaligned MIDI transcription for a target instrument from an input mixture, we synthesize new mixtures from the midi transcription that sound similar to the mixture to be separated. This lets us create a labeled training set to train a network on the specific bespoke task. When this model applied to the original mixture, we demonstrate that this method can: 1) successfully separate out the desired instrument with access to only unaligned MIDI, 2) separate arbitrary instruments, and 3) get results in a fraction of the time of existing methods. We encourage readers to listen to the demos posted here: https://git.io/JUu5q.
翻訳日:2022-10-13 07:22:45 公開日:2020-09-29
# 線形時間不変系の分散オンライン線形二次制御

Distributed Online Linear Quadratic Control for Linear Time-invariant Systems ( http://arxiv.org/abs/2009.13749v1 )

ライセンス: Link先を確認
Ting-Jui Chang, Shahin Shahrampour(参考訳) 古典線形二次(LQ)制御は線形時間不変(LTI)システムを中心に行われ、制御状態対は時間不変パラメータを持つ二次コストを導入する。 オンライン最適化と制御の最近の進歩は、時間的コストパラメータに頑健なLQ問題を研究するための新しいツールを提供している。 この一連の研究に触発され、同一のLTIシステムに対する分散オンラインLQ問題について検討する。 各エージェントがLTIシステムとしてモデル化されるマルチエージェントネットワークを考える。 LTIシステムは、連続的に明らかにされる、切り離された時間変化の二次コストと関連付けられている。 ネットワークの目的は、全てのエージェントの制御シーケンスを、後見の最高の中央集権政策と競合させることであり、後悔の概念によって捉えられる。 我々は,オンラインlqアルゴリズムの分散変種を開発し,準定型プログラミング (sdp) へのプロジェクションを用いてオンライン勾配降下を行い,コントローラを生成する。 我々は有限時間ホリゾンの平方根として後悔的な境界スケーリングを確立し、時間が増えるにつれてエージェントが合意に達することを示唆する。 さらに,理論結果の検証を行う数値実験を行う。

Classical linear quadratic (LQ) control centers around linear time-invariant (LTI) systems, where the control-state pairs introduce a quadratic cost with time-invariant parameters. Recent advancement in online optimization and control has provided novel tools to study LQ problems that are robust to time-varying cost parameters. Inspired by this line of research, we study the distributed online LQ problem for identical LTI systems. Consider a multi-agent network where each agent is modeled as an LTI system. The LTI systems are associated with decoupled, time-varying quadratic costs that are revealed sequentially. The goal of the network is to make the control sequence of all agents competitive to that of the best centralized policy in hindsight, captured by the notion of regret. We develop a distributed variant of the online LQ algorithm, which runs distributed online gradient descent with a projection to a semi-definite programming (SDP) to generate controllers. We establish a regret bound scaling as the square root of the finite time-horizon, implying that agents reach consensus as time grows. We further provide numerical experiments verifying our theoretical result.
翻訳日:2022-10-13 07:22:33 公開日:2020-09-29
# シナジー通信と計算を用いた分散ADMM

Distributed ADMM with Synergetic Communication and Computation ( http://arxiv.org/abs/2009.13863v1 )

ライセンス: Link先を確認
Zhuojun Tian, Zhaoyang Zhang, Jue Wang, Xiaoming Chen, Wei Wang, and Huaiyu Dai(参考訳) 本稿では,SCCD-ADMMと呼ばれる乗算器アルゴリズムの分散交互方向法を提案し,システム全体の通信コストと計算コストを削減する。 提案アルゴリズムでは,各ノードが隣接するノードの一部のみと相互作用し,そのノードの数は,予測収束率と各イテレーションにおける通信・計算コストの両方を考慮したヒューリスティックな探索手順により徐々に決定され,通信と計算のトレードオフをもたらす。 そして、そのノードは、理論的に導出される重要サンプリング分布に従って隣接するノードを選択し、ローカルに格納する最新の情報との分散を最小化する。 最後に、ノードは、通信ノードの数に適応する新しい更新ルールでローカル情報を更新する。 提案アルゴリズムの収束を証明し,ランダム性によって生じる収束分散の上限を与える。 広範シミュレーションにより,提案アルゴリズムの収束率と分散性,全体的な通信・計算コスト,ネットワークトポロジの影響,評価時間といった点において,従来のアルゴリズムと比較して優れた性能が検証された。

In this paper, we propose a novel distributed alternating direction method of multipliers (ADMM) algorithm with synergetic communication and computation, called SCCD-ADMM, to reduce the total communication and computation cost of the system. Explicitly, in the proposed algorithm, each node interacts with only part of its neighboring nodes, the number of which is progressively determined according to a heuristic searching procedure, which takes into account both the predicted convergence rate and the communication and computation costs at each iteration, resulting in a trade-off between communication and computation. Then the node chooses its neighboring nodes according to an importance sampling distribution derived theoretically to minimize the variance with the latest information it locally stores. Finally, the node updates its local information with a new update rule which adapts to the number of communication nodes. We prove the convergence of the proposed algorithm and provide an upper bound of the convergence variance brought by randomness. Extensive simulations validate the excellent performances of the proposed algorithm in terms of convergence rate and variance, the overall communication and computation cost, the impact of network topology as well as the time for evaluation, in comparison with the traditional counterparts.
翻訳日:2022-10-13 07:22:15 公開日:2020-09-29
# 銀行におけるインテリジェントリスクベース顧客セグメンテーションに向けて

Towards Intelligent Risk-based Customer Segmentation in Banking ( http://arxiv.org/abs/2009.13929v1 )

ライセンス: Link先を確認
Shahabodin Khadivi Zand(参考訳) ビジネスプロセス、すなわち、ビジネス目標を達成するための一連の協調したタスクとアクティビティ、そしてそれらの継続的な改善は、組織の運営にとって重要である。 銀行業では、さまざまな技術が動的プロセスをより普及させるにつれて、ビジネスプロセスはますますダイナミックになっています。 例えば、顧客セグメンテーション、すなわち、共通の活動や行動に基づいて関連顧客をグループ化するプロセスは、データ駆動で知識集約的なプロセスになり得る。 本稿では,顧客データをあるシステムから別のシステムへ移動させる,一連の処理要素からなるインテリジェントなデータ駆動パイプラインを提案する。 目標は、機能エンジニアリング、すなわち(銀行)ドメイン知識を使用して、銀行ドメイン内のデータマイニング技術を通じて生データから機能を抽出するプロセスを自動化する、新しいインテリジェントな顧客セグメンテーションプロセスを提供することです。 提案手法は,機能工学の欠如によるリスクベースの顧客セグメンテーションの質を著しく向上させるため,顧客取引記録を解析するための典型的なシナリオを採用し,従来の手法と比較して,適切な分類へのトランザクションの検出・識別・分類において91%の精度を実現することができる。

Business Processes, i.e., a set of coordinated tasks and activities to achieve a business goal, and their continuous improvements are key to the operation of any organization. In banking, business processes are increasingly dynamic as various technologies have made dynamic processes more prevalent. For example, customer segmentation, i.e., the process of grouping related customers based on common activities and behaviors, could be a data-driven and knowledge-intensive process. In this paper, we present an intelligent data-driven pipeline composed of a set of processing elements to move customers' data from one system to another, transforming the data into the contextualized data and knowledge along the way. The goal is to present a novel intelligent customer segmentation process which automates the feature engineering, i.e., the process of using (banking) domain knowledge to extract features from raw data via data mining techniques, in the banking domain. We adopt a typical scenario for analyzing customer transaction records, to highlight how the presented approach can significantly improve the quality of risk-based customer segmentation in the absence of feature engineering.As result, our proposed method is able to achieve accuracy of 91% compared to classical approaches in terms of detecting, identifying and classifying transaction to the right classification.
翻訳日:2022-10-13 07:21:56 公開日:2020-09-29
# 深層学習に基づくインテリジェント反射面の位相再構成

Deep Learning-based Phase Reconfiguration for Intelligent Reflecting Surfaces ( http://arxiv.org/abs/2009.13988v1 )

ライセンス: Link先を確認
\"Ozgecan \"Ozdogan, Emil Bj\"ornson(参考訳) 再構成可能なメタマテリアルからなるインテリジェント反射面(IRS)は、無線通信に新機能をもたらす有望なコスト効率技術として最近注目を集めている。 これらの表面は、伝播環境を部分的に制御するために使用することができ、適切な方法で設定された場合、IRS要素の数に比例するパワーゲインを提供することができる。 しかし、irssにおける局所位相行列の構成は、故意に活性成分を持たないよう設計されているため、パイロット信号を処理することができないため、非常に難しい作業である。 さらに、IRSの多数の要素が、膨大なトレーニングオーバーヘッドを発生させる可能性がある。 本稿では,局所的な伝搬環境を学習し,活用するために,IRSにおける位相再構成のためのディープラーニング(DL)アプローチを提案する。 提案手法では,irsを通して受信したパイロット信号を用いて深いフィードフォワードネットワークを訓練する。 提案手法の性能を評価し,数値的な結果を示す。

Intelligent reflecting surfaces (IRSs), consisting of reconfigurable metamaterials, have recently attracted attention as a promising cost-effective technology that can bring new features to wireless communications. These surfaces can be used to partially control the propagation environment and can potentially provide a power gain that is proportional to the square of the number of IRS elements when configured in a proper way. However, the configuration of the local phase matrix at the IRSs can be quite a challenging task since they are purposely designed to not have any active components, therefore, they are not able to process any pilot signal. In addition, a large number of elements at the IRS may create a huge training overhead. In this paper, we present a deep learning (DL) approach for phase reconfiguration at an IRS in order to learn and make use of the local propagation environment. The proposed method uses the received pilot signals reflected through the IRS to train the deep feedforward network. The performance of the proposed approach is evaluated and the numerical results are presented.
翻訳日:2022-10-13 07:21:34 公開日:2020-09-29
# ハイパーグラフにおけるハイパーエッジの局所幾何学とソーシャルネットワークへの応用

A local geometry of hyperedges in hypergraphs, and its applications to social networks ( http://arxiv.org/abs/2010.00994v1 )

ライセンス: Link先を確認
Dong Quan Ngoc Nguyen and Lin Xing(参考訳) ソーシャルネットワークから得られた多くの実世界のデータセットでは、グラフモデリングでは取得できないデータポイント間の高次関係が隠されている。 ハイパーグラフのより一般的な概念を使ってそのようなソーシャルネットワークをモデル化するのは自然である。 本稿では,データポイント間の高次関係を捉えることができるハイパーグラフにおけるハイパーッジの新しい局所幾何学を提案する。 さらに,この新しい幾何学に基づいて,超グラフにおける近接近傍法という新しい方法論を導入して,社会学から発生するデータセットの分析を行う。

In many real world datasets arising from social networks, there are hidden higher order relations among data points which cannot be captured using graph modeling. It is natural to use a more general notion of hypergraphs to model such social networks. In this paper, we introduce a new local geometry of hyperdges in hypergraphs which allows to capture higher order relations among data points. Furthermore based on this new geometry, we also introduce new methodology--the nearest neighbors method in hypergraphs--for analyzing datasets arising from sociology.
翻訳日:2022-10-13 07:20:23 公開日:2020-09-29
# アンデルセンダイナミクスのためのカップリング

Couplings for Andersen Dynamics ( http://arxiv.org/abs/2009.14239v1 )

ライセンス: Link先を確認
Nawaf Bou-Rabee, Andreas Eberle(参考訳) アンデルセン力学は分子シミュレーションの標準的な方法であり、MCMC推論で使われるハミルトンモンテカルロアルゴリズムの前駆体である。 アンデルセン力学に対応する確率過程は、ハミルトン流とランダムに選択された粒子の速度ランダム化を繰り返すPDMP(一部決定論的マルコフ過程)である。 分子動力学とMCMC推論の両方の観点から、基本的な疑問は特に高次元においてこのPDMPの平衡への収束を理解することである。 ここでは、基礎となるポテンシャルエネルギーの大域的凸性を必要としないワッサーシュタイン感覚における鋭い収束境界を得るための結合を示す。

Andersen dynamics is a standard method for molecular simulations, and a precursor of the Hamiltonian Monte Carlo algorithm used in MCMC inference. The stochastic process corresponding to Andersen dynamics is a PDMP (piecewise deterministic Markov process) that iterates between Hamiltonian flows and velocity randomizations of randomly selected particles. Both from the viewpoint of molecular dynamics and MCMC inference, a basic question is to understand the convergence to equilibrium of this PDMP particularly in high dimension. Here we present couplings to obtain sharp convergence bounds in the Wasserstein sense that do not require global convexity of the underlying potential energy.
翻訳日:2022-10-13 07:14:33 公開日:2020-09-29
# リッジ回帰における良性過剰

Benign overfitting in ridge regression ( http://arxiv.org/abs/2009.14286v1 )

ライセンス: Link先を確認
A. Tsigler (1) and P. L. Bartlett (1) ((1) UC Berkeley)(参考訳) 古典的学習理論は、複雑性が大きいクラスを学ぶためには強正則化が必要であることを示唆する。 この直観は、機械学習、特にニューラルネットワークの学習において、パラメータの数はしばしばデータポイントの数を超えるという現代の慣行とは対照的である。 このような過パラメータモデルは、消失あるいは負の正規化を訓練しても、優れた一般化性能を示すことが実証的に観察されている。 本研究の目的は、隆起回帰の設定を研究することにより、この効果がどのように起こるか理論的に理解することである。 我々は、データの任意の共分散構造に依存する過パラメータ化リッジ回帰に対する非漸近一般化境界を提供し、それらの境界が正規化パラメータ値の範囲に対して厳密であることを示す。 我々の知る限り、このような一般的な環境で過度にパラメータ化されたリッジ回帰を研究する最初の研究である。 最小あるいは負の正則化が小さな一般化誤差を得るのに十分であるかどうかを同定する。 技術的な面では、我々の境界はデータベクトルが準ガウス的であることしか必要としないが、以前のほとんどの研究はこれらのベクトルの成分の独立性を前提としている。

Classical learning theory suggests that strong regularization is needed to learn a class with large complexity. This intuition is in contrast with the modern practice of machine learning, in particular learning neural networks, where the number of parameters often exceeds the number of data points. It has been observed empirically that such overparametrized models can show good generalization performance even if trained with vanishing or negative regularization. The aim of this work is to understand theoretically how this effect can occur, by studying the setting of ridge regression. We provide non-asymptotic generalization bounds for overparametrized ridge regression that depend on the arbitrary covariance structure of the data, and show that those bounds are tight for a range of regularization parameter values. To our knowledge this is the first work that studies overparametrized ridge regression in such a general setting. We identify when small or negative regularization is sufficient for obtaining small generalization error. On the technical side, our bounds only require the data vectors to be i.i.d. sub-gaussian, while most previous work assumes independence of the components of those vectors.
翻訳日:2022-10-13 07:14:23 公開日:2020-09-29
# スパーシティの錯覚の錯覚:事前感受性の運動

The Illusion of the Illusion of Sparsity: An exercise in prior sensitivity ( http://arxiv.org/abs/2009.14296v1 )

ライセンス: Link先を確認
Bruno Fava and Hedibert F. Lopes(参考訳) ビッグデータの出現は、説明可能な変数が多数存在する場合に経済関係をどのようにモデル化するかという問題を引き起こす。 この問題をベイズ的手法で高密度モデルやスパースモデルを用いることで再検討し、変数の選択と縮小を可能にする。 より具体的には、Giannone, Lenza, Primiceri (2020) が「スパイク・アンド・スラブ」(Spike-and-Slab) で行った結果について論じる。 モデルの後方分布の更なる再検討を行い, 適用した事前分布のロバスト性を評価するための3つの実験を提案する。 このパターンは回帰係数の事前分布に敏感であり、モデルが間接的に変数選択と縮小を誘導する証拠を示し、これは「疎さのイリュージョン」自体が錯覚である可能性を示唆している。 コードはgithub.com/bfava/IllusionOfIllusionで入手できる。

The emergence of Big Data raises the question of how to model economic relations when there is a large number of possible explanatory variables. We revisit the issue by comparing the possibility of using dense or sparse models in a Bayesian approach, allowing for variable selection and shrinkage. More specifically, we discuss the results reached by Giannone, Lenza, and Primiceri (2020) through a "Spike-and-Slab" prior, which suggest an "illusion of sparsity" in economic data, as no clear patterns of sparsity could be detected. We make a further revision of the posterior distributions of the model, and propose three experiments to evaluate the robustness of the adopted prior distribution. We find that the pattern of sparsity is sensitive to the prior distribution of the regression coefficients, and present evidence that the model indirectly induces variable selection and shrinkage, which suggests that the "illusion of sparsity" could be, itself, an illusion. Code is available on github.com/bfava/IllusionOfIllusion.
翻訳日:2022-10-13 07:14:03 公開日:2020-09-29
# ParaMonte: C, C++, Fortran用の高性能シリアル/並列モンテカルロシミュレーションライブラリ

ParaMonte: A high-performance serial/parallel Monte Carlo simulation library for C, C++, Fortran ( http://arxiv.org/abs/2009.14229v1 )

ライセンス: Link先を確認
Amir Shahmoradi, Fatemeh Bagheri(参考訳) paramonte (parallel monte carlo) は、任意の次元の数学的客観的関数、特にデータサイエンス、機械学習、科学推論におけるベイズモデルの後方分布をサンプリングするためのモンテカルロルーチンの直列およびmpi/コアレー並列化ライブラリである。 ParaMonteライブラリは、モンテカルロシミュレーションの**automation**, ** Accessibility**, **high- Performance**, **scalability**, **reproducibility**を統一する設計目標として開発された。 現在のライブラリの実装には、**paradram**, a ****llel **d**elyaed-**r***ejection **a**daptive **m*etropolis markov chain monte carlo samplerがあり、c、c++、fortranを含む幅広いプログラミング言語からアクセスできる。 ParaMonteライブラリはMITライセンスで,[https://github.com/cdslaborg/paramonte] (https://github.com/cdslaborg/paramonte] に常駐して維持されている。

ParaMonte (standing for Parallel Monte Carlo) is a serial and MPI/Coarray-parallelized library of Monte Carlo routines for sampling mathematical objective functions of arbitrary-dimensions, in particular, the posterior distributions of Bayesian models in data science, Machine Learning, and scientific inference. The ParaMonte library has been developed with the design goal of unifying the **automation**, **accessibility**, **high-performance**, **scalability**, and **reproducibility** of Monte Carlo simulations. The current implementation of the library includes **ParaDRAM**, a **Para**llel **D**elyaed-**R**ejection **A**daptive **M**etropolis Markov Chain Monte Carlo sampler, accessible from a wide range of programming languages including C, C++, Fortran, with a unified Application Programming Interface and simulation environment across all supported programming languages. The ParaMonte library is MIT-licensed and is permanently located and maintained at [https://github.com/cdslaborg/paramonte](https://github.com/cdslaborg/paramonte).
翻訳日:2022-10-13 07:13:41 公開日:2020-09-29
# レーダ信号処理への機械学習の適用に関する総合的調査

A Comprehensive Survey of Machine Learning Applied to Radar Signal Processing ( http://arxiv.org/abs/2009.13702v1 )

ライセンス: Link先を確認
Ping Lang, Xiongjun Fu, Marco Martorella, Jian Dong, Rui Qin, Xianpeng Meng and Min Xie(参考訳) 現代のレーダーシステムは、ますます複雑な電磁環境を操作する際に、精度、堅牢性、リアルタイム能力の点で高い要求がある。 従来のレーダ信号処理(rsp)法は、特にターゲット分類に関して、そのような要件を満たす際の制限を示している。 機械学習(ML)の急速な発展、特にディープラーニングにより、レーダー研究者はRSP関連の問題を解決する際にこれらの新しい手法を統合するようになった。 本稿では、研究者や実践者が、MLベースのRSP技術の概要を包括的かつ構造化し、推論した文献概要を提供することで、RSP関連の問題へのML技術の適用をよりよく理解することを目的とする。 この作業は、MLベースのRSPの一般的な要素を提供し、それらの背後にあるモチベーションを述べることによって、十分に導入されます。 MLベースのRSPの主なアプリケーションは、アプリケーションフィールドに基づいて分析され、構造化される。 そこで本稿では,現在のギャップと今後の解決策と動向を示すために,一連のオープンな質問と研究の方向性を提案する。

Modern radar systems have high requirements in terms of accuracy, robustness and real-time capability when operating on increasingly complex electromagnetic environments. Traditional radar signal processing (RSP) methods have shown some limitations when meeting such requirements, particularly in matters of target classification. With the rapid development of machine learning (ML), especially deep learning, radar researchers have started integrating these new methods when solving RSP-related problems. This paper aims at helping researchers and practitioners to better understand the application of ML techniques to RSP-related problems by providing a comprehensive, structured and reasoned literature overview of ML-based RSP techniques. This work is amply introduced by providing general elements of ML-based RSP and by stating the motivations behind them. The main applications of ML-based RSP are then analysed and structured based on the application field. This paper then concludes with a series of open questions and proposed research directions, in order to indicate current gaps and potential future solutions and trends.
翻訳日:2022-10-13 07:13:12 公開日:2020-09-29
# PDLight: 圧力と動的光時間を考慮した深層強化学習型トラヒック光制御アルゴリズム

PDLight: A Deep Reinforcement Learning Traffic Light Control Algorithm with Pressure and Dynamic Light Duration ( http://arxiv.org/abs/2009.13711v1 )

ライセンス: Link先を確認
Chenguang Zhao, Xiaorong Hu, Gang Wang(参考訳) 既存の都市交差点における非効率で非フレキシブルな信号制御は、しばしば交通流の混雑を引き起こし、長い遅延やエネルギーの浪費といった多くの問題を引き起こす。 都市交通管理において最適な信号タイミング戦略の発見は重要な課題である。 本稿では,PRCOL(Pressure with Remaining Capacity of Outgoing Lane)として新たな報酬を得られる,深層強化学習(DRL)トラフィック光制御アルゴリズムPDlightを提案する。 PRCOLは、交通制御アルゴリズムで使用される圧力に対する改善として、入車車線の車両数だけでなく、出車線の残りの容量も考慮している。 合成データと実世界のデータの両方を用いたシミュレーションの結果,提案されたpdlightは,固定光と動的緑光の両方下で,最先端のアルゴリズムである presslight と colight と比較して平均走行時間が低いことがわかった。

Existing ineffective and inflexible traffic light control at urban intersections can often lead to congestion in traffic flows and cause numerous problems, such as long delay and waste of energy. How to find the optimal signal timing strategy is a significant challenge in urban traffic management. In this paper, we propose PDlight, a deep reinforcement learning (DRL) traffic light control algorithm with a novel reward as PRCOL (Pressure with Remaining Capacity of Outgoing Lane). Serving as an improvement over the pressure used in traffic control algorithms, PRCOL considers not only the number of vehicles on the incoming lane but also the remaining capacity of the outgoing lane. Simulation results using both synthetic and real-world data-sets show that the proposed PDlight yields lower average travel time compared with several state-of-the-art algorithms, PressLight and Colight, under both fixed and dynamic green light duration.
翻訳日:2022-10-13 07:12:56 公開日:2020-09-29
# ChemoVerse:新しい分子発見のための潜伏空間のmanifold traversal

ChemoVerse: Manifold traversal of latent spaces for novel molecule discovery ( http://arxiv.org/abs/2009.13946v1 )

ライセンス: Link先を確認
Harshdeep Singh, Nicholas McCarthy, Qurrat Ul Ain, Jeremiah Hayes(参考訳) より強力で効果的な化学実体を設計するためには、所望の化学的性質を持つ分子構造を特定することが不可欠である。 ニューラルネットワークと機械学習を用いた生成モデルの最近の進歩は、この領域の多くの新興スタートアップや研究者がドラッグライクな化合物の仮想ライブラリを設計するために広く使われている。 これらのモデルは、科学者が新しい分子構造を迅速に作るのに役立つが、生成モデルの潜在空間をインテリジェントに探索することで、生成過程におけるランダム性を減少させる。 本研究では、潜在する化学空間を探索するヒューリスティック探索を伴う多様体トラバーサルを提案する。 生成する分子の所望の分子特性の妥当性と近接性を高めるために、谷本係数、合成アクセシビリティ、結合活性、qed薬物類似性などの異なるヒューリスティックスとスコアを組み込むことができる。 多様体のトラバーサル探索を評価するために, 化合物のランダム化生成と妥当性を扱いながら, 文法変動オートエンコーダなどの様々な生成モデルを用いて潜在化学空間を生成する。 この新たなトラバース法により、より見えない化合物や、より特定の領域を潜伏した空間で発見することができる。 最後に、これらのコンポーネントは単純なプラットフォームにまとめられ、ユーザが新しい生成化合物の検索、可視化、選択を行うことができる。

In order to design a more potent and effective chemical entity, it is essential to identify molecular structures with the desired chemical properties. Recent advances in generative models using neural networks and machine learning are being widely used by many emerging startups and researchers in this domain to design virtual libraries of drug-like compounds. Although these models can help a scientist to produce novel molecular structures rapidly, the challenge still exists in the intelligent exploration of the latent spaces of generative models, thereby reducing the randomness in the generative procedure. In this work we present a manifold traversal with heuristic search to explore the latent chemical space. Different heuristics and scores such as the Tanimoto coefficient, synthetic accessibility, binding activity, and QED drug-likeness can be incorporated to increase the validity and proximity for desired molecular properties of the generated molecules. For evaluating the manifold traversal exploration, we produce the latent chemical space using various generative models such as grammar variational autoencoders (with and without attention) as they deal with the randomized generation and validity of compounds. With this novel traversal method, we are able to find more unseen compounds and more specific regions to mine in the latent space. Finally, these components are brought together in a simple platform allowing users to perform search, visualization and selection of novel generated compounds.
翻訳日:2022-10-13 07:12:39 公開日:2020-09-29
# 超高密度3次元局在顕微鏡のための最適PSFペアの学習

Learning an optimal PSF-pair for ultra-dense 3D localization microscopy ( http://arxiv.org/abs/2009.14303v1 )

ライセンス: Link先を確認
Elias Nehme, Boris Ferdman, Lucien E. Weiss, Tal Naor, Daniel Freedman, Tomer Michaeli, Yoav Shechtman(参考訳) 複数粒子追跡における長年の課題は、近接した個々の粒子の正確な3次元局在化である。 スナップショット3dイメージングの確立されたアプローチの1つは、psfを軸方向情報をエンコードするために修正するpoint-spread-function(psf)エンジニアリングである。 しかし, 横方向のPSF重なりが原因で, 高密度のPSFのローカライズが困難である。 ここでは,複数のPSFを同時に使用してこの問題を克服し,高密度3次元ローカライゼーションのための複数のPSFの工学的課題を考察する。 我々は,2つの異なるPSFを修飾する分岐光学系を用いてアプローチを実装し,エンドツーエンド学習を含む3つのアプローチを用いてPSFを設計する。 細胞中の蛍光標識テロメアの体積イメージングにより実験的にそのアプローチを示す。

A long-standing challenge in multiple-particle-tracking is the accurate and precise 3D localization of individual particles at close proximity. One established approach for snapshot 3D imaging is point-spread-function (PSF) engineering, in which the PSF is modified to encode the axial information. However, engineered PSFs are challenging to localize at high densities due to lateral PSF overlaps. Here we suggest using multiple PSFs simultaneously to help overcome this challenge, and investigate the problem of engineering multiple PSFs for dense 3D localization. We implement our approach using a bifurcated optical system that modifies two separate PSFs, and design the PSFs using three different approaches including end-to-end learning. We demonstrate our approach experimentally by volumetric imaging of fluorescently labelled telomeres in cells.
翻訳日:2022-10-13 07:12:04 公開日:2020-09-29
# 低コストIoTデバイスを用いたビデオ分析アプリケーションのためのクラウドベースのソフトウェアフレームワークのデモ

Demonstration of a Cloud-based Software Framework for Video Analytics Application using Low-Cost IoT Devices ( http://arxiv.org/abs/2010.07680v1 )

ライセンス: Link先を確認
Bhavin Joshi and Tapan Pathak and Vatsal Patel and Sarth Kanani and Pankesh Patel and Muhammad Intizar Ali and John Breslin(参考訳) ビデオ分析ソフトウェア/アルゴリズム機能を示すSmart doorbellのような製品やサービスの設計は、コストと精度のトレードオフを考慮してスケーラブルなソリューションを設計する、新しいAIベースのモデルをデプロイしたり、既存のモデルを更新する柔軟なアーキテクチャをユーザ要求が進化すると同時に、さまざまな種類のユーザインターフェースとデバイスをシームレスに統合する、といった新しいタイプの要件に対処することが期待されている。 これらの課題に対処するために、EdgeとCloudリソース間でビデオ分析をオーケストレーションするスマートドアベルを提案する。 提案では、awsを実装のベースプラットフォームとして使用し、エッジデバイスという形でraspberry piのような市販の市販オフザシェルフ(cots)デバイスを活用する。

The design of products and services such as a Smart doorbell, demonstrating video analytics software/algorithm functionality, is expected to address a new kind of requirements such as designing a scalable solution while considering the trade-off between cost and accuracy; a flexible architecture to deploy new AI-based models or update existing models, as user requirements evolve; as well as seamlessly integrating different kinds of user interfaces and devices. To address these challenges, we propose a smart doorbell that orchestrates video analytics across Edge and Cloud resources. The proposal uses AWS as a base platform for implementation and leverages Commercially Available Off-The-Shelf(COTS) affordable devices such as Raspberry Pi in the form of an Edge device.
翻訳日:2022-10-13 07:11:49 公開日:2020-09-29
# mlod:自律走行用マルチライダー3次元物体検出における外部摂動の認識

MLOD: Awareness of Extrinsic Perturbation in Multi-LiDAR 3D Object Detection for Autonomous Driving ( http://arxiv.org/abs/2010.11702v1 )

ライセンス: Link先を確認
Jianhao Jiao, Peng Yun, Lei Tai, Ming Liu(参考訳) 外部摂動は常に複数のセンサーに存在する。 本稿では,3次元物体検出のためのマルチLiDARシステムにおける外部不確実性に着目した。 まず,外因性摂動が幾何学的タスクに与える影響を2つの基本例を用いて解析する。 外部摂動による有害な影響を最小限に抑えるため,入力点雲の各点に先立って不確実性を伝播し,この情報を用いて3次元幾何問題に対するアプローチを強化する。 次に,MLODと呼ばれるマルチLiDAR3Dオブジェクト検出器を提案する。 MLODは2段階のネットワークであり、複数のLiDAR情報をステージ1の様々なスキームで融合し、外部摂動をステージ2で処理する。 実世界のデータセットで広範な実験を行い、MLODの精度と堅牢性の向上を実証する。 コード、データ、補足資料は https://ram-lab.com/file/site/mlod.com/

Extrinsic perturbation always exists in multiple sensors. In this paper, we focus on the extrinsic uncertainty in multi-LiDAR systems for 3D object detection. We first analyze the influence of extrinsic perturbation on geometric tasks with two basic examples. To minimize the detrimental effect of extrinsic perturbation, we propagate an uncertainty prior on each point of input point clouds, and use this information to boost an approach for 3D geometric tasks. Then we extend our findings to propose a multi-LiDAR 3D object detector called MLOD. MLOD is a two-stage network where the multi-LiDAR information is fused through various schemes in stage one, and the extrinsic perturbation is handled in stage two. We conduct extensive experiments on a real-world dataset, and demonstrate both the accuracy and robustness improvement of MLOD. The code, data and supplementary materials are available at: https://ram-lab.com/file/site/mlod
翻訳日:2022-10-13 07:05:28 公開日:2020-09-29
# スマートホーム環境におけるユーザ中心パワー最適化のための多目的強化学習手法

Multi-objective Reinforcement Learning based approach for User-Centric Power Optimization in Smart Home Environments ( http://arxiv.org/abs/2009.13854v1 )

ライセンス: Link先を確認
Saurabh Gupta, Siddhant Bhambri, Karan Dhingra, Arun Balaji Buduru, Ponnurangam Kumaraguru(参考訳) スマートホームは、すべてのデバイスが常時接続される必要があるため、毎日多くの電力が浪費される。 スマートホーム内のデバイスが増加するにつれて、ユーザが個々のデバイスを最適に制御したり操作したりすることが困難になる。 そのため、ユーザは通常、最適化のために電力管理システムに頼るが、結果に満足しないことが多い。 本稿では,消費電力の最小化とユーザ満足度の最大化という2つの目的を持った,新たな多目的強化学習フレームワークを提案する。 この枠組みは、2つの目標間のトレードオフを探求し、最適な政策を見つけながら両方の目標が検討されるときに、より良い電力管理政策に収束する。 私たちは実世界のスマートホームデータを実験し、マルチ目的のアプローチを示します。 一 二つの目的の間にトレードオフを確立すること 二 単目的アプローチよりもユーザ満足度と消費電力の組合せが優れていること。 また,定期的に使用され,一定間隔でデバイスモードが変動するデバイスは最適化を目標とすべきであり,他のスマートホームからのデータ実験も同様の結果を得るため,提案フレームワークの転送可能性を確保することを実証した。

Smart homes require every device inside them to be connected with each other at all times, which leads to a lot of power wastage on a daily basis. As the devices inside a smart home increase, it becomes difficult for the user to control or operate every individual device optimally. Therefore, users generally rely on power management systems for such optimization but often are not satisfied with the results. In this paper, we present a novel multi-objective reinforcement learning framework with two-fold objectives of minimizing power consumption and maximizing user satisfaction. The framework explores the trade-off between the two objectives and converges to a better power management policy when both objectives are considered while finding an optimal policy. We experiment on real-world smart home data, and show that the multi-objective approaches: i) establish trade-off between the two objectives, ii) achieve better combined user satisfaction and power consumption than single-objective approaches. We also show that the devices that are used regularly and have several fluctuations in device modes at regular intervals should be targeted for optimization, and the experiments on data from other smart homes fetch similar results, hence ensuring transfer-ability of the proposed framework.
翻訳日:2022-10-13 07:04:33 公開日:2020-09-29
# 大規模カーゴ分布

Large-Scale Cargo Distribution ( http://arxiv.org/abs/2009.14187v1 )

ライセンス: Link先を確認
Luka Stopar, Luka Bradesko, Tobias Jacobs, Azur Kurba\v{s}i\'c, Miha Cimperman(参考訳) 本研究では,大規模物流ネットワークにおける貨物流通計画作成手法の設計と開発に焦点をあてる。 3つの大きなロジスティクスオペレータのデータを使用し、1つの大きなグラフを使用して国境を越えたロジスティクス操作に焦点を当てている。 このアプローチではまず3段階の方法論を使用して,ロジスティックインフラストラクチャをグラフとして表現し,グラフを小さな領域に分割し,最後に各領域の貨物分布計画を生成する。 最初のグラフ表現は、スペクトルクラスタリングによって地域グラフから抽出され、さらに配布計画の計算に使用される。 このアプローチでは、各モデリングステップのメソッドを導入している。 大規模ロジスティクスインフラストラクチャの地域化を部分計画生成に活用する提案手法は,数千のドロップオフロケーションへのスケールアップを可能にする。 また,提案手法は,ソリューションの品質を保ちながら,最先端技術よりもスケール性が高いことを示した。 本手法は,大規模ロジスティクスインフラストラクチャを動的,ジャスト・イン・タイム,ポイント・ツー・ポイントの配送指向ロジスティクスに転換する主な課題に対処するのに適した手法である。

This study focuses on the design and development of methods for generating cargo distribution plans for large-scale logistics networks. It uses data from three large logistics operators while focusing on cross border logistics operations using one large graph. The approach uses a three-step methodology to first represent the logistic infrastructure as a graph, then partition the graph into smaller size regions, and finally generate cargo distribution plans for each individual region. The initial graph representation has been extracted from regional graphs by spectral clustering and is then further used for computing the distribution plan. The approach introduces methods for each of the modelling steps. The proposed approach on using regionalization of large logistics infrastructure for generating partial plans, enables scaling to thousands of drop-off locations. Results also show that the proposed approach scales better than the state-of-the-art, while preserving the quality of the solution. Our methodology is suited to address the main challenge in transforming rigid large logistics infrastructure into dynamic, just-in-time, and point-to-point delivery-oriented logistics operations.
翻訳日:2022-10-13 07:04:05 公開日:2020-09-29
# パラ一貫性アノテート明示論理e{\tau}を用いた回廊における地上移動ロボットの変位解析

Analysis of the displacement of terrestrial mobile robots in corridors using paraconsistent annotated evidential logic e{\tau} ( http://arxiv.org/abs/2009.14192v1 )

ライセンス: Link先を確認
Flavio Amadeu Bernardini, Marcia Terra da Silva, Jair Minoro Abe, Luiz Antonio de Lima and Kanstantsin Miatluk(参考訳) 本稿では,Paraconsistent Logic を用いた自律型地上移動ロボットの移動を制御するサーボモータのアルゴリズムを提案する。 メカトロニクスシステムの設計プロセスは、ロボット構築フェーズを導いた。 このプロジェクトは、マイクロコントローラに位置信号を送るセンサーを通じてロボットを監視することを目指している。 信号はサーボステアリングモータに直接作用するパラ一貫性アノテーション論理の概念で維持される組込み技術インターフェースによって調整される。 サーボモータに送られた電気信号の解析を行い,アルゴリズムの一貫性がサーボモータの動作精度の向上に寄与することを示した。

This article proposes an algorithm for a servo motor that controls the movement of an autonomous terrestrial mobile robot using Paraconsistent Logic. The design process of mechatronic systems guided the robot construction phases. The project intends to monitor the robot through its sensors that send positioning signals to the microcontroller. The signals are adjusted by an embedded technology interface maintained in the concepts of Paraconsistent Annotated Logic acting directly on the servo steering motor. The electric signals sent to the servo motor were analyzed, and it indicates that the algorithm paraconsistent can contribute to the increase of precision of movements of servo motors.
翻訳日:2022-10-13 07:03:45 公開日:2020-09-29
# 量子曲面-多変量ターゲットへの量子回帰の一般化

Quantile Surfaces -- Generalizing Quantile Regression to Multivariate Targets ( http://arxiv.org/abs/2010.05898v1 )

ライセンス: Link先を確認
Maarten Bieshaar, Jens Schreiber, Stephan Vogt, Andr\'e Gensler, Bernhard Sick(参考訳) 本稿では,多変量確率予測に対する新しいアプローチを提案する。 我々のアプローチは、QS(quantile surfaces)と呼ばれる多変量ターゲットへの単一出力量子化回帰(QR)の拡張に基づいている。 QSは、中央の傾向を推定するために、方向とベクトル長を通して確率的予測の観測を索引付けする単純なアイデアを用いる。 単出力QR手法を多変量確率目標に拡張する。 QSは多変量ターゲット変数の依存関係を効率的にモデル化し、離散量子レベルを通して確率分布を表現する。 そこで我々は,新しい二段階プロセスを提案する。 第1段階では,決定論的ポイント予測(中央傾向推定)を行う。 次に、量子表面回帰ニューラルネットワーク(QSNN)と呼ばれるニューラルネットワークを含むQSを用いた予測の不確かさをモデル化する。 さらに, 出力される確率的qs予測の信頼性とシャープネスを効率良く簡易に評価する手法を提案する。 私たちはこれを,CRPS(Continuous Ranked Probability Score)スコアの方向性拡張によって補完します。 最後に, 人工データに対する新たなアプローチと, 現在研究中の2つの課題について, 再生可能エネルギー発電の確率的予測, 自律走行車両の短期自転車軌道予測について評価した。 特に後者では, 単純な1層QSNNでも従来のパラメトリック多変量予測技術より優れており, 最先端の性能が向上している。

In this article, we present a novel approach to multivariate probabilistic forecasting. Our approach is based on an extension of single-output quantile regression (QR) to multivariate-targets, called quantile surfaces (QS). QS uses a simple yet compelling idea of indexing observations of a probabilistic forecast through direction and vector length to estimate a central tendency. We extend the single-output QR technique to multivariate probabilistic targets. QS efficiently models dependencies in multivariate target variables and represents probability distributions through discrete quantile levels. Therefore, we present a novel two-stage process. In the first stage, we perform a deterministic point forecast (i.e., central tendency estimation). Subsequently, we model the prediction uncertainty using QS involving neural networks called quantile surface regression neural networks (QSNN). Additionally, we introduce new methods for efficient and straightforward evaluation of the reliability and sharpness of the issued probabilistic QS predictions. We complement this by the directional extension of the Continuous Ranked Probability Score (CRPS) score. Finally, we evaluate our novel approach on synthetic data and two currently researched real-world challenges in two different domains: First, probabilistic forecasting for renewable energy power generation, second, short-term cyclists trajectory forecasting for autonomously driving vehicles. Especially for the latter, our empirical results show that even a simple one-layer QSNN outperforms traditional parametric multivariate forecasting techniques, thus improving the state-of-the-art performance.
翻訳日:2022-10-13 07:03:34 公開日:2020-09-29
# 動的回帰モデルにおける動的スパーシティ

Dynamic sparsity on dynamic regression models ( http://arxiv.org/abs/2009.14131v1 )

ライセンス: Link先を確認
Paloma W. Uribe and Hedibert F. Lopes(参考訳) 本研究では,ベイズフレームワーク内のガウス動的線形回帰に対する変数選択と縮小について考察する。 特に,動的モデルに対するスパイク・アンド・スラブ先行値の拡張に基づく,時間変化の空間性を実現する新しい手法を提案する。 これは、時間変化係数の分散に対して適切なマルコフ切替先を割り当て、Ishwaran と Rao (2005) の以前の研究を拡張して行われる。 さらに,プロセス分散に先立つ共通反転ガンマ前駆体や,スパイクとスラブの両方のガンマ前駆体などの混合前駆体など,係数に正規ガンマ前駆体(griffin ad brown, 2010)が混在する他の混合前駆体についても検討した。 この意味では、前者は、各時点において(スラブを通して)滑らかさまたは(スパイクを通して)ゼロへの縮小を誘導する動的変数選択前と見ることができる。 後続計算に使用されるMCMC法ではマルコフ潜時変数を用いて各時点に二項規則を仮定して係数の分散を生成する。 このようにして、我々のモデルは動的混合モデルであり、Gerlach et al (2000) のアルゴリズムを用いて状態を条件付けせずに潜伏過程を生成することができる。 最後に,本手法はシミュレーション例と実データアプリケーションを用いて実証する。

In the present work, we consider variable selection and shrinkage for the Gaussian dynamic linear regression within a Bayesian framework. In particular, we propose a novel method that allows for time-varying sparsity, based on an extension of spike-and-slab priors for dynamic models. This is done by assigning appropriate Markov switching priors for the time-varying coefficients' variances, extending the previous work of Ishwaran and Rao (2005). Furthermore, we investigate different priors, including the common Inverted gamma prior for the process variances, and other mixture prior distributions such as Gamma priors for both the spike and the slab, which leads to a mixture of Normal-Gammas priors (Griffin ad Brown, 2010) for the coefficients. In this sense, our prior can be view as a dynamic variable selection prior which induces either smoothness (through the slab) or shrinkage towards zero (through the spike) at each time point. The MCMC method used for posterior computation uses Markov latent variables that can assume binary regimes at each time point to generate the coefficients' variances. In that way, our model is a dynamic mixture model, thus, we could use the algorithm of Gerlach et al (2000) to generate the latent processes without conditioning on the states. Finally, our approach is exemplified through simulated examples and a real data application.
翻訳日:2022-10-13 07:03:12 公開日:2020-09-29
# 自律的ai法的推論の出現に伴う法的判断予測(ljp)

Legal Judgment Prediction (LJP) Amid the Advent of Autonomous AI Legal Reasoning ( http://arxiv.org/abs/2009.14620v1 )

ライセンス: Link先を確認
Lance Eliot(参考訳) LJP(Lawal Judgment Prediction)は、法律理論と法律の実践において、長くかつオープンなトピックである。 司法問題の性質と成果を予測することは、法律業界や社会全体でも、十分に保証され、熱心に追求され、活発に追求される。 法的に怠慢な予測を生み出す不穏な行為は、実用性と正確性に制限があり、さらなる進歩を必要としている。 訴訟事件や司法行動を予測する様々な方法や技法が時間とともに登場し、特にコンピュータベースのモデリングの出現によって生じた。 様々なアプローチが試みられ、高度に洗練され複雑な統計モデルに対する単純な計算法を含む。 人工知能(AI)ベースのアプローチもますます活用されている。 本稿では、AILR(AI Legal Reasoning)の出現がLJPの実施方法とその予測精度に顕著な影響を与えることを革新的に提案すると共に、法的判断予測を含む文献のレビューを行う。 法的判断予測は、AI法理推論の自律性レベル(LoA)を用いて特に検討され、さらに、LJP確率的傾向、バイアス処理、アクター予測器、透明性、司法依存、訴訟結果、および、包括的な司法ミスリユーを含むその他の重要な要素について検討される。

Legal Judgment Prediction (LJP) is a longstanding and open topic in the theory and practice-of-law. Predicting the nature and outcomes of judicial matters is abundantly warranted, keenly sought, and vigorously pursued by those within the legal industry and also by society as a whole. The tenuous act of generating judicially laden predictions has been limited in utility and exactitude, requiring further advancement. Various methods and techniques to predict legal cases and judicial actions have emerged over time, especially arising via the advent of computer-based modeling. There has been a wide range of approaches attempted, including simple calculative methods to highly sophisticated and complex statistical models. Artificial Intelligence (AI) based approaches have also been increasingly utilized. In this paper, a review of the literature encompassing Legal Judgment Prediction is undertaken, along with innovatively proposing that the advent of AI Legal Reasoning (AILR) will have a pronounced impact on how LJP is performed and its predictive accuracy. Legal Judgment Prediction is particularly examined using the Levels of Autonomy (LoA) of AI Legal Reasoning, plus, other considerations are explored including LJP probabilistic tendencies, biases handling, actor predictors, transparency, judicial reliance, legal case outcomes, and other crucial elements entailing the overarching legal judicial milieu.
翻訳日:2022-10-13 06:56:44 公開日:2020-09-29
# 仮想頭蓋切除術による頭蓋内インプラント設計

Cranial Implant Design via Virtual Craniectomy with Shape Priors ( http://arxiv.org/abs/2009.13704v1 )

ライセンス: Link先を確認
Franco Matzkin, Virginia Newcombe, Ben Glocker, Enzo Ferrante(参考訳) 頭蓋インプラント設計は, 頭蓋形成術の文脈において, 精度が重要な課題である。 このタスクは通常、コンピュータ支援設計ソフトウェアを使用して専門家によって手動で実行される。 本研究では,CT画像からの頭蓋内インプラント再建のための新たなディープラーニングモデルを提案し,評価する。 モデルは、AutoImplant Challengeがリリースしたデータベースを使用してトレーニングされ、評価され、オーガナイザが実装したベースラインと比較される。 完全な頭蓋骨を用いてモデルをトレーニングするために仮想頭蓋骨摘出術をシミュレートし,この方法で訓練した2つの異なるアプローチを比較した。 1つ目は、UNetアーキテクチャに基づく直接推定手法である。 第2の方法は、分布外インプラント形状を扱う際のロバスト性を高めるために、形状先行を組み込む。 提案手法は, 組織者が提供するベースラインを上回り, 形状先行モデルでは分布外事例の処理において優れた性能を示す。 本手法は頭蓋内インプラント設計の難しい課題に対して有望な結果を示した。

Cranial implant design is a challenging task, whose accuracy is crucial in the context of cranioplasty procedures. This task is usually performed manually by experts using computer-assisted design software. In this work, we propose and evaluate alternative automatic deep learning models for cranial implant reconstruction from CT images. The models are trained and evaluated using the database released by the AutoImplant challenge, and compared to a baseline implemented by the organizers. We employ a simulated virtual craniectomy to train our models using complete skulls, and compare two different approaches trained with this procedure. The first one is a direct estimation method based on the UNet architecture. The second method incorporates shape priors to increase the robustness when dealing with out-of-distribution implant shapes. Our direct estimation method outperforms the baselines provided by the organizers, while the model with shape priors shows superior performance when dealing with out-of-distribution cases. Overall, our methods show promising results in the difficult task of cranial implant design.
翻訳日:2022-10-13 06:56:04 公開日:2020-09-29
# 深部多発性硬化性病変に対する幾何学的損失

Geometric Loss for Deep Multiple Sclerosis lesion Segmentation ( http://arxiv.org/abs/2009.13755v1 )

ライセンス: Link先を確認
Hang Zhang, Jinwei Zhang, Rongguang Wang, Qihao Zhang, Susan A. Gauthier, Pascal Spincemaille, Thanh D. Nguyen, Yi Wang(参考訳) 多発性硬化症 (Multiple sclerosis, MS) は脳の容積のごく一部を占めており, 形状, サイズ, 位置が不均一であり, 深層学習に基づくセグメンテーションモデルの訓練に大きな課題となる。 データ不均衡に対処し,MS病変の幾何学的特性を利用した新しい幾何損失式を提案した。 従来の領域ベースおよび境界認識損失関数は公式に関連付けられることを示した。 さらに, 病変領域の1次および2次幾何学的情報を含む2つの損失関数を開発し, 最適化深部セグメンテーションモデルに正規化を強制する。 異なる尺度, 取得プロトコル, 解像度を持つ2つのMS病変データセットの実験結果から, 他の最先端手法と比較して提案手法の優位性を示した。

Multiple sclerosis (MS) lesions occupy a small fraction of the brain volume, and are heterogeneous with regards to shape, size and locations, which poses a great challenge for training deep learning based segmentation models. We proposed a new geometric loss formula to address the data imbalance and exploit the geometric property of MS lesions. We showed that traditional region-based and boundary-aware loss functions can be associated with the formula. We further develop and instantiate two loss functions containing first- and second-order geometric information of lesion regions to enforce regularization on optimizing deep segmentation models. Experimental results on two MS lesion datasets with different scales, acquisition protocols and resolutions demonstrated the superiority of our proposed methods compared to other state-of-the-art methods.
翻訳日:2022-10-13 06:55:29 公開日:2020-09-29
# loop-box: 大規模マッピングのための単一ループクロージャによるマルチエージェントダイレクトスラム

Loop-box: Multi-Agent Direct SLAM Triggered by Single Loop Closure for Large-Scale Mapping ( http://arxiv.org/abs/2009.13851v1 )

ライセンス: Link先を確認
M Usman Maqbool Bhutta, Manohar Kuse, Rui Fan, Yanan Liu, Ming Liu(参考訳) 本稿では,リアルタイム大規模3次元再構成のためのマルチエージェントフレームワークを提案する。 SLAMでは、研究者は通常、非線形ポーズグラフ最適化技術を適用した後、3Dマップを構築して更新する。 さらに、多くのマルチエージェントシステムは、追加センサからのオドメトリー情報を用いて普及している。 これらの方法は一般的に集中型コンピュータビジョンアルゴリズムを含み、様々なセンサーと密結合している。 異なるカメラシステムに基づくマルチエージェント3dマッピングにおけるキーチャリングシナリオの汎用的手法を開発した。 提案フレームワークは,第1ループ閉鎖後の各エージェントのローカライズを積極的に行う。 提案システムは, リアルタイムマルチエージェント大規模ローカライゼーションと3次元グローバルマッピングを実現するために, 単眼カメラのみを用いた。 初期マッチングに基づいて,複数の3dマップ間の最適なスケール差を計算し,大規模グローバルマッピングのための正確な相対ポーズ変換を推定する。

In this paper, we present a multi-agent framework for real-time large-scale 3D reconstruction applications. In SLAM, researchers usually build and update a 3D map after applying non-linear pose graph optimization techniques. Moreover, many multi-agent systems are prevalently using odometry information from additional sensors. These methods generally involve intensive computer vision algorithms and are tightly coupled with various sensors. We develop a generic method for the keychallenging scenarios in multi-agent 3D mapping based on different camera systems. The proposed framework performs actively in terms of localizing each agent after the first loop closure between them. It is shown that the proposed system only uses monocular cameras to yield real-time multi-agent large-scale localization and 3D global mapping. Based on the initial matching, our system can calculate the optimal scale difference between multiple 3D maps and then estimate an accurate relative pose transformation for large-scale global mapping.
翻訳日:2022-10-13 06:55:15 公開日:2020-09-29
# 未登録測地を用いた地下深部画像再構成

Deep Image Reconstruction using Unregistered Measurements without Groundtruth ( http://arxiv.org/abs/2009.13986v1 )

ライセンス: Link先を確認
Weijie Gan, Yu Sun, Cihat Eldeniz, Jiaming Liu, Hongyu An, and Ulugbek S. Kamilov(参考訳) 従来のディープラーニングに基づく画像再構成の重要な制限の1つは、高品質な基底画像を含むトレーニング画像の登録ペアの必要性である。 本稿では,非登録画像と人工画像のペアを直接マッピングし,高画質画像の再現のために深層ニューラルネットワークを訓練するための,教師なし深層登録型再構成法(u-dream)を提案する。 U-Dreamが正確な登録データの必要性を回避する能力は、多くのバイオメディカル画像再構成タスクに広く応用できる。 非剛性変形した画像からのアンダーサンプル測定に基づいて、画像再構成モデルを直接訓練することにより、MRI(Accelerated Magnetic resonance Imaging)においてこれを検証した。

One of the key limitations in conventional deep learning based image reconstruction is the need for registered pairs of training images containing a set of high-quality groundtruth images. This paper addresses this limitation by proposing a novel unsupervised deep registration-augmented reconstruction method (U-Dream) for training deep neural nets to reconstruct high-quality images by directly mapping pairs of unregistered and artifact-corrupted images. The ability of U-Dream to circumvent the need for accurately registered data makes it widely applicable to many biomedical image reconstruction tasks. We validate it in accelerated magnetic resonance imaging (MRI) by training an image reconstruction model directly on pairs of undersampled measurements from images that have undergone nonrigid deformations.
翻訳日:2022-10-13 06:55:02 公開日:2020-09-29
# CrowdMOT: ビデオ内の複数のオブジェクトを追跡するためのクラウドソーシング戦略

CrowdMOT: Crowdsourcing Strategies for Tracking Multiple Objects in Videos ( http://arxiv.org/abs/2009.14265v1 )

ライセンス: Link先を確認
Samreen Anjum, Chi Lin, Danna Gurari(参考訳) クラウドソーシングは、ドメインの専門家によってできる限りスケーラブルな方法でビデオ内のオブジェクトを追跡するための貴重なアプローチである。 しかし、既存のフレームワークは、特にオブジェクトが分裂するシナリオにおいて、非熟練のクラウドワーカーで高品質な結果を生み出しない。 この欠点に対処するために,crowdmotと呼ばれるクラウドソーシングプラットフォームを導入し,(1)各作業員がビデオのサブセグメント内のすべてのオブジェクトに注釈を付けるか,ビデオ全体にわたって1つのオブジェクトに注釈を付けるか,(2)タスクに携わる前の作業員から次の個人に注釈を示すか,という2つのマイクロタスク設計決定について検討する。 我々は,身近な物体(人)と未知の物体(あるいは細胞)の両方を示すビデオの多様性について実験を行う。 本研究は,現在のクラウドソーシングシステムで採用されている手法を用いた場合よりも,高品質なアノテーションを効率よく収集する戦略を強調した。

Crowdsourcing is a valuable approach for tracking objects in videos in a more scalable manner than possible with domain experts. However, existing frameworks do not produce high quality results with non-expert crowdworkers, especially for scenarios where objects split. To address this shortcoming, we introduce a crowdsourcing platform called CrowdMOT, and investigate two micro-task design decisions: (1) whether to decompose the task so that each worker is in charge of annotating all objects in a sub-segment of the video versus annotating a single object across the entire video, and (2) whether to show annotations from previous workers to the next individuals working on the task. We conduct experiments on a diversity of videos which show both familiar objects (aka - people) and unfamiliar objects (aka - cells). Our results highlight strategies for efficiently collecting higher quality annotations than observed when using strategies employed by today's state-of-art crowdsourcing system.
翻訳日:2022-10-13 06:54:17 公開日:2020-09-29
# 手話認識のためのスコアレベルマルチキュー融合

Score-level Multi Cue Fusion for Sign Language Recognition ( http://arxiv.org/abs/2009.14139v1 )

ライセンス: Link先を確認
\c{C}a\u{g}r{\i} G\"ok\c{c}e and O\u{g}ulcan \"Ozdemir and Ahmet Alp K{\i}nd{\i}ro\u{g}lu and Lale Akarun(参考訳) 手と上半身のジェスチャーと表情によって手話が表現される。 したがって、手話認識(SLR)は、こうしたすべての手がかりに焦点を当てる必要がある。 従来の作業では手作りの機構やネットワークアグリゲーションを使用して、異なるキューの特徴を抽出し、SLR性能を向上させる。 これは遅く、複雑なアーキテクチャを伴う。 支配的な手,手,顔,上半身領域を専門とする個別のキューモデルを訓練することに焦点を当てた,より簡単なアプローチを提案する。 これらの領域を専門とする3次元畳み込みニューラルネットワーク(cnn)モデルの性能を比較し,スコアレベルの融合によりそれらを組み合わせ,重み付き代替手法を用いた。 実験の結果,混合畳み込みモデルの有効性が示された。 これらの融合は、全上体を用いたベースラインよりも最大19%精度が向上する。 さらに,今後の手話翻訳(SLT)の作業を支援する融合設定に関する議論も含んでいる。

Sign Languages are expressed through hand and upper body gestures as well as facial expressions. Therefore, Sign Language Recognition (SLR) needs to focus on all such cues. Previous work uses hand-crafted mechanisms or network aggregation to extract the different cue features, to increase SLR performance. This is slow and involves complicated architectures. We propose a more straightforward approach that focuses on training separate cue models specializing on the dominant hand, hands, face, and upper body regions. We compare the performance of 3D Convolutional Neural Network (CNN) models specializing in these regions, combine them through score-level fusion, and use the weighted alternative. Our experimental results have shown the effectiveness of mixed convolutional models. Their fusion yields up to 19% accuracy improvement over the baseline using the full upper body. Furthermore, we include a discussion for fusion settings, which can help future work on Sign Language Translation (SLT).
翻訳日:2022-10-13 06:47:43 公開日:2020-09-29
# 着衣者の単画像3次元再構築における多視点一貫性損失

Multi-View Consistency Loss for Improved Single-Image 3D Reconstruction of Clothed People ( http://arxiv.org/abs/2009.14162v1 )

ライセンス: Link先を確認
Akin Caliskan, Armin Mustafa, Evren Imre, Adrian Hilton(参考訳) 本研究では,1枚の画像から3次元人物形状復元の精度を向上させる新しい手法を提案する。 最近の研究は、1つ以上の画像からオブジェクトや人々を再構築するためのボリューム、暗黙、およびモデルに基づく形状学習フレームワークを導入している。 しかし, 衣服, 髪型, 体型, ポーズ, カメラの見地から生じる形状の多様さから, 衣服の復元の正確さと完全性は限られている。 本稿では,この限界を克服するための2つの進歩について紹介する。まず3dvh,次に単眼容積形状推定の訓練のための新しい多視点損失関数により,一般化と再構成精度が著しく向上することを示す。 様々な自然背景でレンダリングされたリアルな3次元人間の3DVHデータセットは、人間の実際の画像から復元することを可能にする。 合成画像と実画像の両方における総合的比較性能評価の結果,提案手法は,前回の最先端学習に基づく3次元人体形状推定手法を有意に上回っており,復元精度,完全性,品質の大幅な向上が期待できることがわかった。 アブレーションによる研究によると、これは提案されたマルチビュートレーニングと新しい3DVHデータセットの両方に起因する。 コードとデータセットはプロジェクトのwebサイトにある。 https://akincaliskan3d.github.io/mv3dh/。

We present a novel method to improve the accuracy of the 3D reconstruction of clothed human shape from a single image. Recent work has introduced volumetric, implicit and model-based shape learning frameworks for reconstruction of objects and people from one or more images. However, the accuracy and completeness for reconstruction of clothed people is limited due to the large variation in shape resulting from clothing, hair, body size, pose and camera viewpoint. This paper introduces two advances to overcome this limitation: firstly a new synthetic dataset of realistic clothed people, 3DVH; and secondly, a novel multiple-view loss function for training of monocular volumetric shape estimation, which is demonstrated to significantly improve generalisation and reconstruction accuracy. The 3DVH dataset of realistic clothed 3D human models rendered with diverse natural backgrounds is demonstrated to allows transfer to reconstruction from real images of people. Comprehensive comparative performance evaluation on both synthetic and real images of people demonstrates that the proposed method significantly outperforms the previous state-of-the-art learning-based single image 3D human shape estimation approaches achieving significant improvement of reconstruction accuracy, completeness, and quality. An ablation study shows that this is due to both the proposed multiple-view training and the new 3DVH dataset. The code and the dataset can be found at the project website: https://akincaliskan3d.github.io/MV3DH/.
翻訳日:2022-10-13 06:47:29 公開日:2020-09-29
# ガウス過程フィルタリングによる周期運動中の物体のロバスト検出

Robust Detection of Objects under Periodic Motion with Gaussian Process Filtering ( http://arxiv.org/abs/2009.14178v1 )

ライセンス: Link先を確認
Joris Guerin, Anne Magaly de Paula Canuto and Luiz Marcos Garcia Goncalves(参考訳) オブジェクト検出(OD)はコンピュータビジョンにおいて多くの実用的な応用において重要な課題である。 一部のユースケースでは、関心の対象が周期的な動きを持つビデオでODを行う必要がある。 本稿では,興味対象がビデオフレームに対して同様の時空間的軌跡を繰り返している特定の場合において,odモデルの性能を向上させることを目的とした周期odの問題を定式化する。 提案手法はガウス過程を訓練して周期運動をモデル化し, odモデルの誤予測をフィルタする手法である。 様々なODモデルと周期軌道をシミュレートすることにより、このフィルタリング手法が完全にデータ駆動であり、大きなマージンによる検出性能の向上を実証する。

Object Detection (OD) is an important task in Computer Vision with many practical applications. For some use cases, OD must be done on videos, where the object of interest has a periodic motion. In this paper, we formalize the problem of periodic OD, which consists in improving the performance of an OD model in the specific case where the object of interest is repeating similar spatio-temporal trajectories with respect to the video frames. The proposed approach is based on training a Gaussian Process to model the periodic motion, and use it to filter out the erroneous predictions of the OD model. By simulating various OD models and periodic trajectories, we demonstrate that this filtering approach, which is entirely data-driven, improves the detection performance by a large margin.
翻訳日:2022-10-13 06:47:04 公開日:2020-09-29
# Deep-3DAligner: 最適遅延ベクトルを用いた教師なし3Dポイントセット登録ネットワーク

Deep-3DAligner: Unsupervised 3D Point Set Registration Network With Optimizable Latent Vector ( http://arxiv.org/abs/2010.00321v1 )

ライセンス: Link先を確認
Lingjing Wang, Xiang Li, Yi Fang(参考訳) 点雲登録は、幾何変換を探索することで一対の点集合を整列する過程である。 古典的な最適化法とは異なり、最近の学習法は、一対の点集合を登録する深層学習の力を利用する。 本稿では,3次元登録における技術的課題に対処するために,学習への最適化を有機的に統合する新しいモデルを提案する。 具体的には、ディープトランスフォーメーションデコーディングネットワークに加えて、我々のフレームワークは最適化可能なDeep \underline{S}patial \underline{C}orrelation \underline{R}epresentation (SCR)機能を導入している。 トランスフォーメーションデコーダネットワークのSCR特性と重みを、教師なしアライメント損失の最小化に向けて共同で更新する。 さらに,部分形状の整列のための適応型チャンファー損失を提案する。 提案手法の性能を検証するため,modelnet40データセットについて広範な実験を行った。 その結果,本手法は,完全/部分点集合登録タスクにおいて,従来の最先端手法よりも大幅に性能が向上することを示した。

Point cloud registration is the process of aligning a pair of point sets via searching for a geometric transformation. Unlike classical optimization-based methods, recent learning-based methods leverage the power of deep learning for registering a pair of point sets. In this paper, we propose to develop a novel model that organically integrates the optimization to learning, aiming to address the technical challenges in 3D registration. More specifically, in addition to the deep transformation decoding network, our framework introduce an optimizable deep \underline{S}patial \underline{C}orrelation \underline{R}epresentation (SCR) feature. The SCR feature and weights of the transformation decoder network are jointly updated towards the minimization of an unsupervised alignment loss. We further propose an adaptive Chamfer loss for aligning partial shapes. To verify the performance of our proposed method, we conducted extensive experiments on the ModelNet40 dataset. The results demonstrate that our method achieves significantly better performance than the previous state-of-the-art approaches in the full/partial point set registration task.
翻訳日:2022-10-13 06:46:33 公開日:2020-09-29
# GNN予測に基づく深部強化学習を用いた交通光動的制御アルゴリズム

A Traffic Light Dynamic Control Algorithm with Deep Reinforcement Learning Based on GNN Prediction ( http://arxiv.org/abs/2009.14627v1 )

ライセンス: Link先を確認
Xiaorong Hu, Chenguang Zhao, Gang Wang(参考訳) 今日のインテリジェントな交通灯制御システムは、交通規制の現在の道路交通条件に基づいている。 しかし,これらの手法は将来的な交通情報を利用することはできない。 本稿では,グラフニューラルネットワーク(GNN)と統合された深部強化学習(DRL)アルゴリズムであるGPlightを提案する。 GPlightでは、グラフニューラルネットワーク(GNN)が、交差点における将来の短期的トラフィックフローを予測するために最初に使用される。 そして、交通信号制御において、交通流予測結果を使用し、予測結果と観測された現在の交通条件を組み合わせ、交差点における交通信号の位相と持続時間を動的に制御する。 HangzhouとNew-Yorkの合成および2つの実世界のデータセットの実験は、GPlightアルゴリズムの有効性と合理性を検証する。

Today's intelligent traffic light control system is based on the current road traffic conditions for traffic regulation. However, these approaches cannot exploit the future traffic information in advance. In this paper, we propose GPlight, a deep reinforcement learning (DRL) algorithm integrated with graph neural network (GNN) , to relieve the traffic congestion for multi-intersection intelligent traffic control system. In GPlight, the graph neural network (GNN) is first used to predict the future short-term traffic flow at the intersections. Then, the results of traffic flow prediction are used in traffic light control, and the agent combines the predicted results with the observed current traffic conditions to dynamically control the phase and duration of the traffic lights at the intersection. Experiments on both synthetic and two real-world data-sets of Hangzhou and New-York verify the effectiveness and rationality of the GPlight algorithm.
翻訳日:2022-10-13 06:45:52 公開日:2020-09-29
# カスケード畳み込みニューラルネットワークを用いた3次元CT画像における頂点の自動分割, 局所化, 同定

Automatic Segmentation, Localization, and Identification of Vertebrae in 3D CT Images Using Cascaded Convolutional Neural Networks ( http://arxiv.org/abs/2009.13798v1 )

ライセンス: Link先を確認
Naoto Masuzawa, Yoshiro Kitamura, Keigo Nakamura, Satoshi Iizuka, Edgar Simo-Serra(参考訳) 本稿では,任意の3次元CT画像における脊椎の自動分割,局所化,同定の方法を提案する。 3次元CT画像に解剖学のどの部分が見えるかの事前知識を必要とするにもかかわらず、多くの先行研究は3つのタスクを同時に実行しない。 提案手法は,すべてのタスクを仮定なしで単一のマルチステージフレームワークで処理する。 最初の段階では、3D Fully Convolutional Networksをトレーニングし、頚椎、胸椎、腰椎の境界ボックスを見つける。 第2段階では、3次元完全畳み込みネットワークを訓練し、各脊椎を境界箱に分割する。 第2のネットワークへの入力は、3D CT画像に加えて補助チャネルを有する。 補助チャネルの区切られた椎骨領域が与えられると、ネットワークは次の椎骨を出力する。 提案手法は,MICCAI CSI 2014ワークショップから得られた15の3次元CT画像と302の3次元CT画像の2つの公開データセットを用いて,分割,局所化,識別精度の評価を行った。 平均diceスコアは96%,平均局在誤差は8.3mm,平均識別率は84%であった。 まとめると,本手法は既存の3つの指標のすべてよりも優れた性能を示した。

This paper presents a method for automatic segmentation, localization, and identification of vertebrae in arbitrary 3D CT images. Many previous works do not perform the three tasks simultaneously even though requiring a priori knowledge of which part of the anatomy is visible in the 3D CT images. Our method tackles all these tasks in a single multi-stage framework without any assumptions. In the first stage, we train a 3D Fully Convolutional Networks to find the bounding boxes of the cervical, thoracic, and lumbar vertebrae. In the second stage, we train an iterative 3D Fully Convolutional Networks to segment individual vertebrae in the bounding box. The input to the second networks have an auxiliary channel in addition to the 3D CT images. Given the segmented vertebra regions in the auxiliary channel, the networks output the next vertebra. The proposed method is evaluated in terms of segmentation, localization, and identification accuracy with two public datasets of 15 3D CT images from the MICCAI CSI 2014 workshop challenge and 302 3D CT images with various pathologies introduced in [1]. Our method achieved a mean Dice score of 96%, a mean localization error of 8.3 mm, and a mean identification rate of 84%. In summary, our method achieved better performance than all existing works in all the three metrics.
翻訳日:2022-10-13 06:45:39 公開日:2020-09-29
# 超高密度セルネットワークにおけるモビリティマネジメント--調査,展望,今後の研究方向

Mobility Management in Emerging Ultra-Dense Cellular Networks: A Survey, Outlook, and Future Research Directions ( http://arxiv.org/abs/2009.13922v1 )

ライセンス: Link先を確認
Syed Muhammad Asad Zaidi, Marvin Manalastas, Hasan Farooq and Ali Imran(参考訳) モバイルデバイスからのモバイルトラフィックの急増は、将来のネットワークにおけるモビリティ管理をこれまで以上に効率的かつシームレスにすることの必要性を強調している。 従来とmmWave帯の異なる大きさの細胞からなる超高密度セルラーネットワークビジョンは、優れたキャパシティ・クランチのパナセアとして認識されている。 しかし、複数のハンドオーバインスタンスと結果として発生する信号のオーバーヘッドとデバイス異機種のデータ中断により、高周波数帯とmm波帯のモットーを持つ超高密度異種ネットワークにおけるモビリティの課題は前例のないものとなる。 同様に、ユーザ追跡や狭いビームを持つmmWaveの細胞発見といった問題は、新興モバイルネットワークの野心的な利益を実現する前に対処する必要がある。 マルチGbps無線接続の5G配信、<1msレイテンシ、最大速度500km/hで動くデバイスのサポートなどを考えると、モビリティの課題はさらに強調される。 その重要性にもかかわらず、アドホックネットワークに焦点を当てたモビリティ調査はほとんど存在しない。 本稿では,モバイルネットワークにおけるモビリティ課題のパノラマを包括的に調査した最初の事例である。 我々は,5Gモビリティアプローチに関する詳細なチュートリアルを提示するとともに,レガシネットワークの重要モビリティリスクを浮き彫りにするとともに,新しい超高密度セルネットワークの観点から,モビリティに関する技術的な課題と可能性を明らかにする。

The exponential rise in mobile traffic originating from mobile devices highlights the need for making mobility management in future networks even more efficient and seamless than ever before. Ultra-Dense Cellular Network vision consisting of cells of varying sizes with conventional and mmWave bands is being perceived as the panacea for the eminent capacity crunch. However, mobility challenges in an ultra-dense heterogeneous network with motley of high frequency and mmWave band cells will be unprecedented due to plurality of handover instances, and the resulting signaling overhead and data interruptions for miscellany of devices. Similarly, issues like user tracking and cell discovery for mmWave with narrow beams need to be addressed before the ambitious gains of emerging mobile networks can be realized. Mobility challenges are further highlighted when considering the 5G deliverables of multi-Gbps wireless connectivity, <1ms latency and support for devices moving at maximum speed of 500km/h, to name a few. Despite its significance, few mobility surveys exist with the majority focused on adhoc networks. This paper is the first to provide a comprehensive survey on the panorama of mobility challenges in the emerging ultra-dense mobile networks. We not only present a detailed tutorial on 5G mobility approaches and highlight key mobility risks of legacy networks, but also review key findings from recent studies and highlight the technical challenges and potential opportunities related to mobility from the perspective of emerging ultra-dense cellular networks.
翻訳日:2022-10-13 06:45:16 公開日:2020-09-29
# 異常検出のための古典的および変分的オートエンコーダの比較

A comparison of classical and variational autoencoders for anomaly detection ( http://arxiv.org/abs/2009.13793v1 )

ライセンス: Link先を確認
Fabrizio Patuzzo(参考訳) 本稿では,古典型および変分型オートエンコーダを異常検出の文脈で解析・比較する。 アーキテクチャと機能をよりよく理解し、それらの特性を説明し、パフォーマンスを比較するために、単純な問題にどのように対処するかを探求する。

This paper analyzes and compares a classical and a variational autoencoder in the context of anomaly detection. To better understand their architecture and functioning, describe their properties and compare their performance, it explores how they address a simple problem: reconstructing a line with a slope.
翻訳日:2022-10-13 06:38:57 公開日:2020-09-29
# BAMSProd: 適応最適化手法をディープバイナリモデルに一般化するためのステップ

BAMSProd: A Step towards Generalizing the Adaptive Optimization Methods to Deep Binary Model ( http://arxiv.org/abs/2009.13799v1 )

ライセンス: Link先を確認
Junjie Liu, Dongchao Wen, Deyu Wang, Wei Tao, Tse-Wei Chen, Kinya Osa, Masami Kato(参考訳) 近年,BNNの性能劣化は著しく低減されているが,BNNの効果的かつ効率的なトレーニングを保証することは未解決の問題である。 主な理由は、STE(Straight-Through-Estimator)による推定勾配が、実微分の勾配と一致しないからである。 本稿では,従来の適応最適化手法を用いてBNNをトレーニングする場合,非収束のリスクに直面した上で,高度に最適化された解を避けるために,勾配範囲の制約が重大であることを示す。 上記の問題を解くために,深部二元モデル最適化の収束特性が量子化誤差と強く関係していることを示す重要な観測値を持つBAMSProdアルゴリズムを提案する。 簡単に言えば、最適化中にエラーの蓄積を避けるために、AMSGradからの指数的な移動戦略に従いながら、勾配遷移を円滑化するための誤差測定による適応範囲制約を用いる。 実験では, 理論収束解析の行程を検証し, 最適化手法が1:2x程度の収束を高速化し, BNNの性能を3:7%程度まで向上させることができることを示した。

Recent methods have significantly reduced the performance degradation of Binary Neural Networks (BNNs), but guaranteeing the effective and efficient training of BNNs is an unsolved problem. The main reason is that the estimated gradients produced by the Straight-Through-Estimator (STE) mismatches with the gradients of the real derivatives. In this paper, we provide an explicit convex optimization example where training the BNNs with the traditionally adaptive optimization methods still faces the risk of non-convergence, and identify that constraining the range of gradients is critical for optimizing the deep binary model to avoid highly suboptimal solutions. For solving above issues, we propose a BAMSProd algorithm with a key observation that the convergence property of optimizing deep binary model is strongly related to the quantization errors. In brief, it employs an adaptive range constraint via an errors measurement for smoothing the gradients transition while follows the exponential moving strategy from AMSGrad to avoid errors accumulation during the optimization. The experiments verify the corollary of theoretical convergence analysis, and further demonstrate that our optimization method can speed up the convergence about 1:2x and boost the performance of BNNs to a significant level than the specific binary optimizer about 3:7%, even in a highly non-convex optimization problem.
翻訳日:2022-10-13 06:38:51 公開日:2020-09-29
# TinyGAN:条件付き画像生成のためのBigGANの蒸留

TinyGAN: Distilling BigGAN for Conditional Image Generation ( http://arxiv.org/abs/2009.13829v1 )

ライセンス: Link先を確認
Ting-Yun Chang and Chi-Jen Lu(参考訳) generative adversarial networks (gans) は、生成画像モデリングの強力なアプローチとなっている。 しかしganはトレーニングの不安定さ、特に大規模で複雑なデータセットで有名である。 BigGANの最近の作業は、ImageNetの画像生成の質を大幅に向上させたが、巨大なモデルが必要であり、リソースに制約のあるデバイスへのデプロイが困難になっている。 モデルサイズの削減を目的として,GANを圧縮するためのブラックボックス知識蒸留フレームワークを提案する。 教師ネットワークとしてbigganを前提にすると、この機能を模倣するために、ずっと小さな学生ネットワークを訓練し、ジェネレータが16\times$のパラメータを持つインセプションとfidスコアで競争力のあるパフォーマンスを達成できます。

Generative Adversarial Networks (GANs) have become a powerful approach for generative image modeling. However, GANs are notorious for their training instability, especially on large-scale, complex datasets. While the recent work of BigGAN has significantly improved the quality of image generation on ImageNet, it requires a huge model, making it hard to deploy on resource-constrained devices. To reduce the model size, we propose a black-box knowledge distillation framework for compressing GANs, which highlights a stable and efficient training process. Given BigGAN as the teacher network, we manage to train a much smaller student network to mimic its functionality, achieving competitive performance on Inception and FID scores with the generator having $16\times$ fewer parameters.
翻訳日:2022-10-13 06:38:28 公開日:2020-09-29
# 弱教師付きsalientインスタンス検出

Weakly-supervised Salient Instance Detection ( http://arxiv.org/abs/2009.13898v1 )

ライセンス: Link先を確認
Xin Tian, Ke Xu, Xin Yang, Baocai Yin, Rynson W.H. Lau(参考訳) 既存のサルエントインスタンス検出(SID)メソッドは通常、ピクセルレベルの注釈付きデータセットから学習する。 本稿では,SID問題に対する最初の弱教師付きアプローチを提案する。 一般のサリエンシ検出では弱い監視が検討されているが、主にオブジェクトのローカライゼーションにクラスラベルを使用する。 しかし、意味的な親和性が高いサルエントインスタンスはラベルによって容易に分離できないため、インスタンス認識のサルエント情報を学習するためにクラスラベルのみを使用するのは自明ではない。 情報のサブイット化は、サルエントインスタンスの検出に自然に関連するサルエントアイテムの数を瞬時に判断し、同じインスタンスの異なる部分をグループ化しながら、同じクラスのインスタンスを分離するのに役立つ可能性があることに注意する。 この知見に触発されて、私たちはSID問題の弱い監視手段として、クラスとサブティナイズラベルの使用を提案する。 提案手法では,候補オブジェクトの識別にクラス一貫性情報を利用するサリエンシー検出ブランチ,オブジェクト境界の特定にクラス不一致情報を利用するバウンダリ検出ブランチ,サブイット化情報を用いたセンタロイド検出ブランチの3つの枝からなる新しい弱教師付きネットワークを提案する。 この補完的な情報はさらに融合され、有意義なインスタンスマップを生成する。 提案手法が関連するタスクから適応した注意深く設計されたベースライン手法に好適であることを示すために,広範な実験を行った。

Existing salient instance detection (SID) methods typically learn from pixel-level annotated datasets. In this paper, we present the first weakly-supervised approach to the SID problem. Although weak supervision has been considered in general saliency detection, it is mainly based on using class labels for object localization. However, it is non-trivial to use only class labels to learn instance-aware saliency information, as salient instances with high semantic affinities may not be easily separated by the labels. We note that subitizing information provides an instant judgement on the number of salient items, which naturally relates to detecting salient instances and may help separate instances of the same class while grouping different parts of the same instance. Inspired by this insight, we propose to use class and subitizing labels as weak supervision for the SID problem. We propose a novel weakly-supervised network with three branches: a Saliency Detection Branch leveraging class consistency information to locate candidate objects; a Boundary Detection Branch exploiting class discrepancy information to delineate object boundaries; and a Centroid Detection Branch using subitizing information to detect salient instance centroids. This complementary information is further fused to produce salient instance maps. We conduct extensive experiments to demonstrate that the proposed method plays favorably against carefully designed baseline methods adapted from related tasks.
翻訳日:2022-10-13 06:37:50 公開日:2020-09-29
# 手指ジェスチャー認識のためのプロトタイプベース一般化ゼロショット学習フレームワーク

A Prototype-Based Generalized Zero-Shot Learning Framework for Hand Gesture Recognition ( http://arxiv.org/abs/2009.13957v1 )

ライセンス: Link先を確認
Jinting Wu, Yujia Zhang and Xiaoguang Zhao(参考訳) 手のジェスチャー認識は、人間のジェスチャーとその意図を理解する上で、人間とコンピュータの相互作用において重要な役割を果たす。 しかし、ほとんどの先行作品は限られたラベル付きクラスのジェスチャしか認識できず、新しいカテゴリに適応できない。 手動ジェスチャー認識のための汎用ゼロショット学習(GZSL)の課題は、意味表現を活用して、見知らぬクラスサンプルと見えないクラスサンプルの両方を検出することで、上記の問題に対処することを目的としている。 本稿では,2つの分枝からなる手指ジェスチャー認識のためのエンドツーエンドのプロトタイプベースgzslフレームワークを提案する。 第1分枝は、ジェスチャー表現を学習し、入力サンプルが目に見えるか見えないカテゴリーに属するかどうかを決定するプロトタイプベースの検出器である。 第2のブランチはゼロショットラベル予測器で、未取得のクラスの特徴を入力として、特徴と意味空間の間の学習されたマッピングメカニズムを通じて予測を出力する。 さらに,このgzslタスクを対象とするハンドジェスチャデータセットの確立と,このデータセットに関する包括的実験により,見掛けたジェスチャと見当たらないジェスチャの両方を認識するための提案手法の有効性を示す。

Hand gesture recognition plays a significant role in human-computer interaction for understanding various human gestures and their intent. However, most prior works can only recognize gestures of limited labeled classes and fail to adapt to new categories. The task of Generalized Zero-Shot Learning (GZSL) for hand gesture recognition aims to address the above issue by leveraging semantic representations and detecting both seen and unseen class samples. In this paper, we propose an end-to-end prototype-based GZSL framework for hand gesture recognition which consists of two branches. The first branch is a prototype-based detector that learns gesture representations and determines whether an input sample belongs to a seen or unseen category. The second branch is a zero-shot label predictor which takes the features of unseen classes as input and outputs predictions through a learned mapping mechanism between the feature and the semantic space. We further establish a hand gesture dataset that specifically targets this GZSL task, and comprehensive experiments on this dataset demonstrate the effectiveness of our proposed approach on recognizing both seen and unseen gestures.
翻訳日:2022-10-13 06:37:20 公開日:2020-09-29
# ローカライズしてローカライズし,ローカライズする: オブジェクト検出における相互ガイダンス

Localize to Classify and Classify to Localize: Mutual Guidance in Object Detection ( http://arxiv.org/abs/2009.14085v1 )

ライセンス: Link先を確認
Heng Zhang, Elisa Fromont, S\'ebastien Lefevre, Bruno Avignon(参考訳) ほとんどの深層学習物体検出器はアンカー機構に基づいており、予め定義されたアンカーボックスと接地真理箱の間のインターセクション・オーバー・ユニオン(IoU)を利用してアンカーとオブジェクトの整合性を評価する。 本稿では,iouのこの使用について疑問を呈し,訓練段階において,局所化と分類タスクの両方の最適化により,新しいアンカーマッチング基準を提案する。 提案手法の単純さにもかかわらず,PASCAL VOCおよびMS COCOデータセット上での最先端のディープラーニングアーキテクチャによる実験により,相互指導戦略の有効性と汎用性を実証した。

Most deep learning object detectors are based on the anchor mechanism and resort to the Intersection over Union (IoU) between predefined anchor boxes and ground truth boxes to evaluate the matching quality between anchors and objects. In this paper, we question this use of IoU and propose a new anchor matching criterion guided, during the training phase, by the optimization of both the localization and the classification tasks: the predictions related to one task are used to dynamically assign sample anchors and improve the model on the other task, and vice versa. Despite the simplicity of the proposed method, our experiments with different state-of-the-art deep learning architectures on PASCAL VOC and MS COCO datasets demonstrate the effectiveness and generality of our Mutual Guidance strategy.
翻訳日:2022-10-13 06:36:16 公開日:2020-09-29
# MaP: 機械読解におけるスパン抽出改善のための行列ベース予測手法

MaP: A Matrix-based Prediction Approach to Improve Span Extraction in Machine Reading Comprehension ( http://arxiv.org/abs/2009.14348v1 )

ライセンス: Link先を確認
Huaishao Luo, Yu Shi, Ming Gong, Linjun Shou, Tianrui Li(参考訳) 機械読解におけるスパン抽出は重要な問題である。 既存のアルゴリズムのほとんどは、2つの確率ベクトルを生成して、応答の開始位置と終了位置を所定の文脈で予測する。 本稿では,確率ベクトルを確率行列に拡張する新しい手法を提案する。 そのような行列はより多くの始端位置対をカバーすることができる。 正確には、各起動インデックスに対して、この方法は常に終端確率ベクトルを生成する。 さらに,行列学習フェーズにおける計算コストとメモリ問題に対処するサンプリングベーストレーニング戦略を提案する。 我々はSQuAD 1.1と他の3つの質問応答ベンチマークについて評価した。 最も競争力のあるBERTとBiDAFをバックボーンとして活用することにより、提案手法はすべてのデータセットで一貫した改善を実現し、提案手法の有効性を示す。

Span extraction is an essential problem in machine reading comprehension. Most of the existing algorithms predict the start and end positions of an answer span in the given corresponding context by generating two probability vectors. In this paper, we propose a novel approach that extends the probability vector to a probability matrix. Such a matrix can cover more start-end position pairs. Precisely, to each possible start index, the method always generates an end probability vector. Besides, we propose a sampling-based training strategy to address the computational cost and memory issue in the matrix training phase. We evaluate our method on SQuAD 1.1 and three other question answering benchmarks. Leveraging the most competitive models BERT and BiDAF as the backbone, our proposed approach can get consistent improvements in all datasets, demonstrating the effectiveness of the proposed method.
翻訳日:2022-10-13 06:29:29 公開日:2020-09-29
# ディープqネットワークにおけるクロスラーニング

Cross Learning in Deep Q-Networks ( http://arxiv.org/abs/2009.13780v1 )

ライセンス: Link先を確認
Xing Wang, Alexander Vinel(参考訳) 本研究では,値ベース強化学習法,特に関数近似誤差によって過大評価が過大評価される深層qネットワークにおいて,よく知られた過大評価問題を緩和することを目的とした,新しいクロスq学習アルゴリズムを提案する。 このアルゴリズムは、並列モデルのセットを維持し、ランダムに選択されたネットワークに基づいてq値の推定を行うことで、2つのq学習を基盤としている。 また,本手法の利点を,ベンチマーク環境で評価することで実証的に実証し,評価バイアスを低減し,トレーニングを安定化する上で,性能が著しく向上することを示した。

In this work, we propose a novel cross Q-learning algorithm, aim at alleviating the well-known overestimation problem in value-based reinforcement learning methods, particularly in the deep Q-networks where the overestimation is exaggerated by function approximation errors. Our algorithm builds on double Q-learning, by maintaining a set of parallel models and estimate the Q-value based on a randomly selected network, which leads to reduced overestimation bias as well as the variance. We provide empirical evidence on the advantages of our method by evaluating on some benchmark environment, the experimental results demonstrate significant improvement of performance in reducing the overestimation bias and stabilizing the training, further leading to better derived policies.
翻訳日:2022-10-13 06:29:12 公開日:2020-09-29
# 解釈可能なモデルを持たない説明可能なAI

Explainable AI without Interpretable Model ( http://arxiv.org/abs/2009.13996v1 )

ライセンス: Link先を確認
Kary Fr\"amling(参考訳) AIが存在する限り、説明責任はAIの課題だった。 社会におけるAIの利用が最近増加し、採用プロセスから排除されたり、AIシステムによって銀行ローン申請を拒否されたりといった状況において、AIシステムが結果の背後にある理由をエンドユーザにも説明できることは、これまで以上に重要になっている。 特に、AIシステムが機械学習を使ってトレーニングされている場合、分析され理解されるためのパラメータが多すぎる傾向があり、それによって‘ブラックボックス’システムと呼ばれるようになる。 ほとんどの説明可能なAI(XAI)メソッドは、説明を作成するのに使用できる解釈可能なモデルを抽出することに基づいている。 しかし、解釈可能なモデルは必ずしも元のブラックボックスモデルに正確にマッピングするとは限らない。 さらに、エンドユーザに対する解釈可能なモデルの理解性には疑問の余地がある。 本論文では、文脈的重要性と実用性(CIU)の概念により、解釈可能なモデルを作成することなく、ブラックボックス結果の人間的な説明を直接作成することができる。 したがってCIUの説明はブラックボックスモデル自体に正確にマッピングされる。 CIUは完全にモデルに依存しず、あらゆるブラックボックスシステムで使用することができる。 特徴的重要性に加えて、決定論でよく知られるユーティリティの概念は、既存のXAI手法と比較して説明に新しい次元を提供する。 最後に、CIUは、どんなレベルの抽象化でも説明を生成でき、異なる語彙やその他のインタラクション手段を使用することで、コンテキストやターゲットユーザに対する説明やインタラクションを調整できる。

Explainability has been a challenge in AI for as long as AI has existed. With the recently increased use of AI in society, it has become more important than ever that AI systems would be able to explain the reasoning behind their results also to end-users in situations such as being eliminated from a recruitment process or having a bank loan application refused by an AI system. Especially if the AI system has been trained using Machine Learning, it tends to contain too many parameters for them to be analysed and understood, which has caused them to be called `black-box' systems. Most Explainable AI (XAI) methods are based on extracting an interpretable model that can be used for producing explanations. However, the interpretable model does not necessarily map accurately to the original black-box model. Furthermore, the understandability of interpretable models for an end-user remains questionable. The notions of Contextual Importance and Utility (CIU) presented in this paper make it possible to produce human-like explanations of black-box outcomes directly, without creating an interpretable model. Therefore, CIU explanations map accurately to the black-box model itself. CIU is completely model-agnostic and can be used with any black-box system. In addition to feature importance, the utility concept that is well-known in Decision Theory provides a new dimension to explanations compared to most existing XAI methods. Finally, CIU can produce explanations at any level of abstraction and using different vocabularies and other means of interaction, which makes it possible to adjust explanations and interaction according to the context and to the target users.
翻訳日:2022-10-13 06:29:00 公開日:2020-09-29
# 深層qネットワークにおけるヒューリスティック測度に基づく崩壊探査の再編成

Reannealing of Decaying Exploration Based On Heuristic Measure in Deep Q-Network ( http://arxiv.org/abs/2009.14297v1 )

ライセンス: Link先を確認
Xing Wang, Alexander Vinel(参考訳) 強化学習(RL)における既存の探索戦略は、しばしば検索の歴史やフィードバックを無視したり、実装が複雑になる。 多様な領域においてその効果を示す、非常に限られた文献もある。 例えば,アルゴリズムがエージェントが局所的な最適状態にあることを検知した場合にのみ探索を奨励することを目的とした,再アニーリングの考え方に基づくアルゴリズムを提案する。 このアプローチの実装は簡単です。 我々は、訓練を加速し、より良い政策を得る可能性を示す実証的な事例研究を行う。

Existing exploration strategies in reinforcement learning (RL) often either ignore the history or feedback of search, or are complicated to implement. There is also a very limited literature showing their effectiveness over diverse domains. We propose an algorithm based on the idea of reannealing, that aims at encouraging exploration only when it is needed, for example, when the algorithm detects that the agent is stuck in a local optimum. The approach is simple to implement. We perform an illustrative case study showing that it has potential to both accelerate training and obtain a better policy.
翻訳日:2022-10-13 06:28:39 公開日:2020-09-29
# 病理医としての学び--病理画像分類のためのアノテーション契約によるカリキュラム学習

Learn like a Pathologist: Curriculum Learning by Annotator Agreement for Histopathology Image Classification ( http://arxiv.org/abs/2009.13698v1 )

ライセンス: Link先を確認
Jerry Wei, Arief Suriawinata, Bing Ren, Xiaoying Liu, Mikhail Lisovsky, Louis Vaickus, Charles Brown, Michael Baker, Mustafa Nasir-Moin, Naofumi Tomita, Lorenzo Torresani, Jason Wei and Saeed Hassanpour(参考訳) カリキュラム学習を適用するには、データの難易度とサンプルの難易度を決定する方法の両方が必要である。 しかし、多くのタスクにおいて、これらの要件を満たすことは恐ろしい課題です。 本稿では,病理組織像の分類がカリキュラム学習にとって魅力的なユースケースであることを示す。 病理像の性質から, 医学的データセットに複数のアノテータがラベル付けされることが多いため, 特定の例の難易度に対する自然な代名詞としてアノテータ契約を用いることができる。 そこで,アノテータの合意により,よりハードな画像を訓練する簡単なカリキュラム学習手法を提案する。 本仮説は大腸ポリープ分類の困難かつ臨床的に重要な課題である。 バニラ学習が83.7%のAUCを達成するのに対し、提案したカリキュラム学習アプローチでトレーニングしたモデルは88.2%のAUCを達成し、改善率は4.5%となった。 私たちの研究は、カリキュラムの学習に適用するためのコンテキストを選択する際に、より創造的で厳密な思考を促すことを目的としています。

Applying curriculum learning requires both a range of difficulty in data and a method for determining the difficulty of examples. In many tasks, however, satisfying these requirements can be a formidable challenge. In this paper, we contend that histopathology image classification is a compelling use case for curriculum learning. Based on the nature of histopathology images, a range of difficulty inherently exists among examples, and, since medical datasets are often labeled by multiple annotators, annotator agreement can be used as a natural proxy for the difficulty of a given example. Hence, we propose a simple curriculum learning method that trains on progressively-harder images as determined by annotator agreement. We evaluate our hypothesis on the challenging and clinically-important task of colorectal polyp classification. Whereas vanilla training achieves an AUC of 83.7% for this task, a model trained with our proposed curriculum learning approach achieves an AUC of 88.2%, an improvement of 4.5%. Our work aims to inspire researchers to think more creatively and rigorously when choosing contexts for applying curriculum learning.
翻訳日:2022-10-13 06:28:14 公開日:2020-09-29
# 空中から見たクロスシーン映像群理解のためのフローベースバイパスネットワーク

A Flow Base Bi-path Network for Cross-scene Video Crowd Understanding in Aerial View ( http://arxiv.org/abs/2009.13723v1 )

ライセンス: Link先を確認
Zhiyuan Zhao, Tao Han, Junyu Gao, Qi Wang, Xuelong Li(参考訳) ドローン射撃は、ダイナミックなトラフィック監視、オブジェクトの検出と追跡、その他のビジョンタスクに応用できる。 撮影場所の変動は、様々なスケール、不安定な露出、シーンマイグレーションなど、これらのミッションにいくつかの難題をもたらす。 本稿では、上記の課題に取り組み、ドローンから収集した視覚データから群衆を自動的に理解することに努める。 まず, クロスシーンテストで発生する背景雑音を緩和するために, 光流とフレーム差情報を付加枝として抽出する二重流群集計数モデルを提案する。 さらに,様々なスケールと時間におけるモデルの一般化能力を向上させるため,様々なデータ変換手法をランダムに組み合わせ,未知の環境をシミュレートする。 極暗環境下での群衆密度推定問題に対処するために,ゲームグランドセフトオートV(GTAV)によって生成された合成データを導入する。 実験結果は仮想データの有効性を示す。 平均絶対誤差(MAE)は12.70である。 さらに,各成分の寄与を調べるため,包括的アブレーション研究を行った。

Drones shooting can be applied in dynamic traffic monitoring, object detecting and tracking, and other vision tasks. The variability of the shooting location adds some intractable challenges to these missions, such as varying scale, unstable exposure, and scene migration. In this paper, we strive to tackle the above challenges and automatically understand the crowd from the visual data collected from drones. First, to alleviate the background noise generated in cross-scene testing, a double-stream crowd counting model is proposed, which extracts optical flow and frame difference information as an additional branch. Besides, to improve the model's generalization ability at different scales and time, we randomly combine a variety of data transformation methods to simulate some unseen environments. To tackle the crowd density estimation problem under extreme dark environments, we introduce synthetic data generated by game Grand Theft Auto V(GTAV). Experiment results show the effectiveness of the virtual data. Our method wins the challenge with a mean absolute error (MAE) of 12.70. Moreover, a comprehensive ablation study is conducted to explore each component's contribution.
翻訳日:2022-10-13 06:27:42 公開日:2020-09-29
# 推移性によるオブザーバ内合意の調整

Aligning Intraobserver Agreement by Transitivity ( http://arxiv.org/abs/2009.13905v1 )

ライセンス: Link先を確認
Jacopo Amidei(参考訳) アノテーションの再現性と精度はアノテータ内の一貫性に頼っている。 本稿では,アノテータの整合性やアノテータのオブザーバ内合意(IA)の測定方法を提案する。 提案手法は,合理的意思決定の文脈で徹底的に研究されてきた推移性に基づく。 遷移度測定は、アノテータIAの一般的なテスト-テスト戦略とは対照的に、テスト-テスト戦略によって導入されたいくつかの種類のバイアスに敏感ではない。 我々は、推移性に合致する相対的判断データが(測定理論の観点から)スケールにマッピングできるという効果に対する表現定理を示す。 また,データ収集設計の一部としての推移性のさらなる応用について検討し,相対的判断によるデータ収集の二次的複雑性の問題に対処する。

Annotation reproducibility and accuracy rely on good consistency within annotators. We propose a novel method for measuring within annotator consistency or annotator Intraobserver Agreement (IA). The proposed approach is based on transitivity, a measure that has been thoroughly studied in the context of rational decision-making. The transitivity measure, in contrast with the commonly used test-retest strategy for annotator IA, is less sensitive to the several types of bias introduced by the test-retest strategy. We present a representation theorem to the effect that relative judgement data that meet transitivity can be mapped to a scale (in terms of measurement theory). We also discuss a further application of transitivity as part of data collection design for addressing the problem of the quadratic complexity of data collection of relative judgements.
翻訳日:2022-10-13 06:21:16 公開日:2020-09-29
# 周期整合学習を用いたニューラルトピックモデリング

Neural Topic Modeling with Cycle-Consistent Adversarial Training ( http://arxiv.org/abs/2009.13971v1 )

ライセンス: Link先を確認
Xuemeng Hu, Rui Wang, Deyu Zhou, Yuxuan Xiong(参考訳) 深層生成モデルの進歩は、ニューラルトピックモデリングに大きな研究関心を集めている。 最近提案されたadversarial-neural topic model(adversarial-neural topic model)は、敵対的に訓練されたジェネレータネットワークを持つトピックをモデル化する。 コヒーレントなトピックの発見には有効であるが、所定のドキュメントのトピック分布を推測したり、利用可能なドキュメントラベルを利用することはできない。 このような制約を克服するため,サイクル一貫性のある適応トレーニング(ToMCAT)とその教師付きバージョンsToMCATを提案する。 ToMCATは、トピックを解釈するジェネレータネットワークと、ドキュメントトピックを推論するエンコーダネットワークを使用している。 逆トレーニングとサイクル一貫性制約は、ジェネレータとエンコーダが互いに協調する現実的なサンプルを生成するよう促すために使用される。 sToMCATはトピックモデリングプロセスにドキュメントラベルを組み込むことでToMCATを拡張し、より一貫性のあるトピックを見つけるのに役立つ。 提案モデルの有効性は,教師なしトピックモデリングとテキスト分類に基づいて評価される。 実験結果から,本モデルではコヒーレントなトピックと情報的トピックの両方を生成できることが示された。

Advances on deep generative models have attracted significant research interest in neural topic modeling. The recently proposed Adversarial-neural Topic Model models topics with an adversarially trained generator network and employs Dirichlet prior to capture the semantic patterns in latent topics. It is effective in discovering coherent topics but unable to infer topic distributions for given documents or utilize available document labels. To overcome such limitations, we propose Topic Modeling with Cycle-consistent Adversarial Training (ToMCAT) and its supervised version sToMCAT. ToMCAT employs a generator network to interpret topics and an encoder network to infer document topics. Adversarial training and cycle-consistent constraints are used to encourage the generator and the encoder to produce realistic samples that coordinate with each other. sToMCAT extends ToMCAT by incorporating document labels into the topic modeling process to help discover more coherent topics. The effectiveness of the proposed models is evaluated on unsupervised/supervised topic modeling and text classification. The experimental results show that our models can produce both coherent and informative topics, outperforming a number of competitive baselines.
翻訳日:2022-10-13 06:21:03 公開日:2020-09-29
# 文書関係グラフを組み込んだニューラルトピックモデリング

Neural Topic Modeling by Incorporating Document Relationship Graph ( http://arxiv.org/abs/2009.13972v1 )

ライセンス: Link先を確認
Deyu Zhou, Xuemeng Hu, Rui Wang(参考訳) グラフノード間の関係をメッセージパッシングによってキャプチャするグラフニューラルネットワーク(GNN)は、自然言語処理コミュニティにおいてホットな研究方向となっている。 本稿では、コーパスを文書関係グラフとして表現したGNNベースのニューラルトピックモデルであるグラフトピックモデル(GTM)を提案する。 コーパス内の文書と単語はグラフのノードとなり、文書語共起に基づいて接続される。 グラフ構造を導入することにより、文書間の関係が共有語を通じて確立され、グラフ畳み込みを用いて隣接するノードから情報を集約することにより、文書の話題表現が充実する。 3つのデータセットに関する広範な実験を行い,提案手法の有効性を実証した。

Graph Neural Networks (GNNs) that capture the relationships between graph nodes via message passing have been a hot research direction in the natural language processing community. In this paper, we propose Graph Topic Model (GTM), a GNN based neural topic model that represents a corpus as a document relationship graph. Documents and words in the corpus become nodes in the graph and are connected based on document-word co-occurrences. By introducing the graph structure, the relationships between documents are established through their shared words and thus the topical representation of a document is enriched by aggregating information from its neighboring nodes using graph convolution. Extensive experiments on three datasets were conducted and the results demonstrate the effectiveness of the proposed approach.
翻訳日:2022-10-13 06:20:41 公開日:2020-09-29
# 事前学習フレーズスコーリングモデルを用いた語彙マッチングと要約による訴訟検索システムの構築

Building Legal Case Retrieval Systems with Lexical Matching and Summarization using A Pre-Trained Phrase Scoring Model ( http://arxiv.org/abs/2009.14083v1 )

ライセンス: Link先を確認
Vu Tran and Minh Le Nguyen and Ken Satoh(参考訳) 本稿では,2019年法情報抽出・補完競争における訴訟検索課題に取り組む方法を提案する。 我々のアプローチは、要約が検索に重要であるという考えに基づいている。 一方、文書の要約特性を埋め込んだ連続ベクトル空間に与えられた文書を符号化する符号化要約モデル(encoded summarization)を採用する。 文書表現モデルをトレーニングするCOLIEE 2018のリソースを活用します。 一方,与えられた問合せの異なる部分とその候補の語彙的特徴を抽出する。 クエリの異なる部分とその候補を比較することで、より良いパフォーマンスが得られることを観察する。 さらに,要約に基づく手法による語彙特徴と潜在特徴の組合せにより,さらに優れた性能が得られる。 我々は,コンペティションのベンチマークにおける課題の最先端の結果を得た。

We present our method for tackling the legal case retrieval task of the Competition on Legal Information Extraction/Entailment 2019. Our approach is based on the idea that summarization is important for retrieval. On one hand, we adopt a summarization based model called encoded summarization which encodes a given document into continuous vector space which embeds the summary properties of the document. We utilize the resource of COLIEE 2018 on which we train the document representation model. On the other hand, we extract lexical features on different parts of a given query and its candidates. We observe that by comparing different parts of the query and its candidates, we can achieve better performance. Furthermore, the combination of the lexical features with latent features by the summarization-based method achieves even better performance. We have achieved the state-of-the-art result for the task on the benchmark of the competition.
翻訳日:2022-10-13 06:20:18 公開日:2020-09-29
# 構成性の観点からの意味的パーシングに関する調査

A Survey on Semantic Parsing from the perspective of Compositionality ( http://arxiv.org/abs/2009.14116v1 )

ライセンス: Link先を確認
Pawan Kumar and Srikanta Bedathur(参考訳) セマンティックパーシングに関する以前の調査(Kamath and Das, 2018)と知識ベース質問応答(KBQA)(Chakraborty et al., 2019; Zhu et al., 2019; Hoffner et al., 2017)とは違って、セマンティックパーシングの研究に対して異なる視点を取ろうとする。 特に私たちは (a)構文構造からの合成(partee, 1975)及び b)知識ベース(KB)の文脈を考慮すれば,意味解析者が語彙変化を処理できる能力。 KBQAにおける意味解析の分野の導入とその利用の次の節では、文法形式主義CCGを用いて意味表現を記述する(Steedman, 1996)。 第2節では形式言語を用いた意味的構成について論じる。 第3節では、例えば$\lambda$-calculus (Steedman, 1996), $\lambda$-DCS (Liang, 2013) といった形式言語を使用するシステムを検討する。 第4節と第5節では、論理形式に構造化言語を用いる意味解析について検討している。 セクション6は、異なるベンチマークデータセット(bao et al., 2016)とgraphquestions(su et al., 2016)であり、自然に非常に構成的な複雑な質問に答える能力についてセマンティックパーサを評価するのに使用できる。

Different from previous surveys in semantic parsing (Kamath and Das, 2018) and knowledge base question answering(KBQA)(Chakraborty et al., 2019; Zhu et al., 2019; Hoffner et al., 2017) we try to takes a different perspective on the study of semantic parsing. Specifically, we will focus on (a)meaning composition from syntactical structure(Partee, 1975), and (b) the ability of semantic parsers to handle lexical variation given the context of a knowledge base (KB). In the following section after an introduction of the field of semantic parsing and its uses in KBQA, we will describe meaning representation using grammar formalism CCG (Steedman, 1996). We will discuss semantic composition using formal languages in Section 2. In section 3 we will consider systems that uses formal languages e.g. $\lambda$-calculus (Steedman, 1996), $\lambda$-DCS (Liang, 2013). Section 4 and 5 consider semantic parser using structured-language for logical form. Section 6 is on different benchmark datasets ComplexQuestions (Bao et al.,2016) and GraphQuestions (Su et al., 2016) that can be used to evaluate semantic parser on their ability to answer complex questions that are highly compositional in nature.
翻訳日:2022-10-13 06:19:43 公開日:2020-09-29
# 多言語BERTにおける言語間アライメント法の比較検討

Cross-lingual Alignment Methods for Multilingual BERT: A Comparative Study ( http://arxiv.org/abs/2009.14304v1 )

ライセンス: Link先を確認
Saurabh Kulshreshtha, Jos\'e Luis Redondo-Garc\'ia, Ching-Yun Chang(参考訳) マルチランガルBERT(mBERT)は、下流タスクで微調整された場合、ゼロショットのクロスランガル転送に適する能力を示した。 mBERTは明示的な言語間監視で事前訓練されていないため、mBERTと言語間信号の整合により転送性能をさらに向上することができる。 先行研究は、コンテキスト化された埋め込みを調整するいくつかのアプローチを提案する。 本稿では,異なる形態の言語間監督と様々なアライメント手法が,ゼロショット設定におけるmBERTの転送能力に与える影響を解析する。 具体的には,並列コーパスと辞書に基づく監督と回転法と微調整に基づくアライメント法を比較した。 本研究では,8言語にまたがる異なるアライメント手法の性能を,名前認識とセマンティックスロットフィリングの2つのタスクで評価する。 さらに, 遠方および類型別言語に対する顕著なF1改善を含む, 回転型アライメントの性能を一貫して向上する新しい正規化手法を提案する。 重要なことは、アライメント手法のタスクタイプに対するバイアスと、転送言語に近接していることである。 また,並列コーパスからの監督が辞書アライメントよりも優れていることも判明した。

Multilingual BERT (mBERT) has shown reasonable capability for zero-shot cross-lingual transfer when fine-tuned on downstream tasks. Since mBERT is not pre-trained with explicit cross-lingual supervision, transfer performance can further be improved by aligning mBERT with cross-lingual signal. Prior work proposes several approaches to align contextualised embeddings. In this paper we analyse how different forms of cross-lingual supervision and various alignment methods influence the transfer capability of mBERT in zero-shot setting. Specifically, we compare parallel corpora vs. dictionary-based supervision and rotational vs. fine-tuning based alignment methods. We evaluate the performance of different alignment methodologies across eight languages on two tasks: Name Entity Recognition and Semantic Slot Filling. In addition, we propose a novel normalisation method which consistently improves the performance of rotation-based alignment including a notable 3% F1 improvement for distant and typologically dissimilar languages. Importantly we identify the biases of the alignment methods to the type of task and proximity to the transfer language. We also find that supervision from parallel corpus is generally superior to dictionary alignments.
翻訳日:2022-10-13 06:18:56 公開日:2020-09-29
# SwiftFace: リアルタイム顔検出

SwiftFace: Real-Time Face Detection ( http://arxiv.org/abs/2009.13743v1 )

ライセンス: Link先を確認
Leonardo Ramos, Bernardo Morales(参考訳) コンピュータビジョン(英: computer vision)は、コンピュータに人間のものと似た方法で視覚世界を解釈するように訓練する人工知能の分野である。 技術の急速な進歩と十分な大規模トレーニングデータセットの可用性の増大により、コンピュータビジョンにおけるトピックは、この10年で急激に成長した。 その中でも最も有望な分野は顔検出である。 モバイルアプリやエンターテイメント目的の拡張現実、社会研究やセキュリティカメラ、顔検出のための高性能モデルの設計など、さまざまな分野で毎日使用されていることは、非常に重要です。 それに加えて、前述の顔検出技術の成長に伴い、精度と精度がもはや関係する唯一の要因ではない:リアルタイム顔検出では、検出の速度が不可欠である。 SwiftFaceは、高速な顔検出モデルのみのために開発された、新しいディープラーニングモデルである。 SwiftFaceは顔検出のみに集中することで、現在の最先端の顔検出モデルよりも30%高速に動作します。 コードはhttps://github.com/leo7r/swiftfaceで利用可能

Computer vision is a field of artificial intelligence that trains computers to interpret the visual world in a way similar to that of humans. Due to the rapid advancements in technology and the increasing availability of sufficiently large training datasets, the topics within computer vision have experienced a steep growth in the last decade. Among them, one of the most promising fields is face detection. Being used daily in a wide variety of fields; from mobile apps and augmented reality for entertainment purposes, to social studies and security cameras; designing high-performance models for face detection is crucial. On top of that, with the aforementioned growth in face detection technologies, precision and accuracy are no longer the only relevant factors: for real-time face detection, speed of detection is essential. SwiftFace is a novel deep learning model created solely to be a fast face detection model. By focusing only on detecting faces, SwiftFace performs 30% faster than current state-of-the-art face detection models. Code available at https://github.com/leo7r/swiftface
翻訳日:2022-10-13 06:11:58 公開日:2020-09-29
# 半自動隕石回収のための機械学習

Machine Learning for Semi-Automated Meteorite Recovery ( http://arxiv.org/abs/2009.13852v1 )

ライセンス: Link先を確認
Seamus Anderson, Martin Towner, Phil Bland, Christopher Haikings, William Volante, Eleanor Sansom, Hadrien Devillepoix, Patrick Shober, Benjamin Hartig, Martin Cupak, Trent Jansen-Sturgeon, Robert Howie, Gretchen Benedix, Geoff Deacon(参考訳) 本稿では,火球網によって観測・拘束された隕石の落下を,ドローンと機械学習アルゴリズムを用いて回収する新しい手法を提案する。 このアプローチでは、特定の落下地点の局所地形の画像を使用して、隕石候補を検出するために設計されたニューラルネットワークをトレーニングする。 我々は, 隕石検出率を75~97%, かつ, 偽陽性を除去するための効率的なメカニズムを実証するために, フィールド試験を行った。 オーストラリア西部の多くの場所でのテストでは、このトレーニングスキームが局所的な地形の特徴を学習するためのモデルを一般化する能力も示しています。 また, モデル学習手法により, 従来の探索手法を用いて, 3つの隕石を同定することができた。 我々の手法は、地球規模にわたる火球ネットワーク内の幅広い場所で隕石の落下を回収するために使用される。

We present a novel methodology for recovering meteorite falls observed and constrained by fireball networks, using drones and machine learning algorithms. This approach uses images of the local terrain for a given fall site to train an artificial neural network, designed to detect meteorite candidates. We have field tested our methodology to show a meteorite detection rate between 75-97%, while also providing an efficient mechanism to eliminate false-positives. Our tests at a number of locations within Western Australia also showcase the ability for this training scheme to generalize a model to learn localized terrain features. Our model-training approach was also able to correctly identify 3 meteorites in their native fall sites, that were found using traditional searching techniques. Our methodology will be used to recover meteorite falls in a wide range of locations within globe-spanning fireball networks.
翻訳日:2022-10-13 06:11:44 公開日:2020-09-29
# ビデオ異常検出のためのディープラーニング技術の検討

A Survey on Deep Learning Techniques for Video Anomaly Detection ( http://arxiv.org/abs/2009.14146v1 )

ライセンス: Link先を確認
Jessie James P. Suarez, Prospero C. Naval Jr(参考訳) ビデオにおける異常検出は10年以上研究されてきた問題である。 この領域は広い適用性のために研究者の関心を遠ざけてきた。 このため、長年にわたって提案されてきた様々なアプローチがあり、これらのアプローチは統計ベースのアプローチから機械学習ベースのアプローチまで幅広い。 この分野ではすでに多くの調査が実施されているが,本研究では,Deep Learning を用いた異常検出の分野における最近の進歩について概観する。 ディープラーニングは、コンピュータビジョンや自然言語処理など、さまざまな分野の人工知能にうまく適用されている。 しかしこの調査は、Deep Learningがどのように改善され、ビデオ異常検出の領域に関する洞察を提供するかに焦点を当てている。 本稿では,それぞれの目的に対して異なるDeep Learningアプローチを分類する。 さらに、一般的なデータセットと一般的な評価メトリクスについても論じている。 その後、今後の研究の方向性と可能性を提供するため、最近のアプローチを総合的に検討する。

Anomaly detection in videos is a problem that has been studied for more than a decade. This area has piqued the interest of researchers due to its wide applicability. Because of this, there has been a wide array of approaches that have been proposed throughout the years and these approaches range from statistical-based approaches to machine learning-based approaches. Numerous surveys have already been conducted on this area but this paper focuses on providing an overview on the recent advances in the field of anomaly detection using Deep Learning. Deep Learning has been applied successfully in many fields of artificial intelligence such as computer vision, natural language processing and more. This survey, however, focuses on how Deep Learning has improved and provided more insights to the area of video anomaly detection. This paper provides a categorization of the different Deep Learning approaches with respect to their objectives. Additionally, it also discusses the commonly used datasets along with the common evaluation metrics. Afterwards, a discussion synthesizing all of the recent approaches is made to provide direction and possible areas for future research.
翻訳日:2022-10-13 06:11:30 公開日:2020-09-29
# TorchRadon:CTのための高速微分可能なルーチン

TorchRadon: Fast Differentiable Routines for Computed Tomography ( http://arxiv.org/abs/2009.14788v1 )

ライセンス: Link先を確認
Matteo Ronchetti(参考訳) TorchRadonはオープンソースのCUDAライブラリで、CT(Computerd tomography)再構成問題を解決するための、一連の異なるルーチンを含んでいる。 このライブラリは、ディープラーニングとモデルベースのアプローチを組み合わせたCT問題に取り組む研究者を支援するために設計された。 このパッケージはPyTorch拡張として開発されており、既存のディープラーニングトレーニングコードにシームレスに統合することができる。 既存のAstra Toolboxと比較すると、TorchRadonは125倍高速である。 TorchRadonによって実装された演算子は、PyTorchを後方に計算することで、既存のニューラルネットワークアーキテクチャに簡単に挿入できる。 そのスピードとGPUサポートのため、TorchRadonは反復アルゴリズムの実装の高速バックエンドとしても効果的に使用できる。 本稿では,ライブラリの主な機能について述べるとともに,既存のライブラリと比較し,使用例を示す。

This work presents TorchRadon -- an open source CUDA library which contains a set of differentiable routines for solving computed tomography (CT) reconstruction problems. The library is designed to help researchers working on CT problems to combine deep learning and model-based approaches. The package is developed as a PyTorch extension and can be seamlessly integrated into existing deep learning training code. Compared to the existing Astra Toolbox, TorchRadon is up to 125 faster. The operators implemented by TorchRadon allow the computation of gradients using PyTorch backward(), and can therefore be easily inserted inside existing neural networks architectures. Because of its speed and GPU support, TorchRadon can also be effectively used as a fast backend for the implementation of iterative algorithms. This paper presents the main functionalities of the library, compares results with existing libraries and provides examples of usage.
翻訳日:2022-10-13 06:10:59 公開日:2020-09-29
# クロスアテンション監視データ拡張による質問応答のニューラル検索

Neural Retrieval for Question Answering with Cross-Attention Supervised Data Augmentation ( http://arxiv.org/abs/2009.13815v1 )

ライセンス: Link先を確認
Yinfei Yang, Ning Jin, Kuo Lin, Mandy Guo, Daniel Cer(参考訳) 質問や回答を個別に共有埋め込み空間に投影するニューラルネットワークは、大きなコーパスから効率的な連続的な空間検索を可能にする。 質問と回答の埋め込みを独立に計算すると、回答に一致する質問に関連する情報の後期融合が生じる。 効率的な検索には重要であるが、後期融合は早期融合を利用するモデル(例えば、質問と回答のペア間のクロスアテンションを持つBERTベースの分類器)を過小評価する。 本稿では,正確な初期核融合モデルを用いた教師付きデータマイニング手法を提案し,効率的な後期核融合検索モデルのトレーニングを改善する。 まず,質問と回答の相互対応による正確な分類モデルを訓練する。 正確なクロスアテンションモデルは、ニューラルネットワーク検索モデルの重み付きトレーニング例を生成するために追加のパスに注釈をつけるために使用される。 得られたデータによる検索モデルは、Precision(P@N)とMean Reciprocal Rank(MRR)で金のアノテーションで訓練された検索モデルよりも大幅に優れている。

Neural models that independently project questions and answers into a shared embedding space allow for efficient continuous space retrieval from large corpora. Independently computing embeddings for questions and answers results in late fusion of information related to matching questions to their answers. While critical for efficient retrieval, late fusion underperforms models that make use of early fusion (e.g., a BERT based classifier with cross-attention between question-answer pairs). We present a supervised data mining method using an accurate early fusion model to improve the training of an efficient late fusion retrieval model. We first train an accurate classification model with cross-attention between questions and answers. The accurate cross-attention model is then used to annotate additional passages in order to generate weighted training examples for a neural retrieval model. The resulting retrieval model with additional data significantly outperforms retrieval models directly trained with gold annotations on Precision at $N$ (P@N) and Mean Reciprocal Rank (MRR).
翻訳日:2022-10-13 06:10:31 公開日:2020-09-29
# 文字N-Gramsを用いたTwitter上のフェイクニューススプレッダ検出 CLEF 2020におけるPANのノートブック

Fake News Spreader Detection on Twitter using Character N-Grams. Notebook for PAN at CLEF 2020 ( http://arxiv.org/abs/2009.13859v1 )

ライセンス: Link先を確認
Inna Vogel and Meghana Meghana(参考訳) 偽ニュースの著者は、しばしば検証済みのニュースソースから得た事実を誤報と混合して混乱を生じさせ、読者の間に不安を引き起こす。 偽ニュースの拡散は我々の社会に深刻な影響を及ぼす可能性がある。 政治選挙を妨害したり、株価を押し下げたり、企業や著名人の評判を落とすこともできる。 いくつかのウェブサイトが噂や主張をチェックするという使命を担っているが、拡散しているニュースの内容をチェックできるほど高速ではないことが多い。 特にソーシャルメディアのウェブサイトは、情報の迅速な伝播のための簡単なプラットフォームを提供している。 フェイクニュースがソーシャルメディアユーザーの間で広まることを制限するため、今年のpan 2020チャレンジのタスクはフェイクニュース拡散者に焦点を当てている。 この課題の目的は、過去に偽のニュースを共有した著者と、それをしたことのない著者を区別できるかどうかを判断することである。 本稿では,Twitterにおける偽ニュース検出タスクのプロファイリングシステムについて述べる。 そこで我々は,多言語的視点,すなわち英語とスペイン語の異なる特徴抽出手法と学習実験を行った。 最終提出されたシステムでは文字n-gramを英語の線形SVMとスペイン語のロジスティック回帰との組み合わせとして使用しています。 提案モデルはそれぞれ,英語とスペイン語の公式テストセットにおいて,全体の精度73%と79%を達成した。 われわれの実験は、Twitter上の確固たる偽ニューススプレッダーを、信頼できる情報を共有するユーザーと区別することが難しいことを示している。 我々のモデルは72社中3位にランクインした。

The authors of fake news often use facts from verified news sources and mix them with misinformation to create confusion and provoke unrest among the readers. The spread of fake news can thereby have serious implications on our society. They can sway political elections, push down the stock price or crush reputations of corporations or public figures. Several websites have taken on the mission of checking rumors and allegations, but are often not fast enough to check the content of all the news being disseminated. Especially social media websites have offered an easy platform for the fast propagation of information. Towards limiting fake news from being propagated among social media users, the task of this year's PAN 2020 challenge lays the focus on the fake news spreaders. The aim of the task is to determine whether it is possible to discriminate authors that have shared fake news in the past from those that have never done it. In this notebook, we describe our profiling system for the fake news detection task on Twitter. For this, we conduct different feature extraction techniques and learning experiments from a multilingual perspective, namely English and Spanish. Our final submitted systems use character n-grams as features in combination with a linear SVM for English and Logistic Regression for the Spanish language. Our submitted models achieve an overall accuracy of 73% and 79% on the English and Spanish official test set, respectively. Our experiments show that it is difficult to differentiate solidly fake news spreaders on Twitter from users who share credible information leaving room for further investigations. Our model ranked 3rd out of 72 competitors.
翻訳日:2022-10-13 06:09:59 公開日:2020-09-29
# インドネシア語自動質問生成装置のシーケンス・ツー・シーケンス学習

Sequence-to-Sequence Learning for Indonesian Automatic Question Generator ( http://arxiv.org/abs/2009.13889v1 )

ライセンス: Link先を確認
Ferdiant Joshua Muis (1) and Ayu Purwarianti (1 and 2) ((1) Institut Teknologi Bandung, (2) U-CoE AI-VLB)(参考訳) 自動質問生成は、様々なテキストデータから与えられた質問の自動生成タスクとして定義される。 自動質問生成装置(AQG)の研究は10年以上にわたって行われ、主にファクトイドの問題に焦点を当てている。 これらすべての研究において、最先端技術はシーケンシャル・ツー・シーケンス・アプローチを用いて達成される。 しかし、インドネシアのaqgシステムの研究は行われていない。 この作業ではインドネシアの自動質問生成装置を構築し、以前の作業からアーキテクチャを適用した。 要約すると、BiGRU, BiLSTM, Transformer を用いたシーケンス・ツー・シーケンス・アプローチにより、言語的特徴、コピー機構、カバレッジ機構を付加した。 質問生成のための一般的なインドネシアのデータセットは公開されていないので、テスト用にインドネシアのtydiqa開発セットを追加して、s squad v2.0 factoid question answering datasetを翻訳しました。 BLEU1、BLEU2、BLEU3、BLEU4、ROUGE-Lのスコアはそれぞれ38,35、2096、10,68、5,78、43,4でSQuAD、39.9、20.78、10.26、6.31、44.13で達成された。 システムは、期待される回答が名前付きエンティティであり、それらを説明する文脈と構文的に近い場合にうまく機能する。 さらに、インドネシアのネイティブの観点からは、最高のケースで最高のモデルが生成する最良の質問は受け入れられ、合理的に有用です。

Automatic question generation is defined as the task of automating the creation of question given a various of textual data. Research in automatic question generator (AQG) has been conducted for more than 10 years, mainly focused on factoid question. In all these studies, the state-of-the-art is attained using sequence-to-sequence approach. However, AQG system for Indonesian has not ever been researched intensely. In this work we construct an Indonesian automatic question generator, adapting the architecture from some previous works. In summary, we used sequence-to-sequence approach using BiGRU, BiLSTM, and Transformer with additional linguistic features, copy mechanism, and coverage mechanism. Since there is no public large dan popular Indonesian dataset for question generation, we translated SQuAD v2.0 factoid question answering dataset, with additional Indonesian TyDiQA dev set for testing. The system achieved BLEU1, BLEU2, BLEU3, BLEU4, and ROUGE-L score at 38,35, 20,96, 10,68, 5,78, and 43,4 for SQuAD, and 39.9, 20.78, 10.26, 6.31, 44.13 for TyDiQA, respectively. The system performed well when the expected answers are named entities and are syntactically close with the context explaining them. Additionally, from native Indonesian perspective, the best questions generated by our best models on their best cases are acceptable and reasonably useful.
翻訳日:2022-10-13 06:09:37 公開日:2020-09-29
# 階層学習を用いた集中的等価性を持つ低複雑性分散ニューラルネットワーク

A Low Complexity Decentralized Neural Net with Centralized Equivalence using Layer-wise Learning ( http://arxiv.org/abs/2009.13982v1 )

ライセンス: Link先を確認
Xinyue Liang, Alireza M. Javid, Mikael Skoglund, Saikat Chatterjee(参考訳) 分散処理ノード (workers) において,最近提案されている大規模ニューラルネットワークを学習するために,低複雑性の分散学習アルゴリズムを設計する。 作業者間の通信ネットワークは同期しており、マスターノードを持たずに二重確率混合行列としてモデル化できると仮定する。 我々の設定では、トレーニングデータは労働者間で分散されるが、プライバシやセキュリティ上の懸念からトレーニングプロセスでは共有されない。 階層的凸最適化手法とともに、交互方向乗算器(ADMM)を用いて、作業者間での計算複雑性と通信コストの低減を両立する分散学習アルゴリズムを提案する。 一つの場所でデータが利用可能であるかのように、同等の学習性能を達成することが可能であることを示す。 最後に,アルゴリズムの時間複雑性と収束挙動を実験的に示す。

We design a low complexity decentralized learning algorithm to train a recently proposed large neural network in distributed processing nodes (workers). We assume the communication network between the workers is synchronized and can be modeled as a doubly-stochastic mixing matrix without having any master node. In our setup, the training data is distributed among the workers but is not shared in the training process due to privacy and security concerns. Using alternating-direction-method-of-multipliers (ADMM) along with a layerwise convex optimization approach, we propose a decentralized learning algorithm which enjoys low computational complexity and communication cost among the workers. We show that it is possible to achieve equivalent learning performance as if the data is available in a single place. Finally, we experimentally illustrate the time complexity and convergence behavior of the algorithm.
翻訳日:2022-10-13 06:03:47 公開日:2020-09-29
# 重み付き指向ネットワークの多様性の重み予測

Weight Prediction for Variants of Weighted Directed Networks ( http://arxiv.org/abs/2009.14311v1 )

ライセンス: Link先を確認
Dong Quan Ngoc Nguyen, Lin Xing, and Lizhen Lin(参考訳) 重み付き有向ネットワーク (wdn) は、各辺が重みと呼ばれる一意な値に関連付けられる有向グラフである。 これらのネットワークは、ある頂点が他の頂点に向かって評価される現実世界のソーシャルネットワークのモデル化に非常に適している。 本稿では,そのようなネットワークにおけるエッジ重みの予測について検討した。 我々は,wdnsにおけるエッジウェイト予測を研究するための計量幾何学的手法を初めて紹介する。 我々は、WDNの通常の概念を変更し、新しいタイプのWDNを導入し、それを「textit{almost-weighted direct network} (AWDNs)」という。 AWDNは、所定のトレーニングセットからネットワークの重み情報を取得することができる。 次に、そのようなネットワークに計量空間構造を持たせるAWDNに対する計量(または距離)のクラスを構築する。 AWDNの幾何学的構造を用いて, AWDNのエッジウェイトを予測するために, kNN法とSVM法を改良した$k$近辺法を提案する。 多くの実世界のデータセットでは、エッジ重みに加えて、重みを頂点の情報を取り込む頂点に関連付けることもできる。 同様のアプローチを採用し、重みを原点頂点のサブセットまたは終点頂点のサブセットに関連付ける2つの新しいタイプの有向ネットワークを導入する。 我々は,このようなネットワーク上で新しいメトリクスのクラスを初めて構築し,これらのメトリクスに基づいて,これらのネットワークの起点と終点の重みを予測するための$k$NNとSVMの修正手法を提案する。 我々は幾何学的手法を用いて,実世界の複数のデータセットに対して実験結果を提供する。

A weighted directed network (WDN) is a directed graph in which each edge is associated to a unique value called weight. These networks are very suitable for modeling real-world social networks in which there is an assessment of one vertex toward other vertices. One of the main problems studied in this paper is prediction of edge weights in such networks. We introduce, for the first time, a metric geometry approach to studying edge weight prediction in WDNs. We modify a usual notion of WDNs, and introduce a new type of WDNs which we coin the term \textit{almost-weighted directed networks} (AWDNs). AWDNs can capture the weight information of a network from a given training set. We then construct a class of metrics (or distances) for AWDNs which equips such networks with a metric space structure. Using the metric geometry structure of AWDNs, we propose modified $k$ nearest neighbors (kNN) methods and modified support-vector machine (SVM) methods which will then be used to predict edge weights in AWDNs. In many real-world datasets, in addition to edge weights, one can also associate weights to vertices which capture information of vertices; association of weights to vertices especially plays an important role in graph embedding problems. Adopting a similar approach, we introduce two new types of directed networks in which weights are associated to either a subset of origin vertices or a subset of terminal vertices . We, for the first time, construct novel classes of metrics on such networks, and based on these new metrics propose modified $k$NN and SVM methods for predicting weights of origins and terminals in these networks. We provide experimental results on several real-world datasets, using our geometric methodologies.
翻訳日:2022-10-13 06:01:48 公開日:2020-09-29
# StratLearner: ソーシャルネットワークにおける誤情報防止戦略を学ぶ

StratLearner: Learning a Strategy for Misinformation Prevention in Social Networks ( http://arxiv.org/abs/2009.14337v1 )

ライセンス: Link先を確認
Guangmo Tong(参考訳) 入力を取る組合せ最適化の問題を考えると、目的関数を知らずに、入力-解対の例からそれを解く戦略を学べるだろうか? 本稿では,このような設定を考慮し,誤情報防止問題について検討する。 攻撃者と攻撃者のペアの例を考えると、我々の目標は、基盤となる拡散モデルを知ることなく、将来の攻撃者に対するプロテクターの計算戦略を学ぶことである。 そこで本研究では,ランダムにサンプリングされた部分グラフ上で距離関数を用いて構築したランダム特徴量を用いてスコアリング関数をパラメータ化することで,大マージン法で学習可能な重み付きカーネル化スコアリング関数を実現する,構造化予測フレームワークを設計した。 実験により,拡散モデルの情報を使わずに準最適プロテクターを作成でき,グラフベースおよび学習ベースの他の手法よりも明らかなマージンで優れることがわかった。

Given a combinatorial optimization problem taking an input, can we learn a strategy to solve it from the examples of input-solution pairs without knowing its objective function? In this paper, we consider such a setting and study the misinformation prevention problem. Given the examples of attacker-protector pairs, our goal is to learn a strategy to compute protectors against future attackers, without the need of knowing the underlying diffusion model. To this end, we design a structured prediction framework, where the main idea is to parameterize the scoring function using random features constructed through distance functions on randomly sampled subgraphs, which leads to a kernelized scoring function with weights learnable via the large margin method. Evidenced by experiments, our method can produce near-optimal protectors without using any information of the diffusion model, and it outperforms other possible graph-based and learning-based methods by an evident margin.
翻訳日:2022-10-13 06:01:20 公開日:2020-09-29
# 自動モデル構築のためのネットワークに基づくタンパク質複合体の発見

Incorporating network based protein complex discovery into automated model construction ( http://arxiv.org/abs/2010.00387v1 )

ライセンス: Link先を確認
Paul Scherer, Maja Tr\c{e}bacz, Nikola Simidjievski, Zohreh Shams, Helena Andres Terre, Pietro Li\`o, Mateja Jamnik(参考訳) 本稿では,計算グラフの教師なし構築を通じて,ネットワーク生物学知識を組み込んだ癌表現型の遺伝子発現解析手法を提案する。 計算グラフの構造構築は、タンパク質複合体発見におけるネットワーク生物学の研究から生じる帰納的バイアスを含むタンパク質-タンパク質ネットワーク上のトポロジ的クラスタリングアルゴリズムを用いて行われる。 これは、可能な計算グラフ因子化の仮説空間を構造的に制約し、それらのパラメータは教師なしまたは教師なしのタスク設定によって学習できる。 計算グラフのスパース構成は、個々のタンパク質複合体に関わる遺伝子やタンパク質の個々の寄与を解釈しながら、微分タンパク質複合体の活性解析を可能にする。 各種癌表現型を解析した結果,提案手法はsvm,完全連結mlp,ランダム連結mlpよりも優れていた。 本研究では,大規模相互作用ネットワークを事前知識として組み込むことにより,イントロスペクティブ・スタディに適合する強力な計算モデルの構築を実現する。

We propose a method for gene expression based analysis of cancer phenotypes incorporating network biology knowledge through unsupervised construction of computational graphs. The structural construction of the computational graphs is driven by the use of topological clustering algorithms on protein-protein networks which incorporate inductive biases stemming from network biology research in protein complex discovery. This structurally constrains the hypothesis space over the possible computational graph factorisation whose parameters can then be learned through supervised or unsupervised task settings. The sparse construction of the computational graph enables the differential protein complex activity analysis whilst also interpreting the individual contributions of genes/proteins involved in each individual protein complex. In our experiments analysing a variety of cancer phenotypes, we show that the proposed methods outperform SVM, Fully-Connected MLP, and Randomly-Connected MLPs in all tasks. Our work introduces a scalable method for incorporating large interaction networks as prior knowledge to drive the construction of powerful computational models amenable to introspective study.
翻訳日:2022-10-13 06:01:05 公開日:2020-09-29
# コミュニティ検出・パターン認識・ハイパーグラフ学習 : 計量幾何学と永続ホモロジーを用いたアプローチ

Community detection, pattern recognition, and hypergraph-based learning: approaches using metric geometry and persistent homology ( http://arxiv.org/abs/2010.00435v1 )

ライセンス: Link先を確認
Dong Quan Ngoc Nguyen, Lin Xing, and Lizhen Lin(参考訳) ハイパーグラフのデータが現われ、近代の多くの場所に隠されている。 それらの構造は、データポイント間の高次関係に関する情報を含むため、多くの実データ例をモデル化するために使用できるデータ構造である。 本論文の主な貢献の1つは、通常の距離空間構造に類似したハイパーグラフデータに新しいトポロジ構造を導入することである。 ハイパーグラフデータの新しいトポロジカルな空間構造を用いて,コミュニティ検出問題の研究手法を提案し,ハイパーグラフデータのホモロジー構造から生じる永続的な特徴を検出する。 また,本論文で導入したハイパーグラフデータのトポロジ的空間構造に基づいて,従来の近傍近傍手法を機械学習から一般化した改良型近傍手法を提案する。 本手法はハイパーグラフのように離散構造に対しても非常に柔軟かつ適用可能であるという利点がある。 次に,提案手法を用いて構築したハイプグラフデータにおける符号予測問題について検討する。

Hypergraph data appear and are hidden in many places in the modern age. They are data structure that can be used to model many real data examples since their structures contain information about higher order relations among data points. One of the main contributions of our paper is to introduce a new topological structure to hypergraph data which bears a resemblance to a usual metric space structure. Using this new topological space structure of hypergraph data, we propose several approaches to study community detection problem, detecting persistent features arising from homological structure of hypergraph data. Also based on the topological space structure of hypergraph data introduced in our paper, we introduce a modified nearest neighbors methods which is a generalization of the classical nearest neighbors methods from machine learning. Our modified nearest neighbors methods have an advantage of being very flexible and applicable even for discrete structures as in hypergraphs. We then apply our modified nearest neighbors methods to study sign prediction problem in hypegraph data constructed using our method.
翻訳日:2022-10-13 06:00:46 公開日:2020-09-29
# Stock2Vec: 表現学習と時間畳み込みネットワークによる市場予測のためのハイブリッドディープラーニングフレームワーク

Stock2Vec: A Hybrid Deep Learning Framework for Stock Market Prediction with Representation Learning and Temporal Convolutional Network ( http://arxiv.org/abs/2010.01197v1 )

ライセンス: Link先を確認
Xing Wang, Yijun Wang, Bin Weng, Aleksandr Vinel(参考訳) 我々は、株式市場の日々の価格を予測するためのグローバルなハイブリッドディープラーニングフレームワークを開発することを提案した。 表現学習を用いて,stock2vec という埋め込みを導出し,複数のストック間の関係を把握し,一方,時間的畳み込み層は,シリーズ内およびシリーズ間における効果的な時間パターンを自動的に把握する。 S&P 500をベースとして、当社のハイブリッドフレームワークは両方の利点を統合し、人気のあるベンチマークモデルよりも株価予測タスクの性能を向上させる。

We have proposed to develop a global hybrid deep learning framework to predict the daily prices in the stock market. With representation learning, we derived an embedding called Stock2Vec, which gives us insight for the relationship among different stocks, while the temporal convolutional layers are used for automatically capturing effective temporal patterns both within and across series. Evaluated on S&P 500, our hybrid framework integrates both advantages and achieves better performance on the stock price prediction task than several popular benchmarked models.
翻訳日:2022-10-13 06:00:30 公開日:2020-09-29
# セマンティック語彙特徴を用いた発話のデバイス指向性分類の改善

Improving Device Directedness Classification of Utterances with Semantic Lexical Features ( http://arxiv.org/abs/2010.01949v1 )

ライセンス: Link先を確認
Kellen Gillespie, Ioannis C. Konstantakopoulos, Xingzhi Guo, Vishal Thanvantri Vasudevan, Abhinav Sethy(参考訳) Alexa、Google Home、Siriといったパーソナルアシスタントとのユーザーインタラクションは通常、ウェイクワードまたはウェイクワードによって開始される。 いくつかのパーソナルアシスタントには「フォローアップ」モードがあり、ウェイクワードを必要とせずに追加の対話ができる。 システムは適切な場合にのみ応答し、意図しない発話を無視するためには、発話をデバイス指向または非デバイス指向に分類する必要がある。 最先端のシステムは、このタスクに音響的特徴を主に用いているが、他のシステムでは、語彙的特徴のみを使用したり、LMベースの語彙的特徴を追加したりしている。 意味論的特徴と軽量な音響特徴を組み合わせた有向性分類器を提案し,有向性分類に有効であることを示す。 混合ドメイン語彙および音響特徴モデルにより、最先端の音響のみのベースラインモデルよりもEERを14%削減することができる。 最後に,移動学習と半教師付き学習をモデルに適用し,精度をさらに向上する。

User interactions with personal assistants like Alexa, Google Home and Siri are typically initiated by a wake term or wakeword. Several personal assistants feature "follow-up" modes that allow users to make additional interactions without the need of a wakeword. For the system to only respond when appropriate, and to ignore speech not intended for it, utterances must be classified as device-directed or non-device-directed. State-of-the-art systems have largely used acoustic features for this task, while others have used only lexical features or have added LM-based lexical features. We propose a directedness classifier that combines semantic lexical features with a lightweight acoustic feature and show it is effective in classifying directedness. The mixed-domain lexical and acoustic feature model is able to achieve 14% relative reduction of EER over a state-of-the-art acoustic-only baseline model. Finally, we successfully apply transfer learning and semi-supervised learning to the model to improve accuracy even further.
翻訳日:2022-10-13 05:54:27 公開日:2020-09-29
# imdpGAN: 生成逆ネットワークによるプライベートおよび特定データの生成

imdpGAN: Generating Private and Specific Data with Generative Adversarial Networks ( http://arxiv.org/abs/2009.13839v1 )

ライセンス: Link先を確認
Saurabh Gupta, Arun Balaji Buduru, Ponnurangam Kumaraguru(参考訳) Generative Adversarial Network(GAN)とその変種は、合成データの生成において有望な結果を示している。 しかし、GANの問題は次のとおりである。 i) 学習はトレーニングサンプルの周りで行われ、モデルはしばしばそれらを覚えてしまうため、個々のサンプルのプライバシを損なうことになります。 (ii)生成データのランダム性 生成したサンプルの特異性を制御できない。 これらの問題に対処するために、差分的にプライベートなジェネレーティブ・アドバイサル・ネットワークを最大化する情報であるimdpGANを提案する。 プライバシー保護を同時に達成し、潜在表現を学習するエンドツーエンドフレームワークである。 MNISTデータセットを用いた実験により、ImdpGANは個々のデータポイントのプライバシを保持し、遅延符号を学習して生成されたサンプルの特異性を制御する。 我々は、ユーティリティ対プライバシトレードオフを示すために、桁対のバイナリ分類を行う。 分類精度は、フレームワークのプライバシーレベルが増加するにつれて低下する。 また,ImdpGANのトレーニングプロセスは安定だが,他のGANフレームワークと比較して10倍の時間増加を経験することを示した。 最後に、ImdpGANフレームワークをCelebAデータセットに拡張し、プライバシと学習された表現がどのようにして出力の特異性を制御できるかを示す。

Generative Adversarial Network (GAN) and its variants have shown promising results in generating synthetic data. However, the issues with GANs are: (i) the learning happens around the training samples and the model often ends up remembering them, consequently, compromising the privacy of individual samples - this becomes a major concern when GANs are applied to training data including personally identifiable information, (ii) the randomness in generated data - there is no control over the specificity of generated samples. To address these issues, we propose imdpGAN - an information maximizing differentially private Generative Adversarial Network. It is an end-to-end framework that simultaneously achieves privacy protection and learns latent representations. With experiments on MNIST dataset, we show that imdpGAN preserves the privacy of the individual data point, and learns latent codes to control the specificity of the generated samples. We perform binary classification on digit pairs to show the utility versus privacy trade-off. The classification accuracy decreases as we increase privacy levels in the framework. We also experimentally show that the training process of imdpGAN is stable but experience a 10-fold time increase as compared with other GAN frameworks. Finally, we extend imdpGAN framework to CelebA dataset to show how the privacy and learned representations can be used to control the specificity of the output.
翻訳日:2022-10-13 05:54:12 公開日:2020-09-29
# モデルはどこを見ているのか? --集中してネットワークの注意を説明

Where is the Model Looking At?--Concentrate and Explain the Network Attention ( http://arxiv.org/abs/2009.13862v1 )

ライセンス: Link先を確認
Wenjia Xu, Jiuniu Wang, Yang Wang, Guangluan Xu, Wei Dai, Yirong Wu(参考訳) 画像分類モデルは、多くのデータセットで、時には人間よりも優れた性能を達成している。 しかし、解釈可能性の欠如からモデルへの注目は明らかではない。 本稿では,モデル注意の忠実性と解釈可能性について検討する。 本稿では、識別画像領域にモデル注意を集中させ、注意を解釈できるように、説明可能な属性ベースのマルチタスク(EAT)フレームワークを提案する。 我々はマルチタスク学習ネットワークに属性予測を導入し、ネットワークが前景オブジェクトに注意を集中するのを手助けする。 属性に基づく属性記述をネットワークに生成し、画像上の属性をグラウンドして視覚的説明を示す。 マルチモデルの説明は、ユーザの信頼を高めるだけでなく、ネットワークとデータセットの弱点を見つけるのにも役立ちます。 我々のフレームワークはどんな基本モデルにも一般化できる。 3つのデータセットと5つの基本モデルで実験を行う。 その結果、eatフレームワークはネットワーク決定を解釈するマルチモーダルな説明を与えることができる。 ネットワークの注意を誘導することにより,複数の認識手法の性能が向上した。

Image classification models have achieved satisfactory performance on many datasets, sometimes even better than human. However, The model attention is unclear since the lack of interpretability. This paper investigates the fidelity and interpretability of model attention. We propose an Explainable Attribute-based Multi-task (EAT) framework to concentrate the model attention on the discriminative image area and make the attention interpretable. We introduce attributes prediction to the multi-task learning network, helping the network to concentrate attention on the foreground objects. We generate attribute-based textual explanations for the network and ground the attributes on the image to show visual explanations. The multi-model explanation can not only improve user trust but also help to find the weakness of network and dataset. Our framework can be generalized to any basic model. We perform experiments on three datasets and five basic models. Results indicate that the EAT framework can give multi-modal explanations that interpret the network decision. The performance of several recognition approaches is improved by guiding network attention.
翻訳日:2022-10-13 05:53:50 公開日:2020-09-29
# リプシッツニューラルネットワークは、すべてのリプシッツ関数の集合に密接である

Lipschitz neural networks are dense in the set of all Lipschitz functions ( http://arxiv.org/abs/2009.13881v1 )

ライセンス: Link先を確認
Stephan Eckstein(参考訳) このノートは、固定されたリプシッツ定数 $L > 0$ に対して、$L$-Lipschitz である1層ニューラルネットワークは、有界集合上の一様ノルムに関してすべての $L$-Lipschitz 函数の集合に密接であることを示している。

This note shows that, for a fixed Lipschitz constant $L > 0$, one layer neural networks that are $L$-Lipschitz are dense in the set of all $L$-Lipschitz functions with respect to the uniform norm on bounded sets.
翻訳日:2022-10-13 05:51:50 公開日:2020-09-29
# 移民文書の分類と自動応答生成

Immigration Document Classification and Automated Response Generation ( http://arxiv.org/abs/2010.01997v1 )

ライセンス: Link先を確認
Sourav Mukherjee, Tim Oates, Vince DiMascio, Huguens Jean, Rob Ares, David Widmark, Jaclyn Harder(参考訳) 本稿では,米国労働ビザ請願に不可欠な文書の整理と,米国市民権移民サービス(USCIS)が発行したRFE(Requests For Evidence)への対応について考察する。 通常、どちらのプロセスもかなりの反復的な手作業を必要とする。 機械的な作業の負担を軽減するために,これらのプロセスを自動化するために機械学習手法を適用する。 特に,画像およびテキスト分類器のアンサンブルを用いて,支援文書の分類を行う。 また、テキスト分類器を使用して、RFEで要求されている証拠のタイプを自動的に識別し、識別された型と応答テンプレート、抽出されたフィールドを併用して、ドラフトレスポンスを組み立てる。 実験結果から,本手法は処理時間を大幅に削減しながら相当な精度が得られることが示唆された。

In this paper, we consider the problem of organizing supporting documents vital to U.S. work visa petitions, as well as responding to Requests For Evidence (RFE) issued by the U.S.~Citizenship and Immigration Services (USCIS). Typically, both processes require a significant amount of repetitive manual effort. To reduce the burden of mechanical work, we apply machine learning methods to automate these processes, with humans in the loop to review and edit output for submission. In particular, we use an ensemble of image and text classifiers to categorize supporting documents. We also use a text classifier to automatically identify the types of evidence being requested in an RFE, and used the identified types in conjunction with response templates and extracted fields to assemble draft responses. Empirical results suggest that our approach achieves considerable accuracy while significantly reducing processing time.
翻訳日:2022-10-13 05:45:18 公開日:2020-09-29
# 自己グループ型畳み込みニューラルネットワーク

Self-grouping Convolutional Neural Networks ( http://arxiv.org/abs/2009.13803v1 )

ライセンス: Link先を確認
Qingbei Guo and Xiao-Jun Wu and Josef Kittler and Zhiquan Feng(参考訳) グループ畳み込み演算子は、計算効率の向上とパラメータ数の減少のために、深層畳み込みニューラルネットワークでますます使われているが、既存のほとんどの手法では、それぞれの畳み込み層のフィルタを、同じ空間的グループサイズとデータ独立性を持つ複数の正規フィルタグループに分割することで、グループ畳み込みアーキテクチャを構築する。 そこで本研究では,SG-CNNと呼ばれる自己グループ型畳み込みニューラルネットワークの設計手法を提案する。 具体的には,各フィルタに対して,まず入力チャネルの重要度を評価し,重要度ベクトルを識別し,クラスタリングによりこれらのベクトルをグループ化する。 得られた 'emph{data-dependent} セントロイドを用いて、重要でない接続を創り出し、プルーニングの精度損失を暗黙的に最小化し、一連の \emph{diverse} 群畳み込みフィルタを生成する。 次に,(1)局所的および大域的な微調整と(2)大域的のみの微調整の2つの微調整方式を開発し,比較結果を実験的に提供し,刈り取ったネットワークの認識能力を回復した。 CIFAR-10/100およびImageNetデータセットで実施された総合的な実験により、我々の自己グループ化畳み込み法がResNetやDenseNetといった最先端CNNアーキテクチャに適応し、圧縮比、スピードアップ、認識精度の点で優れた性能を提供することが示された。 本稿では,SG-CNNが,ドメイン適応やオブジェクト検出を含む伝達学習によって一般化する能力を示す。 ソースコードはhttps://github.com/QingbeiGuo/SG-CNN.gitで公開されています。

Although group convolution operators are increasingly used in deep convolutional neural networks to improve the computational efficiency and to reduce the number of parameters, most existing methods construct their group convolution architectures by a predefined partitioning of the filters of each convolutional layer into multiple regular filter groups with an equal spatial group size and data-independence, which prevents a full exploitation of their potential. To tackle this issue, we propose a novel method of designing self-grouping convolutional neural networks, called SG-CNN, in which the filters of each convolutional layer group themselves based on the similarity of their importance vectors. Concretely, for each filter, we first evaluate the importance value of their input channels to identify the importance vectors, and then group these vectors by clustering. Using the resulting \emph{data-dependent} centroids, we prune the less important connections, which implicitly minimizes the accuracy loss of the pruning, thus yielding a set of \emph{diverse} group convolution filters. Subsequently, we develop two fine-tuning schemes, i.e. (1) both local and global fine-tuning and (2) global only fine-tuning, which experimentally deliver comparable results, to recover the recognition capacity of the pruned network. Comprehensive experiments carried out on the CIFAR-10/100 and ImageNet datasets demonstrate that our self-grouping convolution method adapts to various state-of-the-art CNN architectures, such as ResNet and DenseNet, and delivers superior performance in terms of compression ratio, speedup and recognition accuracy. We demonstrate the ability of SG-CNN to generalise by transfer learning, including domain adaption and object detection, showing competitive results. Our source code is available at https://github.com/QingbeiGuo/SG-CNN.git.
翻訳日:2022-10-13 05:44:33 公開日:2020-09-29
# マルチラベルリモートセンシング画像分類のためのディープラーニング損失関数の比較検討

A Comparative Study of Deep Learning Loss Functions for Multi-Label Remote Sensing Image Classification ( http://arxiv.org/abs/2009.13935v1 )

ライセンス: Link先を確認
Hichame Yessou, Gencer Sumbul, Beg\"um Demir(参考訳) 本稿では,複数ラベルリモートセンシング(rs)画像シーン分類問題の枠組みにおいて,異なる深層学習損失関数を分析し,比較する。 7つの損失関数を考える。 1) クロスエントロピー損失 2) 焦点損失 3) 重み付きクロスエントロピー損失 4) 損失を減少させる。 5) フーバーロス 6) ランキングの損失,及び 7) スパースマックス損失。 全ての損失関数は rs において初めて解析される。 理論的解析の後, 評価された損失関数を比較検討するために, 実験的検討を行った。 1) 総合的正確性 2) クラス不均衡意識(各クラスに関連づけられたサンプルの数が大きく異なる) 3)可逆性と可微分性,及び 4)学習効率(すなわち収束速度)。 本分析に基づいて,多ラベルRSシーン分類問題における損失関数の適切な選択のためのガイドラインを導出した。

This paper analyzes and compares different deep learning loss functions in the framework of multi-label remote sensing (RS) image scene classification problems. We consider seven loss functions: 1) cross-entropy loss; 2) focal loss; 3) weighted cross-entropy loss; 4) Hamming loss; 5) Huber loss; 6) ranking loss; and 7) sparseMax loss. All the considered loss functions are analyzed for the first time in RS. After a theoretical analysis, an experimental analysis is carried out to compare the considered loss functions in terms of their: 1) overall accuracy; 2) class imbalance awareness (for which the number of samples associated to each class significantly varies); 3) convexibility and differentiability; and 4) learning efficiency (i.e., convergence speed). On the basis of our analysis, some guidelines are derived for a proper selection of a loss function in multi-label RS scene classification problems.
翻訳日:2022-10-13 05:43:58 公開日:2020-09-29
# ms-ranas: マルチスケールなリソースアウェアニューラルアーキテクチャ検索

MS-RANAS: Multi-Scale Resource-Aware Neural Architecture Search ( http://arxiv.org/abs/2009.13940v1 )

ライセンス: Link先を確認
Cristian Cioflan, Radu Timofte(参考訳) ニューラルネットワーク(NAS)は、手作りニューラルネットワークよりも優れた代替手段を提供することが証明されている。 本稿では,厳密な計算制約下での画像分類タスクにおけるNASの利点を解析する。 我々の目標は、高速で正確な予測を可能にし、低メモリで低消費電力のシステムオンチップにデプロイ可能な、高効率なディープニューラルネットワークの設計を自動化することです。 このタスクは、精度、計算複雑性、メモリ要求の3つのトレードオフとなる。 そこで我々は,MS-RANAS(Multi-Scale Resource-Aware Neural Architecture Search)を提案する。 我々は,検索コストの削減を図るため,ワンショットのアーキテクチャ探索手法を採用し,任意の予測設定に集中する。 マルチスケール特徴量と早期分類器の活用により,精度-速度トレードオフの観点から最先端の結果を得た。

Neural Architecture Search (NAS) has proved effective in offering outperforming alternatives to handcrafted neural networks. In this paper we analyse the benefits of NAS for image classification tasks under strict computational constraints. Our aim is to automate the design of highly efficient deep neural networks, capable of offering fast and accurate predictions and that could be deployed on a low-memory, low-power system-on-chip. The task thus becomes a three-party trade-off between accuracy, computational complexity, and memory requirements. To address this concern, we propose Multi-Scale Resource-Aware Neural Architecture Search (MS-RANAS). We employ a one-shot architecture search approach in order to obtain a reduced search cost and we focus on an anytime prediction setting. Through the usage of multiple-scaled features and early classifiers, we achieved state-of-the-art results in terms of accuracy-speed trade-off.
翻訳日:2022-10-13 05:43:47 公開日:2020-09-29
# マルチインスタンス学習とグラデーションに基づく説明を用いた全スライドイメージングにおけるコンピュータ支援診断ツールの解釈性の向上

Improving Interpretability for Computer-aided Diagnosis tools on Whole Slide Imaging with Multiple Instance Learning and Gradient-based Explanations ( http://arxiv.org/abs/2009.14001v1 )

ライセンス: Link先を確認
Antoine Pirovano and Hippolyte Heuberger and Sylvain Berlemont and Sa\"id Ladjal and Isabelle Bloch(参考訳) 深層学習法は、医師の日常的な生活を支援する医療用途に広く使われている。 パフォーマンスが専門家のレベルに達する一方で、解釈可能性(トレーニングされたモデルがどのように学び、なぜ特定の決定をしたのか)は、ディープラーニングメソッドが医療分野に完全に統合するために答える必要がある次の重要な課題である。 本稿では,スライド画像全体(WSI)分類の文脈における解釈可能性の問題に対処する。 本稿では,wsi分類アーキテクチャの設計を定式化し,グラデーションベース手法,特徴可視化,複数インスタンス学習コンテキストに依拠して,区分的解釈可能性アプローチを提案する。 本研究の目的は,タイルレベルスコアに基づいて決定を下す方法,タイルレベルスコアを決定する方法,タスクにどの機能を使用し,関連するかを説明することである。 2つのWSI分類アーキテクチャをCamelyon-16 WSIデータセットでトレーニングし、学習した識別的特徴を強調し、病理学者によるアプローチを検証するとともに、抽出した特徴に基づいて、新しい計算の解釈可能性スライドレベルの熱マップを提案し、AUCのタイルレベルの分類性能を29%以上改善する。

Deep learning methods are widely used for medical applications to assist medical doctors in their daily routines. While performances reach expert's level, interpretability (highlight how and what a trained model learned and why it makes a specific decision) is the next important challenge that deep learning methods need to answer to be fully integrated in the medical field. In this paper, we address the question of interpretability in the context of whole slide images (WSI) classification. We formalize the design of WSI classification architectures and propose a piece-wise interpretability approach, relying on gradient-based methods, feature visualization and multiple instance learning context. We aim at explaining how the decision is made based on tile level scoring, how these tile scores are decided and which features are used and relevant for the task. After training two WSI classification architectures on Camelyon-16 WSI dataset, highlighting discriminative features learned, and validating our approach with pathologists, we propose a novel manner of computing interpretability slide-level heat-maps, based on the extracted features, that improves tile-level classification performances by more than 29% for AUC.
翻訳日:2022-10-13 05:43:35 公開日:2020-09-29
# icd-9コード割り当てのためのディープラーニングシステムに対する敵意攻撃

Adversarial Attacks Against Deep Learning Systems for ICD-9 Code Assignment ( http://arxiv.org/abs/2009.13720v1 )

ライセンス: Link先を確認
Sharan Raja, Rudraksh Tuwani(参考訳) ICD-9符号のマニュアルアノテーションは時間がかかり、エラーが発生しやすい。 ディープラーニングベースのシステムは、icd-9コーディングの自動化の問題に取り組んでいる。 電子カルテの普及に伴い、このような自動化システムは最終的には人間のコーダーを置き換えることが期待されている。 本研究では,簡単なtypoベースの攻撃戦略が最先端モデルの性能にどのように影響を与えるかを検証し,総括から最も頻度の高いicd-9コードのトップ50を予測する。 予備的な結果は、勾配情報を用いて悪意のある敵が、通常の人間のタイプミスとして現れる特定の摂動を、退去要約の単語の3%未満で作ることができ、ベースラインモデルの性能に大きな影響を与えることを示している。

Manual annotation of ICD-9 codes is a time consuming and error-prone process. Deep learning based systems tackling the problem of automated ICD-9 coding have achieved competitive performance. Given the increased proliferation of electronic medical records, such automated systems are expected to eventually replace human coders. In this work, we investigate how a simple typo-based adversarial attack strategy can impact the performance of state-of-the-art models for the task of predicting the top 50 most frequent ICD-9 codes from discharge summaries. Preliminary results indicate that a malicious adversary, using gradient information, can craft specific perturbations, that appear as regular human typos, for less than 3% of words in the discharge summary to significantly affect the performance of the baseline model.
翻訳日:2022-10-13 05:42:53 公開日:2020-09-29
# W-NUT 2020 Shared Task-3:Joint Event Multi-task Learning for Slot Filling in Noisy Text

TEST_POSITIVE at W-NUT 2020 Shared Task-3: Joint Event Multi-task Learning for Slot Filling in Noisy Text ( http://arxiv.org/abs/2009.14262v1 )

ライセンス: Link先を確認
Chacha Chen, Chieh-Yang Huang, Yaqi Hou, Yang Shi, Enyan Dai, Jiaqi Wang(参考訳) twitterからcovid-19イベントを抽出する競争は、ツイートから関連するイベントを自動的に抽出するシステムを開発することだ。 構築されたシステムは、重要な質問に答えるために、各イベントの異なる事前定義されたスロットを特定する必要がある(例えば、誰が陽性か?その人の年齢は?彼はどこにいるか?)。 これらの課題に対処するために,統合イベントマルチタスク学習(JOELIN)モデルを提案する。 統一されたグローバルラーニングフレームワークを通じて、さまざまなイベントにわたるトレーニングデータを使用して、言語モデルを学習し、微調整する。 さらに,名前付きエンティティ認識(NER)を用いた型認識後処理手法を実装し,予測をさらにフィルタリングする。 JOELINはマイクロF1でBERTベースラインを17.2%上回る。

The competition of extracting COVID-19 events from Twitter is to develop systems that can automatically extract related events from tweets. The built system should identify different pre-defined slots for each event, in order to answer important questions (e.g., Who is tested positive? What is the age of the person? Where is he/she?). To tackle these challenges, we propose the Joint Event Multi-task Learning (JOELIN) model. Through a unified global learning framework, we make use of all the training data across different events to learn and fine-tune the language model. Moreover, we implement a type-aware post-processing procedure using named entity recognition (NER) to further filter the predictions. JOELIN outperforms the BERT baseline by 17.2% in micro F1.
翻訳日:2022-10-13 05:42:41 公開日:2020-09-29
# 限られた予算と最大摂動サンプル数による逆分類

Inverse Classification with Limited Budget and Maximum Number of Perturbed Samples ( http://arxiv.org/abs/2009.14111v1 )

ライセンス: Link先を確認
Jaehoon Koo, Diego Klabjan, Jean Utke(参考訳) 最近の機械学習研究は、分類精度を向上させるために新しい分類器の開発に焦点を当てている。 多くの最先端の分類器が利用可能であり、糖尿病患者に最適な食事勧告を見つけるなど、実践的な目的によって必要とされる分類器の解釈可能性を理解する必要性が高まっている。 逆分類(inverse classification)は、初期予測クラスを変更するサンプルの入力特徴の変化を見つけるためのモデリングプロセスである。 多くのビジネスアプリケーションにおいて、分類器が所望のクラスにあると予測するようにサンプル入力データを調整する方法を決定するのに役立つ。 実世界のアプリケーションでは、顧客や患者に対応するサンプルの摂動に関する予算が考慮され、この環境では、十分な摂動サンプルの数が利益を高めるための鍵となる。 本研究では, 予算単位当たりの摂動サンプル数と, 摂動サンプルの好ましい分類クラスを最大化する, 逆分類を解くための新しい枠組みを提案する。 我々は,勾配法,確率過程,ラグランジュ緩和,ガムベルトリックに基づく最適化問題を解くアルゴリズムを設計した。 実験では,確率過程に基づくアルゴリズムは,異なる予算設定で優れた性能を示し,スケールが良好であることがわかった。

Most recent machine learning research focuses on developing new classifiers for the sake of improving classification accuracy. With many well-performing state-of-the-art classifiers available, there is a growing need for understanding interpretability of a classifier necessitated by practical purposes such as to find the best diet recommendation for a diabetes patient. Inverse classification is a post modeling process to find changes in input features of samples to alter the initially predicted class. It is useful in many business applications to determine how to adjust a sample input data such that the classifier predicts it to be in a desired class. In real world applications, a budget on perturbations of samples corresponding to customers or patients is usually considered, and in this setting, the number of successfully perturbed samples is key to increase benefits. In this study, we propose a new framework to solve inverse classification that maximizes the number of perturbed samples subject to a per-feature-budget limits and favorable classification classes of the perturbed samples. We design algorithms to solve this optimization problem based on gradient methods, stochastic processes, Lagrangian relaxations, and the Gumbel trick. In experiments, we find that our algorithms based on stochastic processes exhibit an excellent performance in different budget settings and they scale well.
翻訳日:2022-10-13 05:36:29 公開日:2020-09-29
# 脳波とfMRI合成:Deep Learningは候補か?

EEG to fMRI Synthesis: Is Deep Learning a candidate? ( http://arxiv.org/abs/2009.14133v1 )

ライセンス: Link先を確認
David Calhas, Rui Henriques(参考訳) 信号、画像、ビデオ生成の進歩は、脳画像合成を含む生成医療画像タスクに大きなブレークスルーをもたらしている。 それでも、機能的磁気共鳴イメージング(fMRI)が脳の電気生理学からどのようにマッピングされるかは、明らかにされていない。 この研究は、脳波(EEG)データからfMRIデータを合成するために、ニューラルプロセッシングから最先端の原理を使用する方法に関する最初の包括的な見解を提供する。 ヘモダイナミック信号と電気生理学的信号の時空間的特異性を考えると、この問題は非常に異なる構造を持つ多変量時系列間の写像関数を学習するタスクとして定式化される。 自動エンコーダ,生成型adversarial network,ペアワイズ学習を含む最先端合成手法の比較を行った。 結果は、fMRI脳画像マッピングに対する脳波の可能性を強調し、機械学習における現在の進歩の役割を指摘し、パフォーマンスをさらに向上するための今後の貢献の関連性を示す。 EEG to fMRI合成は、脳画像データを強化し、強化する手段を提供し、より安価でポータブルで長期間続く脳活動監視プロトコルへのアクセスを保証する。 この原稿で使用されるコードはGithubで入手でき、データセットはオープンソースである。

Advances on signal, image and video generation underly major breakthroughs on generative medical imaging tasks, including Brain Image Synthesis. Still, the extent to which functional Magnetic Ressonance Imaging (fMRI) can be mapped from the brain electrophysiology remains largely unexplored. This work provides the first comprehensive view on how to use state-of-the-art principles from Neural Processing to synthesize fMRI data from electroencephalographic (EEG) data. Given the distinct spatiotemporal nature of haemodynamic and electrophysiological signals, this problem is formulated as the task of learning a mapping function between multivariate time series with highly dissimilar structures. A comparison of state-of-the-art synthesis approaches, including Autoencoders, Generative Adversarial Networks and Pairwise Learning, is undertaken. Results highlight the feasibility of EEG to fMRI brain image mappings, pinpointing the role of current advances in Machine Learning and showing the relevance of upcoming contributions to further improve performance. EEG to fMRI synthesis offers a way to enhance and augment brain image data, and guarantee access to more affordable, portable and long-lasting protocols of brain activity monitoring. The code used in this manuscript is available in Github and the datasets are open source.
翻訳日:2022-10-13 05:36:07 公開日:2020-09-29
# 残木の選択的なカスケード

Selective Cascade of Residual ExtraTrees ( http://arxiv.org/abs/2009.14138v1 )

ライセンス: Link先を確認
Qimin Liu and Fang Liu(参考訳) 木をベースとした新しいアンサンブル手法であるSelective Cascade of Residual ExtraTrees (SCORE)を提案する。 SCOREは表現学習からインスピレーションを受け、可変選択特徴を持つ正規化回帰を取り入れ、予測の改善と一般化誤差の低減にブーストを利用する。 また,スコアの説明可能性を高めるための可変重要度尺度を開発した。 コンピュータ実験により、SCOREは、ExtraTrees、ランダムフォレスト、グラデーションブースティングマシン、ニューラルネットワークに対する予測において同等または優れた性能を示し、提案したSCOREの変数重要度は、研究されたベンチマーク手法に匹敵することを示した。 最後に、SCOREの予測性能はハイパーパラメータ値にわたって安定であり、ハイパーパラメータ仕様に対する潜在的堅牢性を示している。

We propose a novel tree-based ensemble method named Selective Cascade of Residual ExtraTrees (SCORE). SCORE draws inspiration from representation learning, incorporates regularized regression with variable selection features, and utilizes boosting to improve prediction and reduce generalization errors. We also develop a variable importance measure to increase the explainability of SCORE. Our computer experiments show that SCORE provides comparable or superior performance in prediction against ExtraTrees, random forest, gradient boosting machine, and neural networks; and the proposed variable importance measure for SCORE is comparable to studied benchmark methods. Finally, the predictive performance of SCORE remains stable across hyper-parameter values, suggesting potential robustness to hyperparameter specification.
翻訳日:2022-10-13 05:35:45 公開日:2020-09-29
# 非平衡ソボレフ降下

Unbalanced Sobolev Descent ( http://arxiv.org/abs/2009.14148v1 )

ライセンス: Link先を確認
Youssef Mroueh, Mattia Rigotti(参考訳) 非平衡ソボレフ降下法(unbalanced sobolev descent, usd)は、高次元の源分布を必ずしも同じ質量ではない対象分布に輸送する粒子降下アルゴリズムである。 分布間のソボレフ・フィッシャーの不一致を定義し、分布間の移流-反応輸送方程式とワッサーシュタイン-フィッシャー-ラオ計量との関係を示す。 USDは、ソボレフ・フィッシャーの差分(対流ステップ)の目撃関数の勾配に沿って粒子を輸送し、この目撃関数(反動ステップ)に関して粒子の質量を再考する。 反応過程は、証人関数に比例した成長速度の粒子の生死過程と考えることができる。 再現ケルネルヒルベルト空間(RKHS)においてソボレフ・フィッシャー目撃関数が推定されると、USDは(無限粒子の極限において)漸近的に最大平均離散性(MMD)の意味で目標分布に収束することを示す。 次に、ニューラルネットワークを用いてソボレフ・フィッシュの目撃者を推定する方法を2つ与え、その結果2つのニューラルusdアルゴリズムを得る。 1つ目はミラー降下による反応のステップを重みに実装し、2つ目は粒子の生死過程を通じて実装する。 本研究は, 単細胞RNAシークエンシングプロファイルに基づく分化細胞の個体群の発達段階と自然に一致させるのに適した分子生物学的解析法として, USDトランスポートが従来の粒子降下アルゴリズムよりも高速に質量を輸送することを示す合成例を示す。 コードはhttps://github.com/ibm/usdで入手できる。

We introduce Unbalanced Sobolev Descent (USD), a particle descent algorithm for transporting a high dimensional source distribution to a target distribution that does not necessarily have the same mass. We define the Sobolev-Fisher discrepancy between distributions and show that it relates to advection-reaction transport equations and the Wasserstein-Fisher-Rao metric between distributions. USD transports particles along gradient flows of the witness function of the Sobolev-Fisher discrepancy (advection step) and reweighs the mass of particles with respect to this witness function (reaction step). The reaction step can be thought of as a birth-death process of the particles with rate of growth proportional to the witness function. When the Sobolev-Fisher witness function is estimated in a Reproducing Kernel Hilbert Space (RKHS), under mild assumptions we show that USD converges asymptotically (in the limit of infinite particles) to the target distribution in the Maximum Mean Discrepancy (MMD) sense. We then give two methods to estimate the Sobolev-Fisher witness with neural networks, resulting in two Neural USD algorithms. The first one implements the reaction step with mirror descent on the weights, while the second implements it through a birth-death process of particles. We show on synthetic examples that USD transports distributions with or without conservation of mass faster than previous particle descent algorithms, and finally demonstrate its use for molecular biology analyses where our method is naturally suited to match developmental stages of populations of differentiating cells based on their single-cell RNA sequencing profile. Code is available at https://github.com/ibm/usd .
翻訳日:2022-10-13 05:35:32 公開日:2020-09-29
# 点雲上の自己教師付き少数ショット学習

Self-Supervised Few-Shot Learning on Point Clouds ( http://arxiv.org/abs/2009.14168v1 )

ライセンス: Link先を確認
Charu Sharma, Manohar Kaul(参考訳) ロボティクス、形状合成、自動運転車といった幅広い応用分野において、巨大なポイントクラウドが利用可能になり、その有用性が高まり、産業と学界の両方から注目を集めている。 近年,ラベル付きポイントクラウド上で動作するディープニューラルネットワークが,分類やセグメンテーションといった教師あり学習タスクにおいて有望な結果を示している。 しかし、教師付き学習は、ポイントクラウドに注釈をつけるという面倒な作業に繋がる。 この問題に対処するため,我々は,被覆木を用いて点雲の階層的分割を符号化する2つの新しい自己教師付き事前学習タスクを提案する。 さらに、我々の自己教師型学習ネットワークは、数ショット学習(FSL)設定で下流ネットワークをトレーニングするために使用されるサポートセット(不足トレーニング例を含む)の事前訓練に制限される。 最後に、完全に訓練された自己教師ネットワークのポイント埋め込みを下流タスクのネットワークに入力する。 本研究は, 下流分類とセグメンテーション課題の両方において, 総合的な評価を行い, 自己教師あり学習法で事前学習した教師あり手法が, 最先端手法の精度を大幅に向上させることを示す。 さらに,提案手法は,下流分類タスクにおいて従来の教師なし手法よりも優れている。

The increased availability of massive point clouds coupled with their utility in a wide variety of applications such as robotics, shape synthesis, and self-driving cars has attracted increased attention from both industry and academia. Recently, deep neural networks operating on labeled point clouds have shown promising results on supervised learning tasks like classification and segmentation. However, supervised learning leads to the cumbersome task of annotating the point clouds. To combat this problem, we propose two novel self-supervised pre-training tasks that encode a hierarchical partitioning of the point clouds using a cover-tree, where point cloud subsets lie within balls of varying radii at each level of the cover-tree. Furthermore, our self-supervised learning network is restricted to pre-train on the support set (comprising of scarce training examples) used to train the downstream network in a few-shot learning (FSL) setting. Finally, the fully-trained self-supervised network's point embeddings are input to the downstream task's network. We present a comprehensive empirical evaluation of our method on both downstream classification and segmentation tasks and show that supervised methods pre-trained with our self-supervised learning method significantly improve the accuracy of state-of-the-art methods. Additionally, our method also outperforms previous unsupervised methods in downstream classification tasks.
翻訳日:2022-10-13 05:34:59 公開日:2020-09-29
# 擬似ラベルを用いたマルチソースドメイン適応

Ensemble Multi-Source Domain Adaptation with Pseudolabels ( http://arxiv.org/abs/2009.14248v1 )

ライセンス: Link先を確認
Seongmin Lee, Hyunsik Jeon and U Kang(参考訳) ラベル付きソースデータセットが複数ある場合、ラベル付きデータなしでターゲットモデルをトレーニングするにはどうすればよいのか? マルチソースドメイン適応(MSDA)は、ターゲットデータラベルがない場合に、ターゲットデータセットとは異なる複数のソースデータセットを使用してモデルをトレーニングすることを目的としている。 MSDAは、プライバシの問題によりターゲットデータのラベルが利用できない多くの実践事例に適用できる重要な問題である。 既存のMSDAフレームワークは、各ドメインの条件分布 p(x|y) を考慮せずにデータを整列するので制限されている。 また、ターゲットラベルを全く考慮せず、1つの特徴抽出器のみに依存しているため、多くのターゲットラベル情報を見逃している。 本稿では,マルチソースドメイン適応のための新しい手法であるpseudolabels(enmdap)を用いたマルチソースドメイン適応手法を提案する。 EnMDAPは、条件分布p(x|y)を整列するためにラベルワイズ・モーメント・マッチングを利用し、不利用可能なターゲットラベルの擬似ラベルを用いて、複数の特徴抽出器を用いて正確なドメイン適応を行う。 大規模な実験により,EnMDAPは画像領域とテキスト領域の両方において,マルチソース領域適応タスクに最先端のパフォーマンスを提供することがわかった。

Given multiple source datasets with labels, how can we train a target model with no labeled data? Multi-source domain adaptation (MSDA) aims to train a model using multiple source datasets different from a target dataset in the absence of target data labels. MSDA is a crucial problem applicable to many practical cases where labels for the target data are unavailable due to privacy issues. Existing MSDA frameworks are limited since they align data without considering conditional distributions p(x|y) of each domain. They also miss a lot of target label information by not considering the target label at all and relying on only one feature extractor. In this paper, we propose Ensemble Multi-source Domain Adaptation with Pseudolabels (EnMDAP), a novel method for multi-source domain adaptation. EnMDAP exploits label-wise moment matching to align conditional distributions p(x|y), using pseudolabels for the unavailable target labels, and introduces ensemble learning theme by using multiple feature extractors for accurate domain adaptation. Extensive experiments show that EnMDAP provides the state-of-the-art performance for multi-source domain adaptation tasks in both of image domains and text domains.
翻訳日:2022-10-13 05:34:37 公開日:2020-09-29
# 訳語 説明しない;説明しない

Attention that does not Explain Away ( http://arxiv.org/abs/2009.14308v1 )

ライセンス: Link先を確認
Nan Ding, Xinjie Fan, Zhenzhong Lan, Dale Schuurmans, Radu Soricut(参考訳) Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。 Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。 ガウス混合モデルによる注意の確率論的見解に従うと、トランスフォーマーの注意が特定の入力ニューロンを「引き離す」傾向があるという実証的な証拠が見つかる。 これを補うために、我々は実装が簡単で、計算コストやメモリコストを伴わずに「説明不能」効果を避けるための理論的保証を提供する二重正規化注意方式を提案する。 実験により,新しいアテンション方式により,いくつかのよく知られたベンチマークの性能が向上したことを示す。

Models based on the Transformer architecture have achieved better accuracy than the ones based on competing architectures for a large set of tasks. A unique feature of the Transformer is its universal application of a self-attention mechanism, which allows for free information flow at arbitrary distances. Following a probabilistic view of the attention via the Gaussian mixture model, we find empirical evidence that the Transformer attention tends to "explain away" certain input neurons. To compensate for this, we propose a doubly-normalized attention scheme that is simple to implement and provides theoretical guarantees for avoiding the "explaining away" effect without introducing significant computational or memory cost. Empirically, we show that the new attention schemes result in improved performance on several well-known benchmarks.
翻訳日:2022-10-13 05:33:45 公開日:2020-09-29
# 右検閲観測によるニューラルモデルに基づく最適化

Neural Model-based Optimization with Right-Censored Observations ( http://arxiv.org/abs/2009.13828v1 )

ライセンス: Link先を確認
Katharina Eggensperger, Kai Haase, Philipp M\"uller, Marius Lindauer and Frank Hutter(参考訳) 多くの研究分野において、いくつかの実験の真の応答値の下位境界のみを観察する。 回帰モデルを適用して結果の分布を予測する場合、単にこれらの右検閲された観察を落とすことはできないが、適切にモデル化する必要がある。 本研究では,評価の早期終了(つまり右検閲データの生成)が効率の鍵となるモデルベース最適化の観点から,例えば手元のアルゴリズムの実行時間を最小限にするアルゴリズム構成の探索において,検閲データの概念に焦点を当てる。 ニューラルネットワーク(NN)はモデルベースの最適化手順のコアとしてうまく機能することが実証されている。 提案します (i)~検閲されたサンプルをトレーニングに組み込むTobitモデルに基づく損失関数 (ii)後方分布をモデル化するためにネットワークのアンサンブルを用いる。 それにもかかわらず、最適化・オーバヘッドの面で効率的であるために、トンプソンサンプリングs.tを使用するように提案する。 提案手法は,SATソルバの解解時間とニューラルネットワークの時間-精度の最小化という2つの最適化問題に対して,モデルベース最適化のための新しい最先端性能を実現するものである。

In many fields of study, we only observe lower bounds on the true response value of some experiments. When fitting a regression model to predict the distribution of the outcomes, we cannot simply drop these right-censored observations, but need to properly model them. In this work, we focus on the concept of censored data in the light of model-based optimization where prematurely terminating evaluations (and thus generating right-censored data) is a key factor for efficiency, e.g., when searching for an algorithm configuration that minimizes runtime of the algorithm at hand. Neural networks (NNs) have been demonstrated to work well at the core of model-based optimization procedures and here we extend them to handle these censored observations. We propose (i)~a loss function based on the Tobit model to incorporate censored samples into training and (ii) use an ensemble of networks to model the posterior distribution. To nevertheless be efficient in terms of optimization-overhead, we propose to use Thompson sampling s.t. we only need to train a single NN in each iteration. Our experiments show that our trained regression models achieve a better predictive quality than several baselines and that our approach achieves new state-of-the-art performance for model-based optimization on two optimization problems: minimizing the solution time of a SAT solver and the time-to-accuracy of neural networks.
翻訳日:2022-10-13 05:27:29 公開日:2020-09-29
# 人間の限界による人間の知能の理解

Understanding Human Intelligence through Human Limitations ( http://arxiv.org/abs/2009.14050v1 )

ライセンス: Link先を確認
Thomas L. Griffiths(参考訳) 人工知能の最近の進歩は、人間の知性について何がユニークなのかという疑問を、新しい比較クラスで問う機会を提供する。 人間の心が解決しなければならない計算問題の特徴を考慮すれば、人間の知性や、それが人工知能と異なるかもしれない方法を理解することができると論じる。 これらの問題は、時間制限、計算の制限、コミュニケーションの制限という、人間に適用される3つの基本的な制限から、それらの構造を取得する。 これらの制限から、素早い学習、問題の一部を分割する能力、累積的な文化的進化の能力など、人間の知性に関連する多くの特性を導き出すことができる。

Recent progress in artificial intelligence provides the opportunity to ask the question of what is unique about human intelligence, but with a new comparison class. I argue that we can understand human intelligence, and the ways in which it may differ from artificial intelligence, by considering the characteristics of the kind of computational problems that human minds have to solve. I claim that these problems acquire their structure from three fundamental limitations that apply to human beings: limited time, limited computation, and limited communication. From these limitations we can derive many of the properties we associate with human intelligence, such as rapid learning, the ability to break down problems into parts, and the capacity for cumulative cultural evolution.
翻訳日:2022-10-13 05:27:07 公開日:2020-09-29
# 正規化理論におけるスペクトルグラフ畳み込みニューラルネットワークのフィルタ設計のための枠組み

Framework for Designing Filters of Spectral Graph Convolutional Neural Networks in the Context of Regularization Theory ( http://arxiv.org/abs/2009.13801v1 )

ライセンス: Link先を確認
Asif Salim and Sumitra S(参考訳) グラフ畳み込みニューラルネットワーク(GCNN)はグラフ学習に広く利用されている。 グラフ上の滑らかさはグラフラプラシアンによって定義されることが観察されている。 この事実は、グラフ上の正規化作用素を導出するラプラシアンの使用の方向と、スペクトルgcnnフィルタの設計との類似性を示している。 本研究では,グラフラプラシアンの正則化特性を調べ,スペクトルgcnnにおける正則化フィルタ設計のための一般化フレームワークを提案する。 多くの最先端GCNNで使われているフィルタは、私たちが開発したフレームワークの特別なケースとして導出できることがわかった。 我々は,正規化動作をよく定義した新しいフィルタを設計し,その性能を半教師ありノード分類タスクでテストした。 彼らのパフォーマンスは他の最先端技術よりも優れていることが判明した。

Graph convolutional neural networks (GCNNs) have been widely used in graph learning. It has been observed that the smoothness functional on graphs can be defined in terms of the graph Laplacian. This fact points out in the direction of using Laplacian in deriving regularization operators on graphs and its consequent use with spectral GCNN filter designs. In this work, we explore the regularization properties of graph Laplacian and proposed a generalized framework for regularized filter designs in spectral GCNNs. We found that the filters used in many state-of-the-art GCNNs can be derived as a special case of the framework we developed. We designed new filters that are associated with well-defined regularization behavior and tested their performance on semi-supervised node classification tasks. Their performance was found to be superior to that of the other state-of-the-art techniques.
翻訳日:2022-10-13 05:26:56 公開日:2020-09-29
# 近似保証を用いた決定境界の効率的なSVDDサンプリング

Efficient SVDD Sampling with Approximation Guarantees for the Decision Boundary ( http://arxiv.org/abs/2009.13853v1 )

ライセンス: Link先を確認
Adrian Englhardt, Holger Trittenbach, Daniel Kottke, Bernhard Sick, and Klemens B\"ohm(参考訳) Support Vector Data Description (SVDD) は、異常と新規性検出のための一般的な一級分類器である。 しかし、その有効性にもかかわらず、SVDDはデータサイズに匹敵しない。 制限的なトレーニング時間を回避するため、サンプリング方法は、svddが決定境界を訓練するトレーニングデータの小さなサブセットを選択できる。 文献によれば、良いサンプルは、SVDDが完全なデータセットの支持ベクトルとして選ぶような境界観測を含むべきである。 しかし、非境界観測は、連続した不整領域を分解し、分類精度の低下を避けるためにも不可欠である。 十分に代表的なサンプルを選択するといった他の側面も重要である。 しかし、既存のサンプリング手法はほとんど見落としており、分類精度は低い。 本稿では,これらの点を考慮したサンプル選択法について検討する。 我々のアプローチは,SVDDサンプリングを最適化問題として,サンプリングが元の決定境界を実際に近似していることを保証する。 次に、この最適化問題を解決する効率的なアルゴリズムRAPIDを提案する。 RAPIDはパラメータのチューニングを一切必要とせず、実装が容易で、大規模なデータセットによく対応している。 実世界および合成データに対する我々のアプローチを評価する。 我々の評価はSVDDサンプリングにおける最も包括的な評価である。 その結果, RAPIDは, 分類精度, サンプルサイズ, 実行時において, 競合他社よりも優れていた。

Support Vector Data Description (SVDD) is a popular one-class classifiers for anomaly and novelty detection. But despite its effectiveness, SVDD does not scale well with data size. To avoid prohibitive training times, sampling methods select small subsets of the training data on which SVDD trains a decision boundary hopefully equivalent to the one obtained on the full data set. According to the literature, a good sample should therefore contain so-called boundary observations that SVDD would select as support vectors on the full data set. However, non-boundary observations also are essential to not fragment contiguous inlier regions and avoid poor classification accuracy. Other aspects, such as selecting a sufficiently representative sample, are important as well. But existing sampling methods largely overlook them, resulting in poor classification accuracy. In this article, we study how to select a sample considering these points. Our approach is to frame SVDD sampling as an optimization problem, where constraints guarantee that sampling indeed approximates the original decision boundary. We then propose RAPID, an efficient algorithm to solve this optimization problem. RAPID does not require any tuning of parameters, is easy to implement and scales well to large data sets. We evaluate our approach on real-world and synthetic data. Our evaluation is the most comprehensive one for SVDD sampling so far. Our results show that RAPID outperforms its competitors in classification accuracy, in sample size, and in runtime.
翻訳日:2022-10-13 05:26:24 公開日:2020-09-29
# 任意の領域を持つ確率重み付きARXモデルの同定

Identification of Probability weighted ARX models with arbitrary domains ( http://arxiv.org/abs/2009.13975v1 )

ライセンス: Link先を確認
Alessandro Brusaferri and Matteo Matteucci and Stefano Spinelli(参考訳) ハイブリッドシステム同定は、データからサイバー物理システムの信頼できるモデルを達成するための重要なツールである。 PieceWise Affineモデルは、ハイブリッドシステムの他のクラスに対する普遍近似、局所線型性、同値を保証する。 それでも、PWA識別は難しい問題であり、回帰タスクと分類タスクの同時解を必要とする。 本稿では,任意の領域 (npwarx) を持つ外因性入力モデルを用いた部分的自己回帰性の同定に着目し,多面体領域に限定されず,不連続写像を特徴とする。 そこで本研究では, 離散状態が入力レグレッサによって条件づけられた多項分布を介して表現される確率的混合モデルに基づく手法を提案する。 このアーキテクチャは、機械学習の分野で開発されたエキスパート概念の混合に従って考えられている。 非線形分割を実現するために,ニューラルネットワークを用いて判別関数をパラメトリライズする。 次に,ARXサブモデルと分類器の両方のパラメータを,予測最大化を用いた全体モデルの可能性の最大化により同時推定する。 提案手法は不連続写像を持つ非線形部分問題に対して有効である。

Hybrid system identification is a key tool to achieve reliable models of Cyber-Physical Systems from data. PieceWise Affine models guarantees universal approximation, local linearity and equivalence to other classes of hybrid system. Still, PWA identification is a challenging problem, requiring the concurrent solution of regression and classification tasks. In this work, we focus on the identification of PieceWise Auto Regressive with eXogenous input models with arbitrary regions (NPWARX), thus not restricted to polyhedral domains, and characterized by discontinuous maps. To this end, we propose a method based on a probabilistic mixture model, where the discrete state is represented through a multinomial distribution conditioned by the input regressors. The architecture is conceived following the Mixture of Expert concept, developed within the machine learning field. To achieve nonlinear partitioning, we parametrize the discriminant function using a neural network. Then, the parameters of both the ARX submodels and the classifier are concurrently estimated by maximizing the likelihood of the overall model using Expectation Maximization. The proposed method is demonstrated on a nonlinear piece-wise problem with discontinuous maps.
翻訳日:2022-10-13 05:25:43 公開日:2020-09-29
# もしニューラルネットワークにsvdがあったら?

What if Neural Networks had SVDs? ( http://arxiv.org/abs/2009.13977v1 )

ライセンス: Link先を確認
Alexander Mathiasen, Frederik Hvilsh{\o}j, Jakob R{\o}dsgaard J{\o}rgensen, Anshul Nasery, Davide Mottin(参考訳) 様々なニューラルネットワークは行列反転のような時間消費行列演算を用いる。 このような行列演算の多くは、Singular Value Decomposition (SVD) によって高速に計算できる。 従来の研究では、ニューラルネットワークでsvdを計算せずに使用できる。 理論的には、この手法は行列演算を高速化することができるが、実際には十分高速ではない。 本稿では,行列演算を高速化するアルゴリズムを提案する。 このアルゴリズムは、基礎となる行列乗法 $H\cdot X$ の並列性の度合いを増大させ、$H$ はハウスマトリクスの積で表される直交行列である。 コードはwww.github.com/AlexanderMath/fasthで入手できる。

Various Neural Networks employ time-consuming matrix operations like matrix inversion. Many such matrix operations are faster to compute given the Singular Value Decomposition (SVD). Previous work allows using the SVD in Neural Networks without computing it. In theory, the techniques can speed up matrix operations, however, in practice, they are not fast enough. We present an algorithm that is fast enough to speed up several matrix operations. The algorithm increases the degree of parallelism of an underlying matrix multiplication $H\cdot X$ where $H$ is an orthogonal matrix represented by a product of Householder matrices. Code is available at www.github.com/AlexanderMath/fasth .
翻訳日:2022-10-13 05:25:26 公開日:2020-09-29
# 切り換えマルコフ多項式ARXモデルの推定

Estimation of Switched Markov Polynomial NARX models ( http://arxiv.org/abs/2009.14073v1 )

ライセンス: Link先を確認
Alessandro Brusaferri and Matteo Matteucci and Stefano Spinelli(参考訳) この研究は、有限次元多項式展開を持つ非線形自己回帰外因性(NARX)成分とマルコフスイッチング機構によって特徴づけられるハイブリッド力学系のモデルのクラスを同定することを目的としている。 モデルパラメータの推定は、サブモデル係数、隠れ状態値、遷移確率を含む予測最大化によって確率的枠組みの下で行われる。 離散モードの分類とNARX回帰タスクはイテレーション内で切り離される。 ソフトラベルは、状態後部を平均化して軌道上の潜伏状態に割り当てられ、前回の最大化フェーズから得られるパラメトリゼーションを用いて更新される。 次に、NARXsパラメータは、座標ワイド最小化を伴う循環座標降下法により重み付き回帰サブプロブレムを解くことで繰り返し適合する。 さらに,l1-normブリッジ推定とハードスレッディングに基づく2段階選択方式について検討し,多項式展開の選択により同相モデルを実現する。 提案手法は, 特定の回帰器を持つ3つの非線形サブモデルからなるSMNARX問題に対して実証される。

This work targets the identification of a class of models for hybrid dynamical systems characterized by nonlinear autoregressive exogenous (NARX) components, with finite-dimensional polynomial expansions, and by a Markovian switching mechanism. The estimation of the model parameters is performed under a probabilistic framework via Expectation Maximization, including submodel coefficients, hidden state values and transition probabilities. Discrete mode classification and NARX regression tasks are disentangled within the iterations. Soft-labels are assigned to latent states on the trajectories by averaging over the state posteriors and updated using the parametrization obtained from the previous maximization phase. Then, NARXs parameters are repeatedly fitted by solving weighted regression subproblems through a cyclical coordinate descent approach with coordinate-wise minimization. Moreover, we investigate a two stage selection scheme, based on a l1-norm bridge estimation followed by hard-thresholding, to achieve parsimonious models through selection of the polynomial expansion. The proposed approach is demonstrated on a SMNARX problem composed by three nonlinear sub-models with specific regressors.
翻訳日:2022-10-13 05:25:01 公開日:2020-09-29
# synsetexpan:ジョイントエンティティ集合の拡張と同義語発見のための反復的フレームワーク

SynSetExpan: An Iterative Framework for Joint Entity Set Expansion and Synonym Discovery ( http://arxiv.org/abs/2009.13827v1 )

ライセンス: Link先を確認
Jiaming Shen and Wenda Qiu and Jingbo Shang and Michelle Vanni and Xiang Ren and Jiawei Han(参考訳) エンティティセット拡張と同義語発見は2つの重要なNLPタスクである。 以前の研究は、相互依存を探求することなく、それらを個別に達成している。 本研究では、2つの同義体が様々な意味クラスに属する可能性を持つ傾向があるため、これらの2つのタスクは密結合していると仮定する。 これは2つのタスクを相互に拡張できる新しいフレームワークであるSynSetExpanを設計する動機となります。 SynSetExpanは、一般的なエンティティの頻度の低い同義語をセットに含めるために、同義語発見モデルを使用している。 一方、エンティティがセマンティッククラスに属しているかどうかを判断できる設定拡張モデルは、擬似トレーニングデータを生成し、同義語発見モデルを精度良く微調整することができる。 これら2つのタスクの相互作用の研究を容易にするために,クラウドソーシングによる最初の大規模Synonym-Enhanced Set Expansion(SE2)データセットを作成する。 se2データセットと以前のベンチマークに関する広範な実験は、エンティティセットの拡張とシノニム発見タスクの両方におけるsynsetexpanの有効性を示している。

Entity set expansion and synonym discovery are two critical NLP tasks. Previous studies accomplish them separately, without exploring their interdependencies. In this work, we hypothesize that these two tasks are tightly coupled because two synonymous entities tend to have similar likelihoods of belonging to various semantic classes. This motivates us to design SynSetExpan, a novel framework that enables two tasks to mutually enhance each other. SynSetExpan uses a synonym discovery model to include popular entities' infrequent synonyms into the set, which boosts the set expansion recall. Meanwhile, the set expansion model, being able to determine whether an entity belongs to a semantic class, can generate pseudo training data to fine-tune the synonym discovery model towards better accuracy. To facilitate the research on studying the interplays of these two tasks, we create the first large-scale Synonym-Enhanced Set Expansion (SE2) dataset via crowdsourcing. Extensive experiments on the SE2 dataset and previous benchmarks demonstrate the effectiveness of SynSetExpan for both entity set expansion and synonym discovery tasks.
翻訳日:2022-10-13 05:18:19 公開日:2020-09-29
# 画像キャプションモデルのためのインタフェースとしての空間的注意

Spatial Attention as an Interface for Image Captioning Models ( http://arxiv.org/abs/2010.11701v1 )

ライセンス: Link先を確認
Philipp Sadler(参考訳) 現代のディープラーニングモデルの内部動作は、空間的注意機構が関与しているにもかかわらず、外部の観測者にはしばしば不明瞭である。 この研究のアイデアは、これらの空間的注意を自然言語に翻訳し、モデルの関数へのより簡単なアクセスを提供することである。 そこで,筆者はニューラルイメージキャプションモデルを用いて,その空間的注目度における外部的修正に対する反応を,生成過程全体に対する固定,最初の時間ステップの固定,生成者の注意への付加という3つの異なるアプローチで測定した。 バウンディングボックスを用いた空間的注意ベクトルの実験結果は,キャプションモデルが最大52.65%のメソッド依存変化に反応し,対象カテゴリーの9.00%に含まれることを示した。 その後,その単語,句,質問レベルの空間的注意を抽出し,視覚的質問応答のための階層的協調ネットワークを構築した。 ここで生成された単語レベルのキャプションには、55.20%のケースで質問と回答のペアの詳細が含まれていた。 本研究は,画像キャプションジェネレータの外部インタフェースとして見られる空間的注意が,自然言語の視覚機能にアクセスする上で有用な方法であることを示す。

The internal workings of modern deep learning models stay often unclear to an external observer, although spatial attention mechanisms are involved. The idea of this work is to translate these spatial attentions into natural language to provide a simpler access to the model's function. Thus, I took a neural image captioning model and measured the reactions to external modification in its spatial attention for three different interface methods: a fixation over the whole generation process, a fixation for the first time-steps and an addition to the generator's attention. The experimental results for bounding box based spatial attention vectors have shown that the captioning model reacts to method dependent changes in up to 52.65% and includes in 9.00% of the cases object categories, which were otherwise unmentioned. Afterwards, I established such a link to a hierarchical co-attention network for visual question answering by extraction of its word, phrase and question level spatial attentions. Here, generated captions for the word level included details of the question-answer pairs in up to 55.20% of the cases. This work indicates that spatial attention seen as an external interface for image caption generators is an useful method to access visual functions in natural language.
翻訳日:2022-10-13 05:17:11 公開日:2020-09-29
# 言語モデル圧縮のための中間表現のコントラスト蒸留

Contrastive Distillation on Intermediate Representations for Language Model Compression ( http://arxiv.org/abs/2009.14167v1 )

ライセンス: Link先を確認
Siqi Sun, Zhe Gan, Yu Cheng, Yuwei Fang, Shuohang Wang, Jingjing Liu(参考訳) 既存の言語モデル圧縮法は、大小のBERTモデルの中間表現における知識をより小さくするために、単純なL2損失を用いる。 この設計の目的は広く使われているが、隠された表現のすべての次元は独立であり、教師ネットワークの中間層における重要な構造的知識を捉えていないことを前提としている。 そこで本研究では,中間表現(codir)について,生徒が教師の中間層を通して,対照目的を通じて知識を蒸留するように訓練する原理的知識蒸留フレームワークである,コントラスト蒸留を提案する。 ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。 CoDIRは、事前学習と微調整の両方で大規模言語モデルを圧縮するために容易に適用でき、GLUEベンチマークにおいて、最先端の圧縮手法よりも優れた性能を発揮する。

Existing language model compression methods mostly use a simple L2 loss to distill knowledge in the intermediate representations of a large BERT model to a smaller one. Although widely used, this objective by design assumes that all the dimensions of hidden representations are independent, failing to capture important structural knowledge in the intermediate layers of the teacher network. To achieve better distillation efficacy, we propose Contrastive Distillation on Intermediate Representations (CoDIR), a principled knowledge distillation framework where the student is trained to distill knowledge through intermediate layers of the teacher via a contrastive objective. By learning to distinguish positive sample from a large set of negative samples, CoDIR facilitates the student's exploitation of rich information in teacher's hidden layers. CoDIR can be readily applied to compress large-scale language models in both pre-training and finetuning stages, and achieves superb performance on the GLUE benchmark, outperforming state-of-the-art compression methods.
翻訳日:2022-10-13 05:16:50 公開日:2020-09-29
# ワンショット学習によるプラスチック廃棄物の分離分類

One-Shot learning based classification for segregation of plastic waste ( http://arxiv.org/abs/2009.13953v1 )

ライセンス: Link先を確認
Shivaank Agarwal, Ravindra Gudi, Paresh Saxena(参考訳) リサイクル可能な廃棄物を分離する問題は、多くの国でかなり厄介です。 本稿では, 単発学習技術を用いたプラスチック廃棄物のイメージベース分類手法を提案する。 提案手法では, シアム系および三重項損失畳み込みニューラルネットワークを用いて, 5種類のプラスチック廃棄物を樹脂コードに基づいて識別する。 和田場データベース上で99.74%の精度を実現する手法

The problem of segregating recyclable waste is fairly daunting for many countries. This article presents an approach for image based classification of plastic waste using one-shot learning techniques. The proposed approach exploits discriminative features generated via the siamese and triplet loss convolutional neural networks to help differentiate between 5 types of plastic waste based on their resin codes. The approach achieves an accuracy of 99.74% on the WaDaBa Database
翻訳日:2022-10-13 05:16:19 公開日:2020-09-29
# メッセージパッシングニューラルプロセス

Message Passing Neural Processes ( http://arxiv.org/abs/2009.13895v1 )

ライセンス: Link先を確認
Ben Day, C\u{a}t\u{a}lina Cangea, Arian R. Jamasb, Pietro Li\`o(参考訳) ニューラルプロセス(NP)は、線形時間複雑性を維持しながら、確率過程を表現するときに不確実性を組み込むことができる強力で柔軟なモデルである。 しかし、NPはコンテキストポイントの独立表現を集約することで遅延記述を生成し、多くのデータセットに存在する関係情報を活用できない。 これにより、確率過程が主にセルラーオートマトン(CA)のような近隣の規則によって支配されるような設定ではNPは有効ではなく、関係情報が未使用のタスクでは性能が制限される。 我々は、モデル内の関係構造を明示的に活用するNPの最初のクラスである、MPNP(Message Passing Neural Processs)を導入することで、この欠点に対処する。 評価の結果,MPNPは,既存のベンチマークや新たに提案されたCAタスク,Cora-Branchedタスクで,サンプリングレートが低かった。 さらに,密度に基づくcaルールセットに対する強い一般化と,任意ラベリングおよび少数ショット学習設定への挑戦において有意な向上を報告した。

Neural Processes (NPs) are powerful and flexible models able to incorporate uncertainty when representing stochastic processes, while maintaining a linear time complexity. However, NPs produce a latent description by aggregating independent representations of context points and lack the ability to exploit relational information present in many datasets. This renders NPs ineffective in settings where the stochastic process is primarily governed by neighbourhood rules, such as cellular automata (CA), and limits performance for any task where relational information remains unused. We address this shortcoming by introducing Message Passing Neural Processes (MPNPs), the first class of NPs that explicitly makes use of relational structure within the model. Our evaluation shows that MPNPs thrive at lower sampling rates, on existing benchmarks and newly-proposed CA and Cora-Branched tasks. We further report strong generalisation over density-based CA rule-sets and significant gains in challenging arbitrary-labelling and few-shot learning setups.
翻訳日:2022-10-13 05:09:45 公開日:2020-09-29
# 自動包装構造認識のための画像処理パイプライン

An Image Processing Pipeline for Automated Packaging Structure Recognition ( http://arxiv.org/abs/2009.13824v1 )

ライセンス: Link先を確認
Laura D\"orr, Felix Brandt, Martin Pouls, Alexander Naumann(参考訳) 物流品の派遣と受取には、輸送そのものだけでなく、大量の手作業が必要となる。 包装やラベル付けを含む輸送品は、多くのサプライチェーンネットワークポイントで二重チェック、検証、または認識する必要がある。 これらのプロセスは自動化の可能性を秘めており、コンピュータビジョン技術の利用を目指しています。 より正確には、単一のRGB画像に基づいて、標準化された物流出荷物の包装構造を完全自動認識する認知システムを提案する。 本研究は,適切なシステム設計の記述と関連する実世界データに対する評価を含む。 さらにアルゴリズムの選択についても論じる。

Dispatching and receiving logistics goods, as well as transportation itself, involve a high amount of manual efforts. The transported goods, including their packaging and labeling, need to be double-checked, verified or recognized at many supply chain network points. These processes hold automation potentials, which we aim to exploit using computer vision techniques. More precisely, we propose a cognitive system for the fully automated recognition of packaging structures for standardized logistics shipments based on single RGB images. Our contribution contains descriptions of a suitable system design and its evaluation on relevant real-world data. Further, we discuss our algorithmic choices.
翻訳日:2022-10-13 05:08:57 公開日:2020-09-29
# SIR:Eコマースにおける製品検索の類似画像検索

SIR: Similar Image Retrieval for Product Search in E-Commerce ( http://arxiv.org/abs/2009.13836v1 )

ライセンス: Link先を確認
Theban Stanley, Nihar Vanjara, Yanxin Pan, Ekaterina Pirogova, Swagata Chakraborty, Abon Chaudhuri(参考訳) 我々は、視覚的に類似した製品を数百万のカタログで素早く発見するために使用される類似画像検索(SIR)プラットフォームを提案する。 カタログのサイズ、多様性、ダイナミズムを考えると、製品検索は多くの課題に直面する。 教師付きモデルを構築して、製品イメージにテーマを表すラベルをタグ付けし、後からラベルで検索することで対処できる。 このアプローチは、"white shirt"や"lifestyle image of tv"といった、一般的で多年生のテーマに対して十分である。 e-cigarettes"のような新しいテーマ、"image with a promotional badge"のような定義が難しいテーマ、あるいは"halloween costumes"のような関連性の薄いテーマでは機能しない。 SIRは、事前に定義されたテーマではなく、例で検索できるので、このようなケースには理想的です。 近似した近接探索バックエンドを駆動する計算、エンコーディング、インデックス化のステップについて説明する。 SIRの2つの応用についても強調する。 一つは、さまざまな潜在的に否定的なテーマを持つ製品の検出に関連している。 このアプリケーションは緊急感を持って実行されるため、モデルのトレーニングとブートストラップを行う典型的な時間フレームは許可されない。 また、これらのテーマは現在のトレンドに基づいて短命であることが多いため、永続的なモデルを構築するためにリソースを費やすことは正当化されない。 2つめのアプリケーションは変種アイテム検出システムで、sirはテキスト検索で見つけるのが難しい視覚的な変種を見つけるのに役立ちます。 これらのアプリケーションを用いてSIRの性能を解析する。

We present a similar image retrieval (SIR) platform that is used to quickly discover visually similar products in a catalog of millions. Given the size, diversity, and dynamism of our catalog, product search poses many challenges. It can be addressed by building supervised models to tagging product images with labels representing themes and later retrieving them by labels. This approach suffices for common and perennial themes like "white shirt" or "lifestyle image of TV". It does not work for new themes such as "e-cigarettes", hard-to-define ones such as "image with a promotional badge", or the ones with short relevance span such as "Halloween costumes". SIR is ideal for such cases because it allows us to search by an example, not a pre-defined theme. We describe the steps - embedding computation, encoding, and indexing - that power the approximate nearest neighbor search back-end. We also highlight two applications of SIR. The first one is related to the detection of products with various types of potentially objectionable themes. This application is run with a sense of urgency, hence the typical time frame to train and bootstrap a model is not permitted. Also, these themes are often short-lived based on current trends, hence spending resources to build a lasting model is not justified. The second application is a variant item detection system where SIR helps discover visual variants that are hard to find through text search. We analyze the performance of SIR in the context of these applications.
翻訳日:2022-10-13 05:08:48 公開日:2020-09-29
# 顔デピクセル化のための神経アライメント

Neural Alignment for Face De-pixelization ( http://arxiv.org/abs/2009.13856v1 )

ライセンス: Link先を確認
Maayan Shuvi, Noa Fish, Kfir Aberman, Ariel Shamir, Daniel Cohen-Or(参考訳) 本稿では,人物の身元がピクセル化によってぼやけている顔映像から高解像度映像を再構成する簡易な手法を提案する。 この隠蔽法は、視聴者がまだ人間の顔像と全体の頭部の動きを知覚できるので人気がある。 しかし、我々の実験では、オリジナルビデオのかなり良い近似を匿名性を損なう方法で再構成できることが示されている。 本システムでは,人間の顔を描いた近距離映像フレーム間の同時的類似性と小さな相違を生かし,画素フレーム間のアライメントを学習する空間変換成分を用いる。 各フレームは周囲のフレームでサポートされ、まずエンコードされ、その後より高解像度にデコードされる。 再構築と知覚的損失は、地対地への執着を促進し、敵対的損失は、ドメインの忠実性を維持するのに役立つ。 隣接フレームのアライメントや再構築によって暗黙的に維持されるため、明示的な時間的コヒーレンシー損失は不要である。 この枠組みは,人間の顔の統計的先行を考慮すれば,複数の画素フレームが,原信号の高品質な近似を再構築するのに十分な情報を含むことを示す。

We present a simple method to reconstruct a high-resolution video from a face-video, where the identity of a person is obscured by pixelization. This concealment method is popular because the viewer can still perceive a human face figure and the overall head motion. However, we show in our experiments that a fairly good approximation of the original video can be reconstructed in a way that compromises anonymity. Our system exploits the simultaneous similarity and small disparity between close-by video frames depicting a human face, and employs a spatial transformation component that learns the alignment between the pixelated frames. Each frame, supported by its aligned surrounding frames, is first encoded, then decoded to a higher resolution. Reconstruction and perceptual losses promote adherence to the ground-truth, and an adversarial loss assists in maintaining domain faithfulness. There is no need for explicit temporal coherency loss as it is maintained implicitly by the alignment of neighboring frames and reconstruction. Although simple, our framework synthesizes high-quality face reconstructions, demonstrating that given the statistical prior of a human face, multiple aligned pixelated frames contain sufficient information to reconstruct a high-quality approximation of the original signal.
翻訳日:2022-10-13 05:08:24 公開日:2020-09-29
# Triplet Mining と Stratified Smpling を用いた近隣分類のための大規模マージンメトリック学習の高速化

Acceleration of Large Margin Metric Learning for Nearest Neighbor Classification Using Triplet Mining and Stratified Sampling ( http://arxiv.org/abs/2009.14244v1 )

ライセンス: Link先を確認
Parisa Abdolrahim Poorheravi, Benyamin Ghojogh, Vincent Gaudet, Fakhri Karray, Mark Crowley(参考訳) 計量学習は多様体学習の技法の一つであり、それぞれクラス間分散とクラス内分散を増加・減少させる射影部分空間を見つけることを目的としている。 メトリック学習の手法のいくつかは、アンカー正負の三重項を持つ三重項学習に基づいている。 隣り合う分類のための大きなマージン計量学習は、これを行う基本的な方法の1つである。 近年,三重項損失を伴うシャム網が導入された。 シームズ・ネットワーク向けに多くのトリプルト・マイニング法が開発されているが、これらの手法は近隣の分類において大きなマージン計量学習のトリプルには適用されていない。 本研究では,シャム語ネットワークのマイニング手法に触発されて,大規模マージン計量学習のための三重項マイニング手法を提案する。 さらに,階層的超球面における階層化サンプリングにより三重項を選択する最適化の高速化と拡張性のための階層的手法を提案する。 提案手法を,フィッシャー・アイリス,ORL顔,MNISTデータセットの3つの公開データセット上で解析する。

Metric learning is one of the techniques in manifold learning with the goal of finding a projection subspace for increasing and decreasing the inter- and intra-class variances, respectively. Some of the metric learning methods are based on triplet learning with anchor-positive-negative triplets. Large margin metric learning for nearest neighbor classification is one of the fundamental methods to do this. Recently, Siamese networks have been introduced with the triplet loss. Many triplet mining methods have been developed for Siamese networks; however, these techniques have not been applied on the triplets of large margin metric learning for nearest neighbor classification. In this work, inspired by the mining methods for Siamese networks, we propose several triplet mining techniques for large margin metric learning. Moreover, a hierarchical approach is proposed, for acceleration and scalability of optimization, where triplets are selected by stratified sampling in hierarchical hyper-spheres. We analyze the proposed methods on three publicly available datasets, i.e., Fisher Iris, ORL faces, and MNIST datasets.
翻訳日:2022-10-13 05:08:03 公開日:2020-09-29
# Geometric Matrix Completion: 機能的視点

Geometric Matrix Completion: A Functional View ( http://arxiv.org/abs/2009.14343v1 )

ライセンス: Link先を確認
Abhishek Sharma and Maks Ovsjanikov(参考訳) 幾何行列完備化問題の全機能的な視点を提案する。 既存の研究とは違って,より解釈可能で理論的に健全な機能的地図文学に触発された新しい正規化を提案する。 強固な幾何学的構造を持つ合成タスクでは、我々のフレームワークは、我々のアプローチの可能性を示す巨大なマージン(2等級)で芸術の状態を上回っています。 実データセットでは,従来手法の計算労力のごく一部で最先端の結果が得られる。 私たちのコードはhttps://github.com/Not-IITian/functional-matrix-completionで公開されています。

We propose a totally functional view of geometric matrix completion problem. Differently from existing work, we propose a novel regularization inspired from the functional map literature that is more interpretable and theoretically sound. On synthetic tasks with strong underlying geometric structure, our framework outperforms state of the art by a huge margin (two order of magnitude) demonstrating the potential of our approach. On real datasets, we achieve state-of-the-art results at a fraction of the computational effort of previous methods. Our code is publicly available at https://github.com/Not-IITian/functional-matrix-completion
翻訳日:2022-10-13 05:07:45 公開日:2020-09-29
# 最適畳み込みニューラルネットワーク(mfeocnn)アルゴリズムを用いたビデオにおけるマイクロ界面表現認識

Micro-Facial Expression Recognition in Video Based on Optimal Convolutional Neural Network (MFEOCNN) Algorithm ( http://arxiv.org/abs/2009.13792v1 )

ライセンス: Link先を確認
S. D. Lalitha, K. K. Thyagharajan(参考訳) 表情は人間の感情認識において最も重要な特徴の1つだ。 感情状態を示すために、表情は人々によって利用される。 いずれにせよ、表情の認識は、PCビジョンに関するテストと興味深い問題を継続している。 ビデオシーケンスにおけるマイクロファサール表現の認識が,提案手法の主な目的である。 効率的な認識のために,提案手法では最適畳み込みニューラルネットワークを用いる。 ここでは、入力データセットを考慮した提案手法がCK+データセットである。 まず、入力画像において、適応的な中央値フィルタリング前処理を行う。 事前処理された出力から抽出された特徴は、幾何学的特徴、方位勾配のヒストグラム、局所バイナリパターンの特徴である。 提案手法の新規性は,修正ライオン最適化(MLO)アルゴリズムを用いて,抽出した特徴量から最適な特徴量を選択することである。 より短い計算時間で、全体の配置やアイデアを得る目的で、迅速に焦点を合わせ、効果的に認識する利点がある。 最後に、認識は畳み込みニューラルネットワーク(CNN)によって行われる。 次に,提案手法の性能を偽測度と認識精度の観点から解析する。 この種の感情認識は主に医学、マーケティング、eラーニング、エンターテイメント、法律、監視に使われている。 シミュレーション結果から,提案手法は最小平均絶対誤差 (mae) 値で99.2%の最大認識精度を達成することが判明した。 これらの結果は、MFEDRL、ライオン最適化による畳み込みニューラルネットワーク(CNN+LO)、最適化なしでの畳み込みニューラルネットワーク(CNN)の既存のものと比較される。 提案手法のシミュレーションはmatlabの作業プラットフォームで行われている。

Facial expression is a standout amongst the most imperative features of human emotion recognition. For demonstrating the emotional states facial expressions are utilized by the people. In any case, recognition of facial expressions has persisted a testing and intriguing issue with regards to PC vision. Recognizing the Micro-Facial expression in video sequence is the main objective of the proposed approach. For efficient recognition, the proposed method utilizes the optimal convolution neural network. Here the proposed method considering the input dataset is the CK+ dataset. At first, by means of Adaptive median filtering preprocessing is performed in the input image. From the preprocessed output, the extracted features are Geometric features, Histogram of Oriented Gradients features and Local binary pattern features. The novelty of the proposed method is, with the help of Modified Lion Optimization (MLO) algorithm, the optimal features are selected from the extracted features. In a shorter computational time, it has the benefits of rapidly focalizing and effectively acknowledging with the aim of getting an overall arrangement or idea. Finally, the recognition is done by Convolution Neural network (CNN). Then the performance of the proposed MFEOCNN method is analysed in terms of false measures and recognition accuracy. This kind of emotion recognition is mainly used in medicine, marketing, E-learning, entertainment, law and monitoring. From the simulation, we know that the proposed approach achieves maximum recognition accuracy of 99.2% with minimum Mean Absolute Error (MAE) value. These results are compared with the existing for MicroFacial Expression Based Deep-Rooted Learning (MFEDRL), Convolutional Neural Network with Lion Optimization (CNN+LO) and Convolutional Neural Network (CNN) without optimization. The simulation of the proposed method is done in the working platform of MATLAB.
翻訳日:2022-10-13 05:07:37 公開日:2020-09-29
# 最適化と一貫性を備えた教師なしマルチソースドメイン適応への取り組み

Tackling unsupervised multi-source domain adaptation with optimism and consistency ( http://arxiv.org/abs/2009.13939v1 )

ライセンス: Link先を確認
Diogo Pernes and Jaime S. Cardoso(参考訳) マルチソースドメイン適応の問題は、ソースドメインが元のソースドメインの混合に対応する単一ソースドメイン適応タスクとみなすことができることは、しばらく前から知られていた。 それでも、どのように混合分布の重みを調整するかは未解決の問題である。 さらに、このトピックに関する既存のほとんどの研究は、ソースドメインのエラーを最小限に抑え、ターゲットドメインの低いエラーを保証するのに不十分なドメイン不変表現を実現することだけに焦点を当てている。 本稿では,軽度に楽観的な客観的関数と対象サンプルの一貫性正規化を用いて,両方の問題に対処し,現在の技術に勝る新たな枠組みを提案する。

It has been known for a while that the problem of multi-source domain adaptation can be regarded as a single source domain adaptation task where the source domain corresponds to a mixture of the original source domains. Nonetheless, how to adjust the mixture distribution weights remains an open question. Moreover, most existing work on this topic focuses only on minimizing the error on the source domains and achieving domain-invariant representations, which is insufficient to ensure low error on the target domain. In this work, we present a novel framework that addresses both problems and beats the current state of the art by using a mildly optimistic objective function and consistency regularization on the target samples.
翻訳日:2022-10-13 05:00:38 公開日:2020-09-29
# 信頼できる畳み込みニューラルネットワーク:グラデーションペナル化に基づくアプローチ

Trustworthy Convolutional Neural Networks: A Gradient Penalized-based Approach ( http://arxiv.org/abs/2009.14260v1 )

ライセンス: Link先を確認
Nicholas Halliwell, Freddy Lecue(参考訳) 畳み込みニューラルネットワーク(CNN)は一般的に画像分類に用いられる。 Saliency Methodは、CNNのポストホックの解釈に使用可能なアプローチの例であり、勾配の流れに続く予測のための最も関連性の高いピクセルを識別する。 CNNは画像を正しく分類できるが、基礎となるサリエンシマップは多くのケースで誤用される可能性がある。 これはモデルの有効性や解釈に関して懐疑的になる可能性がある。 本稿では,パラメータ選択をペナライズすることで信頼度の高いCNNをトレーニングするための新しいアプローチを提案する。 予測されたラベルが正しいときに発生する不正確なサリエンシマップのペナルティ項と、予測されたラベルが正しくないときに発生する正確なサリエンシマップのペナルティ項と、過度に確実なサリエンシマップをペナルティ化する正規化項を加算する。 実験では、分類性能、ユーザエンゲージメント、信頼度が向上した。

Convolutional neural networks (CNNs) are commonly used for image classification. Saliency methods are examples of approaches that can be used to interpret CNNs post hoc, identifying the most relevant pixels for a prediction following the gradients flow. Even though CNNs can correctly classify images, the underlying saliency maps could be erroneous in many cases. This can result in skepticism as to the validity of the model or its interpretation. We propose a novel approach for training trustworthy CNNs by penalizing parameter choices that result in inaccurate saliency maps generated during training. We add a penalty term for inaccurate saliency maps produced when the predicted label is correct, a penalty term for accurate saliency maps produced when the predicted label is incorrect, and a regularization term penalizing overly confident saliency maps. Experiments show increased classification performance, user engagement, and trust.
翻訳日:2022-10-13 05:00:12 公開日:2020-09-29
# 文書レベル関係抽出のための二重グラフに基づく推論

Double Graph Based Reasoning for Document-level Relation Extraction ( http://arxiv.org/abs/2009.13752v1 )

ライセンス: Link先を確認
Shuang Zeng, Runxin Xu, Baobao Chang and Lei Li(参考訳) 文書レベルの関係抽出は、文書内のエンティティ間の関係を抽出することを目的としている。 文レベルの関係抽出とは異なり、文書をまたいだ複数の文を推論する必要がある。 本稿では,二重グラフを用いたグラフ集約と推論ネットワーク(GAIN)を提案する。 GAINはまずヘテロジニアスな参照レベルグラフ(hMG)を構築し、文書間で異なる参照間の複雑な相互作用をモデル化する。 また、エンティティ間の関係を推論する新しい経路推論メカニズムを提案するエンティティレベルグラフ(eg)も構築する。 公開データセットの実験であるDocREDは、GAINが以前の最先端技術よりも大幅なパフォーマンス改善(2.85 on F1)を達成したことを示している。 私たちのコードはhttps://github.com/DreamInvoker/GAINで利用可能です。

Document-level relation extraction aims to extract relations among entities within a document. Different from sentence-level relation extraction, it requires reasoning over multiple sentences across a document. In this paper, we propose Graph Aggregation-and-Inference Network (GAIN) featuring double graphs. GAIN first constructs a heterogeneous mention-level graph (hMG) to model complex interaction among different mentions across the document. It also constructs an entity-level graph (EG), based on which we propose a novel path reasoning mechanism to infer relations between entities. Experiments on the public dataset, DocRED, show GAIN achieves a significant performance improvement (2.85 on F1) over the previous state-of-the-art. Our code is available at https://github.com/DreamInvoker/GAIN .
翻訳日:2022-10-13 04:59:55 公開日:2020-09-29
# オントロジーと伝達学習を用いたXAIを用いた言語学習チャットボットの設計と実装

The design and implementation of Language Learning Chatbot with XAI using Ontology and Transfer Learning ( http://arxiv.org/abs/2009.13984v1 )

ライセンス: Link先を確認
Nuobei Shi, Qin Zeng and Raymond Lee(参考訳) 本稿では,GPT-2で生成した音声を,微調整データセットに根ざしたオントロジーグラフで説明できる翻訳学習型英語学習チャットボットを提案する。 音声認識と発音補正のための音韻レベル、特定のドメイン会話における意味レベル、英語における自由型会話のシミュレーションを含む、体系的に英語学習のための3つのレベルを設計した。 学術的な貢献のために,我々は,生物学におけるニューラルネットワークの接続を可視化するXAI(Explainable Artificial Intelligence)の概念に従って,自由形式の会話の性能を説明するオントロジーグラフを実装し,言語モデルからの出力文を説明する。 実装の観点から,言語学習エージェントはwechatのミニプログラムをフロントエンドとして統合し,オントロジーグラフによる応答を解釈するためのバックエンドとして転送学習の微調整gpt-2モデルを導入した。

In this paper, we proposed a transfer learning-based English language learning chatbot, whose output generated by GPT-2 can be explained by corresponding ontology graph rooted by fine-tuning dataset. We design three levels for systematically English learning, including phonetics level for speech recognition and pronunciation correction, semantic level for specific domain conversation, and the simulation of free-style conversation in English - the highest level of language chatbot communication as free-style conversation agent. For academic contribution, we implement the ontology graph to explain the performance of free-style conversation, following the concept of XAI (Explainable Artificial Intelligence) to visualize the connections of neural network in bionics, and explain the output sentence from language model. From implementation perspective, our Language Learning agent integrated the mini-program in WeChat as front-end, and fine-tuned GPT-2 model of transfer learning as back-end to interpret the responses by ontology graph.
翻訳日:2022-10-13 04:59:25 公開日:2020-09-29
# 限定的twitterデータを用いた性別予測

Gender prediction using limited Twitter Data ( http://arxiv.org/abs/2010.02005v1 )

ライセンス: Link先を確認
Maaike Burghoorn and Maaike H.T. de Boer and Stephan Raaijmakers(参考訳) トランスフォーマーモデルは様々なnlpタスクで印象的な性能を示している。 市販の事前トレーニング済みモデルは、特定のnlp分類タスク用に微調整することができ、大量のトレーニングデータの必要性を低減できる。 しかし、そのようなトレーニング済みトランスモデルを正確に微調整するために必要なデータ量や、正確な予測に必要なデータ量についてはほとんど研究されていない。 本稿では,ソーシャルメディア上でのジェンダー予測におけるBERT(単語埋め込み用トランスフォーマーモデル)の有用性について検討する。 法医学的な応用としては、チャットルームで女性としてポーズをとる男性など、性別の難読化の検出がある。 オランダのbertモデルは、性別でラベル付けされたオランダのtwitterデータセットの異なるサンプルで微調整され、1人あたりのツイート数によって異なる。 その結果,人当たり200ツイートのみを微調整した場合,BERTの微調整は性別分類性能(80% F1)の向上に寄与することがわかった。 しかし、1人あたり20ツイートしか使わないと、分類器の性能が低下し(70%f1)ます。 これらの結果は、比較的少量のデータであっても、BERTを微調整してTwitterユーザーの性別を正確に予測できることを示し、その結果、ごく少量のツイートに基づいて性別を決定することができることを示している。 これにより、性別の迅速検出に関する運用上の視点が開ける。

Transformer models have shown impressive performance on a variety of NLP tasks. Off-the-shelf, pre-trained models can be fine-tuned for specific NLP classification tasks, reducing the need for large amounts of additional training data. However, little research has addressed how much data is required to accurately fine-tune such pre-trained transformer models, and how much data is needed for accurate prediction. This paper explores the usability of BERT (a Transformer model for word embedding) for gender prediction on social media. Forensic applications include detecting gender obfuscation, e.g. males posing as females in chat rooms. A Dutch BERT model is fine-tuned on different samples of a Dutch Twitter dataset labeled for gender, varying in the number of tweets used per person. The results show that finetuning BERT contributes to good gender classification performance (80% F1) when finetuned on only 200 tweets per person. But when using just 20 tweets per person, the performance of our classifier deteriorates non-steeply (to 70% F1). These results show that even with relatively small amounts of data, BERT can be fine-tuned to accurately help predict the gender of Twitter users, and, consequently, that it is possible to determine gender on the basis of just a low volume of tweets. This opens up an operational perspective on the swift detection of gender.
翻訳日:2022-10-13 04:59:06 公開日:2020-09-29
# eemc:埋め込み型マルチタグ分類

EEMC: Embedding Enhanced Multi-tag Classification ( http://arxiv.org/abs/2009.13826v1 )

ライセンス: Link先を確認
Yanlin Li, Shi An, Ruisheng Zhang(参考訳) 最近発生した表現学習は、NLPと複雑なネットワークにおいて魅力的なパフォーマンスをもたらし、機械学習とデータマイニングの基盤技術になりつつある。 表現学習を用いて分類器の性能を向上させる方法は非常に重要な研究方向である。 表現学習技術を用いて、生データ(グラフのノード)を低次元の特徴空間にマッピングする。 この空間では、各原データが低次元ベクトル表現を取得し、それらのベクトルが仮想データを生成するための単純な線形演算を行い、それらのベクトルと仮想データを用いてマルチタグ分類器を訓練する。 その後,分類器の性能をF1スコア(マクロ%F1,ミクロ%F1)で測定した。 この方法により,マクロF1は28~450%まで上昇し,平均F1スコアは12~224%まで上昇する。 対照的に,下位次元ベクトルを用いて直接分類器を訓練し,分類器の性能を測定した。 提案アルゴリズムを3つの公開データセット上で検証した結果,仮想データによってF1スコアが大幅に向上することが判明した。 そこで本アルゴリズムは,分類器の性能向上に有効な手法である。 これらの結果は、単純な線形演算によって生成された仮想データは、表現空間において、生データの情報を保持することを示唆している。 また、小さなサンプルデータセットの学習にも大きな意味を持っています。

The recently occurred representation learning make an attractive performance in NLP and complex network, it is becoming a fundamental technology in machine learning and data mining. How to use representation learning to improve the performance of classifiers is a very significance research direction. We using representation learning technology to map raw data(node of graph) to a low-dimensional feature space. In this space, each raw data obtained a lower dimensional vector representation, we do some simple linear operations for those vectors to produce some virtual data, using those vectors and virtual data to training multi-tag classifier. After that we measured the performance of classifier by F1 score(Macro% F1 and Micro% F1). Our method make Macro F1 rise from 28 % - 450% and make average F1 score rise from 12 % - 224%. By contrast, we trained the classifier directly with the lower dimensional vector, and measured the performance of classifiers. We validate our algorithm on three public data sets, we found that the virtual data helped the classifier greatly improve the F1 score. Therefore, our algorithm is a effective way to improve the performance of classifier. These result suggest that the virtual data generated by simple linear operation, in representation space, still retains the information of the raw data. It's also have great significance to the learning of small sample data sets.
翻訳日:2022-10-13 04:58:46 公開日:2020-09-29