このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20200902となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 確率的局所操作下におけるR'enyiエンタングルメントエントロピーの条件 Condition on the R\'enyi Entanglement Entropy under Stochastic Local Manipulation ( http://arxiv.org/abs/2002.11779v2 ) ライセンス: Link先を確認 | Hyukjoon Kwon, A. J. Paige, M. S. Kim | (参考訳) r\'enyi entanglement entropy (ree) は、エントロピーの自然な一般化と見なされるエンタングルメント量子化子である。
しかし、確率的局所演算と古典的通信(SLOCC)に関しては、平均値を超える統計的性質が十分に研究されていないのに対して、REEの限られたクラスのみが単調性条件を満たす。
ここでは、任意の順序のREEの確率分布が SLOCC の下で従うという一般的な条件を確立する。
この状態は、リーズの高次モーメントを含む絡み合ったモノトーンの族を導入することによって得られる。
高次モーメントからの寄与は、SLOCCによる絡み合い蒸留に厳格な制限を課す。
その結果, タングル化蒸留における成功確率の上限は, 上昇するエンタングル化量の増大に伴って指数関数的に減少し, REEの単調性からは達成できないことがわかった。
slocc下でのエンタングルメント変換の強い制限に基づき,量子多体系のエンタングルメントを実験的に観測可能な量から推定する新しい手法を考案する。 The R\'enyi entanglement entropy (REE) is an entanglement quantifier considered as a natural generalisation of the entanglement entropy. When it comes to stochastic local operations and classical communication (SLOCC), however, only a limited class of the REEs satisfy the monotonicity condition, while their statistical properties beyond mean values have not been fully investigated. Here, we establish a general condition that the probability distribution of the REE of any order obeys under SLOCC. The condition is obtained by introducing a family of entanglement monotones that contain the higher-order moments of the REEs. The contribution from the higher-order moments imposes a strict limitation on entanglement distillation via SLOCC. We find that the upper bound on success probabilities for entanglement distillation exponentially decreases as the amount of raised entanglement increases, which cannot be captured from the monotonicity of the REE. Based on the strong restriction on entanglement transformation under SLOCC, we design a new method to estimate entanglement in quantum many-body systems from experimentally observable quantities. | 翻訳日:2023-06-01 20:54:26 公開日:2020-09-02 |
# 半古典系における絡み合いのダイナミクスとカオス Bridging entanglement dynamics and chaos in semiclassical systems ( http://arxiv.org/abs/2005.03670v3 ) ライセンス: Link先を確認 | Alessio Lerose and Silvia Pappalardi | (参考訳) エンタングルメント生成と動的カオスはデコヒーレンス過程を通じて半古典モデルと密接な関係にあることが広く認識されている。
本研究では,二成分および多成分の絡み合い成長を古典カオスおよび量子カオスの量子化器に直接接続する統一フレームワークを提案する。
半古典的状態において、フォン・ノイマンエンタングルメントエントロピー、スピンスクイーズ、量子フィッシャー情報、および時間外二乗可換子の力学は、文献の以前の予想によって示唆されたように、局所リャプノフスペクトルによる近傍の位相空間軌道の発散によって支配される。
一般的な解析的予測は、量子キックトップとディックモデル(英語版)の2つのパラダイムモデル(原子と光学実験に関連する)の詳細な数値計算によって確認される。 It is widely recognized that entanglement generation and dynamical chaos are intimately related in semiclassical models via the process of decoherence. In this work, we propose a unifying framework which directly connects the bipartite and multipartite entanglement growth to the quantifiers of classical and quantum chaos. In the semiclassical regime, the dynamics of the von Neumann entanglement entropy, the spin squeezing, the quantum Fisher information and the out-of-time-order square commutator are governed by the divergence of nearby phase-space trajectories via the local Lyapunov spectrum, as suggested by previous conjectures in the literature. General analytical predictions are confirmed by detailed numerical calculations for two paradigmatic models, relevant in atomic and optical experiments, which exhibit a regular-to-chaotic transition: the quantum kicked top and the Dicke model. | 翻訳日:2023-05-20 22:28:30 公開日:2020-09-02 |
# トーマス・フェルミ政権におけるフェシュバッハエンジン A Feshbach engine in the Thomas-Fermi regime ( http://arxiv.org/abs/2005.06801v2 ) ライセンス: Link先を確認 | Tim Keller, Thom\'as Fogarty, Jing Li, and Thomas Busch | (参考訳) ボース=アインシュタイン凝縮体は、フェッシュバッハ共鳴の助けを借りて粒子間相互作用の強さを調整して仕事を生み出すのに使うことができる。
不均一ポテンシャルでは、これらの相互作用ランプは閉じ込められた気体の体積を変化させ、フェッシュバッハエンジンとして知られる熱力学的サイクルを作ることができる。
しかし、大きな出力を得るためには、エンジンストロークを短時間のタイムスケールで実行しなければならない。これは、ストロークが非断熱的な方法で行われている場合、非可逆的な作業によってエンジンの効率が低下するという事実とは対照的である。
本稿では,トーマス・フェルミ政権におけるこのようなエンジンの動作について検討し,非可逆的な作業を最小限に抑え,効率的なエンジン運転を可能にする短絡を提示する。 Bose-Einstein condensates can be used to produce work by tuning the strength of the interparticle interactions with the help of Feshbach resonances. In inhomogeneous potentials, these interaction ramps change the volume of the trapped gas allowing one to create a thermodynamic cycle known as the Feshbach engine. However, in order to obtain a large power output, the engine strokes must be performed on a short timescale, which is in contrast with the fact that the efficiency of the engine is reduced by irreversible work if the strokes are done in a non-adiabatic fashion. Here we investigate how such an engine can be run in the Thomas-Fermi regime and present a shortcut to adiabaticity that minimizes the irreversible work and allows for efficient engine operation. | 翻訳日:2023-05-20 05:39:55 公開日:2020-09-02 |
# 想像上の時間発展における確率的非ユニタリゲート Probabilistic Nonunitary Gate in Imaginary Time Evolution ( http://arxiv.org/abs/2006.09726v2 ) ライセンス: Link先を確認 | Tong Liu, Jin-Guo Liu and Heng Fan | (参考訳) 量子物質のシミュレーションは量子コンピュータの重要な応用である。
量子コンピュータ上で自然に実現できるユニタリ演算とは対照的に、古典的手法で広く用いられる非ユニタリ演算の実装には特別な設計が必要である。
ここでは,Groverのアルゴリズムの適用により,非単体演算の確率的手法を拡張し,忠実度を低下させることなく成功確率を向上できることを示す。
この方法は、量子コンピュータ上の仮想時間発展とテンソルネットワークの縮小の問題に適用することができる。 Simulation of quantum matters is a significant application of quantum computers. In contrast to the unitary operation which can be realized naturally on a quantum computer, the implementation of nonunitary operation, widely used in classical approaches, needs special designing. Here, by application of Grover's algorithm, we extend the probabilistic method of implementing nonunitary operation and show that it can promote success probability without fidelity decreasing. This method can be applied to problems of imaginary time evolution and contraction of tensor networks on a quantum computer. | 翻訳日:2023-05-13 15:58:20 公開日:2020-09-02 |
# 異なる物理過程における混合状態に対するLoschmidt振幅の零点のユビキティとその意味 Ubiquity of zeros of Loschmidt amplitude for mixed states in different physical processes and their implications ( http://arxiv.org/abs/2006.12445v2 ) ライセンス: Link先を確認 | Xu-Yang Hou, Qu-Cheng Gao, Hao Guo, Yan He, Tong Liu, and Chih-Chun Chien | (参考訳) 混合状態密度行列の精製状態のLoschmidt振幅は、系が準静的、クエンチ、またはウルマン過程を経るときにゼロを持つことを示す。
クエンチ過程のロスシュミット振幅ゼロは、発散する動的自由エネルギーを伴う動的量子位相遷移(dqpt)に対応するが、ウールマン過程のロスシュミット振幅ゼロは、ウールマン相のジャンプを伴う位相相遷移(tqpt)に対応する。
密度行列は準静的に保たれるが、ロスシュミット振幅は相転移とは関係のない零点を持つことができる。
有限温度 DQPT と有限温度 TQPT をロシミト振幅零点に関連づけた 2 段系および 3 段系の例を示す。
さらに、混合状態の動的位相または幾何学的位相は、Loschmidt振幅から抽出することができる。
これらの位相は、Loschmidt-amplitude 0 において量子化または不連続性を示す。
一般的な2レベルシステムの清浄状態のスピノール表現は、異なるプロセスにおける清浄の変化に関するさらなる洞察を提供するために提示される。
例えば、準静的過程はスピノルの回転を引き起こすことが示されている。 The Loschmidt amplitude of the purified states of mixed-state density matrices is shown to have zeros when the system undergoes a quasistatic, quench, or Uhlmann process. While the Loschmidt-amplitude zero of a quench process corresponds to a dynamical quantum phase transition (DQPT) accompanied by the diverging dynamical free energy, the Loschmidt-amplitude zero of the Uhlmann process corresponds to a topological phase transition (TQPT) accompanied by a jump of the Uhlmann phase. Although the density matrix remains intact in a quasistatic process, the Loschmidt amplitude can have zeros not associated with a phase transition. We present examples of two-level and three-level systems exhibiting finite- or infinite- temperature DQPTs and finite-temperature TQPTs associated with the Loschmidt-amplitude zeros. Moreover, the dynamical phase or geometrical phase of mixed states can be extracted from the Loschmidt amplitude. Those phases may become quantized or exhibit discontinuity at the Loschmidt-amplitude zeros. A spinor representation of the purified states of a general two-level system is presented to offer more insights into the change of purification in different processes. The quasistatic process, for example, is shown to cause a rotation of the spinor. | 翻訳日:2023-05-13 04:50:16 公開日:2020-09-02 |
# ZnO半導体欠陥とトラップYbイオンとの光子による絡み合い Photon-mediated entanglement scheme between a ZnO semiconductor defect and a trapped Yb ion ( http://arxiv.org/abs/2006.14728v2 ) ライセンス: Link先を確認 | Jennifer F. Lilieholm, Vasilis Niaouris, Alexander Kato, Kai-Mei C. Fu and Boris B. Blinov | (参考訳) 本稿では,2つの系から放出される同一光子の経路消去を行うため,トラップイオンと固体ドナー量子ビットとの間の絡み合った状態を生成する光学的手法を提案する。
提案手法は、ZnOのInドナー境界励起子とYb$^+$の$^2P_{1/2}$の$^2S_{1/2}$遷移との間の同様の遷移周波数を利用する。
関連するイオン状態の寿命は、zno系よりも6倍長いため、放出された光子の時間的プロファイルが不一致となる。
デチューンキャビティ支援ラマンスキームは、ドナーをレーザーパルスで弱く励起させ、yb$^+$の放射に0.099の時間的重なりを持つ光子を生成し、欠陥の放出をyb$^+$遷移へと部分的にシフトさせる。
残りの光子シフトはdcスターク効果によって達成される。
本研究では, 適切なパラメータを持つ弱い励起法を用いて, 21kHz の絡み合い率と 94 % の絡み合い係数が得られることを示す。 We propose an optical scheme to generate an entangled state between a trapped ion and a solid state donor qubit through which-path erasure of identical photons emitted from the two systems. The proposed scheme leverages the similar transition frequencies between In donor bound excitons in ZnO and the $^2P_{1/2}$ to $^2S_{1/2}$ transition in Yb$^+$. The lifetime of the relevant ionic state is longer than that of the ZnO system by a factor of 6, leading to a mismatch in the temporal profiles of emitted photons. A detuned cavity-assisted Raman scheme weakly excites the donor with a shaped laser pulse to generate photons with 0.99 temporal overlap to the Yb$^+$ emission and partially shift the emission of the defect toward the Yb$^+$ transition. The remaining photon shift is accomplished via the dc Stark effect. We show that an entanglement rate of 21 kHz and entanglement fidelity of 94 % can be attained using a weak excitation scheme with reasonable parameters. | 翻訳日:2023-05-12 19:36:01 公開日:2020-09-02 |
# cu$_2$oに閉じ込められたrydberg励起子の位相スピン相からの偏極端状態の放出 Polarized edge state emission from topological spin phases of trapped Rydberg excitons in Cu$_2$O ( http://arxiv.org/abs/2008.02726v2 ) ライセンス: Link先を確認 | A.N. Poddubny and M.M. Glazov | (参考訳) 銅酸化物半導体中の1次元のリドバーグ励起子の鎖において、トポロジカルスピン相が最近予測されている [Phys. Lett. 123, 126801 (2019); arXiv:1903.11951]。
この位相は、$p$-shell Exiton angular momenta-$1$の希釈反強磁性秩序と、akin spin-$1/2$フェルミオンのエッジ状態によって特徴づけられる。
本稿では,有限鎖における基底状態の性質と,エッジスピンの効果的な相互作用による微細構造について考察する。
これらのエッジ状態は、バルクからの放出と比較して、エッジ放出の円偏光の増強によって光学的に検出できることを示す。
チェーン内のエキシトン角運動量とトラップ数の分布を,変分アンサッツに基づいて数値的および解析的に計算する。 In one dimensional chains of trapped Rydberg excitons in cuprous oxide semiconductor the topological spin phase has been recently predicted [Phys. Rev. Lett. 123, 126801 (2019); arXiv:1903.11951]. This phase is characterized by the diluted antiferromagnetic order of $p$-shell exciton angular momenta-$1$ and the edge states behaving akin spin-$1/2$ fermions. Here we study the properties of the ground state in the finite chains and its fine structure resulting from the effective interaction of the edge spins. We demonstrate that these edge states can detected optically via the enhancement of the circular polarization of the edge emission as compared with the emission from the bulk. We calculate the distribution of the exciton angular momentum vs. trap number in the chain numerically and analytically based on the variational ansatz. | 翻訳日:2023-05-06 23:59:19 公開日:2020-09-02 |
# トラップオン量子コンピュータの材料課題 Materials Challenges for Trapped-Ion Quantum Computers ( http://arxiv.org/abs/2009.00568v2 ) ライセンス: Link先を確認 | Kenneth R. Brown, John Chiaverini, Jeremy Sage, and Hartmut H\"affner | (参考訳) 閉じ込められたイオン量子情報プロセッサは電場を介して自由空間に保持された原子イオンに情報を格納する。
量子論理は、イオンの内部および共有運動量子状態の光およびマイクロ波信号による操作によって実現される。
閉じ込められたイオンは量子エンハンスド計算、センシング、通信に非常に有望であるが、トラップ電極表面によって発生するほぼユビキタスな電界ノイズを最小限に抑えつつ、光学やエレクトロニクスといったシステムコンポーネントの統合による性能向上を可能にするトラップの設計には材料研究が必要である。
本稿では,このような統合システムの材料要件について考察し,現実的な量子計算への現在の進歩を妨げる問題に焦点をあてる。
我々は、材料科学者と捕捉イオン技術者が協力して材料ベースの統合とノイズ緩和戦略を開発し、次世代の閉じ込めイオン量子コンピュータを実現する方法を提案する。 Trapped-ion quantum information processors store information in atomic ions maintained in position in free space via electric fields. Quantum logic is enacted via manipulation of the ions' internal and shared motional quantum states using optical and microwave signals. While trapped ions show great promise for quantum-enhanced computation, sensing, and communication, materials research is needed to design traps that allow for improved performance by means of integration of system components, including optics and electronics for ion-qubit control, while minimizing the near-ubiquitous electric-field noise produced by trap-electrode surfaces. In this review, we consider the materials requirements for such integrated systems, with a focus on problems that hinder current progress toward practical quantum computation. We give suggestions for how materials scientists and trapped-ion technologists can work together to develop materials-based integration and noise-mitigation strategies to enable the next generation of trapped-ion quantum computers. | 翻訳日:2023-05-04 03:15:01 公開日:2020-09-02 |
# Y字形チャネルにおける駆動型双極子トランジスタ Driven Dipolariton Transistors in Y-shaped Channels ( http://arxiv.org/abs/2009.00824v1 ) ライセンス: Link先を確認 | Patrick Serafin, Tim Byrnes, German Kolmakov | (参考訳) エキシトン二極子をポラリトロントランジスタの動作要素を実現するためのプラットフォームとして検討した。
エキシトン・ディポラリトン(Exciton-Dipolaritons)は、光マイクロキャビティに埋め込まれた複層半導体システムにおいて、キャビティ光子、直接および間接励起子の3方向重ね合わせである。
二極子に対する強制拡散方程式を用いて,遷移金属ジカルコゲナイド(tmd)不均質二層中の二極子室温ダイナミクスについて検討した。
具体的には,二極子伝播を導くy字型チャネルが生成されるモーゼ$_2$-ws$_2$ヘテロ構造を考える。
極性信号は最適方向に駆動電圧を印加することでチャネルに再分配できることを示す。
本研究は,効率の良い室温双極子型光トランジスタの設計への道を開くものである。 Exciton-dipolaritons are investigated as a platform for realizing working elements of a polaritronic transistor. Exciton-dipolaritons are three-way superposition of cavity photons, direct and indirect excitons in a bilayer semiconducting system embedded in an optical microcavity. Using the forced diffusion equation for dipolaritons, we study the room-temperature dynamics of dipolaritons in a transition metal dichalcogenide (TMD) heterogeneous bilayer. Specifically, we considered a MoSe$_2$-WS$_2$ heterostructure, where a Y-shaped channel guiding the dipolariton propagation is produced. We demonstrate that polaritronic signals can be redistributed in the channels by applying a driving voltage in an optimal direction. Our findings open a route towards the design of an efficient room-temperature dipolariton-based optical transistor. | 翻訳日:2023-05-04 01:20:33 公開日:2020-09-02 |
# 1次元量子プロセッサを用いた完全プログラム可能な普遍量子シミュレータ Fully-programmable universal quantum simulator with a one-dimensional quantum processor ( http://arxiv.org/abs/2009.00823v1 ) ライセンス: Link先を確認 | V. M. Bastidas, T. Haug, C. Gravel, L.-C. Kwek, W. J. Munro, Kae Nemoto | (参考訳) 現在の量子デバイスは、古典的コンピュータでは難しい特定のタスクを実行し、エラー訂正なしでも物質科学や化学の量子シミュレーションのような問題を解決する可能性を秘めている。
実用化のためには、超伝導量子プロセッサが製造時に決定されるデバイスの接続性を再設定することが極めて望ましい。
さらに, 共振器に制御線路と結合部を慎重に設計する必要がある。
したがって、解決したい問題ごとに新しいデバイスを作るのは面倒で遅い作業です。
ここでは1次元鎖を周期的に駆動し、任意の接続性をシミュレートする効果的なハミルトン多様体を設計する。
本手法は,スター,オール・トゥ・オール,リング・コネクティビティをシミュレートするシステム駆動シーケンスを用いて,その性能を示す。
また,三体相互作用を含む3sat問題の最小例をシミュレートし,実験的に実現することが困難である。
提案手法は、任意のハミルトニアンを1つのデバイスと最適化された駆動列でストロボスコープでシミュレートすることで、近距離量子デバイスで量子シミュレーションを行うための新しいパラダイムを開拓する。 Current quantum devices execute specific tasks that are hard for classical computers and have the potential to solve problems such as quantum simulation of material science and chemistry, even without error correction. For practical applications it is highly desirable to reconfigure the connectivity of the device, which for superconducting quantum processors is determined at fabrication. In addition, we require a careful design of control lines and couplings to resonators for measurements. Therefore, it is a cumbersome and slow undertaking to fabricate a new device for each problem we want to solve. Here we periodically drive a one-dimensional chain to engineer effective Hamiltonians that simulate arbitrary connectivities. We demonstrate the capability of our method by engineering driving sequences to simulate star, all-to-all, and ring connectivities. We also simulate a minimal example of the 3-SAT problem including three-body interactions, which are difficult to realize experimentally. Our results open a new paradigm to perform quantum simulation in near term quantum devices by enabling us to stroboscopically simulate arbitrary Hamiltonians with a single device and optimized driving sequences | 翻訳日:2023-05-04 01:20:19 公開日:2020-09-02 |
# 離散位相変調を用いた2ファイル量子鍵分布の送受信 Sending-or-not-sending twin-filed quantum key distribution with discrete phase modulation ( http://arxiv.org/abs/2009.00816v1 ) ライセンス: Link先を確認 | Cong Jiang, Zong-Wen Yu, Xiao-Long Hu, Xiang-Bin Wang | (参考訳) 本稿では,コヒーレント状態の離散位相変調を用いたSNSプロトコルについて検討する。
まず、個別位相変調によるSNSプロトコルのセキュリティについて述べる。
次に、キーレート計算のための解析式を示す。
本稿では,従来のSNSプロトコルとSNSプロトコルの両方の離散位相変調によるキーレートの数値計算を,アクティブ・オード・パーティペアリング(AOPP)の2方向の古典的通信を用いて行う。
数値シミュレーションの結果,snsプロトコルの鍵レートが線形境界を超えるのは6ドルの位相値のみであり,12ドルの位相値の場合,連続的に変調された位相ランダム化を持つsnsプロトコルの結果に非常に近いことがわかった。 We study the sending-or-not-sending (SNS) protocol with discrete phase modulation of coherent states. We first make the security of the SNS protocol with discrete phase modulation. We then present analytic formulas for key rate calculation. We take numerical simulations for the key rate through discrete phase modulation of both the original SNS protocol and the SNS protocol with two way classical communications of active-odd-parity pairing (AOPP). Our numerical simulation results show that only with $6$ phase values, the key rates of the SNS protocol can exceed the linear bound, and with $12$ phase values, the key rates are very close to the results of the SNS protocol with continuously modulated phase-randomization. | 翻訳日:2023-05-04 01:19:58 公開日:2020-09-02 |
# 極端量子タイミング分解能の達成 Achieving the ultimate quantum timing resolution ( http://arxiv.org/abs/2009.01069v1 ) ライセンス: Link先を確認 | Vahid Ansari, Benjamin Brecht, Jano Gil-L\'opez, John M. Donohue, Jaroslav \v{R}eh\'a\v{c}ek, Zden\v{e}k Hradil, Luis L. S\'anchez-Soto, and Christine Silberhorn | (参考訳) 正確な時間遅延測定は多くの近代技術の中核にある。
ここでは、時間偏差、時間オフセット、および単光子レベルでの超短パルスの不整合混合の相対強度の同時推定の最終的な量子精度を達成するための時間モードデマルチプレクシング方式を提案する。
パルス持続時間より10倍小さい時間分離を実験的に解き、不均衡な強度は10^{2}$である。
これは、強度検出に基づく最高の標準手法よりも1桁以上改善されたことを意味する。 Accurate time-delay measurement is at the core of many modern technologies. Here, we present a temporal-mode demultiplexing scheme that achieves the ultimate quantum precision for the simultaneous estimation of the temporal centroid, the time offset, and the relative intensities of an incoherent mixture of ultrashort pulses at the single-photon level. We experimentally resolve temporal separations ten times smaller than the pulse duration, as well as imbalanced intensities differing by a factor of $10^{2}$. This represents an improvement of more than an order of magnitude over the best standard methods based on intensity detection. | 翻訳日:2023-05-04 01:12:54 公開日:2020-09-02 |
# 過減衰量子系における熱輸送 Heat transport in overdamped quantum systems ( http://arxiv.org/abs/2009.00904v1 ) ライセンス: Link先を確認 | Sadeq S. Kadijani, Thomas L. Schmidt, Massimiliano Esposito, Nahuel Freitas | (参考訳) 局部熱浴と異なる温度で相互作用する2つの過負荷量子発振器間の熱電流の解析式を得る。
総熱電流は古典的および量子的寄与に分けられる。
過減衰状態に伴う時間スケール分離を活用し, 通常の弱結合やマルコフ近似を仮定することなく, 両者の貢献度を評価する方法を示す。
非自明な量子補正は、システムの過度に損傷されたダイナミクスに関連する周波数スケールと比較して温度が高くても存続する。 We obtain an analytical expression for the heat current between two overdamped quantum oscillators interacting with local thermal baths at different temperatures. The total heat current is split into classical and quantum contributions. We show how to evaluate both contributions by taking advantage of the time scale separation associated with the overdamped regime, and without assuming the usual weak coupling and Markovian approximations. We find that non-trivial quantum corrections survive even when the temperatures are high compared to the frequency scale relevant for the overdamped dynamics of the system. | 翻訳日:2023-05-04 01:12:02 公開日:2020-09-02 |
# 相互作用する磁気軌道の単純なモデルにおける電荷振動 Charge oscillations in a simple model of interacting magnetic orbits ( http://arxiv.org/abs/2009.00900v1 ) ライセンス: Link先を確認 | Jean-Yves Fortin | (参考訳) 磁場中の2つ以上の相互作用する電子軌道の集合に対する特別な固有状態は、フェルミ曲面が結合した因子化ハミルトン多様体のクラスに対して研究される。
固有状態の構築を可能にする消滅生成演算子の存在条件について検討する。
2つの相互作用するサイクロトロン軌道の場合、重なり関数の振動と軌道間の電荷密度の移動を逆場の関数として考える。
フーリエ周波数の表現は半古典的な方法で与えられ、それらは電子バンドの幾何学的構造に依存する。
この構成の一般化は、正確な固有関数を持ついくつかの相互作用する軌道の連鎖に対して提供される。 Exact eigenstates for a set of two or more interacting electronic orbits in a magnetic field are studied for a class of factorized Hamiltonians with coupled Fermi surfaces. We study the condition for the existence of annihilation-creation operators that allows for the construction of eigenstates. For the case of two interacting cyclotronic orbits, we consider the oscillations of the overlap function and the transfer of charge density between the orbits as function of the inverse field. The expressions of the Fourier frequencies are given in the semiclassical regime and they depend on the geometrical structure of the electronic bands. A generalization of this construction is provided for a chain of several interacting orbits with exact eigenfunctions. | 翻訳日:2023-05-04 01:11:54 公開日:2020-09-02 |
# 双極子秩序初期状態を持つ多重量子NMRにおける多スピン絡み合い Many-spin entanglement in multiple quantum NMR with a dipolar ordered initial state ( http://arxiv.org/abs/2009.00889v1 ) ライセンス: Link先を確認 | Ilia D. Lazarev and Edward. B. Feldman | (参考訳) 双極子秩序の初期状態を持つ多重量子(MQ)NMRは、多スピン絡みの新しい可能性を開く。
本稿では,スピン担持分子(原子)の気体中の多スピン絡み合いを,二極規則初期状態のMQ NMR条件下で検討する。
量子フィッシャー情報に下界を与えるMQ NMRコヒーレンスの強度分布の第2モーメントは、絡み合ったスピンの数の推定に使用される。
多スピン絡み合いは、異なる温度と異なるスピン数で調べられる。 Multiple quantum (MQ) NMR with a dipolar ordered initial state opens new possibilities for the exploration of many-spin entanglement. In this paper, we investigate many-spin entanglement in a gas of spin-carrying molecules (atoms) in nanocavities in the conditions of MQ NMR with a dipolar ordered initial state. The second moment of the distribution of the intensities of MQ NMR coherences, which provides a lower bound on the quantum Fisher information, is used for an estimate of the number of the entangled spins. Many-spin entanglement is investigated at different temperatures and different numbers of spins. | 翻訳日:2023-05-04 01:11:45 公開日:2020-09-02 |
# 量子安定化器符号、格子およびCFT Quantum stabilizer codes, lattices, and CFTs ( http://arxiv.org/abs/2009.01244v1 ) ライセンス: Link先を確認 | Anatoly Dymarsky and Alfred Shapere | (参考訳) 古典的誤り訂正符号、ユークリッド格子、キラル共形場理論の間には豊富な関係がある。
ここでは、安定化型である量子誤り訂正符号がローレンツ格子や非キラル CFT と関連していることを示す。
より具体的には、実際の自己双対安定化符号は、自己双対ローレンツ格子さえも関連付けることができ、したがってナライン CFT を定義する。
得られた理論は CFT を符号化し、それらの性質を研究する。
コード CFT の T-双対変換は、基礎となるコードのレベルにおいて、コード等価度に還元される。
このような等価性により、任意の安定化符号をグラフ符号に還元することができる。
したがって、コードcftをグラフで表現できる。
我々は、小さな中心電荷$c=n\leq 12$のコードCFTを研究し、多くの興味深い例を見出す。
中でも非キラルな$E_8$理論は、E_8$の根格子を偶双対ローレンツ格子と解釈したものである。
すべてのグラフを$n\leq 8$ノードで解析することで、物理的に異なる等スペクトル理論の多くの対と三重項を見つける。
また、多くのモジュラ不変関数を CFT 分割関数が期待するすべての基本特性を満たすように構成するが、既知の CFT の分割関数ではない。
すべての符号理論上のアンサンブル平均を検討し、対応する分割関数を計算し、そのホログラフィック解釈について論じる。
論文は自己完結的に書かれており、広範な教育的紹介と多くの明示的な例を含んでいる。 There is a rich connection between classical error-correcting codes, Euclidean lattices, and chiral conformal field theories. Here we show that quantum error-correcting codes, those of the stabilizer type, are related to Lorentzian lattices and non-chiral CFTs. More specifically, real self-dual stabilizer codes can be associated with even self-dual Lorentzian lattices, and thus define Narain CFTs. We dub the resulting theories code CFTs and study their properties. T-duality transformations of a code CFT, at the level of the underlying code, reduce to code equivalences. By means of such equivalences, any stabilizer code can be reduced to a graph code. We can therefore represent code CFTs by graphs. We study code CFTs with small central charge $c=n\leq 12$, and find many interesting examples. Among them is a non-chiral $E_8$ theory, which is based on the root lattice of $E_8$ understood as an even self-dual Lorentzian lattice. By analyzing all graphs with $n\leq 8$ nodes we find many pairs and triples of physically distinct isospectral theories. We also construct numerous modular invariant functions satisfying all the basic properties expected of the CFT partition function, yet which are not partition functions of any known CFTs. We consider the ensemble average over all code theories, calculate the corresponding partition function, and discuss its possible holographic interpretation. The paper is written in a self-contained manner, and includes an extensive pedagogical introduction and many explicit examples. | 翻訳日:2023-05-04 01:05:53 公開日:2020-09-02 |
# 共焦点キャビティqedを用いた連想記憶のリコールと記憶容量の増強 Enhancing associative memory recall and storage capacity using confocal cavity QED ( http://arxiv.org/abs/2009.01227v1 ) ライセンス: Link先を確認 | Brendan P. Marsh, Yudan Guo, Ronen M. Kroeze, Sarang Gopalakrishnan, Surya Ganguli, Jonathan Keeling, and Benjamin L. Lev | (参考訳) 本稿では,連想記憶を実現するための短期実験プラットフォームを提案する。
縮退した多モード光学キャビティと結合したスピンボソンを用いて、多数の記憶を同時に記憶することができる。
連想記憶は共焦点空洞QEDニューラルネットワークによって実現され、空洞モードはシナプスとして機能し、ニューロンとして機能する超放射性原子スピンアンサンブルのネットワークを接続する。
記憶はスピン間の接続行列に符号化され、光のパターンの入力と出力を通してアクセスすることができる。
このスキームのそれぞれの側面は、共焦点空洞とボース凝縮原子を用いた最近実証された技術に基づいている。
私たちのスキームには概念的に新しい要素が2つあります。
まず, 物理パラメータを調整し, 強磁性とスピングラスレジームの間を補間する新しいランダムスピン系, 空洞内のアンサンブルの位置について紹介する。
第二に、さらに重要なことに、スピンはグラウバーのダイナミクスではなく、決定論的に最も急なdescent dynamicsによってリラックスする。
この非平衡量子光学スキームは、グラウバー力学よりも連想記憶において大きなアドバンテージを持つ:これらのダイナミクスは、標準的なホップフィールドモデル以上の記憶を記憶し記憶するネットワークの能力を高めることができる。
驚いたことに、空洞QEDダイナミクスは、システムがスピンガラス相である場合でも記憶を回復することができる。
このように、実験プラットフォームは、連想記憶とスピングラスの新たな物理的インスタンス化を提供するとともに、不可能と思われた状態においても記憶記憶を想起する異常なリラクゼーションダイナミクスを提供する。 We introduce a near-term experimental platform for realizing an associative memory. It can simultaneously store many memories by using spinful bosons coupled to a degenerate multimode optical cavity. The associative memory is realized by a confocal cavity QED neural network, with the cavity modes serving as the synapses, connecting a network of superradiant atomic spin ensembles, which serve as the neurons. Memories are encoded in the connectivity matrix between the spins, and can be accessed through the input and output of patterns of light. Each aspect of the scheme is based on recently demonstrated technology using a confocal cavity and Bose-condensed atoms. Our scheme has two conceptually novel elements. First, it introduces a new form of random spin system that interpolates between a ferromagnetic and a spin-glass regime as a physical parameter is tuned---the positions of ensembles within the cavity. Second, and more importantly, the spins relax via deterministic steepest-descent dynamics, rather than Glauber dynamics. We show that this nonequilibrium quantum-optical scheme has significant advantages for associative memory over Glauber dynamics: These dynamics can enhance the network's ability to store and recall memories beyond that of the standard Hopfield model. Surprisingly, the cavity QED dynamics can retrieve memories even when the system is in the spin glass phase. Thus, the experimental platform provides a novel physical instantiation of associative memories and spin glasses as well as provides an unusual form of relaxational dynamics that is conducive to memory recall even in regimes where it was thought to be impossible. | 翻訳日:2023-05-04 01:05:27 公開日:2020-09-02 |
# Sunway TaihuLightでの50光ガウスボソンサンプリングのベンチマーク Benchmarking 50-Photon Gaussian Boson Sampling on the Sunway TaihuLight ( http://arxiv.org/abs/2009.01177v1 ) ライセンス: Link先を確認 | Yuxuan Li, Mingcheng Chen, Yaojian Chen, Haitian Lu, Lin Gan, Chaoyang Lu, Jianwei Pan, Haohuan Fu, and Guangwen Yang | (参考訳) bosonサンプリングは、量子超越性を示す重要なマイルストーンの1つとして期待されている。
本研究では,Sunway TaihuLightスーパーコンピュータを用いたしきい値検出によるガウスボソンサンプリング(GBS)のベンチマークを確立する。
最適な性能を実現し、将来の量子コンピューティング研究のための競合シナリオを提供するため、選択されたシミュレーションアルゴリズムは、並列スキームと命令レベル最適化法を含む一連の革新的なアプローチに基づいて完全に最適化される。
さらに、適応精度最適化スキームとdagベースのヒューリスティック探索アルゴリズムにより、データの精度と命令スケジューリングを洗練された方法で処理する。
これらの手法に基づいて、高効率かつ並列な量子サンプリングアルゴリズムを設計する。
128ビットの精度で50光子gb、256ビットの精度で2日で100 x 100サブマトリックスの1つのトロント関数を20時間以内に得ることができる。 Boson sampling is expected to be one of an important milestones that will demonstrate quantum supremacy. The present work establishes the benchmarking of Gaussian boson sampling (GBS) with threshold detection based on the Sunway TaihuLight supercomputer. To achieve the best performance and provide a competitive scenario for future quantum computing studies, the selected simulation algorithm is fully optimized based on a set of innovative approaches, including a parallel scheme and instruction-level optimizing method. Furthermore, data precision and instruction scheduling are handled in a sophisticated manner by an adaptive precision optimization scheme and a DAG-based heuristic search algorithm, respectively. Based on these methods, a highly efficient and parallel quantum sampling algorithm is designed. The largest run enables us to obtain one Torontonian function of a 100 x 100 submatrix from 50-photon GBS within 20 hours in 128-bit precision and 2 days in 256-bit precision. | 翻訳日:2023-05-04 01:04:25 公開日:2020-09-02 |
# フォトニックリンクを用いた超伝導量子ビットの制御と読み出し Control and readout of a superconducting qubit using a photonic link ( http://arxiv.org/abs/2009.01167v1 ) ライセンス: Link先を確認 | F. Lecocq, F. Quinlan, K. Cicak, J. Aumentado, S. A. Diddams, J. D. Teufel | (参考訳) 汎用量子コンピュータの革命的な約束を実現するには、数百万の量子ビット(量子ビット)を持つプロセッサが必要になる。
超伝導量子プロセッサでは、各量子ビットは室温電子回路と量子回路の低温環境を接続するマイクロ波信号線で個別に処理される。
1キュービットあたりの複数の同軸線に関連する複雑さと熱負荷は、プロセッサのサイズを数千キュービットに制限する。
ここでは,光ファイバーを用いたフォトニックリンクを用いて,室温からの変調レーザ光を低温光検出器に誘導し,ミリケルビン温度で直接ショットノイズ制限マイクロ波信号を伝送する。
超伝導量子ビットの高忠実性制御と読み出しを示すことで、このフォトニックリンクが超伝導量子情報処理の厳密な要件を満たしていることを示す。
光ファイバの低熱伝導率と大きな内在帯域を活用することで、コヒーレントマイクロ波制御パルスの効率と大規模多重化が可能となり、100万量子ビットの普遍量子コンピュータへの道を歩むことができる。 Delivering on the revolutionary promise of a universal quantum computer will require processors with millions of quantum bits (qubits). In superconducting quantum processors, each qubit is individually addressed with microwave signal lines that connect room temperature electronics to the cryogenic environment of the quantum circuit. The complexity and heat load associated with the multiple coaxial lines per qubit limits the possible size of a processor to a few thousand qubits. Here we introduce a photonic link employing an optical fiber to guide modulated laser light from room temperature to a cryogenic photodetector, capable of delivering shot-noise limited microwave signals directly at millikelvin temperatures. By demonstrating high-fidelity control and readout of a superconducting qubit, we show that this photonic link can meet the stringent requirements of superconducting quantum information processing. Leveraging the low thermal conductivity and large intrinsic bandwidth of optical fiber enables efficient and massively multiplexed delivery of coherent microwave control pulses, providing a path towards a million-qubit universal quantum computer. | 翻訳日:2023-05-04 01:04:08 公開日:2020-09-02 |
# ウィグナーの友人、ファインマンの道と資料記録 Wigner's friend, Feynman's paths and material records ( http://arxiv.org/abs/2009.01113v1 ) ライセンス: Link先を確認 | A. Matzkin, D. Sokolovski | (参考訳) 量子力学における観測者の位置と役割は、理論の開始以来進行中の議論の対象となっている。
wigner氏はこの質問を、スーパーオブザーバーが友人が測定を行うのを観察する有名なシナリオで前面に挙げた。
ここでは、なぜ観測者の意識を導入する必要があるのか、あるいは量子測定理論の不一致を示すために、この \e{wigner friend scenario} が取られたのかを簡単にレビューする。
量子論は、観測結果に関する情報が物質的記録にどのように保存されているかについての最小限の仮定だけで、常に観察者をその物語から遠ざけることができると論じる。 The place and role of an Observer in quantum mechanics has been a subject of an ongoing debate since the theory's inception. Wigner brought this question to the fore in a celebrated scenario in which a super-Observer observes a Friend making a measurement. Here we briefly review why this \e{Wigner Friend scenario} has been taken to require the introduction of the Observer's consciousness, or alternatively to show the inconsistency of quantum measurement theory. We will argue that quantum theory can consistently leave observers outside its narrative, by making only minimal assumptions about how the information about the observed results is stored in material records. | 翻訳日:2023-05-04 01:03:33 公開日:2020-09-02 |
# rydberg級数励起による1つの閉じ込められた$^{40}$ca$^+$イオンのイオン化エネルギーの精密測定 Precision measurement of the ionization energy of a single trapped $^{40}$Ca$^+$ ion by Rydberg series excitation ( http://arxiv.org/abs/2009.01070v1 ) ライセンス: Link先を確認 | Justas Andrijauskas, Jonas Vogel, Arezoo Mokhberi and Ferdinand Schmidt-Kaler | (参考訳) 量子情報処理に閉じ込められたイオンのrydberg状態を使用する場合、分光データの完全なセットは不可欠である。
ライドバーグ級数(英語版)(rydberg series spectroscopy)を$ns_{1/2}$状態(38 \leq n \leq 65$)と$nd_{5/2}$状態(37\leq n \leq 50$)に対して、閉じ込められた$^{40}$ca$^+$イオン(英語版)で行った。
非線形回帰から共鳴周波数まで, 2 870 575.582(15) ghzのイオン化エネルギーを求め, 許容値と比較して60倍正確に測定し, 7.5標準偏差で測定した。
我々は、それぞれ$ns_{1/2}$と$nd_{5/2}$の状態に対して$\delta_{s_{1/2}}=1.802995(5)$と$\delta_{d_{5/2}}=0.626888(9)$の量子欠陥値を確認する。 A complete set of spectroscopic data is indispensable when using Rydberg states of trapped ions for quantum information processing. We carried out Rydberg series spectroscopy for $nS_{1/2}$ states with $38 \leq n \leq 65$ and for $nD_{5/2}$ states with $37\leq n \leq 50$ on a single trapped $^{40}$Ca$^+$ ion. From a nonlinear regression to resonance frequencies, we determined the ionization energy of 2 870 575.582(15) GHz, measured 60 times more accurately as compared to the accepted value and contradicting it by 7.5 standard deviations. We confirm quantum defect values of $\delta_{S_{1/2}}=1.802995(5)$ and $\delta_{D_{5/2}}=0.626888(9)$ for $nS_{1/2}$ and $nD_{5/2}$ states respectively, which allow for unambiguous addressing of Rydberg levels of Ca$^+$ ions. | 翻訳日:2023-05-04 01:02:45 公開日:2020-09-02 |
# D波量子アニールの直接対角化による電子構造 Electronic structure with direct diagonalization on a D-Wave quantum annealer ( http://arxiv.org/abs/2009.01373v1 ) ライセンス: Link先を確認 | Alexander Teplukhin, Brian K. Kendrick, Sergei Tretiak and Pavel A. Dub | (参考訳) 量子化学は量子コンピューティングによって革新される最初の分野の1つであると考えられている。
実用規模の普遍量子コンピュータは数年先にあるかもしれないが、現在、適切なアルゴリズムとソフトウェアベースを開発することで、短期ゲートベースの量子コンピュータと量子アニールの量子化学問題を解くために様々なアプローチが追求されている。
本研究は、d-wave 2000q量子アネラー上の分子電子ハミルトニアン固有値-固有ベクトル問題を解くための一般量子アネラー固有解法(qae)アルゴリズムを実装している。
この手法は行列の定式化に基づいており、2つのエンコーディング方式に基づく量子ビット資源を効率的に使用し、1つの古典的最適化パラメータのみに依存するハードウェア優位である。
本研究では,d-waveハードウェアを用いて,様々な分子系において地上および電子励起状態を得る方法を示す。
このアプローチは、従来の量子化学パッケージに実装されている電子構造法の大部分に応用することができる。
この研究の成果は、量子情報処理ハードウェアに有望な応用があり、古典的コンピュータにとって難解な大規模で複雑な最適化問題に対処できるqbsolvのようなソフトウェアの開発を促進する。 Quantum chemistry is regarded to be one of the first disciplines that will be revolutionized by quantum computing. Although universal quantum computers of practical scale may be years away, various approaches are currently being pursued to solve quantum chemistry problems on near-term gate-based quantum computers and quantum annealers by developing the appropriate algorithm and software base. This work implements the general Quantum Annealer Eigensolver (QAE) algorithm to solve the molecular electronic Hamiltonian eigenvalue-eigenvector problem on a D-Wave 2000Q quantum annealer. The approach is based on the matrix formulation, efficiently uses qubit resources based on a power-of-two encoding scheme and is hardware-dominant relying on only one classically optimized parameter. We demonstrate the use of D-Wave hardware for obtaining ground and electronically excited states across a variety of small molecular systems. This approach can be adapted for use by a vast majority of electronic structure methods currently implemented in conventional quantum-chemical packages. The results of this work will encourage further development of software such as qbsolv which has promising applications in emerging quantum information processing hardware and is able to address large and complex optimization problems intractable for classical computers. | 翻訳日:2023-05-04 00:54:44 公開日:2020-09-02 |
# 危機時の都市移動シミュレーションのための適応強化学習モデル Adaptive Reinforcement Learning Model for Simulation of Urban Mobility during Crises ( http://arxiv.org/abs/2009.01359v1 ) ライセンス: Link先を確認 | Chao Fan, Xiangqi Jiang, Ali Mostafavi | (参考訳) 本研究の目的は,洪水,山火事,ハリケーンなどの災害に伴う変動に伴う人間の移動パターンを正常な文脈で学習し,モビリティをシミュレートする適応型強化学習モデルを提案することである。
目的地や軌道選択などの人間の移動パターンを理解し予測することは、緊急時の混乱によって引き起こされる渋滞や道路閉鎖を知らせることができる。
人間の動きの軌跡に関するデータは、特に緊急時の文脈において、経験的データから学んだ既存の都市移動モデルの応用に制限を課す、乏しい。
緊急対応や都市のレジリエンス評価を知らせるためには、通常の状況で生成されたデータからモビリティパターンを学習し、緊急状況に適応できるモデルが必要となる。
このギャップに対処するため,本研究は,運動の行き先を予測し,起点と行き先の組み合わせの軌跡を推定し,行き先と動きの軌跡に関する人間の判断に対する摂動の影響を検証できる適応強化学習モデルを作成し,実験を行った。
提案モデルの適用例はヒューストンの状況と,2017年8月のハリケーン・ハーベイによる洪水シナリオで示されている。
その結果、モデルは76\%以上の精度とリコールを達成できることがわかった。
また,このモデルが都市洪水による交通パターンや混雑を予測できることを示した。
分析の結果,危機時の都市移動度分析モデルの有効性が示され,住民や意思決定者が対応戦略やレジリエンス計画について報告し,危機が都市移動に与える影響を低減することができる。 The objective of this study is to propose and test an adaptive reinforcement learning model that can learn the patterns of human mobility in a normal context and simulate the mobility during perturbations caused by crises, such as flooding, wildfire, and hurricanes. Understanding and predicting human mobility patterns, such as destination and trajectory selection, can inform emerging congestion and road closures raised by disruptions in emergencies. Data related to human movement trajectories are scarce, especially in the context of emergencies, which places a limitation on applications of existing urban mobility models learned from empirical data. Models with the capability of learning the mobility patterns from data generated in normal situations and which can adapt to emergency situations are needed to inform emergency response and urban resilience assessments. To address this gap, this study creates and tests an adaptive reinforcement learning model that can predict the destinations of movements, estimate the trajectory for each origin and destination pair, and examine the impact of perturbations on humans' decisions related to destinations and movement trajectories. The application of the proposed model is shown in the context of Houston and the flooding scenario caused by Hurricane Harvey in August 2017. The results show that the model can achieve more than 76\% precision and recall. The results also show that the model could predict traffic patterns and congestion resulting from to urban flooding. The outcomes of the analysis demonstrate the capabilities of the model for analyzing urban mobility during crises, which can inform the public and decision-makers about the response strategies and resilience planning to reduce the impacts of crises on urban mobility. | 翻訳日:2023-05-04 00:54:22 公開日:2020-09-02 |
# ジェンダーステレオタイプの強化:ランク付けアルゴリズムによるジェンダーバイアスの測定 Gender Stereotype Reinforcement: Measuring the Gender Bias Conveyed by Ranking Algorithms ( http://arxiv.org/abs/2009.01334v1 ) ライセンス: Link先を確認 | Alessandro Fabris, Alberto Purpura, Gianmaria Silvello, Gian Antonio Susto | (参考訳) 検索エンジン (SE) は、心理学文献においてよく知られた性別のステレオタイプを永続し、それに応じてユーザーに影響を与えることが示されている。
同様のバイアスは、大規模なオンラインコーパスから学んだWord Embeddings (WEs)にエンコードされている。
本稿では,性別ステレオタイプをサポートするSEの傾向を定量化し,WESで符号化された性別関連情報を活用するジェンダーステレオタイプ強化(GSR)尺度を提案する。
構成妥当性の臨界レンズを用いて,合成および実コレクションに関する提案手法を検証した。
その後,gsrを用いて,語彙,意味,ニューラルモデルなど,広く用いられている情報検索ランキングアルゴリズムを比較する。
WEsに基づくランキングアルゴリズムが、基礎となる埋め込みのバイアスを継承するかどうかと方法を確認する。
また,本論文で提案するwesの最も一般的なデバイアスアプローチを考察し,gsrと共通評価尺度を用いてその影響を検証した。
我々の知識を最大限に活用するために、GSRは、表現的害を定量化できるIRの最初の特別に調整された尺度である。 Search Engines (SE) have been shown to perpetuate well-known gender stereotypes identified in psychology literature and to influence users accordingly. Similar biases were found encoded in Word Embeddings (WEs) learned from large online corpora. In this context, we propose the Gender Stereotype Reinforcement (GSR) measure, which quantifies the tendency of a SE to support gender stereotypes, leveraging gender-related information encoded in WEs. Through the critical lens of construct validity, we validate the proposed measure on synthetic and real collections. Subsequently, we use GSR to compare widely-used Information Retrieval ranking algorithms, including lexical, semantic, and neural models. We check if and how ranking algorithms based on WEs inherit the biases of the underlying embeddings. We also consider the most common debiasing approaches for WEs proposed in the literature and test their impact in terms of GSR and common performance measures. To the best of our knowledge, GSR is the first specifically tailored measure for IR, capable of quantifying representational harms. | 翻訳日:2023-05-04 00:53:55 公開日:2020-09-02 |
# クロス共振エンタングリングを用いた超伝導トランスモン量子プロセッサのcnotゲート動作の非対称性 Asymmetry of CNOT gate operation in superconducting transmon quantum processors using cross-resonance entangling ( http://arxiv.org/abs/2009.01333v1 ) ライセンス: Link先を確認 | Travis Hurant, Daniel D. Stancil | (参考訳) 制御NOT(CNOT)ゲートは一般に量子プロセッサの標準ゲートセットに含まれ、量子ビットを絡める重要な方法を提供する。
クロス共振エンタングリング技術を用いた固定周波数量子ビットの場合、低周波量子ビットを制御するために高周波量子ビットを使用すると、低周波量子ビットを制御として使用するよりもずっと短いエンタングリング時間が得られる。
そのため、低周波量子ビットによる論理制御が必要なCNOTゲートを実装する場合、コンパイラは高周波量子ビットによって制御されるCNOTゲートの前後の両キュービットにアダマールゲートを配置する等の等価回路を用いてこの機能を実装することができる。
しかし、どのキュービットが制御であるかによって実装が異なるため、実装の相対的な性能に関して自然な疑問が生じる。
我々はIBM Qネットワーク上で量子プロセッサを用いてこれを探索した。
基本回路はベル状態を生成するための操作で構成され、次に逆演算によりエラーがないときにキュービットを初期状態に戻す(Hadamard + CNOT + barrier + CNOT + Hadamard)。
回路深さは、この基本回路の倍数を用いて変化した。
回路の深さとともに増加する最終状態の誤差の非対称性が観察された。
非対称性の強さと方向は独特であるが、それぞれの結合量子ビットに対して反復可能である。
この観察は、CNOT実装における非対称性は、特定の計算に最適な精度を得るために、興味の量子ビットを特徴付け、回路トランスパイレーションに組み込むべきであることを示唆している。 Controlled-NOT (CNOT) gates are commonly included in the standard gate set of quantum processors and provide an important way to entangle qubits. For fixed-frequency qubits using the cross-resonance entangling technique, using the higher-frequency qubit to control the lower-frequency qubit enables much shorter entangling times than using the lower-frequency qubit as the control. Consequently, when implementing a CNOT gate where logical control by the lower-frequency qubit is needed, compilers may implement this functionality by using an equivalent circuit such as placing Hadamard gates on both qubits before and after a CNOT gate controlled by the higher-frequency qubit. However, since the implementation is different depending on which qubit is the control, a natural question arises regarding the relative performance of the implementations. We have explored this using quantum processors on the IBM Q network. The basic circuit used consisted of operations to create a Bell State, followed by the inverse operations so as to return the qubits to their initial state in the absence of errors (Hadamard + CNOT + barrier + CNOT + Hadamard). The circuit depth was varied using multiples of this basic circuit. An asymmetry in the error of the final state was observed that increased with the circuit depth. The strength and direction of the asymmetry was unique but repeatable for each pair of coupled qubits tested. This observation suggests that the asymmetry in CNOT implementation should be characterized for the qubits of interest and incorporated into circuit transpilation to obtain the best accuracy for a particular computation. | 翻訳日:2023-05-04 00:53:37 公開日:2020-09-02 |
# 量子コンピュータを用いた光合成系における非放射エネルギー移動のシミュレーション Simulation of non-radiative energy transfer in photosynthetic systems using a quantum computer ( http://arxiv.org/abs/2009.01283v1 ) ライセンス: Link先を確認 | Jos\'e Diogo Guimar\~aes, Carlos Tavares, Lu\'is Soares Barbosa and Mikhail I. Vasilevskiy | (参考訳) 光合成は自然界において重要かつ複雑な物理過程であり、その包括的理解はエネルギー生産の分野で多くの関連する産業応用をもたらす。
本稿では,光合成過程の第1段階で発生するエネルギーの励起子輸送のシミュレーションのための量子アルゴリズムを提案する。
このアルゴリズムは、量子輸送に影響を与える(純粋に強調する)量子効果と環境効果を考慮に入れる。
このような現象の量子シミュレーションを、概念実証のために、ibm qが5量子ビットである実際の量子コンピュータで実施した。
その結果をhaken-str\"oblモデルを用いて検証し,エネルギー輸送効率に及ぼす環境パラメータの影響について考察した。 Photosynthesis is an important and complex physical process in nature, whose comprehensive understanding would have many relevant industrial applications, for instance in the field of energy production. In this paper we propose a quantum algorithm for the simulation of the excitonic transport of energy, occurring in the first stage of the process of photosynthesis. The algorithm takes in account the quantum and environmental effects (pure-dephasing), influencing the quantum transport. We performed quantum simulations of such phenomena, for a proof of concept scenario, in an actual quantum computer the IBM Q, of 5 qubits. We validate the results with the Haken-Str\"obl model and discuss the influence of environmental parameters on the efficiency of the energy transport. | 翻訳日:2023-05-04 00:52:56 公開日:2020-09-02 |
# COVID-19:情報戦のパラダイムシフト COVID-19: The Information Warfare Paradigm Shift ( http://arxiv.org/abs/2009.01267v1 ) ライセンス: Link先を確認 | Jan Kallberg, Rosemary A. Burk, and Bhavani Thuraisingham | (参考訳) クーンの『科学革命の構造』において、批判的な用語は、初期の仮定がもはや正しくないことが突然明らかになるとパラダイムシフトであり、この領域を研究する複数の科学コミュニティがこの変化を受け入れる。
この種の出来事は、科学的な発見や、社会科学のシステムショックのように、発達の段階を規定する時間的均衡を生み出す可能性がある。
近年の情報戦においては、フェイクニュースや選挙干渉、過激派ソーシャルメディアを情報空間における主要な戦闘劇場として戦うための研究や政府の努力や、対象とする聴衆に影響を与えるためのツールが研究されている。
新型コロナウイルス(COVID-19)のパンデミックは、こうした仮定に反論する。
偽ニュースや過激なソーシャルメディアコンテンツが私たちの社会の過ちを悪用し、市民の混乱、連邦政府と地方政府の間の緊張、そして大規模な抗議を生んだとしても、人口の一部に影響を与えている。
新型コロナウイルス(COVID-19)が示すのは、公衆衛生に関連するものは、市民の感情を揺さぶり、複数の方向に社会に波及した大きな影響を誘発する反応を起こすのに、はるかに強力であるということだ。 In Kuhn's The Structure of Scientific Revolutions, the critical term is paradigm-shift when it suddenly becomes evident that earlier assumptions no longer are correct and the plurality of the scientific community that studies this domain accepts the change. These types of events can be scientific findings or as in social science system shock that creates a punctured equilibrium that sets the stage in the developments. In information warfare, recent years studies and government lines of efforts have been to engage fake news, electoral interference, and fight extremist social media as the primary combat theater in the information space, and the tools to influence a targeted audience. The COVID-19 pandemic generates a rebuttal of these assumptions. Even if fake news and extremist social media content may exploit fault lines in our society and create a civil disturbance, tensions between federal and local government, and massive protests, it is still effects that impact a part of the population. What we have seen with COVID-19, as an indicator, is that what is related to public health is far more powerful to swing public sentiment and create reactions within the citizenry that are trigger impact at a larger magnitude that has rippled through society in multiple directions. | 翻訳日:2023-05-04 00:52:45 公開日:2020-09-02 |
# 畳み込みニューラルネットワークを用いたマルチクラス分類による生体ネットワークのロバスト性と進化性予測 Antifragility Predicts the Robustness and Evolvability of Biological Networks through Multi-class Classification with a Convolutional Neural Network ( http://arxiv.org/abs/2002.01571v2 ) ライセンス: Link先を確認 | Hyobin Kim, Stalin Mu\~noz, Pamela Osuna, and Carlos Gershenson | (参考訳) ロバスト性と進化性は生物学的ネットワークの進化に不可欠な性質である。
生物学的ネットワークが堅牢で/または進化可能なかどうかを判断するためには、突然変異前後の機能を比較する必要がある。
しかし、ネットワークサイズが大きくなると計算コストが高くなることがある。
本稿では,生体ネットワークのロバスト性と進化性を予測するための予測手法を,関数の明示的な比較なしに開発する。
生体システムのブールネットワークモデルにおける抗フラジティを計測し,これを予測器として用いる。
システムは外部の摂動から恩恵を受ける。
もともとの生体ネットワークと変異した生体ネットワークとの抗フラグビリティの違いによって、畳み込みニューラルネットワーク(cnn)を訓練し、それをテストしてロバスト性と進化性の性質を分類する。
CNNモデルは、プロパティの分類に成功しました。
その結果, 生体ネットワークのロバスト性と進化性を予測する指標として, 抗フラギリティー尺度が有用であることがわかった。 Robustness and evolvability are essential properties to the evolution of biological networks. To determine if a biological network is robust and/or evolvable, it is required to compare its functions before and after mutations. However, this sometimes takes a high computational cost as the network size grows. Here we develop a predictive method to estimate the robustness and evolvability of biological networks without an explicit comparison of functions. We measure antifragility in Boolean network models of biological systems and use this as the predictor. Antifragility occurs when a system benefits from external perturbations. By means of the differences of antifragility between the original and mutated biological networks, we train a convolutional neural network (CNN) and test it to classify the properties of robustness and evolvability. We found that our CNN model successfully classified the properties. Thus, we conclude that our antifragility measure can be used as a predictor of the robustness and evolvability of biological networks. | 翻訳日:2023-01-04 03:44:15 公開日:2020-09-02 |
# 時系列からの因果構造学習:小さなp値よりも実際に因果関係を予測できる大きな回帰係数 Causal structure learning from time series: Large regression coefficients may predict causal links better in practice than small p-values ( http://arxiv.org/abs/2002.09573v2 ) ライセンス: Link先を確認 | Sebastian Weichwald, Martin E Jakobsen, Phillip B Mogensen, Lasse Petersen, Nikolaj Thams, Gherardo Varando | (参考訳) 本稿では,2019年神経情報処理システム会議(neurips)におけるcausality 4気候コンペティションで優勝した時系列データから,因果構造学習のためのアルゴリズムについて述べる。
確立されたアイデアの組み合わせが,実世界の地球科学データに共通する課題を示す半現実的かつ現実的な時系列データにおいて,どのように競争性能を達成するかを検討する。
特に私たちは
a) 非線形システムにおける因果関係を特定するための線形方法を活用するための根拠
b) 大きな回帰係数が小さなp値よりも実際に因果関係を予測できる理由と、データの正規化が因果構造学習を阻害することがある理由に関するシミュレーションによる説明
ベンチマークの使い方については、ここでアルゴリズムを詳述し、https://github.com/sweichwald/tidybench で実装します。
本稿では,時系列からの構造学習のための新しいアルゴリズムの開発を導くために,基準ベンチマーク比較のためのコンペティション提案手法を提案する。 In this article, we describe the algorithms for causal structure learning from time series data that won the Causality 4 Climate competition at the Conference on Neural Information Processing Systems 2019 (NeurIPS). We examine how our combination of established ideas achieves competitive performance on semi-realistic and realistic time series data exhibiting common challenges in real-world Earth sciences data. In particular, we discuss a) a rationale for leveraging linear methods to identify causal links in non-linear systems, b) a simulation-backed explanation as to why large regression coefficients may predict causal links better in practice than small p-values and thus why normalising the data may sometimes hinder causal structure learning. For benchmark usage, we detail the algorithms here and provide implementations at https://github.com/sweichwald/tidybench . We propose the presented competition-proven methods for baseline benchmark comparisons to guide the development of novel algorithms for structure learning from time series. | 翻訳日:2022-12-30 01:09:02 公開日:2020-09-02 |
# バンディットフィードバックによる機械翻訳システム選択 Machine Translation System Selection from Bandit Feedback ( http://arxiv.org/abs/2002.09646v2 ) ライセンス: Link先を確認 | Jason Naradowsky, Xuan Zhang, Kevin Duh | (参考訳) 実世界における機械翻訳システムへの適応は難しい問題である。
オフライントレーニングとは対照的に、ユーザはシステム改善に一般的に使用される細かなフィードバック(正しい翻訳など)のタイプを提供できない。
さらに、異なるユーザは異なる翻訳ニーズを持ち、単一のユーザのニーズさえ時間が経つにつれて変わる可能性がある。
本研究では、適応の問題を選択の1つとして扱い、異なるアプローチをとる。
単一のシステムを適用する代わりに、異なるアーキテクチャ、データセット、最適化メソッドを使用して多くの翻訳システムをトレーニングします。
ユーザフィードバックを模擬した帯域学習技術を用いて,特定の翻訳タスクに使用するシステムを選択するためのポリシーを学習する。
提案手法は,(1)翻訳タスクにおけるドメイン変更に迅速に対応できること,(2)混合ドメイン翻訳タスクにおいて単一最良システムより優れていること,(3)コンテキスト的バンディット戦略を用いる場合のインスタンス固有決定を効果的に行うこと,などを示す。 Adapting machine translation systems in the real world is a difficult problem. In contrast to offline training, users cannot provide the type of fine-grained feedback (such as correct translations) typically used for improving the system. Moreover, different users have different translation needs, and even a single user's needs may change over time. In this work we take a different approach, treating the problem of adaptation as one of selection. Instead of adapting a single system, we train many translation systems using different architectures, datasets, and optimization methods. Using bandit learning techniques on simulated user feedback, we learn a policy to choose which system to use for a particular translation task. We show that our approach can (1) quickly adapt to address domain changes in translation tasks, (2) outperform the single best system in mixed-domain translation tasks, and (3) make effective instance-specific decisions when using contextual bandit strategies. | 翻訳日:2022-12-29 19:29:00 公開日:2020-09-02 |
# Augmented Abstract Trainingによるプログラマブル文字列変換のロバスト性 Robustness to Programmable String Transformations via Augmented Abstract Training ( http://arxiv.org/abs/2002.09579v4 ) ライセンス: Link先を確認 | Yuhao Zhang, Aws Albarghouthi, Loris D'Antoni | (参考訳) 自然言語処理タスクのためのディープニューラルネットワークは、逆入力摂動に対して脆弱である。
本稿では,手元のタスクに関連する文字列変換(挿入,削除,置換,スワップなど)をプログラム的に指定するための汎用言語を提案する。
次に、このようなユーザ定義文字列変換に対して堅牢なモデルを逆トレーニングするアプローチを提案する。
本手法は,検索ベースの手法のアドバンテージと抽象的手法を組み合わせたものである。
具体的には,ユーザ定義文字列変換の集合を2つのコンポーネント仕様に分解する方法を示す。
我々はこの手法を用いてAGとSST2データセットのモデルをトレーニングし、結果として得られたモデルがスペルミスやその他の意味保存変換を模倣したユーザ定義変換の組み合わせに対して堅牢であることを示す。 Deep neural networks for natural language processing tasks are vulnerable to adversarial input perturbations. In this paper, we present a versatile language for programmatically specifying string transformations -- e.g., insertions, deletions, substitutions, swaps, etc. -- that are relevant to the task at hand. We then present an approach to adversarially training models that are robust to such user-defined string transformations. Our approach combines the advantages of search-based techniques for adversarial training with abstraction-based techniques. Specifically, we show how to decompose a set of user-defined string transformations into two component specifications, one that benefits from search and another from abstraction. We use our technique to train models on the AG and SST2 datasets and show that the resulting models are robust to combinations of user-defined transformations mimicking spelling mistakes and other meaning-preserving transformations. | 翻訳日:2022-12-29 18:43:24 公開日:2020-09-02 |
# 混合整数関数DCOPの解法における最適温度領域の学習 Learning Optimal Temperature Region for Solving Mixed Integer Functional DCOPs ( http://arxiv.org/abs/2002.12001v2 ) ライセンス: Link先を確認 | Saaduddin Mahmud, Md. Mosaddek Khan, Moumita Choudhury, Long Tran-Thanh and Nicholas R. Jennings | (参考訳) 分散制約最適化問題(DCOP)は、離散変数の集合を持つマルチエージェントシステムにおいて、協調決定問題をモデル化するための重要なフレームワークである。
その後の研究では、関数型DCOP(F-DCOP)と呼ばれる連続変数の集合で問題をモデル化するためにDCOPを拡張した。
本稿では,これら2つのフレームワークをMIF-DCOP(Mixed Integer Functional DCOP)フレームワークに統合し,変数の型に関係なく問題に対処する。
次に、エージェントがアルゴリズムの最適パラメータ設定を協調的に学習し、学習知識を用いて与えられた問題を解く、新しいアルゴリズムである$-$Distributed Parallel Simulated Annealing (DPSA)を提案する。
最後に,本手法をDCOP,F-DCOP,MIF-DCOP設定で実証的に評価し,DPSAが対応する設定における最先端の非現実的アルゴリズムよりもはるかに優れた品質の解を生成することを示す。 Distributed Constraint Optimization Problems (DCOPs) are an important framework for modeling coordinated decision-making problems in multi-agent systems with a set of discrete variables. Later works have extended DCOPs to model problems with a set of continuous variables, named Functional DCOPs (F-DCOPs). In this paper, we combine both of these frameworks into the Mixed Integer Functional DCOP (MIF-DCOP) framework that can deal with problems regardless of their variables' type. We then propose a novel algorithm $-$ Distributed Parallel Simulated Annealing (DPSA), where agents cooperatively learn the optimal parameter configuration for the algorithm while also solving the given problem using the learned knowledge. Finally, we empirically evaluate our approach in DCOP, F-DCOP, and MIF-DCOP settings and show that DPSA produces solutions of significantly better quality than the state-of-the-art non-exact algorithms in their corresponding settings. | 翻訳日:2022-12-28 09:08:21 公開日:2020-09-02 |
# Leap Motionセンサーと畳み込みニューラルネットワークを用いた3次元手動作認識 3D dynamic hand gestures recognition using the Leap Motion sensor and convolutional neural networks ( http://arxiv.org/abs/2003.01450v3 ) ライセンス: Link先を確認 | Katia Lupinetti, Andrea Ranieri, Franca Giannini, Marina Monti | (参考訳) ジェスチャーの自動理解のための方法を定義することは、より自然で使いやすいヒューマンコンピュータインタラクション手法を作成するために、多くのアプリケーションコンテキストや仮想現実アプリケーションにおいて最重要となる。
本稿では,Leap Motionセンサーを用いて取得した非静的なジェスチャーの認識方法を提案する。
取得したジェスチャ情報はカラー画像に変換され、ジェスチャ中の手関節位置の変動が平面上に投影され、時間情報は投影された点の色強度で表現される。
ジェスチャーの分類は深層畳み込みニューラルネットワーク(CNN)を用いて行われる。
一般的なresnet-50アーキテクチャの修正版が採用され、最後の完全接続層を取り除き、考慮されたジェスチャークラスと同じ数のニューロンを持つ新しい層を追加することで得られる。
本手法は既存の参照データセットに適用に成功しており,ユーザによる動的ジェスチャのリアルタイム認識のための予備テストがすでに行われている。 Defining methods for the automatic understanding of gestures is of paramount importance in many application contexts and in Virtual Reality applications for creating more natural and easy-to-use human-computer interaction methods. In this paper, we present a method for the recognition of a set of non-static gestures acquired through the Leap Motion sensor. The acquired gesture information is converted in color images, where the variation of hand joint positions during the gesture are projected on a plane and temporal information is represented with color intensity of the projected points. The classification of the gestures is performed using a deep Convolutional Neural Network (CNN). A modified version of the popular ResNet-50 architecture is adopted, obtained by removing the last fully connected layer and adding a new layer with as many neurons as the considered gesture classes. The method has been successfully applied to the existing reference dataset and preliminary tests have already been performed for the real-time recognition of dynamic gestures performed by users. | 翻訳日:2022-12-26 22:34:02 公開日:2020-09-02 |
# LIMP: Metric Preservation Priorsを用いた潜在形状表現の学習 LIMP: Learning Latent Shape Representations with Metric Preservation Priors ( http://arxiv.org/abs/2003.12283v2 ) ライセンス: Link先を確認 | Luca Cosmo, Antonio Norelli, Oshri Halimi, Ron Kimmel, Emanuele Rodol\`a | (参考訳) 本稿では,変形可能な3次元形状の潜在表現を学習するための強力な事前知識として,計量保存の採用を提唱する。
我々の構成の鍵は、デコードされた形状に直接定義された幾何学的歪み基準の導入であり、デコード上の計量の保存を基礎となる潜在空間における線形経路の形成に翻訳する。
我々の理論的根拠は、トレーニングサンプルだけでは、高忠実な生成モデルを実現するには不十分であり、大規模なトレーニングデータセットの必要性を動機付けている。
対照的に、計量保存は、潜在空間の構築に生じる幾何学的歪みの量を制御するための厳密な方法を提供し、より高品質な合成サンプルへと繋がる。
さらに, 測地線損失のバックプロパゲーションにおいて, 微分可能な固有距離が採用されることを初めて示す。
我々の幾何学的先行は、有意義な潜在構造を学習することが特に困難であるような、希少なトレーニングデータの存在に特に関係している。
本モデルの有効性と可能性について, スタイル伝達, コンテンツ生成, 形状完備化の応用例を示した。 In this paper, we advocate the adoption of metric preservation as a powerful prior for learning latent representations of deformable 3D shapes. Key to our construction is the introduction of a geometric distortion criterion, defined directly on the decoded shapes, translating the preservation of the metric on the decoding to the formation of linear paths in the underlying latent space. Our rationale lies in the observation that training samples alone are often insufficient to endow generative models with high fidelity, motivating the need for large training datasets. In contrast, metric preservation provides a rigorous way to control the amount of geometric distortion incurring in the construction of the latent space, leading in turn to synthetic samples of higher quality. We further demonstrate, for the first time, the adoption of differentiable intrinsic distances in the backpropagation of a geodesic loss. Our geometric priors are particularly relevant in the presence of scarce training data, where learning any meaningful latent structure can be especially challenging. The effectiveness and potential of our generative model is showcased in applications of style transfer, content generation, and shape completion. | 翻訳日:2022-12-19 04:44:07 公開日:2020-09-02 |
# SPARE3D: 3次元線描画におけるSPAtial Reasoningのデータセット SPARE3D: A Dataset for SPAtial REasoning on Three-View Line Drawings ( http://arxiv.org/abs/2003.14034v2 ) ライセンス: Link先を確認 | Wenyu Han, Siyuan Xiang, Chenhui Liu, Ruoyu Wang, Chen Feng | (参考訳) 空間的推論は人間の知能の重要な要素である。
3次元物体の形状を想像し、その空間的関係を2次元の3次元線図で見るだけで説明できる。
深層ネットワークは空間推論タスクを実行するために訓練できるのか?
どのようにして彼らの「空間知性」を計測できるのか?
これらの質問に答えるために、SPARE3Dデータセットを示す。
認知科学と心理測定に基づいて、SPARE3Dは視野の整合性、カメラポーズ、形状生成の3種類の2D-3D推論タスクを含む。
次に,課題ごとの真理回答を基礎として,多数の課題を自動生成する手法を設計する。
ResNetのような最先端アーキテクチャを使ってベースラインモデルをトレーニングするための監視を提供するために使用される。
実験の結果,多くの視覚学習タスクにおいて畳み込みネットワークは超人的性能を達成したが,SPARE3Dタスクにおける空間推論性能は平均人的性能よりも低いか,あるいはランダムな推測に近いかのどちらかであった。
SPARE3Dは、空間推論のための新しい問題定式化やネットワーク設計を刺激し、インテリジェントロボットが2Dセンサーを介して3D世界で効果的に動作できるようにすることを願っている。
データセットとコードはhttps://ai4ce.github.io/spare3dで入手できる。 Spatial reasoning is an important component of human intelligence. We can imagine the shapes of 3D objects and reason about their spatial relations by merely looking at their three-view line drawings in 2D, with different levels of competence. Can deep networks be trained to perform spatial reasoning tasks? How can we measure their "spatial intelligence"? To answer these questions, we present the SPARE3D dataset. Based on cognitive science and psychometrics, SPARE3D contains three types of 2D-3D reasoning tasks on view consistency, camera pose, and shape generation, with increasing difficulty. We then design a method to automatically generate a large number of challenging questions with ground truth answers for each task. They are used to provide supervision for training our baseline models using state-of-the-art architectures like ResNet. Our experiments show that although convolutional networks have achieved superhuman performance in many visual learning tasks, their spatial reasoning performance on SPARE3D tasks is either lower than average human performance or even close to random guesses. We hope SPARE3D can stimulate new problem formulations and network designs for spatial reasoning to empower intelligent robots to operate effectively in the 3D world via 2D sensors. The dataset and code are available at https://ai4ce.github.io/SPARE3D. | 翻訳日:2022-12-18 00:50:06 公開日:2020-09-02 |
# 事前学習言語モデルを用いたディープエンティティマッチング Deep Entity Matching with Pre-Trained Language Models ( http://arxiv.org/abs/2004.00584v3 ) ライセンス: Link先を確認 | Yuliang Li, Jinfeng Li, Yoshihiko Suhara, AnHai Doan, Wang-Chiew Tan | (参考訳) 本稿では,事前学習したトランスフォーマーに基づく言語モデルに基づく新しいエンティティマッチングシステムDittoを提案する。
我々は、EMをシーケンスペア分類問題として微調整し、簡単なアーキテクチャでそのようなモデルを活用する。
実験の結果,大容量テキストコーパス上で事前学習したBERT, DistilBERT, RoBERTaなどの言語モデルの直接適用により,マッチング品質が向上し,ベンチマークデータセット上でF1スコアの最大29%がSOTA(State-of-the-art)よりも優れていた。
また,Dittoのマッチング機能を改善するために3つの最適化手法を開発した。
dittoは、一致する決定を行う際に関心のある重要な入力情報の一部を強調することで、ドメイン知識を注入できる。
Dittoはまた、重要な情報のみを保持してEMに使用するのに長すぎる文字列を要約している。
最後に、Dittoはテキストのデータ拡張にSOTA技術を適用し、(難解な)例でトレーニングデータを拡張する。
このようにして、ディットーはモデルのマッチング能力を改善するために「よりハード」を学ぶことを余儀なくされる。
私たちが開発した最適化により、dittoのパフォーマンスはさらに9.8%向上しました。
おそらくもっと驚くべきことに、Dittoはラベル付きデータの半分以上のデータで以前のSOTA結果を達成することができる。
最後に,実世界の大規模EMタスクにおけるDittoの有効性を示す。
789Kと412Kの2つの企業データセットをマッチングすると、Dittoは96.5%という高いF1スコアを達成した。 We present Ditto, a novel entity matching system based on pre-trained Transformer-based language models. We fine-tune and cast EM as a sequence-pair classification problem to leverage such models with a simple architecture. Our experiments show that a straightforward application of language models such as BERT, DistilBERT, or RoBERTa pre-trained on large text corpora already significantly improves the matching quality and outperforms previous state-of-the-art (SOTA), by up to 29% of F1 score on benchmark datasets. We also developed three optimization techniques to further improve Ditto's matching capability. Ditto allows domain knowledge to be injected by highlighting important pieces of input information that may be of interest when making matching decisions. Ditto also summarizes strings that are too long so that only the essential information is retained and used for EM. Finally, Ditto adapts a SOTA technique on data augmentation for text to EM to augment the training data with (difficult) examples. This way, Ditto is forced to learn "harder" to improve the model's matching capability. The optimizations we developed further boost the performance of Ditto by up to 9.8%. Perhaps more surprisingly, we establish that Ditto can achieve the previous SOTA results with at most half the number of labeled data. Finally, we demonstrate Ditto's effectiveness on a real-world large-scale EM task. On matching two company datasets consisting of 789K and 412K records, Ditto achieves a high F1 score of 96.5%. | 翻訳日:2022-12-17 19:12:38 公開日:2020-09-02 |
# マルチモーダル非教師なし学習のための細胞ニューロモルフィックコンピューティングを用いた脳インスパイア自己組織化 Brain-inspired self-organization with cellular neuromorphic computing for multimodal unsupervised learning ( http://arxiv.org/abs/2004.05488v3 ) ライセンス: Link先を確認 | Lyes Khacef, Laurent Rodriguez, Benoit Miramond | (参考訳) 皮質の可塑性は、私たちの環境を学習し適応できる主要な特徴の1つです。
実際、大脳皮質は構造的およびシナプス的な可塑性機構を通じて自己組織し、それは非常に興味深い人間の脳の発達の特徴であるマルチモーダル・アソシエーション(multimodal association)に基づいている可能性が高い。
視覚、音、触覚といった感覚的モダリティの多様性にもかかわらず、脳は同じ概念(コンバージェンス)に到達します。
さらに、生物学的な観察により、一方のモダリティが他方のモダリティの内部表現を活性化できることが示される(ダイバージェンス)。
本研究では、自己組織化マップとヘビアン様学習を用いた再突入理論に基づく脳に触発された神経系である、Reentrant Self-Organizing Map (ReSOM)を提案する。
本研究では,教師なし学習と推論のための異なる計算手法を提案し,比較し,マルチモーダル分類タスクにおけるresomの利得を定量化する。
発散機構は一方のモダリティを他方に基づいてラベル付けし、収束機構はシステムの全体的な精度を改善するために使用される。
本研究では,DVS/EMGハンドジェスチャデータベースと構築した文字/音声桁データベースを用いて実験を行った。
提案モデルは,ローカル接続による分散コンピューティングを実現するセルラーニューロモルフィックアーキテクチャ上に実装されている。
システムのトポロジーはユーザによって固定されるのではなく、自己組織化を通じてシステムエクスペリエンスに沿って学習される、いわゆるハードウェア可塑性の獲得を示す。 Cortical plasticity is one of the main features that enable our ability to learn and adapt in our environment. Indeed, the cerebral cortex self-organizes itself through structural and synaptic plasticity mechanisms that are very likely at the basis of an extremely interesting characteristic of the human brain development: the multimodal association. In spite of the diversity of the sensory modalities, like sight, sound and touch, the brain arrives at the same concepts (convergence). Moreover, biological observations show that one modality can activate the internal representation of another modality when both are correlated (divergence). In this work, we propose the Reentrant Self-Organizing Map (ReSOM), a brain-inspired neural system based on the reentry theory using Self-Organizing Maps and Hebbian-like learning. We propose and compare different computational methods for unsupervised learning and inference, then quantify the gain of the ReSOM in a multimodal classification task. The divergence mechanism is used to label one modality based on the other, while the convergence mechanism is used to improve the overall accuracy of the system. We perform our experiments on a constructed written/spoken digits database and a DVS/EMG hand gestures database. The proposed model is implemented on a cellular neuromorphic architecture that enables distributed computing with local connectivity. We show the gain of the so-called hardware plasticity induced by the ReSOM, where the system's topology is not fixed by the user but learned along the system's experience through self-organization. | 翻訳日:2022-12-14 10:09:46 公開日:2020-09-02 |
# 非線形リカレントネットワークの記憶と予測能力 Memory and forecasting capacities of nonlinear recurrent networks ( http://arxiv.org/abs/2004.11234v2 ) ライセンス: Link先を確認 | Lukas Gonon, Lyudmila Grigoryeva, and Juan-Pablo Ortega | (参考訳) 当初、エコー状態と独立入力を持つ線形ネットワークのために導入されたメモリ容量の概念は、定常だが依存入力を持つ非線形リカレントネットワークに一般化される。
入力への依存性の存在は、ネットワーク状態を用いた時系列値の予測可能性を測定するネットワーク予測能力の導入を自然なものにする。
記憶および予測容量の一般的な境界は、非線形再帰ネットワークのニューロン数と、入力の自己共分散関数またはスペクトル密度によって定式化される。
これらの境界は、文献でよく知られた見積もりを依存的な入力設定に一般化する。
最後に、独立した入力を持つリニアリカレントネットワークの特定の場合において、メモリ容量が関連する制御可能性行列のランクによって与えられることが証明され、コミュニティによる証明がなければ、長い間の事実が真であると仮定された。 The notion of memory capacity, originally introduced for echo state and linear networks with independent inputs, is generalized to nonlinear recurrent networks with stationary but dependent inputs. The presence of dependence in the inputs makes natural the introduction of the network forecasting capacity, that measures the possibility of forecasting time series values using network states. Generic bounds for memory and forecasting capacities are formulated in terms of the number of neurons of the nonlinear recurrent network and the autocovariance function or the spectral density of the input. These bounds generalize well-known estimates in the literature to a dependent inputs setup. Finally, for the particular case of linear recurrent networks with independent inputs it is proved that the memory capacity is given by the rank of the associated controllability matrix, a fact that has been for a long time assumed to be true without proof by the community. | 翻訳日:2022-12-10 17:02:42 公開日:2020-09-02 |
# 統合エージェントマップ表現によるマルチヘッド注意に基づく自律走行の軌道予測 Trajectory Prediction for Autonomous Driving based on Multi-Head Attention with Joint Agent-Map Representation ( http://arxiv.org/abs/2005.02545v3 ) ライセンス: Link先を確認 | Kaouther Messaoud, Nachiket Deo, Mohan M. Trivedi, Fawzi Nashashibi | (参考訳) 周囲のエージェントの軌道を予測することは、複雑な交通シーンを自律走行する上で必須の機能である。
エージェントの将来の軌跡は、エージェントの位置と過去の動きと静的なシーン構造という2つの重要な手がかりを用いて推測することができる。
シーン構造やエージェント構成のばらつきが高いため、以前の作業ではアテンション機構を採用しており、シーンとエージェント構成に別々に適用して、両方のキューの最も顕著な部分を学ぶ。
しかし、両者は強く結びついている。
エージェントの設定は、シーンのどの部分が予測に最も関係しているかを知らせることができる。
静的なシーンは、互いの動きに対するエージェントの相対的な影響を決定するのに役立つ。
さらに、将来の軌道の分布はマルチモーダルであり、エージェントの意図に応じたモードを持つ。
エージェントの意図はまた、シーンとエージェントの構成のどの部分が予測に関係しているかを知らせる。
そこで本稿では,静的シーンと周辺エージェントの同時表現を考慮したマルチヘッドアテンション手法を提案する。
それぞれの注目ヘッドを用いて、将来の軌跡の多様性に対応するために、異なる将来の軌跡を生成する。
本モデルでは, nnuScenes 予測ベンチマークを用いて, シーン構造とエージェント構成に適合した多種多様な将来の軌跡を生成する。 Predicting the trajectories of surrounding agents is an essential ability for autonomous vehicles navigating through complex traffic scenes. The future trajectories of agents can be inferred using two important cues: the locations and past motion of agents, and the static scene structure. Due to the high variability in scene structure and agent configurations, prior work has employed the attention mechanism, applied separately to the scene and agent configuration to learn the most salient parts of both cues. However, the two cues are tightly linked. The agent configuration can inform what part of the scene is most relevant to prediction. The static scene in turn can help determine the relative influence of agents on each other's motion. Moreover, the distribution of future trajectories is multimodal, with modes corresponding to the agent's intent. The agent's intent also informs what part of the scene and agent configuration is relevant to prediction. We thus propose a novel approach applying multi-head attention by considering a joint representation of the static scene and surrounding agents. We use each attention head to generate a distinct future trajectory to address multimodality of future trajectories. Our model achieves state of the art results on the nuScenes prediction benchmark and generates diverse future trajectories compliant with scene structure and agent configuration. | 翻訳日:2022-12-06 06:09:18 公開日:2020-09-02 |
# グラフニューラルネットワークトレーニングにおけるコミュニケーションの削減 Reducing Communication in Graph Neural Network Training ( http://arxiv.org/abs/2005.03300v3 ) ライセンス: Link先を確認 | Alok Tripathy, Katherine Yelick, Aydin Buluc | (参考訳) グラフニューラルネットワーク(GNN)は、データの自然な疎結合情報を使用する、強力で柔軟なニューラルネットワークである。
GNNはこの接続を、演算強度が低く、通信コストが高くなるスパース行列として表現しているため、GNNは畳み込みニューラルネットワークや完全接続ニューラルネットワークよりも高速にスケールすることが難しい。
我々は,GNNを訓練するための並列アルゴリズム群を導入し,従来の並列GNN訓練法と比較して漸近的に通信を削減できることを示す。
このアルゴリズムは,1D,1.5D,2D,3Dスパース・デンス行列の乗算をGPUクラスタ上に分散した torch.distributed を用いて実装した。
我々のアルゴリズムは全GNNトレーニングパイプライン間の通信を最適化する。
私たちは、複数のデータセット上で100以上のGPU上でGNNをトレーニングしています。 Graph Neural Networks (GNNs) are powerful and flexible neural networks that use the naturally sparse connectivity information of the data. GNNs represent this connectivity as sparse matrices, which have lower arithmetic intensity and thus higher communication costs compared to dense matrices, making GNNs harder to scale to high concurrencies than convolutional or fully-connected neural networks. We introduce a family of parallel algorithms for training GNNs and show that they can asymptotically reduce communication compared to previous parallel GNN training methods. We implement these algorithms, which are based on 1D, 1.5D, 2D, and 3D sparse-dense matrix multiplication, using torch.distributed on GPU-equipped clusters. Our algorithms optimize communication across the full GNN training pipeline. We train GNNs on over a hundred GPUs on multiple datasets, including a protein network with over a billion edges. | 翻訳日:2022-12-05 22:56:42 公開日:2020-09-02 |
# データ複製における統計的バイアスの同定 Identifying Statistical Bias in Dataset Replication ( http://arxiv.org/abs/2005.09619v2 ) ライセンス: Link先を確認 | Logan Engstrom, Andrew Ilyas, Shibani Santurkar, Dimitris Tsipras, Jacob Steinhardt, Aleksander Madry | (参考訳) データセットレプリケーション(dataset replication)は、特定のベンチマークにおけるテスト精度の向上がモデルの信頼性向上に対応するかどうかを評価する上で有用なツールである。
本研究では、データセット複製の標準的な手法が統計的バイアスを導入し、結果の観測をスクーリングする非直観的かつ重要な方法を示す。
ImageNet-v2は、標準的なデータ品質の人為的測定を制御した後でも、モデルが11-14%の精度で大幅に低下する画像Netデータセットの複製である。
同定された統計バイアスを補正した後、推定3.6\% \pm 1.5\%$で、最初の11.7\% \pm 1.0\%$精度低下は未確認のままである。
データセットの複製におけるバイアスを認識し回避するための具体的な推奨事項で締めくくる。
私たちの研究のコードはhttp://github.com/MadryLab/dataset-replication-analysis で公開されています。 Dataset replication is a useful tool for assessing whether improvements in test accuracy on a specific benchmark correspond to improvements in models' ability to generalize reliably. In this work, we present unintuitive yet significant ways in which standard approaches to dataset replication introduce statistical bias, skewing the resulting observations. We study ImageNet-v2, a replication of the ImageNet dataset on which models exhibit a significant (11-14%) drop in accuracy, even after controlling for a standard human-in-the-loop measure of data quality. We show that after correcting for the identified statistical bias, only an estimated $3.6\% \pm 1.5\%$ of the original $11.7\% \pm 1.0\%$ accuracy drop remains unaccounted for. We conclude with concrete recommendations for recognizing and avoiding bias in dataset replication. Code for our study is publicly available at http://github.com/MadryLab/dataset-replication-analysis . | 翻訳日:2022-12-01 13:03:22 公開日:2020-09-02 |
# 推薦のための順序的非負行列因子分解 Ordinal Non-negative Matrix Factorization for Recommendation ( http://arxiv.org/abs/2006.01034v4 ) ライセンス: Link先を確認 | Olivier Gouvert, Thomas Oberlin and C\'edric F\'evotte | (参考訳) 我々は、OrdNMFと呼ばれる順序データに対する新しい非負行列分解法(NMF)を導入する。
通常のデータはカテゴリ間の自然な順序を示す分類データである。
特に、明示的なデータ(レーティングなど)や暗黙のデータ(量子化されたプレイカウントなど)を持つレコメンダシステムで見ることができる。
OrdNMFはBernoulli-Poisson Factorization (BePoF)とPoisson Factorization (PF)を双項化データに適用した確率潜在因子モデルである。
これらの手法とは対照的に、OrdNMFはバイナライゼーションを回避し、データのより情報的な表現を利用することができる。
我々は,モデル拡張に基づく効率的な変分アルゴリズムを設計し,変分PFと関連付ける。
特に,本アルゴリズムはPFのスケーラビリティを保ち,巨大なスパースデータセットに適用することができる。
明示的および暗黙的なデータセットに関する推奨実験を報告し、OrdNMFが二項化データに適用したBePoFおよびPFより優れていることを示す。 We introduce a new non-negative matrix factorization (NMF) method for ordinal data, called OrdNMF. Ordinal data are categorical data which exhibit a natural ordering between the categories. In particular, they can be found in recommender systems, either with explicit data (such as ratings) or implicit data (such as quantized play counts). OrdNMF is a probabilistic latent factor model that generalizes Bernoulli-Poisson factorization (BePoF) and Poisson factorization (PF) applied to binarized data. Contrary to these methods, OrdNMF circumvents binarization and can exploit a more informative representation of the data. We design an efficient variational algorithm based on a suitable model augmentation and related to variational PF. In particular, our algorithm preserves the scalability of PF and can be applied to huge sparse datasets. We report recommendation experiments on explicit and implicit datasets, and show that OrdNMF outperforms BePoF and PF applied to binarized data. | 翻訳日:2022-11-26 06:23:31 公開日:2020-09-02 |
# MS-TCN++:アクションセグメンテーションのためのマルチステージ時間畳み込みネットワーク MS-TCN++: Multi-Stage Temporal Convolutional Network for Action Segmentation ( http://arxiv.org/abs/2006.09220v2 ) ライセンス: Link先を確認 | Shijie Li, Yazan Abu Farha, Yun Liu, Ming-Ming Cheng, Juergen Gall | (参考訳) 短いトリミングビデオの分類におけるディープラーニングの成功により、長い未トリミングビデオの時間的セグメンテーションと分類活動に注目が向けられている。
アクションセグメンテーションの最先端のアプローチは、時間的畳み込みと時間的プーリングの複数の層を利用する。
時間的依存関係をキャプチャするこれらのアプローチの能力にもかかわらず、予測は過剰なセグメンテーションエラーに悩まされる。
本稿では,従来の手法の限界を克服した時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
各段階において、ほとんどパラメータを持たない大きな受容領域をカバーする拡張時間畳み込みの層を積み重ねる。
このアーキテクチャはすでにうまく機能しているが、低層層はまだ小さな受容領域に苦しんでいる。
この制限に対処するため、大小の両方の受容場を組み合わせた二重拡張層を提案する。
さらに、第1段階の設計を精製段階から分離し、これらの段階の異なる要件に対処する。
広範囲な評価は、長距離依存を捕捉し、アクションセグメントを認識する上で、提案モデルの有効性を示す。
当社のモデルは,50salads, georgia tech egocentric activities (gtea),the breakfast datasetの3つのデータセットで最先端の結果を得る。 With the success of deep learning in classifying short trimmed videos, more attention has been focused on temporally segmenting and classifying activities in long untrimmed videos. State-of-the-art approaches for action segmentation utilize several layers of temporal convolution and temporal pooling. Despite the capabilities of these approaches in capturing temporal dependencies, their predictions suffer from over-segmentation errors. In this paper, we propose a multi-stage architecture for the temporal action segmentation task that overcomes the limitations of the previous approaches. The first stage generates an initial prediction that is refined by the next ones. In each stage we stack several layers of dilated temporal convolutions covering a large receptive field with few parameters. While this architecture already performs well, lower layers still suffer from a small receptive field. To address this limitation, we propose a dual dilated layer that combines both large and small receptive fields. We further decouple the design of the first stage from the refining stages to address the different requirements of these stages. Extensive evaluation shows the effectiveness of the proposed model in capturing long-range dependencies and recognizing action segments. Our models achieve state-of-the-art results on three datasets: 50Salads, Georgia Tech Egocentric Activities (GTEA), and the Breakfast dataset. | 翻訳日:2022-11-20 21:04:50 公開日:2020-09-02 |
# ローショット画像分類のためのユニバーサル表現変換層 A Universal Representation Transformer Layer for Few-Shot Image Classification ( http://arxiv.org/abs/2006.11702v4 ) ライセンス: Link先を確認 | Lu Liu, William Hamilton, Guodong Long, Jing Jiang, Hugo Larochelle | (参考訳) 少数ショットの分類は、少数のサンプルでしか示されていないクラスを認識することを目的としている。
我々は,未発見のクラスやサンプルが多種多様なデータソースから得られるマルチドメインの少数ショット画像分類の問題を考える。
この問題は関心が高まり、Meta-Datasetのようなベンチマークの開発に影響を与えた。
このマルチドメイン設定における重要な課題は、多様なトレーニングドメインから機能表現を効果的に統合することである。
本稿では,最も適切なドメイン固有表現を動的に重み付けし構成することにより,限定的分類に普遍的な特徴を活用できるユニバーサル表現トランスフォーマ(urt)層を提案する。
実験では,URTがMeta-Datasetに新しい最先端結果を設定する。
具体的には、競合する手法と比較して、最も多くのデータソースでトップパフォーマンスを達成する。
我々はurtの変種を分析し,モデルがどのようにクロスドメイン一般化を行うかに光を当てるアテンションスコアヒートマップの可視化を行う。
私たちのコードはhttps://github.com/liulu112601/urtで利用可能です。 Few-shot classification aims to recognize unseen classes when presented with only a small number of samples. We consider the problem of multi-domain few-shot image classification, where unseen classes and examples come from diverse data sources. This problem has seen growing interest and has inspired the development of benchmarks such as Meta-Dataset. A key challenge in this multi-domain setting is to effectively integrate the feature representations from the diverse set of training domains. Here, we propose a Universal Representation Transformer (URT) layer, that meta-learns to leverage universal features for few-shot classification by dynamically re-weighting and composing the most appropriate domain-specific representations. In experiments, we show that URT sets a new state-of-the-art result on Meta-Dataset. Specifically, it achieves top-performance on the highest number of data sources compared to competing methods. We analyze variants of URT and present a visualization of the attention score heatmaps that sheds light on how the model performs cross-domain generalization. Our code is available at https://github.com/liulu112601/URT. | 翻訳日:2022-11-18 11:30:28 公開日:2020-09-02 |
# 自動運転車は分散シフトを識別し、回復し、適応できるか? Can Autonomous Vehicles Identify, Recover From, and Adapt to Distribution Shifts? ( http://arxiv.org/abs/2006.14911v2 ) ライセンス: Link先を確認 | Angelos Filos, Panagiotis Tigas, Rowan McAllister, Nicholas Rhinehart, Sergey Levine, Yarin Gal | (参考訳) out-of-training-distribution (ood) シナリオは、デプロイにおける学習エージェントの一般的な課題である。
原則として、OODシーンの検出と適応は、その悪影響を軽減することができる。
本稿では,新しい運転シーンに対する現在のアプローチの限界に注目し,認識的不確実性認識計画法である \emph{robust imitative planning} (rip) を提案する。
提案手法は,OODシーンにおける過信および破滅的な外挿を低減し,分布変化を検知し,回復することができる。
もしモデルの不確実性が、安全な行動経路を示唆するには大きすぎる場合、モデルは、代わりにエキスパートドライバにフィードバックを問い合わせることができ、サンプル効率の良いオンライン適応を可能にする。
提案手法はnuScenes \emph{prediction}の課題において,現在最先端のアプローチよりも優れているが,OODの検出と適応を評価するベンチマークが存在しないため,分散シフトを伴うタスク群に対する駆動エージェントの堅牢性を評価するために,自律走行車ノベルシーンベンチマークである \texttt{CARNOVEL} を導入する。 Out-of-training-distribution (OOD) scenarios are a common challenge of learning agents at deployment, typically leading to arbitrary deductions and poorly-informed decisions. In principle, detection of and adaptation to OOD scenes can mitigate their adverse effects. In this paper, we highlight the limitations of current approaches to novel driving scenes and propose an epistemic uncertainty-aware planning method, called \emph{robust imitative planning} (RIP). Our method can detect and recover from some distribution shifts, reducing the overconfident and catastrophic extrapolations in OOD scenes. If the model's uncertainty is too great to suggest a safe course of action, the model can instead query the expert driver for feedback, enabling sample-efficient online adaptation, a variant of our method we term \emph{adaptive robust imitative planning} (AdaRIP). Our methods outperform current state-of-the-art approaches in the nuScenes \emph{prediction} challenge, but since no benchmark evaluating OOD detection and adaption currently exists to assess \emph{control}, we introduce an autonomous car novel-scene benchmark, \texttt{CARNOVEL}, to evaluate the robustness of driving agents to a suite of tasks with distribution shifts. | 翻訳日:2022-11-16 21:31:02 公開日:2020-09-02 |
# 半教師付き物体検出のための時間的自己感覚教師 Temporal Self-Ensembling Teacher for Semi-Supervised Object Detection ( http://arxiv.org/abs/2007.06144v3 ) ライセンス: Link先を確認 | Cong Chen and Shouyang Dong and Ye Tian and Kunlin Cao and Li Liu and Yuanhao Guo | (参考訳) 本稿では,Semi-Supervised Object Detection (SSOD)に焦点を当てる。
知識蒸留(KD)は半教師付き画像分類に広く用いられている。
しかし、これらの手法をSSODに適用するには、以下の障害がある。
1)教師モデルは,教師と生徒の二重の役割を担い,教師がラベルのない画像上で予測することは,生徒の上限を制限する学生のそれと非常に近い可能性がある。
2)SSODにおける授業不均衡問題は,教師から生徒への効果的な知識伝達を妨げる。
これらの問題に対処するため,SSODのための時間自己組み立て教師(TSE-T)を提案する。
従来のKD法と異なり、時間的に進化した教師モデルを作成する。
まず,教師モデルは,確率的摂動下でのラベルなし画像に対する時間的予測をアンサンブルする。
第2に,教師モデルでは時間モデル重みと学生モデル重みを指数移動平均(EMA)でアンサンブルし,教師が学生から徐々に学習できるようにする。
これらの自己認識戦略はデータとモデルの多様性を高め、未ラベル画像の教師予測を改善する。
最後に,信頼度の高い予測のみを保持する単純なハードレスホールディング法よりも,ラベルなし画像から有用な情報を利用する方が効率的であるデータ不均衡問題に対処するために,焦点損失を用いて一貫性の正規化項を定式化する。
広く使われているVOCとCOCOのベンチマークで評価したところ、この手法のmAPは、VOC2007テストセットとCOCO2014 minval5kセットで80.73%と40.52%に達し、それぞれ2.37%と1.49%の強い完全教師付き検出器を上回っている。
さらに,本手法は,ベースラインSSOD法を1.44%向上させるVOC2007テストセット上で,SSODの最先端を新たに設定する。
この作業のソースコードはhttp://github.com/syangdong/tse-tで公開されている。 This paper focuses on Semi-Supervised Object Detection (SSOD). Knowledge Distillation (KD) has been widely used for semi-supervised image classification. However, adapting these methods for SSOD has the following obstacles. (1) The teacher model serves a dual role as a teacher and a student, such that the teacher predictions on unlabeled images may be very close to those of student, which limits the upper-bound of the student. (2) The class imbalance issue in SSOD hinders an efficient knowledge transfer from teacher to student. To address these problems, we propose a novel method Temporal Self-Ensembling Teacher (TSE-T) for SSOD. Differently from previous KD based methods, we devise a temporally evolved teacher model. First, our teacher model ensembles its temporal predictions for unlabeled images under stochastic perturbations. Second, our teacher model ensembles its temporal model weights with the student model weights by an exponential moving average (EMA) which allows the teacher gradually learn from the student. These self-ensembling strategies increase data and model diversity, thus improving teacher predictions on unlabeled images. Finally, we use focal loss to formulate consistency regularization term to handle the data imbalance problem, which is a more efficient manner to utilize the useful information from unlabeled images than a simple hard-thresholding method which solely preserves confident predictions. Evaluated on the widely used VOC and COCO benchmarks, the mAP of our method has achieved 80.73% and 40.52% on the VOC2007 test set and the COCO2014 minval5k set respectively, which outperforms a strong fully-supervised detector by 2.37% and 1.49%. Furthermore, our method sets the new state-of-the-art in SSOD on VOC2007 test set which outperforms the baseline SSOD method by 1.44%. The source code of this work is publicly available at http://github.com/syangdong/tse-t. | 翻訳日:2022-11-10 23:58:12 公開日:2020-09-02 |
# 個人レベルの行動キューを用いた学生グループコラボレーション評価のための機械学習アプローチ A Machine Learning Approach to Assess Student Group Collaboration Using Individual Level Behavioral Cues ( http://arxiv.org/abs/2007.06667v4 ) ライセンス: Link先を確認 | Anirudh Som, Sujeong Kim, Bladimir Lopez-Prado, Svati Dhamija, Nonye Alozie, Amir Tamrakar | (参考訳) k-12 教室は一貫してコラボレーションを学習体験の一部として統合している。
しかし、教室の大きさが大きいため、教師は各生徒を適切に評価し、フィードバックを与える時間がない。
本稿では,グループ内の学生全員の個々の役割のアノテーションと個人レベルの行動に基づいて,グループ全体のコラボレーション品質を自動的に決定する,シンプルなディープラーニングベース機械学習モデルを提案する。
これらのモデルを構築する際に、以下の課題に遭遇します。
1)限られた訓練データ
2)重度クラスラベルの不均衡。
本研究では,異なるデータサンプル対と対応するクラスラベルを線形に結合して追加データサンプルを生成する手法であるmixupデータ拡張の制御型を用いて,これらの課題に対処する。
さらに,この問題に対するラベル空間は順序構造を示す。
この事実を利用して、オーディナル・クロス・エントロピー損失関数を用いて検討し、その効果をMixupと無関係に研究する。 K-12 classrooms consistently integrate collaboration as part of their learning experiences. However, owing to large classroom sizes, teachers do not have the time to properly assess each student and give them feedback. In this paper we propose using simple deep-learning-based machine learning models to automatically determine the overall collaboration quality of a group based on annotations of individual roles and individual level behavior of all the students in the group. We come across the following challenges when building these models: 1) Limited training data, 2) Severe class label imbalance. We address these challenges by using a controlled variant of Mixup data augmentation, a method for generating additional data samples by linearly combining different pairs of data samples and their corresponding class labels. Additionally, the label space for our problem exhibits an ordered structure. We take advantage of this fact and also explore using an ordinal-cross-entropy loss function and study its effects with and without Mixup. | 翻訳日:2022-11-10 23:04:22 公開日:2020-09-02 |
# 中国語単語分割における距離アノテーションと対訳訓練の結合 Coupling Distant Annotation and Adversarial Training for Cross-Domain Chinese Word Segmentation ( http://arxiv.org/abs/2007.08186v2 ) ライセンス: Link先を確認 | Ning Ding, Dingkun Long, Guangwei Xu, Muhua Zhu, Pengjun Xie, Xiaobin Wang, Hai-Tao Zheng | (参考訳) 完全教師付きニューラルネットワークは中国語単語分割(CWS)のタスクにおいて大きな進歩を遂げている。
それでも、教師付きモデルの性能はドメイン外データに適用されると劇的に低下する傾向にある。
性能劣化はドメイン間の分配ギャップと語彙外問題(OOV)によって引き起こされる。
本稿では,これら2つの問題を同時に緩和するために,クロスドメインCWSのための遠隔アノテーションと対角的トレーニングを提案する。
遠隔アノテーションについては,「中国語単語」の本質を再考し,対象領域からの監視や予め定義された辞書を必要としない自動遠隔アノテーション機構を設計する。
このアプローチは、ドメイン固有の単語を効果的に探索し、ターゲットドメインの原文を遠方から注釈付けする。
逆行訓練では,音源領域情報の雑音低減と最大活用を行う文レベルの訓練手法を開発する。
様々な領域にまたがる複数の実世界のデータセットの実験は、我々のモデルの優越性と堅牢性を示し、従来の最先端のクロスドメインCWS法よりも著しく優れている。 Fully supervised neural approaches have achieved significant progress in the task of Chinese word segmentation (CWS). Nevertheless, the performance of supervised models tends to drop dramatically when they are applied to out-of-domain data. Performance degradation is caused by the distribution gap across domains and the out of vocabulary (OOV) problem. In order to simultaneously alleviate these two issues, this paper proposes to couple distant annotation and adversarial training for cross-domain CWS. For distant annotation, we rethink the essence of "Chinese words" and design an automatic distant annotation mechanism that does not need any supervision or pre-defined dictionaries from the target domain. The approach could effectively explore domain-specific words and distantly annotate the raw texts for the target domain. For adversarial training, we develop a sentence-level training procedure to perform noise reduction and maximum utilization of the source domain information. Experiments on multiple real-world datasets across various domains show the superiority and robustness of our model, significantly outperforming previous state-of-the-art cross-domain CWS methods. | 翻訳日:2022-11-09 22:05:55 公開日:2020-09-02 |
# strudel: 構造化分解可能な確率回路の学習 Strudel: Learning Structured-Decomposable Probabilistic Circuits ( http://arxiv.org/abs/2007.09331v2 ) ライセンス: Link先を確認 | Meihua Dang, Antonio Vergari, Guy Van den Broeck | (参考訳) 確率回路(PC)は確率分布を計算グラフとして表す。
これらのグラフに構造的性質を強制することは、いくつかの推論シナリオが扱いやすいことを保証する。
複雑な論理公式の確率の効率的かつ正確な計算を可能にし、欠落したデータの下で特定の予測モデルの期待される出力を推測するのに使うことができる。
本稿では,構造化分解可能なPCの簡易かつ高速かつ高精度な学習アルゴリズムであるStrudelを提案する。
構造化分解可能なPCを学習する以前の作業と比較して、Strudelはより正確なシングルPCモデルをより少ないイテレーションで提供し、PCのアンサンブルを構築する際に学習を劇的にスケールする。
このスケーラビリティは、決定論(Determinism)と呼ばれるPCの構造的特性を利用し、混合成分間で同じ計算グラフを共有することによって達成される。
標準密度推定ベンチマークと挑戦的推論シナリオにこれらの利点を示す。 Probabilistic circuits (PCs) represent a probability distribution as a computational graph. Enforcing structural properties on these graphs guarantees that several inference scenarios become tractable. Among these properties, structured decomposability is a particularly appealing one: it enables the efficient and exact computations of the probability of complex logical formulas, and can be used to reason about the expected output of certain predictive models under missing data. This paper proposes Strudel, a simple, fast and accurate learning algorithm for structured-decomposable PCs. Compared to prior work for learning structured-decomposable PCs, Strudel delivers more accurate single PC models in fewer iterations, and dramatically scales learning when building ensembles of PCs. It achieves this scalability by exploiting another structural property of PCs, called determinism, and by sharing the same computational graph across mixture components. We show these advantages on standard density estimation benchmarks and challenging inference scenarios. | 翻訳日:2022-11-09 05:16:52 公開日:2020-09-02 |
# SeismoFlow -- クラス不均衡問題に対するデータ拡張 SeismoFlow -- Data augmentation for the class imbalance problem ( http://arxiv.org/abs/2007.12229v2 ) ライセンス: Link先を確認 | Ruy Luiz Milidi\'u and Luis Felipe M\"uller | (参考訳) 医学診断,スパムフィルタリング,不正検出,地震データ解析などいくつかの応用分野において,いくつかの類型発生が稀な関連する分類課題を見つけることは極めて一般的である。
これはいわゆるクラス不均衡問題であり、機械学習における課題である。
本研究では, クラス不均衡に対処するため, 合成サンプル作成のための流れに基づく生成モデルを提案する。
グローモデルにインスパイアされ、学習された潜在空間の補間を使って1つのレアクラスの合成サンプルを生成する。
地震波信号品質分類器の開発に本手法を適用した。
我々は,5.223の地震図からなるデータセットを導入し,各周波数66.68%,31.54%,および1.76%の値を得た。
提案手法は,階層化された10倍のクロスバリデーション設定で評価し,Miniception Modelをベースラインとして,各イテレーションのトレーニングセットに生成したサンプルを追加する効果を評価する。
実験では, 希少クラスF1スコアの13.9%の改善が達成され, 他クラスに対するメートル法値が損なわれず, 全体的な精度改善が観察された。
実験結果から,本手法は,高品位な合成地震計を現実的な外観で生成できることを示すとともに,クラス不均衡問題を克服するための最小値モデルの実現に有効であることがわかった。
我々は,地震波信号品質分類とクラス不均衡の課題を解決するための第一歩であると考えている。 In several application areas, such as medical diagnosis, spam filtering, fraud detection, and seismic data analysis, it is very usual to find relevant classification tasks where some class occurrences are rare. This is the so called class imbalance problem, which is a challenge in machine learning. In this work, we propose the SeismoFlow a flow-based generative model to create synthetic samples, aiming to address the class imbalance. Inspired by the Glow model, it uses interpolation on the learned latent space to produce synthetic samples for one rare class. We apply our approach to the development of a seismogram signal quality classifier. We introduce a dataset composed of5.223seismograms that are distributed between the good, medium, and bad classes and with their respective frequencies of 66.68%,31.54%, and 1.76%. Our methodology is evaluated on a stratified 10-fold cross-validation setting, using the Miniceptionmodel as a baseline, and assessing the effects of adding the generated samples on the training set of each iteration. In our experiments, we achieve an improvement of 13.9% on the rare class F1-score, while not hurting the metric value for the other classes and thus observing the overall accuracy improvement. Our empirical findings indicate that our method can generate high-quality synthetic seismograms with realistic looking and sufficient plurality to help the Miniception model to overcome the class imbalance problem. We believe that our results are a step forward in solving both the task of seismogram signal quality classification and class imbalance. | 翻訳日:2022-11-07 12:03:18 公開日:2020-09-02 |
# junlp@semeval-2020タスク9:グリッド検索クロス検証を用いたヒンズー・イングリッシュコード混合データの強調解析 JUNLP@SemEval-2020 Task 9:Sentiment Analysis of Hindi-English code mixed data using Grid Search Cross Validation ( http://arxiv.org/abs/2007.12561v2 ) ライセンス: Link先を確認 | Avishek Garain, Sainik Kumar Mahata, Dipankar Das | (参考訳) コードミキシングは、主に多言語社会で起こる現象である。
母国語や英語話者に精通している多言語住民は、英語をベースとした音声入力と、主言語へのアングリシズムの挿入を用いて、コードミックスを行う傾向にある。
この言語現象は、感情分析、機械翻訳、テキスト要約といった従来のnlpドメインに対して、いくつかの名称を付ける上で大きな課題となる。
本研究では,コード混合感情分析の領域に対する妥当な解決法の開発に焦点をあてる。
この研究はsemeval-2020 sentimixタスクへの参加として行われ、英語とヒンディー語の混成文の感情分析に焦点を当てた。
私たちのユーザ名は "sainik.mahata" で、チーム名は "JUNLP" でした。
我々は,SVRやGrid Searchといった従来の機械学習アルゴリズムと組み合わせて特徴抽出アルゴリズムを用いた。
当社のアプローチでは、タスクのオーガナイザが準備したメトリクスを使用してテストした場合、f1スコア66.2\%を達成しました。 Code-mixing is a phenomenon which arises mainly in multilingual societies. Multilingual people, who are well versed in their native languages and also English speakers, tend to code-mix using English-based phonetic typing and the insertion of anglicisms in their main language. This linguistic phenomenon poses a great challenge to conventional NLP domains such as Sentiment Analysis, Machine Translation, and Text Summarization, to name a few. In this work, we focus on working out a plausible solution to the domain of Code-Mixed Sentiment Analysis. This work was done as participation in the SemEval-2020 Sentimix Task, where we focused on the sentiment analysis of English-Hindi code-mixed sentences. our username for the submission was "sainik.mahata" and team name was "JUNLP". We used feature extraction algorithms in conjunction with traditional machine learning algorithms such as SVR and Grid Search in an attempt to solve the task. Our approach garnered an f1-score of 66.2\% when tested using metrics prepared by the organizers of the task. | 翻訳日:2022-11-07 06:40:35 公開日:2020-09-02 |
# 効率的なgpu実装によるat-scale sparse deep neural network inference At-Scale Sparse Deep Neural Network Inference with Efficient GPU Implementation ( http://arxiv.org/abs/2007.14152v2 ) ライセンス: Link先を確認 | Mert Hidayetoglu, Carl Pearson, Vikram Sharma Mailthody, Eiman Ebrahimi, Jinjun Xiong, Rakesh Nagi, Wen-Mei Hwu | (参考訳) 本稿では,sparse deep neural network challenge 2020の推論モデルのgpuパフォーマンス最適化とスケーリング結果について述べる。
ネットワーク品質の需要は急速に増加し、サイズが押し上げられ、多くのニューラルネットワークのメモリ要求が、利用可能なアクセラレータの容量を超えた。
スパースディープニューラルネットワーク(spdnn)は、大規模ニューラルネットワークのメモリフットプリントの抑制を約束している。
しかし、GPU上でのSpDNN操作の実装には改善の余地がある。
本研究では,ReLU関数と融合したスパース行列乗算カーネルを提案する。
最適化されたカーネルは、共有メモリからの入力機能マップとレジスタからの疎重みを再利用する。
マルチGPU並列処理では、SpDNNの実装は重みを重複させ、GPU間で機能マップを静的に分割する。
チャレンジベンチマークの結果,提案するカーネル設計とマルチgpu並列化により,毎秒最大180テラエッジのスループットが達成された。
これらの結果は、単一のGPUでは最大4.3倍高速で、2019年のSparse Deep Neural Network Graph ChallengeのチャンピオンであるNVIDIA V100 GPUよりも、フルスケールで桁違いに高速である。
同じ実装を使用して、NVIDIA A100上のシングルGPUスループットは、V100よりも2.37$\times$高速であることを示す。 This paper presents GPU performance optimization and scaling results for inference models of the Sparse Deep Neural Network Challenge 2020. Demands for network quality have increased rapidly, pushing the size and thus the memory requirements of many neural networks beyond the capacity of available accelerators. Sparse deep neural networks (SpDNN) have shown promise for reining in the memory footprint of large neural networks. However, there is room for improvement in implementing SpDNN operations on GPUs. This work presents optimized sparse matrix multiplication kernels fused with the ReLU function. The optimized kernels reuse input feature maps from the shared memory and sparse weights from registers. For multi-GPU parallelism, our SpDNN implementation duplicates weights and statically partition the feature maps across GPUs. Results for the challenge benchmarks show that the proposed kernel design and multi-GPU parallelization achieve up to 180 tera-edges per second inference throughput. These results are up to 4.3x faster for a single GPU and an order of magnitude faster at full scale than those of the champion of the 2019 Sparse Deep Neural Network Graph Challenge for the same generation of NVIDIA V100 GPUs. Using the same implementation, we also show single-GPU throughput on NVIDIA A100 is 2.37$\times$ faster than V100. | 翻訳日:2022-11-06 03:04:25 公開日:2020-09-02 |
# 新型コロナウイルス「カグル」文学機関 COVID-19 Kaggle Literature Organization ( http://arxiv.org/abs/2008.13542v3 ) ライセンス: Link先を確認 | Maksim Ekin Eren, Nick Solovyev, Edward Raff, Charles Nicholas, Ben Johnson | (参考訳) 世界は2020年に重症急性呼吸症候群(SARS-CoV-2)の流行に直面している。
この問題の研究は、科学者が新しい発見に追いつくのに苦労している点まで急速に追跡された。
この科学文献の増加に伴い、これらの文書を整理する必要性が生じた。
本稿では、機械学習技術を用いて、新型コロナウイルスに関する科学文献を整理、視覚化し、類似トピックに関する論文をまとめるアプローチについて述べる。
これにより、トピックや関連論文のナビゲーションが簡略化される。
我々は,広く認識されているCORD-19データセットを用いて,この手法を実装した。 The world has faced the devastating outbreak of Severe Acute Respiratory Syndrome Coronavirus-2 (SARS-CoV-2), or COVID-19, in 2020. Research in the subject matter was fast-tracked to such a point that scientists were struggling to keep up with new findings. With this increase in the scientific literature, there arose a need for organizing those documents. We describe an approach to organize and visualize the scientific literature on or related to COVID-19 using machine learning techniques so that papers on similar topics are grouped together. By doing so, the navigation of topics and related papers is simplified. We implemented this approach using the widely recognized CORD-19 dataset to present a publicly available proof of concept. | 翻訳日:2022-11-03 01:21:12 公開日:2020-09-02 |
# RPT:シームズ視覚追跡のための学習点集合表現 RPT: Learning Point Set Representation for Siamese Visual Tracking ( http://arxiv.org/abs/2008.03467v2 ) ライセンス: Link先を確認 | Ziang Ma, Linyuan Wang, Haitao Zhang, Wei Lu and Jun Yin | (参考訳) 堅牢な視覚追跡では目覚ましい進歩があったが、正確な目標状態推定は依然として非常に難しい問題である。
本稿では,物体の粗い空間範囲のみを提供する有界境界ボックス表現と,この問題が密接に関連していることを論じる。
そこで, 目標状態を正確に推定するために, より細かい表現を代表点の集合としてeffcient visual tracking frameworkを提案する。
点集合は、対象領域の意味的および幾何学的に重要な位置を示すように訓練され、より細かい局所化とオブジェクトの出現のモデリングを可能にする。
さらに,階層的畳み込み層を用いて詳細な構造情報を得るためのマルチレベルアグリゲーション戦略を提案する。
OTB2015, VOT2018, VOT2019, GOT-10k など,いくつかの挑戦的ベンチマークに対する大規模な実験により,20FPS以上で動作しながら,本手法が新たな最先端性能を実現することを示す。 While remarkable progress has been made in robust visual tracking, accurate target state estimation still remains a highly challenging problem. In this paper, we argue that this issue is closely related to the prevalent bounding box representation, which provides only a coarse spatial extent of object. Thus an effcient visual tracking framework is proposed to accurately estimate the target state with a finer representation as a set of representative points. The point set is trained to indicate the semantically and geometrically significant positions of target region, enabling more fine-grained localization and modeling of object appearance. We further propose a multi-level aggregation strategy to obtain detailed structure information by fusing hierarchical convolution layers. Extensive experiments on several challenging benchmarks including OTB2015, VOT2018, VOT2019 and GOT-10k demonstrate that our method achieves new state-of-the-art performance while running at over 20 FPS. | 翻訳日:2022-11-01 12:06:43 公開日:2020-09-02 |
# スーパービジョントポロジカルマップ Supervised Topological Maps ( http://arxiv.org/abs/2008.06395v3 ) ライセンス: Link先を確認 | Francesco Mannella | (参考訳) ニューラルネットワークの内部表現空間の制御は、教師ありの方法で新しいデータを生成することができるため、望ましい特徴である。
本稿では、自己組織化マップ(SOM)から始まる一般化アルゴリズムを導出することにより、入力ストリームの低次元マッピングを構築しながら、これをどのように実現できるかを示す。
SOMは、教師なし学習でトレーニングされたニューラルネットワークの一種であり、入力空間の低次元の離散化マッピングを生成する。
それらは、マッピンググリッドから作られた補間を後方に伝播することで、新しいデータを生成するために使用できる。
残念ながら、SOMのマッピング空間の最終的な位相は学習前には分かっていないので、教師付き方法で新しいデータを補間することは容易ではない。
ここでは,プロトタイプの更新を制約するsomアルゴリズムのバリエーションを示し,そのプロトタイプがマッピング空間で与えられた対象からの距離の関数でもあることを示す。
このような変種をスーパービジョントポロジカルマップ (STM) と呼ぶことで、実験者によって地図空間の内部表現の位置が決定されるような教師付き写像が可能であることを示す。
STMにおける内部表現空間の制御は、変分や対向オートエンコーダといった他のアルゴリズムで現在行われているものよりも容易なタスクであることが明らかにされている。 Controlling the internal representation space of a neural network is a desirable feature because it allows to generate new data in a supervised manner. In this paper we will show how this can be achieved while building a low-dimensional mapping of the input stream, by deriving a generalized algorithm starting from Self Organizing Maps (SOMs). SOMs are a kind of neural network which can be trained with unsupervised learning to produce a low-dimensional discretized mapping of the input space. They can be used for the generation of new data through backward propagation of interpolations made from the mapping grid. Unfortunately the final topology of the mapping space of a SOM is not known before learning, so interpolating new data in a supervised way is not an easy task. Here we will show a variation from the SOM algorithm consisting in constraining the update of prototypes so that it is also a function of the distance of its prototypes from extrinsically given targets in the mapping space. We will demonstrate how such variants, that we will call Supervised Topological Maps (STMs), allow for a supervised mapping where the position of internal representations in the mapping space is determined by the experimenter. Controlling the internal representation space in STMs reveals to be an easier task than what is currently done using other algorithms such as variational or adversarial autoencoders. | 翻訳日:2022-10-30 16:37:39 公開日:2020-09-02 |
# GraphSAIL:レコメンダシステムのための増分学習を意識したグラフ構造 GraphSAIL: Graph Structure Aware Incremental Learning for Recommender Systems ( http://arxiv.org/abs/2008.13517v2 ) ライセンス: Link先を確認 | Yishi Xu, Yingxue Zhang, Wei Guo, Huifeng Guo, Ruiming Tang, Mark Coates | (参考訳) オンラインサービスを通じて情報を集めることの利便性を考えると、レコメンダシステムは大規模データを消費し、ユーザエクスペリエンスを改善する上でより重要な役割を果たす。
近年のグラフニューラルネットワーク(GNN)の出現により、GNNベースのレコメンデータモデルは、ユーザとアイテムの表現を学ぶために、ユーザイテムのバイパートグラフとしてレコメンデータシステムをモデル化する利点を示している。
しかし、こうしたモデルは訓練に費用がかかり、最新のレコメンデーションを提供するために頻繁な更新を行うのが難しい。
本稿では,GNNベースのレコメンデータモデルを漸進的に更新し,計算時間を大幅に短縮し,モデルをより頻繁に更新することを提案する。
段階的にモデルをトレーニングする際に発生する破滅的な忘れの問題に対処するために,グラフ構造対応インクリメンタルラーニングフレームワークであるGraphSAILを開発した。
本手法は,インクリメンタルモデル更新時にユーザの長期的嗜好(項目の長期的特性)を保存する。
graphsailは、各ノードのローカル構造、グローバル構造、自己情報を明確に保存するグラフ構造保存戦略を実装している。
我々のインクリメンタルトレーニングフレームワークは、GNNベースのレコメンデータシステムに適した最初の試みであり、2つの公開データセット上の他のインクリメンタル学習技術と比較して、その改善を実証している。
大規模産業データセットにおけるフレームワークの有効性をさらに検証する。 Given the convenience of collecting information through online services, recommender systems now consume large scale data and play a more important role in improving user experience. With the recent emergence of Graph Neural Networks (GNNs), GNN-based recommender models have shown the advantage of modeling the recommender system as a user-item bipartite graph to learn representations of users and items. However, such models are expensive to train and difficult to perform frequent updates to provide the most up-to-date recommendations. In this work, we propose to update GNN-based recommender models incrementally so that the computation time can be greatly reduced and models can be updated more frequently. We develop a Graph Structure Aware Incremental Learning framework, GraphSAIL, to address the commonly experienced catastrophic forgetting problem that occurs when training a model in an incremental fashion. Our approach preserves a user's long-term preference (or an item's long-term property) during incremental model updating. GraphSAIL implements a graph structure preservation strategy which explicitly preserves each node's local structure, global structure, and self-information, respectively. We argue that our incremental training framework is the first attempt tailored for GNN based recommender systems and demonstrate its improvement compared to other incremental learning techniques on two public datasets. We further verify the effectiveness of our framework on a large-scale industrial dataset. | 翻訳日:2022-10-25 03:24:10 公開日:2020-09-02 |
# W-Net:U-Netを応用した超音波RF波形データによる超音波画像中の皮下組織の高密度セマンティックセマンティックセグメンテーション W-Net: Dense Semantic Segmentation of Subcutaneous Tissue in Ultrasound Images by Expanding U-Net to Incorporate Ultrasound RF Waveform Data ( http://arxiv.org/abs/2008.12413v2 ) ライセンス: Link先を確認 | Gautam Rajendrakumar Gare, Jiayuan Li, Rohan Joshi, Mrunal Prashant Vaze, Rishikesh Magar, Michael Yousefpour, Ricardo Luis Rodriguez and John Micheal Galeotti | (参考訳) 本稿では,各Aスキャンからの生の超音波波形を用いた新しい畳み込みニューラルネットワーク(CNN)フレームワークであるW-Netについて述べる。
以前の作業とは異なり、バックグラウンドクラスを使わずに、画像中のすべてのピクセルをラベル付けしようとします。
我々の知る限りでは、これは超音波生RFデータをグレー画像とともに分析するセグメント化のための初めてのディープラーニングまたはCNNアプローチである。
国際特許出願[pct/us20/37519].
皮下組織 (SubQ) の分画は多種多様な混在組織を持ち, 分画が困難であり, 未表現領域であるので, 初期臨床目的として選択した。
サブQの応用としては、プラスティック手術、脂肪幹細胞採取、リンパモニタリング、特定の種類の腫瘍の検出・治療などがある。
専門医と研修生による手ラベル画像からなるカスタムデータセットを用いて実験を行い,現在,皮膚,脂肪,脂肪・間質,筋肉,筋肉筋の分類に分類している。
U-Net と Attention U-Net を比較した。
RF-Waveform 入力とアーキテクチャにより, 通常の U-Net および Attention U-Net と比較して, mIoU の精度は 4.5 %, 4.9 % 向上した。
筋ファシスタとFat fascia/stromaがラベル付けが難しい組織である理由について分析を行った。
特に、ヒトとAIアルゴリズムの両方で認識する最も難しい解剖学的クラスである筋ファシスタでは、我々のW-NetとU-NetとAtention U-Netの13倍と16倍のmIoU改善が見られた。 We present W-Net, a novel Convolution Neural Network (CNN) framework that employs raw ultrasound waveforms from each A-scan, typically referred to as ultrasound Radio Frequency (RF) data, in addition to the gray ultrasound image to semantically segment and label tissues. Unlike prior work, we seek to label every pixel in the image, without the use of a background class. To the best of our knowledge, this is also the first deep-learning or CNN approach for segmentation that analyses ultrasound raw RF data along with the gray image. International patent(s) pending [PCT/US20/37519]. We chose subcutaneous tissue (SubQ) segmentation as our initial clinical goal since it has diverse intermixed tissues, is challenging to segment, and is an underrepresented research area. SubQ potential applications include plastic surgery, adipose stem-cell harvesting, lymphatic monitoring, and possibly detection/treatment of certain types of tumors. A custom dataset consisting of hand-labeled images by an expert clinician and trainees are used for the experimentation, currently labeled into the following categories: skin, fat, fat fascia/stroma, muscle and muscle fascia. We compared our results with U-Net and Attention U-Net. Our novel \emph{W-Net}'s RF-Waveform input and architecture increased mIoU accuracy (averaged across all tissue classes) by 4.5\% and 4.9\% compared to regular U-Net and Attention U-Net, respectively. We present analysis as to why the Muscle fascia and Fat fascia/stroma are the most difficult tissues to label. Muscle fascia in particular, the most difficult anatomic class to recognize for both humans and AI algorithms, saw mIoU improvements of 13\% and 16\% from our W-Net vs U-Net and Attention U-Net respectively. | 翻訳日:2022-10-24 07:45:10 公開日:2020-09-02 |
# ストリーミングオンデバイス音声認識のためのトランスフォーマによる並列リコード Parallel Rescoring with Transformer for Streaming On-Device Speech Recognition ( http://arxiv.org/abs/2008.13093v3 ) ライセンス: Link先を確認 | Wei Li, James Qin, Chung-Cheng Chiu, Ruoming Pang, Yanzhang He | (参考訳) エンド・ツー・エンドモデルの最近の進歩は、従来の2パスモデルよりも優れている。
そこでは,第1パスモデルがストリーミング形式で仮説を生成し,第2パスモデルが完全な音声シーケンスコンテキストで仮説を再スコアする。
第2パスモデルは、従来のモデルを上回るエンドツーエンドモデルの品質改善において重要な役割を果たす。
2パスモデルの主な課題は、第2パスモデルによって導入された計算遅延である。
具体的には、2-passモデルの最初の設計では2-passモデルにlstmsを使用しており、これはリカレントの性質に制約され、逐次的な推論を行なわなければならないため、レイテンシが長い。
本研究では,第2パスリスコラーのLSTM層をTransformer層に置き換えることで,仮説列全体を並列に処理し,デバイス上での計算資源をより効率的に活用することができることを示す。
LSTMベースのベースラインと比較して,提案するTransformer Rescorerは品質改善とともに50%以上の遅延低減を実現している。 Recent advances of end-to-end models have outperformed conventional models through employing a two-pass model. The two-pass model provides better speed-quality trade-offs for on-device speech recognition, where a 1st-pass model generates hypotheses in a streaming fashion, and a 2nd-pass model re-scores the hypotheses with full audio sequence context. The 2nd-pass model plays a key role in the quality improvement of the end-to-end model to surpass the conventional model. One main challenge of the two-pass model is the computation latency introduced by the 2nd-pass model. Specifically, the original design of the two-pass model uses LSTMs for the 2nd-pass model, which are subject to long latency as they are constrained by the recurrent nature and have to run inference sequentially. In this work we explore replacing the LSTM layers in the 2nd-pass rescorer with Transformer layers, which can process the entire hypothesis sequences in parallel and can therefore utilize the on-device computation resources more efficiently. Compared with an LSTM-based baseline, our proposed Transformer rescorer achieves more than 50% latency reduction with quality improvement. | 翻訳日:2022-10-23 12:30:15 公開日:2020-09-02 |
# ソーシャルメディアにおける時間的メンタルヘルスダイナミクス Temporal Mental Health Dynamics on Social Media ( http://arxiv.org/abs/2008.13121v3 ) ライセンス: Link先を確認 | Tom Tabak and Matthew Purver | (参考訳) 本稿では,時間的メンタルヘルスダイナミクスシステム構築のための一連の実験について述べる。
我々は,ソーシャルメディアプラットフォームからメンタルヘルスデータマイニングを遠隔監視するための既存手法を活用し,世界的なcovid-19パンデミック時のシステム展開をケーススタディとして活用する。
課題の難しさにもかかわらず、世界的なパンデミックに明白な結果と、文献に支持された世界的な現象であるクリスマスのうつ病に暗黙的な結果を生み出します。
戦略的意思決定に活用するための時間的メンタルヘルスダイナミクスに関する洞察を提供する手法を提案する。 We describe a set of experiments for building a temporal mental health dynamics system. We utilise a pre-existing methodology for distant-supervision of mental health data mining from social media platforms and deploy the system during the global COVID-19 pandemic as a case study. Despite the challenging nature of the task, we produce encouraging results, both explicit to the global pandemic and implicit to a global phenomenon, Christmas Depression, supported by the literature. We propose a methodology for providing insight into temporal mental health dynamics to be utilised for strategic decision-making. | 翻訳日:2022-10-23 12:28:59 公開日:2020-09-02 |
# 少ない注釈データを用いた2D+3D CNNトレーニングによる蛍光顕微鏡における神経細胞のセマンティックセグメンテーション Semantic Segmentation of Neuronal Bodies in Fluorescence Microscopy Using a 2D+3D CNN Training Strategy with Sparsely Annotated Data ( http://arxiv.org/abs/2009.00029v2 ) ライセンス: Link先を確認 | Filippo Maria Castelli, Matteo Roffilli, Giacomo Mazzamuto, Irene Costantini, Ludovico Silvestri and Francesco Saverio Pavone | (参考訳) ヒト大脳皮質の3次元高分解能蛍光顕微鏡画像における神経細胞構造のセマンティックセグメンテーションは2次元CNNの利点を生かし、ニューロンの局在は良好であるが、不正確な表面再構成をもたらす。
一方、3d cnnは、大規模かつ相当な人間の努力で、手動でボリュームデータに注釈を付ける必要がある。
sparseアノテーションのみを使用する半教師付き代替戦略は、トレーニング時間が長く、達成されたモデルは、2d cnnと比較して容量が増加する傾向があり、同様の結果を得るためにはより多くの根拠データが必要である。
これらの問題を克服するために,2d cnnモデルによってラベルの欠落を推測し,損失計算中に重み付けされた方法で手動アノテーションと組み合わせた,スパース2dアノテーションを用いたネイティブ3d cnnモデルをトレーニングするための2相戦略を提案する。 Semantic segmentation of neuronal structures in 3D high-resolution fluorescence microscopy imaging of the human brain cortex can take advantage of bidimensional CNNs, which yield good results in neuron localization but lead to inaccurate surface reconstruction. 3D CNNs, on the other hand, would require manually annotated volumetric data on a large scale and hence considerable human effort. Semi-supervised alternative strategies which make use only of sparse annotations suffer from longer training times and achieved models tend to have increased capacity compared to 2D CNNs, needing more ground truth data to attain similar results. To overcome these issues we propose a two-phase strategy for training native 3D CNN models on sparse 2D annotations where missing labels are inferred by a 2D CNN model and combined with manual annotations in a weighted manner during loss calculation. | 翻訳日:2022-10-23 07:45:22 公開日:2020-09-02 |
# multisegva: 複数のスケールでバイオログの時系列をセグメント化するビジュアル分析 MultiSegVA: Using Visual Analytics to Segment Biologging Time Series on Multiple Scales ( http://arxiv.org/abs/2009.00548v2 ) ライセンス: Link先を確認 | Philipp Meschenmoser, Juri F. Buchm\"uller, Daniel Seebacher, Martin Wikelski and Daniel A. Keim | (参考訳) 複数の時間スケールで生物記録時系列を分割することは、慎重なパラメータ化とおそらくクロスドメインな専門知識を持つ複雑な技術を必要とする重要なステップである。
しかし、このようなマルチスケールセグメンテーションを強くサポートする視覚対話ツールがない。
このギャップを埋めるために、複数の時間スケールでセグメント化手法とパラメータを対話的に定義するMultiSegVAプラットフォームを提案する。
MultiSegVAは主に、未ラベルの時系列を複数のスケールでセグメント化するための、カスタマイズされた視覚的対話手段と視覚分析パラダイムに貢献する。
さらに,マルチスケールセグメンテーションを柔軟に構成するために,様々なセグメンテーション手法をリンクする新しいビジュアルクエリ言語を提供する。
このアプローチを説明するために,運動生態学者と協調して派生したドメイン指向セグメンテーション手法を提案する。
環境に配慮したセグメンテーション後の行動分析と進行クラスタリング後の行動分析の2つの実世界のユースケースにおけるMultiSegVAの適用性と有用性を示す。
運動生態学者からのエキスパートフィードバックは、マルチスケールデータのセグメンテーションにおける視覚-対話的手段とビジュアル分析パラダイムの有効性を示し、意味的に意味のある分析を可能にする。
第3のユースケースは、MultiSegVAが他のドメインに一般化可能であることを示している。 Segmenting biologging time series of animals on multiple temporal scales is an essential step that requires complex techniques with careful parameterization and possibly cross-domain expertise. Yet, there is a lack of visual-interactive tools that strongly support such multi-scale segmentation. To close this gap, we present our MultiSegVA platform for interactively defining segmentation techniques and parameters on multiple temporal scales. MultiSegVA primarily contributes tailored, visual-interactive means and visual analytics paradigms for segmenting unlabeled time series on multiple scales. Further, to flexibly compose the multi-scale segmentation, the platform contributes a new visual query language that links a variety of segmentation techniques. To illustrate our approach, we present a domain-oriented set of segmentation techniques derived in collaboration with movement ecologists. We demonstrate the applicability and usefulness of MultiSegVA in two real-world use cases from movement ecology, related to behavior analysis after environment-aware segmentation, and after progressive clustering. Expert feedback from movement ecologists shows the effectiveness of tailored visual-interactive means and visual analytics paradigms at segmenting multi-scale data, enabling them to perform semantically meaningful analyses. A third use case demonstrates that MultiSegVA is generalizable to other domains. | 翻訳日:2022-10-23 02:04:54 公開日:2020-09-02 |
# キーワードスポッティングのためのニューラルアーキテクチャ探索 Neural Architecture Search For Keyword Spotting ( http://arxiv.org/abs/2009.00165v2 ) ライセンス: Link先を確認 | Tong Mo, Yakun Yu, Mohammad Salameh, Di Niu, Shangling Jui | (参考訳) ディープニューラルネットワークは最近、音声によるスマートデバイスの制御を可能にするキーワードスポッティングシステムの一般的なソリューションになっている。
本稿では,音響信号から抽出した特徴に基づくキーワードスポッティングの性能向上を支援するとともに,許容メモリフットプリントを維持しながら,畳み込みニューラルネットワークモデルの探索にニューラルネットワーク探索を適用した。
具体的には,事前定義されたセル検索空間における演算子とその接続を探索するために,微分可能なアーキテクチャ検索技術を用いる。
見つかった細胞は、競争性能を達成するために深さと幅の両方でスケールアップされる。
提案手法をGoogleの音声コマンドデータセット上で評価し,文献で一般的に報告される12種類の発話分類の設定に対して,最先端の精度を97%以上達成した。 Deep neural networks have recently become a popular solution to keyword spotting systems, which enable the control of smart devices via voice. In this paper, we apply neural architecture search to search for convolutional neural network models that can help boost the performance of keyword spotting based on features extracted from acoustic signals while maintaining an acceptable memory footprint. Specifically, we use differentiable architecture search techniques to search for operators and their connections in a predefined cell search space. The found cells are then scaled up in both depth and width to achieve competitive performance. We evaluated the proposed method on Google's Speech Commands Dataset and achieved a state-of-the-art accuracy of over 97% on the setting of 12-class utterance classification commonly reported in the literature. | 翻訳日:2022-10-23 02:03:23 公開日:2020-09-02 |
# 深層学習によるモーションキャプチャーの原理と落とし穴と展望 A Primer on Motion Capture with Deep Learning: Principles, Pitfalls and Perspectives ( http://arxiv.org/abs/2009.00564v2 ) ライセンス: Link先を確認 | Alexander Mathis and Steffen Schneider and Jessy Lauer and Mackenzie W. Mathis | (参考訳) ビデオから非侵襲的に行動測定を抽出することは、それがハードな計算問題であるという事実に悩まされる。
近年のディープラーニングの進歩は、ビデオから直接姿勢を予測し、すぐに神経科学や生物学に影響を与えた。
このプライマーでは、深層学習によるモーションキャプチャーの芽生えた分野を概観する。
特に、これらの新しいアルゴリズムの原理について議論し、その可能性と実験者の落とし穴を強調し、未来を垣間見る。 Extracting behavioral measurements non-invasively from video is stymied by the fact that it is a hard computational problem. Recent advances in deep learning have tremendously advanced predicting posture from videos directly, which quickly impacted neuroscience and biology more broadly. In this primer we review the budding field of motion capture with deep learning. In particular, we will discuss the principles of those novel algorithms, highlight their potential as well as pitfalls for experimentalists, and provide a glimpse into the future. | 翻訳日:2022-10-23 01:02:13 公開日:2020-09-02 |
# 弾性イメージングにおける非均質材料同定のための物理インフォームニューラルネットワーク Physics-Informed Neural Networks for Nonhomogeneous Material Identification in Elasticity Imaging ( http://arxiv.org/abs/2009.04525v1 ) ライセンス: Link先を確認 | Enrui Zhang, Minglang Yin, George Em Karniadakis | (参考訳) 非均一物質の同定問題に対する物理情報ニューラルネットワーク(PINN)を適用した。
そこで我々は, 準静荷重下でのフルフィールド変位測定に基づいて, 軟部組織の非均一な力学的特性を同定しようとする弾性イメージングの背景問題に焦点をあてる。
本モデルでは,2つの独立したニューラルネットワークを適用し,その1つは対応する前方問題の解を近似し,もう1つは未知の物質パラメータ場を近似する。
概念実証として,非圧縮性超弾性組織に対する原型的平面ひずみ問題のモデルを検証する。
その結果, PINNは未知の機械的特性の分布を正確に復元するのに有効であることが示唆された。
モデルに2つのニューラルネットワークを用いることで、PINNの物質識別機能を非均一な物質パラメータフィールドを含むように拡張し、複雑な物質特性を表現するためにPINNの柔軟性を高める。 We apply Physics-Informed Neural Networks (PINNs) for solving identification problems of nonhomogeneous materials. We focus on the problem with a background in elasticity imaging, where one seeks to identify the nonhomogeneous mechanical properties of soft tissue based on the full-field displacement measurements under quasi-static loading. In our model, we apply two independent neural networks, one for approximating the solution of the corresponding forward problem, and the other for approximating the unknown material parameter field. As a proof of concept, we validate our model on a prototypical plane strain problem for incompressible hyperelastic tissue. The results show that the PINNs are effective in accurately recovering the unknown distribution of mechanical properties. By employing two neural networks in our model, we extend the capability of material identification of PINNs to include nonhomogeneous material parameter fields, which enables more flexibility of PINNs in representing complex material properties. | 翻訳日:2022-10-22 20:07:10 公開日:2020-09-02 |
# DL-Lite オントロジーによる数値クエリの解答 Answering Counting Queries over DL-Lite Ontologies ( http://arxiv.org/abs/2009.09801v1 ) ライセンス: Link先を確認 | Meghyn Bienvenu (UB, CNRS, Bordeaux INP, LaBRI), Quentin Mani\`ere (UB, CNRS, Bordeaux INP, LaBRI), Micha\"el Thomazo (VALDA ) | (参考訳) onlogy-mediated query answering (omqa) は10年以上にわたって知識表現とデータベースコミュニティで積極的に研究されてきたデータアクセスと統合への有望なアプローチである。
omqaに関するほとんどの作業は結合型クエリに重点を置いているが、機能カウントやその他のアグリゲーションを特徴とするより表現力のあるクエリは、ほとんど前例のないままである。
本稿では,クエリをカウントする一般的な形式を導入し,従来の提案に関連付けるとともに,DL-Liteオントロジーの存在下でそのようなクエリに答えることの複雑さについて検討する。
クエリ応答が難易度が高く、しばしば複雑性が高いという既存の作業から従うように、我々は、複雑性境界を改善するために、実際に関連するいくつかの制約を考えます。 Ontology-mediated query answering (OMQA) is a promising approach to data access and integration that has been actively studied in the knowledge representation and database communities for more than a decade. The vast majority of work on OMQA focuses on conjunctive queries, whereas more expressive queries that feature counting or other forms of aggregation remain largely unex-plored. In this paper, we introduce a general form of counting query, relate it to previous proposals, and study the complexity of answering such queries in the presence of DL-Lite ontologies. As it follows from existing work that query answering is intractable and often of high complexity, we consider some practically relevant restrictions, for which we establish improved complexity bounds. | 翻訳日:2022-10-22 20:06:24 公開日:2020-09-02 |
# マイクロエンターテイメント:インタラクティブデータシステムにおける時間的メンタルモデルのより深い評価 Micro-entries: Encouraging Deeper Evaluation of Mental Models Over Time for Interactive Data Systems ( http://arxiv.org/abs/2009.01282v1 ) ライセンス: Link先を確認 | Jeremy E. Block, Eric D. Ragan | (参考訳) 多くのインタラクティブなデータシステムは、データの視覚的表現と、自動化とデータ探索のための組込みアルゴリズムサポートを組み合わせる。
透明で説明可能なデータシステムを効果的にサポートするためには、研究者やデザイナーがシステムの理解方法を知ることが重要である。
システム論理におけるユーザの心的モデルの評価について考察する。
メンタルモデルは、キャプチャと分析が難しい。
一般的な評価手法は、システム使用の期間を経て、ユーザの最終的なメンタルモデルを近似することを目的としているが、ユーザが時間とともにシステムと対話するにつれて、ユーザの理解は継続的に進化する。
本稿では,インタラクティブなデータ分析と可視化システムを用いて,多くのメンタルモデル計測手法をレビューし,トレードオフについて議論し,より深く,より有意義なメンタルモデル評価方法を提案する。
具体的なモデル更新の進化と、それらがインターフェイス機能やデータクエリの特定の利用にどのようにマップされるかを明らかにするために、メンタルモデルを評価するためのガイドラインを提示する。
ユーザが何を知り、どのように知っているかを説明することで、研究者はユーザの概念化プロセスに関する構造化された時間順の洞察を集めると同時に、ユーザ自身の発見をガイドすることができる。 Many interactive data systems combine visual representations of data with embedded algorithmic support for automation and data exploration. To effectively support transparent and explainable data systems, it is important for researchers and designers to know how users understand the system. We discuss the evaluation of users' mental models of system logic. Mental models are challenging to capture and analyze. While common evaluation methods aim to approximate the user's final mental model after a period of system usage, user understanding continuously evolves as users interact with a system over time. In this paper, we review many common mental model measurement techniques, discuss tradeoffs, and recommend methods for deeper, more meaningful evaluation of mental models when using interactive data analysis and visualization systems. We present guidelines for evaluating mental models over time that reveal the evolution of specific model updates and how they may map to the particular use of interface features and data queries. By asking users to describe what they know and how they know it, researchers can collect structured, time-ordered insight into a user's conceptualization process while also helping guide users to their own discoveries. | 翻訳日:2022-10-22 20:05:24 公開日:2020-09-02 |
# ニューラルクロスブレッド(neural crossbreed:neural based image metamorphosis) Neural Crossbreed: Neural Based Image Metamorphosis ( http://arxiv.org/abs/2009.00905v1 ) ライセンス: Link先を確認 | Sanghun Park, Kwanggyoon Seo, Junyong Noh | (参考訳) 本研究では,入力画像の意味変化を潜在空間で学習し,モーフィング効果を生成する,フィードフォワードニューラルネットワークであるneural crossbreedを提案する。
ネットワークは意味的変化を学習するため、ユーザが明示的な対応を指定せずに意味のある中間画像のシーケンスを生成することができる。
さらに、セマンティックな変更学習によって、ポーズやカメラビューが著しく異なるオブジェクトを含むイメージ間のモーフィングの実行が可能になる。
さらに,従来のモーフィング手法と同様に,我々のモーフィングネットワークは,コンテンツとスタイルの変換を疎結合にすることで,形状と外観の遷移を別々に処理することができる。
本研究では,2つの潜伏ベクトルを意図したモーフィング値で補間することにより,中間画像を生成するBigGANを用いたモーフィング訓練データセットを作成する。
これは、セマンティックトランスフォーメーションを学習するために、事前訓練された生成モデルを用いて画像変形に対処する最初の試みである。
実験により,ニューラルクロスブリードは高品質なモーフィズド画像を生成し,従来のアプローチに伴う様々な制限を克服することを示した。
さらに、マルチイメージのモーフィング、外観変換、ビデオフレーム補間など、多様な用途に対して、Neural Crossbreedをさらに拡張することができる。 We propose Neural Crossbreed, a feed-forward neural network that can learn a semantic change of input images in a latent space to create the morphing effect. Because the network learns a semantic change, a sequence of meaningful intermediate images can be generated without requiring the user to specify explicit correspondences. In addition, the semantic change learning makes it possible to perform the morphing between the images that contain objects with significantly different poses or camera views. Furthermore, just as in conventional morphing techniques, our morphing network can handle shape and appearance transitions separately by disentangling the content and the style transfer for rich usability. We prepare a training dataset for morphing using a pre-trained BigGAN, which generates an intermediate image by interpolating two latent vectors at an intended morphing value. This is the first attempt to address image morphing using a pre-trained generative model in order to learn semantic transformation. The experiments show that Neural Crossbreed produces high quality morphed images, overcoming various limitations associated with conventional approaches. In addition, Neural Crossbreed can be further extended for diverse applications such as multi-image morphing, appearance transfer, and video frame interpolation. | 翻訳日:2022-10-22 20:05:04 公開日:2020-09-02 |
# レコメンデーションのための異種グラフニューラルネットワーク Heterogeneous Graph Neural Network for Recommendation ( http://arxiv.org/abs/2009.00799v1 ) ライセンス: Link先を確認 | Jinghan Shi, Houye Ji, Chuan Shi, Xiao Wang, Zhiqiang Zhang, Jun Zhou | (参考訳) 電子商取引の発展は様々なレコメンデーションシステムを生み出している。
実際、実世界のレコメンデーションシステムには様々な種類のノードの間でリッチで複雑な相互作用があり、これは異種グラフとして構築できる。
パーソナライズされたレコメンデーションシステムの基礎とコアは、どのように代表ノードの埋め込みを学ぶかである。
Meta-pathはそのような相互作用の下のセマンティクスをキャプチャし、ノードの埋め込みを改善する能力を示すために広く使われている構造である。
本稿では,マルチホップのメタパスベース近傍を集約することでノード埋め込みに高次セマンティクスを注入し,集中機構に基づいて複数のメタパスを介してリッチセマンティクスを融合し,包括的なノード埋め込みを実現するヘテロジニアスグラフニューラルネットワーク(hgrec)を提案する。
実験の結果、高階意味論の重要性が示され、HGRecの優れた解釈可能性も示される。 The prosperous development of e-commerce has spawned diverse recommendation systems. As a matter of fact, there exist rich and complex interactions among various types of nodes in real-world recommendation systems, which can be constructed as heterogeneous graphs. How learn representative node embedding is the basis and core of the personalized recommendation system. Meta-path is a widely used structure to capture the semantics beneath such interactions and show potential ability in improving node embedding. In this paper, we propose Heterogeneous Graph neural network for Recommendation (HGRec) which injects high-order semantic into node embedding via aggregating multi-hops meta-path based neighbors and fuses rich semantics via multiple meta-paths based on attention mechanism to get comprehensive node embedding. Experimental results demonstrate the importance of rich high-order semantics and also show the potentially good interpretability of HGRec. | 翻訳日:2022-10-22 20:04:17 公開日:2020-09-02 |
# 指数的メカニズムと最大被覆による差分プライベート$k$-meansクラスタリング Differentially private $k$-means clustering via exponential mechanism and max cover ( http://arxiv.org/abs/2009.01220v1 ) ライセンス: Link先を確認 | Anamay Chaturvedi, Huy Nguyen, Eric Xu | (参考訳) 我々は、k$-meansクラスタリング問題に対して、新しい$(\epsilon_p, \delta_p)$-differentially privateアルゴリズムを導入する。
ユークリッド空間のデータセットが与えられたとき、$k$-meansクラスタリング問題は、各データポイントと返される$k$内の最も近い各ポイントの間のユークリッド距離の合計が最小化されるような、その空間内の$k$ポイントを見つける必要がある。
Balcan et al., 2017; Kaplan and Stemmer, 2018) は、この問題を解決するための優れた理論的保証を持つプライバシー保護方法が存在するが、実際には、これらの手法の実用的な性能を規定する追加エラーである。
グリッド上の最大カバレッジのインスタンス数に問題を縮小することで、以前の処理よりも少ない加算誤差を達成する新しいメソッドを導出することができる。
n$ と直径 $\delta$ の入力データセットに対して、このアルゴリズムは、一定の乗算誤差を維持しながら$o(\delta^2 (k \log^2 n \log(1/\delta_p)/\epsilon_p + k\sqrt{d \log(1/\delta_p)}/\epsilon_p))$加算誤差を持つ。
我々は、いくつかの実験で結論付け、この問題に対する以前実装された作業よりも改善を見出した。 We introduce a new $(\epsilon_p, \delta_p)$-differentially private algorithm for the $k$-means clustering problem. Given a dataset in Euclidean space, the $k$-means clustering problem requires one to find $k$ points in that space such that the sum of squares of Euclidean distances between each data point and its closest respective point among the $k$ returned is minimised. Although there exist privacy-preserving methods with good theoretical guarantees to solve this problem [Balcan et al., 2017; Kaplan and Stemmer, 2018], in practice it is seen that it is the additive error which dictates the practical performance of these methods. By reducing the problem to a sequence of instances of maximum coverage on a grid, we are able to derive a new method that achieves lower additive error then previous works. For input datasets with cardinality $n$ and diameter $\Delta$, our algorithm has an $O(\Delta^2 (k \log^2 n \log(1/\delta_p)/\epsilon_p + k\sqrt{d \log(1/\delta_p)}/\epsilon_p))$ additive error whilst maintaining constant multiplicative error. We conclude with some experiments and find an improvement over previously implemented work for this problem. | 翻訳日:2022-10-22 20:03:48 公開日:2020-09-02 |
# リニア・クアドラティックゼロサム平均フィールド型ゲームに対するポリシー最適化 Policy Optimization for Linear-Quadratic Zero-Sum Mean-Field Type Games ( http://arxiv.org/abs/2009.02146v1 ) ライセンス: Link先を確認 | Ren\'e Carmona and Kenza Hamidouche and Mathieu Lauri\`ere and Zongjun Tan | (参考訳) 本稿では,線形力学と二次効用を持つゼロサム平均場型ゲーム(ZSMFTG)を,無限水平割引ユーティリティ関数の下で研究する。
ZSMFTG(ZSMFTG)は、ゼロに等しいユーティリティを持つ2人の意思決定者が多数のエージェントに影響を与えるゲームである。
特に、遷移関数と効用関数が状態、コントローラの動作、状態とアクションの平均に依存する場合について検討する。
ゲームは分析され、ナッシュ均衡戦略の明示的な表現が導出される。
さらに、モデルベースのフレームワークとサンプルベースのフレームワークの両方に対して、ポリシー勾配に依存する2つのポリシー最適化手法を提案する。
第1のケースでは勾配はモデルを用いて正確に計算され、第2のケースではモンテカルロシミュレーションを用いて推定される。
数値実験では、2つのプレイヤーの制御の収束と、2つのアルゴリズムが異なるシナリオで使用される際のユーティリティ関数が示される。 In this paper, zero-sum mean-field type games (ZSMFTG) with linear dynamics and quadratic utility are studied under infinite-horizon discounted utility function. ZSMFTG are a class of games in which two decision makers whose utilities sum to zero, compete to influence a large population of agents. In particular, the case in which the transition and utility functions depend on the state, the action of the controllers, and the mean of the state and the actions, is investigated. The game is analyzed and explicit expressions for the Nash equilibrium strategies are derived. Moreover, two policy optimization methods that rely on policy gradient are proposed for both model-based and sample-based frameworks. In the first case, the gradients are computed exactly using the model whereas they are estimated using Monte-Carlo simulations in the second case. Numerical experiments show the convergence of the two players' controls as well as the utility function when the two algorithms are used in different scenarios. | 翻訳日:2022-10-22 20:02:56 公開日:2020-09-02 |
# 深部生成モデルに基づく画像再構成によるsift特徴のプライバシー漏洩 Privacy Leakage of SIFT Features via Deep Generative Model based Image Reconstruction ( http://arxiv.org/abs/2009.01030v1 ) ライセンス: Link先を確認 | Haiwei Wu and Jiantao Zhou | (参考訳) コンテンツベースの画像検索やオブジェクト認識といった多くの実践的応用は、クエリ画像から抽出された局所的な特徴に大きく依存している。
これらのローカル機能は通常、信頼できない関係者に公開されるため、画像ローカル機能のプライバシー漏洩問題は近年注目を集めている。
本研究では,最も広く利用されている画像局所特徴の1つであるSIFT(Scale Invariant Feature Transform)のプライバシー漏洩を徹底的に評価する。
まず、敵がSIFT機能に完全にアクセスできる場合、すなわちSIFT記述子と座標の両方が利用可能である。
本稿では,そのSIFT特徴から潜像を再構成する,エンド・ツー・エンドの粗い深部生成モデルを提案する。
設計された深部生成モデルは2つのネットワークから構成されており、第1はSIFT特徴から局所バイナリパターン(LBP)特徴へ変換することで潜像の構造情報を学習し、第2は学習されたLBPによって導かれる画素値の再構成を目的としている。
最先端のアルゴリズムと比較して、提案した深層生成モデルは、3つの公開データセットに対して大幅に改善された結果を生成する。
さらに,SIFT の部分的特徴(SIFT 記述子または座標)のみが敵にアクセス可能であるという,より困難な問題に対処する。
敵が座標を使わずにsiftディスクリプタにアクセスできなければ、高構造な画像(例えば顔)に対して潜在イメージを再構築するというわずかな成功が得られ、一般的な設定では失敗することが示されている。
さらに、潜像はSIFT座標のみから合理的に良好な品質で再構成することができる。
この結果から,SIFT座標を適切に保護すれば,プライバシリークの問題を回避できることが示唆された。 Many practical applications, e.g., content based image retrieval and object recognition, heavily rely on the local features extracted from the query image. As these local features are usually exposed to untrustworthy parties, the privacy leakage problem of image local features has received increasing attention in recent years. In this work, we thoroughly evaluate the privacy leakage of Scale Invariant Feature Transform (SIFT), which is one of the most widely-used image local features. We first consider the case that the adversary can fully access the SIFT features, i.e., both the SIFT descriptors and the coordinates are available. We propose a novel end-to-end, coarse-to-fine deep generative model for reconstructing the latent image from its SIFT features. The designed deep generative model consists of two networks, where the first one attempts to learn the structural information of the latent image by transforming from SIFT features to Local Binary Pattern (LBP) features, while the second one aims to reconstruct the pixel values guided by the learned LBP. Compared with the state-of-the-art algorithms, the proposed deep generative model produces much improved reconstructed results over three public datasets. Furthermore, we address more challenging cases that only partial SIFT features (either SIFT descriptors or coordinates) are accessible to the adversary. It is shown that, if the adversary can only have access to the SIFT descriptors while not their coordinates, then the modest success of reconstructing the latent image can be achieved for highly-structured images (e.g., faces) and would fail in general settings. In addition, the latent image can be reconstructed with reasonably good quality solely from the SIFT coordinates. Our results would suggest that the privacy leakage problem can be largely avoided if the SIFT coordinates can be well protected. | 翻訳日:2022-10-22 19:56:25 公開日:2020-09-02 |
# 潜伏符号の活用:対話型ファッション生成,類似画像検索,変分オートエンコーダを用いたカテゴリー間推薦 Exploiting Latent Codes: Interactive Fashion Product Generation, Similar Image Retrieval, and Cross-Category Recommendation using Variational Autoencoders ( http://arxiv.org/abs/2009.01053v1 ) ライセンス: Link先を確認 | James-Andrew Sarmiento | (参考訳) ファッション業界におけるディープラーニングアプリケーションの増加は、製品設計、画像検索、レコメンダシステムのためのアプリケーションを構築するための大規模データセットのキュレーションの進展を促した。
本稿では,変分オートエンコーダ(VAE)を用いて,ユーザが好みに応じて商品を生成できるインタラクティブなファッション製品アプリケーションフレームワークを構築し,同じ製品カテゴリの類似したスタイルを検索し,他のカテゴリからコンテンツベースのレコメンデーションを受け取ることを提案する。
メガネ、履物、バッグを含むファッション製品画像データセットは、このパイプラインがeコマースのブーム産業に適用できることを示すのに適しており、データマッチングのための新しい方法とペアリングされた望ましい製品を特定する際に、直接ユーザーインタラクションを可能にする。 The rise of deep learning applications in the fashion industry has fueled advances in curating large-scale datasets to build applications for product design, image retrieval, and recommender systems. In this paper, the author proposes using Variational Autoencoder (VAE) to build an interactive fashion product application framework that allows the users to generate products with attributes according to their liking, retrieve similar styles for the same product category, and receive content-based recommendations from other categories. Fashion product images dataset containing eyewear, footwear, and bags are appropriate to illustrate that this pipeline is applicable in the booming industry of e-commerce enabling direct user interaction in specifying desired products paired with new methods for data matching, and recommendation systems by using VAE and exploiting its generated latent codes. | 翻訳日:2022-10-22 19:55:54 公開日:2020-09-02 |
# 覚醒語:音声-視覚的キーワードスポッティング Seeing wake words: Audio-visual Keyword Spotting ( http://arxiv.org/abs/2009.01225v1 ) ライセンス: Link先を確認 | Liliane Momeni and Triantafyllos Afouras and Themos Stafylakis and Samuel Albanie and Andrew Zisserman | (参考訳) 本研究の目的は、音声を用いて、興味ある単語が話し手によって話されるか否かを自動的に判断することである。
野生のビデオに適したゼロショット方式を提案する。
1)タスクを分割するために類似性マップ中間表現を使用する新しい畳み込みアーキテクチャ、KWS-Net。
(i)シーケンスマッチング、および
(ii)パターン検出では,単語が存在するか否かを判断する。(2)音声が利用可能であれば,ビジュアルキーワードスポッティングによって,クリーン信号とノイズ信号の両方のパフォーマンスが向上することを示す。
最後に,本手法が他の言語,特にフランス語とドイツ語に一般化し,事前学習したネットワークを英語で微調整することにより,より少ない言語データで英語に匹敵する性能を実現することを示す。
この方法は、同じベンチマークでトレーニングしてテストした場合、以前の最先端のビジュアルキーワードスポッティングアーキテクチャと最先端のリップリーディングメソッドのパフォーマンスを上回っている。 The goal of this work is to automatically determine whether and when a word of interest is spoken by a talking face, with or without the audio. We propose a zero-shot method suitable for in the wild videos. Our key contributions are: (1) a novel convolutional architecture, KWS-Net, that uses a similarity map intermediate representation to separate the task into (i) sequence matching, and (ii) pattern detection, to decide whether the word is there and when; (2) we demonstrate that if audio is available, visual keyword spotting improves the performance both for a clean and noisy audio signal. Finally, (3) we show that our method generalises to other languages, specifically French and German, and achieves a comparable performance to English with less language specific data, by fine-tuning the network pre-trained on English. The method exceeds the performance of the previous state-of-the-art visual keyword spotting architecture when trained and tested on the same benchmark, and also that of a state-of-the-art lip reading method. | 翻訳日:2022-10-22 19:55:37 公開日:2020-09-02 |
# ノイズアウェアテクスチャ保存型低光強調 Noise-Aware Texture-Preserving Low-Light Enhancement ( http://arxiv.org/abs/2009.01385v1 ) ライセンス: Link先を確認 | Zohreh Azizi, Xuejing Lei, and C.-C Jay Kuo | (参考訳) 本研究では,ノイズ対応テクスチャ保存retinexモデルに基づく簡易かつ効果的な低光度画像強調手法を提案する。
NATLEと呼ばれる新しい手法は、ノイズ除去と自然テクスチャ保存のバランスを、低複雑さの溶液で調整する。
コスト関数は、推定された区分的な滑らかな照明マップとノイズのないテクスチャ保存反射率マップを含む。
その後、照明を調整して、リフレクタンスマップとともに強調画像を形成する。
NATLEの優れた性能を示すため、一般的な低照度画像強調データセットに対して大規模な実験を行った。 A simple and effective low-light image enhancement method based on a noise-aware texture-preserving retinex model is proposed in this work. The new method, called NATLE, attempts to strike a balance between noise removal and natural texture preservation through a low-complexity solution. Its cost function includes an estimated piece-wise smooth illumination map and a noise-free texture-preserving reflectance map. Afterwards, illumination is adjusted to form the enhanced image together with the reflectance map. Extensive experiments are conducted on common low-light image enhancement datasets to demonstrate the superior performance of NATLE. | 翻訳日:2022-10-22 19:54:53 公開日:2020-09-02 |
# ハイブリッド制御設計における強化学習手法 A reinforcement learning approach to hybrid control design ( http://arxiv.org/abs/2009.00821v1 ) ライセンス: Link先を確認 | Meet Gandhi, Atreyee Kundu, Shalabh Bhatnagar | (参考訳) 本稿では,数学的モデルが不明なハイブリッドシステムのハイブリッド制御ポリシーを設計する。
私たちの貢献は3倍です。
まず,ハイブリッド制御設計問題を1つのマルコフ決定プロセス(MDP)としてモデル化するフレームワークを提案する。
この結果から,Reinforcement Learning (RL) 文献からの既製のアルゴリズムの最適制御ポリシー設計への活用が容易となった。
第2に,提案するmdpフレームワークにおけるハイブリッド制御設計問題のベンチマーク事例をモデル化する。
第三に、最近提案されたPPOアルゴリズムをハイブリッドアクション空間に適用し、上記の問題に適用する。
それぞれのケースでアルゴリズムが収束し、最適方針を見つけることが観察される。 In this paper we design hybrid control policies for hybrid systems whose mathematical models are unknown. Our contributions are threefold. First, we propose a framework for modelling the hybrid control design problem as a single Markov Decision Process (MDP). This result facilitates the application of off-the-shelf algorithms from Reinforcement Learning (RL) literature towards designing optimal control policies. Second, we model a set of benchmark examples of hybrid control design problem in the proposed MDP framework. Third, we adapt the recently proposed Proximal Policy Optimisation (PPO) algorithm for the hybrid action space and apply it to the above set of problems. It is observed that in each case the algorithm converges and finds the optimal policy. | 翻訳日:2022-10-22 19:54:44 公開日:2020-09-02 |
# 確率バリア関数と深部前方SDEを用いた安全最適制御 Safe Optimal Control Using Stochastic Barrier Functions and Deep Forward-Backward SDEs ( http://arxiv.org/abs/2009.01196v1 ) ライセンス: Link先を確認 | Marcus Aloysius Pereira and Ziyi Wang and Ioannis Exarchos and Evangelos A. Theodorou | (参考訳) 本稿では, 状態と制御制約に対する安全性を保証する確率的最適制御と確率的動的最適化の新しい定式化を提案する。
提案手法は,前向きの確率微分方程式,確率障壁関数,微分可能凸最適化,深層学習といった概念を組み合わせる。
前述の概念を用いて、ニューラルネットワークアーキテクチャは、エンドツーエンドで学習を実行できる安全な軌道最適化のために設計されている。
提案手法の有効性を示すために3つのシステム上でシミュレーションを行う。 This paper introduces a new formulation for stochastic optimal control and stochastic dynamic optimization that ensures safety with respect to state and control constraints. The proposed methodology brings together concepts such as Forward-Backward Stochastic Differential Equations, Stochastic Barrier Functions, Differentiable Convex Optimization and Deep Learning. Using the aforementioned concepts, a Neural Network architecture is designed for safe trajectory optimization in which learning can be performed in an end-to-end fashion. Simulations are performed on three systems to show the efficacy of the proposed methodology. | 翻訳日:2022-10-22 19:54:12 公開日:2020-09-02 |
# CODO:Covid-19データの収集と分析のためのオントロジー CODO: An Ontology for Collection and Analysis of Covid-19 Data ( http://arxiv.org/abs/2009.01210v1 ) ライセンス: Link先を確認 | B. Dutta, M. DeBellis | (参考訳) COviD-19 Ontology for Case and patient information (CODO)は、新型コロナウイルスのパンデミックに関するデータの収集と分析のためのモデルを提供する。
オントロジーは、異種データソースからのデータの統合を容易にする標準ベースのオープンソースモデルを提供する。
このオントロジーは、データセット、文献、サービスなど、さまざまな新型コロナウイルスデータソースを分析して設計された。
オントロジーは、他の主要な語彙の概念を再利用し、W3C標準RDF、OWL、SWRL、SPARQLを使用することによって、語彙のベストプラクティスに従う。
オントロジーはすでに1人の独立ユーザーを抱えており、インド政府の実世界のデータを組み込んでいる。 The COviD-19 Ontology for cases and patient information (CODO) provides a model for the collection and analysis of data about the COVID-19 pandemic. The ontology provides a standards-based open-source model that facilitates the integration of data from heterogeneous data sources. The ontology was designed by analysing disparate COVID-19 data sources such as datasets, literature, services, etc. The ontology follows the best practices for vocabularies by re-using concepts from other leading vocabularies and by using the W3C standards RDF, OWL, SWRL, and SPARQL. The ontology already has one independent user and has incorporated real-world data from the government of India. | 翻訳日:2022-10-22 19:47:38 公開日:2020-09-02 |
# 分散制約最適化問題に対する集団ベースアルゴリズムについて On Population-Based Algorithms for Distributed Constraint Optimization Problems ( http://arxiv.org/abs/2009.01625v1 ) ライセンス: Link先を確認 | Saaduddin Mahmud, Md. Mosaddek Khan, Nicholas R. Jennings | (参考訳) 分散制約最適化問題(Distributed Constraint Optimization Problems, DCOP)は、協調エージェントの集合間の相互作用を制約の集合としてモデル化する最適化問題である。
DCOPはNPハードであり、不完全解を見つける方法の開発に多大な努力が注がれている。
本稿では,人口ベースアルゴリズムと広く呼ばれる不完全なアルゴリズムの新たなクラスについて検討する。
これらのアルゴリズムの主な特徴は、与えられた問題の候補解の集団を維持し、この集団を用いて探索空間の広い領域をカバーし、局所オプティマを避けることである。
近年,高品質な不完全解を生成する能力によって,このようなアルゴリズムが注目されている。
本稿では,最新の不完全DCOPアルゴリズムと比較して,解の質をさらに向上することを目的として,2つの新しい集団ベースアルゴリズムを提案する。
最初のアプローチであるAnytime Evolutionary DCOP(AED)は、進化最適化メタヒューリスティックを利用してDCOPを解く。
また、AEDをいつでも利用できる新しいリアルタイム更新機構も提示する。
第2のコントリビューションでは、人口ベースのアプローチと局所的な検索アプローチを組み合わせることができることを示す。
具体的には,Simulated Annealingメタヒューリスティックに基づくDPSAと呼ばれるアルゴリズムを開発した。
我々はこれらの2つのアルゴリズムを実験的に評価し、様々なベンチマークで既存の人口ベースアルゴリズムを含む最先端の不完全DCOPアルゴリズムに対して異なる設定でそれぞれの効果を示す。
AEDとDPSAは最先端を著しく上回り,最大75%の改善ソリューションが得られた。 Distributed Constraint Optimization Problems (DCOPs) are a widely studied class of optimization problems in which interaction between a set of cooperative agents are modeled as a set of constraints. DCOPs are NP-hard and significant effort has been devoted to developing methods for finding incomplete solutions. In this paper, we study an emerging class of such incomplete algorithms that are broadly termed as population-based algorithms. The main characteristic of these algorithms is that they maintain a population of candidate solutions of a given problem and use this population to cover a large area of the search space and to avoid local-optima. In recent years, this class of algorithms has gained significant attention due to their ability to produce high-quality incomplete solutions. With the primary goal of further improving the quality of solutions compared to the state-of-the-art incomplete DCOP algorithms, we present two new population-based algorithms in this paper. Our first approach, Anytime Evolutionary DCOP or AED, exploits evolutionary optimization meta-heuristics to solve DCOPs. We also present a novel anytime update mechanism that gives AED its anytime property. While in our second contribution, we show that population-based approaches can be combined with local search approaches. Specifically, we develop an algorithm called DPSA based on the Simulated Annealing meta-heuristic. We empirically evaluate these two algorithms to illustrate their respective effectiveness in different settings against the state-of-the-art incomplete DCOP algorithms including all existing population-based algorithms in a wide variety of benchmarks. Our evaluation shows AED and DPSA markedly outperform the state-of-the-art and produce up to 75% improved solutions. | 翻訳日:2022-10-22 19:47:25 公開日:2020-09-02 |
# HyperBench: ハイパーグラフと経験的発見のためのベンチマークとツール HyperBench: A Benchmark and Tool for Hypergraphs and Empirical Findings ( http://arxiv.org/abs/2009.01769v1 ) ライセンス: Link先を確認 | Wolfgang Fischl, Georg Gottlob, Davide Mario Longo, Reinhard Pichler | (参考訳) 連結クエリ(cqs)に答えることの難しさと制約満足度問題(csps)を解決するため、ハイパーグラフ分解の概念がいくつか提案されている -- 幅、顕著、平易、一般化、分数多のハイパーツリー幅(hw、ghw、fhw)の異なる概念を生み出している。
このような分解手法を実際に使用することへの関心が高まっていることを踏まえ、分解ソフトウェアの公開リポジトリと大量のベンチマーク、ハイパーグラフの挿入、解析、検索のためのWebアクセス可能なワークベンチが求められている。
私たちはこのニーズに対処する
(i)ハイパーグラフ分解の具体的実装(新しい実用的なアルゴリズムを含む)
(ii)異なるcq及びcspコレクションから派生した新しい包括的なハイパーグラフのベンチマーク、及び
(iii)ハイパーベンチ、ベンチマークと分析結果にアクセスするための新しいweb-inter\-face。
さらに、この新しいインフラで実施した多くの実実験について述べる。 To cope with the intractability of answering Conjunctive Queries (CQs) and solving Constraint Satisfaction Problems (CSPs), several notions of hypergraph decompositions have been proposed -- giving rise to different notions of width, noticeably, plain, generalized, and fractional hypertree width (hw, ghw, and fhw). Given the increasing interest in using such decomposition methods in practice, a publicly accessible repository of decomposition software, as well as a large set of benchmarks, and a web-accessible workbench for inserting, analyzing, and retrieving hypergraphs are called for. We address this need by providing (i) concrete implementations of hypergraph decompositions (including new practical algorithms), (ii) a new, comprehensive benchmark of hypergraphs stemming from disparate CQ and CSP collections, and (iii) HyperBench, our new web-inter\-face for accessing the benchmark and the results of our analyses. In addition, we describe a number of actual experiments we carried out with this new infrastructure. | 翻訳日:2022-10-22 19:47:02 公開日:2020-09-02 |
# 入力破壊に対する意味セグメンテーションのロバスト性のための表現構造について On the Structures of Representation for the Robustness of Semantic Segmentation to Input Corruption ( http://arxiv.org/abs/2009.00817v1 ) ライセンス: Link先を確認 | Charles Lehman, Dogancan Temel, and Ghassan AlRegib | (参考訳) セマンティックセグメンテーション(Semantic segmentation)は、破損した入力に対するロバスト性が不可欠である安全クリティカルなアプリケーションの中心にあるシーン理解タスクである。
Implicit background Estimation (IBE) は、セマンティックセグメンテーションモデルに対するアウト・オブ・ディストリビューション・インプットに対するロバスト性を改善するための有望な手法であることを示した。
本稿では, ソフトマックス, IBE, Sigmoid を用いて, 強靭性との関係の理解を深めるため, 最適化目標の結果として得られた構造を解析する。
そこで本研究では,Sigmoid と IBE (SCrIBE) を組み合わせてロバスト性を向上させることを提案する。
最後に, SCrIBE は, IBE 40.3 および Softmax Baseline 37.5 と比較して, MIOU が 42.1 で全ての汚損, 重度レベルに集約されたセグメンテーション性能が優れていることを示した。 Semantic segmentation is a scene understanding task at the heart of safety-critical applications where robustness to corrupted inputs is essential. Implicit Background Estimation (IBE) has demonstrated to be a promising technique to improve the robustness to out-of-distribution inputs for semantic segmentation models for little to no cost. In this paper, we provide analysis comparing the structures learned as a result of optimization objectives that use Softmax, IBE, and Sigmoid in order to improve understanding their relationship to robustness. As a result of this analysis, we propose combining Sigmoid with IBE (SCrIBE) to improve robustness. Finally, we demonstrate that SCrIBE exhibits superior segmentation performance aggregated across all corruptions and severity levels with a mIOU of 42.1 compared to both IBE 40.3 and the Softmax Baseline 37.5. | 翻訳日:2022-10-22 19:45:55 公開日:2020-09-02 |
# アンカーフリーアーキテクチャに基づくデジタルマンモグラフィーにおける乳房腫瘤の検出 Breast mass detection in digital mammography based on anchor-free architecture ( http://arxiv.org/abs/2009.00857v1 ) ライセンス: Link先を確認 | Haichao Cao | (参考訳) 背景と目的:乳房画像における乳房腫瘤の正確な検出は早期乳癌の診断に重要であり,患者の生存率を大幅に向上させる。
しかし, 乳房の異質性や周囲環境の複雑さのため, いまだに大きな課題である。これらの問題に対処するために, 乳房量検出ネットワーク (BMassDNet) と呼ばれる, アンカーフリーで特徴的ピラミッドをベースとした一段階の物体検出アーキテクチャを提案する。
そこで我々は,乳房と周囲環境のコントラストを高めるために,トラクション正規化法を導入し,適応的ヒストグラム等化と組み合わせた。
一方,データサイズが小さいことによる過剰フィッティング問題を解決するために,自然変形データ拡張法を提案し,データ複雑性に基づく列車データ動的更新法を整備し,限られたデータを有効に活用する。
Finally, we use transfer learning to assist the training process and to improve the robustness of the model ulteriorly.Results: On the INbreast dataset, each image has an average of 0.495 false positives whilst the recall rate is 0.930; On the DDSM dataset, when each image has 0.599 false positives, the recall rate reaches 0.943.Conclusions: The experimental results on datasets INbreast and DDSM show that the proposed BMassDNet can obtain competitive detection performance over the current top ranked methods. Background and Objective: Accurate detection of breast masses in mammography images is critical to diagnose early breast cancer, which can greatly improve the patients survival rate. However, it is still a big challenge due to the heterogeneity of breast masses and the complexity of their surrounding environment.Methods: To address these problems, we propose a one-stage object detection architecture, called Breast Mass Detection Network (BMassDNet), based on anchor-free and feature pyramid which makes the detection of breast masses of different sizes well adapted. We introduce a truncation normalization method and combine it with adaptive histogram equalization to enhance the contrast between the breast mass and the surrounding environment. Meanwhile, to solve the overfitting problem caused by small data size, we propose a natural deformation data augmentation method and mend the train data dynamic updating method based on the data complexity to effectively utilize the limited data. Finally, we use transfer learning to assist the training process and to improve the robustness of the model ulteriorly.Results: On the INbreast dataset, each image has an average of 0.495 false positives whilst the recall rate is 0.930; On the DDSM dataset, when each image has 0.599 false positives, the recall rate reaches 0.943.Conclusions: The experimental results on datasets INbreast and DDSM show that the proposed BMassDNet can obtain competitive detection performance over the current top ranked methods. | 翻訳日:2022-10-22 19:45:41 公開日:2020-09-02 |
# GAIT: ゆるやかな調整による教師なし画像間翻訳 GAIT: Gradient Adjusted Unsupervised Image-to-Image Translation ( http://arxiv.org/abs/2009.00878v1 ) ライセンス: Link先を確認 | Ibrahim Batuhan Akkaya and Ugur Halici | (参考訳) 画像から画像への翻訳 (IIT) は近年, 対人学習の発展によって大きく進歩している。
最近の研究のほとんどは、翻訳された画像集合と対象画像集合の分布に一致するように、逆損失を利用する。
しかし、このことは、2つの領域が例えば一様領域において異なる辺分布を持つようなアーティファクトを生み出す可能性がある。
本研究では,翻訳後の一様領域を保存する教師なしIIT手法を提案する。
対象画像のソベル応答とソース画像の調整ソベル応答とのL2ノルムである勾配調整損失を利用する。
提案手法は,背景分布の異なる画像を含む上記の問題を実証するために準備されたクラゲ-ハエケルデータセット上で検証される。
本手法は,提案手法の有効性を示す基準法と比較して,質的,定量的に性能向上が得られた。 Image-to-image translation (IIT) has made much progress recently with the development of adversarial learning. In most of the recent work, an adversarial loss is utilized to match the distributions of the translated and target image sets. However, this may create artifacts if two domains have different marginal distributions, for example, in uniform areas. In this work, we propose an unsupervised IIT method that preserves the uniform regions after the translation. The gradient adjustment loss, which is the L2 norm between the Sobel response of the target image and the adjusted Sobel response of the source images, is utilized. The proposed method is validated on the jellyfish-to-Haeckel dataset, which is prepared to demonstrate the mentioned problem, which contains images with different background distributions. We demonstrate that our method obtained a performance gain compared to the baseline method qualitatively and quantitatively, showing the effectiveness of the proposed method. | 翻訳日:2022-10-22 19:45:16 公開日:2020-09-02 |
# DARWIN:放射線学のイメージング研究のための高柔軟性プラットフォーム DARWIN: A Highly Flexible Platform for Imaging Research in Radiology ( http://arxiv.org/abs/2009.00908v1 ) ライセンス: Link先を確認 | Lufan Chang, Wenjing Zhuang, Richeng Wu, Sai Feng, Hao Liu, Jing Yu, Jia Ding, Ziteng Wang, Jiaqi Zhang | (参考訳) 放射線学や深層学習の実験を行うためには、放射線科医や医師は必要なプログラミングスキルを理解する必要がある。
本稿では,医用画像研究のためのグラフィカルユーザインタフェースを備えたフレキシブルな研究プラットフォームであるDARWINを提案する。
当社のプラットフォームは、放射線モジュールとディープラーニングモジュールで構成されています。
放射能モジュールは1000以上の次元特徴(一階、二階、高階)を抽出することができ、多くのドラッグ可能な教師付きおよび教師なし機械学習モデルを提供する。
当社のディープラーニングモジュールは、分類、検出、およびセグメンテーションタスクの最先端の技術アーキテクチャを統合しています。
ユーザーは手動でハイパーパラメータを選択したり、アルゴリズムを選択して最適なパラメータを自動的に検索することができる。
DARWINはまた、ユーザが実験用にカスタムパイプラインを定義することを可能にする。
これらの柔軟性により、放射線科医は様々な実験を簡単に行うことができる。 To conduct a radiomics or deep learning research experiment, the radiologists or physicians need to grasp the needed programming skills, which, however, could be frustrating and costly when they have limited coding experience. In this paper, we present DARWIN, a flexible research platform with a graphical user interface for medical imaging research. Our platform is consists of a radiomics module and a deep learning module. The radiomics module can extract more than 1000 dimension features(first-, second-, and higher-order) and provided many draggable supervised and unsupervised machine learning models. Our deep learning module integrates state of the art architectures of classification, detection, and segmentation tasks. It allows users to manually select hyperparameters, or choose an algorithm to automatically search for the best ones. DARWIN also offers the possibility for users to define a custom pipeline for their experiment. These flexibilities enable radiologists to carry out various experiments easily. | 翻訳日:2022-10-22 19:45:02 公開日:2020-09-02 |
# ポイントクラウド分類とセグメンテーションのための教師なしフィードフォワード特徴(UFF)学習 Unsupervised Feedforward Feature (UFF) Learning for Point Cloud Classification and Segmentation ( http://arxiv.org/abs/2009.01280v1 ) ライセンス: Link先を確認 | Min Zhang, Pranav Kadam, Shan Liu, C. -C. Jay Kuo | (参考訳) ディープニューラルネットワーク(DNN)における教師付きバックプロパゲーションに基づく特徴学習とは対照的に、3次元点雲の連成分類と分割のための教師なしフィードフォワード特徴学習スキームが提案されている。
uff法は、カスケードエンコーダ-デコーダアーキテクチャを介して1パスフィードフォワード方式で形状と点の特徴を学ぶために、ポイントクラウドセット内の点の統計的相関を利用する。
連結エンコーダ-デコーダアーキテクチャを通じて、エンコーダとローカルポイント機能を通じてグローバル形状の特徴を学習する。
入力点雲の抽出された特徴を、形状分類と部分分割のための分類器に供給する。
uff法の性能評価のために実験を行った。
形状分類では、UFFは既存の教師なし手法よりも優れ、最先端のDNNと同等である。
部分分割では、UFFは半教師付き手法より優れ、DNNよりも若干劣る。 In contrast to supervised backpropagation-based feature learning in deep neural networks (DNNs), an unsupervised feedforward feature (UFF) learning scheme for joint classification and segmentation of 3D point clouds is proposed in this work. The UFF method exploits statistical correlations of points in a point cloud set to learn shape and point features in a one-pass feedforward manner through a cascaded encoder-decoder architecture. It learns global shape features through the encoder and local point features through the concatenated encoder-decoder architecture. The extracted features of an input point cloud are fed to classifiers for shape classification and part segmentation. Experiments are conducted to evaluate the performance of the UFF method. For shape classification, the UFF is superior to existing unsupervised methods and on par with state-of-the-art DNNs. For part segmentation, the UFF outperforms semi-supervised methods and performs slightly worse than DNNs. | 翻訳日:2022-10-22 19:38:54 公開日:2020-09-02 |
# Salient Points Analysis (SPA)による無監督ポイントクラウド登録 Unsupervised Point Cloud Registration via Salient Points Analysis (SPA) ( http://arxiv.org/abs/2009.01293v1 ) ライセンス: Link先を確認 | Pranav Kadam, Min Zhang, Shan Liu, C.-C. Jay Kuo | (参考訳) 本研究では,SPA (Salient Point Analysis) と呼ばれる非教師付きポイントクラウド登録手法を提案する。
提案するspa法では,salient pointの小さなサブセットのみを使用して,2つのポイントクラウドを効果的に登録できる。
まず、ポイントホップ++法を点点に当てはめ、点の局所的な表面特性に基づいて2点の正解点を見つけ、対応する正解点と整合して登録を行う。
SPA法は近年のディープラーニングベースの登録ソリューションよりもいくつかの利点がある。
pointnetlkやdcpといったディープラーニングメソッドはエンドツーエンドネットワークをトレーニングし、完全な監視(すなわち、基底真理変換行列とクラスラベル)に依存する。
対照的に、SPAは完全に監督されていない。
さらに、SPAのトレーニング時間とモデルサイズもはるかに小さくなっている。
また,spa法の有効性を,modelnet-40データセットの既往クラスおよび未発見クラスおよびノイズ点雲実験により実証した。 An unsupervised point cloud registration method, called salient points analysis (SPA), is proposed in this work. The proposed SPA method can register two point clouds effectively using only a small subset of salient points. It first applies the PointHop++ method to point clouds, finds corresponding salient points in two point clouds based on the local surface characteristics of points and performs registration by matching the corresponding salient points. The SPA method offers several advantages over the recent deep learning based solutions for registration. Deep learning methods such as PointNetLK and DCP train end-to-end networks and rely on full supervision (namely, ground truth transformation matrix and class label). In contrast, the SPA is completely unsupervised. Furthermore, SPA's training time and model size are much less. The effectiveness of the SPA method is demonstrated by experiments on seen and unseen classes and noisy point clouds from the ModelNet-40 dataset. | 翻訳日:2022-10-22 19:38:40 公開日:2020-09-02 |
# NITES:非パラメトリック解釈可能なテクスチャ合成法 NITES: A Non-Parametric Interpretable Texture Synthesis Method ( http://arxiv.org/abs/2009.01376v1 ) ライセンス: Link先を確認 | Xuejing Lei, Ganning Zhao, C.-C. Jay Kuo | (参考訳) 本研究では,NITES法と呼ばれる非パラメトリック解釈可能なテクスチャ合成法を提案する。
近年、深層ニューラルネットワークによって視覚的に快適なテクスチャの自動合成が実現されているが、関連する生成モデルは数学的に難解であり、そのトレーニングには高い計算コストが要求される。
NITESはこれらの欠点に対処する新しいテクスチャ合成ソリューションを提供する。
NITESは数学的に透明で、訓練や推論において効率的である。
入力は単一の模範テクスチャ画像である。
NITES法は入力からパッチを抽出し、これらのテクスチャパッチの統計的特性を分析し、それらの共同空間スペクトル表現を得る。
次に, 共同空間空間における試料の確率分布を特徴付ける。
最後に、模範的なテクスチャ画像と視覚的に類似した多数のテクスチャ画像を自動的に生成することができる。
実験により,生成したテクスチャ画像の優れた品質と,提案手法の有効性を,トレーニング時間と推論時間の両方の観点から示す。 A non-parametric interpretable texture synthesis method, called the NITES method, is proposed in this work. Although automatic synthesis of visually pleasant texture can be achieved by deep neural networks nowadays, the associated generation models are mathematically intractable and their training demands higher computational cost. NITES offers a new texture synthesis solution to address these shortcomings. NITES is mathematically transparent and efficient in training and inference. The input is a single exemplary texture image. The NITES method crops out patches from the input and analyzes the statistical properties of these texture patches to obtain their joint spatial-spectral representations. Then, the probabilistic distributions of samples in the joint spatial-spectral spaces are characterized. Finally, numerous texture images that are visually similar to the exemplary texture image can be generated automatically. Experimental results are provided to show the superior quality of generated texture images and efficiency of the proposed NITES method in terms of both training and inference time. | 翻訳日:2022-10-22 19:38:24 公開日:2020-09-02 |
# フルビデオフレームによる人物認識の実用化に向けて Towards Practical Implementations of Person Re-Identification from Full Video Frames ( http://arxiv.org/abs/2009.01377v1 ) ライセンス: Link先を確認 | Felix O. Sumari, Luigy Machaca, Jose Huaman, Esteban W. G. Clua, Joris Gu\'erin | (参考訳) 近年,都市安全への自動化の導入が進み,人身認証(Re-ID)が広く研究されている。
本稿では,人物再同定の現在の方法,すなわち,既に検出された人物の画像を再特定しようとすると,システムへの入力がビデオストリームのフルフレームであるような,実用的なセキュリティアプリケーションを実現するには不十分であると主張する。
この主張をサポートするために、FF-PRID(Full Frame Person Re-ID set)を導入し、FF-PRIDの実装を評価するための特定のメトリクスを定義する。
堅牢性を改善するため、私たちはまた、あらゆるリidセキュリティアプリケーション固有のハイブリッドヒューマンマシンコラボレーションフレームワークを定式化します。
FF-PRID設定を考えることの重要性を示すために、良い人物検出ネットワークと良いRe-IDモデルを組み合わせることが最終アプリケーションに必ずしも良い結果をもたらすわけではないことを示す実験を構築した。
これは、re-idモデルの品質評価における現在の定式化の失敗を示し、異なるメトリクスの使用を正当化する。
この研究が、現実世界のシナリオにもっと適したアルゴリズムを開発するために、研究コミュニティに完全な問題を考える動機になることを願っている。 With the major adoption of automation for cities security, person re-identification (Re-ID) has been extensively studied recently. In this paper, we argue that the current way of studying person re-identification, i.e. by trying to re-identify a person within already detected and pre-cropped images of people, is not sufficient to implement practical security applications, where the inputs to the system are the full frames of the video streams. To support this claim, we introduce the Full Frame Person Re-ID setting (FF-PRID) and define specific metrics to evaluate FF-PRID implementations. To improve robustness, we also formalize the hybrid human-machine collaboration framework, which is inherent to any Re-ID security applications. To demonstrate the importance of considering the FF-PRID setting, we build an experiment showing that combining a good people detection network with a good Re-ID model does not necessarily produce good results for the final application. This underlines a failure of the current formulation in assessing the quality of a Re-ID model and justifies the use of different metrics. We hope that this work will motivate the research community to consider the full problem in order to develop algorithms that are better suited to real-world scenarios. | 翻訳日:2022-10-22 19:38:10 公開日:2020-09-02 |
# 360度ビデオの自動撮影 Automatic cinematography for 360 video ( http://arxiv.org/abs/2009.05388v1 ) ライセンス: Link先を確認 | Hannes Fassold | (参考訳) 我々は360度ビデオから視覚的に興味深いカメラパス(オートマチックシネマトグラフィー)を自動生成する方法について述べる。
シーンオブジェクトからの情報に基づいて、異なるショットタイプのための複数のショット仮説を構築し、最善のショットを描画する。 We describe our method for automatic generation of a visually interesting camera path (automatic cinematography)from a 360 video. Based on the information from the scene objects, multiple shot hypotheses for different shot types are constructed and the best one is rendered. | 翻訳日:2022-10-22 19:37:35 公開日:2020-09-02 |
# 集中治療のための医療情報マート(mimic iii)における臨界事象予測のための全データ包括的深層学習モデル All Data Inclusive, Deep Learning Models to Predict Critical Events in the Medical Information Mart for Intensive Care III Database (MIMIC III) ( http://arxiv.org/abs/2009.01366v1 ) ライセンス: Link先を確認 | Anubhav Reddy Nallabasannagari, Madhu Reddiboina, Ryan Seltzer, Trevor Zeffiro, Ajay Sharma, Mahendra Bhandari | (参考訳) 集中治療医は、集中治療室(ICU)で患者を害する予期しない臨界事象を予防し、タイムリーな介入を計画し、患者の家族を十分に知らせるために、信頼できる臨床実践ツールが必要である。
従来の統計モデルは、限られた数のキー変数だけをキュレートすることによって構築されている。
ディープラーニングモデル(DLM)は、大規模な複雑なデータセットから学習し、予測的な臨床ツールを構築するために利用することができる。
本研究はMIMIC-IIIデータセットのサブセットである35,348人を対象に42,818人の入院患者を対象に行った。
自然言語処理 (nlp) 技術を適用し, 病院内死亡率 (ihm) と滞在期間 (los) を予測した。
複数のデータソースにわたる7500万以上のイベントが処理され、3億5500万以上のトークンが処理された。
全てのソース(AS)とチャートデータ(CS)のデータを用いてIHMを予測するDLMは、それぞれ0.9178と0.9029のAUC-ROCと0.6251と0.5701のPR-AUCを達成した。
AUC-ROCはそれぞれ0.8806と0.8642、PR-AUCは0.6821と0.6575である。
観測されたモデル間のAUC-ROC差は、p=0.05においてIHMとLOSの両方にとって重要であることがわかった。
観察されたモデル間のPR-AUC差はIHMでは有意であり、LOSではp=0.05で統計的に重要でないことがわかった。
本研究では,グラフデータ,入力および出力イベント,実験室値,微生物学イベント,手順,ノート,処方薬など,電子健康記録(EHR)の様々な情報源から得られたデータを用いてディープラーニングモデルを構築した。
すべてのデータソースを使用して構築されたモデルから、はるかに信頼性が高く、信頼性の高いホスピタル死亡を予測できる。 Intensive care clinicians need reliable clinical practice tools to preempt unexpected critical events that might harm their patients in intensive care units (ICU), to pre-plan timely interventions, and to keep the patient's family well informed. The conventional statistical models are built by curating only a limited number of key variables, which means a vast unknown amount of potentially precious data remains unused. Deep learning models (DLMs) can be leveraged to learn from large complex datasets and construct predictive clinical tools. This retrospective study was performed using 42,818 hospital admissions involving 35,348 patients, which is a subset of the MIMIC-III dataset. Natural language processing (NLP) techniques were applied to build DLMs to predict in-hospital mortality (IHM) and length of stay >=7 days (LOS). Over 75 million events across multiple data sources were processed, resulting in over 355 million tokens. DLMs for predicting IHM using data from all sources (AS) and chart data (CS) achieved an AUC-ROC of 0.9178 and 0.9029, respectively, and PR-AUC of 0.6251 and 0.5701, respectively. DLMs for predicting LOS using AS and CS achieved an AUC-ROC of 0.8806 and 0.8642, respectively, and PR-AUC of 0.6821 and 0.6575, respectively. The observed AUC-ROC difference between models was found to be significant for both IHM and LOS at p=0.05. The observed PR-AUC difference between the models was found to be significant for IHM and statistically insignificant for LOS at p=0.05. In this study, deep learning models were constructed using data combined from a variety of sources in Electronic Health Records (EHRs) such as chart data, input and output events, laboratory values, microbiology events, procedures, notes, and prescriptions. It is possible to predict in-hospital mortality with much better confidence and higher reliability from models built using all sources of data. | 翻訳日:2022-10-22 19:37:31 公開日:2020-09-02 |
# Edge-AIの組み込み開発ボード: 総合レポート Embedded Development Boards for Edge-AI: A Comprehensive Report ( http://arxiv.org/abs/2009.00803v1 ) ライセンス: Link先を確認 | Hamza Ali Imran, Usama Mujahid, Saad Wazir, Usama Latif, Kiran Mehmood | (参考訳) ディープラーニングと機械学習の利用は日々広まってきており、テクノロジーのあらゆる面で新しい機会が開けている。
応用範囲はヘルスケアから自動運転車、ホームオートメーションからスマート農業、産業用4.0。
従来、iotアプリケーションの処理の大部分は中央クラウドで行われているが、レイテンシ、セキュリティ、帯域幅、プライバシといった問題が発生している。
2020年までに約2000万台のIoTデバイスが登場し、クラウドにデータを送り、そこで処理する際の問題を増大させると見積もられている。
ネットワークの端でデータを処理する新しいトレンドが生まれています。
この考え方は、可能な限りデータ生産のポイント近くで処理を行うことである。
データを生成するノードの処理をエッジコンピューティング(edge computing)と呼び、クラウドとデータ生成のポイントの間の層で処理をフォグコンピューティング(fog computing)と呼ぶ。
これらのどれにも標準的な定義はなく、通常は交換的に使用される。
本稿では,Edge上で人工知能アルゴリズムを実行するための開発ボードをレビューした。 The use of Deep Learning and Machine Learning is becoming pervasive day by day which is opening doors to new opportunities in every aspect of technology. Its application Ranges from Health-care to Self-driving Cars, Home Automation to Smart-agriculture, and Industry 4.0. Traditionally the majority of the processing for IoT applications is being done on a central cloud but that has its issues; which include latency, security, bandwidth, and privacy, etc. It is estimated that there will be around 20 Million IoT devices by 2020 which will increase problems with sending data to the cloud and doing the processing there. A new trend of processing the data on the edge of the network is emerging. The idea is to do processing as near the point of data production as possible. Doing processing on the nodes generating the data is called Edge Computing and doing processing on a layer between the cloud and the point of data production is called Fog computing. There are no standard definitions for any of these, hence they are usually used interchangeably. In this paper, we have reviewed the development boards available for running Artificial Intelligence algorithms on the Edge | 翻訳日:2022-10-22 19:36:51 公開日:2020-09-02 |
# 低ランクモデルに基づく計画・予測による持続環境モニタリングへの情報理論的アプローチ An Information-Theoretic Approach to Persistent Environment Monitoring Through Low Rank Model Based Planning and Prediction ( http://arxiv.org/abs/2009.01168v1 ) ライセンス: Link先を確認 | Elizabeth A. Ricci, Madeleine Udell, Ross A. Knepper | (参考訳) ロボットは、人間が横断するのが難しい地域で環境データを収集するために使用できる。
しかし、ロボットが単位時間あたり直接観察できる領域の大きさには制限が残っている。
本研究では,広域領域における観測点数を限定し,その領域における観測点数を予測できる手法を提案する。
対象属性の低ランクモデルと情報最大化パスプランナーを組み合わせることで、地域全体の属性の状態を予測する。
我々のアプローチは、ターゲット属性とロボット監視プラットフォームの選択に非依存である。
2つの実環境データセットをシミュレーションし,それぞれ100万から200万のサンプリング地点から観測を行った。
我々は, ランダムサンプリングと, 生態学文献からのベースラインサンプリングの4つのバリエーションを比較した。
本手法は,漁獲サンプル当たりの平均漁業情報ゲインでベースラインを上回り,ほとんどの試験で平均復元誤差を比較可能とした。 Robots can be used to collect environmental data in regions that are difficult for humans to traverse. However, limitations remain in the size of region that a robot can directly observe per unit time. We introduce a method for selecting a limited number of observation points in a large region, from which we can predict the state of unobserved points in the region. We combine a low rank model of a target attribute with an information-maximizing path planner to predict the state of the attribute throughout a region. Our approach is agnostic to the choice of target attribute and robot monitoring platform. We evaluate our method in simulation on two real-world environment datasets, each containing observations from one to two million possible sampling locations. We compare against a random sampler and four variations of a baseline sampler from the ecology literature. Our method outperforms the baselines in terms of average Fisher information gain per samples taken and performs comparably for average reconstruction error in most trials. | 翻訳日:2022-10-22 19:36:34 公開日:2020-09-02 |
# 局所二項パターン学習と空間的注意を用いた画像の深部生成モデル Deep Generative Model for Image Inpainting with Local Binary Pattern Learning and Spatial Attention ( http://arxiv.org/abs/2009.01031v1 ) ライセンス: Link先を確認 | Haiwei Wu and Jiantao Zhou and Yuanman Li | (参考訳) 深層学習(DL)は画像インペイントの分野でその強力な能力を実証している。
DLベースの画像インパインティングアプローチは、視覚的に妥当な結果をもたらすが、特に境界や高度にテクスチャ化された領域において、様々な不快なアーティファクトを生成することが多い。
この課題に取り組むため,本稿では,ローカルバイナリパターン(lbp)学習ネットワークと実際のインペインティングネットワークを組み合わせた,エンド・ツー・エンド(coarse-to-fine)生成モデルを提案する。
特に、u-netアーキテクチャを用いた第1のlpp学習ネットワークは、欠落した領域の構造情報を精度良く予測するように設計され、欠落したピクセルをよりよく満たすために、第2の画像インペインティングネットワークをガイドする。
さらに、既知の領域と生成された領域との一貫性だけでなく、生成された領域自体の一貫性も考慮し、改善された空間注意機構を画像塗装ネットワークに統合する。
CelebA-HQ、Places、Paris StreetViewといった公開データセットに対する大規模な実験は、我々のモデルが、最先端の競合アルゴリズムよりも定量的かつ定性的に、より良い塗装結果を生成することを示した。
ソースコードとトレーニングされたモデルはhttps://github.com/HighwayWu/ImageInpainting.comで公開される。 Deep learning (DL) has demonstrated its powerful capabilities in the field of image inpainting. The DL-based image inpainting approaches can produce visually plausible results, but often generate various unpleasant artifacts, especially in the boundary and highly textured regions. To tackle this challenge, in this work, we propose a new end-to-end, two-stage (coarse-to-fine) generative model through combining a local binary pattern (LBP) learning network with an actual inpainting network. Specifically, the first LBP learning network using U-Net architecture is designed to accurately predict the structural information of the missing region, which subsequently guides the second image inpainting network for better filling the missing pixels. Furthermore, an improved spatial attention mechanism is integrated in the image inpainting network, by considering the consistency not only between the known region with the generated one, but also within the generated region itself. Extensive experiments on public datasets including CelebA-HQ, Places and Paris StreetView demonstrate that our model generates better inpainting results than the state-of-the-art competing algorithms, both quantitatively and qualitatively. The source code and trained models will be made available at https://github.com/HighwayWu/ImageInpainting. | 翻訳日:2022-10-22 19:30:09 公開日:2020-09-02 |
# IAUnet: 人物再識別のためのグローバルコンテキスト認識機能学習 IAUnet: Global Context-Aware Feature Learning for Person Re-Identification ( http://arxiv.org/abs/2009.01035v1 ) ライセンス: Link先を確認 | Ruibing Hou and Bingpeng Ma and Hong Chang and Xinqian Gu and Shiguang Shan and Xilin Chen | (参考訳) 近年,CNNを基盤としたネットワークによる人物識別(reID)が向上している。
しかし、既存のcnnsベースの手法のほとんどは、時空間的文脈モデリングを十分に活用していない。
実際、大域的空間-時間的文脈は、対象の特徴表現を強化するために局所的注意を著しく明確化することができる。
本研究では,空間的文脈情報を包括的に活用するために,ハイパフォーマンスな人物のreIDのための新しいブロックであるInteraction-Aggregation-Update(IAU)を提案する。
まず、時空間IAU(Spatial-Temporal IAU)モジュールを導入する。
STIAUは2種類のコンテキストインタラクションをCNNフレームワークに組み込んでターゲット特徴学習を行う。
ここで空間的相互作用は、1つのフレームの異なるボディ部分間のコンテキスト依存を計算することを学ぶ。
時間的相互作用は、すべてのフレームにまたがる同じボディ部分間のコンテキスト依存性をキャプチャするために使用される。
さらに、チャンネルIAU(CIAU)モジュールは、チャネル特徴間の意味的文脈的相互作用をモデル化して特徴表現を強化するように設計されている。
したがって、iauブロックは、グローバルな空間的、時間的、チャネル的コンテキストを組み込むことができる。
軽量でエンドツーエンドのトレーニングが可能で、既存のCNNに簡単に接続してIAUnetを形成することができる。
実験の結果,IAUnetは画像とビデオの両方で最先端のreIDタスクに対して良好に動作し,汎用オブジェクト分類タスクにおいて説得力のある結果が得られることがわかった。
ソースコードはhttps://github.com/blue-blue272/imgreid-ianetで入手できる。 Person re-identification (reID) by CNNs based networks has achieved favorable performance in recent years. However, most of existing CNNs based methods do not take full advantage of spatial-temporal context modeling. In fact, the global spatial-temporal context can greatly clarify local distractions to enhance the target feature representation. To comprehensively leverage the spatial-temporal context information, in this work, we present a novel block, Interaction-Aggregation-Update (IAU), for high-performance person reID. Firstly, Spatial-Temporal IAU (STIAU) module is introduced. STIAU jointly incorporates two types of contextual interactions into a CNN framework for target feature learning. Here the spatial interactions learn to compute the contextual dependencies between different body parts of a single frame. While the temporal interactions are used to capture the contextual dependencies between the same body parts across all frames. Furthermore, a Channel IAU (CIAU) module is designed to model the semantic contextual interactions between channel features to enhance the feature representation, especially for small-scale visual cues and body parts. Therefore, the IAU block enables the feature to incorporate the globally spatial, temporal, and channel context. It is lightweight, end-to-end trainable, and can be easily plugged into existing CNNs to form IAUnet. The experiments show that IAUnet performs favorably against state-of-the-art on both image and video reID tasks and achieves compelling results on a general object categorization task. The source code is available at https://github.com/blue-blue272/ImgReID-IAnet. | 翻訳日:2022-10-22 19:29:44 公開日:2020-09-02 |
# Affordance Graphsを用いたゼロショットヒューマンオブジェクトインタラクション認識 Zero-Shot Human-Object Interaction Recognition via Affordance Graphs ( http://arxiv.org/abs/2009.01039v1 ) ライセンス: Link先を確認 | Alessio Sarullo, Tingting Mu | (参考訳) 本研究では,ゼロショットの人間-物体間相互作用認識のための新しい手法を提案する(見知らぬ動作とオブジェクトの見つからない組み合わせとは対照的に)。
提案手法では,画像コンテンツの外部の知識を,アクションとオブジェクト間のアフォーマンス関係,すなわち与えられたオブジェクトに対してアクションが実行可能か否かをモデル化するグラフとして利用する。
本稿では,グラフに含まれる知識をモデルに蒸留することを目的とした損失関数を提案するとともに,学習表現を正規化するために潜伏空間に局所構造を付与する手法を提案する。
いくつかのデータセット(HICOやHICO-DETなど)に対するアプローチを評価し,現状よりも優れていることを示す。 We propose a new approach for Zero-Shot Human-Object Interaction Recognition in the challenging setting that involves interactions with unseen actions (as opposed to just unseen combinations of seen actions and objects). Our approach makes use of knowledge external to the image content in the form of a graph that models affordance relations between actions and objects, i.e., whether an action can be performed on the given object or not. We propose a loss function with the aim of distilling the knowledge contained in the graph into the model, while also using the graph to regularise learnt representations by imposing a local structure on the latent space. We evaluate our approach on several datasets (including the popular HICO and HICO-DET) and show that it outperforms the current state of the art. | 翻訳日:2022-10-22 19:29:16 公開日:2020-09-02 |
# 植物組織計数のための教師なしドメイン適応 Unsupervised Domain Adaptation For Plant Organ Counting ( http://arxiv.org/abs/2009.01081v1 ) ライセンス: Link先を確認 | Tewodros Ayalew, Jordan Ubbens, Ian Stavness | (参考訳) 教師付き学習は画像中のオブジェクトを数えるのによく使われるが、小さくて密度の高いオブジェクトを数えるには、必要な画像アノテーションを収集するのは負担がかかる。
イメージベース植物表現型のための植物器官の計数はこのカテゴリに分類される。
植物画像のオブジェクトカウントは、例えば、屋内植物画像の注釈付きデータセットを屋外画像や異なる植物種に応用するなど、異なる実験条件により、大きなドメインシフトを持つ植物画像データセットを持つことによって、さらに課題となる。
本稿では,オブジェクト数を目的とし,密度マップ推定の領域適応化のためのドメイン逆学習手法を提案する。
このアプローチでは、ソースとターゲットデータセット間の完全に整合した分布を前提としないため、一般的なオブジェクトカウントや植物器官カウントタスクに広く適用できる。
2つの多様なオブジェクトカウントタスク(wheat spikelets、leafs)の評価は、屋内から外へのイメージから種から種への適応まで、さまざまなドメインシフトのクラスにわたるターゲットデータセットで一貫したパフォーマンスを示す。 Supervised learning is often used to count objects in images, but for counting small, densely located objects, the required image annotations are burdensome to collect. Counting plant organs for image-based plant phenotyping falls within this category. Object counting in plant images is further challenged by having plant image datasets with significant domain shift due to different experimental conditions, e.g. applying an annotated dataset of indoor plant images for use on outdoor images, or on a different plant species. In this paper, we propose a domain-adversarial learning approach for domain adaptation of density map estimation for the purposes of object counting. The approach does not assume perfectly aligned distributions between the source and target datasets, which makes it more broadly applicable within general object counting and plant organ counting tasks. Evaluation on two diverse object counting tasks (wheat spikelets, leaves) demonstrates consistent performance on the target datasets across different classes of domain shift: from indoor-to-outdoor images and from species-to-species adaptation. | 翻訳日:2022-10-22 19:29:02 公開日:2020-09-02 |
# 寿命オブジェクト検出 Lifelong Object Detection ( http://arxiv.org/abs/2009.01129v1 ) ライセンス: Link先を確認 | Wang Zhou, Shiyu Chang, Norma Sosa, Hendrik Hamann, David Cox | (参考訳) 物体検出の最近の進歩は、ディープニューラルネットワークの急速な発展の恩恵を受けている。
しかし、ニューラルネットワークは破滅的な忘れ込みというよく知られた問題に悩まされ、継続的あるいは生涯にわたる学習が問題になる。
本稿では,新しいトレーニングクラスが逐次的に到着するという事実を活用し,事前のトレーニングデータがない場合に新たなオブジェクトクラスを検出できるようにモデルを段階的に改良する。
具体的には、高精度かつ効率的な予測のために、代表対象検出器であるFaster R-CNNを検討する。
破滅的な忘れ込みによる急激な性能劣化を防止するため,地域提案ネットワークと地域分類ネットワークの両方に知識蒸留を適用し,事前訓練したクラスの検出を継続することを提案する。
また, 蒸留試料選択のための擬陽性サンプリング戦略も導入した。
提案手法をpascal voc 2007およびms cocoベンチマークで評価し,競合マップと6倍の推論速度改善を示し,リアルタイムアプリケーションに適していることを示す。
私たちの実装は公開されます。 Recent advances in object detection have benefited significantly from rapid developments in deep neural networks. However, neural networks suffer from the well-known issue of catastrophic forgetting, which makes continual or lifelong learning problematic. In this paper, we leverage the fact that new training classes arrive in a sequential manner and incrementally refine the model so that it additionally detects new object classes in the absence of previous training data. Specifically, we consider the representative object detector, Faster R-CNN, for both accurate and efficient prediction. To prevent abrupt performance degradation due to catastrophic forgetting, we propose to apply knowledge distillation on both the region proposal network and the region classification network, to retain the detection of previously trained classes. A pseudo-positive-aware sampling strategy is also introduced for distillation sample selection. We evaluate the proposed method on PASCAL VOC 2007 and MS COCO benchmarks and show competitive mAP and 6x inference speed improvement, which makes the approach more suitable for real-time applications. Our implementation will be publicly available. | 翻訳日:2022-10-22 19:28:29 公開日:2020-09-02 |
# サイクル整合性の活動の長期予測 Long-Term Anticipation of Activities with Cycle Consistency ( http://arxiv.org/abs/2009.01142v1 ) ライセンス: Link先を確認 | Yazan Abu Farha, Qiuhong Ke, Bernt Schiele, Juergen Gall | (参考訳) 近年,ビデオのアクティビティ分析におけるディープラーニング手法の成功により,将来的なアクティビティの予測に注目が集まっている。
しかしながら、予測に関する作業のほとんどは、部分的に観察されたアクティビティを分析したり、次のアクションクラスを予測する。
近年、予測の地平線を数分まで延長し、その継続時間を含む将来の活動の連続を予測するための新しいアプローチが提案されている。
これらの研究は,予測課題から観測シーケンスの意味解釈を分離する一方で,観測フレームの特徴から直接将来の活動を予測し,エンドツーエンドでトレーニングするための枠組みを提案する。
さらに,予測された将来を前提として,過去の活動を予測することにより,サイクル一貫性の損失を経時的に導入する。
我々のフレームワークは、Breakfastデータセットと50Saladsという2つのデータセットで最先端の結果を達成する。 With the success of deep learning methods in analyzing activities in videos, more attention has recently been focused towards anticipating future activities. However, most of the work on anticipation either analyzes a partially observed activity or predicts the next action class. Recently, new approaches have been proposed to extend the prediction horizon up to several minutes in the future and that anticipate a sequence of future activities including their durations. While these works decouple the semantic interpretation of the observed sequence from the anticipation task, we propose a framework for anticipating future activities directly from the features of the observed frames and train it in an end-to-end fashion. Furthermore, we introduce a cycle consistency loss over time by predicting the past activities given the predicted future. Our framework achieves state-of-the-art results on two datasets: the Breakfast dataset and 50Salads. | 翻訳日:2022-10-22 19:28:12 公開日:2020-09-02 |
# セマンティックセグメンテーションの領域適応のためのセマンティック適応画像変換 Semantically Adaptive Image-to-image Translation for Domain Adaptation of Semantic Segmentation ( http://arxiv.org/abs/2009.01166v1 ) ライセンス: Link先を確認 | Luigi Musto and Andrea Zinelli | (参考訳) ドメインシフトはセマンティックセグメンテーションにとって非常に難しい問題です。
任意のモデルは、画像やラベルが人工的に生成される合成データ上で容易にトレーニングできるが、実際の環境にデプロイすると性能が低下する。
本稿では,街路シーンのセマンティックセグメンテーションにおけるドメイン適応の問題に対処する。
最先端のアプローチの多くは、結果が入力とセマンティックに一致していることを示しながら、ソースイメージの翻訳に重点を置いている。
しかし,画像意味論は翻訳アルゴリズムを導出するためにも活用できると提案する。
この目的のために、生成モデルを再考し、この仮定を強制し、画素レベルと特徴レベルのドメインアライメントの接続を強化する。
提案手法を用いて共通意味分節モデルを訓練し, 合成実数ベンチマークで得られた結果が最先端技術を上回ることを示す。 Domain shift is a very challenging problem for semantic segmentation. Any model can be easily trained on synthetic data, where images and labels are artificially generated, but it will perform poorly when deployed on real environments. In this paper, we address the problem of domain adaptation for semantic segmentation of street scenes. Many state-of-the-art approaches focus on translating the source image while imposing that the result should be semantically consistent with the input. However, we advocate that the image semantics can also be exploited to guide the translation algorithm. To this end, we rethink the generative model to enforce this assumption and strengthen the connection between pixel-level and feature-level domain alignment. We conduct extensive experiments by training common semantic segmentation models with our method and show that the results we obtain on the synthetic-to-real benchmarks surpass the state-of-the-art. | 翻訳日:2022-10-22 19:27:59 公開日:2020-09-02 |
# 小物体検出のための固有関係推論 Intrinsic Relationship Reasoning for Small Object Detection ( http://arxiv.org/abs/2009.00833v1 ) ライセンス: Link先を確認 | Kui Fu, Jia Li, Lin Ma, Kai Mu, Yonghong Tian | (参考訳) 画像やビデオの小さなオブジェクトは通常独立した個人ではない。
代わりに、多かれ少なかれ、互いに意味的かつ空間的なレイアウト関係を提示する。
このような内在的な関係のモデリングと推論は、小さなオブジェクト検出に有用である。
本稿では,オブジェクト間の固有意味と空間的レイアウトの関係をモデル化し,推論する,小さなオブジェクト検出のための新しいコンテキスト推論手法を提案する。
具体的には,まず,最初の地域的特徴に基づいてスパース意味関係をモデル化する意味モジュールと,その位置と形状情報に基づいてスパース空間レイアウト関係をモデル化する空間レイアウトモジュールを構築した。
これら2つは、オブジェクトとそれらの関係に関するコンテキスト情報を統合するためのコンテキスト推論モジュールに供給され、分類と回帰のために元の地域視覚特徴とさらに融合される。
実験の結果,提案手法が小型物体検出性能を効果的に向上できることが判明した。 The small objects in images and videos are usually not independent individuals. Instead, they more or less present some semantic and spatial layout relationships with each other. Modeling and inferring such intrinsic relationships can thereby be beneficial for small object detection. In this paper, we propose a novel context reasoning approach for small object detection which models and infers the intrinsic semantic and spatial layout relationships between objects. Specifically, we first construct a semantic module to model the sparse semantic relationships based on the initial regional features, and a spatial layout module to model the sparse spatial layout relationships based on their position and shape information, respectively. Both of them are then fed into a context reasoning module for integrating the contextual information with respect to the objects and their relationships, which is further fused with the original regional visual features for classification and regression. Experimental results reveal that the proposed approach can effectively boost the small object detection performance. | 翻訳日:2022-10-22 19:21:49 公開日:2020-09-02 |
# 低光環境下における画像特徴マッチング性能保持 Retaining Image Feature Matching Performance Under Low Light Conditions ( http://arxiv.org/abs/2009.00842v1 ) ライセンス: Link先を確認 | Pranjay Shyam, Antyanta Bangunharcana and Kyung-Soo Kim | (参考訳) 低照度画像の画質が低下すると、画像間の特徴マッチング数が減少する可能性がある。
本稿では,低光環境における特徴抽出アルゴリズムの性能について検討する。
低光画像における特徴マッチング性能を維持するための最適な設定を見つけるため、特徴検出のための特徴受容閾値を変更し、特徴検出に先立って低光画像強調(LLIE)という形で前処理を追加する方法を検討する。
低照度画像であっても,従来の手作り特徴検出器を用いた特徴マッチングは,しきい値パラメータを下げることで十分に機能する。
また,Low Light Image Enhancement (LLIE)アルゴリズムの適用により,適切な特徴抽出アルゴリズムと組み合わせることで,特徴マッチングをさらに改善できることを示す。 Poor image quality in low light images may result in a reduced number of feature matching between images. In this paper, we investigate the performance of feature extraction algorithms in low light environments. To find an optimal setting to retain feature matching performance in low light images, we look into the effect of changing feature acceptance threshold for feature detector and adding pre-processing in the form of Low Light Image Enhancement (LLIE) prior to feature detection. We observe that even in low light images, feature matching using traditional hand-crafted feature detectors still performs reasonably well by lowering the threshold parameter. We also show that applying Low Light Image Enhancement (LLIE) algorithms can improve feature matching even more when paired with the right feature extraction algorithm. | 翻訳日:2022-10-22 19:21:36 公開日:2020-09-02 |
# e-TLD:動的オブジェクト追跡のためのイベントベースのフレームワーク e-TLD: Event-based Framework for Dynamic Object Tracking ( http://arxiv.org/abs/2009.00855v1 ) ライセンス: Link先を確認 | Bharath Ramesh, Shihao Zhang, Hong Yang, Andres Ussa, Matthew Ong, Garrick Orchard and Cheng Xiang | (参考訳) 本稿では,一般的な追跡条件下での移動イベントカメラを用いた長期オブジェクト追跡フレームワークを提案する。
この種の革命的なカメラでは、トラッキングフレームワークは、オンライン学習を伴うオブジェクトの識別表現を使用し、フィールドオブビューに戻ってきたオブジェクトを検知し、再追跡する。
重要な特徴の1つは、イベントベースのローカルスライディングウインドウ技術を使用することで、乱雑でテクスチャな背景を持つシーンを確実に追跡する。
さらに、リアルタイム処理を支援し、オブジェクト表現の識別力を高めるためにベイジアンブートストラッピングが使用される。
一方、オブジェクトがカメラの視野に再入ってくると、データ駆動で大域的スライディングウィンドウ検出器が追跡対象を検知する。
大規模な実験では,人間などの動的物体を含む,様々な形状や大きさの任意の物体を追跡・検出できるフレームワークが実証されている。
これは、単純な背景設定で見える限りオブジェクトを追跡する以前の作品と比べて大幅に改善されている。
3つの動作条件,すなわち翻訳,回転,6-DOFの5つの動作条件下での地上の真理位置を用いて,イベントベースのトラッキングフレームワークの定量的測定を行い,様々なパフォーマンス問題に対する重要な洞察を得た。
最後に、C++のリアルタイム実装では、スケール、ローテーション、ビューポイント、オクルージョンシナリオにおけるトラッキング機能を強調している。 This paper presents a long-term object tracking framework with a moving event camera under general tracking conditions. A first of its kind for these revolutionary cameras, the tracking framework uses a discriminative representation for the object with online learning, and detects and re-tracks the object when it comes back into the field-of-view. One of the key novelties is the use of an event-based local sliding window technique that tracks reliably in scenes with cluttered and textured background. In addition, Bayesian bootstrapping is used to assist real-time processing and boost the discriminative power of the object representation. On the other hand, when the object re-enters the field-of-view of the camera, a data-driven, global sliding window detector locates the object for subsequent tracking. Extensive experiments demonstrate the ability of the proposed framework to track and detect arbitrary objects of various shapes and sizes, including dynamic objects such as a human. This is a significant improvement compared to earlier works that simply track objects as long as they are visible under simpler background settings. Using the ground truth locations for five different objects under three motion settings, namely translation, rotation and 6-DOF, quantitative measurement is reported for the event-based tracking framework with critical insights on various performance issues. Finally, real-time implementation in C++ highlights tracking ability under scale, rotation, view-point and occlusion scenarios in a lab setting. | 翻訳日:2022-10-22 19:21:24 公開日:2020-09-02 |
# PCPL:未知のシーングラフ生成のための述語相関知覚学習 PCPL: Predicate-Correlation Perception Learning for Unbiased Scene Graph Generation ( http://arxiv.org/abs/2009.00893v1 ) ライセンス: Link先を確認 | Shaotian Yan, Chen Shen, Zhongming Jin, Jianqiang Huang, Rongxin Jiang, Yaowu Chen, Xian-Sheng Hua | (参考訳) 今日、シーングラフ生成(sgg)タスクは、主に述語アノテーション分布の非常に長いバイアスのために、現実的なシナリオでほとんど制限されている。
したがって、SGGのクラス不均衡問題に取り組むことは重要かつ困難である。
本稿では, 述語ラベルが互いに強い相関関係を持つ場合, 先行する再バランス戦略(例えば, 再サンプリングや再重み付け)によって, テールデータ(例えば, 歩道に座るベンチ)が過度に収まるか, あるいは, 元の不均一分布(例えば, 駐車/着座時における多様な駐車/着座時のアグリゲーションなど)の悪影響を被ることを明らかにする。
主な理由は、再バランス戦略が述語頻度に敏感であり、その関連性に欠けており、述語的特徴の学習を促進する上でより重要な役割を果たす可能性があるためである。
そこで本研究では,述語クラス間の相関を直接知覚し活用することにより,適切な損失重みを求める新しい述語相関知覚学習(pcpl for short)方式を提案する。
さらに,我々のPCPLフレームワークには,文脈特徴をよりよく抽出するグラフエンコーダモジュールが備わっている。
ベンチマークVG150データセットの大規模な実験により、提案したPCPLは、従来の最先端手法よりもはるかに優れた性能を保ちながら、テールクラスにおいて顕著に優れた性能を発揮することが示された。 Today, scene graph generation(SGG) task is largely limited in realistic scenarios, mainly due to the extremely long-tailed bias of predicate annotation distribution. Thus, tackling the class imbalance trouble of SGG is critical and challenging. In this paper, we first discover that when predicate labels have strong correlation with each other, prevalent re-balancing strategies(e.g., re-sampling and re-weighting) will give rise to either over-fitting the tail data(e.g., bench sitting on sidewalk rather than on), or still suffering the adverse effect from the original uneven distribution(e.g., aggregating varied parked on/standing on/sitting on into on). We argue the principal reason is that re-balancing strategies are sensitive to the frequencies of predicates yet blind to their relatedness, which may play a more important role to promote the learning of predicate features. Therefore, we propose a novel Predicate-Correlation Perception Learning(PCPL for short) scheme to adaptively seek out appropriate loss weights by directly perceiving and utilizing the correlation among predicate classes. Moreover, our PCPL framework is further equipped with a graph encoder module to better extract context features. Extensive experiments on the benchmark VG150 dataset show that the proposed PCPL performs markedly better on tail classes while well-preserving the performance on head ones, which significantly outperforms previous state-of-the-art methods. | 翻訳日:2022-10-22 19:20:59 公開日:2020-09-02 |
# 逆ロバストニューラルネットワーク Adversarially Robust Neural Architectures ( http://arxiv.org/abs/2009.00902v1 ) ライセンス: Link先を確認 | Minjing Dong, Yanxi Li, Yunhe Wang and Chang Xu | (参考訳) ディープニューラルネットワーク(DNN)は敵の攻撃に対して脆弱である。
既存の方法は、ニューラルネットワークの重みを更新するために、さまざまな堅牢なトレーニング戦略や正規化を開発することに集中しています。
しかし、重みを超えて、ネットワーク全体の構造と情報フローは、神経アーキテクチャによって明示的に決定されます。
本稿では,nasフレームワークを用いたアーキテクチャの観点から,ネットワークの対向的ロバスト性を改善することを目的とする。
逆ロバスト性,リプシッツ定数,アーキテクチャパラメータの関係を調査し,アーキテクチャパラメータに対する適切な制約によってリプシッツ定数が減少し,ロバスト性がさらに向上することを示す。
NASフレームワークでは、すべてのアーキテクチャパラメータは、スーパーネットから個別のアーキテクチャをサンプリングする場合に等しく扱われる。
しかし、アーキテクチャパラメータの重要性は、運用から運用、接続まで様々であり、これは調査されず、堅牢なアーキテクチャサンプリングの信頼性を低下させる可能性がある。
そこで,本論文では,ネットワーク全体のリプシッツ定数を,アーキテクチャパラメータに関連する平均と分散を考慮した単変量対数正規分布を用いて近似できる,訓練可能な多変量対数正規分布から,アーキテクチャパラメータをサンプリングする。
様々なNASアルゴリズムと効率的な人間設計モデルによって探索された敵意的に訓練されたニューラルネットワークと比較して、我々のアルゴリズムは異なるデータセットに対する様々な攻撃の下で、すべてのモデルの中で最高の性能を実証的に達成する。 Deep Neural Network (DNN) are vulnerable to adversarial attack. Existing methods are devoted to developing various robust training strategies or regularizations to update the weights of the neural network. But beyond the weights, the overall structure and information flow in the network are explicitly determined by the neural architecture, which remains unexplored. This paper thus aims to improve the adversarial robustness of the network from the architecture perspective with NAS framework. We explore the relationship among adversarial robustness, Lipschitz constant, and architecture parameters and show that an appropriate constraint on architecture parameters could reduce the Lipschitz constant to further improve the robustness. For NAS framework, all the architecture parameters are equally treated when the discrete architecture is sampled from supernet. However, the importance of architecture parameters could vary from operation to operation or connection to connection, which is not explored and might reduce the confidence of robust architecture sampling. Thus, we propose to sample architecture parameters from trainable multivariate log-normal distributions, with which the Lipschitz constant of entire network can be approximated using a univariate log-normal distribution with mean and variance related to architecture parameters. Compared with adversarially trained neural architectures searched by various NAS algorithms as well as efficient human-designed models, our algorithm empirically achieves the best performance among all the models under various attacks on different datasets. | 翻訳日:2022-10-22 19:20:27 公開日:2020-09-02 |
# 無料の視点を超えて:人間のパフォーマンスのアニメーションビデオを作る Going beyond Free Viewpoint: Creating Animatable Volumetric Video of Human Performances ( http://arxiv.org/abs/2009.00922v1 ) ライセンス: Link先を確認 | Anna Hilsmann, Philipp Fechteler, Wieland Morgenstern, Wolfgang Paier, Ingo Feldmann, Oliver Schreer, Peter Eisert | (参考訳) 本稿では,人間の演奏の高品質な映像コンテンツ作成のためのエンドツーエンドパイプラインを提案する。
自由視点ボリュームビデオの応用を超えて,俳優の演技のアニメーション化と変更を可能にする。
一 キャプチャーされたデータのセマンティクス及びアニメーション特性による豊か化
二 キャプチャーされたデータに類似したアニマタブルモデルを作成するのではなく、高品質なデータを直接アニメーションできるハイブリッド幾何およびビデオベースのアニメーション手法を適用する。
セマンティックエンリッチメントと幾何学的アニメーション能力は、3dデータに時間的一貫性を確立し、パラメトリック形状適応フル人体モデルを用いて各フレームを自動的に配置することで達成される。
我々のハイブリッド幾何とビデオに基づくアニメーションアプローチは、古典的なCGアニメーションの柔軟性と実際のキャプチャーデータのリアリズムを組み合わせたものである。
ポーズ編集では、キャプチャしたデータを可能な限り活用し、キャプチャしたフレームをキネマティックに変形して所望のポーズに適合させる。
さらに, 顔の粗い動きやポーズを図形のみにモデル化するハイブリッドな幾何学的・映像的アニメーション手法において, 顔と身体を異なる方法で扱う一方で, 純幾何学的手法に欠ける顔の細部や微妙な細部をビデオベーステクスチャで捉えた。
これらは対話的に組み合わされ、新しい表情を形成する。
その上で, 歯や目などの合成が困難な領域の出現を学習し, オートエンコーダをベースとしたアプローチで, 行方不明領域を現実的に埋める。
本稿では,ハイクオリティな映像コンテンツのキャプチャと生成,セマンティクスと変形特性によるエンリッチメント,最終ハイブリッドアニメーションのためのデータの再アニメーションと処理の全パイプラインについて述べる。 In this paper, we present an end-to-end pipeline for the creation of high-quality animatable volumetric video content of human performances. Going beyond the application of free-viewpoint volumetric video, we allow re-animation and alteration of an actor's performance through (i) the enrichment of the captured data with semantics and animation properties and (ii) applying hybrid geometry- and video-based animation methods that allow a direct animation of the high-quality data itself instead of creating an animatable model that resembles the captured data. Semantic enrichment and geometric animation ability are achieved by establishing temporal consistency in the 3D data, followed by an automatic rigging of each frame using a parametric shape-adaptive full human body model. Our hybrid geometry- and video-based animation approaches combine the flexibility of classical CG animation with the realism of real captured data. For pose editing, we exploit the captured data as much as possible and kinematically deform the captured frames to fit a desired pose. Further, we treat the face differently from the body in a hybrid geometry- and video-based animation approach where coarse movements and poses are modeled in the geometry only, while very fine and subtle details in the face, often lacking in purely geometric methods, are captured in video-based textures. These are processed to be interactively combined to form new facial expressions. On top of that, we learn the appearance of regions that are challenging to synthesize, such as the teeth or the eyes, and fill in missing regions realistically in an autoencoder-based approach. This paper covers the full pipeline from capturing and producing high-quality video content, over the enrichment with semantics and deformation properties for re-animation and processing of the data for the final hybrid animation. | 翻訳日:2022-10-22 19:20:03 公開日:2020-09-02 |
# 合成学習によるリアルタイム3次元顔追跡 Real-time 3D Facial Tracking via Cascaded Compositional Learning ( http://arxiv.org/abs/2009.00935v1 ) ライセンス: Link先を確認 | Jianwen Lou, Xiaoxu Cai, Junyu Dong and Hui Yu | (参考訳) モノクラーRGBカメラからリアルタイム3次元顔追跡のための多モード顔の動き回帰を解くために,グローバルに最適化されたモジュールアップファーン (GoMBF) のカスケードを学習することを提案する。
gombfは複数の回帰モデルの深い構成であり、それぞれは最初同じモダリティの偏動パラメータを予測するために訓練され、その後グローバル最適化ステップを介して結合され、回帰対象全体を効果的に処理できる特異な強ブーストfernを形成する。
出力変数のモダリティ変化に明示的に対応でき、従来の強化されたファーンと比較すると、適合能力の増大と学習速度の高速化が示される。
さらに、GoMBF(GoMBF-Cascade)のシーケンスをカスケードして顔の動きパラメータを抑えることにより、より多くのトレーニングデータを必要とする、あるいはより複雑な計算処理を必要とする最先端の手法と比較して、様々な動画の競合追跡性能を実現する。
これは、少量のトレーニングデータを使用してリアルタイムの3D顔追跡に堅牢でエレガントなソリューションを提供するため、現実世界のアプリケーションではより実用的になる。 We propose to learn a cascade of globally-optimized modular boosted ferns (GoMBF) to solve multi-modal facial motion regression for real-time 3D facial tracking from a monocular RGB camera. GoMBF is a deep composition of multiple regression models with each is a boosted ferns initially trained to predict partial motion parameters of the same modality, and then concatenated together via a global optimization step to form a singular strong boosted ferns that can effectively handle the whole regression target. It can explicitly cope with the modality variety in output variables, while manifesting increased fitting power and a faster learning speed comparing against the conventional boosted ferns. By further cascading a sequence of GoMBFs (GoMBF-Cascade) to regress facial motion parameters, we achieve competitive tracking performance on a variety of in-the-wild videos comparing to the state-of-the-art methods, which require much more training data or have higher computational complexity. It provides a robust and highly elegant solution to real-time 3D facial tracking using a small set of training data and hence makes it more practical in real-world applications. | 翻訳日:2022-10-22 19:19:34 公開日:2020-09-02 |
# 注意誘導型対向ネットワークを用いた奥行き画像からの3次元顔形状復元 3D Facial Geometry Recovery from a Depth View with Attention Guided Generative Adversarial Network ( http://arxiv.org/abs/2009.00938v1 ) ライセンス: Link先を確認 | Xiaoxu Cai, Hui Yu, Jianwen Lou, Xuguang Zhang, Gongfa Li, Junyu Dong | (参考訳) 本稿では,Attention Guided Generative Adversarial Networks (AGGAN)を提案することにより,単一深度から完全な3次元顔形状を復元する。
通常、2つ以上の深度ビューを必要とする既存の作業とは対照的に、提案されたagganは、1つの無拘束な深度ビューから顔の密度の高い3dボクセルグリッドを生成することができる。
具体的には、AGGANは、ボクセル空間内の3次元顔形状を符号化し、注意誘導型GANを用いて2.5次元深度3Dマッピングをモデル化する。
ボクセル空間における顔の表面点の事前分布とともに、3次元顔形状整合性を強制する多重損失関数を組み込んでトレーニングプロセスの導出を行う。
定性的・定量的な比較は、AGGANが従来の方法よりも広い視野角を処理し、ノイズに抵抗する能力を持ち、より完全で滑らかな3次元顔形状を復元することを示している。 We present to recover the complete 3D facial geometry from a single depth view by proposing an Attention Guided Generative Adversarial Networks (AGGAN). In contrast to existing work which normally requires two or more depth views to recover a full 3D facial geometry, the proposed AGGAN is able to generate a dense 3D voxel grid of the face from a single unconstrained depth view. Specifically, AGGAN encodes the 3D facial geometry within a voxel space and utilizes an attention-guided GAN to model the illposed 2.5D depth-3D mapping. Multiple loss functions, which enforce the 3D facial geometry consistency, together with a prior distribution of facial surface points in voxel space are incorporated to guide the training process. Both qualitative and quantitative comparisons show that AGGAN recovers a more complete and smoother 3D facial shape, with the capability to handle a much wider range of view angles and resist to noise in the depth view than conventional methods | 翻訳日:2022-10-22 19:19:12 公開日:2020-09-02 |
# 画像からのレシピ生成のための構造認識生成ネットワーク Structure-Aware Generation Network for Recipe Generation from Images ( http://arxiv.org/abs/2009.00944v1 ) ライセンス: Link先を確認 | Hao Wang, Guosheng Lin, Steven C. H. Hoi, Chunyan Miao | (参考訳) 食品の共有はソーシャルメディアの発展に非常に人気がある。
現実世界のアプリケーションの多くは、食品の基本的なレシピを知りたがっている。
本稿では,食品の調理指導を自動生成することに関心がある。
画像キャプションタスクに類似した食品画像と具材のみに基づいて調理指示を生成するオープン研究課題について検討する。
しかし、画像キャプションデータセットと比較すると、ターゲットのレシピは長い段落であり、構造情報のアノテーションを持たない。
以上の制限に対処するため、食品レシピ生成タスクに取り組むために、構造認識ネットワーク(SGN)の新たなフレームワークを提案する。
提案手法は,(1)学習前の文レベルの木構造ラベルを得るための教師なし学習アプローチ,(2)学習した木構造ラベルを監督した画像からターゲットレシピのツリーを生成する,(3)推論された木構造とレシピ生成手順を統合する,という,新しい考え方を体系的な枠組みに取り入れたものである。
提案モデルは高品質でコヒーレントなレシピを作成でき、ベンチマークRecipe1Mデータセット上で最先端のパフォーマンスを実現する。 Sharing food has become very popular with the development of social media. For many real-world applications, people are keen to know the underlying recipes of a food item. In this paper, we are interested in automatically generating cooking instructions for food. We investigate an open research task of generating cooking instructions based on only food images and ingredients, which is similar to the image captioning task. However, compared with image captioning datasets, the target recipes are long-length paragraphs and do not have annotations on structure information. To address the above limitations, we propose a novel framework of Structure-aware Generation Network (SGN) to tackle the food recipe generation task. Our approach brings together several novel ideas in a systematic framework: (1) exploiting an unsupervised learning approach to obtain the sentence-level tree structure labels before training; (2) generating trees of target recipes from images with the supervision of tree structure labels learned from (1); and (3) integrating the inferred tree structures with the recipe generation procedure. Our proposed model can produce high-quality and coherent recipes, and achieve the state-of-the-art performance on the benchmark Recipe1M dataset. | 翻訳日:2022-10-22 19:18:52 公開日:2020-09-02 |
# ハイパースペクトル分類のためのオートエンコーダによる教師なし特徴学習とプロトタイプコントラスト学習 Unsupervised Feature Learning by Autoencoder and Prototypical Contrastive Learning for Hyperspectral Classification ( http://arxiv.org/abs/2009.00953v1 ) ライセンス: Link先を確認 | Zeyu Cao, Xiaorun Li, Liaoying Zhao | (参考訳) 特徴抽出のための教師なし学習手法がますます普及している。
一般的なコントラスト学習法(プロト型コントラスト学習)と古典表現学習法(オートエンコーダ)を組み合わせて,超スペクトル分類のための教師なし特徴学習ネットワークを設計する。
実験により、提案した2つのオートエンコーダネットワークは、それ自体で優れた機能学習能力を持つことが証明された。
その結果,超スペクトル分類実験において,教師あり手法を含む他の比較手法を超越した。
さらに,本手法はベースライン法よりも高速な特徴抽出速度を維持している。
さらに,提案手法は,膨大な計算資源の要求を減らし,特徴抽出とコントラスト学習を分離し,教師なしのコントラスト学習の研究と実験を行うことができる。 Unsupervised learning methods for feature extraction are becoming more and more popular. We combine the popular contrastive learning method (prototypical contrastive learning) and the classic representation learning method (autoencoder) to design an unsupervised feature learning network for hyperspectral classification. Experiments have proved that our two proposed autoencoder networks have good feature learning capabilities by themselves, and the contrastive learning network we designed can better combine the features of the two to learn more representative features. As a result, our method surpasses other comparison methods in the hyperspectral classification experiments, including some supervised methods. Moreover, our method maintains a fast feature extraction speed than baseline methods. In addition, our method reduces the requirements for huge computing resources, separates feature extraction and contrastive learning, and allows more researchers to conduct research and experiments on unsupervised contrastive learning. | 翻訳日:2022-10-22 19:18:31 公開日:2020-09-02 |
# SemEval-2020 Task 12: ソーシャルメディアにおける攻撃言語分類のためのシーケンスに基づくディープラーニング Garain at SemEval-2020 Task 12: Sequence based Deep Learning for Categorizing Offensive Language in Social Media ( http://arxiv.org/abs/2009.01195v1 ) ライセンス: Link先を確認 | Avishek Garain | (参考訳) SemEval-2020 Task 12 was OffenseEval: Multilingual Offensive Language Identification in Social Media (Zampieri et al., 2020)。
タスクは複数の言語に分割され、それぞれにデータセットが提供された。
さらに、攻撃的言語識別、犯罪種別の自動分類、犯罪標的識別の3つのサブタスクに分けられた。
私はtask-c、すなわち攻撃対象識別に参加しました。
提案システムの作成には,lstmsのような深層学習ネットワークと,単語の袋型モデルと自動生成したシーケンスベース特徴と,与えられたデータセットから手動で抽出した特徴を組み合わせたkerasなどのフレームワークを用いた。
データセット全体の25%のトレーニングシステムは、マクロ平均f1スコア47.763%を達成する。 SemEval-2020 Task 12 was OffenseEval: Multilingual Offensive Language Identification in Social Media (Zampieri et al., 2020). The task was subdivided into multiple languages and datasets were provided for each one. The task was further divided into three sub-tasks: offensive language identification, automatic categorization of offense types, and offense target identification. I have participated in the task-C, that is, offense target identification. For preparing the proposed system, I have made use of Deep Learning networks like LSTMs and frameworks like Keras which combine the bag of words model with automatically generated sequence based features and manually extracted features from the given dataset. My system on training on 25% of the whole dataset achieves macro averaged f1 score of 47.763%. | 翻訳日:2022-10-22 19:12:21 公開日:2020-09-02 |
# 自動短答採点における事前学習学習モデルの比較評価 Comparative Evaluation of Pretrained Transfer Learning Models on Automatic Short Answer Grading ( http://arxiv.org/abs/2009.01303v1 ) ライセンス: Link先を確認 | Sasi Kiran Gaddipati, Deebul Nair, Paul G. Pl\"oger | (参考訳) 自動短答格付け (automatic short answer grading, asag) は、ある質問と所望の回答によって生徒の回答を格付けする過程である。
以前の作品では概念マッピング、ファセットマッピングの手法を実装しており、意味的特徴を抽出するために従来の単語埋め込みを用いたものもある。
彼らは、対応するデータセットをトレーニングするために、複数の機能を手動で抽出した。
我々は,移動学習モデルであるELMo,BERT,GPT,GPT-2の事前学習埋め込みを用いて,その効率性を評価する。
これらのモデルの埋め込みから抽出した1つの特徴、コサイン類似性をトレーニングする。
我々は, 4つのモデルのRMSEスコアと相関値と, モーラーデータセットの先行研究との比較を行った。
私たちの研究は、ELMoが他の3つのモデルより優れていることを示した。
また,4つの伝達学習モデルを簡潔に記述し,伝達学習モデルの貧弱な結果の原因について結論づける。 Automatic Short Answer Grading (ASAG) is the process of grading the student answers by computational approaches given a question and the desired answer. Previous works implemented the methods of concept mapping, facet mapping, and some used the conventional word embeddings for extracting semantic features. They extracted multiple features manually to train on the corresponding datasets. We use pretrained embeddings of the transfer learning models, ELMo, BERT, GPT, and GPT-2 to assess their efficiency on this task. We train with a single feature, cosine similarity, extracted from the embeddings of these models. We compare the RMSE scores and correlation measurements of the four models with previous works on Mohler dataset. Our work demonstrates that ELMo outperformed the other three models. We also, briefly describe the four transfer learning models and conclude with the possible causes of poor results of transfer learning models. | 翻訳日:2022-10-22 19:12:06 公開日:2020-09-02 |
# t-sモデル同定のための2型学生構成関数を用いたベイズアプローチ A Bayesian Approach with Type-2 Student-tMembership Function for T-S Model Identification ( http://arxiv.org/abs/2009.00822v1 ) ライセンス: Link先を確認 | Vikas Singh, Homanga Bharadhwaj, Nishchal K Verma | (参考訳) クラスタリング手法はタカギスゲノ(t-s)ファジィモデル同定に非常に有用であることが証明されている。
特に,2型ファジィセットに基づくファジィック回帰クラスタリングは,非スパースデータに対して顕著な結果を示した。
本稿では、ファジック回帰モデルのための革新的アーキテクチャを提示し、スパースデータモデリング用に設計された新しい学生分配型会員関数を提案する。
オーバーフィッティングを避けるために,回帰係数に先行してアガウシアンを組み込むベイズ法を適用した。
さらに,karnik mendelアルゴリズムを用いて最終出力を計算し,確率的勾配微分法を用いてモデルのコンシークエントパラメータを最適化する。
詳細な実験結果から,提案手法は様々な最先端手法の標準データセットと比較した場合よりも優れていた。 Clustering techniques have been proved highly suc-cessful for Takagi-Sugeno (T-S) fuzzy model identification. Inparticular, fuzzyc-regression clustering based on type-2 fuzzyset has been shown the remarkable results on non-sparse databut their performance degraded on sparse data. In this paper, aninnovative architecture for fuzzyc-regression model is presentedand a novel student-tdistribution based membership functionis designed for sparse data modelling. To avoid the overfitting,we have adopted a Bayesian approach for incorporating aGaussian prior on the regression coefficients. Additional noveltyof our approach lies in type-reduction where the final output iscomputed using Karnik Mendel algorithm and the consequentparameters of the model are optimized using Stochastic GradientDescent method. As detailed experimentation, the result showsthat proposed approach outperforms on standard datasets incomparison of various state-of-the-art methods. | 翻訳日:2022-10-22 19:11:38 公開日:2020-09-02 |
# 幾何制約埋め込みと半教師付きトレーニングによる単眼3次元検出 Monocular 3D Detection with Geometric Constraints Embedding and Semi-supervised Training ( http://arxiv.org/abs/2009.00764v1 ) ライセンス: Link先を確認 | Peixuan Li | (参考訳) そこで本研究では,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクロ3Dオブジェクト検出のための,シングルショットとキーポイントに基づく新しいフレームワークを提案する。
対象のキーポイント、次元、方向を予測するために、完全畳み込みモデルを設計し、これらの推定と視点幾何制約を組み合わせて位置属性を計算する。
さらに、幾何的制約を微分可能なバージョンとして再構成し、それをネットワークに埋め込んで、エンドツーエンドでモデル出力の一貫性を維持しながら実行時間を短縮する。
この簡単な構造から,ラベル付きトレーニングデータが不足した環境での効果的な半教師付きトレーニング戦略を提案する。
この戦略では、異なる入力拡張条件下で同じラベル付き画像に対して、2つの共有重み付きKM3D-Netのコンセンサス予測を行う。
特に、オブジェクトの差分回復位置に対するアフィン変換として座標依存拡張を統一し、ネットワーク正規化のためのキーポイントドロップアウトモジュールを提案する。
我々のモデルは、合成データ、インスタンスセグメンテーション、CADモデル、深度ジェネレータのないRGB画像のみを必要とする。
それでも、KITTIの一般的な3D検出データセットに関する広範な実験は、KM3D-Netが従来の最先端の手法を、効率と精度の両方で大きく上回っていることを示している。
また、私たちの知る限りでは、半教師付き学習が単眼の3dオブジェクト検出に適用されるのはこれが初めてです。
KITTIのラベル付きデータだけで、これまで完全に教師された手法のほとんどを上回りました。 In this work, we propose a novel single-shot and keypoints-based framework for monocular 3D objects detection using only RGB images, called KM3D-Net. We design a fully convolutional model to predict object keypoints, dimension, and orientation, and then combine these estimations with perspective geometry constraints to compute position attribute. Further, we reformulate the geometric constraints as a differentiable version and embed it into the network to reduce running time while maintaining the consistency of model outputs in an end-to-end fashion. Benefiting from this simple structure, we then propose an effective semi-supervised training strategy for the setting where labeled training data is scarce. In this strategy, we enforce a consensus prediction of two shared-weights KM3D-Net for the same unlabeled image under different input augmentation conditions and network regularization. In particular, we unify the coordinate-dependent augmentations as the affine transformation for the differential recovering position of objects and propose a keypoints-dropout module for the network regularization. Our model only requires RGB images without synthetic data, instance segmentation, CAD model, or depth generator. Nevertheless, extensive experiments on the popular KITTI 3D detection dataset indicate that the KM3D-Net surpasses all previous state-of-the-art methods in both efficiency and accuracy by a large margin. And also, to the best of our knowledge, this is the first time that semi-supervised learning is applied in monocular 3D objects detection. We even surpass most of the previous fully supervised methods with only 13\% labeled data on KITTI. | 翻訳日:2022-10-22 19:11:16 公開日:2020-09-02 |
# LSMVOS:ビデオオブジェクトの長時間類似性マッチング LSMVOS: Long-Short-Term Similarity Matching for Video Object ( http://arxiv.org/abs/2009.00771v1 ) ライセンス: Link先を確認 | Zhang Xuerui, Yuan Xia | (参考訳) Objective Semi-supervised Video Object segmentationは、オブジェクトを第1フレームのオブジェクトラベルが与えられた後続のフレームでセグメント化することを指す。
既存のアルゴリズムは、主にマッチングと伝搬戦略の目的に基づいており、しばしば以前のフレームをマスキングや光の流れで利用する。
This paper explores a new propagation method, uses short-term matching modules to extract the information of the previous frame and apply it in propagation, and proposes the network of Long-Short-Term similarity matching for video object segmentation (LSMOVS) Method: By conducting pixel-level matching and correlation between long-term matching module and short-term matching module with the first frame and previous frame, global similarity map and local similarity map are obtained, as well as feature pattern of current frame and masking of previous frame.
2つの精製ネットワークの後、セグメンテーションネットワークを介して最終結果を得る。
結果: DAVIS 2016 と 2017 の2つのデータセットの実験結果によると,本手法は,オンラインの微調整を伴わずに,領域の類似点と輪郭の精度の良好な平均値を達成し,単一目標と複数目標の点で86.5%,77.4%を達成した。
また,1秒あたりの分画フレーム数は21。
結論:本稿で提案する短期マッチングモジュールは,マスクのみよりも前のフレームの情報を抽出する方が分かりやすい。
長期マッチングモジュールと短期マッチングモジュールを組み合わせることで、ネットの微調整なしに効率の良いビデオオブジェクト分割を実現することができる。 Objective Semi-supervised video object segmentation refers to segmenting the object in subsequent frames given the object label in the first frame. Existing algorithms are mostly based on the objectives of matching and propagation strategies, which often make use of the previous frame with masking or optical flow. This paper explores a new propagation method, uses short-term matching modules to extract the information of the previous frame and apply it in propagation, and proposes the network of Long-Short-Term similarity matching for video object segmentation (LSMOVS) Method: By conducting pixel-level matching and correlation between long-term matching module and short-term matching module with the first frame and previous frame, global similarity map and local similarity map are obtained, as well as feature pattern of current frame and masking of previous frame. After two refine networks, final results are obtained through segmentation network. Results: According to the experiments on the two data sets DAVIS 2016 and 2017, the method of this paper achieves favorable average of region similarity and contour accuracy without online fine tuning, which achieves 86.5% and 77.4% in terms of single target and multiple targets. Besides, the count of segmented frames per second reached 21. Conclusion: The short-term matching module proposed in this paper is more conducive to extracting the information of the previous frame than only the mask. By combining the long-term matching module with the short-term matching module, the whole network can achieve efficient video object segmentation without online fine tuning | 翻訳日:2022-10-22 19:10:51 公開日:2020-09-02 |
# CLOCs: 3Dオブジェクト検出のためのカメラLiDARオブジェクトの融合 CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection ( http://arxiv.org/abs/2009.00784v1 ) ライセンス: Link先を確認 | Su Pang, Daniel Morris, Hayder Radha | (参考訳) LiDARを用いた3Dオブジェクト検出とビデオによる2Dオブジェクト検出の両方において、ニューラルネットワークは大幅に進歩している。
しかし、単一モダリティネットワークの利得を示す方法で両方のモダリティを効果的に使用するようにネットワークを訓練することは驚くほど困難であった。
本稿では,新しいカメラ-LiDARオブジェクト候補(CLOC)融合ネットワークを提案する。
CLOCs融合は、単一モード検出器の性能を著しく向上させる低複雑さ多モード融合フレームワークを提供する。
CLOCは、任意の2Dおよび任意の3D検出器の非最大抑圧(NMS)の前に出力候補を組み合わせて動作し、幾何学的および意味的な組み合わせを活用してより正確な最終3Dおよび2D検出結果を生成するように訓練されている。
3Dおよび鳥の目視測定値を含むKITTIオブジェクト検出ベンチマークの実験的評価は、最先端の融合法に比べて、特に遠距離での顕著な改善を示している。
提出時点では、CLOCは公式のKITTIのリーダーボードにおいて、核融合ベースの手法の中で最高である。
私たちは受け入れ次第コードを公開します。 There have been significant advances in neural networks for both 3D object detection using LiDAR and 2D object detection using video. However, it has been surprisingly difficult to train networks to effectively use both modalities in a way that demonstrates gain over single-modality networks. In this paper, we propose a novel Camera-LiDAR Object Candidates (CLOCs) fusion network. CLOCs fusion provides a low-complexity multi-modal fusion framework that significantly improves the performance of single-modality detectors. CLOCs operates on the combined output candidates before Non-Maximum Suppression (NMS) of any 2D and any 3D detector, and is trained to leverage their geometric and semantic consistencies to produce more accurate final 3D and 2D detection results. Our experimental evaluation on the challenging KITTI object detection benchmark, including 3D and bird's eye view metrics, shows significant improvements, especially at long distance, over the state-of-the-art fusion based methods. At time of submission, CLOCs ranks the highest among all the fusion-based methods in the official KITTI leaderboard. We will release our code upon acceptance. | 翻訳日:2022-10-22 19:10:06 公開日:2020-09-02 |
# カスケード構造フィルタバンクを用いた畳み込み非線形辞書 Convolutional Nonlinear Dictionary with Cascaded Structure Filter Banks ( http://arxiv.org/abs/2009.00831v1 ) ライセンス: Link先を確認 | Ruiki Kobayashi, Shogo Muramatsu | (参考訳) 本研究では,カスケードフィルタバンクを用いた画像復元のための畳み込み非線形辞書(CNLD)を提案する。
一般に、畳み込みニューラルネットワーク(CNN)は画像復元アプリケーションにおいてその実用性を実証するが、既存のCNNは原子画像(畳み込みカーネル)の関係を考慮せずに構築される。
その結果、デザインスペースの役割について議論する余地が残っている。
効率的かつ構造化された畳み込みネットワークを構築するためのフレームワークを提案する。
バックプロパゲーション学習手順は、特定の画像復元実験から導出され、CNLDの重要性が検証される。
復元性能を維持しながらパラメータ数を減少させることを示した。 This study proposes a convolutional nonlinear dictionary (CNLD) for image restoration using cascaded filter banks. Generally, convolutional neural networks (CNN) demonstrate their practicality in image restoration applications; however, existing CNNs are constructed without considering the relationship among atomic images (convolution kernels). As a result, there remains room for discussing the role of design spaces. To provide a framework for constructing an effective and structured convolutional network, this study proposes the CNLD. The backpropagation learning procedure is derived from certain image restoration experiments, and thereby the significance of CNLD is verified. It is demonstrated that the number of parameters is reduced while preserving the restoration performance. | 翻訳日:2022-10-22 19:09:45 公開日:2020-09-02 |
# 観測された接続を超えて : リンクインジェクション Beyond Observed Connections : Link Injection ( http://arxiv.org/abs/2009.04447v1 ) ライセンス: Link先を確認 | Jie Bu, M. Maruf, Arka Daw | (参考訳) 本稿では,任意のグラフ機械学習モデルが,エンド・ツー・エンドの学習方法で入力データから観測された接続を超えることを支援する,新しい手法である \textit{link injection} を提案する。
パラメトリックリンク注入層を介して入力データに存在しない現在のタスクに有利な(弱い)接続を見つけ出す。
本手法は,最先端グラフ畳み込みネットワークを用いてノード分類とリンク予測の両方のタスクで評価する。
その結果、リンクインジェクションは、さまざまなモデルが両方のアプリケーションでより良いパフォーマンスを達成するのに役立ちます。
さらなる実証分析は、注入されたリンクから見えない接続を効率的に活用する上で、この手法の大きな可能性を示している。 In this paper, we proposed the \textit{link injection}, a novel method that helps any differentiable graph machine learning models to go beyond observed connections from the input data in an end-to-end learning fashion. It finds out (weak) connections in favor of the current task that is not present in the input data via a parametric link injection layer. We evaluate our method on both node classification and link prediction tasks using a series of state-of-the-art graph convolution networks. Results show that the link injection helps a variety of models to achieve better performances on both applications. Further empirical analysis shows a great potential of this method in efficiently exploiting unseen connections from the injected links. | 翻訳日:2022-10-22 19:03:07 公開日:2020-09-02 |
# ニューラルフェア協調フィルタリング Neural Fair Collaborative Filtering ( http://arxiv.org/abs/2009.08955v1 ) ライセンス: Link先を確認 | Rashidul Islam, Kamrun Naher Keya, Ziqian Zeng, Shimei Pan, James Foulds | (参考訳) 人的相互作用の割合はソーシャルメディアプラットフォーム上でデジタル化され、アルゴリズムによる意思決定の対象となり、これらのアルゴリズムから公平な扱いを確実にすることがますます重要になっている。
本研究では,ソーシャルメディアデータを用いた協調フィルタリング推薦システムにおける性別バイアスについて検討する。
ニューラルフェア協調フィルタリング (neural fair collaborative filtering, nfcf) は,神経協調フィルタリングに対する事前訓練と微調整のアプローチを用いて,敏感な項目 (仕事, 学術的集中, 研究コースなど) を推薦する上で, ジェンダーバイアスを緩和するための実用的なフレームワークである。
そこで本研究では,本手法の有用性を,映画レンスデータセットとfacebookデータセット上で評価し,いくつかの最新モデルよりも優れたパフォーマンスと公平な行動を実現する。 A growing proportion of human interactions are digitized on social media platforms and subjected to algorithmic decision-making, and it has become increasingly important to ensure fair treatment from these algorithms. In this work, we investigate gender bias in collaborative-filtering recommender systems trained on social media data. We develop neural fair collaborative filtering (NFCF), a practical framework for mitigating gender bias in recommending sensitive items (e.g. jobs, academic concentrations, or courses of study) using a pre-training and fine-tuning approach to neural collaborative filtering, augmented with bias correction techniques. We show the utility of our methods for gender de-biased career and college major recommendations on the MovieLens dataset and a Facebook dataset, respectively, and achieve better performance and fairer behavior than several state-of-the-art models. | 翻訳日:2022-10-22 19:02:58 公開日:2020-09-02 |
# ワクチン生産のための細菌コロニー検出のための深層学習 Deep Learning to Detect Bacterial Colonies for the Production of Vaccines ( http://arxiv.org/abs/2009.00926v1 ) ライセンス: Link先を確認 | Thomas Beznik, Paul Smyth, Ga\"el de Lannoy and John A. Lee | (参考訳) ワクチンの開発において、発酵過程の収量を測定するために細菌コロニー形成単位(CFU)を数える。
このマニュアルタスクは時間がかかり、エラーが発生します。
本研究では、U-Net CNNアーキテクチャに基づいて複数のセグメント化アルゴリズムをテストし、これらが堅牢で自動化されたCFUカウントを提供することを示す。
自発的損失関数を持つマルチクラス一般化は, 許容可能な精度で病原性コロニーと病原性コロニーを区別できることを示す。
多くの可能性が残されているが、この結果は細菌コロニーを分離し分類する深層学習の可能性を示している。 During the development of vaccines, bacterial colony forming units (CFUs) are counted in order to quantify the yield in the fermentation process. This manual task is time-consuming and error-prone. In this work we test multiple segmentation algorithms based on the U-Net CNN architecture and show that these offer robust, automated CFU counting. We show that the multiclass generalisation with a bespoke loss function allows distinguishing virulent and avirulent colonies with acceptable accuracy. While many possibilities are left to explore, our results show the potential of deep learning for separating and classifying bacterial colonies. | 翻訳日:2022-10-22 19:02:36 公開日:2020-09-02 |
# L1特異的非単語の探索的研究 An exploratory study of L1-specific non-words ( http://arxiv.org/abs/2009.01134v1 ) ライセンス: Link先を確認 | David Alfter | (参考訳) 本稿では,L1固有の非単語,すなわち対象言語(スウェーデン語の場合)における非単語について検討する。
特定のL1話者は一般の非単語よりもL1固有の非単語に反応する。
異なる言語モデルで非単語を並べ替えることで「swedishness」が認識されるか(パイロット研究1)と、ドイツ語と英語の母語話者がそれぞれl1固有の非単語を提示した場合の語彙決定タスクで反応時間が長くなるか(パイロット研究2)を考察した。
実験の結果,L1の非単語はスウェーデン語の非単語に次いで2番目に遅く処理されていることが明らかとなった。 In this paper, we explore L1-specific non-words, i.e. non-words in a target language (in this case Swedish) that are re-ranked by a different-language language model. We surmise that speakers of a certain L1 will react different to L1-specific non-words than to general non-words. We present the results from two small case studies exploring whether re-ranking non-words with different language models leads to a perceived difference in `Swedishness' (pilot study 1) and whether German and English native speakers have longer reaction times in a lexical decision task when presented with their respective L1-specific non-words (pilot study 2). Tentative results seem to indicate that L1-specific non-words are processed second-slowest, after purely Swedish-looking non-words. | 翻訳日:2022-10-22 19:00:38 公開日:2020-09-02 |
# ディープラーニングがデジタル画像相関と出会うとき When Deep Learning Meets Digital Image Correlation ( http://arxiv.org/abs/2009.03993v1 ) ライセンス: Link先を確認 | S. Boukhtache, K. Abdelouahab, F. Berry, B. Blaysat, M. Grediac, F. Sur | (参考訳) 畳み込みニューラルネットワーク(CNN)は、コンピュータビジョン、特に光フロー推定における多くの問題を解決するために近年使用されているディープラーニングモデルのクラスである。
この問題の特別な場合として、変位とひずみ場の測定が考えられる。
しかし、CNNはそのような測定を行うためにこれまで使われていないようである。
本研究は,デジタル画像相関 (dic) のように,平坦なスペックル面の対の参照画像と変形画像から変位およびひずみ場を抽出できるcnnの実装を目的としたものである。
本稿では、この目標を達成するために、StrainNetと呼ばれるCNNを開発した方法と、このCNNをトレーニングするために、特定の真実データセットがどのように精巧化されているかを説明する。
主な結果は、scherenetがそのような測定を成功させ、metrological performanceとcompute timeの点で競合する結果を達成することである。
結論として、StrainNetのようなCNNは、特にリアルタイムアプリケーションにおいて、DICに代わる実行可能な代替手段を提供している。 Convolutional Neural Networks (CNNs) constitute a class of Deep Learning models which have been used in the recent past to resolve many problems in computer vision, in particular optical flow estimation. Measuring displacement and strain fields can be regarded as a particular case of this problem. However, it seems that CNNs have never been used so far to perform such measurements. This work is aimed at implementing a CNN able to retrieve displacement and strain fields from pairs of reference and deformed images of a flat speckled surface, as Digital Image Correlation (DIC) does. This paper explains how a CNN called StrainNet can be developed to reach this goal, and how specific ground truth datasets are elaborated to train this CNN. The main result is that StrainNet successfully performs such measurements, and that it achieves competing results in terms of metrological performance and computing time. The conclusion is that CNNs like StrainNet offer a viable alternative to DIC, especially for real-time applications. | 翻訳日:2022-10-22 18:53:42 公開日:2020-09-02 |
# 動的線形モデルを用いた渋滞高速道路の走行時間予測 Travel time prediction for congested freeways with a dynamic linear model ( http://arxiv.org/abs/2009.01016v1 ) ライセンス: Link先を確認 | Semin Kwak and Nikolas Geroliminis | (参考訳) 旅行時間の正確な予測は、インテリジェントトランスポーテーションシステム(ITS)をサポートするために欠かせない特徴である。
しかし、交通状態の非線形性は、この予測を困難なタスクにする。
本稿では,非線形トラフィック状態を近似するために動的線形モデル(DLM)を提案する。
静的線形回帰モデルとは異なり、DLMはパラメータが時間とともに変化していると仮定する。
時系列トラフィックデータの時空間特性を記述するために,各時間単位で定義されるモデルパラメータを用いたDLMを設計する。
DLMとそのモデルパラメータを歴史的データを用いて解析的に訓練し,最小平均二乗誤差(MMSE)の意味で最適線形予測器を提案する。
我々は,カリフォルニア州の高速道路(I210-EとI5-S)の交通条件下での走行時間の予測精度を,瞬時走行時間,k-アネレスト近傍,サポートベクトル回帰,人工ニューラルネットワークなどの他の手法と比較した。
特に短期予測では,精度が大幅に向上した。 Accurate prediction of travel time is an essential feature to support Intelligent Transportation Systems (ITS). The non-linearity of traffic states, however, makes this prediction a challenging task. Here we propose to use dynamic linear models (DLMs) to approximate the non-linear traffic states. Unlike a static linear regression model, the DLMs assume that their parameters are changing across time. We design a DLM with model parameters defined at each time unit to describe the spatio-temporal characteristics of time-series traffic data. Based on our DLM and its model parameters analytically trained using historical data, we suggest an optimal linear predictor in the minimum mean square error (MMSE) sense. We compare our prediction accuracy of travel time for freeways in California (I210-E and I5-S) under highly congested traffic conditions with those of other methods: the instantaneous travel time, k-nearest neighbor, support vector regression, and artificial neural network. We show significant improvements in the accuracy, especially for short-term prediction. | 翻訳日:2022-10-22 18:52:46 公開日:2020-09-02 |
# 非負データのクラスタリングと行列補完への応用 Clustering of Nonnegative Data and an Application to Matrix Completion ( http://arxiv.org/abs/2009.01279v1 ) ライセンス: Link先を確認 | C. Strohmeier, D. Needell | (参考訳) 本稿では,不連結部分空間に非負のデータをクラスタリングする簡単なアルゴリズムを提案する。
本研究では,それらの部分空間間の相関関係を,ある尺度で解析する。
クラスタリングアルゴリズムを用いて,特定の自然条件を満たすデータ行列に対して,標準行列補完アルゴリズムよりも優れる行列補完アルゴリズムを開発した。 In this paper, we propose a simple algorithm to cluster nonnegative data lying in disjoint subspaces. We analyze its performance in relation to a certain measure of correlation between said subspaces. We use our clustering algorithm to develop a matrix completion algorithm which can outperform standard matrix completion algorithms on data matrices satisfying certain natural conditions. | 翻訳日:2022-10-22 18:51:59 公開日:2020-09-02 |
# クロスエントロピー最大化による変化点検出 Change Point Detection by Cross-Entropy Maximization ( http://arxiv.org/abs/2009.01358v1 ) ライセンス: Link先を確認 | Aur\'elien Serre, Didier Ch\'etelat, Andrea Lodi | (参考訳) 多くのオフラインの無監督な変更点検出アルゴリズムは、セグメント単位のコストを最小化することに頼っている。
我々は、セグメント間の不一致の和を最小化するために、このフレームワークを拡張する。
特に,新しい変化点を導入する際のペナルティによってバランスの取れた連続セグメント間の相互エントロピーを最大化するために,変化点を選択することを提案する。
本稿では,この問題を解き,その複雑さを解析する動的プログラミングアルゴリズムを提案する。
2つの挑戦的データセットの実験は、3つの最先端アプローチと比較して、我々の手法の利点を実証している。 Many offline unsupervised change point detection algorithms rely on minimizing a penalized sum of segment-wise costs. We extend this framework by proposing to minimize a sum of discrepancies between segments. In particular, we propose to select the change points so as to maximize the cross-entropy between successive segments, balanced by a penalty for introducing new change points. We propose a dynamic programming algorithm to solve this problem and analyze its complexity. Experiments on two challenging datasets demonstrate the advantages of our method compared to three state-of-the-art approaches. | 翻訳日:2022-10-22 18:51:54 公開日:2020-09-02 |
# ファーストプライスオークションの新世界におけるバイドシェーディング Bid Shading in The Brave New World of First-Price Auctions ( http://arxiv.org/abs/2009.01360v1 ) ライセンス: Link先を確認 | Djordje Gligorijevic, Tian Zhou, Bharatbhushan Shetty, Brendan Kitts, Shengjun Pan, Junwei Pan, Aaron Flores | (参考訳) オンラインオークションはオンライン広告において中心的な役割を果たしており、業界が拡張性と成長を遂げる主な理由の1つである。
第2価格から第1価格のオークションタイプの変更など、オークションの組織化に関する大きな変化により、広告主と需要プラットフォームは、新たな揮発性環境に適応せざるを得なくなった。
バイドシェーディングは、最初の価格オークションにおける戦略均衡を維持するのに役立つオークションシステムにおける過払いを防ぐ技術として知られており、最大の欠点の1つに対処している。
本研究では,非検閲オンライン広告オークションにおける最適な入札シェーディングをモデル化する機械学習手法を提案する。
当社は、このアプローチを明らかに動機付け、主要な需要サイドプラットフォーム上で、オフラインとオンラインの両方で広く評価しています。
結果は、さまざまなパフォーマンス指標にわたる既存のアプローチと比較して、新しいアプローチの優位性と堅牢性を示している。 Online auctions play a central role in online advertising, and are one of the main reasons for the industry's scalability and growth. With great changes in how auctions are being organized, such as changing the second- to first-price auction type, advertisers and demand platforms are compelled to adapt to a new volatile environment. Bid shading is a known technique for preventing overpaying in auction systems that can help maintain the strategy equilibrium in first-price auctions, tackling one of its greatest drawbacks. In this study, we propose a machine learning approach of modeling optimal bid shading for non-censored online first-price ad auctions. We clearly motivate the approach and extensively evaluate it in both offline and online settings on a major demand side platform. The results demonstrate the superiority and robustness of the new approach as compared to the existing approaches across a range of performance metrics. | 翻訳日:2022-10-22 18:51:46 公開日:2020-09-02 |
# 非パラメトリック一般化線形モデル Non-parametric generalized linear model ( http://arxiv.org/abs/2009.01362v1 ) ライセンス: Link先を確認 | Matthew Dowling, Yuan Zhao, Il Memming Park | (参考訳) 統計神経科学の基本的な問題は、ニューロンが電気生理学的記録を分析して情報をエンコードする方法をモデル化することである。
広く使われているアプローチは、スパイク列車を自動回帰ポイントプロセスモデルに適合させることである。
これらのモデルは、神経細胞が刺激をコードし、相互に相互作用し、情報を処理する方法を明らかにするのに役立つ一連の畳み込み時間フィルタによって特徴づけられる。
実際には、フィルタをパラメータ化するために十分なリッチだが小さな時間基底関数のアンサンブルを選択する必要がある。
しかし、満足のいく適合を得るには、しばしば重荷のかかるモデル選択と基底関数の形式とその時間的スパンの微調整が必要となる。
本稿では,ガウス過程フレームワークを用いてフィルタとハイパーパラメータを共同で推定する非パラメトリック手法を提案する。
連続時間ラグで任意のフィルタを特徴付けるのに十分な柔軟性と豊かさを保ちながら,スパース変分近似の利点を生かし,計算的に効率的である。
さらに,フィルタの時間的スパンを自動的に学習する。
神経科学の特定の応用として、スパイク列車に有用な刺激や履歴フィルタの事前設計を行った。
シミュレーションデータと実際のスパイクトレインデータの比較検証を行った。 A fundamental problem in statistical neuroscience is to model how neurons encode information by analyzing electrophysiological recordings. A popular and widely-used approach is to fit the spike trains with an autoregressive point process model. These models are characterized by a set of convolutional temporal filters, whose subsequent analysis can help reveal how neurons encode stimuli, interact with each other, and process information. In practice a sufficiently rich but small ensemble of temporal basis functions needs to be chosen to parameterize the filters. However, obtaining a satisfactory fit often requires burdensome model selection and fine tuning the form of the basis functions and their temporal span. In this paper we propose a nonparametric approach for jointly inferring the filters and hyperparameters using the Gaussian process framework. Our method is computationally efficient taking advantage of the sparse variational approximation while being flexible and rich enough to characterize arbitrary filters in continuous time lag. Moreover, our method automatically learns the temporal span of the filter. For the particular application in neuroscience, we designed priors for stimulus and history filters useful for the spike trains. We compare and validate our method on simulated and real neural spike train data. | 翻訳日:2022-10-22 18:44:22 公開日:2020-09-02 |
# しかし、メタ学習は素早く適応でき、簡単に破ることができる Yet Meta Learning Can Adapt Fast, It Can Also Break Easily ( http://arxiv.org/abs/2009.01672v1 ) ライセンス: Link先を確認 | Han Xu, Yaxin Li, Xiaorui Liu, Hui Liu, Jiliang Tang | (参考訳) メタ学習アルゴリズムは、画像の少ない分類や高速強化学習など、効率的な学習のための多くのタスクに広く応用されている。
メタトレーニングの間、メタ学習者は様々な学習タスクから共通の学習戦略または経験を開発する。
そのため、メタテストでは、メタ学習者は学習した戦略を用いて新しいタスクに迅速に適応することができる。
しかし、信頼性と堅牢性という点では、メタ学習には暗い面がある。
特に、メタ学習は敵対的攻撃に弱いか?
言い換えれば、よく訓練されたメタ学習者は、学習した経験を使って間違った、あるいはおそらく役に立たない知識を構築するだろうか?
この問題の理解がなければ、メタ学習を安全クリティカルなアプリケーションに適用することは極めて危険である。
そこで本研究では,メタラーニングに対する敵対的攻撃について,数発の分類問題の下で最初の研究を行った。
特に,メタ学習に特有の敵攻撃の重要要素を正式に定義し,様々な条件下でのメタ学習に対する最初の攻撃アルゴリズムを提案する。
提案手法の有効性と,いくつかの代表的なメタ学習アルゴリズムの堅牢性を評価する。
実験の結果,提案手法は容易にメタ学習者を破ることができ,メタ学習は敵の攻撃に弱いことが示された。
本論文の受理により,提案するフレームワークの実装が公表される。 Meta learning algorithms have been widely applied in many tasks for efficient learning, such as few-shot image classification and fast reinforcement learning. During meta training, the meta learner develops a common learning strategy, or experience, from a variety of learning tasks. Therefore, during meta test, the meta learner can use the learned strategy to quickly adapt to new tasks even with a few training samples. However, there is still a dark side about meta learning in terms of reliability and robustness. In particular, is meta learning vulnerable to adversarial attacks? In other words, would a well-trained meta learner utilize its learned experience to build wrong or likely useless knowledge, if an adversary unnoticeably manipulates the given training set? Without the understanding of this problem, it is extremely risky to apply meta learning in safety-critical applications. Thus, in this paper, we perform the initial study about adversarial attacks on meta learning under the few-shot classification problem. In particular, we formally define key elements of adversarial attacks unique to meta learning and propose the first attacking algorithm against meta learning under various settings. We evaluate the effectiveness of the proposed attacking strategy as well as the robustness of several representative meta learning algorithms. Experimental results demonstrate that the proposed attacking strategy can easily break the meta learner and meta learning is vulnerable to adversarial attacks. The implementation of the proposed framework will be released upon the acceptance of this paper. | 翻訳日:2022-10-22 18:43:47 公開日:2020-09-02 |
# 球高調波を用いたロバスト物体分類手法 Robust Object Classification Approach using Spherical Harmonics ( http://arxiv.org/abs/2009.01369v1 ) ライセンス: Link先を確認 | Ayman Mukhaimar, Ruwan Tennakoon, Chow Yin Lai, Reza Hoseinnezhad, Alireza Bab-Hadiashar | (参考訳) 本稿では,点雲に基づく物体の分類に頑健な球面調和法を提案する。
球面調和は長年にわたって分類に用いられ、文献にいくつかの枠組みが存在する。
これらのアプローチでは、さまざまな球面調和に基づく記述子を使ってオブジェクトを分類する。
我々はまず,これまでに研究されていない異常値やノイズなどのデータ拡張に対するロバスト性について検討した。
次に,ロバストオブジェクト分類のための球面畳み込みニューラルネットワークフレームワークを提案する。
提案フレームワークは,同心球のボクセル格子を用いて単位球上の特徴を学習する。
提案モデルでは,選択したサンプリング戦略と畳み込み操作により,データ拡張に対する感度が低下する特徴を学習する。
提案モデルでは,ノイズや異常値など,複数の種類のデータ拡張に対してテストを行った。
その結果,提案手法は,データ拡張に対するロバスト性の観点から,アートネットワークの状況よりも優れていた。 In this paper, we present a robust spherical harmonics approach for the classification of point cloud-based objects. Spherical harmonics have been used for classification over the years, with several frameworks existing in the literature. These approaches use variety of spherical harmonics based descriptors to classify objects. We first investigated these frameworks robustness against data augmentation, such as outliers and noise, as it has not been studied before. Then we propose a spherical convolution neural network framework for robust object classification. The proposed framework uses the voxel grid of concentric spheres to learn features over the unit ball. Our proposed model learn features that are less sensitive to data augmentation due to the selected sampling strategy and the designed convolution operation. We tested our proposed model against several types of data augmentation, such as noise and outliers. Our results show that the proposed model outperforms the state of art networks in terms of robustness to data augmentation. | 翻訳日:2022-10-22 18:43:10 公開日:2020-09-02 |
# 2重精度ディープニューラルネットワーク Dual Precision Deep Neural Network ( http://arxiv.org/abs/2009.02191v1 ) ライセンス: Link先を確認 | Jae Hyun Park, Ji Sub Choi, Jong Hwan Ko | (参考訳) ディープニューラルネットワーク(DNN)のオンライン精度スケーラビリティは、DNN推論における正確性と複雑性のトレードオフをサポートする重要な機能である。
本論文では,1つのモデルに2つの異なる精度モードを含む二重精度DNNを提案する。
提案する二相訓練は低精度モードと高精度モードの両方を最適化する。 On-line Precision scalability of the deep neural networks(DNNs) is a critical feature to support accuracy and complexity trade-off during the DNN inference. In this paper, we propose dual-precision DNN that includes two different precision modes in a single model, thereby supporting an on-line precision switch without re-training. The proposed two-phase training process optimizes both low- and high-precision modes. | 翻訳日:2022-10-22 18:42:52 公開日:2020-09-02 |
# webアーカイブからのコレクションのスコープ内文書の識別 Identifying Documents In-Scope of a Collection from Web Archives ( http://arxiv.org/abs/2009.00611v1 ) ライセンス: Link先を確認 | Krutarth Patel, Cornelia Caragea, Mark Phillips, Nathaniel Fox | (参考訳) Webアーカイブデータは通常、科学的デジタルライブラリや技術レポートのリポジトリなど、特別なドキュメントのコレクションを作成するのに非常に有用な高品質なドキュメントを含んでいる。
これにより、Webアーカイブ機関が収集した膨大な数の文書のうち、コレクションの興味ある文書を識別する自動的なアプローチがかなり必要となる。
本稿では,Webアーカイブデータから興味ある文書を識別する上で,最も優れた学習モデルと特徴表現について検討する。
具体的には、機械学習モデルとディープラーニングモデルの両方と、文書全体または文書の特定の部分から抽出された「単語の袋」(bow)特徴と、文書の構造をキャプチャする構造特徴について研究する。
評価は3つの異なるWebアーカイブから作成した3つのデータセットに焦点を当てる。
実験の結果,文書の特定の部分のみに焦点をあてたBoW分類器は,全3つのデータセットで比較した手法よりも優れていた。 Web archive data usually contains high-quality documents that are very useful for creating specialized collections of documents, e.g., scientific digital libraries and repositories of technical reports. In doing so, there is a substantial need for automatic approaches that can distinguish the documents of interest for a collection out of the huge number of documents collected by web archiving institutions. In this paper, we explore different learning models and feature representations to determine the best performing ones for identifying the documents of interest from the web archived data. Specifically, we study both machine learning and deep learning models and "bag of words" (BoW) features extracted from the entire document or from specific portions of the document, as well as structural features that capture the structure of documents. We focus our evaluation on three datasets that we created from three different Web archives. Our experimental results show that the BoW classifiers that focus only on specific portions of the documents (rather than the full text) outperform all compared methods on all three datasets. | 翻訳日:2022-10-22 18:42:45 公開日:2020-09-02 |
# Sentinel-1画像時系列の次フレーム予測へのLSTMアーキテクチャの適用 Application of LSTM architectures for next frame forecasting in Sentinel-1 images time series ( http://arxiv.org/abs/2009.00841v1 ) ライセンス: Link先を確認 | Waytehad Moskola\"i, Wahabou Abdou (Le2i), Albert Dipanda (Le2i), Dina Taiwe Kolyang (UMa) | (参考訳) l'analyse pr{\'e}dictive permet d'estimer les tendances des {\'e}v{\`e}nements futurs (英語)
De nos jours, les algorithmes Deep Learning permettent de Faire de bonnes pr{\'e}dictions。
cependant, pour chaque type de probl{\}e}me donn{\'e}, il est n{\'e}cessaire de choisir l'architecture optimale。
Dans cet article, les mod{\`e}les Stack-LSTM, CNN-LSTM et ConvLSTM sont appliqu{\'e}s {\`a} une s{\'e}rie temporelle d'images radar sentinel-1, le but {\'e}tant de pr{\'e}dire la prochaine occurrence dans une s{\'e}quence。
Les r{\'e}sultats exp{\'e}rimentaux {\'e}valu{\'e}s {\`a} l'aide des indicateurs de performance tels que le RMSE et le MAE, le temps de traitement et l'index de similarit{\'e} SSIM, montrent que chacune des trois architectures peut produire de bons r{\'e}sultats en fonction des param{\`e}tres utilis{\'e}s。 L'analyse pr{\'e}dictive permet d'estimer les tendances des {\'e}v{\`e}nements futurs. De nos jours, les algorithmes Deep Learning permettent de faire de bonnes pr{\'e}dictions. Cependant, pour chaque type de probl{\`e}me donn{\'e}, il est n{\'e}cessaire de choisir l'architecture optimale. Dans cet article, les mod{\`e}les Stack-LSTM, CNN-LSTM et ConvLSTM sont appliqu{\'e}s {\`a} une s{\'e}rie temporelle d'images radar sentinel-1, le but {\'e}tant de pr{\'e}dire la prochaine occurrence dans une s{\'e}quence. Les r{\'e}sultats exp{\'e}rimentaux {\'e}valu{\'e}s {\`a} l'aide des indicateurs de performance tels que le RMSE et le MAE, le temps de traitement et l'index de similarit{\'e} SSIM, montrent que chacune des trois architectures peut produire de bons r{\'e}sultats en fonction des param{\`e}tres utilis{\'e}s. | 翻訳日:2022-10-22 18:38:34 公開日:2020-09-02 |
# ASTRAL: 名前付きエンティティ認識のための逆学習LSTM-CNN ASTRAL: Adversarial Trained LSTM-CNN for Named Entity Recognition ( http://arxiv.org/abs/2009.01041v1 ) ライセンス: Link先を確認 | Jiuniu Wang, Wenjia Xu, Xingyu Fu, Guangluan Xu, Yirong Wu | (参考訳) 名前付きエンティティ認識(NER)は、ニュース、記事、ソーシャルコメントなどを含む構造化されていないテキストデータから名前付きエンティティを抽出する難しいタスクである。
NERシステムは何十年にもわたって研究されてきた。
近年,Deep Neural Networks の発展と事前学習語埋め込みの進展が NER の原動力となっている。
このような状況下では、単語埋め込みによって抽出された情報をフル活用するには、より詳細な研究が必要である。
本稿では,モデル構造とトレーニングプロセスの両方から,現在のNER法を改善するための適応型LSTM-CNN(ASTRAL)システムを提案する。
隣接語間の空間情報を利用するために、隣接語の情報を融合するためにGated-CNNを導入する。
また,NERにおけるオーバーフィッティング問題に対処するために,特定の適応学習手法を提案する。
トレーニングプロセス中にネットワーク内の変数に摂動を追加し、変数をより多様化させ、モデルの一般化と堅牢性を改善します。
本モデルは,CoNLL-03,OntoNotes 5.0,WNUT-17の3つのベンチマークで評価し,最先端の結果を得た。
アブレーション研究とケーススタディは、システムがより速く収束し、過剰に収まる可能性が低いことを示している。 Named Entity Recognition (NER) is a challenging task that extracts named entities from unstructured text data, including news, articles, social comments, etc. The NER system has been studied for decades. Recently, the development of Deep Neural Networks and the progress of pre-trained word embedding have become a driving force for NER. Under such circumstances, how to make full use of the information extracted by word embedding requires more in-depth research. In this paper, we propose an Adversarial Trained LSTM-CNN (ASTRAL) system to improve the current NER method from both the model structure and the training process. In order to make use of the spatial information between adjacent words, Gated-CNN is introduced to fuse the information of adjacent words. Besides, a specific Adversarial training method is proposed to deal with the overfitting problem in NER. We add perturbation to variables in the network during the training process, making the variables more diverse, improving the generalization and robustness of the model. Our model is evaluated on three benchmarks, CoNLL-03, OntoNotes 5.0, and WNUT-17, achieving state-of-the-art results. Ablation study and case study also show that our system can converge faster and is less prone to overfitting. | 翻訳日:2022-10-22 18:36:21 公開日:2020-09-02 |
# SRQA:Factoid Question Answeringのための合成リーダー SRQA: Synthetic Reader for Factoid Question Answering ( http://arxiv.org/abs/2009.01630v1 ) ライセンス: Link先を確認 | Jiuniu Wang, Wenjia Xu, Xingyu Fu, Yang Wei, Li Jin, Ziyan Chen, Guangluan Xu, Yirong Wu | (参考訳) この質問応答システムは、ディープニューラルネットワークで様々な分野や形態からの質問に答えることができるが、複数の証拠に直面する際には効果的な方法がない。
我々はSRQAと呼ばれる新しいモデルを導入し、これはFactoid Question AnsweringのためのSynthetic Readerを意味する。
このモデルは,多層アテンション (MA), クロスエビデンス (CE), 対人訓練 (AT) に対応するモデル構造, 最適化目標, トレーニング手法の3つの側面から, マルチドキュメントシナリオにおける質問応答システムを強化する。
まず,エビデンスをよりよく表現するために,多層アテンションネットワークを提案する。
多層注意機構は、質問と各層内の通過との間の相互作用を行い、各層における証拠のトークン表現が質問の要件を考慮に入れている。
第2に,より多くのエビデンス内で回答スパンを選択するためのクロスエビデンス戦略を設計する。
複数のエビデンス内のすべての回答の位置をトレーニングターゲットとして考慮し、最適化目標を改善することにより、モデルが複数のエビデンスの中で理屈にかなった。
第3に、我々のモデルに埋め込まれた単語以外の高次変数に対して、逆行訓練が用いられる。
また,複数の対象変数に摂動を併用できるように,逆摂動に対する新しい正規化法も提案されている。
効果的な正規化方法として、逆訓練はモデルのノイズデータを処理する能力を高める。
これら3つの戦略を組み合わせることで,複数のエビデンスから回答スパンを合成的に抽出できるモデルの文脈表現と探索能力を高める。
我々は、WebQAデータセット上でSRQAを実行し、我々のモデルが最先端モデルより優れていることを示す実験を行った(我々のモデルで最高のファジィスコアは78.56%、約2%)。 The question answering system can answer questions from various fields and forms with deep neural networks, but it still lacks effective ways when facing multiple evidences. We introduce a new model called SRQA, which means Synthetic Reader for Factoid Question Answering. This model enhances the question answering system in the multi-document scenario from three aspects: model structure, optimization goal, and training method, corresponding to Multilayer Attention (MA), Cross Evidence (CE), and Adversarial Training (AT) respectively. First, we propose a multilayer attention network to obtain a better representation of the evidences. The multilayer attention mechanism conducts interaction between the question and the passage within each layer, making the token representation of evidences in each layer takes the requirement of the question into account. Second, we design a cross evidence strategy to choose the answer span within more evidences. We improve the optimization goal, considering all the answers' locations in multiple evidences as training targets, which leads the model to reason among multiple evidences. Third, adversarial training is employed to high-level variables besides the word embedding in our model. A new normalization method is also proposed for adversarial perturbations so that we can jointly add perturbations to several target variables. As an effective regularization method, adversarial training enhances the model's ability to process noisy data. Combining these three strategies, we enhance the contextual representation and locating ability of our model, which could synthetically extract the answer span from several evidences. We perform SRQA on the WebQA dataset, and experiments show that our model outperforms the state-of-the-art models (the best fuzzy score of our model is up to 78.56%, with an improvement of about 2%). | 翻訳日:2022-10-22 18:35:59 公開日:2020-09-02 |
# オープンセット敵防衛 Open-set Adversarial Defense ( http://arxiv.org/abs/2009.00814v1 ) ライセンス: Link先を確認 | Rui Shao and Pramuditha Perera and Pong C. Yuen and Vishal M. Patel | (参考訳) open-set recognitionとadversarial defenseは、現実世界の展開に不可欠なディープラーニングの2つの重要な側面を研究する。
オープンセット認識の目的は、テスト中にオープンセットクラスからサンプルを識別することであり、一方、敵対的防御は、知覚できない敵対的摂動の画像からネットワークを守ることを目的としている。
本稿では,オープンセット認識システムは敵攻撃に対して脆弱であることを示す。
さらに、既知のクラスで訓練された敵防御機構は、オープンセットのサンプルにうまく一般化しないことを示した。
本研究の目的は,OSAD(Open-Set Adversarial Defense)機構の必要性である。
本稿ではOSAD問題の解法としてオープンセット防衛ネットワーク(OSDN)を提案する。
提案ネットワークは,雑音のない潜在特徴表現を学習するために,特徴層と分類器を結合したエンコーダを用いている。
オープンセット性能の向上を目的とした2つの手法を用いて情報伝達潜在特徴空間を得る。
第一に、得られた潜在特徴からクリーンな画像が再構成できることを保証するためにデコーダを用いる。
次に、補助的なタスクを実行するのに十分な情報を提供するために、自己スーパービジョンが使用される。
我々はOSADの性能を評価するためのテストプロトコルを導入し、複数のオブジェクト分類データセットにおいて提案手法の有効性を示す。
提案手法の実装コードは、https://github.com/rshaojimmy/ECCV2020-OSADで公開されている。 Open-set recognition and adversarial defense study two key aspects of deep learning that are vital for real-world deployment. The objective of open-set recognition is to identify samples from open-set classes during testing, while adversarial defense aims to defend the network against images with imperceptible adversarial perturbations. In this paper, we show that open-set recognition systems are vulnerable to adversarial attacks. Furthermore, we show that adversarial defense mechanisms trained on known classes do not generalize well to open-set samples. Motivated by this observation, we emphasize the need of an Open-Set Adversarial Defense (OSAD) mechanism. This paper proposes an Open-Set Defense Network (OSDN) as a solution to the OSAD problem. The proposed network uses an encoder with feature-denoising layers coupled with a classifier to learn a noise-free latent feature representation. Two techniques are employed to obtain an informative latent feature space with the objective of improving open-set performance. First, a decoder is used to ensure that clean images can be reconstructed from the obtained latent features. Then, self-supervision is used to ensure that the latent features are informative enough to carry out an auxiliary task. We introduce a testing protocol to evaluate OSAD performance and show the effectiveness of the proposed method in multiple object classification datasets. The implementation code of the proposed method is available at: https://github.com/rshaojimmy/ECCV2020-OSAD. | 翻訳日:2022-10-22 18:35:27 公開日:2020-09-02 |
# alex: アクティブラーニングによるモデルの説明可能性の向上 ALEX: Active Learning based Enhancement of a Model's Explainability ( http://arxiv.org/abs/2009.00859v1 ) ライセンス: Link先を確認 | Ishani Mondal and Debasis Ganguly | (参考訳) アクティブラーニング(AL)アルゴリズムは、最小限のラベル付き例をブートストラップ方式で効率的な分類器を構築しようとする。
分類モデルが最も自信の薄い予測をもたらすアノテーションのためのこれらの点を選択するといった標準的なalヒューリスティックスは、これらのヒューリスティックがより人間に解釈可能なモデルに繋がるかどうかを確かめる実験的な調査は行われていない。
データ駆動学習の時代において、これは追求すべき重要な研究方向である。
本稿では,モデルの有効性に加えて,ブートストラップ段階におけるモデルの解釈可能性の向上も目指すAL選択関数の開発に向けた取り組みについて述べる。
具体的には、提案する選択関数は、分類器モデルに加えて「説明者」モデルを訓練し、予測されたクラスを説明するために、平均してデータの異なる部分が使用される事例を好んでいる。
最初の実験では、そのようなヒューリスティックな傾向が、より効果的で説明可能なエンドツーエンドのデータ駆動分類器の開発につながることを示した。 An active learning (AL) algorithm seeks to construct an effective classifier with a minimal number of labeled examples in a bootstrapping manner. While standard AL heuristics, such as selecting those points for annotation for which a classification model yields least confident predictions, there has been no empirical investigation to see if these heuristics lead to models that are more interpretable to humans. In the era of data-driven learning, this is an important research direction to pursue. This paper describes our work-in-progress towards developing an AL selection function that in addition to model effectiveness also seeks to improve on the interpretability of a model during the bootstrapping steps. Concretely speaking, our proposed selection function trains an `explainer' model in addition to the classifier model, and favours those instances where a different part of the data is used, on an average, to explain the predicted class. Initial experiments exhibited encouraging trends in showing that such a heuristic can lead to developing more effective and more explainable end-to-end data-driven classifiers. | 翻訳日:2022-10-22 18:35:06 公開日:2020-09-02 |
# 弱アノテーションを用いたビデオキャプション Video Captioning Using Weak Annotation ( http://arxiv.org/abs/2009.01067v1 ) ライセンス: Link先を確認 | Jingyi Hou, Yunde Jia, Xinxiao wu, Yayun Qi | (参考訳) ビデオキャプションは近年顕著な進歩を見せている。
既存の手法によるパフォーマンス改善の鍵となる理由は、大量のペア化されたビデオ文データにあるが、そのような強力なアノテーション、すなわち高品質な文の収集は、時間と労力を要する。
アクションやオブジェクトといった意味的な概念のみを含む、弱い注釈を持つビデオが、今や驚くほど存在するという事実です。
本稿では,ビデオキャプションモデルの訓練に強いアノテーションの代わりに弱いアノテーションを用いることを検討する。
そこで本研究では,より意味的な概念と映像キャプションに対する依存性を推論することにより,弱いアノテーションから細かな文を段階的に生成するプログレッシブビジュアル推論手法を提案する。
概念関係をモデル化するために,大文コーパスから外部知識を活用できる依存関係木を用いる。
依存関係ツリーをトラバースすることで文を生成し、キャプションモデルをトレーニングする。
そこで本研究では,文を分割依存木を用いて洗練する反復的精錬アルゴリズムを開発し,その代替的な訓練手法を用いてキャプションモデルを微調整する。
実験により, 弱いアノテーションを用いた手法は, 強いアノテーションを用いた最先端手法と非常に競合することを示した。 Video captioning has shown impressive progress in recent years. One key reason of the performance improvements made by existing methods lie in massive paired video-sentence data, but collecting such strong annotation, i.e., high-quality sentences, is time-consuming and laborious. It is the fact that there now exist an amazing number of videos with weak annotation that only contains semantic concepts such as actions and objects. In this paper, we investigate using weak annotation instead of strong annotation to train a video captioning model. To this end, we propose a progressive visual reasoning method that progressively generates fine sentences from weak annotations by inferring more semantic concepts and their dependency relationships for video captioning. To model concept relationships, we use dependency trees that are spanned by exploiting external knowledge from large sentence corpora. Through traversing the dependency trees, the sentences are generated to train the captioning model. Accordingly, we develop an iterative refinement algorithm that refines sentences via spanning dependency trees and fine-tunes the captioning model using the refined sentences in an alternative training manner. Experimental results demonstrate that our method using weak annotation is very competitive to the state-of-the-art methods using strong annotation. | 翻訳日:2022-10-22 18:34:24 公開日:2020-09-02 |
# f-ダイバージェンスの性質とf-GANトレーニング Properties of f-divergences and f-GAN training ( http://arxiv.org/abs/2009.00757v1 ) ライセンス: Link先を確認 | Matt Shannon | (参考訳) 本稿では,f-分枝とf-GAN訓練の特性について述べる。
本稿では,f-GANトレーニングの基礎となるf-divergence下界の基本的な導出について述べる。
我々は,f-divergences と f-gan のトレーニングにおいて,すべての f-divergences が近傍分布のばらつきに関する全体的なスケールファクターに一致することを含む,情報的だが過小評価される性質を導出する。
様々な共通 f-次元とその変分下界を計算するための詳細な表現を提供する。
最後に、我々の改革に基づき、安定性を向上させるためにf-GANトレーニングを少し一般化する。 In this technical report we describe some properties of f-divergences and f-GAN training. We present an elementary derivation of the f-divergence lower bounds which form the basis of f-GAN training. We derive informative but perhaps underappreciated properties of f-divergences and f-GAN training, including a gradient matching property and the fact that all f-divergences agree up to an overall scale factor on the divergence between nearby distributions. We provide detailed expressions for computing various common f-divergences and their variational lower bounds. Finally, based on our reformulation, we slightly generalize f-GAN training in a way that may improve its stability. | 翻訳日:2022-10-22 18:33:49 公開日:2020-09-02 |
# グラフ畳み込みネットワークのための相互指導 Mutual Teaching for Graph Convolutional Networks ( http://arxiv.org/abs/2009.00952v1 ) ライセンス: Link先を確認 | Kun Zhan, Chaoxi Niu | (参考訳) グラフ畳み込みネットワークは、そのトランスダクティブラベル伝播により、ラベルなしサンプルの良好な予測を生成する。
サンプルは予測された信頼度が異なるため、高信頼予測を擬似ラベルとして用いてラベルセットを拡張し、モデル更新のためにより多くのサンプルを選択する。
そこで本研究では,相互教育(相互教育)と呼ばれる新たなトレーニング手法を提案する。
まず、各ネットワークがすべてのサンプルを転送し、高い信頼度でサンプルを選択する。
第二に、各モデルはピアネットワークによって選択されたサンプルによって更新される。
信頼性の高い予測を有用な知識とみなし、あるネットワークの有用な知識は、各バッチでモデルを更新してピアネットワークを教える。
相互教育において、ネットワークの擬似ラベル集合はそのピアネットワークからのものである。
ネットワークトレーニングの新たな戦略を用いることで,性能が大幅に向上する。
実験結果から,本手法はラベルレートが極めて低い状態での最先端手法よりも優れた性能を示すことが示された。 Graph convolutional networks produce good predictions of unlabeled samples due to its transductive label propagation. Since samples have different predicted confidences, we take high-confidence predictions as pseudo labels to expand the label set so that more samples are selected for updating models. We propose a new training method named as mutual teaching, i.e., we train dual models and let them teach each other during each batch. First, each network feeds forward all samples and selects samples with high-confidence predictions. Second, each model is updated by samples selected by its peer network. We view the high-confidence predictions as useful knowledge, and the useful knowledge of one network teaches the peer network with model updating in each batch. In mutual teaching, the pseudo-label set of a network is from its peer network. Since we use the new strategy of network training, performance improves significantly. Extensive experimental results demonstrate that our method achieves superior performance over state-of-the-art methods under very low label rates. | 翻訳日:2022-10-22 18:27:04 公開日:2020-09-02 |
# 非負の行列近似のためのタンジェント空間に基づく代替射影 Tangent Space Based Alternating Projections for Nonnegative Low Rank Matrix Approximation ( http://arxiv.org/abs/2009.03998v1 ) ライセンス: Link先を確認 | Guangjing Song, Michael K. Ng, Tai-Xiang Jiang | (参考訳) 本稿では,非負行列に対する非負低階行列近似を計算するための交互射影法を開発した。
非負の低階行列近似法では、特異値分解が必要なため、固定階行列の多様体への射影は高価である。
本稿では,多様体上の点の接空間を用いて多様体への射影を近似し,計算コストを削減することを提案する。
固定階数行列多様体と非負行列多様体の接空間への交互射影によって生成される列は、収束点が最適解に十分近い2つの多様体の交叉の点に線型に収束することを示す。
この可逆射影に基づく収束結果は新規であり、文献では研究されていない。
データクラスタリング、パターン認識、ハイパースペクトルデータ解析における数値的な例は、計算時間と精度の観点から、提案手法の性能が非負行列分解法よりも優れていることを示すものである。 In this paper, we develop a new alternating projection method to compute nonnegative low rank matrix approximation for nonnegative matrices. In the nonnegative low rank matrix approximation method, the projection onto the manifold of fixed rank matrices can be expensive as the singular value decomposition is required. We propose to use the tangent space of the point in the manifold to approximate the projection onto the manifold in order to reduce the computational cost. We show that the sequence generated by the alternating projections onto the tangent spaces of the fixed rank matrices manifold and the nonnegative matrix manifold, converge linearly to a point in the intersection of the two manifolds where the convergent point is sufficiently close to optimal solutions. This convergence result based inexact projection onto the manifold is new and is not studied in the literature. Numerical examples in data clustering, pattern recognition and hyperspectral data analysis are given to demonstrate that the performance of the proposed method is better than that of nonnegative matrix factorization methods in terms of computational time and accuracy. | 翻訳日:2022-10-22 18:26:31 公開日:2020-09-02 |
# 高速kセグメンテーションのための新しいヒューリスティックアルゴリズム A new heuristic algorithm for fast k-segmentation ( http://arxiv.org/abs/2009.05148v1 ) ライセンス: Link先を確認 | Sabarish Vadarevu and Vijay Karamcheti | (参考訳) ビデオストリームの$k$-セグメンテーションは、各線形セグメントが意味のある解釈を持つように、$k$の区分線形セグメントに分割するために使用される。
このようなセグメンテーションは、小さなイメージセットを使用して大きなビデオを要約し、セグメント内の異常を識別し、セグメント間の変化点を識別し、機械学習モデルをトレーニングするための重要なサブセットを選択するために使用することができる。
文献には$k$-segmentationの厳密で近似的なセグメンテーション法が存在する。
これらのアルゴリズムはそれぞれ、計算複雑性と精度のトレードオフにおいて異なる位置を占めている。
本稿では,既存の手法を改善するため,新しいヒューリスティックアルゴリズムを提案する。
計算コストのごく一部で正確な手法と競合するアキュラシーを提供することを実証的に見出した。
新しいアルゴリズムは、K平均のロイドアルゴリズムとスカラー量子化のためのロイドマックスアルゴリズムにインスパイアされ、利便性のためにLMアルゴリズムと呼ばれる。
この手法は,任意の初期化からコスト関数を反復的に最小化することで機能する。
欲望の最小化はアルゴリズムを初期化に敏感にするが、任意の初期推測から局所最適に収束する能力により、アルゴリズムを他の既存のアルゴリズムに統合することができる。
アルゴリズムの3つの変種は、多数の合成データセット上でテストされ、1つはスタンドアロンのlm実装、2つは既存のアルゴリズムと組み合わせられる。
LM強化ボットアップセグメンテーション(LM-enhanced-Bottom-Up segmentation)と呼ばれる後者の2つのうちの1つは、全てのアルゴリズムの中で最高の精度と最小の計算複雑性を持つ。
このlmの変種は、数秒で最大100万のイメージフレームを持つデータセットに対して、k$-segmentationを提供することができる。 The $k$-segmentation of a video stream is used to partition it into $k$ piecewise-linear segments, so that each linear segment has a meaningful interpretation. Such segmentation may be used to summarize large videos using a small set of images, to identify anomalies within segments and change points between segments, and to select critical subsets for training machine learning models. Exact and approximate segmentation methods for $k$-segmentation exist in the literature. Each of these algorithms occupies a different spot in the trade-off between computational complexity and accuracy. A novel heuristic algorithm is proposed in this paper to improve upon existing methods. It is empirically found to provide accuracies competitive with exact methods at a fraction of the computational expense. The new algorithm is inspired by Lloyd's algorithm for K-Means and Lloyd-Max algorithm for scalar quantization, and is called the LM algorithm for convenience. It works by iteratively minimizing a cost function from any given initialisation; the commonly used $L_2$ cost is chosen in this paper. While the greedy minimization makes the algorithm sensitive to initialisation, the ability to converge from any initial guess to a local optimum allows the algorithm to be integrated into other existing algorithms. Three variants of the algorithm are tested over a large number of synthetic datasets, one being a standalone LM implementation, and two others that combine with existing algorithms. One of the latter two -- LM-enhanced-Bottom-Up segmentation -- is found to have the best accuracy and the lowest computational complexity among all algorithms. This variant of LM can provide $k$-segmentations over data sets with up to a million image frames within several seconds. | 翻訳日:2022-10-22 18:26:17 公開日:2020-09-02 |
# オープンドメイン質問応答パイプラインの再検討 Revisiting the Open-Domain Question Answering Pipeline ( http://arxiv.org/abs/2009.00914v1 ) ライセンス: Link先を確認 | Sina J. Semnani, Manish Pandey | (参考訳) オープンドメイン質問応答(英: Open Domain Question answering, QA)とは、大量の文書から自然の質問に対する回答を識別する手法である。
典型的なオープンドメインQAシステムは、コーパスから文書のサブセットを選択する情報検索から始まり、マシンリーダーによって処理され、回答スパンを選択する。
本稿では、従来のBM25ベースの情報レトリバー、RM3ベースの神経関連フィードバック、ニューラルローダ、機械読解のステージを利用する新しいマルチステージパイプラインからなるオープンドメインQAシステムであるMindstoneについて述べる。
本稿では,Wikipedia/SQuADデータセット(EM=58.1, F1=65.8)に対する質問応答におけるエンドツーエンドのパフォーマンスの新たなベースラインを確立する。
また,新しいパイプラインによって低解像度ラベルの使用が可能となり,様々なタイミング要件を満たすように容易に調整できることを示す。 Open-domain question answering (QA) is the tasl of identifying answers to natural questions from a large corpus of documents. The typical open-domain QA system starts with information retrieval to select a subset of documents from the corpus, which are then processed by a machine reader to select the answer spans. This paper describes Mindstone, an open-domain QA system that consists of a new multi-stage pipeline that employs a traditional BM25-based information retriever, RM3-based neural relevance feedback, neural ranker, and a machine reading comprehension stage. This paper establishes a new baseline for end-to-end performance on question answering for Wikipedia/SQuAD dataset (EM=58.1, F1=65.8), with substantial gains over the previous state of the art (Yang et al., 2019b). We also show how the new pipeline enables the use of low-resolution labels, and can be easily tuned to meet various timing requirements. | 翻訳日:2022-10-22 18:24:56 公開日:2020-09-02 |
# aiの脆さを推定する:安全性レベルと分散性能テストの必要性 Estimating the Brittleness of AI: Safety Integrity Levels and the Need for Testing Out-Of-Distribution Performance ( http://arxiv.org/abs/2009.00802v1 ) ライセンス: Link先を確認 | Andrew J. Lohn | (参考訳) 人工知能(AI)のテスト、評価、検証、検証(TEVV)は、AI研究者が生産に費やした経済的および社会的報酬を制限することを脅かす課題である。
AIのためのTEVVの中心的なタスクは、脆さを推定することであり、脆さはシステムがいくつかの境界の範囲内でうまく機能し、それらの境界の範囲外であることを意味する。
本稿では、これらの基準はいずれもDeep Neural Networksの一部ではないと論じる。
第一に、高度に有望なAI成功(画像分類や音声認識など)は、設計境界の範囲内でも一般的に認定される重要なシステムよりも、桁違いに失敗する傾向にある。
第2に、入力がさらにアウトオブディストリビューション(ood)になると、パフォーマンスは徐々に低下する。
TEVVと認証の困難なハードルをクリアするためには、障害が発生しやすいAIコンポーネントにもかかわらずレジリエントなシステムの設計と、OODのパフォーマンスの評価と改善に重点を置く必要がある。 Test, Evaluation, Verification, and Validation (TEVV) for Artificial Intelligence (AI) is a challenge that threatens to limit the economic and societal rewards that AI researchers have devoted themselves to producing. A central task of TEVV for AI is estimating brittleness, where brittleness implies that the system functions well within some bounds and poorly outside of those bounds. This paper argues that neither of those criteria are certain of Deep Neural Networks. First, highly touted AI successes (eg. image classification and speech recognition) are orders of magnitude more failure-prone than are typically certified in critical systems even within design bounds (perfectly in-distribution sampling). Second, performance falls off only gradually as inputs become further Out-Of-Distribution (OOD). Enhanced emphasis is needed on designing systems that are resilient despite failure-prone AI components as well as on evaluating and improving OOD performance in order to get AI to where it can clear the challenging hurdles of TEVV and certification. | 翻訳日:2022-10-22 18:18:37 公開日:2020-09-02 |
# LAVARNET:多変量時系列予測のための因果関係のニューラルネットワークモデリング LAVARNET: Neural Network Modeling of Causal Variable Relationships for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2009.00945v1 ) ライセンス: Link先を確認 | Christos Koutlis, Symeon Papadopoulos, Manos Schinas, Ioannis Kompatsiaris | (参考訳) 多変量時系列予測は多くの科学分野や産業分野において非常に重要である。
多変量時系列の進化は、その変数の力学とそれらの間の因果関係の接続ネットワークに依存する。
既存の時系列モデルのほとんどは、システムの変数の因果効果を考慮せず、たとえそうであっても、変数間因果関係ネットワークの決定のみに依存する。
このような複雑なネットワークの構造を知り、さらに具体的には、基礎となるプロセスに寄与する正確なラグ変数を知ることは、多変量時系列予測のタスクに不可欠である。
後者は、活用すべき比較的未調査の情報源である。
この方向では,遅延変数の重要性を本質的に推定し,それらの高次元の潜在表現を組み合わせて時系列の将来の値を予測する,新しいニューラルネットワークベースのアーキテクチャであるlagged variable representation network(lavarnet)が提案されている。
このモデルは,1つのシミュレーションデータセットと,気象学,音楽,太陽活動,金融分野の4つの実データを用いた,アートニューラルネットワークアーキテクチャの他のベースラインと状態と比較する。
提案されたアーキテクチャは、ほとんどの実験で競合アーキテクチャよりも優れている。 Multivariate time series forecasting is of great importance to many scientific disciplines and industrial sectors. The evolution of a multivariate time series depends on the dynamics of its variables and the connectivity network of causal interrelationships among them. Most of the existing time series models do not account for the causal effects among the system's variables and even if they do they rely just on determining the between-variables causality network. Knowing the structure of such a complex network and even more specifically knowing the exact lagged variables that contribute to the underlying process is crucial for the task of multivariate time series forecasting. The latter is a rather unexplored source of information to leverage. In this direction, here a novel neural network-based architecture is proposed, termed LAgged VAriable Representation NETwork (LAVARNET), which intrinsically estimates the importance of lagged variables and combines high dimensional latent representations of them to predict future values of time series. Our model is compared with other baseline and state of the art neural network architectures on one simulated data set and four real data sets from meteorology, music, solar activity, and finance areas. The proposed architecture outperforms the competitive architectures in most of the experiments. | 翻訳日:2022-10-22 18:18:18 公開日:2020-09-02 |
# 自由エネルギー最小化によるダッフィング発振器のオンラインシステム同定 Online system identification in a Duffing oscillator by free energy minimisation ( http://arxiv.org/abs/2009.00845v1 ) ライセンス: Link先を確認 | Wouter M Kouw | (参考訳) オンラインシステム同定は、入力信号と出力信号の測定毎に、質量や摩擦係数などの力学系のパラメータを推定するものである。
ここでは、ダッフィング発振器の非線形確率微分方程式を生成モデルにキャストし、モデルの因子グラフ上の変分メッセージパッシングを用いて動的パラメータを推定する。
このアプローチは、ダフィング発振器の電子実装によるデータに関する実験によって検証される。
提案手法は,最先端非線形モデルにおいてオフライン予測誤差を最小化する。 Online system identification is the estimation of parameters of a dynamical system, such as mass or friction coefficients, for each measurement of the input and output signals. Here, the nonlinear stochastic differential equation of a Duffing oscillator is cast to a generative model and dynamical parameters are inferred using variational message passing on a factor graph of the model. The approach is validated with an experiment on data from an electronic implementation of a Duffing oscillator. The proposed inference procedure performs as well as offline prediction error minimisation in a state-of-the-art nonlinear model. | 翻訳日:2022-10-22 18:17:59 公開日:2020-09-02 |
# 負サンプリングによるSkipGram単語埋め込みモデルについて:統一フレームワークと雑音分布の影響 On SkipGram Word Embedding Models with Negative Sampling: Unified Framework and Impact of Noise Distributions ( http://arxiv.org/abs/2009.04413v1 ) ライセンス: Link先を確認 | Ziqiao Wang, Yongyi Mao, Hongyu Guo, Richong Zhang | (参考訳) skipgram word embedded model with negative sampling, 略してsgn)は、単語埋め込みモデルのエレガントなファミリーである。
本稿では,SGNを多種多様なモデルに一般化する,ワードコンテキスト分類(Word-Context Classification, WCC)と呼ばれる単語埋め込みの枠組みを定式化する。
いくつかの「ノイズ例」を活用するこのフレームワークは、理論的分析によって正当化される。
WCC埋込みモデルの学習に及ぼすノイズ分布の影響を実験的に検討し, 組込み性能と学習時の収束速度の両面から, 最高のノイズ分布は実際にデータ分布であることが示唆された。
その過程で,既存のwccモデルに匹敵する新たな埋め込みモデルがいくつか発見される。 SkipGram word embedding models with negative sampling, or SGN in short, is an elegant family of word embedding models. In this paper, we formulate a framework for word embedding, referred to as Word-Context Classification (WCC), that generalizes SGN to a wide family of models. The framework, utilizing some "noise examples", is justified through a theoretical analysis. The impact of noise distribution on the learning of the WCC embedding models is studied experimentally, suggesting that the best noise distribution is in fact the data distribution, in terms of both the embedding performance and the speed of convergence during training. Along our way, we discover several novel embedding models that outperform the existing WCC models. | 翻訳日:2022-10-22 18:17:25 公開日:2020-09-02 |
# 胸部X線画像データ増大のための深部畳み込み生成適応ネットワークの評価 Evaluation of Deep Convolutional Generative Adversarial Networks for data augmentation of chest X-ray images ( http://arxiv.org/abs/2009.01181v1 ) ライセンス: Link先を確認 | Sagar Kora Venu | (参考訳) 医用画像データセットは通常、データ取得と時間のかかるアノテーションのコストが高いため、バランスが取れない。
このようなデータセット上で深層ニューラルネットワークモデルをトレーニングして、医療状況を正確に分類することは、望ましい結果を得られず、多数クラスのサンプルのデータに過剰に適合することが多い。
この問題に対処するために、データ拡張は、スケーリング、クロッピング、フリップ、パディング、ローテーション、翻訳、アフィン変換などの位置拡張技術や、輝度、コントラスト、飽和、色拡張技術によってトレーニングデータ上で行われることが多く、データセットのサイズを増加させる。
これらの拡張技術は、限られたデータ、特に医療画像データを持つ領域で有利であると保証されておらず、さらなる過度な適合につながる可能性がある。
本研究では,Chest X-raysデータセットを生成モデル(deep convolutional generative adversarial network)を用いてデータ拡張を行い,元のデータに類似した特徴を持つ人工インスタンスを生成し,Fr'echet Distance of Inception(FID)スコア1.289を得た。 Medical image datasets are usually imbalanced, due to the high costs of obtaining the data and time-consuming annotations. Training deep neural network models on such datasets to accurately classify the medical condition does not yield desired results and often over-fits the data on majority class samples. In order to address this issue, data augmentation is often performed on training data by position augmentation techniques such as scaling, cropping, flipping, padding, rotation, translation, affine transformation, and color augmentation techniques such as brightness, contrast, saturation, and hue to increase the dataset sizes. These augmentation techniques are not guaranteed to be advantageous in domains with limited data, especially medical image data, and could lead to further overfitting. In this work, we performed data augmentation on the Chest X-rays dataset through generative modeling (deep convolutional generative adversarial network) which creates artificial instances retaining similar characteristics to the original data and evaluation of the model resulted in Fr\'echet Distance of Inception (FID) score of 1.289. | 翻訳日:2022-10-22 18:16:21 公開日:2020-09-02 |
# リアルタイムWebカメラ視線追跡における効率性 Efficiency in Real-time Webcam Gaze Tracking ( http://arxiv.org/abs/2009.01270v1 ) ライセンス: Link先を確認 | Amogh Gudi, Xin Li, Jan van Gemert | (参考訳) カメラベースアイ/ガゼトラッキングの実用化には効率性と使いやすさが不可欠である。
視線追跡は、コンピュータカメラの顔画像に基づいて、人が画面を見ている場所を推定する。
本稿では,視線追跡における2つの相補的な効率性について検討する。
1. 視線ベクトルを予測するCNNの推論速度に支配されるシステムの計算効率
2.コンピュータ画面への視線ベクトルの強制キャリブレーションの煩雑さによって決定されるユーザビリティの効率性。
そこで我々は,CNNの計算速度/精度トレードオフと画面校正における校正作業/精度トレードオフを評価する。
CNNではフルフェイス,2眼,シングルアイ入力を評価した。
画面校正には,必要な校正点数を測定し,3種類の校正方法を評価する。
1.純粋幾何学
2. 純粋な機械学習と
3.ハイブリッド幾何回帰
その結果,片眼入力と幾何回帰校正が最善のトレードオフを達成できることが示唆された。 Efficiency and ease of use are essential for practical applications of camera based eye/gaze-tracking. Gaze tracking involves estimating where a person is looking on a screen based on face images from a computer-facing camera. In this paper we investigate two complementary forms of efficiency in gaze tracking: 1. The computational efficiency of the system which is dominated by the inference speed of a CNN predicting gaze-vectors; 2. The usability efficiency which is determined by the tediousness of the mandatory calibration of the gaze-vector to a computer screen. To do so, we evaluate the computational speed/accuracy trade-off for the CNN and the calibration effort/accuracy trade-off for screen calibration. For the CNN, we evaluate the full face, two-eyes, and single eye input. For screen calibration, we measure the number of calibration points needed and evaluate three types of calibration: 1. pure geometry, 2. pure machine learning, and 3. hybrid geometric regression. Results suggest that a single eye input and geometric regression calibration achieve the best trade-off. | 翻訳日:2022-10-22 18:16:00 公開日:2020-09-02 |