このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210427となっている論文です。

PDF登録状況(公開日: 20210427)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子超チャネルにおける可逆性保存の効果

Consequences of preserving reversibility in quantum superchannels ( http://arxiv.org/abs/2003.05682v5 )

ライセンス: Link先を確認
Wataru Yokojima, Marco T\'ulio Quintino, Akihito Soeda, Mio Murao(参考訳) 量子状態と同様に、量子演算はプロセス行列としても知られる量子超チャネルによっても変換できる。 複数のスロットを持つ量子スーパーチャネルは、独立した量子演算を入力とする決定論的変換である。 それらは量子力学の法則を尊重するために強制されているが、入力演算の使用には明確な因果順序が欠如しており、物理的実装を持つ量子オブジェクトの観点からの一般的な超チャネルの特性が欠落している。 本稿では、量子演算の可逆性を保つスーパーチャネルである2つのスロット(二成分純粋プロセスとも呼ばれる)を持つ純粋超チャネルの数学的特徴付けを提案する。 可逆性保存条件により、2つのスロットを持つすべての純超チャネルは、ユニタリ演算のみからなる量子回路か、2つの入力操作が異なる順序を持つ2つのユニタリ量子回路のコヒーレント重ね合わせのいずれかに制限される。 後者は量子スイッチの一般化と見なすことができ、純粋な2スロット超チャネルの物理的解釈を可能にする。 即ち、精製可能な二成分プロセスはデバイス非依存因果不等式を破ることができない。

Similarly to quantum states, quantum operations can also be transformed by means of quantum superchannels, also known as process matrices. Quantum superchannels with multiple slots are deterministic transformations whichtake independent quantum operations as inputs. While they are enforced to respect the laws of quantum mechanics, the use of input operations may lack a definite causal order, and characterizations of general superchannels in terms of quantum objects with a physical implementation have been missing. In this paper, we provide a mathematical characterization for pure superchannels with two slots (also known as bipartite pure processes), which are superchannels preserving the reversibility of quantum operations. We show that the reversibility preserving condition restricts all pure superchannels with two slots to be either a quantum circuit only consisting of unitary operations or a coherent superposition of two unitary quantum circuits where the two input operations are differently ordered. The latter may be seen as a generalization of the quantum switch, allowing a physical interpretation for pure two-slot superchannels. An immediate corollary is that purifiable bipartite processes cannot violate device-independent causal inequalities.
翻訳日:2023-05-29 08:32:50 公開日:2021-04-27
# ホワイト, ミュータス, ドレッセル等「弱測定時の絡みの保存... [arXiv:1504.02707]

Comment on White, Mutus, Dressel, et al., "Preserving entanglement during weak measurement ... " [arXiv:1504.02707] ( http://arxiv.org/abs/2006.02861v2 )

ライセンス: Link先を確認
David H. Oaknin(参考訳) 引用された論文[White, T., Mutus, J., Dressel, J., et al., Preserving entanglement during weak measurement showed with a violation of the Bell-Leggett-Garg inequality, npj Quantum Information 2, 15022 (2016), arXiv:1504.02707]では、2つの量子ビット間の量子的絡み合いが十分に測定された後に保存されることを示す実験結果が示された。 しかし、報告された結果の理論的解釈にはさらなる考慮が必要である。 本論文は,量子基礎と量子暗号の両方に重大な影響を及ぼす可能性がある。

In the cited paper [White, T., Mutus, J., Dressel, J. et al., "Preserving entanglement during weak measurement demonstrated with a violation of the Bell-Leggett-Garg inequality", npj Quantum Information 2, 15022 (2016), arXiv:1504.02707], experimental results were presented that clearly prove that the quantum entanglement between two qubits is preserved after weak enough measurements are performed on them. The theoretical interpretation of the reported results, however, requires further consideration. The remarks made in this paper may have serious implications both for quantum foundations and for quantum cryptography.
翻訳日:2023-05-17 06:23:03 公開日:2021-04-27
# 楕円コヒーレント散乱による冷却ナノロータ

Cooling nanorotors by elliptic coherent scattering ( http://arxiv.org/abs/2006.04090v2 )

ライセンス: Link先を確認
Jonas Sch\"afer, Henning Rudolph, Klaus Hornberger, Benjamin A. Stickler(参考訳) ナノスケール誘電体の回転運動と変換運動を同時に冷却することは、応用や量子重ね合わせ試験を感知する上で非常に重要な課題である。 本研究では, 楕円偏光型光トウェザを用いたコヒーレント散乱冷却により, 6次元の基底状態が達成できることを示す。 現実的な設定で冷却速度と定常的職業を判定し,機械的センシングおよび基礎実験への応用について議論する。

Simultaneously cooling the rotational and translational motion of nanoscale dielectrics into the quantum regime is an open task of great importance for sensing applications and quantum superposition tests. Here, we show that the six-dimensional ground state can be reached by coherent-scattering cooling with an elliptically polarized and shaped optical tweezer. We determine the cooling rates and steady-state occupations in a realistic setup and discuss applications for mechanical sensing and fundamental experiments.
翻訳日:2023-05-16 09:13:47 公開日:2021-04-27
# Twitter上のフェイクニュースの拡散をモデル化する

Modeling the spread of fake news on Twitter ( http://arxiv.org/abs/2007.14059v2 )

ライセンス: Link先を確認
Taichi Murayama, Shoko Wakamiya, Eiji Aramaki and Ryota Kobayashi(参考訳) フェイクニュースは、モバイルデバイスの利用の増加と世界中のインターネットアクセスの増加により、社会に重大な悪影響を及ぼす可能性がある。 したがって、偽ニュースのオンライン普及を理解するための単純な数学的モデルを開発することが不可欠である。 本研究では,twitter上での偽ニュースの拡散に関するポイントプロセスモデルを提案する。 提案モデルでは,偽ニュースの拡散を2段階のプロセスとして記述する。当初,偽ニュースは通常のニュースとして拡散し,ほとんどのユーザがニュース記事の虚偽さを認識し始めると,それ自身が別のニュース記事として拡散する。 このモデルをTwitter上に拡散した偽ニュースの2つのデータセットを用いて検証する。 提案手法は,偽ニュースの拡散進展を正確に予測する上で,現在の最先端手法よりも優れていることを示す。 さらに,テキスト分析の結果から,twitterユーザがニュース項目の偽性に気付き始めた瞬間の補正時間を適切に推測できることが示唆された。 提案モデルは,ソーシャルメディア上での偽ニュースの拡散のダイナミクスの理解に寄与する。 拡散パターンのコンパクトな表現を抽出する能力は、偽ニュースの検出と緩和に有用である。

Fake news can have a significant negative impact on society because of the growing use of mobile devices and the worldwide increase in Internet access. It is therefore essential to develop a simple mathematical model to understand the online dissemination of fake news. In this study, we propose a point process model of the spread of fake news on Twitter. The proposed model describes the spread of a fake news item as a two-stage process: initially, fake news spreads as a piece of ordinary news; then, when most users start recognizing the falsity of the news item, that itself spreads as another news story. We validate this model using two datasets of fake news items spread on Twitter. We show that the proposed model is superior to the current state-of-the-art methods in accurately predicting the evolution of the spread of a fake news item. Moreover, a text analysis suggests that our model appropriately infers the correction time, i.e., the moment when Twitter users start realizing the falsity of the news item. The proposed model contributes to understanding the dynamics of the spread of fake news on social media. Its ability to extract a compact representation of the spreading pattern could be useful in the detection and mitigation of fake news.
翻訳日:2023-05-07 23:26:57 公開日:2021-04-27
# 温暖化対策のショートカット

Shortcuts to Squeezed Thermal States ( http://arxiv.org/abs/2008.03307v3 )

ライセンス: Link先を確認
L\'eonce Dupays and Aur\'elia Chenu(参考訳) 調和系のスクイーズ状態は、発振器周波数の変化や非線形2光子ラマン相互作用など、様々な手法で生成することができる。 我々はこれら2つの手法に焦点をあてて,初期熱状態を任意の時間に絞り込みパラメーター(振幅と位相)を制御した最終圧縮熱状態に誘導する。 プロトコルはユニタリとオープンダイナミクスの両方のためにリバースエンジニアリングによって設計されている。 散逸の制御は、例えば連続量子測定によって容易に実装できる確率過程を用いて達成される。 重要なことに、これは状態エントロピーを制御でき、高速な熱化に使用できる。 開発したプロトコルは任意の時間で制御温度で硬化した熱状態を生成するのに適している。

Squeezed state in harmonic systems can be generated through a variety of techniques, including varying the oscillator frequency or using nonlinear two-photon Raman interaction. We focus on these two techniques to drive an initial thermal state into a final squeezed thermal state with controlled squeezing parameters -- amplitude and phase -- in arbitrary time. The protocols are designed through reverse engineering for both unitary and open dynamics. Control of the dissipation is achieved using stochastic processes, readily implementable via, e.g., continuous quantum measurements. Importantly, this allows controlling the state entropy and can be used for fast thermalization. The developed protocols are thus suited to generate squeezed thermal states at controlled temperature in arbitrary time.
翻訳日:2023-05-06 21:45:17 公開日:2021-04-27
# 多体基底状態における時間秩序の量子相

Quantum Phases of Time Order in Many-Body Ground States ( http://arxiv.org/abs/2008.10188v2 )

ライセンス: Link先を確認
Tie-Cheng Guo and Li You(参考訳) 物質相を理解することは基本的かつ実践的な重要性である。 トポロジカル秩序の広汎な評価と受容に先立ち、ランダウ・ギンズバーグ・ウィルソン(LGW)ドグマ(英語版)に沿って定式化された自発対称性の破れのパラダイムは、異なる対称性の順序パラメータと位相間の遷移に関する位相の理解の中心である。 本研究では,対称性演算子(順序パラメータ)の2時間自己相関関数において,非自明な時間構造が出現することにより,時間秩序の観点から量子多体系の基底状態相を特定することを提案する。 特別な場合として、(対称性保護)時間結晶秩序相は連続時間結晶(ctc)を検出する。 スピン1原子ボース・アインシュタイン凝縮(BEC)と量子ラビモデルのための時間次位相図が完備である。 時間結晶秩序に加えて、時間関数秩序の興味深い位相は、2つの非エルミート相互作用スピンモデルで議論される。

Understanding phases of matter is of both fundamental and practical importance. Prior to the widespread appreciation and acceptance of topological order, the paradigm of spontaneous symmetry breaking, formulated along the Landau-Ginzburg-Wilson (LGW) dogma, is central to understanding phases associated with order parameters of distinct symmetries and transitions between phases. This work proposes to identify ground state phases of quantum many-body system in terms of time order, which is operationally defined by the appearance of nontrivial temporal structure in the two-time auto-correlation function of a symmetry operator (order parameter). As a special case, the (symmetry protected) time crystalline order phase detects continuous time crystal (CTC). Time order phase diagrams for spin-1 atomic Bose-Einstein condensate (BEC) and quantum Rabi model are fully worked out. Besides time crystalline order, the intriguing phase of time functional order is discussed in two non-Hermitian interacting spin models.
翻訳日:2023-05-05 02:20:15 公開日:2021-04-27
# キャビティに対する光子数依存ハミルトニアン工学

Photon-Number-Dependent Hamiltonian Engineering for Cavities ( http://arxiv.org/abs/2009.07855v2 )

ライセンス: Link先を確認
Chiao-Hsuan Wang, Kyungjoo Noh, Jos\'e Lebreuilly, S. M. Girvin, and Liang Jiang(参考訳) キャビティ共振器は量子技術のための有望な資源であるが、キャビティのネイティブな非線形相互作用は通常、複雑なターゲット操作を提供するのに必要な量子制御レベルを提供するには弱すぎる。 ここでは、アンシラ量子ビットを用いたフォトニックキャビティのためのターゲットハミルトニアンを設計する手法を検討する。 分散結合型アンシラ量子ビットを非共振駆動することにより,任意の光子数依存(PND)ハミルトニアンをキャビティに対して設計し,操作誤差を最小限に抑える。 技術者のハミルトニアンは、望ましくない空洞の自己Kerr相互作用のキャンセル、量子シミュレーションの高次非線形性の作成、ノイズに耐性のある量子ゲートの設計など、様々な応用を認めている。 本方式は超伝導回路においてマイクロ波共振器とトランスモン量子ビットを結合して実装できる。

Cavity resonators are promising resources for quantum technology, while native nonlinear interactions for cavities are typically too weak to provide the level of quantum control required to deliver complex targeted operations. Here we investigate a scheme to engineer a target Hamiltonian for photonic cavities using ancilla qubits. By off-resonantly driving dispersively coupled ancilla qubits, we develop an optimized approach to engineering an arbitrary photon-number-dependent (PND) Hamiltonian for the cavities while minimizing the operation errors. The engineered Hamiltonian admits various applications including canceling unwanted cavity self-Kerr interactions, creating higher-order nonlinearities for quantum simulations, and designing quantum gates resilient to noise. Our scheme can be implemented with coupled microwave cavities and transmon qubits in superconducting circuit systems.
翻訳日:2023-05-02 02:19:37 公開日:2021-04-27
# Grey Hoodie Project:Big Tobacco, Big Tech, そして学術的完全性に対する脅威

The Grey Hoodie Project: Big Tobacco, Big Tech, and the threat on academic integrity ( http://arxiv.org/abs/2009.13676v4 )

ライセンス: Link先を確認
Mohamed Abdalla and Moustafa Abdalla(参考訳) 政府機関は、人工知能に関する政策を形成するために学者の専門的なアドバイスに頼っているため、これらの学術者は、彼らの判断を曇らせるか偏見を抱くかもしれない利害の衝突を持っていないことが重要である。 我々の研究は、Big Techがそのニーズに合うように学界を積極的に歪める方法を探っている。 他の産業(大きなタバコ)のよく研究された行動と、現在の大企業の行動を比較することで、両方の産業で採用されている同様の戦略が分かる。 これらの戦略により、業界は学術的および公共的な言説を揺るがし、影響を与えることができる。 学術研究の資金は、ビッグテックが社会に責任を負う公共のイメージを広めるためのツールとして利用し、資金提供を受けた大学が主催するイベントや意思決定に影響を与え、個々の科学者の研究課題や計画に影響を与え、活用可能な受容的な学術者を見つけるためのツールとして、学術研究の資金について検討する。 我々は,大学レベルから個々の研究者まで,大規模技術がアカデミアに与える影響を実証する。 したがって、特に高等教育機関において、大企業からの資金提供を受けることの適切性とトレードオフ、そしてどのような制限や条件を講じるべきなのかを議論することが不可欠であると信じている。

As governmental bodies rely on academics' expert advice to shape policy regarding Artificial Intelligence, it is important that these academics not have conflicts of interests that may cloud or bias their judgement. Our work explores how Big Tech can actively distort the academic landscape to suit its needs. By comparing the well-studied actions of another industry (Big Tobacco) to the current actions of Big Tech we see similar strategies employed by both industries. These strategies enable either industry to sway and influence academic and public discourse. We examine the funding of academic research as a tool used by Big Tech to put forward a socially responsible public image, influence events hosted by and decisions made by funded universities, influence the research questions and plans of individual scientists, and discover receptive academics who can be leveraged. We demonstrate how Big Tech can affect academia from the institutional level down to individual researchers. Thus, we believe that it is vital, particularly for universities and other institutions of higher learning, to discuss the appropriateness and the tradeoffs of accepting funding from Big Tech, and what limitations or conditions should be put in place.
翻訳日:2023-04-30 18:21:35 公開日:2021-04-27
# 磁場下での容量結合一重項スピン量子ビットの電荷雑音抑制

Charge noise suppression in capacitively coupled singlet-triplet spin qubits under magnetic field ( http://arxiv.org/abs/2011.09387v2 )

ライセンス: Link先を確認
Guo Xuan Chan, Jason P. Kestner, Xin Wang(参考訳) 電荷ノイズは、半導体量子ドット系スピン量子ビットの2量子ビットゲートの高忠実度操作を妨げる主なハードルである。 電荷ノイズが著しく抑制されるいくつかのスイートスポットは、いくつかの種類のスピン量子ビットで実証されているが、結合したシングルトリップ量子ビットの存在は明らかではない。 強磁場が外部に印加された場合、理論上は一重項-三重項量子ビット系において、ほぼスイートスポットの範囲が現れることを完全な構成-相互作用計算を用いて実証する。 さらに, 短絡から断熱へのショートカットに基づくシーケンスを用いて, 選択したほぼスイートスポットへの傾斜が, 電荷雑音およびフォノン誘起脱コヒーレンスの下での最大ゲート忠実度を与えることを示した。 これらの結果は,シングルトリップキュービット系における高忠実度2量子ゲートの実現を促進する。

Charge noise is the main hurdle preventing high-fidelity operation, in particular that of two-qubit gates, of semiconductor-quantum-dot-based spin qubits. While certain sweet spots where charge noise is substantially suppressed have been demonstrated in several types of spin qubits, the existence of one for coupled singlet-triplet qubits is unclear. We theoretically demonstrate, using full configuration-interaction calculations, that a range of nearly sweet spots appear in the coupled singlet-triplet qubit system when a strong enough magnetic field is applied externally. We further demonstrate that ramping to and from the judiciously chosen nearly sweet spot using sequences based on the shortcut to adiabaticity offers maximal gate fidelities under charge noise and phonon-induced decoherence. These results should facilitate realization of high-fidelity two-qubit gates in singlet-triplet qubit systems.
翻訳日:2023-04-23 19:18:10 公開日:2021-04-27
# 閉じ込められたイッテルビウムイオンの集積光アドレッシング

Integrated optical addressing of a trapped ytterbium ion ( http://arxiv.org/abs/2011.12376v2 )

ライセンス: Link先を確認
M. Ivory, W. J. Setzer, N. Karl, H. McGuinness, C. DeRose, M. Blain, D. Stick, M. Gehl, L. P. Parazzoli (Sandia National Laboratories, Albuquerque, New Mexico, USA)(参考訳) 導波路を集積したマイクロファブリケート表面イオントラップにおける加熱速度と光誘起電荷のキャラクタリゼーションについて報告する。 マイクロファブリック表面イオントラップは、スケーラビリティと製造性から量子情報プラットフォームとして注目されている。 ここでは、導波路と回折カプラを介して435nmの光を単一のイッテルビウムイオンに小さなトラップで供給する。 室温0.78\pm0.05$ q/msの軸方向加熱速度を測定し、導波路の存在により上昇しない。 さらに、露光された誘電体アウトカプラの充電による電界は、初期シフト後の通常動作下で沈降する。 沈降後の周波数不安定度は0.9kHzである。

We report on the characterization of heating rates and photo-induced electric charging on a microfabricated surface ion trap with integrated waveguides. Microfabricated surface ion traps have received considerable attention as a quantum information platform due to their scalability and manufacturability. Here we characterize the delivery of 435 nm light through waveguides and diffractive couplers to a single ytterbium ion in a compact trap. We measure an axial heating rate at room temperature of $0.78\pm0.05$ q/ms and see no increase due to the presence of the waveguide. Furthermore, the electric field due to charging of the exposed dielectric outcoupler settles under normal operation after an initial shift. The frequency instability after settling is measured to be 0.9 kHz.
翻訳日:2023-04-23 06:20:24 公開日:2021-04-27
# 漸近的自由のキュービット正則化

Qubit regularization of asymptotic freedom ( http://arxiv.org/abs/2012.02153v2 )

ライセンス: Link先を確認
Tanmoy Bhattacharya (1), Alexander J. Buser (2 and 1), Shailesh Chandrasekharan (3), Rajan Gupta (1), Hersh Singh (4 and 3) ((1) Los Alamos National Laboratory, Los Alamos, NM, USA, (2) Institute for Quantum Information and Matter, Caltech, Pasadena, CA, USA, (3) Department of Physics, Duke University, Durham, NC, USA, (4) Institute for Nuclear Theory, University of Washington, Seattle, WA, USA)(参考訳) 漸近自由(1+1)次元非線形O(3)シグマモデルは、空間的格子サイト当たりの2キュービットしか持たないヒルベルト空間上で作用する「ハイゼンベルクコム」と呼ばれる量子格子ハミルトニアンを用いて正則化できるという強い証拠を提供する。 ハイゼンベルク-コームはスピンハーフ反強磁性ハイゼンベルク鎖と反強磁性を結合したスピンハーフ粒子からなる。 世界線モンテカルロ法を用いて、従来のモデルの普遍的なステップスケーリング関数を格子単位の相関長さ20万まで再現し、連続体極限がどのように出現するかを議論する。 我々は、モデルの時間発展を量子回路で記述し、短期量子コンピュータは漸近的な自由を示すのに十分であると主張する。

We provide strong evidence that the asymptotically free (1+1)-dimensional non-linear O(3) sigma model can be regularized using a quantum lattice Hamiltonian, referred to as the "Heisenberg-comb", that acts on a Hilbert space with only two qubits per spatial lattice site. The Heisenberg-comb consists of a spin-half anti-ferromagnetic Heisenberg-chain coupled anti-ferromagnetically to a second local spin-half particle at every lattice site. Using a world-line Monte Carlo method we show that the model reproduces the universal step-scaling function of the traditional model up to correlation lengths of 200,000 in lattice units and argue how the continuum limit could emerge. We provide a quantum circuit description of time-evolution of the model and argue that near-term quantum computers may suffice to demonstrate asymptotic freedom.
翻訳日:2023-04-22 05:17:34 公開日:2021-04-27
# 質量結合相対論的自然崩壊モデル

Mass-coupled relativistic spontaneous collapse models ( http://arxiv.org/abs/2012.02627v2 )

ライセンス: Link先を確認
Caitlin Jones, Giulio Gasbarri, Angelo Bassi(参考訳) 現在、十分な相対論的自然崩壊モデルは存在しない。 ここでは、連続自然崩壊(CSL)モデルを相対論的枠組みに単純な一般化することができないことを示す。 我々は、質量結合モデルについて、CSLモデルを与える非相対論的極限として考える。 ローレンツ共変崩壊方程式は、以下の条件を同時に満たすことはできない。 一 エネルギーの発散率を回避すること。 二 スーパールミナルシグナリングを防止すること。

Currently there is not a satisfactory relativistic spontaneous collapse model. Here we show the impossibility of a simple generalization of the continuous spontaneous collapse (CSL) model to the relativistic framework. We consider a mass coupled model as in the non-relativistic limit this gives the CSL model. We show that a Lorentz covariant collapse equation cannot simultaneously satisfy the following conditions: i) To avoid a divergent rate of energy, ii) To prevent superluminal signaling.
翻訳日:2023-04-22 03:05:01 公開日:2021-04-27
# 原子周波数コムメモリにおける1時間コヒーレント光ストレージ

One-hour coherent optical storage in an atomic frequency comb memory ( http://arxiv.org/abs/2012.14605v3 )

ライセンス: Link先を確認
Yu Ma, You-Zhi Ma, Zong-Quan Zhou, Chuan-Feng Li, Guang-Can Guo(参考訳) 光ファイバの光子損失は、地上の量子情報の長距離分布を防ぐ。 この問題を克服するために量子リピータが提案されているが、量子リピータスキームのシステムの複雑さのため、通信距離は未だ限られている。 別のソリューションとしては、転送可能な量子メモリと量子メモリ搭載衛星があり、長寿命の光量子メモリがグローバル量子通信を実現する重要なコンポーネントである。 しかし、これまで実証された光学記憶の保存時間は、約1分である。 ここでは、ゼロオーダーゼーマン磁場とダイナミックデカップリングを用いて、固体中のスピンコヒーレンスを保護し、1時間以上の原子周波数コムメモリにおける光のコヒーレント保存を実証し、長寿命の固体量子メモリに基づく大規模量子通信の将来を期待する。

Photon loss in optical fibers prevents long-distance distribution of quantum information on the ground. Quantum repeater is proposed to overcome this problem, but the communication distance is still limited so far because of the system complexity of the quantum repeater scheme. Alternative solutions include transportable quantum memory and quantum-memory-equipped satellites, where long-lived optical quantum memories are the key components to realize global quantum communication. However, the longest storage time of the optical memories demonstrated so far is approximately 1 minute. Here, by employing a zero-first-order-Zeeman magnetic field and dynamical decoupling to protect the spin coherence in a solid, we demonstrate coherent storage of light in an atomic frequency comb memory over 1 hour, leading to a promising future for large-scale quantum communication based on long-lived solid-state quantum memories.
翻訳日:2023-04-18 12:07:23 公開日:2021-04-27
# 積分およびカオスモデルにおける複雑性成長

Complexity Growth in Integrable and Chaotic Models ( http://arxiv.org/abs/2101.02209v2 )

ライセンス: Link先を確認
Vijay Balasubramanian, Matthew DeCross, Arjun Kar, Cathy Li, Onkar Parrikar(参考訳) 我々は、N$Majoranaフェルミオンを持つモデルのSYK族を用いて、単位群多様体上の単位元と時間進化作用素の間の最短測地線長として定式化され、自由、可積分、カオス系において、時間進化の複雑さを研究する。 当初、最も短い測地線は時間発展軌道に従っており、従って複雑さは時間とともに線形に増加する。 この線形成長は最終的に共役点の出現と蓄積によって妨げられ、時間発展軌道に交差する短い測地線の存在を示唆する。 このような「ショートカット」を解析的および数値的手法で明示的に配置することにより、次のように示す。 (a)自由理論では、時間発展は多項式時間で共役点に遭遇し、従って複雑性成長はo(\sqrt{n})$で終了し、この複雑性を持つ自由n$-フェルミオン時間発展を「高速に前進」する明示的な作用素を見つける。 (b) 相互作用可能な可積分理論のクラスにおいて、複雑性は$O({\rm poly}(N))$で上界され、 (c) カオス理論において、共役点は指数時間$O(e^N)$まで生じず、その後、時間発展作用素を近似する無限小近傍の測地学を見つけることができる。 最後に,自由,可積分,カオスモデルにおける固有状態複雑性の概念を考察する。

We use the SYK family of models with $N$ Majorana fermions to study the complexity of time evolution, formulated as the shortest geodesic length on the unitary group manifold between the identity and the time evolution operator, in free, integrable, and chaotic systems. Initially, the shortest geodesic follows the time evolution trajectory, and hence complexity grows linearly in time. We study how this linear growth is eventually truncated by the appearance and accumulation of conjugate points, which signal the presence of shorter geodesics intersecting the time evolution trajectory. By explicitly locating such "shortcuts" through analytical and numerical methods, we demonstrate that: (a) in the free theory, time evolution encounters conjugate points at a polynomial time; consequently complexity growth truncates at $O(\sqrt{N})$, and we find an explicit operator which "fast-forwards" the free $N$-fermion time evolution with this complexity, (b) in a class of interacting integrable theories, the complexity is upper bounded by $O({\rm poly}(N))$, and (c) in chaotic theories, we argue that conjugate points do not occur until exponential times $O(e^N)$, after which it becomes possible to find infinitesimally nearby geodesics which approximate the time evolution operator. Finally, we explore the notion of eigenstate complexity in free, integrable, and chaotic models.
翻訳日:2023-04-17 17:40:43 公開日:2021-04-27
# 量子情報

Quantum information ( http://arxiv.org/abs/2103.07712v2 )

ライセンス: Link先を確認
Ryszard Horodecki(参考訳) 本稿では、量子フォーマリズムによって予測される量子情報の異常な特徴を概観し、現代の量子技術の発展と相まって、我々の生活の様々な領域に影響を与える可能性のある量子物理学の新しい地平を開拓し、量子サイバーセキュリティ、量子通信、量子力学、量子計算といった新しい技術を生み出した。

This article reviews the extraordinary features of quantum information predicted by the quantum formalism, which, combined with the development of modern quantum technologies, have opened new horizons in quantum physics that can potentially affect various areas of our live, leading to new technologies such as quantum cybersecurity, quantum communication, quantum metrology, and quantum computation.
翻訳日:2023-04-08 06:32:58 公開日:2021-04-27
# 量子ネットワークにおけるコンカレンスパーコレーション

Concurrence Percolation in Quantum Networks ( http://arxiv.org/abs/2103.13985v2 )

ライセンス: Link先を確認
Xiangyi Meng, Jianxi Gao, Shlomo Havlin(参考訳) 量子ネットワーク(qn)における長距離量子エンタングルメント、すなわちエンタングルメント伝送の確立は、効率的な量子通信を開発する上で鍵となる、タイムリーな課題である。 古典的パーコレーションに基づく伝統的な理解は、2つの無限遠点間の絡み合いを成功させるために必要な条件を仮定する:それらは、少なくとも完全に絡み合った状態(シングルレット)の経路で接続されなければならない。 ここでは、一重項の最適変換ではなく、二成分の絡み合いの重要な尺度である共起の確立に焦点を合わせることができることを明示的に示すことで、この条件を緩和する。 これにより、従来のパーコレーションと遠隔で類似する新しい統計理論ConPT(Concurrence Percolation Theory)を導入し、クラスターではなく「スポンジクロス」経路で結合パーコレーションを一般化することによって、根本的に異なる。 抵抗ネットワーク解析に触発されて,直列/並列規則とスターメッシュ変換による近似高次規則により経路接続性を決定する。 興味深いことに、ConPTによって予測される絡み合い伝達閾値は、既知の古典的パーコレーションに基づく結果よりも低く、Bethe格子のような直列並列ネットワーク上で容易に達成可能である。 ConPTは、QN局所性の制限の下での古典的な統計的予測に対して、量子通信がより体系的に改善されるかどうかの理解を促進する。 コンプットはまた、ベーテ格子と正則二次元格子の有限次元解析から導かれるパーコレーションのような普遍的臨界挙動を示し、絡み合い統計学における臨界性理論の新しい展望を提供する。

Establishing long-distance quantum entanglement, i.e., entanglement transmission, in quantum networks (QN) is a key and timely challenge for developing efficient quantum communication. Traditional comprehension based on classical percolation assumes a necessary condition for successful entanglement transmission between any two infinitely distant nodes: they must be connected by at least a path of perfectly entangled states (singlets). Here, we relax this condition by explicitly showing that one can focus not on optimally converting singlets but on establishing concurrence -- a key measure of bipartite entanglement. We thereby introduce a new statistical theory, concurrence percolation theory (ConPT), remotely analogous to classical percolation but fundamentally different, built by generalizing bond percolation in terms of "sponge-crossing" paths instead of clusters. Inspired by resistance network analysis, we determine the path connectivity by series/parallel rules and approximate higher-order rules via star-mesh transforms. Interestingly, we find that the entanglement transmission threshold predicted by ConPT is lower than the known classical-percolation-based results and is readily achievable on any series-parallel networks such as the Bethe lattice. ConPT promotes our understanding of how well quantum communication can be further systematically improved versus classical statistical predictions under the limitation of QN locality -- a "quantum advantage" that is more general and efficient than expected. ConPT also shows a percolation-like universal critical behavior derived by finite-size analysis on the Bethe lattice and regular two-dimensional lattices, offering new perspectives for a theory of criticality in entanglement statistics.
翻訳日:2023-04-06 21:35:04 公開日:2021-04-27
# IndT5: 10言語用テキスト変換器

IndT5: A Text-to-Text Transformer for 10 Indigenous Languages ( http://arxiv.org/abs/2104.07483v2 )

ライセンス: Link先を確認
El Moatez Billah Nagoudi, Wei-Rui Chen, Muhammad Abdul-Mageed and Hasan Cavusogl(参考訳) トランスフォーマー言語モデルは、自然言語処理ベースのパイプラインの基本コンポーネントとなっている。 トランスフォーマーモデルは、多くの言語を提供するために導入されたが、低リソースおよびインディゴニティ言語向けに事前訓練されたモデルが不足している。 本研究では,Indigenous Languageの最初のTransformer言語モデルであるIndT5を紹介する。 IndT5をトレーニングするために、IndCorpusという10の先住民言語とスペイン語の新しいデータセットを構築しました。 また,AmericasNLP 2021 Shared Task on Open Machine Translationへのコントリビューションの一環として,スペイン語とインディゴニティ言語間の翻訳のさまざまなアプローチを調査し,機械翻訳へのIndT5の適用について述べる。 IndT5とIndCorpusが研究目的で公開

Transformer language models have become fundamental components of natural language processing based pipelines. Although several Transformer models have been introduced to serve many languages, there is a shortage of models pre-trained for low-resource and Indigenous languages. In this work, we introduce IndT5, the first Transformer language model for Indigenous languages. To train IndT5, we build IndCorpus--a new dataset for ten Indigenous languages and Spanish. We also present the application of IndT5 to machine translation by investigating different approaches to translate between Spanish and the Indigenous languages as part of our contribution to the AmericasNLP 2021 Shared Task on Open Machine Translation. IndT5 and IndCorpus are publicly available for research
翻訳日:2023-04-05 08:33:49 公開日:2021-04-27
# アカデミアと引用パフォーマンスの国際移動--1996-2020年のscopus出版物を用いたドイツ系研究者のジェンダーと規律の分析

International Migration in Academia and Citation Performance: An Analysis of German-Affiliated Researchers by Gender and Discipline Using Scopus Publications 1996-2020 ( http://arxiv.org/abs/2104.12380v2 )

ライセンス: Link先を確認
Xinyi Zhao, Samin Aref, Emilio Zagheni, and Guy Stecklov(参考訳) ドイツはヨーロッパの主要移民国であり、ヨーロッパでも研究機関となっている。 ドイツは先進国のほとんどの国よりも研究と開発にgdpの占める割合が高いため、高い引用性能を持つ国際学者をドイツが惹きつけることができると期待されている。 これまでに800万冊以上のScoopsの論文を総括して分析し,過去24年間のドイツへの海外移住の動向を分析した。 我々は,1996~2020年の間,ドイツのアフィリエイトアドレスを公表した100万人以上の研究者を対象に,制度上のアフィリエイトの変化を評価する。 ドイツは、特に米国、英国、スイスと強い結びつきを持つ研究者のグローバルな活動に高度に統合されているのに対し、ドイツはより多くの研究者を海外に派遣している。 バランスは時間とともにおおむね負の傾向にあるが、性別、引用パフォーマンス、研究分野による分析は、移民のフローにおける構成的差異が、選択された分野における永続的な男女不平等を軽減するのに役立つことを示している。

Germany has become a major country of immigration, as well as a research powerhouse in Europe. As Germany spends a higher fraction of its GDP on research and development than most countries with advanced economies, there is an expectation that Germany should be able to attract and retain international scholars who have high citation performance. Using an exhaustive set of over eight million Scopus publications, we analyze the trends in international migration to and from Germany among published researchers over the past 24 years. We assess changes in institutional affiliations for over one million researchers who have published with a German affiliation address at some point during the 1996-2020 period. We show that while Germany has been highly integrated into the global movement of researchers, with particularly strong ties to the US, the UK, and Switzerland, the country has been sending more published researchers abroad than it has attracted. While the balance has been largely negative over time, analyses disaggregated by gender, citation performance, and field of research show that compositional differences in migrant flows may help to alleviate persistent gender inequalities in selected fields.
翻訳日:2023-04-02 09:10:48 公開日:2021-04-27
# 単一量子ビット位相シフト量子ゲートの超高速生成のための量子制御

Quantum control landscape for ultrafast generation of single-qubit phase shift quantum gates ( http://arxiv.org/abs/2104.12699v2 )

ライセンス: Link先を確認
Boris O. Volkov, Oleg V. Morzhin and Alexander N. Pechen(参考訳) 本研究では、単一量子ビット位相シフト量子ゲートの超高速制御問題について考察する。 グローバル最適制御は、最大忠実度を持つゲートを実現する制御である。 Trapは、ローカルにのみ最適だが、グローバルにはないコントロールである。 前述したように、位相シフトゲート以外の量子ゲートの高速制御と同様に、任意の単一量子ビット量子ゲートの制御された生成にはトラップが存在しない。 相シフトゲートの超高速発生は前回の解析では見逃されていた。 本研究では,勾配上昇パルス工学 (grape) や微分進化,デュアルアニーリングなどの解析的および数値的最適化手法を組み合わせることで,位相シフトゲートの超高速生成を制御できる手法を提案する。 量子制御対象関数に対するトラップの有無の証明を目的とした量子制御ランドスケープの数学的解析は、量子制御において重要なトピックである。 本研究では,単一量子ビット量子ゲートの超高速発生のための量子制御ランドスケープの厳密な解析と,ヘッシアンスペクトルの高精度解析に基づく解析手法と,勾配上昇パルス工学(grape),微分進化(diffial evolution),デュアルアニーリング(dual annealing)などの数値最適化手法を組み合わせることにより,位相シフトゲートの超高速生成のランドスケープを自由に制御できることを示す。

In this work, we consider the problem of ultrafast controlled generation of single-qubit phase shift quantum gates. Globally optimal control is a control which realizes the gate with maximal possible fidelity. Trap is a control which is optimal only locally but not globally. It was shown before that traps do not exist for controlled generation of arbitrary single-qubit quantum gates for sufficiently long times, as well as for fast control of quantum gates other than phase shift gates. Ultrafast generation of phase-shift gates was missed in the previous analysis. In this work we show, combining analytical and numerical optimization methods such as Gradient Ascent Pulse Engineering (GRAPE), differential evolution, and dual annealing, that control landscape for ultrafast generation of phase shift gates is also free of traps. Mathematical analysis of quantum control landscapes, which aims to prove either absence or existence of traps for quantum control objective functionals, is an important topic in quantum control. In this work, we provide a rigorous analysis of quantum control landscapes for ultrafast generation of single-qubit quantum gates and show, combining analytical methods based on a sophisticated analysis of spectrum of the Hessian, and numerical optimization methods such as Gradient Ascent Pulse Engineering (GRAPE), differential evolution, and dual annealing, that control landscape for ultrafast generation of phase shift gates is free of traps.
翻訳日:2023-04-02 08:51:35 公開日:2021-04-27
# リッジ回帰に基づく予測のための量子アルゴリズム

Quantum Algorithms for Prediction Based on Ridge Regression ( http://arxiv.org/abs/2104.13108v1 )

ライセンス: Link先を確認
Menghan Chen, Chaohua Yu, Gongde Guo, and Song Lin(参考訳) 学習データセットを解析することにより最適な適合パラメータ w と正規化ハイパーパラメータ {\alpha} を求めるリッジ回帰モデルに基づく量子アルゴリズムを提案する。 アルゴリズムは2つのサブアルゴリズムからなる。 1つは新しい入力に対する予測値を生成し、その方法は位相推定アルゴリズムを初期状態 |Xi に適用し、制御された回転を固有値レジスタに適用することである。 もう1つは最適正規化超パラメータ {\alpha} を見つけ、位相推定アルゴリズムを初期状態 |yi に適用し、制御された回転を固有値レジスタに適用する。 第2のalgorithmでは、トレーニングデータセット全体を並列に計算することで、効率が向上する。 古典リッジ回帰アルゴリズムと比較して,本アルゴリズムはマルチコリニア性とオーバーフィッティングを克服した。 さらに、指数的に速くなった。 さらに、我々のアルゴリズムは既存の量子アルゴリズムと比較して非スパース行列を扱うことができ、既存の量子アルゴリズムよりもわずかにスピードアップできる。 現在、量子アルゴリズムには幅広い応用があり、提案されたアルゴリズムは他の量子アルゴリズムのサブルーチンとして使うことができる。

We propose a quantum algorithm based on ridge regression model, which get the optimal fitting parameters w and a regularization hyperparameter {\alpha} by analysing the training dataset. The algorithm consists of two subalgorithms. One is generating predictive value for a new input, the way is to apply the phase estimation algorithm to the initial state |Xi and apply the controlled rotation to the eigenvalue register. The other is finding an optimal regularization hyperparameter {\alpha} , the way is to apply the phase estimation algorithm to the initial state |yi and apply the controlled rotation to the eigenvalue register. The second subalgorithm can compute the whole training dataset in parallel that improve the efficiency. Compared with the classical ridge regression algorithm, our algorithm overcome multicollinearity and overfitting. Moreover, it have exponentially faster. What's more, our algorithm can deal with the non-sparse matrices in comparison to some existing quantum algorithms and have slightly speedup than the existing quantum counterpart. At present, the quantum algorithm has a wide range of application and the proposed algorithm can be used as a subroutine of other quantum algorithms.
翻訳日:2023-04-02 06:58:52 公開日:2021-04-27
# COCOベンチマーク問題と人工的発生問題の相補性解析

A Complementarity Analysis of the COCO Benchmark Problems and Artificially Generated Problems ( http://arxiv.org/abs/2104.13060v1 )

ライセンス: Link先を確認
Urban \v{S}kvorc, Tome Eftimov, Peter Koro\v{s}ec(参考訳) ベンチマーク問題集合を設計する際には、可能なすべての問題の集合のよい一般化であるベンチマーク問題の集合を作成することが重要である。 この困難なタスクを緩和する方法の1つは、人工的に生成された問題を使用することである。 本稿では,このような単目的連続問題生成手法を解析し,数値最適化アルゴリズムのベンチマーク問題であるcocoベンチマーク問題集合と比較する。 探索的ランドスケープ解析と特異値分解を用いることで,ベンチマーク問題評価におけるバイアス低減を目標として,可視化と相関分析手法を適用し,問題間の関係をさらに探究できることを示す。

When designing a benchmark problem set, it is important to create a set of benchmark problems that are a good generalization of the set of all possible problems. One possible way of easing this difficult task is by using artificially generated problems. In this paper, one such single-objective continuous problem generation approach is analyzed and compared with the COCO benchmark problem set, a well know problem set for benchmarking numerical optimization algorithms. Using Exploratory Landscape Analysis and Singular Value Decomposition, we show that such representations allow us to further explore the relations between the problems by applying visualization and correlation analysis techniques, with the goal of decreasing the bias in benchmark problem assessment.
翻訳日:2023-04-02 06:58:19 公開日:2021-04-27
# bellシナリオにおける自己テストのためのグラフ理論フレームワーク

Graph-Theoretic Framework for Self-Testing in Bell Scenarios ( http://arxiv.org/abs/2104.13035v1 )

ライセンス: Link先を確認
Kishor Bharti, Maharshi Ray, Zhen-Peng Xu, Masahito Hayashi, Leong-Chuan Kwek, and Ad\'an Cabello(参考訳) 量子自己テスト(Quantum self-testing)は、量子状態の証明と出力統計のみを用いて、基礎となる量子システムに関する最小の仮定で測定を行うタスクである。 量子相関の集合における極端点のいくつかは、特定の状態と測定で等距離までしか達成できないという観察に基づいている。 ここでは,ベル非局所性シナリオにおける量子自己検定の新しい手法を提案する。 頂点重み付き誘導部分グラフ $(g,w)$ の \emph{theta body} は、頂点が事象を表し、辺が互いに排他的な事象に結合するグラフである。 これは、テータ体内の量子最大値と最大値(Lov\'asztheta number)が$(G,w)$に一致する場合、自己検定はテータ体で$G$の自己検定性を証明するだけで証明できることを意味する。 このグラフ理論のフレームワークで私たちは 一 自己検定を許すことで知られているいくつかの量子相関の自己検定可能性(任意のランクの射影測度に対するクラウザー・ホーネ・シモニー・ホルト(英語版)(CHSH)及び三者メルミンベルの不等式、ランク1の射影測度に対する連鎖ベルの不等式等)を回復すること。 (ii)既存の自己テスト技術では知られていない量子相関の自己テスト可能性を証明する(例えば、階数1の射影計測においてアプナー・シドニー・ベルの不等式に違反するもの)。 さらに、連鎖ベルの不等式の解析は、離散数学のコミュニティにおいて独立した関心を持つであろう M\"obius ladders として知られるよく研究されたグラフの族に対する Lov\'asz テータ数の閉形式表現を与える。

Quantum self-testing is the task of certifying quantum states and measurements using the output statistics solely, with minimal assumptions about the underlying quantum system. It is based on the observation that some extremal points in the set of quantum correlations can only be achieved, up to isometries, with specific states and measurements. Here, we present a new approach for quantum self-testing in Bell non-locality scenarios, motivated by the following observation: the quantum maximum of a given Bell inequality is, in general, difficult to characterize. However, it is strictly contained in an easy-to-characterize set: the \emph{theta body} of a vertex-weighted induced subgraph $(G,w)$ of the graph in which vertices represent the events and edges join mutually exclusive events. This implies that, for the cases where the quantum maximum and the maximum within the theta body (known as the Lov\'asz theta number) of $(G,w)$ coincide, self-testing can be demonstrated by just proving self-testability with the theta body of $G$. This graph-theoretic framework allows us to (i) recover the self-testability of several quantum correlations that are known to permit self-testing (like those violating the Clauser-Horne-Shimony-Holt (CHSH) and three-party Mermin Bell inequalities for projective measurements of arbitrary rank, and chained Bell inequalities for rank-one projective measurements), (ii) prove the self-testability of quantum correlations that were not known using existing self-testing techniques (e.g., those violating the Abner Shimony Bell inequality for rank-one projective measurements). Additionally, the analysis of the chained Bell inequalities gives us a closed-form expression of the Lov\'asz theta number for a family of well-studied graphs known as the M\"obius ladders, which might be of independent interest in the community of discrete mathematics.
翻訳日:2023-04-02 06:58:07 公開日:2021-04-27
# 分極性ニューロモルフィックコンピューティングにおけるスーパーポリノミカル量子の増強

Superpolynomial Quantum Enhancement in Polaritonic Neuromorphic Computing ( http://arxiv.org/abs/2104.13011v1 )

ライセンス: Link先を確認
Huawen Xu, Tanjung Krisnanda, Wouter Verstraelen, Timothy C. H. Liew and Sanjib Ghosh(参考訳) 最近の実証実験では、コヒーレントな古典状態 (D. Ballarini et al., Nano Lett. 20, 3506 (2020)) を用いて、エキシトン偏光子を用いたニューロモルフィックコンピューティングの実装が実証されている。 同時に、非線形励起子-ポーラリトンは非古典状態を形成する量子状態に達することが期待されている。 ここでは,エキシトン偏光子の量子特性を理論的に考慮し,画像認識タスクにおける超多項量子強調の予測を行う。 これは実験的に利用可能なパラメータで達成される。

Recent proof-of-principle experiments have demonstrated the implementation of neuromorphic computing using exciton-polaritons, making use of coherent classical states [D. Ballarini et al., Nano Lett. 20, 3506 (2020)]. At the same time, it is expected that nonlinear exciton-polaritons can reach a quantum regime forming non-classical states. Here we consider theoretically the quantum nature of exciton polaritons and predict a superpolynomial quantum enhancement in image recognition tasks. This is achieved within experimentally accessible parameters.
翻訳日:2023-04-02 06:57:25 公開日:2021-04-27
# 重なりのない距離マヨラナゼロモードによる相互相関

Cross correlation mediated by distant Majorana zero modes with no overlap ( http://arxiv.org/abs/2104.12991v1 )

ライセンス: Link先を確認
Lupei Qin, Wei Feng, and Xin-Qi Li(参考訳) ショットノイズ計算による既存の研究では、マヨルダナゼロモード (mzms) で接続された2つの電流間の相互相関は、カップリングエネルギー $\epsilon_m\to 0$ のときに消失する。 MZMs の非局所性の本質的な性質に触発され、この重要な問題を再考し、極限 $\epsilon_M\to 0$ においても、非消滅的相互相関を示す実験的なスキームを提案する。 提案手法は,実測では直接アクセス可能な全電流の分解解析を応用して理論的に得られる,andreevプロセス関連分岐回路電流を用いる。 異なるバイアス電圧設定のために、負相関と正相関の興味深い結果を見つけ、量子ジャンプ法を用いて簡単な物理的理解を行う。 重要な点は、コンダクタンスのゼロバイアスピークの証拠と組み合わせることで、本研究で予測される非局所交叉相関は、非局所的mzmの存在を確実に確認するのに役立つ。

Existing studies via shot noise calculation conclude that the cross correlation between the currents in the two leads connected by a pair of Majorana zero modes (MZMs) vanishes when their coupling energy $\epsilon_M\to 0$. Motivated by the intrinsic nature of nonlocality of the MZMs, we revisit this important problem and propose an experimental scheme to demonstrate the nonvanishing cross correlation even at the limit $\epsilon_M\to 0$. The proposed scheme employs the Andreev-process-associated branch circuit currents, which are theoretically obtained by applying a decomposition analysis for the total currents while in practical measurement, are accessible directly. For different bias voltage setup, we find intriguing results of both negative and positive correlations and carry out simple physical understanding using a quantum jump technique. Importantly, combining together with the evidence of the zero-bias-peak of conductance, the nonlocal cross correlation predicted in this work can help to definitely confirm the existence of the nonlocal MZMs.
翻訳日:2023-04-02 06:57:13 公開日:2021-04-27
# ランダム位相近似の反転による再正規化 q-dependent Spin Susceptibility: 2次元超伝導NbSe$_{2}$におけるスピン揺らぎの役割の定量的評価

Renormalized q-dependent Spin Susceptibility by inverting the Random Phase Approximation: Implications for quantitative assessment of the role of spin fluctuations in 2D Ising superconductor NbSe$_{2}$ ( http://arxiv.org/abs/2104.13205v1 )

ライセンス: Link先を確認
Suvadip Das and Igor I. Mazin(参考訳) 運動量依存のスピン感受性$\chi(\mathbf{q})$の正確な決定は、磁性と超伝導を記述する上で非常に重要である。 原理的には、線形応答密度汎関数論 (DFT) における$\chi(\mathbf{q})$を計算するための形式主義は確立されているが、一般に利用可能なコードにはこの能力が含まれるものはほとんどない。 ここでは,静的な$\chi(\mathbf{q})$を計算する別の方法について述べる。 この手法は, 人工ハバード相互作用により安定化されたスピンスパイラルのエネルギーを直接計算した$\chi(\mathbf{0})$の標準固定スピンモーメント計算を組み合わせた。 これらの計算から、$\chi_{DFT}(\mathbf{q} )$は RPA 式を反転させることで抽出できる。 このレシピをNbSe$_2$単層で最近発見されたIsing超伝導に応用し,近年の超伝導の最もエキサイティングな発見の1つである。 スピン揺らぎは秩序パラメータのパリティに強く影響する可能性が示唆された。 以前の推定では強磁性に近く、$i.e.$、$\chi(\mathbf{q})$は$\mathbf{q}=0$であった。 スピン揺らぎの構造はより複雑であり、揺らぎスペクトルは $\mathbf{q}\approx (0.2,0)$ で急激にピークとなる。 このようなスペクトルはバンド間ペアリング相互作用を変化させ、超伝導状態に大きな影響を及ぼす。

Accurate determination of the full momentum-dependent spin susceptibility $\chi(\mathbf{q}) $ is very important for the description of magnetism and superconductivity. While in principle the formalism for calculating $\chi(\mathbf{q})$ in the linear response density functional theory (DFT) is well established, hardly any publicly available code includes this capability. Here, we describe an alternative way to calculate the static $\chi(\mathbf{q})$, which can be applied to most common DFT codes without additional programming. The method combined standard fixed-spin-moment calculations of $\chi(\mathbf{0}) $ with direct calculations of the energy of spin spirals stabilized by an artificial Hubbard interaction. From these calculations, $\chi_{DFT}(\mathbf{q} )$ can be extracted by inverting the RPA formula. We apply this recipe to the recently discovered Ising superconductivity in NbSe$_2$ monolayer, one of the most exciting findings in superconductivity in recent years. It was proposed that spin fluctuations may strongly affect the parity of the order parameter. Previous estimates suggested proximity to ferromagnetism, $i.e.$, $\chi(\mathbf{q})$ peaked at $\mathbf{q}=0$. We find that the structure of spin fluctuations is more complicated, with the fluctuation spectrum sharply peaked at $\mathbf{q}\approx (0.2,0)$. Such a spectrum would change the interband pairing interaction and considerably affect the superconducting state.
翻訳日:2023-04-02 06:50:44 公開日:2021-04-27
# 量子流体力学からクープマン波動関数i

From quantum hydrodynamics to Koopman wavefunctions I ( http://arxiv.org/abs/2104.13185v1 )

ライセンス: Link先を確認
Fran\c{c}ois Gay-Balmaz, Cesare Tronci(参考訳) 位相空間における古典波動関数の理論に基づき、古典力学のkoopman-van hove(kvh)定式化とその性質について述べる。 特に、関連する古典的リウヴィル密度が古典波動関数上の厳密な接触変換のユニタリ作用に関連する運動量写像として生じることを示す。 新しい文脈で量子力学からMadelung変換を適用すると、クープマン波動関数図が任意の古典分布を再現するのに不十分であることを示す。 しかし、この問題はフォン・ノイマン作用素に頼って完全に克服される。 実際、後者はリウヴィル密度の特異な$\delta-$likeプロファイルを可能にするので、相空間で点粒子を再現できることを示した。

Based on Koopman's theory of classical wavefunctions in phase space, we present the Koopman-van Hove (KvH) formulation of classical mechanics as well as some of its properties. In particular, we show how the associated classical Liouville density arises as a momentum map associated to the unitary action of strict contact transformations on classical wavefunctions. Upon applying the Madelung transform from quantum hydrodynamics in the new context, we show how the Koopman wavefunction picture is insufficient to reproduce arbitrary classical distributions. However, this problem is entirely overcome by resorting to von Neumann operators. Indeed, we show that the latter also allow for singular $\delta-$like profiles of the Liouville density, thereby reproducing point particles in phase space.
翻訳日:2023-04-02 06:50:15 公開日:2021-04-27
# 量子流体力学からクープマン波動関数II

From quantum hydrodynamics to Koopman wavefunctions II ( http://arxiv.org/abs/2104.13172v1 )

ライセンス: Link先を確認
Cesare Tronci, Fran\c{c}ois Gay-Balmaz(参考訳) 第1部で導入された古典力学のクープマン・ヴァン・ホーブ(KvH)の定式化に基づいて、ハイブリッド量子古典系に対するハミルトン模型を定式化する。 これは、2つの古典粒子に対してkvh波動方程式を書き、その一方に正準量子化を適用することによって得られる。 関連する量子、古典、ハイブリッド密度に関するモデルの幾何的性質について説明する。 量子古典的マデルング変換を提示した後、合同量子古典分布は、ハイブリッドヒルベルト空間上のファンホーブ表現から自然に誘導されるユニタリ作用の運動量マップとして現れる。 量子密度行列は構成によって正の値となるが、古典密度ではそのような結果が得られない。 しかし、ここでは、フローが古典密度のサインを保存するハイブリッドハミルトニアンのクラスを示す。 最後に,モーメントマップ構造に基づく簡単な閉包モデルを提案する。

Based on the Koopman-van Hove (KvH) formulation of classical mechanics introduced in Part I, we formulate a Hamiltonian model for hybrid quantum-classical systems. This is obtained by writing the KvH wave equation for two classical particles and applying canonical quantization to one of them. We illustrate several geometric properties of the model regarding the associated quantum, classical, and hybrid densities. After presenting the quantum-classical Madelung transform, the joint quantum-classical distribution is shown to arise as a momentum map for a unitary action naturally induced from the van Hove representation on the hybrid Hilbert space. While the quantum density matrix is positive by construction, no such result is currently available for the classical density. However, here we present a class of hybrid Hamiltonians whose flow preserves the sign of the classical density. Finally, we provide a simple closure model based on momentum map structures.
翻訳日:2023-04-02 06:49:13 公開日:2021-04-27
# 電子式マッハツェンダー干渉計における多粒子干渉

Multi-particle interference in an electronic Mach-Zehnder interferometer ( http://arxiv.org/abs/2104.13136v1 )

ライセンス: Link先を確認
Janne Kotilahti, Pablo Burset, Michael Moskalets, Christian Flindt(参考訳) 近年の動的単一電子源の開発により、メゾスコピック回路における個々の電荷キャリアの量子特性の観測と操作が可能となった。 本稿では,動的電圧パルス駆動型電子式マッハツェンダー干渉計における多粒子効果について検討する。 この目的のために、干渉電流と干渉計の出力の可視性を評価するために、Floquet散乱形式を用いる。 注入された多粒子状態は、その一階相関関数によって記述することができ、各粒子が1つの粒子を表す初等相関関数の和に分解する。 パルス内の各粒子は干渉電流に独立して寄与するが、可視性(最大干渉電流によって決定される)はパルス内の異なる粒子間の多粒子干渉によって生じるフラウンホーファー状回折パターンを示す。 多粒子パルスのシーケンスでは、可視性は格子からの回折パターンに似ており、格子の役割とパルスによって再生されるスリット間の間隔とそれらの間の時間遅延が関係している。 この結果は,電子式マッハツェンダー干渉計に多粒子パルスを注入することで将来の実験で観察できる。

The recent development of dynamic single-electron sources makes it possible to observe and manipulate the quantum properties of individual charge carriers in mesoscopic circuits. Here, we investigate multi-particle effects in an electronic Mach-Zehnder interferometer driven by dynamic voltage pulses. To this end, we employ a Floquet scattering formalism to evaluate the interference current and the visibility in the outputs of the interferometer. An injected multi-particle state can be described by its first-order correlation function, which we decompose into a sum of elementary correlation functions that each represent a single particle. Each particle in the pulse contributes independently to the interference current, while the visibility (determined by the maximal interference current) exhibits a Fraunhofer-like diffraction pattern caused by the multi-particle interference between different particles in the pulse. For a sequence of multi-particle pulses, the visibility resembles the diffraction pattern from a grid, with the role of the grid and the spacing between the slits being played by the pulses and the time delay between them. Our findings may be observed in future experiments by injecting multi-particle pulses into an electronic Mach-Zehnder interferometer.
翻訳日:2023-04-02 06:48:35 公開日:2021-04-27
# 楕円コヒーレント散乱によるナノ粒子冷却の理論

Theory of nanoparticle cooling by elliptic coherent scattering ( http://arxiv.org/abs/2104.13134v1 )

ライセンス: Link先を確認
Henning Rudolph, Jonas Sch\"afer, Benjamin A. Stickler, Klaus Hornberger(参考訳) 楕円偏光型ツイーザの空洞モードへのコヒーレント散乱は、浮遊したナノ粒子をそれらの回転と変換の量子状態(Phys. Rev. 126, 163603 (2021))に冷却するための有望なプラットフォームを提供する。 本稿では,非球状ナノ粒子が非球面偏極レーザービームにどのように影響を受けるか,2つの直交キャビティモードがいかに回転冷却と翻訳冷却を可能にするか,および得られたパワースペクトルが回転非線形のシグネチャを含むか,について述べる。 本研究では, トラッピング周波数, 光機械結合強度, 冷却速度, 定常占有率の解析式を提供し, ツイーザー楕円性依存性について検討した。

Coherent scattering of an elliptically polarised tweezer into a cavity mode provides a promising platform for cooling levitated nanoparticles into their combined rotational and translational quantum regime [Phys. Rev. Lett. 126, 163603 (2021)]. This article presents the theory of how aspherical nanoparticles are affected by elliptically polarised laser beams, how two orthogonal cavity modes enable rotational and translational cooling, and how the resulting power spectra contain signatures of rotational non-linearities. We provide analytic expressions for the resulting trapping frequencies, opto-mechanical coupling strengths, cooling rates, and steady-state occupations and we study their dependence on the tweezer ellipticity.
翻訳日:2023-04-02 06:48:15 公開日:2021-04-27
# 多様性を考慮した進化的アルゴリズムによるクナプサック問題の育種

Breeding Diverse Packings for the Knapsack Problem by Means of Diversity-Tailored Evolutionary Algorithms ( http://arxiv.org/abs/2104.13133v1 )

ライセンス: Link先を確認
Jakob Bossek, Aneta Neumann, Frank Neumann(参考訳) 実践においては、単一のソリューションではなく、適切な品質のリッチなソリューションセットを意思決定者に提供することが望ましいことが多い。 本稿では,knapsack問題(KP)に対する進化的多様性の最適化について検討する。 我々のゴールは、OPTが最適解の値である少なくとも$(1-\varepsilon)\cdot OPT$の利益を持つソリューションの集団を進化させることである。 さらに、エントロピーに基づく多様性尺度に関して構造的に異なるべきである。 この目的のために、KP に対するよく知られた FPTAS によって計算された初期近似解を持つ単純な $(\mu+1)$-EA を提案する。 異なる標準突然変異演算子の効果を調査し、集団内の低頻度および/または高頻度の反転ビットに強い確率を与えるバイアス付き突然変異とクロスオーバーを導入する。 異なるインスタンスと設定に関する実験的研究により、ほとんどのケースで提案された変異演算子は、長期的にはわずかに劣るが、機能評価が厳しく制限された場合に強い利点があることが示された。

In practise, it is often desirable to provide the decision-maker with a rich set of diverse solutions of decent quality instead of just a single solution. In this paper we study evolutionary diversity optimization for the knapsack problem (KP). Our goal is to evolve a population of solutions that all have a profit of at least $(1-\varepsilon)\cdot OPT$, where OPT is the value of an optimal solution. Furthermore, they should differ in structure with respect to an entropy-based diversity measure. To this end we propose a simple $(\mu+1)$-EA with initial approximate solutions calculated by a well-known FPTAS for the KP. We investigate the effect of different standard mutation operators and introduce biased mutation and crossover which puts strong probability on flipping bits of low and/or high frequency within the population. An experimental study on different instances and settings shows that the proposed mutation operators in most cases perform slightly inferior in the long term, but show strong benefits if the number of function evaluations is severely limited.
翻訳日:2023-04-02 06:47:59 公開日:2021-04-27
# 量子熱エンジンの非平衡揺らぎ

Nonequilibrium fluctuations of a quantum heat engine ( http://arxiv.org/abs/2104.13427v1 )

ライセンス: Link先を確認
Tobias Denzler, Jonas F. G. Santos, Eric Lutz, and Roberto Serra(参考訳) 量子熱エンジンの熱力学特性は、熱と量子ゆらぎの存在により確率的である。 本稿ではスピン1/2量子オットーサイクルの効率と非平衡エントロピー生成統計を実験的に検討する。 まず,運転時間の異なる関節分布を抽出し,サイクル内の作業と熱の相関について検討した。 密結合条件に対応するほぼ完全な反相関が達成できることを示す。 この限界では、再構成された効率分布をマクロ効率でピークとし、揺らぎを強く抑制する。 さらに,作業と熱の連接変動関係という形で第2法則を検証した。 本結果は,量子領域における小型熱機械の統計特性を特徴付け,制御手段を提供するものである。

The thermodynamic properties of quantum heat engines are stochastic owing to the presence of thermal and quantum fluctuations. We here experimentally investigate the efficiency and nonequilibrium entropy production statistics of a spin-1/2 quantum Otto cycle. We first study the correlations between work and heat within a cycle by extracting their joint distribution for different driving times. We show that near perfect anticorrelation, corresponding to the tight-coupling condition, can be achieved. In this limit, the reconstructed efficiency distribution is peaked at the macroscopic efficiency and fluctuations are strongly suppressed. We further test the second law in the form of a joint fluctuation relation for work and heat. Our results characterize the statistical features of a small-scale thermal machine in the quantum domain and provide means to control them.
翻訳日:2023-04-02 06:40:55 公開日:2021-04-27
# 量子系におけるランダム性からの時間周期性

Time periodicity from randomness in quantum systems ( http://arxiv.org/abs/2104.13402v1 )

ライセンス: Link先を確認
Giacomo Guarnieri, Mark T. Mitchison, Archak Purkayastha, Dieter Jaksch, Berislav Bu\v{c}a, John Goold(参考訳) 多くの複雑な系は非周期的強制下で自発的に振動することができる。 このような自己オシレータは、人間の心臓の鼓動やチェロ弦の振動など、一時的な周期性が必要な生物学的および技術的アセンブリに共通している。 自己振動は古典的非線形系とその量子化系でよく理解されているが、半古典的極限を持たない量子系における周期性の自発的な出現はより不可解である。 ここでは、この振る舞いがオープン量子システムの繰り返し相互作用記述の中に現れることを示す。 具体的には,ランダムな時間に補助系との逐次結合により散逸する多体量子系を考える。 この設定で振動長周期状態を保証する動的対称性条件を開発する。 我々の厳密な結果は、閉じ込められたイオン量子シミュレータで実装できる特定のスピンモデルで示される。

Many complex systems can spontaneously oscillate under non-periodic forcing. Such self-oscillators are commonplace in biological and technological assemblies where temporal periodicity is needed, such as the beating of a human heart or the vibration of a cello string. While self-oscillation is well understood in classical non-linear systems and their quantized counterparts, the spontaneous emergence of periodicity in quantum systems without a semi-classical limit is more elusive. Here, we show that this behavior can emerge within the repeated-interaction description of open quantum systems. Specifically, we consider a many-body quantum system that undergoes dissipation due to sequential coupling with auxiliary systems at random times. We develop dynamical symmetry conditions that guarantee an oscillatory long-time state in this setting. Our rigorous results are illustrated with specific spin models, which could be implemented in trapped-ion quantum simulators.
翻訳日:2023-04-02 06:40:47 公開日:2021-04-27
# 長距離干渉量子回路における測定誘起遷移

The Measurement-induced Transition in Long-range Interacting Quantum Circuits ( http://arxiv.org/abs/2104.13372v1 )

ライセンス: Link先を確認
Maxwell Block, Yimu Bao, Soonwon Choi, Ehud Altman, Norman Yao(参考訳) 一元的進化と射影的測定との競合は、量子絡み合いの力学における相転移をもたらす。 ここでは、この遷移の性質が、長距離のパワー-ロー相互作用の存在によって根本的に変化することを示す。 十分弱いパワーローの場合、測定誘起遷移は、短距離相互作用型ハイブリッド回路と類似した共形場理論によって記述される。 しかし、臨界パワーローを超えて、長距離相互作用が連続的に異なる臨界指数を持つ非等角的普遍性クラスを生じさせることを示す。 パワーロー指数関数と測定速度関数として,1次元長距離相互作用型ハイブリッド回路モデルの位相図を数値的に決定する。 最後に、長距離量子イジングモデルへの解析的マッピングを用いることで、臨界パワーローの理論的理解を提供する。

The competition between scrambling unitary evolution and projective measurements leads to a phase transition in the dynamics of quantum entanglement. Here, we demonstrate that the nature of this transition is fundamentally altered by the presence of long-range, power-law interactions. For sufficiently weak power-laws, the measurement-induced transition is described by conformal field theory, analogous to short-range-interacting hybrid circuits. However, beyond a critical power-law, we demonstrate that long-range interactions give rise to a continuum of non-conformal universality classes, with continuously varying critical exponents. We numerically determine the phase diagram for a one-dimensional, long-range-interacting hybrid circuit model as a function of the power-law exponent and the measurement rate. Finally, by using an analytic mapping to a long-range quantum Ising model, we provide a theoretical understanding for the critical power-law.
翻訳日:2023-04-02 06:40:06 公開日:2021-04-27
# SU(N)対称性の破れによる相互作用格子フェルミオンのフレーバー選択的局在

Flavour-selective localization in interacting lattice fermions via SU(N) symmetry breaking ( http://arxiv.org/abs/2104.13338v1 )

ライセンス: Link先を確認
Daniele Tusi, Lorenzo Franchi, Lorenzo Francesco Livi, Karla Baumann, Daniel Benedicto Orenes, Lorenzo Del Re, Rafael Emilio Barfknecht, Tianwei Zhou, Massimo Inguscio, Giacomo Cappellini, Massimo Capone, Jacopo Catani and Leonardo Fallani(参考訳) 量子系における粒子間の大きな反発は、mott絶縁材料中の電子に起こるように、その局在に繋がる可能性がある。 このパラダイムは近年、軌道選択型mott絶縁体(英語版)と呼ばれる新しい量子状態へと分岐し、軌道中の電子が局所化することが予測されている。 我々は,この現象の直接的実験的実現法を提供し,より一般的なフレーバー選択的局在まで拡張する。 原子ベースの量子シミュレータを用いて、su(3) fermi-hubbardモデルを用いて、フレーバー間の波長可変結合によって対称性を破って、局在の増大とフレーバー依存相関の出現を観測する。 我々は、フレーバー選択モット物理の実現により、超伝導体から位相絶縁体まで多成分材料の量子シミュレーションへの道を開く。

A large repulsion between particles in a quantum system can lead to their localization, as it happens for the electrons in Mott insulating materials. This paradigm has recently branched out into a new quantum state, the orbital-selective Mott insulator, where electrons in some orbitals are predicted to localize, while others remain itinerant. We provide a direct experimental realization of this phenomenon, that we extend to a more general flavour-selective localization. By using an atom-based quantum simulator, we engineer SU(3) Fermi-Hubbard models breaking their symmetry via a tunable coupling between flavours, observing an enhancement of localization and the emergence of flavour-dependent correlations. Our realization of flavour-selective Mott physics opens the path to the quantum simulation of multicomponent materials, from superconductors to topological insulators.
翻訳日:2023-04-02 06:39:41 公開日:2021-04-27
# 古典的デバイスでエミュレートされた量子デコヒーレンス

Quantum decoherence emulated in a classical device ( http://arxiv.org/abs/2104.13245v1 )

ライセンス: Link先を確認
Brian R. La Cour, Corey I. Ostrove, Michael J. Starkey, Granville E. Ott(参考訳) 量子ゲート演算の古典的エミュレーションは、ここでは実際のアナログ電子デバイスによって表現され、パウリ作用素の普遍的な集合の観点から量子演算として正確にモデル化できることを示す。 この観測は、フォールトトレランスを改善するために量子誤差補正手法を古典的システムに適用する可能性を高める。

We demonstrate that a classical emulation of quantum gate operations, here represented by an actual analog electronic device, can be modeled accurately as a quantum operation in terms of a universal set of Pauli operators. This observation raises the possibility that quantum error correction methods may be applied to classical systems to improve fault tolerance.
翻訳日:2023-04-02 06:38:30 公開日:2021-04-27
# バックボード配線問題に対する動的キャット群最適化アルゴリズム

Dynamic Cat Swarm Optimization Algorithm for Backboard Wiring Problem ( http://arxiv.org/abs/2107.08908v1 )

ライセンス: Link先を確認
Aram Ahmed, Tarik A. Rashid and Soran Saeed(参考訳) 本稿では,動的猫群最適化と呼ばれる強力な群知能メタヒューリスティック最適化アルゴリズムを提案する。 定式化は、既存のCat Swarm Optimizationを変更することで行われる。 もともとの猫群最適化は、探索段階と搾取段階のバランスがずれたために通常起こる局所光学系における誘惑の可能性である「予備収束」の欠点に苦しむ。 そこで,提案アルゴリズムは,アルゴリズムの選択スキームと探索モードを変更することで,これらの相の適切なバランスを与える新しい手法を提案する。 提案アルゴリズムの性能評価には,23の古典的テスト関数,10の現代的なテスト関数(cec 2019),実世界のシナリオが使用される。 さらに、次元ワイド・ダイバーシティ・メトリックは、探索と搾取フェーズの比率を測定するために用いられる。 最適化の結果,提案アルゴリズムの有効性が示され,文献でよく知られたアルゴリズムと比較された。 さらに,統計的手法やグラフを用いて,アルゴリズムの性能をさらに確認する。 最後に,このアルゴリズムをさらに改善するための結論と今後の方向性について述べる。

This paper presents a powerful swarm intelligence meta-heuristic optimization algorithm called Dynamic Cat Swarm Optimization. The formulation is through modifying the existing Cat Swarm Optimization. The original Cat Swarm Optimization suffers from the shortcoming of 'premature convergence', which is the possibility of entrapment in local optima which usually happens due to the off-balance between exploration and exploitation phases. Therefore, the proposed algorithm suggests a new method to provide a proper balance between these phases by modifying the selection scheme and the seeking mode of the algorithm. To evaluate the performance of the proposed algorithm, 23 classical test functions, 10 modern test functions (CEC 2019) and a real world scenario are used. In addition, the Dimension-wise diversity metric is used to measure the percentage of the exploration and exploitation phases. The optimization results show the effectiveness of the proposed algorithm, which ranks first compared to several well-known algorithms available in the literature. Furthermore, statistical methods and graphs are also used to further confirm the outperformance of the algorithm. Finally, the conclusion as well as future directions to further improve the algorithm are discussed.
翻訳日:2023-04-02 06:31:36 公開日:2021-04-27
# 都市環境における自然ソリューション--都市課題と生態系サービスのための用語・分類・評価

Nature-based solutions in the urban context: terminology, classification and scoring for urban challenges and ecosystem services ( http://arxiv.org/abs/2105.07814v1 )

ライセンス: Link先を確認
Joana.A.C. Castellar, Lucia .A. Popartan, Josep Pueyo-Ros, Natasa Atanasova, Gunter Langergraber, Ina Saumel, Lluis Corominas, Joaquim Comas, Vicenc Acuna(参考訳) 自然型ソリューション(nbs)の概念は、社会的、経済的、環境的な都市的課題を横断的に解決することで持続可能な開発を促進するために出現した。 しかし、特に、生態系サービス(es)と都市課題(uc)の観点からのタイプ分類、命名、性能評価に関して、nbsの概念化に関する合意は依然としてかなり欠落している。 そこで本記事では,4つの欧州プロジェクトからの知識を集約し,NBSの共通理解の道筋を定め,その主流化を促進する。

The concept of Nature-Based Solutions (NBS) has emerged to foster sustainable development by transversally addressing social, economic, and environmental urban challenges. However, there is still a considerable lack of agreement on the conceptualization of NBS, especially concerning typologies, nomenclature, and performance assessments in terms of ecosystem services (ES) and urban challenges (UC). Therefore, this article consolidates the knowledge from 4 European projects to set a path for a common understanding of NBS and thus, facilitate their mainstreaming.
翻訳日:2023-04-02 06:31:19 公開日:2021-04-27
# YAPS - 学生の活性化とエミュレーションのためのオープンテストシステム

YAPS -- Your Open Examination System for Activating and emPowering Students ( http://arxiv.org/abs/2105.06552v1 )

ライセンス: Link先を確認
Fin Hendrik Bahnsen and Goerschwin Fey(参考訳) 様々なライセンスモデルの下で特定のドメインに特化した多数のe-assesmentシステムがある。 コスト、拡張性、保守性は機関にとって重要な問題である。 コースへの利用と参加が教育者の主な関心事である。 学生にとって、ユーザエクスペリエンスと迅速な透過的なフィードバックと“ベター”テストが最も重要です。 多くの試験は、それぞれ能力指向の学習支援と試験によるスキルの向上とテストではなく、記憶された知識のテストに重点を置いている。 我々は,設計決定について議論し,YAPSのアーキテクチャを提示する。 yapsは、ロジスティクス、コンピュータ工学、試験のためのアルゴリズムなど、非常に多様な講義に使われてきたが、学習期間にフィードバックを素早く行うことで学生に力を与えるのにも使われている。 機械技術者のためのコンピュータサイエンスの基礎講義の結果について報告する。

There are numerous e-assessment systems devoted to specific domains under diverse license models. Cost, extensibility, and maintainability are relevant issues for an institution. Ease of use and inclusion into courses are educator's main concerns. For students the user experience and fast transparent feedback plus "better" tests are most important. Many exams still focus on testing memorized knowledge, instead of improving and testing skills with competence-oriented learning support and examinations, respectively. We discuss design decisions and present the resulting architecture of YAPS - Your open Assessment system for emPowering Students. YAPS has been used for very diverse lectures in logistics, computer engineering, and algorithms for exams, but also for empowering students by fast feedback during the learning period. We report on results in a basic lecture on Computer Science for Mechanical Engineers.
翻訳日:2023-04-02 06:31:06 公開日:2021-04-27
# 放射線医学より放射線学のAIの方が期待できる?

Do We Expect More from Radiology AI than from Radiologists? ( http://arxiv.org/abs/2105.06264v1 )

ライセンス: Link先を確認
Maciej A. Mazurowski(参考訳) 放射線学のAIアルゴリズムに期待するものは、放射線学の実践におけるAIの選択と実装を形作るだろう。 本稿では、aiの一般的な期待について検討し、人間の読者の期待と比較する。 私は、AIと放射線学者の期待が根本的に異なるのを観察します。 AIの期待は、AIが意思決定を行う方法に関して、強く正当化された不信に基づいている。 AIの決定はよく理解されていないため、新しい予期せぬ状況においてアルゴリズムがどのように振る舞うかを知るのは難しい。 しかし、この不信は人間の読者の期待を反映していない。 人間の意思決定における慣用性や偏見がよく証明されているにもかかわらず、他人が私たちのように意思決定をするという前提から安心して、私たちは自分自身の意思決定を信頼しています。 人間の意思決定プロセスを説明する能力は乏しいが、他の人間による意思決定の説明を受け入れる。 放射線学の目標は最も正確な放射線学解釈であるため、放射線学者とAIの期待は類似しており、どちらもコンピュータアルゴリズムや人間の脳で行われている複雑で部分的に不透明な決定プロセスに対する健全な不信を反映すべきである。 これは一般的にはそうではない。

What we expect from radiology AI algorithms will shape the selection and implementation of AI in the radiologic practice. In this paper I consider prevailing expectations of AI and compare them to expectations that we have of human readers. I observe that the expectations from AI and radiologists are fundamentally different. The expectations of AI are based on a strong and justified mistrust about the way that AI makes decisions. Because AI decisions are not well understood, it is difficult to know how the algorithms will behave in new, unexpected situations. However, this mistrust is not mirrored in our expectations of human readers. Despite well-proven idiosyncrasies and biases in human decision making, we take comfort from the assumption that others make decisions in a way as we do, and we trust our own decision making. Despite poor ability to explain decision making processes in humans, we accept explanations of decisions given by other humans. Because the goal of radiology is the most accurate radiologic interpretation, our expectations of radiologists and AI should be similar, and both should reflect a healthy mistrust of complicated and partially opaque decision processes undergoing in computer algorithms and human brains. This is generally not the case now.
翻訳日:2023-04-02 06:30:54 公開日:2021-04-27
# 量子コンピュータの古典的エミュレーション

Classical emulation of a quantum computer ( http://arxiv.org/abs/2105.00941v1 )

ライセンス: Link先を確認
Brian R. La Cour, Corey I. Ostrove, Granville E. Ott, Michael J. Starkey, and Gary R. Wilson(参考訳) 本稿では,任意の量子状態を表すために,有界時間と振幅の信号を用いる超古典的システムを用いて,普遍量子コンピュータをエミュレートする新しい手法について述べる。 信号はどんなモード(例えば、音響、電磁など)であっても構わないが、この論文は電子信号に焦点をあてる。 個々の量子ビットは位相内および二次正弦波信号で表現され、ユニタリゲート操作は単純なアナログ電子回路装置を用いて行われる。 このようにして、マルチ量子ビット量子状態のヒルベルト空間構造とゲート演算の普遍集合は、古典的に完全にエミュレートすることができる。 プログラム可能なプロトタイプシステムの結果を提示し、議論する。

This paper describes a novel approach to emulate a universal quantum computer with a wholly classical system, one that uses a signal of bounded duration and amplitude to represent an arbitrary quantum state. The signal may be of any modality (e.g. acoustic, electromagnetic, etc.) but this paper will focus on electronic signals. Individual qubits are represented by in-phase and quadrature sinusoidal signals, while unitary gate operations are performed using simple analog electronic circuit devices. In this manner, the Hilbert space structure of a multi-qubit quantum state, as well as a universal set of gate operations, may be fully emulated classically. Results from a programmable prototype system are presented and discussed.
翻訳日:2023-04-02 06:30:36 公開日:2021-04-27
# GHZパズルの実験実験のための局所隠れ変数モデル

A local hidden-variable model for experimental tests of the GHZ puzzle ( http://arxiv.org/abs/2104.14503v1 )

ライセンス: Link先を確認
Brian R. La Cour(参考訳) Greenberger-Horne-Zeilinger (GHZ) パズルは、量子非局所性の研究に使われ、局所隠れ変数モデルに対するオール・オー・ノー・ゴー定理を提供する。 3粒子ghz状態で作製した一致検出光子を用いた最近の実験は、量子非局所性をテストするために用いられてきたが、公正なサンプリング仮説に依存し、検出効率が不十分であるため、局所実在論を除外できなかった。 本稿では,同様の結果が得られる振幅減衰検出に基づく,物理的に動機づけられた局所隠れ変数モデルについて述べる。 モデルの検出効率は、局所リアリズムに許容される範囲内にあり、興味深いことに、検出イベントが空間的に分離された場合でも、検出器間の統計的相関を示す。 検出しきい値の増大は、検出効率の低下による理想的な量子予測との一致を改善する。 このモデルの興味深い特徴は、検出効率が測定対象の観測値に依存する可能性があることである。

The Greenberger-Horne-Zeilinger (GHZ) puzzle has been used to study quantum nonlocality and provide an all-or-nothing, no-go theorem for local hidden-variable models. Recent experiments using coincident-detected entangled photons prepared in a three-particle GHZ state have been used to test quantum nonlocality, but fail to rule out local realism due to a reliance on the fair-sampling hypothesis and insufficient detection efficiency. This paper describes a physically motivated local hidden-variable model based on amplitude-threshold detection that is capable of producing similar results. Detection efficiencies for the model are within the bounds permitted for local realism and, interestingly, exhibit statistical correlations between detectors, even when the detection events are spacelike separated. Increasing the detection threshold improves agreement with the ideal quantum predictions at the cost of decreased detection efficiency. A curious emergent feature of the model is that detection efficiencies may depend upon which observables are chosen for measurement.
翻訳日:2023-04-02 06:30:24 公開日:2021-04-27
# 量子アナログを用いた古典的シミュレートアニーリング

Classical Simulated Annealing Using Quantum Analogues ( http://arxiv.org/abs/2104.14502v1 )

ライセンス: Link先を確認
Brian R. La Cour, James E. Troupe, and Hans M. Mark(参考訳) 本稿では,一般イジング形式の離散スピン系におけるシミュレーションアニーリングの性能を向上させるために,量子トンネル挙動に対する古典的類似物の利用を検討する。 具体的には、各アニーリングステップにおける多重同時スピンフリップの使用を、量子スピンコヒーレンスに類似したものであり、量子トンネルを模倣するボルツマン受容確率の修正であると考えている。 複数のスピンフリップを使用することは、特定のアニーリングスケジュールでは有利であるが、長いアニール時間の場合に限られる。

In this paper we consider the use of certain classical analogues to quantum tunneling behavior to improve the performance of simulated annealing on a discrete spin system of the general Ising form. Specifically, we consider the use of multiple simultaneous spin flips at each annealing step as an analogue to quantum spin coherence as well as modifications of the Boltzmann acceptance probability to mimic quantum tunneling. We find that the use of multiple spin flips can indeed be advantageous under certain annealing schedules, but only for long anneal times.
翻訳日:2023-04-02 06:30:06 公開日:2021-04-27
# コミュニティと著者のコンテキストを活用したテキストに基づく誤読検出モデルの性能とバイアス

Leveraging Community and Author Context to Explain the Performance and Bias of Text-Based Deception Detection Models ( http://arxiv.org/abs/2104.13490v1 )

ライセンス: Link先を確認
Galen Weld, Ellyn Ayton, Tim Althoff, and Maria Glenski(参考訳) オンラインコミュニティで共有されている偽ニュース記事はNLPモデルで検出でき、近年ではそのようなモデルの開発に焦点が当てられている。 本研究では、オンラインコミュニティの特徴(コンテンツが投稿されている状況と状況)を用いて、ニューラルネットワークの偽装検出モデルの性能を説明し、モデルの正確さや失敗によって不均衡に影響を受けるサブ人口を特定する。 我々は、誰がコンテンツを投稿しているか、どのコンテンツが投稿されているかを調べる。 著者特性は, コミュニティ特性よりも, 偽装コンテンツの予測因子として優れているが, どちらの特性もモデル性能と強く相関していることがわかった。 F1スコアのような従来のパフォーマンス指標は、特定の著者のような孤立したサブポピュレーション上での貧弱なモデルパフォーマンスを捉えることに失敗する可能性がある。

Deceptive news posts shared in online communities can be detected with NLP models, and much recent research has focused on the development of such models. In this work, we use characteristics of online communities and authors -- the context of how and where content is posted -- to explain the performance of a neural network deception detection model and identify sub-populations who are disproportionately affected by model accuracy or failure. We examine who is posting the content, and where the content is posted to. We find that while author characteristics are better predictors of deceptive content than community characteristics, both characteristics are strongly correlated with model performance. Traditional performance metrics such as F1 score may fail to capture poor model performance on isolated sub-populations such as specific authors, and as such, more nuanced evaluation of deception detection models is critical.
翻訳日:2023-04-02 06:29:55 公開日:2021-04-27
# 量子軌道の安定性とそのセサロ平均について

On stability of quantum trajectories and their Cesaro mean ( http://arxiv.org/abs/2104.13485v1 )

ライセンス: Link先を確認
Nina H. Amini, Ma\"el Bompais, and Cl\'ement Pellegrini(参考訳) 我々は量子軌道の安定性の問題(量子フィルタとも呼ばれる)に対処する。 我々は、真の量子軌道と {estimated one} の間の量子忠実性の限界を決定する。 精製仮定の下では、この極限は量子フィルタが安定であるという一つの意味に等しいことを示す。 一般的な場合、識別可能性とスペクトル仮定の下では、推定された軌道のチェサロ平均の限界が真のものと同じであることを示す。

We address the question of stability of quantum trajectories, also referred as quantum filters}. We determine the limit of the quantum fidelity between the true quantum trajectory and the {estimated one}. Under a purification assumption we show that this limit equals to one meaning that quantum filters are stable. In the general case, under an identifiability and a spectral assumption we show that the limit of the Cesaro mean of the estimated trajectory is the same as the true one.
翻訳日:2023-04-02 06:29:39 公開日:2021-04-27
# Triad Chordsを用いたメロディ自動調和法の比較検討

Automatic Melody Harmonization with Triad Chords: A Comparative Study ( http://arxiv.org/abs/2001.02360v3 )

ライセンス: Link先を確認
Yin-Cheng Yeh, Wen-Yi Hsiao, Satoru Fukayama, Tetsuro Kitahara, Benjamin Genchel, Hao-Min Liu, Hao-Wen Dong, Yian Chen, Terence Leong, and Yi-Hsuan Yang(参考訳) いくつかの先行研究が自動メロディ調和のための様々な手法を提案しており、モデルが与えられたマルチバーメロディ列の調和伴奏として機能するコード列を生成することを目的としている。 本稿では,テンプレートマッチングに基づくモデル,隠れマルコフに基づくモデル,遺伝的アルゴリズムに基づくモデル,深層学習に基づくモデルなど,一連の標準的アプローチの性能評価と比較を行った。 本研究のために新たに収集した9,226組のメロディ/コード組のデータセット上で48組の和音を標準のトレーニング/テストスプリットを用いて評価した。 6種類の指標を用いて客観的評価を行った結果,202名を対象に主観的調査を行った。

Several prior works have proposed various methods for the task of automatic melody harmonization, in which a model aims to generate a sequence of chords to serve as the harmonic accompaniment of a given multiple-bar melody sequence. In this paper, we present a comparative study evaluating and comparing the performance of a set of canonical approaches to this task, including a template matching based model, a hidden Markov based model, a genetic algorithm based model, and two deep learning based models. The evaluation is conducted on a dataset of 9,226 melody/chord pairs we newly collect for this study, considering up to 48 triad chords, using a standardized training/test split. We report the result of an objective evaluation using six different metrics and a subjective study with 202 participants.
翻訳日:2023-01-13 13:16:22 公開日:2021-04-27
# カメラのモーションボケをなくす方法(動画)

Beyond Camera Motion Blur Removing: How to Handle Outliers in Deblurring ( http://arxiv.org/abs/2002.10201v3 )

ライセンス: Link先を確認
Meng Chang, Chenwei Yang, Huajun Feng, Zhihai Xu, Qi Li(参考訳) カメラのモーションデブラリングは、より優れた画像品質を達成するための重要な低レベルのビジョンタスクである。 シーンが飽和画素などの外れ値を持つ場合には、キャプチャされたぼやけた画像の復元がより困難になる。 本稿では,外乱を伴ってカメラの動きをぼかし処理する新しい手法を提案する。 まず,エッジ対応のスケール・リカレント・ネットワーク(EASRN)を提案する。 EASRNには、複数のスケールでぼやけを除去する別個のデブロアリングモジュールと、異なる入力スケールを融合するアップサンプリングモジュールがある。 次に,トレーニングプロセスの監視とエッジ復元の制約を行うために,有能なエッジ検出ネットワークを提案する。 カメラの動きをシミュレートし、様々な光源を追加することで、飽和カットオフでぼやけた画像を生成することができる。 提案したデータ生成手法により,ネットワークはアウトレーヤの処理を効果的に行うことができる。 我々は、goproデータセット、kohlerデータセット、laiデータセットを含む公開テストデータセットでこの手法を評価する。 客観的評価指標と主観的可視化のいずれにおいても,本手法は他の最先端手法よりも品質を劣化させる。

Camera motion deblurring is an important low-level vision task for achieving better imaging quality. When a scene has outliers such as saturated pixels, the captured blurred image becomes more difficult to restore. In this paper, we propose a novel method to handle camera motion blur with outliers. We first propose an edge-aware scale-recurrent network (EASRN) to conduct deblurring. EASRN has a separate deblurring module that removes blur at multiple scales and an upsampling module that fuses different input scales. Then a salient edge detection network is proposed to supervise the training process and constraint the edges restoration. By simulating camera motion and adding various light sources, we can generate blurred images with saturation cutoff. Using the proposed data generation method, our network can learn to deal with outliers effectively. We evaluate our method on public test datasets including the GoPro dataset, Kohler's dataset and Lai's dataset. Both objective evaluation indexes and subjective visualization show that our method results in better deblurring quality than other state-of-the-art approaches.
翻訳日:2022-12-29 04:32:59 公開日:2021-04-27
# 3D-MiniNet: 高速かつ効率的な3D LIDARセマンティックセグメンテーションのためのポイントクラウドからの2次元表現学習

3D-MiniNet: Learning a 2D Representation from Point Clouds for Fast and Efficient 3D LIDAR Semantic Segmentation ( http://arxiv.org/abs/2002.10893v5 )

ライセンス: Link先を確認
I\~nigo Alonso, Luis Riazuelo, Luis Montesano, Ana C. Murillo(参考訳) LIDARによって測定された各3Dポイントにセマンティックラベルを割り当てるLIDARセマンティックセグメンテーションは、自律運転のような多くのロボットアプリケーションにとって必須のタスクとなっている。 これらの実世界の多くのアプリケーションの強い計算と時間的制約に適合するために、高速で効率的なセマンティックセグメンテーション法が必要である。 この3D-MiniNetは3Dと2Dの学習層を組み合わせたLIDARセマンティックセマンティックセグメンテーションの新しいアプローチである。 まず,3次元データから局所的およびグローバル的情報を抽出する新しいプロジェクションにより,原点から2次元表現を学習する。 この表現は、2Dセマンティックセグメンテーションを生成する効率的な2D完全畳み込みニューラルネットワーク(FCNN)に供給される。 これらの2Dセマンティックラベルは、3D空間に再プロジェクションされ、後処理モジュールを通じて拡張される。 私たちの戦略の目新しさは、プロジェクション学習モジュールに依存しています。 我々は3D-MiniNetの最終性能に各コンポーネントがどのように貢献するかを詳細に検討した。 我々は,3D-MiniNetが従来の手法よりも高速でパラメータ効率が高い3D-MiniNetの手法を,よく知られたベンチマーク(SemanticKITTIとKITTI)で検証する。

LIDAR semantic segmentation, which assigns a semantic label to each 3D point measured by the LIDAR, is becoming an essential task for many robotic applications such as autonomous driving. Fast and efficient semantic segmentation methods are needed to match the strong computational and temporal restrictions of many of these real-world applications. This work presents 3D-MiniNet, a novel approach for LIDAR semantic segmentation that combines 3D and 2D learning layers. It first learns a 2D representation from the raw points through a novel projection which extracts local and global information from the 3D data. This representation is fed to an efficient 2D Fully Convolutional Neural Network (FCNN) that produces a 2D semantic segmentation. These 2D semantic labels are re-projected back to the 3D space and enhanced through a post-processing module. The main novelty in our strategy relies on the projection learning module. Our detailed ablation study shows how each component contributes to the final performance of 3D-MiniNet. We validate our approach on well known public benchmarks (SemanticKITTI and KITTI), where 3D-MiniNet gets state-of-the-art results while being faster and more parameter-efficient than previous methods.
翻訳日:2022-12-28 21:57:26 公開日:2021-04-27
# 英語データと自己学習による教師なしピジンテキスト生成

Unsupervised Pidgin Text Generation By Pivoting English Data and Self-Training ( http://arxiv.org/abs/2003.08272v2 )

ライセンス: Link先を確認
Ernie Chang, David Ifeoluwa Adelani, Xiaoyu Shen, Vera Demberg(参考訳) 西アフリカ・ピジン語(West African Pidgin English)は、西アフリカで話される言語で、少なくとも7500万人の話者からなる。 それでも、適切な機械翻訳システムと関連するピジン英語のNLPデータセットは事実上欠落している。 本研究では、ピジン英語と英語のギャップを自然言語生成の文脈で埋めることを目的とした手法を開発する。 %を概念実証として,データ・テキスト生成分野における提案手法について検討した。 従来リリースされていた単言語Pidgin英語テキストとパラレル英語データ-テキストコーパスに基づいて、構造化データからPidgin英語記述を自動的に生成するシステムを構築したい。 まず、教師なしニューラルマシン翻訳と自己学習の技術を用いて、Pidgin-to- Englishの言語間アライメントを確立する。 生成したPidginテキストの人間による評価は、実用には程遠いものの、ピボットと自己学習の技術はPidginテキストの流速と関連性の両方を改善していることを示している。

West African Pidgin English is a language that is significantly spoken in West Africa, consisting of at least 75 million speakers. Nevertheless, proper machine translation systems and relevant NLP datasets for pidgin English are virtually absent. In this work, we develop techniques targeted at bridging the gap between Pidgin English and English in the context of natural language generation. %As a proof of concept, we explore the proposed techniques in the area of data-to-text generation. By building upon the previously released monolingual Pidgin English text and parallel English data-to-text corpus, we hope to build a system that can automatically generate Pidgin English descriptions from structured data. We first train a data-to-English text generation system, before employing techniques in unsupervised neural machine translation and self-training to establish the Pidgin-to-English cross-lingual alignment. The human evaluation performed on the generated Pidgin texts shows that, though still far from being practically usable, the pivoting + self-training technique improves both Pidgin text fluency and relevance.
翻訳日:2022-12-22 10:07:29 公開日:2021-04-27
# ベイズ非パラメトリックな重み係数辞書を用いた連続学習

Continual Learning using a Bayesian Nonparametric Dictionary of Weight Factors ( http://arxiv.org/abs/2004.10098v3 )

ライセンス: Link先を確認
Nikhil Mehta, Kevin J Liang, Vinay K Verma and Lawrence Carin(参考訳) 訓練されたニューラルネットワークは、以前のタスクからのデータが利用できないシーケンシャルなタスク設定で破滅的な忘れを経験する傾向がある。 近年,様々なモデル展開戦略を用いた様々な手法が提案されている。 しかしながら、モデルをどの程度拡張するかは実践者に委ねられ、多くの場合、入ってくるタスクの複雑さに関わらず、単純さのために一定のスケジュールが選択されます。 その代わり,インド・バフェット・プロセス(IBP)に基づくベイズ的非パラメトリック手法を提案する。 これをニューラルネットワークの重み行列の因子分解と組み合わせる。 このようなアプローチにより、各重み行列の因子の数はタスクの複雑さとともにスケールできるが、IPPは疎みのある重み係数の選択と因子の再利用を奨励し、タスク間の肯定的な知識伝達を促進する。 連続学習ベンチマークにおける本手法の有効性を実証し、トレーニングを通して重み要因の配分と再利用方法を分析する。

Naively trained neural networks tend to experience catastrophic forgetting in sequential task settings, where data from previous tasks are unavailable. A number of methods, using various model expansion strategies, have been proposed recently as possible solutions. However, determining how much to expand the model is left to the practitioner, and often a constant schedule is chosen for simplicity, regardless of how complex the incoming task is. Instead, we propose a principled Bayesian nonparametric approach based on the Indian Buffet Process (IBP) prior, letting the data determine how much to expand the model complexity. We pair this with a factorization of the neural network's weight matrices. Such an approach allows the number of factors of each weight matrix to scale with the complexity of the task, while the IBP prior encourages sparse weight factor selection and factor reuse, promoting positive knowledge transfer between tasks. We demonstrate the effectiveness of our method on a number of continual learning benchmarks and analyze how weight factors are allocated and reused throughout the training.
翻訳日:2022-12-11 06:13:28 公開日:2021-04-27
# 微調整型YOLO v3およびDeepsort技術による人検出・追跡によるCOVID-19ソーシャルディスタンシングのモニタリング

Monitoring COVID-19 social distancing with person detection and tracking via fine-tuned YOLO v3 and Deepsort techniques ( http://arxiv.org/abs/2005.01385v4 )

ライセンス: Link先を確認
Narinder Singh Punn, Sanjay Kumar Sonbhadra, Sonali Agarwal, Gaurav Rai(参考訳) 新型コロナウイルス感染症(COVID-19)は世界180カ国以上で流行し、2020年5月4日時点で約3,519,901人、全世界で247,630人が死亡した。 積極的な治療剤の欠如とcovid-19に対する免疫の欠如は、人口の脆弱性を増大させる。 ワクチンは使用できないため、このパンデミックと戦うための唯一の現実的なアプローチはソーシャルディスタンシングである。 この概念に動機づけられた本論文は,監視ビデオを用いたソーシャルディスタンシングの監視作業を自動化するための深層学習ベースのフレームワークを提案する。 提案フレームワークは、YOLO v3オブジェクト検出モデルを用いて、背景から人間を分離し、Deepsortアプローチを使用して、識別された人物をボックスと割り当てられたIDの助けを借りて追跡する。 YOLO v3モデルの結果は、平均平均精度(mAP)、フレーム/秒(FPS)、オブジェクトの分類とローカライゼーションによって定義された損失値など、他の一般的な最先端モデル(例えば、より高速な領域ベースCNN(畳み込みニューラルネットワーク)とシングルショット検出器(SSD))と比較される。 その後、ペアワイズベクトル化l2ノルムは、境界ボックスの遠心座標と次元を用いて得られる3次元特徴空間に基づいて計算される。 ソーシャルディスタンシングプロトコルの非採用を定量化するために違反指数項が提案されている。 実験結果から,Deepsort追跡方式を用いたYOLO v3では,リアルタイムにソーシャルディスタンシングを監視するため,バランスの取れたmAPとFPSスコアが最良の結果を示した。

The rampant coronavirus disease 2019 (COVID-19) has brought global crisis with its deadly spread to more than 180 countries, and about 3,519,901 confirmed cases along with 247,630 deaths globally as on May 4, 2020. The absence of any active therapeutic agents and the lack of immunity against COVID-19 increases the vulnerability of the population. Since there are no vaccines available, social distancing is the only feasible approach to fight against this pandemic. Motivated by this notion, this article proposes a deep learning based framework for automating the task of monitoring social distancing using surveillance video. The proposed framework utilizes the YOLO v3 object detection model to segregate humans from the background and Deepsort approach to track the identified people with the help of bounding boxes and assigned IDs. The results of the YOLO v3 model are further compared with other popular state-of-the-art models, e.g. faster region-based CNN (convolution neural network) and single shot detector (SSD) in terms of mean average precision (mAP), frames per second (FPS) and loss values defined by object classification and localization. Later, the pairwise vectorized L2 norm is computed based on the three-dimensional feature space obtained by using the centroid coordinates and dimensions of the bounding box. The violation index term is proposed to quantize the non adoption of social distancing protocol. From the experimental analysis, it is observed that the YOLO v3 with Deepsort tracking scheme displayed best results with balanced mAP and FPS score to monitor the social distancing in real-time.
翻訳日:2022-12-07 01:04:22 公開日:2021-04-27
# 動的ジェスチャー検索:人間のポーズシーケンスによるビデオ検索

Dynamic gesture retrieval: searching videos by human pose sequence ( http://arxiv.org/abs/2006.07604v2 )

ライセンス: Link先を確認
Cheng Zhang(参考訳) 静止した人間のポーズの数は限られており、単一のポーズを手がかりとして正確なビデオを取得するのは難しい。 しかし、ポーズシーケンスや動的ジェスチャーをキーワードとして、特定のビデオの検索がより可能になる。 従来の研究では静的なポーズを1つだけ指定するのに対し,人間のポーズの特定のシーケンスを含むビデオに問い合わせる新しい手法を提案する。 提案手法では, キーワードジェスチャ映像と映像候補から連続3次元人間のポーズを取り, 個々のフレーム内の各ポーズを骨方向記述子に変換し, 調音ポーズにおける各自然接続の方向を記述する。 次に、時間的ピラミッドスライディングウィンドウを適用して、指定されたジェスチャーとビデオ候補の一致を見つけ、異なる期間の同じジェスチャーを一致させることができる。

The number of static human poses is limited, it is hard to retrieve the exact videos using one single pose as the clue. However, with a pose sequence or a dynamic gesture as the keyword, retrieving specific videos becomes more feasible. We propose a novel method for querying videos containing a designated sequence of human poses, whereas previous works only designate a single static pose. The proposed method takes continuous 3d human poses from keyword gesture video and video candidates, then converts each pose in individual frames into bone direction descriptors, which describe the direction of each natural connection in articulated pose. A temporal pyramid sliding window is then applied to find matches between designated gesture and video candidates, which ensures that same gestures with different duration can be matched.
翻訳日:2022-11-21 21:26:34 公開日:2021-04-27
# 知識グラフからのテキスト生成のための相対位置によるグラフ構造モデリング

Modeling Graph Structure via Relative Position for Text Generation from Knowledge Graphs ( http://arxiv.org/abs/2006.09242v3 )

ライセンス: Link先を確認
Martin Schmitt, Leonardo F. R. Ribeiro, Philipp Dufter, Iryna Gurevych, Hinrich Sch\"utze(参考訳) グラフ-テキスト生成のためのトランスフォーマーベースのエンコーダデコーダアーキテクチャであるGraformerを提案する。 新たに開発したグラフ自己照合により,ノードのエンコーディングは入力グラフのすべてのノードに依存する。 2つのノード間の関係を、それらの間の最短経路の長さとして表現する。 Graformerは、これらのノードとノードの関係を異なる注意頭に対して異なる重み付けを学習し、入力グラフの異なる連結ビューを仮想的に学習する。 我々は、AGENDAとWebNLGという2つの人気のあるグラフ・テキスト生成ベンチマーク上でGraformerを評価し、他の手法よりも少ないパラメータを使用しながら、高い性能を達成する。

We present Graformer, a novel Transformer-based encoder-decoder architecture for graph-to-text generation. With our novel graph self-attention, the encoding of a node relies on all nodes in the input graph - not only direct neighbors - facilitating the detection of global patterns. We represent the relation between two nodes as the length of the shortest path between them. Graformer learns to weight these node-node relations differently for different attention heads, thus virtually learning differently connected views of the input graph. We evaluate Graformer on two popular graph-to-text generation benchmarks, AGENDA and WebNLG, where it achieves strong performance while using many fewer parameters than other approaches.
翻訳日:2022-11-20 20:55:52 公開日:2021-04-27
# 生成的逆ネットワークのためのバーズ計量

The Bures Metric for Generative Adversarial Networks ( http://arxiv.org/abs/2006.09096v3 )

ライセンス: Link先を確認
Hannes De Meulemeester, Joachim Schreurs, Micha\"el Fanuel, Bart De Moor and Johan A.K. Suykens(参考訳) GAN(Generative Adversarial Networks)は、高品質なサンプルを生成する高性能な生成手法である。 しかし、ある状況下では、ganのトレーニングはモードの崩壊やモードの低下、すなわち確率分布全体からサンプルできない生成モデルにつながる可能性がある。 この問題に対処するために,識別器の最後の層を特徴マップとして,実データと偽データの分布について検討する。 学習中,特徴空間における共分散行列間のバーズ距離を用いて,実際のバッチの多様性を偽のバッチの多様性と一致させることを提案する。 バーズ距離の計算は、共分散行列とカーネル行列を用いて、それぞれ特徴空間または核空間のいずれかにおいて便利に行うことができる。 多様性マッチングはモード崩壊を著しく低減し, サンプル品質に肯定的な影響を及ぼす。 実用面では、追加のハイパーパラメータチューニングを必要としない非常に単純なトレーニング手順を提案し、いくつかのデータセットで評価する。

Generative Adversarial Networks (GANs) are performant generative methods yielding high-quality samples. However, under certain circumstances, the training of GANs can lead to mode collapse or mode dropping, i.e. the generative models not being able to sample from the entire probability distribution. To address this problem, we use the last layer of the discriminator as a feature map to study the distribution of the real and the fake data. During training, we propose to match the real batch diversity to the fake batch diversity by using the Bures distance between covariance matrices in feature space. The computation of the Bures distance can be conveniently done in either feature space or kernel space in terms of the covariance and kernel matrix respectively. We observe that diversity matching reduces mode collapse substantially and has a positive effect on the sample quality. On the practical side, a very simple training procedure, that does not require additional hyperparameter tuning, is proposed and assessed on several datasets.
翻訳日:2022-11-20 20:13:51 公開日:2021-04-27
# ニューラルネットワーク:物理予測における構造と柔軟性のバランス

Neural Dynamical Systems: Balancing Structure and Flexibility in Physical Prediction ( http://arxiv.org/abs/2006.12682v2 )

ライセンス: Link先を確認
Viraj Mehta, Ian Char, Willie Neiswanger, Youngseog Chung, Andrew Oakleigh Nelson, Mark D Boyer, Egemen Kolemen, Jeff Schneider(参考訳) 本稿では,従来の知識を常微分方程式系として組み込んだ様々なグレイボックス設定における力学モデル学習手法であるneural dynamical systems (nds)について紹介する。 NDSはニューラルネットワークを使用してシステムの自由パラメータを推定し、残余項を予測し、将来状態を予測するために時間とともに数値的に統合する。 重要な洞察は、多くの実際の力学系はロールアウト毎に動的に変化するため、モデル化が難しいことである。 この問題をndsへの入力として事前状態の軌道を取り、前回の軌道を用いてシステムパラメータを動的に推定するために訓練することで緩和する。 ndsは,システム識別文献から事前の知識や手法を取り入れない深層学習手法よりも,精度が高く,サンプルの少ないダイナミクスを学習できることが判明した。 これらの利点は、まず合成力学系、次いで核融合炉からの重水素ショットから得られた実データで示される。 最後に,このような利点を小規模実験の制御に活用できることを実証する。

We introduce Neural Dynamical Systems (NDS), a method of learning dynamical models in various gray-box settings which incorporates prior knowledge in the form of systems of ordinary differential equations. NDS uses neural networks to estimate free parameters of the system, predicts residual terms, and numerically integrates over time to predict future states. A key insight is that many real dynamical systems of interest are hard to model because the dynamics may vary across rollouts. We mitigate this problem by taking a trajectory of prior states as the input to NDS and train it to dynamically estimate system parameters using the preceding trajectory. We find that NDS learns dynamics with higher accuracy and fewer samples than a variety of deep learning methods that do not incorporate the prior knowledge and methods from the system identification literature which do. We demonstrate these advantages first on synthetic dynamical systems and then on real data captured from deuterium shots from a nuclear fusion reactor. Finally, we demonstrate that these benefits can be utilized for control in small-scale experiments.
翻訳日:2022-11-17 21:48:53 公開日:2021-04-27
# クラス不均衡が高精度リコール曲線に及ぼす影響

The Effect of Class Imbalance on Precision-Recall Curves ( http://arxiv.org/abs/2007.01905v3 )

ライセンス: Link先を確認
Christopher K I Williams(参考訳) このノートでは、分類器の精度がテストセットにおける正のケースと負のケースの比率$r$、および分類器の真と偽の正の比率に依存するかを研究する。 この関係により、精度-リコール曲線が$r$でどのように変化するかを予測することができる。 また、$F_{\beta}$とPrecision Gain と Recall Gain measures of Flach and Kull (2015) が$r$とどのように異なるかを予測することもできる。

In this note I study how the precision of a classifier depends on the ratio $r$ of positive to negative cases in the test set, as well as the classifier's true and false positive rates. This relationship allows prediction of how the precision-recall curve will change with $r$, which seems not to be well known. It also allows prediction of how $F_{\beta}$ and the Precision Gain and Recall Gain measures of Flach and Kull (2015) vary with $r$.
翻訳日:2022-11-14 04:44:03 公開日:2021-04-27
# 未学習ニューラルネットワークを用いた加速度MRI

Accelerated MRI with Un-trained Neural Networks ( http://arxiv.org/abs/2007.02471v3 )

ライセンス: Link先を確認
Mohammad Zalbagi Darestani and Reinhard Heckel(参考訳) 畳み込みニューラルネットワーク(CNN)は画像再構成問題に非常に有効である。 通常、CNNは大量のトレーニングイメージに基づいて訓練される。 しかし,近年,Deep Image PriorやDeep Decoderのような未学習のCNNは,デノナイズやインペイントなどの画像再構成問題に対して,任意のトレーニングデータを用いて \emph{without という優れた性能を実現している。 この発展を動機として、未学習ニューラルネットワークを用いた加速MRIにおける再構成問題に対処する。 本稿では,ディープデコーダの変動に基づく高度に最適化された非トレーニング回復手法を提案し,非トレーニングニューラルネットワークの非トレーニング手法,特にsparsityに基づく古典的圧縮センシング手法,ナイーブ応用において,他の非トレーニング手法を大きく上回ることを示す。 また、トレーニングされたメソッド、特に、トレーニングデータとテストデータが同じディストリビューションから得られるfastmriデータセットの理想的なセットアップにおけるパフォーマンス(再構成精度と計算コストの両方の観点から)を比較する。 トレーニングされていないアルゴリズムはベースライントレーニングニューラルネットワークと同じような性能を達成するが、最先端トレーニングされたネットワークはトレーニングされていないニューラルネットワークよりも優れる。 最後に, 列車分布と試験分布が若干異なる非理想的構成で比較を行い, 未訓練の手法が最先端のmri再構成法と同等の性能を達成できることを見いだした。

Convolutional Neural Networks (CNNs) are highly effective for image reconstruction problems. Typically, CNNs are trained on large amounts of training images. Recently, however, un-trained CNNs such as the Deep Image Prior and Deep Decoder have achieved excellent performance for image reconstruction problems such as denoising and inpainting, \emph{without using any training data}. Motivated by this development, we address the reconstruction problem arising in accelerated MRI with un-trained neural networks. We propose a highly optimized un-trained recovery approach based on a variation of the Deep Decoder and show that it significantly outperforms other un-trained methods, in particular sparsity-based classical compressed sensing methods and naive applications of un-trained neural networks. We also compare performance (both in terms of reconstruction accuracy and computational cost) in an ideal setup for trained methods, specifically on the fastMRI dataset, where the training and test data come from the same distribution. We find that our un-trained algorithm achieves similar performance to a baseline trained neural network, but a state-of-the-art trained network outperforms the un-trained one. Finally, we perform a comparison on a non-ideal setup where the train and test distributions are slightly different, and find that our un-trained method achieves similar performance to a state-of-the-art accelerated MRI reconstruction method.
翻訳日:2022-11-13 01:06:06 公開日:2021-04-27
# 音声分類のための畳み込みニューラルネットワークの集合

An Ensemble of Convolutional Neural Networks for Audio Classification ( http://arxiv.org/abs/2007.07966v2 )

ライセンス: Link先を確認
Loris Nanni, Gianluca Maguolo, Sheryl Brahnam, Michelangelo Paci(参考訳) 本稿では,音声分類用畳み込みニューラルネットワーク(CNN)を学習用として,複数のデータ拡張手法と4つの信号表現を利用する分類器のアンサンブルを提示し,利用可能な3つの音声分類データセットで検証する。 i) 鳥の鳴き声, 二 猫の音及び 三 環境音分類データセット 異なる信号表現とデータ拡張技術を組み合わせた最高の演奏アンサンブルを比較し,これらのデータセットの文献で報告された最良の方法より優れていることを示す。 ここで提案する手法は、広く使われているESC-50データセットの最先端結果を得る。 我々の知る限りでは、これは音声分類のためのCNNのアンサンブルを調査する最も広範な研究である。 結果は、CNNが音声分類のために訓練できるだけでなく、異なる技術を用いた融合がスタンドアロンの分類器よりも優れていることを示す。

In this paper, ensembles of classifiers that exploit several data augmentation techniques and four signal representations for training Convolutional Neural Networks (CNNs) for audio classification are presented and tested on three freely available audio classification datasets: i) bird calls, ii) cat sounds, and iii) the Environmental Sound Classification dataset. The best performing ensembles combining data augmentation techniques with different signal representations are compared and shown to outperform the best methods reported in the literature on these datasets. The approach proposed here obtains state-of-the-art results in the widely used ESC-50 dataset. To the best of our knowledge, this is the most extensive study investigating ensembles of CNNs for audio classification. Results demonstrate not only that CNNs can be trained for audio classification but also that their fusion using different techniques works better than the stand-alone classifiers.
翻訳日:2022-11-10 06:48:10 公開日:2021-04-27
# 音符イベントアノテーションのためのコントラスト学習によるデータクリーニング

Data Cleansing with Contrastive Learning for Vocal Note Event Annotations ( http://arxiv.org/abs/2008.02069v3 )

ライセンス: Link先を確認
Gabriel Meseguer-Brocal, Rachel Bittner, Simon Durand and Brian Brost(参考訳) データクリーニングは、データセット内の誤ったラベルを消去するためのよく研究された戦略であり、音楽情報検索にはまだ広く採用されていない。 従来提案されていたデータクリーニングモデルは、音楽データに共通するような構造化されたラベル(例えば、時間変化)を考慮していない。 本稿では,ラベルの局所構造を活かした,時間変化のための新しいデータクリーニングモデルを提案し,音楽における音符イベントアノテーションの有用性を示す。 %のモデルでは,適切なラベルの局所的変形を自動生成することで,対照的な学習方法で学習する。 本モデルでは, 確率的ラベル対を局所的な変形と自動的に対比することにより, 対照的な学習方法を訓練する。 提案手法を用いて学習した場合の書き起こしモデルの精度が,元のデータセットでトレーニングした場合の精度と比較して大幅に向上することを示す。 さらに,このモデルを用いてdaliデータセットのアノテーションエラー率を推定し,このモデルに対する他の潜在的な用途を強調する。

Data cleansing is a well studied strategy for cleaning erroneous labels in datasets, which has not yet been widely adopted in Music Information Retrieval. Previously proposed data cleansing models do not consider structured (e.g. time varying) labels, such as those common to music data. We propose a novel data cleansing model for time-varying, structured labels which exploits the local structure of the labels, and demonstrate its usefulness for vocal note event annotations in music. %Our model is trained in a contrastive learning manner by automatically creating local deformations of likely correct labels. Our model is trained in a contrastive learning manner by automatically contrasting likely correct labels pairs against local deformations of them. We demonstrate that the accuracy of a transcription model improves greatly when trained using our proposed strategy compared with the accuracy when trained using the original dataset. Additionally we use our model to estimate the annotation error rates in the DALI dataset, and highlight other potential uses for this type of model.
翻訳日:2022-11-02 18:13:06 公開日:2021-04-27
# 深部ニューラルネットワークにおける冷後流の統計的理論

A statistical theory of cold posteriors in deep neural networks ( http://arxiv.org/abs/2008.05912v2 )

ライセンス: Link先を確認
Laurence Aitchison(参考訳) ベイズ型ニューラルネットワークを標準ニューラルネットワークと互換性を持たせるためには、通常、"tempered" または "cold" の後方で不確かさを人為的に減らす必要がある。 事前が正確であれば、ベイズ推論/決定理論は最適であり、後方へのいかなる人工的な変化も性能に悪影響を及ぼす。 これは前者の誤りを示唆するが、実際、画像分類のためのbnnは間違った可能性を使っていると論じている。 特に、CIFAR-10のような標準画像ベンチマークデータセットは慎重にキュレートされる。 この新しい生成モデルの下での確率は,過去の研究で使われた温和な確率と密接に一致するため,ベイズ理論に基づく寒冷な後方のベイズ的説明を与えるキュレーションを記述する生成モデルを開発した。

To get Bayesian neural networks to perform comparably to standard neural networks it is usually necessary to artificially reduce uncertainty using a "tempered" or "cold" posterior. This is extremely concerning: if the prior is accurate, Bayes inference/decision theory is optimal, and any artificial changes to the posterior should harm performance. While this suggests that the prior may be at fault, here we argue that in fact, BNNs for image classification use the wrong likelihood. In particular, standard image benchmark datasets such as CIFAR-10 are carefully curated. We develop a generative model describing curation which gives a principled Bayesian account of cold posteriors, because the likelihood under this new generative model closely matches the tempered likelihoods used in past work.
翻訳日:2022-10-30 22:37:28 公開日:2021-04-27
# 神経生物学と機械学習における大規模連想記憶問題

Large Associative Memory Problem in Neurobiology and Machine Learning ( http://arxiv.org/abs/2008.06996v3 )

ライセンス: Link先を確認
Dmitry Krotov, John Hopfield(参考訳) デンス連想記憶(Dense Associative Memories)または現代のホップフィールドネットワーク(Hopfield network)は、指数関数的に大きな(特徴空間の次元における)メモリ数の記憶と信頼性の高い検索を可能にする。 同時に、ニューロン間の多体シナプス結合の存在を必要とするように見えるため、そのナイーブな実装は非生物学的である。 これらのモデルは(生物学的自由度という観点で記述された)より微視的な理論の効果的な記述であり、追加の(隠れた)ニューロンを持ち、それらの間の2体相互作用のみを必要とする。 このことから,提案する微視的理論は,生体的可能性の程度の大きな連想記憶の有効なモデルである。 ネットワークのダイナミクスとその縮小次元等価性はエネルギー(リアプノフ)を最小化する。 特定の動的変数(隠れニューロン)が顕微鏡理論から統合されると、「ホップフィールド・ネットワークはAll You Need」論文で示されたモデルなど、これまで文献で議論されていたモデルの多くを復元することができる。 また、上記の論文で提案したエネルギー関数と更新規則の代替的導出を行い、このクラスの様々なモデル間の関係を明らかにする。

Dense Associative Memories or modern Hopfield networks permit storage and reliable retrieval of an exponentially large (in the dimension of feature space) number of memories. At the same time, their naive implementation is non-biological, since it seemingly requires the existence of many-body synaptic junctions between the neurons. We show that these models are effective descriptions of a more microscopic (written in terms of biological degrees of freedom) theory that has additional (hidden) neurons and only requires two-body interactions between them. For this reason our proposed microscopic theory is a valid model of large associative memory with a degree of biological plausibility. The dynamics of our network and its reduced dimensional equivalent both minimize energy (Lyapunov) functions. When certain dynamical variables (hidden neurons) are integrated out from our microscopic theory, one can recover many of the models that were previously discussed in the literature, e.g. the model presented in "Hopfield Networks is All You Need" paper. We also provide an alternative derivation of the energy function and the update rule proposed in the aforementioned paper and clarify the relationships between various models of this class.
翻訳日:2022-10-28 08:58:00 公開日:2021-04-27
# pose2mesh: グラフ畳み込みネットワークによる3次元ポーズとメッシュの2次元ポーズからの回復

Pose2Mesh: Graph Convolutional Network for 3D Human Pose and Mesh Recovery from a 2D Human Pose ( http://arxiv.org/abs/2008.09047v3 )

ライセンス: Link先を確認
Hongsuk Choi, Gyeongsik Moon, Kyoung Mu Lee(参考訳) 最近のディープラーニングに基づく3次元ポーズとメッシュ推定手法のほとんどは、入力画像からSMPLやMANOのような人間のメッシュモデルのポーズと形状パラメータを回帰する。 これらの方法の第一の弱点は、実験室などの制御された環境からの列車データと、車内環境からの試験データとの違いによる、外観領域ギャップ問題である。 第2の弱点は、3次元回転の表現問題のためポーズパラメータの推定が極めて困難であることである。 上記の弱点を克服するために、グラフ畳み込みニューラルネットワーク(graphcnn)ベースのシステムであるpose2meshを提案する。 入力となる2次元の人間のポーズは、2つのドメイン間で比較的均質な幾何学的性質を持ちながら、必須の人体調音情報を提供する。 また,提案システムでは,グラフCNNを用いたメッシュトポロジを粗い方法で完全に活用しながら,表現問題を回避している。 pose2meshは,様々なベンチマークデータセットにおいて,従来の3次元ポーズおよびメッシュ推定手法を上回っていることを示す。 コードについてはhttps://github.com/hongsukchoi/Pose2Mesh_RELEASEを参照してください。

Most of the recent deep learning-based 3D human pose and mesh estimation methods regress the pose and shape parameters of human mesh models, such as SMPL and MANO, from an input image. The first weakness of these methods is an appearance domain gap problem, due to different image appearance between train data from controlled environments, such as a laboratory, and test data from in-the-wild environments. The second weakness is that the estimation of the pose parameters is quite challenging owing to the representation issues of 3D rotations. To overcome the above weaknesses, we propose Pose2Mesh, a novel graph convolutional neural network (GraphCNN)-based system that estimates the 3D coordinates of human mesh vertices directly from the 2D human pose. The 2D human pose as input provides essential human body articulation information, while having a relatively homogeneous geometric property between the two domains. Also, the proposed system avoids the representation issues, while fully exploiting the mesh topology using a GraphCNN in a coarse-to-fine manner. We show that our Pose2Mesh outperforms the previous 3D human pose and mesh estimation methods on various benchmark datasets. For the codes, see https://github.com/hongsukchoi/Pose2Mesh_RELEASE.
翻訳日:2022-10-27 03:51:36 公開日:2021-04-27
# 積分二次制約による球技の1次法の統一解析

A Unified Analysis of First-Order Methods for Smooth Games via Integral Quadratic Constraints ( http://arxiv.org/abs/2009.11359v4 )

ライセンス: Link先を確認
Guodong Zhang, Xuchan Bao, Laurent Lessard, Roger Grosse(参考訳) 積分二次制約の理論(iqcs)は、非線形あるいは不確定要素を含む相互接続系の指数収束の証明を可能にする。 本研究では, IQC理論を適用し, スムーズかつ強単調なゲームのための一階法について検討し, 厳密な収束率を得るための2次制約を設計する方法を示す。 このフレームワークを用いて、勾配法~(GD)、近点法~(PPM)および楽観的勾配法~(OG)に対するよりシャープな境界を導出し、負の運動量法~(NM)に対する大域収束率を、その既知の下界と一致する反復複雑性$\mathcal{O}(\kappa^{1.5})$で表す。 さらに, 時間変化系では, 最適ステップサイズの勾配法が2次リアプノフ関数を用いた最速の最低ケース収束率を達成することを証明した。 最後に,解析を確率ゲームに拡張し,乗法ノイズが異なるアルゴリズムに与える影響について検討する。 本稿では,1ステップのメモリを持つアルゴリズムでは,バッチ毎に1回だけ勾配を問合せすれば高速化は不可能であることが示される(そのような高速化が実証された確率的強凸最適化設定とは対照的に)。 しかし,1バッチに2つの勾配クエリで高速化を実現するアルゴリズムを示す。

The theory of integral quadratic constraints (IQCs) allows the certification of exponential convergence of interconnected systems containing nonlinear or uncertain elements. In this work, we adapt the IQC theory to study first-order methods for smooth and strongly-monotone games and show how to design tailored quadratic constraints to get tight upper bounds of convergence rates. Using this framework, we recover the existing bound for the gradient method~(GD), derive sharper bounds for the proximal point method~(PPM) and optimistic gradient method~(OG), and provide \emph{for the first time} a global convergence rate for the negative momentum method~(NM) with an iteration complexity $\mathcal{O}(\kappa^{1.5})$, which matches its known lower bound. In addition, for time-varying systems, we prove that the gradient method with optimal step size achieves the fastest provable worst-case convergence rate with quadratic Lyapunov functions. Finally, we further extend our analysis to stochastic games and study the impact of multiplicative noise on different algorithms. We show that it is impossible for an algorithm with one step of memory to achieve acceleration if it only queries the gradient once per batch (in contrast with the stochastic strongly-convex optimization setting, where such acceleration has been demonstrated). However, we exhibit an algorithm which achieves acceleration with two gradient queries per batch.
翻訳日:2022-10-15 15:54:17 公開日:2021-04-27
# スマートで持続可能な世界に向けた研究と教育

Research and Education Towards Smart and Sustainable World ( http://arxiv.org/abs/2009.13849v2 )

ライセンス: Link先を確認
Jukka Riekki and Aarne M\"ammel\"a(参考訳) 我々はICT分野における研究・教育の方向性を提案する。 私たちのスマートで持続可能な世界ビジョンは、人造環境と自然環境の両方をよりよく認識し制御することで、人々と惑星の繁栄を目標としています。 社会、個人、産業のニーズは、環境を感知し、目標を推し進める行動について積極的に決定し、環境に対する行動を実行するインテリジェントなシステムによって満たされる。 本稿では, 人工知能, フィードバックループ, 人間の受容と制御, 基本資源のインテリジェントな利用, 性能パラメータ, ミッション指向の学際研究, および, 特に複雑な問題に対する研究パラダイムとしての従来の分析的還元的視点を補完する全体論的なシステム視点を強調する。 幅広い読者のために、これらの概念を説明し、本質的な文献をリストアップする。 我々は,段階的にシナリオ,性能基準,システムモデル,研究課題,教育内容を特定し,共通の目標とコヒーレントなプロジェクトポートフォリオ,教育カリキュラムを提案する。 研究と教育は、進化的発展を支援し、研究の創造性を促進するためにフィードバックを生み出す。 最後に,本手法を実現するための具体的な行動を提案する。

We propose a vision for directing research and education in the ICT field. Our Smart and Sustainable World vision targets at prosperity for the people and the planet through better awareness and control of both human-made and natural environment. The needs of the society, individuals, and industries are fulfilled with intelligent systems that sense their environment, make proactive decisions on actions advancing their goals, and perform the actions on the environment. We emphasize artificial intelligence, feedback loops, human acceptance and control, intelligent use of basic resources, performance parameters, mission-oriented interdisciplinary research, and a holistic systems view complementing the conventional analytical reductive view as a research paradigm especially for complex problems. To serve a broad audience, we explain these concepts and list the essential literature. We suggest planning research and education by specifying, in a step-wise manner, scenarios, performance criteria, system models, research problems and education content, resulting in common goals and a coherent project portfolio as well as education curricula. Research and education produce feedback to support evolutionary development and encourage creativity in research. Finally, we propose concrete actions for realizing this approach.
翻訳日:2022-10-13 07:04:51 公開日:2021-04-27
# just-in-time, position-sensitives of terms and symbolsによる科学論文の補足

Augmenting Scientific Papers with Just-in-Time, Position-Sensitive Definitions of Terms and Symbols ( http://arxiv.org/abs/2009.14237v3 )

ライセンス: Link先を確認
Andrew Head (UC Berkeley), Kyle Lo (Allen Institute for AI), Dongyeop Kang (UC Berkeley), Raymond Fok (University of Washington), Sam Skjonsberg (Allen Institute for AI), Daniel S. Weld (Allen Institute for AI, University of Washington), Marti A. Hearst (UC Berkeley)(参考訳) 科学的進歩に対する研究論文の重要さにもかかわらず、それらを読むことは困難である。 ある通路を理解するために必要な情報が他の場所(別のセクション、または別の論文)に存在する場合、理解はしばしば汚される。 この作業では、インターフェイスがどのようにして技術的な用語やシンボルの定義を読者にもたらし、最も必要なタイミングと場所を想定しています。 1) 紙中の他の場所からの位置センシティブな定義を表わすツールチップ, (2) 紙全体において用語や記号がどのように使われているかを明らかにするために「分解」する紙上のフィルタ, (3) 複数の定義を並列に露出する自動等式図,(4) 重要な用語や記号を自動的に生成する用語集である。 ユーザビリティ調査によると、このツールはあらゆる経験レベルの研究者が論文を読むのを助ける。 さらに、研究者はScholarPhiの定義を日々の読書をサポートするために利用することを熱望していた。

Despite the central importance of research papers to scientific progress, they can be difficult to read. Comprehension is often stymied when the information needed to understand a passage resides somewhere else: in another section, or in another paper. In this work, we envision how interfaces can bring definitions of technical terms and symbols to readers when and where they need them most. We introduce ScholarPhi, an augmented reading interface with four novel features: (1) tooltips that surface position-sensitive definitions from elsewhere in a paper, (2) a filter over the paper that "declutters" it to reveal how the term or symbol is used across the paper, (3) automatic equation diagrams that expose multiple definitions in parallel, and (4) an automatically generated glossary of important terms and symbols. A usability study showed that the tool helps researchers of all experience levels read papers. Furthermore, researchers were eager to have ScholarPhi's definitions available to support their everyday reading.
翻訳日:2022-10-13 05:16:13 公開日:2021-04-27
# comstreamclust: ストリーミングデータのテキストクラスタリングに対する通信型マルチエージェントアプローチ

ComStreamClust: a communicative multi-agent approach to text clustering in streaming data ( http://arxiv.org/abs/2010.05349v2 )

ライセンス: Link先を確認
Ali Najafi, Araz Gholipour-Shilabin, Rahim Dehkharghani, Ali Mohammadpur-Fard, Meysam Asgari-Chenaghlu(参考訳) トピック検出はソーシャルメディアにおけるホットトピックの決定と追跡のタスクである。 Twitterはおそらく、人びとが自分のアイデアを他の人たちと共有するための最も人気のあるプラットフォームだ。 新型コロナウイルス(covid-19)のパンデミックもその一つだ。 この種の問題に関するトピックの検出と追跡は、政府や医療企業がこの現象に対処するのに役立つだろう。 本稿では,より広いトピック,例えばcovid-19内でサブトピックをクラスタリングするためのcomstreamclustという,新しいマルチエージェント型,コミュニケーティブクラスタリング手法を提案する。 提案手法は並列化可能で,複数のデータポイントを同時に処理できる。 LaBSE文の埋め込みは、2つのツイート間の意味的類似度を測定するために使用される。 ComStreamClustは、COVID-19とFA CUPの2つのデータセットで評価されている。 ComStreamClustの結果は,既存の手法と比較して提案手法の有効性を認めている。

Topic detection is the task of determining and tracking hot topics in social media. Twitter is arguably the most popular platform for people to share their ideas with others about different issues. One such prevalent issue is the COVID-19 pandemic. Detecting and tracking topics on these kinds of issues would help governments and healthcare companies deal with this phenomenon. In this paper, we propose a novel, multi-agent, communicative clustering approach, so-called ComStreamClust for clustering sub-topics inside a broader topic, e.g., COVID-19. The proposed approach is parallelizable, and can simultaneously handle several data-point. The LaBSE sentence embedding is used to measure the semantic similarity between two tweets. ComStreamClust has been evaluated on two datasets: the COVID-19 and the FA CUP. The results obtained from ComStreamClust approve the effectiveness of the proposed approach when compared to existing methods.
翻訳日:2022-10-08 13:51:14 公開日:2021-04-27
# 分散音響センシングデータにおける表面波識別のための深層学習

Deep Learning for Surface Wave Identification in Distributed Acoustic Sensing Data ( http://arxiv.org/abs/2010.10352v2 )

ライセンス: Link先を確認
Vincent Dumont, Ver\'onica Rodr\'iguez Tribaldos, Jonathan Ajo-Franklin, Kesheng Wu(参考訳) 車両や列車などの移動荷重は地震波の非常に有用な源であり, 環境騒音地震学の手法を用いて, 地下材料の地震速度に関する情報を検索することができる。 この情報は, 地表近傍の地盤特性, 地震危険度評価, 地下水モニタリングなど, 様々な応用に有用である。 しかし、そのようなプロセスが迅速に収束するには、適切なノイズエネルギーを持つデータセグメントを選択する必要がある。 分散音響センシング(distributed acoustic sensing, das)は、非常に高い空間分解能と時間分解能で何万kmもデータを取得できる新しいセンシング技術である。 DAS技術を利用する際の大きな課題のひとつは、大量のデータが生成されることだ。 本研究では,データ探索の過程で得られた物理知識と,人工活動によって発生する"有用な"コヒーレントな表面波を識別するための深い教師付き学習を融合して,高度にスケーラブルで複雑なdasデータを処理するための高効率な手法を提案する。 データ探索とトレーニングは、DAS測定の130~GBで実施された。 並列コンピューティングを使用することで、30分未満で追加の170~GBのデータ(あるいは10日間分のレコードに相当するもの)を推論することが可能になりました。 本手法は,地中活動と埋設センサとの相互作用を記述した解釈パターンを提供する。

Moving loads such as cars and trains are very useful sources of seismic waves, which can be analyzed to retrieve information on the seismic velocity of subsurface materials using the techniques of ambient noise seismology. This information is valuable for a variety of applications such as geotechnical characterization of the near-surface, seismic hazard evaluation, and groundwater monitoring. However, for such processes to converge quickly, data segments with appropriate noise energy should be selected. Distributed Acoustic Sensing (DAS) is a novel sensing technique that enables acquisition of these data at very high spatial and temporal resolution for tens of kilometers. One major challenge when utilizing the DAS technology is the large volume of data that is produced, thereby presenting a significant Big Data challenge to find regions of useful energy. In this work, we present a highly scalable and efficient approach to process real, complex DAS data by integrating physics knowledge acquired during a data exploration phase followed by deep supervised learning to identify "useful" coherent surface waves generated by anthropogenic activity, a class of seismic waves that is abundant on these recordings and is useful for geophysical imaging. Data exploration and training were done on 130~Gigabytes (GB) of DAS measurements. Using parallel computing, we were able to do inference on an additional 170~GB of data (or the equivalent of 10 days' worth of recordings) in less than 30 minutes. Our method provides interpretable patterns describing the interaction of ground-based human activities with the buried sensors.
翻訳日:2022-10-07 05:42:57 公開日:2021-04-27
# カラーノイズと背景除去を伴う文書画像バイナリ化のための2段階生成逆ネットワーク

Two-stage generative adversarial networks for document image binarization with color noise and background removal ( http://arxiv.org/abs/2010.10103v3 )

ライセンス: Link先を確認
Sungho Suh, Jihun Kim, Paul Lukowicz and Yong Oh Lee(参考訳) 文書画像強調法やバイナライゼーション法は、テキスト認識などの文書画像解析タスクの精度と効率を向上させるためにしばしば用いられる。 従来の非機械学習手法は、教師なしの方法で低レベルの特徴に基づいて構築されるが、高度に劣化した背景を持つ文書のバイナライゼーションには困難である。 畳み込みニューラルネットワークに基づく手法は、グレースケール画像と局所テキスト特徴のみに焦点を当てている。 本稿では,生成的対向ニューラルネットワークを用いた2段階カラー文書画像強調とバイナライゼーション手法を提案する。 第1段階では、4つの色非依存の敵ネットワークを訓練し、入力画像から色前景情報を抽出して文書画像強調を行う。 第2段階では、グローバルおよびローカルな特徴を持つ2つの独立した敵ネットワークが、可変サイズの文書のイメージバイナリ化のために訓練される。 対向ニューラルネットワークでは、識別器とエンコーダ・デコーダ構造を有するジェネレータとの間で損失関数を定式化する。 実験の結果,提案手法は,dibco(document image binarization contest)データセット,lrde document binarization dataset(lrde dbd)および出荷ラベル画像データセットに比べて,従来のアルゴリズムよりも優れた性能が得られることがわかった。 出荷されたラベルデータセットと実装コードはgithub.com/opensuh/DocumentBinarization/でリリースする予定です。

Document image enhancement and binarization methods are often used to improve the accuracy and efficiency of document image analysis tasks such as text recognition. Traditional non-machine-learning methods are constructed on low-level features in an unsupervised manner but have difficulty with binarization on documents with severely degraded backgrounds. Convolutional neural network-based methods focus only on grayscale images and on local textual features. In this paper, we propose a two-stage color document image enhancement and binarization method using generative adversarial neural networks. In the first stage, four color-independent adversarial networks are trained to extract color foreground information from an input image for document image enhancement. In the second stage, two independent adversarial networks with global and local features are trained for image binarization of documents of variable size. For the adversarial neural networks, we formulate loss functions between a discriminator and generators having an encoder-decoder structure. Experimental results show that the proposed method achieves better performance than many classical and state-of-the-art algorithms over the Document Image Binarization Contest (DIBCO) datasets, the LRDE Document Binarization Dataset (LRDE DBD), and our shipping label image dataset. We plan to release the shipping label dataset as well as our implementation code at github.com/opensuh/DocumentBinarization/.
翻訳日:2022-10-05 05:43:48 公開日:2021-04-27
# 進化的多様性の最適化と最小スパンディングツリー問題

Evolutionary Diversity Optimization and the Minimum Spanning Tree Problem ( http://arxiv.org/abs/2010.10913v2 )

ライセンス: Link先を確認
Jakob Bossek, Frank Neumann(参考訳) 進化計算の分野では、与えられた最適化問題に対する様々な高品質な解の計算が、進化的多様性最適化という用語の下で近年勢いを増している。 多様性最適化のためのベースライン進化アルゴリズムの動作原理に関する理論的洞察はまだ稀である。 本稿では,集団の多様性をペアワイズエッジ重なりの和で測定する多様性最適化の文脈において,よく知られた最小スパンディングツリー問題(mst)について検討する。 理論的な結果は、MSTの多様性最適化問題におけるフィットネスランドスケープに関する洞察を与え、もし人口が$\mu=2$のフィットネスプラトー(一定長さ)であっても、多項式時間で様々な集合を計算できることを指摘した。 我々は、全ての解が最小品質のしきい値を満たす必要がある場合、制約のない一連の実験で理論結果を補足する。 以上の結果から, 単純$(\mu+1)$-EAは, 品質の高い木々の多種多様な個体群を効果的に計算できることが示唆された。

In the area of evolutionary computation the calculation of diverse sets of high-quality solutions to a given optimization problem has gained momentum in recent years under the term evolutionary diversity optimization. Theoretical insights into the working principles of baseline evolutionary algorithms for diversity optimization are still rare. In this paper we study the well-known Minimum Spanning Tree problem (MST) in the context of diversity optimization where population diversity is measured by the sum of pairwise edge overlaps. Theoretical results provide insights into the fitness landscape of the MST diversity optimization problem pointing out that even for a population of $\mu=2$ fitness plateaus (of constant length) can be reached, but nevertheless diverse sets can be calculated in polynomial time. We supplement our theoretical results with a series of experiments for the unconstrained and constraint case where all solutions need to fulfill a minimal quality threshold. Our results show that a simple $(\mu+1)$-EA can effectively compute a diversified population of spanning trees of high quality.
翻訳日:2022-10-04 23:25:31 公開日:2021-04-27
# ソースコードの深層学習における語彙外識別子の簡易処理法

A Simple Approach for Handling Out-of-Vocabulary Identifiers in Deep Learning for Source Code ( http://arxiv.org/abs/2010.12663v2 )

ライセンス: Link先を確認
Nadezhda Chirkova, Sergey Troshin(参考訳) 自然言語処理モデルのソースコード処理タスクへの応用への関心が高まっている。 ディープラーニングをソフトウェア工学に適用する際の大きな問題の1つは、ソースコードが稀な識別子を多く含んでいて、結果として巨大な語彙が生まれることだ。 本稿では,識別子の匿名化に基づく簡易かつ効果的な手法を提案し,語彙外識別子(OOV)を扱う。 本手法は前処理ステップとして扱うことができ,実装が容易である。 提案手法は,コード補完とバグ修正という2つのコード処理タスクにおいて,変換器の性能を大幅に向上させる。

There is an emerging interest in the application of natural language processing models to source code processing tasks. One of the major problems in applying deep learning to software engineering is that source code often contains a lot of rare identifiers, resulting in huge vocabularies. We propose a simple, yet effective method, based on identifier anonymization, to handle out-of-vocabulary (OOV) identifiers. Our method can be treated as a preprocessing step and, therefore, allows for easy implementation. We show that the proposed OOV anonymization method significantly improves the performance of the Transformer in two code processing tasks: code completion and bug fixing.
翻訳日:2022-10-04 00:11:28 公開日:2021-04-27
# ソースコードに対するリカレントニューラルネットワークにおける変数の埋め込みについて

On the Embeddings of Variables in Recurrent Neural Networks for Source Code ( http://arxiv.org/abs/2010.12693v2 )

ライセンス: Link先を確認
Nadezhda Chirkova(参考訳) ソースコード処理は自然言語処理(NLP)で広く使われている手法に大きく依存するが、高い品質を達成するために考慮する必要がある特定の要素が関係している。 この特異性の例として、変数の意味論は名前だけでなく、変数が発生するコンテキストによっても定義される。 本研究では,プログラムにおける変数の役割についてより多くの情報を得る際に,学習した変数の意味を調節する動的埋め込みを開発する。 提案する動的組込みは,コード補完やバグ修正タスクにおいて,再帰ニューラルネットワークの性能を大幅に向上させる。

Source code processing heavily relies on the methods widely used in natural language processing (NLP), but involves specifics that need to be taken into account to achieve higher quality. An example of this specificity is that the semantics of a variable is defined not only by its name but also by the contexts in which the variable occurs. In this work, we develop dynamic embeddings, a recurrent mechanism that adjusts the learned semantics of the variable when it obtains more information about the variable's role in the program. We show that using the proposed dynamic embeddings significantly improves the performance of the recurrent neural network, in code completion and bug fixing tasks.
翻訳日:2022-10-03 22:09:29 公開日:2021-04-27
# 音声強調のためのwasserstein距離を用いた音声強弱による知覚品質の向上

Improving Perceptual Quality by Phone-Fortified Perceptual Loss using Wasserstein Distance for Speech Enhancement ( http://arxiv.org/abs/2010.15174v3 )

ライセンス: Link先を確認
Tsun-An Hsieh, Cheng Yu, Szu-Wei Fu, Xugang Lu, and Yu Tsao(参考訳) 音声強調(SE)は、言語情報(例えば、電話や音節など)を伝達する音声セグメントのスムーズな遷移に関連する、音声品質とインテリジェンスの改善を目的としている。 そこで本研究では,SEモデルを訓練するための音声情報を取り入れたPFPL( Phone-fortified Perceptual Los)を提案する。 音声情報を効果的に組み込むために、豊富な音声情報を描画する強力な自己教師付きエンコーダであるwav2vecモデルの潜在表現に基づいてpfplを算出する。 潜在表現の分布距離をより正確に測定するために、PFPLはワッサーシュタイン距離を距離測度として採用する。 実験の結果,pfplは信号レベルの損失と比較して知覚的評価指標と相関が強いことが明らかとなった。 さらに、PFPLは、Voice Bank-DEMANDデータセットの標準化された品質とインテリジェンス評価の観点から、深い複雑なU-Net SEモデルを高い競争性能を達成することができることを示した。

Speech enhancement (SE) aims to improve speech quality and intelligibility, which are both related to a smooth transition in speech segments that may carry linguistic information, e.g. phones and syllables. In this study, we propose a novel phone-fortified perceptual loss (PFPL) that takes phonetic information into account for training SE models. To effectively incorporate the phonetic information, the PFPL is computed based on latent representations of the wav2vec model, a powerful self-supervised encoder that renders rich phonetic information. To more accurately measure the distribution distances of the latent representations, the PFPL adopts the Wasserstein distance as the distance measure. Our experimental results first reveal that the PFPL is more correlated with the perceptual evaluation metrics, as compared to signal-level losses. Moreover, the results showed that the PFPL can enable a deep complex U-Net SE model to achieve highly competitive performance in terms of standardized quality and intelligibility evaluations on the Voice Bank-DEMAND dataset.
翻訳日:2022-10-02 06:30:35 公開日:2021-04-27
# ディープラーニングMRI再構成モデルの逆ロバストトレーニング

Adversarial Robust Training of Deep Learning MRI Reconstruction Models ( http://arxiv.org/abs/2011.00070v3 )

ライセンス: Link先を確認
Francesco Caliv\'a, Kaiyang Cheng, Rutwik Shah, Valentina Pedoia(参考訳) 深層学習(DL)は磁気共鳴画像の取得と再構成を促進する可能性がある。 それにもかかわらず、小さな特徴の復元が高い忠実さで達成されることを保証するための仕立て工法が数多く存在する。 本研究では, 訓練されたdl再構成ネットワークでは再構成が困難である小さな合成摂動を生成するために, 逆攻撃を用いる。 次に,これらの小さな特徴に対するネットワークの感度を高めるためにロバストなトレーニングを行い,その再構築を奨励する。 次に,本手法の現実的特徴への一般化について検討する。 そこで, 筋骨格の放射線技師が膝関節の軟骨と半月板の病変のセットに注釈を付け, 特徴の再構築を評価するために分類網を考案した。 画像再構成ネットワークにロバストトレーニングを導入することにより,画像再構成における偽陰性特徴率(4.8\%)を低減できることを示す。 これらの結果は, 臨床におけるdlリコンストラクション導入のマイルストーンとして, 画像レコンストラクションコミュニティによる注意が必要であることを強調するものである。 さらなる研究をサポートするため、アノテーションとコードはhttps://github.com/fcaliva/fastMRI_BB_abnormalities_annotationで公開しています。

Deep Learning (DL) has shown potential in accelerating Magnetic Resonance Image acquisition and reconstruction. Nevertheless, there is a dearth of tailored methods to guarantee that the reconstruction of small features is achieved with high fidelity. In this work, we employ adversarial attacks to generate small synthetic perturbations, which are difficult to reconstruct for a trained DL reconstruction network. Then, we use robust training to increase the network's sensitivity to these small features and encourage their reconstruction. Next, we investigate the generalization of said approach to real world features. For this, a musculoskeletal radiologist annotated a set of cartilage and meniscal lesions from the knee Fast-MRI dataset, and a classification network was devised to assess the reconstruction of the features. Experimental results show that by introducing robust training to a reconstruction network, the rate of false negative features (4.8\%) in image reconstruction can be reduced. These results are encouraging, and highlight the necessity for attention to this problem by the image reconstruction community, as a milestone for the introduction of DL reconstruction in clinical practice. To support further research, we make our annotations and code publicly available at https://github.com/fcaliva/fastMRI_BB_abnormalities_annotation.
翻訳日:2022-10-01 17:21:01 公開日:2021-04-27
# RGB-Dカメラの深絞り性能評価とフィールドベースハイスルー高調波ロボットの性能改善

Depth Ranging Performance Evaluation and Improvement for RGB-D Cameras on Field-Based High-Throughput Phenotyping Robots ( http://arxiv.org/abs/2011.01022v2 )

ライセンス: Link先を確認
Zhengqiang Fan, Na Sun, Quan Qiu, and Chunjiang Zhao(参考訳) RGB-Dカメラは、屋内のHigh-Throughput Phenotyping(HTTP)に成功している。 しかし、不安定な照明、スペクトル反射、拡散反射などによって発生するノイズや乱れのために、フィールド内HTTPの能力と実現可能性を評価する必要がある。 これらの問題を解決するために,2台のコンシューマレベルのRGB-Dカメラ(RealSense D435iおよびKinect V2)のフィールド内HTTPシナリオ下での深度測定性能を評価し,深度測定誤差を補償する戦略を提案した。 性能評価のために,異なる作物器官の最適範囲の決定に焦点をあてた。 評価結果に基づいて,輝度と距離に基づくサポートベクトル回帰戦略を提案し,その誤差を補償する。 さらに,光強度の異なる2台のRGB-Dカメラの奥行き充填速度を解析した。 実験の結果は 1)RealSense D435iの場合,有効範囲は[0.160, 1.400]m,フィールド充填率は約90%である。 2)Kinect V2では[0.497, 1.200]mの精度が高いが、フィールド内充填率は24.9%未満である。 3) 誤差補償モデルは照明強度と目標距離の影響を効果的に低減することができる。 このモデルの最大MSEと最小R2はそれぞれ0.029と0.867である。 まとめると、RealSense D435iは、フィールド内HTTP上のKinect V2よりもパフォーマンスが良い。

RGB-D cameras have been successfully used for indoor High-ThroughpuT Phenotyping (HTTP). However, their capability and feasibility for in-field HTTP still need to be evaluated, due to the noise and disturbances generated by unstable illumination, specular reflection, and diffuse reflection, etc. To solve these problems, we evaluated the depth-ranging performances of two consumer-level RGB-D cameras (RealSense D435i and Kinect V2) under in-field HTTP scenarios, and proposed a strategy to compensate the depth measurement error. For performance evaluation, we focused on determining their optimal ranging areas for different crop organs. Based on the evaluation results, we proposed a brightness-and-distance-based Support Vector Regression Strategy, to compensate the ranging error. Furthermore, we analyzed the depth filling rate of two RGB-D cameras under different lighting intensities. Experimental results showed that: 1) For RealSense D435i, its effective ranging area is [0.160, 1.400] m, and in-field filling rate is approximately 90%. 2) For Kinect V2, it has a high ranging accuracy in the [0.497, 1.200] m, but its in-field filling rate is less than 24.9%. 3) Our error compensation model can effectively reduce the influences of lighting intensity and target distance. The maximum MSE and minimum R2 of this model are 0.029 and 0.867, respectively. To sum up, RealSense D435i has better ranging performances than Kinect V2 on in-field HTTP.
翻訳日:2022-09-30 12:50:00 公開日:2021-04-27
# 潜在因果不変量モデル

Latent Causal Invariant Model ( http://arxiv.org/abs/2011.02203v4 )

ライセンス: Link先を確認
Xinwei Sun, Botong Wu, Xiangyu Zheng, Chang Liu, Wei Chen, Tao Qin, Tie-yan Liu(参考訳) 現在の教師付き学習は、データフィッティングプロセス中に、解釈可能性、分散(ood)一般化、ロバスト性に関する問題を引き起こすスプリアス相関を学習することができる。 そこで本研究では,因果予測を追求する潜在因果不分散モデル(lacim)を提案する。 具体的には、分割された潜伏変数を導入します。 (a)出力因果因子及び (b) 根底にある因果要因をモデル化するため、共同設立者によるアウトプットと急激な相関関係を持つもの。 さらに、潜在空間から観測データへの生成機構は因果不変であると仮定する。 このような不変性の特定可能な主張、特に他者からの出力-因果要因の不連続を、正確な推論の理論的保証とスプリアス相関の回避として与える。 本稿では,変分ベイジアンに基づく推定手法を提案し,潜在空間上での予測を最適化する。 本手法の有効性は, 解釈可能性の向上, 様々なOODシナリオ(医療を含む)の予測能力, セキュリティの堅牢性によって検証される。

Current supervised learning can learn spurious correlation during the data-fitting process, imposing issues regarding interpretability, out-of-distribution (OOD) generalization, and robustness. To avoid spurious correlation, we propose a Latent Causal Invariance Model (LaCIM) which pursues causal prediction. Specifically, we introduce latent variables that are separated into (a) output-causative factors and (b) others that are spuriously correlated to the output via confounders, to model the underlying causal factors. We further assume the generating mechanisms from latent space to observed data to be causally invariant. We give the identifiable claim of such invariance, particularly the disentanglement of output-causative factors from others, as a theoretical guarantee for precise inference and avoiding spurious correlation. We propose a Variational-Bayesian-based method for estimation and to optimize over the latent space for prediction. The utility of our approach is verified by improved interpretability, prediction power on various OOD scenarios (including healthcare) and robustness on security.
翻訳日:2022-09-29 21:29:36 公開日:2021-04-27
# mlに基づく自己チューニングデータベースの汎用フレームワークに向けて

Towards a General Framework for ML-based Self-tuning Databases ( http://arxiv.org/abs/2011.07921v2 )

ライセンス: Link先を確認
Thomas Schmied, Diego Didona, Andreas D\"oring, Thomas Parnell, and Nikolas Ioannou(参考訳) 機械学習(ML)メソッドは、データベースの自動パラメータチューニングを実行する効果的な方法として最近登場した。 最先端のアプローチには、ベイズ最適化(BO)と強化学習(RL)がある。 本稿では、この文脈でまだ研究されていないデータベースにこれらのメソッドを適用する際の私たちの経験について述べる。 まず、未知の設定パラメータの有効範囲や、無効な実行の結果のパラメータ値の組み合わせ、そしてそれらを緩和する方法など、私たちが直面した課題について説明する。 これらの問題は一般的に見過ごされがちですが、データベースにおけるMLの自己チューニング技術の採用にとって、これらは決定的な障壁である、と私たちは主張しています。 次に,ML手法を用いたFoundationDBのチューニング実験を行った。 この領域における以前の作業と異なり、最も単純なベースラインであるランダム検索と比較する。 以上の結果から,BO法とRL法はFoundationDBのスループットを最大38%向上させることができるが,ランダム検索は競争の激しいベースラインであり,より複雑で複雑なML法よりもわずか4%低い構成であることがわかった。 この領域における今後の研究は、ランダム化されたモデルなし最適化アルゴリズムにもっと焦点を当てたいと結論付けている。

Machine learning (ML) methods have recently emerged as an effective way to perform automated parameter tuning of databases. State-of-the-art approaches include Bayesian optimization (BO) and reinforcement learning (RL). In this work, we describe our experience when applying these methods to a database not yet studied in this context: FoundationDB. Firstly, we describe the challenges we faced, such as unknown valid ranges of configuration parameters and combinations of parameter values that result in invalid runs, and how we mitigated them. While these issues are typically overlooked, we argue that they are a crucial barrier to the adoption of ML self-tuning techniques in databases, and thus deserve more attention from the research community. Secondly, we present experimental results obtained when tuning FoundationDB using ML methods. Unlike prior work in this domain, we also compare with the simplest of baselines: random search. Our results show that, while BO and RL methods can improve the throughput of FoundationDB by up to 38%, random search is a highly competitive baseline, finding a configuration that is only 4% worse than the, vastly more complex, ML methods. We conclude that future work in this area may want to focus more on randomized, model-free optimization algorithms.
翻訳日:2022-09-25 01:09:20 公開日:2021-04-27
# 時間的に連続した3次元人物の時間的特徴と映像からの形状

Beyond Static Features for Temporally Consistent 3D Human Pose and Shape from a Video ( http://arxiv.org/abs/2011.08627v4 )

ライセンス: Link先を確認
Hongsuk Choi, Gyeongsik Moon, Ju Yong Chang, Kyoung Mu Lee(参考訳) 単一の画像に基づく3次元人物ポーズと形状推定手法が最近成功しているにもかかわらず、ビデオから時間的に一貫性があり滑らかな3d人間の動きを復元することは依然として困難である。 いくつかのビデオベース手法が提案されているが、現在のフレームの静的な特徴に強い依存があるため、単一の画像ベース手法の時間的矛盾を解決できない。 本稿では,時間的に一貫したメッシュ回復システム(TCMR)を提案する。 現在の静的特徴に支配されることなく、過去と将来のフレームの時間情報に効果的に集中する。 われわれのtcmrは、フレームごとの3dポーズと形状精度を改善した時間的一貫性において、従来のビデオベース手法を著しく上回っている。 コードもリリースしています。 デモビデオはhttps://youtu.be/WB3nTnSQDIIを参照。 コードについてはhttps://github.com/hongsukchoi/TCMR_RELEASEを参照。

Despite the recent success of single image-based 3D human pose and shape estimation methods, recovering temporally consistent and smooth 3D human motion from a video is still challenging. Several video-based methods have been proposed; however, they fail to resolve the single image-based methods' temporal inconsistency issue due to a strong dependency on a static feature of the current frame. In this regard, we present a temporally consistent mesh recovery system (TCMR). It effectively focuses on the past and future frames' temporal information without being dominated by the current static feature. Our TCMR significantly outperforms previous video-based methods in temporal consistency with better per-frame 3D pose and shape accuracy. We also release the codes. For the demo video, see https://youtu.be/WB3nTnSQDII. For the codes, see https://github.com/hongsukchoi/TCMR_RELEASE.
翻訳日:2022-09-24 16:56:16 公開日:2021-04-27
# DCT-マスク:離散コサイン変換マスク表現によるインスタンス分割

DCT-Mask: Discrete Cosine Transform Mask Representation for Instance Segmentation ( http://arxiv.org/abs/2011.09876v3 )

ライセンス: Link先を確認
Xing Shen, Jirui Yang, Chunbo Wei, Bing Deng, Jianqiang Huang, Xiansheng Hua, Xiaoliang Cheng, Kewei Liang(参考訳) バイナリグリッドマスク表現は、インスタンスセグメンテーションで広く使用される。 代表的なインスタンスはMask R-CNNで、28ドルのバイナリグリッドでマスクを予測する。 一般に、低解像度グリッドは詳細を捉えるのに十分ではなく、高解像度グリッドはトレーニングの複雑さを劇的に増大させる。 本稿では, 離散コサイン変換(dct)を用いて, 高分解能2次グリッドマスクをコンパクトベクトルに符号化する新しいマスク表現を提案する。 DCT-Maskと呼ばれるこの手法は、ほとんどのピクセルベースのインスタンスセグメンテーション手法に簡単に統合できる。 ベルとホイッスルがなければ、DCT-Maskはさまざまなフレームワーク、バックボーン、データセット、トレーニングスケジュールに対して大きな利益をもたらす。 事前処理や事前トレーニングは必要とせず、走行速度にほとんど危害を加えない。 特に,高品質なアノテーションや複雑なバックボーンに対して,提案手法は改善されている。 さらに,マスク表現の品質の観点から,提案手法の性能を解析した。 DCT-Maskがうまく機能する主な理由は、複雑さの低い高品質なマスク表現が得られることである。 コードはhttps://github.com/aliyun/DCT-Mask.gitで入手できる。

Binary grid mask representation is broadly used in instance segmentation. A representative instantiation is Mask R-CNN which predicts masks on a $28\times 28$ binary grid. Generally, a low-resolution grid is not sufficient to capture the details, while a high-resolution grid dramatically increases the training complexity. In this paper, we propose a new mask representation by applying the discrete cosine transform(DCT) to encode the high-resolution binary grid mask into a compact vector. Our method, termed DCT-Mask, could be easily integrated into most pixel-based instance segmentation methods. Without any bells and whistles, DCT-Mask yields significant gains on different frameworks, backbones, datasets, and training schedules. It does not require any pre-processing or pre-training, and almost no harm to the running speed. Especially, for higher-quality annotations and more complex backbones, our method has a greater improvement. Moreover, we analyze the performance of our method from the perspective of the quality of mask representation. The main reason why DCT-Mask works well is that it obtains a high-quality mask representation with low complexity. Code is available at https://github.com/aliyun/DCT-Mask.git.
翻訳日:2022-09-23 21:18:43 公開日:2021-04-27
# 有向非巡回グラフとアーチファクトモデルに基づく超音波強度・構造信頼度マップ

Ultrasound Confidence Maps of Intensity and Structure Based on Directed Acyclic Graphs and Artifact Models ( http://arxiv.org/abs/2011.11956v4 )

ライセンス: Link先を確認
Alex Ling Yu Hung, Wanwen Chen, John Galeotti(参考訳) 超音波イメージングは改善されているが、減衰、影、回折、スペックルなど、モデル化が難しい固有の人工物に悩まされ続けている。 これらのアーティファクトは、個々のピクセル値の確実性を評価する試みがなければ、画像解析アルゴリズムを混乱させる可能性がある。 本研究では,超音波画像の音響物理特性に基づく有向非巡回グラフを用いて画素値の解析を行う。 提案手法の特徴を実証し,従来のシャドウ検出および画像合成タスクの信頼度測定アルゴリズムと比較する。

Ultrasound imaging has been improving, but continues to suffer from inherent artifacts that are challenging to model, such as attenuation, shadowing, diffraction, speckle, etc. These artifacts can potentially confuse image analysis algorithms unless an attempt is made to assess the certainty of individual pixel values. Our novel confidence algorithms analyze pixel values using a directed acyclic graph based on acoustic physical properties of ultrasound imaging. We demonstrate unique capabilities of our approach and compare it against previous confidence-measurement algorithms for shadow-detection and image-compounding tasks.
翻訳日:2022-09-21 13:54:11 公開日:2021-04-27
# CNNを用いたポーズ推定におけるオブジェクト対称性の扱い

Handling Object Symmetries in CNN-based Pose Estimation ( http://arxiv.org/abs/2011.13209v2 )

ライセンス: Link先を確認
Jesse Richter-Klug and Udo Frese(参考訳) 本稿では,畳み込みニューラルネットワーク(cnn)に基づくポーズ推定器が対称対象を持つ問題について検討する。 対象を連続的に回転させるとき、cnnの出力表現の値は考慮され、対称性の各ステップの後に閉ループを形成する必要があることが判明した。 さもなければ、CNN(それ自体は連続関数)は不連続関数を複製しなければならない。 1自由のおもちゃの例では、一般的に使われる表現はこの要求を満たさないことを示し、その結果生じる問題を分析します。 特に、対称性を意識した損失を生み出すための一般的なmin-over-symmetriesアプローチは、勾配に基づく最適化、すなわちディープラーニングではうまく機能しない傾向がある。 これらの知見から「閉対称性ループ」(csl)と呼ばれる表現を提案し、関連するベクトルの角度を対称性の順序に乗じて6-DOFに一般化する。 この表現はアルゴリズムを[richter-klug, icvs, 2019]から拡張し、最終的なポーズ推定中に対称同値を曖昧化する方法を含む。 このアルゴリズムは連続的な回転対称性(例えばボトル)と離散的な回転対称性(例えば4倍対称箱)を扱う。 T-LESSデータセットで評価され、未精製のRGBベースのメソッドで最先端に達する。

In this paper, we investigate the problems that Convolutional Neural Networks (CNN)-based pose estimators have with symmetric objects. We considered the value of the CNN's output representation when continuously rotating the object and found that it has to form a closed loop after each step of symmetry. Otherwise, the CNN (which is itself a continuous function) has to replicate an uncontinuous function. On a 1-DOF toy example we show that commonly used representations do not fulfill this demand and analyze the problems caused thereby. In particular, we find that the popular min-over-symmetries approach for creating a symmetry-aware loss tends not to work well with gradient-based optimization, i.e. deep learning. We propose a representation called "closed symmetry loop" (csl) from these insights, where the angle of relevant vectors is multiplied by the symmetry order and then generalize it to 6-DOF. The representation extends our algorithm from [Richter-Klug, ICVS, 2019] including a method to disambiguate symmetric equivalents during the final pose estimation. The algorithm handles continuous rotational symmetry (e.g. a bottle) and discrete rotational symmetry (e.g. a 4-fold symmetric box). It is evaluated on the T-LESS dataset, where it reaches state-of-the-art for unrefining RGB-based methods.
翻訳日:2022-09-20 12:16:01 公開日:2021-04-27
# 量子化ニューラルネットワークとプルーニングニューラルネットワークのロバスト誤差境界

Robust error bounds for quantised and pruned neural networks ( http://arxiv.org/abs/2012.00138v2 )

ライセンス: Link先を確認
Jiaqi Li, Ross Drummond and Stephen R. Duncan(参考訳) スマートフォンやモノのインターネットの普及に伴い、ローカルのパーソナルデバイス上では、データがますます発生しつつある。 プライバシ、レイテンシ、省エネの理由から、このシフトによって、マシンラーニングアルゴリズムは、デバイスにローカルに格納されたデータとアルゴリズム、さらにはトレーニング済みの分散化へと移行している。 デバイスハードウェアは、このセットアップにおけるモデル機能の主要なボトルネックとなり、スリム化されより効率的なニューラルネットワークの必要性を生み出します。 ニューラルネットワークのプルーニングと量子化は、このために開発された2つの方法であり、どちらのアプローチもモデル性能を犠牲にすることなく計算コストを削減できる素晴らしい結果を示している。 しかし、これらの削減手法の理解はいまだに未発達である。 この問題に対処するために、ニューラルネットワークのプルーニングや定量化による最悪のケースエラーをバウンドする半定プログラムを導入する。 この手法は多くのニューラルネットワーク構造や非線形活性化関数に適用でき、境界は指定された集合の全ての入力に対して頑健に保持される。 計算された境界は、安全クリティカルなシステム上にデプロイされた場合、これらのアルゴリズムの性能に確実性をもたらすことが期待されている。

With the rise of smartphones and the internet-of-things, data is increasingly getting generated at the edge on local, personal devices. For privacy, latency and energy saving reasons, this shift is causing machine learning algorithms to move towards decentralisation with the data and algorithms stored, and even trained, locally on devices. The device hardware becomes the main bottleneck for model capability in this set-up, creating a need for slimmed down, more efficient neural networks. Neural network pruning and quantisation are two methods that have been developed for this, with both approaches demonstrating impressive results in reducing the computational cost without sacrificing significantly on model performance. However, the understanding behind these reduction methods remains underdeveloped. To address this issue, a semi-definite program is introduced to bound the worst-case error caused by pruning or quantising a neural network. The method can be applied to many neural network structures and nonlinear activation functions with the bounds holding robustly for all inputs in specified sets. It is hoped that the computed bounds will provide certainty to the performance of these algorithms when deployed on safety-critical systems.
翻訳日:2021-06-06 14:27:50 公開日:2021-04-27
# 回転対称成分の自動表面検査のためのスティッチアルゴリズム

A Stitching Algorithm for Automated Surface Inspection of Rotationally Symmetric Components ( http://arxiv.org/abs/2012.00308v2 )

ライセンス: Link先を確認
Tobias Schlagenhauf, Tim Brander, Juergen Fleischer(参考訳) 本稿では,回転対称部分の表面像を縫い合わせる新しい方法を提案する。 機能ベースの縫合アプローチを使用して、ビデオファイルから歪みのない、真から生までのイメージを生成するプロセスパイプラインを提供する。 これにより、例えば、多数の個々の画像を見ることなく、条件監視が可能になる。 検証のために, 使用済みボールねじ駆動スピンドルの具体例を用いて, 本稿で実証する。 開発したアルゴリズムはラインスキャンカメラシステムの機能原理を再現することを目的としており、物理的計測システムは特徴に基づくアプローチに置き換えられる。 縫合アルゴリズムの評価にはメトリクスが使用され、そのうちのいくつかは本研究でしか開発されていないか、既に使用されているテスト手順によって補われている。 開発したアルゴリズムの適用性は機械工具のスピンドルに限ったものではない。 代わりに、開発した手法は、様々な回転対称成分の表面検査への一般的なアプローチを可能にするため、様々な産業用途で使用できる。 深層学習に基づく検出アルゴリズムは容易に実装でき、回転対称部分の故障検出と状態監視のための完全なパイプラインを生成することができる。

This paper provides a novel approach to stitching surface images of rotationally symmetric parts. It presents a process pipeline that uses a feature-based stitching approach to create a distortion-free and true-to-life image from a video file. The developed process thus enables, for example, condition monitoring without having to view many individual images. For validation purposes, this will be demonstrated in the paper using the concrete example of a worn ball screw drive spindle. The developed algorithm aims at reproducing the functional principle of a line scan camera system, whereby the physical measuring systems are replaced by a feature-based approach. For evaluation of the stitching algorithms, metrics are used, some of which have only been developed in this work or have been supplemented by test procedures already in use. The applicability of the developed algorithm is not only limited to machine tool spindles. Instead, the developed method allows a general approach to the surface inspection of various rotationally symmetric components and can therefore be used in a variety of industrial applications. Deep-learning-based detection Algorithms can easily be implemented to generate a complete pipeline for failure detection and condition monitoring on rotationally symmetric parts.
翻訳日:2021-05-30 19:50:49 公開日:2021-04-27
# (参考訳) デジタル画像に対する可視性非可視性交感神経パッチ攻撃

Visually Imperceptible Adversarial Patch Attacks on Digital Images ( http://arxiv.org/abs/2012.00909v3 )

ライセンス: CC BY 4.0
Yaguan Qian, Jiamin Wang, Bin Wang, Shaoning Zeng, Zhaoquan Gu, Shouling Ji, and Wassim Swaileh(参考訳) 敵対的な例に対するディープニューラルネットワーク(DNN)の脆弱性が注目されている。 多くのアルゴリズムが強力な敵の例を作るために提案されている。 しかし、これらのアルゴリズムのほとんどは、ネットワークの説明を考慮せずに、グローバルまたはローカルなピクセル領域を変更した。 したがって、摂動は冗長であり、人間の目から容易に検出できる。 本稿では,局所的領域摂動を生成する新しい手法を提案する。 主なアイデアは、人間の注意機構をシミュレートし、CFRに摂動を加えることで、画像の寄与する特徴領域(CFR)を見つけることである。 さらに、活性化マップに基づいてソフトマスク行列を設計し、CFRの各画素の寄与を微妙に表現する。 このソフトマスクを用いて,CFRの最適摂動を探索する逆温度の新しい損失関数を開発した。 ネットワークの説明により、CFRに付加される摂動は他の領域に付加されるものよりも効果的である。 CIFAR-10 と ILSVRC2012 で行った大規模な実験により,攻撃成功率,非受容性,伝達性など,提案手法の有効性が示された。

The vulnerability of deep neural networks (DNNs) to adversarial examples has attracted more attention. Many algorithms have been proposed to craft powerful adversarial examples. However, most of these algorithms modified the global or local region of pixels without taking network explanations into account. Hence, the perturbations are redundant, which are easily detected by human eyes. In this paper, we propose a novel method to generate local region perturbations. The main idea is to find a contributing feature region (CFR) of an image by simulating the human attention mechanism and then add perturbations to CFR. Furthermore, a soft mask matrix is designed on the basis of an activation map to finely represent the contributions of each pixel in CFR. With this soft mask, we develop a new loss function with inverse temperature to search for optimal perturbations in CFR. Due to the network explanations, the perturbations added to CFR are more effective than those added to other regions. Extensive experiments conducted on CIFAR-10 and ILSVRC2012 demonstrate the effectiveness of the proposed method, including attack success rate, imperceptibility, and transferability.
翻訳日:2021-05-30 17:12:49 公開日:2021-04-27
# (参考訳) 特徴地図再構成ネットワークを用いたマイナショット分類

Few-Shot Classification with Feature Map Reconstruction Networks ( http://arxiv.org/abs/2012.01506v2 )

ライセンス: CC BY 4.0
Davis Wertheimer, Luming Tang and Bharath Hariharan(参考訳) 本稿では, 潜在空間における再構成問題として, 少数ショット分類を再構成する。 あるクラスのサポート機能からクエリ特徴マップを再構築するネットワークの能力は、そのクラスにおけるクエリのメンバシップを予測する。 我々は,新しいモジュールや大規模学習可能なパラメータを導入することなく,サポート機能から直接クローズドな形式の特徴を問合せする機構を導入する。 結果のFeature Map Restruction Networksは、以前のアプローチよりもパフォーマンスが高く、計算的に効率的である。 異なるニューラルネットワークを持つ4つのきめ細かいベンチマークに対して、一貫性と実質的な精度の向上を示す。 我々のモデルは、細粒でないミニイメージネットと、最小限のベルとホイッスルを持つタイレッドイメージネットベンチマークで競合する。

In this paper we reformulate few-shot classification as a reconstruction problem in latent space. The ability of the network to reconstruct a query feature map from support features of a given class predicts membership of the query in that class. We introduce a novel mechanism for few-shot classification by regressing directly from support features to query features in closed form, without introducing any new modules or large-scale learnable parameters. The resulting Feature Map Reconstruction Networks are both more performant and computationally efficient than previous approaches. We demonstrate consistent and substantial accuracy gains on four fine-grained benchmarks with varying neural architectures. Our model is also competitive on the non-fine-grained mini-ImageNet and tiered-ImageNet benchmarks with minimal bells and whistles.
翻訳日:2021-05-30 01:45:25 公開日:2021-04-27
# (参考訳) 3次元点雲からの凸ポリトープ組成の再構成

Reconstruction of Convex Polytope Compositions from 3D Point-clouds ( http://arxiv.org/abs/2105.02956v1 )

ライセンス: CC BY 4.0
Markus Friedrich and Pierre-Alain Fayolle(参考訳) 対応する入力ポイントクラウドに完全に適合する凸ポリトープの合成(結合)を再構成することは、リバースエンジニアリングや剛体動力学シミュレーションで興味深い応用を伴う難しい最適化問題である。 本稿ではまず,まず平面の集合を抽出し,次に入力点雲を弱凸クラスタに分割し,各分割に適合する平面の交点として凸多面体の集合を生成するパイプラインを提案する。 最良適合凸多面体を見つけることは、適合面の集合上の組合せ最適化問題として定式化し、進化的アルゴリズムを用いて解く。 凸クラスタリングには2つの異なる手法を用い,複数の入力データセットに基づく徹底的な評価において,その強みと弱みを詳述する。

Reconstructing a composition (union) of convex polytopes that perfectly fits the corresponding input point-cloud is a hard optimization problem with interesting applications in reverse engineering and rigid body dynamics simulations. We propose a pipeline that first extracts a set of planes, then partitions the input point-cloud into weakly convex clusters and finally generates a set of convex polytopes as the intersection of fitted planes for each partition. Finding the best-fitting convex polytopes is formulated as a combinatorial optimization problem over the set of fitted planes and is solved using an Evolutionary Algorithm. For convex clustering, we employ two different methods and detail their strengths and weaknesses in a thorough evaluation based on multiple input data-sets.
翻訳日:2021-05-11 10:43:16 公開日:2021-04-27
# (参考訳) VID-WIN: マルチメディア物のインターネットのためのエッジにおけるクエリ対応ウィンドウとの高速ビデオイベントマッチング

VID-WIN: Fast Video Event Matching with Query-Aware Windowing at the Edge for the Internet of Multimedia Things ( http://arxiv.org/abs/2105.02957v1 )

ライセンス: CC BY 4.0
Piyush Yadav, Dhaval Salwala, Edward Curry(参考訳) 効率的なビデオ処理は、興味のある事象を検出するために多くのIoMTアプリケーションにおいて重要な要素である。 現在、多くのウィンドウ最適化技術がイベント処理において提案されており、入力ストリームが構造化データモデルを持つという前提で提案されている。 基盤となる構造化データモデルがないため、ビデオは非常に複雑です。 CCTVカメラやスマートフォンなどのビデオストリームソースは、リソース制約のあるエッジノードである。 同時に、ビデオコンテンツ抽出は高価であり、主にハイエンド(あるいはクラウド)ノードにデプロイされる計算集約型ディープニューラルネットワーク(DNN)モデルが必要である。 本稿では,エッジクラウドパラダイムにおけるビデオイベント分析を高速化するための,適応型2ステージアライアンスウィンドウ方式であるVID-WINを提案する。 VID-WINはエッジとクラウドノードを並行して実行し、状態ベースの複合イベントマッチングのためのクエリとリソース認識の最適化を実行する。 VID-WINは、ビデオコンテンツとDNN入力ノブを利用して、ノード間のビデオ推論プロセスを高速化する。 本稿では、リソース制約付きエッジノード下での動画フレームのコンテンツ駆動型マイクロバッチリサイズ化、クエリアウェアキャッシュ、およびマイクロバッチベースのユーティリティフィルタリング戦略を提案し、システムスループット、レイテンシ、ネットワーク使用率を改善する。 5つの現実世界のデータセットに対して広範な評価が行われる。 実験の結果、VID-WINビデオイベントマッチングは、クエリレベルの精度とリソース境界を維持しながら、レイテンシを最小化し、帯域幅を99%削減し、スループットを約2.3倍に向上することがわかった。

Efficient video processing is a critical component in many IoMT applications to detect events of interest. Presently, many window optimization techniques have been proposed in event processing with an underlying assumption that the incoming stream has a structured data model. Videos are highly complex due to the lack of any underlying structured data model. Video stream sources such as CCTV cameras and smartphones are resource-constrained edge nodes. At the same time, video content extraction is expensive and requires computationally intensive Deep Neural Network (DNN) models that are primarily deployed at high-end (or cloud) nodes. This paper presents VID-WIN, an adaptive 2-stage allied windowing approach to accelerate video event analytics in an edge-cloud paradigm. VID-WIN runs parallelly across edge and cloud nodes and performs the query and resource-aware optimization for state-based complex event matching. VID-WIN exploits the video content and DNN input knobs to accelerate the video inference process across nodes. The paper proposes a novel content-driven micro-batch resizing, queryaware caching and micro-batch based utility filtering strategy of video frames under resource-constrained edge nodes to improve the overall system throughput, latency, and network usage. Extensive evaluations are performed over five real-world datasets. The experimental results show that VID-WIN video event matching achieves ~2.3X higher throughput with minimal latency and ~99% bandwidth reduction compared to other baselines while maintaining query-level accuracy and resource bounds.
翻訳日:2021-05-11 10:30:41 公開日:2021-04-27
# (参考訳) 限定ラベル付天文画像の形態分類

Morphological classification of astronomical images with limited labelling ( http://arxiv.org/abs/2105.02958v1 )

ライセンス: CC BY 4.0
Andrey Soroka (1), Alex Meshcheryakov (2), Sergey Gerasimov (1) ((1) Faculty of Computational Mathematics and Cybernetics Lomonosov Moscow State University, (2) Space Research Institute of RAS)(参考訳) 形態学的分類のタスクは単純なパラメータ化には複雑であるが、銀河進化分野の研究には重要である。 将来の銀河探査(例) EUCLID)は10^9ドルの銀河のデータを収集する。 形態情報を得るためには、大量のお金または膨大な数のボランティアを必要とする銀河画像をマークアップする必要がある。 本稿では, 対向オートエンコーダ(AAE)モデルの能動的学習に基づく, 銀河形態分類の効果的な半教師付き手法を提案する。 2値分類問題(galaxy zoo 2 決定ツリーのトップレベル問題)では、テスト部分において 0.86 百万のマークアップアクションで93.1%の精度を達成しました。 付加的なマークアップを持つ最良のモデルは、95.5%の精度を達成します。 我々の知る限り、天文学におけるAE半教師あり学習モデルとしては初めてである。

The task of morphological classification is complex for simple parameterization, but important for research in the galaxy evolution field. Future galaxy surveys (e.g. EUCLID) will collect data about more than a $10^9$ galaxies. To obtain morphological information one needs to involve people to mark up galaxy images, which requires either a considerable amount of money or a huge number of volunteers. We propose an effective semi-supervised approach for galaxy morphology classification task, based on active learning of adversarial autoencoder (AAE) model. For a binary classification problem (top level question of Galaxy Zoo 2 decision tree) we achieved accuracy 93.1% on the test part with only 0.86 millions markup actions, this model can easily scale up on any number of images. Our best model with additional markup achieves accuracy of 95.5%. To the best of our knowledge it is a first time AAE semi-supervised learning model used in astronomy.
翻訳日:2021-05-11 09:48:57 公開日:2021-04-27
# (参考訳) Outlier-robust sparse/low-rank least-squares regression and robust matrix completion

Outlier-robust sparse/low-rank least-squares regression and robust matrix completion ( http://arxiv.org/abs/2012.06750v2 )

ライセンス: CC BY 4.0
Philip Thompson(参考訳) 異種雑音を伴うサブガウシアン統計学習枠組みにおける高次元最小二乗回帰について検討した。 ラベルのわずかな$\epsilon$ が反対に汚染された場合に$s$-sparse と $r$-low-rank の最小二乗回帰を含む。 また, 製品プロセスの新たな応用に基づいて, 行列分解を伴う新しいトレース回帰理論を提案する。 これらの問題に対して、r(n,d_{e})+\sqrt{\log(1/\delta)/n}+\epsilon\log(1/\epsilon)$という形の新しい「準ガウス的」推定率は、少なくとも1-\delta$という確率で有効である。 ここで、$r(n,d_{e})$ は有効次元 $d_{e}$ の関数として最適非汚染率であるが、失敗確率 $\delta$ とは独立である。 これらの値は$\delta$、すなわち、推定子のチューニングは$\delta$に依存しない。 最後に,非一様サンプリングによる頑健な行列補完について考察する。 低ランク行列だけに興味があるなら、汚職レベル$a$とは無関係に、非常に近い最適率を示す。 私たちの推定器は、新しい"ソートされた"Huber型損失に基づいて、トラクタブルです。 これらの推定値を調整するには$(s,r,\epsilon,a,\delta)$に関する情報は必要ない。 我々の分析では、他の場所で有用な乗算および製品プロセスに対して、新規な$\delta$-optimal concentration inequalityを利用する。 例えば、sso と Slope の鋭いオラクルの不等式は $\delta$ に最適に依存する。 数値シミュレーションは我々の理論予測を裏付ける。 特に、"ソート"なHuber回帰は、古典的なHuber回帰よりも優れている。

We study high-dimensional least-squares regression within a subgaussian statistical learning framework with heterogeneous noise. It includes $s$-sparse and $r$-low-rank least-squares regression when a fraction $\epsilon$ of the labels are adversarially contaminated. We also present a novel theory of trace-regression with matrix decomposition based on a new application of the product process. For these problems, we show novel near-optimal "subgaussian" estimation rates of the form $r(n,d_{e})+\sqrt{\log(1/\delta)/n}+\epsilon\log(1/\epsilon)$, valid with probability at least $1-\delta$. Here, $r(n,d_{e})$ is the optimal uncontaminated rate as a function of the effective dimension $d_{e}$ but independent of the failure probability $\delta$. These rates are valid uniformly on $\delta$, i.e., the estimators' tuning do not depend on $\delta$. Lastly, we consider noisy robust matrix completion with non-uniform sampling. If only the low-rank matrix is of interest, we present a novel near-optimal rate that is independent of the corruption level $a$. Our estimators are tractable and based on a new "sorted" Huber-type loss. No information on $(s,r,\epsilon,a,\delta)$ are needed to tune these estimators. Our analysis makes use of novel $\delta$-optimal concentration inequalities for the multiplier and product processes which could be useful elsewhere. For instance, they imply novel sharp oracle inequalities for Lasso and Slope with optimal dependence on $\delta$. Numerical simulations confirm our theoretical predictions. In particular, "sorted" Huber regression can outperform classical Huber regression.
翻訳日:2021-05-10 09:34:36 公開日:2021-04-27
# RNNトランスデューサの実用化に向けて

On Addressing Practical Challenges for RNN-Transduce ( http://arxiv.org/abs/2105.00858v1 )

ライセンス: Link先を確認
Rui Zhao, Jian Xue, Jinyu Li, Wenning Wei, Lei He, Yifan Gong(参考訳) 本稿では,RNNトランスデューサ(RNN-T)をベースとした音声認識システムの実現に向けた実践的な課題について述べる。 これらの課題は、よく訓練されたrnn-tモデルを音声データを収集せずに新しいドメインに適応させ、単語レベルでタイムスタンプや信頼度スコアを得ることである。 第1の課題は、ソースドメインデータから抽出された音声セグメントを連結するスプライシングデータ手法によって解決される。 タイムスタンプを得るために、テンポアライメントのためにエンコーダを共有することにより、rnn-tモデルに電話予測ブランチを追加する。 最後に,デコード時に計算した複数種類の特徴と混乱ネットワークから単語レベルの信頼度を求める。 Microsoftの生産データから評価すると、スプライシングデータ適応法は、テキストによる音声への適応を、それぞれ58.03%、相対単語誤り率15.25%で改善する。 提案手法は,RNN-Tモデルの認識精度を維持しつつ,平均で50ms未満の単語タイミング差が得られる。 また,計算コストの少ない高い信頼度アノテーション性能を得る。

In this paper, several works are proposed to address practical challenges for deploying RNN Transducer (RNN-T) based speech recognition system. These challenges are adapting a well-trained RNN-T model to a new domain without collecting the audio data, obtaining time stamps and confidence scores at word level. The first challenge is solved with a splicing data method which concatenates the speech segments extracted from the source domain data. To get the time stamp, a phone prediction branch is added to the RNN-T model by sharing the encoder for the purpose of force alignment. Finally, we obtain word-level confidence scores by utilizing several types of features calculated during decoding and from confusion network. Evaluated with Microsoft production data, the splicing data adaptation method improves the baseline and adaption with the text to speech method by 58.03% and 15.25% relative word error rate reduction, respectively. The proposed time stamping method can get less than 50ms word timing difference on average while maintaining the recognition accuracy of the RNN-T model. We also obtain high confidence annotation performance with limited computation cost
翻訳日:2021-05-04 20:45:11 公開日:2021-04-27
# 基本不確かさ情報を用いた多値判定のための一般化TODIM法とその応用

Generalized-TODIM Method for Multi-criteria Decision Making with Basic Uncertain Information and its Application ( http://arxiv.org/abs/2104.11597v2 )

ライセンス: Link先を確認
Zhiyuan Zhou, Kai Xuan, Zhifu Tao, Ligang Zhou(参考訳) 基本的な不確実な情報が、確実な程度に決定情報の簡単な形式を提供するという事実から、観察や主観的な評価の質を反映するように開発された。 基本不確実情報の代数構造と嗜好関係を研究するために,基本不確実情報の代数演算を開発する。 このような情報の順序関係も検討されている。 最後に,発達した代数演算と順序関係を適用するために,基本的不確実な情報を用いた多属性決定のための一般化TODIM法を提案する。 数値例は, 発達した決定手続きが有効であることを示す。

Due to the fact that basic uncertain information provides a simple form for decision information with certainty degree, it has been developed to reflect the quality of observed or subjective assessments. In order to study the algebra structure and preference relation of basic uncertain information, we develop some algebra operations for basic uncertain information. The order relation of such type of information has also been considered. Finally, to apply the developed algebra operations and order relations, a generalized TODIM method for multi-attribute decision making with basic uncertain information is given. The numerical example shows that the developed decision procedure is valid.
翻訳日:2021-05-03 19:47:14 公開日:2021-04-27
# (参考訳) スケールド共登録に基づく大学院課程ネットワークにおけるハブの同定:拡張版

Identifying Hubs in Undergraduate Course Networks Based on Scaled Co-Enrollments: Extended Version ( http://arxiv.org/abs/2104.14500v1 )

ライセンス: CC BY 4.0
Gary M. Weiss, Nam Nguyen, Karla Dominguez and Daniel D. Leeds(参考訳) コースの入学パターンを理解することは、将来のコースに対する今後の需要を予測し、学生に現在の背景から現実的なコースを追求する上で重要である。 本研究は,大学生の入学者データを用いて,学生の共入生に基づく授業のネットワークを形成する。 本論文で作成したコースネットワークは,大都市圏大学における8年間の学部進学データに基づいている。 ネットワークは分析され、しばしば他の多くのコースで取られる「ハブ」コースを特定する。 ハブの概念は2つある: 1つは全学生の生の人気に焦点をあて、もう1つは他のコースと共学する確率に焦点をあてる。 コースネットワークを評価するために、様々なネットワークメトリクスが計算される。 学術部門と、ヒューマニティ対STEMのような高等教育機関は、コースグループ化に対する影響について研究している。 ハブコースの特定は、コース提供やコース人気の変化の影響を予測するのに役立つため、実践的な応用があり、学際的なハブコースの場合は、特定の学術部門や分野における興味や登録の増減に使用できる。

Understanding course enrollment patterns is valuable to predict upcoming demands for future courses, and to provide student with realistic courses to pursue given their current backgrounds. This study uses undergraduate student enrollment data to form networks of courses where connections are based on student co-enrollments. The course networks generated in this paper are based on eight years of undergraduate course enrollment data from a large metropolitan university. The networks are analyzed to identify "hub" courses often taken with many other courses. Two notions of hubs are considered: one focused on raw popularity across all students, and one focused on proportional likelihoods of co-enrollment with other courses. A variety of network metrics are calculated to evaluate the course networks. Academic departments and high-level academic categories, such as Humanities vs STEM, are studied for their influence over course groupings. The identification of hub courses has practical applications, since it can help better predict the impact of changes in course offerings and in course popularity, and in the case of interdisciplinary hub courses, can be used to increase or decrease interest and enrollments in specific academic departments and areas.
翻訳日:2021-05-01 03:41:39 公開日:2021-04-27
# (参考訳) BERTに基づくアクティブラーニングを用いた多クラステキスト分類

Multi-class Text Classification using BERT-based Active Learning ( http://arxiv.org/abs/2104.14289v1 )

ライセンス: CC BY-SA 4.0
Sumanth Prabhu and Moosa Mohamed and Hemant Misra(参考訳) テキスト分類は、顧客が場所から1つ以上のアイテムをピックアップし、特定の目的地に届ける必要があるピックアップおよびデリバリーサービス業界で興味深いアプリケーションを見つける。 これらの顧客トランザクションを複数のカテゴリに分類することは、異なる顧客セグメントの市場ニーズを理解するのに役立つ。 各トランザクションには、顧客が提供したテキスト記述が添付され、取り上げられた商品が記述され、トランザクションの分類に使用できる。 BERTベースのモデルは自然言語理解においてうまく機能することが証明されている。 しかし、顧客が提供する製品記述は短く、一貫性がなく、(ヒンディ・イングリッシュな)テキストになりがちで、手作業でラベル付けされたデータを微調整して精度を上げる必要がある。 このラベル付きデータの収集は、コストがかかることを証明します。 本稿では、BERTを用いてトランザクション分類モデルをトレーニングしながら、トランザクション記述を効果的にラベル付けするためのアクティブラーニング戦略を検討する。 TREC-6, AG's News Corpus, および内部データセット上で, マルチクラステキスト分類における様々なアクティブラーニング戦略間でBERTの性能をベンチマークする。

Text Classification finds interesting applications in the pickup and delivery services industry where customers require one or more items to be picked up from a location and delivered to a certain destination. Classifying these customer transactions into multiple categories helps understand the market needs for different customer segments. Each transaction is accompanied by a text description provided by the customer to describe the products being picked up and delivered which can be used to classify the transaction. BERT-based models have proven to perform well in Natural Language Understanding. However, the product descriptions provided by the customers tend to be short, incoherent and code-mixed (Hindi-English) text which demands fine-tuning of such models with manually labelled data to achieve high accuracy. Collecting this labelled data can prove to be expensive. In this paper, we explore Active Learning strategies to label transaction descriptions cost effectively while using BERT to train a transaction classification model. On TREC-6, AG's News Corpus and an internal dataset, we benchmark the performance of BERT across different Active Learning strategies in Multi-Class Text Classification.
翻訳日:2021-05-01 03:28:21 公開日:2021-04-27
# (参考訳) 特徴属性法は正しく特徴に寄与するか?

Do Feature Attribution Methods Correctly Attribute Features? ( http://arxiv.org/abs/2104.14403v1 )

ライセンス: CC BY 4.0
Yilun Zhou, Serena Booth, Marco Tulio Ribeiro, Julie Shah(参考訳) 特徴帰属法は、解釈可能な機械学習で非常に人気がある。 それらは、その重要性を表すために各入力特徴の属性を計算することを目的としているが、"属性"の定義にはコンセンサスがなく、体系的な評価がほとんどない多くの競合する手法に繋がる。 帰属基盤の真実の欠如は、プロキシメトリクスに依存する評価をさらに複雑にする。 そこで本研究では,新しいデータセットでトレーニングされたモデルに,真理の帰属が期待できるようなデータセット修正手順を提案する。 塩分マップ,合理性,注意の3つの方法を評価した。 我々は,それらの欠陥を特定し,その正確性と信頼性に疑問を呈するエビデンスの増加に新たな視点を付加する。 評価アプローチはモデルに依存しず,今後の機能帰属提案の評価にも利用できる。 コードはhttps://github.com/yilunzhou/feature-attribution-evaluationで入手できる。

Feature attribution methods are exceedingly popular in interpretable machine learning. They aim to compute the attribution of each input feature to represent its importance, but there is no consensus on the definition of "attribution", leading to many competing methods with little systematic evaluation. The lack of attribution ground truth further complicates evaluation, which has to rely on proxy metrics. To address this, we propose a dataset modification procedure such that models trained on the new dataset have ground truth attribution available. We evaluate three methods: saliency maps, rationales, and attention. We identify their deficiencies and add a new perspective to the growing body of evidence questioning their correctness and reliability in the wild. Our evaluation approach is model-agnostic and can be used to assess future feature attribution method proposals as well. Code is available at https://github.com/YilunZhou/feature-attribution-evaluation.
翻訳日:2021-05-01 03:20:03 公開日:2021-04-27
# OpenAI Gym Toolkitを用いた小売チェーンにおける強化学習アルゴリズムの実装

Implementing Reinforcement Learning Algorithms in Retail Supply Chains with OpenAI Gym Toolkit ( http://arxiv.org/abs/2104.14398v1 )

ライセンス: Link先を確認
Shaun D'Souza(参考訳) コスト削減から顧客エクスペリエンスの向上に至るまで、予測は小売サプライチェーン管理(SCM)の欠如であり、サプライチェーンのパフォーマンス向上の鍵である。 いくつかの小売業者は、AI/MLモデルを使用してデータセットを収集し、Cognitive Demand Forecasting、Product End-of-Life、Forecasting、Demand Integrated Product Flowといったアプリケーションで予測ガイダンスを提供している。 これらの領域での初期の研究は、ネットワークフローやグラフといった課題の領域を改善するために、古典的なアルゴリズムに目を向けた。 しかし最近の混乱は、サプライチェーンが予期せぬ出来事に対処する回復力を持つことを重要視している。 最大の課題は需要と供給の一致にある。 強化学習(Reinforcement Learning, RL)は、予測精度の向上、サプライチェーン最適化の課題の解決、予期せぬ状況に対応するための訓練システムなど、SCMに採用されている。 UPSやAmazonのような企業は、AI戦略の勝利を定義し、消費者のデリバリ期待を上昇させるためにRLアルゴリズムを開発した。 サプライチェーンのユースケースにRLアルゴリズムを構築する方法はたくさんありますが、イベント駆動シミュレーションの堅牢なフレームワークのため、OpenAI Gymツールキットが好まれています。 本稿では,プライチェーン予測におけるRLの適用について検討し,OpenAI Gymツールキットを用いて適切なRLモデルとアルゴリズムを構築する方法について述べる。

From cutting costs to improving customer experience, forecasting is the crux of retail supply chain management (SCM) and the key to better supply chain performance. Several retailers are using AI/ML models to gather datasets and provide forecast guidance in applications such as Cognitive Demand Forecasting, Product End-of-Life, Forecasting, and Demand Integrated Product Flow. Early work in these areas looked at classical algorithms to improve on a gamut of challenges such as network flow and graphs. But the recent disruptions have made it critical for supply chains to have the resiliency to handle unexpected events. The biggest challenge lies in matching supply with demand. Reinforcement Learning (RL) with its ability to train systems to respond to unforeseen environments, is being increasingly adopted in SCM to improve forecast accuracy, solve supply chain optimization challenges, and train systems to respond to unforeseen circumstances. Companies like UPS and Amazon have developed RL algorithms to define winning AI strategies and keep up with rising consumer delivery expectations. While there are many ways to build RL algorithms for supply chain use cases, the OpenAI Gym toolkit is becoming the preferred choice because of the robust framework for event-driven simulations. This white paper explores the application of RL in supply chain forecasting and describes how to build suitable RL models and algorithms by using the OpenAI Gym toolkit.
翻訳日:2021-04-30 13:11:17 公開日:2021-04-27
# 機械学習モデル検証のためのデータセットからのサンプル選択

Sample selection from a given dataset to validate machine learning models ( http://arxiv.org/abs/2104.14401v1 )

ライセンス: Link先を確認
Bertrand Iooss (EDF R&D PRISME, GdR MASCOT-NUM)(参考訳) 完全なデータセットから検証ベースを選択することは、教師あり機械学習アルゴリズムの工業的利用においてしばしば必要となる。 この検証ベースは、機械学習モデルの独立した評価を実現するのに役立ちます。 この基盤を選択するために,統計的基準を用いて「実験設計」の視点を採用することを提案する。 本稿では,最大平均離散度基準に基づく「サポートポイント」の概念が特に重要であることを示す。 EDFの工業試験ケースでは、方法論の実践的関心が示されています。

The selection of a validation basis from a full dataset is often required in industrial use of supervised machine learning algorithm. This validation basis will serve to realize an independent evaluation of the machine learning model. To select this basis, we propose to adopt a "design of experiments" point of view, by using statistical criteria. We show that the "support points" concept, based on Maximum Mean Discrepancy criteria, is particularly relevant. An industrial test case from the company EDF illustrates the practical interest of the methodology.
翻訳日:2021-04-30 13:04:44 公開日:2021-04-27
# (参考訳) 任意の物理系に対するバックプロパゲーションアルゴリズムにより実現される深層物理ニューラルネットワーク

Deep physical neural networks enabled by a backpropagation algorithm for arbitrary physical systems ( http://arxiv.org/abs/2104.13386v1 )

ライセンス: CC BY 4.0
Logan G. Wright, Tatsuhiro Onodera, Martin M. Stein, Tianyu Wang, Darren T. Schachter, Zoey Hu, Peter L. McMahon(参考訳) ディープニューラルネットワークは、科学と工学における普及するツールとなっている。 しかし、現代のディープニューラルネットワークのエネルギー要求の増加は、そのスケーリングと幅広い使用をますます制限している。 本稿では,ディープニューラルネットワークモデルを実現するための急進的な代替手段を提案する。 ニューラルネットとして機能する制御可能な物理システムのシーケンスを効率的に学習するために,物理認識トレーニングと呼ばれるハイブリッド物理デジタルアルゴリズムを導入する。 この方法は、現代のディープニューラルネットワークで使用されるのと同じ手法であるバックプロパゲーションを使用して、任意の物理システムの機能を自動で訓練する。 それらの一般化を説明するために,光学系,機械系,電気系の3種類の物理ニューラルネットワークを実演する。 物理ニューラルネットワークは、従来の電子プロセッサよりも桁違いに高速でエネルギー効率の高い非伝統的な機械学習ハードウェアを促進する。

Deep neural networks have become a pervasive tool in science and engineering. However, modern deep neural networks' growing energy requirements now increasingly limit their scaling and broader use. We propose a radical alternative for implementing deep neural network models: Physical Neural Networks. We introduce a hybrid physical-digital algorithm called Physics-Aware Training to efficiently train sequences of controllable physical systems to act as deep neural networks. This method automatically trains the functionality of any sequence of real physical systems, directly, using backpropagation, the same technique used for modern deep neural networks. To illustrate their generality, we demonstrate physical neural networks with three diverse physical systems-optical, mechanical, and electrical. Physical neural networks may facilitate unconventional machine learning hardware that is orders of magnitude faster and more energy efficient than conventional electronic processors.
翻訳日:2021-04-29 23:03:59 公開日:2021-04-27
# (参考訳) SpikE:マルチリレーショナルグラフデータのためのスパイクベースの埋め込み

SpikE: spike-based embeddings for multi-relational graph data ( http://arxiv.org/abs/2104.13398v1 )

ライセンス: CC BY 4.0
Dominik Dold, Josep Soler Garrido(参考訳) 近年のスパイクベースのコーディングとエラーバックプロパゲーションアルゴリズムの整合性の成功にもかかわらず、スパイクニューラルネットワークはいまだに、視覚や聴覚データといった従来のデータ構造を操作する感覚処理から生じるタスクに応用されている。 産業や研究の幅広い応用を見出すリッチなデータ表現は、いわゆるナレッジグラフであり、エンティティをノードとして表現し、それらの間の関係をエッジとして表現するグラフベースの構造である。 分子、ソーシャルネットワーク、産業工場システムといった複雑なシステムは、知識グラフの共通言語を使用して記述することができ、グラフ埋め込みアルゴリズムを使うことで、これらの情報パックされた環境でコンテキスト認識予測が可能になる。 本稿では,グラフ内のノードをニューロン集団の単一のスパイク時間で表現し,個体群間のスパイク時間差としての関係を表現したスパイクに基づくアルゴリズムを提案する。 このようなスパイクベースの埋め込みを学習するには、スパイク時間とスパイク時間の違いに関する知識が必要である。 提示されたモデルは、現在のニューロモルフィックハードウェアシステムに容易にマッピングされ、知識グラフの推論をこれらのアーキテクチャが成長する領域に移し、この技術のための有望な産業応用領域を開放する。

Despite the recent success of reconciling spike-based coding with the error backpropagation algorithm, spiking neural networks are still mostly applied to tasks stemming from sensory processing, operating on traditional data structures like visual or auditory data. A rich data representation that finds wide application in industry and research is the so-called knowledge graph - a graph-based structure where entities are depicted as nodes and relations between them as edges. Complex systems like molecules, social networks and industrial factory systems can be described using the common language of knowledge graphs, allowing the usage of graph embedding algorithms to make context-aware predictions in these information-packed environments. We propose a spike-based algorithm where nodes in a graph are represented by single spike times of neuron populations and relations as spike time differences between populations. Learning such spike-based embeddings only requires knowledge about spike times and spike time differences, compatible with recently proposed frameworks for training spiking neural networks. The presented model is easily mapped to current neuromorphic hardware systems and thereby moves inference on knowledge graphs into a domain where these architectures thrive, unlocking a promising industrial application area for this technology.
翻訳日:2021-04-29 23:02:09 公開日:2021-04-27
# (参考訳) FrameExit:効率的なビデオ認識のための条件付き早期出力

FrameExit: Conditional Early Exiting for Efficient Video Recognition ( http://arxiv.org/abs/2104.13400v1 )

ライセンス: CC BY 4.0
Amir Ghodrati, Babak Ehteshami Bejnordi, Amirhossein Habibian(参考訳) 本稿では,効率的な映像認識のための条件付き早期終了フレームワークを提案する。 既存の作業では,計算コストを削減すべく,サラエントフレームのサブセットの選択に重点を置いているが,条件付き早期終了と組み合わせた単純なサンプリング戦略を用いることにより,効率的な認識を実現する。 私たちのモデルは、より単純なビデオのフレーム数と複雑なビデオのフレーム数を自動的に学習します。 これを実現するために,ガティングモジュールのカスケードを用いて,推論が十分信頼できる処理における最初期の点を自動的に決定する。 ゲートにオンザフライで監視信号を生成し、精度と計算コストの動的トレードオフを提供する。 提案手法は3つの大規模ビデオベンチマークにおいて競合する手法より優れている。 特に activitynet1.3 と mini-kinetics では、最先端の効率的なビデオ認識手法をそれぞれ 1.3$\times$ と 2.1$\times$ less gflops で上回っている。 さらに,提案手法は,HVUベンチマーク上での効率的な映像理解のための新しい手法である。

In this paper, we propose a conditional early exiting framework for efficient video recognition. While existing works focus on selecting a subset of salient frames to reduce the computation costs, we propose to use a simple sampling strategy combined with conditional early exiting to enable efficient recognition. Our model automatically learns to process fewer frames for simpler videos and more frames for complex ones. To achieve this, we employ a cascade of gating modules to automatically determine the earliest point in processing where an inference is sufficiently reliable. We generate on-the-fly supervision signals to the gates to provide a dynamic trade-off between accuracy and computational cost. Our proposed model outperforms competing methods on three large-scale video benchmarks. In particular, on ActivityNet1.3 and mini-kinetics, we outperform the state-of-the-art efficient video recognition methods with 1.3$\times$ and 2.1$\times$ less GFLOPs, respectively. Additionally, our method sets a new state of the art for efficient video understanding on the HVU benchmark.
翻訳日:2021-04-29 22:42:07 公開日:2021-04-27
# (参考訳) 半教師付きインタラクティブインテントラベリング

Semi-supervised Interactive Intent Labeling ( http://arxiv.org/abs/2104.13406v1 )

ライセンス: CC BY 4.0
Saurav Sahay, Eda Okur, Nagib Hakim, Lama Nachman(参考訳) タスク指向の音声対話システム(SDS)の自然言語理解(NLU)モジュールの構築には、インテントとエンティティの定義、タスク関連データの収集、インテントとエンティティによるアノテート、そしてSDSに機能/エンハンスメントを追加するために何度も同じプロセスを繰り返すことが含まれる。 本研究では,SDS開発者を対象としたIntent Bulk Labelingシステムを開発した。 ユーザは高度なクラスタリングとビジュアルラベリング手法を用いて、ラベルなし発話コーパスからのトレーニングデータをインタラクティブにラベル付けし、拡張することができる。 本稿では,より優れたbackbone bertモデルを用いてディープアライメントクラスタリング作業を拡張し,ラベリング用のシードデータを選択する手法を探索し,パラフラージングモデルを利用したオーバーサンプリング手法を用いたデータバランシング手法を開発する。 また、データ拡張がクラスタリングプロセスに与える影響についても検討する。 以上の手法を組み合わせることで,いくつかのデータセットにおいて,クラスタリング精度が10%以上向上できることを示す。 最後に、クラスタリングモデルから発話埋め込みを抽出し、データをプロットしてデータをインタラクティブにバルクラベル付けし、データセット全体のデータラベリングに要する時間と労力を大幅に削減する。

Building the Natural Language Understanding (NLU) modules of task-oriented Spoken Dialogue Systems (SDS) involves a definition of intents and entities, collection of task-relevant data, annotating the data with intents and entities, and then repeating the same process over and over again for adding any functionality/enhancement to the SDS. In this work, we have developed an Intent Bulk Labeling system for SDS developers. The users can interactively label and augment training data from unlabeled utterance corpora using advanced clustering and visual labeling methods. We extend the Deep Aligned Clustering work with a better backbone BERT model, explore techniques to select the seed data for labeling, and develop a data balancing method using an oversampling technique that utilizes paraphrasing models. We also look at the effect of data augmentation on the clustering process. Our results show that we can achieve over 10% gain in clustering accuracy on some datasets using the combination of the above techniques. Finally, we extract utterance embeddings from the clustering model and plot the data to interactively bulk label the data, reducing the time and effort for data labeling of the whole dataset significantly.
翻訳日:2021-04-29 22:26:29 公開日:2021-04-27
# (参考訳) グラフ上の時空間相関を用いた交通ネットワーク上の交通信号予測

Predicting traffic signals on transportation networks using spatio-temporal correlations on graphs ( http://arxiv.org/abs/2104.13414v1 )

ライセンス: CC BY 4.0
Semin Kwak, Nikolas Geroliminis, Pascal Frossard(参考訳) 多変量時系列の予測は、信号の場合のように変数が時間と空間に絡み合っているため困難である。 グラフ上の信号の定義は、熱拡散核のような関連するグラフ核を用いて空間上の信号の進化を表現することによって、そのような複雑度を緩和する。 しかし、このカーネルだけでは、グラフ構造にのみ依存するため、データの実際のダイナミクスを完全には捉えない。 グラフカーネル表現と過去のデータを利用するデータ駆動モデルを組み合わせることで、ギャップを埋めることができる。 本稿では,複数の熱拡散カーネルをデータ駆動予測モデルにマージして交通信号を予測する交通伝搬モデルを提案する。 予測誤差を最小限に抑えるためにベイズ推定を用いてモデルパラメータを最適化し,2つの手法の混合率を決定する。 このような混合比はトレーニングデータサイズとデータ異常に大きく依存し、トラフィックデータのピーク時間に対応する。 提案モデルでは,計算労力の少ない最先端のディープニューラルネットワークに匹敵する予測精度を示す。 データ駆動モデルの周期性モデリングを継承するため、長期予測には特に優れたパフォーマンスを示す。

Forecasting multivariate time series is challenging as the variables are intertwined in time and space, like in the case of traffic signals. Defining signals on graphs relaxes such complexities by representing the evolution of signals over a space using relevant graph kernels such as the heat diffusion kernel. However, this kernel alone does not fully capture the actual dynamics of the data as it only relies on the graph structure. The gap can be filled by combining the graph kernel representation with data-driven models that utilize historical data. This paper proposes a traffic propagation model that merges multiple heat diffusion kernels into a data-driven prediction model to forecast traffic signals. We optimize the model parameters using Bayesian inference to minimize the prediction errors and, consequently, determine the mixing ratio of the two approaches. Such mixing ratio strongly depends on training data size and data anomalies, which typically correspond to the peak hours for traffic data. The proposed model demonstrates prediction accuracy comparable to that of the state-of-the-art deep neural networks with lower computational effort. It particularly shows excellent performance for long-term prediction since it inherits the data-driven models' periodicity modeling.
翻訳日:2021-04-29 22:15:27 公開日:2021-04-27
# (参考訳) 階層的メモリバンクからのピクセルレベルコントラスト学習による半教師付き意味セグメンテーション

Semi-Supervised Semantic Segmentation with Pixel-Level Contrastive Learning from a Class-wise Memory Bank ( http://arxiv.org/abs/2104.13415v1 )

ライセンス: CC BY 4.0
Inigo Alonso, Alberto Sabater, David Ferstl, Luis Montesano, Ana C. Murillo(参考訳) 本研究は,半教師付き意味セグメンテーション,すなわち,利用可能なデータのごく一部しかラベル付けされていないと仮定した画素単位の分類問題に対する新しいアプローチを提案する。 本稿では,コントラスト学習に基づく新しい表現学習モジュールを提案する。 このモジュールはセグメンテーションネットワークを強制し、データセット全体にわたって同じクラスのサンプルに対して同様のピクセルレベルの特徴表現を生成する。 これを実現するために,ラベル付きデータから特徴ベクトルを連続的に更新したメモリバンクを維持する。 これらの特徴は、コントラスト学習の質と妥当性に基づいて選択される。 エンドツーエンドのトレーニングでは、ラベル付きデータとラベルなしデータの両方の機能は、メモリバンクの同じクラスのサンプルに最適化される。 我々のアプローチは、よく知られた公開ベンチマークにおいて、半教師付きセマンティックセマンティックセマンティクスと半教師付きドメイン適応のための現在の最先端技術よりも優れており、最も困難なシナリオであるラベル付きデータに大きな改善がある。

This work presents a novel approach for semi-supervised semantic segmentation, i.e., per-pixel classification problem assuming that only a small set of the available data is labeled. We propose a novel representation learning module based on contrastive learning. This module enforces the segmentation network to yield similar pixel-level feature representations for same-class samples across the whole dataset. To achieve this, we maintain a memory bank continuously updated with feature vectors from labeled data. These features are selected based on their quality and relevance for the contrastive learning. In an end-to-end training, the features from both labeled and unlabeled data are optimized to be similar to same-class samples from the memory bank. Our approach outperforms the current state-of-the-art for semi-supervised semantic segmentation and semi-supervised domain adaptation on well-known public benchmarks, with larger improvements on the most challenging scenarios, i.e., less available labeled data.
翻訳日:2021-04-29 21:57:14 公開日:2021-04-27
# (参考訳) DASEE A Synthetic Database of Domestic Acoustic Scenes and Events in Dementia patients Environment

DASEE A Synthetic Database of Domestic Acoustic Scenes and Events in Dementia Patients Environment ( http://arxiv.org/abs/2104.13423v1 )

ライセンス: CC BY-SA 4.0
Abigail Copiaco, Christian Ritz, Stefano Fasciani, Nidhal Abdulaziz(参考訳) 情報データベースへのアクセスは、注目すべき研究の重要部分である。 近年,家庭内音声分類の分野では大きな進歩を遂げている。 いくつかのオーディオデータベースが存在するが、これらは、音源の正確な位置や関連するノイズレベルなどの情報量に制限される。 本研究では,静音環境と騒音環境の両方でエミュレートされた音声シーンとイベントからなる,非偏りのない合成音声データベースの作成手法について詳述する。 データは、認知症患者環境でよく直面する問題を反映し、現実世界で起こりうるシナリオを再現するように注意深くキュレートされる。 同様に、部屋インパルス応答はヘブライ・シニアライフ施設の典型的な一床アパートに基づいている。 その結果、16kHzで均一にサンプリングされたクリーン信号とノイズ信号の抜粋を5秒間隔で含む11種類のデータベースが得られた。 Continues Wavelet Transform ScalogramsとAlexNetを使ったベースラインモデルにより、重み付きF1スコアは86.24%となった。

Access to informative databases is a crucial part of notable research developments. In the field of domestic audio classification, there have been significant advances in recent years. Although several audio databases exist, these can be limited in terms of the amount of information they provide, such as the exact location of the sound sources, and the associated noise levels. In this work, we detail our approach on generating an unbiased synthetic domestic audio database, consisting of sound scenes and events, emulated in both quiet and noisy environments. Data is carefully curated such that it reflects issues commonly faced in a dementia patients environment, and recreate scenarios that could occur in real-world settings. Similarly, the room impulse response generated is based on a typical one-bedroom apartment at Hebrew SeniorLife Facility. As a result, we present an 11-class database containing excerpts of clean and noisy signals at 5-seconds duration each, uniformly sampled at 16 kHz. Using our baseline model using Continues Wavelet Transform Scalograms and AlexNet, this yielded a weighted F1-score of 86.24 percent.
翻訳日:2021-04-29 21:42:46 公開日:2021-04-27
# (参考訳) 画像処理による接合のインシデント検出

Incident Detection on Junctions Using Image Processing ( http://arxiv.org/abs/2104.13437v1 )

ライセンス: CC0 1.0
Murat Tulga\c{c}, Enes Y\"unc\"u, Mohamad-Alhaddad and Ceylan Yozgatl{\i}gil(参考訳) 交通管理においては、事故(事故、車両の故障、道路に落下する物体等)を検出して応答時間を短縮することが非常に重要な問題である。 対応する人員に知らせるのです 本研究では,道路合流点の異常検出フレームワークを提案する。 最終判断は、車両に続く軌道に基づいて行われる。 軌道情報は、魚眼カメラからストリームされる視覚データの車両検出および追跡アルゴリズムによって提供される。 ディープラーニングアルゴリズムは車両検出に使われ、カルマンフィルタは追跡に使用される。 より正確に軌道を観測するために、検出された車両座標をレンズ歪みモデル予測アルゴリズムを用いて鳥の視線座標に転送する。 履歴軌跡データと瞬時入射データとを比較することにより、軌跡の異常の有無を判定する。 提案システムは, 車両検出で84.6%, 合成データで異常検出で96.8%の成功を収めた。 また、実際のデータの異常を検出するために97.3%の成功率で動作する。

In traffic management, it is a very important issue to shorten the response time by detecting the incidents (accident, vehicle breakdown, an object falling on the road, etc.) and informing the corresponding personnel. In this study, an anomaly detection framework for road junctions is proposed. The final judgment is based on the trajectories followed by the vehicles. Trajectory information is provided by vehicle detection and tracking algorithms on visual data streamed from a fisheye camera. Deep learning algorithms are used for vehicle detection, and Kalman Filter is used for tracking. To observe the trajectories more accurately, the detected vehicle coordinates are transferred to the bird's eye view coordinates using the lens distortion model prediction algorithm. The system determines whether there is an abnormality in trajectories by comparing historical trajectory data and instantaneous incoming data. The proposed system has achieved 84.6% success in vehicle detection and 96.8% success in abnormality detection on synthetic data. The system also works with a 97.3% success rate in detecting abnormalities on real data.
翻訳日:2021-04-29 21:32:36 公開日:2021-04-27
# (参考訳) サンプル効率の良いマルチエージェント政策グラディエントのためのセミオン・ポリシトレーニング

Semi-On-Policy Training for Sample Efficient Multi-Agent Policy Gradients ( http://arxiv.org/abs/2104.13446v1 )

ライセンス: CC BY 4.0
Bozhidar Vasilev, Tarun Gupta, Bei Peng, Shimon Whiteson(参考訳) 政策勾配法は, 部分的に観測可能なシナリオにおいて, 収束特性と堅牢性から, 多エージェント強化学習問題への魅力的なアプローチである。 しかし、人気の高いStarCraft Multi-Agent Challenge (SMAC)ベンチマークでは、最先端のポリシー勾配とバリューベースのメソッドの間に大きなパフォーマンスギャップがある。 本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミオン政治(SOP)トレーニングを導入する。 我々は、SOPトレーニングによる2つの最先端ポリシー勾配アルゴリズムを強化し、大幅な性能向上を示す。 さらに,本手法は,多種多様なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示すことを示す。

Policy gradient methods are an attractive approach to multi-agent reinforcement learning problems due to their convergence properties and robustness in partially observable scenarios. However, there is a significant performance gap between state-of-the-art policy gradient and value-based methods on the popular StarCraft Multi-Agent Challenge (SMAC) benchmark. In this paper, we introduce semi-on-policy (SOP) training as an effective and computationally efficient way to address the sample inefficiency of on-policy policy gradient methods. We enhance two state-of-the-art policy gradient algorithms with SOP training, demonstrating significant performance improvements. Furthermore, we show that our methods perform as well or better than state-of-the-art value-based methods on a variety of SMAC tasks.
翻訳日:2021-04-29 21:16:31 公開日:2021-04-27
# (参考訳) サポートベクトルマシンによるロバスト分類

Robust Classification via Support Vector Machines ( http://arxiv.org/abs/2104.13458v1 )

ライセンス: CC0 1.0
Vali Asimit, Ioannis Kyriakou, Simone Santoni, Salvatore Scognamiglio and Rui Zhu(参考訳) サポートベクトルマシン分類器の損失関数選択は、標準的な損失選択であるヒンジ損失の堅牢性の欠如により、文献に多大な関心を寄せている。 本稿では,ヒンジ損失の全体的な利点を保ちつつ,この標準選択を変更するのではなく,バイナリ分類器の強固化を図りたい。 データ不確実性の下で2つの頑健な分類器を提案する。 1つ目はSP-SVM(Single Perturbation SVM)と呼ばれ、データの1つの特徴に対して制御された摂動を許容することで構成的な方法を提供する。 第2の方法は Extreme Empirical Loss SVM (EEL-SVM) と呼ばれ、新しい経験的損失推定値、すなわち Extreme Empirical Loss (EEL) に基づいている。 大規模な数値調査により、シミュレーションデータとよく知られた実データに対する2つの頑健な分類器の利点が明らかになった。

The loss function choice for any Support Vector Machine classifier has raised great interest in the literature due to the lack of robustness of the Hinge loss, which is the standard loss choice. In this paper, we plan to robustify the binary classifier by maintaining the overall advantages of the Hinge loss, rather than modifying this standard choice. We propose two robust classifiers under data uncertainty. The first is called Single Perturbation SVM (SP-SVM) and provides a constructive method by allowing a controlled perturbation to one feature of the data. The second method is called Extreme Empirical Loss SVM (EEL-SVM) and is based on a new empirical loss estimate, namely, the Extreme Empirical Loss (EEL), that puts more emphasis on extreme violations of the classification hyper-plane, rather than taking the usual sample average with equal importance for all hyper-plane violations. Extensive numerical investigation reveals the advantages of the two robust classifiers on simulated data and well-known real datasets.
翻訳日:2021-04-29 21:01:47 公開日:2021-04-27
# (参考訳) 深部2段階高分解能イメージング

Deep Two-Stage High-Resolution Image Inpainting ( http://arxiv.org/abs/2104.13464v1 )

ライセンス: CC BY 4.0
Andrey Moskalenko, Mikhail Erofeev, Dmitriy Vatolin(参考訳) 近年,画像インペイントの分野は急速に発展し,画像の欠落部分を埋める作業において,学習に基づくアプローチは印象的な結果を示している。 しかし、ほとんどの深い手法は、訓練された画像の解像度に強く結びついている。 わずかな解像度の増加は、深刻なアーティファクトと不十分な充填品質につながる。 したがって、これらの手法はインタラクティブな画像処理には適さない。 本稿では,任意の大きさの画像をペイントする問題を解決する手法を提案する。 また, 充填領域におけるテクスチャ断片の復元方法についても述べる。 そこで,本研究では,隣接画素からの情報を4方向にシフトすることで利用することを提案する。 さらに、このアプローチは既存のインペイントモデルでも動作可能で、再トレーニングを必要とせずにほぼ独立している。 また、我々の技術を実装するGIMPプラグインも作成しました。 プラグイン、コード、モデルウェイトはhttps://github.com/a-mos/High_Resolution_Image_Inpainting.comから入手できる。

In recent years, the field of image inpainting has developed rapidly, learning based approaches show impressive results in the task of filling missing parts in an image. But most deep methods are strongly tied to the resolution of the images on which they were trained. A slight resolution increase leads to serious artifacts and unsatisfactory filling quality. These methods are therefore unsuitable for interactive image processing. In this article, we propose a method that solves the problem of inpainting arbitrary-size images. We also describe a way to better restore texture fragments in the filled area. For this, we propose to use information from neighboring pixels by shifting the original image in four directions. Moreover, this approach can work with existing inpainting models, making them almost resolution independent without the need for retraining. We also created a GIMP plugin that implements our technique. The plugin, code, and model weights are available at https://github.com/a-mos/High_Resolution_Image_Inpainting.
翻訳日:2021-04-29 20:37:18 公開日:2021-04-27
# (参考訳) TRECVID 2020: 複数のアプリケーション領域にわたるビデオ検索タスクを評価する包括的なキャンペーン

TRECVID 2020: A comprehensive campaign for evaluating video retrieval tasks across multiple application domains ( http://arxiv.org/abs/2104.13473v1 )

ライセンス: CC BY-SA 4.0
George Awad, Asad A. Butt, Keith Curtis, Jonathan Fiscus, Afzal Godil, Yooyoung Lee, Andrew Delgado, Jesse Zhang, Eliot Godard, Baptiste Chocot, Lukas Diduch, Jeffrey Liu, Alan F. Smeaton, Yvette Graham, Gareth J. F. Jones, Wessel Kraaij, Georges Quenot(参考訳) TREC Video Retrieval Evaluation(TREC Video Retrieval Evaluation、TRECVID)は、TREC形式のビデオ分析と検索評価であり、オープンなメトリクスベースの評価を通じて、デジタルビデオからの情報の利用と検索の研究開発の進展を促進することを目的としている。 この20年間でこの取り組みは、システムがこのような処理を効果的に達成し、パフォーマンスを確実にベンチマークする方法をよりよく理解した。 TRECVIDはNIST(National Institute of Standards and Technology)や他の米国政府機関から資金提供を受けている。 加えて、世界中の多くの組織や個人が多大な時間と労力を費やしている。 TRECVID 2020は4つのタスクの継続と2つの新しいタスクの追加を表した。 全世界のさまざまな研究機関の29チームが、以下の6つのタスクの1つ以上を完了した。 アドホックビデオ検索(avs)2。 インスタンス検索 (INS) 3。 災害現場説明・索引作成(DSDI)4。 Video to Text Description (VTT) 5。 拡張ビデオ (ActEV) 6。 ビデオ要約(VSUM)。 本稿では,評価キャンペーンで使用される評価フレームワーク,タスク,データ,尺度について紹介する。

The TREC Video Retrieval Evaluation (TRECVID) is a TREC-style video analysis and retrieval evaluation with the goal of promoting progress in research and development of content-based exploitation and retrieval of information from digital video via open, metrics-based evaluation. Over the last twenty years this effort has yielded a better understanding of how systems can effectively accomplish such processing and how one can reliably benchmark their performance. TRECVID has been funded by NIST (National Institute of Standards and Technology) and other US government agencies. In addition, many organizations and individuals worldwide contribute significant time and effort. TRECVID 2020 represented a continuation of four tasks and the addition of two new tasks. In total, 29 teams from various research organizations worldwide completed one or more of the following six tasks: 1. Ad-hoc Video Search (AVS), 2. Instance Search (INS), 3. Disaster Scene Description and Indexing (DSDI), 4. Video to Text Description (VTT), 5. Activities in Extended Video (ActEV), 6. Video Summarization (VSUM). This paper is an introduction to the evaluation framework, tasks, data, and measures used in the evaluation campaign.
翻訳日:2021-04-29 20:32:08 公開日:2021-04-27
# (参考訳) 教師なし領域適応における効率的事前学習特徴と再帰的擬似ラベル

Efficient Pre-trained Features and Recurrent Pseudo-Labeling inUnsupervised Domain Adaptation ( http://arxiv.org/abs/2104.13486v1 )

ライセンス: CC0 1.0
Youshan Zhang and Brian D. Davison(参考訳) ドメイン適応(da)は、ある注釈付きドメインから類似するが異なるラベル付きドメインに知識を移す際のドメインシフト問題を緩和する。 しかし、既存のモデルはバックボーンとしてimagenetモデルの1つを他を探索せずに使用することが多く、backbone imagenetモデルの微調整や再トレーニングも時間を要する。 さらに、疑似ラベルは、ターゲットドメインのパフォーマンスを改善するために使われており、自信のある疑似ラベルを生成し、ドメイン分布を明示的に調整する方法は、うまく対処されていない。 本稿では,教師なしda問題において,よく知られた17のイメージネットモデルから最適な事前学習機能を効率的に選択する方法を示す。 さらに,最も優れた事前学習機能(PRPL)を用いた再帰的擬似ラベルモデルを提案し,分類性能を向上させる。 PRPLの有効性を示すため,Office+Caltech-10,Office-31,Office-Homeの3つのベンチマークデータセットを用いて評価を行った。 大規模な実験により, 計算時間を削減し, 平均精度を98.1%, 92.4%, 81.2%に向上し, 技術水準を大幅に上回った。

Domain adaptation (DA) mitigates the domain shift problem when transferring knowledge from one annotated domain to another similar but different unlabeled domain. However, existing models often utilize one of the ImageNet models as the backbone without exploring others, and fine-tuning or retraining the backbone ImageNet model is also time-consuming. Moreover, pseudo-labeling has been used to improve the performance in the target domain, while how to generate confident pseudo labels and explicitly align domain distributions has not been well addressed. In this paper, we show how to efficiently opt for the best pre-trained features from seventeen well-known ImageNet models in unsupervised DA problems. In addition, we propose a recurrent pseudo-labeling model using the best pre-trained features (termed PRPL) to improve classification performance. To show the effectiveness of PRPL, we evaluate it on three benchmark datasets, Office+Caltech-10, Office-31, and Office-Home. Extensive experiments show that our model reduces computation time and boosts the mean accuracy to 98.1%, 92.4%, and 81.2%, respectively, substantially outperforming the state of the art.
翻訳日:2021-04-29 20:30:19 公開日:2021-04-27
# (参考訳) 臨床出題要約に向けて--先行注記からの退院要約作成の学習

Towards Clinical Encounter Summarization: Learning to Compose Discharge Summaries from Prior Notes ( http://arxiv.org/abs/2104.13498v1 )

ライセンス: CC BY 4.0
Han-Chin Shing, Chaitanya Shivade, Nima Pourdamghani, Feng Nan, Philip Resnik, Douglas Oard and Parminder Bhatia(参考訳) 臨床的な出会いの記録は広範囲で複雑であり、関連する情報を抽出して要約できるツールにプレミアムを置くことができる。 本稿では,臨床診断のための放電サマリー作成の課題を紹介する。 この設定の要約は複数の長い文書に忠実でトレーサブルでスケールしなければならず、抽出-抽象要約カスケードの使用を動機付けている。 本課題では,既存の流布度と情報度を補完する2つの新しい尺度,忠実度と幻覚率を導入する。 7つの医学的セクションと5つのモデルによる結果は、トレーサビリティをサポートする要約アーキテクチャが有望な結果をもたらすことを示し、文章書き換えアプローチは、多種多様なセクションで忠実性(フェスフルネス調整$f_3$)の尺度で一貫して実行されることを示している。

The records of a clinical encounter can be extensive and complex, thus placing a premium on tools that can extract and summarize relevant information. This paper introduces the task of generating discharge summaries for a clinical encounter. Summaries in this setting need to be faithful, traceable, and scale to multiple long documents, motivating the use of extract-then-abstract summarization cascades. We introduce two new measures, faithfulness and hallucination rate for evaluation in this task, which complement existing measures for fluency and informativeness. Results across seven medical sections and five models show that a summarization architecture that supports traceability yields promising results, and that a sentence-rewriting approach performs consistently on the measure used for faithfulness (faithfulness-adjusted $F_3$) over a diverse range of generated sections.
翻訳日:2021-04-29 20:14:01 公開日:2021-04-27
# 幾何学的ディープラーニング:グリッド、グループ、グラフ、測地線、ゲージ

Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges ( http://arxiv.org/abs/2104.13478v1 )

ライセンス: Link先を確認
Michael M. Bronstein, Joan Bruna, Taco Cohen, Petar Veli\v{c}kovi\'c(参考訳) 過去10年間、データサイエンスと機械学習の実験的な革命が目撃されてきた。 実際、コンピュータビジョン、囲い込み、タンパク質折りたたみなど、これまでは到達不能と考えられていた多くの高次元学習タスクは、適切な計算スケールで実際に実現可能である。 注目すべきは、ディープラーニングの本質は2つの単純なアルゴリズムの原則から成り立っている: まず、表現の概念または特徴学習、すなわち適応された、しばしば階層的な特徴は、各タスクの正則性に関する適切な概念を捉え、次に、局所的な勾配差型手法による学習は、一般的にバックプロパゲーションとして実装される。 高次元における一般的な関数の学習は呪いの見積問題であるが、ほとんどの興味のあるタスクは汎用的ではなく、物理世界の下層の低次元性と構造から生じる重要な事前定義された規則性を持っている。 このテキストは、広い範囲の応用で適用可能な統一幾何原理を通じてこれらの規則性を公開することに関心がある。 このような'幾何学的統一'は、Felix Klein氏のErlangen Programの精神で、2つの目的を果たす。一方、CNN、RNN、GNN、Transformersといった最も成功したニューラルネットワークアーキテクチャを研究するための一般的な数学的フレームワークを提供する。 一方で、神経アーキテクチャに事前の物理的知識を組み込む建設的な手順を与え、まだ発明されていない将来のアーキテクチャを構築するための原則的な方法を提供する。

The last decade has witnessed an experimental revolution in data science and machine learning, epitomised by deep learning methods. Indeed, many high-dimensional learning tasks previously thought to be beyond reach -- such as computer vision, playing Go, or protein folding -- are in fact feasible with appropriate computational scale. Remarkably, the essence of deep learning is built from two simple algorithmic principles: first, the notion of representation or feature learning, whereby adapted, often hierarchical, features capture the appropriate notion of regularity for each task, and second, learning by local gradient-descent type methods, typically implemented as backpropagation. While learning generic functions in high dimensions is a cursed estimation problem, most tasks of interest are not generic, and come with essential pre-defined regularities arising from the underlying low-dimensionality and structure of the physical world. This text is concerned with exposing these regularities through unified geometric principles that can be applied throughout a wide spectrum of applications. Such a 'geometric unification' endeavour, in the spirit of Felix Klein's Erlangen Program, serves a dual purpose: on one hand, it provides a common mathematical framework to study the most successful neural network architectures, such as CNNs, RNNs, GNNs, and Transformers. On the other hand, it gives a constructive procedure to incorporate prior physical knowledge into neural architectures and provide principled way to build future architectures yet to be invented.
翻訳日:2021-04-29 13:03:29 公開日:2021-04-27
# ターゲット情報を用いたテキスト敵攻撃の高性能化

Improved and Efficient Text Adversarial Attacks using Target Information ( http://arxiv.org/abs/2104.13484v1 )

ライセンス: Link先を確認
Mahmoud Hossam, Trung Le, He Zhao, Viet Huynh, Dinh Phung(参考訳) 近年,ブラックボックス環境における自然言語モデルの逆例の研究への関心が高まっている。 これらの手法は、分類器ラベルを変更するまで特定の重要な単語を摂動することで自然言語分類器を攻撃する。 これらの重要な単語を見つけるために、これらの手法は、各入力文の単語ごとに対象のモデル単語を問合せすることで、全ての単語を重要度でランク付けする。 従来の高価な検索ではなく、単語ランキングを学習するための解釈学習を通じてこの問題に対処する新たな興味深いアプローチが導入された。 このアプローチを使用する主な利点は、最先端のメソッドと同等の攻撃率を達成できるが、より高速でクエリが少なく、攻撃するエージェントに対する疑念を避けるためにクエリが少ないことである。 それでもこのアプローチは、クエリ効率のためにターゲット分類器から活用できる有用な情報を犠牲にした。 本稿では,ターゲットモデル出力とデータの利用が,攻撃率と平均クエリ数の両方に与える影響について検討し,追加クエリのオーバーヘッドを限定して改善可能であることを示す。

There has been recently a growing interest in studying adversarial examples on natural language models in the black-box setting. These methods attack natural language classifiers by perturbing certain important words until the classifier label is changed. In order to find these important words, these methods rank all words by importance by querying the target model word by word for each input sentence, resulting in high query inefficiency. A new interesting approach was introduced that addresses this problem through interpretable learning to learn the word ranking instead of previous expensive search. The main advantage of using this approach is that it achieves comparable attack rates to the state-of-the-art methods, yet faster and with fewer queries, where fewer queries are desirable to avoid suspicion towards the attacking agent. Nonetheless, this approach sacrificed the useful information that could be leveraged from the target classifier for that sake of query efficiency. In this paper we study the effect of leveraging the target model outputs and data on both attack rates and average number of queries, and we show that both can be improved, with a limited overhead of additional queries.
翻訳日:2021-04-29 13:03:00 公開日:2021-04-27
# 深部変分GANを用いたテキスト生成

Text Generation with Deep Variational GAN ( http://arxiv.org/abs/2104.13488v1 )

ライセンス: Link先を確認
Mahmoud Hossam, Trung Le, Michael Papasimeon, Viet Huynh, Dinh Phung(参考訳) 現実的なシーケンスを生成することは、多くの機械学習アプリケーションにおいて中心的なタスクである。 シークエンス生成タスクのための深層生成モデルの構築は、近年かなり進歩している。 しかし、現在のモデルではモード折り畳みの問題が大きな問題となっている。 本稿では,モデム崩壊問題に原則的アプローチで対処するGANベースの汎用フレームワークを提案する。 我々は,データとモデル分布のJensen-Shanon分散を最小化しながら,ログの変動的下界を最大化するために,標準GAN目標を変更する。 テキスト生成タスクを用いて本モデルを実験し,高多様性でリアルテキストを生成可能であることを示す。

Generating realistic sequences is a central task in many machine learning applications. There has been considerable recent progress on building deep generative models for sequence generation tasks. However, the issue of mode-collapsing remains a main issue for the current models. In this paper we propose a GAN-based generic framework to address the problem of mode-collapse in a principled approach. We change the standard GAN objective to maximize a variational lower-bound of the log-likelihood while minimizing the Jensen-Shanon divergence between data and model distributions. We experiment our model with text generation task and show that it can generate realistic text with high diversity.
翻訳日:2021-04-29 13:02:40 公開日:2021-04-27
# 多視点線描画におけるコントラスト空間推論

Contrastive Spatial Reasoning on Multi-View Line Drawings ( http://arxiv.org/abs/2104.13433v1 )

ライセンス: Link先を確認
Siyuan Xiang, Anbang Yang, Yanfei Xue, Yaoqing Yang, Chen Feng(参考訳) 最先端の深層ネットワークによる多視点線描画における空間的推論は,SPARE3Dデータセット上での低性能化とともに最近示されている。 低性能の背景にある理由とこれらの課題の理解を深めるために,入力データとネットワーク設計の両方に関する制御実験を設計する。 これらの実験結果から後ろ向きに導いた結果,ベースライン性能を改善するために,他のネットワーク修正とともに単純なコントラスト学習手法を提案する。 提案手法では,自己教師付きバイナリ分類ネットワークを用いて,類似する2種類の3dオブジェクトのさまざまなビュー間の線描画の違いを比較する。 ディープネットワークは、3Dオブジェクトのディテールに敏感だがビューに不変な線描画表現を効果的に学習することができる。 実験の結果,SPARE3Dのベースライン性能は向上するが,一般的な自己教師型学習手法では実現できないことがわかった。

Spatial reasoning on multi-view line drawings by state-of-the-art supervised deep networks is recently shown with puzzling low performances on the SPARE3D dataset. To study the reason behind the low performance and to further our understandings of these tasks, we design controlled experiments on both input data and network designs. Guided by the hindsight from these experiment results, we propose a simple contrastive learning approach along with other network modifications to improve the baseline performance. Our approach uses a self-supervised binary classification network to compare the line drawing differences between various views of any two similar 3D objects. It enables deep networks to effectively learn detail-sensitive yet view-invariant line drawing representations of 3D objects. Experiments show that our method could significantly increase the baseline performance in SPARE3D, while some popular self-supervised learning methods cannot.
翻訳日:2021-04-29 13:02:09 公開日:2021-04-27
# ゼロショットデータ拡張によるフェアフェデレーション学習に向けて

Towards Fair Federated Learning with Zero-Shot Data Augmentation ( http://arxiv.org/abs/2104.13417v1 )

ライセンス: Link先を確認
Weituo Hao, Mostafa El-Khamy, Jungwon Lee, Jianyi Zhang, Kevin J Liang, Changyou Chen, Lawrence Carin(参考訳) フェデレーション学習は重要な分散学習パラダイムとして登場し、サーバはクライアントデータにアクセスせずに、多くのクライアントがトレーニングしたモデルからグローバルモデルを集約する。 クライアントローカルデータの統計的不均一性はグローバルモデルの収束が遅いことが認識されているが、クライアント間の精度のばらつきが高いバイアス付きフェデレーショングローバルモデルも生じることは一般的には認識されていない。 本研究では,フェアネスを向上したフェデレーション学習方式を提案する。 この課題に対処するために、統計的不均一性を緩和し、フェデレートネットワーク内のクライアント間でのより均一な精度性能を向上する、ゼロショットデータ拡張を用いた新しいフェデレーション学習システムを提案する。 本研究では,federated learning with zero-shot data augmentation with the client) と fed-zdas (federated learning with zero-shot data augmentation with the server) の2種類について検討を行った。 一連のデータセットにおける実験結果から,テスト精度と公平性を同時に向上する手法の有効性が示された。

Federated learning has emerged as an important distributed learning paradigm, where a server aggregates a global model from many client-trained models while having no access to the client data. Although it is recognized that statistical heterogeneity of the client local data yields slower global model convergence, it is less commonly recognized that it also yields a biased federated global model with a high variance of accuracy across clients. In this work, we aim to provide federated learning schemes with improved fairness. To tackle this challenge, we propose a novel federated learning system that employs zero-shot data augmentation on under-represented data to mitigate statistical heterogeneity and encourage more uniform accuracy performance across clients in federated networks. We study two variants of this scheme, Fed-ZDAC (federated learning with zero-shot data augmentation at the clients) and Fed-ZDAS (federated learning with zero-shot data augmentation at the server). Empirical results on a suite of datasets demonstrate the effectiveness of our methods on simultaneously improving the test accuracy and fairness.
翻訳日:2021-04-29 13:00:08 公開日:2021-04-27
# カーネル独立基準を用いた正準多型分解の学習

Learning Fair Canonical Polyadical Decompositions using a Kernel Independence Criterion ( http://arxiv.org/abs/2104.13504v1 )

ライセンス: Link先を確認
Kevin Kim and Alex Gittens(参考訳) 本研究は、KHSIC(Hilbert-Schmidt independent criterion)を用いてカノニカルポリアディック分解分解を正規化することにより、公平な低ランクテンソル分解を学習することを提案する。 理論的および実証的に、潜在因子と感度特徴の間の小さなkhsicが近似統計パリティを保証することが示されている。 提案アルゴリズムは,合成データセットと実データセットに適合する残差とのトレードオフを制御するため,最先端のアルゴリズムであるFATR(Zhu et al., 2018)を超越する。

This work proposes to learn fair low-rank tensor decompositions by regularizing the Canonical Polyadic Decomposition factorization with the kernel Hilbert-Schmidt independence criterion (KHSIC). It is shown, theoretically and empirically, that a small KHSIC between a latent factor and the sensitive features guarantees approximate statistical parity. The proposed algorithm surpasses the state-of-the-art algorithm, FATR (Zhu et al., 2018), in controlling the trade-off between fairness and residual fit on synthetic and real data sets.
翻訳日:2021-04-29 12:58:27 公開日:2021-04-27
# 対話型検索評価尺度のメタ評価

Meta-evaluation of Conversational Search Evaluation Metrics ( http://arxiv.org/abs/2104.13453v1 )

ライセンス: Link先を確認
Zeyang Liu, Ke Zhou and Max L. Wilson(参考訳) Google AssistantやMicrosoft Cortanaのような会話型検索システムは、自然言語対話を通じて複数のラウンドで検索システムと対話することができる。 このようなシステムを評価することは、自然言語応答が生成可能であることを考えると非常に困難であり、ユーザーは検索タスクを達成するために複数のセマンティック・コヒーレントなラウンドで対話することが多い。 先行研究では多くの評価指標が提案されていたが, ユーザの嗜好を効果的に捉える方法が検討されている。 本稿では,様々な対話検索指標を体系的にメタ評価する。 本研究は,(1)信頼度: 偶然に観察されたものと対照的に「現実的」な性能差を検出する能力;(2)忠実度: 究極のユーザの嗜好に同意する能力;(3)直感性: 重要とみなされる財産を捕捉する能力: 会話検索の文脈における妥当性, 情報性, フラエンシの3つの視点について検討する。 2つのテストコレクションで実験を行うことで、異なるメトリクスのパフォーマンスが異なるシナリオで大きく異なるのに対して、既存のメトリクスは究極のユーザの好みと満足度との弱い相関しか得られないことがわかった。 METEORは、相対的に、三つの視点をすべて考慮して、最も優れた1ターン計量である。 また,ユーザ満足度と適度に一致し,マルチターン会話検索を計測するために,セッションベース評価指標を活用できることを実証した。 我々の知る限り、我々の研究は会話検索における最も包括的なメタ評価を確立している。

Conversational search systems, such as Google Assistant and Microsoft Cortana, enable users to interact with search systems in multiple rounds through natural language dialogues. Evaluating such systems is very challenging given that any natural language responses could be generated, and users commonly interact for multiple semantically coherent rounds to accomplish a search task. Although prior studies proposed many evaluation metrics, the extent of how those measures effectively capture user preference remains to be investigated. In this paper, we systematically meta-evaluate a variety of conversational search metrics. We specifically study three perspectives on those metrics: (1) reliability: the ability to detect "actual" performance differences as opposed to those observed by chance; (2) fidelity: the ability to agree with ultimate user preference; and (3) intuitiveness: the ability to capture any property deemed important: adequacy, informativeness, and fluency in the context of conversational search. By conducting experiments on two test collections, we find that the performance of different metrics varies significantly across different scenarios whereas consistent with prior studies, existing metrics only achieve a weak correlation with ultimate user preference and satisfaction. METEOR is, comparatively speaking, the best existing single-turn metric considering all three perspectives. We also demonstrate that adapted session-based evaluation metrics can be used to measure multi-turn conversational search, achieving moderate concordance with user satisfaction. To our knowledge, our work establishes the most comprehensive meta-evaluation for conversational search to date.
翻訳日:2021-04-29 12:56:29 公開日:2021-04-27
# 数学的推論における一般知性の役割

The Role of General Intelligence in Mathematical Reasoning ( http://arxiv.org/abs/2104.13468v1 )

ライセンス: Link先を確認
Aviv Keren(参考訳) オブジェクトは、(それ以上ではないとしても)物理的な領域であるように、数学的領域と私たちの相互作用とそれに関する推論の中心的要素です。 人類の数学的推論は 究極的には 一般的な知性に根ざしていなければなりません しかし、現代の認知科学やA.I.では、物理的領域と数学的領域は別々に探索され、システムにどんなオブジェクトが存在するかという仮定を焼くことができる。 本稿では,この問題をその哲学的・認知的文脈に配置する。 次に、対象表現を学習するための抽象的理論的枠組みを説明し、非数学的表現と同等の数学的対象に余地を与える。 最後に、オブジェクトの異なる側面を統合する一般的な能力が自然数の概念にどのように影響するかを示すために、その見解に基づくケーススタディについて述べる。

Objects are a centerpiece of the mathematical realm and our interaction with and reasoning about it, just as they are of the physical one (if not more). And humans' mathematical reasoning must ultimately be grounded in our general intelligence. Yet in contemporary cognitive science and A.I., the physical and mathematical domains are customarily explored separately, which allows for baking in assumptions for what objects are for the system - and missing potential connections. In this paper, I put the issue into its philosophical and cognitive context. I then describe an abstract theoretical framework for learning object representations, that makes room for mathematical objects on par with non-mathematical ones. Finally, I describe a case study that builds on that view to show how our general ability for integrating different aspects of objects effects our conception of the natural numbers.
翻訳日:2021-04-29 12:56:05 公開日:2021-04-27
# Phenotyping OSA:ファジィクラスタリングと永続ホモロジーを用いた時系列解析

Phenotyping OSA: a time series analysis using fuzzy clustering and persistent homology ( http://arxiv.org/abs/2104.13479v1 )

ライセンス: Link先を確認
Prachi Loliencar and Giseon Heo(参考訳) 睡眠時無呼吸症は小児に深刻な影響を及ぼす疾患である。 apnea-hypopnea indexを用いた従来の診断は、多面的結果の把握に役立たないのではないかという懸念が最近出ている。 本研究では,気流時系列のクラスタリング解析を用いて患者を表現し,この問題に対処する第一歩を踏み出した。 これは、時間領域と周波数領域における特徴ベースのファジィクラスタリングの使用と、トポロジの観点から信号を研究するための永続的ホモロジーの3つの方法によってアプローチされる。 ファジィクラスタはディリクレ回帰解析を用いて新しい方法で解析され、トポロジカルアプローチはTakens埋め込み定理を利用して信号の周期的性質を研究する。

Sleep apnea is a disorder that has serious consequences for the pediatric population. There has been recent concern that traditional diagnosis of the disorder using the apnea-hypopnea index may be ineffective in capturing its multi-faceted outcomes. In this work, we take a first step in addressing this issue by phenotyping patients using a clustering analysis of airflow time series. This is approached in three ways: using feature-based fuzzy clustering in the time and frequency domains, and using persistent homology to study the signal from a topological perspective. The fuzzy clusters are analyzed in a novel manner using a Dirichlet regression analysis, while the topological approach leverages Takens embedding theorem to study the periodicity properties of the signals.
翻訳日:2021-04-29 12:54:54 公開日:2021-04-27
# SrvfNet: 教師なし多相形状アライメントのための生成ネットワーク

SrvfNet: A Generative Network for Unsupervised Multiple Diffeomorphic Shape Alignment ( http://arxiv.org/abs/2104.13449v1 )

ライセンス: Link先を確認
Elvis Nunez, Andrew Lizarraga, and Shantanu H. Joshi(参考訳) 本稿では,平方根速度関数(srvf)を含む大規模関数データの集合をテンプレートにアライメントするための生成的ディープラーニングフレームワークであるsrvfnetを提案する。 提案するフレームワークは完全に教師なしであり,事前定義されたテンプレートにアライメントでき,同時にデータから最適なテンプレートを予測できる。 本ネットワークは,ワーピング関数の分布空間を生成できる完全連結層からなる生成エンコーダ・デコーダアーキテクチャとして構成する。 我々は, 磁気共鳴画像(MRI)データからの拡散プロファイルだけでなく, 合成データ上で検証することで, フレームワークの強度を実証する。

We present SrvfNet, a generative deep learning framework for the joint multiple alignment of large collections of functional data comprising square-root velocity functions (SRVF) to their templates. Our proposed framework is fully unsupervised and is capable of aligning to a predefined template as well as jointly predicting an optimal template from data while simultaneously achieving alignment. Our network is constructed as a generative encoder-decoder architecture comprising fully-connected layers capable of producing a distribution space of the warping functions. We demonstrate the strength of our framework by validating it on synthetic data as well as diffusion profiles from magnetic resonance imaging (MRI) data.
翻訳日:2021-04-29 12:54:11 公開日:2021-04-27
# deep 3d-to-2d watermarking: 3dメッシュへのメッセージ埋め込みと2dレンダリングからの抽出

Deep 3D-to-2D Watermarking: Embedding Messages in 3D Meshes and Extracting Them from 2D Renderings ( http://arxiv.org/abs/2104.13450v1 )

ライセンス: Link先を確認
Innfarn Yoo and Huiwen Chang and Xiyang Luo and Ondrej Stava and Ce Liu and Peyman Milanfar and Feng Yang(参考訳) デジタル透かしは著作権保護のために広く使われている。 従来の3d透かし手法や商用ソフトウェアは、通常、メッセージを3dメッシュに埋め込むように設計され、後に歪んだ、3dメッシュから直接メッセージを取得する。 しかし、そのようなメッシュの2dレンダリングからメッセージを取得することは、まだ困難で未検討である。 1) メッシュ形状とテクスチャの両方にメッセージを埋め込むエンコーダ, 2) 異なるカメラアングルから様々な照明条件下で透かし付き3dオブジェクトを描画する微分可能なレンダラ, 3) 2次元レンダリング画像からメッセージを復元するデコーダ,という,新しいエンドツーエンド学習フレームワークを導入する。 広範にわたる実験から,我々のモデルは視覚的に人間に知覚できない情報を埋め込むことを学び,組込み情報を頑健な2次元レンダリングから3次元歪みに再構成する。 さらに,本手法は,レイトレーサやリアルタイムレンダラーなど,異なるレンダラーで動作するように一般化可能であることを示す。

Digital watermarking is widely used for copyright protection. Traditional 3D watermarking approaches or commercial software are typically designed to embed messages into 3D meshes, and later retrieve the messages directly from distorted/undistorted watermarked 3D meshes. Retrieving messages from 2D renderings of such meshes, however, is still challenging and underexplored. We introduce a novel end-to-end learning framework to solve this problem through: 1) an encoder to covertly embed messages in both mesh geometry and textures; 2) a differentiable renderer to render watermarked 3D objects from different camera angles and under varied lighting conditions; 3) a decoder to recover the messages from 2D rendered images. From extensive experiments, we show that our models learn to embed information visually imperceptible to humans, and to reconstruct the embedded information from 2D renderings robust to 3D distortions. In addition, we demonstrate that our method can be generalized to work with different renderers, such as ray tracers and real-time renderers.
翻訳日:2021-04-29 12:54:01 公開日:2021-04-27
# 大規模構造化データによる名前付きエンティティ認識とリンク

Named Entity Recognition and Linking Augmented with Large-Scale Structured Data ( http://arxiv.org/abs/2104.13456v1 )

ライセンス: Link先を確認
Pawe{\l} Rychlikowski, Bart{\l}omiej Najdecki, Adrian {\L}a\'ncucki, Adam Kaczmarek(参考訳) 本稿では,BSNLP 2019 と BSNLP 2021 でそれぞれ開催された第2回と第3回 SlavNER 共有タスクについて述べる。 タスクは、スラブ語の多言語web文書における名前付きエンティティの分析に焦点を当てた。 当社のソリューションでは、構造化されていないドキュメントと構造化ドキュメントの両方の大規模なコレクションを活用しています。 前者は、言語モデルの教師なしトレーニングと語彙単位の埋め込みのためのデータとして機能する。 後者はウィキペディアとその構造を持つウィキデータ、我々のレマタイズルールのソース、および現実世界のエンティティを参照。 これらのリソースの助けを借りて、私たちのシステムは、少量のラベル付きデータでのみトレーニングされながら、エンティティを認識し、正規化し、リンクすることができる。

In this paper we describe our submissions to the 2nd and 3rd SlavNER Shared Tasks held at BSNLP 2019 and BSNLP 2021, respectively. The tasks focused on the analysis of Named Entities in multilingual Web documents in Slavic languages with rich inflection. Our solution takes advantage of large collections of both unstructured and structured documents. The former serve as data for unsupervised training of language models and embeddings of lexical units. The latter refers to Wikipedia and its structured counterpart - Wikidata, our source of lemmatization rules, and real-world entities. With the aid of those resources, our system could recognize, normalize and link entities, while being trained with only small amounts of labeled data.
翻訳日:2021-04-29 12:52:20 公開日:2021-04-27
# ACDC: セマンティックドライビングシーン理解のための対応付き逆条件データセット

ACDC: The Adverse Conditions Dataset with Correspondences for Semantic Driving Scene Understanding ( http://arxiv.org/abs/2104.13395v1 )

ライセンス: Link先を確認
Christos Sakaridis, Dengxin Dai, Luc Van Gool(参考訳) 自動運転車のレベル5の自律性には、どんな視覚条件でも入力画像を解析できる堅牢な視覚知覚システムが必要である。 しかし、既存のセマンティクスセグメンテーションデータセットは、通常の条件下でキャプチャされた画像によって支配されるか、あるいは規模が小さい。 そこで本研究では,ACDC(Adverse Conditions Dataset with Cor correspondingences)を導入し,視覚障害に対するセマンティックセグメンテーション手法の訓練と試験を行う。 ACDCは、霧、夜間、雨、雪の4つの一般的な悪条件の間に均等に分布する4006枚の画像からなる。 それぞれの悪条件画像は、高品質なピクセルレベルのセマンティックアノテーション、通常条件下で撮影される同じシーンの対応するイメージ、および透明かつ不確実なセマンティック内容のイメージ内領域を区別するバイナリマスクを備える。 したがって、adcは標準意味セグメンテーションと新しく導入された不確実性認識意味セグメンテーションの両方をサポートする。 詳細な実証研究により、ACDCの有害ドメインが最先端の教師なしアプローチや教師なしアプローチにもたらす課題が示され、この分野における今後の進歩を推し進める上で、我々のデータセットの価値が示される。 データセットとベンチマークは公開されています。

Level 5 autonomy for self-driving cars requires a robust visual perception system that can parse input images under any visual condition. However, existing semantic segmentation datasets are either dominated by images captured under normal conditions or are small in scale. To address this, we introduce ACDC, the Adverse Conditions Dataset with Correspondences for training and testing semantic segmentation methods on adverse visual conditions. ACDC consists of a large set of 4006 images which are equally distributed between four common adverse conditions: fog, nighttime, rain, and snow. Each adverse-condition image comes with a high-quality fine pixel-level semantic annotation, a corresponding image of the same scene taken under normal conditions, and a binary mask that distinguishes between intra-image regions of clear and uncertain semantic content. Thus, ACDC supports both standard semantic segmentation and the newly introduced uncertainty-aware semantic segmentation. A detailed empirical study demonstrates the challenges that the adverse domains of ACDC pose to state-of-the-art supervised and unsupervised approaches and indicates the value of our dataset in steering future progress in the field. Our dataset and benchmark are publicly available.
翻訳日:2021-04-29 12:51:54 公開日:2021-04-27
# 地球空間におけるエゴセントリックな3D空間の推定

Estimating Egocentric 3D Human Pose in Global Space ( http://arxiv.org/abs/2104.13454v1 )

ライセンス: Link先を確認
Jian Wang and Lingjie Liu and Weipeng Xu and Kripasindhu Sarkar and Christian Theobalt(参考訳) 単一魚眼カメラを用いたエゴセントリックな3Dポーズ推定は、外部カメラを用いた従来の外付けモーションキャプチャでは難しい、制約のない環境での幅広い日常活動のキャプチャを可能にすることで、近年人気が高まっている。 しかし、既存の方法にはいくつかの制限がある。 顕著な問題は、推定されたポーズが、多くの用途で制限される世界座標系ではなく、魚眼カメラの局所座標系にあることである。 さらに, 本手法は, モノキュラー設定によるあいまいさと, 強く歪んだエゴセントリックな視点での重度の咬合により, 精度と時間的不安定さに苦しむ。 そこで本研究では, 頭部搭載魚眼カメラを用いた自己中心型3d体姿勢推定法を提案する。 高精度で時間的に安定したグローバルポーズを実現するため、ヒートマップ再投射誤差を最小化し、モカプデータセットから学習した局所的および大域的身体運動先行を強制することにより、フレーム列上で時空間最適化を行う。 実験の結果,本手法は定量的にも質的にも最先端の手法よりも優れていることがわかった。

Egocentric 3D human pose estimation using a single fisheye camera has become popular recently as it allows capturing a wide range of daily activities in unconstrained environments, which is difficult for traditional outside-in motion capture with external cameras. However, existing methods have several limitations. A prominent problem is that the estimated poses lie in the local coordinate system of the fisheye camera, rather than in the world coordinate system, which is restrictive for many applications. Furthermore, these methods suffer from limited accuracy and temporal instability due to ambiguities caused by the monocular setup and the severe occlusion in a strongly distorted egocentric perspective. To tackle these limitations, we present a new method for egocentric global 3D body pose estimation using a single head-mounted fisheye camera. To achieve accurate and temporally stable global poses, a spatio-temporal optimization is performed over a sequence of frames by minimizing heatmap reprojection errors and enforcing local and global body motion priors learned from a mocap dataset. Experimental results show that our approach outperforms state-of-the-art methods both quantitatively and qualitatively.
翻訳日:2021-04-29 12:51:33 公開日:2021-04-27
# 細菌コロニーの顕微鏡画像における自動細胞追跡のための確率的ニューラルネットワーク

Stochastic Neural Networks for Automatic Cell Tracking in Microscopy Image Sequences of Bacterial Colonies ( http://arxiv.org/abs/2104.13482v1 )

ライセンス: Link先を確認
Sorena Sarmadi, James J. Winkle, Razan N. Alnahhas, Matthew R. Bennett, Kre\v{s}imir Josi\'c, Andreas Mang, and Robert Azencott(参考訳) 本稿では,細菌群の詳細な増殖動態を定量化する自動解析法について述べる。 本稿では,新たなコスト関数の自動最小化による変形可能セル運動のフレームシーケンス追跡手法を提案する。 この最小化は専用ボルツマンマシン(stochastic recurrent neural networks)によって実装されている。 細胞分裂の自動検出も同様に、2つのコスト関数を連続的に最小化し、子供のペアの識別と親の識別を交互に行う。 マイクロ流体トラップにおける大腸菌の増殖動態をよく再現したシミュレーションセルコロニーの記録を用いて,このセル追跡アルゴリズムを検証する。 1100の画像フレームのバッチでは、1フレームあたりのセル登録精度は94.5\%から100\%の範囲で、平均値が高い。 Emph{E. coli} コロニーの実験的画像配列を用いた初期試験では,90 %から100 %の登録精度で有意な結果が得られた。

We describe an automated analysis method to quantify the detailed growth dynamics of a population of bacilliform bacteria. We propose an innovative approach to frame-sequence tracking of deformable-cell motion by the automated minimization of a new, specific cost functional. This minimization is implemented by dedicated Boltzmann machines (stochastic recurrent neural networks). Automated detection of cell divisions is handled similarly by successive minimizations of two cost functions, alternating the identification of children pairs and parent identification. We validate this automatic cell tracking algorithm using recordings of simulated cell colonies that closely mimic the growth dynamics of \emph{E. coli} in microfluidic traps. On a batch of 1100 image frames, cell registration accuracies per frame ranged from 94.5\% to 100\%, with a high average. Our initial tests using experimental image sequences of \emph{E. coli} colonies also yield convincing results, with a registration accuracy ranging from 90\% to 100\%.
翻訳日:2021-04-29 12:51:15 公開日:2021-04-27
# ConTNet: なぜ同時に畳み込みとトランスフォーマーを使用しないのですか?

ConTNet: Why not use convolution and transformer at the same time? ( http://arxiv.org/abs/2104.13497v1 )

ライセンス: Link先を確認
Haotian Yan, Zhe Li, Weijian Li, Changhu Wang, Ming Wu, Chuang Zhang(参考訳) 畳み込みネットワーク(convnets)はコンピュータビジョン(cv)で大きな成功を収めているが、オブジェクト検出やセグメンテーションといった密集した予測タスクに不可欠なグローバルな情報収集に苦しむ。 本研究では,ContNet(Convolution Transformer Network)とConvNetアーキテクチャを組み合わせて,大きな受容場を提供する。 ハイパーパラメータに敏感で、中規模のデータセット(イメージNet1kなど)でスクラッチからトレーニングした時にデータ拡張の山に非常に依存する、最近提案されたトランスフォーマーベースのモデル(例えば、ViT、DeiT)とは異なり、ConTNetは通常のConvNet(例えば、ResNet)のように最適化でき、顕著な堅牢性を維持することができる。 また、同じ強力なデータ拡張を考えると、ConTNetのパフォーマンス改善はResNetよりも顕著であることも指摘しておく価値がある。 画像分類や下流タスクにおいて,その優位性と有効性を示す。 例えば、私たちのConTNetは、40%未満の計算複雑性を持つDeiT-Bと同じImageNetで81.8%のトップ1の精度を実現しています。 ConTNet-Mは、COCO2017データセット上でFaster-RCNN(2.6%)とMask-RCNN(3.2%)の両方のバックボーンとしてResNet50を上回っている。 ConTNetがCVタスクの有用なバックボーンとして機能し、モデル設計に新たなアイデアをもたらすことを期待しています。

Although convolutional networks (ConvNets) have enjoyed great success in computer vision (CV), it suffers from capturing global information crucial to dense prediction tasks such as object detection and segmentation. In this work, we innovatively propose ConTNet (ConvolutionTransformer Network), combining transformer with ConvNet architectures to provide large receptive fields. Unlike the recently-proposed transformer-based models (e.g., ViT, DeiT) that are sensitive to hyper-parameters and extremely dependent on a pile of data augmentations when trained from scratch on a midsize dataset (e.g., ImageNet1k), ConTNet can be optimized like normal ConvNets (e.g., ResNet) and preserve an outstanding robustness. It is also worth pointing that, given identical strong data augmentations, the performance improvement of ConTNet is more remarkable than that of ResNet. We present its superiority and effectiveness on image classification and downstream tasks. For example, our ConTNet achieves 81.8% top-1 accuracy on ImageNet which is the same as DeiT-B with less than 40% computational complexity. ConTNet-M also outperforms ResNet50 as the backbone of both Faster-RCNN (by 2.6%) and Mask-RCNN (by 3.2%) on COCO2017 dataset. We hope that ConTNet could serve as a useful backbone for CV tasks and bring new ideas for model design
翻訳日:2021-04-29 12:51:01 公開日:2021-04-27
# KAMA:ボディメッシュアーティキュレーションを意識した3Dキーポイント

KAMA: 3D Keypoint Aware Body Mesh Articulation ( http://arxiv.org/abs/2104.13502v1 )

ライセンス: Link先を確認
Umar Iqbal, Kevin Xie, Yunrong Guo, Jan Kautz, Pavlo Molchanov(参考訳) 本研究では,人体メッシュを3次元キーポイントの位置から推定する3次元キーポイント認識メッシュ調音手法であるkamaを提案する。 そこで本研究では,26個のキーポイントの3次元位置を推定し,簡単な幾何学的変換を用いてパラメトリックボディモデルSMPLを記述するための解析解を提案する。 キーポイント推定は画像手がかりに直接依存するため,本手法は最先端の手法に比べて画像内容のアライメントが有意に向上する。 提案手法では,2対のメッシュアノテーションを必要とせず,3次元キーポイント回帰のみを通じて最先端のメッシュフィッティングを実現することができる。 挑戦的な3DPWとHuman3.6Mの結果は、我々のアプローチが最先端のボディーメッシュフィッティングをもたらすことを示している。

We present KAMA, a 3D Keypoint Aware Mesh Articulation approach that allows us to estimate a human body mesh from the positions of 3D body keypoints. To this end, we learn to estimate 3D positions of 26 body keypoints and propose an analytical solution to articulate a parametric body model, SMPL, via a set of straightforward geometric transformations. Since keypoint estimation directly relies on image clues, our approach offers significantly better alignment to image content when compared to state-of-the-art approaches. Our proposed approach does not require any paired mesh annotations and is able to achieve state-of-the-art mesh fittings through 3D keypoint regression only. Results on the challenging 3DPW and Human3.6M demonstrate that our approach yields state-of-the-art body mesh fittings.
翻訳日:2021-04-29 12:50:32 公開日:2021-04-27
# エネルギーに基づくグラフニューラルネットワークの展望

An Energy-Based View of Graph Neural Networks ( http://arxiv.org/abs/2104.13492v1 )

ライセンス: Link先を確認
John Y. Shin, Prathamesh Dharangutte(参考訳) グラフニューラルネットワークは、グラフ構造化データを扱うニューラルネットワークの一般的な変種である。 本研究では,グラフニューラルネットワークとGrathwohlらのエネルギーベースビューを組み合わせることを検討する。 (2019) より堅牢な分類器の取得を目的とした。 このフレームワークの実装に成功し,隣接行列と同様に機能を越えて生成する新しい手法を提案し,標準グラフ畳み込みネットワーク(gcn)アーキテクチャ(kipf & welling (2016))に対する評価を行った。 提案手法は、ロバスト性を改善しつつ、同等の識別性能を得、エネルギーベースグラフニューラルネットワークの今後の研究に期待できる新たな方向性を開拓する。

Graph neural networks are a popular variant of neural networks that work with graph-structured data. In this work, we consider combining graph neural networks with the energy-based view of Grathwohl et al. (2019) with the aim of obtaining a more robust classifier. We successfully implement this framework by proposing a novel method to ensure generation over features as well as the adjacency matrix and evaluate our method against the standard graph convolutional network (GCN) architecture (Kipf & Welling (2016)). Our approach obtains comparable discriminative performance while improving robustness, opening promising new directions for future research for energy-based graph neural networks.
翻訳日:2021-04-29 12:43:37 公開日:2021-04-27
# 政策マニフォールド探索 : 多様性に基づく神経進化のためのマニフォールド仮説の探索

Policy Manifold Search: Exploring the Manifold Hypothesis for Diversity-based Neuroevolution ( http://arxiv.org/abs/2104.13424v1 )

ライセンス: Link先を確認
Nemanja Rakicevic, Antoine Cully, Petar Kormushev(参考訳) 神経進化は勾配に基づく最適化の代替であり、局所的な極小化を避け、並列化を可能にする可能性がある。 主な制限因子は、通常、パラメータ空間の次元とうまくスケールしないことである。 近年のニューラルネットワークの固有次元とロスランドスケープを調査した研究に触発されて、多様な有用なポリシーの高密度が配置されるポリシーネットワークパラメータ空間に埋め込まれた低次元多様体が存在すると仮定した。 本稿では,この学習表現空間でポリシー探索を行うことで,政策ネットワークパラメータの学習表現を活用できる,ニューロ進化による多様性に基づく新しい政策探索手法を提案する。 本手法は,政策探索の原則的アプローチを提供する品質多様性(QD)フレームワークに依存し,政策表現の学習データセットとして使用される多種多様なポリシーの集合を維持する。 さらに、逆マッピング関数のヤコビアンを用いて表現空間の探索を導く。 これにより、生成されたサンプルは元の空間にマッピングした後、高密度領域に留まることが保証される。 最後に,シミュレーション環境における4つの連続制御タスクに対するコントリビューションを評価し,多様性に基づくベースラインと比較した。

Neuroevolution is an alternative to gradient-based optimisation that has the potential to avoid local minima and allows parallelisation. The main limiting factor is that usually it does not scale well with parameter space dimensionality. Inspired by recent work examining neural network intrinsic dimension and loss landscapes, we hypothesise that there exists a low-dimensional manifold, embedded in the policy network parameter space, around which a high-density of diverse and useful policies are located. This paper proposes a novel method for diversity-based policy search via Neuroevolution, that leverages learned representations of the policy network parameters, by performing policy search in this learned representation space. Our method relies on the Quality-Diversity (QD) framework which provides a principled approach to policy search, and maintains a collection of diverse policies, used as a dataset for learning policy representations. Further, we use the Jacobian of the inverse-mapping function to guide the search in the representation space. This ensures that the generated samples remain in the high-density regions, after mapping back to the original space. Finally, we evaluate our contributions on four continuous-control tasks in simulated environments, and compare to diversity-based baselines.
翻訳日:2021-04-29 12:40:15 公開日:2021-04-27
# 物理インフォームド機械学習による非線形共鳴の発見

Discovering nonlinear resonances through physics-informed machine learning ( http://arxiv.org/abs/2104.13471v1 )

ライセンス: Link先を確認
G. D. Barmparis and G. P. Tsironis(参考訳) 分子やフォトニック系をモデル化する非線形系のアンサンブルに対して、所定の伝達特性を持つ配置を効率的に求める手法を提案する。 具体的には、物理インフォームド・機械学習(PIML)技術を用いて、非線形二量体における電子(または光子)の標的状態への効率的な移動の最適パラメータを求める。 我々は、ドナーとアクセプタターゲットシステム状態の非線形項を表す2つの変数である$\chi_D$と$\chi_A$を含む機械学習モデルを作成する。 次に損失関数を$1.0 - P_j$と定義し、ここでは$P_j$は確率、電子はターゲット状態、$j$とする。 損失関数を最小化することにより、ターゲット状態への遷移確率を最大化する。 この方法は、既知の結果を目標エネルギー移動(tet)モデルに復元し、さらに複雑な中間状態を持つシステムに適用する。 このトリマー構成では、PIMLアプローチはドナーからアクセプターユニットへの最適な共振経路を発見する。 提案したPIML法は一般的に分子錯体の化学設計や量子系やフォトニック系の工学設計に用いられる。

For an ensemble of nonlinear systems that model for instance molecules or photonic systems we propose a method that finds efficiently the configuration that has prescribed transfer properties. Specifically, we use physics-informed machine-learning (PIML) techniques to find the optimal parameters for the efficient transfer of an electron (or photon) to a targeted state in a non-linear dimer. We create a machine learning model containing two variables, $\chi_D$ and $\chi_A$, representing the non-linear terms in the donor and acceptor target system states. We then define a loss function as $1.0 - P_j$, where $P_j$ is the probability, the electron being in the targeted state, $j$. By minimizing the loss function, we maximize the transition probability to the targeted state. The method recovers known results in the Targeted Energy Transfer (TET) model and it is then applied to a more complex system with an additional intermediate state. In this trimer configuration the PIML approach discovers optimal resonant paths from the donor to acceptor units. The proposed PIML method is general and may be used in the chemical design of molecular complexes or engineering design of quantum or photonic systems.
翻訳日:2021-04-29 12:39:55 公開日:2021-04-27
# 乗算1光子未満を用いた光ニューラルネットワーク

An optical neural network using less than 1 photon per multiplication ( http://arxiv.org/abs/2104.13467v1 )

ライセンス: Link先を確認
Tianyu Wang, Shi-Yuan Ma, Logan G. Wright, Tatsuhiro Onodera, Brian Richard and Peter L. McMahon(参考訳) ディープラーニングは、科学と商業の両方の分野で急速に普及している。 人間のパフォーマンスを超える深層学習のマイルストーンは、ゲームプレイング、自然言語翻訳、医療画像分析といった様々な分野において、ここ数年で多くのタスクで達成されてきた。 しかし、電子プロセッサ上での深層ニューラルネットワークのトレーニングと実行に関連する高エネルギーコストにより、継続的な進歩はますます妨げられている。 光ニューラルネットワークは、従来のデジタルコンピュータにデプロイされたニューラルネットワークよりも高いエネルギー効率を達成することができると理論的に予測されているため、ディープラーニングの代替物理プラットフォームとして注目されている。 本研究では,約3.2個の検出光子を重み乗算,約90%の精度で約0.64光子(約2.4 \times 10^{-19}$ j)の重み乗算を用いて,手書き桁分類において99%の精度を達成する光ニューラルネットワークを実験的に実証する。 この性能は、行列ベクトル乗算を非常に並列に実行する独自の自由空間光学プロセッサを用いて達成され、同時に最大0.5万スカラー(重み)乗算が行われた。 市販の光学コンポーネントと標準ニューラルネットワークのトレーニング手法を用いて、光ニューラルネットワークが標準量子限界付近で非常に低い光パワーで動作し、高い精度を達成できることを実証した。 その結果、低消費電力運転のための原理実証と、データ記憶と制御に使用される周辺電子機器を含む慎重なシステム設計が提供され、現在のデジタルプロセッサよりも桁違いに効率の良い10^{-16}$jのスカラー乗算あたりの総エネルギーを必要とする光プロセッサを実現する道を開くことができた。

Deep learning has rapidly become a widespread tool in both scientific and commercial endeavors. Milestones of deep learning exceeding human performance have been achieved for a growing number of tasks over the past several years, across areas as diverse as game-playing, natural-language translation, and medical-image analysis. However, continued progress is increasingly hampered by the high energy costs associated with training and running deep neural networks on electronic processors. Optical neural networks have attracted attention as an alternative physical platform for deep learning, as it has been theoretically predicted that they can fundamentally achieve higher energy efficiency than neural networks deployed on conventional digital computers. Here, we experimentally demonstrate an optical neural network achieving 99% accuracy on handwritten-digit classification using ~3.2 detected photons per weight multiplication and ~90% accuracy using ~0.64 photons (~$2.4 \times 10^{-19}$ J of optical energy) per weight multiplication. This performance was achieved using a custom free-space optical processor that executes matrix-vector multiplications in a massively parallel fashion, with up to ~0.5 million scalar (weight) multiplications performed at the same time. Using commercially available optical components and standard neural-network training methods, we demonstrated that optical neural networks can operate near the standard quantum limit with extremely low optical powers and still achieve high accuracy. Our results provide a proof-of-principle for low-optical-power operation, and with careful system design including the surrounding electronics used for data storage and control, open up a path to realizing optical processors that require only $10^{-16}$ J total energy per scalar multiplication -- which is orders of magnitude more efficient than current digital processors.
翻訳日:2021-04-29 12:39:02 公開日:2021-04-27
# (参考訳) BERTによるマルチモーダル核融合とフェイクニュース検出の注意機構

Multimodal Fusion with BERT and Attention Mechanism for Fake News Detection ( http://arxiv.org/abs/2104.11476v2 )

ライセンス: CC BY 4.0
Nguyen Manh Duc Tuan, Pham Quang Nhat Minh(参考訳) フェイクニュースの検出は、偽ニュースが毎日ソーシャルメディアに拡散しているため、メディア上の情報の信頼性を高める上で重要な課題であり、我々の社会にとって非常に深刻な関心事である。 偽ニュースは通常、画像、テキスト、ビデオを操作することで生成される。 本稿では,テキストと視覚データから派生したマルチモーダル特徴を融合させて偽ニュースを検出する手法を提案する。 具体的には、事前学習したBERTモデルを用いてテキストの特徴を学習し、ImageNetデータセットで事前学習したVGG-19モデルを用いて画像の特徴を抽出した。 テキストの特徴と視覚的特徴の関係を捉えるためのスケールドット製品アテンション機構を提案した。 実験の結果,公開twitterデータセットにおける現在の最先端手法よりも3.1%の精度で性能が向上した。

Fake news detection is an important task for increasing the credibility of information on the media since fake news is constantly spreading on social media every day and it is a very serious concern in our society. Fake news is usually created by manipulating images, texts, and videos. In this paper, we present a novel method for detecting fake news by fusing multimodal features derived from textual and visual data. Specifically, we used a pre-trained BERT model to learn text features and a VGG-19 model pre-trained on the ImageNet dataset to extract image features. We proposed a scale-dot product attention mechanism to capture the relationship between text features and visual features. Experimental results showed that our approach performs better than the current state-of-the-art method on a public Twitter dataset by 3.1% accuracy.
翻訳日:2021-04-29 07:03:36 公開日:2021-04-27
# (参考訳) 教育における平等と人工知能:「AIEd」は教育における不平等を増幅するか、緩和するか?

Equity and Artificial Intelligence in Education: Will "AIEd" Amplify or Alleviate Inequities in Education? ( http://arxiv.org/abs/2104.12920v1 )

ライセンス: CC BY 4.0
Kenneth Holstein and Shayan Doroudi(参考訳) 教育AI(AIEd)システムの開発は、例えば1対1の人間家庭教師の利益をより広い聴衆に拡大したり、既存の教育サービスのギャップを埋めることによって、教育的平等を促進し、学習者の異なるグループ間の達成ギャップを減らす可能性によって、しばしば動機付けられてきた。 このような高貴な意図を踏まえると、なぜAIEdシステムは実際に何の影響も与えないのか? 本章では,aiedシステムが既存の不等式を増幅するリスクがある場合の4つのレンズについて検討する。 これらのレンズから、我々はAIEdのより公平な未来への道のりを概説し、それぞれの提案を取り巻く議論を強調する。 そうすることで、equitable aiedの設計に関する新たな会話を提起し、現場で進行中の会話を前進させたいと思っています。

The development of educational AI (AIEd) systems has often been motivated by their potential to promote educational equity and reduce achievement gaps across different groups of learners -- for example, by scaling up the benefits of one-on-one human tutoring to a broader audience, or by filling gaps in existing educational services. Given these noble intentions, why might AIEd systems have inequitable impacts in practice? In this chapter, we discuss four lenses that can be used to examine how and why AIEd systems risk amplifying existing inequities. Building from these lenses, we then outline possible paths towards more equitable futures for AIEd, while highlighting debates surrounding each proposal. In doing so, we hope to provoke new conversations around the design of equitable AIEd, and to push ongoing conversations in the field forward.
翻訳日:2021-04-28 23:57:14 公開日:2021-04-27
# (参考訳) GPU対応モジュール合成による10億のオーディオサウンド

One Billion Audio Sounds from GPU-enabled Modular Synthesis ( http://arxiv.org/abs/2104.12922v1 )

ライセンス: CC BY 4.0
Joseph Turian and Jordie Shier and George Tzanetakis and Kirk McNally and Max Henry(参考訳) conde nast japan all rights reserved.我々はsynth1b1をリリースした。synth1b1は、10億個の4秒の合成音からなるマルチモーダルオーディオコーパスで、文献のどのオーディオデータセットよりも100倍大きい。 各音は、それを生成するのに使用される潜在パラメータとペアリングされる。 Synth1B1サンプルは、オープンソースモジュールシンセサイザーである torchsynth (https://github.com/torchsynth/torchsynth) を使用して、1つのGPU上で、リアルタイム (714MHz) よりも高速にオンザフライで決定的に生成される。 FM Synth timbre (https://zenodo.org/record/4677102) と subtractive synth pitch (https://zenodo.org/record/4677097) の2つの新しいオーディオデータセットをリリースする。 これらのデータセットを用いて,既存の音声表現に対する新しいランクベースシンセサイザによる評価基準を示す。 最後に,シンセサイザーのハイパーパラメータ最適化のための新しい手法を提案し,知覚的に相関する聴覚距離がシンセサイザー設計における新たな応用を可能にすることを示す。

We release synth1B1, a multi-modal audio corpus consisting of 1 billion 4-second synthesized sounds, which is 100x larger than any audio dataset in the literature. Each sound is paired with the corresponding latent parameters used to generate it. synth1B1 samples are deterministically generated on-the-fly 16200x faster than real-time (714MHz) on a single GPU using torchsynth (https://github.com/torchsynth/torchsynth), an open-source modular synthesizer we release. Additionally, we release two new audio datasets: FM synth timbre (https://zenodo.org/record/4677102) and subtractive synth pitch (https://zenodo.org/record/4677097). Using these datasets, we demonstrate new rank-based synthesizer-motivated evaluation criteria for existing audio representations. Finally, we propose novel approaches to synthesizer hyperparameter optimization, and demonstrate how perceptually-correlated auditory distances could enable new applications in synthesizer design.
翻訳日:2021-04-28 23:28:25 公開日:2021-04-27
# (参考訳) 低用量CT再構成のための確率的収束学習非接触蛍光アルゴリズム

Provably Convergent Learned Inexact Descent Algorithm for Low-Dose CT Reconstruction ( http://arxiv.org/abs/2104.12939v1 )

ライセンス: CC BY 4.0
Qingchao Zhang, Mehrdad Alvandipour, Wenjun Xia, Yi Zhang, Xiaojing Ye and Yunmei Chen(参考訳) 本稿では,低線量CT (LDCT) 再構成のための,ELDA (Efficient Learned Descent Algorithm) と呼ばれる能動的収束法を提案する。 ELDAは、学習パラメータを持つ高度に解釈可能なニューラルネットワークアーキテクチャであり、一方、古典的な最適化アルゴリズムとして収束保証を維持している。 再建品質を向上させるため,提案するELDAでは,新しい非局所特徴マッピングと関連する正規化器も採用している。 ELDAとRED-CNNやLearred Primal-Dualといった最先端の深層画像法を比較し,LDCT再構成問題について検討した。 数値実験により, ELDAの再現性は19層で改善され, ELDAの解精度, パラメータ効率が向上することが示唆された。

We propose a provably convergent method, called Efficient Learned Descent Algorithm (ELDA), for low-dose CT (LDCT) reconstruction. ELDA is a highly interpretable neural network architecture with learned parameters and meanwhile retains convergence guarantee as classical optimization algorithms. To improve reconstruction quality, the proposed ELDA also employs a new non-local feature mapping and an associated regularizer. We compare ELDA with several state-of-the-art deep image methods, such as RED-CNN and Learned Primal-Dual, on a set of LDCT reconstruction problems. Numerical experiments demonstrate improvement of reconstruction quality using ELDA with merely 19 layers, suggesting the promising performance of ELDA in solution accuracy and parameter efficiency.
翻訳日:2021-04-28 23:13:28 公開日:2021-04-27
# (参考訳) 睡眠の異なる側面をモニタリングするための非侵襲的手法の検討

A Review of the Non-Invasive Techniques for Monitoring Different Aspects of Sleep ( http://arxiv.org/abs/2104.12964v1 )

ライセンス: CC BY 4.0
Zawar Hussain, Quan Z. Sheng, Wei Emma Zhang, Jorge Ortiz, Seyedamin Pouriyeh(参考訳) 健康な生活には質の高い睡眠がとても重要です。 現在、世界中の多くの人々は睡眠不足で生活様式に悪影響を与えている。 睡眠モニタリングのための研究が進められており、睡眠行動を理解するための重要なツールとなっている。 金本位睡眠分析法(gold standard method for sleep analysis)は臨床環境下で行うポリソムノグラフィ(psg)であるが、長期使用には高価かつ複雑である。 センサー分野の進歩と市販のテクノロジーの導入により、家庭内睡眠モニタリングの代替手段として目立たないソリューションが一般的になりつつある。 家庭内睡眠モニタリングに安価で使い易いウェアラブルと非ウェアラブルの両方を用いた様々なソリューションが提案されている。 本稿では,睡眠ステージ分類,睡眠姿勢認識,睡眠障害検出,バイタルサインモニタリングなど,睡眠モニタリングのさまざまなカテゴリで実施されている最新の研究成果(2015,after)について総合的な調査を行う。 非侵襲的アプローチを用いた最新の研究をレビューし、ウェアラブルと非ウェアラブルの両方をカバーした。 本研究は, 睡眠モニタリングの4つのカテゴリにおける最近の展開と動向を概観するために, 10 つの重要な要因に基づく広範囲な分析と設計手法について考察した。 また、睡眠モニタリングのさまざまなカテゴリのデータセットも公開しています。 最後に,いくつかの未解決問題について議論し,睡眠モニタリング分野における今後の研究方向性について述べる。

Quality sleep is very important for a healthy life. Nowadays, many people around the world are not getting enough sleep which is having negative impacts on their lifestyles. Studies are being conducted for sleep monitoring and have now become an important tool for understanding sleep behavior. The gold standard method for sleep analysis is polysomnography (PSG) conducted in a clinical environment but this method is both expensive and complex for long-term use. With the advancements in the field of sensors and the introduction of off-the-shelf technologies, unobtrusive solutions are becoming common as alternatives for in-home sleep monitoring. Various solutions have been proposed using both wearable and non-wearable methods which are cheap and easy to use for in-home sleep monitoring. In this paper, we present a comprehensive survey of the latest research works (2015 and after) conducted in various categories of sleep monitoring including sleep stage classification, sleep posture recognition, sleep disorders detection, and vital signs monitoring. We review the latest works done using the non-invasive approach and cover both wearable and non-wearable methods. We discuss the design approaches and key attributes of the work presented and provide an extensive analysis based on 10 key factors, to give a comprehensive overview of the recent developments and trends in all four categories of sleep monitoring. We also present some publicly available datasets for different categories of sleep monitoring. In the end, we discuss several open issues and provide future research directions in the area of sleep monitoring.
翻訳日:2021-04-28 22:50:21 公開日:2021-04-27
# (参考訳) SE-DAE:教師なしテキストスタイル転送のためのスタイル強化型自動エンコーダ

SE-DAE: Style-Enhanced Denoising Auto-Encoder for Unsupervised Text Style Transfer ( http://arxiv.org/abs/2104.12977v1 )

ライセンス: CC BY 4.0
Jicheng Li, Yang Feng, Jiao Ou(参考訳) テキストスタイル転送は意味を保ちながら文のスタイルを変更することを目的としている。 並列データがないため、DAE(Denoising Auto-Encoder)は様々な文スタイルの分布をモデル化するために広く使われている。 しかし,従来のデノナイズドプロシージャの目標とスタイル伝達タスクの目標との間には矛盾があるため,バニラDAEでは十分な結果が得られなかった。 モデルの転送性を改善するため、既存の作業の多くはDAEと様々な複雑な教師なしネットワークを組み合わせることで、システム全体が複雑になる。 本研究では,テキストスタイル転送タスク用に特別に設計された新しいDAEモデルであるスタイル拡張DAE(SE-DAE)を設計する。 従来の複雑なスタイル転送モデルと比較すると、このモデルは複雑な教師なしネットワークで構成されていないが、新しいデータリファインメントメカニズムによって生成される高品質な擬似並列データのみに依存している。 さらに,従来の分極手順とスタイル伝達タスクの目標との衝突を軽減するため,本手法では,スタイル伝達タスクの目標とより互換性のある,新しいスタイルの分極機構を提案する。 モデルの有効性を2つのスタイルのベンチマークデータセットで検証する。 自動評価と人的評価の両方により,提案モデルが従来のsof(the state of the art, sota)アプローチに比べて高い競争力を持ち,バニラデーを大きく上回っていることが示された。

Text style transfer aims to change the style of sentences while preserving the semantic meanings. Due to the lack of parallel data, the Denoising Auto-Encoder (DAE) is widely used in this task to model distributions of different sentence styles. However, because of the conflict between the target of the conventional denoising procedure and the target of style transfer task, the vanilla DAE can not produce satisfying enough results. To improve the transferability of the model, most of the existing works combine DAE with various complicated unsupervised networks, which makes the whole system become over-complex. In this work, we design a novel DAE model named Style-Enhanced DAE (SE-DAE), which is specifically designed for the text style transfer task. Compared with previous complicated style-transfer models, our model do not consist of any complicated unsupervised networks, but only relies on the high-quality pseudo-parallel data generated by a novel data refinement mechanism. Moreover, to alleviate the conflict between the targets of the conventional denoising procedure and the style transfer task, we propose another novel style denoising mechanism, which is more compatible with the target of the style transfer task. We validate the effectiveness of our model on two style benchmark datasets. Both automatic evaluation and human evaluation show that our proposed model is highly competitive compared with previous strong the state of the art (SOTA) approaches and greatly outperforms the vanilla DAE.
翻訳日:2021-04-28 22:24:29 公開日:2021-04-27
# (参考訳) 情報ボトルネックを用いた構造対応階層型グラフポーリング

Structure-Aware Hierarchical Graph Pooling using Information Bottleneck ( http://arxiv.org/abs/2104.13012v1 )

ライセンス: CC BY 4.0
Kashob Kumar Roy, Amit Roy, A K M Mahbubur Rahman, M Ashraful Amin and Amin Ahsan Ali(参考訳) グラフプーリングはグラフ分類と回帰タスクにおいてグラフニューラルネットワーク(GNN)の重要な要素である。 これらのタスクに対して、グラフ内のノードの特徴をダウンサンプリングし要約することでグラフレベルの表現を生成するための異なるプーリング戦略が提案されている。 しかし、既存のプーリング手法の多くは、識別可能な構造情報を効果的に捉えることができない。 また、敵対的な攻撃の傾向も強い。 本研究では,入力データの表現を学習するために,モデルの表現性とロバスト性を最適にバランスする情報ボトルネック(IB)の原理を有効活用する,新しいプール法(HIBPool)を提案する。 さらに,グラフ内の局所部分グラフ構造をキャプチャするために,新しい構造認識型識別プーリング({dip-readout})関数を導入する。 最後に,本モデルが複数のグラフ分類ベンチマークにおいて,他の最先端手法を著しく上回っており,既存のプーリング法よりも特徴摂動攻撃に対する弾力性が高いことを示した。

Graph pooling is an essential ingredient of Graph Neural Networks (GNNs) in graph classification and regression tasks. For these tasks, different pooling strategies have been proposed to generate a graph-level representation by downsampling and summarizing nodes' features in a graph. However, most existing pooling methods are unable to capture distinguishable structural information effectively. Besides, they are prone to adversarial attacks. In this work, we propose a novel pooling method named as {HIBPool} where we leverage the Information Bottleneck (IB) principle that optimally balances the expressiveness and robustness of a model to learn representations of input data. Furthermore, we introduce a novel structure-aware Discriminative Pooling Readout ({DiP-Readout}) function to capture the informative local subgraph structures in the graph. Finally, our experimental results show that our model significantly outperforms other state-of-art methods on several graph classification benchmarks and more resilient to feature-perturbation attack than existing pooling methods.
翻訳日:2021-04-28 22:20:24 公開日:2021-04-27
# (参考訳) 相互情報と自己スーパービジョンに基づくバイレベルアグリゲーションを用いたノード埋め込み

Node Embedding using Mutual Information and Self-Supervision based Bi-level Aggregation ( http://arxiv.org/abs/2104.13014v1 )

ライセンス: CC BY 4.0
Kashob Kumar Roy, Amit Roy, A K M Mahbubur Rahman, M Ashraful Amin and Amin Ahsan Ali(参考訳) グラフニューラルネットワーク(GNN)は、近隣の情報をグラフで集約することで、ノードの低次元表現を学習する。 しかし、伝統的なGNNは、地元(l$-hop neighborhood)のアグリゲーションスキームのために、2つの根本的な欠点に悩まされている。 まず、近隣の全てのノードが対象ノードに関連する情報を持っているわけではない。 gnnは近隣のノイズノードを除外しないので、関連しない情報が集約され、表現の品質が低下する。 第二に、従来のGNNはノード間の長距離非ローカル依存関係をキャプチャできない。 これらの制限に対処するために,1) ノードがコミュニティ内で密結合され,各ノードが近隣ノードと高いMIを共有している場合,2) MI ベースのノードクラスタリングを導入して,同一クラスタ内の情報的かつ図形的に離れたノードを知らせる場合,の2つのタイプを定義するために相互情報(MI)を利用する。 ローカルアグリゲーション - ローカルアグリゲーション - ローカルアグリゲーション - によって生成された埋め込みを組み合わせることで、ノイズ情報や非ローカルアグリゲーションを回避することで、非ローカルアグリゲーションの機能を集約する。 さらに、自己超越学習を利用して、ラベル付きデータが少ないMIを推定する。 最後に,本モデルが多種多様かつ異種なグラフにおいて,最先端の手法を著しく上回っていることを示す。

Graph Neural Networks (GNNs) learn low dimensional representations of nodes by aggregating information from their neighborhood in graphs. However, traditional GNNs suffer from two fundamental shortcomings due to their local ($l$-hop neighborhood) aggregation scheme. First, not all nodes in the neighborhood carry relevant information for the target node. Since GNNs do not exclude noisy nodes in their neighborhood, irrelevant information gets aggregated, which reduces the quality of the representation. Second, traditional GNNs also fail to capture long-range non-local dependencies between nodes. To address these limitations, we exploit mutual information (MI) to define two types of neighborhood, 1) \textit{Local Neighborhood} where nodes are densely connected within a community and each node would share higher MI with its neighbors, and 2) \textit{Non-Local Neighborhood} where MI-based node clustering is introduced to assemble informative but graphically distant nodes in the same cluster. To generate node presentations, we combine the embeddings generated by bi-level aggregation - local aggregation to aggregate features from local neighborhoods to avoid noisy information and non-local aggregation to aggregate features from non-local neighborhoods. Furthermore, we leverage self-supervision learning to estimate MI with few labeled data. Finally, we show that our model significantly outperforms the state-of-the-art methods in a wide range of assortative and disassortative graphs.
翻訳日:2021-04-28 22:04:34 公開日:2021-04-27
# (参考訳) 複雑な自然環境における小型目標運動検出のための注意と予測誘導視覚システム

An Attention and Prediction Guided Visual System for Small Target Motion Detection in Complex Natural Environments ( http://arxiv.org/abs/2104.13018v1 )

ライセンス: CC BY 4.0
Wang Hongxin, Zhao Jiannan, Wang Huatian, Peng Jigen, Yue Shigang(参考訳) 複雑な自然環境における小さな目標運動検出は、自律ロボットにとって非常に難しい課題である。 驚くべきことに、昆虫の視覚系は、視界に数ピクセルの小さいターゲットであっても、仲間を検出し、獲物を追跡するのに非常に効果的に進化してきた。 小さな標的の動きに対する優れた感度は、stmd(small target motion detectors)と呼ばれる特殊なニューロンに依存している。 しかし、既存のstmdベースのモデルは視覚的なコントラストに大きく依存しており、小さなターゲットが常に隣接する背景と非常に低いコントラストを示す複雑な自然環境では不十分である。 本稿では,この限界を克服するための注意と予測のための視覚システムを提案する。 提案する視覚システムは,主にアテンションモジュール,STMDベースニューラルネットワーク,予測モジュールを含む3つのサブシステムから構成される。 注目モジュールは、入力画像の予測領域における潜在的小さなターゲットを探索し、複雑な背景に対するコントラストを高める。 stmdベースのニューラルネットワークは、コントラスト強調画像を受け取り、背景偽陽性から小さな移動目標を判別する。 予測モジュールは、検出された対象の将来の位置を予測し、注目モジュールの予測マップを生成する。 3つのサブシステムは、連続的に処理された情報を小さなターゲット検出のために特定の領域を活性化するリカレントアーキテクチャで接続される。 合成および実世界のデータセットに対する大規模な実験は、複雑な自然環境に対する小さな低コントラスト移動目標を検出するために提案された視覚システムの有効性と優位性を示す。

Small target motion detection within complex natural environment is an extremely challenging task for autonomous robots. Surprisingly, visual systems of insects have evolved to be highly efficient in detecting mates and tracking prey, even though targets are as small as a few pixels in visual field. The excellent sensitivity to small target motion relies on a class of specialized neurons called small target motion detectors (STMDs). However, existing STMD-based models are heavily dependent on visual contrast and perform poorly in complex natural environment where small targets always exhibit extremely low contrast to neighboring backgrounds. In this paper, we propose an attention and prediction guided visual system to overcome this limitation. The proposed visual system mainly consists of three subsystems, including an attention module, a STMD-based neural network, and a prediction module. The attention module searches for potential small targets in the predicted areas of input image and enhances their contrast to complex background. The STMD-based neural network receives the contrast-enhanced image and discriminates small moving targets from background false positives. The prediction module foresees future positions of the detected targets and generates a prediction map for the attention module. The three subsystems are connected in a recurrent architecture allowing information processed sequentially to activate specific areas for small target detection. Extensive experiments on synthetic and real-world datasets demonstrate the effectiveness and superiority of the proposed visual system for detecting small, low-contrast moving targets against complex natural environment.
翻訳日:2021-04-28 21:51:06 公開日:2021-04-27
# (参考訳) ニューラル・リコメンデーションに関する調査 : 協調フィルタリングからコンテンツ・コンテクスト強化レコメンデーションまで

A Survey on Neural Recommendation: From Collaborative Filtering to Content and Context Enriched Recommendation ( http://arxiv.org/abs/2104.13030v1 )

ライセンス: CC BY 4.0
Le Wu, Xiangnan He, Xiang Wang, Kun Zhang, Meng Wang(参考訳) コンピュータビジョンと言語理解におけるディープラーニングの驚くべき成功の影響を受け、レコメンデーションの研究はニューラルネットワークに基づいた新しいレコメンデーションモデルの開発にシフトした。 近年,ニューラルネットワークの強力な表現力により,従来のレコメンデータモデルを一般化し,超越したニューラルレコメンデータモデルの開発が著しい進展を見せている。 本稿では,神経リコメンデータモデルに関する体系的レビューを行い,今後の進歩を促進するためにこの分野をまとめる。 深層学習技術の分類に基づく既存手法を分類する既存の調査とは違い,提案手法は,推薦システムに携わる研究者や実践者にとってより指導力のあるレコメンデーションモデリングの観点から,その分野を要約する。 Specifically, we divide the work into three types based on the data they used for recommendation modeling: 1) collaborative filtering models, which leverage the key source of user-item interaction data; 2) content enriched models, which additionally utilize the side information associated with users and items, like user profile and item knowledge graph; and 3) context enriched models, which account for the contextual information associated with an interaction, such as time, location, and the past interactions. 各タイプの代表的成果をレビューした後、最後にこの分野の有望な方向性について論じる。ベンチマークレコメンデーションシステム、グラフ推論に基づくレコメンデーションモデル、社会的利益のための説明可能かつ公正なレコメンデーションなどだ。

Influenced by the stunning success of deep learning in computer vision and language understanding, research in recommendation has shifted to inventing new recommender models based on neural networks. In recent years, we have witnessed significant progress in developing neural recommender models, which generalize and surpass traditional recommender models owing to the strong representation power of neural networks. In this survey paper, we conduct a systematic review on neural recommender models, aiming to summarize the field to facilitate future progress. Distinct from existing surveys that categorize existing methods based on the taxonomy of deep learning techniques, we instead summarize the field from the perspective of recommendation modeling, which could be more instructive to researchers and practitioners working on recommender systems. Specifically, we divide the work into three types based on the data they used for recommendation modeling: 1) collaborative filtering models, which leverage the key source of user-item interaction data; 2) content enriched models, which additionally utilize the side information associated with users and items, like user profile and item knowledge graph; and 3) context enriched models, which account for the contextual information associated with an interaction, such as time, location, and the past interactions. After reviewing representative works for each type, we finally discuss some promising directions in this field, including benchmarking recommender systems, graph reasoning based recommendation models, and explainable and fair recommendations for social good.
翻訳日:2021-04-28 21:22:55 公開日:2021-04-27
# (参考訳) LAST at CMCL 2021 Shared Task: Predicting Gaze Data during Reading with a Gradient Boosting Decision Tree Approach

LAST at CMCL 2021 Shared Task: Predicting Gaze Data During Reading with a Gradient Boosting Decision Tree Approach ( http://arxiv.org/abs/2104.13043v1 )

ライセンス: CC BY 4.0
Yves Bestgen(参考訳) 2021 CMCLShared Task on Eye-Tracking Data Prediction において,目標単語語彙の特徴と,単語頻度リスト,心理メトリックデータ,およびビッグラム関連度から得られる特徴を取り入れた LightGBM モデルを最適化した。 チームは5つの視線追跡の指標のうちの2つで最高のパフォーマンスを達成し、公式のチャレンジ基準で1位を獲得し、チャレンジに参加するディープラーニングベースのシステムをすべて上回りました。

A LightGBM model fed with target word lexical characteristics and features obtained from word frequency lists, psychometric data and bigram association measures has been optimized for the 2021 CMCL Shared Task on Eye-Tracking Data Prediction. It obtained the best performance of all teams on two of the five eye-tracking measures to predict, allowing it to rank first on the official challenge criterion and to outperform all deep-learning based systems participating in the challenge.
翻訳日:2021-04-28 20:31:29 公開日:2021-04-27
# (参考訳) 点雲解析のためのデュアルトランス

Dual Transformer for Point Cloud Analysis ( http://arxiv.org/abs/2104.13044v1 )

ライセンス: CC BY 4.0
Xian-Feng Han and Yi-Fei Jin and Hui-Xian Cheng and Guo-Qiang Xiao(参考訳) 本稿では,自然言語処理および画像理解タスクにおけるトランスフォーマーの大幅な成功に続いて,Dual Point Cloud Transformer Network (DTNet) と呼ばれる,Dual Point Cloud Transformer (DPCT) モジュールで構成される新しいポイントクラウド表現学習アーキテクチャを提案する。 具体的には、よく設計されたポイントワイドとチャネルワイドの自己アテンションモデルを同時に集約することにより、DPCTモジュールは位置とチャネルの観点から意味的によりリッチなコンテキスト依存をキャプチャすることができる。 DPCTモジュールを基本コンポーネントとして,ポイントクラウド解析を行うDTNetをエンドツーエンドで構築する。 3Dポイントクラウドの分類とセグメンテーションのタスクにおいて,提案するトランスフォーマーフレームワークの有効性を実証し,最先端のアプローチと比較して高い競争性能を実現した。

Following the tremendous success of transformer in natural language processing and image understanding tasks, in this paper, we present a novel point cloud representation learning architecture, named Dual Transformer Network (DTNet), which mainly consists of Dual Point Cloud Transformer (DPCT) module. Specifically, by aggregating the well-designed point-wise and channel-wise multi-head self-attention models simultaneously, DPCT module can capture much richer contextual dependencies semantically from the perspective of position and channel. With the DPCT module as a fundamental component, we construct the DTNet for performing point cloud analysis in an end-to-end manner. Extensive quantitative and qualitative experiments on publicly available benchmarks demonstrate the effectiveness of our proposed transformer framework for the tasks of 3D point cloud classification and segmentation, achieving highly competitive performance in comparison with the state-of-the-art approaches.
翻訳日:2021-04-28 20:23:03 公開日:2021-04-27
# (参考訳) 教師なしDeep Manifold Attributed Graph Embedding

Unsupervised Deep Manifold Attributed Graph Embedding ( http://arxiv.org/abs/2104.13048v1 )

ライセンス: CC BY 4.0
Zelin Zang, Siyuan Li, Di Wu, Jianzhu Guo, Yongjie Xu, Stan Z. Li(参考訳) 構造情報と特徴情報の両方を潜在空間で表現する必要があるため、教師なし属性グラフ表現学習は困難である。 既存の手法は再構築タスクを通じて潜在表現を学習することに集中しているが、直接表現を最適化することはできず、過剰に動作しやすいため、下流タスクでのアプリケーションを制限することができる。 これらの問題を緩和するために,Deep Manifold Attributed Graph Embedding (DMAGE) という新しいグラフ埋め込みフレームワークを提案する。 データ空間と潜在空間の間のノード間類似性を計算し、損失関数としてベルグマン発散を用いてそれらの差を最小化するノード間類似性を提案する。 次に,より少ないアグリゲーションを持つ新しいネットワーク構造を設計し,グラフ構造を拡張して表現の安定性を向上させる。 提案するDMAGEは,教師なし可視化,ノードクラスタリング,および4つの一般的なデータセット間のリンク予測という,3つの下流タスクにおいて,最先端の手法をはるかに上回っている。

Unsupervised attributed graph representation learning is challenging since both structural and feature information are required to be represented in the latent space. Existing methods concentrate on learning latent representation via reconstruction tasks, but cannot directly optimize representation and are prone to oversmoothing, thus limiting the applications on downstream tasks. To alleviate these issues, we propose a novel graph embedding framework named Deep Manifold Attributed Graph Embedding (DMAGE). A node-to-node geodesic similarity is proposed to compute the inter-node similarity between the data space and the latent space and then use Bergman divergence as loss function to minimize the difference between them. We then design a new network structure with fewer aggregation to alleviate the oversmoothing problem and incorporate graph structure augmentation to improve the representation's stability. Our proposed DMAGE surpasses state-of-the-art methods by a significant margin on three downstream tasks: unsupervised visualization, node clustering, and link prediction across four popular datasets.
翻訳日:2021-04-28 20:08:07 公開日:2021-04-27
# (参考訳) リッチアクション認識のための3ストリームネットワーク

Three-stream network for enriched Action Recognition ( http://arxiv.org/abs/2104.13051v1 )

ライセンス: CC BY 4.0
Ivaxi Sheth(参考訳) 人間の行動に関する正確な情報を理解することは、マシンインテリジェンスにおいて最も重要なタスクの1つである。 ビデオから人間の活動を理解することを目的とした人間の活動認識は、背景、カメラの動き、データセットのバリエーションなど様々な問題のために難しい課題である。 本稿では,3つのストリームを持つcnnベースの2つのアーキテクチャを提案する。 3つの経路はフレームレートで区別される。 単一経路は単一フレームレートで動作し、スロー経路は低フレームレートで動作し、高速経路は微妙な時間情報をキャプチャする高フレームレートで動作する。 CNNエンコーダの後,2方向LSTMとアテンションヘッドをそれぞれ追加して,コンテキストと時間的特徴をキャプチャする。 UCF-101, Kinetics-600, AVAデータセット上で様々なアルゴリズムを実験することにより, 提案したモデルが人間の行動認識タスクの最先端性能を達成することを観察する。

Understanding accurate information on human behaviours is one of the most important tasks in machine intelligence. Human Activity Recognition that aims to understand human activities from a video is a challenging task due to various problems including background, camera motion and dataset variations. This paper proposes two CNN based architectures with three streams which allow the model to exploit the dataset under different settings. The three pathways are differentiated in frame rates. The single pathway, operates at a single frame rate captures spatial information, the slow pathway operates at low frame rates captures the spatial information and the fast pathway operates at high frame rates that capture fine temporal information. Post CNN encoders, we add bidirectional LSTM and attention heads respectively to capture the context and temporal features. By experimenting with various algorithms on UCF-101, Kinetics-600 and AVA dataset, we observe that the proposed models achieve state-of-art performance for human action recognition task.
翻訳日:2021-04-28 19:52:50 公開日:2021-04-27
# (参考訳) ポイントクラウド表現のためのクロスレベルクロススケールクロスアテンションネットワーク

Cross-Level Cross-Scale Cross-Attention Network for Point Cloud Representation ( http://arxiv.org/abs/2104.13053v1 )

ライセンス: CC BY 4.0
Xian-Feng Han and Zhang-Yue He and Jia Chen and Guo-Qiang Xiao(参考訳) 近年,自然言語処理(NLP)と画像処理領域において,自己認識機構が顕著な進歩を遂げている。 そして、その置換不変性は、点クラウド処理に理想的に適合する。 この顕著な成功に触発されて、ポイントクラウド表現学習のためのクロスレベルクロススケールクロスアテンションネットワーク(CLCSCANet)と呼ばれるエンドツーエンドアーキテクチャを提案する。 まず、異なるスケールや解像度から特徴を階層的に抽出するために、ポイントワイズ特徴ピラミッドモジュールを導入する。 次に、クロスレベルなクロスアテンションが、長期の階層間および階層内依存関係をモデル化するように設計される。 最後に,表現の強化のために,相互の相互作用を捕捉するクロススケール・クロスアテンション・モジュールを開発した。 最先端のアプローチと比較して,ネットワークは3次元オブジェクト分類やポイントクラウドセグメンテーションタスクにおいて,総合的な実験的評価によって競合性能を得ることができる。

Self-attention mechanism recently achieves impressive advancement in Natural Language Processing (NLP) and Image Processing domains. And its permutation invariance property makes it ideally suitable for point cloud processing. Inspired by this remarkable success, we propose an end-to-end architecture, dubbed Cross-Level Cross-Scale Cross-Attention Network (CLCSCANet), for point cloud representation learning. First, a point-wise feature pyramid module is introduced to hierarchically extract features from different scales or resolutions. Then a cross-level cross-attention is designed to model long-range inter-level and intra-level dependencies. Finally, we develop a cross-scale cross-attention module to capture interactions between-and-within scales for representation enhancement. Compared with state-of-the-art approaches, our network can obtain competitive performance on challenging 3D object classification, point cloud segmentation tasks via comprehensive experimental evaluation.
翻訳日:2021-04-28 19:44:04 公開日:2021-04-27
# (参考訳) 低リソース音声認識のための無線アーカイブの利用 : 視覚障害者向け知的仮想アシスタントに向けて

Using Radio Archives for Low-Resource Speech Recognition: Towards an Intelligent Virtual Assistant for Illiterate Users ( http://arxiv.org/abs/2104.13083v1 )

ライセンス: CC BY-SA 4.0
Moussa Doumbouya, Lisa Einstein, Chris Piech(参考訳) 世界中の7億人の障害者にとって、音声認識技術は貴重な情報やサービスへの橋渡しとなるかもしれない。 しかし、この技術に最も必要とされているものは、しばしば最も控えめなものである。 多くの国では、文盲の人々は低リソース言語のみを話す傾向があり、音声技術開発に必要なデータセットは乏しい。 本稿では,低リソース言語においても豊富なノイズの多い無線放送アーカイブにおける教師なし音声表現学習の有効性について検討する。 主な貢献は3つあります。 まず、研究コミュニティに2つのデータセットをリリースします。 最初のWest African Radio Corpusは、ラベル付きバリデーションサブセットを持つ10言語以上で142時間のオーディオを含む。 第2の西アフリカバーチャルアシスタント音声認識コーパスは、4つの言語で10Kのラベル付き音声クリップで構成されている。 次に、ノイズの多い無線コーパスでトレーニングされた音声エンコーダであるWest African wav2vecを、高品質の6倍のデータでトレーニングされたベースラインのFacebook音声エンコーダと比較する。 We show that West African wav2vec performed as the baseline on a multilingual speech recognition task, and significantlyforming the baseline on a West African language Identification task。 最後に、マニンカ語、プラール語、スース語の音声認識モデルを共有する。マニンカ語、プラー語、スース語は、成人人口の大多数が読み書きできない6か国を含む7か国で合計1000万人が話す言語だ。 我々の貢献は、倫理的AI研究がデジタル分割によって最も不利な人々のニーズを満たすための道のりを提供する。

For many of the 700 million illiterate people around the world, speech recognition technology could provide a bridge to valuable information and services. Yet, those most in need of this technology are often the most underserved by it. In many countries, illiterate people tend to speak only low-resource languages, for which the datasets necessary for speech technology development are scarce. In this paper, we investigate the effectiveness of unsupervised speech representation learning on noisy radio broadcasting archives, which are abundant even in low-resource languages. We make three core contributions. First, we release two datasets to the research community. The first, West African Radio Corpus, contains 142 hours of audio in more than 10 languages with a labeled validation subset. The second, West African Virtual Assistant Speech Recognition Corpus, consists of 10K labeled audio clips in four languages. Next, we share West African wav2vec, a speech encoder trained on the noisy radio corpus, and compare it with the baseline Facebook speech encoder trained on six times more data of higher quality. We show that West African wav2vec performs similarly to the baseline on a multilingual speech recognition task, and significantly outperforms the baseline on a West African language identification task. Finally, we share the first-ever speech recognition models for Maninka, Pular and Susu, languages spoken by a combined 10 million people in over seven countries, including six where the majority of the adult population is illiterate. Our contributions offer a path forward for ethical AI research to serve the needs of those most disadvantaged by the digital divide.
翻訳日:2021-04-28 19:33:52 公開日:2021-04-27
# (参考訳) NLPおよびグラフ埋め込みを用いたSMPにおけるフェイクユーザ検出

Detection of Fake Users in SMPs Using NLP and Graph Embeddings ( http://arxiv.org/abs/2104.13094v1 )

ライセンス: CC BY 4.0
Manojit Chakraborty, Shubham Das, Radhika Mamidi(参考訳) facebook、twitter、instagramなどのソーシャルメディアプラットフォーム(smp)。 世界中に巨大なユーザベースがあり、毎秒大量のデータを生成しています。 これには、フェイクやスパムのユーザーによる投稿が多数含まれており、通常は世界中の多くの組織が他と競合するために使っている。 本研究では,このようなユーザアカウントをTwitter上で検出する手法を提案する。 グラフ表現学習と自然言語処理を組み合わせた手法を用いて,Twitter上でのGenuineアカウントとSpamアカウントの区別方法を示す。

Social Media Platforms (SMPs) like Facebook, Twitter, Instagram etc. have large user base all around the world that generates huge amount of data every second. This includes a lot of posts by fake and spam users, typically used by many organisations around the globe to have competitive edge over others. In this work, we aim at detecting such user accounts in Twitter using a novel approach. We show how to distinguish between Genuine and Spam accounts in Twitter using a combination of Graph Representation Learning and Natural Language Processing techniques.
翻訳日:2021-04-28 19:29:47 公開日:2021-04-27
# (参考訳) Shellcode_IA32: 自動シェルコード生成のためのデータセット

Shellcode_IA32: A Dataset for Automatic Shellcode Generation ( http://arxiv.org/abs/2104.13100v1 )

ライセンス: CC BY 4.0
Pietro Liguori, Erfan Al-Hossami, Domenico Cotroneo, Roberto Natella, Bojan Cukic and Samira Shaikh(参考訳) 私たちは、シェルコードを自動的に生成するタスク、すなわち、自然言語コメントから始まるソフトウェア脆弱性を悪用するペイロードとして使用される小さなコードに対処する第一歩を踏み出します。 我々は,困難だが一般的なアセンブリ命令と自然言語記述からなる新しいデータセット(Shellcode_IA32)を組み立て,リリースする。 我々は,ニューラルマシン翻訳(nmt)における標準手法を用いて,このタスクのベースライン性能レベルを確立する。

We take the first step to address the task of automatically generating shellcodes, i.e., small pieces of code used as a payload in the exploitation of a software vulnerability, starting from natural language comments. We assemble and release a novel dataset (Shellcode_IA32), consisting of challenging but common assembly instructions with their natural language descriptions. We experiment with standard methods in neural machine translation (NMT) to establish baseline performance levels on this task.
翻訳日:2021-04-28 19:22:47 公開日:2021-04-27
# (参考訳) 多様体学習によるLSTM内部状態の初期化

Initializing LSTM internal states via manifold learning ( http://arxiv.org/abs/2104.13101v1 )

ライセンス: CC BY 4.0
Felix P. Kemeth, Tom Bertalan, Nikolaos Evangelou, Tianqi Cui, Saurabh Malani, Ioannis G. Kevrekidis(参考訳) 本稿では,LSTMリカレントニューラルネットワークの内部状態値の初期化のための本質的なデータ多様体を学習し,初期観測データとの整合性を確保するアプローチを提案する。 一般化同期の概念を生かして、収束した「成熟」内部状態は、この学習多様体上の関数であると主張する。 この多様体の次元は、一貫した初期化に必要な観測された入力時系列データの長さを決定する。 我々は,この方法で内部lstm状態を初期化することで,視覚的に性能が向上する部分観察化学モデルシステムを用いて,我々のアプローチを説明する。 最後に、このデータ多様体を学習することで、部分観測されたダイナミクスを完全に観測されたものに変換することができ、非線形力学系に対する代替識別パスが容易になることを示す。

We present an approach, based on learning an intrinsic data manifold, for the initialization of the internal state values of LSTM recurrent neural networks, ensuring consistency with the initial observed input data. Exploiting the generalized synchronization concept, we argue that the converged, "mature" internal states constitute a function on this learned manifold. The dimension of this manifold then dictates the length of observed input time series data required for consistent initialization. We illustrate our approach through a partially observed chemical model system, where initializing the internal LSTM states in this fashion yields visibly improved performance. Finally, we show that learning this data manifold enables the transformation of partially observed dynamics into fully observed ones, facilitating alternative identification paths for nonlinear dynamical systems.
翻訳日:2021-04-28 19:15:50 公開日:2021-04-27
# (参考訳) 人工知能の分水界:人間の知性、機械知性、生物学的知性

Watershed of Artificial Intelligence: Human Intelligence, Machine Intelligence, and Biological Intelligence ( http://arxiv.org/abs/2104.13155v1 )

ライセンス: CC BY 4.0
Li Weigang, Liriam Enamoto, Denise Leyi Li, Geraldo Pereira Rocha Filho(参考訳) 本稿は,23年前に提案されたワンショット学習機構と,画像分類におけるワンショット学習の成功,客観的検出におけるYou Only Look Once-YOLOについて述べる。 AIの現在の開発を分析した結果、AIは人工知能(AHI)、人工知能(AMI)、人工知能(ABI)の3つのカテゴリに明確に分類されるべきであると提案された。 1) ai r&dは人間指向、機械指向、生物指向であるべきであり、2) 情報入力は次元アップまたは次元還元によって処理され、3) 1/few以上のサンプルは知識学習に使用される。

This article reviews the Once Learning mechanism that was proposed 23 years ago and the subsequent successes of One-shot Learning in image classification and You Only Look Once-YOLO in objective detection. Analyzing the current development of AI, the proposal is that AI should be clearly divided into the following categories: Artificial Human Intelligence (AHI), Artificial Machine Intelligence (AMI), and Artificial Biological Intelligence (ABI), which will also be the main directions of theory and application development for AI. As a watershed for the branches of AI, some classification standards and methods are discussed: 1) AI R&D should be human-oriented, machine-oriented, and biological-oriented; 2) The information input is processed by Dimensionality-up or dimensionality-reduction; and 3) One/Few or large samples are used for knowledge learning.
翻訳日:2021-04-28 18:57:12 公開日:2021-04-27
# (参考訳) UoT-UWF-PartAI at SemEval-2021 Task 5: Self Attention Based Bi-GRU with Multi-Embedding Representation for Toxicity Highlighter

UoT-UWF-PartAI at SemEval-2021 Task 5: Self Attention Based Bi-GRU with Multi-Embedding Representation for Toxicity Highlighter ( http://arxiv.org/abs/2104.13164v1 )

ライセンス: CC BY-SA 4.0
Hamed Babaei Giglou, Taher Rahgooy, Mostafa Rahgouy and Jafar Razmara(参考訳) Toxic Spans Detection (TSD) タスクはテキストを有害にするスパンのハイライトとして定義される。 特定のコメントや文書を有毒または非有毒と分類するために多くの研究がなされている。 しかし、提案されたモデルはいずれもトークンレベルでは動作しない。 本稿では,トークンの多重埋め込み表現を用いた自己注意型双方向ゲート再帰ユニット(BiGRU)を提案する。 提案モデルでは,GPT-2,GloVe,RoBERTaの埋め込みによる表現を豊かにし,有望な結果を得た。 実験の結果,提案手法はスパントークンの検出に非常に有効であることがわかった。

Toxic Spans Detection(TSD) task is defined as highlighting spans that make a text toxic. Many works have been done to classify a given comment or document as toxic or non-toxic. However, none of those proposed models work at the token level. In this paper, we propose a self-attention-based bidirectional gated recurrent unit(BiGRU) with a multi-embedding representation of the tokens. Our proposed model enriches the representation by a combination of GPT-2, GloVe, and RoBERTa embeddings, which led to promising results. Experimental results show that our proposed approach is very effective in detecting span tokens.
翻訳日:2021-04-28 18:41:42 公開日:2021-04-27
# (参考訳) scRNA-seqデータ解析のためのL20-Normを用いた構造的スパース非負行列分解

Structured Sparse Non-negative Matrix Factorization with L20-Norm for scRNA-seq Data Analysis ( http://arxiv.org/abs/2104.13171v1 )

ライセンス: CC BY 4.0
Wenwen Min, Taosheng Xu, Xiang Wan and Tsung-Hui Chang(参考訳) 非負行列分解(NMF)は次元減少とクラスタリングのための強力なツールである。 残念ながら、NMFによるクラスタリング結果の解釈は、特に効果的な特徴選択のない高次元の生物学的データでは困難である。 本稿では、まず、$\ell_{2,0}$-norm制約(NMF_$\ell_{20}$)を持つ行スパースNMFを紹介し、基底行列$W$は、$\ell_{2,0}$-normによって制約されるので、$W$は特徴選択を伴う行スパース性パターンを持つ。 このモデルを解くのは困難であり、$\ell_{2,0}$-norm は非凸かつ非スムースである。 幸いにも、$\ell_{2,0}$-norm は kurdyka-\l{ojasiewicz} の特性を満たすことが証明される。 そこで本研究では,NMF_$\ell_{20}$モデルを解くために,近似交互線形化最小化アルゴリズムとその単調加速バージョンを提案する。 さらに,非負の直交制約を用いてクラスタリング性能を向上させるために,$\ell_{2,0}$-norm制約付き直交NMF(ONMF_$\ell_{20}$)を提案する。 我々は,onmf_$\ell_{20}$を一連の制約付き行列分解問題に変換して解く効率的なアルゴリズムを提案する。 数値およびscRNA-seqデータセットを用いて,既存の手法と比較して,本手法の有効性を示す。

Non-negative matrix factorization (NMF) is a powerful tool for dimensionality reduction and clustering. Unfortunately, the interpretation of the clustering results from NMF is difficult, especially for the high-dimensional biological data without effective feature selection. In this paper, we first introduce a row-sparse NMF with $\ell_{2,0}$-norm constraint (NMF_$\ell_{20}$), where the basis matrix $W$ is constrained by the $\ell_{2,0}$-norm, such that $W$ has a row-sparsity pattern with feature selection. It is a challenge to solve the model, because the $\ell_{2,0}$-norm is non-convex and non-smooth. Fortunately, we prove that the $\ell_{2,0}$-norm satisfies the Kurdyka-\L{ojasiewicz} property. Based on the finding, we present a proximal alternating linearized minimization algorithm and its monotone accelerated version to solve the NMF_$\ell_{20}$ model. In addition, we also present a orthogonal NMF with $\ell_{2,0}$-norm constraint (ONMF_$\ell_{20}$) to enhance the clustering performance by using a non-negative orthogonal constraint. We propose an efficient algorithm to solve ONMF_$\ell_{20}$ by transforming it into a series of constrained and penalized matrix factorization problems. The results on numerical and scRNA-seq datasets demonstrate the efficiency of our methods in comparison with existing methods.
翻訳日:2021-04-28 18:36:50 公開日:2021-04-27
# (参考訳) BiSeNetをリアルタイムセマンティックセグメンテーションに再考

Rethinking BiSeNet For Real-time Semantic Segmentation ( http://arxiv.org/abs/2104.13188v1 )

ライセンス: CC BY 4.0
Mingyuan Fan, Shenqi Lai, Junshi Huang, Xiaoming Wei, Zhenhua Chai, Junfeng Luo, Xiaolin Wei(参考訳) BiSeNetはリアルタイムセグメンテーションのための人気のある2ストリームネットワークであることが証明されている。 しかし、空間情報をエンコードするための余分なパスを追加するという原則は時間がかかり、事前訓練されたタスク、例えば画像分類から借用されたバックボーンは、タスク固有の設計の欠如のために画像分割に非効率である可能性がある。 これらの問題に対処するため,構造冗長性を取り除き,短時間Dense Concatenate Network (STDC Network) を新たに提案する。 具体的には,機能マップの次元を徐々に削減し,stdcネットワークの基本モジュールを構成する画像表現にそれらの集合を用いる。 このデコーダでは,空間情報の学習を低レベル層に単一ストリームで統合することで,Detail Aggregationモジュールを提案する。 最後に、最終セグメンテーション結果を予測するために、低レベルの特徴と深い特徴が融合される。 都市景観とcamvidデータセットに関する広範囲な実験により,セグメンテーション精度と推定速度のトレードオフを実現することにより,提案手法の有効性を実証した。 Cityscapesでは、最新の手法よりも45.2%高速なNVIDIA GTX 1080Tiで250.4 FPSの速度でテストセットで71.9% mIoUを獲得し、高解像度画像を推測しながら97.0 FPSで76.8% mIoUを達成した。

BiSeNet has been proved to be a popular two-stream network for real-time segmentation. However, its principle of adding an extra path to encode spatial information is time-consuming, and the backbones borrowed from pretrained tasks, e.g., image classification, may be inefficient for image segmentation due to the deficiency of task-specific design. To handle these problems, we propose a novel and efficient structure named Short-Term Dense Concatenate network (STDC network) by removing structure redundancy. Specifically, we gradually reduce the dimension of feature maps and use the aggregation of them for image representation, which forms the basic module of STDC network. In the decoder, we propose a Detail Aggregation module by integrating the learning of spatial information into low-level layers in single-stream manner. Finally, the low-level features and deep features are fused to predict the final segmentation results. Extensive experiments on Cityscapes and CamVid dataset demonstrate the effectiveness of our method by achieving promising trade-off between segmentation accuracy and inference speed. On Cityscapes, we achieve 71.9% mIoU on the test set with a speed of 250.4 FPS on NVIDIA GTX 1080Ti, which is 45.2% faster than the latest methods, and achieve 76.8% mIoU with 97.0 FPS while inferring on higher resolution images.
翻訳日:2021-04-28 17:41:22 公開日:2021-04-27
# (参考訳) LasHeR: RGBT追跡のための大規模高多様性ベンチマーク

LasHeR: A Large-scale High-diversity Benchmark for RGBT Tracking ( http://arxiv.org/abs/2104.13202v1 )

ライセンス: CC BY 4.0
Chenglong Li, Wanlin Xue, Yaqing Jia, Zhichen Qu, Bin Luo, and Jin Tang(参考訳) RGBTトラッキングはコンピュータビジョンコミュニティに注目が集まっているが、この研究分野には大規模かつ高多様性のベンチマークデータセットが欠落しており、深部RGBTトラッカーのトレーニングとRGBTトラッカーの包括的な評価の両方に不可欠である。 そこで本研究では,RGBT追跡のための大規模高多様性ベンチマーク(LasHeR)を提案する。 LasHeRは1224枚の可視・熱赤外ビデオ対と合計730Kフレーム対で構成されている。 各フレームペアは空間的にアライメントされ、バウンディングボックスで手動でアノテートされるため、データセットは良好かつ密にアノテートされる。 LasHeRは、季節、天気、昼夜を問わず、幅広い対象カテゴリー、カメラ視点、シーンの複雑さ、環境要因から非常に多様である。 本稿では、LasHeRデータセット上で12RGBT追跡アルゴリズムの総合的な性能評価を行い、RGBT追跡実験室の詳細な解析を行った。 さらに,実世界のアプリケーションにおいてより実用的なタスクであるアライメントフリーなrgbtトラッキングに対する研究関心を引き付けるために,lasherの非アライメント版をリリースする。 データセットと評価プロトコルは以下の通りである。

RGBT tracking receives a surge of interest in the computer vision community, but this research field lacks a large-scale and high-diversity benchmark dataset, which is essential for both the training of deep RGBT trackers and the comprehensive evaluation of RGBT tracking methods. To this end, we present a Large-scale High-diversity benchmark for RGBT tracking (LasHeR) in this work. LasHeR consists of 1224 visible and thermal infrared video pairs with more than 730K frame pairs in total. Each frame pair is spatially aligned and manually annotated with a bounding box, making the dataset well and densely annotated. LasHeR is highly diverse capturing from a broad range of object categories, camera viewpoints, scene complexities and environmental factors across seasons, weathers, day and night. We conduct a comprehensive performance evaluation of 12 RGBT tracking algorithms on the LasHeR dataset and present detailed analysis to clarify the research room in RGBT tracking. In addition, we release the unaligned version of LasHeR to attract the research interest for alignment-free RGBT tracking, which is a more practical task in real-world applications. The datasets and evaluation protocols are available at: https://github.com/BUGPLEASEOUT/LasHeR.
翻訳日:2021-04-28 17:26:47 公開日:2021-04-27
# (参考訳) 音声言語の視覚的接地モデル:データセット、アーキテクチャ、評価技術に関する調査

Visually grounded models of spoken language: A survey of datasets, architectures and evaluation techniques ( http://arxiv.org/abs/2104.13225v1 )

ライセンス: CC BY 4.0
Grzegorz Chrupa{\l}a(参考訳) この調査は、過去20年間の音声言語の視覚的接地モデルの進化の概要を提供する。 このようなモデルは、子供が言語を拾うとき、様々な間接的および騒がしい手がかりに依存しており、音声発話と共起する視覚モダリティからの信号を含んでいるという観察から着想を得ている。 機械学習、自然言語および音声処理、コンピュータビジョン、認知科学といった学習言語のプロセスをモデル化または模倣するこのアプローチに、いくつかの分野が重要な貢献をしている。 本稿では,これらすべての分野の実践者に対して有用な紹介と概要を提供するため,これらの貢献をまとめる。 我々は、この研究の多くを可能にした中心的な研究課題、開発スケジュール、データセットについて論じる。 次に、主要なモデリングアーキテクチャを要約し、評価メトリクスと分析テクニックを徹底的に概観する。

This survey provides an overview of the evolution of visually grounded models of spoken language over the last 20 years. Such models are inspired by the observation that when children pick up a language, they rely on a wide range of indirect and noisy clues, crucially including signals from the visual modality co-occurring with spoken utterances. Several fields have made important contributions to this approach to modeling or mimicking the process of learning language: Machine Learning, Natural Language and Speech Processing, Computer Vision and Cognitive Science. The current paper brings together these contributions in order to provide a useful introduction and overview for practitioners in all these areas. We discuss the central research questions addressed, the timeline of developments, and the datasets which enabled much of this work. We then summarize the main modeling architectures and offer an exhaustive overview of the evaluation metrics and analysis techniques.
翻訳日:2021-04-28 17:07:13 公開日:2021-04-27
# (参考訳) Bayesian Optimization(拡張バージョン)を用いたLLVM Clang/Polly Loop Optimization PragmasによるPolyBenchベンチマークの自動チューニング

Autotuning PolyBench Benchmarks with LLVM Clang/Polly Loop Optimization Pragmas Using Bayesian Optimization (extended version) ( http://arxiv.org/abs/2104.13242v1 )

ライセンス: CC BY 4.0
Xingfu Wu, Michael Kruse, Prasanna Balaprakash, Hal Finkel, Paul Hovland, Valerie Taylor, and Mary Hall(参考訳) 本稿では,ベイズ最適化を利用してパラメータ空間探索を行い,ベイズ最適化における4つの異なる教師付き学習手法を比較し,その有効性を評価する。 我々は最も複雑なPolyBenchベンチマークを6つ選択し、新たに開発されたLLVM Clang/Pollyループ最適化プラグマをベンチマークに適用して最適化する。 次に、自動チューニングフレームワークを使用して、pragmaパラメータを最適化し、パフォーマンスを向上させます。 実験の結果,我々の自動チューニング手法は,最大170,368の異なるパラメータ空間を効率的に探索するための200のコード評価において,2つの大きなデータセットに対して,ベンチマーク syr2k, 3mm, Heat-3d, lu, covariance の最小実行時間を提供するために,他のコンパイル手法よりも優れていた。 Floyd-Warshallベンチマークは、Pollyがヒューリスティックスを使用してベンチマークを最適化し、実行をはるかに遅くするため、自動チューニングの恩恵を受けなかったことが分かりました。 この問題に対処するため、パフォーマンスを改善するためのコンパイラオプションソリューションをいくつか提供します。 次に,Floyd-Warshallベンチマークの性能向上のために,単純なmctreeオートチューニングフレームワークを用いて,ユーザの知識なしにループ自動チューニングを行う。 また、ytopt自動チューニングフレームワークを拡張して、ディープラーニングアプリケーションをチューニングします。

In this paper, we develop a ytopt autotuning framework that leverages Bayesian optimization to explore the parameter space search and compare four different supervised learning methods within Bayesian optimization and evaluate their effectiveness. We select six of the most complex PolyBench benchmarks and apply the newly developed LLVM Clang/Polly loop optimization pragmas to the benchmarks to optimize them. We then use the autotuning framework to optimize the pragma parameters to improve their performance. The experimental results show that our autotuning approach outperforms the other compiling methods to provide the smallest execution time for the benchmarks syr2k, 3mm, heat-3d, lu, and covariance with two large datasets in 200 code evaluations for effectively searching the parameter spaces with up to 170,368 different configurations. We find that the Floyd-Warshall benchmark did not benefit from autotuning because Polly uses heuristics to optimize the benchmark to make it run much slower. To cope with this issue, we provide some compiler option solutions to improve the performance. Then we present loop autotuning without a user's knowledge using a simple mctree autotuning framework to further improve the performance of the Floyd-Warshall benchmark. We also extend the ytopt autotuning framework to tune a deep learning application.
翻訳日:2021-04-28 16:41:23 公開日:2021-04-27
# (参考訳) 時系列の早期分類は意味深い

Early Classification of Time Series is Meaningful ( http://arxiv.org/abs/2104.13257v1 )

ライセンス: CC BY 4.0
Youssef Achenchabe, Alexis Bondu, Antoine Cornu\'ejols, Vincent Lemaire(参考訳) 医療、交通、金融など幅広い分野の応用において、時系列の早期分類が重要であることから、多くのアプローチが提案されている。 しかし、最近arxivで保存されたプレプリントでは、時系列の初期の分類で20年近く行われたすべての研究は役に立たない、あるいは少なくとも強大な基盤を欠いたために不向きであると主張している。 本稿では,プレプリントの著者が提起した主な問題と誤解を詳細に解き,時系列の早期分類の適用分野をさらに拡大する方向を提案する。

Many approaches have been proposed for early classification of time series in light of its significance in a wide range of applications including healthcare, transportation and finance. However, recently a preprint saved on Arxiv claim that all research done for almost 20 years now on the Early Classification of Time Series is useless, or, at the very least, ill-oriented because severely lacking a strong ground. In this paper, we answer in detail the main issues and misunderstandings raised by the authors of the preprint, and propose directions to further expand the fields of application of early classification of time series.
翻訳日:2021-04-28 16:18:57 公開日:2021-04-27
# (参考訳) ニューラルネットワークにおけるクロスエントロピー最適化のためのデュアルプロセスモデル

A Dual Process Model for Optimizing Cross Entropy in Neural Networks ( http://arxiv.org/abs/2104.13277v1 )

ライセンス: CC BY 4.0
Stefan Jaeger(参考訳) クロスエントロピーの最小化は、ニューラルネットワークのトレーニングに広く用いられている方法である。 バックプロパゲーションに基づく多くのトレーニング手順では、クロスエントロピーを直接損失関数として使用する。 その代わり、この理論エッセイは、2つの過程を持つ双対過程モデルを調査し、1つの過程がクルバック・ライバーの発散を最小化し、その双対過程がシャノンのエントロピーを最小化する。 学習が互いに補完する2つの双対過程からなると仮定すると、モデルは損失関数が最小となる両方の過程の平衡状態を定義する。 提案モデルの利点は、最適学習率と運動量重みを導出して、バックプロパゲーションのためのネットワーク重みを更新できることである。 さらに、モデルは機械学習において重要な新しい概念として黄金比と複素数を導入する。

Minimizing cross-entropy is a widely used method for training artificial neural networks. Many training procedures based on backpropagation use cross-entropy directly as their loss function. Instead, this theoretical essay investigates a dual process model with two processes, in which one process minimizes the Kullback-Leibler divergence while its dual counterpart minimizes the Shannon entropy. Postulating that learning consists of two dual processes complementing each other, the model defines an equilibrium state for both processes in which the loss function assumes its minimum. An advantage of the proposed model is that it allows deriving the optimal learning rate and momentum weight to update network weights for backpropagation. Furthermore, the model introduces the golden ratio and complex numbers as important new concepts in machine learning.
翻訳日:2021-04-28 16:10:59 公開日:2021-04-27
# (参考訳) K-Meansによるビッグデータの異常検出のための孤立林の拡張

Extending Isolation Forest for Anomaly Detection in Big Data via K-Means ( http://arxiv.org/abs/2104.13190v1 )

ライセンス: CC BY 4.0
Md Tahmid Rahman Laskar, Jimmy Huang, Vladan Smetana, Chris Stewart, Kees Pouw, Aijun An, Stephen Chan, Lei Liu(参考訳) 産業情報技術(IT)のインフラは、しばしばサイバー攻撃に弱い。 産業環境におけるコンピュータシステムのセキュリティを確保するためには、悪意ある活動のために業界内のサイバー物理システム(例えばコンピュータネットワーク)を監視する効果的な侵入検知システムを構築する必要がある。 本稿では,サイバー攻撃からコンピュータネットワークを保護する侵入検知システムを構築することを目的とする。 具体的には,k-meansアルゴリズムとアイソレーションフォレストを組み合わせた,産業ビッグデータシナリオにおける異常検出のための教師なし機械学習手法を提案する。 我々は産業領域におけるビッグデータシナリオの侵入検知システムを構築することを目的としており、Apache Sparkフレームワークを使用してElasticsearchに格納された大規模ネットワークトラフィックデータ(約123万インスタンスのネットワークトラフィック)でトレーニングされたモデルを実装する。 さらに,本提案手法をライブストリーミングデータ上で評価し,産業設備におけるリアルタイム異常検出に活用できることを見出した。 さらに、大規模なデータセットでモデルをトレーニングしながら直面するさまざまな課題にも対処し、これらの問題がどのように解決されたかを明確に説明します。 実世界のネットワークトラフィックデータにおける異常検出のための様々なユースケースにおける経験的評価に基づいて,提案システムはビッグデータシナリオにおける異常検出に有効であることを示す。 最後に、提案したモデルをいくつかの学術データセットで評価し、他のモデルと比較し、他の最先端のアプローチと同等のパフォーマンスを提供することを示した。

Industrial Information Technology (IT) infrastructures are often vulnerable to cyberattacks. To ensure security to the computer systems in an industrial environment, it is required to build effective intrusion detection systems to monitor the cyber-physical systems (e.g., computer networks) in the industry for malicious activities. This paper aims to build such intrusion detection systems to protect the computer networks from cyberattacks. More specifically, we propose a novel unsupervised machine learning approach that combines the K-Means algorithm with the Isolation Forest for anomaly detection in industrial big data scenarios. Since our objective is to build the intrusion detection system for the big data scenario in the industrial domain, we utilize the Apache Spark framework to implement our proposed model which was trained in large network traffic data (about 123 million instances of network traffic) stored in Elasticsearch. Moreover, we evaluate our proposed model on the live streaming data and find that our proposed system can be used for real-time anomaly detection in the industrial setup. In addition, we address different challenges that we face while training our model on large datasets and explicitly describe how these issues were resolved. Based on our empirical evaluation in different use-cases for anomaly detection in real-world network traffic data, we observe that our proposed system is effective to detect anomalies in big data scenarios. Finally, we evaluate our proposed model on several academic datasets to compare with other models and find that it provides comparable performance with other state-of-the-art approaches.
翻訳日:2021-04-28 16:00:35 公開日:2021-04-27
# (参考訳) コンボリューション・ネットワークは完全接続の宝くじに勝っているのか?

Sifting out the features by pruning: Are convolutional networks the winning lottery ticket of fully connected ones? ( http://arxiv.org/abs/2104.13343v1 )

ライセンス: CC BY 4.0
Franco Pellegrini, Giulio Biroli(参考訳) プルーニング手法は、性能を損なうことなく、ニューラルネットワークのサイズを大幅に削減することができる。 場合によっては、隔離訓練されたサブネットワークが、密集したネットワークのテスト精度と一致したり、超えたりすることができる。 本稿では,このような宝くじに印字される帰納バイアスについて考察する。 視覚的タスクに着目し,単純な完全連結ネットワーク(FCN)の反復的等級プルーニングによるアーキテクチャ解析を行う。 残余ノード接続は入力空間において局所的であり、畳み込みネットワーク(CNN)に類似したパターンで構成されていることを示す。 刈り取られたサブネットワークを形成する上でのデータやタスクが果たす役割について検討する。 その結果,fcnsの当選抽選券にはcnnの重要な特徴が示されている。 cnnの設計において重要な機能を"手作り"に復元する、このようなネットワーク単純化手法は、新しい効率的なアーキテクチャインダクティブバイアスを発見するために、他のデータセットやタスクに興味深い応用を示唆している。

Pruning methods can considerably reduce the size of artificial neural networks without harming their performance. In some cases, they can even uncover sub-networks that, when trained in isolation, match or surpass the test accuracy of their dense counterparts. Here we study the inductive bias that pruning imprints in such "winning lottery tickets". Focusing on visual tasks, we analyze the architecture resulting from iterative magnitude pruning of a simple fully connected network (FCN). We show that the surviving node connectivity is local in input space, and organized in patterns reminiscent of the ones found in convolutional networks (CNN). We investigate the role played by data and tasks in shaping the pruned sub-networks. Our results show that the winning lottery tickets of FCNs display the key features of CNNs. The ability of such automatic network-simplifying procedure to recover the key features "hand-crafted" in the design of CNNs suggests interesting applications to other datasets and tasks, in order to discover new and efficient architectural inductive biases.
翻訳日:2021-04-28 15:35:39 公開日:2021-04-27
# (参考訳) frankによる抽象要約における事実性理解--事実性指標のベンチマーク

Understanding Factuality in Abstractive Summarization with FRANK: A Benchmark for Factuality Metrics ( http://arxiv.org/abs/2104.13346v1 )

ライセンス: CC BY 4.0
Artidoro Pagnoni, Vidhisha Balachandran, Yulia Tsvetkov(参考訳) 現代の要約モデルは、非常に流動的であるが、実際は信頼できない出力を生成する。 これにより、自動生成された要約の事実を測ろうとするメトリクスが急増した。 一般的なベンチマークがないため、これらのメトリクスを比較することはできない。 さらに、これらの手法はすべて事実を二元概念として扱い、異なるシステムによってなされる矛盾の種類について深い洞察を与えない。 これらの制約に対処するため,CNN/DMデータセットとXSumデータセットの要約システムから,実ミスのタイプを考案し,生成した要約の人間のアノテーションを収集する。 これらのアノテーションを用いて、様々な要約モデルとベンチマーク事実性指標の異なるカテゴリーの事実誤りの比率を同定し、人間の判断とそれらの特定の強みと弱みとの相関を示す。

Modern summarization models generate highly fluent but often factually unreliable outputs. This motivated a surge of metrics attempting to measure the factuality of automatically generated summaries. Due to the lack of common benchmarks, these metrics cannot be compared. Moreover, all these methods treat factuality as a binary concept and fail to provide deeper insights into the kinds of inconsistencies made by different systems. To address these limitations, we devise a typology of factual errors and use it to collect human annotations of generated summaries from state-of-the-art summarization systems for the CNN/DM and XSum datasets. Through these annotations, we identify the proportion of different categories of factual errors in various summarization models and benchmark factuality metrics, showing their correlation with human judgment as well as their specific strengths and weaknesses.
翻訳日:2021-04-28 15:15:15 公開日:2021-04-27
# (参考訳) GANインバージョンによる非教師なし3次元形状補完

Unsupervised 3D Shape Completion through GAN Inversion ( http://arxiv.org/abs/2104.13366v1 )

ライセンス: CC BY 4.0
Junzhe Zhang, Xinyi Chen, Zhongang Cai, Liang Pan, Haiyu Zhao, Shuai Yi, Chai Kiat Yeo, Bo Dai, Chen Change Loy(参考訳) 殆どの3次元形状完備化アプローチは部分完全形状対に大きく依存し、完全に教師された方法で学習する。 ドメイン内のデータに対する印象的なパフォーマンスにもかかわらず、他の形式の部分的な形状や実世界の部分的なスキャンに一般化すると、ドメインギャップによる不満足な結果がしばしば得られる。 本稿では, 従来の完全教師付きアプローチとは対照的に, 初めて形状完全化のための生成的逆ネットワーク (gan) を導入した shapeinversion を提案する。 ShapeInversionは、与えられた部分入力を最もよく再構成する完全な形状を与える潜在コードを探すことによって、完全な形状で事前訓練されたGANを使用する。 このように、shapeinversionはペアトレーニングデータを必要としないようになり、十分に訓練された生成モデルでキャプチャされたリッチな事前データを取り込むことができる。 shapenetベンチマークでは、shapeinversion は sota unsupervised メソッドよりも優れており、ペアデータを用いて学習される教師ありメソッドに匹敵する。 また、実世界のスキャンや様々な形の部分的な入力や不完全性レベルに対して頑健な結果を与える。 重要なことに、ShapeInversionは、不明瞭な部分入力のための複数の有効な完全形状を生成することや、形状操作や補間など、事前訓練されたGANの関与により、一連の追加機能を自然に実現している。

Most 3D shape completion approaches rely heavily on partial-complete shape pairs and learn in a fully supervised manner. Despite their impressive performances on in-domain data, when generalizing to partial shapes in other forms or real-world partial scans, they often obtain unsatisfactory results due to domain gaps. In contrast to previous fully supervised approaches, in this paper we present ShapeInversion, which introduces Generative Adversarial Network (GAN) inversion to shape completion for the first time. ShapeInversion uses a GAN pre-trained on complete shapes by searching for a latent code that gives a complete shape that best reconstructs the given partial input. In this way, ShapeInversion no longer needs paired training data, and is capable of incorporating the rich prior captured in a well-trained generative model. On the ShapeNet benchmark, the proposed ShapeInversion outperforms the SOTA unsupervised method, and is comparable with supervised methods that are learned using paired data. It also demonstrates remarkable generalization ability, giving robust results for real-world scans and partial inputs of various forms and incompleteness levels. Importantly, ShapeInversion naturally enables a series of additional abilities thanks to the involvement of a pre-trained GAN, such as producing multiple valid complete shapes for an ambiguous partial input, as well as shape manipulation and interpolation.
翻訳日:2021-04-28 14:56:54 公開日:2021-04-27
# (参考訳) BasicVSR++: プロパゲーションとアライメントを強化したビデオ超解法の改善

BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation and Alignment ( http://arxiv.org/abs/2104.13371v1 )

ライセンス: CC BY 4.0
Kelvin C.K. Chan, Shangchen Zhou, Xiangyu Xu, Chen Change Loy(参考訳) リカレント構造は、ビデオスーパーレゾリューションのタスクで一般的なフレームワーク選択である。 最先端の手法であるBasicVSRは、特徴アライメントを備えた双方向伝搬を採用し、入力ビデオ全体の情報を有効に活用する。 本研究では,2次格子伝播と流れ誘導変形性アライメントを提案することにより,ベーシックVSRを再設計する。 伝播とアライメントの強化により,再帰的枠組みの強化により,映像フレーム間の空間的情報をより効果的に活用できることを示す。 新しいコンポーネントは、同様の計算制約の下でパフォーマンスが向上する。 特に、我々のモデルであるBasicVSR++は、PSNRのパラメータ数に類似したベーシックVSRを0.82dB超える。 ビデオスーパーレゾリューションに加えて、BasicVSR++は圧縮されたビデオエンハンスメントのような他のビデオ復元タスクとよく似ている。 NTIRE 2021では、ベーシックVSR++が3つのチャンピオンを獲得し、ビデオスーパーリゾリューションと圧縮ビデオエンハンスメントチャレンジで1位を獲得した。 コードとモデルはMMEditingにリリースされる。

A recurrent structure is a popular framework choice for the task of video super-resolution. The state-of-the-art method BasicVSR adopts bidirectional propagation with feature alignment to effectively exploit information from the entire input video. In this study, we redesign BasicVSR by proposing second-order grid propagation and flow-guided deformable alignment. We show that by empowering the recurrent framework with the enhanced propagation and alignment, one can exploit spatiotemporal information across misaligned video frames more effectively. The new components lead to an improved performance under a similar computational constraint. In particular, our model BasicVSR++ surpasses BasicVSR by 0.82 dB in PSNR with similar number of parameters. In addition to video super-resolution, BasicVSR++ generalizes well to other video restoration tasks such as compressed video enhancement. In NTIRE 2021, BasicVSR++ obtains three champions and one runner-up in the Video Super-Resolution and Compressed Video Enhancement Challenges. Codes and models will be released to MMEditing.
翻訳日:2021-04-28 14:35:40 公開日:2021-04-27
# 予測区間構築のための深層学習の不確かさの探索

Exploring Uncertainty in Deep Learning for Construction of Prediction Intervals ( http://arxiv.org/abs/2104.12953v1 )

ライセンス: Link先を確認
Yuandu Lai, Yucheng Shi, Yahong Han, Yunfeng Shao, Meiyu Qi, Bingshuai Li(参考訳) ディープラーニングは近年、多くのタスクで素晴らしいパフォーマンスを達成しています。 しかし、深いニューラルネットワークがポイント推定のみを提供するのに十分ではないことが判明した。 高リスクタスクには,モデル予測の信頼性を評価する必要がある。 これにより、モデル予測の不確実性を定量化し、予測間隔を構築する必要がある。 本稿では,深層学習における不確実性を調べ,予測区間を構成する。 一般に,不確実性の2つのカテゴリを包括的に検討する。 不確実性ラベルなしで不確実性を学習できる特殊損失関数を設計した。 回帰タスクの学習を監督するだけです。 我々は損失関数を暗黙的に学習する。 そして、その疫学的不確実性はアンサンブル形式で説明される。 本手法は予測間隔の構成と不確実性推定とを関連付ける。 いくつかの公開データセットにおける印象的な結果から,本手法の性能は他の最先端手法と競合することを示す。

Deep learning has achieved impressive performance on many tasks in recent years. However, it has been found that it is still not enough for deep neural networks to provide only point estimates. For high-risk tasks, we need to assess the reliability of the model predictions. This requires us to quantify the uncertainty of model prediction and construct prediction intervals. In this paper, We explore the uncertainty in deep learning to construct the prediction intervals. In general, We comprehensively consider two categories of uncertainties: aleatory uncertainty and epistemic uncertainty. We design a special loss function, which enables us to learn uncertainty without uncertainty label. We only need to supervise the learning of regression task. We learn the aleatory uncertainty implicitly from the loss function. And that epistemic uncertainty is accounted for in ensembled form. Our method correlates the construction of prediction intervals with the uncertainty estimation. Impressive results on some publicly available datasets show that the performance of our method is competitive with other state-of-the-art methods.
翻訳日:2021-04-28 13:39:24 公開日:2021-04-27
# スタイルの説明: StyleSpaceで分類器を説明するためにGANを訓練する

Explaining in Style: Training a GAN to explain a classifier in StyleSpace ( http://arxiv.org/abs/2104.13369v1 )

ライセンス: Link先を確認
Oran Lang, Yossi Gandelsman, Michal Yarom, Yoav Wald, Gal Elidan, Avinatan Hassidim, William T. Freeman, Phillip Isola, Amir Globerson, Michal Irani, Inbar Mosseri(参考訳) 画像分類モデルは、画像の複数の異なる意味属性に依存することができる。 分類器の決定を説明するには、これらの特性を発見して視覚化する必要がある。 本稿では、生成モデルを訓練し、分類器の決定を下す複数の属性を具体的に説明する方法であるStylExを紹介する。 このような属性の自然な源はstyleganのスタイルスペースであり、イメージに意味的に意味のある次元を生成することが知られている。 しかし、標準のGANトレーニングは分類器に依存しないため、分類器の決定に重要なこれらの属性を表現せず、StyleSpaceの次元は無関係な属性を表現できる。 そこで本研究では,分類器固有のStyleSpaceを学習するために,分類器モデルを組み込んだStyleGANのトレーニング手順を提案する。 説明属性は、この空間から選択される。 これらは、画像ごとに複数の属性を変更する効果を可視化するために使用することができ、画像固有の説明を提供する。 我々はStylExを動物、葉、顔、網膜画像を含む複数の領域に適用する。 これらのことから,分類器の出力を変更するために,異なる方法で画像を変更する方法を示す。 提案手法は, 意味的特徴とよく一致し, 意味のある画像固有の説明が生成され, ユーザ・スタディで測定された人間の解釈が可能であることを示す。

Image classification models can depend on multiple different semantic attributes of the image. An explanation of the decision of the classifier needs to both discover and visualize these properties. Here we present StylEx, a method for doing this, by training a generative model to specifically explain multiple attributes that underlie classifier decisions. A natural source for such attributes is the StyleSpace of StyleGAN, which is known to generate semantically meaningful dimensions in the image. However, because standard GAN training is not dependent on the classifier, it may not represent these attributes which are important for the classifier decision, and the dimensions of StyleSpace may represent irrelevant attributes. To overcome this, we propose a training procedure for a StyleGAN, which incorporates the classifier model, in order to learn a classifier-specific StyleSpace. Explanatory attributes are then selected from this space. These can be used to visualize the effect of changing multiple attributes per image, thus providing image-specific explanations. We apply StylEx to multiple domains, including animals, leaves, faces and retinal images. For these, we show how an image can be modified in different ways to change its classifier output. Our results show that the method finds attributes that align well with semantic ones, generate meaningful image-specific explanations, and are human-interpretable as measured in user-studies.
翻訳日:2021-04-28 13:39:14 公開日:2021-04-27
# オントロジー集団のための関係グラフ畳み込みネットワークの文書構造認識

Document Structure aware Relational Graph Convolutional Networks for Ontology Population ( http://arxiv.org/abs/2104.12950v1 )

ライセンス: Link先を確認
Abhay M Shalghar, Ayush Kumar, Balaji Ganesan, Aswin Kannan, Shobha G(参考訳) 概念、属性、関係からなるオントロジーは、多くの知識ベースのaiシステムの基本的なバックボーンを形成する。 これらのシステムは、ビジネス分析およびマスターデータ管理アプリケーションの数における質問応答や対話の形で表される。 ドメイン特有なオントロジーの投入に向けた取り組みは行われてきたが、文書コーパスにおける概念間の存在論的関係を学ぶ際に文書構造が果たす役割について検討する。 ハイパニム発見と説明可能性から着想を得た本手法は, スタンドアロンのR-GCNモデルよりも15ポイント精度が高い。

Ontologies comprising of concepts, their attributes, and relationships, form the quintessential backbone of many knowledge based AI systems. These systems manifest in the form of question-answering or dialogue in number of business analytics and master data management applications. While there have been efforts towards populating domain specific ontologies, we examine the role of document structure in learning ontological relationships between concepts in any document corpus. Inspired by ideas from hypernym discovery and explainability, our method performs about 15 points more accurate than a stand-alone R-GCN model for this task.
翻訳日:2021-04-28 13:38:53 公開日:2021-04-27
# Few-Shotナレッジグラフ補完のためのGated and Attentive Neighbor Aggregatorを用いた関係学習

Relational Learning with Gated and Attentive Neighbor Aggregator for Few-Shot Knowledge Graph Completion ( http://arxiv.org/abs/2104.13095v1 )

ライセンス: Link先を確認
Guanglin Niu, Yang Li, Chengguang Tang, Ruiying Geng, Jian Dai, Qiao Liu, Hao Wang, Jian Sun, Fei Huang, Luo Si(参考訳) 知識グラフ(KGs)における少数ショット関係のカバレッジの拡大を目指して、FKGCは近年、より多くの研究関心を集めている。 既存のモデルでは、数ショット関係のマルチホップ隣接情報を用いて意味表現を強化している。 しかし、ノイズ隣接情報は、近隣が過度にスパースであり、少数ショットの関係を表す隣人がいない場合に増幅される可能性がある。 さらに、前回の知識グラフ補完アプローチによるone-to-many (1-n), many-to-one (n-1), many-to-many (n-n)の複雑な関係のモデリングと推論には、高いモデルの複雑さと大量のトレーニングインスタンスが必要である。 したがって、FKGCモデルでは、限られた訓練インスタンスのため、数ショットシナリオで複雑な関係を推測することは困難である。 本稿では,これらの課題に対処するために,グローバルローカルフレームワークを用いた数ショットのリレーショナル学習を提案する。 グローバルな段階では,KG が極端に疎い近傍を含む場合でも,近辺の雑音をフィルタリングするのに有効な,数ショット関係の近傍のセマンティクスを正確に統合する新規な係留隣人アグリゲータが構築されている。 局所的な段階では,メタラーニングに基づくTransH(MTransH)法は複雑な関係をモデル化し,数ショットの学習方式でモデルを訓練するように設計されている。 NELL-One と Wiki-One が頻繁に使用されるベンチマークデータセットに対して,我々のモデルは最先端の FKGC アプローチよりも優れていることを示す。 強力なベースラインモデルであるMetaRと比較して,NELL-Oneでは8.0%,Wiki-Oneでは2.8%の5ショットFKGC性能向上を実現している。

Aiming at expanding few-shot relations' coverage in knowledge graphs (KGs), few-shot knowledge graph completion (FKGC) has recently gained more research interests. Some existing models employ a few-shot relation's multi-hop neighbor information to enhance its semantic representation. However, noise neighbor information might be amplified when the neighborhood is excessively sparse and no neighbor is available to represent the few-shot relation. Moreover, modeling and inferring complex relations of one-to-many (1-N), many-to-one (N-1), and many-to-many (N-N) by previous knowledge graph completion approaches requires high model complexity and a large amount of training instances. Thus, inferring complex relations in the few-shot scenario is difficult for FKGC models due to limited training instances. In this paper, we propose a few-shot relational learning with global-local framework to address the above issues. At the global stage, a novel gated and attentive neighbor aggregator is built for accurately integrating the semantics of a few-shot relation's neighborhood, which helps filtering the noise neighbors even if a KG contains extremely sparse neighborhoods. For the local stage, a meta-learning based TransH (MTransH) method is designed to model complex relations and train our model in a few-shot learning fashion. Extensive experiments show that our model outperforms the state-of-the-art FKGC approaches on the frequently-used benchmark datasets NELL-One and Wiki-One. Compared with the strong baseline model MetaR, our model achieves 5-shot FKGC performance improvements of 8.0% on NELL-One and 2.8% on Wiki-One by the metric Hits@10.
翻訳日:2021-04-28 13:38:44 公開日:2021-04-27
# 交通予測のためのグラフニューラルネットワーク

Graph Neural Networks for Traffic Forecasting ( http://arxiv.org/abs/2104.13096v1 )

ライセンス: Link先を確認
Jo\~ao Rico, Jos\'e Barateiro, Arlindo Oliveira(参考訳) 世界人口と都市化の著しい増加は、特に都市移動の持続可能性、維持、計画に関していくつかの重要な課題をもたらした。 同時に、コンピューティング能力と利用可能なセンサーと位置情報の指数的な増加は、これらの課題に対する革新的な解決策の可能性を秘めている。 本研究では,この問題に対するグラフニューラルネットワーク(GNN)の最近の開発と応用について,交通予測の課題に焦点をあてる。 GNNは、入力を直接グラフデータとして処理する深層学習手法のクラスである。 これにより、トラフィックデータの空間的依存関係をより直接的に活用し、最先端の結果を生成するディープラーニングの利点を活用することができる。 我々は,gnnの最も一般的な変種を含む新しいトピックを紹介し,そのトラフィック予測への応用に焦点をあててレビューする。 トラヒック予測を(時間)グラフとしてモデル化する方法や,グラフと時間的学習コンポーネントを組み合わせたアプローチ,現在の制限や研究機会など,さまざまなアプローチについて論じる。

The significant increase in world population and urbanisation has brought several important challenges, in particular regarding the sustainability, maintenance and planning of urban mobility. At the same time, the exponential increase of computing capability and of available sensor and location data have offered the potential for innovative solutions to these challenges. In this work, we focus on the challenge of traffic forecasting and review the recent development and application of graph neural networks (GNN) to this problem. GNNs are a class of deep learning methods that directly process the input as graph data. This leverages more directly the spatial dependencies of traffic data and makes use of the advantages of deep learning producing state-of-the-art results. We introduce and review the emerging topic of GNNs, including their most common variants, with a focus on its application to traffic forecasting. We address the different ways of modelling traffic forecasting as a (temporal) graph, the different approaches developed so far to combine the graph and temporal learning components, as well as current limitations and research opportunities.
翻訳日:2021-04-28 13:38:11 公開日:2021-04-27
# ソーシャルAI0.1: 深層強化学習エージェントにおける社会認知能力研究のベンチマーク

SocialAI 0.1: Towards a Benchmark to Stimulate Research on Socio-Cognitive Abilities in Deep Reinforcement Learning Agents ( http://arxiv.org/abs/2104.13207v1 )

ライセンス: Link先を確認
Grgur Kova\v{c}, R\'emy Portelas, Katja Hofmann, Pierre-Yves Oudeyer(参考訳) 人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。 この問題は、具体的言語の使用に関する多くの研究の方向性を動機づけた。 現在のアプローチでは、非常にシンプルで多様な社会的状況におけるコミュニケーションツールとしての言語に焦点が当てられている: 言語の「自然性」は、高い語彙サイズと可変性の概念に還元される。 本稿では,人間レベルのAIを目指すためには,1)複雑で可変な社会的文脈における言語の使用,2)常に進化する社会世界におけるマルチモーダル環境における複雑な具体的コミュニケーションなど,より広範な社会スキルのセットが必要であることを論じる。 この研究では、認知科学の概念が、AIが人間のような知性に向けてロードマップを描き出すのにどう役立つかを説明します。 次に,最近のsoma deep rlアプローチの限界を,今後のsocialaiからの最初のグリッドワールド環境でテストし,ディープrlエージェントの社会的スキルを評価するベンチマークを行った。 ビデオとコードはhttps://sites.google.com/view/socialai01で入手できる。

Building embodied autonomous agents capable of participating in social interactions with humans is one of the main challenges in AI. This problem motivated many research directions on embodied language use. Current approaches focus on language as a communication tool in very simplified and non diverse social situations: the "naturalness" of language is reduced to the concept of high vocabulary size and variability. In this paper, we argue that aiming towards human-level AI requires a broader set of key social skills: 1) language use in complex and variable social contexts; 2) beyond language, complex embodied communication in multimodal settings within constantly evolving social worlds. In this work we explain how concepts from cognitive sciences could help AI to draw a roadmap towards human-like intelligence, with a focus on its social dimensions. We then study the limits of a recent SOTA Deep RL approach when tested on a first grid-world environment from the upcoming SocialAI, a benchmark to assess the social skills of Deep RL agents. Videos and code are available at https://sites.google.com/view/socialai01 .
翻訳日:2021-04-28 13:37:55 公開日:2021-04-27
# エビデンス重みに基づく人間中心の解釈可能性フレームワーク

A Human-Centered Interpretability Framework Based on Weight of Evidence ( http://arxiv.org/abs/2104.13299v1 )

ライセンス: Link先を確認
David Alvarez-Melis, Harmanpreet Kaur, Hal Daum\'e III, Hanna Wallach, Jennifer Wortman Vaughan(参考訳) 本稿では,人間中心のアプローチで機械学習を解釈する。 まず、哲学、認知科学、社会科学における説明研究からインスピレーションを得て、人間にとって意味のある機械生成説明のための設計原則の一覧を提案する。 情報理論からエビデンスを重み付けする概念を用いて,これらの原理に従う説明書を作成する方法を開発した。 本手法は,高次元マルチクラス設定に適応でき,説明を生成できる柔軟なメタアゴリテームが得られることを示す。 これらの説明は有限サンプルから正確に推定でき、入力の小さな摂動に対して頑健であることを示す。 また,機械学習実践者との質的ユーザスタディを通じて評価を行い,事前クラス確率などの背景概念に苦慮する参加者がいたにもかかわらず,その説明が有効であることを観察した。 最後に,解釈可能性ツールの設計上の意味について述べる。

In this paper, we take a human-centered approach to interpretable machine learning. First, drawing inspiration from the study of explanation in philosophy, cognitive science, and the social sciences, we propose a list of design principles for machine-generated explanations that are meaningful to humans. Using the concept of weight of evidence from information theory, we develop a method for producing explanations that adhere to these principles. We show that this method can be adapted to handle high-dimensional, multi-class settings, yielding a flexible meta-algorithm for generating explanations. We demonstrate that these explanations can be estimated accurately from finite samples and are robust to small perturbations of the inputs. We also evaluate our method through a qualitative user study with machine learning practitioners, where we observe that the resulting explanations are usable despite some participants struggling with background concepts like prior class probabilities. Finally, we conclude by surfacing design implications for interpretability tools
翻訳日:2021-04-28 13:37:36 公開日:2021-04-27
# メタ強化学習のための適応的対人訓練

Adaptive Adversarial Training for Meta Reinforcement Learning ( http://arxiv.org/abs/2104.13302v1 )

ライセンス: Link先を確認
Shiqi Chen, Zhengyu Chen, Donglin Wang(参考訳) メタ強化学習(mrl)により、エージェントは限られた数の過去の軌跡から学び、新しいタスクに外挿することができる。 本稿ではMRLのロバスト性を改善することを試みる。 本稿では,モデルに依存しないメタラーニング(MAML)を構築し,GAN(Generative Adversarial Network)を用いてMRLの逆サンプルを生成する新しい手法を提案する。 これにより,メタトレーニングプロセスにおいて,これらの攻撃を活用することで,MRLの攻撃に対する堅牢性を高めることができる。

Meta Reinforcement Learning (MRL) enables an agent to learn from a limited number of past trajectories and extrapolate to a new task. In this paper, we attempt to improve the robustness of MRL. We build upon model-agnostic meta-learning (MAML) and propose a novel method to generate adversarial samples for MRL by using Generative Adversarial Network (GAN). That allows us to enhance the robustness of MRL to adversal attacks by leveraging these attacks during meta training process.
翻訳日:2021-04-28 13:37:22 公開日:2021-04-27
# 自己学習による複雑な分布シフトへのイメージネットスケールモデルの適用

Adapting ImageNet-scale models to complex distribution shifts with self-learning ( http://arxiv.org/abs/2104.12928v1 )

ライセンス: Link先を確認
Evgenia Rusak, Steffen Schneider, Peter Gehler, Oliver Bringmann, Wieland Brendel and Matthias Bethge(参考訳) 近年のドメイン適応技術では,自己学習が重要な要素となっているが,堅牢性研究に共通するイメージネットスケールデータセットでは,まだ包括的に評価されていない。 ResNetとEfficientNetモデルに関する広範な実験では,教師と学生のネットワーク間の短い更新時間,ネットワークに分散する少数のアフィンパラメータの微調整,ロバストな分類からの手法を活用したラベルノイズ対策の3つのコンポーネントが,自己学習によるパフォーマンス向上に不可欠であることが判明した。 これらの知見を用いて、ImageNet-C (22.0% mCE)、ImageNet-R (17.4%エラー)、ImageNet-A (14.8%エラー)の大幅な改善結果を得る。 提案手法は, 提案するロバスト化手法と組み合わせることで, さらなる改善をもたらす。 自己学習は、トップ1エラーを、それ以上の進歩が期待できないポイントまで減らすことができる。 そこで私たちは、Visual Domain Adaptation Challenge 2019からデータセットを再使用し、そのサブセットを新しい堅牢性ベンチマーク(ImageNet-D)として使用しています。

While self-learning methods are an important component in many recent domain adaptation techniques, they are not yet comprehensively evaluated on ImageNet-scale datasets common in robustness research. In extensive experiments on ResNet and EfficientNet models, we find that three components are crucial for increasing performance with self-learning: (i) using short update times between the teacher and the student network, (ii) fine-tuning only few affine parameters distributed across the network, and (iii) leveraging methods from robust classification to counteract the effect of label noise. We use these insights to obtain drastically improved state-of-the-art results on ImageNet-C (22.0% mCE), ImageNet-R (17.4% error) and ImageNet-A (14.8% error). Our techniques yield further improvements in combination with previously proposed robustification methods. Self-learning is able to reduce the top-1 error to a point where no substantial further progress can be expected. We therefore re-purpose the dataset from the Visual Domain Adaptation Challenge 2019 and use a subset of it as a new robustness benchmark (ImageNet-D) which proves to be a more challenging dataset for all current state-of-the-art models (58.2% error) to guide future research efforts at the intersection of robustness and domain adaptation on ImageNet scale.
翻訳日:2021-04-28 13:37:14 公開日:2021-04-27
# 超スペクトル画像データのための半教師付きスーパーピクセルベース多機能グラフ学習

Semi-supervised Superpixel-based Multi-Feature Graph Learning for Hyperspectral Image Data ( http://arxiv.org/abs/2104.13268v1 )

ライセンス: Link先を確認
Madeleine Kotzagiannidis, Carola-Bibiane Sch\"onlieb(参考訳) グラフは自然にハイパースペクトル画像(HSI)データの複雑さをモデル化し、近隣のラベルを伝播することで半教師付き分類器として機能する。 本稿では,多視点グラフ学習とグラフ信号処理に触発された,非常に限られた量のラベル付きデータに照らして,hsiデータの分類のための新しい枠組みを提案する。 従来の超画素分割ハイパースペクトル画像から,半教師付き学習(SSL)を行うための頑健で効率的なグラフ構築とラベル伝搬手法を提案する。 このグラフは,hsiデータの本質的複雑性を考慮し,その後の分類タスクの成功を最重要視するので,それらのデータをモデル化するための最適なグラフを求める問題を考える。 まず、グラフ構築に埋め込まれた擬似ラベル機能を通じて、与えられたラベル情報を利用するHSIデータのための多段階エッジ効率半教師付きグラフ学習フレームワークを提案する。 次に,先行フレームワークの拡張における擬似ラベルに基づいて,グラフに埋め込まれた複数のスーパーピクセルの特徴の寄与を検証し,拡張する。 最終的に,広範な数値実験により,最先端手法と比較し,提案手法の優位性を実証する。

Graphs naturally lend themselves to model the complexities of Hyperspectral Image (HSI) data as well as to serve as semi-supervised classifiers by propagating given labels among nearest neighbours. In this work, we present a novel framework for the classification of HSI data in light of a very limited amount of labelled data, inspired by multi-view graph learning and graph signal processing. Given an a priori superpixel-segmented hyperspectral image, we seek a robust and efficient graph construction and label propagation method to conduct semi-supervised learning (SSL). Since the graph is paramount to the success of the subsequent classification task, particularly in light of the intrinsic complexity of HSI data, we consider the problem of finding the optimal graph to model such data. Our contribution is two-fold: firstly, we propose a multi-stage edge-efficient semi-supervised graph learning framework for HSI data which exploits given label information through pseudo-label features embedded in the graph construction. Secondly, we examine and enhance the contribution of multiple superpixel features embedded in the graph on the basis of pseudo-labels in an extension of the previous framework, which is less reliant on excessive parameter tuning. Ultimately, we demonstrate the superiority of our approaches in comparison with state-of-the-art methods through extensive numerical experiments.
翻訳日:2021-04-28 13:36:44 公開日:2021-04-27
# 強化学習のためのスケーラブルで再現可能なシステムオンチップシミュレーション

A Scalable and Reproducible System-on-Chip Simulation for Reinforcement Learning ( http://arxiv.org/abs/2104.13187v1 )

ライセンス: Link先を確認
Tegg Taekyong Sung, Bo Ryu(参考訳) 深層強化学習(drl)はシミュレーション環境で基礎を成し、目標を最適化する。 従来のインタラクション方式を拡張して,高忠実度Domain-Specific System-on-Chip (DSSoC) アプリケーションに適した,スケーラブルで再現可能なオープン環境である gym-ds3 を提案する。 シミュレーションは階層的ジョブをヘテロジニアスなsystem-on-chip (soc)プロセッサにスケジュールし、システムを強化学習研究に橋渡しする。 代表的なsocシミュレータを体系的に解析し,(1)高速噴射速度で無期限ジョブを連続的に生成し,(2)複雑な目的を最適化し,(3)定常スケジューリングで運用する主な課題について考察する。 本稿では,標準的なDS3フレームワークと実世界の組込みシステムから得られた成果を再現した,スケジューラのランタイム性能を実験的に実証する。

Deep Reinforcement Learning (DRL) underlies in a simulated environment and optimizes objective goals. By extending the conventional interaction scheme, this paper proffers gym-ds3, a scalable and reproducible open environment tailored for a high-fidelity Domain-Specific System-on-Chip (DSSoC) application. The simulation corroborates to schedule hierarchical jobs onto heterogeneous System-on-Chip (SoC) processors and bridges the system to reinforcement learning research. We systematically analyze the representative SoC simulator and discuss the primary challenging aspects that the system (1) continuously generates indefinite jobs at a rapid injection rate, (2) optimizes complex objectives, and (3) operates in steady-state scheduling. We provide exemplary snippets and experimentally demonstrate the run-time performances on different schedulers that successfully mimic results achieved from the standard DS3 framework and real-world embedded systems.
翻訳日:2021-04-28 13:36:07 公開日:2021-04-27
# NISQ時代の射影シミュレーションによるベル状態とGHZ状態の量子回路合成

Quantum circuit synthesis of Bell and GHZ states using projective simulation in the NISQ era ( http://arxiv.org/abs/2104.13297v1 )

ライセンス: Link先を確認
O. M. Pires, E. I. Duzzioni, J. Marchi, R. Santiago(参考訳) 量子コンピューティングはここ数年進化を続けている。 近年、量子アルゴリズムの性能は古典的手法よりも優れているが、誤り耐性ルーチンに必要な量子デコヒーレンスと追加補助量子ビットは、量子アルゴリズムの効率的な使用において大きな障壁となっている。 これらの制限により、アルゴリズムコストを最小化する方法、すなわち量子論理ゲートの数と回路の深さを探索することができる。 そこで,量子回路合成と量子回路最適化技術について検討した。 量子ビット数に制限のある雑音量子コンピュータの量子回路合成問題に取り組むために,強化学習手法である投影シミュレーションの有効性について検討した。 エージェントは、IBM Tenerife(IBM QX4)量子プロセッサでGHZ状態を生成するために最大5キュービットの量子回路を作成するタスクを持っていた。 シミュレーションの結果, エージェントの性能は良好であったが, 量子ビット数の増加に伴い新しい回路の学習能力は低下した。

Quantum Computing has been evolving in the last years. Although nowadays quantum algorithms performance has shown superior to their classical counterparts, quantum decoherence and additional auxiliary qubits needed for error tolerance routines have been huge barriers for quantum algorithms efficient use. These restrictions lead us to search for ways to minimize algorithms costs, i.e the number of quantum logical gates and the depth of the circuit. For this, quantum circuit synthesis and quantum circuit optimization techniques are explored. We studied the viability of using Projective Simulation, a reinforcement learning technique, to tackle the problem of quantum circuit synthesis for noise quantum computers with limited number of qubits. The agent had the task of creating quantum circuits up to 5 qubits to generate GHZ states in the IBM Tenerife (IBM QX4) quantum processor. Our simulations demonstrated that the agent had a good performance but its capacity for learning new circuits decreased as the number of qubits increased.
翻訳日:2021-04-28 13:35:16 公開日:2021-04-27
# 対数凸関数最小化のための確率ニュートン法に対する判別ベイズフィルタLends Momentum

Discriminative Bayesian Filtering Lends Momentum to the Stochastic Newton Method for Minimizing Log-Convex Functions ( http://arxiv.org/abs/2104.12949v1 )

ライセンス: Link先を確認
Michael C. Burkhart(参考訳) 対数凸関数の集合の平均を最小化するために、確率ニュートン法は、全対象の勾配とヘッセンのサブサンプル版を用いて、その推定を反復的に更新する。 我々は,この最適化問題を潜在状態空間モデル上での逐次ベイズ推定として文脈化し,識別的に特定した観察過程を提案する。 ベイズフィルタを適用すると、更新を生成する際の勾配とヘッセンの歴史全体を考える新しい最適化アルゴリズムが得られる。 我々は,ポリアクの重球運動量に類似した方法で,古い観測結果の影響が時間とともに減少する行列に基づく条件を確立する。 提案手法の様々な側面を例で紹介し,確率的ニュートン法に関する他の関連イノベーションを概観する。

To minimize the average of a set of log-convex functions, the stochastic Newton method iteratively updates its estimate using subsampled versions of the full objective's gradient and Hessian. We contextualize this optimization problem as sequential Bayesian inference on a latent state-space model with a discriminatively-specified observation process. Applying Bayesian filtering then yields a novel optimization algorithm that considers the entire history of gradients and Hessians when forming an update. We establish matrix-based conditions under which the effect of older observations diminishes over time, in a manner analogous to Polyak's heavy ball momentum. We illustrate various aspects of our approach with an example and review other relevant innovations for the stochastic Newton method.
翻訳日:2021-04-28 13:34:59 公開日:2021-04-27
# 非測定共振器の簡易かつシャープ感度解析

Simple yet Sharp Sensitivity Analysis for Unmeasured Confounding ( http://arxiv.org/abs/2104.13020v1 )

ライセンス: Link先を確認
Jose M. Pe\~na(参考訳) そこで本研究では,真因果効果のコンファウンディングに対する感度を評価する手法を提案する。 この方法は、分析者が2つの直感的なパラメータを指定する必要がある。 そうでなければ、この方法は仮定なしである。 このメソッドは、真の因果効果を含むインターバルを返す。 さらに、間隔の境界はシャープ、すなわちシャープである。 達成できる 我々は, ding と vanderweele (2016) によって得られた境界よりも研削性が高いことを実験的に示す。 最後に, 被測定メディエータと非測定露光コンバウンディングが存在する場合に, 自然な直接的および間接的効果を拘束するように拡張する。

We present a method for assessing the sensitivity of the true causal effect to unmeasured confounding. The method requires the analyst to specify two intuitive parameters. Otherwise, the method is assumption-free. The method returns an interval that contains the true causal effect. Moreover, the bounds of the interval are sharp, i.e. attainable. We show experimentally that our bounds can be sharper than those obtained by the method of Ding and VanderWeele (2016). Finally, we extend our method to bound the natural direct and indirect effects when there are measured mediators and unmeasured exposure-outcome confounding.
翻訳日:2021-04-28 13:34:47 公開日:2021-04-27
# Hessian Screening Rule

The Hessian Screening Rule ( http://arxiv.org/abs/2104.13026v1 )

ライセンス: Link先を確認
Johan Larsson, Jonas Wallin(参考訳) モデルに適合する前に予測器を設計マトリックスから破棄する予測器スクリーニングルールは、lassoのような規則化された回帰問題である$\ell_1$-regularized regression problemを解決できる速度にかなりの影響を与えている。 しかし、現在の最先端のスクリーニングルールは、非常に相関性の高い予測器を扱うのが困難であり、しばしば保守的すぎる。 本稿では,この問題に対処するための新しいスクリーニングルールであるヘッセンスクリーニングルールを提案する。 このルールは、より正確なスクリーニングと高品質なウォームスタートを提供するために、モデルからの2階情報を使用する。 我々は,$\ell_1$-regularized least-squares (the lasso) とロジスティックレグレッション (logistic regression) の実験において,この規則が,我々が研究している実データセットの大部分と同様に,高い相関性を持つシミュレーション実験において,他の全ての代替案よりも優れていることを示す。

Predictor screening rules, which discard predictors from the design matrix before fitting a model, have had sizable impacts on the speed with which $\ell_1$-regularized regression problems, such as the lasso, can be solved. Current state-of-the-art screening rules, however, have difficulties in dealing with highly-correlated predictors, often becoming too conservative. In this paper, we present a new screening rule to deal with this issue: the Hessian Screening Rule. The rule uses second-order information from the model in order to provide more accurate screening as well as higher-quality warm starts. In our experiments on $\ell_1$-regularized least-squares (the lasso) and logistic regression, we show that the rule outperforms all other alternatives in simulated experiments with high correlation, as well as in the majority of real datasets that we study.
翻訳日:2021-04-28 13:34:37 公開日:2021-04-27
# 分散低減min-max最適化を用いた高速分布ロバスト学習

Fast Distributionally Robust Learning with Variance Reduced Min-Max Optimization ( http://arxiv.org/abs/2104.13326v1 )

ライセンス: Link先を確認
Yaodong Yu, Tianyi Lin, Eric Mazumdar, Michael I. Jordan(参考訳) 分散的ロバストな教師付き学習(drsl)は、現実のアプリケーションのための信頼性の高い機械学習システムを構築するための重要なパラダイムとして登場しています。 Wasserstein DRSL - Wasserstein距離での摂動に対する堅牢性に基づく最も一般的なDRSLフレームワークの1つである。既存のアルゴリズムでは、複雑なサブプロブレムの解決や確率勾配の活用に失敗し、大規模な機械学習問題での使用を制限する。 Wevisit Wasserstein DRSL through the lens of min-max optimization and derive to scalable and efficient implementationable stochastic extra-gradient algorithm that proprovible achieved faster convergence rate than existing approach。 既存のdrsl手法と比較して,合成データおよび実データに対する有効性を示す。 この結果の鍵となるのは,確率的min-max最適化を加速するために分散低減とランダム再シャッフルを用いることである。

Distributionally robust supervised learning (DRSL) is emerging as a key paradigm for building reliable machine learning systems for real-world applications -- reflecting the need for classifiers and predictive models that are robust to the distribution shifts that arise from phenomena such as selection bias or nonstationarity. Existing algorithms for solving Wasserstein DRSL -- one of the most popular DRSL frameworks based around robustness to perturbations in the Wasserstein distance -- involve solving complex subproblems or fail to make use of stochastic gradients, limiting their use in large-scale machine learning problems. We revisit Wasserstein DRSL through the lens of min-max optimization and derive scalable and efficiently implementable stochastic extra-gradient algorithms which provably achieve faster convergence rates than existing approaches. We demonstrate their effectiveness on synthetic and real data when compared to existing DRSL approaches. Key to our results is the use of variance reduction and random reshuffling to accelerate stochastic min-max optimization, the analysis of which may be of independent interest.
翻訳日:2021-04-28 13:34:17 公開日:2021-04-27
# 多視点ディープワンクラス分類:システム探索

Multi-view Deep One-class Classification: A Systematic Exploration ( http://arxiv.org/abs/2104.13000v1 )

ライセンス: Link先を確認
Siqi Wang, Jiyuan Liu, Guang Yu, Xinwang Liu, Sihang Zhou, En Zhu, Yuexiang Yang, Jianping Yin(参考訳) 1つの正のクラスをモデル化し、負のクラスと区別するワンクラス分類(OCC)は、異常検出のような領域への重要な応用において長年の話題となっている。 現代社会では、複数の情報源が生み出す膨大な高次元複雑なデータを扱うことが多いため、多視点深層学習の観点からOCCを考えるのは当然である。 しかし、文献からは議論されておらず、未定の話題である。 この空白に動機づけられて、本論文は4次元の貢献をする: まず、我々の最善の知識に対して、これはマルチビューの深いocc問題を形式的に特定し、定式化する最初の作品である。 第2に,近年の関連分野の進歩を考慮し,多視点深層occの11種類のベースラインソリューションを体系的に考案し,多視点深層occ研究の基礎を築いた。 第3に、限定ベンチマークデータセットがマルチビュー深層occで利用できるという問題を解決するため、既存の公開データを広範囲に収集し、複数の手段で30以上の新しいマルチビューベンチマークデータセットに処理することで、マルチビュー深層occの公開評価プラットフォームを提供する。 最後に、ベンチマークデータセット上で考案されたソリューションを総合的に評価することにより、設計したベースラインの有効性を徹底的に分析し、多視点深度OCCに対する有益なガイダンスと洞察を他の研究者に提供することを期待する。 我々のデータとコードは、将来の研究を促進するために、https://github.com/liujiyuan13/MvDOCC-datasetsとhttps://github.com/liujiyuan13/MvDOCC-codeで公開されています。

One-class classification (OCC), which models one single positive class and distinguishes it from the negative class, has been a long-standing topic with pivotal application to realms like anomaly detection. As modern society often deals with massive high-dimensional complex data spawned by multiple sources, it is natural to consider OCC from the perspective of multi-view deep learning. However, it has not been discussed by the literature and remains an unexplored topic. Motivated by this blank, this paper makes four-fold contributions: First, to our best knowledge, this is the first work that formally identifies and formulates the multi-view deep OCC problem. Second, we take recent advances in relevant areas into account and systematically devise eleven different baseline solutions for multi-view deep OCC, which lays the foundation for research on multi-view deep OCC. Third, to remedy the problem that limited benchmark datasets are available for multi-view deep OCC, we extensively collect existing public data and process them into more than 30 new multi-view benchmark datasets via multiple means, so as to provide a publicly available evaluation platform for multi-view deep OCC. Finally, by comprehensively evaluating the devised solutions on benchmark datasets, we conduct a thorough analysis on the effectiveness of the designed baselines, and hopefully provide other researchers with beneficial guidance and insight to multi-view deep OCC. Our data and codes are opened at https://github.com/liujiyuan13/MvDOCC-datasets and https://github.com/liujiyuan13/MvDOCC-code respectively to facilitate future research.
翻訳日:2021-04-28 13:33:58 公開日:2021-04-27
# 生成逆ネットワークを用いたエンドツーエンドビデオ音声合成

End-to-End Video-To-Speech Synthesis using Generative Adversarial Networks ( http://arxiv.org/abs/2104.13332v1 )

ライセンス: Link先を確認
Rodrigo Mira, Konstantinos Vougioukas, Pingchuan Ma, Stavros Petridis, Bj\"orn W. Schuller, Maja Pantic(参考訳) video-to-speechは、音声発話のビデオから音声音声を再構築するプロセスである。 この課題に対する従来のアプローチは、ビデオから中間表現を推測する2段階のプロセスに依存しており、ボイコーダや波形再構成アルゴリズムを用いて波形音声に復号される。 本研究では、中間表現や別個の波形合成アルゴリズムを使わずに、音声映像から波形への変換を行うGAN(Generative Adversarial Networks)に基づく、新しいエンドツーエンドビデオ音声合成モデルを提案する。 本モデルは,生映像を入力として入力し,音声を生成するエンコーダ・デコーダアーキテクチャからなり,波形批判者およびパワー批判者に供給される。 これら2つの批判に基づく敵対的損失を用いることで、生音声波形を直接合成し、その現実性を確保することができる。 さらに,この3つの比較損失は,生成された音声と入力映像との直接対応を確立する上で有用である。 本モデルでは,グリッドなどの制約付きデータセットに対して有意なリアリズムを持つ音声を再構成することが可能であり,lrw (lip reading in the wild) に完全「野生」で録音された数百人の話者を特徴とする,エンドツーエンドの音声を生成できる最初のモデルであることを示す。 人工音声の質と知性を測定する4つの客観的指標を用いて,生成したサンプルを2つの異なるシナリオで評価した。 提案手法は,GRID と LRW のほとんどの指標において,従来の手法よりも優れていることを示す。

Video-to-speech is the process of reconstructing the audio speech from a video of a spoken utterance. Previous approaches to this task have relied on a two-step process where an intermediate representation is inferred from the video, and is then decoded into waveform audio using a vocoder or a waveform reconstruction algorithm. In this work, we propose a new end-to-end video-to-speech model based on Generative Adversarial Networks (GANs) which translates spoken video to waveform end-to-end without using any intermediate representation or separate waveform synthesis algorithm. Our model consists of an encoder-decoder architecture that receives raw video as input and generates speech, which is then fed to a waveform critic and a power critic. The use of an adversarial loss based on these two critics enables the direct synthesis of raw audio waveform and ensures its realism. In addition, the use of our three comparative losses helps establish direct correspondence between the generated audio and the input video. We show that this model is able to reconstruct speech with remarkable realism for constrained datasets such as GRID, and that it is the first end-to-end model to produce intelligible speech for LRW (Lip Reading in the Wild), featuring hundreds of speakers recorded entirely `in the wild'. We evaluate the generated samples in two different scenarios -- seen and unseen speakers -- using four objective metrics which measure the quality and intelligibility of artificial speech. We demonstrate that the proposed approach outperforms all previous works in most metrics on GRID and LRW.
翻訳日:2021-04-28 13:33:27 公開日:2021-04-27
# Fact-Checkingのための抽出的・抽象的説明とニュースの評価

Extractive and Abstractive Explanations for Fact-Checking and Evaluation of News ( http://arxiv.org/abs/2104.12918v1 )

ライセンス: Link先を確認
Ashkan Kazemi, Zehua Li, Ver\'onica P\'erez-Rosas, Rada Mihalcea(参考訳) 本稿では,ファクトチェックとニュース評価アプリケーションを支援することを目的とした,ニュースクレームの自然言語説明の構築について検討する。 本研究では,コンテンツ抽出のための資源効率の良い非教師なしグラフ型アルゴリズムであるバイアス付きテキストランクに基づく抽出法と,gpt-2言語モデルに基づく抽象化法について実験を行った。 政治的・健康的なニュース領域における2つの誤情報データセットの比較評価を行い,抽出手法が最も有望であることを示す。

In this paper, we explore the construction of natural language explanations for news claims, with the goal of assisting fact-checking and news evaluation applications. We experiment with two methods: (1) an extractive method based on Biased TextRank -- a resource-effective unsupervised graph-based algorithm for content extraction; and (2) an abstractive method based on the GPT-2 language model. We perform comparative evaluations on two misinformation datasets in the political and health news domains, and find that the extractive method shows the most promise.
翻訳日:2021-04-28 13:32:07 公開日:2021-04-27
# 単語と文書の可読性の半教師あり共同推定

Semi-Supervised Joint Estimation of Word and Document Readability ( http://arxiv.org/abs/2104.13103v1 )

ライセンス: Link先を確認
Yoshinari Fujinuma, Masato Hagiwara(参考訳) 単語や文書の可読性や難易度の推定は、文献において独立して研究されており、しばしば相互に注釈付きリソースの存在を仮定している。 本稿では,単語と文書の難易度に再帰的な相関関係が存在することを示す分析によって,グラフ畳み込みネットワーク(GCN)を半教師付き方式で,単語と文書の難易度を共同で推定することを提案する。 実験の結果,GCN法は強いベースラインよりも精度が高く,ラベル付きデータが少ない場合でも頑健であることがわかった。

Readability or difficulty estimation of words and documents has been investigated independently in the literature, often assuming the existence of extensive annotated resources for the other. Motivated by our analysis showing that there is a recursive relationship between word and document difficulty, we propose to jointly estimate word and document difficulty through a graph convolutional network (GCN) in a semi-supervised fashion. Our experimental results reveal that the GCN-based method can achieve higher accuracy than strong baselines, and stays robust even with a smaller amount of labeled data.
翻訳日:2021-04-28 13:31:48 公開日:2021-04-27
# 人間-ロボットインタラクションにおけるマルチホップ質問応答のための質問認識メモリネットワーク

Question-Aware Memory Network for Multi-hop Question Answering in Human-Robot Interaction ( http://arxiv.org/abs/2104.13173v1 )

ライセンス: Link先を確認
Xinmeng Li, Mamoun Alazab, Qian Li, Keping Yu, Quanjun Yin(参考訳) 知識グラフ質問応答は知的人間とロボットの相互作用において重要な技術であり、与えられた知識グラフで人間の自然言語質問に対する回答を自動的に与えることを目的としている。 バラエティと複雑性が高いマルチリレーショナルな質問に対して、問題のトークンは推論ステップにおけるトリプル選択の優先度が異なる。 ほとんどの既存モデルは、この質問を全体として受け取り、その中の優先順位情報を無視します。 そこで本研究では,QA2MNというマルチホップ質問応答のための問合せ対応メモリネットワークを提案する。 さらに、知識グラフ埋め込みモデルにグラフコンテキスト情報を組み込んで、エンティティや関係を表現する能力を高める。 トレーニングプロセスでQA2MNモデルの初期化と微調整に使用しています。 我々は、複雑なマルチホップ質問応答のための2つの代表的なデータセットであるpathquestionとworldcup2014のqa2mnを評価した。 その結果、qa2mnは2つのデータセットで最先端のhit@1精度を達成し、モデルの有効性を検証できた。

Knowledge graph question answering is an important technology in intelligent human-robot interaction, which aims at automatically giving answer to human natural language question with the given knowledge graph. For the multi-relation question with higher variety and complexity, the tokens of the question have different priority for the triples selection in the reasoning steps. Most existing models take the question as a whole and ignore the priority information in it. To solve this problem, we propose question-aware memory network for multi-hop question answering, named QA2MN, to update the attention on question timely in the reasoning process. In addition, we incorporate graph context information into knowledge graph embedding model to increase the ability to represent entities and relations. We use it to initialize the QA2MN model and fine-tune it in the training process. We evaluate QA2MN on PathQuestion and WorldCup2014, two representative datasets for complex multi-hop question answering. The result demonstrates that QA2MN achieves state-of-the-art Hits@1 accuracy on the two datasets, which validates the effectiveness of our model.
翻訳日:2021-04-28 13:31:36 公開日:2021-04-27
# 多目的ファクトチェックのための知識強化学習と意味合成モデル

A Knowledge Enhanced Learning and Semantic Composition Model for Multi-Claim Fact Checking ( http://arxiv.org/abs/2104.13046v1 )

ライセンス: Link先を確認
Shuai Wang, Penghui Wei, Jiahao Zhao, Wenji Mao(参考訳) 噂情報の拡散とその重大な結果を抑制するため、従来の事実検査は、関連する証拠を回収して、所定のクレームの正確性を検証することを目的としている。 事実チェック手法は通常、外部リポジトリとして知識グラフ(kgs)を使用し、トリプルクレームを検証する証拠を取得する推論メカニズムを開発する。 しかし、既存の方法は単一のクレームの検証のみに焦点を当てている。 現実の噂の情報はより複雑であり、テキスト文は複数の節(つまり)から構成されることが多い。 単一のクレームではなく複数のクレームとして表現される)マルチステートメントのファクトチェックは、必要だけでなく、実用的なアプリケーションにも重要である。 1つの三重項を検証するための従来の手法は、複数の三重項を1つずつ検証するために繰り返し適用できるが、多項文に暗示される文脈情報を無視し、文全体のリッチな意味情報を学べない。 本稿では,多条件事実チェックのためのエンドツーエンド知識強化学習と検証手法を提案する。 提案手法は,kgベースの学習強化と多目的意味合成という2つのモジュールからなる。 コンテキスト情報を完全に活用するために、KGベースの学習拡張モジュールは、エンティティの関連属性を選択的に集約することで、動的コンテキスト固有表現を学習する。 複数の三重項の合成セマンティクスを捉えるために、多面的セマンティクス合成モジュールはグラフ構造を構築してクレームレベルの相互作用をモデル化し、グローバルかつサルエントな局所セマンティクスと多面的注意の統合を行う。 実世界のデータセットと2つのベンチマークデータセットによる実験結果から,KG上での多条件ファクトチェックの有効性が示された。

To inhibit the spread of rumorous information and its severe consequences, traditional fact checking aims at retrieving relevant evidence to verify the veracity of a given claim. Fact checking methods typically use knowledge graphs (KGs) as external repositories and develop reasoning mechanism to retrieve evidence for verifying the triple claim. However, existing methods only focus on verifying a single claim. As real-world rumorous information is more complex and a textual statement is often composed of multiple clauses (i.e. represented as multiple claims instead of a single one), multiclaim fact checking is not only necessary but more important for practical applications. Although previous methods for verifying a single triple can be applied repeatedly to verify multiple triples one by one, they ignore the contextual information implied in a multi-claim statement and could not learn the rich semantic information in the statement as a whole. In this paper, we propose an end-to-end knowledge enhanced learning and verification method for multi-claim fact checking. Our method consists of two modules, KG-based learning enhancement and multi-claim semantic composition. To fully utilize the contextual information, the KG-based learning enhancement module learns the dynamic context-specific representations via selectively aggregating relevant attributes of entities. To capture the compositional semantics of multiple triples, the multi-claim semantic composition module constructs the graph structure to model claim-level interactions, and integrates global and salient local semantics with multi-head attention. Experimental results on a real-world dataset and two benchmark datasets show the effectiveness of our method for multi-claim fact checking over KG.
翻訳日:2021-04-28 13:31:05 公開日:2021-04-27
# ビデオシーケンスによる群衆の個性・感情特性の検出

Detecting Personality and Emotion Traits in Crowds from Video Sequences ( http://arxiv.org/abs/2104.12927v1 )

ライセンス: Link先を確認
Rodolfo Migon Favaretto, Paulo Knob, Soraia Raupp Musse, Felipe Vilanova, \^Angelo Brandelli Costa(参考訳) 本稿では,ビデオシーケンス中の群衆の個性と基本的な感情特性を検出する手法を提案する。 まず、個人を検知して追跡し、グループを認識して特徴付ける。 これらの情報はOCEAN次元にマッピングされ、OCCの感情モデルに基づいてビデオ内の個性や感情を見つけるのに使用される。 実生活実験で結果を検証することは明らかな課題であるが,本手法は各国の海洋値に関する文献情報や,個人間の創発的距離を用いて評価する。 したがって、この分析は各国の文化的差異も指す。 本モデルは,質的および定量的な結果に示すように,文献で提供されたデータと比較して一貫性のある情報を生成することを示唆する。

This paper presents a methodology to detect personality and basic emotion characteristics of crowds in video sequences. Firstly, individuals are detected and tracked, then groups are recognized and characterized. Such information is then mapped to OCEAN dimensions, used to find out personality and emotion in videos, based on OCC emotion models. Although it is a clear challenge to validate our results with real life experiments, we evaluate our method with the available literature information regarding OCEAN values of different Countries and also emergent Personal distance among people. Hence, such analysis refer to cultural differences of each country too. Our results indicate that this model generates coherent information when compared to data provided in available literature, as shown in qualitative and quantitative results.
翻訳日:2021-04-28 13:29:59 公開日:2021-04-27
# 人物再同定のための教師なしマルチソースドメイン適応

Unsupervised Multi-Source Domain Adaptation for Person Re-Identification ( http://arxiv.org/abs/2104.12961v1 )

ライセンス: Link先を確認
Zechen Bai, Zhigang Wang, Jian Wang, Di Hu, Errui Ding(参考訳) unsupervised domain adaptation (uda) method for person re-idification (re-id) ラベル付きソースデータからラベル付きターゲットデータへの再id知識の転送を目的としている。 大きな成功を収めたものの、そのほとんどはモデル事前トレーニングのために単一のソースドメインからの限られたデータしか使用せず、リッチなラベル付きデータが十分に活用されていない。 有意義なラベル付きデータをフル活用するために、トレーニング中に複数のソースデータセットが使用されるUDA人物のre-IDフィールドにマルチソースの概念を導入する。 しかし、ドメインのギャップのため、異なるデータセットを組み合わせるだけで改善は限られます。 本稿では,ドメイン固有ビューとドメイン融合ビューという2つの視点からこの問題に対処しようと試みる。 2つの構成モジュールが提案され、互いに互換性がある。 まず,修正ドメイン固有バッチ正規化(RDSBN)モジュールを探索し,ドメイン固有特性を同時に低減し,特徴の特異性を高める。 第2に, グラフ畳み込みネットワーク (GCN) に基づく多領域情報融合 (MDIF) モジュールを開発し, 異なる領域の特徴を融合させることにより, ドメイン間距離を最小化する。 提案手法は,最先端のuda person re-idメソッドを高いマージンで上回り,後処理手法を使わずに教師付きアプローチに匹敵する性能を実現する。

Unsupervised domain adaptation (UDA) methods for person re-identification (re-ID) aim at transferring re-ID knowledge from labeled source data to unlabeled target data. Although achieving great success, most of them only use limited data from a single-source domain for model pre-training, making the rich labeled data insufficiently exploited. To make full use of the valuable labeled data, we introduce the multi-source concept into UDA person re-ID field, where multiple source datasets are used during training. However, because of domain gaps, simply combining different datasets only brings limited improvement. In this paper, we try to address this problem from two perspectives, \ie{} domain-specific view and domain-fusion view. Two constructive modules are proposed, and they are compatible with each other. First, a rectification domain-specific batch normalization (RDSBN) module is explored to simultaneously reduce domain-specific characteristics and increase the distinctiveness of person features. Second, a graph convolutional network (GCN) based multi-domain information fusion (MDIF) module is developed, which minimizes domain distances by fusing features of different domains. The proposed method outperforms state-of-the-art UDA person re-ID methods by a large margin, and even achieves comparable performance to the supervised approaches without any post-processing techniques.
翻訳日:2021-04-28 13:29:47 公開日:2021-04-27
# 媒体伝送誘導多色空間埋め込みによる水中画像強調

Underwater Image Enhancement via Medium Transmission-Guided Multi-Color Space Embedding ( http://arxiv.org/abs/2104.13015v1 )

ライセンス: Link先を確認
Chongyi Li and Saeed Anwar and Junhui Hou and Runmin Cong and Chunle Guo and Wenqi Ren(参考訳) 水中画像は波長と距離依存性の減衰と散乱のため、カラーキャストと低コントラストに苦しむ。 これら2つの劣化問題を解決するため,Ucolorと呼ばれる中透過誘導多色空間埋め込みによる水中画像強調ネットワークを提案する。 具体的には,まず,異なる色空間の特性を統一構造に取り入れ,特徴表現の多様性を高めるマルチカラー空間エンコーダネットワークを提案する。 注意機構と組み合わせることで、複数の色空間から抽出された最も識別的な特徴を適応的に統合して強調する。 水中イメージング物理モデルに着想を得て,ネットワークの質劣化領域への応答性を高めるために,メディア伝送(カメラに到達したシーンの放射率の比率を示す)を導出するデコーダネットワークを設計する。 その結果,複数色空間の埋め込みと物理モデルベースおよび学習ベース手法の利点を活かして,水中画像の視覚的品質を効果的に向上できることがわかった。 広範な実験により,我々のucolorは,視覚品質と定量的指標の両方において最先端の手法に対して優れた性能を達成できることが証明された。

Underwater images suffer from color casts and low contrast due to wavelength- and distance-dependent attenuation and scattering. To solve these two degradation issues, we present an underwater image enhancement network via medium transmission-guided multi-color space embedding, called Ucolor. Concretely, we first propose a multi-color space encoder network, which enriches the diversity of feature representations by incorporating the characteristics of different color spaces into a unified structure. Coupled with an attention mechanism, the most discriminative features extracted from multiple color spaces are adaptively integrated and highlighted. Inspired by underwater imaging physical models, we design a medium transmission (indicating the percentage of the scene radiance reaching the camera)-guided decoder network to enhance the response of the network towards quality-degraded regions. As a result, our network can effectively improve the visual quality of underwater images by exploiting multiple color spaces embedding and the advantages of both physical model-based and learning-based methods. Extensive experiments demonstrate that our Ucolor achieves superior performance against state-of-the-art methods in terms of both visual quality and quantitative metrics.
翻訳日:2021-04-28 13:29:21 公開日:2021-04-27
# AT-ST:限定転写領域におけるOCRの自己学習適応戦略

AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions ( http://arxiv.org/abs/2104.13037v1 )

ライセンス: Link先を確認
Martin Ki\v{s}\v{s} and Karel Bene\v{s} and Michal Hradi\v{s}(参考訳) 本稿では,手動アノテーションが限定されたドメインのテキスト認識について,簡単な自己学習戦略を用いて述べる。 提案手法は,個人文の集合や大きな原稿を翻訳する場合など,対象ドメインデータが豊富である場合に,人間のアノテーションの労力を削減すべきである。 対象ドメインから利用可能な注釈付きデータと混在する関連ドメインから大規模データに基づいてシードシステムを訓練することを提案する。 シードシステムは、ターゲットドメインから注釈のないデータを書き起こし、より良いシステムをトレーニングするために使用される。 信頼度尺度をいくつか検討し,データ選択に書き起こしの後方確率を用いることを決定した。 また,アグレッシブマスキング方式を用いてデータを拡張することを提案する。 自己学習により,手書きデータの文字誤り率を最大55 %,印刷データで最大38 %削減できる。 マスキング拡張自体はエラー率を約10%削減し、手書きの難しいデータの場合、その効果はよりよく発音される。

This paper addresses text recognition for domains with limited manual annotations by a simple self-training strategy. Our approach should reduce human annotation effort when target domain data is plentiful, such as when transcribing a collection of single person's correspondence or a large manuscript. We propose to train a seed system on large scale data from related domains mixed with available annotated data from the target domain. The seed system transcribes the unannotated data from the target domain which is then used to train a better system. We study several confidence measures and eventually decide to use the posterior probability of a transcription for data selection. Additionally, we propose to augment the data using an aggressive masking scheme. By self-training, we achieve up to 55 % reduction in character error rate for handwritten data and up to 38 % on printed data. The masking augmentation itself reduces the error rate by about 10 % and its effect is better pronounced in case of difficult handwritten data.
翻訳日:2021-04-28 13:29:04 公開日:2021-04-27
# マルチソースドメイン適応のためのグラフィカルモデリング

Graphical Modeling for Multi-Source Domain Adaptation ( http://arxiv.org/abs/2104.13057v1 )

ライセンス: Link先を確認
Minghao Xu, Hang Wang, Bingbing Ni(参考訳) マルチソースドメイン適応(MSDA)は、複数のソースドメインから対象ドメインへの知識の転送に重点を置いている。 この問題では、ラベル付きソースデータとラベルなしターゲットデータを利用して、異なるドメイン間の共同モデリングと効果的なドメイン結合スキームを必要とするターゲットドメイン上の意味ラベルの条件分布にアプローチすることが不可欠である。 異なるドメイン間のグラフィカルな構造はこれらの課題に取り組むのに役立ち、様々なインスタンス/カテゴリ間の相互依存を効果的にモデル化することができる。 本研究では,2種類のグラフィカルモデルを提案する。 MSDAのための条件ランダム場(CRF-MSDA)とMRF-MSDAのためのマルコフランダム場(MRF-MSDA)。 一言で言えば、クエリサンプルとセマンティックプロトタイプからなる観測セットが与えられた。 CRF-MSDAモデルでは,様々な領域を対象とし,観測条件付きラベルの共分散を学習する。 この目的を達成するために、すべての観測に対してリレーショナルグラフを構築し、その上でローカルメッセージパッシングを行う。 MRF-MSDAは、エネルギーベースの定式化により、異なるマルコフネットワーク上での観測の連成分布をモデル化することを目的としており、複数の特定のネットワーク上での連成確率を和らげることで、ラベル予測を自然に行うことができる。 CRF-MSDAと比較して、MDF-MSDAモデルはより表現力が高く、計算コストも低い。 我々はこれらの2つのモデルを、異なるドメインシフトとデータ複雑性を持つMSDAの4つの標準ベンチマークデータセット上で評価する。

Multi-Source Domain Adaptation (MSDA) focuses on transferring the knowledge from multiple source domains to the target domain, which is a more practical and challenging problem compared to the conventional single-source domain adaptation. In this problem, it is essential to utilize the labeled source data and the unlabeled target data to approach the conditional distribution of semantic label on target domain, which requires the joint modeling across different domains and also an effective domain combination scheme. The graphical structure among different domains is useful to tackle these challenges, in which the interdependency among various instances/categories can be effectively modeled. In this work, we propose two types of graphical models,i.e. Conditional Random Field for MSDA (CRF-MSDA) and Markov Random Field for MSDA (MRF-MSDA), for cross-domain joint modeling and learnable domain combination. In a nutshell, given an observation set composed of a query sample and the semantic prototypes i.e. representative category embeddings) on various domains, the CRF-MSDA model seeks to learn the joint distribution of labels conditioned on the observations. We attain this goal by constructing a relational graph over all observations and conducting local message passing on it. By comparison, MRF-MSDA aims to model the joint distribution of observations over different Markov networks via an energy-based formulation, and it can naturally perform label prediction by summing the joint likelihoods over several specific networks. Compared to the CRF-MSDA counterpart, the MRF-MSDA model is more expressive and possesses lower computational cost. We evaluate these two models on four standard benchmark data sets of MSDA with distinct domain shift and data complexity, and both models achieve superior performance over existing methods on all benchmarks.
翻訳日:2021-04-28 13:28:50 公開日:2021-04-27
# 自己学習型形状デノジングモデルによる重み付きボリュームセグメンテーション

Weakly Supervised Volumetric Segmentation via Self-taught Shape Denoising Model ( http://arxiv.org/abs/2104.13082v1 )

ライセンス: Link先を確認
Qian He, Shuailin Li and Xuming He(参考訳) 弱い教師付きセグメンテーションは、ピクセルワイズアノテーションのコストが高いため、医用画像解析において重要な問題である。 従来の手法では、しばしば2D画像の弱いラベルにフォーカスするが、ボリューム医学画像の構造的手がかりはほとんど利用しない。 そこで本研究では,モデル予測と学習の両方において3次元形状をよりよく把握できる,新しい弱教師付きセグメンテーション戦略を提案する。 本研究の目的は,弱いラベルを利用して自己学習型形状表現を抽出し,その表現をセグメント化予測に組み込むことである。 この目的のために,反復学習戦略によって学習されるセグメンテーションモジュールと形状弁別モジュールからなる深層ネットワークを設計する。 さらに,ボリューム画像に対するハイブリッドラベル設計による弱いアノテーション方式を導入し,全体のアノテーションコストを増大させることなくモデル学習を改善する。 実験の結果, 形状特性の異なる3つの臓器セグメンテーションベンチマークにおいて, 既存のsoma戦略を上回った。 特に、10倍のラベル付きスライスでも高い性能を達成でき、他の方法よりもはるかに優れている。

Weakly supervised segmentation is an important problem in medical image analysis due to the high cost of pixelwise annotation. Prior methods, while often focusing on weak labels of 2D images, exploit few structural cues of volumetric medical images. To address this, we propose a novel weakly-supervised segmentation strategy capable of better capturing 3D shape prior in both model prediction and learning. Our main idea is to extract a self-taught shape representation by leveraging weak labels, and then integrate this representation into segmentation prediction for shape refinement. To this end, we design a deep network consisting of a segmentation module and a shape denoising module, which are trained by an iterative learning strategy. Moreover, we introduce a weak annotation scheme with a hybrid label design for volumetric images, which improves model learning without increasing the overall annotation cost. The empirical experiments show that our approach outperforms existing SOTA strategies on three organ segmentation benchmarks with distinctive shape properties. Notably, we can achieve strong performance with even 10\% labeled slices, which is significantly superior to other methods.
翻訳日:2021-04-28 13:28:19 公開日:2021-04-27
# 魚眼レンズカメラを用いた自律バレット駐車システム

Fisheye Lens Camera based Autonomous Valet Parking System ( http://arxiv.org/abs/2104.13119v1 )

ライセンス: Link先を確認
Young Gon Jo, Seok Hyeon Hong, Sung Soo Hwang, and Jeong Mok Ha(参考訳) 本稿では,最も普及しているセンサであるカメラのみを利用した,効率的な自動駐車システムを提案する。 周辺環境の変化に迅速に対応し、より多くの情報を瞬時に取得するために、ピンホールカメラに比べて視野の広い魚眼カメラを用いる。 これにより、駐車場のレイアウトを識別し、車両の位置を追跡するために、視覚的な同時ローカライズとマッピングが使用される。 さらに、入力画像フレームは、ピンホールカメラで撮影された画像にエッジを検出するアルゴリズムを適用するため、魚眼レンズの歪みを解決するために、周囲のビューモニタ画像に変換される。 提案システムでは,AVM画像処理時に発生する計算複雑性を最小限に抑え,リアルタイム操作のためのルックアップテーブルを採用している。 各プロセスの検出率と自律駐車の成功率を測定し,性能評価を行った。 実験の結果,視覚センサのみを用いて自律駐車が可能となった。

This paper proposes an efficient autonomous valet parking system utilizing only cameras which are the most widely used sensor. To capture more information instantaneously and respond rapidly to changes in the surrounding environment, fisheye cameras which have a wider angle of view compared to pinhole cameras are used. Accordingly, visual simultaneous localization and mapping is used to identify the layout of the parking lot and track the location of the vehicle. In addition, the input image frames are converted into around view monitor images to resolve the distortion of fisheye lens because the algorithm to detect edges are supposed to be applied to images taken with pinhole cameras. The proposed system adopts a look up table for real time operation by minimizing the computational complexity encountered when processing AVM images. The detection rate of each process and the success rate of autonomous parking were measured to evaluate performance. The experimental results confirm that autonomous parking can be achieved using only visual sensors.
翻訳日:2021-04-28 13:28:00 公開日:2021-04-27
# luces: 近距離点光源光量ステレオのためのデータセット

LUCES: A Dataset for Near-Field Point Light Source Photometric Stereo ( http://arxiv.org/abs/2104.13135v1 )

ライセンス: Link先を確認
Roberto Mecca, Fotios Logothetis, Ignas Budvytis, Roberto Cipolla(参考訳) シェーディング情報からの物体の3次元再構成はコンピュータビジョンにおける課題である。 測光ステレオ問題に直面するほとんどのアプローチが単純な遠方界の仮定を用いているため、現実世界のシナリオは本質的により複雑な物理的効果を持ち、正確に3d形状を再構築するために処理する必要がある。 対象物体の近傍に点光源が存在すると仮定した場合、この問題に対処する手法が増えている。 光源の近接は、その伝播と減衰を記述するために非線形パラメータ化を必要とするため、画像形成のモデル化を複雑にする。 この近接場シナリオを扱うアプローチの能力を理解するために、これまで文献は合成的にレンダリングされた測光画像や、極端にカスタマイズされた実世界データを使用してきた。 近距離場測光ステレオ法の評価におけるギャップを埋めるため,様々な材料の14個の物体の「近距離場光源測光ステレオ用データセット」をルーツに紹介する。 52個のLEDを計る装置は、カメラから10から30cm離れた位置にある物体を照らすように設計されている。 生画像とともに、3次元再構成を評価するために、データセットは、取得した3次元幾何学の異なる特徴を比較するための正規マップと深度マップの両方を含む。 さらに,提案するデータセットにおける最新の近距離場光計測ステレオアルゴリズムの性能評価を行い,実際の近距離効果と対象材料についてsota法を評価する。

Three-dimensional reconstruction of objects from shading information is a challenging task in computer vision. As most of the approaches facing the Photometric Stereo problem use simplified far-field assumptions, real-world scenarios have essentially more complex physical effects that need to be handled for accurately reconstructing the 3D shape. An increasing number of methods have been proposed to address the problem when point light sources are assumed to be nearby the target object. The proximity of the light sources complicates the modeling of the image formation as the light behaviour requires non-linear parameterisation to describe its propagation and attenuation. To understand the capability of the approaches dealing with this near-field scenario, the literature till now has used synthetically rendered photometric images or minimal and very customised real-world data. In order to fill the gap in evaluating near-field photometric stereo methods, we introduce LUCES the first real-world 'dataset for near-fieLd point light soUrCe photomEtric Stereo' of 14 objects of a varying of materials. A device counting 52 LEDs has been designed to lit each object positioned 10 to 30 centimeters away from the camera. Together with the raw images, in order to evaluate the 3D reconstructions, the dataset includes both normal and depth maps for comparing different features of the retrieved 3D geometry. Furthermore, we evaluate the performance of the latest near-field Photometric Stereo algorithms on the proposed dataset to assess the SOTA method with respect to actual close range effects and object materials.
翻訳日:2021-04-28 13:27:47 公開日:2021-04-27
# すべてのアノテーションカウント:医療画像分割のためのマルチラベル深層監視

Every Annotation Counts: Multi-label Deep Supervision for Medical Image Segmentation ( http://arxiv.org/abs/2104.13243v1 )

ライセンス: Link先を確認
Simon Rei{\ss}, Constantin Seibold, Alexander Freytag, Erik Rodner, Rainer Stiefelhagen(参考訳) ピクセルワイドセグメンテーションは、私たちのフィールドで最もデータとアノテーションの空いたタスクの1つです。 代表的かつ正確なアノテーションを提供することは、特に医学的応用においてミッションクリティカルであることが多い。 本稿では,この障壁を克服するための半弱教師付きセグメンテーションアルゴリズムを提案する。 本手法は,深層監視と生徒・教師モデルの新たな定式化に基づき,異なる指導信号の統合を容易に行うことができる。 従来の研究とは対照的に、下位層への深い監督の一体化は注意が必要であることを示し、成功のための最も重要な秘密の要素としてマルチラベルの深い監督を提示する。 我々の新しいセグメンテーションのトレーニング体制は、完全にラベル付けされたイメージを柔軟に利用し、バウンディングボックス、単にグローバルラベル、あるいはまったく使用しないイメージを使用することで、高価なラベルの要件を94.22%削減することができます。 本手法は網膜液のセグメンテーションに関する広範な実験により検証され,各アノテーションタイプがセグメンテーション性能を高める上で期待する効果を詳細に分析する。

Pixel-wise segmentation is one of the most data and annotation hungry tasks in our field. Providing representative and accurate annotations is often mission-critical especially for challenging medical applications. In this paper, we propose a semi-weakly supervised segmentation algorithm to overcome this barrier. Our approach is based on a new formulation of deep supervision and student-teacher model and allows for easy integration of different supervision signals. In contrast to previous work, we show that care has to be taken how deep supervision is integrated in lower layers and we present multi-label deep supervision as the most important secret ingredient for success. With our novel training regime for segmentation that flexibly makes use of images that are either fully labeled, marked with bounding boxes, just global labels, or not at all, we are able to cut the requirement for expensive labels by 94.22% - narrowing the gap to the best fully supervised baseline to only 5% mean IoU. Our approach is validated by extensive experiments on retinal fluid segmentation and we provide an in-depth analysis of the anticipated effect each annotation type can have in boosting segmentation performance.
翻訳日:2021-04-28 13:27:23 公開日:2021-04-27
# バッチ知識を組み込んだ自己蒸留による画像ネット分類の改善

Self-distillation with Batch Knowledge Ensembling Improves ImageNet Classification ( http://arxiv.org/abs/2104.13298v1 )

ライセンス: Link先を確認
Yixiao Ge, Ching Lam Choi, Xiao Zhang, Peipei Zhao, Feng Zhu, Rui Zhao, Hongsheng Li(参考訳) 近年の知識蒸留の研究により、複数の教師や生徒から「ダーク・ナレッジ」をセンセンシングすることで、よりソフトなトレーニングのターゲットを作ることができるが、計算量やパラメーターは大幅に増加することが判明している。 本研究では,BAKE(Batch Knowledge Ensembling)を用いて,同一のミニバッチにおいて,他のサンプルの知識を伝播,アンカーイメージのソフトターゲットを生成する。 具体的には、各興味のサンプルについて、現在のネットワークと推定されるサンプル間の親和性に応じて知識の伝播を重み付けする。 伝播した知識は、蒸留のためのより良いソフトターゲットを形成するために組み立てられる。 このようにして、私たちのBAKEフレームワークは、1つのネットワークだけで複数のサンプルを網羅するオンライン知識を実現する。 既存の知識集合法と比較して計算とメモリのオーバーヘッドは最小限である。 大規模な実験では、軽量だが効果的なBAKEは、複数のデータセット上の様々なアーキテクチャの分類性能を一貫して向上させ、例えば、ImageNet上でResNet-50が+1.2%向上し、計算オーバーヘッドは+3.7%、追加パラメータは0である。 BAKEはバニラのベースラインを改善するだけでなく、すべてのベンチマークのシングルネットワークの状態を上回ります。

The recent studies of knowledge distillation have discovered that ensembling the "dark knowledge" from multiple teachers or students contributes to creating better soft targets for training, but at the cost of significantly more computations and/or parameters. In this work, we present BAtch Knowledge Ensembling (BAKE) to produce refined soft targets for anchor images by propagating and ensembling the knowledge of the other samples in the same mini-batch. Specifically, for each sample of interest, the propagation of knowledge is weighted in accordance with the inter-sample affinities, which are estimated on-the-fly with the current network. The propagated knowledge can then be ensembled to form a better soft target for distillation. In this way, our BAKE framework achieves online knowledge ensembling across multiple samples with only a single network. It requires minimal computational and memory overhead compared to existing knowledge ensembling methods. Extensive experiments demonstrate that the lightweight yet effective BAKE consistently boosts the classification performance of various architectures on multiple datasets, e.g., a significant +1.2% gain of ResNet-50 on ImageNet with only +3.7% computational overhead and zero additional parameters. BAKE does not only improve the vanilla baselines, but also surpasses the single-network state-of-the-arts on all the benchmarks.
翻訳日:2021-04-28 13:27:04 公開日:2021-04-27
# mvs2d:注意駆動型2次元畳み込みによる高効率マルチビューステレオ

MVS2D: Efficient Multi-view Stereo via Attention-Driven 2D Convolutions ( http://arxiv.org/abs/2104.13325v1 )

ライセンス: Link先を確認
Zhenpei Yang, Zhile Ren, Qi Shan, Qixing Huang(参考訳) ディープラーニングはマルチビューステレオシステムに大きな影響を与えている。 最先端のアプローチは通常、コストボリュームの構築と、入力画像の画素幅の深さを回復する複数の3D畳み込み操作を含む。 このようなプレーンスウィーピングステレオのエンドツーエンド学習は、公開ベンチマークの精度を向上させるが、一般に計算は非常に遅い。 本稿では,マルチビュー制約を単一ビューネットワークにシームレスに統合する,高効率なマルチビューステレオアルゴリズム MVS2D を提案する。 MVS2Dは2Dコンボリューションのみをベースとしているため、すべての注目すべきコンボリューションよりも少なくとも4倍高速である。 さらに,本アルゴリズムは精度の高い深さ推定を行い,scannet,sun3d,rgbdに挑戦する。 不正確なカメラのポーズでも、我々のアルゴリズムは他のアルゴリズムよりも優れています。 補足資料とコードはプロジェクトページで入手できる。 https://zhenpeiyang.github.io/mvs2d

Deep learning has made significant impacts on multi-view stereo systems. State-of-the-art approaches typically involve building a cost volume, followed by multiple 3D convolution operations to recover the input image's pixel-wise depth. While such end-to-end learning of plane-sweeping stereo advances public benchmarks' accuracy, they are typically very slow to compute. We present MVS2D, a highly efficient multi-view stereo algorithm that seamlessly integrates multi-view constraints into single-view networks via an attention mechanism. Since MVS2D only builds on 2D convolutions, it is at least 4x faster than all the notable counterparts. Moreover, our algorithm produces precise depth estimations, achieving state-of-the-art results on challenging benchmarks ScanNet, SUN3D, and RGBD. Even under inexact camera poses, our algorithm still out-performs all other algorithms. Supplementary materials and code will be available at the project page: https://zhenpeiyang.github.io/MVS2D
翻訳日:2021-04-28 13:26:41 公開日:2021-04-27
# Confined Gradient Descent:Federated Learningのためのプライバシ保護最適化

Confined Gradient Descent: Privacy-preserving Optimization for Federated Learning ( http://arxiv.org/abs/2104.13050v1 )

ライセンス: Link先を確認
Yanjun Zhang, Guangdong Bai, Xue Li, Surya Nepal, Ryan K L Ko(参考訳) フェデレーション学習は、複数の参加者がトレーニングデータを集約することなく、協調的にモデルをトレーニングすることを可能にする。 トレーニングデータは各参加者内に保持され、局所的な勾配を安全に合成できるが、最近の研究ではそのようなプライバシー保護が不十分であることが示されている。 最適化のために共有しなければならないグローバルモデルパラメータは、トレーニングデータに関する情報の漏洩に影響を受けやすい。 本研究では,グローバルモデルパラメータの共有を排除し,フェデレーション学習のプライバシーを高めるためのCGDを提案する。 CGDは、勾配降下最適化が離散点の集合から始まり、目的関数の大域的最小の近傍にある別の集合に収束するという事実を利用する。 参加者は自発的にローカルデータをトレーニングし、相互に利益を得るための局所的な勾配の合計を安全に共有できる。 我々はCGDの従来のFLに対するプライバシー強化を正式に示す。 従来のflに比べてcgdでは情報量が少ないことが証明される。 CGDは望ましいモデルの精度も保証する。 我々は理論上CGDの収束率を確立する。 集約されたトレーニングデータから学習したモデルに対して,各参加者が学習したプロプライエタリなモデルの損失が有界であることを証明する。 2つの実世界のデータセットに対する大規模な実験結果によると、CGDのパフォーマンスは集中学習と同等であり、検証損失(おもに0.05未満)と精度(おもに1%未満)に差がある。

Federated learning enables multiple participants to collaboratively train a model without aggregating the training data. Although the training data are kept within each participant and the local gradients can be securely synthesized, recent studies have shown that such privacy protection is insufficient. The global model parameters that have to be shared for optimization are susceptible to leak information about training data. In this work, we propose Confined Gradient Descent (CGD) that enhances privacy of federated learning by eliminating the sharing of global model parameters. CGD exploits the fact that a gradient descent optimization can start with a set of discrete points and converges to another set at the neighborhood of the global minimum of the objective function. It lets the participants independently train on their local data, and securely share the sum of local gradients to benefit each other. We formally demonstrate CGD's privacy enhancement over traditional FL. We prove that less information is exposed in CGD compared to that of traditional FL. CGD also guarantees desired model accuracy. We theoretically establish a convergence rate for CGD. We prove that the loss of the proprietary models learned for each participant against a model learned by aggregated training data is bounded. Extensive experimental results on two real-world datasets demonstrate the performance of CGD is comparable with the centralized learning, with marginal differences on validation loss (mostly within 0.05) and accuracy (mostly within 1%).
翻訳日:2021-04-28 13:25:47 公開日:2021-04-27
# 大規模ディープラーニングのための10個のサブサンプリングから1つ後退する

One Backward from Ten Forward, Subsampling for Large-Scale Deep Learning ( http://arxiv.org/abs/2104.13114v1 )

ライセンス: Link先を確認
Chaosheng Dong, Xiaojie Jin, Weihao Gao, Yijia Wang, Hongyi Zhang, Xiang Wu, Jianchao Yang, Xiaobing Liu(参考訳) 大規模機械学習システムのディープラーニングモデルは、プロダクション環境からの膨大なデータで継続的に訓練されることが多い。 ストリーミングトレーニングデータの膨大なボリュームは、リアルタイムトレーニングサブシステムにとって大きな課題であり、アドホックサンプリングが標準的なプラクティスである。 我々の重要な洞察は、これらのデプロイされたMLシステムは推論中にデータインスタンスを継続的にフォワードパスしますが、アドホックサンプリングはこのかなりの計算努力を生かしていません。 そこで我々は,この前方パスからインスタンス毎に一定量の情報を記録することを提案する。 余分な情報は、どのデータインスタンスが前方および後方通過に参加するべきかを計測的に改善する。 この問題を分析するための新しい最適化フレームワークを提案し, 実用的解としてミニバッチ勾配降下法に基づく効率的な近似アルゴリズムを提案する。 また,大規模分類および回帰タスクにおけるフレームワークとアルゴリズムの有効性を,業界で広く使用されている競争ベースラインと比較した。

Deep learning models in large-scale machine learning systems are often continuously trained with enormous data from production environments. The sheer volume of streaming training data poses a significant challenge to real-time training subsystems and ad-hoc sampling is the standard practice. Our key insight is that these deployed ML systems continuously perform forward passes on data instances during inference, but ad-hoc sampling does not take advantage of this substantial computational effort. Therefore, we propose to record a constant amount of information per instance from these forward passes. The extra information measurably improves the selection of which data instances should participate in forward and backward passes. A novel optimization framework is proposed to analyze this problem and we provide an efficient approximation algorithm under the framework of Mini-batch gradient descent as a practical solution. We also demonstrate the effectiveness of our framework and algorithm on several large-scale classification and regression tasks, when compared with competitive baselines widely used in industry.
翻訳日:2021-04-28 13:25:24 公開日:2021-04-27
# ハミルトンディープニューラルネットワークのための統一的枠組み

A unified framework for Hamiltonian deep neural networks ( http://arxiv.org/abs/2104.13166v1 )

ライセンス: Link先を確認
Clara L. Galimberti, Liang Xu, Giancarlo Ferrari Trecate(参考訳) 深層ニューラルネットワーク(DNN)のトレーニングは、重み付け最適化中に勾配の消滅/拡大が発生するため困難である。 この問題を回避するために、ハミルトン系の時間離散化から派生したDNNのクラスを提案する。 対応するハミルトンモデルの時間不変バージョンは、以前の研究や特定のDNNアーキテクチャで示されているように、勾配のゼロあるいは分岐への収束を緩和できる性質である限界安定性を享受する。 本稿では,この特徴を連続時間における逆勾配ダイナミクスの導出と解析により正式に研究する。 提案されたハミルトンのフレームワークは、限界的に安定なODEにインスパイアされた既存のネットワークを包含する以外に、新しいより表現力のあるアーキテクチャを導出することができる。 新たなDNNの性能は、MNISTデータセットを用いた数値認識を含むベンチマーク分類問題で実証される。

Training deep neural networks (DNNs) can be difficult due to the occurrence of vanishing/exploding gradients during weight optimization. To avoid this problem, we propose a class of DNNs stemming from the time discretization of Hamiltonian systems. The time-invariant version of the corresponding Hamiltonian models enjoys marginal stability, a property that, as shown in previous works and for specific DNNs architectures, can mitigate convergence to zero or divergence of gradients. In the present paper, we formally study this feature by deriving and analysing the backward gradient dynamics in continuous time. The proposed Hamiltonian framework, besides encompassing existing networks inspired by marginally stable ODEs, allows one to derive new and more expressive architectures. The good performance of the novel DNNs is demonstrated on benchmark classification problems, including digit recognition using the MNIST dataset.
翻訳日:2021-04-28 13:25:08 公開日:2021-04-27
# 低曲げおよび低歪み多様体埋め込みの学習

Learning low bending and low distortion manifold embeddings ( http://arxiv.org/abs/2104.13189v1 )

ライセンス: Link先を確認
Juliane Braunsmann, Marko Rajkovi\'c, Martin Rumpf, Benedikt Wirth(参考訳) オートエンコーダは、高次元データを低次元の表現に変換する機械学習において広く使われているツールである。 エンコーダは入力データ多様体から潜在空間への埋め込みを提供し、さらなる処理に使用できる。 例えば、多様体上の学習補間は、潜在空間における新しい多様体表現を通して単純化することができる。 このようなさらなる処理の効率は、埋め込みの規則性と構造に大きく依存する。 この記事では、潜在空間への埋め込みは、等尺的かつ可能な限り平坦な埋め込みを促進する損失関数によって正規化されます。 所要の訓練データは、入力多様体上の近傍点のペアと、局所距離および局所フレシェ平均とからなる。 この正規性損失関数は、自分自身でエンコーダをトレーニングすることさえできる。 損失汎関数はモンテカルロ積分によって計算され、埋め込み写像上で直接定義される幾何学的損失汎関数と一致することが示されている。 数値テストは、異なるデータ多様体を符号化する画像データを用いて行われる。 その結果, 潜在空間への滑らかな多様体埋め込みが得られた。 これらの埋め込みは十分正則であり、多様体上の遠くない点の間の補間は、潜在空間における線型補間によってよく近似される。

Autoencoders are a widespread tool in machine learning to transform high-dimensional data into a lowerdimensional representation which still exhibits the essential characteristics of the input. The encoder provides an embedding from the input data manifold into a latent space which may then be used for further processing. For instance, learning interpolation on the manifold may be simplified via the new manifold representation in latent space. The efficiency of such further processing heavily depends on the regularity and structure of the embedding. In this article, the embedding into latent space is regularized via a loss function that promotes an as isometric and as flat embedding as possible. The required training data comprises pairs of nearby points on the input manifold together with their local distance and their local Frechet average. This regularity loss functional even allows to train the encoder on its own. The loss functional is computed via a Monte Carlo integration which is shown to be consistent with a geometric loss functional defined directly on the embedding map. Numerical tests are performed using image data that encodes different data manifolds. The results show that smooth manifold embeddings in latent space are obtained. These embeddings are regular enough such that interpolation between not too distant points on the manifold is well approximated by linear interpolation in latent space.
翻訳日:2021-04-28 13:24:52 公開日:2021-04-27
# Building-GAN: グラフによるアーキテクチャボリューム設計生成

Building-GAN: Graph-Conditioned Architectural Volumetric Design Generation ( http://arxiv.org/abs/2104.13316v1 )

ライセンス: Link先を確認
Kai-Hung Chang, Chin-Yi Cheng, Jieliang Luo, Shingo Murata, Mehdi Nourbakhsh, Yoshito Tsuji(参考訳) ボリュームデザインは、建築設計における最初の重要なステップであり、建築家は建物の粗い3D形状を描写するだけでなく、各階に2Dレイアウトを形成するプログラムを規定する。 単層建物の2次元レイアウト生成は広く研究されているが,多層建築の手法は開発されていない。 本稿では,入力プログラムグラフに基づくボリュームデザイン生成について述べる。 密度の高い3次元ボクセルを出力する代わりに、ジオメトリを構築するためにコンパクトかつ表現性の高い新しい3次元表現であるボクセルグラフを提案する。 我々のジェネレータは,入力プログラムグラフと出力ボクセルグラフを接続するポインタ機構を用いたクロスモーダルグラフニューラルネットワークであり,パイプライン全体を逆向きのフレームワークを用いてトレーニングする。 生成した設計は、ユーザ調査によって質的に評価され、品質、多様性、接続精度の3つの指標を用いて定量的に評価される。 このモデルが現実的な3dボリュームデザインを生成し,従来の手法やベースラインを上回っていることを示す。

Volumetric design is the first and critical step for professional building design, where architects not only depict the rough 3D geometry of the building but also specify the programs to form a 2D layout on each floor. Though 2D layout generation for a single story has been widely studied, there is no developed method for multi-story buildings. This paper focuses on volumetric design generation conditioned on an input program graph. Instead of outputting dense 3D voxels, we propose a new 3D representation named voxel graph that is both compact and expressive for building geometries. Our generator is a cross-modal graph neural network that uses a pointer mechanism to connect the input program graph and the output voxel graph, and the whole pipeline is trained using the adversarial framework. The generated designs are evaluated qualitatively by a user study and quantitatively using three metrics: quality, diversity, and connectivity accuracy. We show that our model generates realistic 3D volumetric designs and outperforms previous methods and baselines.
翻訳日:2021-04-28 13:24:35 公開日:2021-04-27
# 深部予測モデルによるネットワーク埋め込み

Network Embedding via Deep Prediction Model ( http://arxiv.org/abs/2104.13323v1 )

ライセンス: Link先を確認
Xin Sun, Zenghui Song, Yongbo Yu, Junyu Dong, Claudia Plant, and Christian Boehm(参考訳) ネットワーク構造化データは日常生活においてユビキタスになり、急速に成長している。 データの非線形性や疎性が高いため、機能エンジニアリングには大きな課題があります。 実世界のネットワークの局所的および大域的構造は、ノード間の動的移動挙動によって反映される。 本稿では,深層予測モデルを用いて,構造化ネットワーク上の伝達挙動を捉えるネットワーク埋め込みフレームワークを提案する。 まず,ネットワーク上での伝達挙動を捉えるために,次数重みバイアス付きランダムウォークモデルの設計を行った。 次に、ノード間の転送可能性を保存するためにディープネットワーク埋め込み手法を導入する。 シーケンス予測能力を利用するために、Long Short-Term Memory NetworkやRecurrent Neural Networkを含む従来の深層予測モデルにネットワーク構造埋め込み層を付加する。 局所的なネットワーク近傍を維持するために,埋め込み特徴表現に対するラプラシアン教師付き空間最適化を行う。 ソーシャルネットワーク, 引用ネットワーク, バイオメディカルネットワーク, 協調ネットワーク, 言語ネットワークなど, さまざまなデータセットについて実験を行った。 その結果,学習表現はクラスタリング,可視化,分類,再構築,リンク予測などの様々なタスクで有効に利用でき,最先端の表現と比較して有望な性能が得られることがわかった。

Network-structured data becomes ubiquitous in daily life and is growing at a rapid pace. It presents great challenges to feature engineering due to the high non-linearity and sparsity of the data. The local and global structure of the real-world networks can be reflected by dynamical transfer behaviors among nodes. This paper proposes a network embedding framework to capture the transfer behaviors on structured networks via deep prediction models. We first design a degree-weight biased random walk model to capture the transfer behaviors on the network. Then a deep network embedding method is introduced to preserve the transfer possibilities among the nodes. A network structure embedding layer is added into conventional deep prediction models, including Long Short-Term Memory Network and Recurrent Neural Network, to utilize the sequence prediction ability. To keep the local network neighborhood, we further perform a Laplacian supervised space optimization on the embedding feature representations. Experimental studies are conducted on various datasets including social networks, citation networks, biomedical network, collaboration network and language network. The results show that the learned representations can be effectively used as features in a variety of tasks, such as clustering, visualization, classification, reconstruction and link prediction, and achieve promising performance compared with state-of-the-arts.
翻訳日:2021-04-28 13:24:18 公開日:2021-04-27
# オンデバイスフェデレーション学習に向けて: 直接非循環グラフベースのブロックチェーンアプローチ

Towards On-Device Federated Learning: A Direct Acyclic Graph-based Blockchain Approach ( http://arxiv.org/abs/2104.13092v1 )

ライセンス: Link先を確認
Mingrui Cao, Long Zhang, Bin Cao(参考訳) フェデレーション学習(fl)の分散特性から,グローバルモデルの脆弱性とデバイスの協調が大きな障害となっている。 分散化、スケーラビリティ、セキュリティの有望なソリューションとして、flでブロックチェーンを活用することが近年注目を集めている。 しかし、Proof of Work(PoW)のようなブロックチェーン用に設計された従来のコンセンサスメカニズムは、特にワイヤレスでリソース制限のあるデバイスでは、FLの効率を大幅に低下させる、極端なリソース消費を引き起こす。 本稿では, 直接非巡回グラフ(DAG-FL)に基づくブロックチェーンを系統的に活用し, FLの非同期性や異常検出に対処し, ブロックチェーンによる余分なリソース消費を回避するためのフレームワークを提案する。 したがって、DAG-FLは3層アーキテクチャから詳細に導入され、DAG-FL制御とDAG-FL更新という2つのアルゴリズムが異なるノード上で動作し、DAG-FLコンセンサス機構の動作を詳細に記述する。 その後、Poissonプロセスモデルが定式化され、異なるフェデレーション学習タスクにおいて、DAG-FLを安定的に維持するためのデプロイメントパラメータの設定方法が議論される。 大規模なシミュレーションと実験により,DAG-FLは,既存のデバイス上でのフェデレーション学習システムと比較すると,トレーニング効率とモデル精度で優れた性能が得られることが示された。

Due to the distributed characteristics of Federated Learning (FL), the vulnerability of global model and coordination of devices are the main obstacle. As a promising solution of decentralization, scalability and security, leveraging blockchain in FL has attracted much attention in recent years. However, the traditional consensus mechanisms designed for blockchain like Proof of Work (PoW) would cause extreme resource consumption, which reduces the efficiency of FL greatly, especially when the participating devices are wireless and resource-limited. In order to address device asynchrony and anomaly detection in FL while avoiding the extra resource consumption caused by blockchain, this paper introduces a framework for empowering FL using Direct Acyclic Graph (DAG)-based blockchain systematically (DAG-FL). Accordingly, DAG-FL is first introduced from a three-layer architecture in details, and then two algorithms DAG-FL Controlling and DAG-FL Updating are designed running on different nodes to elaborate the operation of DAG-FL consensus mechanism. After that, a Poisson process model is formulated to discuss that how to set deployment parameters to maintain DAG-FL stably in different federated learning tasks. The extensive simulations and experiments show that DAG-FL can achieve better performance in terms of training efficiency and model accuracy compared with the typical existing on-device federated learning systems as the benchmarks.
翻訳日:2021-04-28 13:23:44 公開日:2021-04-27
# 再帰的品質対策による記述論理的内容の良質な証明(拡張技術報告)

Finding Good Proofs for Description Logic Entailments Using Recursive Quality Measures (Extended Technical Report) ( http://arxiv.org/abs/2104.13138v1 )

ライセンス: Link先を確認
Christian Alrabbaa and Franz Baader and Stefan Borgwardt and Patrick Koopmann and Alisa Kovtunova(参考訳) 論理ベースのAIアプローチは、その振る舞いを原則としてユーザに説明できるという利点がある。 例えば、記述論理の推論器がシステム全体の何らかの作用を誘発する帰結を導出するならば、その帰結の証明を適切な計算で示すことで、そのような包含を説明することができる。 そのような証明がいかに理解可能であるかは、使用済みの計算量だけでなく、その全体の大きさ、深さ、使用済みの文の複雑さ、証明ステップなど、特定の証明の性質にも依存する。 このため、あるしきい値 w.r.t 未満の証明を生成する複雑さを判定したい。 与えられた証明品質の尺度。 固定証明計算や固定測度についてこの問題を研究するのではなく、計算量や測度の広いクラスを対象とする一般的な結果を求める。 先行研究では,まず,証明サイズを用いて証明の質を計測する設定に注意を限定した。 その後、より一般的な設定にアプローチを拡張したが、証明深さのような重要な尺度はカバーされなかった。 本稿では, 再帰的(recursive) と呼ばれる, より低い複雑性を生じ, 証明深度も含む尺度のクラスに対して, 結果を提供する。 さらに、前回の作業で開いたいくつかのギャップをクローズし、複雑さの状況の全体像を提供します。

Logic-based approaches to AI have the advantage that their behavior can in principle be explained to a user. If, for instance, a Description Logic reasoner derives a consequence that triggers some action of the overall system, then one can explain such an entailment by presenting a proof of the consequence in an appropriate calculus. How comprehensible such a proof is depends not only on the employed calculus, but also on the properties of the particular proof, such as its overall size, its depth, the complexity of the employed sentences and proof steps, etc. For this reason, we want to determine the complexity of generating proofs that are below a certain threshold w.r.t. a given measure of proof quality. Rather than investigating this problem for a fixed proof calculus and a fixed measure, we aim for general results that hold for wide classes of calculi and measures. In previous work, we first restricted the attention to a setting where proof size is used to measure the quality of a proof. We then extended the approach to a more general setting, but important measures such as proof depth were not covered. In the present paper, we provide results for a class of measures called recursive, which yields lower complexities and also encompasses proof depth. In addition, we close some gaps left open in our previous work, thus providing a comprehensive picture of the complexity landscape.
翻訳日:2021-04-28 13:23:16 公開日:2021-04-27
# 人工知能を用いた地震不安定性制御

Controlling earthquake-like instabilities using artificial intelligence ( http://arxiv.org/abs/2104.13180v1 )

ライセンス: Link先を確認
Efthymios Papachristos and Ioannis Stefanou(参考訳) 地震は致命的かつ費用がかかる。 本研究は, 強化学習を通じて得られた注入ポリシーの適用により, 破滅的な事態を避けることを目的とする。 人工知能の急速な成長に伴い、予測制御問題は特定のタスクを制御する方法を学ぶ関数近似モデルによって、さらに取り組まれている。 本稿では,最先端の深層補強学習手法を用いて,地震様不安定性を制御する可能性を示す。 コントローラは、物理システムの縮小されたモデル、すなわち、与えられた地震マグニチュードに対する物理問題のメインダイナミクスを具現化したスプリングスライダーモデルを用いて訓練される。 非モデル力学に対するロバスト性はパラメトリック研究を通じて探究される。 本研究は, 産業プロジェクト(地熱エネルギー, 炭化水素生産, 二酸化炭素回収)における地震活動の最小化に向けた第一歩であり, 自然地震対策と防止のための技術革新のための第2段階である。

Earthquakes are lethal and costly. This study aims at avoiding these catastrophic events by the application of injection policies retrieved through reinforcement learning. With the rapid growth of artificial intelligence, prediction-control problems are all the more tackled by function approximation models that learn how to control a specific task, even for systems with unmodeled/unknown dynamics and important uncertainties. Here, we show for the first time the possibility of controlling earthquake-like instabilities using state-of-the-art deep reinforcement learning techniques. The controller is trained using a reduced model of the physical system, i.e, the spring-slider model, which embodies the main dynamics of the physical problem for a given earthquake magnitude. Its robustness to unmodeled dynamics is explored through a parametric study. Our study is a first step towards minimizing seismicity in industrial projects (geothermal energy, hydrocarbons production, CO2 sequestration) while, in a second step for inspiring techniques for natural earthquakes control and prevention.
翻訳日:2021-04-28 13:22:42 公開日:2021-04-27
# Proceedings - AI/ML for Cybersecurity: Challenges, Solutions, and New Ideas at SIAM Data Mining 2021

Proceedings - AI/ML for Cybersecurity: Challenges, Solutions, and Novel Ideas at SIAM Data Mining 2021 ( http://arxiv.org/abs/2104.13254v1 )

ライセンス: Link先を確認
John Emanuello, Kimberly Ferguson-Walter, Erik Hemberg, Una-May O Reilly, Ahmad Ridley, Dennis Ross, Diane Staheli, William Streilein(参考訳) 悪意あるサイバー活動はユビキタスであり、その有害な影響は社会に劇的かつしばしば不可逆的な影響を及ぼす。 サイバーセキュリティの専門家の不足、絶え間なく進化する敵、攻撃の証拠を含む大量のデータ、防衛措置を取らなければならないスピードを考えると、サイバーセキュリティにおける自律性を実現するイノベーションは、反応性のある防衛姿勢から、より積極的なものへと拡大し続けなければならない。 この分野の課題は、コンピュータビジョンのような他の領域にAIを適用することに関連する問題とは大きく異なる。 環境は極めて高い不確実性に苦しめられ、利用可能なすべてのデータを取り込むことの難しさや、悪意のあるアクターがデータを操作している可能性から生じる。 この領域におけるもう一つのユニークな挑戦は、敵のダイナミズムが妥協の指標を警告なしで頻繁に変化させる。 これらの課題にもかかわらず、機械学習はこの分野に適用され、検出の分野で成功を収めている。 この問題のこの側面は解決には程遠いが、商業部門の成長は、サービスとしてのML強化機能を提供しようとしている。 これらのエンティティの多くは、これらの自動化ソリューションのデプロイを容易にするプラットフォームも提供する。 この分野の学術研究は成長を続けており、現在のソリューションに影響を与え続けており、この分野における自律的なエージェントの可能性を高める基礎知識を強化している。

Malicious cyber activity is ubiquitous and its harmful effects have dramatic and often irreversible impacts on society. Given the shortage of cybersecurity professionals, the ever-evolving adversary, the massive amounts of data which could contain evidence of an attack, and the speed at which defensive actions must be taken, innovations which enable autonomy in cybersecurity must continue to expand, in order to move away from a reactive defense posture and towards a more proactive one. The challenges in this space are quite different from those associated with applying AI in other domains such as computer vision. The environment suffers from an incredibly high degree of uncertainty, stemming from the intractability of ingesting all the available data, as well as the possibility that malicious actors are manipulating the data. Another unique challenge in this space is the dynamism of the adversary causes the indicators of compromise to change frequently and without warning. In spite of these challenges, machine learning has been applied to this domain and has achieved some success in the realm of detection. While this aspect of the problem is far from solved, a growing part of the commercial sector is providing ML-enhanced capabilities as a service. Many of these entities also provide platforms which facilitate the deployment of these automated solutions. Academic research in this space is growing and continues to influence current solutions, as well as strengthen foundational knowledge which will make autonomous agents in this space a possibility.
翻訳日:2021-04-28 13:22:25 公開日:2021-04-27
# 階層化とシャーディングによるセキュアで効率的な連合学習

Secure and Efficient Federated Learning Through Layering and Sharding Blockchain ( http://arxiv.org/abs/2104.13130v1 )

ライセンス: Link先を確認
Shuo Yuan, Bin Cao, Yao Sun, Mugen Peng(参考訳) 連合学習(federated learning, ffl)は、クラウド中心の機械学習手法によって引き起こされるシステム的プライバシリスクと通信コストを軽減するための、有望なマスタ/スレーブ学習パラダイムとして浮上した。 しかし、モデル収束速度と精度を保証しながら、マスターアグリゲータの単一障害点と悪意のある参加者からの攻撃に抵抗することは極めて困難である。 近年、ブロックチェーンはFLシステムに導入され、パラダイムを分散化してシステムのセキュリティと学習信頼性をさらに向上させている。 残念ながら、ブロックチェーンシステムの従来のコンセンサスメカニズムとアーキテクチャは、巨大なリソース消費、トランザクションスループットの制限、通信の複雑さのために、大規模なFLタスクをほとんど処理できません。 そこで本稿では,複数のサブチェーンネットワーク(サブチェーン層)と,dag(direct acyclic graph)ベースのメインチェーン(mainchain layer)で構成される,chainsflと呼ばれる2層ブロックチェーン駆動のflフレームワークを提案する。 chainsflでは、サブチェーン層は、少ない範囲の情報交換のために各シャードのスケールを制限し、メインチェーン層は、各シャードが並列かつ非同期に学習モデルを共有および検証し、クロスシャード検証の効率を向上させることができる。 さらに、FLプロシージャをブロックチェーン技術と深く統合するようにカスタマイズし、異常モデルによる歪みを軽減するために改良されたDAGコンセンサス機構を提案する。 概念実証の実装と評価を提供するため、Hyperledger Fabric上の複数のサブチェーンベースがサブチェーン層としてデプロイされ、自己開発型のDAGベースのメインチェーンがメインチェーン層としてデプロイされる。 実験結果から,ChainsFLは既存のFLシステムと比較してトレーニング効率が良好であり,強靭性も優れていることがわかった。

Federated learning (FL) has emerged as a promising master/slave learning paradigm to alleviate systemic privacy risks and communication costs incurred by cloud-centric machine learning methods. However, it is very challenging to resist the single point of failure of the master aggregator and attacks from malicious participants while guaranteeing model convergence speed and accuracy. Recently, blockchain has been brought into FL systems transforming the paradigm to a decentralized manner thus further improve the system security and learning reliability. Unfortunately, the traditional consensus mechanism and architecture of blockchain systems can hardly handle the large-scale FL task due to the huge resource consumption, limited transaction throughput, and high communication complexity. To address these issues, this paper proposes a two-layer blockchaindriven FL framework, called as ChainsFL, which is composed of multiple subchain networks (subchain layer) and a direct acyclic graph (DAG)-based mainchain (mainchain layer). In ChainsFL, the subchain layer limits the scale of each shard for a small range of information exchange, and the mainchain layer allows each shard to share and validate the learning model in parallel and asynchronously to improve the efficiency of cross-shard validation. Furthermore, the FL procedure is customized to deeply integrate with blockchain technology, and the modified DAG consensus mechanism is proposed to mitigate the distortion caused by abnormal models. In order to provide a proof-ofconcept implementation and evaluation, multiple subchains base on Hyperledger Fabric are deployed as the subchain layer, and the self-developed DAG-based mainchain is deployed as the mainchain layer. The experimental results show that ChainsFL provides acceptable and sometimes better training efficiency and stronger robustness compared with the typical existing FL systems.
翻訳日:2021-04-28 13:21:45 公開日:2021-04-27
# 3次元PET/CT画像のエビデンシャルセグメンテーション

Evidential segmentation of 3D PET/CT images ( http://arxiv.org/abs/2104.13293v1 )

ライセンス: Link先を確認
Ling Huang, Su Ruan, Pierre Decazes, Thierry Denoeux(参考訳) PETとCTは医用画像解析に広く用いられている2つのモダリティである。 これら2つの画像モダリティから正確なリンパ腫の検出と分節化は、がんのステージングと放射線治療計画にとって重要な課題である。 しかし,PET/CT画像の複雑化や3Dデータの処理に要する計算コストのため,この作業は依然として困難である。 本稿では,3次元PET/CT画像のセグメンテーションリンパ腫に対して,信念関数に基づくセグメンテーション法を提案する。 アーキテクチャは、特徴抽出モジュールと、証拠セグメンテーション(es)モジュールから構成されている。 ESモジュールはセグメンテーション結果(各ボクセルにリンパ腫の有無を示すバイナリマップ)だけでなく、分類の不確実性を定量化する不確実性マップも出力する。 モデル全体の最適化はDiceと不確実性損失関数を最小化し、セグメンテーション精度を向上する。 びまん性大細胞性b細胞リンパ腫173例のデータベース上で評価した。 定量的および定性的な結果から,本手法は最先端の手法よりも優れていることが示された。

PET and CT are two modalities widely used in medical image analysis. Accurately detecting and segmenting lymphomas from these two imaging modalities are critical tasks for cancer staging and radiotherapy planning. However, this task is still challenging due to the complexity of PET/CT images, and the computation cost to process 3D data. In this paper, a segmentation method based on belief functions is proposed to segment lymphomas in 3D PET/CT images. The architecture is composed of a feature extraction module and an evidential segmentation (ES) module. The ES module outputs not only segmentation results (binary maps indicating the presence or absence of lymphoma in each voxel) but also uncertainty maps quantifying the classification uncertainty. The whole model is optimized by minimizing Dice and uncertainty loss functions to increase segmentation accuracy. The method was evaluated on a database of 173 patients with diffuse large b-cell lymphoma. Quantitative and qualitative results show that our method outperforms the state-of-the-art methods.
翻訳日:2021-04-28 13:20:47 公開日:2021-04-27
# NTIRE 2021 Depth Guided Image Relighting Challenge

NTIRE 2021 Depth Guided Image Relighting Challenge ( http://arxiv.org/abs/2104.13365v1 )

ライセンス: Link先を確認
Majed El Helou and Ruofan Zhou and Sabine Susstrunk and Radu Timofte(参考訳) 画像のリライトは様々な用途で注目を浴びている。 研究の観点からは、領域適応のための画像正規化とデータ拡張のための画像リライティングを利用することができる。 また、写真モンタージュや審美強化に複数の直接的用途がある。 本稿では NTIRE 2021 depth guided image relighting Challenge について概説する。 深度情報を含む2つのチャレンジトラックそれぞれについて、viditデータセットに依存しています。 第1トラックは、入力画像(色温度と光源位置)の照明設定を目標照明設定に変換することを目標とするワンツーワン照明である。 第2のトラックであるany-to-any relighting challengeでは、入力画像の照明設定を、スタイル転送と同様に、他のガイド画像の照明設定に合わせるように変換することを目的としている。 両トラックとも、参加者は撮影したシーンについて深い情報を得た。 登録参加者は250人近くで,最終コンペティションステージには18のチームが参加しています。 本論文では,競争,方法,最終結果について述べる。

Image relighting is attracting increasing interest due to its various applications. From a research perspective, image relighting can be exploited to conduct both image normalization for domain adaptation, and also for data augmentation. It also has multiple direct uses for photo montage and aesthetic enhancement. In this paper, we review the NTIRE 2021 depth guided image relighting challenge. We rely on the VIDIT dataset for each of our two challenge tracks, including depth information. The first track is on one-to-one relighting where the goal is to transform the illumination setup of an input image (color temperature and light source position) to the target illumination setup. In the second track, the any-to-any relighting challenge, the objective is to transform the illumination settings of the input image to match those of another guide image, similar to style transfer. In both tracks, participants were given depth information about the captured scenes. We had nearly 250 registered participants, leading to 18 confirmed team submissions in the final competition stage. The competitions, methods, and final results are presented in this paper.
翻訳日:2021-04-28 13:20:30 公開日:2021-04-27
# コア・コラプス超新星シミュレーションにおけるエディントンテンソルの深層学習

Deep Learning of the Eddington Tensor in the Core-collapse Supernova Simulation ( http://arxiv.org/abs/2104.13039v1 )

ライセンス: Link先を確認
Akira Harada, Shota Nishikawa, and Shoichi Yamada(参考訳) 我々はニュートリノエネルギー密度,フラックス,流体速度の関数としてディープニューラルネットワーク(DNN)を訓練し,第1原理核崩壊超新星シミュレーションで得られたニュートリノのエディントンテンソルを再現した。 ニュートリノ輸送の最も一般的な近似の1つであるモーメント法は閉包関係を必要とするが、文献で一般的に用いられる解析的閉包関係は、運動量空間におけるニュートリノ角分布のすべての側面を捉えるものではない。 本研究では,ニュートリノエネルギー密度,フラックス,流体速度を入力とし,エディントンテンソルを出力とするdnnを用いた閉包関係を開発した。 従来のdnnであるcomponent-wise neural network(cwnn)とtensor-basis neural network(tbnn)である。 その結果, テンソルの対角成分は, 低エネルギーから中エネルギーのM1閉鎖関係よりもDNNの方がよく再現できることがわかった。 対角成分について、DNNは大きな半径でのM1閉包よりもボルツマン解法によく一致する。 2つのDNNの比較では、TBNNはCWNNよりも若干性能が良い。 dnnに基づく新しい閉鎖関係により、エディントンテンソルをはるかに少ないコストで再現できるようになり、モーメント法の新しい可能性を開いた。

We trained deep neural networks (DNNs) as a function of the neutrino energy density, flux, and the fluid velocity to reproduce the Eddington tensor for neutrinos obtained in our first-principles core-collapse supernova (CCSN) simulations. Although the moment method, which is one of the most popular approximations for neutrino transport, requires a closure relation, none of the analytical closure relations commonly employed in the literature captures all aspects of the neutrino angular distribution in momentum space. In this paper, we developed a closure relation by using the DNN that takes the neutrino energy density, flux, and the fluid velocity as the input and the Eddington tensor as the output. We consider two kinds of DNNs: a conventional DNN named a component-wise neural network (CWNN) and a tensor-basis neural network (TBNN). We found that the diagonal component of the Eddington tensor is reproduced better by the DNNs than the M1-closure relation especially for low to intermediate energies. For the off-diagonal component, the DNNs agree better with the Boltzmann solver than the M1 closure at large radii. In the comparison between the two DNNs, the TBNN has slightly better performance than the CWNN. With the new closure relations at hand based on the DNNs that well reproduce the Eddington tensor with much smaller costs, we opened up a new possibility for the moment method.
翻訳日:2021-04-28 13:19:52 公開日:2021-04-27
# 畳み込みニューラルネットワークにおける特性推定攻撃:ターゲットモデルの複雑度の影響と意味

Property Inference Attacks on Convolutional Neural Networks: Influence and Implications of Target Model's Complexity ( http://arxiv.org/abs/2104.13061v1 )

ライセンス: Link先を確認
Mathias P. M. Parisot, Balazs Pejo and Dayana Spagnuelo(参考訳) 機械学習モデルの目標は、データから重要な特性やパターンを学ぶことで、特定のタスクの正確な予測を行うことである。 そうすることで、モデルは、その主要なタスクとは無関係なプロパティを学習する可能性がある。 プロパティ推論は、これを活用し、モデルの第一の目標とは無関係に見えるトレーニングデータセットに関する所定のモデル(ターゲットモデルを参照)プロパティから推論することを目的としている。 トレーニングデータがセンシティブであれば、そのような攻撃はプライバシーの漏洩につながる可能性がある。 本稿では,対象モデルの複雑さが,畳み込みニューラルネットワーク分類器に着目し,この種の攻撃の正確性に与える影響について検討する。 顔画像で訓練されたモデルに対して攻撃を行い、相手の口が開いているかを予測する。 私たちの攻撃目標は、トレーニングデータセットが性別的にバランスしているかどうかを推測することです。 調査結果から,プライバシ侵害のリスクは,ターゲットモデルの複雑さとは独立して存在していることが明らかになった。 本稿では,個人情報に対する財産推論の意義について,データ保護規則とガイドラインに照らして論じる。

Machine learning models' goal is to make correct predictions for specific tasks by learning important properties and patterns from data. By doing so, there is a chance that the model learns properties that are unrelated to its primary task. Property Inference Attacks exploit this and aim to infer from a given model (\ie the target model) properties about the training dataset seemingly unrelated to the model's primary goal. If the training data is sensitive, such an attack could lead to privacy leakage. This paper investigates the influence of the target model's complexity on the accuracy of this type of attack, focusing on convolutional neural network classifiers. We perform attacks on models that are trained on facial images to predict whether someone's mouth is open. Our attacks' goal is to infer whether the training dataset is balanced gender-wise. Our findings reveal that the risk of a privacy breach is present independently of the target model's complexity: for all studied architectures, the attack's accuracy is clearly over the baseline. We discuss the implication of the property inference on personal data in the light of Data Protection Regulations and Guidelines.
翻訳日:2021-04-28 13:19:26 公開日:2021-04-27
# マルチフェアパレートブースティング

Multi-Fair Pareto Boosting ( http://arxiv.org/abs/2104.13312v1 )

ライセンス: Link先を確認
Arjun Roy, Vasileios Iosifidis, Eirini Ntoutsi(参考訳) 複数の保護された属性に対するフェアネス対応機械学習(以下、マルチフェアネスと呼ぶ)が注目されている。 他の保護された属性 既存のメソッドは、このドメイン内のデータセットがしばしば不均衡であるという事実を無視しており、マイノリティクラスに対する不公平な決定に繋がる。 したがって,マルチフェアネスを達成し,全体としての正確な予測性能と,異なるクラス間でのバランスの取れたパフォーマンスを実現するためのソリューションが必要であり,そのために,複数属性の保護されたグループとクラスメンバシップの両方を考慮して不公平さを計測する新たなフェアネス概念であるMulti-Max Mistreatment(MMM)を導入する。 MMM-fair分類器を学習するために,多目的問題の定式化を提案する。 配信更新と後学習におけるマルチフェアネス処理を取り入れたブースティング手法を用いて、複数のパレート最適解を見つけ出し、擬似重みに基づく意思決定を用いて、正確でバランスの取れた複数属性の公正解の中から最適な解を選択する。

Fairness-aware machine learning for multiple protected at-tributes (referred to as multi-fairness hereafter) is receiving increasing attention as traditional single-protected attribute approaches cannot en-sure fairness w.r.t. other protected attributes. Existing methods, how-ever, still ignore the fact that datasets in this domain are often imbalanced, leading to unfair decisions towards the minority class. Thus, solutions are needed that achieve multi-fairness,accurate predictive performance in overall, and balanced performance across the different classes.To this end, we introduce a new fairness notion,Multi-Max Mistreatment(MMM), which measures unfairness while considering both (multi-attribute) protected group and class membership of instances. To learn an MMM-fair classifier, we propose a multi-objective problem formulation. We solve the problem using a boosting approach that in-training,incorporates multi-fairness treatment in the distribution update and post-training, finds multiple Pareto-optimal solutions; then uses pseudo-weight based decision making to select optimal solution(s) among accurate, balanced, and multi-attribute fair solutions
翻訳日:2021-04-28 13:18:50 公開日:2021-04-27
# UniTE -- 両方の世界のベスト - 機能フィッティングとアグリゲーションに基づく旅行時間と旅行速度推定アプローチの統一

UniTE -- The Best of Both Worlds: Unifying Function-Fitting and Aggregation-Based Approaches to Travel Time and Travel Speed Estimation ( http://arxiv.org/abs/2104.13321v1 )

ライセンス: Link先を確認
Tobias Skovgaard Jepsen and Christian S. Jensen and Thomas Dyhre Nielsen(参考訳) 旅行時間や速度推定は多くのインテリジェント輸送アプリケーションの一部である。 既存の推定手法は関数のフィッティングまたはアグリゲーションに依存し、一般化可能性と精度の異なるトレードオフを表す。 関数適合アプローチは、例えば経路の特徴ベクトルを走行時間や速度推定にマッピングする関数を学習する。 しかし、写像関数は不完全であり、実際は精度が低い。 アグリゲーションベースのアプローチは、ルートのトラバーサルデータなどの履歴データを集約することで、見積もりを形成する。 これにより十分なデータから非常に高い精度が得られる。 しかし、不十分なデータが利用できる場合、単純なヒューリスティックに頼り、一般化性に乏しい。 本稿では,機能適合型アプローチとアグリゲーションに基づくアプローチを組み合わせて,機能適合型アプローチの一般化性とアグリゲーションに基づくアプローチの正確性を実現する統一フレームワークに,旅行時間と速度推定(UniTE)の統一的アプローチを提案する。 実証実験により、UniTEのインスタンスは、関数フィッティングやアグリゲーションのみを使用する場合と比較して、旅行速度分布の精度と旅行時間推定の精度を40-64\%$と3-23\%$で改善できることがわかった。

Travel time or speed estimation are part of many intelligent transportation applications. Existing estimation approaches rely on either function fitting or aggregation and represent different trade-offs between generalizability and accuracy. Function-fitting approaches learn functions that map feature vectors of, e.g., routes, to travel time or speed estimates, which enables generalization to unseen routes. However, mapping functions are imperfect and offer poor accuracy in practice. Aggregation-based approaches instead form estimates by aggregating historical data, e.g., traversal data for routes. This enables very high accuracy given sufficient data. However, they rely on simplistic heuristics when insufficient data is available, yielding poor generalizability. We present a Unifying approach to Travel time and speed Estimation (UniTE) that combines function-fitting and aggregation-based approaches into a unified framework that aims to achieve the generalizability of function-fitting approaches and the accuracy of aggregation-based approaches. An empirical study finds that an instance of UniTE can improve the accuracies of travel speed distribution and travel time estimation by $40-64\%$ and $3-23\%$, respectively, compared to using function fitting or aggregation alone
翻訳日:2021-04-28 13:18:28 公開日:2021-04-27
# 影響のあるリードシートの生成:新しい条件付きseq2seqフレームワーク

Generating Lead Sheets with Affect: A Novel Conditional seq2seq Framework ( http://arxiv.org/abs/2104.13056v1 )

ライセンス: Link先を確認
Dimos Makris, Kat R. Agres, Dorien Herremans(参考訳) オートマチック・ミュージック・コンポジションの分野はここ数年で大きな進歩を遂げており、その多くはディープ・ニューラル・ネットワークの進歩によるものである。 スクラッチから楽譜を生成するための異なる戦略を示す多くの研究がある。 しかし、高レベルの音楽的特徴(例えば、感情的な特性)を、生成出力を制御するための条件として含めることは、依然として課題である。 本稿では,リードシート内のコード進行の価(知覚感情の正負性)を,音楽専門家が提案する事前定義された気分タグを用いて計算する手法を提案する。 提案手法では,楽譜生成のための条件付きリードシート生成手法を提案する。 我々のアプローチはニューラルネットワーク翻訳(nmt)の問題と似ており、使用するシーケンス・ツー・シーケンスアーキテクチャ(すなわち、長期記憶ネットワークとトランスフォーマーネットワーク)のエンコーダ部分に高レベルな条件を含む。 この2つのアーキテクチャを徹底的に解析する実験を行った。 その結果,提案手法は鉛シートを制御可能な方法で生成することができ,その結果,学習データセットと類似した音楽属性の分布が得られた。 また,提案手法が生成したコード進行量の制御に有効であることを主観的聴取テストを通じて検証した。

The field of automatic music composition has seen great progress in the last few years, much of which can be attributed to advances in deep neural networks. There are numerous studies that present different strategies for generating sheet music from scratch. The inclusion of high-level musical characteristics (e.g., perceived emotional qualities), however, as conditions for controlling the generation output remains a challenge. In this paper, we present a novel approach for calculating the valence (the positivity or negativity of the perceived emotion) of a chord progression within a lead sheet, using pre-defined mood tags proposed by music experts. Based on this approach, we propose a novel strategy for conditional lead sheet generation that allows us to steer the music generation in terms of valence, phrasing, and time signature. Our approach is similar to a Neural Machine Translation (NMT) problem, as we include high-level conditions in the encoder part of the sequence-to-sequence architectures used (i.e., long-short term memory networks, and a Transformer network). We conducted experiments to thoroughly analyze these two architectures. The results show that the proposed strategy is able to generate lead sheets in a controllable manner, resulting in distributions of musical attributes similar to those of the training dataset. We also verified through a subjective listening test that our approach is effective in controlling the valence of a generated chord progression.
翻訳日:2021-04-28 13:17:30 公開日:2021-04-27
# 位相非感性距離計算による効率的なチャネルチャート作成

Efficient channel charting via phase-insensitive distance computation ( http://arxiv.org/abs/2104.13184v1 )

ライセンス: Link先を確認
Luc Le Magoarou (IRT b-com, Hypermedia)(参考訳) チャネルチャート化は、チャネルを符号化して、取得した表現が対応するユーザの相対的な空間的位置を反映するように、教師なしの学習課題である。 ユーザスケジューリングからアクティブなハンドオーバまで、多くの潜在的なアプリケーションがある。 本稿では,チャネルチャート処理に関する無関係な現象である小規模フェーディングの効果を低減するために特別に設計された距離尺度に基づいて,チャネルチャート化手法を提案する。 次に,局所距離(アイソマップ)の保存を目的とした非線形次元減少手法を適用し,実際にチャネル表現を得る。 この手法はリアルなMIMOチャネル上で実証的に検証され、従来提案されていた手法よりも低コストでより良い結果が得られる。

Channel charting is an unsupervised learning task whose objective is to encode channels so that the obtained representation reflects the relative spatial locations of the corresponding users. It has many potential applications, ranging from user scheduling to proactive handover. In this paper, a channel charting method is proposed, based on a distance measure specifically designed to reduce the effect of small scale fading, which is an irrelevant phenomenon with respect to the channel charting task. A nonlinear dimensionality reduction technique aimed at preserving local distances (Isomap) is then applied to actually get the channel representation. The approach is empirically validated on realistic synthetic MIMO channels, achieving better results than previously proposed approaches, at a lower cost.
翻訳日:2021-04-28 13:17:07 公開日:2021-04-27
# 抽象洗練に基づく最適化によるノイズデータセット上の帰納的プログラム合成

Inductive Program Synthesis over Noisy Datasets using Abstraction Refinement Based Optimization ( http://arxiv.org/abs/2104.13315v1 )

ライセンス: Link先を確認
Shivam Handa and Martin Rinard(参考訳) ノイズの多いデータセット、すなわち不正/誤入力出力例を含む可能性のあるデータに対して、プログラム合成を解くための新しい合成アルゴリズムを提案する。 本アルゴリズムでは, ノイズデータセット上の損失と合成プログラムの複雑さとのトレードオフを最適化するプログラムを, 抽象化による最適化プロセスを用いて合成する。 このアルゴリズムは、サブスペース内の全てのプログラムの出力を表す抽象値を計算することで、プログラムの検索空間をサブスペースに分割するために抽象化を使用する。 抽象的な値は,各部分空間に対して,その部分空間内の全てのプログラムに対する損失の音の近似下界を計算できる。 反復的にこれらの抽象化を洗練し、空間をより小さな部分空間、最適なプログラムを含まないプルーン部分空間に分割し、最終的に最適なプログラムを合成する。 我々はこのアルゴリズムをRoseというツールで実装した。 sygus 2018ベンチマークスイートを用いて,現在のノイズの多いプログラム合成システムと比較した。 SyGus 2018ベンチマークスイートから引き出された2つのノイズの多いベンチマークプログラム合成問題において、Roseは最大1587と81.7のスピードアップを提供し、中央値は20.5と81.7である。 Roseはまた、以前のシステムよりも20(54点中)と4(11点中)のベンチマーク問題を終了する。 roseと以前のシステムは、提供された騒がしいデータセットよりも最適なプログラムを合成する。 ベンチマークセットのほとんどの問題(286ドルのうち272ドル)に対して、合成プログラムは元の(目に見えない)ノイズフリーデータセットのすべての入力に対して正しい出力を生成する。 これらの結果は、Roseが効果的なノイズの多いプログラム合成にもたらすメリットを強調している。

We present a new synthesis algorithm to solve program synthesis over noisy datasets, i.e., data that may contain incorrect/corrupted input-output examples. Our algorithm uses an abstraction refinement based optimization process to synthesize programs which optimize the tradeoff between the loss over the noisy dataset and the complexity of the synthesized program. The algorithm uses abstractions to divide the search space of programs into subspaces by computing an abstract value that represents outputs for all programs in a subspace. The abstract value allows our algorithm to compute, for each subspace, a sound approximate lower bound of the loss over all programs in the subspace. It iteratively refines these abstractions to further subdivide the space into smaller subspaces, prune subspaces that do not contain an optimal program, and eventually synthesize an optimal program. We implemented this algorithm in a tool called Rose. We compare Rose to a current state-of-the-art noisy program synthesis system using the SyGuS 2018 benchmark suite. Our evaluation demonstrates that Rose significantly outperforms this previous system: on two noisy benchmark program synthesis problems sets drawn from the SyGus 2018 benchmark suite, Rose delivers speedups of up to 1587 and 81.7, with median speedups of 20.5 and 81.7. Rose also terminates on 20 (out of 54) and 4 (out of 11) more benchmark problems than the previous system. Both Rose and the previous system synthesize programs that are optimal over the provided noisy data sets. For the majority of the problems in the benchmark sets ($272$ out of $286$), the synthesized programs also produce correct outputs for all inputs in the original (unseen) noise-free data set. These results highlight the benefits that Rose can deliver for effective noisy program synthesis.
翻訳日:2021-04-28 13:16:36 公開日:2021-04-27
# マルチモーダル分析:インフォームドコンテンツ推定と音源分離

MULTIMODAL ANALYSIS: Informed content estimation and audio source separation ( http://arxiv.org/abs/2104.13276v1 )

ライセンス: Link先を確認
Gabriel Meseguer-Brocal(参考訳) この論文は音楽信号の文脈におけるマルチモーダル学習の研究を提案する。 全体として、音声信号とテキスト情報の相互作用に注目している。 利用可能な音楽に関連する多くのテキストソース(例えば、) レビュー、メタデータ、ソーシャルネットワークからのフィードバック)は歌詞に集中します。 歌声は、言語的な次元が楽器の抽象化を補完するメロディと歌詞を結合して、オーディオ信号とテキスト情報をユニークな方法で直接接続する。 本研究では,音源分離と情報コンテンツ推定のための音声と歌詞の相互作用に着目した。

This dissertation proposes the study of multimodal learning in the context of musical signals. Throughout, we focus on the interaction between audio signals and text information. Among the many text sources related to music that can be used (e.g. reviews, metadata, or social network feedback), we concentrate on lyrics. The singing voice directly connects the audio signal and the text information in a unique way, combining melody and lyrics where a linguistic dimension complements the abstraction of musical instruments. Our study focuses on the audio and lyrics interaction for targeting source separation and informed content estimation.
翻訳日:2021-04-28 13:16:08 公開日:2021-04-27
# (参考訳) 経験的測度の収束のための次元自由測度の一クラス

A Class of Dimensionality-free Metrics for the Convergence of Empirical Measures ( http://arxiv.org/abs/2104.12036v2 )

ライセンス: CC BY 4.0
Jiequn Han, Ruimeng Hu, Jihao Long(参考訳) 本稿では,高次元における経験的測度の収束について述べる。 我々は,新しい尺度のクラスを提案し,そのような尺度の下では,収束が次元性の呪い(CoD)を伴わないことを示す。 このような特徴は高次元解析において重要であり、古典的メトリクスとは対照的である(例)。 は、ワッサーシュタイン距離(Wasserstein distance)。 提案手法は,テスト関数空間を選択するための特定の基準を提案して,CoDを含まない性質を保証することで,平均誤差の最大値から導かれる。 したがって、このメトリクスのクラスを一般化された最大平均差(gmmd)と呼ぶ。 選択されたテスト関数空間の例としては、再生核ヒルベルト空間、バロン空間、フロー誘起関数空間がある。 提案したメトリクスの3つの応用例を示す。 確率変数の場合の経験的測度の収束; 2。 n$粒子系のmckean-vlasov確率微分方程式解への収束; 3。 平均場極限による同質な$n$-playerゲームに対する$\varepsilon$-Nash平衡の構成。 副産物として、gmmdで測定された目標分布に近い分布と目標分布の特定の表現が与えられたとき、ワッサースタイン距離と相対エントロピーの観点で目標分布に近い分布を生成できることを証明する。 全体として,提案するメトリクスクラスは,codを使わずに高次元での経験的測度の収束を分析する強力なツールであることを示す。

This paper concerns the convergence of empirical measures in high dimensions. We propose a new class of metrics and show that under such metrics, the convergence is free of the curse of dimensionality (CoD). Such a feature is critical for high-dimensional analysis and stands in contrast to classical metrics ({\it e.g.}, the Wasserstein distance). The proposed metrics originate from the maximum mean discrepancy, which we generalize by proposing specific criteria for selecting test function spaces to guarantee the property of being free of CoD. Therefore, we call this class of metrics the generalized maximum mean discrepancy (GMMD). Examples of the selected test function spaces include the reproducing kernel Hilbert space, Barron space, and flow-induced function spaces. Three applications of the proposed metrics are presented: 1. The convergence of empirical measure in the case of random variables; 2. The convergence of $n$-particle system to the solution to McKean-Vlasov stochastic differential equation; 3. The construction of an $\varepsilon$-Nash equilibrium for a homogeneous $n$-player game by its mean-field limit. As a byproduct, we prove that, given a distribution close to the target distribution measured by GMMD and a certain representation of the target distribution, we can generate a distribution close to the target one in terms of the Wasserstein distance and relative entropy. Overall, we show that the proposed class of metrics is a powerful tool to analyze the convergence of empirical measures in high dimensions without CoD.
翻訳日:2021-04-28 12:10:29 公開日:2021-04-27
# (参考訳) 文脈における意見の不快表現の同定

Identifying Offensive Expressions of Opinion in Context ( http://arxiv.org/abs/2104.12227v2 )

ライセンス: CC BY 4.0
Francielle Alves Vargas, Isabelle Carvalho, Fabiana Rodrigues de G\'oes(参考訳) 古典的な情報抽出技術は、事実に関する質問と回答を構築することで構成される。 実際、文脈における意見や感情を識別する主観的情報抽出システムは依然として課題である。 感情に基づくNLPタスクでは、文脈における全ての攻撃的または憎悪的な意見よりも、情報抽出のリソースが少ない。 この重要なギャップを埋めるために、本稿では、文脈依存と文脈非依存の2つのクラスで注釈付けされた、明示的で暗黙の攻撃的かつ誓約的な意見表現からなる、新たな言語的・文脈的攻撃的語彙を提供する。 また,ヘイトスピーチを識別するためのマーカーも提供する。 アノテーションを表現レベルで評価し,高い人間間アノテータ合意を達成した。 攻撃的辞書はポルトガル語と英語で提供されている。

Classic information extraction techniques consist in building questions and answers about the facts. Indeed, it is still a challenge to subjective information extraction systems to identify opinions and feelings in context. In sentiment-based NLP tasks, there are few resources to information extraction, above all offensive or hateful opinions in context. To fill this important gap, this short paper provides a new cross-lingual and contextual offensive lexicon, which consists of explicit and implicit offensive and swearing expressions of opinion, which were annotated in two different classes: context dependent and context-independent offensive. In addition, we provide markers to identify hate speech. Annotation approach was evaluated at the expression-level and achieves high human inter-annotator agreement. The provided offensive lexicon is available in Portuguese and English languages.
翻訳日:2021-04-28 11:35:49 公開日:2021-04-27
# (参考訳) オンラインニューラルシンセティックグラディエントを用いた計算形態形成の高速化

Speeding up Computational Morphogenesis with Online Neural Synthetic Gradients ( http://arxiv.org/abs/2104.12282v2 )

ライセンス: CC BY 4.0
Yuyu Zhang, Heng Chi, Binghong Chen, Tsz Ling Elaine Tang, Lucia Mirabella, Le Song, Glaucio H. Paulino(参考訳) 偏微分方程式系(PDE)を制約とする最適化問題として、幅広い近代科学・工学応用が定式化されている。 これらのPDE制約付き最適化問題は、通常標準的な離散化最適化アプローチで解決される。 高解像度のソリューションを必要とする多くの業界アプリケーションにおいて、離散化された制約は簡単に数百万から数十億の変数を持つことができ、標準の反復最適化器が正確な勾配を解くのは非常に遅い。 そこで本研究では,オンラインニューラルネットワーク勾配(ONSG)を用いたPDE制約最適化の高速化を目的とした,新しい2スケール最適化手法を提案する。 我々はPDE制約最適化問題の代表的なクラスである計算形態形成にONSGフレームワークをうまく適用した。 大規模な実験により,提案手法は計算形態素(トポロジー最適化とも呼ばれる)を著しく高速化し,一方,標準最適化器と比較して最終解の質を維持可能であることが示された。 設計変数が約1,400,000の大規模3次元最適設計問題に対して,本手法は最大7.5倍の高速化を実現し,目標値に匹敵する最適化設計を実現する。

A wide range of modern science and engineering applications are formulated as optimization problems with a system of partial differential equations (PDEs) as constraints. These PDE-constrained optimization problems are typically solved in a standard discretize-then-optimize approach. In many industry applications that require high-resolution solutions, the discretized constraints can easily have millions or even billions of variables, making it very slow for the standard iterative optimizer to solve the exact gradients. In this work, we propose a general framework to speed up PDE-constrained optimization using online neural synthetic gradients (ONSG) with a novel two-scale optimization scheme. We successfully apply our ONSG framework to computational morphogenesis, a representative and challenging class of PDE-constrained optimization problems. Extensive experiments have demonstrated that our method can significantly speed up computational morphogenesis (also known as topology optimization), and meanwhile maintain the quality of final solution compared to the standard optimizer. On a large-scale 3D optimal design problem with around 1,400,000 design variables, our method achieves up to 7.5x speedup while producing optimized designs with comparable objectives.
翻訳日:2021-04-28 11:30:06 公開日:2021-04-27
# (参考訳) Syft 0.5: ユニバーサルデプロイ可能な構造化透明性プラットフォーム

Syft 0.5: A Platform for Universally Deployable Structured Transparency ( http://arxiv.org/abs/2104.12385v2 )

ライセンス: CC BY 4.0
Adam James Hall, Madhava Jay, Tudor Cebere, Bogdan Cebere, Koen Lennart van der Veen, George Muraru, Tongye Xu, Patrick Cason, William Abramson, Ayoub Benaissa, Chinmay Shah, Alan Aboudib, Th\'eo Ryffel, Kritika Prakash, Tom Titcombe, Varun Kumar Khare, Maddie Shang, Ionesio Junior, Animesh Gupta, Jason Paumier, Nahua Kang, Vova Manannikov, Andrew Trask(参考訳) syft 0.5は、構造化された透明性システムの普遍的なセットを促進する、プライバシ向上技術の中核的グループを組み合わせた汎用フレームワークである。 このフレームワークは、同型に暗号化されたアクティベーション信号を推論のために分割ニューラルネットワークを介して渡す、新しいプライバシ保護推論情報フローの設計と実装を通じて実証される。 さらに,モデルを計算チェーンに分割することで,モデルの秘密さを犠牲にして,推論の計算時間とアクティベーション信号のペイロードサイズを大幅に削減できることを示した。 我々は,コアとなる構造的透明性原則の提供に関して,提案するフローを評価する。

We present Syft 0.5, a general-purpose framework that combines a core group of privacy-enhancing technologies that facilitate a universal set of structured transparency systems. This framework is demonstrated through the design and implementation of a novel privacy-preserving inference information flow where we pass homomorphically encrypted activation signals through a split neural network for inference. We show that splitting the model further up the computation chain significantly reduces the computation time of inference and the payload size of activation signals at the cost of model secrecy. We evaluate our proposed flow with respect to its provision of the core structural transparency principles.
翻訳日:2021-04-28 11:13:54 公開日:2021-04-27
# (参考訳) 単語感覚の曖昧さ解消のためのノンパラメトリック・マイノショット学習

Non-Parametric Few-Shot Learning for Word Sense Disambiguation ( http://arxiv.org/abs/2104.12677v2 )

ライセンス: CC BY 4.0
Howard Chen, Mengzhou Xia, and Danqi Chen(参考訳) word sense disambiguation (wsd) は自然言語処理における長年の問題である。 教師あり全語wsdにおける1つの重要な課題は、ロングテール分布にある単語の大多数の感覚を分類することである。 例えば、アノテーション付き単語の84%は、semcorトレーニングデータに10未満の例を持っている。 この問題は、単語分布と感覚分布の両方で不均衡が発生するため、より顕著である。 本研究では,このデータ不均衡を解消するために,非パラメトリックな少数ショット学習手法であるmetricwsdを提案する。 エピソード訓練により、ある単語の感覚間の距離を計算することで、MetricWSDは、高頻度の単語から頻繁な単語への知識(学習距離空間)を伝達する。 MetricWSDは、単語周波数に合わせたトレーニングエピソードを構築し、従来の作業でパラメトリックモデルで訓練されたすべての単語を混合するのではなく、歪んだ分布の問題に明示的に対処する。 語彙資源に頼らずに、MetricWSDはパラメトリックな代替品に対して強力な性能を獲得し、統一されたWSD評価ベンチマーク(Raganato et al., 2017b)で75.1 F1スコアを達成した。 我々の分析は、頻繁な単語や感覚が著しく改善されることを示す。

Word sense disambiguation (WSD) is a long-standing problem in natural language processing. One significant challenge in supervised all-words WSD is to classify among senses for a majority of words that lie in the long-tail distribution. For instance, 84% of the annotated words have less than 10 examples in the SemCor training data. This issue is more pronounced as the imbalance occurs in both word and sense distributions. In this work, we propose MetricWSD, a non-parametric few-shot learning approach to mitigate this data imbalance issue. By learning to compute distances among the senses of a given word through episodic training, MetricWSD transfers knowledge (a learned metric space) from high-frequency words to infrequent ones. MetricWSD constructs the training episodes tailored to word frequencies and explicitly addresses the problem of the skewed distribution, as opposed to mixing all the words trained with parametric models in previous work. Without resorting to any lexical resources, MetricWSD obtains strong performance against parametric alternatives, achieving a 75.1 F1 score on the unified WSD evaluation benchmark (Raganato et al., 2017b). Our analysis further validates that infrequent words and senses enjoy significant improvement.
翻訳日:2021-04-28 10:59:43 公開日:2021-04-27
# Riemannian Gauss-Newtonによる低ランクテンソル推定:統計的最適性と2次収束

Low-rank Tensor Estimation via Riemannian Gauss-Newton: Statistical Optimality and Second-Order Convergence ( http://arxiv.org/abs/2104.12031v2 )

ライセンス: Link先を確認
Yuetian Luo, Anru R. Zhang(参考訳) 本稿では, タッカー級のテンソルを, ノイズの少ない線形測定値から推定する。 一般的な問題は、テンソル回帰、テンソル完備化、テンソルPCA/SVDなど、応用から生じる多くの具体例をカバーする。 低タッカー階テンソル推定のための高速実装を備えたリーマンガウスニュートン法(RGN)を提案する。 文献におけるRGNの一般(超)線形収束保証とは違い、軽度条件下での低ランクテンソル推定に対するRGNの最初の二次収束保証を証明する。 rgnの統計的最適性を示す決定論的推定誤差が上限値に一致する。 RGNの利点は、テンソル回帰とテンソルSVDという2つの機械学習アプリケーションを通して説明される。 最後に,理論的な知見を裏付けるシミュレーション結果を提供する。

In this paper, we consider the estimation of a low Tucker rank tensor from a number of noisy linear measurements. The general problem covers many specific examples arising from applications, including tensor regression, tensor completion, and tensor PCA/SVD. We propose a Riemannian Gauss-Newton (RGN) method with fast implementations for low Tucker rank tensor estimation. Different from the generic (super)linear convergence guarantee of RGN in the literature, we prove the first quadratic convergence guarantee of RGN for low-rank tensor estimation under some mild conditions. A deterministic estimation error lower bound, which matches the upper bound, is provided that demonstrates the statistical optimality of RGN. The merit of RGN is illustrated through two machine learning applications: tensor regression and tensor SVD. Finally, we provide the simulation results to corroborate our theoretical findings.
翻訳日:2021-04-28 10:49:33 公開日:2021-04-27
# 深部構造モデルを用いた実用的広角画像補正

Practical Wide-Angle Portraits Correction with Deep Structured Models ( http://arxiv.org/abs/2104.12464v2 )

ライセンス: Link先を確認
Jing Tan, Shan Zhao, Pengfei Xiong, Jiangyu Liu, Haoqiang Fan, Shuaicheng Liu(参考訳) 広角の肖像画はしばしば拡張された景色を楽しめる。 しかし、特に、背景が歪んで顔が伸びているグループ肖像画を撮影する際には、視線歪みが顕著である。 本稿では,このような人工物を自由撮影写真から取り除くための,最初のディープラーニング手法を提案する。 具体的には、入力として広角ポートレートが与えられた場合、LineNet、ShapeNet、トランジションモジュール(TM)で構成されるカスケードネットワークを構築し、背景の視点歪みを補正し、顔領域の立体投影に適応し、これら2つのプロジェクション間のスムーズな遷移を実現する。 ネットワークをトレーニングするために、アイデンティティ、シーン、カメラモジュールに大きな多様性を持つ最初の視点ポートレートデータセットを構築しました。 定量的評価には,ラインの整合性と面の整合性という2つの新しい指標を導入する。 従来の最先端手法と比較して,カメラの歪みパラメータは不要である。 我々は,従来の最先端手法よりも質的,定量的に優れていることを示す。

Wide-angle portraits often enjoy expanded views. However, they contain perspective distortions, especially noticeable when capturing group portrait photos, where the background is skewed and faces are stretched. This paper introduces the first deep learning based approach to remove such artifacts from freely-shot photos. Specifically, given a wide-angle portrait as input, we build a cascaded network consisting of a LineNet, a ShapeNet, and a transition module (TM), which corrects perspective distortions on the background, adapts to the stereographic projection on facial regions, and achieves smooth transitions between these two projections, accordingly. To train our network, we build the first perspective portrait dataset with a large diversity in identities, scenes and camera modules. For the quantitative evaluation, we introduce two novel metrics, line consistency and face congruence. Compared to the previous state-of-the-art approach, our method does not require camera distortion parameters. We demonstrate that our approach significantly outperforms the previous state-of-the-art approach both qualitatively and quantitatively.
翻訳日:2021-04-28 10:49:20 公開日:2021-04-27
# Visformer:視覚に優しいトランスフォーマー

Visformer: The Vision-friendly Transformer ( http://arxiv.org/abs/2104.12533v2 )

ライセンス: Link先を確認
Zhengsu Chen, Lingxi Xie, Jianwei Niu, Xuefeng Liu, Longhui Wei, Qi Tian(参考訳) 過去1年間、視覚問題にトランスフォーマーモジュールを適用する急速な開発が見られた。 一部の研究者は、トランスフォーマーモデルがデータに適合する能力を持っていることを実証しているが、特にトレーニングデータに制限がある場合、これらのモデルが過剰に適合していることを示す証拠は増え続けている。 本稿では,トランスフォーマーモデルから畳み込みモデルへ段階的に移行するステップバイステップ操作による実証的研究を提案する。 遷移過程において得られた結果は、視覚認識を改善するのに有用なメッセージを提供する。 これらの観測に基づいて,視覚にやさしいトランスフォーマーを省略したVisformerという新しいアーキテクチャを提案する。 同じ計算複雑性で、Visformerは、ImageNet分類精度の観点からTransformerベースのモデルと畳み込みベースのモデルの両方より優れており、モデルの複雑さが小さくなり、トレーニングセットが小さくなると、その利点はより重要になる。 コードはhttps://github.com/danczs/visformerで入手できる。

The past year has witnessed the rapid development of applying the Transformer module to vision problems. While some researchers have demonstrated that Transformer-based models enjoy a favorable ability of fitting data, there are still growing number of evidences showing that these models suffer over-fitting especially when the training data is limited. This paper offers an empirical study by performing step-by-step operations to gradually transit a Transformer-based model to a convolution-based model. The results we obtain during the transition process deliver useful messages for improving visual recognition. Based on these observations, we propose a new architecture named Visformer, which is abbreviated from the `Vision-friendly Transformer'. With the same computational complexity, Visformer outperforms both the Transformer-based and convolution-based models in terms of ImageNet classification accuracy, and the advantage becomes more significant when the model complexity is lower or the training set is smaller. The code is available at https://github.com/danczs/Visformer.
翻訳日:2021-04-28 10:49:04 公開日:2021-04-27
# 複数モーダルデータを用いた共同表現学習と新たなカテゴリー発見

Joint Representation Learning and Novel Category Discovery on Single- and Multi-modal Data ( http://arxiv.org/abs/2104.12673v2 )

ライセンス: Link先を確認
Xuhui Jia and Kai Han and Yukun Zhu and Bradley Green(参考訳) 本稿では,異なるカテゴリのラベルを持つ単一およびマルチモーダルデータにおける新しいカテゴリ発見の問題について検討する。 信頼性の高い表現を共同学習し、ラベルなしのデータにクラスタを割り当てる汎用的なエンドツーエンドフレームワークを提案する。 ラベル付きデータへの学習埋め込みが過剰に収まるのを避けるため、ノイズコントラスト推定による自己教師付き表現学習から着想を得て、ラベル付きデータとラベル付きデータを同時に扱うように拡張する。 特に,ラベル付きデータにおけるカテゴリ識別とマルチモーダルデータにおけるクロスモーダル識別を用いて,従来のコントラスト学習手法におけるインスタンス識別の強化を提案する。 さらに,共有表現空間におけるウィナー・テイク・オール(wta)ハッシュアルゴリズムを用いて,ラベルなしデータに対してペアワイズ擬似ラベルを生成し,クラスタ割り当てを予測する。 我々は,大規模マルチモーダルビデオベンチマークのKinetics-400,VGG-Sound,画像ベンチマークのCIFAR10,CIFAR100,ImageNetを徹底的に評価し,最新の結果を得た。

This paper studies the problem of novel category discovery on single- and multi-modal data with labels from different but relevant categories. We present a generic, end-to-end framework to jointly learn a reliable representation and assign clusters to unlabelled data. To avoid over-fitting the learnt embedding to labelled data, we take inspiration from self-supervised representation learning by noise-contrastive estimation and extend it to jointly handle labelled and unlabelled data. In particular, we propose using category discrimination on labelled data and cross-modal discrimination on multi-modal data to augment instance discrimination used in conventional contrastive learning approaches. We further employ Winner-Take-All (WTA) hashing algorithm on the shared representation space to generate pairwise pseudo labels for unlabelled data to better predict cluster assignments. We thoroughly evaluate our framework on large-scale multi-modal video benchmarks Kinetics-400 and VGG-Sound, and image benchmarks CIFAR10, CIFAR100 and ImageNet, obtaining state-of-the-art results.
翻訳日:2021-04-28 10:48:45 公開日:2021-04-27
# 非IIDデータの高速収束のための半分散フェデレーションエッジ学習

Semi-Decentralized Federated Edge Learning for Fast Convergence on Non-IID Data ( http://arxiv.org/abs/2104.12678v2 )

ライセンス: Link先を確認
Yuchang Sun and Jiawei Shao and Yuyi Mao and Jun Zhang(参考訳) フェデレーションエッジラーニング(FEEL)は、データプライバシを保ちながら、クラウドベースの機械学習ソリューションにおける大きな通信遅延を低減する効果的な代替手段として登場した。 残念ながら、FEELの学習性能は、単一エッジクラスタでの限られたトレーニングデータのために損なわれる可能性がある。 本稿では,FEELの新たな枠組み,すなわち半分散型フェデレーションエッジ学習(SD-FEEL)について検討する。 異なるエッジクラスタ間のモデルアグリゲーションを可能にすることで、sd-feelはトレーニングレイテンシの低減と、複数のエッジクラスタからよりリッチなトレーニングデータへのアクセスによる学習パフォーマンスの向上という、フィールのメリットを享受する。 ローカルモデル更新,クラスタ内およびクラスタ間モデル集約など,ラウンド毎に3つの主要な手順を持つsd-feelのトレーニングアルゴリズムが提示され,非独立かつ同一分散(非iid)データに収束することが証明された。 また,エッジサーバのネットワークトポロジとクラスタ間モデルアグリゲーションの通信オーバーヘッドとの相互作用をトレーニング性能で特徴付ける。 その結果, SD-FFELが高速収束に有効であることを実証した。 また、トレーニングアルゴリズムの重要なハイパーパラメータの選択に関するガイドラインも提供される。

Federated edge learning (FEEL) has emerged as an effective alternative to reduce the large communication latency in Cloud-based machine learning solutions, while preserving data privacy. Unfortunately, the learning performance of FEEL may be compromised due to limited training data in a single edge cluster. In this paper, we investigate a novel framework of FEEL, namely semi-decentralized federated edge learning (SD-FEEL). By allowing model aggregation between different edge clusters, SD-FEEL enjoys the benefit of FEEL in reducing training latency and improves the learning performance by accessing richer training data from multiple edge clusters. A training algorithm for SD-FEEL with three main procedures in each round is presented, including local model updates, intra-cluster and inter-cluster model aggregations, and it is proved to converge on non-independent and identically distributed (non-IID) data. We also characterize the interplay between the network topology of the edge servers and the communication overhead of inter-cluster model aggregation on training performance. Experiment results corroborate our analysis and demonstrate the effectiveness of SD-FFEL in achieving fast convergence. Besides, guidelines on choosing critical hyper-parameters of the training algorithm are also provided.
翻訳日:2021-04-28 10:48:25 公開日:2021-04-27