このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211004となっている論文です。

PDF登録状況(公開日: 20211004)

TitleAuthorsAbstract論文公表日・翻訳日
# 制御されたmather-thurston定理

Controlled Mather-Thurston theorems ( http://arxiv.org/abs/2006.00374v5 )

ライセンス: Link先を確認
Michael Freedman(参考訳) ミルナー、ウッド、マザー、サーストンの古典的な結果は驚くべき場所で平坦なつながりを生み出している。 Milnor-Woodの不等式は曲面上の円束に対して、Mather-Thurston Theorem は一般多様体束を平坦な接続を許容するものに共役するものである。 この予想は、チャーン=ワイル理論やボット類やゴッドビリオン・ヴェイ不変量のような他の滑らかな障害との密接な出会いから来ている。 前者は$\operatorname{PSL}(2,\R)$対$\operatorname{U}(1)$、後者は$C^1$対$C^2$である。 本報告では,(1) 半$s$-cobordism (ssc) でmather-thurstonコボルディズムを洗練できる場合が多く,(2) 初期構造群から大規模構造群への遷移関数の移動がどの程度必要か,さらにどの程度詳細に述べる。 その動機は、物理プログラムに数学的基礎を置くことである。 哲学は、あるバンドルに対して、それが曲率を持つか、平坦であるかどうかは、ベースに存在するかもしれない微細なトポロジーを解決できないため、sscや微小対称性が繊維の歪みに反するので、我々が期待することができないというものである。 小さいスケール、紫外線、基本トポロジーと構造群の「歪み」により、フラット接続はより大きなスケールで曲率をシミュレートできる。 目標は、マクスウェルの$f \wedge f^\ast$やヒルベルトの$\int r\ dvol$のような曲率項がそのような「歪曲」を測定する作用に置き換えられるような双対性を見つけることである。 この見方では、曲率は離散的、群論的な構造を再正規化する結果となる。

Classical results of Milnor, Wood, Mather, and Thurston produce flat connections in surprising places. The Milnor-Wood inequality is for circle bundles over surfaces, whereas the Mather-Thurston Theorem is about cobording general manifold bundles to ones admitting a flat connection. The surprise comes from the close encounter with obstructions from Chern-Weyl theory and other smooth obstructions such as the Bott classes and the Godbillion-Vey invariant. Contradiction is avoided because the structure groups for the positive results are larger than required for the obstructions, e.g.\ $\operatorname{PSL}(2,\R)$ versus $\operatorname{U}(1)$ in the former case and $C^1$ versus $C^2$ in the latter. This paper adds two types of control strengthening the positive results: In many cases we are able to (1) refine the Mather-Thurston cobordism to a semi-$s$-cobordism (ssc) and (2) provide detail about how, and to what extent, transition functions must wander from an initial, small, structure group into a larger one. The motivation is to lay mathematical foundations for a physical program. The philosophy is that living in the IR we cannot expect to know, for a given bundle, if it has curvature or is flat, because we can't resolve the fine scale topology which may be present in the base, introduced by a ssc, nor minute symmetry violating distortions of the fiber. Small scale, UV, "distortions" of the base topology and structure group allow flat connections to simulate curvature at larger scales. The goal is to find a duality under which curvature terms, such as Maxwell's $F \wedge F^\ast$ and Hilbert's $\int R\ dvol$ are replaced by an action which measures such "distortions." In this view, curvature results from renormalizing a discrete, group theoretic, structure.
翻訳日:2023-05-17 22:39:50 公開日:2021-10-04
# 複素・実量子力学における量子情報の隠蔽とマスキング

Hiding and masking quantum information in complex and real quantum mechanics ( http://arxiv.org/abs/2010.07843v2 )

ライセンス: Link先を確認
Huangjun Zhu(参考訳) 古典情報は二成分量子系の相関に完全に隠れることができる。 しかし、最近導出された非隠れ型および非マスク型定理に従って全ての量子情報を隠蔽または隠蔽することは不可能である。 ここでは、情報的に完備な量子状態の任意の集合が隠蔽可能でもマスキング可能でもないことを示し、それによって以前に知られていた非隠蔽定理と非マスク定理が強化される。 そして、Hurwitz-Radon行列(クリフォード代数の表現)により、必要となる合成ヒルベルト空間の最小次元は元のヒルベルト空間の次元と指数関数的に増加するが、実際の量子状態に関する情報が相関に完全に隠れていることを示す。 さらに、実量子状態の集合は量子論における極大マスキング可能集合であり、極大絡み合い状態と驚くべき関係を持つ。 これらの結果は、多くの活発な研究領域に固有の関心を持つ量子情報の隠蔽と隠蔽の可能性と限界に関する貴重な洞察を与える。

Classical information can be completely hidden in the correlations of bipartite quantum systems. However, it is impossible to hide or mask all quantum information according to the no-hiding and no-masking theorems derived recently. Here we show that any set of informationally complete quantum states is neither hidable nor maskable, thereby strengthening the no-hiding and no-masking theorems known before. Then, by virtue of Hurwitz-Radon matrices (representations of the Clifford algebra), we show that information about real quantum states can be completely hidden in the correlations, although the minimum dimension of the composite Hilbert space required increases exponentially with the dimension of the original Hilbert space. Moreover, the set of real quantum states is a maximal maskable set within quantum theory and has a surprising connection with maximally entangled states. These results offer valuable insight on the potential and limit of hiding and masking quantum information, which are of intrinsic interest to a number of active research areas.
翻訳日:2023-04-29 00:26:03 公開日:2021-10-04
# 古典力学の量子対数としてのコヒーレント状態の進化について

On Evolution of Coherent States as Quantum Counterpart of Classical Dynamics ( http://arxiv.org/abs/2011.11229v2 )

ライセンス: Link先を確認
Lasha Berezhiani and Michael Zantedeschi(参考訳) コヒーレント状態の量子力学は2つの相補的な方法を用いて量子場理論の中で研究され、テイラー級数として時間経過とともに進化を組織し、相互作用図形論における結合の摂動的拡大によって研究される。 我々の分析の重要な側面の1つは、漸近粒子を誘発することなく、状態を構成する際に相互作用理論の演算子と真空を利用することである。 空間的に均質な場の配置を記述するコヒーレントな状態に着目し,非線形古典力学をうまく考慮し,量子効果を付与できることを実証した。 特に、時間膨張解析により、フィールドが初期期待値から外れた初期場加速は、再正規化質量と素結合定数のツリーレベルポテンシャルによって制御される。 代わりに、相互作用・ピクチャー計算は、再正規化結合と質量の観点で決定される非線形ダイナミクスを与えるために操作することができる。 しかし、これは場の加速における対数的初期時間特異性(英語版)をもたらし、半古典的形式論において遭遇する類似の挙動を思い出させる。 私たちのコヒーレント状態分析では、上記の特異性は拡大のアーティファクトである:第一の場合は無限小時間、第二の場合はカップリング定数である。 それにもかかわらず、相互作用画像解析で得られた進化は長期にわたって有効であることを示す。 さらに、望ましい古典力学に加えて、dvali-gomez-zellによって以前に提唱された興味深い量子補正にも役立ちます。

Quantum dynamics of coherent states is studied within quantum field theory using two complementary methods: by organizing the evolution as a Taylor series in elapsed time and by perturbative expansion in coupling within the interaction-picture formalism. One of the important aspects of our analysis consists in utilizing the operators and the vacuum of interacting theory in constructing the states, without invoking asymptotic particles. Focusing on a coherent state describing a spatially homogeneous field configuration, it is demonstrated that both adopted methods successfully account for nonlinear classical dynamics, giving distinguishable quantum effects. In particular, according to the time-expansion analysis the initial field-acceleration, with which the field departs from its initial expectation value, is governed by the tree-level potential with renormalized mass and bare coupling constant. The interaction-picture computation, instead, can be manipulated to give the nonlinear dynamics, determined in terms of renormalized coupling and mass. However, it results in a logarithmic initial-time singularity in the field-acceleration, reminiscent of the similar behaviour encountered within semi-classical formalism, for certain choices of the initial state for fluctuations. Within our coherent-state analysis, the above mentioned peculiarities are artefacts of an expansion: in the first case over infinitesimal time, while in the second case in the coupling constant. Despite this, we show that the evolution obtained within the interaction-picture analysis is valid for extended period of time. Moreover, on top of the desired classical dynamics, it serves us with interesting quantum corrections, previously proposed by Dvali-Gomez-Zell.
翻訳日:2023-04-23 09:16:02 公開日:2021-10-04
# ボルンの規則$p_\alpha=\lvert\psi_\alpha\rvert^2$を多元的解釈で理解する

Making sense of Born's rule $p_\alpha=\lVert\Psi_\alpha\rVert^2$ with the many-minds interpretation ( http://arxiv.org/abs/2011.11501v2 )

ライセンス: Link先を確認
Aur\'elien Drezet(参考訳) この作品は、エベレットの多世界解釈の発展と見なされる多心解釈の枠組みの中で、ボーンの法則を正当化しようとする試みである。 より正確には、Albert and Loewer (Synthese \textbf{77}, 195 (1988)) の業績に基づいて、多くのミンドのユニタリモデルを開発する。 以前のモデルの違いは真に確率的で双対的ではなく、宇宙の初期状態に関する古典的なランダム性も伴う。 我々はまた、ボルンの規則を決定理論『emph{\`a la }Deutsch, Wallace, and envariance \emph{\`a la} Zurek』に基づく以前の作品と比較し、これらのアプローチが我々のモデルとどのように結びついているかを示す。

This work is an attempt to justify Born's rule within the framework of the many-minds interpretation seen as a development of the many-worlds interpretation of Everett. More precisely, here we develop a unitary model of many-minds based on the work of Albert and Loewer (Synthese \textbf{77}, 195 (1988)). At the difference of previous models ours is not genuinely stochastic and dualistic and also involves some classical-like randomness concerning the initial conditions of the Universe. We also compare the present method for recovering Born's rule with previous works based on decision theory \emph{\`a la }Deutsch, Wallace, and envariance \emph{\`a la} Zurek and show how these approaches are connected to our model
翻訳日:2023-04-23 08:58:47 公開日:2021-10-04
# Deutsch-HaydenディスクリプタのABC

The ABC of Deutsch-Hayden Descriptors ( http://arxiv.org/abs/2012.11189v3 )

ライセンス: Link先を確認
Charles Alexandre B\'edard(参考訳) deutschとhaydenが量子計算ネットワークのハイゼンベルク図を用いて量子論の局所性を証明してから20年以上が経過している。 もちろん、局所性は絡み合いやベルの定理に直面しても成り立つ。 今日、量子ファンデーションのほとんどの研究者は、量子システムの局所的な記述がまだ提供されていないだけでなく、それが存在しないと確信している。 本論文の主な目的は,記述者形式主義を願わくばアクセス可能かつ自己完結的な方法で再説明することで,この誤解に対処することである。 これは、ディスクリプタの動作方法と理由のステップバイステップガイドです。 最後に、スーパーセンスコーディングはディスクリプタの光で再考される。

It has been more than 20 years since Deutsch and Hayden proved the locality of quantum theory, using the Heisenberg picture of quantum computational networks. Of course, locality holds even in the face of entanglement and Bell's theorem. Today, most researchers in quantum foundations are still convinced not only that a local description of quantum systems has not yet been provided, but that it cannot exist. The main goal of this paper is to address this misconception by re-explaining the descriptor formalism in a hopefully accessible and self-contained way. It is a step-by-step guide to how and why descriptors work. Finally, superdense coding is revisited in the light of descriptors.
翻訳日:2023-04-20 00:37:12 公開日:2021-10-04
# Maxwell Demonのエンタングリングによる量子コンセンサスダイナミクス

Quantum Consensus Dynamics by Entangling Maxwell Demon ( http://arxiv.org/abs/2102.00777v3 )

ライセンス: Link先を確認
Sungguen Ryu, Rosa L\'opez, Ra\'ul Toral(参考訳) 我々は、ビットフリップノイズに対して頑健な多体絡みを発生させるMaxwellデーモンを導入し、量子的優位性を得る。 コンセンサスに近づく意見力学に使用される投票モデルのプロトコルを採用すると、デーモンはランダムにキュービット対を選択し、連続的に量子フィードバック制御を行う。 我々は,悪魔が獲得した量子古典的相互情報とフィードバック制御の絶対的不可逆性との競合によって決定される,悪魔の操作によるエントロピー低減と作業抽出率の上限を導出する。 上界の発見は、作用物質中の多体絡みを生じるマックスウェルデーモンのクラスの下での熱力学の第2法則の再構成に対応する。

We introduce a Maxwell demon which generates many-body entanglement robustly against bit-flip noises, which allows us to obtain quantum advantage. Adopting the protocol of the voter model used for opinion dynamics approaching consensus, the demon randomly selects a qubit pair and performs a quantum feedback control, in continuous repetitions. We derive upper bounds of the entropy reduction and the work extraction rates by demon's operation, which are determined by a competition between the quantum-classical mutual information acquired by the demon and the absolute irreversibility of the feedback control. Our finding of the upper bounds corresponds to a reformulation of the second law of thermodynamics under a class of Maxwell demon which generates many-body entanglement in a working substance.
翻訳日:2023-04-13 03:06:19 公開日:2021-10-04
# 65量子ビット超伝導量子コンピュータにおけるデバイス全体の絡み合い

Whole-device entanglement in a 65-qubit superconducting quantum computer ( http://arxiv.org/abs/2102.11521v2 )

ライセンス: Link先を確認
Gary J. Mooney, Gregory A. L. White, Charles D. Hill and Lloyd C. L. Hollenberg(参考訳) 大規模な絡み合いを生成する能力は、ノイズの多い中間規模量子(NISQ)デバイスにおける量子情報処理能力の重要な先駆者である。 本稿では,現在の超伝導量子デバイスにおいて,多数の量子ビット上での量子状態の絡み合いの程度について検討する。 我々は,IBM Quantum 65-qubit $\textit{ibmq_manhattan}$デバイスと53-qubit $\textit{ibmq_rochester}$デバイス上にネイティブグラフを作成し,QREMを適用した。 各デバイスにまたがる接続された絡み合いグラフが検出され、各デバイス全体の絡み合いを示す。 QREMの応用は、すべての測定において観測された絡み合いを増加させることが示され、特に、$\textit{ibmq_rochester}$で検出された絡み合った量子ビットの対は、58個の連結対のうち31から56に増加した。 この研究の結果は、これまでの2つの大きな超伝導デバイスのうち、完全な二部構造が絡み合っていることを示している。

The ability to generate large-scale entanglement is an important progenitor of quantum information processing capability in noisy intermediate-scale quantum (NISQ) devices. In this paper, we investigate the extent to which entangled quantum states over large numbers of qubits can be prepared on current superconducting quantum devices. We prepared native-graph states on the IBM Quantum 65-qubit $\textit{ibmq_manhattan}$ device and the 53-qubit $\textit{ibmq_rochester}$ device and applied quantum readout-error mitigation (QREM). Connected entanglement graphs spanning each of the full devices were detected, indicating bipartite entanglement over the whole of each device. The application of QREM was shown to increase the observed entanglement within all measurements, in particular, the detected number of entangled pairs of qubits found within $\textit{ibmq_rochester}$ increased from 31 to 56 of the total 58 connected pairs. The results of this work indicate full bipartite entanglement in two of the largest superconducting devices to date.
翻訳日:2023-04-10 03:42:56 公開日:2021-10-04
# ランダム量子回路におけるエンタングルメント複雑性の計測による遷移

Transitions in entanglement complexity in random quantum circuits by measurements ( http://arxiv.org/abs/2103.07481v3 )

ライセンス: Link先を確認
Salvatore F.E. Oliviero, Lorenzo Leone and Alioscia Hamma(参考訳) 非クリフォードゲートをドープしたランダムクリフォード回路は、普遍エンタングルメントスペクトル統計[1]および量子カオス挙動への遷移を示す。 [2] において、$O(n)$非クリフォードゲートの$n$-量子クリフォード回路への注入が純度揺らぎの普遍値への遷移を駆動することを証明した。 本稿では,Clifford 回路を$O(n)$ 1 qubit non Clifford でドーピングすることは,純度の普遍的ゆらぎへの遷移を駆動するのに必要かつ十分であることを示す。

Random Clifford circuits doped with non Clifford gates exhibit transitions to universal entanglement spectrum statistics[1] and quantum chaotic behavior. In [2] we proved that the injection of $O(n)$ non Clifford gates into a $n$-qubit Clifford circuit drives the transition towards the universal value of the purity fluctuations. In this paper, we show that doping a Clifford circuit with $O(n)$ single qubit non Clifford measurements is both necessary and sufficient to drive the transition to universal fluctuations of the purity.
翻訳日:2023-04-08 08:21:36 公開日:2021-10-04
# マイクロ波超伝導ニオブキャビティのT_c$近傍における異常共鳴周波数変化

The Anomalous Resonant Frequency Variation of Microwave Superconducting Niobium Cavities Near $T_c$ ( http://arxiv.org/abs/2103.10601v2 )

ライセンス: Link先を確認
D. Bafia (1), A. Grassellino (1), M. Checchin (1), J. F. Zasadzinski (2), and A. Romanenko (1) ((1) Fermi National Accelerator Laboratory, (2) Illinois Institute of Technology)(参考訳) 超伝導無線周波数(SRF)ニオブキャビティは、粒子加速の現代的手段であり、コヒーレンス超伝導量子系の記録と新しい物理学の超感度探索を可能にする技術である。 本稿では,超伝導特性の向上を示すNbキャビティにおいて,臨界温度$T_\mathrm{c}$未満の温度における共振周波数の異常低下 (dip) を示す系統的効果を報告する。 周波数ディップ等級は、空洞品質係数、表面のほぼ不純物分布、および$T_\mathrm{c}$と相関する。 また、RF電流の増加に伴うBCS表面インピーダンスの特異な減少の前駆体でもある。 また, nb srfキャビティにおける交流導電率におけるコヒーレンスピークの最初の実演を行い, 大きな周波数ディップと相関することが判明した。

Superconducting radio-frequency (SRF) niobium cavities are the modern means of particle acceleration and an enabling technology for record coherence superconducting quantum systems and ultra-sensitive searches for new physics. Here, we report a systematic effect in Nb cavities indicative of improved superconducting properties - an anomalous decrease (dip) in the resonant frequency at temperatures just below the critical temperature $T_\mathrm{c}$. The frequency dip magnitude correlates with cavity quality factor, near-surface impurity distribution, and $T_\mathrm{c}$. It is also a precursor of the peculiar decrease in the BCS surface impedance with increasing RF current. A first demonstration of the coherence peak in the AC conductivity in Nb SRF cavities is also presented and found to correlate with a large frequency dip.
翻訳日:2023-04-07 11:02:12 公開日:2021-10-04
# 創発現象としてのベレジン量子化と自発的対称性の破れの枠組みにおけるschr\"{o}dinger operatorの古典的極限

The classical limit of Schr\"{o}dinger operators in the framework of Berezin quantization and spontaneous symmetry breaking as emergent phenomenon ( http://arxiv.org/abs/2103.11914v2 )

ライセンス: Link先を確認
Valter Moretti and Christiaan J.F.van de Ven(参考訳) 厳密な変形量子化の代数的性質は古典位相空間 $\bR^{2n}$ で解析される。 対応する量子化写像により、数個の量子モデルの$\hbar$依存固有ベクトルによって誘導される代数的ベクトル状態の適切な列の$\hbar \to 0$の極限を取ることができ、その列は$\bR^{2n}$上の確率測度に収束し、古典的代数的状態を定義する。 可観測点は、古典的可観測量(位相空間上の函数)と量子可観測量($C^*$代数の要素)を$\hbar$でパラメトリケートするベレジン量子化写像で表される。 この古典的極限の存在は、特に、ハール積分の項で古典的極限状態が得られるような、広いクラスのシュル(schr\"{o}dinger operator)の基底状態に対して証明される。 古典状態(位相空間上の確率測度)の支持は、ポテンシャルの対称性によって$\bR^{2n}$の特定の軌道に含まれる。 加えて、この$c^*$-代数的アプローチは、量子理論と古典理論の両方を許容するので、量子領域から古典世界へ、$\hbar$を切換えることで、創発的現象としての自発的対称性破れ(ssb)の理論概念を研究するのに非常に適している。 この目的のために、詳細な数学的記述を概説し、この代数的アプローチがいくつかの物理モデルにおいて自然対称性の破れに新しい光を放つ方法を示す。

The algebraic properties of a strict deformation quantization are analysed on the classical phase space $\bR^{2n}$. The corresponding quantization maps enable us to take the limit for $\hbar \to 0$ of a suitable sequence of algebraic vector states induced by $\hbar$-dependent eigenvectors of several quantum models, in which the sequence converges to a probability measure on $\bR^{2n}$, defining a classical algebraic state. The observables are here represented in terms of a Berezin quantization map which associates classical observables (functions on the phase space) to quantum observables (elements of $C^*$ algebras) parametrized by $\hbar$. The existence of this classical limit is in particular proved for ground states of a wide class of Schr\"{o}dinger operators, where the classical limiting state is obtained in terms of a Haar integral. The support of the classical state (a probability measure on the phase space) is included in certain orbits in $\bR^{2n}$ depending on the symmetry of the potential. In addition, since this $C^*$-algebraic approach allows for both quantum and classical theories, it is highly suitable to study the theoretical concept of spontaneous symmetry breaking (SSB) as an emergent phenomenon when passing from the quantum realm to the classical world by switching off $\hbar$. To this end, a detailed mathematical description is outlined and it is shown how this algebraic approach sheds new light on spontaneous symmetry breaking in several physical models.
翻訳日:2023-04-07 04:38:06 公開日:2021-10-04
# 多体動的局所化ボースガスの有効熱化

Effective thermalization of a many-body dynamically localized Bose gas ( http://arxiv.org/abs/2103.14388v2 )

ライセンス: Link先を確認
Vincent Vuatelet, Adam Ran\c{c}on(参考訳) 動的局在は運動量空間におけるアンダーソン局在の類似であり、系のエネルギー飽和と単一粒子波動関数は運動量空間において指数関数的に局所化される。 相互作用の存在下では、周期的に蹴られたボース気体の文脈では、動的局在が持続すると主張する。 本研究では,多体動的局所化相が効果的に熱的であり,標準多体局所化系で観測されるエルゴディシティの破壊から明らかに逸脱していることを示す。 本研究では, 実効温度と駆動パラメータを関連づけ, この位相におけるコヒーレンス損失を定量的に記述する。 非相互作用の場合とは対照的に、運動量分布は、効果的に熱的なタンの接触によって特徴づけられる大きな瞬間において、パワーローとして崩壊する。 これは、運転と多体(力学)の局在が効果的にエルゴード状態をもたらす稀な例である。

Dynamical localization is the analog of Anderson localization in momentum space, where the system's energy saturates and the single-particle wave-functions are exponentially localized in momentum space. In the presence of interactions, in the context of a periodically kicked Bose gas, it has been argued that dynamical localization persists. Focusing on the Tonks (strongly interacting) regime, we show that the many-body dynamically localized phase is effectively thermal, a clear deviation from the breaking of ergodicity observed in standard many-body localized systems. We relate the effective temperature to the driving parameters, and thus quantitatively describe the loss of coherence at large distances in this phase. Contrary to the non-interacting case, the momentum distribution decays as a power-law at large momenta, characterized by an effectively thermal Tan's contact. This is a rare example where driving and many-body (dynamical) localization lead to an effectively ergodic state.
翻訳日:2023-04-06 19:19:16 公開日:2021-10-04
# ポアソンブラケットオペレーター

Poisson bracket operator ( http://arxiv.org/abs/2104.11780v2 )

ライセンス: Link先を確認
T. Koide(参考訳) 本稿では、ポアソンブラケットの代替量子であるポアソンブラケット演算子を紹介する。 この作用素は量子解析で定式化された作用素微分を用いて定義され、古典極限におけるポアソンブラケットと同値である。 これを用いて、演算子の時間発展を記述する量子標準方程式を導出する。 量子力学の標準的な応用において、量子標準方程式はハイゼンベルク方程式と同値である。 同時に、この方程式はc個の正準変数に適用され、古典力学の正準方程式と一致する。 したがって、ポアソンブラケット作用素は古典的および量子的挙動を統一的に記述することができる。 さらに、量子標準方程式はハイゼンベルク方程式が定義されていない非標準系に適用できる。 一例として、c-数とq-数粒子が共存する系への応用について考察する。 導出力学は、エレンフェストの定理とエネルギーと運動量の保存性を満たす。

We introduce the Poisson bracket operator which is an alternative quantum counterpart of the Poisson bracket. This operator is defined using the operator derivative formulated in quantum analysis and is equivalent to the Poisson bracket in the classical limit. Using this, we derive the quantum canonical equation which describes the time evolution of operators. In the standard applications of quantum mechanics, the quantum canonical equation is equivalent to the Heisenberg equation. At the same time, this equation is applicable to c-number canonical variables and then coincides with the canonical equation in classical mechanics. Therefore the Poisson bracket operator enables us to describe classical and quantum behaviors in a unified way. Moreover, the quantum canonical equation is applicable to non-standard system where the Heisenberg equation is not defined. As an example, we consider the application to the system where a c-number and a q-number particles coexist. The derived dynamics satisfies the Ehrenfest theorem and the energy and momentum conservations.
翻訳日:2023-04-02 14:49:46 公開日:2021-10-04
# 人工生命:持続可能な自己複製システム

Artificial life: sustainable self-replicating systems ( http://arxiv.org/abs/2105.13971v2 )

ライセンス: Link先を確認
Carlos Gershenson and Jitka Cejkova(参考訳) 自然界では生物を組織化する方法が1つ見つかっているが、生命を創り出す方法には他の選択肢があるかもしれない。 できる限りの生活」を研究することは、人工生命(ALife)と呼ばれる学際的な分野の目的である。 人工」という言葉は、人間が創造過程に関与しているという事実を指す。 人工生命体は自然の生命体とは全く異なり、化学組成や生命に似た振る舞いを示すコンピュータプログラムさえも異なる。

Nature has found one method of organizing living matter, but maybe other options exist -- not yet discovered -- on how to create life. To study the life "as it could be" is the objective of an interdisciplinary field called Artificial Life (commonly abbreviated as ALife). The word "artificial" refers to the fact that humans are involved in the creation process. The artificial life forms might be completely unlike natural forms of life, with different chemical compositions, and even computer programs exhibiting life-like behaviours.
翻訳日:2023-03-29 06:56:20 公開日:2021-10-04
# スピン依存サブ波長障壁を持つ光学格子

Optical lattice with spin-dependent sub-wavelength barriers ( http://arxiv.org/abs/2105.15148v2 )

ライセンス: Link先を確認
E. Gvozdiovas, P. Ra\v{c}kauskas, G. Juzeli\=unas(参考訳) 準スピン状態の役割を果たす2つの暗黒状態を特徴とする三脚原子光カップリング方式を解析した。 結合レーザ場を適切に構成することにより、スピン依存のサブ波長障壁を持つ格子を作ることができる。 これにより、有効レンガ壁型格子の原子動力学から、ある暗い状態の原子の自由運動や、他の暗い状態の原子の周期性が2倍小さいタイト結合格子まで、原子運動を柔軟に変更することができる。 2つのレジームの間には、スペクトルはレーザー磁場によって制御される大きな変化を受ける。 三脚格子は、現在の実験技術を用いて製造することができる。 三重項スキームを用いて縮退した暗黒状態の格子を作り、スピン秩序と対称性の破れの新しい可能性を開く。

We analyze a tripod atom light coupling scheme characterized by two dark states playing the role of quasi-spin states. It is demonstrated that by properly configuring the coupling laser fields, one can create a lattice with spin-dependent sub-wavelength barriers. This allows to flexibly alter the atomic motion ranging from atomic dynamics in the effective brick-wall type lattice to free motion of atoms in one dark state and a tight binding lattice with a twice smaller periodicity for atoms in the other dark state. Between the two regimes, the spectrum undergoes significant changes controlled by the laser fields. The tripod lattice can be produced using current experimental techniques. The use of the tripod scheme to create a lattice of degenerate dark states opens new possibilities for spin ordering and symmetry breaking.
翻訳日:2023-03-28 05:51:30 公開日:2021-10-04
# 絡み合い検出による量子平衡と非平衡定常状態の不斉操舵性

Asymmetric steerability of quantum equilibrium and nonequilibrium steady states through entanglement detection ( http://arxiv.org/abs/2106.11457v2 )

ライセンス: Link先を確認
Kun Zhang, Jin Wang(参考訳) アインシュタイン=ポドルスキー=ローゼンステアリングは、絡み合いとベル非局所性に加えて量子相関を記述する。 しかし、概念的には絡み合いやベルの非局所性と異なり、量子ステアリングは非対称な定義を持つ。 量子ステアリングの不斉定義に動機づけられ,非対称エネルギー準位を持つ2相互作用量子ビットと非対称環境のステアビリティについて検討した。 非対称(非平衡)環境は、異なる温度または化学ポテンシャルを持つ2つの環境である。 ブロッホ・レッドフィールド方程式は、2つの量子ビットのダイナミクスとその長期挙動を研究するために用いられる。 本研究では, 定常ステアビリティを実験的にフレンドリーなステアリング基準によって決定し, 絡み合い検出によるステアリングを示す。 この結果から, 2つの非対称量子ビットの定常状態は, 対称的な構成に比べて1方向の操舵に有利であることがわかった。 また,2つの量子ビット間の最小結合強度について解析的な結果を得た。 非対称なステアビリティは、2つの量子ビットの性質と平衡環境や非平衡環境の影響によって決定される。 非ゼロエントロピー生産コストの非平衡環境は、一方向の操舵性を高めることができる。 また, 非平衡定常状態の絡み合い, ステアリング, ベル非局所性の厳密な階層構造を示し, 絡み合いやベル非局所性よりもステアリングの豊かな構造を示す。

Einstein-Podolsky-Rosen steering describes a quantum correlation in addition to entanglement and Bell nonlocality. However, conceptually different from entanglement and Bell nonlocality, quantum steering has an asymmetric definition. Motivated by the asymmetric definition of quantum steering, we study the steerability of two-interacting qubits, which have asymmetric energy levels, coupled with asymmetric environments. The asymmetric (nonequilibrium) environments are two environments with different temperatures or chemical potentials. The Bloch-Redfield equation is applied to study the dynamics of two qubits and its long-time behavior. In our study, the steady-state steerability is determined by an experimentally friendly steering criteria, which demonstrates steering through the entanglement detection. Our results show that the steady states of two asymmetric qubits have the advantage for one direction of steering, compared to the symmetric setup. We also provide analytical results on the minimal coupling strength between the two qubits in order to be steerable. The asymmetric steerability is collectively determined by the nature of the two qubits and the influence from equilibrium or nonequilibrium environments. Nonequilibrium environments with the cost of nonzero entropy production can enhance the steerability in one direction. We also show the strict hierarchy of entanglement, steering and Bell nonlocality of the nonequilibrium steady states, which shows a richer structure of steering than entanglement and Bell nonlocality.
翻訳日:2023-03-25 21:09:41 公開日:2021-10-04
# 分割と多重分割に対する絶対絡み合った純粋状態の集合

Absolutely entangled sets of pure states for bipartitions and multipartitions ( http://arxiv.org/abs/2106.16216v3 )

ライセンス: Link先を確認
Baichu Yu, Pooja Jayachandran, Adam Burchardt, Yu Cai, Nicolas Brunner, Valerio Scarani(参考訳) 量子状態の集合は、集合内の少なくとも1つの状態がサブシステムの定義、すなわちグローバル参照フレームの任意の選択に対して絡み合っているとき、完全に絡み合っていると言われる。 本研究では、純量子状態の絶対交絡集合(AES)の性質について検討する。 2ビット系の場合、AESを検出するのに十分な条件を示し、それを$N-3$(最大可能な数)がサブシステムの定義に絡み合うような$N$状態の族を構成するために使用する。 一般二分法 $d=d_1d_2$ に対して、$n>\left\lfloor{(d_{1}+1)(d_{2}+1)/2}\right \rfloor$ state がハール測度 1 の aes であることを証明する。 次に,マルチパーティションのAESを定義する。 与えられた多重分割に対して AES の状態数に対する一般的な下界を導出し、また明示的な例を構成する。 特に,全システムのマルチパーティショニングに関して,AESを示す。

A set of quantum states is said to be absolutely entangled, when at least one state in the set remains entangled for any definition of subsystems, i.e. for any choice of the global reference frame. In this work we investigate the properties of absolutey entangled sets (AES) of pure quantum states. For the case of a two-qubit system, we present a sufficient condition to detect an AES, and use it to construct families of $N$ states such that $N-3$ (the maximal possible number) remain entangled for any definition of subsystems. For a general bipartition $d=d_1d_2$, we prove that sets of $N>\left\lfloor{(d_{1}+1)(d_{2}+1)/2}\right \rfloor$ states are AES with Haar measure 1. Then, we define AES for multipartitions. We derive a general lower bound on the number of states in an AES for a given multipartition, and also construct explicit examples. In particular, we exhibit an AES with respect to any possible multi-partitioning of the total system.
翻訳日:2023-03-24 08:04:20 公開日:2021-10-04
# プローブ型量子温度計の機械分類

Machine classification for probe based quantum thermometry ( http://arxiv.org/abs/2107.04555v2 )

ライセンス: Link先を確認
Fabr\'icio S. Luiz, A. de Oliveira Junior, Felipe F. Fanchini and Gabriel T. Landi(参考訳) プローブに基づく量子温度測定を考察し,機械分類が定量的な誤差評価を伴うモデル非依存推定を提供することを示す。 提案手法はk-nearest-neighborアルゴリズムに基づく。 この機械は、コンピュータシミュレーションまたは校正実験のデータを用いて訓練される。 これにより、新しい観測から温度を推定できる予測器が得られる。 このアルゴリズムは非常に柔軟で、どんなプローブでも観測できる。 また、実験的なエラーや実験パラメータに関する不確実性も組み込むことができる。 本手法はボースガス中の不純物温度計を用いて,rabiモデルにおける熱フォノン数の推定を行う。

We consider probe-based quantum thermometry and show that machine classification can provide model-independent estimation with quantifiable error assessment. Our approach is based on the k-nearest-neighbor algorithm. The machine is trained using data from either computer simulations or a calibration experiment. This yields a predictor which can be used to estimate the temperature from new observations. The algorithm is highly flexible and works with any kind of probe observable. It also allows to incorporate experimental errors, as well as uncertainties about experimental parameters. We illustrate our method with an impurity thermometer in a Bose-gas, as well as in the estimation of the thermal phonon number in the Rabi model.
翻訳日:2023-03-22 23:52:29 公開日:2021-10-04
# 不規則グラフ上の等価ラプラシアンおよび隣接量子ウォーク

Equivalent Laplacian and Adjacency Quantum Walks on Irregular Graphs ( http://arxiv.org/abs/2107.05580v2 )

ライセンス: Link先を確認
Thomas G. Wong, Joshua Lockhart(参考訳) 連続時間量子ウォーク(continuous-time quantum walk)は、離散空間におけるシュル=オディンガー方程式によって進化する粒子である。 頂点と辺のグラフとして空間を符号化すると、ハミルトニアンは離散ラプラシアンに比例する。 しかし、いくつかの物理系では、ハミルトニアンは代わりに隣接行列に比例する。 これらの量子ウォークはグラフが正則であるとき、すなわち各頂点が同じ数の近傍を持つときに等価であることが知られている。 しかし、グラフが不規則であれば、量子ウォークは異なる進化をする。 本稿では,いくつかの不規則グラフに対して,粒子が当初はある頂点に局在している場合,振幅が異なる場合でも2つの量子ウォークの確率分布は同一であることを示す。 これを5つの頂点と6つの頂点を持つグラフに対して解析的に証明する。 11個の頂点以下の1,018,689,568個の単純連結不規則グラフの歩行をシミュレートすることで、この同値の概念を持つ6つのグラフを発見した。 また、これらの等価ウォークをサポートするグラフの8つの無限族を与える。

The continuous-time quantum walk is a particle evolving by Schr\"odinger's equation in discrete space. Encoding the space as a graph of vertices and edges, the Hamiltonian is proportional to the discrete Laplacian. In some physical systems, however, the Hamiltonian is proportional to the adjacency matrix instead. It is well-known that these quantum walks are equivalent when the graph is regular, i.e., when each vertex has the same number of neighbors. If the graph is irregular, however, the quantum walks evolve differently. In this paper, we show that for some irregular graphs, if the particle is initially localized at a certain vertex, the probability distributions of the two quantum walks are identical, even though the amplitudes differ. We analytically prove this for a graph with five vertices and a graph with six vertices. By simulating the walks on all 1,018,689,568 simple, connected, irregular graphs with eleven vertices or less, we found sixty-four graphs with this notion of equivalence. We also give eight infinite families of graphs supporting these equivalent walks.
翻訳日:2023-03-22 18:10:22 公開日:2021-10-04
# 低損失コプラナー導波路共振器用電子ビーム蒸着ニオブの作製と表面処理

Fabrication and surface treatment of electron-beam evaporated niobium for low-loss coplanar waveguide resonators ( http://arxiv.org/abs/2108.05354v2 )

ライセンス: Link先を確認
D. Kowsari, K. Zheng, J. T. Monroe, N. J. Thobaben, X. Du, P. M. Harrington, E. A. Henriksen, D. S. Wisbey, and K. W. Murch(参考訳) 超高真空下で堆積した低損失電子ビーム蒸着ニオブ薄膜を特徴付ける。 堆積速度の遅いフィルムは超伝導遷移温度(9.20 \pm 0.06 \rm ~k$)、残留比比は4.8$である。 導波路共振器に薄膜を作製し,マイクロ波測定による2レベル変動器の存在による固有損失を抽出する。 コプラナー導波路共振器のギャップが2〜\mu \rm m$の場合、ニオブのネイティブ表面酸化物を除去した後、単光子構造の内部品質因子が100万を超える場合、フィルムはフィリングファクタ調整された2レベル損失タンジェントを1.5ドルまで下げる。

We characterize low-loss electron-beam evaporated niobium thin films deposited under ultra-high vacuum conditions. Slow deposition yields films with a high superconducting transition temperature ($9.20 \pm 0.06 \rm ~K$) as well as a residual resistivity ratio of $4.8$. We fabricate the films into coplanar waveguide resonators to extract the intrinsic loss due to the presence of two-level-system fluctuators using microwave measurements. For a coplanar waveguide resonator gap of $2~\mu \rm m$, the films exhibit filling-factor-adjusted two-level-system loss tangents as low as $1.5 \times 10^{-7}$ with single-photon regime internal quality factors in excess of one million after removing native surface oxides of the niobium.
翻訳日:2023-03-18 19:10:16 公開日:2021-10-04
# 変分量子固有解法を用いたカゴメ反強磁性ハイゼンベルク模型の基底状態の研究

Probing ground state properties of the kagome antiferromagnetic Heisenberg model using the Variational Quantum Eigensolver ( http://arxiv.org/abs/2108.08086v2 )

ライセンス: Link先を確認
Jan Lukas Bosse, Ashley Montanaro(参考訳) kagome lattice (kafh) の反強磁性ハイゼンベルクモデルのようなスピン格子の基底状態の発見と探索は、古典的コンピュータにおいて非常に難しい問題であり、比較的小さなシステムでのみ可能である。 本稿では,変分量子固有解法(VQE)を用いて量子コンピュータ上でのKAFHの基底状態を求める。 効率的なアンサッツ回路を見つけ、物理的に興味深い観測器を効率的に測定できることを示す。 我々は,8量子ビットから24量子ビットの格子に対するKAFHのVQEの古典的,正確なシミュレーションを用いて,アンザッツ回路の表現性とスケーリングについて検討した。 基底状態の忠実度は, ほぼ退化した基底状態を持つ24量子格子を除いて, 全ての格子の回路深さにおいて指数関数的に接近することがわかった。 我々は,KAFHの基底状態を正確に対角化できない格子上で表現できるVQE回路は,短期量子ハードウェア上で実現可能であると結論付けた。 しかし、大きなシステムでは、基底状態と高い忠実性を達成するために多くの変動パラメータを持つ回路が必要となる。

Finding and probing the ground states of spin lattices, such as the antiferromagnetic Heisenberg model on the kagome lattice (KAFH), is a very challenging problem on classical computers and only possible for relatively small systems. We propose using the Variational Quantum Eigensolver (VQE) to find the ground state of the KAFH on a quantum computer. We find efficient ansatz circuits and show how physically interesting observables can be measured efficiently. To investigate the expressiveness and scaling of our ansatz circuits we used classical, exact simulations of VQE for the KAFH for different lattices ranging from 8 to 24 qubits. We find that the fidelity with the ground state approaches one exponentially in the circuit depth for all lattices considered, except for a 24-qubit lattice with an almost degenerate ground state. We conclude that VQE circuits that are able to represent the ground state of the KAFH on lattices inaccessible to exact diagonalisation techniques may be achievable on near term quantum hardware. However, for large systems circuits with many variational parameters are needed to achieve high fidelity with the ground state.
翻訳日:2023-03-18 03:26:47 公開日:2021-10-04
# クリロフ複雑性の幾何学

Geometry of Krylov Complexity ( http://arxiv.org/abs/2109.03824v2 )

ライセンス: Link先を確認
Pawel Caputa, Javier M. Magan and Dimitrios Patramanis(参考訳) 我々は,多体量子系における演算子成長とクリロフ複雑性に対する幾何学的アプローチを開発する。 まず、ユニタリ進化と、適切な一般化されたコヒーレント状態の変位作用素との直接的なリンクを示す。 この接続は作用素の成長を位相空間内の純粋古典運動に写像する。 位相空間には自然情報計量が与えられている。 この幾何学において、作用素の成長は測地学で表され、クリロフ複雑性は体積に比例することを示す。 この幾何学的視点はまた、ランツォ係数の計算への2つの新しい道を提供し、その最大成長の起源に新しい光を放つ。 Sachdev-Ye-Kitaev モデルから既知の結果を再現し、SU(2) と Heisenberg-Weyl 対称性に基づく作用素成長を導出し、議論を共形場理論に一般化する、という明確な例で分析する。 最後に, 量子光学の手法を用いて, エンタングルメントやレーニエントロピー, 負性, 忠実性, 相対エントロピー, エンタングルメントの容量などの量子情報ツールを用いて, 演算子の進化を研究する。

We develop a geometric approach to operator growth and Krylov complexity in many-body quantum systems governed by symmetries. We start by showing a direct link between a unitary evolution with the Liouvillian and the displacement operator of appropriate generalized coherent states. This connection maps operator growth to a purely classical motion in phase space. The phase spaces are endowed with a natural information metric. We show that, in this geometry, operator growth is represented by geodesics and Krylov complexity is proportional to a volume. This geometric perspective also provides two novel avenues towards computation of Lanczos coefficients and sheds new light on the origin of their maximal growth. We describe the general idea and analyze it in explicit examples among which we reproduce known results from the Sachdev-Ye-Kitaev model, derive operator growth based on SU(2) and Heisenberg-Weyl symmetries, and generalize the discussion to conformal field theories. Finally, we use techniques from quantum optics to study operator evolution with quantum information tools such as entanglement and Renyi entropies, negativity, fidelity, relative entropy and capacity of entanglement.
翻訳日:2023-03-15 20:24:20 公開日:2021-10-04
# 有限運動量ボースポーラロンの量子チェレンコフ転移

Quantum Cherenkov transition of finite momentum Bose polarons ( http://arxiv.org/abs/2109.12260v2 )

ライセンス: Link先を確認
Kushal Seetharam, Yulia Shchadilova, Fabian Grusdt, Mikhail Zvonarev, Eugene Demler(参考訳) 超低温原子の弱相互作用する3次元ボース・アインシュタイン凝縮体(BEC)に浸漬された有限モーメント不純物の挙動を考察し、Refで議論された量子チェレンコフ転移の詳細な説明を与える。 [arXiv:2101.00030] 時間依存の変分法を用いて, 近距離不純物-ボゾン相互作用が冷え込んだ後, 系の遠方平衡ダイナミクスの遷移を同定する。 この遷移は、不純物の速度が相互作用に依存した臨界値を超えたときに起こり、ロシミットエコーと平均不純物の速度の長時間の挙動を示す。 この挙動は系の有限運動量基底状態にも反映され、相互作用した不純物の群速度は臨界点が交差するにつれて系の総運動量に依存する。 本稿では, 飛行時間計測, RFスペクトロスコピー, ラムゼイ干渉計, 吸収イメージングなどの超低温原子系において, 様々な共通プロトコルを用いて実験的に観測可能であることが必要である。

We investigate the behavior of a finite-momentum impurity immersed in a weakly interacting three-dimensional Bose-Einstein condensate (BEC) of ultra-cold atoms, giving a detailed account of the dynamical quantum Cherenkov transition discussed in Ref. [arXiv:2101.00030]. Using a time-dependent variational approach, we identify a transition in the far-from-equilibrium dynamics of the system after the attractive short-range impurity-boson interaction is quenched on. The transition occurs as the impurity's velocity crosses an interaction-dependent critical value, and manifests in the long-time behavior of the Loschmidt echo and average impurity velocity. This behavior is also reflected in the finite momentum ground state of the system, where the group velocity of the interaction-dressed impurity loses it's dependence on the total momentum of the system as the critical point is crossed. The transition we discuss should be experimentally observable via a variety of common protocols in ultracold atomic systems such as time-of-flight imaging, RF spectroscopy, Ramsey interferometry, and absorption imaging.
翻訳日:2023-03-13 19:05:41 公開日:2021-10-04
# フォノンレーザー超感度力センサ

Phonon-laser ultrasensitive force sensor ( http://arxiv.org/abs/2110.01146v1 )

ライセンス: Link先を確認
Zhichao Liu, Yaqi Wei, Liang Chen, Ji Li, Shuangqing Dai, Fei Zhou, and Mang Feng(参考訳) 超感度力検出のためのナノ機械振動子の開発は、科学の探索において非常に重要である。 イオントラップにおける最小の力検出にスクイージングを応用し, 注入同期下で単一捕捉された$^{40}$ca$^{+}$イオンからなるナノセンサを用いて, 高周波電界に関する外部力の超感度検出を行った。 使用したイオンは表面電極トラップに安定に閉じ込められ、外乱に非常に敏感なフォノンレーザーとして機能する。 注入同期はイオンの位相同期を駆動し、347$\pm$ 50 yn/$\sqrt{hz}$という感度で力検出を行う。 さらに, 発振相の分散に3dBスキューズを適用し, 86.5$\pm$ 70.1 yNの最小力の検出に成功した。

Developing nano-mechanical oscillators for ultrasensitive force detection is of great importance in exploring science. We report our achievement of ultrasensitive detection of the external force regarding the radio-frequency electric field by a nano-sensor made of a single trapped $^{40}$Ca$^{+}$ ion under injection-locking, where squeezing is additionally applied to detection of the smallest force in the ion trap. The employed ion is confined stably in a surface electrode trap and works as a phonon laser that is very sensitive to the external disturbance. The injection-locking drove the ion's oscillation with phase synchronization, yielding the force detection with sensitivity of 347 $\pm$ 50 yN/$\sqrt{Hz}$. Further with 3 dB squeezing applied on the oscillation phase variance, we achieved a successful detection of the smallest force to be 86.5 $\pm$ 70.1 yN.
翻訳日:2023-03-12 14:22:32 公開日:2021-10-04
# ボヘミア力学の発展

Developments of Bohmian Mechanics ( http://arxiv.org/abs/2110.01143v1 )

ライセンス: Link先を確認
James P. Finley(参考訳) ボーム力学(Bohmian mechanics)は、n粒子のn速度関数の集合に基づく量子力学の決定論的理論であり、これらの関数はn体時間依存シュレーディンガー方程式の波動関数に依存する。 定常状態の速度場がゼロ関数であるため、ボヘミア力学が定常状態に適用できないことはよく知られている。 近年、ボーム力学の代替案が定式化され、速度場が零関数ではないエネルギー方程式の保存に基づいているが、この形式化は実値の波動関数を持つ定常状態に対してのみ適用できる。 本稿では,ボヘミアン力学をボヘミアン力学の代替品と組み合わせる。 これはボーム量子ポテンシャルの解釈を導入することで達成される。 最終的な形式化は定常状態を含む全ての状態に対して動的粒子を与える。 最後の主作業方程式は、2つの運動エネルギー項と、圧力として解釈できる因子を含む項を含む。 導出は、マデルング方程式の最近の一般化(refinement)の単純な n-体一般化である。

Bohmian mechanics is a deterministic theory of quantum mechanics that is based on a set of n velocity functions for n particles, where these functions depend on the wavefunction from the n-body time-dependent Schroedinger equation. It is well know that Bohmian mechanics is not applicable to stationary states, since the velocity field for stationary states is the zero function. Recently, an alternative to Bohmian mechanics has been formulated, based on a conservation of energy equation, where the velocity fields are not the zero function, but this formalism is only applicable to stationary states with real valued wavefunctions. In this paper, Bohmian mechanics is merged with the alternative to Bohmian mechanics. This is accomplished by introducing an interpretation of the Bohm quantum potential. The final formalism gives dynamic particles for all states, including stationary states. The final main working equation contains two kinetic energy terms and a term that contains a factor that can be interpreted as a pressure. The derivation is a simple n-body generalization of the recent generalization, or refinement, of the Madelung equations.
翻訳日:2023-03-12 14:22:15 公開日:2021-10-04
# 量子時間-エネルギーの不確かさ関係の熱力学的起源

Thermodynamic origin of quantum time-energy uncertainty relation ( http://arxiv.org/abs/2110.01337v1 )

ライセンス: Link先を確認
Zacharias Roupas(参考訳) 時間の問題は、量子論が自然の究極的な基本的な記述であると認識することへの顕著な障害である。 古典的な概念に基づく量子論は完備ではないかもしれない。 ルイ・ド・ブロイ(louis de broglie)は、彼の提案する物質波のオントロジーについて、多かれ少なかれ確信しているようで、統計熱力学に依存する準量子次数の自由の理論を発展させようとした。 彼は量子粒子を、サブ量子媒質から非線形効果によって形成される変動する密集したコーパスとして認識した。 媒体上の波が振動コーパスを案内する。 彼は、量子粒子の固有時計はその準量子レベルでのブラウン運動と関連していると主張した。 このことから、ド・ブロイのクロック周波数 $m c^2/h$ とその暗黙の温度との関係を推測した。 同じ頃、マンデルブロは古典的にエネルギーと温度の間の熱力学的不確実性関係を導出した最初の人物であり、量子論の発展の最初の年にボーアとハイゼンベルクによって予測された。 ここで、ド・ブロイの温度-時間予想を仮定すると、熱力学的温度-エネルギーの不確かさ関係は量子時間-エネルギーの不確かさ関係をもたらす。

The problem of time is a notable obstacle towards the recognition of quantum theory as the ultimate fundamental description of nature. Quantum theory may not be complete if founded upon classical notions. Louis de Broglie, seeming to be more or less convinced about the ontology of his proposed matter waves, tried to develop a theory of sub-quantum degrees of freedom relying on statistical thermodynamics. He realized a quantum particle as a fluctuating dense corpuscle formed via non-linear effects from a sub-quantum medium. A wave on the medium guides the vibrating corpuscle. He argued that an intrinsic clock of a quantum particle is related to its Brownian motion at the sub-quantum level. This led him to conjecture a relation between the de Broglie clock frequency $m c^2/h$ and its implicit temperature, which equals that of the surrounding sub-quantum medium. About the same time, Mandelbrot was the first to derive in a classical setting a thermodynamic uncertainty relation between energy and temperature, that was, coincidentally or not, anticipated by Bohr and Heisenberg in the first years of development of quantum theory. We show here that, when the de Broglie temperature-time conjecture is assumed, the thermodynamic temperature-energy uncertainty relation leads to the quantum time-energy uncertainty relation.
翻訳日:2023-03-12 14:19:51 公開日:2021-10-04
# 磁気媒体に対するカシミール効果:オフシェル量子揺らぎに対する空間的非局所応答

Casimir effect for magnetic media: Spatially nonlocal response to the off-shell quantum fluctuation ( http://arxiv.org/abs/2110.01285v1 )

ライセンス: Link先を確認
G. L. Klimchitskaya and V. M. Mostepanenko(参考訳) 我々は、カシミール力のリフシッツ理論を、空間的に非局所誘電率を持つ2つの平行磁性金属板の場合に拡張する。 磁性金属半空間の境界面に入射する電磁波の構成におけるマクスウェル方程式を解くことにより、その磁気透過性と縦および横誘電関数の観点から、表面インピーダンスを正確に表現する。 これにより、リフシッツ理論は表面インピーダンスを介して記述された反射係数を応用し、非磁性媒体に導入された代替非局所応答関数によって誘電応答が記述される磁性金属(ni)板間のカシミール圧力を計算することができる。 100から800〜nmの分離では、別の非局所および局所プラズマ応答関数を用いて計算されたカシミール圧力が1\%未満である。 数マイクロメートルの分離では、これらの2つのアプローチの予測は、自分自身とドルード関数を用いて得られるものの間で数パーセント異なる。 また、別の非局所応答関数を用いて、球面のNi被覆面とプレートとの間のカシミール力の勾配を計算し、測定データと非常によく一致していることを示す。 カシミール物理学における長期問題の解法に対するオフシェル量子ゆらぎによって決定された結果の影響について論じる。

We extend the Lifshitz theory of the Casimir force to the case of two parallel magnetic metal plates possessing a spatially nonlocal dielectric response. By solving Maxwell equations in the configuration of an electromagnetic wave incident on the boundary plane of a magnetic metal semispace, the exact surface impedances are expressed in terms of its magnetic permeability and longitudinal and transverse dielectric functions. This allows application of the Lifshitz theory with reflection coefficients written via the surface impedances for calculation of the Casimir pressure between magnetic metal (Ni) plates whose dielectric responses are described by the alternative nonlocal response functions introduced for the case of nonmagnetic media. It is shown that at separations from 100 to 800~nm the Casimir pressures computed using the alternative nonlocal and local plasma response functions differ by less than 1\%. At separations of a few micrometers, the predictions of these two approaches differ between themselves and between that one obtained using the Drude function by several tens of percent. We also compute the gradient of the Casimir force between Ni-coated surfaces of a sphere and a plate using the alternative nonlocal response functions and find a very good agreement with the measurement data. Implications of the obtained results determined by the off-shell quantum fluctuations to a resolution of long-standing problems in the Casimir physics are discussed.
翻訳日:2023-03-12 14:18:47 公開日:2021-10-04
# 不均一磁場中における2つの重力猫状態の局所量子不確かさ

Local quantum uncertainty of two gravitational cat states in inhomogeneous magnetic field ( http://arxiv.org/abs/2110.01239v1 )

ライセンス: Link先を確認
Rachid Hou\c{c}a, El Bou\^azzaoui Choubabi, Abdellatif Kamal, Abdelhadi Belouad, Mohammed El Bouziani(参考訳) 本稿では,不均一磁場を受ける2つの重力猫状態の絡み合いを含む局所量子相関(lqu)について検討する。 選択したシステムに関連する物理量からLQU式を導出した。 以上の結果から, 温度, 磁場および磁場の不均一性は, グラブキャット間の複雑度をある程度決定する役割を担っている可能性が示唆された。 さらに、これらの結論は熱LQUがエンタングルメントよりも強い量子相関を捉えることを示唆している。 特に低い外部磁場レベルと低磁場不均一性または高温領域が組み合わさった場合である。 さらに、フィールド不均一性の大きい値に対する状態分離性を得た。 さらに, 得られた状態の相関は, 低温での小さな磁場値に対して最大値である。 最後に、基本レベルと第一励起レベルとの間のギャップが大きくなると、状態の系は非絡み合い、分離可能であることに注意する。

This paper investigates the local quantum correlations (LQU), including entanglement, of two gravitational cat states subjected to an inhomogeneous magnetic field. We derived the LQU expression from the physical quantities associated with the selected system. Our findings suggest that temperature, magnetic field, and magnetic field inhomogeneity may all play a role in determining the degree of intricacy between the gravcats to some extent. Furthermore, these conclusions suggest that the thermal LQU captures a stronger quantum correlation than the entanglement. Especially true for low external magnetic field levels combined with low field inhomogeneity or high-temperature domains. Besides, we obtained the states' separability for large values of field inhomogeneity. Moreover, the correlation of the states obtained is maximal for small magnetic field values at low temperatures. Finally, we note that the state's systems become non-entangled and separable when the gap between the fundamental level and the first excited level becomes large.
翻訳日:2023-03-12 14:18:03 公開日:2021-10-04
# Rabiモデルの幾何学的位相と非断熱共鳴

Geometric phase and non-adiabatic resonance of the Rabi model ( http://arxiv.org/abs/2110.01158v1 )

ライセンス: Link先を確認
Sijiang Liu, Zhiguo L\"u and Hang Zheng(参考訳) 逆回転項が幾何学的位相に及ぼす影響とラビモデルの共鳴との関係について検討した。 単一パラメータを持つユニタリ変換をRabiモデルに適用し、複数の調和項を含む変換ハミルトン変換を得る。 対向共動回転波法と時間依存摂動理論を組み合わせることで、系統的に時間発展作用素を解き、2段階系の幾何学的位相を得る。 我々の結果は断熱近似と回転波近似(RWA)を越えている。 高次調和共鳴は、駆動周波数がラビ周波数の高次サブハーモニックと等しい場合に起こる。 特に高次高調波共鳴系では, 数値的精度と比較して, 計算結果は幅広いパラメータ空間において正確である。 これらの状態において、RWAの位相が滑らかである間に幾何学的位相が劇的に変化することを示す。 rwaは、駆動強度が極めて弱い場合でも完全に無効である。 周期状態において重要な役割を果たす高次調和項であり、高次調和共振レジームにおける幾何学的位相の特徴を示す。 また, 強い駆動の場合においても, 数値的精度のよい幾何位相と準エネルギーの変化率の解析形式を提示する。 本手法は,高次調和過程の強駆動量子ビットのダイナミクスと物性を探索するために応用できる。

We investigate the effects of counterrotating terms on geometric phase and its relation to the resonance of the Rabi model. We apply the unitary transformation with a single parameter to the Rabi model and obtain the transformed Hamiltonian involving multiple harmonic terms. By combining the counter-rotating-hybridized rotating-wave method with time-dependent perturbation theory, we solve systematically time evolution operator and then obtain the geometric phase of the two-level system. Our results are beyond adiabatic approximation and rotating-wave approximation (RWA). Higher-order harmonic resonance happens when driving frequency is equal to higher-order subharmonic of the Rabi frequency. In comparison with numerically exact results, our calculated results are accurate over a wide range of parameters space, especially in higher-order harmonic resonance regimes. In these regimes we demonstrate geometric phases change dramatically while those of the RWA are smooth. The RWA is thoroughly invalid even if the driving strength is extremely weak. We find it is the higher-order harmonic terms that play an important role on the cyclic state and demonstrate the characters of geometric phase in higher-order harmonic resonance regime. We also present analytical formalism of the change rate of geometric phase and quasienergies, which agree well with numerically exact ones even in the strong driving case. The developed method can be applied to explore the dynamics of strongly driven qubits and physical properties of higher-order harmonic processes.
翻訳日:2023-03-12 14:17:18 公開日:2021-10-04
# 新型コロナウイルス(COVID-19)の接触追跡アプリのインストールを大量監視する方法

How mass surveillance can crowd out installations of COVID-19 contact tracing apps ( http://arxiv.org/abs/2110.01567v1 )

ライセンス: Link先を確認
Eran Toch and Oshrat Ayalon(参考訳) 新型コロナウイルス(COVID-19)パンデミックの間、多くの国が新型コロナウイルスの感染拡大を抑制するための接触追跡技術を開発し、展開してきた。 その後、人々がコンタクト追跡アプリをインストールして使用する理由を理解することが、その効果と影響の中心になっている。 本稿では,集中型大量監視技術と自発的接触追跡モバイルアプリを同時に運用する状況を分析する。 この並列デプロイメントを,大規模なデプロイメントに対する態度がユーザのコンタクトトレースアプリのインストールに与える影響をテストする,自然な実験として使用します。 イスラエル人の代表的調査(n=519)から,大量監視に対する肯定的な態度は,接触追跡アプリをインストールする可能性の低下と,それらをアンインストールする可能性の増大に関連していた。 これらの結果は、連絡先追跡アプリ、アプリに対する態度、当局への信頼、および人口統計に関するプライバシーの懸念を制御する際にも有効である。 同様の推論は、データ収集システムへの自発的な参加を群がることにも関係している。

During the COVID-19 pandemic, many countries have developed and deployed contact tracing technologies to curb the spread of the disease by locating and isolating people who have been in contact with coronavirus carriers. Subsequently, understanding why people install and use contact tracing apps is becoming central to their effectiveness and impact. This paper analyzes situations where centralized mass surveillance technologies are deployed simultaneously with a voluntary contact tracing mobile app. We use this parallel deployment as a natural experiment that tests how attitudes toward mass deployments affect people's installation of the contact tracing app. Based on a representative survey of Israelis (n=519), our findings show that positive attitudes toward mass surveillance were related to a reduced likelihood of installing contact tracing apps and an increased likelihood of uninstalling them. These results also hold when controlling for privacy concerns about the contact tracing app, attitudes toward the app, trust in authorities, and demographic properties. Similar reasoning may also be relevant for crowding out voluntary participation in data collection systems.
翻訳日:2023-03-12 14:10:36 公開日:2021-10-04
# 2次元における$\delta$-関数点と平行線欠陥の集まりによる散乱

Scattering by a collection of $\delta$-function point and parallel line defects in two dimensions ( http://arxiv.org/abs/2110.01498v1 )

ライセンス: Link先を確認
Hai V. Bui, Farhang Loran, and Ali Mostafazadeh(参考訳) 点と線欠陥との波動の相互作用は、通常、点または線で支えられる$\delta$-function potentialsによって記述される。 二次元では、点欠陥の有限集合や平行線欠陥の散乱問題は正確に解くことができる。 これは、点線と平行線の両方の欠陥が存在する場合に当てはまらない。 2次元の点および平行線欠陥の有限集合に対する散乱問題の詳細な解法を提供する。 特に、点欠陥のカップリング定数の必要な再正規化を行い、対応する特異ポテンシャルに対する散乱振幅とグリーン関数の解析計算を可能にし、このポテンシャルの摂動結果を調査し、点欠陥を含む曲面上を移動する粒子の幾何学的散乱の研究における結果の適用について解説する近似スキームを導入する。 本研究は,2次元光学系におけるスペクトル特異点とそれに対応するレーザー・アンチラッシング現象の研究のための基礎的枠組みを提供する。

Interaction of waves with point and line defects are usually described by $\delta$-function potentials supported on points or lines. In two dimensions, the scattering problem for a finite collection of point defects or parallel line defects is exactly solvable. This is not true when both point and parallel line defects are present. We offer a detailed treatment of the scattering problem for finite collections of point and parallel line defects in two dimensions. In particular, we perform the necessary renormalization of the coupling constants of the point defects, introduce an approximation scheme which allows for an analytic calculation of the scattering amplitude and Green's function for the corresponding singular potential, investigate the consequences of perturbing this potential, and comment on the application of our results in the study of the geometric scattering of a particle moving on a curved surface containing point and line defects. Our results provide a basic framework for the study of spectral singularities and the corresponding lasing and antilasing phenomena in two-dimensional optical systems involving lossy and/or active thin wires and parallel thin plates.
翻訳日:2023-03-12 14:09:23 公開日:2021-10-04
# 単一光子のトンネル時間

Tunneling times of single photons ( http://arxiv.org/abs/2110.01483v1 )

ライセンス: Link先を確認
Jan Gulla, Johannes Skaar(参考訳) 障壁を通る古典パルスの群遅延は超光度を示すかもしれないが、情報伝達は真空光速で伝播する前駆体によって制限される。 しかし、単一光子は無限尾を持ち、因果性の問題は無意味になる。 我々は、オンデマンドの単一光子源が生成する光状態の例である単一光子に近い厳密な局所状態を導入することで、この問題を解決する。 これらの状態は、1つの光子に任意に近づき、前縁に因果性を示す。

Although the group delay of classical pulses through a barrier may suggest superluminality, the information transfer is limited by the precursor which propagates at the vacuum light speed. Single photons, however, have infinite tails, and the question of causality becomes meaningless. We solve this problem by introducing strictly localized states close to single photons, which are examples of optical states produced by on-demand single-photon sources. These states can be arbitrarily close to single photons while demonstrating causality for their leading edge.
翻訳日:2023-03-12 14:09:06 公開日:2021-10-04
# n量子ビットの2量子ビットへの真の絡み合いの検出

Reducing the detection of genuine entanglement of n qubits to two qubits ( http://arxiv.org/abs/2110.01479v1 )

ライセンス: Link先を確認
Dafa Li(参考訳) 本稿では,純多ビット状態の真の絡み合いの検出基準を提案する。 この目的のために、減少密度演算子とは異なる損失1量子ビット演算子と呼ばれる演算子を定義する。 損失の1つの量子ビット演算子を適用することによって得られる状態は、その射影状態と呼ばれる。 純積 n-量子ビット状態の射影状態は、単一の量子ビット状態と真に絡み合った (n-1)-量子ビット状態の積として書けないことから純粋な積状態であることが示されている。 また、純粋なn量子ビット状態は、少なくとも2つの真に絡み合った(n-1)量子ビット状態を持つため、真に絡み合っていることを示す。 損失過程を繰り返すことによって、純粋なn-量子状態と純粋な2-量子状態との絡み合いの検出を減らす。 また、削減プロセスのためのLISPプログラムも作成する。

We propose a criterion for the detection of genuine entanglement of pure multiqubit states. To this aim, we define an operator called the losing one qubit operator, which is different from the reduced density operator. The states obtained from a multiqubit state by applying the losing one qubit operator are referred to as its projected states. We show that all of the projected states of a pure product n-qubit state are pure product states provided that it cannot be written as a product of a single qubit state and a genuinely entangled (n-1)-qubit state. We also show that a pure n-qubit state is genuinely entangled provided that the state has at least two genuinely entangled (n-1)-qubit projected states. By repeating the losing process, we reduce the detection of entanglement of pure n-qubit states to the one of pure two-qubit states. Also we write a LISP program for the reduction process.
翻訳日:2023-03-12 14:08:43 公開日:2021-10-04
# 量子強化古典的ネットワークエミュレーションのための量子シミュレーションの統合

Integrating Quantum Simulation for Quantum-Enhanced Classical Network Emulation ( http://arxiv.org/abs/2110.01437v1 )

ライセンス: Link先を確認
Stephen DiAdamo, Janis N\"otzel, Simon Sekav\v{c}nik, Riccardo Bassoli, Roberto Ferrara, Christian Deppe, Frank Fitzek, Holger Boche(参考訳) 本稿では,現在のネットワークの観点から,通信ネットワークにおける量子通信技術の短期的可能性について検討する。 このため、リンク層における量子ネットワークシミュレータQuNetSimのインスタンスを、通信ネットワークエミュレータComNetsEmuに統合する。 これにより、ComNetsEmuの新たな拡張バージョンは、任意の量子プロトコルを、直接接続されたネットワークホスト間で実行することができる。 提案手法の例を示すために,アイドル状態で絡み合いを生成して保存するリンク層手法を実装し,後にスーパーデンス符号化を用いてデータ伝送を高速化する。

We describe a method of investigating the near-term potential of quantum communication technology for communication networks from the perspective of current networks. For this, we integrate an instance of the quantum network simulator QuNetSim at the link layer into the communication network emulator ComNetsEmu. This novel augmented version of ComNetsEmu is thereby enabled to run arbitrary quantum protocols between any directly connected pair of network hosts. To give an example of the proposed method, we implement the link layer method of generating and storing entanglement while idle, to accelerate data transmission at later times using superdense coding.
翻訳日:2023-03-12 14:08:28 公開日:2021-10-04
# LQP:量子情報の動的論理

LQP: The Dynamic Logic of Quantum Information ( http://arxiv.org/abs/2110.01361v1 )

ライセンス: Link先を確認
Alexandru Baltag and Sonja Smets(参考訳) 本論文の主な貢献は、複合量子システムにおける情報フローの推論のための動的論理形式の導入である。 これは、単一システムのための完全な量子動的論理に関する以前の仕事に基づいている。 ここでは、これを複合システムの健全な(しかし必ずしも完全ではない)論理に拡張し、量子論理の伝統と(動的)様相論理と量子計算の概念を結合する。 この量子プログラムの論理(lqp)は、量子測定と多成分状態のユニタリ進化の重要な特徴を表現でき、様々な形式の絡み合い(ベル状態、ghz状態など)に論理的な特徴を与えることができる。 本稿では,この論理の文法,関係意味論,音響証明システムについて述べる。 アプリケーションとしては、テレポーテーションプロトコルと標準量子シークレット共有プロトコルの形式的正当性証明を与えるために本システムを用いており、他のよく知られたプロトコル(例えば、スーパーデンス符号化、エンタングルメント交換、論理ゲートテレポーテーションなど)を含む、他の量子回路やプログラムも同様に論理を用いて検証することができる。

The main contribution of this paper is the introduction of a dynamic logic formalism for reasoning about information flow in composite quantum systems. This builds on our previous work on a complete quantum dynamic logic for single systems. Here we extend that work to a sound (but not necessarily complete) logic for composite systems, which brings together ideas from the quantum logic tradition with concepts from (dynamic) modal logic and from quantum computation. This Logic of Quantum Programs (LQP) is capable of expressing important features of quantum measurements and unitary evolutions of multi-partite states, as well as giving logical characterisations to various forms of entanglement (for example, the Bell states, the GHZ states etc.). We present a finitary syntax, a relational semantics and a sound proof system for this logic. As applications, we use our system to give formal correctness proofs for the Teleportation protocol and for a standard Quantum Secret Sharing protocol; a whole range of other quantum circuits and programs, including other well-known protocols (for example, superdense coding, entanglement swapping, logic-gate teleportation etc.), can be similarly verified using our logic.
翻訳日:2023-03-12 14:08:09 公開日:2021-10-04
# 超伝導量子ビット用共振器誘起位相ゲートの最適化

Optimization of the resonator-induced phase gate for superconducting qubits ( http://arxiv.org/abs/2110.01724v1 )

ライセンス: Link先を確認
Moein Malekakhlagh, William Shanks and Hanhee Paik(参考訳) 共振器誘導位相ゲートは、バス共振器を駆動する2ビット動作であり、有効$ZZ$相互作用に相当するキュービット上の状態依存位相シフトを誘導する。 原則として、ゲートの分散性はキュービットパラメータの柔軟性を提供する。 しかし、この駆動は共振器や量子ビットの漏れを引き起こす可能性があり、既存のJaynes-CummingsモデルやKerrモデルでは完全に捕捉できない。 本稿では,トランスモン量子ビットに対するジョセフソン非線形性に基づく ab-initio モデルを採用する。 ab-initio分析は、弱いドライブ分散状態における効果的な$zz$相互作用を捉えるという点でkerrモデルとよく一致する。 さらに、高励起量子ビット状態を含む多くのリーク遷移を明らかにする。 このような新しいリークチャネルの背後にある物理を解析し、特定の量子ビット共振子周波数衝突との接続を実証し、デバイスパラメータ最適化に向けた計画を策定する。 非常に弱い無調波トランスモンを用いて, この種の漏洩を著しく抑制できることを示す。 特に、より弱いクビット非調和性は衝突密度と漏れ振幅の両方を緩和する一方、より大きなクビット周波数は衝突を実験に関係のない大きな非調和性でのみ発生させる。 本研究は線形共振器に結合した弱非調和トランスモン量子ビットの物理に適用できる。 特に,サンク等における測定誘起状態遷移(Phys. Rev. Lett.117, 190503)を検証・一般化し,強駆動共振器誘起位相ゲート実装と強駆動分散量子ビット測定の両方の基礎となる。

The resonator-induced phase gate is a two-qubit operation in which driving a bus resonator induces a state-dependent phase shift on the qubits equivalent to an effective $ZZ$ interaction. In principle, the dispersive nature of the gate offers flexibility for qubit parameters. However, the drive can cause resonator and qubit leakage, the physics of which cannot be fully captured using either the existing Jaynes-Cummings or Kerr models. In this paper, we adopt an ab-initio model based on Josephson nonlinearity for transmon qubits. The ab-initio analysis agrees well with the Kerr model in terms of capturing the effective $ZZ$ interaction in the weak-drive dispersive regime. In addition, however, it reveals numerous leakage transitions involving high-excitation qubit states. We analyze the physics behind such novel leakage channels, demonstrate the connection with specific qubits-resonator frequency collisions, and lay out a plan towards device parameter optimization. We show this type of leakage can be substantially suppressed using very weakly anharmonic transmons. In particular, weaker qubit anharmonicity mitigates both collision density and leakage amplitude, while larger qubit frequency moves the collisions to occur only at large anharmonicity not relevant to experiment. Our work is broadly applicable to the physics of weakly anharmonic transmon qubits coupled to linear resonators. In particular, our analysis confirms and generalizes the measurement-induced state transitions noted in Sank et al. (Phys. Rev. Lett. 117, 190503) and lays the groundwork for both strong-drive resonator-induced phase gate implementation and strong-drive dispersive qubit measurement.
翻訳日:2023-03-12 14:01:00 公開日:2021-10-04
# 光多重アクセス通信の計算可能限界

Computable limits of optical multiple-access communications ( http://arxiv.org/abs/2110.01681v1 )

ライセンス: Link先を確認
Haowei Shi and Quntao Zhuang(参考訳) 量子チャネル上の通信速度は、超付加性現象や絡み合い支援を通じて、絡み合いによって押し上げることができる。 Superadditivityは、複数のチャネル使用における入力の絡み合いによるキャパシティ改善を指す。 それでも、無制限の絡み合い補助が利用可能になると、チャネル間の絡み合いは不要になる。 我々は、合計通信レートに対して、ea能力の一般マルチアクセスチャネル(macs)への付加性を一般化する。 さらに,位相非感性ボソニック・ガウスMACとしてモデル化された光通信において,ガウス交絡により最適なトータルレートが達成され,効率よく評価できることを示す。 エンタングルメントの利点をベンチマークするために,エンタングルメント補助を使わずにキャパシティ領域の計算可能な外界を提案する。 最後に、最小エントロピー予想のEA版を定式化し、それが真であれば位相非感受性ボソニックガウス MAC の容量領域の加法性をもたらす。 計算可能な制限は、光多重アクセス通信における絡み合いの促進を確認する。

Communication rates over quantum channels can be boosted by entanglement, via superadditivity phenomena or entanglement assistance. Superadditivity refers to the capacity improvement from entangling inputs across multiple channel uses. Nevertheless, when unlimited entanglement assistance is available, the entanglement between channel uses becomes unnecessary -- the entanglement-assisted (EA) capacity of a single-sender and single-receiver channel is additive. We generalize the additivity of EA capacity to general multiple-access channels (MACs) for the total communication rate. Furthermore, for optical communication modelled as phase-insensitive bosonic Gaussian MACs, we prove that the optimal total rate is achieved by Gaussian entanglement and therefore can be efficiently evaluated. To benchmark entanglement's advantage, we propose computable outer bounds for the capacity region without entanglement assistance. Finally, we formulate an EA version of minimum entropy conjecture, which leads to the additivity of the capacity region of phase-insensitive bosonic Gaussian MACs if it is true. The computable limits confirm entanglement's boosts in optical multiple-access communications.
翻訳日:2023-03-12 14:00:12 公開日:2021-10-04
# 電荷とフラックスノイズを受けるフラックス量子ビットチェーンの本質的に厳密な数値モデリング

Essentially exact numerical modelling of flux qubit chains subject to charge and flux noise ( http://arxiv.org/abs/2110.01647v1 )

ライセンス: Link先を確認
Matthew R.C. Fitzpatrick, Jack Raymond, Malcolm P. Kennett(参考訳) 電荷およびフラックス雑音を受けるフラックス量子ビット鎖をモデル化するための本質的に正確な数値計算法を提案する。 シミュレーションパラメータのチューニングによって任意に小さくできるような、完全に制御されたエラーをもたらす方法として、本質的に厳密なメソッドを定義します。 この方法は準断熱経路積分形式を採用し、系の非マルコフ力学を符号化する一連の影響関数からなる時間分解経路積分として系の還元密度行列を表現する。 本稿では,系の密度行列に対する経路積分式を詳細に導出し,経路積分式の評価に用いるテンソルネットワークアルゴリズムについて詳述する。 私たちはこのメソッドを"spinbosonchain"と呼ばれるオープンソースのpythonライブラリに実装しました。 適切であれば、この原稿でカバーされている概念とライブラリのコードとの間の接続を描く。

We present an essentially exact numerical method for modelling flux qubit chains subject to charge and flux noise. We define an essentially exact method as one that introduces errors that are completely controlled such that they can be made arbitrarily small by tuning the simulation parameters. The method adopts the quasi-adiabatic path integral formalism to express the system's reduced density matrix as a time-discretized path integral, comprising a series of influence functionals that encode the non-Markovian dynamics of the system. We present a detailed derivation of the path integral expression for the system's reduced density matrix and describe in detail the tensor network algorithm used to evaluate the path integral expression. We have implemented our method in an open-sourced Python library called "spinbosonchain". When appropriate, we draw connections between concepts covered in this manuscript and the library's code.
翻訳日:2023-03-12 13:59:27 公開日:2021-10-04
# NISQ時代の量子コンピュータにおけるタンパク質-リガンド相互作用のシミュレーションに向けて

Towards the Simulation of Large Scale Protein-Ligand Interactions on NISQ-era Quantum Computers ( http://arxiv.org/abs/2110.01589v1 )

ライセンス: Link先を確認
Fionn D. Malone, Robert M. Parrish, Alicia R. Welden, Thomas Fox, Matthias Degroote, Elica Kyoseva, Nikolaj Moll, Raffaele Santagati, and Michael Streif(参考訳) NISQ時代の量子コンピュータと古典コンピュータを併用したハイブリッド手法を用いて, 大規模分子系間の相互作用エネルギーを計算するための, 簡便かつ効率的な方法として, 対称性適応摂動理論 (SAPT) の利用について検討する。 変動量子固有解法 (VQE) により得られるモノマー波動関数の1粒子と2粒子の縮密度行列から, 相互作用エネルギー [SAPT(VQE)] に対するSAPT寄与を計算する。 第一に、このエネルギーは非共有結合系に対する静電気的および交換的寄与をもたらす。 理想的な状態ベクトルシミュレーションから、SAPT(VQE)相互作用エネルギー成分は対応するVQEトータルエネルギーよりも絶対誤差が桁違い低いことを実証的に見出した。 したがって、粗く最適化された低深度VQE波動関数であっても、SAPT相互作用エネルギーにおいてサブkcal/mol精度が得られる。 SAPT(VQE)では、キュービット数や回路深さなどの量子要求は、別々の分子系上で計算を行うことによって低下する。 さらに、活性空間は、数千個の軌道を含む大きな系を、計算の量子部分を実行するのに十分な小さな軌道集合に還元することができる。 我々は,SAPT(VQE)(VQE成分を理想的な状態ベクトルシミュレーターでシミュレートした)を,少数の小型マルチ参照ダイマーシステムとヒト癌関連タンパク質リジン特異的デメチル化酵素5(KDM5A)を含む鉄中心に比較検討した。

We explore the use of symmetry-adapted perturbation theory (SAPT) as a simple and efficient means to compute interaction energies between large molecular systems with a hybrid method combing NISQ-era quantum and classical computers. From the one- and two-particle reduced density matrices of the monomer wavefunctions obtained by the variational quantum eigensolver (VQE), we compute SAPT contributions to the interaction energy [SAPT(VQE)]. At first order, this energy yields the electrostatic and exchange contributions for non-covalently bound systems. We empirically find from ideal statevector simulations that the SAPT(VQE) interaction energy components display orders of magnitude lower absolute errors than the corresponding VQE total energies. Therefore, even with coarsely optimized low-depth VQE wavefunctions, we still obtain sub kcal/mol accuracy in the SAPT interaction energies. In SAPT(VQE), the quantum requirements, such as qubit count and circuit depth, are lowered by performing computations on the separate molecular systems. Furthermore, active spaces allow for large systems containing thousands of orbitals to be reduced to a small enough orbital set to perform the quantum portions of the computations. We benchmark SAPT(VQE) (with the VQE component simulated by ideal state-vector simulators) against a handful of small multi-reference dimer systems and the iron center containing human cancer-relevant protein lysine-specific demethylase 5 (KDM5A).
翻訳日:2023-03-12 13:58:31 公開日:2021-10-04
# ドローンの検知と追跡に挑戦

Detection and Tracking Meet Drones Challenge ( http://arxiv.org/abs/2001.06303v3 )

ライセンス: Link先を確認
Pengfei Zhu, Longyin Wen, Dawei Du, Xiao Bian, Heng Fan, Qinghua Hu, Haibin Ling(参考訳) カメラを搭載したドローン、あるいは一般的なuavは、農業、航空写真、監視など、幅広い用途で迅速に展開されている。 その結果、ドローンから収集された視覚データの自動理解が要求されるようになり、コンピュータビジョンとドローンがより緊密になる。 オブジェクト検出とトラッキングのアルゴリズムの開発を促進し、追跡するために、ECCV 2018、ICCV 2019、ECCV 2020とともに3つのチャレンジワークショップを開催しました。 本研究では,(1)イメージオブジェクト検出,(2)ビデオオブジェクト検出,(3)シングルオブジェクト追跡,(4)マルチオブジェクトトラッキングの4つのトラックを含む,大規模なドローン捕獲データセットVisDroneを提供する。 本稿では,まず,物体検出・追跡データセットとベンチマークの徹底的なレビューを行い,完全手動アノテーションによる大規模ドローンによる物体検出・追跡データセットの収集に関する課題について述べる。 その後、中国北部から南部にかけての14の都市・郊外で収集されたVisDroneデータセットについて述べる。 VisDroneはこれまでに発行された中で最大のデータセットであり、ドローンプラットフォームのためのビジュアル分析アルゴリズムの広範な評価と調査を可能にする。 本稿では,ドローンにおける大規模物体検出・追跡の現場の現状を詳細に分析し,今後の方向性を提案するとともに,課題を結論づける。 このベンチマークは、ドローンプラットフォームにおけるビデオ分析の研究と開発を大いに促進するものと期待しています。 すべてのデータセットと実験結果はhttps://github.com/VisDrone/VisDrone-Datasetからダウンロードできる。

Drones, or general UAVs, equipped with cameras have been fast deployed with a wide range of applications, including agriculture, aerial photography, and surveillance. Consequently, automatic understanding of visual data collected from drones becomes highly demanding, bringing computer vision and drones more and more closely. To promote and track the developments of object detection and tracking algorithms, we have organized three challenge workshops in conjunction with ECCV 2018, ICCV 2019 and ECCV 2020, attracting more than 100 teams around the world. We provide a large-scale drone captured dataset, VisDrone, which includes four tracks, i.e., (1) image object detection, (2) video object detection, (3) single object tracking, and (4) multi-object tracking. In this paper, we first present a thorough review of object detection and tracking datasets and benchmarks, and discuss the challenges of collecting large-scale drone-based object detection and tracking datasets with fully manual annotations. After that, we describe our VisDrone dataset, which is captured over various urban/suburban areas of 14 different cities across China from North to South. Being the largest such dataset ever published, VisDrone enables extensive evaluation and investigation of visual analysis algorithms for the drone platform. We provide a detailed analysis of the current state of the field of large-scale object detection and tracking on drones, and conclude the challenge as well as propose future directions. We expect the benchmark largely boost the research and development in video analysis on drone platforms. All the datasets and experimental results can be downloaded from https://github.com/VisDrone/VisDrone-Dataset.
翻訳日:2023-01-11 00:20:01 公開日:2021-10-04
# 不均質なデモグラフィーによる勧告のためのランダム化裁判の公正性について

On the Fairness of Randomized Trials for Recommendation with Heterogeneous Demographics and Beyond ( http://arxiv.org/abs/2001.09328v3 )

ライセンス: Link先を確認
Zifeng Wang, Xi Chen, Rui Wen, Shao-Lun Huang(参考訳) 推奨されるイベントは、政策による決定の結果であり、通常は選択的にラベル付けされる。すなわち、データはミス・ノー・アット・ランダム(MNAR)であり、真の結果のリスクを見積もることに大きなバイアスを引き起こすことが多い。 mnarバイアスを正す一般的なアプローチは、小さなランダム化制御試行(rcts)を行い、各ユーザーにアイテムをランダムに割り当てるために追加の統一ポリシーが適用される。 本研究では,同種集団と異種集団の両面でのRCTの公平性に着目し,特に後者の設定において最も好ましくない集団の偏りを分析する。 本研究では,rctsの限界を考慮し,高価なrctsを全く含まず,その理論上の一般化誤差を導出する,新しい反事実的ロバストリスク最小化(crrm)フレームワークを提案する。 最後に、実験的な実験が合成タスクと実世界のデータセット上で行われ、公平性と一般化の両方において、この手法の優越性が証明される。

Observed events in recommendation are consequence of the decisions made by a policy, thus they are usually selectively labeled, namely the data are Missing Not At Random (MNAR), which often causes large bias to the estimate of true outcomes risk. A general approach to correct MNAR bias is performing small Randomized Controlled Trials (RCTs), where an additional uniform policy is employed to randomly assign items to each user. In this work, we concentrate on the fairness of RCTs under both homogeneous and heterogeneous demographics, especially analyzing the bias for the least favorable group on the latter setting. Considering RCTs' limitations, we propose a novel Counterfactual Robust Risk Minimization (CRRM) framework, which is totally free of expensive RCTs, and derive its theoretical generalization error bound. At last, empirical experiments are performed on synthetic tasks and real-world data sets, substantiating our method's superiority both in fairness and generalization.
翻訳日:2023-01-06 23:57:44 公開日:2021-10-04
# 植物種の2次元きめ細かい分類

Two-View Fine-grained Classification of Plant Species ( http://arxiv.org/abs/2005.09110v2 )

ライセンス: Link先を確認
Voncarlos M. Araujo, Alceu S. Britto Jr., Luiz E. S. Oliveira and Alessandro L. Koerich(参考訳) 植物の自動分類は, 既存の植物種が細粒度で多様な生物多様性を有するため, 難しい課題である。 強力なディープラーニングアーキテクチャは、このようなきめ細かな問題において分類性能を改善するために使われてきたが、通常、大規模なトレーニングデータセットに依存し、スケーラブルでないモデルを構築する。 本稿では,2視点の葉のイメージ表現に基づく新しい手法と,植物種の粒度認識のための階層的分類手法を提案する。 植物分類学は、植物種と種を特定するために適用される粗大な戦略の基礎として用いられる。 2視点表現はリーフ画像の全体的および局所的な特徴を補完するものである。 siamese convolutional neural networksに基づくディープメトリックは、多数のトレーニングサンプルへの依存性を低減し、新しい植物種にスケーラブルな方法を提供するために使用される。 葉のきめ細かい2つのデータセット(LifeCLEF 2015とLeafSnap)による実験結果から,それぞれ0.87と0.96の認識精度が得られた。

Automatic plant classification is a challenging problem due to the wide biodiversity of the existing plant species in a fine-grained scenario. Powerful deep learning architectures have been used to improve the classification performance in such a fine-grained problem, but usually building models that are highly dependent on a large training dataset and which are not scalable. In this paper, we propose a novel method based on a two-view leaf image representation and a hierarchical classification strategy for fine-grained recognition of plant species. It uses the botanical taxonomy as a basis for a coarse-to-fine strategy applied to identify the plant genus and species. The two-view representation provides complementary global and local features of leaf images. A deep metric based on Siamese convolutional neural networks is used to reduce the dependence on a large number of training samples and make the method scalable to new plant species. The experimental results on two challenging fine-grained datasets of leaf images (i.e. LifeCLEF 2015 and LeafSnap) have shown the effectiveness of the proposed method, which achieved recognition accuracy of 0.87 and 0.96 respectively.
翻訳日:2022-12-01 23:02:30 公開日:2021-10-04
# BadNL: セマンティック保存改善によるNLPモデルに対するバックドア攻撃

BadNL: Backdoor Attacks against NLP Models with Semantic-preserving Improvements ( http://arxiv.org/abs/2006.01043v2 )

ライセンス: Link先を確認
Xiaoyi Chen, Ahmed Salem, Dingfan Chen, Michael Backes, Shiqing Ma, Qingni Shen, Zhonghai Wu, Yang Zhang(参考訳) ディープニューラルネットワーク(DNN)はこの10年間で急速に進歩し、さまざまな現実世界のアプリケーションにデプロイされている。 一方、DNNモデルはセキュリティやプライバシ攻撃に弱いことが示されている。 最近大きな注目を集めた攻撃の一つが、バックドア攻撃だ。 具体的には、敵はターゲットモデルのトレーニングセットに、ターゲットクラスに秘密のトリガーを追加して入力を誤解させる。 以前のバックドア攻撃は主に画像分類などのコンピュータビジョン(CV)アプリケーションに焦点を当てていた。 本稿では,NLPモデルに対するバックドア攻撃を系統的に調査し,新たな攻撃方法を含む一般的なNLPバックドア攻撃フレームワークであるBadNLを提案する。 具体的には,badchar,badword,badsentenceというトリガーを構成する3つの手法を提案する。 我々の攻撃は ほぼ完全な攻撃成功率を達成し 元のモデルの有用性に 不可解な効果を与えます 例えば、badcharを使用すると、我々のバックドア攻撃は98.9%のアタック成功率を達成し、sst-5データセットで3%の毒を盛るだけで1.5%のユーティリティ改善が得られます。 さらに,人間の視点から意味を十分に保存できることを証明するために,ユーザスタディを実施している。

Deep neural networks (DNNs) have progressed rapidly during the past decade and have been deployed in various real-world applications. Meanwhile, DNN models have been shown to be vulnerable to security and privacy attacks. One such attack that has attracted a great deal of attention recently is the backdoor attack. Specifically, the adversary poisons the target model's training set to mislead any input with an added secret trigger to a target class. Previous backdoor attacks predominantly focus on computer vision (CV) applications, such as image classification. In this paper, we perform a systematic investigation of backdoor attack on NLP models, and propose BadNL, a general NLP backdoor attack framework including novel attack methods. Specifically, we propose three methods to construct triggers, namely BadChar, BadWord, and BadSentence, including basic and semantic-preserving variants. Our attacks achieve an almost perfect attack success rate with a negligible effect on the original model's utility. For instance, using the BadChar, our backdoor attack achieves a 98.9% attack success rate with yielding a utility improvement of 1.5% on the SST-5 dataset when only poisoning 3% of the original set. Moreover, we conduct a user study to prove that our triggers can well preserve the semantics from humans perspective.
翻訳日:2022-11-26 07:53:01 公開日:2021-10-04
# カザフスタンにおけるニューラルネーム付きエンティティ認識

Neural Named Entity Recognition for Kazakh ( http://arxiv.org/abs/2007.13626v2 )

ライセンス: Link先を確認
Gulmira Tolegen, Alymzhan Toleu, Orken Mamyrbayev and Rustam Mussabayev(参考訳) 形態的に複雑な言語(MCL)に対する名前付き実体認識の課題に対処するために,いくつかのニューラルネットワークを提案する。 カザフ語は形態的に複雑な言語であり、それぞれの根/幹が数百から数千の変種語を生成できる。 この言語の性質は、深層学習モデルが低リソースのMCLに対して十分に訓練されないという深刻なデータ空間の問題につながる可能性がある。 MCLの単語を効果的にモデル化するために、ニューラルネットワークにルートタグとエンティティタグの埋め込みとテンソル層を導入する。 これらの効果は, MCLのNERモデルの性能向上に有効である。 提案したモデルは文字ベースのアプローチを含む最先端の手法より優れており、他の形態学的に複雑な言語にも適用できる可能性がある。

We present several neural networks to address the task of named entity recognition for morphologically complex languages (MCL). Kazakh is a morphologically complex language in which each root/stem can produce hundreds or thousands of variant word forms. This nature of the language could lead to a serious data sparsity problem, which may prevent the deep learning models from being well trained for under-resourced MCLs. In order to model the MCLs' words effectively, we introduce root and entity tag embedding plus tensor layer to the neural networks. The effects of those are significant for improving NER model performance of MCLs. The proposed models outperform state-of-the-art including character-based approaches, and can be potentially applied to other morphologically complex languages.
翻訳日:2022-11-09 14:32:16 公開日:2021-10-04
# cd-splitとhpd-split:高次元の効率的な共形領域

CD-split and HPD-split: efficient conformal regions in high dimensions ( http://arxiv.org/abs/2007.12778v3 )

ライセンス: Link先を確認
Rafael Izbicki, Gilson Shimizu, Rafael B. Stern(参考訳) コンフォーマルな手法は、データのみを仮定する平均カバレッジを制御する予測バンドを生成する。 文献は主に予測間隔に焦点を当てているが、より一般的な領域は不確実性を表すことが多い。 例えば、バイモーダルターゲットは2つの区間の和によってより良く表現される。 このような予測領域は、分割法と高次元にスケールする特徴空間のデータ駆動分割を組み合わせたCD分割によって得られる。 しかしCDスプリットには多くのチューニングパラメータが含まれており、その役割は明確ではない。 本稿では,cd-splitに関する新たな知見を,その理論的性質について考察する。 特に,CDスプリットはオラクルの最大予測密度に漸近的に収束し,局所的および漸近的条件妥当性を満たすことを示す。 また,CDスプリットのチューニング方法を示すシミュレーションも提示する。 最後に,cd-split の変種である hpd-split を導入し,cd-split と同じ理論上の保証を共有することを示す。 シミュレーションでは,CDスプリットとHPDスプリットは条件付きカバレッジが良く,予測領域も他の方法より小さい。

Conformal methods create prediction bands that control average coverage assuming solely i.i.d. data. Although the literature has mostly focused on prediction intervals, more general regions can often better represent uncertainty. For instance, a bimodal target is better represented by the union of two intervals. Such prediction regions are obtained by CD-split , which combines the split method and a data-driven partition of the feature space which scales to high dimensions. CD-split however contains many tuning parameters, and their role is not clear. In this paper, we provide new insights on CD-split by exploring its theoretical properties. In particular, we show that CD-split converges asymptotically to the oracle highest predictive density set and satisfies local and asymptotic conditional validity. We also present simulations that show how to tune CD-split. Finally, we introduce HPD-split, a variation of CD-split that requires less tuning, and show that it shares the same theoretical guarantees as CD-split. In a wide variety of our simulations, CD-split and HPD-split have better conditional coverage and yield smaller prediction regions than other methods.
翻訳日:2022-11-07 06:32:04 公開日:2021-10-04
# 構文的依存距離の最適性

The optimality of syntactic dependency distances ( http://arxiv.org/abs/2007.15342v4 )

ライセンス: Link先を確認
Ramon Ferrer-i-Cancho, Carlos G\'omez-Rodr\'iguez, Juan Luis Esteban and Llu\'is Alemany-Puig(参考訳) 人間の言語は、他の生物学的システムと同様に、コスト削減圧力によって形作られていますが、どの程度までか? 最適度スコアによって言語の最適度を定量化しようとする試みは少なく、主に英語に焦点が当てられている。 ここでは、頂点が単語であり、弧は構文的依存を示し、その空間は文中の単語の線形順序によって定義される空間ネットワーク上の最適化問題として、文の語順の最適性の問題を再放送する。 文中の連結語間の距離を減少させるために,認知的圧力を定量化する新しいスコアを導入する。 19の言語族を表す93言語からの文の分析により、言語の半分が70%以上に最適化されていることが明らかになった。 スコアは、いくつかの言語では距離は著しく減少せず、2つの理論的な予測、すなわち、長い文はより最適化され、短い文では偶然に予測よりも長いことが示されている。 我々は、その最適化の度合いによって、新しい階層的な言語ランキングを示す。 新しいスコアは言語研究の様々な分野(依存言語学、類型学、歴史的言語学、臨床言語学、認知科学)に影響を及ぼす。 最後に、スコアの設計の背後にある原則は、ネットワーク科学に影響を及ぼす。

It is often stated that human languages, as other biological systems, are shaped by cost-cutting pressures but, to what extent? Attempts to quantify the degree of optimality of languages by means of an optimality score have been scarce and focused mostly on English. Here we recast the problem of the optimality of the word order of a sentence as an optimization problem on a spatial network where the vertices are words, arcs indicate syntactic dependencies and the space is defined by the linear order of the words in the sentence. We introduce a new score to quantify the cognitive pressure to reduce the distance between linked words in a sentence. The analysis of sentences from 93 languages representing 19 linguistic families reveals that half of languages are optimized to a 70% or more. The score indicates that distances are not significantly reduced in a few languages and confirms two theoretical predictions, i.e. that longer sentences are more optimized and that distances are more likely to be longer than expected by chance in short sentences. We present a new hierarchical ranking of languages by their degree of optimization. The new score has implications for various fields of language research (dependency linguistics, typology, historical linguistics, clinical linguistics and cognitive science). Finally, the principles behind the design of the score have implications for network science.
翻訳日:2022-11-05 14:43:31 公開日:2021-10-04
# QPLEX: マルチエージェントQ-Learningによる重複

QPLEX: Duplex Dueling Multi-Agent Q-Learning ( http://arxiv.org/abs/2008.01062v3 )

ライセンス: Link先を確認
Jianhao Wang, Zhizhou Ren, Terry Liu, Yang Yu, Chongjie Zhang(参考訳) 本稿では,分散学習(CTDE)のパラダイムとして,価値に基づくマルチエージェント強化学習(MARL)を提案する。 CTDEはGlobal-Max(IGM)原理という重要な概念を持ち、効率的な局所的な意思決定を支援するために、共同行動選択と局所的な行動選択の整合性を必要とする。 しかし、スケーラビリティを達成するために、既存のMARLメソッドは、値関数クラスの表現表現力を制限するか、不安定なリスクに悩まされたり、複雑なドメインでうまく機能しないかもしれないIMG一貫性を緩和する。 本稿では,DupleX Duling Multi-Adnt Q-learning (QPLEX)と呼ばれる新しいMARL手法を提案する。 このデュプレックスデュエル構造は、IGG原理をニューラルネットワークアーキテクチャにエンコードし、効率的な値関数学習を可能にする。 理論的解析により、QPLEX は完全な IGM 関数クラスを達成することが示された。 starcraft iiのマイクロマネジメントタスクに関する実証実験は、qplexがオンラインとオフラインの両方のデータ収集設定において最先端のベースラインを著しく上回っており、またqplexは高いサンプル効率を達成し、さらにオンラインの探索なしにオフラインデータセットの恩恵を受けることを示している。

We explore value-based multi-agent reinforcement learning (MARL) in the popular paradigm of centralized training with decentralized execution (CTDE). CTDE has an important concept, Individual-Global-Max (IGM) principle, which requires the consistency between joint and local action selections to support efficient local decision-making. However, in order to achieve scalability, existing MARL methods either limit representation expressiveness of their value function classes or relax the IGM consistency, which may suffer from instability risk or may not perform well in complex domains. This paper presents a novel MARL approach, called duPLEX dueling multi-agent Q-learning (QPLEX), which takes a duplex dueling network architecture to factorize the joint value function. This duplex dueling structure encodes the IGM principle into the neural network architecture and thus enables efficient value function learning. Theoretical analysis shows that QPLEX achieves a complete IGM function class. Empirical experiments on StarCraft II micromanagement tasks demonstrate that QPLEX significantly outperforms state-of-the-art baselines in both online and offline data collection settings, and also reveal that QPLEX achieves high sample efficiency and can benefit from offline datasets without additional online exploration.
翻訳日:2022-11-03 05:39:28 公開日:2021-10-04
# 運動ブラジャーからの露光軌道回復

Exposure Trajectory Recovery from Motion Blur ( http://arxiv.org/abs/2010.02484v2 )

ライセンス: Link先を確認
Youjian Zhang, Chaoyue Wang, Stephen J. Maybank, Dacheng Tao(参考訳) 動的シーンにおける動きのぼやけは重要な研究課題である。 近年,動的シーンデブロアリングにおいて,深層学習が優れた性能を発揮している。 しかし、ぼやけた画像に含まれる動き情報は、下記のように十分に探索され、正確に定式化されていない。 (i)動力学的運動の基盤的真理を得るのが困難である。 (ii)露出中に時間順序が破壊される。 (iii)ぼやけた画像からの動作推定が極めて不適切である。 カメラ露光の原理を再検討することにより、各露光位置に対するシャープコンテンツの相対運動によって動きのぼかしを記述することができる。 本稿では、ぼやけた画像に含まれる動き情報を表す露光軌跡を定義し、動きのぼやけの原因を説明する。 複数の時点における潜在シャープ画像の画素方向変位をモデル化するために,新しい動きオフセット推定フレームワークを提案する。 軽度制約下では,高密度(非線形)露光軌跡の復元が可能であり,時間的障害や異常な問題を大幅に軽減できる。 最後に, 復元された露光軌跡は, ぼやけた画像から正確に解釈可能な動き情報をキャプチャするだけでなく, 動き認識画像のデブラリングやゆがみに基づく映像抽出作業にも有用であることを示す。 コードはhttps://github.com/yjzhang96/Motion-ETRで公開されている。

Motion blur in dynamic scenes is an important yet challenging research topic. Recently, deep learning methods have achieved impressive performance for dynamic scene deblurring. However, the motion information contained in a blurry image has yet to be fully explored and accurately formulated because: (i) the ground truth of dynamic motion is difficult to obtain; (ii) the temporal ordering is destroyed during the exposure; and (iii) the motion estimation from a blurry image is highly ill-posed. By revisiting the principle of camera exposure, motion blur can be described by the relative motions of sharp content with respect to each exposed position. In this paper, we define exposure trajectories, which represent the motion information contained in a blurry image and explain the causes of motion blur. A novel motion offset estimation framework is proposed to model pixel-wise displacements of the latent sharp image at multiple timepoints. Under mild constraints, our method can recover dense, (non-)linear exposure trajectories, which significantly reduce temporal disorder and ill-posed problems. Finally, experiments demonstrate that the recovered exposure trajectories not only capture accurate and interpretable motion information from a blurry image, but also benefit motion-aware image deblurring and warping-based video extraction tasks. Codes are available on https://github.com/yjzhang96/Motion-ETR.
翻訳日:2022-10-10 07:23:19 公開日:2021-10-04
# 標準相関解析のための多視点変分グラフオートエンコーダ

Multiview Variational Graph Autoencoders for Canonical Correlation Analysis ( http://arxiv.org/abs/2010.16132v3 )

ライセンス: Link先を確認
Yacouba Kaloga and Pierre Borgnat and Sundeep Prabhakar Chepuri and Patrice Abry and Amaury Habrard(参考訳) 本稿では,変分法に基づく新しい多視点標準相関解析モデルを提案する。 これは、利用可能なグラフベースの幾何学的制約を考慮した最初の非線形モデルであり、複数のビューで大規模データセットを処理するためにスケーラブルである。 グラフ畳み込みニューラルネットワーク層を備えたオートエンコーダアーキテクチャに基づいている。 我々は、実際のデータセットの分類、クラスタリング、レコメンデーションタスクに関するアプローチを実験する。 このアルゴリズムは最先端のマルチビュー表現学習技術と競合する。

We present a novel multiview canonical correlation analysis model based on a variational approach. This is the first nonlinear model that takes into account the available graph-based geometric constraints while being scalable for processing large scale datasets with multiple views. It is based on an autoencoder architecture with graph convolutional neural network layers. We experiment with our approach on classification, clustering, and recommendation tasks on real datasets. The algorithm is competitive with state-of-the-art multiview representation learning techniques.
翻訳日:2022-10-01 16:19:41 公開日:2021-10-04
# EvoPose2D: 重み移動を伴う加速神経進化を用いた2次元人間の姿勢推定の境界を押し上げる

EvoPose2D: Pushing the Boundaries of 2D Human Pose Estimation using Accelerated Neuroevolution with Weight Transfer ( http://arxiv.org/abs/2011.08446v2 )

ライセンス: Link先を確認
William McNally, Kanav Vats, Alexander Wong, John McPhee(参考訳) ニューラルネットワーク検索は、手作りのネットワークよりもモバイルデプロイメントに適した効率的な畳み込みニューラルネットワークの設計に非常に効果的であることが証明されている。 ニューラルアーキテクチャ探索が人間のポーズ推定に大きな可能性を秘めていると仮定すると、生物学的進化に触発されたニューラルアーキテクチャ探索の形式であるニューラル進化の応用を初めて研究する。 さらに,神経進化を柔軟に促進できる新しい体重移動法を提案する。 本手法は,最先端のハンドデザインネットワークよりも効率的かつ高精度なネットワーク設計を実現する。 実際、生成されたネットワークは、以前の手設計のネットワークよりも低い解像度で画像を処理するため、2次元のポーズ推定の境界を押し上げることができる。 EvoPose2D-Sと呼ぶニューロエボリューションによって設計されたベースネットワークは、ファイルサイズで50%高速で12.7倍の精度でSimpleBaselineに匹敵する精度を実現している。 当社最大のネットワークであるEvoPose2D-Lは、Microsoft COCO Keypointsベンチマークで新しい最先端の精度を実現しています。 コードはhttps://github.com/wmcnally/evopose2dで公開されている。

Neural architecture search has proven to be highly effective in the design of efficient convolutional neural networks that are better suited for mobile deployment than hand-designed networks. Hypothesizing that neural architecture search holds great potential for human pose estimation, we explore the application of neuroevolution, a form of neural architecture search inspired by biological evolution, in the design of 2D human pose networks for the first time. Additionally, we propose a new weight transfer scheme that enables us to accelerate neuroevolution in a flexible manner. Our method produces network designs that are more efficient and more accurate than state-of-the-art hand-designed networks. In fact, the generated networks process images at higher resolutions using less computation than previous hand-designed networks at lower resolutions, allowing us to push the boundaries of 2D human pose estimation. Our base network designed via neuroevolution, which we refer to as EvoPose2D-S, achieves comparable accuracy to SimpleBaseline while being 50% faster and 12.7x smaller in terms of file size. Our largest network, EvoPose2D-L, achieves new state-of-the-art accuracy on the Microsoft COCO Keypoints benchmark, is 4.3x smaller than its nearest competitor, and has similar inference speed. The code is publicly available at https://github.com/wmcnally/evopose2d.
翻訳日:2022-09-24 15:44:34 公開日:2021-10-04
# crocs: 患者病型, 性別, 年齢に基づく心臓信号のクラスタリングと検索

CROCS: Clustering and Retrieval of Cardiac Signals Based on Patient Disease Class, Sex, and Age ( http://arxiv.org/abs/2011.14230v2 )

ライセンス: Link先を確認
Dani Kiyasseh, Tingting Zhu, David A. Clifton(参考訳) 関連する事例を手作業で検索し、臨床データベースから情報を抽出するプロセスは、多くの臨床課題を担っている。 このようなタスクには、疾患の診断、臨床試験の募集、医学教育の継続が含まれる。 しかし, この手作業による検索・抽出は, 大規模臨床データベースの成長と, 障害のない症例の増加によって妨げられている。 そこで本研究では, 患者特有の属性(疾患クラス, 性別, 年齢など)に関連する心臓信号の表現が, 臨床プロトタイプと呼ばれる学習可能な埋め込みに惹かれる, 教師付きコントラスト学習フレームワークcrocsを提案する。 そこで本研究では,複数の患者属性に基づくラベルなし心筋信号のクラスタリングと検索の両面において,このプロトタイプを活用した。 CROCSはクラスタリング時に最先端のDTCよりも優れており,また,大規模データベースから関連する心臓信号を検索する。 また,臨床プロトタイプは患者属性に基づいた意味的意味的アレンジメントを採用しており,高い解釈可能性を示す。

The process of manually searching for relevant instances in, and extracting information from, clinical databases underpin a multitude of clinical tasks. Such tasks include disease diagnosis, clinical trial recruitment, and continuing medical education. This manual search-and-extract process, however, has been hampered by the growth of large-scale clinical databases and the increased prevalence of unlabelled instances. To address this challenge, we propose a supervised contrastive learning framework, CROCS, where representations of cardiac signals associated with a set of patient-specific attributes (e.g., disease class, sex, age) are attracted to learnable embeddings entitled clinical prototypes. We exploit such prototypes for both the clustering and retrieval of unlabelled cardiac signals based on multiple patient attributes. We show that CROCS outperforms the state-of-the-art method, DTC, when clustering and also retrieves relevant cardiac signals from a large database. We also show that clinical prototypes adopt a semantically meaningful arrangement based on patient attributes and thus confer a high degree of interpretability.
翻訳日:2022-09-19 19:55:05 公開日:2021-10-04
# (参考訳) 潜在変数生成モデルのためのモーメントマッチング計量

A moment-matching metric for latent variable generative models ( http://arxiv.org/abs/2111.00875v1 )

ライセンス: CC BY 4.0
C\'edric Beaulac(参考訳) 教師なし学習問題に直面した場合,適合モデルの品質を評価することは困難である。 変分オートエンコーダやガウス混合モデルのような潜在変数モデルは、しばしば確率に基づくアプローチで訓練される。 グッドハートの法則の範囲では、計量が対象となるとき、それは良い計量になるのをやめるので、これらのモデルの適合性を評価するために可能性を使うべきではない。 提案する解は、モーメントに依存するモデル比較や正規化のための新しい計量である。 この概念は、フロベニウスノルムのような行列ノルムを用いて、データモーメントとモデルモーメントの違いを研究することである。 モデルの比較と正規化にこの新しい指標をどう使うかを示す。 潜在変数モデルを評価する際に適合分布からサンプルを引き出すのが一般的であり、提案手法は計算が高速で、この代替案よりもばらつきが小さいことを示す。 本稿では,両アプリケーションの概念実証を行い,今後の課題について論じる。

It can be difficult to assess the quality of a fitted model when facing unsupervised learning problems. Latent variable models, such as variation autoencoders and Gaussian mixture models, are often trained with likelihood-based approaches. In scope of Goodhart's law, when a metric becomes a target it ceases to be a good metric and therefore we should not use likelihood to assess the quality of the fit of these models. The solution we propose is a new metric for model comparison or regularization that relies on moments. The concept is to study the difference between the data moments and the model moments using a matrix norm, such as the Frobenius norm. We show how to use this new metric for model comparison and then for regularization. It is common to draw samples from the fitted distribution when evaluating latent variable models and we show that our proposed metric is faster to compute and has a smaller variance that this alternative. We conclude this article with a proof of concept of both applications and we discuss future work.
翻訳日:2021-11-07 17:03:26 公開日:2021-10-04
# (参考訳) 幾何学的深層学習を用いた階層テキストの分類 : 臨床治験コーパスの場合

Classification of hierarchical text using geometric deep learning: the case of clinical trials corpus ( http://arxiv.org/abs/2110.15710v1 )

ライセンス: CC BY 4.0
Sohrab Ferdowsi and Nikolay Borissov and Julien Knafou and Poorya Amini and Douglas Teodoro(参考訳) 文書の階層表現をグラフとみなし,幾何学的深層学習を用いて異なるカテゴリに分類する。 グラフニューラルネットワークは、置換不変メッセージパッシング操作を用いて階層文書の可変構造を効率的に処理できるが、提案する選択的グラフプーリング操作により、階層の一部が異なる文書にまたがって不変であるという事実により、さらにパフォーマンスが向上することを示す。 本モデルを用いて臨床試験(ct)プロトコルを完了・終了カテゴリーに分類した。 我々は,約360kプロトコルの公開可能な大規模ctレジストリ上で,単語のバガオブワードと,グラフノードの実現のために事前学習されたトランスフォーマーベースの埋め込みを使い,0.85のf1スコアを実現している。 さらに, 選択的プーリングがCT終端状態予測に対する洞察を与える方法を示す。 ソースコードとデータセットの分割をアクセス可能にする。

We consider the hierarchical representation of documents as graphs and use geometric deep learning to classify them into different categories. While graph neural networks can efficiently handle the variable structure of hierarchical documents using the permutation invariant message passing operations, we show that we can gain extra performance improvements using our proposed selective graph pooling operation that arises from the fact that some parts of the hierarchy are invariable across different documents. We applied our model to classify clinical trial (CT) protocols into completed and terminated categories. We use bag-of-words based, as well as pre-trained transformer-based embeddings to featurize the graph nodes, achieving f1-scores around 0.85 on a publicly available large scale CT registry of around 360K protocols. We further demonstrate how the selective pooling can add insights into the CT termination status prediction. We make the source code and dataset splits accessible.
翻訳日:2021-11-07 16:46:04 公開日:2021-10-04
# (参考訳) マルチタスク学習における最適化戦略:平均損失か独立損失か?

Optimization Strategies in Multi-Task Learning: Averaged or Independent Losses? ( http://arxiv.org/abs/2109.11678v2 )

ライセンス: CC0 1.0
Lucas Pascal and Pietro Michiardi and Xavier Bost and Benoit Huet and Maria A. Zuluaga(参考訳) マルチタスク学習(MTL)では,タスク固有の目的関数の重み付け平均である目的関数を最適化することにより,マルチタスクネットワークのトレーニングを行うのが一般的である。 この戦略の計算上の利点は明らかであるが、結果として生じる損失景観の複雑さは文献では研究されていない。 おそらく、その最適化は、タスク固有の目的を構成する別の最適化よりも難しいかもしれない。 本研究では,異なるタスク固有の目的関数に対して,独立な勾配降下ステップを交互に行うことで,このような代替手段の利点を検証し,このアプローチを最先端最適化器と組み合わせる新しい方法を考案する。 タスク固有の目的の分離は計算時間の増加によるコストがかかるため,より優れた最適化と計算効率のトレードオフとしてランダムなタスクグループ化を提案する。 3つのよく知られた視覚的MTLデータセットに対する実験結果から、平均的目的関数や他の最先端のMTL手法と比較して、損失と標準指標に対する全体的な絶対的パフォーマンスが向上した。 特に本手法は,異なる性質のタスクを扱う場合の最大の利点を示し,共有パラメータ空間のより広い探索を可能にする。 また、ランダムなグループ化戦略は、これらの利点と計算効率のトレードオフを可能にすることを示す。

In Multi-Task Learning (MTL), it is a common practice to train multi-task networks by optimizing an objective function, which is a weighted average of the task-specific objective functions. Although the computational advantages of this strategy are clear, the complexity of the resulting loss landscape has not been studied in the literature. Arguably, its optimization may be more difficult than a separate optimization of the constituting task-specific objectives. In this work, we investigate the benefits of such an alternative, by alternating independent gradient descent steps on the different task-specific objective functions and we formulate a novel way to combine this approach with state-of-the-art optimizers. As the separation of task-specific objectives comes at the cost of increased computational time, we propose a random task grouping as a trade-off between better optimization and computational efficiency. Experimental results over three well-known visual MTL datasets show better overall absolute performance on losses and standard metrics compared to an averaged objective function and other state-of-the-art MTL methods. In particular, our method shows the most benefits when dealing with tasks of different nature and it enables a wider exploration of the shared parameter space. We also show that our random grouping strategy allows to trade-off between these benefits and computational efficiency.
翻訳日:2021-10-10 15:59:38 公開日:2021-10-04
# ニューラルネットワークによるマルチモーダル核融合

Neural Dependency Coding inspired Multimodal Fusion ( http://arxiv.org/abs/2110.00385v2 )

ライセンス: Link先を確認
Shiv Shankar(参考訳) 異なるモダリティからの情報統合は研究の活発な領域である。 人間および一般に、生物学的神経系は、環境と相互に相互作用するために、異なる知覚野からの様々な信号を使用するのに非常に適している。 近年のニューラルネットワークによる深層融合モデルの研究は、音声認識、感情認識と分析、キャプション、画像記述といった分野における一助的なアプローチよりも大幅に改善されている。 しかし、このような研究は主に、モデルの複雑さを管理しつつ、異なるモダリティの融合を可能にするアーキテクチャの変更に焦点を当てている。 近年の多感覚統合と処理に関する神経科学の考え方に触発され,シナジー最大化損失関数の効果について検討した。 CMU-MOSIとCMU-MOSEIの異なるモデルを用いたマルチモーダル感情分析実験は、我々のアプローチが一貫した性能向上をもたらすことを示している。

Information integration from different modalities is an active area of research. Human beings and, in general, biological neural systems are quite adept at using a multitude of signals from different sensory perceptive fields to interact with the environment and each other. Recent work in deep fusion models via neural networks has led to substantial improvements over unimodal approaches in areas like speech recognition, emotion recognition and analysis, captioning and image description. However, such research has mostly focused on architectural changes allowing for fusion of different modalities while keeping the model complexity manageable. Inspired by recent neuroscience ideas about multisensory integration and processing, we investigate the effect of synergy maximizing loss functions. Experiments on multimodal sentiment analysis tasks: CMU-MOSI and CMU-MOSEI with different models show that our approach provides a consistent performance boost.
翻訳日:2021-10-10 09:16:07 公開日:2021-10-04
# (参考訳) ソーシャルメディアにおける自殺傾向の定量化:調査

Quantifying the Suicidal Tendency on Social Media: A Survey ( http://arxiv.org/abs/2110.03663v1 )

ライセンス: CC BY 4.0
Muskan Garg(参考訳) ロックダウン期間中、第3位の閉鎖によるソーシャルメディアプラットフォームに対する感情の表現が増加し、学術研究者はメンタルヘルスとソーシャルメディア投稿の強い結びつきを目撃している。 短期間のストレスは臨床うつ病につながる可能性があり、うつ病の長期的特徴は自殺的な考えによって生命を脅かす可能性がある。 自殺件数の増加に対する懸念が高まっているのは、早産だが予防可能な死亡の原因の1つであるためである。 近年の研究では、ソーシャルメディアデータのマイニングがユーザーの自殺傾向の定量化に寄与していることが示されている。 この潜在的原稿は、メンタルヘルスの分類を解明し、ソーシャルメディアデータにおける自殺傾向の定量化の可能性を調べるための最近の試みを強調している。 本稿では,ソーシャルメディアデータからの異種特徴の分類と特徴ベクトル表現の扱いについて述べる。 機械学習(ML)とディープラーニング(DL)ベースのモデルの開発における新たな研究の方向性と進歩を明らかにするため,2013年から2021年にかけて,ストレス,うつ,自殺リスクに関する77以上の研究論文のコーパスを用いて定量的合成と質的レビューを行った。

Amid lockdown period more people express their feelings over social media platforms due to closed third-place and academic researchers have witnessed strong associations between the mental healthcare and social media posts. The stress for a brief period may lead to clinical depressions and the long-lasting traits of prevailing depressions can be life threatening with suicidal ideation as the possible outcome. The increasing concern towards the rise in number of suicide cases is because it is one of the leading cause of premature but preventable death. Recent studies have shown that mining social media data has helped in quantifying the suicidal tendency of users at risk. This potential manuscript elucidates the taxonomy of mental healthcare and highlights some recent attempts in examining the potential of quantifying suicidal tendency on social media data. This manuscript presents the classification of heterogeneous features from social media data and handling feature vector representation. Aiming to identify the new research directions and advances in the development of Machine Learning (ML) and Deep Learning (DL) based models, a quantitative synthesis and a qualitative review was carried out with corpus of over 77 potential research articles related to stress, depression and suicide risk from 2013 to 2021.
翻訳日:2021-10-09 15:19:22 公開日:2021-10-04
# (参考訳) 脳波を用いた感情的単語処理における意味的類似性の追跡

Using Single-Trial Representational Similarity Analysis with EEG to track semantic similarity in emotional word processing ( http://arxiv.org/abs/2110.03529v1 )

ライセンス: CC BY 4.0
Feng Cheng(参考訳) 脳波(EEG)は、高時間分解能の強力な非侵襲脳イメージング技術であり、認知科学研究の様々な領域で広く利用されている。 この論文は、表現的類似性分析(RSA)を単一の脳波データセットに適用し、その原理を多変量解析に精通していない脳波研究者に導入する。 2つの目的があります 1. 脳波データセットに対する単検体RSAの有効性について検討する。 2) 情緒的単語処理における意味的意味論の役割を考察するために, 単審理RSAと計算意味論モデルを利用したい。 2つの主要な発見を報告します 1. 単一の脳波データセット上のRSAは、多量の臨床試験及び主題から有意義かつ解釈可能な結果を得ることができる。 2. 単検体RSAは500~800msの時間窓における情動処理が追加の意味解析と関連していることを明らかにした。

Electroencephalography (EEG) is a powerful non-invasive brain imaging technique with a high temporal resolution that has seen extensive use across multiple areas of cognitive science research. This thesis adapts representational similarity analysis (RSA) to single-trial EEG datasets and introduces its principles to EEG researchers unfamiliar with multivariate analyses. We have two separate aims: 1. we want to explore the effectiveness of single-trial RSA on EEG datasets; 2. we want to utilize single-trial RSA and computational semantic models to investigate the role of semantic meaning in emotional word processing. We report two primary findings: 1. single-trial RSA on EEG datasets can produce meaningful and interpretable results given a high number of trials and subjects; 2. single-trial RSA reveals that emotional processing in the 500-800ms time window is associated with additional semantic analysis.
翻訳日:2021-10-09 14:48:03 公開日:2021-10-04
# SEIRモデルと機械学習を用いたインドコビッドウイルス感染に対するロックダウンその他の影響のモデル化

Modeling Effect of Lockdowns and Other Effects on India Covid-19 Infections Using SEIR Model and Machine Learning ( http://arxiv.org/abs/2110.03422v1 )

ライセンス: Link先を確認
Sathiyanarayanan Sampath, Joy Bose(参考訳) SEIRモデルは感染拡大を予測するために広く用いられている疫学モデルである。 このモデルは、さまざまな国でCovid-19の感染者数を予測するために広く利用されている。 しかし、オリジナルのSEIRモデルは、ロックダウン、ワクチン、再感染などの要因の影響を考慮していない。 インドでは2020年3月に第1波、2021年4月に第2波が始まりました。 本稿では, ロックダウンやその他のインフルエンサーの影響をモデル化するためにSEIRモデル式を変更し, 曲線フィッティングの最小2乗最小化のためのピソンライブラリlmfitを用いて, インドにおける毎日のCovid-19感染データに適合する。 ロックダウンの影響を考慮し,標準SEIRモデルのR0パラメータを矩形として修正する。 修正SEIRモデルは感染の可利用データに正確に適合する。

The SEIR model is a widely used epidemiological model used to predict the rise in infections. This model has been widely used in different countries to predict the number of Covid-19 cases. But the original SEIR model does not take into account the effect of factors such as lockdowns, vaccines, and re-infections. In India the first wave of Covid started in March 2020 and the second wave in April 2021. In this paper, we modify the SEIR model equations to model the effect of lockdowns and other influencers, and fit the model on data of the daily Covid-19 infections in India using lmfit, a python library for least squares minimization for curve fitting. We modify R0 parameter in the standard SEIR model as a rectangle in order to account for the effect of lockdowns. Our modified SEIR model accurately fits the available data of infections.
翻訳日:2021-10-08 16:06:26 公開日:2021-10-04
# tbcov: 感情、実体、地理、性別のラベルが付いた20億の多言語ツイート

TBCOV: Two Billion Multilingual COVID-19 Tweets with Sentiment, Entity, Geo, and Gender Labels ( http://arxiv.org/abs/2110.03664v1 )

ライセンス: Link先を確認
Muhammad Imran, Umair Qazi, Ferda Ofli(参考訳) 公衆の意見、感情、緊急の要求、状況報告に関する豊富な情報を運ぶ市民が生成したデータに即座にアクセスすることができる。 このような情報は、当局が緊急状況を理解し、それに応じて反応するのに役立つ。 さらに、ソーシャルメディアは、誤情報や偽情報に取り組む上で重要な役割を担っている。 tbcovは、新型コロナウイルス(covid-19)パンデミックに関連する20億以上の多言語ツイートを1年以上かけて収集した大規模なtwitterデータセットだ。 さらに重要なことに、いくつかの最先端のディープラーニングモデルは、感情ラベル、名前付きエンティティ(人、組織、場所の言及など)、ユーザータイプ、性別情報など、重要な属性でデータを豊かにするために使用される。 最後に、国、州、郡、都市情報をつぶやきに割り当てるジオタグ方式が提案され、多くのデータ分析タスクが現実世界の問題を理解することができる。 私たちの感情とトレンド分析は興味深い洞察を示し、tbcovの幅広い重要なトピックをカバーしています。

The widespread usage of social networks during mass convergence events, such as health emergencies and disease outbreaks, provides instant access to citizen-generated data that carry rich information about public opinions, sentiments, urgent needs, and situational reports. Such information can help authorities understand the emergent situation and react accordingly. Moreover, social media plays a vital role in tackling misinformation and disinformation. This work presents TBCOV, a large-scale Twitter dataset comprising more than two billion multilingual tweets related to the COVID-19 pandemic collected worldwide over a continuous period of more than one year. More importantly, several state-of-the-art deep learning models are used to enrich the data with important attributes, including sentiment labels, named-entities (e.g., mentions of persons, organizations, locations), user types, and gender information. Last but not least, a geotagging method is proposed to assign country, state, county, and city information to tweets, enabling a myriad of data analysis tasks to understand real-world issues. Our sentiment and trend analyses reveal interesting insights and confirm TBCOV's broad coverage of important topics.
翻訳日:2021-10-08 15:37:11 公開日:2021-10-04
# 分散のための量子生成逆ネットワーク

A Quantum Generative Adversarial Network for distributions ( http://arxiv.org/abs/2110.02742v1 )

ライセンス: Link先を確認
Amine Assouel, Antoine Jacquier, Alexei Kondratyev(参考訳) 生成型adversarial networkは、特にディープニューラルネットワークの安定性向上のコンテキストにおいて、機械学習の基本的なツールになりつつある。 同時に、量子コンピューティングの最近の進歩は、フォールトトレラントな量子コンピュータが存在しないにもかかわらず、量子技術は古典的手法よりも指数関数的に有利であることを示している。 我々は、完全連結量子生成逆ネットワークを開発し、それを数学的ファイナンスに適用する方法を示し、特にボラティリティモデリングに焦点をあてる。

Generative Adversarial Networks are becoming a fundamental tool in Machine Learning, in particular in the context of improving the stability of deep neural networks. At the same time, recent advances in Quantum Computing have shown that, despite the absence of a fault-tolerant quantum computer so far, quantum techniques are providing exponential advantage over their classical counterparts. We develop a fully connected Quantum Generative Adversarial network and show how it can be applied in Mathematical Finance, with a particular focus on volatility modelling.
翻訳日:2021-10-07 14:15:01 公開日:2021-10-04
# 生体インスパイアニューラルネットワークを用いたエンドツーエンド音声認識の効率化

Towards efficient end-to-end speech recognition with biologically-inspired neural networks ( http://arxiv.org/abs/2110.02743v1 )

ライセンス: Link先を確認
Thomas Bohnstingl, Ayush Garg, Stanis{\l}aw Wo\'zniak, George Saon, Evangelos Eleftheriou and Angeliki Pantazi(参考訳) 自動音声認識(automatic speech recognition, asr)は、プログラムが人間の音声を書体に処理できる能力である。 人工知能(AI)の最近の進歩は、リカレントニューラルネットワークトランスデューサ(RNN-T)のようなディープニューラルネットワークに基づく高精度なASRシステムを生み出している。 しかし、これらのアプローチのコアコンポーネントと実行された操作は、強力な生物学的機能、すなわち人間の脳から離れる。 一方、スパイクニューラルネットワーク(SNN)に基づく生物学的にインスパイアされたASRモデルにおける現在の発展は、精度の面で遅れており、主に小規模アプリケーションに焦点を当てている。 本研究は,脳内の様々な神経・シナプス力学からインスピレーションを得て,生物学的に解明可能なモデルの深層学習への組み入れを再考し,その能力を大幅に向上させるものである。 特に, axo-somatic と axo-axonic synapses を模倣したニューラルコネクティビティ概念を導入する。 そこで本研究では,神経シナプスダイナミクスを豊かにする新しい深層学習ユニットを提案し,それをrnn-tアーキテクチャに統合する。 大規模ASRモデルの生物学的に現実的な実装によって,既存のディープラーニングモデルと比較して,競争性能が向上することを示す。 具体的には、このような実装は、音声認識アプリケーションにとって重要な計算コストの低減やレイテンシの低減など、いくつかの利点があることを示す。

Automatic speech recognition (ASR) is a capability which enables a program to process human speech into a written form. Recent developments in artificial intelligence (AI) have led to high-accuracy ASR systems based on deep neural networks, such as the recurrent neural network transducer (RNN-T). However, the core components and the performed operations of these approaches depart from the powerful biological counterpart, i.e., the human brain. On the other hand, the current developments in biologically-inspired ASR models, based on spiking neural networks (SNNs), lag behind in terms of accuracy and focus primarily on small scale applications. In this work, we revisit the incorporation of biologically-plausible models into deep learning and we substantially enhance their capabilities, by taking inspiration from the diverse neural and synaptic dynamics found in the brain. In particular, we introduce neural connectivity concepts emulating the axo-somatic and the axo-axonic synapses. Based on this, we propose novel deep learning units with enriched neuro-synaptic dynamics and integrate them into the RNN-T architecture. We demonstrate for the first time, that a biologically realistic implementation of a large-scale ASR model can yield competitive performance levels compared to the existing deep learning models. Specifically, we show that such an implementation bears several advantages, such as a reduced computational cost and a lower latency, which are critical for speech recognition applications.
翻訳日:2021-10-07 14:07:43 公開日:2021-10-04
# ウェアラブルデバイスを用いたクリティカルケアにおける姿勢認識

Posture Recognition in the Critical Care Settings using Wearable Devices ( http://arxiv.org/abs/2110.02768v1 )

ライセンス: Link先を確認
Anis Davoudi, Patrick J. Tighe, Azra Bihorac, Parisa Rashidi(参考訳) 集中治療室(ICU)患者の身体活動の低下は、臨床的に有害な結果と関連している。 したがって、身体活動と患者の結果との関係を定量化するために、ICUにおける身体活動の連続的かつ客観的な測定が必要である。 この測定は、リハビリテーションや理学療法が身体活動を改善する効果を評価するのにも役立つ。 本研究では、ウェアラブルセンサのデータを用いて、ICU集団における姿勢認識の可能性を検討した。

Low physical activity levels in the intensive care units (ICU) patients have been linked to adverse clinical outcomes. Therefore, there is a need for continuous and objective measurement of physical activity in the ICU to quantify the association between physical activity and patient outcomes. This measurement would also help clinicians evaluate the efficacy of proposed rehabilitation and physical therapy regimens in improving physical activity. In this study, we examined the feasibility of posture recognition in an ICU population using data from wearable sensors.
翻訳日:2021-10-07 14:07:20 公開日:2021-10-04
# (参考訳) 自己学習と半教師あり学習を用いた大規模ASRドメイン適応

Large-scale ASR Domain Adaptation using Self- and Semi-supervised Learning ( http://arxiv.org/abs/2110.00165v2 )

ライセンス: CC BY 4.0
Dongseong Hwang, Ananya Misra, Zhouyuan Huo, Nikhil Siddhartha, Shefali Garg, David Qiu, Khe Chai Sim, Trevor Strohman, Fran\c{c}oise Beaufays, Yanzhang He(参考訳) ラベル付きトレーニングデータの削減やモデルパフォーマンスの向上を目的として,自己教師付き学習手法と半教師付き学習手法が積極的に研究されている。 しかしこのアプローチは主に、パブリックデータセットのドメイン内パフォーマンスに重点を置いている。 本研究では,オンラインASRモデルのための大規模生産環境において,自己学習と半教師あり学習を組み合わせることで,未確認領域適応問題を解決する。 このアプローチは、ターゲットドメインデータのごく一部(3%)のソースドメインデータを使用することで、完全なデータベースラインと比較してパフォーマンスギャップを回復できることを示しています。

Self- and semi-supervised learning methods have been actively investigated to reduce labeled training data or enhance the model performance. However, the approach mostly focus on in-domain performance for public datasets. In this study, we utilize the combination of self- and semi-supervised learning methods to solve unseen domain adaptation problem in a large-scale production setting for online ASR model. This approach demonstrates that using the source domain data with a small fraction of the target domain data (3%) can recover the performance gap compared to a full data baseline: relative 13.5% WER improvement for target domain data.
翻訳日:2021-10-07 08:00:44 公開日:2021-10-04
# (参考訳) ディファレンシャルプライバシとフェデレーションラーニングを用いたプライバシ対応ファイナンシャルテキスト分類

Privacy enabled Financial Text Classification using Differential Privacy and Federated Learning ( http://arxiv.org/abs/2110.01643v1 )

ライセンス: CC BY 4.0
Priyam Basu, Tiasa Singha Roy, Rakshit Naidu, Zumrut Muftuoglu(参考訳) このようなデータは極めて機密で機密性の高いので、金融ドメインを考えると、プライバシは重要です。 自然言語処理(nlp)の技術は、顧客フィードバックの感情分析、請求書のエンティティ検出、財務文書のタイプ別分類など、金融ドメインにおけるテキスト分類やエンティティ検出に応用することができる。 このようなデータの機密性から,大規模モデルの処理やトレーニングには,プライバシ対策を講じる必要がある。 そこで本研究では,差分プライバシー (DP) やフェデレート学習 (FL) などのプライバシー機能と統合された文脈変換変換器 (BERT と RoBERTa) ベースのテキスト分類モデルを提案する。 本稿では,nlpモデルとプライバシ利用の望ましいトレードオフをプライベートにトレーニングし,金融フレーズバンクデータセットで評価する方法を提案する。

Privacy is important considering the financial Domain as such data is highly confidential and sensitive. Natural Language Processing (NLP) techniques can be applied for text classification and entity detection purposes in financial domains such as customer feedback sentiment analysis, invoice entity detection, categorisation of financial documents by type etc. Due to the sensitive nature of such data, privacy measures need to be taken for handling and training large models with such data. In this work, we propose a contextualized transformer (BERT and RoBERTa) based text classification model integrated with privacy features such as Differential Privacy (DP) and Federated Learning (FL). We present how to privately train NLP models and desirable privacy-utility tradeoffs and evaluate them on the Financial Phrase Bank dataset.
翻訳日:2021-10-07 02:59:24 公開日:2021-10-04
# (参考訳) HDR-cGAN:条件付きガンを用いた単一LDRからHDR画像への変換

HDR-cGAN: Single LDR to HDR Image Translation using Conditional GAN ( http://arxiv.org/abs/2110.01660v1 )

ライセンス: CC BY 4.0
Prarabdh Raipurkar, Rohil Pal and Shanmuganathan Raman(参考訳) デジタルイメージング技術の最大の目標は、シーンのリアルな外観を再現することである。 低ダイナミックレンジ(LDR)カメラは現実世界のシーンの広いダイナミックレンジを表現することができない。 撮影された画像は暗すぎる(露光)か明るい(露光)かのどちらかであることが判明した。 特に、過剰露出領域での飽和は、単一のldr画像からハイダイナミックレンジ(hdr)画像を再構成する作業に挑戦する。 本稿では,HDR画像の再構成を行いながら,飽和領域の詳細を復元する深層学習手法を提案する。 この問題をイメージ・ツー・イメージ(i2i)翻訳タスクとして定式化する。 この目的のために,HDR-REALおよびHDR-SYNTHデータセットに対して,エンドツーエンドでトレーニングされた新しい条件付きGAN(cGAN)ベースのフレームワークを提案する。 本フレームワークは,事前学習したセグメンテーションモデルから得られた過剰露出マスクを用いて,飽和領域に詳細を追加する幻覚作業を容易にする。 提案手法の有効性を, 現状のHDR再構成技術と比較し, 定量的, 質的な比較を行った。

The prime goal of digital imaging techniques is to reproduce the realistic appearance of a scene. Low Dynamic Range (LDR) cameras are incapable of representing the wide dynamic range of the real-world scene. The captured images turn out to be either too dark (underexposed) or too bright (overexposed). Specifically, saturation in overexposed regions makes the task of reconstructing a High Dynamic Range (HDR) image from single LDR image challenging. In this paper, we propose a deep learning based approach to recover details in the saturated areas while reconstructing the HDR image. We formulate this problem as an image-to-image (I2I) translation task. To this end, we present a novel conditional GAN (cGAN) based framework trained in an end-to-end fashion over the HDR-REAL and HDR-SYNTH datasets. Our framework uses an overexposed mask obtained from a pre-trained segmentation model to facilitate the hallucination task of adding details in the saturated regions. We demonstrate the effectiveness of the proposed method by performing an extensive quantitative and qualitative comparison with several state-of-the-art single-image HDR reconstruction techniques.
翻訳日:2021-10-07 02:51:25 公開日:2021-10-04
# (参考訳) リランニングOCR - 品質評価と改善予測のための機械学習アプローチ

Rerunning OCR -- A Machine Learning Approach to Quality Assessment and Enhancement Prediction ( http://arxiv.org/abs/2110.01661v1 )

ライセンス: CC BY 4.0
Pit Schneider(参考訳) 新しい改善されたOCRソリューションの反復は、適切な再処理候補をターゲットとする決定を強制する。 これは特に、基礎となるデータ収集のサイズがかなり大きく、フォント、言語、出版期間、その結果ocr品質の観点からかなり多様である場合に適用される。 本稿はルクセンブルク国立図書館の取り組みを捉え、これらの決定を裏付けるものである。 計算オーバーヘッドの低減と品質劣化のリスクの低減と、より定量化されたOCRの改善を両立させるためには、これらが不可欠である。 特に本研究では,テキストブロックレベルの品質評価に関して,図書館の方法論を説明する。 この技術の延長として、新しいocrエンジンの拡張可能性を考慮した回帰モデルという形で、別の貢献がある。 どちらも、特に品質の低い歴史的データを扱う文化機関にとって有望なアプローチである。

Iterating with new and improved OCR solutions enforces decisions to be taken when it comes to targeting the right reprocessing candidates. This especially applies when the underlying data collection is of considerable size and rather diverse in terms of fonts, languages, periods of publication and consequently OCR quality. This article captures the efforts of the National Library of Luxembourg to support those exact decisions. They are crucial in order to guarantee low computational overhead and reduced quality degradation risks, combined with a more quantifiable OCR improvement. In particular, this work explains the methodology of the library with respect to text block level quality assessment. As an extension of this technique, another contribution comes in the form of a regression model that takes the enhancement potential of a new OCR engine into account. They both mark promising approaches, especially for cultural institutions dealing with historic data of lower quality.
翻訳日:2021-10-07 02:38:07 公開日:2021-10-04
# (参考訳) インテリジェントIoT環境における学習、コンピューティング、信頼性:パフォーマンス-エネルギートレードオフ

Learning, Computing, and Trustworthiness in Intelligent IoT Environments: Performance-Energy Tradeoffs ( http://arxiv.org/abs/2110.01686v1 )

ライセンス: CC BY 4.0
Beatriz Soret, Lam D. Nguyen, Jan Seeger, Arne Br\"oring, Chaouki Ben Issaid, Sumudu Samarakoon, Anis El Gabli, Vivek Kulkarni, Mehdi Bennis, and Petar Popovski(参考訳) Intelligent IoT Environment(iIoTe)は、半自律IoTアプリケーションを共同実行可能な異種デバイスで構成されている。 エネルギー効率は、電子トラクタ、ドローン、自動誘導車両(AGV)、ロボットなど、無線およびバッテリー駆動のデバイスで構成されるインフラに基づいているため、このようなエッジ環境では鍵となる。 総エネルギー消費量は、エッジコンピューティングとコミュニケーション、分散学習、分散台帳とスマートコントラクトを可能にする複数のiioteテクノロジから貢献を得ている。 本稿では,これらの技術の現状を概観し,その機能と性能,特にリソース,レイテンシ,プライバシ,エネルギー消費のトレードオフに注目した。 最後に、エネルギー効率の良いiIoTeにこれらの実現可能な技術を統合するためのビジョンと、オープンな研究課題に取り組むロードマップを提供する。

An Intelligent IoT Environment (iIoTe) is comprised of heterogeneous devices that can collaboratively execute semi-autonomous IoT applications, examples of which include highly automated manufacturing cells or autonomously interacting harvesting machines. Energy efficiency is key in such edge environments, since they are often based on an infrastructure that consists of wireless and battery-run devices, e.g., e-tractors, drones, Automated Guided Vehicle (AGV)s and robots. The total energy consumption draws contributions from multipleiIoTe technologies that enable edge computing and communication, distributed learning, as well as distributed ledgers and smart contracts. This paper provides a state-of-the-art overview of these technologies and illustrates their functionality and performance, with special attention to the tradeoff among resources, latency, privacy and energy consumption. Finally, the paper provides a vision for integrating these enabling technologies in energy-efficient iIoTe and a roadmap to address the open research challenges
翻訳日:2021-10-07 02:29:37 公開日:2021-10-04
# (参考訳) AI Chains: 大規模言語モデルの分岐による透明で制御可能な人間-AIインタラクション

AI Chains: Transparent and Controllable Human-AI Interaction by Chaining Large Language Model Prompts ( http://arxiv.org/abs/2110.01691v1 )

ライセンス: CC BY 4.0
Tongshuang Wu, Michael Terry, Carrie J. Cai(参考訳) 大きな言語モデル(LLM)は、単純なタスクにおいて印象的なポテンシャルを示してきたが、その範囲の広さ、透明性の欠如、制御性の欠如により、より複雑なタスクで人間を支援する際には効果が低下する。 そこで我々は,次のステップの出力が次のステップの入力となり,ステップごとのゲインを集約するという,LLMステップの連鎖という概念を紹介した。 まず、連鎖構築に有用な一連のllmプリミティブオペレーションを定義し、次に、ユーザがそれらのチェーンを、中間の結果とともにモジュラーな方法で変更できるインタラクティブなシステムを示す。 20人のユーザスタディにおいて、チェインはタスクの結果の質を向上するだけでなく、システムの透明性、制御可能性、コラボレーションの感覚を大幅に向上させた。 サブタスクを利用してモデルの期待を調整し、並列的な下流効果を観察することで代替戦略を比較し、対比し、チェインの「単体テスト」サブコンポーネントによる予期せぬモデルの出力をデバッグする。 2つのケーススタディにおいて,LLMチェインが今後の応用にどのように使われるかをさらに検討する。

Although large language models (LLMs) have demonstrated impressive potential on simple tasks, their breadth of scope, lack of transparency, and insufficient controllability can make them less effective when assisting humans on more complex tasks. In response, we introduce the concept of Chaining LLM steps together, where the output of one step becomes the input for the next, thus aggregating the gains per step. We first define a set of LLM primitive operations useful for Chain construction, then present an interactive system where users can modify these Chains, along with their intermediate results, in a modular way. In a 20-person user study, we found that Chaining not only improved the quality of task outcomes, but also significantly enhanced system transparency, controllability, and sense of collaboration. Additionally, we saw that users developed new ways of interacting with LLMs through Chains: they leveraged sub-tasks to calibrate model expectations, compared and contrasted alternative strategies by observing parallel downstream effects, and debugged unexpected model outputs by "unit-testing" sub-components of a Chain. In two case studies, we further explore how LLM Chains may be used in future applications.
翻訳日:2021-10-07 02:28:36 公開日:2021-10-04
# (参考訳) ビーチに時計を置きましょう:画像キャプチャーにおける物体の幻覚を減らす

Let there be a clock on the beach: Reducing Object Hallucination in Image Captioning ( http://arxiv.org/abs/2110.01705v1 )

ライセンス: CC BY 4.0
Ali Furkan Biten, Lluis Gomez, Dimosthenis Karatzas(参考訳) 画像キャプションにおいて、存在しない、または存在しないオブジェクトで画像を記述することは、オブジェクトバイアス(hallucination)として知られている。 この行動は、人間には望ましいものではない最先端のキャプションモデルで非常に一般的である。 キャプションにおける物体の幻覚を低減するために,新たな訓練データやモデルサイズの増大を必要としない文に対する3つの簡易かつ効率的な訓練拡張法を提案する。 広範に分析した結果,提案手法は幻覚測定値に対するモデル対象バイアスを著しく低減できることがわかった。 さらに,本手法が視覚特性への依存性を減少させることを示す。 すべてのコード、構成ファイル、モデルの重み付けが公開されます。

Explaining an image with missing or non-existent objects is known as object bias (hallucination) in image captioning. This behaviour is quite common in the state-of-the-art captioning models which is not desirable by humans. To decrease the object hallucination in captioning, we propose three simple yet efficient training augmentation method for sentences which requires no new training data or increase in the model size. By extensive analysis, we show that the proposed methods can significantly diminish our models' object bias on hallucination metrics. Moreover, we experimentally demonstrate that our methods decrease the dependency on the visual features. All of our code, configuration files and model weights will be made public.
翻訳日:2021-10-07 01:49:59 公開日:2021-10-04
# (参考訳) 共同ファウンダーによる多視点オンラインレビューの効果:推定と含意

Effects of Multi-Aspect Online Reviews with Unobserved Confounders: Estimation and Implication ( http://arxiv.org/abs/2110.01746v1 )

ライセンス: CC BY 4.0
Lu Cheng, Ruocheng Guo, Kasim Selcuk Candan, Huan Liu(参考訳) オンラインレビューシステムは、多くの企業がブランドを構築し、メッセージを広めるための主要な手段だ。 オンラインレビューの効果を研究する以前の研究は、主に評価や感情スコアなど、単一の数値的な原因に焦点を当てていた。 単に単一の数値的原因の影響を考慮し、テキストレビューに埋め込まれた複数の側面(食物、サービスなど)の異なる効果を無視すること、観察研究において隠れた共同創設者がいないこと、例えば消費者の個人的嗜好を仮定すること、そして、テキスト的レビューがビジネス収益に与える影響をキャンセルする可能性のある数値的原因の間接的影響を無視することである。 隠れた共同設立者の存在下では、多面的なテキストレビュー、特にビジネス収益と数値的原因による直接的な影響(評価)が仲介者であることを考慮し、オンラインレビューの単一原因に基づく効果評価の代替的な視点を提案する。 機械学習と因果推論の最近の進歩に基づき、隠れた共同創設者と因果効果を一緒に見積もる。 本稿では,実例を用いた実証評価を行い,経営戦略における多面的効果の差別化の重要性と意義について論じる。

Online review systems are the primary means through which many businesses seek to build the brand and spread their messages. Prior research studying the effects of online reviews has been mainly focused on a single numerical cause, e.g., ratings or sentiment scores. We argue that such notions of causes entail three key limitations: they solely consider the effects of single numerical causes and ignore different effects of multiple aspects -- e.g., Food, Service -- embedded in the textual reviews; they assume the absence of hidden confounders in observational studies, e.g., consumers' personal preferences; and they overlook the indirect effects of numerical causes that can potentially cancel out the effect of textual reviews on business revenue. We thereby propose an alternative perspective to this single-cause-based effect estimation of online reviews: in the presence of hidden confounders, we consider multi-aspect textual reviews, particularly, their total effects on business revenue and direct effects with the numerical cause -- ratings -- being the mediator. We draw on recent advances in machine learning and causal inference to together estimate the hidden confounders and causal effects. We present empirical evaluations using real-world examples to discuss the importance and implications of differentiating the multi-aspect effects in strategizing business operations.
翻訳日:2021-10-07 01:36:29 公開日:2021-10-04
# 若年者・中高年者における眼バイオメトリックスの公平性の検討

Investigating Fairness of Ocular Biometrics Among Young, Middle-Aged, and Older Adults ( http://arxiv.org/abs/2110.01641v1 )

ライセンス: Link先を確認
Anoop Krishnan, Ali Almadan and Ajita Rattani(参考訳) いくつかの研究は、顔バイオメトリックス、すなわち、性別、人種、年齢グループにわたる顔認識とソフトバイオメトリック推定手法の偏りを示唆している。 公正で信頼できるバイオメトリックソリューションの展開に向けて、さまざまなバイオメトリックモダリティのバイアスを調査するという最近の取り組みがある。 眼バイオメトリックスは、高い精度、セキュリティ、プライバシ、およびモバイルデバイスでの使いやすさにより、学界や業界から注目を集めている。 2020ドルの最近の研究では、男性と女性間での眼ベースのユーザー認識の公平性も示唆された。 本研究の目的は,若年者,中高年者,高齢者の可視スペクトルにおける眼バイオメトリックスの公平性を評価することである。 大規模な2020 UFPRの生体計測データセットが利用可能になったことで、被験者は18歳から79歳で取得され、この研究を促進することができる。 実験の結果, 性別および年齢群間での眼バイオメトリックス全体の等価性が, ユーザ検証および性別分類において示唆された。 高齢者の誤マッチ率の低下と若年者におけるパフォーマンスの差は, ユーザ認証と年齢分類でそれぞれ報告された。 これは、特定のアプリケーションに影響を与えるこれらの年齢グループのバイオメトリックデータの固有の特性に起因しており、センサー技術とソフトウェアソリューションの進歩の必要性を示唆している。

A number of studies suggest bias of the face biometrics, i.e., face recognition and soft-biometric estimation methods, across gender, race, and age groups. There is a recent urge to investigate the bias of different biometric modalities toward the deployment of fair and trustworthy biometric solutions. Ocular biometrics has obtained increased attention from academia and industry due to its high accuracy, security, privacy, and ease of use in mobile devices. A recent study in $2020$ also suggested the fairness of ocular-based user recognition across males and females. This paper aims to evaluate the fairness of ocular biometrics in the visible spectrum among age groups; young, middle, and older adults. Thanks to the availability of the latest large-scale 2020 UFPR ocular biometric dataset, with subjects acquired in the age range 18 - 79 years, to facilitate this study. Experimental results suggest the overall equivalent performance of ocular biometrics across gender and age groups in user verification and gender classification. Performance difference for older adults at lower false match rate and young adults was noted at user verification and age classification, respectively. This could be attributed to inherent characteristics of the biometric data from these age groups impacting specific applications, which suggest a need for advancement in sensor technology and software solutions.
翻訳日:2021-10-06 14:27:33 公開日:2021-10-04
# AdjointBackMapV2: 随伴演算子による任意CNNユニットの活性化の精密再構築

AdjointBackMapV2: Precise Reconstruction of Arbitrary CNN Unit's Activation via Adjoint Operators ( http://arxiv.org/abs/2110.01736v1 )

ライセンス: Link先を確認
Qing Wan, Yoonsuck Choe(参考訳) 随伴演算子はcnnの内部動作の探索に有効であることが判明しています[1]。 しかし、以前の非バイアス仮定は一般化を制限した。 我々は,拡張入力空間の一部としてすべてのcnn層にバイアスを含む拡張ノルム空間に入力画像を埋め込むことにより制限を克服し,高レベル重みを拡張入力空間にマッピングして有効超曲面を再構築する随伴演算子ベースアルゴリズムを提案する。 このような超曲面は、cnn内の任意の単位に対して計算でき、この再構成された超曲面は、元の入力(内積を通して)に乗算すると、各単位の出力値を正確に再現することが証明される。 CIFAR-10データセットを用いて,提案手法が約0ドルの再構成誤差を達成できることを示す。

Adjoint operators have been found to be effective in the exploration of CNN's inner workings [1]. However, the previous no-bias assumption restricted its generalization. We overcome the restriction via embedding input images into an extended normed space that includes bias in all CNN layers as part of the extended input space and propose an adjoint-operator-based algorithm that maps high-level weights back to the extended input space for reconstructing an effective hypersurface. Such hypersurface can be computed for an arbitrary unit in the CNN, and we prove that this reconstructed hypersurface, when multiplied by the original input (through an inner product), will precisely replicate the output value of each unit. We show experimental results based on the CIFAR-10 dataset that the proposed approach achieves near $0$ reconstruction error.
翻訳日:2021-10-06 14:27:13 公開日:2021-10-04
# ディープフェイス認識を用いたディープフェイク検出の実験的検討

An Experimental Evaluation on Deepfake Detection using Deep Face Recognition ( http://arxiv.org/abs/2110.01640v1 )

ライセンス: Link先を確認
Sreeraj Ramachandran, Aakash Varma Nadimpalli, Ajita Rattani(参考訳) ディープラーニングの顕著な進歩により、様々なコンピュータビジョン応用の目覚しい精度が得られた。 しかし、深層生成モデルの進歩は、ディープフェイク(deepfakes)として知られる非常に現実的な偽コンテンツを生み出し、プライバシー、民主主義、国家安全保障への脅威を引き起こしている。 現在のディープフェイク検出手法のほとんどは、2クラス畳み込みニューラルネットワーク(CNN)を用いた偽のイメージやビデオとを区別するバイナリ分類問題であると考えられている。 これらの手法は、深い生成モデルによって生成される視覚的アーティファクト、時間的または色的不整合を検出することに基づいている。 しかし、これらの手法はモデルトレーニングに大量の実データと偽データを必要とし、その性能低下は高度なディープフェイク生成技術を用いて生成されたサンプルを用いたクロスデータセット評価において顕著である。 本稿では,異なる損失関数とディープフェイク生成技術を用いて,ディープフェイク識別におけるディープフェイク認識の有効性を徹底的に評価する。 celeb-dfとfaceforensics++のdeepfakeデータセットへの挑戦に関する実験的研究は、2つのクラスcnnと眼のモダリティに対するディープフェイク同定におけるディープフェイク認識の有効性を示唆している。 以上の結果から,celeb-dfデータセット上での顔認識を用いたディープフェイク検出において,曲線下最大面積は0.08 %,誤り率(eer)は7.1%であった。 このEERは、2クラスCNNで得られたEERとCeleb-DFデータセットで得られた眼のモダリティと比較して16.6%低い。 さらにFaceForensics++データセットでは、AUCの0.99とEERの2.04%が得られた。 生体認証技術の使用は、モデルトレーニングのための大量の偽データの必要性を回避し、ディープフェイク生成技術の発展により良い一般化性を得るという利点がある。

Significant advances in deep learning have obtained hallmark accuracy rates for various computer vision applications. However, advances in deep generative models have also led to the generation of very realistic fake content, also known as deepfakes, causing a threat to privacy, democracy, and national security. Most of the current deepfake detection methods are deemed as a binary classification problem in distinguishing authentic images or videos from fake ones using two-class convolutional neural networks (CNNs). These methods are based on detecting visual artifacts, temporal or color inconsistencies produced by deep generative models. However, these methods require a large amount of real and fake data for model training and their performance drops significantly in cross dataset evaluation with samples generated using advanced deepfake generation techniques. In this paper, we thoroughly evaluate the efficacy of deep face recognition in identifying deepfakes, using different loss functions and deepfake generation techniques. Experimental investigations on challenging Celeb-DF and FaceForensics++ deepfake datasets suggest the efficacy of deep face recognition in identifying deepfakes over two-class CNNs and the ocular modality. Reported results suggest a maximum Area Under Curve (AUC) of 0.98 and an Equal Error Rate (EER) of 7.1% in detecting deepfakes using face recognition on the Celeb-DF dataset. This EER is lower by 16.6% compared to the EER obtained for the two-class CNN and the ocular modality on the Celeb-DF dataset. Further on the FaceForensics++ dataset, an AUC of 0.99 and EER of 2.04% were obtained. The use of biometric facial recognition technology has the advantage of bypassing the need for a large amount of fake data for model training and obtaining better generalizability to evolving deepfake creation techniques.
翻訳日:2021-10-06 14:26:33 公開日:2021-10-04
# ショートカットとショートリストのフルフィルメント決定の学習

Learning to shortcut and shortlist order fulfillment deciding ( http://arxiv.org/abs/2110.01668v1 )

ライセンス: Link先を確認
Brian Quanz, Ajay Deshpande, Dahai Xing, Xuan Liu(参考訳) 注文充足オプションの増加と決定プロセスで考慮されたビジネス目標により、注文充足決定はますます複雑になりつつある。 例えば、小売店からの出荷が出現したことにより、さらに多くのフルフィルメントノードが検討され、フルフィルメント決定を行う上で、さまざまなビジネス目標を考慮することが一般的になった。 複雑さが増すにつれ、決定プロセスの効率性は真の関心事となりうる。 全ての可能なものの中で最適な充足の割り当てを見つけるのは、特にピーク時に全ての順序で行うのにコストがかかりすぎる可能性がある。 本研究は, 充足決定プロセスにおける規則性を活用した意思決定システムの負担軽減の可能性を探るものである。 データマイニングを使用することで、過去の満足度決定のパターンを見つけ、将来の決定に対する最も可能性の高い課題を効率的に予測することを目指している。 本質的に、高い信頼性で予測可能な割り当ては、コストのかかる決定プロセスをショートカットしたりバイパスしたり、あるいは最も可能性の高い割り当てのセットをショートリストとして使用することができます。

With the increase of order fulfillment options and business objectives taken into consideration in the deciding process, order fulfillment deciding is becoming more and more complex. For example, with the advent of ship from store retailers now have many more fulfillment nodes to consider, and it is now common to take into account many and varied business goals in making fulfillment decisions. With increasing complexity, efficiency of the deciding process can become a real concern. Finding the optimal fulfillment assignments among all possible ones may be too costly to do for every order especially during peak times. In this work, we explore the possibility of exploiting regularity in the fulfillment decision process to reduce the burden on the deciding system. By using data mining we aim to find patterns in past fulfillment decisions that can be used to efficiently predict most likely assignments for future decisions. Essentially, those assignments that can be predicted with high confidence can be used to shortcut, or bypass, the expensive deciding process, or else a set of most likely assignments can be used for shortlisting -- sending a much smaller set of candidates for consideration by the fulfillment deciding system.
翻訳日:2021-10-06 14:23:54 公開日:2021-10-04
# 製品配置グラフ補完のための帰納学習

Inductive learning for product assortment graph completion ( http://arxiv.org/abs/2110.01677v1 )

ライセンス: Link先を確認
Haris Dukic, Georgios Deligiorgis, Pierpaolo Sepe, Davide Bacciu, Marco Trincavelli(参考訳) グローバル小売業者は、スタイルの互換性、"Bought together"、"Bought together"、"watched together"など、さまざまな種類の関係によってリンク可能な、何十万もの製品を含んでいる。 グラフはアソシエーションの自然な表現であり、製品はノード、関係はエッジである。 スタイル互換性のような関係はしばしば手動プロセスによって生成されるため、グラフ全体を一様にカバーしない。 本稿では,インダクティブ学習を用いて,テキスト記述と視覚データからなるリッチなノード情報を活用することにより,ファッションのスタイル互換性を高めることを提案する。 次に,提案するグラフ拡張が,グラフスパーシティに小さな影響を与えながら,トランスダクティブタスクの性能を大幅に向上させることを示す。

Global retailers have assortments that contain hundreds of thousands of products that can be linked by several types of relationships like style compatibility, "bought together", "watched together", etc. Graphs are a natural representation for assortments, where products are nodes and relations are edges. Relations like style compatibility are often produced by a manual process and therefore do not cover uniformly the whole graph. We propose to use inductive learning to enhance a graph encoding style compatibility of a fashion assortment, leveraging rich node information comprising textual descriptions and visual data. Then, we show how the proposed graph enhancement improves substantially the performance on transductive tasks with a minor impact on graph sparsity.
翻訳日:2021-10-06 14:23:35 公開日:2021-10-04
# 因果ネットワークの協調による潜在的結果分布の推定

Estimating Potential Outcome Distributions with Collaborating Causal Networks ( http://arxiv.org/abs/2110.01664v1 )

ライセンス: Link先を確認
Tianhui Zhou, David Carlson(参考訳) 多くの因果推論アプローチは、潜在的治療による個人の結果の変化、または個々の治療効果(ITE)を観察研究から特定することに焦点を当てている。 ITEを推定するだけでなく、完全な潜在的な結果分布を推定するために、CCN(Collaborating Causal Networks)を提案する。 この修正は、各治療の有用性を推定し、ユーティリティ機能の個々のバリエーション(例えば、リスク耐性の変動)を可能にする。 標準因果推論仮定の下で,ccnは漸近的に正しい結果分布を捉える分布を学習する。 さらに,観察研究における治療群間の試料不均衡の緩和に実証的に有効な新しい調整手法を開発した。 大規模な実験実験によりCCNを評価し,既存のベイジアン・ジェネレーティブ・ディバイサル・ネットワーク・ベース手法と比較して,分布推定の改善を実証した。 さらに、CCNは様々なユーティリティ機能に関する決定を経験的に改善する。

Many causal inference approaches have focused on identifying an individual's outcome change due to a potential treatment, or the individual treatment effect (ITE), from observational studies. Rather than only estimating the ITE, we propose Collaborating Causal Networks (CCN) to estimate the full potential outcome distributions. This modification facilitates estimating the utility of each treatment and allows for individual variation in utility functions (e.g., variability in risk tolerance). We show that CCN learns distributions that asymptotically capture the correct potential outcome distributions under standard causal inference assumptions. Furthermore, we develop a new adjustment approach that is empirically effective in alleviating sample imbalance between treatment groups in observational studies. We evaluate CCN by extensive empirical experiments and demonstrate improved distribution estimates compared to existing Bayesian and Generative Adversarial Network-based methods. Additionally, CCN empirically improves decisions over a variety of utility functions.
翻訳日:2021-10-06 14:22:54 公開日:2021-10-04
# 確率関数解析とロバスト機械学習への応用

Stochastic functional analysis with applications to robust machine learning ( http://arxiv.org/abs/2110.01729v1 )

ライセンス: Link先を確認
Julio Enrique Castrillon-Candas, Dingning Liu, Mark Kon(参考訳) 機械学習のプロトコルは通常、特徴ベクトルと関連するデータの確率分布に関する情報を過小に活用し、代わりに特徴ベクトルの回帰関数や分類関数を直接計算する。 本稿では,カルフネン-lo\'{e}ve (kl) 展開を用いて入力データの確率的挙動を同定する新しい特徴について紹介する。 これらの特徴は、異常検出のための最近の機能データ分析(FDA)理論から構築されている。 関連する信号分解は、有限次元函数空間を持つ確率過程(ランダム場)を近似するための既知の最適性を持つ正確な階層的テンソル積展開である。 原則として、これらの主低次元空間は与えられた名目クラスにおける'アンダーライジング信号'の確率的挙動のほとんどを捉え、確率的異常として代替クラスにおける信号を削除することができる。 名目クラスの階層的有限次元KL展開を用いて、異常信号成分を検出するために一連の直交ネスト付き部分空間を構築する。 これらの部分空間における入力データの投影係数はML分類器の訓練に使用される。 しかし、信号が名目および異常な射影成分に分割されるため、クラスのより明確な分離面が生じる。 実際、名目クラスの共分散構造を十分に正確に推定することで、鋭い分類が得られることを示す。 私たちはこの概念を慎重に定式化し、がん診断の多くの高次元データセットで示します。 この方法では,GCM(Global Cancer Map)遺伝子発現ネットワークデータセットの現在のトップベンチマークよりも精度と精度が大幅に向上する。

It is well-known that machine learning protocols typically under-utilize information on the probability distributions of feature vectors and related data, and instead directly compute regression or classification functions of feature vectors. In this paper we introduce a set of novel features for identifying underlying stochastic behavior of input data using the Karhunen-Lo\'{e}ve (KL) expansion, where classification is treated as detection of anomalies from a (nominal) signal class. These features are constructed from the recent Functional Data Analysis (FDA) theory for anomaly detection. The related signal decomposition is an exact hierarchical tensor product expansion with known optimality properties for approximating stochastic processes (random fields) with finite dimensional function spaces. In principle these primary low dimensional spaces can capture most of the stochastic behavior of `underlying signals' in a given nominal class, and can reject signals in alternative classes as stochastic anomalies. Using a hierarchical finite dimensional KL expansion of the nominal class, a series of orthogonal nested subspaces is constructed for detecting anomalous signal components. Projection coefficients of input data in these subspaces are then used to train an ML classifier. However, due to the split of the signal into nominal and anomalous projection components, clearer separation surfaces of the classes arise. In fact we show that with a sufficiently accurate estimation of the covariance structure of the nominal class, a sharp classification can be obtained. We carefully formulate this concept and demonstrate it on a number of high-dimensional datasets in cancer diagnostics. This method leads to a significant increase in precision and accuracy over the current top benchmarks for the Global Cancer Map (GCM) gene expression network dataset.
翻訳日:2021-10-06 14:22:40 公開日:2021-10-04
# 知識グラフを用いたニューロシンボリック推論のためのエネルギーモデル

An energy-based model for neuro-symbolic reasoning on knowledge graphs ( http://arxiv.org/abs/2110.01639v1 )

ライセンス: Link先を確認
Dominik Dold, Josep Soler Garrido(参考訳) グラフ構造化データの機械学習は、最近、産業や研究において主要なトピックとなり、レコメンダシステムや自動定理証明など多くのエキサイティングな応用を見出した。 本稿では,産業オートメーション,コミュニケーション,サイバーセキュリティといったさまざまな分野の知識を統合し,産業オートメーションシステムを特徴付けるエネルギーベースのグラフ埋め込みアルゴリズムを提案する。 学習モデルは、複数のドメインからの知識を組み合わせることで、新しいシステムイベントに関するコンテキスト認識予測を行うことができ、例えばサイバーセキュリティ違反を示す可能性のある異常の深刻さを評価するのに使用できる。 提示されたモデルは、生物学的にインスパイアされたニューラルアーキテクチャにマップ可能であり、グラフ埋め込みメソッドとニューロモルフィックコンピューティングの間の最初のブリッジとして機能する。

Machine learning on graph-structured data has recently become a major topic in industry and research, finding many exciting applications such as recommender systems and automated theorem proving. We propose an energy-based graph embedding algorithm to characterize industrial automation systems, integrating knowledge from different domains like industrial automation, communications and cybersecurity. By combining knowledge from multiple domains, the learned model is capable of making context-aware predictions regarding novel system events and can be used to evaluate the severity of anomalies that might be indicative of, e.g., cybersecurity breaches. The presented model is mappable to a biologically-inspired neural architecture, serving as a first bridge between graph embedding methods and neuromorphic computing - uncovering a promising edge application for this upcoming technology.
翻訳日:2021-10-06 14:19:59 公開日:2021-10-04
# ディープオペレータネットワークのためのアーキテクチャとトレーニングアルゴリズムの改良

Improved architectures and training algorithms for deep operator networks ( http://arxiv.org/abs/2110.01654v1 )

ライセンス: Link先を確認
Sifan Wang, Hanwen Wang, Paris Perdikaris(参考訳) 演算子学習技術は,無限次元バナッハ空間間の写像を学習するための強力なツールとして最近登場した。 適切な制約の下で訓練され、偏微分方程式(pdes)の解作用素を完全に自己教師付きで学習するのに有効である。 本研究では,ニューラル・タンジェント・カーネル(ntk)理論のレンズを通して,ディープ・オペレータ・ネットワーク(deeponets)のトレーニングダイナミクスを分析し,大きな大きさの関数の近似を好むバイアスを明らかにする。 このバイアスを正すために,各トレーニング例の重要性を適応的に再重み付けし,勾配降下によるトレーニング中のバックプロパゲーション勾配の大きさを効果的にバランスさせる方法を提案する。 また,勾配病理の消失に対してよりレジリエントな新しいネットワークアーキテクチャを提案する。 本研究は、DeepONetsのトレーニングに関する新たな知見を提供し、10~50倍の精度で予測精度を継続的に向上させ、ペア・インプット・アウトプットの観測が欠如しているPDEソリューション演算子を学習することの難しさを実証した。 この原稿に付随するコードとデータは、 \url{https://github.com/PredictiveIntelligenceLab/ImprovedDeepONetsで公開されている。 }

Operator learning techniques have recently emerged as a powerful tool for learning maps between infinite-dimensional Banach spaces. Trained under appropriate constraints, they can also be effective in learning the solution operator of partial differential equations (PDEs) in an entirely self-supervised manner. In this work we analyze the training dynamics of deep operator networks (DeepONets) through the lens of Neural Tangent Kernel (NTK) theory, and reveal a bias that favors the approximation of functions with larger magnitudes. To correct this bias we propose to adaptively re-weight the importance of each training example, and demonstrate how this procedure can effectively balance the magnitude of back-propagated gradients during training via gradient descent. We also propose a novel network architecture that is more resilient to vanishing gradient pathologies. Taken together, our developments provide new insights into the training of DeepONets and consistently improve their predictive accuracy by a factor of 10-50x, demonstrated in the challenging setting of learning PDE solution operators in the absence of paired input-output observations. All code and data accompanying this manuscript are publicly available at \url{https://github.com/PredictiveIntelligenceLab/ImprovedDeepONets.}
翻訳日:2021-10-06 14:17:00 公開日:2021-10-04
# グラフ表現学習による無線リンクスケジューリング:異なるスーパービジョンレベルの比較検討

Wireless Link Scheduling via Graph Representation Learning: A Comparative Study of Different Supervision Levels ( http://arxiv.org/abs/2110.01722v1 )

ライセンス: Link先を確認
Navid Naderializadeh(参考訳) 我々は,グラフ表現学習を用いて電力制御ポリシーを訓練する無線干渉ネットワークにおいて,バイナリ電力制御やリンクスケジューリングの問題を考える。 我々は、無線ネットワークの干渉グラフをグラフニューラルネットワーク(GNN)バックボーンの基盤トポロジーとして利用し、チャネル行列を送信者-受信者対すべてに対するノード埋め込みの集合に変換する。 ノードの埋め込みは,教師なし,教師なし,自己教師付き学習など,様々な方法で訓練できることを示すとともに,システムレベルのスループット,収束挙動,サンプル効率,一般化能力の観点から,これらの手法の性能に対する,さまざまな監督レベルの影響を比較する。

We consider the problem of binary power control, or link scheduling, in wireless interference networks, where the power control policy is trained using graph representation learning. We leverage the interference graph of the wireless network as an underlying topology for a graph neural network (GNN) backbone, which converts the channel matrix to a set of node embeddings for all transmitter-receiver pairs. We show how the node embeddings can be trained in several ways, including via supervised, unsupervised, and self-supervised learning, and we compare the impact of different supervision levels on the performance of these methods in terms of the system-level throughput, convergence behavior, sample efficiency, and generalization capability.
翻訳日:2021-10-06 14:16:37 公開日:2021-10-04
# ビデオオブジェクト分割のためのPixel-Level Bijective Matching

Pixel-Level Bijective Matching for Video Object Segmentation ( http://arxiv.org/abs/2110.01644v1 )

ライセンス: Link先を確認
Suhwan Cho, Heansung Lee, Minjung Kim, Sungjun Jang, Sangyoun Lee(参考訳) 半教師付きビデオオブジェクトセグメンテーション(VOS)は、ビデオの初期フレームに存在する指定されたオブジェクトをピクセルレベルで追跡することを目的としている。 オブジェクトの外観情報をフル活用するために、VOSでは画素レベルの特徴マッチングが広く使われている。 従来の特徴マッチングは、探索的な方法で実行され、すなわち、クエリフレームから参照フレームへのベストマッチのみが考慮される。 クエリフレーム内の各位置は、参照フレーム内の各参照フレーム位置の頻度にかかわらず、参照フレーム内の最適な位置を参照する。 これはほとんどのケースでうまく動作し、迅速な外観変化に対して堅牢であるが、クエリフレームがターゲットオブジェクトに類似したバックグラウンドの邪魔者を含む場合、重大なエラーを引き起こす可能性がある。 この問題を緩和するために,クエリフレームから参照フレームへのベストマッチを見つけるためのビジェクティブマッチング機構を導入し,その逆も提案する。 クエリフレーム画素の最適なマッチングを見つける前に、まず、参照フレーム画素の最適なマッチングが、各参照フレーム画素が過度に参照されないように考慮される。 このメカニズムは厳格に動作し、つまりピクセルが互いに確実に一致している場合にのみ接続されるため、背景の邪魔を効果的に排除することができる。 さらに,既存のマスク伝搬法を改善するために,マスク埋め込みモジュールを提案する。 複数の履歴マスクを座標情報に埋め込むことで、対象物の位置情報を効果的に捕捉することができる。

Semi-supervised video object segmentation (VOS) aims to track the designated objects present in the initial frame of a video at the pixel level. To fully exploit the appearance information of an object, pixel-level feature matching is widely used in VOS. Conventional feature matching runs in a surjective manner, i.e., only the best matches from the query frame to the reference frame are considered. Each location in the query frame refers to the optimal location in the reference frame regardless of how often each reference frame location is referenced. This works well in most cases and is robust against rapid appearance variations, but may cause critical errors when the query frame contains background distractors that look similar to the target object. To mitigate this concern, we introduce a bijective matching mechanism to find the best matches from the query frame to the reference frame and vice versa. Before finding the best matches for the query frame pixels, the optimal matches for the reference frame pixels are first considered to prevent each reference frame pixel from being overly referenced. As this mechanism operates in a strict manner, i.e., pixels are connected if and only if they are the sure matches for each other, it can effectively eliminate background distractors. In addition, we propose a mask embedding module to improve the existing mask propagation method. By embedding multiple historic masks with coordinate information, it can effectively capture the position information of a target object.
翻訳日:2021-10-06 14:12:46 公開日:2021-10-04
# カメラベースクリティカルアプリケーションにおけるプライバシー保護のためのディープラーニングアプローチ

Deep Learning Approach Protecting Privacy in Camera-Based Critical Applications ( http://arxiv.org/abs/2110.01676v1 )

ライセンス: Link先を確認
Gautham Ramajayam, Tao Sun, Chiu C. Tan, Lannan Luo, Haibin Ling(参考訳) 多くの重要な応用は、分析目的の映像を撮影するためにカメラに依存している。 これは、これらのカメラが誤って必要以上に多くの情報を捉えているという懸念につながった。 本稿では,カメラシステムにおけるプライバシー保護のための深層学習手法を提案する。 特定のオブジェクト(例えば顔)を特定することがプライバシーに敏感である代わりに、我々の手法は、アプリケーションで必要とされない直感に基づいて、健全な(視覚的に顕著な)オブジェクトと非塩分オブジェクトを区別する。

Many critical applications rely on cameras to capture video footage for analytical purposes. This has led to concerns about these cameras accidentally capturing more information than is necessary. In this paper, we propose a deep learning approach towards protecting privacy in camera-based systems. Instead of specifying specific objects (e.g. faces) are privacy sensitive, our technique distinguishes between salient (visually prominent) and non-salient objects based on the intuition that the latter is unlikely to be needed by the application.
翻訳日:2021-10-06 14:12:25 公開日:2021-10-04
# エゴセントリックカメラとIMUセンサーを用いた自己教師型ビデオ表現学習

How You Move Your Head Tells What You Do: Self-supervised Video Representation Learning with Egocentric Cameras and IMU Sensors ( http://arxiv.org/abs/2110.01680v1 )

ライセンス: Link先を確認
Satoshi Tsutsui, Ruta Desai, Karl Ridgeway(参考訳) ヘッドマウントカメラからユーザのアクティビティを理解することは、拡張現実(AR/VR)アプリケーションの基本課題である。 典型的なアプローチは、人間がラベル付けしたデータを使って分類器を教師付きで訓練することである。 このアプローチには、高価なアノテーションコストとアクティビティラベルのクローズドカバレッジによる制限がある。 これらの制限に対処する潜在的な方法は、自己教師付き学習(SSL)を使用することである。 SSLは人間のアノテーションに頼る代わりに、データ固有の特性を活用して表現を学習する。 我々は,AR/VRデバイスに埋め込まれたIMUセンサから容易に得ることができる,ユーザの日常活動によって生じる頭の動きから得られるエゴセントリックな映像表現の学習に興味を持っている。 そこで本研究では,ビデオクリップとヘッドモーションのペアを学習することで,映像表現を学習するための単純かつ効果的な手法を提案する。 人や犬の自我中心的な活動を認識するための学習表現の有効性を実証する。

Understanding users' activities from head-mounted cameras is a fundamental task for Augmented and Virtual Reality (AR/VR) applications. A typical approach is to train a classifier in a supervised manner using data labeled by humans. This approach has limitations due to the expensive annotation cost and the closed coverage of activity labels. A potential way to address these limitations is to use self-supervised learning (SSL). Instead of relying on human annotations, SSL leverages intrinsic properties of data to learn representations. We are particularly interested in learning egocentric video representations benefiting from the head-motion generated by users' daily activities, which can be easily obtained from IMU sensors embedded in AR/VR devices. Towards this goal, we propose a simple but effective approach to learn video representation by learning to tell the corresponding pairs of video clip and head-motion. We demonstrate the effectiveness of our learned representation for recognizing egocentric activities of people and dogs.
翻訳日:2021-10-06 14:12:16 公開日:2021-10-04
# 限定訓練データからのロバスト線形分類

Robust Linear Classification from Limited Training Data ( http://arxiv.org/abs/2110.01648v1 )

ライセンス: Link先を確認
Deepayan Chakrabarti(参考訳) 制限データ設定における一般損失関数の下での線形分類の問題を考える。 オーバーフィッティングは一般的な問題です。 オーバーフィッティングを防ぐための標準的なアプローチは次元減少と正規化である。 しかし、次元の減少は情報を失う一方、正規化では、ユーザーはノルム、前者、距離メートル法を選択する必要がある。 ユーザ選択を必要とせず,多数の損失関数に適用可能なアルゴリズムRoLinを提案する。 RoLinは、主要なコンポーネントから信頼できる情報と堅牢な最適化を組み合わせて、信頼できない部分空間から有用な情報を抽出する。 また、リミテッドデータ設定で既存のクロスバリデーションメソッドよりも優れた、新しいロバストなクロスバリデーションも含まれている。 実世界のデータセット25ドルと3つの標準損失関数の実験は、RoLinが次元の縮小と正規化の両方に大きく勝っていることを示している。 次元の減少はRoLinと比較して平均して14\%-40\%$悪いテスト損失である。 l_1$と$l_2$正規化に対して、rolinはロジスティック損失の最大3倍、二乗ヒンジ損失の12倍も良い。 RoLinは競合するメソッドよりも2倍から3倍多くのデータセットで最大の損失を達成している。 一部のデータセットでは、15ドルのトレーニングサンプルを持つRoLinは、1500ドルのサンプルを持つ最高の標準ベースの正規化よりも優れている。

We consider the problem of linear classification under general loss functions in the limited-data setting. Overfitting is a common problem here. The standard approaches to prevent overfitting are dimensionality reduction and regularization. But dimensionality reduction loses information, while regularization requires the user to choose a norm, or a prior, or a distance metric. We propose an algorithm called RoLin that needs no user choice and applies to a large class of loss functions. RoLin combines reliable information from the top principal components with a robust optimization to extract any useful information from unreliable subspaces. It also includes a new robust cross-validation that is better than existing cross-validation methods in the limited-data setting. Experiments on $25$ real-world datasets and three standard loss functions show that RoLin broadly outperforms both dimensionality reduction and regularization. Dimensionality reduction has $14\%-40\%$ worse test loss on average as compared to RoLin. Against $L_1$ and $L_2$ regularization, RoLin can be up to 3x better for logistic loss and 12x better for squared hinge loss. The differences are greatest for small sample sizes, where RoLin achieves the best loss on 2x to 3x more datasets than any competing method. For some datasets, RoLin with $15$ training samples is better than the best norm-based regularization with $1500$ samples.
翻訳日:2021-10-06 14:08:36 公開日:2021-10-04
# 燃焼不安定モニタリングのためのクロスモーダル仮想センシング

Cross-Modal Virtual Sensing for Combustion Instability Monitoring ( http://arxiv.org/abs/2110.01659v1 )

ライセンス: Link先を確認
Tryambak Gangopadhyay, Vikram Ramanan, Satyanarayanan R Chakravarthy, Soumik Sarkar(参考訳) 多くのサイバー物理システムでは、イメージングは重要だが費用がかかるか、感覚のモダリティの展開が困難である。 そのような例として、深層学習フレームワークが最先端の性能を実証した火炎画像による燃焼不安定の検出がある。 提案されたフレームワークは、ドメインの専門家がこれらのモデルを実際のシステムで使用して、望ましくないインシデントを防ぐために十分な信頼を得られるように、非常に信頼できる。 しかし、現在のエンジン燃焼器では、火炎画像は一般的な感知モダリティではない。 したがって、現在の道路ブロックは、高体積火炎画像の取得と処理に関してハードウェア側に存在する。 一方, 実燃焼器のデータ収集において, 音圧時系列はより実現可能なモダリティである。 音響時系列をセンシングモダリティとして利用するために,燃焼系における音響圧時系列からクロスモーダルな視覚特徴を再構築できる新しいクロスモーダルエンコーダ・デコーダアーキテクチャを提案する。 クロスモーダルな特徴の「蒸留」により,仮想的な視覚知覚モータリティを用いて検出精度を向上できることを示した。 クロスモーダルな再構築の利点を生かして、当社の枠組みは、発電・輸送産業を超えた分野において有用であることが証明できる。

In many cyber-physical systems, imaging can be an important but expensive or 'difficult to deploy' sensing modality. One such example is detecting combustion instability using flame images, where deep learning frameworks have demonstrated state-of-the-art performance. The proposed frameworks are also shown to be quite trustworthy such that domain experts can have sufficient confidence to use these models in real systems to prevent unwanted incidents. However, flame imaging is not a common sensing modality in engine combustors today. Therefore, the current roadblock exists on the hardware side regarding the acquisition and processing of high-volume flame images. On the other hand, the acoustic pressure time series is a more feasible modality for data collection in real combustors. To utilize acoustic time series as a sensing modality, we propose a novel cross-modal encoder-decoder architecture that can reconstruct cross-modal visual features from acoustic pressure time series in combustion systems. With the "distillation" of cross-modal features, the results demonstrate that the detection accuracy can be enhanced using the virtual visual sensing modality. By providing the benefit of cross-modal reconstruction, our framework can prove to be useful in different domains well beyond the power generation and transportation industries.
翻訳日:2021-10-06 14:08:14 公開日:2021-10-04
# トレースレス遺伝的プログラミングを用いた均等問題の解法

Solving even-parity problems using traceless genetic programming ( http://arxiv.org/abs/2110.02014v1 )

ライセンス: Link先を確認
Mihai Oltean(参考訳) 本稿では,tgp(traceless genetic programming)と呼ばれる遺伝的プログラミング(gp)の変種を提案する。 TGPは個人を構築する技術と個人を表現する技術を組み合わせたハイブリッド手法である。 TGPと他のGP技術の主な違いは、TGPが進化したコンピュータプログラムを明示的に記憶していないことである。 TGPと組み合わせて2つの遺伝子操作子(クロスオーバーと挿入)が使用される。 tgpは均等性問題に対するデジタル回路の進化に適用される。 数値実験により、TGPは数桁のオーダーで標準GPより優れていることが示された。

A genetic programming (GP) variant called traceless genetic programming (TGP) is proposed in this paper. TGP is a hybrid method combining a technique for building individuals and a technique for representing individuals. The main difference between TGP and other GP techniques is that TGP does not explicitly store the evolved computer programs. Two genetic operators are used in conjunction with TGP: crossover and insertion. TGP is applied for evolving digital circuits for the even-parity problem. Numerical experiments show that TGP outperforms standard GP with several orders of magnitude.
翻訳日:2021-10-06 14:05:37 公開日:2021-10-04
# VTAMIQ: 注意変調画像品質評価用変換器

VTAMIQ: Transformers for Attention Modulated Image Quality Assessment ( http://arxiv.org/abs/2110.01655v1 )

ライセンス: Link先を確認
Andrei Chubarau, James Clark(参考訳) 画像解析における自己注意とトランスフォーマーの大きな成功に続いて、画像品質評価(iqa)の文脈における注意機構の利用を調査し、注意変調画像品質のための視覚トランスフォーマ(vtamiq)を提案する。 提案手法は既存のIQAデータセット上での競合性や最先端性能を実現し,データベース間評価において従来の指標よりも大幅に優れていた。 ほとんどのパッチワイドIQAメソッドは各パッチを個別に扱うが、これは部分的にグローバル情報を破棄し、長距離通信をモデル化する能力を制限する。 我々は、パッチのシーケンスを単一のグローバル表現としてエンコードするトランスフォーマーを用いて、パッチ間の相互依存性を設計することで、この問題を完全に回避する。 まずはトランスフォーマー内での自己注意、次に差分変調ネットワーク内でのチャネルの注意、特にアーキテクチャ全体のより健全な機能を明らかにするために、様々な注意機構に依存しています。 分類とiqaタスクの両方の大規模事前トレーニングにより、vtamiqは目に見えない画像と歪みのセットにうまく一般化し、さらに視覚モデリングのためのトランスフォーマーベースのネットワークの強みを実証する。

Following the major successes of self-attention and Transformers for image analysis, we investigate the use of such attention mechanisms in the context of Image Quality Assessment (IQA) and propose a novel full-reference IQA method, Vision Transformer for Attention Modulated Image Quality (VTAMIQ). Our method achieves competitive or state-of-the-art performance on the existing IQA datasets and significantly outperforms previous metrics in cross-database evaluations. Most patch-wise IQA methods treat each patch independently; this partially discards global information and limits the ability to model long-distance interactions. We avoid this problem altogether by employing a transformer to encode a sequence of patches as a single global representation, which by design considers interdependencies between patches. We rely on various attention mechanisms -- first with self-attention within the Transformer, and second with channel attention within our difference modulation network -- specifically to reveal and enhance the more salient features throughout our architecture. With large-scale pre-training for both classification and IQA tasks, VTAMIQ generalizes well to unseen sets of images and distortions, further demonstrating the strength of transformer-based networks for vision modelling.
翻訳日:2021-10-06 14:04:21 公開日:2021-10-04
# 確率勾配降下のグローバル収束と安定性

Global Convergence and Stability of Stochastic Gradient Descent ( http://arxiv.org/abs/2110.01663v1 )

ライセンス: Link先を確認
Vivak Patel, Bowen Tian, Shushu Zhang(参考訳) 機械学習において、確率勾配降下(SGD)は、同じ複雑なノイズモデルを持つ高い非凸目標を用いてモデルを訓練するために広く展開される。 残念なことに、SGD理論は実問題の非凸性を捉えることができず、実際に存在する複雑なノイズモデルをほとんど完全に無視する制限的な仮定をしばしば行う。 この作業では、この欠点に対して実質的な進歩を遂げます。 まず、SGDのイテレートが世界中に定常点に収束するか、ほぼ任意の非凸性およびノイズモデルの下で分岐することを示す。 文献中の現在の仮定を一般化する非凸性および雑音モデルの結合挙動に関するもう少し制限的な仮定の下では、反復が分岐しても目的関数が分岐できないことを示す。 その結果,sgdはより広い範囲の確率的最適化問題に適用でき,大域収束挙動と安定性に自信を持つことができた。

In machine learning, stochastic gradient descent (SGD) is widely deployed to train models using highly non-convex objectives with equally complex noise models. Unfortunately, SGD theory often makes restrictive assumptions that fail to capture the non-convexity of real problems, and almost entirely ignore the complex noise models that exist in practice. In this work, we make substantial progress on this shortcoming. First, we establish that SGD's iterates will either globally converge to a stationary point or diverge under nearly arbitrary nonconvexity and noise models. Under a slightly more restrictive assumption on the joint behavior of the non-convexity and noise model that generalizes current assumptions in the literature, we show that the objective function cannot diverge, even if the iterates diverge. As a consequence of our results, SGD can be applied to a greater range of stochastic optimization problems with confidence about its global convergence behavior and stability.
翻訳日:2021-10-06 14:00:55 公開日:2021-10-04
# HYPPO:ハイパーパラメータ最適化のためのサロゲートベースのマルチレベル並列化ツール

HYPPO: A Surrogate-Based Multi-Level Parallelism Tool for Hyperparameter Optimization ( http://arxiv.org/abs/2110.01698v1 )

ライセンス: Link先を確認
Vincent Dumont, Casey Garner, Anuradha Trivedi, Chelsea Jones, Vidya Ganapati, Juliane Mueller, Talita Perciano, Mariam Kiran, and Marc Day(参考訳) 本稿では,様々なディープラーニング(DL)モデルのハイパーパラメータの自動チューニングを可能にする新しいソフトウェアHYPPOを提案する。 他のハイパーパラメータ最適化(HPO)法とは異なり、HYPPOは適応的な代理モデルを使用し、モデル予測の不確実性を直接考慮し、堅牢な予測を行う正確で信頼性の高いモデルを見つける。 非同期ネスト並列処理を用いることで、複雑なアーキテクチャのトレーニングと不確かさの定量化の計算負荷を大幅に軽減することができる。 HYPPOはPythonで実装されており、TensorFlowとPyTorchライブラリの両方で使用することができる。 時系列予測と画像分類問題に関する様々なソフトウェア特徴と,ct画像再構成における科学的応用について述べる。 最後に、(1)超パラメータ空間において最適な領域を見つけるために必要な評価回数を1桁減らすことができ、(2)そのようなhpoプロセスが完了するまでのスループットを2桁減らすことができることを示す。

We present a new software, HYPPO, that enables the automatic tuning of hyperparameters of various deep learning (DL) models. Unlike other hyperparameter optimization (HPO) methods, HYPPO uses adaptive surrogate models and directly accounts for uncertainty in model predictions to find accurate and reliable models that make robust predictions. Using asynchronous nested parallelism, we are able to significantly alleviate the computational burden of training complex architectures and quantifying the uncertainty. HYPPO is implemented in Python and can be used with both TensorFlow and PyTorch libraries. We demonstrate various software features on time-series prediction and image classification problems as well as a scientific application in computed tomography image reconstruction. Finally, we show that (1) we can reduce by an order of magnitude the number of evaluations necessary to find the most optimal region in the hyperparameter space and (2) we can reduce by two orders of magnitude the throughput for such HPO process to complete.
翻訳日:2021-10-06 14:00:40 公開日:2021-10-04
# ONNXで符号化されたハードウェア/ソフトウェア共同設計が可能な事前量子化ディープラーニングモデル

Pre-Quantized Deep Learning Models Codified in ONNX to Enable Hardware/Software Co-Design ( http://arxiv.org/abs/2110.01730v1 )

ライセンス: Link先を確認
Ulf Hanebutte, Andrew Baldwin, Senad Durakovic, Igor Filipovich, Chien-Chun (Joe) Chou, Damian Adamowicz, Derek Chickles, and David Hawkes(参考訳) 本稿では,ハードウェア固有のモデルコンパイル段階から,標準NNXフォーマットでの事前量子化深層学習モデル記述を通じて量子化過程を分離する手法を提案する。 量子化プロセスをモデルコンパイル段階から分離することで、独立した開発が可能になる。 この手法は、ハードウェア固有の操作を伝達し、ハードウェア/ソフトウェアの共同設計を可能にするONNXモデルにキー量子化パラメータを埋め込む。 詳細な例は、mlpとcnnベースのネットワークの両方に与えられ、単純な方法で他のネットワークに拡張することができる。

This paper presents a methodology to separate the quantization process from the hardware-specific model compilation stage via a pre-quantized deep learning model description in standard ONNX format. Separating the quantization process from the model compilation stage enables independent development. The methodology is expressive to convey hardware-specific operations and to embed key quantization parameters into a ONNX model which enables hardware/software co-design. Detailed examples are given for both MLP and CNN based networks, which can be extended to other networks in a straightforward fashion.
翻訳日:2021-10-06 14:00:23 公開日:2021-10-04
# パワースペクトルを超えたアストロメトリーレンズによる暗黒物質サブ構造の推定

Inferring dark matter substructure with astrometric lensing beyond the power spectrum ( http://arxiv.org/abs/2110.01620v1 )

ライセンス: Link先を確認
Siddharth Mishra-Sharma(参考訳) 天体の位置と動きを正確に測定するアストロメトリーは、我々の銀河の暗黒物質集団を特徴づける有望な道として登場した。 シミュレーションに基づく推論とニューラルネットワークアーキテクチャの最近の進歩を活かし、アストロメトリデータセットにおける大域的暗黒物質誘起重力レンズのシグネチャを探索する新しい手法を提案する。 提案手法は, 2点相関統計に基づく既存手法と比較して, 冷暗黒物質集団に対する感度を著しく向上させ, 測定ノイズによるスケーリングを良好に行い, 観測データを用いて暗黒物質を特徴付ける強力なツールとして機械学習を確立した。

Astrometry -- the precise measurement of positions and motions of celestial objects -- has emerged as a promising avenue for characterizing the dark matter population in our Galaxy. By leveraging recent advances in simulation-based inference and neural network architectures, we introduce a novel method to search for global dark matter-induced gravitational lensing signatures in astrometric datasets. Our method based on neural likelihood-ratio estimation shows significantly enhanced sensitivity to a cold dark matter population and more favorable scaling with measurement noise compared to existing approaches based on two-point correlation statistics, establishing machine learning as a powerful tool for characterizing dark matter using astrometric data.
翻訳日:2021-10-06 13:58:26 公開日:2021-10-04
# ラグランジアンアプローチによる交流最適潮流解の学習

Learning to Solve the AC Optimal Power Flow via a Lagrangian Approach ( http://arxiv.org/abs/2110.01653v1 )

ライセンス: Link先を確認
Ling Zhang, Baosen Zhang(参考訳) 深層ニューラルネットワークを用いて交流最適電力流(ACOPF)問題の解を予測することは、研究の活発な方向である。 しかし、ACOPFは非凸であるため、大半がグローバルな最適解を含む良いデータセットを構築することは困難である。 学習データに最適解を含むという課題を克服するため,ラグランジアンに基づくアプローチを提案する。 まず、ニューラルネットワークを用いてACOPF問題の双対変数を学習する。 次に,第2のニューラルネットワークを用いて,予測された双対変数から部分的ラグランジアンの解を予測する。 部分ラグランジアンはより優れた最適化ランドスケープを持つため、ニューラルネットワークからの予測された解をACOPF問題のウォームスタートとして使用する。 IEEE 22-bus, 39-bus, 118-busネットワークの標準および修正により, トレーニングデータが大半が最適でない場合であっても, グローバルな最適コストを得ることができることを示す。

Using deep neural networks to predict the solutions of AC optimal power flow (ACOPF) problems has been an active direction of research. However, because the ACOPF is nonconvex, it is difficult to construct a good data set that contains mostly globally optimal solutions. To overcome the challenge that the training data may contain suboptimal solutions, we propose a Lagrangian-based approach. First, we use a neural network to learn the dual variables of the ACOPF problem. Then we use a second neural network to predict solutions of the partial Lagrangian from the predicted dual variables. Since the partial Lagrangian has a much better optimization landscape, we use the predicted solutions from the neural network as a warm start for the ACOPF problem. Using standard and modified IEEE 22-bus, 39-bus, and 118-bus networks, we show that our approach is able to obtain the globally optimal cost even when the training data is mostly comprised of suboptimal solutions.
翻訳日:2021-10-06 13:58:14 公開日:2021-10-04
# マイクロドップラーレーダ計測によるジェスチャー識別のための多様体学習手法

A manifold learning approach for gesture identification from micro-Doppler radar measurements ( http://arxiv.org/abs/2110.01670v1 )

ライセンス: Link先を確認
Eric Mason, Hrushikesh Mhaskar, Adam Guo(参考訳) 最近の論文 (Neural Networks, {\bf 132} (2020), 253-268) では、その次元以外の何の知識も必要としない多様体学習のための単純で単純なカーネルベースの近似が紹介されている。 本稿では,このカーネルに基づく最小二乗最適化を用いて近似のポイントワイズ誤差を考察し,特に,学習データから外れた場合の誤差がデータ特性にどのように依存するかについて検討する。 この理論は抽象的局所化カーネルで示され、既知の多様体の未知の部分多様体上にあるデータに関する事前知識を利用することができる。 本研究では,異なる前処理方法,カーネル,多様体次元を用いたマイクロドップラーデータセットを用いて,提案手法の性能を実証する。 具体的には、上述の論文で導入されたガウスカーネルは、ディープニューラルネットワークにほぼ競合的な性能をもたらし、速度とメモリ要求を大幅に改善することを示した。 同様に、特徴空間をグラスマン多様体の部分多様体として扱うカーネルは、従来の手作りの特徴よりも優れている。 提案手法がドメイン知識に無依存であることを示すために,簡単なビデオデータセットで分類問題を検証した。

A recent paper (Neural Networks, {\bf 132} (2020), 253-268) introduces a straightforward and simple kernel based approximation for manifold learning that does not require the knowledge of anything about the manifold, except for its dimension. In this paper, we examine the pointwise error in approximation using least squares optimization based on this kernel, in particular, how the error depends upon the data characteristics and deteriorates as one goes away from the training data. The theory is presented with an abstract localized kernel, which can utilize any prior knowledge about the data being located on an unknown sub-manifold of a known manifold. We demonstrate the performance of our approach using a publicly available micro-Doppler data set investigating the use of different pre-processing measures, kernels, and manifold dimension. Specifically, it is shown that the Gaussian kernel introduced in the above mentioned paper leads to a near-competitive performance to deep neural networks, and offers significant improvements in speed and memory requirements. Similarly, a kernel based on treating the feature space as a submanifold of the Grassman manifold outperforms conventional hand-crafted features. To demonstrate the fact that our methods are agnostic to the domain knowledge, we examine the classification problem in a simple video data set.
翻訳日:2021-10-06 13:57:55 公開日:2021-10-04
# 並列遺伝的ベイズ分類器を用いた発作分類

Seizure Classification Using Parallel Genetic Naive Bayes Classifiers ( http://arxiv.org/abs/2110.01742v1 )

ライセンス: Link先を確認
Scot Davidson and Niamh McCallan and Kok Yew Ng and Pardis Biglarbeigi and Dewar Finlay and Boon Leong Lan and James McLaughlin(参考訳) てんかんは世界中で5000万人に影響を及ぼし、脳疾患の中でも最も多い。 発作の検出と分類は、状態を維持するための貴重なツールである。 自動検出アルゴリズムは正確な診断を可能にする。 本研究では,遺伝的アルゴリズムを用いた新しい並列分類器を用いた特徴量を用いた手法を提案する。 EEGのイクタル状態は1.8秒の窓に区分され、エポックは最初のIMFから13の異なる特徴に分解される。 すべての特徴は遺伝的アルゴリズム(Binary Grey Wolf Optimisation Option 1)に入力され、Naive Bayes分類器が使用される。 単純部分発作と複雑部分発作の組み合わせは、テストされた全てのモデルの最高精度を提供する。

Epilepsy affects 50 million people worldwide and is one of the most common serious brain disorders. Seizure detection and classification is a valuable tool for maintaining the condition. An automated detection algorithm will allow for accurate diagnosis. This study proposes a method using unique features with a novel parallel classifier trained using a genetic algorithm. Ictal states from the EEG are segmented into 1.8 s windows, where the epochs are then further decomposed into 13 different features from the first IMF. All of the features are fed into a genetic algorithm (Binary Grey Wolf Optimisation Option 1) with a Naive Bayes classifier. Combining the simple-partial and complex-partial seizures provides the highest accuracy of all the models tested.
翻訳日:2021-10-06 13:57:34 公開日:2021-10-04
# (参考訳) 文脈における構造化省略拡張

Structured abbreviation expansion in context ( http://arxiv.org/abs/2110.01140v1 )

ライセンス: CC BY 4.0
Kyle Gorman, Christo Kirov, Brian Roark, and Richard Sproat(参考訳) アドホックな略語は、短いメッセージを好む非公式なコミュニケーションチャネルでよく見られる。 本研究は, 短縮メッセージの正規化, 拡張バージョンを回復するために, 文脈内でこれらの略語を逆転させる作業を検討する。 この問題は、アドホックな略語が意図的であり、元の単語と実質的な違いがあるという点で、綴りの修正とは関係があるが、異なる。 アドホックな略語は生産的にオンザフライで生成されるので、辞書検索だけでは解決できない。 アドホックな略語からなる大規模でオープンソースのデータセットを生成します。 このデータは、短縮戦略の研究と、短縮拡大のための2つの強力なベースラインの開発に使用される。

Ad hoc abbreviations are commonly found in informal communication channels that favor shorter messages. We consider the task of reversing these abbreviations in context to recover normalized, expanded versions of abbreviated messages. The problem is related to, but distinct from, spelling correction, in that ad hoc abbreviations are intentional and may involve substantial differences from the original words. Ad hoc abbreviations are productively generated on-the-fly, so they cannot be resolved solely by dictionary lookup. We generate a large, open-source data set of ad hoc abbreviations. This data is used to study abbreviation strategies and to develop two strong baselines for abbreviation expansion
翻訳日:2021-10-06 01:29:17 公開日:2021-10-04
# (参考訳) 非商業的ピアツーピアライドシェアリングの効率性、公正性、安定性

Efficiency, Fairness, and Stability in Non-Commercial Peer-to-Peer Ridesharing ( http://arxiv.org/abs/2110.01152v1 )

ライセンス: CC BY 4.0
Hoon Oh, Yanhan Tang, Zong Zhang, Alexandre Jacquillat, Fei Fang(参考訳) 商業的ライドシェアリングとは異なり、非商業的ピアツーピア(p2p)ライドシェアリングは限定的な研究の対象となっている。 本稿は、P2Pライドシェアリングにおける中核的な問題である、ライダーとドライバーのマッチングに焦点を当てる。 我々は,P2Pライドシェアリングにおける利用者の嗜好を優先的に高め,公平性と安定性という新たな概念を導入する。 ユーザの好む出発時間,公平性,安定性など,ユーザ中心の要因を考慮した効率的なマッチングアルゴリズムを提案する。 その結果, 妥当かつ安定な解は妥当な計算時間で得られることが示唆され, システム全体の効率性に基づくベースライン結果の改善が期待できる。

Unlike commercial ridesharing, non-commercial peer-to-peer (P2P) ridesharing has been subject to limited research -- although it can promote viable solutions in non-urban communities. This paper focuses on the core problem in P2P ridesharing: the matching of riders and drivers. We elevate users' preferences as a first-order concern and introduce novel notions of fairness and stability in P2P ridesharing. We propose algorithms for efficient matching while considering user-centric factors, including users' preferred departure time, fairness, and stability. Results suggest that fair and stable solutions can be obtained in reasonable computational times and can improve baseline outcomes based on system-wide efficiency exclusively.
翻訳日:2021-10-06 01:16:19 公開日:2021-10-04
# (参考訳) 軽量NASにおける超ネットヒューリスティックスの解析

An Analysis of Super-Net Heuristics in Weight-Sharing NAS ( http://arxiv.org/abs/2110.01154v1 )

ライセンス: CC BY-SA 4.0
Kaicheng Yu, Ren\'e Ranftl, Mathieu Salzmann(参考訳) 重み共有は、コモディティハードウェア上でもneural architecture search(nas)を扱いやすくすることを約束している。 既存の手法は、共有重み付きバックボーンネットワーク、すなわちスーパーネットを設計し、訓練するための多様なヒューリスティックに依存している。 ヒューリスティックスは様々な手法で大きく異なり、慎重に研究されていないため、それがスーパーネットトレーニングや重み付けNASアルゴリズムにどの程度影響するかは定かではない。 本稿では,スーパーネットのトレーニングを検索アルゴリズムから分離し,14のトレーニングヒューリスティックを分離し,それらを3つのベンチマーク検索空間で評価する。 分析の結果,スーパーネットとスタンドアローンのパフォーマンスの相関性は,いくつかの一般的なヒューリスティックスが負の影響を与えることが判明した。 この知識を応用して,スーパーネットを適切にトレーニングした場合,単純なランダム検索は複雑なNASアルゴリズムと競合する性能を発揮することを示す。

Weight sharing promises to make neural architecture search (NAS) tractable even on commodity hardware. Existing methods in this space rely on a diverse set of heuristics to design and train the shared-weight backbone network, a.k.a. the super-net. Since heuristics substantially vary across different methods and have not been carefully studied, it is unclear to which extent they impact super-net training and hence the weight-sharing NAS algorithms. In this paper, we disentangle super-net training from the search algorithm, isolate 14 frequently-used training heuristics, and evaluate them over three benchmark search spaces. Our analysis uncovers that several commonly-used heuristics negatively impact the correlation between super-net and stand-alone performance, whereas simple, but often overlooked factors, such as proper hyper-parameter settings, are key to achieve strong performance. Equipped with this knowledge, we show that simple random search achieves competitive performance to complex state-of-the-art NAS algorithms when the super-net is properly trained.
翻訳日:2021-10-06 00:48:27 公開日:2021-10-04
# (参考訳) DESTRESS: 計算最適化と通信効率の最適化

DESTRESS: Computation-Optimal and Communication-Efficient Decentralized Nonconvex Finite-Sum Optimization ( http://arxiv.org/abs/2110.01165v1 )

ライセンス: CC BY 4.0
Boyue Li, Zhize Li, Yuejie Chi(参考訳) インターネット・オブ・シング、ネットワークセンシング、自律システム、フェデレーション学習といったマルチエージェント環境における新興アプリケーションは、計算と通信の両面で資源効率のよい有限サム最適化のための分散アルゴリズムを要求する。 本稿では,エージェントがネットワークトポロジー上で隣人とのみ通信することにより,局所損失関数の和を最小化するために協調的に作業する原型的設定を考える。 我々は,非凸有限サム最適化のための分散確率的再帰的勾配法(destress)と呼ばれる新しいアルゴリズムを開発した。 より詳細な理論的および数値的な比較は、DeSTRESSの資源効率が、幅広いパラメータ・レシエーションにおける事前の分散化アルゴリズムを改善することを裏付ける。 DESTRESSは、局所計算のためのミニバッチによる確率的再帰的勾配更新、解答間通信のための追加混合(複数のゴシップラウンド)による勾配追跡、ハイパーパラメータの慎重な選択、新しい分析フレームワークなど、いくつかの重要なアルゴリズム設計のアイデアを利用している。

Emerging applications in multi-agent environments such as internet-of-things, networked sensing, autonomous systems and federated learning, call for decentralized algorithms for finite-sum optimizations that are resource-efficient in terms of both computation and communication. In this paper, we consider the prototypical setting where the agents work collaboratively to minimize the sum of local loss functions by only communicating with their neighbors over a predetermined network topology. We develop a new algorithm, called DEcentralized STochastic REcurSive gradient methodS (DESTRESS) for nonconvex finite-sum optimization, which matches the optimal incremental first-order oracle (IFO) complexity of centralized algorithms for finding first-order stationary points, while maintaining communication efficiency. Detailed theoretical and numerical comparisons corroborate that the resource efficiencies of DESTRESS improve upon prior decentralized algorithms over a wide range of parameter regimes. DESTRESS leverages several key algorithm design ideas including stochastic recursive gradient updates with mini-batches for local computation, gradient tracking with extra mixing (i.e., multiple gossiping rounds) for per-iteration communication, together with careful choices of hyper-parameters and new analysis frameworks to provably achieve a desirable computation-communication trade-off.
翻訳日:2021-10-06 00:25:19 公開日:2021-10-04
# (参考訳) 信頼できるAI: 原則から実践へ

Trustworthy AI: From Principles to Practices ( http://arxiv.org/abs/2110.01167v1 )

ライセンス: CC BY 4.0
Bo Li, Peng Qi, Bo Liu, Shuai Di, Jingen Liu, Jiquan Pei, Jinfeng Yi, Bowen Zhou(参考訳) 高速開発人工知能(AI)技術により、現実世界に展開された様々な応用システムが人々の日常生活に影響を与えている。 しかし、現在のAIシステムの多くは、認識不能な攻撃に弱いことが判明し、未表現のグループに偏り、ユーザのプライバシ保護が欠如しているなど、すべてのAIシステムに対する社会の信頼が損なわれている。 このレビューでは、信頼できるAIシステムを構築するための包括的なガイドとして、AI実践者に提供したいと思っています。 まず、ロバスト性、一般化、説明可能性、透明性、再現性、公平性、プライバシー保護、人間価値との整合、説明責任など、ai信頼性の重要な側面に関する理論的枠組みを紹介する。 そして、業界におけるこれらの側面における主要なアプローチを調査します。 信頼に値するAIに対する現在の断片化されたアプローチを統合するために、私たちは、データ取得からモデル開発、開発とデプロイメント、最後に継続的監視とガバナンスまで、AIシステムのライフサイクル全体を考える体系的なアプローチを提案する。 このフレームワークでは、実践者や社会利害関係者(例えば研究者や規制当局)に具体的なアクションアイテムを提供し、AIの信頼性を向上させる。 最後に、信頼に値するAIシステムの開発における重要な機会と課題を特定し、信頼に値するAIシステムへのパラダイムシフトの必要性を特定します。

Fast developing artificial intelligence (AI) technology has enabled various applied systems deployed in the real world, impacting people's everyday lives. However, many current AI systems were found vulnerable to imperceptible attacks, biased against underrepresented groups, lacking in user privacy protection, etc., which not only degrades user experience but erodes the society's trust in all AI systems. In this review, we strive to provide AI practitioners a comprehensive guide towards building trustworthy AI systems. We first introduce the theoretical framework of important aspects of AI trustworthiness, including robustness, generalization, explainability, transparency, reproducibility, fairness, privacy preservation, alignment with human values, and accountability. We then survey leading approaches in these aspects in the industry. To unify the current fragmented approaches towards trustworthy AI, we propose a systematic approach that considers the entire lifecycle of AI systems, ranging from data acquisition to model development, to development and deployment, finally to continuous monitoring and governance. In this framework, we offer concrete action items to practitioners and societal stakeholders (e.g., researchers and regulators) to improve AI trustworthiness. Finally, we identify key opportunities and challenges in the future development of trustworthy AI systems, where we identify the need for paradigm shift towards comprehensive trustworthy AI systems.
翻訳日:2021-10-05 23:09:39 公開日:2021-10-04
# (参考訳) 非帰属グラフによる深い不正検出

Deep Fraud Detection on Non-attributed Graph ( http://arxiv.org/abs/2110.01171v1 )

ライセンス: CC BY 4.0
Chen Wang, Yingtong Dou, Min Chen, Jia Chen, Zhiwei Liu, Philip S. Yu(参考訳) 不正検出問題は通常、グラフ上の機械学習問題として定式化される。 近年,グラフニューラルネットワーク(GNN)の不正検出性能が向上している。 以前のほとんどの方法の成功は、リッチノード機能と高忠実度ラベルに大きく依存している。 しかし、ラベル付きデータは大規模な産業問題、特に新しいパターンが時々出現する不正検出には不十分である。 一方、ノード機能はプライバシーやその他の制約のために制限されている。 本稿では,二つの改良点を提案する。 1)非分散不正グラフ上のGNNを容易にするための構造情報を取得するグラフ変換法を設計する。 2) コントラスト学習によるラベルなしデータを活用するための新しいグラフ事前学習戦略を提案する。 大規模産業データセットにおける実験により,提案手法の有効性が実証された。

Fraud detection problems are usually formulated as a machine learning problem on a graph. Recently, Graph Neural Networks (GNNs) have shown solid performance on fraud detection. The successes of most previous methods heavily rely on rich node features and high-fidelity labels. However, labeled data is scarce in large-scale industrial problems, especially for fraud detection where new patterns emerge from time to time. Meanwhile, node features are also limited due to privacy and other constraints. In this paper, two improvements are proposed: 1) We design a graph transformation method capturing the structural information to facilitate GNNs on non-attributed fraud graphs. 2) We propose a novel graph pre-training strategy to leverage more unlabeled data via contrastive learning. Experiments on a large-scale industrial dataset demonstrate the effectiveness of the proposed framework for fraud detection.
翻訳日:2021-10-05 23:08:30 公開日:2021-10-04
# (参考訳) ニューラルネットワークにおける最大及び衝突ニューロン

Max and Coincidence Neurons in Neural Networks ( http://arxiv.org/abs/2110.01218v1 )

ライセンス: CC BY 4.0
Albert Lee, Kang L. Wang(参考訳) ネットワーク設計は機械学習の中心的なトピックである。 手作業による探索と自動ニューラルネットワーク検索を通じて、効率的なアーキテクチャ構築に多くの努力が注がれている。 しかし、今日のアーキテクチャは、ニューロンの多様性と特定の処理機能を持つニューロンの存在をまだ考慮していない。 本研究では,ニューラル・アーキテクチャ・サーチを用いて,最大および一致ニューロンのモデルを含むネットワークを最適化し,最適化されたネットワークの構造,動作,ニューロンを分析し,信号処理再ネットを構築する。 開発されたネットワークは、精度が平均2%向上し、さまざまなデータセットにわたるネットワークサイズが25%向上し、コンパクトで効率的なネットワークを作成する上での神経機能の重要性が示される。

Network design has been a central topic in machine learning. Large amounts of effort have been devoted towards creating efficient architectures through manual exploration as well as automated neural architecture search. However, todays architectures have yet to consider the diversity of neurons and the existence of neurons with specific processing functions. In this work, we optimize networks containing models of the max and coincidence neurons using neural architecture search, and analyze the structure, operations, and neurons of optimized networks to develop a signal-processing ResNet. The developed network achieves an average of 2% improvement in accuracy and a 25% improvement in network size across a variety of datasets, demonstrating the importance of neuronal functions in creating compact, efficient networks.
翻訳日:2021-10-05 22:59:52 公開日:2021-10-04
# (参考訳) 探索的RLとフラグメントに基づく分子生成によるヒット・リード発見

Hit and Lead Discovery with Explorative RL and Fragment-based Molecule Generation ( http://arxiv.org/abs/2110.01219v1 )

ライセンス: CC BY 4.0
Soojung Yang and Doyeong Hwang and Seul Lee and Seongok Ryu and Sung Ju Hwang(参考訳) 近年, 強化学習(RL)を用いて, 望ましい性質を持つ分子を生成することが, 医薬品設計の有望な戦略として注目されている。 分子ドッキングプログラム(タンパク質-小分子結合親和性を推定する物理シミュレーション)は、治療電位の直接的なプロキシであるため、RLにとって理想的な報酬スコアリング機能である。 しかし、この課題には2つの課題が存在する。 第一に、モデルはしばしば化学的に現実的で薬理学的に許容される分子を生成できない。 第二に、ドッキングスコアの最適化は、分子構造に関して多くの局所最適かつより滑らかな表面を含む難しい探索問題である。 これらの課題に対処するために,ドッキングスコアが大きい薬理学的に許容される分子を生成する新しいRLフレームワークを提案する。 創薬経験リプレイ(freed: fragment-based generative rl with explorative experience replay for drug design) - 生成した分子をリアルで適格な化学空間に制限し、フラグメントベースの生成法と新しいエラー優先体験リプレイ(per)を結合して薬物発見の空間を効果的に探索する。 また,本モデルがデノボと足場に基づくスキームの両方で良好に動作することを示す。 本モデルでは, 既存の手法と比較して高い品質の分子を生成でき, 生成した分子のドッキングスコアの観点から, 3つの目標のうち2つにおいて最先端の性能を実現する。 さらに,提案手法である予測誤差PER(FREED(PE))がモデル性能を大幅に向上することを示す。

Recently, utilizing reinforcement learning (RL) to generate molecules with desired properties has been highlighted as a promising strategy for drug design. A molecular docking program - a physical simulation that estimates protein-small molecule binding affinity - can be an ideal reward scoring function for RL, as it is a straightforward proxy of the therapeutic potential. Still, two imminent challenges exist for this task. First, the models often fail to generate chemically realistic and pharmacochemically acceptable molecules. Second, the docking score optimization is a difficult exploration problem that involves many local optima and less smooth surfaces with respect to molecular structure. To tackle these challenges, we propose a novel RL framework that generates pharmacochemically acceptable molecules with large docking scores. Our method - Fragment-based generative RL with Explorative Experience replay for Drug design (FREED) - constrains the generated molecules to a realistic and qualified chemical space and effectively explores the space to find drugs by coupling our fragment-based generation method and a novel error-prioritized experience replay (PER). We also show that our model performs well on both de novo and scaffold-based schemes. Our model produces molecules of higher quality compared to existing methods while achieving state-of-the-art performance on two of three targets in terms of the docking scores of the generated molecules. We further show with ablation studies that our method, predictive error-PER (FREED(PE)), significantly improves the model performance.
翻訳日:2021-10-05 22:43:53 公開日:2021-10-04
# (参考訳) DenDrift:ホストプロファイリングのためのドリフト認識アルゴリズム

DenDrift: A Drift-Aware Algorithm for Host Profiling ( http://arxiv.org/abs/2110.01221v1 )

ライセンス: CC BY 4.0
Ali Sedaghatbaf, Sima Sinaei, Perttu Ranta-aho, Marko Koskinen(参考訳) 不正行為の検出と対応は、セキュリティ監視において不可欠である。 このタスクを難しくしているのは、監視するホストとプロセスの数とさまざまなカテゴリです。 これらに、各カテゴリの正常な振る舞いの正確な定義の欠如を追加するべきである。 ストリームクラスタリングアルゴリズムを用いたホストプロファイリングは、ホストの振る舞いを分析し、それらを分類し、非典型的なものを識別する効果的な手段である。 しかし、予期せぬ行動データの変化(すなわち概念ドリフト)によって、得られたプロファイルは信頼できない。 DenStreamはよく知られたストリームクラスタリングアルゴリズムで、ホストプロファイリングに効果的に使用できる。 このアルゴリズムは、現実世界のクラスタリングアプリケーションで広く使われている非パラメトリックアルゴリズムであるDBSCANの拡張である。 最近の研究では、DenStreamはコンセプトドリフトに対して堅牢ではないことが示されている。 本稿では,DenStreamに基づくドリフト対応ホストプロファイリングアルゴリズムとしてDenDriftを提案する。 DenDrift は次元減少のための非負行列分解とドリフト検出のための Page-Hinckley 試験に依存している。 我々は, 合成データと産業データの両方について実験を行い, 突発的, 漸進的および漸進的ドリフトに対するデンドリフトのロバスト性を確認した。

Detecting and reacting to unauthorized actions is an essential task in security monitoring. What make this task challenging are the large number and various categories of hosts and processes to monitor. To these we should add the lack of an exact definition of normal behavior for each category. Host profiling using stream clustering algorithms is an effective means of analyzing hosts' behaviors, categorizing them, and identifying atypical ones. However, unforeseen changes in behavioral data (i.e. concept drift) make the obtained profiles unreliable. DenStream is a well-known stream clustering algorithm, which can be effectively used for host profiling. This algorithm is an incremental extension of DBSCAN which is a non-parametric algorithm widely used in real-world clustering applications. Recent experimental studies indicate that DenStream is not robust against concept drift. In this paper, we present DenDrift as a drift-aware host profiling algorithm based on DenStream. DenDrift relies on non-negative matrix factorization for dimensionality reduction and Page-Hinckley test for drift detection. We have done experiments on both synthetic and industrial datasets and the results affirm the robustness of DenDrift against abrupt, gradual and incremental drifts.
翻訳日:2021-10-05 22:23:38 公開日:2021-10-04
# (参考訳) 逆学習に基づくAelf制御チベット-チン語語彙アライメント法

A Aelf-supervised Tibetan-chinese Vocabulary Alignment Method Based On Adversarial Learning ( http://arxiv.org/abs/2110.01258v1 )

ライセンス: CC BY 4.0
Enshuai Hou and Jie zhu(参考訳) チベット語は低資源言語である。 チベット語と中国語の並列コーパスの不足を緩和するために,2つの単言語コーパスと少数の種辞書を用いて,種辞書と自己教師付き副学習法とを組込み空間内の単語集合の類似度計算によって学習し,チベット語と中国語の単言語データアライメントのみを用いた自己教師付き副学習法を前進させる。 実験結果は以下の通りである。 第1に,チベット語の音節と漢字の意味的相関が弱いこと,第2に,単語の精度が66.5(チベット語 - 中国語)と74.8(チベット語 - チベット語)と予測される単語の精度が66.5(チベット語 - 中国語 - チベット語)で予測される半教師方式のシード辞書が,両言語方向の自己監督法の改善に寄与した。

Tibetan is a low-resource language. In order to alleviate the shortage of parallel corpus between Tibetan and Chinese, this paper uses two monolingual corpora and a small number of seed dictionaries to learn the semi-supervised method with seed dictionaries and self-supervised adversarial training method through the similarity calculation of word clusters in different embedded spaces and puts forward an improved self-supervised adversarial learning method of Tibetan and Chinese monolingual data alignment only. The experimental results are as follows. First, the experimental results of Tibetan syllables Chinese characters are not good, which reflects the weak semantic correlation between Tibetan syllables and Chinese characters; second, the seed dictionary of semi-supervised method made before 10 predicted word accuracy of 66.5 (Tibetan - Chinese) and 74.8 (Chinese - Tibetan) results, to improve the self-supervision methods in both language directions have reached 53.5 accuracy.
翻訳日:2021-10-05 22:08:39 公開日:2021-10-04
# (参考訳) グラフベースのディープラーニングモデルを大規模ネットワークに拡張

Scaling Graph-based Deep Learning models to larger networks ( http://arxiv.org/abs/2110.01261v1 )

ライセンス: CC BY 4.0
Miquel Ferriol-Galm\'es, Jos\'e Su\'arez-Varela, Krzysztof Rusek, Pere Barlet-Ros, Albert Cabellos-Aparicio(参考訳) Graph Neural Networks (GNN)は、ネットワーク制御と管理のために商用製品に統合される可能性を示している。 GNNを使った初期の研究は、トポロジ、ルーティング構成、ネットワーク内の一連のノードに沿って流れるトラフィックなど、基本的にグラフとして表される異なるネットワーク特性から学習する前例のない能力を示した。 機械学習(ML)に基づく以前のソリューションとは対照的に、GNNはトレーニングフェーズ中に見えない他のネットワークでも正確な予測を生成することができる。 現在、GNNは機械学習分野においてホットなトピックであり、多くの分野(化学、物理学、ソーシャルネットワークなど)でそのポテンシャルを活用するための大きな努力を目の当たりにしています。 この文脈では、グラフニューラルネットワークの課題2021は、ネットワークに対する既存のGNNベースのソリューションの実践的な制限をもたらしている。 本稿では,リンク容量の増大やリンクトラフィックの集約など,大規模ネットワークに効果的にスケール可能なGNNベースのソリューションを提案することにより,スケーラビリティの問題に対処する。

Graph Neural Networks (GNN) have shown a strong potential to be integrated into commercial products for network control and management. Early works using GNN have demonstrated an unprecedented capability to learn from different network characteristics that are fundamentally represented as graphs, such as the topology, the routing configuration, or the traffic that flows along a series of nodes in the network. In contrast to previous solutions based on Machine Learning (ML), GNN enables to produce accurate predictions even in other networks unseen during the training phase. Nowadays, GNN is a hot topic in the Machine Learning field and, as such, we are witnessing great efforts to leverage its potential in many different fields (e.g., chemistry, physics, social networks). In this context, the Graph Neural Networking challenge 2021 brings a practical limitation of existing GNN-based solutions for networking: the lack of generalization to larger networks. This paper approaches the scalability problem by presenting a GNN-based solution that can effectively scale to larger networks including higher link capacities and aggregated traffic on links.
翻訳日:2021-10-05 22:00:49 公開日:2021-10-04
# (参考訳) 協調強化学習タスクのための行動条件ポリシー

Behaviour-conditioned policies for cooperative reinforcement learning tasks ( http://arxiv.org/abs/2110.01266v1 )

ライセンス: CC BY 4.0
Antti Keurulainen (1 and 3), Isak Westerlund (3), Ariel Kwiatkowski (3), Samuel Kaski (1 and 2) and Alexander Ilin (1) ((1) Helsinki Institute for Information Technology HIIT, Department of Computer Science, Aalto University, (2) Department of Computer Science, University of Manchester, (3) Bitville Oy, Espoo, Finland)(参考訳) AIシステム間の協力、そしてAIシステムと人間間の協力はますます重要になりつつある。 現実世界の様々なタスクにおいて、エージェントは未知のパートナーエージェントタイプと協力する必要がある。 これにより、協力作業中のパートナーエージェントの行動を評価し、協力を支援するための独自のポリシーを調整する必要がある。 深層強化学習モデルは必要な機能を提供するために訓練することができるが、サンプルの非効率性と遅い学習に苦しむことが知られている。 しかし、進行中のタスク中にパートナーエージェントの動作に適応するには、パートナーエージェントのタイプを素早く評価する能力が必要である。 本稿では,行動パターンの異なるエージェントの集団を,行動の真実データとともに合成的に生成し,このデータをメタラーナーの訓練に用いる方法を提案する。 さらに,生成されたデータを効率的に利用し,メタラーニング能力を得るエージェントアーキテクチャを提案する。 エージェントがそのようなメタリアナーを備えている場合、未知のパートナーエージェントタイプとの連携に新しい状況で迅速に対応することができる。 この手法は、例えばセルフプレイによって生じる出現する振る舞いからメタトレーニングのためのタスク分布を自動生成するために使用することができる。

The cooperation among AI systems, and between AI systems and humans is becoming increasingly important. In various real-world tasks, an agent needs to cooperate with unknown partner agent types. This requires the agent to assess the behaviour of the partner agent during a cooperative task and to adjust its own policy to support the cooperation. Deep reinforcement learning models can be trained to deliver the required functionality but are known to suffer from sample inefficiency and slow learning. However, adapting to a partner agent behaviour during the ongoing task requires ability to assess the partner agent type quickly. We suggest a method, where we synthetically produce populations of agents with different behavioural patterns together with ground truth data of their behaviour, and use this data for training a meta-learner. We additionally suggest an agent architecture, which can efficiently use the generated data and gain the meta-learning capability. When an agent is equipped with such a meta-learner, it is capable of quickly adapting to cooperation with unknown partner agent types in new situations. This method can be used to automatically form a task distribution for meta-training from emerging behaviours that arise, for example, through self-play.
翻訳日:2021-10-05 21:48:30 公開日:2021-10-04
# (参考訳) spar.txt - 規制テキストに対する安価で浅いパースアプローチ

SPaR.txt, a cheap Shallow Parsing approach for Regulatory texts ( http://arxiv.org/abs/2110.01295v1 )

ライセンス: CC BY 4.0
Ruben Kruiper, Ioannis Konstas, Alasdair Gray, Farhad Sadeghineko, Richard Watson and Bimal Kumar(参考訳) ACC (Automated Compliance Checking) システムは、一連のルールに規則を意味的に解析することを目的としている。 しかし、意味解析は困難であることが知られ、大量のトレーニングデータを必要とする。 このようなトレーニングデータの作成の複雑さは、浅いパースや限定されたルールのサブセットの抽出など、小さなサブタスクに焦点を当てた研究につながった。 本研究では,ACCの辞書を学習するために,比較的安価に学習データを作成できる浅層解析タスクを提案する。 私たちは200文の小さなドメイン固有データセットspar.txtをアノテーションし、テストセットで79,93 f1-scoreを達成するシーケンスタガーをトレーニングします。 次に,本モデルが構築規則文書の集合において最も定義された用語 (89,84%) を識別し,連続的かつ不連続な多語表現 (MWE) が妥当な精度 (70,3%) で発見されることを示す。

Automated Compliance Checking (ACC) systems aim to semantically parse building regulations to a set of rules. However, semantic parsing is known to be hard and requires large amounts of training data. The complexity of creating such training data has led to research that focuses on small sub-tasks, such as shallow parsing or the extraction of a limited subset of rules. This study introduces a shallow parsing task for which training data is relatively cheap to create, with the aim of learning a lexicon for ACC. We annotate a small domain-specific dataset of 200 sentences, SPaR.txt, and train a sequence tagger that achieves 79,93 F1-score on the test set. We then show through manual evaluation that the model identifies most (89,84%) defined terms in a set of building regulation documents, and that both contiguous and discontiguous Multi-Word Expressions (MWE) are discovered with reasonable accuracy (70,3%).
翻訳日:2021-10-05 21:39:28 公開日:2021-10-04
# (参考訳) 集合的eXplainable AI:共有価値を用いたマルチエージェント強化学習における協調戦略とエージェント貢献の解説

Collective eXplainable AI: Explaining Cooperative Strategies and Agent Contribution in Multiagent Reinforcement Learning with Shapley Values ( http://arxiv.org/abs/2110.01307v1 )

ライセンス: CC BY 4.0
Alexandre Heuillet, Fabien Couthouis and Natalia D\'iaz-Rodr\'iguez(参考訳) 説明可能な人工知能(XAI)はアプリケーション領域を拡大しつつあるが、深層強化学習(RL)をより理解しやすいものにするためにはほとんど適用されていない。 RLがユビキタスになり、批判的、一般の用途に使用されるようになると、より理解し、解釈しやすい手法を開発することが不可欠である。 本研究は,機械学習アルゴリズムによる意思決定の背後にある理性を説明するゲーム理論であるShapley値を用いて,マルチエージェントRLにおける協調戦略を説明する新しい手法を提案する。 この手法の一般的な前提を2つの協調中心型多エージェント環境環境でテストすることにより、シャプリーの値は協調多エージェントrlコンテキストにおけるプレイヤーの貢献を評価するための関連する方法であると主張する。 この手法のオーバーヘッドを緩和するために、モンテカルロサンプリングを用いてShapley値を近似する。 マルチエージェント粒子および逐次社会ジレンマ実験の結果,シャプリー値が各エージェントの寄与度を推定することに成功した。 これらの結果は、経済学(非差別的な意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定など)のゲームを超えた意味を持つ可能性がある。 また、Shapleyの値はモデルに関する一般的な説明しか与えず、単一の実行、エピソードの説明やエージェントによる正確なアクションの正当化はできない。 今後の作業は、これらの重要な側面に取り組むことに集中すべきである。

While Explainable Artificial Intelligence (XAI) is increasingly expanding more areas of application, little has been applied to make deep Reinforcement Learning (RL) more comprehensible. As RL becomes ubiquitous and used in critical and general public applications, it is essential to develop methods that make it better understood and more interpretable. This study proposes a novel approach to explain cooperative strategies in multiagent RL using Shapley values, a game theory concept used in XAI that successfully explains the rationale behind decisions taken by Machine Learning algorithms. Through testing common assumptions of this technique in two cooperation-centered socially challenging multi-agent environments environments, this article argues that Shapley values are a pertinent way to evaluate the contribution of players in a cooperative multi-agent RL context. To palliate the high overhead of this method, Shapley values are approximated using Monte Carlo sampling. Experimental results on Multiagent Particle and Sequential Social Dilemmas show that Shapley values succeed at estimating the contribution of each agent. These results could have implications that go beyond games in economics, (e.g., for non-discriminatory decision making, ethical and responsible AI-derived decisions or policy making under fairness constraints). They also expose how Shapley values only give general explanations about a model and cannot explain a single run, episode nor justify precise actions taken by agents. Future work should focus on addressing these critical aspects.
翻訳日:2021-10-05 21:19:31 公開日:2021-10-04
# (参考訳) エージェントを観察して支援する学習

Learning to Assist Agents by Observing Them ( http://arxiv.org/abs/2110.01311v1 )

ライセンス: CC BY 4.0
Antti Keurulainen (1 and 3), Isak Westerlund (3), Samuel Kaski (1 and 2), and Alexander Ilin (1) ((1) Helsinki Institute for Information Technology HIIT, Department of Computer Science, Aalto University, (2) Department of Computer Science, University of Manchester, (3) Bitville Oy, Espoo, Finland)(参考訳) aiエージェントが人間のような他のエージェントを助ける能力は重要で挑戦的な目標であり、補助エージェントが行動について判断し、支援エージェントの目標を推測する必要がある。 強化学習による訓練は、通常、大量のオンライントレーニングを必要とするが、これは困難で費用がかかる。 一方で、補助エージェントの動作に関するオフラインデータは利用可能かもしれないが、オフライン強化学習のような手法で活用するのは簡単ではない。 提案手法では,まずオフラインデータを用いて行動の表現を事前学習し,その後,補助方針を学習するために少量の対話データしか必要としない手法を提案する。 我々は,補助エージェントが補助エージェントの環境を操作できるグリッドワールドにおける設定を検証し,補助エージェントの性能が大幅に向上する3つのシナリオを紹介した。

The ability of an AI agent to assist other agents, such as humans, is an important and challenging goal, which requires the assisting agent to reason about the behavior and infer the goals of the assisted agent. Training such an ability by using reinforcement learning usually requires large amounts of online training, which is difficult and costly. On the other hand, offline data about the behavior of the assisted agent might be available, but is non-trivial to take advantage of by methods such as offline reinforcement learning. We introduce methods where the capability to create a representation of the behavior is first pre-trained with offline data, after which only a small amount of interaction data is needed to learn an assisting policy. We test the setting in a gridworld where the helper agent has the capability to manipulate the environment of the assisted artificial agents, and introduce three different scenarios where the assistance considerably improves the performance of the assisted agents.
翻訳日:2021-10-05 20:54:44 公開日:2021-10-04
# (参考訳) 科学データ保護のための総合的基盤を目指して

Towards General-purpose Infrastructure for Protecting Scientific Data Under Study ( http://arxiv.org/abs/2110.01315v1 )

ライセンス: CC0 1.0
Andrew Trask, Kritika Prakash(参考訳) 科学的手法は、クレームをサポートするために多くのサンプルを必要とするため、プライバシーにとって重要な課題である。 サンプルが商業的に価値があり、プライバシーに敏感な場合、その所有者は科学的研究のためにサンプルを公開しない強い理由がある。 プライバシー技術は、この緊張を軽減するために、研究対象のサンプルを二次目的に使用する能力に制限を加える。 最近の研究は、これらのテクニックをデータ保護のためのエンドツーエンドシステムに組み入れ始めている。 そこで本研究では,インフラが自動的にプライバシーリークを禁止している間に,親しみやすいツールを使ってプライベートデータを実験できるような,最初の組み合わせを組み立てる。 我々はこの理論システムを、pytorchフレームワークを使用したsyft privacy platformのプロトタイプでサポートする。

The scientific method presents a key challenge to privacy because it requires many samples to support a claim. When samples are commercially valuable or privacy-sensitive enough, their owners have strong reasons to avoid releasing them for scientific study. Privacy techniques seek to mitigate this tension by enforcing limits on one's ability to use studied samples for secondary purposes. Recent work has begun combining these techniques into end-to-end systems for protecting data. In this work, we assemble the first such combination which is sufficient for a privacy-layman to use familiar tools to experiment over private data while the infrastructure automatically prohibits privacy leakage. We support this theoretical system with a prototype within the Syft privacy platform using the PyTorch framework.
翻訳日:2021-10-05 20:44:23 公開日:2021-10-04
# (参考訳) ベイズネットワークの説明で何が理解できるか?

What is understandable in Bayesian network explanations? ( http://arxiv.org/abs/2110.01322v1 )

ライセンス: CC BY 4.0
Raphaela Butz, Ren\'ee Schulz, Arjen Hommersom, Marko van Eekelen(参考訳) 例えば、ベイズネットワークからの予測を医師に説明するのは簡単ではない。 ベイズネットワーク推論の様々な説明法が文献に現れ、基礎となる推論の異なる側面に焦点を当てている。 技術的な研究は数多く行われてきたが、人間がこれらの説明を実際にどのように理解しているかは、ほとんど分かっていない。 本稿では, 被験者グループに説明の解釈を依頼し, 調査を通じて4つの異なる説明手法を比較した。

Explaining predictions from Bayesian networks, for example to physicians, is non-trivial. Various explanation methods for Bayesian network inference have appeared in literature, focusing on different aspects of the underlying reasoning. While there has been a lot of technical research, there is very little known about how well humans actually understand these explanations. In this paper, we present ongoing research in which four different explanation approaches were compared through a survey by asking a group of human participants to interpret the explanations.
翻訳日:2021-10-05 20:27:40 公開日:2021-10-04
# (参考訳) ACDC: オンラインの教師なしクロスドメイン適応

ACDC: Online Unsupervised Cross-Domain Adaptation ( http://arxiv.org/abs/2110.01326v1 )

ライセンス: CC BY 4.0
Marcus de Carvalho, Mahardhika Pratama, Jie Zhang, Edward Yapp(参考訳) 我々は、異なる特徴空間を持つ独立だが関連のある2つのデータストリーム(完全なラベル付きソースストリームとラベルなしのターゲットストリーム)が一緒に学習されるオンライン非教師なしのクロスドメイン適応の問題を考える。 共変量シフト、非同期概念ドリフト、データスループットの対比といったユニークな特徴と課題が発生する。 ACDCは、複数のデータストリームを、これらの欠陥に反応する完全な自己進化型ニューラルネットワーク構造で処理する、対向的で教師なしのドメイン適応フレームワークである。 ACDCは3つのモジュールを単一のモデルにカプセル化している。特徴を抽出する自動エンコーダ、ドメイン変換を実行する対向モジュール、ソースストリームを学習してターゲットストリームを予測する推定器。 ACDCは柔軟で拡張可能なフレームワークであり、ハイパーパラメータのチューニング性はほとんどない。 先行試験-then-trainプロトコルによる実験では,ベースライン法よりも目標精度が向上し,場合によっては10%以上向上した。

We consider the problem of online unsupervised cross-domain adaptation, where two independent but related data streams with different feature spaces -- a fully labeled source stream and an unlabeled target stream -- are learned together. Unique characteristics and challenges such as covariate shift, asynchronous concept drifts, and contrasting data throughput arises. We propose ACDC, an adversarial unsupervised domain adaptation framework that handles multiple data streams with a complete self-evolving neural network structure that reacts to these defiances. ACDC encapsulates three modules into a single model: A denoising autoencoder that extracts features, an adversarial module that performs domain conversion, and an estimator that learns the source stream and predicts the target stream. ACDC is a flexible and expandable framework with little hyper-parameter tunability. Our experimental results under the prequential test-then-train protocol indicate an improvement in target accuracy over the baseline methods, achieving more than a 10\% increase in some cases.
翻訳日:2021-10-05 20:23:24 公開日:2021-10-04
# (参考訳) InfiniteForm:フィットネスアプリケーションのための合成最小限のバイアスデータセット

InfiniteForm: A synthetic, minimal bias dataset for fitness applications ( http://arxiv.org/abs/2110.01330v1 )

ライセンス: CC BY 4.0
Andrew Weitz, Lina Colucci, Sidney Primas, Brinnae Bent(参考訳) リモートフィットネスの人気が高まり、人間のポーズを追跡する高精度なコンピュータビジョンモデルへの需要が高まっている。 しかし、最良の方法は依然として多くの現実世界のフィットネスシナリオで失敗し、現在のデータセットと現実世界のフィットネスデータの間にドメインのギャップがあることを示唆している。 さまざまなフィットネスポーズ(15のカテゴリ)を持つ60k画像のオープンソース合成データセットであるfiniteformと、シングル・パーソン・シーンとマルチパーソン・シーンの両方、照明、カメラアングル、オクルージョンのリアルなバリエーションを作成しました。 合成データセットとして、infiniteformは体形と皮膚のトーンのバイアスを最小限にし、2dキーポイントのような標準的なアノテーションや、人間が奥行きや咬合のように生成しにくい、あるいは不可能である、ピクセル完全ラベルを提供する。 さらに,運動カテゴリーから多種多様な合成ポーズを作成するための新しい生成手順を提案する。 この生成プロセスは、堅牢なコンピュータビジョンモデルをトレーニングするためにポーズの多様性が必要なアプリケーションに拡張することができる。

The growing popularity of remote fitness has increased the demand for highly accurate computer vision models that track human poses. However, the best methods still fail in many real-world fitness scenarios, suggesting that there is a domain gap between current datasets and real-world fitness data. To enable the field to address fitness-specific vision problems, we created InfiniteForm, an open-source synthetic dataset of 60k images with diverse fitness poses (15 categories), both single- and multi-person scenes, and realistic variation in lighting, camera angles, and occlusions. As a synthetic dataset, InfiniteForm offers minimal bias in body shape and skin tone, and provides pixel-perfect labels for standard annotations like 2D keypoints, as well as those that are difficult or impossible for humans to produce like depth and occlusion. In addition, we introduce a novel generative procedure for creating diverse synthetic poses from predefined exercise categories. This generative process can be extended to any application where pose diversity is needed to train robust computer vision models.
翻訳日:2021-10-05 20:03:55 公開日:2021-10-04
# (参考訳) blindness (countable かつ uncountable, 複数形 blindnesss)

Blindness (Diabetic Retinopathy) Severity Scale Detection ( http://arxiv.org/abs/2110.01333v1 )

ライセンス: CC0 1.0
Ramya Bygari, Rachita Naik, Uday Kumar P(参考訳) 糖尿病網膜症(英: Diabetic retinopathy, DR)は、糖尿病の重篤な合併症である。 DRのタイムリーな診断と治療は、視力の喪失を避けるために重要である。 手動診断は時間がかかり、エラーが発生しやすい。 本稿では,網膜基底画像の自動スクリーニングのための新しい深層学習手法を提案し,その重大度に基づいてDRを検出し分類する。 この方法は、ディープニューラルネットワークのデュアルパス構成を使用して目的を達成する。 最初のステップでは、修正されたUNet++ベースの網膜血管のセグメンテーションを使用して、出血、綿毛の斑点、DRステージを特定するのに不可欠である排出物などの要素を強調する基礎画像を生成する。 その後、2つの畳み込みニューラルネットワーク(CNN)分類器は、それぞれ原画像と新たに作成された基礎画像を入力として取り、0から4のスケールでDRの重症度を特定する。 これら2つのスコアは、最後のDRステージを予測するために、浅いニューラルネットワーク分類器(ANN)に渡される。 トレーニングと評価には、パブリックデータセットSTARE、DRIVE、CHASE DB1、APTOSが使用される。 本手法は94.80%の精度と準重み付きカッパ(QWK)スコア0.9254を達成し,多くの最先端手法より優れる。

Diabetic retinopathy (DR) is a severe complication of diabetes that can cause permanent blindness. Timely diagnosis and treatment of DR are critical to avoid total loss of vision. Manual diagnosis is time consuming and error-prone. In this paper, we propose a novel deep learning based method for automatic screening of retinal fundus images to detect and classify DR based on the severity. The method uses a dual-path configuration of deep neural networks to achieve the objective. In the first step, a modified UNet++ based retinal vessel segmentation is used to create a fundus image that emphasises elements like haemorrhages, cotton wool spots, and exudates that are vital to identify the DR stages. Subsequently, two convolutional neural networks (CNN) classifiers take the original image and the newly created fundus image respectively as inputs and identify the severity of DR on a scale of 0 to 4. These two scores are then passed through a shallow neural network classifier (ANN) to predict the final DR stage. The public datasets STARE, DRIVE, CHASE DB1, and APTOS are used for training and evaluation. Our method achieves an accuracy of 94.80% and Quadratic Weighted Kappa (QWK) score of 0.9254, and outperform many state-of-the-art methods.
翻訳日:2021-10-05 19:56:26 公開日:2021-10-04
# (参考訳) 因果性と一般化可能性:識別可能性と学習方法

Causality and Generalizability: Identifiability and Learning Methods ( http://arxiv.org/abs/2110.01430v1 )

ライセンス: CC BY 4.0
Martin Emil Jakobsen(参考訳) この博士論文は統計因果モデリングの分野へのいくつかの貢献を含んでいる。 統計的因果モデルは、外的操作(干渉)によって影響を受ける確率システムの振る舞いについて推論と推論を可能にする因果的仮定を組み込んだ統計モデルである。 この論文は、因果効果の推定、因果構造学習、および分布的に堅牢な(分布外一般化)予測法に関する研究領域に寄与する。 本研究では,データ依存平均二乗予測誤差正則化を用いたインストゥルメンタル変数設定における線形および非線形因果効果推定器を提案する。 提案した推定器は,正準および最先端の両推定器と比較して2乗誤差の改善率を示す。 分布にロバストな予測手法に関する最近の研究は、計量学からよく研究された推定器との関連性を示している。 この接続により、一般のKクラス推定器が分布的ロバスト性を持つことを示す。 さらに、介入誘起分布に関する分布ロバスト性に関する一般的な枠組みを提案する。 本研究では,分布的に堅牢な予測手法の同定に十分な条件を導出し,これらの条件のいくつかの必要性を示す不確実性結果を示す。 本稿では,有向木を因果グラフとする付加雑音モデルに適用可能な新しい構造学習法を提案する。 消去された識別可能性設定における一貫性を証明し、非漸近的な家族的エラー制御による部分構造仮説の検証方法を提供する。 最後に,非線形時系列モデルの要約グラフを学習するためのヒューリスティックなアイデアを提案する。

This PhD thesis contains several contributions to the field of statistical causal modeling. Statistical causal models are statistical models embedded with causal assumptions that allow for the inference and reasoning about the behavior of stochastic systems affected by external manipulation (interventions). This thesis contributes to the research areas concerning the estimation of causal effects, causal structure learning, and distributionally robust (out-of-distribution generalizing) prediction methods. We present novel and consistent linear and non-linear causal effects estimators in instrumental variable settings that employ data-dependent mean squared prediction error regularization. Our proposed estimators show, in certain settings, mean squared error improvements compared to both canonical and state-of-the-art estimators. We show that recent research on distributionally robust prediction methods has connections to well-studied estimators from econometrics. This connection leads us to prove that general K-class estimators possess distributional robustness properties. We, furthermore, propose a general framework for distributional robustness with respect to intervention-induced distributions. In this framework, we derive sufficient conditions for the identifiability of distributionally robust prediction methods and present impossibility results that show the necessity of several of these conditions. We present a new structure learning method applicable in additive noise models with directed trees as causal graphs. We prove consistency in a vanishing identifiability setup and provide a method for testing substructure hypotheses with asymptotic family-wise error control that remains valid post-selection. Finally, we present heuristic ideas for learning summary graphs of nonlinear time-series models.
翻訳日:2021-10-05 19:45:10 公開日:2021-10-04
# (参考訳) 人工知能タスクとベンチマークのキュレートされたオントロジーに基づく大規模知識グラフ

A curated, ontology-based, large-scale knowledge graph of artificial intelligence tasks and benchmarks ( http://arxiv.org/abs/2110.01434v1 )

ライセンス: CC BY 4.0
Kathrin Blagec, Simon Ott, Adriano Barbosa da Silva, Matthias Samwald(参考訳) 人工知能(AI)の研究は、急速に増加するモデルや方法論を通じて、多くのタスクに対処している。 これにより、新しいAIメソッドがどこで(あるいはまだ成功していない)適用されたか、進捗の測定方法、進歩の相乗効果の方法、今後の研究の優先順位付け方法の追跡が困難になる。 これらの問題を解決するために、人工知能タスク、ベンチマーク結果、パフォーマンスメトリクスに関する包括的で、構造化され、手作業でキュレートされたリソースである、 intelligence task ontology and knowledge graph(ito)を作成しました。 現在のITOには、685,560エッジ、AIプロセスを表す1,100クラス、パフォーマンスメトリクスを表す1,995プロパティが含まれている。 ITOの目標は、AIタスクと能力のグローバルな状況の正確でネットワークベースの分析を可能にすることである。 ITOは、外部データとの統合や強化、自動推論、基礎となる存在論的モデルの継続的なエキスパートキュレーションを可能にする技術に基づいている。 ITOデータセットと、ITOを一般公開したJupyterノートブックのコレクションを作成します。

Research in artificial intelligence (AI) is addressing a growing number of tasks through a rapidly growing number of models and methodologies. This makes it difficult to keep track of where novel AI methods are successfully -- or still unsuccessfully -- applied, how progress is measured, how different advances might synergize with each other, and how future research should be prioritized. To help address these issues, we created the Intelligence Task Ontology and Knowledge Graph (ITO), a comprehensive, richly structured and manually curated resource on artificial intelligence tasks, benchmark results and performance metrics. The current version of ITO contain 685,560 edges, 1,100 classes representing AI processes and 1,995 properties representing performance metrics. The goal of ITO is to enable precise and network-based analyses of the global landscape of AI tasks and capabilities. ITO is based on technologies that allow for easy integration and enrichment with external data, automated inference and continuous, collaborative expert curation of underlying ontological models. We make the ITO dataset and a collection of Jupyter notebooks utilising ITO openly available.
翻訳日:2021-10-05 19:43:13 公開日:2021-10-04
# (参考訳) super-vised と self-supervised training による新規物体のオンライン視覚不変性学習

Learning Online Visual Invariances for Novel Objects via Super-vised and Self-Supervised Training ( http://arxiv.org/abs/2110.01476v1 )

ライセンス: CC BY-SA 4.0
Valerio Biscione and Jeffrey S. Bowers(参考訳) 人間は、スケールや視点といった様々な空間変換に従って物体を識別することができる。 これは、1つのポーズで1つのプレゼンテーションの後、しばしばオンライン不変性と呼ばれる新しいオブジェクトに拡張する。 cnnは人間の視覚の説得力のあるモデルとして提案されているが、変換を通してオブジェクトを識別する能力は通常、広範なデータ拡張の後、トレーニングされたカテゴリの保持されたサンプルでテストされる。 本稿では, 回転, スケーリング, 翻訳, 明るさ, コントラスト, 視点など, 様々な変換を行う合成3Dオブジェクトの画像を認識するためのトレーニングモデルにより, 標準的なCNNが人間のようなオンライン不変性をサポートできるかを評価する。 モデルの内部表現の分析を通して、変換されたオブジェクトにトレーニングされた標準教師付きcnnは、10クラスから50個のオブジェクトをトレーニングしても、新しいクラスで強い不変性を得ることができることを示した。 これは、実際のオブジェクトの写真の異なるデータセットに拡張された。 また、これらの不変性は、同じ/異なるタスクを解くことで、自己教師付きで取得できることを示す。 後者のアプローチは、人間が不変性を取得する方法と似ているかもしれない。

Humans can identify objects following various spatial transformations such as scale and viewpoint. This extends to novel objects, after a single presentation at a single pose, sometimes referred to as online invariance. CNNs have been proposed as a compelling model of human vision, but their ability to identify objects across transformations is typically tested on held-out samples of trained categories after extensive data augmentation. This paper assesses whether standard CNNs can support human-like online invariance by training models to recognize images of synthetic 3D objects that undergo several transformations: rotation, scaling, translation, brightness, contrast, and viewpoint. Through the analysis of models' internal representations, we show that standard supervised CNNs trained on transformed objects can acquire strong invariances on novel classes even when trained with as few as 50 objects taken from 10 classes. This extended to a different dataset of photographs of real objects. We also show that these invariances can be acquired in a self-supervised way, through solving the same/different task. We suggest that this latter approach may be similar to how humans acquire invariances.
翻訳日:2021-10-05 19:37:44 公開日:2021-10-04
# (参考訳) juribert: フランス語の法的テキストをマスクした言語モデル

JuriBERT: A Masked-Language Model Adaptation for French Legal Text ( http://arxiv.org/abs/2110.01485v1 )

ライセンス: CC BY 4.0
Stella Douka, Hadi Abdine, Michalis Vazirgiannis, Rajaa El Hamdani, David Restrepo Amariles(参考訳) 言語モデルは特定のドメインに適応する際に非常に有用であることが証明されている。 それでも、フランス語におけるドメイン固有のBERTモデルの適応についてはほとんど研究されていない。 本稿では,法律専門家を支援することを目的として,フランス語法典に適合した言語モデルの作成に着目する。 いくつかの特定のタスクは、大量のデータに基づいて事前訓練された汎用言語モデルの恩恵を受けない。 ドメイン特化サブ言語におけるより小さなアーキテクチャの利用と、フランス語の法文に対するメリットについて検討する。 我々は、ドメイン固有の事前学習モデルが、法域における同等の一般化モデルよりも優れていることを証明した。 最後に、フランス法域に適合したBERTモデルの新しいセットであるJuriBERTをリリースする。

Language models have proven to be very useful when adapted to specific domains. Nonetheless, little research has been done on the adaptation of domain-specific BERT models in the French language. In this paper, we focus on creating a language model adapted to French legal text with the goal of helping law professionals. We conclude that some specific tasks do not benefit from generic language models pre-trained on large amounts of data. We explore the use of smaller architectures in domain-specific sub-languages and their benefits for French legal text. We prove that domain-specific pre-trained models can perform better than their equivalent generalised ones in the legal domain. Finally, we release JuriBERT, a new set of BERT models adapted to the French legal domain.
翻訳日:2021-10-05 19:35:48 公開日:2021-10-04
# (参考訳) 音響シーン分類におけるフェアネスとアンダー種別:分散評価の場合

Fairness and underspecification in acoustic scene classification: The case for disaggregated evaluations ( http://arxiv.org/abs/2110.01506v1 )

ライセンス: CC BY 4.0
Andreas Triantafyllopoulos, Manuel Milling, Konstantinos Drossos, Bj\"orn W. Schuller(参考訳) 機械学習(ML)アプリケーションにおける不明瞭さと公平さは、最近、MLコミュニティで2つの顕著な問題となっている。 音響シーン分類(ASC)の応用はいまだにこの議論の影響を受けていないが、現在、公正性と信頼性が重要視される現実のシステムでの利用が増えている。 本研究では,ASCモデルに対する非凝集評価によるより包括的な評価プロセスの必要性を論じる。 これは、都市、位置、記録装置など、いくつかの要因におけるパフォーマンスの差を考慮している。 これらの要因は、ASCモデルの性能においてよく理解されている役割を担っているが、ほとんどの研究は、特定のデータセットのすべての異なる層を考慮した単一の評価指標を報告している。 提案手法では,特定のサブ集団で計算されたメトリクスは,提案するシステムの実世界の振る舞いに関する貴重な情報を含んでおり,その報告によってシステムの透明性と信頼性が向上する可能性がある。 そこで本研究では,2つのascデータセット上でのトレーニングにおいて,複数の標準mlアーキテクチャが提示する下位分類と公平性問題の解明において,提案手法の有効性を実証する。 評価の結果, 調査対象のアーキテクチャは, 特に記録位置に関して, 考慮すべきすべての要因に大きく偏りがあることが判明した。 さらに、異なるアーキテクチャは、同じ実験的な構成でトレーニングされているにもかかわらず、異なるバイアスを示す。

Underspecification and fairness in machine learning (ML) applications have recently become two prominent issues in the ML community. Acoustic scene classification (ASC) applications have so far remained unaffected by this discussion, but are now becoming increasingly used in real-world systems where fairness and reliability are critical aspects. In this work, we argue for the need of a more holistic evaluation process for ASC models through disaggregated evaluations. This entails taking into account performance differences across several factors, such as city, location, and recording device. Although these factors play a well-understood role in the performance of ASC models, most works report single evaluation metrics taking into account all different strata of a particular dataset. We argue that metrics computed on specific sub-populations of the underlying data contain valuable information about the expected real-world behaviour of proposed systems, and their reporting could improve the transparency and trustability of such systems. We demonstrate the effectiveness of the proposed evaluation process in uncovering underspecification and fairness problems exhibited by several standard ML architectures when trained on two widely-used ASC datasets. Our evaluation shows that all examined architectures exhibit large biases across all factors taken into consideration, and in particular with respect to the recording location. Additionally, different architectures exhibit different biases even though they are trained with the same experimental configurations.
翻訳日:2021-10-05 19:27:56 公開日:2021-10-04
# (参考訳) 機械学習における離散確率性のためのGumbel-max Trickとその拡張

A Review of the Gumbel-max Trick and its Extensions for Discrete Stochasticity in Machine Learning ( http://arxiv.org/abs/2110.01515v1 )

ライセンス: CC BY 4.0
Iris A. M. Huijben, Wouter Kool, Max B. Paulus, Ruud J. G. van Sloun(参考訳) Gumbel-max トリック(Gumbel-max trick)は、その非正規化(log-)確率によって与えられるカテゴリ分布からサンプルを引き出す方法である。 過去数年間、機械学習コミュニティは、複数のサンプルの描画、構造化されたドメインからのサンプリング、ニューラルネットワーク最適化におけるエラーバックプロパゲーションの勾配推定など、このトリックのいくつかの拡張を提案した。 本研究の目的は,Gumbel-maxトリックの背景と,アルゴリズム選択を容易にするための拡張の構造化概要を提供することである。 さらに、Gumbelベースのアルゴリズムが活用され、一般的な設計選択をレビューし、将来の展望をスケッチする(機械学習)文献の概要を包括的に提示する。

The Gumbel-max trick is a method to draw a sample from a categorical distribution, given by its unnormalized (log-)probabilities. Over the past years, the machine learning community has proposed several extensions of this trick to facilitate, e.g., drawing multiple samples, sampling from structured domains, or gradient estimation for error backpropagation in neural network optimization. The goal of this survey article is to present background about the Gumbel-max trick, and to provide a structured overview of its extensions to ease algorithm selection. Moreover, it presents a comprehensive outline of (machine learning) literature in which Gumbel-based algorithms have been leveraged, reviews commonly-made design choices, and sketches a future perspective.
翻訳日:2021-10-05 19:15:14 公開日:2021-10-04
# (参考訳) 平衡マスクと標準顔認識

Balanced Masked and Standard Face Recognition ( http://arxiv.org/abs/2110.01521v1 )

ライセンス: CC BY 4.0
Delong Qi, Kangli Hu, Weijun Tan, Qi Yao, Jingfeng Liu(参考訳) ICCV2021のマスク付き顔認識チャレンジのWebfaceトラックとInsightface/Glint360Kトラックのための改良されたネットワークアーキテクチャ、データ拡張、トレーニング戦略について述べる。 重要な目標のひとつは、マスキングと標準顔認識のバランスのとれたパフォーマンスを実現することだ。 マスク顔認証の過度な適合を防止するため,トレーニングデータセットにおける顔認識全体の10%以下でマスク顔の総数を制御する。 本稿では,新しいステムユニット,ドロップブロック,YOLO5Faceを用いた顔検出とアライメント,特徴連結,サイクルコサイン学習率など,顔認識ネットワークに対するいくつかの重要な変更を提案する。 この戦略により,マスクと標準顔認証の両面において,良好な,バランスの取れた性能が得られる。

We present the improved network architecture, data augmentation, and training strategies for the Webface track and Insightface/Glint360K track of the masked face recognition challenge of ICCV2021. One of the key goals is to have a balanced performance of masked and standard face recognition. In order to prevent the overfitting for the masked face recognition, we control the total number of masked faces by not more than 10\% of the total face recognition in the training dataset. We propose a few key changes to the face recognition network including a new stem unit, drop block, face detection and alignment using YOLO5Face, feature concatenation, a cycle cosine learning rate, etc. With this strategy, we achieve good and balanced performance for both masked and standard face recognition.
翻訳日:2021-10-05 18:26:46 公開日:2021-10-04
# (参考訳) Deep Feature Consistent Variational Autoencoders を用いた網膜基底写真における緑内障の評価

Assessing glaucoma in retinal fundus photographs using Deep Feature Consistent Variational Autoencoders ( http://arxiv.org/abs/2110.01534v1 )

ライセンス: CC BY 4.0
Sayan Mandal, Alessandro A. Jammal and Felipe A. Medeiros(参考訳) 盲目の原因の1つは緑内障であり、症状が重くなるまで無症状のままでいるため、検出が困難である。 したがって、マーカーが容易に識別されるまで診断は可能であり、つまり、すでに損傷が発生している。 緑内障の早期診断は機能的,構造的,臨床的評価に基づいて行われる。 しかし、疾患の性質上、どのマーカーが一貫した緑内障の指標であるかはまだ議論されている。 このジレンマは、マーカー識別段階をバイパスし、高レベル情報を直接分析してデータを分類することで部分的に解決されている。 これらの手法は、モデル判別プロセスに関する洞察を得られないので、専門家による分析を困難にしている。 本稿では,複雑な高次元確率分布を学習する深層学習モデルである深層生成ネットワークを用いてこれを克服する。 我々は、光学ディスク画像の再構成のために、Deep Feature consistent Variational Autoencoder (DFC-VAE) を訓練する。 DFC-VAEから得られた小型潜伏空間は,高次元緑内障データ分布を学習し,正常眼と緑内障の鑑別的証拠を提供する。 また,本モデルでは,Support Vector Classifier を用いて学習した場合,受信機動作特性曲線の 0.885 領域を再現した。

One of the leading causes of blindness is glaucoma, which is challenging to detect since it remains asymptomatic until the symptoms are severe. Thus, diagnosis is usually possible until the markers are easy to identify, i.e., the damage has already occurred. Early identification of glaucoma is generally made based on functional, structural, and clinical assessments. However, due to the nature of the disease, researchers still debate which markers qualify as a consistent glaucoma metric. Deep learning methods have partially solved this dilemma by bypassing the marker identification stage and analyzing high-level information directly to classify the data. Although favorable, these methods make expert analysis difficult as they provide no insight into the model discrimination process. In this paper, we overcome this using deep generative networks, a deep learning model that learns complicated, high-dimensional probability distributions. We train a Deep Feature consistent Variational Autoencoder (DFC-VAE) to reconstruct optic disc images. We show that a small-sized latent space obtained from the DFC-VAE can learn the high-dimensional glaucoma data distribution and provide discriminatory evidence between normal and glaucoma eyes. Latent representations of size as low as 128 from our model got a 0.885 area under the receiver operating characteristic curve when trained with Support Vector Classifier.
翻訳日:2021-10-05 18:19:22 公開日:2021-10-04
# (参考訳) 個人金融問題におけるテーマ検出に向けて

Towards Theme Detection in Personal Finance Questions ( http://arxiv.org/abs/2110.01550v1 )

ライセンス: CC BY 4.0
John Xi Qiu, Adam Faulkner, Aysu Ezen Can(参考訳) 銀行のコールセンターは毎年何百万回もコールを受け取り、これらのコールの情報は新規および新興のコールセンタートレンドを追跡することに関心のあるアナリストには利用できない。 そこで本研究では,StackExchangeの個人財務質問の公開コーパスを,トピックタグを持つユーザによってテストベッドとしてラベル付けすることで,複数のテーマの発生を検知するコールセンターテーマ検出手法を提案する。 一つの質問における複数のテーマの発生を捉えるために、このアプローチは質問レベルではなく、文中のクラスタをエンコードする。 また,文エンコーダのSBERTファミリを含む,最先端の文エンコーダモデルの比較を行った。 多クラス分類タスクとして評価を行い、原文テキスト、Universal Sentence Encoder、KMeansの単純な組み合わせにより、意味解析、SBERT- family model、HDBSCANを含むより高度な技術より優れていることを示す。 我々は,このタスクに対してマイクロF1を0.46で達成し,その結果,少しうるさい場合でも,クラスタに関連付けられたラベルとトポロジ的に一致した文を含むことを示す。

Banking call centers receive millions of calls annually, with much of the information in these calls unavailable to analysts interested in tracking new and emerging call center trends. In this study we present an approach to call center theme detection that captures the occurrence of multiple themes in a question, using a publicly available corpus of StackExchange personal finance questions, labeled by users with topic tags, as a testbed. To capture the occurrence of multiple themes in a single question, the approach encodes and clusters at the sentence- rather than question-level. We also present a comparison of state-of-the-art sentence encoding models, including the SBERT family of sentence encoders. We frame our evaluation as a multiclass classification task and show that a simple combination of the original sentence text, Universal Sentence Encoder, and KMeans outperforms more sophisticated techniques that involve semantic parsing, SBERT-family models, and HDBSCAN. Our highest performing approach achieves a Micro-F1 of 0.46 for this task and we show that the resulting clusters, even when slightly noisy, contain sentences that are topically consistent with the label associated with the cluster.
翻訳日:2021-10-05 18:06:00 公開日:2021-10-04
# (参考訳) 一般化カーネル薄片化

Generalized Kernel Thinning ( http://arxiv.org/abs/2110.01593v1 )

ライセンス: CC BY 4.0
Raaz Dwivedi, Lester Mackey(参考訳) Dwivedi と Mackey (2021) のカーネルシンニング (KT) アルゴリズムは、より滑らかでない平方根のカーネルを利用することで、ターゲットカーネル $\mathbf{k}$ に対するより優れたモンテカルト・カルロの最大平均誤差を、$\sqrt n$ポイントサマリに圧縮する。 ここでは4つの改善がある。 まず、KT をターゲットカーネルに直接適用すると、再生カーネルヒルベルト空間における各関数 $f$ に対して、より厳密な $\mathcal{O}(\sqrt{\log n/n})$積分誤差が生じることを示す。 この修正は、KT の到達範囲を任意のカーネルにまで拡大する -- 平方根を含まない非滑らかなカーネルでさえも、KT は重尾のターゲット分布にも適しており、指数次元依存性と標準平方根 KT の$(\log n)^{d/2}$因子を排除している。 第2に,gaussianやinverse multiquadricのような解析的カーネルでは,ターゲットカーネルktは,明示的な平方根カーネルを必要とせずに,正方根ktに匹敵する最大平均差(mmd)を保証する。 第3に、最小の$\alpha$-power カーネル $\mathbf{k}_{\alpha}$ for $\alpha > 1/2$ で kt を証明すれば、ラプラスや \matern のような正方根を持たない非スムースカーネルに対して、モンテカルロmmdよりも優れた保証が得られる。 第4に、KT が $\mathbf{k}$ と $\mathbf{k}_{\alpha}$ (KT+ と呼ぶ手順) の和に適用されたことが、改良された KT の MMD 保証と、ターゲットカーネル上の KT のより厳密な個々の関数保証を同時に継承することを確立する。 最後に,高次元独立サンプリング後の圧縮に対する標的ktとkt+の実用的効果を示し,マルコフ連鎖モンテカルロ後方推定に挑戦する。

The kernel thinning (KT) algorithm of Dwivedi and Mackey (2021) compresses an $n$ point distributional summary into a $\sqrt n$ point summary with better-than-Monte-Carlo maximum mean discrepancy for a target kernel $\mathbf{k}$ by leveraging a less smooth square-root kernel. Here we provide four improvements. First, we show that KT applied directly to the target kernel yields a tighter $\mathcal{O}(\sqrt{\log n/n})$ integration error bound for each function $f$ in the reproducing kernel Hilbert space. This modification extends the reach of KT to any kernel -- even non-smooth kernels that do not admit a square-root, demonstrates that KT is suitable even for heavy-tailed target distributions, and eliminates the exponential dimension-dependence and $(\log n)^{d/2}$ factors of standard square-root KT. Second, we show that, for analytic kernels, like Gaussian and inverse multiquadric, target kernel KT admits maximum mean discrepancy (MMD) guarantees comparable to square-root KT without the need for an explicit square-root kernel. Third, we prove KT with a fractional $\alpha$-power kernel $\mathbf{k}_{\alpha}$ for $\alpha > 1/2$ yields better-than-Monte-Carlo MMD guarantees for non-smooth kernels, like Laplace and \Matern, that do not have square-roots. Fourth, we establish that KT applied to a sum of $\mathbf{k}$ and $\mathbf{k}_{\alpha}$ (a procedure we call KT+) simultaneously inherits the improved MMD guarantees of power KT and the tighter individual function guarantees of KT on the target kernel. Finally, we illustrate the practical benefits of target KT and KT+ for compression after high-dimensional independent sampling and challenging Markov chain Monte Carlo posterior inference.
翻訳日:2021-10-05 17:55:27 公開日:2021-10-04
# (参考訳) 深部画像分類における最適化アルゴリズムの有効性

Effectiveness of Optimization Algorithms in Deep Image Classification ( http://arxiv.org/abs/2110.01598v1 )

ライセンス: CC BY 4.0
Zhaoyang Zhu, Haozhe Sun, Chi Zhang(参考訳) adamはニューラルネットワークのトレーニングに広く使われている。 異なる機能を持つ異なる種類のadamメソッドが登場します。 近年、AdaBeliefとPadamという2つの新しいダムオプティマイザがコミュニティに導入されている。 これら2つのadamオプティマイザを分析し,画像分類のシナリオにおいて,他の従来のオプティマイザ(adam,sgd + momentum)と比較する。 我々は,これらの最適化アルゴリズムの性能をAlexNet上で評価し,EMNISTデータセットを用いてVGGNet,ResNetの簡易バージョンを評価する。 (benchmarkアルゴリズムは \hyperref[https://github.com/chuiyunjun/projectcsc413]{https://github.com/chuiyunjun/projectcsc413})。

Adam is applied widely to train neural networks. Different kinds of Adam methods with different features pop out. Recently two new adam optimizers, AdaBelief and Padam are introduced among the community. We analyze these two adam optimizers and compare them with other conventional optimizers (Adam, SGD + Momentum) in the scenario of image classification. We evaluate the performance of these optimization algorithms on AlexNet and simplified versions of VGGNet, ResNet using the EMNIST dataset. (Benchmark algorithm is available at \hyperref[https://github.com/chuiyunjun/projectCSC413]{https://github.com/chuiyunjun/projectCSC413}).
翻訳日:2021-10-05 16:49:58 公開日:2021-10-04
# (参考訳) オープンドメイン質問応答のためのデンスパス検索のエンコーダ適応

Encoder Adaptation of Dense Passage Retrieval for Open-Domain Question Answering ( http://arxiv.org/abs/2110.01599v1 )

ライセンス: CC BY 4.0
Minghan Li, Jimmy Lin(参考訳) 密閉通路レトリバー(dpr)の1つの重要な特徴は、バイエンコーダの設計において別々の質問と通路エンコーダを使用することである。 DPRの一般化に関するこれまでの研究は、主にドメイン適応(Domain adapt)としても知られるOOD (Out-of-distriion) Question-Awering (QA) タスクのタンデムにおける両エンコーダのテストに重点を置いていた。 しかし、DPRの個別問合せエンコーダが一般化にどのように影響するかはいまだ不明である。 具体的には、他のドメインからのOODパス/問い合わせエンコーダと組み合わせた場合、IND/パスエンコーダがいかに一般化するかを知りたい。 この課題を \textit{encoder adaptation} と呼ぶ。 この質問に答えるために、ドメイン内およびドメイン外の問合せに関する5つのベンチマークQAデータセットから得られたDPRの問合せと通過エンコーダの異なる組み合わせを検査する。 その結果、パッセージエンコーダは一般化の下限により多くの影響を与え、クエスチョンエンコーダは一般に上界に影響を及ぼすように見える。 例えば、OODパスエンコーダの適用は通常、検索精度を損なうが、OOD質問エンコーダは時に精度を向上する。

One key feature of dense passage retrievers (DPR) is the use of separate question and passage encoder in a bi-encoder design. Previous work on generalization of DPR mainly focus on testing both encoders in tandem on out-of-distribution (OOD) question-answering (QA) tasks, which is also known as domain adaptation. However, it is still unknown how DPR's individual question/passage encoder affects generalization. Specifically, in this paper, we want to know how an in-distribution (IND) question/passage encoder would generalize if paired with an OOD passage/question encoder from another domain. We refer to this challenge as \textit{encoder adaptation}. To answer this question, we inspect different combinations of DPR's question and passage encoder learned from five benchmark QA datasets on both in-domain and out-of-domain questions. We find that the passage encoder has more influence on the lower bound of generalization while the question encoder seems to affect the upper bound in general. For example, applying an OOD passage encoder usually hurts the retrieval accuracy while an OOD question encoder sometimes even improves the accuracy.
翻訳日:2021-10-05 16:39:51 公開日:2021-10-04
# 潜在言語によるスキル誘導と計画

Skill Induction and Planning with Latent Language ( http://arxiv.org/abs/2110.01517v1 )

ライセンス: Link先を確認
Pratyusha Sharma, Antonio Torralba, Jacob Andreas(参考訳) 本稿では,分散自然言語アノテーションを用いて,自律的意思決定のための再利用可能なスキルの発見を指導し,実演から階層的ポリシを学ぶためのフレームワークを提案する。 我々は、目標が高レベルサブタスク記述のシーケンスを生成するアクションシーケンスの生成モデルを作成し、これらの記述が低レベルアクションのシーケンスを生成する。 本論文では,実演を名前付きハイレベルなサブタスクのシーケンスに解析することで,主に無注釈のデモンストレーションを用いてモデルを訓練する方法について述べる。 訓練されたモデルでは、自然言語コマンドの空間はスキルの組合せライブラリをインデックス化しており、エージェントはこれらのスキルを使用して、新しい目標に合わせた高度な命令シーケンスを生成することができる。 実演の10%に自然言語アノテーションを提供するALFRED家庭シミュレーション環境において,本手法の評価を行った。 デモから学習する標準的な手法の2倍以上のタスクを完了し、訓練と評価の双方において、モデルに従う命令のパフォーマンスと地道的な計画へのアクセスとを一致させる。

We present a framework for learning hierarchical policies from demonstrations, using sparse natural language annotations to guide the discovery of reusable skills for autonomous decision-making. We formulate a generative model of action sequences in which goals generate sequences of high-level subtask descriptions, and these descriptions generate sequences of low-level actions. We describe how to train this model using primarily unannotated demonstrations by parsing demonstrations into sequences of named high-level subtasks, using only a small number of seed annotations to ground language in action. In trained models, the space of natural language commands indexes a combinatorial library of skills; agents can use these skills to plan by generating high-level instruction sequences tailored to novel goals. We evaluate this approach in the ALFRED household simulation environment, providing natural language annotations for only 10% of demonstrations. It completes more than twice as many tasks as a standard approach to learning from demonstrations, matching the performance of instruction following models with access to ground-truth plans during both training and evaluation.
翻訳日:2021-10-05 16:02:18 公開日:2021-10-04
# トピックを超えて:イベントシーケンスから潜在医療目標を発見する

Beyond Topics: Discovering Latent Healthcare Objectives from Event Sequences ( http://arxiv.org/abs/2110.01160v1 )

ライセンス: Link先を確認
Adrian Caruana, Madhushi Bandara, Daniel Catchpoole, Paul J Kennedy(参考訳) 臨床プロトコルと患者経路の有意義な理解は、医療結果の改善に役立つ。 電子健康記録(EHR)は、医療管理を強化するのに使用されるが、課題を提示する実際の治療行動を反映しており、プロトコルや経路はしばしば緩やかに定義され、要素はEHRに記録されず、拡張を複雑にしている。 この課題を解決するために、医療管理活動に関連する医療目的は、HRにおいて潜在トピックとして間接的に観察することができる。 Latent Dirichlet Allocation (LDA)のようなトピックモデルは、EHRデータの潜在パターンを特定するために使用される。 しかし、EHR配列の順序性や、個別の事象を個別に評価するわけではない。 我々の新しいアプローチであるCategorical Sequence Encoder (CaSE)はこれらの欠点に対処する。 EHRのシーケンシャルな性質は、CaSEのイベントレベルの表現によって捉えられ、潜伏する医療目的を明らかにする。 合成ERH配列では、CaSEは医療目的の特定においてLDAを最大37%上回っている。 現実世界のMIMIC-IIIデータセットでは、CaSEはプロトコルと経路開発を著しく強化する意味のある表現を識別する。

A meaningful understanding of clinical protocols and patient pathways helps improve healthcare outcomes. Electronic health records (EHR) reflect real-world treatment behaviours that are used to enhance healthcare management but present challenges; protocols and pathways are often loosely defined and with elements frequently not recorded in EHRs, complicating the enhancement. To solve this challenge, healthcare objectives associated with healthcare management activities can be indirectly observed in EHRs as latent topics. Topic models, such as Latent Dirichlet Allocation (LDA), are used to identify latent patterns in EHR data. However, they do not examine the ordered nature of EHR sequences, nor do they appraise individual events in isolation. Our novel approach, the Categorical Sequence Encoder (CaSE) addresses these shortcomings. The sequential nature of EHRs is captured by CaSE's event-level representations, revealing latent healthcare objectives. In synthetic EHR sequences, CaSE outperforms LDA by up to 37% at identifying healthcare objectives. In the real-world MIMIC-III dataset, CaSE identifies meaningful representations that could critically enhance protocol and pathway development.
翻訳日:2021-10-05 15:59:30 公開日:2021-10-04
# PTLMsは学校に行くべきだ - オープンブックとクローズドブックQAを評価するタスク

Perhaps PTLMs Should Go to School -- A Task to Assess Open Book and Closed Book QA ( http://arxiv.org/abs/2110.01552v1 )

ライセンス: Link先を確認
Manuel R. Ciosici, Joe Cecil, Alex Hedges, Dong-Ho Lee, Marjorie Freedman, Ralph Weischedel(参考訳) 私たちの目標は、質問応答と事前学習言語モデル(ptlms)に関する研究を刺激し、重要な教示文書(例えば、入門科目教科書やマニュアル)を理解するための新しいタスクとリーダーボードを提供することです。 PTLMは多くの質問応答タスクで大きな成功をおさめており、教師付きトレーニングがかなり行われた。 本稿では,社会科学(アメリカ政府2e)と人文科学(米国歴史学)の2つの大学レベルの導入テキスト,教科書作成者によるレビュー質問に基づく数百の真偽文,教科書の前半8章に基づく検証・開発試験,残りの教科書章に基づく盲検試験,最先端PTLMのベースライン結果を含む新しい課題を提案する。 質問はバランスが取れているため、ランダムなパフォーマンスは50%程度でなければならない。 BoolQで微調整されたT5は同じ性能を達成し、PTLMでは教科書の内容が事前に表現されていないことを示唆している。 教科書(すなわち、教科書をt5の事前学習に加えた)を受験すると、最も小さな改善(56%)が得られ、ptlmは教科書を「理解」していないかもしれない(あるいは、質問を誤解しているかもしれない)。 試験が開かれた場合(つまり、マシンが自動的に段落を取得してそれを使って質問に答えることができる)、パフォーマンスは(約60%)良くなります。

Our goal is to deliver a new task and leaderboard to stimulate research on question answering and pre-trained language models (PTLMs) to understand a significant instructional document, e.g., an introductory college textbook or a manual. PTLMs have shown great success in many question-answering tasks, given significant supervised training, but much less so in zero-shot settings. We propose a new task that includes two college-level introductory texts in the social sciences (American Government 2e) and humanities (U.S. History), hundreds of true/false statements based on review questions written by the textbook authors, validation/development tests based on the first eight chapters of the textbooks, blind tests based on the remaining textbook chapters, and baseline results given state-of-the-art PTLMs. Since the questions are balanced, random performance should be ~50%. T5, fine-tuned with BoolQ achieves the same performance, suggesting that the textbook's content is not pre-represented in the PTLM. Taking the exam closed book, but having read the textbook (i.e., adding the textbook to T5's pre-training), yields at best minor improvement (56%), suggesting that the PTLM may not have "understood" the textbook (or perhaps misunderstood the questions). Performance is better (~60%) when the exam is taken open-book (i.e., allowing the machine to automatically retrieve a paragraph and use it to answer the question).
翻訳日:2021-10-05 15:59:13 公開日:2021-10-04
# 人物探索のためのコンテキストアウェア非教師付きクラスタリング

Context-Aware Unsupervised Clustering for Person Search ( http://arxiv.org/abs/2110.01341v1 )

ライセンス: Link先を確認
Byeong-Ju Han, Kuhyeun Ko, and Jae-Young Sim(参考訳) 既存の人物探索法は、人間識別の注釈付きラベルを使用して、人間のラベル付けに膨大な時間と労力を必要とする教師付き方法でディープネットワークを訓練する。 本稿では,まず,人物識別ラベルを使わずにネットワークをトレーニングできる新たな人物検索フレームワークを提案し,アノテートされた人物識別ラベルを用いた監視プロセスを代替する効率的な非教師付きクラスタリング手法を提案する。 具体的には,各画像中の特定の問合せ者に対して同一の同一性を持つ1人しか持たないという特異性特性に基づく,強い負のマイニング手法を提案する。 また,ある画像の隣人が他の画像に同時に現れる傾向にあることのコンテキスト情報を用いて,強烈な正のマイニング手法を提案する。 実験の結果,提案手法は最先端の教師付き人物探索法と同等の性能を示し,さらに,対象者探索データセットの非教師付き人物再同定法よりも優れていた。

The existing person search methods use the annotated labels of person identities to train deep networks in a supervised manner that requires a huge amount of time and effort for human labeling. In this paper, we first introduce a novel framework of person search that is able to train the network in the absence of the person identity labels, and propose efficient unsupervised clustering methods to substitute the supervision process using annotated person identity labels. Specifically, we propose a hard negative mining scheme based on the uniqueness property that only a single person has the same identity to a given query person in each image. We also propose a hard positive mining scheme by using the contextual information of co-appearance that neighboring persons in one image tend to appear simultaneously in other images. The experimental results show that the proposed method achieves comparable performance to that of the state-of-the-art supervised person search methods, and furthermore outperforms the extended unsupervised person re-identification methods on the benchmark person search datasets.
翻訳日:2021-10-05 15:57:26 公開日:2021-10-04
# マルチチャネルアテンションに基づく時空間グラフ畳み込みネットワークによる交通流予測

Traffic Flow Forecasting with Maintenance Downtime via Multi-Channel Attention-Based Spatio-Temporal Graph Convolutional Networks ( http://arxiv.org/abs/2110.01535v1 )

ライセンス: Link先を確認
Yuanjie Lu, Parastoo Kamranfar, David Lattanzi, Amarda Shehu(参考訳) 交通流の予測は、インテリジェント交通システム管理における中心的な課題である。 グラフ構造は、グラフ畳み込みニューラルネットワークによる時空間モデリングの最近の進歩、パフォーマンスの向上、トラフィックフローの予測地平線の拡張など、モデリングフレームワークとして期待されている。 しかしながら、最先端手法の重要な欠点は、メンテナンスダウンタイムがトラフィックフローに与える影響など、さまざまなモダリティの情報を考慮することができないことだ。 これは我々が本稿で取り上げている問題です。 具体的には,建設工事の影響を考慮した交通速度予測モデルを提案する。 このモデルは、強力な注目に基づく時空間グラフ畳み込みアーキテクチャに基づいているが、様々なチャネルを利用して異なる情報ソースを統合し、トラフィック状態間の時空間依存性を明確に構築し、異種道路網間の関係を捉え、メンテナンスダウンタイムイベントによるトラフィックフローの変化を予測する。 このモデルは、2つのベンチマークデータセットと、北バージニアのTysonのコーナーで収集した新しいデータセットで評価されている。 広汎な比較実験とアブレーション実験により,提案モデルが輸送路を横断する複雑で非線形な時空間的関係を捉えることができ,ベースラインモデルよりも優れていた。

Forecasting traffic flows is a central task in intelligent transportation system management. Graph structures have shown promise as a modeling framework, with recent advances in spatio-temporal modeling via graph convolution neural networks, improving the performance or extending the prediction horizon on traffic flows. However, a key shortcoming of state-of-the-art methods is their inability to take into account information of various modalities, for instance the impact of maintenance downtime on traffic flows. This is the issue we address in this paper. Specifically, we propose a novel model to predict traffic speed under the impact of construction work. The model is based on the powerful attention-based spatio-temporal graph convolution architecture but utilizes various channels to integrate different sources of information, explicitly builds spatio-temporal dependencies among traffic states, captures the relationships between heterogeneous roadway networks, and then predicts changes in traffic flow resulting from maintenance downtime events. The model is evaluated on two benchmark datasets and a novel dataset we have collected over the bustling Tyson's corner region in Northern Virginia. Extensive comparative experiments and ablation studies show that the proposed model can capture complex and nonlinear spatio-temporal relationships across a transportation corridor, outperforming baseline models.
翻訳日:2021-10-05 15:56:49 公開日:2021-10-04
# 一貫性規則化はラベルノイズに対するロバスト性を改善する

Consistency Regularization Can Improve Robustness to Label Noise ( http://arxiv.org/abs/2110.01242v1 )

ライセンス: Link先を確認
Erik Englesson, Hossein Azizpour(参考訳) 一貫性規則化(Consistency regularization)は、半教師あり自己教師あり学習のための一般的なテクニックである。 これは、観測されたトレーニングサンプルの近傍で類似したネットワークの予測を促進する補助的目的関数である。 Hendrycks et al. (2020) は、最近そのような正規化が自然に、破損したデータにテスト時の堅牢性をもたらし、校正に役立つことを示した。 本稿では,雑音ラベルに対するトレーニング時ロバスト性に対する整合正則化の関連を実験的に検討する。 まず,標準クロスエントロピー損失をトレーニングしたネットワークの一貫性について,以下の2つの興味深い,有用な観察を行う。 i)ノイズデータでトレーニングされたネットワークは、クリーンデータでトレーニングされたネットワークよりも一貫性が低い。 (ii)ノイズラベルトレーニングデータポイントの一貫性は、正しくラベルされたデータポイントよりも大幅に低下する。 そして, 整合性を促進する単純な損失関数により, 合成ノイズ(CIFAR-10, CIFAR-100)と実世界のノイズ(WebVision)の両方にラベル付けし, 異なるノイズ率と型を付与し, 最新の結果が得られることを示す。

Consistency regularization is a commonly-used technique for semi-supervised and self-supervised learning. It is an auxiliary objective function that encourages the prediction of the network to be similar in the vicinity of the observed training samples. Hendrycks et al. (2020) have recently shown such regularization naturally brings test-time robustness to corrupted data and helps with calibration. This paper empirically studies the relevance of consistency regularization for training-time robustness to noisy labels. First, we make two interesting and useful observations regarding the consistency of networks trained with the standard cross entropy loss on noisy datasets which are: (i) networks trained on noisy data have lower consistency than those trained on clean data, and(ii) the consistency reduces more significantly around noisy-labelled training data points than correctly-labelled ones. Then, we show that a simple loss function that encourages consistency improves the robustness of the models to label noise on both synthetic (CIFAR-10, CIFAR-100) and real-world (WebVision) noise as well as different noise rates and types and achieves state-of-the-art results.
翻訳日:2021-10-05 15:56:24 公開日:2021-10-04
# テキスト自動パーソナリティ予測における最新技術

The state-of-the-art in text-based automatic personality prediction ( http://arxiv.org/abs/2110.01186v1 )

ライセンス: Link先を確認
Ali-Reza Feizi-Derakhshi, Mohammad-Reza Feizi-Derakhshi, Majid Ramezani, Narjes Nikzad-Khasmakhi, Meysam Asgari-Chenaghlu, Taymaz Akan (Rahkar-Farshi), Mehrdad Ranjbar-Khadivi, Elnaz Zafarni-Moattar, Zoleikha Jahanbakhsh-Naghadeh(参考訳) パーソナリティ検出(Personality detection)は心理学における古い話題であり、自動パーソナリティ予測(Personality Prediction, APP)は、人間の生成/交換されたさまざまなコンテンツ(テキスト、音声、画像、ビデオなど)の人格を自動(計算的に)予測するものである。 本研究の主な目的は,2010年以降のAPPにおける自然言語処理アプローチの浅い(すべて)レビューを提供することである。 深層学習の出現とNLPにおける伝達学習および事前学習モデルの導入により、APP研究領域はホットな話題となり、本レビューでは、事前学習された独立した事前学習モデルに基づくマルチモーダルアプローチの3つに分類される。 また、総合的な比較を行うために、報告された結果をデータセットによって報知する。

Personality detection is an old topic in psychology and Automatic Personality Prediction (or Perception) (APP) is the automated (computationally) forecasting of the personality on different types of human generated/exchanged contents (such as text, speech, image, video). The principal objective of this study is to offer a shallow (overall) review of natural language processing approaches on APP since 2010. With the advent of deep learning and following it transfer-learning and pre-trained model in NLP, APP research area has been a hot topic, so in this review, methods are categorized into three; pre-trained independent, pre-trained model based, multimodal approaches. Also, to achieve a comprehensive comparison, reported results are informed by datasets.
翻訳日:2021-10-05 15:55:28 公開日:2021-10-04
# deepa2:ニューラルネットワークtext2text言語モデルによる深層引数解析のためのモジュラーフレームワーク

DeepA2: A Modular Framework for Deep Argument Analysis with Pretrained Neural Text2Text Language Models ( http://arxiv.org/abs/2110.01509v1 )

ライセンス: Link先を確認
Gregor Betz and Kyle Richardson(参考訳) 本稿では,現在の事前学習言語モデル(ptlms)を用いた深層引数解析(deepa2)を行うための多次元モジュール型フレームワークを提案する。 argumentanalyst - deepa2内で設定およびトレーニングされたt5モデル (raffel et al. 2020) -- は、非公式な議論を進める議論テキストを正当な引数として再構築する。 我々は、深層引数解析のための合成コーパスを作成し、この新しいデータセットと既存のデータ、特にentailmentbank(dalvi et al. 2021)に関する議論分析を行う。 我々の経験的発見は、全体の枠組みを肯定し、モジュラーデザインの利点、特に確立されたヒューリスティックス(hermeneutic cyclesなど)をエミュレートし、モデルの不確かさを探求し、複数の正しい解に対処し(不確定)、高次証拠を活用できる能力を強調している。

In this paper, we present and implement a multi-dimensional, modular framework for performing deep argument analysis (DeepA2) using current pre-trained language models (PTLMs). ArgumentAnalyst -- a T5 model (Raffel et al. 2020) set up and trained within DeepA2 -- reconstructs argumentative texts, which advance an informal argumentation, as valid arguments: It inserts, e.g., missing premises and conclusions, formalizes inferences, and coherently links the logical reconstruction to the source text. We create a synthetic corpus for deep argument analysis, and evaluate ArgumentAnalyst on this new dataset as well as on existing data, specifically EntailmentBank (Dalvi et al. 2021). Our empirical findings vindicate the overall framework and highlight the advantages of a modular design, in particular its ability to emulate established heuristics (such as hermeneutic cycles), to explore the model's uncertainty, to cope with the plurality of correct solutions (underdetermination), and to exploit higher-order evidence.
翻訳日:2021-10-05 15:55:12 公開日:2021-10-04
# ローサム:インドの法律文書要約に関する弱い監督的アプローチ

LawSum: A weakly supervised approach for Indian Legal Document Summarization ( http://arxiv.org/abs/2110.01188v1 )

ライセンス: Link先を確認
Vedant Parikh, Vidit Mathur, Parth Metha, Nimita Mittal, Prasenjit Majumder(参考訳) 西側諸国の裁判所とは異なり、インド司法の公的な記録は完全に非構造的でうるさい。 インドの法律文書の注釈付きデータセットは、現在まで存在しない。 これは法的分析研究の範囲を制限する。 本研究では,インド最高裁判所とそれに対応する手書き要約による1万件以上の判決からなる新たなデータセットを提案する。 提案されたデータセットは、一般的な法的略語を標準化し、名前付きエンティティの綴りのバリエーションを扱い、悪い句読点を扱い、正確な文のトークン化を行う。 各文は修辞的役割でタグ付けされる。 また、判決には日付、原告の名前、被告人、その代表者、判決を提出した裁判官、引用される行為・法令、そして判決を引用する最も一般的な引用など、いくつかの属性を注釈付けします。 さらに,要約に値する情報を持つ文を識別する自動ラベリング手法を提案する。 この自動ラベル付きデータは、弱教師付き文抽出器を高精度に訓練するのに有効であることを示す。 このデータセットの法的な文書要約以外のいくつかの応用は、特定の裁判官による決定の検索、引用分析、予測に応用できる。

Unlike the courts in western countries, public records of Indian judiciary are completely unstructured and noisy. No large scale publicly available annotated datasets of Indian legal documents exist till date. This limits the scope for legal analytics research. In this work, we propose a new dataset consisting of over 10,000 judgements delivered by the supreme court of India and their corresponding hand written summaries. The proposed dataset is pre-processed by normalising common legal abbreviations, handling spelling variations in named entities, handling bad punctuations and accurate sentence tokenization. Each sentence is tagged with their rhetorical roles. We also annotate each judgement with several attributes like date, names of the plaintiffs, defendants and the people representing them, judges who delivered the judgement, acts/statutes that are cited and the most common citations used to refer the judgement. Further, we propose an automatic labelling technique for identifying sentences which have summary worthy information. We demonstrate that this auto labeled data can be used effectively to train a weakly supervised sentence extractor with high accuracy. Some possible applications of this dataset besides legal document summarization can be in retrieval, citation analysis and prediction of decisions by a particular judge.
翻訳日:2021-10-05 15:54:06 公開日:2021-10-04
# Git: インテンシティトポロジのグラフに基づくクラスタリング

Git: Clustering Based on Graph of Intensity Topology ( http://arxiv.org/abs/2110.01274v1 )

ライセンス: Link先を確認
Zhangyang Gao, Haitao Lin, Cheng Tan, Lirong Wu, Stan. Z Li(参考訳) ノイズとスケールに対する \textbf{R}obustness, \textbf{I}nterpretability, \textbf{S}peed, \textbf{E}asy to use (ARISE) は優れたクラスタリングアルゴリズムの重要な要件である。 しかし、これらの目標を同時に達成することは困難であり、ほとんどの先進的なアプローチはそれらの部分のみに焦点を当てている。 これらの側面を総合的に検討するために,git( \textbf{g}raph of \textbf{i}ntensity \textbf{t}opology)と呼ばれる新しいクラスタリングアルゴリズムを提案する。 GITは、まずサンプルの強度ピークに基づいて局所クラスタを形成し、次にこれらの局所クラスタ間のグローバルトポロジカルグラフ(トポグラフ)を推定する。 予測クラスと先行クラス間のワッサースタイン距離を用いて,トポグラフのノイズエッジを自動的に切断し,連結した局所クラスタを最終クラスタとしてマージする。 そして、GITを5つの合成データセットと9つの実世界のデータセットで競合する7つのアルゴリズムと比較する。 高速な局所クラスタ検出、堅牢なトポグラフの構築、エッジカットにより、GITは魅力的なARISE性能を示し、他の非凸クラスタリング手法を大幅に上回る。 例えば、GIT は MNIST と FashionMNIST で 10\%$ (F1-score) を上回ります。 コードはcolor{red}{https://github.com/gaozhangyang/git}で入手できる。

\textbf{A}ccuracy, \textbf{R}obustness to noises and scales, \textbf{I}nterpretability, \textbf{S}peed, and \textbf{E}asy to use (ARISE) are crucial requirements of a good clustering algorithm. However, achieving these goals simultaneously is challenging, and most advanced approaches only focus on parts of them. Towards an overall consideration of these aspects, we propose a novel clustering algorithm, namely GIT (Clustering Based on \textbf{G}raph of \textbf{I}ntensity \textbf{T}opology). GIT considers both local and global data structures: firstly forming local clusters based on intensity peaks of samples, and then estimating the global topological graph (topo-graph) between these local clusters. We use the Wasserstein Distance between the predicted and prior class proportions to automatically cut noisy edges in the topo-graph and merge connected local clusters as final clusters. Then, we compare GIT with seven competing algorithms on five synthetic datasets and nine real-world datasets. With fast local cluster detection, robust topo-graph construction and accurate edge-cutting, GIT shows attractive ARISE performance and significantly exceeds other non-convex clustering methods. For example, GIT outperforms its counterparts about $10\%$ (F1-score) on MNIST and FashionMNIST. Code is available at \color{red}{https://github.com/gaozhangyang/GIT}.
翻訳日:2021-10-05 15:52:11 公開日:2021-10-04
# 深層強化学習を用いたマルチエージェントパス計画

Multi-Agent Path Planning Using Deep Reinforcement Learning ( http://arxiv.org/abs/2110.01460v1 )

ライセンス: Link先を確認
Mert \c{C}etinkaya(参考訳) 本稿では,深層補強型マルチエージェント経路計画手法を提案する。 実験はシミュレーション環境で実現され、この環境では異なるマルチエージェント経路計画問題が発生する。 生成した問題は実際に車両経路問題と類似しており、多エージェント深部強化学習を用いて解かれる。 シミュレーション環境では、この方法で異なる連続問題に基づいてモデルを訓練し、時間経過とともに、その問題を解決するためのモデルの性能が増大することが観察される。 常に同じシミュレーション環境を使用し、訪問するエージェントのターゲットポイントの位置だけを変更する。 これは、エピソードが通過するにつれて、その環境と問題に対する正しい態度を学ぶモデルに寄与する。 最終的に、この環境で経路計画やルーティングの問題を解決するために既に多くのことを学んだモデルが得られ、このモデルは、トレーニングなしでも、与えられた未知の問題に対して、優しく即時に解決できる。 ルーティング問題では、標準的な数学的モデリングやヒューリスティックスは解を見つけるのに高い計算時間に悩まされ、また、即時解を見つけることも困難かつ重要である。 本稿では,これらの点に対する新しい解法を提案し,その効率を実験的に証明する。

In this paper a deep reinforcement based multi-agent path planning approach is introduced. The experiments are realized in a simulation environment and in this environment different multi-agent path planning problems are produced. The produced problems are actually similar to a vehicle routing problem and they are solved using multi-agent deep reinforcement learning. In the simulation environment, the model is trained on different consecutive problems in this way and, as the time passes, it is observed that the model's performance to solve a problem increases. Always the same simulation environment is used and only the location of target points for the agents to visit is changed. This contributes the model to learn its environment and the right attitude against a problem as the episodes pass. At the end, a model who has already learned a lot to solve a path planning or routing problem in this environment is obtained and this model can already find a nice and instant solution to a given unseen problem even without any training. In routing problems, standard mathematical modeling or heuristics seem to suffer from high computational time to find the solution and it is also difficult and critical to find an instant solution. In this paper a new solution method against these points is proposed and its efficiency is proven experimentally.
翻訳日:2021-10-05 15:50:58 公開日:2021-10-04
# 多様性Qアンサンブルを用いた不確実性に基づくオフライン強化学習

Uncertainty-Based Offline Reinforcement Learning with Diversified Q-Ensemble ( http://arxiv.org/abs/2110.01548v1 )

ライセンス: Link先を確認
Gaon An, Seungyong Moon, Jang-Hyun Kim, Hyun Oh Song(参考訳) オフライン強化学習(オフラインRL)は、以前に収集した静的データセットから最適なポリシーを見つけることを目的としており、オフ・オブ・ディストリビューション(OOD)データポイントからの関数近似誤差によるアルゴリズム上の困難を伴っている。 この目的のために、オフラインrlアルゴリズムは、与えられたデータセットに近づくようにポリシーを明示的に指示する制約またはペナルティ用語を採用する。 しかし、従来の手法では、行動ポリシーの正確な推定やoodデータポイントからのサンプリングが必要であり、それ自体は非自明な問題である。 さらに、これらの手法はディープニューラルネットワークの一般化能力を過小評価し、しばしば与えられたデータセットに近すぎる最適なサブ最適解に陥る。 本研究では,q値予測の信頼性を考慮し,データ分布の推定やサンプリングを必要としない,不確実性に基づくオフラインrl手法を提案する。 オンラインRLで広く使われているクリッピングQ-ラーニングは,高い予測不確実性を伴うOODデータポイントのペナルティ化に有効であることを示す。 意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。 そこで本研究では,d4rlベンチマークのほとんどにおいて最先端性能を実現しつつ,必要なアンサンブルネットワーク数を10分の1まで削減するアンサンブル分散アクタ-クリティックアルゴリズムを提案する。

Offline reinforcement learning (offline RL), which aims to find an optimal policy from a previously collected static dataset, bears algorithmic difficulties due to function approximation errors from out-of-distribution (OOD) data points. To this end, offline RL algorithms adopt either a constraint or a penalty term that explicitly guides the policy to stay close to the given dataset. However, prior methods typically require accurate estimation of the behavior policy or sampling from OOD data points, which themselves can be a non-trivial problem. Moreover, these methods under-utilize the generalization ability of deep neural networks and often fall into suboptimal solutions too close to the given dataset. In this work, we propose an uncertainty-based offline RL method that takes into account the confidence of the Q-value prediction and does not require any estimation or sampling of the data distribution. We show that the clipped Q-learning, a technique widely used in online RL, can be leveraged to successfully penalize OOD data points with high prediction uncertainties. Surprisingly, we find that it is possible to substantially outperform existing offline RL methods on various tasks by simply increasing the number of Q-networks along with the clipped Q-learning. Based on this observation, we propose an ensemble-diversified actor-critic algorithm that reduces the number of required ensemble networks down to a tenth compared to the naive ensemble while achieving state-of-the-art performance on most of the D4RL benchmarks considered
翻訳日:2021-10-05 15:50:39 公開日:2021-10-04
# 暗黙のリーマン的凸ポテンシャル写像

Implicit Riemannian Concave Potential Maps ( http://arxiv.org/abs/2110.01288v1 )

ライセンス: Link先を確認
Danilo J. Rezende, S\'ebastien Racani\`ere(参考訳) 我々は、正規化フローを用いた既知の対称性群を持つリーマン多様体上のモデリング密度の問題に興味を持っている。 これは分子動力学や量子シミュレーションのような物理科学に多くの潜在的応用がある。 この研究では、暗黙のニューラルネットワーク層と最適輸送理論のアイデアを組み合わせて、指数写像フローに関する既存の研究の一般化を提案し、Implicit Riemannian Concave Potential Maps, IRCPMs。 ircpmは対称性を組み込むシンプルさのような優れた特性を持ち、odeフローよりも安価である。 安定な最適化のための特性とレイアウト条件に関する初期理論的解析を行う。 最後に, トリおよび球面上の密度推定実験によるIRCPMの特性について述べる。

We are interested in the challenging problem of modelling densities on Riemannian manifolds with a known symmetry group using normalising flows. This has many potential applications in physical sciences such as molecular dynamics and quantum simulations. In this work we combine ideas from implicit neural layers and optimal transport theory to propose a generalisation of existing work on exponential map flows, Implicit Riemannian Concave Potential Maps, IRCPMs. IRCPMs have some nice properties such as simplicity of incorporating symmetries and are less expensive than ODE-flows. We provide an initial theoretical analysis of its properties and layout sufficient conditions for stable optimisation. Finally, we illustrate the properties of IRCPMs with density estimation experiments on tori and spheres.
翻訳日:2021-10-05 15:49:22 公開日:2021-10-04
# 微分スプライン近似

Differentiable Spline Approximations ( http://arxiv.org/abs/2110.01532v1 )

ライセンス: Link先を確認
Minsu Cho, Aditya Balu, Ameya Joshi, Anjana Deva Prasad, Biswajit Khara, Soumik Sarkar, Baskar Ganapathysubramanian, Adarsh Krishnamurthy, Chinmay Hegde(参考訳) 微分可能プログラミングのパラダイムは、勾配に基づく最適化の司法的利用を通じて機械学習のスコープを大幅に強化した。 しかしながら、標準的な微分可能プログラミング手法(autodiffなど)では、通常、機械学習モデルは微分可能で、その適用性を制限する必要がある。 本論文の目的は,スプラインによってモデル化された関数に勾配に基づく最適化を拡張するための,新しい原理的アプローチを使用することである。 そのような関数の(弱)ヤコビアンの形を導出し、暗黙的かつ効率的に計算できるブロックスパース構造を示すことを示す。 全体として、この再設計されたヤコビアンを予測モデルにおける微分可能な「層」の形で活用することで、画像分割、3次元点雲再構成、有限要素解析などの多様なアプリケーションの性能が向上することを示す。

The paradigm of differentiable programming has significantly enhanced the scope of machine learning via the judicious use of gradient-based optimization. However, standard differentiable programming methods (such as autodiff) typically require that the machine learning models be differentiable, limiting their applicability. Our goal in this paper is to use a new, principled approach to extend gradient-based optimization to functions well modeled by splines, which encompass a large family of piecewise polynomial models. We derive the form of the (weak) Jacobian of such functions and show that it exhibits a block-sparse structure that can be computed implicitly and efficiently. Overall, we show that leveraging this redesigned Jacobian in the form of a differentiable "layer" in predictive models leads to improved performance in diverse applications such as image segmentation, 3D point cloud reconstruction, and finite element analysis.
翻訳日:2021-10-05 15:49:12 公開日:2021-10-04
# ブラックボックス学習アルゴリズムのための情報理論一般化境界

Information-theoretic generalization bounds for black-box learning algorithms ( http://arxiv.org/abs/2110.01584v1 )

ライセンス: Link先を確認
Hrayr Harutyunyan, Maxim Raginsky, Greg Ver Steeg, Aram Galstyan(参考訳) 学習アルゴリズムの出力ではなく、予測に含まれる情報に基づいて教師付き学習アルゴリズムにおける情報理論的一般化境界を導出する。 これらの境界は、既存の情報理論境界よりも改善され、より広い範囲のアルゴリズムに適用でき、2つの重要な課題を解決する。 a)決定論的アルゴリズムに有意義な結果を与え (b)推定は極めて容易である。 深層学習における実用シナリオにおいて,提案する境界は一般化ギャップに密接に従っていることを実験的に示す。

We derive information-theoretic generalization bounds for supervised learning algorithms based on the information contained in predictions rather than in the output of the training algorithm. These bounds improve over the existing information-theoretic bounds, are applicable to a wider range of algorithms, and solve two key challenges: (a) they give meaningful results for deterministic algorithms and (b) they are significantly easier to estimate. We show experimentally that the proposed bounds closely follow the generalization gap in practical scenarios for deep learning.
翻訳日:2021-10-05 15:48:58 公開日:2021-10-04
# 分類のための注意ネットワークへの四元表現の追加

Adding Quaternion Representations to Attention Networks for Classification ( http://arxiv.org/abs/2110.01185v1 )

ライセンス: Link先を確認
Nazmul Shahadat and Anthony S. Maida(参考訳) 本稿では, 画像分類精度を向上させるために, 軸アテンションネットワークを改良した。 この修正は、画像分類精度を向上させるために、四元数入力表現で軸接続モジュールを補うことを含む。 我々は,2次元注意操作を2つの連続した1次元操作(分離可能な畳み込みに似ている)に分解し,非軸性注意ネットワークよりも資源集約性が低いため,軸性注意ネットワークを選択した。 4つの実数値入力チャネル間で重みを共有するため、四元エンコーダを選択しました。 我々は、これらの相互リンク表現を入力として、アテンションモジュールがより効果的であると仮定する。 本実験は, 標準軸アテンションネットワークと比較して, 分類精度の向上を反映したこの仮説を支持する。 注意モジュールは、より優れた入力表現を持つので、これは起こります。

This paper introduces a novel modification to axial-attention networks to improve their image classification accuracy. The modification involves supplementing axial-attention modules with quaternion input representations to improve image classification accuracy. We chose axial-attention networks because they factor 2D attention operations into two consecutive 1D operations (similar to separable convolution) and are thus less resource intensive than non-axial attention networks. We chose a quaternion encoder because of they share weights across four real-valued input channels and the weight-sharing has been shown to produce a more interlinked/interwoven output representation. We hypothesize that an attention module can be more effective using these interlinked representations as input. Our experiments support this hypothesis as reflected in the improved classification accuracy compared to standard axial-attention networks. We think this happens because the attention modules have better input representations to work with.
翻訳日:2021-10-05 15:47:36 公開日:2021-10-04
# 類似学習を用いた変分オートエンコーダを用いたインクリメンタルクラス学習

Incremental Class Learning using Variational Autoencoders with Similarity Learning ( http://arxiv.org/abs/2110.01303v1 )

ライセンス: Link先を確認
Jiahao Huo, Terence L. van Zyl(参考訳) インクリメンタル学習中のニューラルネットワークの破滅的な忘れ方はまだ難しい問題である。 以前の研究では、完全に接続されたネットワークにおける破滅的な忘れを調査し、アクティベーション機能や学習アルゴリズムを探求していた。 ニューラルネットワークの応用は、類似性とメトリック学習を含むように拡張されている。 計量学習損失関数が破滅的忘れによってどのように影響を受けるかを理解することは重要な関心事である。 本研究は,段階的な授業学習における4つの有名な計量に基づく損失関数の破滅的忘れについて検討する。 損失関数は、角、コントラスト、中心、三重項損失である。 その結果,複数データセットの損失関数間で壊滅的忘れる確率が異なることがわかった。 角損失はほとんど影響を受けず, 対照的に3重項損失, 中心損失は良好な鉱業技術であった。 既存のインクリメンタル学習技術であるiCARL, EWC, EBLLを実装した。 さらに,ネットワークの中間層を通過した表現を生成するために,VAEを用いた新しい手法を提案する。 本手法は既存の3つの手法を上回った。 類似性学習を伴う漸進学習において,記憶されたイメージを模範として必要としないことを示す。 生成された表現は、事前知識が使用する埋め込み空間の領域を保存するのに役立つため、新しい知識が事前知識を"上書き"しない。

Catastrophic forgetting in neural networks during incremental learning remains a challenging problem. Previous research investigated catastrophic forgetting in fully connected networks, with some earlier work exploring activation functions and learning algorithms. Applications of neural networks have been extended to include similarity and metric learning. It is of significant interest to understand how metric learning loss functions would be affected by catastrophic forgetting. Our research investigates catastrophic forgetting for four well-known metric-based loss functions during incremental class learning. The loss functions are angular, contrastive, centre, and triplet loss. Our results show that the rate of catastrophic forgetting is different across loss functions on multiple datasets. The angular loss was least affected, followed by contrastive, triplet loss, and centre loss with good mining techniques. We implemented three existing incremental learning techniques, iCARL, EWC, and EBLL. We further proposed our novel technique using VAEs to generate representation as exemplars that are passed through intermediate layers of the network. Our method outperformed the three existing techniques. We have shown that we do not require stored images as exemplars for incremental learning with similarity learning. The generated representations can help preserve regions of the embedding space used by prior knowledge so that new knowledge will not "overwrite" prior knowledge.
翻訳日:2021-10-05 15:47:20 公開日:2021-10-04
# 領域一般化のための楽器変数とのドメイン不変性学習

Learning Domain-Invariant Relationship with Instrumental Variable for Domain Generalization ( http://arxiv.org/abs/2110.01438v1 )

ライセンス: Link先を確認
Junkun Yuan, Xu Ma, Kun Kuang, Ruoxuan Xiong, Mingming Gong, Lanfen Lin(参考訳) ドメイン一般化(DG)は、複数のソースドメインから、見えないターゲットドメインをうまく一般化するモデルを学ぶことを目的としている。 既存の手法は主に不変辺分布を持つ入力特徴表現を学習するが、条件分布の不変性は未知領域一般化においてより不可欠である。 本稿では,条件分布に含まれる入力特徴とラベル間のドメイン不変関係を学習するための変数ベース手法を提案する。 興味深いことに、データ生成プロセスの因果的ビューでは、あるドメインの入力特徴が他のドメインに対して有効なインストゥルメンタル変数であることが分かる。 この発見に触発されて、我々は2段階IV法によるDomain-invariant Relationship with Instrumental VariablE (DRIVE)を学習するための、シンプルで効果的なフレームワークを設計した。 具体的には、まず、あるドメインの入力特徴の条件分布を学習し、次に学習された条件分布とラベルを予測することにより、ドメインと不変の関係を推定する。 シミュレーション実験により,提案手法がドメイン不変関係を正確に捉えることを示す。 いくつかのデータセットに対する大規模な実験は、DRIVEが最先端の結果をもたらすことを一貫して示している。

Domain generalization (DG) aims to learn from multiple source domains a model that generalizes well on unseen target domains. Existing methods mainly learn input feature representations with invariant marginal distribution, while the invariance of the conditional distribution is more essential for unknown domain generalization. This paper proposes an instrumental variable-based approach to learn the domain-invariant relationship between input features and labels contained in the conditional distribution. Interestingly, with a causal view on the data generating process, we find that the input features of one domain are valid instrumental variables for other domains. Inspired by this finding, we design a simple yet effective framework to learn the Domain-invariant Relationship with Instrumental VariablE (DRIVE) via a two-stage IV method. Specifically, it first learns the conditional distribution of input features of one domain given input features of another domain, and then it estimates the domain-invariant relationship by predicting labels with the learned conditional distribution. Simulation experiments show the proposed method accurately captures the domain-invariant relationship. Extensive experiments on several datasets consistently demonstrate that DRIVE yields state-of-the-art results.
翻訳日:2021-10-05 15:46:45 公開日:2021-10-04
# 予測情報を用いた入力特徴の同定によるきめ細かいニューラルネットワーク説明

Fine-Grained Neural Network Explanation by Identifying Input Features with Predictive Information ( http://arxiv.org/abs/2110.01471v1 )

ライセンス: Link先を確認
Yang Zhang, Ashkan Khakzar, Yawei Li, Azade Farshad, Seong Tae Kim, Nassir Navab(参考訳) ブラックボックスニューラルネットワークを照らす主要なアプローチの1つは、特徴属性、すなわち、ネットワークの予測に対する入力特徴の重要性を特定することである。 特徴の予測情報は近年,その重要性の指標として提案されている。 これまでのところ、予測情報は、ネットワーク内に情報ボトルネックを置くことで、潜在機能に対してのみ識別される。 入力領域における予測情報を用いて特徴を識別する手法を提案する。 本手法は入力特徴情報のきめ細かな識別を行い,ネットワークアーキテクチャに依存しない。 提案手法の核となる考え方は入力のボトルネックを生かして,予測潜在機能に関連する入力機能のみを通過させることである。 本手法は, 主観的特徴帰属評価実験を用いて, いくつかの特徴帰属法と比較した。 コードは公開されている。

One principal approach for illuminating a black-box neural network is feature attribution, i.e. identifying the importance of input features for the network's prediction. The predictive information of features is recently proposed as a proxy for the measure of their importance. So far, the predictive information is only identified for latent features by placing an information bottleneck within the network. We propose a method to identify features with predictive information in the input domain. The method results in fine-grained identification of input features' information and is agnostic to network architecture. The core idea of our method is leveraging a bottleneck on the input that only lets input features associated with predictive latent features pass through. We compare our method with several feature attribution methods using mainstream feature attribution evaluation experiments. The code is publicly available.
翻訳日:2021-10-05 15:46:26 公開日:2021-10-04
# 胸部X線自動診断のための分散学習手法

Distributed Learning Approaches for Automated Chest X-Ray Diagnosis ( http://arxiv.org/abs/2110.01474v1 )

ライセンス: Link先を確認
Edoardo Giacomello, Michele Cataldo, Daniele Loiacono, Pier Luca Lanzi(参考訳) ディープラーニングは近年,さまざまなタスクに対処するためのアプローチとして定着しています。 医療は、臨床医が患者のデータを分析し、診断を行うのに役立つため、ディープラーニングアプローチの最も有望な応用分野の1つです。 しかし、病院や他の臨床機関で毎年収集される膨大なデータにもかかわらず、健康に関連するデータなどの機密データに関するプライバシー規制は、これらの方法の適用に深刻な課題をもたらす。 本研究は,医療機関のコンソーシアムが特定の疾患を特定するための機械学習モデルをトレーニングする必要がある場合のプライバシ問題に対処する戦略に焦点を当て,最新の2つの分散学習アプローチであるフェデレートラーニングとスプリットラーニングのパフォーマンスを,自動胸部X線診断のタスクで比較する。 特に,本分析では,クライアントデータにおけるデータ分散の違いが,機関間のデータ交換頻度に与える影響について検討した。

Deep Learning has established in the latest years as a successful approach to address a great variety of tasks. Healthcare is one of the most promising field of application for Deep Learning approaches since it would allow to help clinicians to analyze patient data and perform diagnoses. However, despite the vast amount of data collected every year in hospitals and other clinical institutes, privacy regulations on sensitive data - such as those related to health - pose a serious challenge to the application of these methods. In this work, we focus on strategies to cope with privacy issues when a consortium of healthcare institutions needs to train machine learning models for identifying a particular disease, comparing the performances of two recent distributed learning approaches - Federated Learning and Split Learning - on the task of Automated Chest X-Ray Diagnosis. In particular, in our analysis we investigated the impact of different data distributions in client data and the possible policies on the frequency of data exchange between the institutions.
翻訳日:2021-10-05 15:46:14 公開日:2021-10-04
# AASIST:統合スペクトロテングラフアテンションネットワークを用いた音声アンチスプーフィング

AASIST: Audio Anti-Spoofing using Integrated Spectro-Temporal Graph Attention Networks ( http://arxiv.org/abs/2110.01200v1 )

ライセンス: Link先を確認
Jee-weon Jung, Hee-Soo Heo, Hemlata Tak, Hye-jin Shim, Joon Son Chung, Bong-Jin Lee, Ha-Jin Yu, Nicholas Evans(参考訳) ボナフィド発話とスプーフを区別するアーティファクトは、スペクトル領域や時間領域に存在する。 信頼性の高い検出は通常、計算的に要求されるアンサンブルシステムに依存し、各サブシステムは特定のアーチファクトに調整される。 我々は,スコアレベルのアンサンブルを必要とせず,幅広い種類のスプーフィング攻撃を検出できる効率的な単一システムの開発を目指している。 異種時間領域とスペクトル領域にまたがるアーティファクトを異種注意機構とスタックノードでモデル化した新しい異種重ねグラフアテンション層を提案する。 競争機構と拡張された読み出しスキームを含む新たな最大グラフ演算により、AASISTと呼ばれる我々のアプローチは、現在の最先端技術よりも20%向上する。 85kのパラメータしか持たない軽量版であるaasist-lでさえ、競合システムよりも優れている。

Artefacts that differentiate spoofed from bona-fide utterances can reside in spectral or temporal domains. Their reliable detection usually depends upon computationally demanding ensemble systems where each subsystem is tuned to some specific artefacts. We seek to develop an efficient, single system that can detect a broad range of different spoofing attacks without score-level ensembles. We propose a novel heterogeneous stacking graph attention layer which models artefacts spanning heterogeneous temporal and spectral domains with a heterogeneous attention mechanism and a stack node. With a new max graph operation that involves a competitive mechanism and an extended readout scheme, our approach, named AASIST, outperforms the current state-of-the-art by 20% relative. Even a lightweight variant, AASIST-L, with only 85K parameters, outperforms all competing systems.
翻訳日:2021-10-05 15:45:03 公開日:2021-10-04
# ポイントプロセス評価マトリックスのロウクラスタリング

Row-clustering of a Point Process-valued Matrix ( http://arxiv.org/abs/2110.01207v1 )

ライセンス: Link先を確認
Lihao Yin and Ganggang Xu and Huiyan Sang and Yongtao Guan(参考訳) さまざまなプラットフォームから収集された構造化ポイントプロセスデータは、機械学習コミュニティに新たな課題をもたらす。 繰り返し観測されるマーク点過程に行列構造を付与することにより、観測データの潜在的な不均一性を特定するための多レベルマーク点過程の混合モデルを提案する。 具体的には,このような行列の対数ガウスコックス過程とクラスタ列をマークした行列について検討する。 点過程の関数主成分分析(FPCA)と組み合わせた半パラメトリック期待解(ES)アルゴリズムをモデル推定のために提案する。 提案手法の有効性をシミュレーション研究と実データ解析により実証した。

Structured point process data harvested from various platforms poses new challenges to the machine learning community. By imposing a matrix structure to repeatedly observed marked point processes, we propose a novel mixture model of multi-level marked point processes for identifying potential heterogeneity in the observed data. Specifically, we study a matrix whose entries are marked log-Gaussian Cox processes and cluster rows of such a matrix. An efficient semi-parametric Expectation-Solution (ES) algorithm combined with functional principal component analysis (FPCA) of point processes is proposed for model estimation. The effectiveness of the proposed framework is demonstrated through simulation studies and a real data analysis.
翻訳日:2021-10-05 15:42:53 公開日:2021-10-04
# 全モードにおけるPARAFAC2制約に対するAO-ADMMアプローチ

An AO-ADMM approach to constraining PARAFAC2 on all modes ( http://arxiv.org/abs/2110.01278v1 )

ライセンス: Link先を確認
Marie Roald, Carla Schenker, Rasmus Bro, Jeremy E. Cohen, Evrim Acar(参考訳) データマイニング、神経科学、ケモメトリックスといった様々な分野で、データセットの1つのモードにまたがるバリエーションでマルチウェイ計測を分析することは、課題である。 例えば、測定値は時間とともに進化するか、時間プロファイルが整っていない場合があります。 PARAFAC2モデルは、基礎となる因子行列を1つのモード(すなわち進化モード)でスライス間で変化させることによって、そのようなデータを分析するのに成功している。 PARAFAC2モデルに適合する従来のアプローチは、進化する因子行列を暗黙的に推定することで、PARAFAC2モデルの一定の積の制約を処理する、最小二乗アルゴリズムを交互に使用することである。 このアプローチはこれらの因子行列を正規化することを難しくする。 現在、一般のペナルティ関数や厳密な制約を柔軟に課すアルゴリズムは存在しない。 本稿では,この課題に対処し,暗黙的推定を避けるために,乗算器の交互方向法(AO-ADMM)との交互最適化に基づくPARAFAC2の組付けアルゴリズムを提案する。 シミュレーションデータに関する数値実験により,提案手法のPARAFAC2 AO-ADMMアプローチは柔軟な制約を実現し,基礎となるパターンを正確に復元し,最先端技術と比較して計算効率がよいことを示す。 また、実世界のクロマトグラフィーデータセットに適用し、進化モードの制約が抽出されたパターンの解釈可能性を向上させることを示す。

Analyzing multi-way measurements with variations across one mode of the dataset is a challenge in various fields including data mining, neuroscience and chemometrics. For example, measurements may evolve over time or have unaligned time profiles. The PARAFAC2 model has been successfully used to analyze such data by allowing the underlying factor matrices in one mode (i.e., the evolving mode) to change across slices. The traditional approach to fit a PARAFAC2 model is to use an alternating least squares-based algorithm, which handles the constant cross-product constraint of the PARAFAC2 model by implicitly estimating the evolving factor matrices. This approach makes imposing regularization on these factor matrices challenging. There is currently no algorithm to flexibly impose such regularization with general penalty functions and hard constraints. In order to address this challenge and to avoid the implicit estimation, in this paper, we propose an algorithm for fitting PARAFAC2 based on alternating optimization with the alternating direction method of multipliers (AO-ADMM). With numerical experiments on simulated data, we show that the proposed PARAFAC2 AO-ADMM approach allows for flexible constraints, recovers the underlying patterns accurately, and is computationally efficient compared to the state-of-the-art. We also apply our model to a real-world chromatography dataset, and show that constraining the evolving mode improves the interpretability of the extracted patterns.
翻訳日:2021-10-05 15:42:44 公開日:2021-10-04
# 空間分解能条件が変化する場合の自動空中動物検出

Automated Aerial Animal Detection When Spatial Resolution Conditions Are Varied ( http://arxiv.org/abs/2110.01329v1 )

ライセンス: Link先を確認
Jasper Brown, Yongliang Qiao, Cameron Clark, Sabrina Lomax, Khalid Rafique, Salah Sukkarieh(参考訳) 家畜がどこにあるかを知ることは、最適化された管理と調整を可能にする。 しかし、オーストラリアの農場は農業の利益、動物福祉、環境に影響を及ぼす家畜の多くが監視されていないという大きな意味を持つ。 衛星画像の解析による効果的な動物像定位と計数は、この管理ハードルを克服するが、高解像度衛星画像は高価である。 したがって、コストを最小限に抑えるために、正確な家畜検出を可能にする最低空間分解能データを選択する必要がある。 本研究では,牛,羊,犬における物体検出性能と空間劣化との関係について検討した。 精密な地中真理は、高解像度のドローン画像を用いて確立され、様々な地中サンプル距離(GSD)にダウンサンプリングされた。 各種光学特性に対応する点拡散関数 (PSF) を生成するために, 円形およびカセグリン開口光学の両方をシミュレーションした。 ガウシアンとして近似するのではなく、PSFをシミュレートすることで、衛星画像の空間分解能とぼやけた構造を正確に分解した。 既存の2つのデータセットを組み合わせて、YoloV5オブジェクト検出ネットワークをトレーニングし、テストした。 検出器性能は0.5m/pxのGSD付近で急降下し, このGSD領域のPSFマトリックス構造と関連していた。 直径0.5m/px gsdでカセグリンを用いた場合、検出器マップの性能は52%低下した。 全体的なぼやけたマグニチュードは、内部ネットワークの解像度と同様、gsdに匹敵する影響も小さかった。 本研究は,動物検出タスクにおけるリモートセンシングデータ要求の選択を通知し,農家や生態学者が安心して,よりアクセス可能な中分解能画像を利用できるようにした。

Knowing where livestock are located enables optimized management and mustering. However, Australian farms are large meaning that many of Australia's livestock are unmonitored which impacts farm profit, animal welfare and the environment. Effective animal localisation and counting by analysing satellite imagery overcomes this management hurdle however, high resolution satellite imagery is expensive. Thus, to minimise cost the lowest spatial resolution data that enables accurate livestock detection should be selected. In our work, we determine the association between object detector performance and spatial degradation for cattle, sheep and dogs. Accurate ground truth was established using high resolution drone images which were then downsampled to various ground sample distances (GSDs). Both circular and cassegrain aperture optics were simulated to generate point spread functions (PSFs) corresponding to various optical qualities. By simulating the PSF, rather than approximating it as a Gaussian, the images were accurately degraded to match the spatial resolution and blurring structure of satellite imagery. Two existing datasets were combined and used to train and test a YoloV5 object detection network. Detector performance was found to drop steeply around a GSD of 0.5m/px and was associated with PSF matrix structure within this GSD region. Detector mAP performance fell by 52 percent when a cassegrain, rather than circular, aperture was used at a 0.5m/px GSD. Overall blurring magnitude also had a small impact when matched to GSD, as did the internal network resolution. Our results here inform the selection of remote sensing data requirements for animal detection tasks, allowing farmers and ecologists to use more accessible medium resolution imagery with confidence.
翻訳日:2021-10-05 15:41:24 公開日:2021-10-04
# certainnet: オブジェクト検出のためのサンプリングフリー不確実性推定

CertainNet: Sampling-free Uncertainty Estimation for Object Detection ( http://arxiv.org/abs/2110.01604v1 )

ライセンス: Link先を確認
Stefano Gasperini, Jan Haug, Mohammad-Ali Nikouei Mahani, Alvaro Marcos-Ramiro, Nassir Navab, Benjamin Busam, Federico Tombari(参考訳) ニューラルネットワークの不確実性の推定は、安全クリティカルな設定において基本的な役割を果たす。 自律運転の認識において、不確実性を測定することは、経路計画などの下流タスクに、安全なナビゲーションに使用可能な追加の校正情報を提供することを意味する。 本研究では,物体検出のためのサンプリングフリー不確かさ推定手法を提案する。 私たちはそれを certainnet と呼び、オブジェクト、クラス、場所、サイズといった出力信号ごとに別々の不確実性を提供する最初の方法です。 そこで本研究では,不確実性を考慮したヒートマップを提案し,検出器が提供する隣接境界ボックスを推定時に活用する。 我々は、KITTIでトレーニングされたモデルを用いたBDD100KとnuImagesというドメイン外のサンプルを用いて、検出性能と異なる不確実性推定の品質を別々に評価した。 さらに,位置情報と大きさの不確実性を評価するための新しい指標を提案する。 目に見えないデータセットに転送する場合、CertainNetは、リアルタイムであり、高品質で包括的な不確実性推定を提供するとともに、従来の方法やアンサンブルよりも大幅に優れた一般化を行う。

Estimating the uncertainty of a neural network plays a fundamental role in safety-critical settings. In perception for autonomous driving, measuring the uncertainty means providing additional calibrated information to downstream tasks, such as path planning, that can use it towards safe navigation. In this work, we propose a novel sampling-free uncertainty estimation method for object detection. We call it CertainNet, and it is the first to provide separate uncertainties for each output signal: objectness, class, location and size. To achieve this, we propose an uncertainty-aware heatmap, and exploit the neighboring bounding boxes provided by the detector at inference time. We evaluate the detection performance and the quality of the different uncertainty estimates separately, also with challenging out-of-domain samples: BDD100K and nuImages with models trained on KITTI. Additionally, we propose a new metric to evaluate location and size uncertainties. When transferring to unseen datasets, CertainNet generalizes substantially better than previous methods and an ensemble, while being real-time and providing high quality and comprehensive uncertainty estimates.
翻訳日:2021-10-05 15:40:53 公開日:2021-10-04
# 未知共分散を持つガウス系混合物のクラスタリング

Clustering a Mixture of Gaussians with Unknown Covariance ( http://arxiv.org/abs/2110.01602v1 )

ライセンス: Link先を確認
Damek Davis, Mateo Diaz, Kaizheng Wang(参考訳) 本稿では,共通だが未知の共分散行列を持つガウスの混合データを用いたクラスタリング問題について検討する。 まず,2つの等大成分のガウス混合を考察し,最大確率推定に基づく最大カット整数プログラムを導出する。 我々は,その解が,標本数を次元で線形に増やすと,対数係数まで最適な誤分類率を達成することを証明した。 しかし、マックスカット問題の解法は計算的に難解である。 これを克服するために,最適速度を達成するが,二次的なサンプルサイズを必要とする効率的なスペクトルアルゴリズムを開発した。 このサンプルの複雑さはマックスカット問題よりは悪いが、多項式時間法がうまく機能しないと推測する。 さらに,統計計算ギャップの存在を支持する数値的および理論的証拠を収集する。 最後に、max-cutプログラムをk$-meansプログラムに一般化し、多成分混合とおそらく不等重みを扱う。 輸送コストの不平等を満たす分布の混合に対して、ガウス分布と強い対数分布を含む同様の最適性を保証する。

We investigate a clustering problem with data from a mixture of Gaussians that share a common but unknown, and potentially ill-conditioned, covariance matrix. We start by considering Gaussian mixtures with two equally-sized components and derive a Max-Cut integer program based on maximum likelihood estimation. We prove its solutions achieve the optimal misclassification rate when the number of samples grows linearly in the dimension, up to a logarithmic factor. However, solving the Max-cut problem appears to be computationally intractable. To overcome this, we develop an efficient spectral algorithm that attains the optimal rate but requires a quadratic sample size. Although this sample complexity is worse than that of the Max-cut problem, we conjecture that no polynomial-time method can perform better. Furthermore, we gather numerical and theoretical evidence that supports the existence of a statistical-computational gap. Finally, we generalize the Max-Cut program to a $k$-means program that handles multi-component mixtures with possibly unequal weights. It enjoys similar optimality guarantees for mixtures of distributions that satisfy a transportation-cost inequality, encompassing Gaussian and strongly log-concave distributions.
翻訳日:2021-10-05 15:40:35 公開日:2021-10-04
# TLDR9+:ソーシャルメディア投稿の極端要約のための大規模リソース

TLDR9+: A Large Scale Resource for Extreme Summarization of Social Media Posts ( http://arxiv.org/abs/2110.01159v1 )

ライセンス: Link先を確認
Sajad Sotudeh, Hanieh Deilamsalehi, Franck Dernoncourt, Nazli Goharian(参考訳) 要約システムの開発における最近のモデルは、数百万のパラメータで構成されており、モデルの性能は、トレーニングデータの存在量に大きく依存している。 多くの既存の要約コーパスは数千万から100万のデータを格納しているが、大規模な要約データセットの生成は、まだ調査されていない。 実際、より多くのデータがトレーニングパターンを一般化し、見当たらないデータになる。 本稿では,reddit議論フォーラム(https://github.com/sajastu/reddit_collector)から抽出された900万以上のトレーニングインスタンスを含む,大規模な要約データセットであるtldr9+を紹介する。 このデータセットは、特に極端な要約を行うために収集され(例えば、高い圧縮と抽象化で1セント要約を生成する)、以前提案されたデータセットより2倍以上大きい。 さらに一歩進んで、人間のアノテーションの助けを借りて、TLDR9+からHigh-Qualityインスタンスをサンプリングし、TLDRHQデータセットと呼ぶことによって、よりきめ細かいデータセットを抽出します。 さらに,提案するデータセットに異なる最先端の要約モデルを示す。

Recent models in developing summarization systems consist of millions of parameters and the model performance is highly dependent on the abundance of training data. While most existing summarization corpora contain data in the order of thousands to one million, generation of large-scale summarization datasets in order of couple of millions is yet to be explored. Practically, more data is better at generalizing the training patterns to unseen data. In this paper, we introduce TLDR9+ -- a large-scale summarization dataset -- containing over 9 million training instances extracted from Reddit discussion forum (https://github.com/sajastu/reddit_collector). This dataset is specifically gathered to perform extreme summarization (i.e., generating one-sentence summary in high compression and abstraction) and is more than twice larger than the previously proposed dataset. We go one step further and with the help of human annotations, we distill a more fine-grained dataset by sampling High-Quality instances from TLDR9+ and call it TLDRHQ dataset. We further pinpoint different state-of-the-art summarization models on our proposed datasets.
翻訳日:2021-10-05 15:38:10 公開日:2021-10-04
# セマンティクスの保存性評価のための新しい指標

A Novel Metric for Evaluating Semantics Preservation ( http://arxiv.org/abs/2110.01176v1 )

ライセンス: Link先を確認
Letian Peng, Zuchao Li and Hai Zhao(参考訳) 本稿では,事前学習言語モデル(PLM)を活用し,文の編集過程のセマンティックス保存を正確に評価する。 筆者らの指標であるNDD(Neighbor Distribution Divergence)は,マスク言語モデル(MLM)による近隣語分布予測の障害を評価する。 NDDはテキスト類似性によって容易に無視される意味論の正確な変化を検出することができる。 NDDの特性を生かして,抽出文圧縮のための教師なしおよびトレーニング不要なアルゴリズムを実装した。 nddに基づくアルゴリズムは,従来のパープレキシティに基づく非教師なしアルゴリズムを大きなマージンで上回っている。 解釈可能性に関するさらなる検討のために,構文依存ツリーバンクをプルーニングすることでNDDを評価し,述語検出にもNDDを適用した。

In this paper, we leverage pre-trained language models (PLMs) to precisely evaluate the semantics preservation of edition process on sentences. Our metric, Neighbor Distribution Divergence (NDD), evaluates the disturbance on predicted distribution of neighboring words from mask language model (MLM). NDD is capable of detecting precise changes in semantics which are easily ignored by text similarity. By exploiting the property of NDD, we implement a unsupervised and even training-free algorithm for extractive sentence compression. We show that our NDD-based algorithm outperforms previous perplexity-based unsupervised algorithm by a large margin. For further exploration on interpretability, we evaluate NDD by pruning on syntactic dependency treebanks and apply NDD for predicate detection as well.
翻訳日:2021-10-05 15:37:54 公開日:2021-10-04
# 言語モデルのFew-Shot学習のための自己学習の再検討

Revisiting Self-Training for Few-Shot Learning of Language Model ( http://arxiv.org/abs/2110.01256v1 )

ライセンス: Link先を確認
Yiming Chen, Yan Zhang, Chen Zhang, Grandee Lee, Ran Cheng, and Haizhou Li(参考訳) ラベルなしデータにはタスク関連情報が豊富にあるため、言語モデルの素早い学習に有用であることが証明されている。 問題は、このようなデータを効果的に利用する方法だ。 本稿では,言語モデルの微調整のための自己学習手法を再検討し,最先端のプロンプトベースの少数ショット学習者sflmを提案する。 弱化と強化によるテキストサンプルの2つのビューが与えられた場合、SFLMは弱化バージョンに擬似ラベルを生成する。 そして、強強化バージョンで微調整された場合、モデルは同じ擬似ラベルを予測する。 この単純なアプローチは、6つの文分類と6つの文ペア分類ベンチマークタスクにおいて、他の最先端の教師付きおよび半教師付きの手法よりも優れている。 加えて、SFLMはいくつかのドメイン内のラベルなしデータのみに依存している。 我々は,拡張手法,モデルスケール,タスク間での知識伝達など,様々な条件下で提案手法の堅牢性を示すため,包括的な分析を行う。

As unlabeled data carry rich task-relevant information, they are proven useful for few-shot learning of language model. The question is how to effectively make use of such data. In this work, we revisit the self-training technique for language model fine-tuning and present a state-of-the-art prompt-based few-shot learner, SFLM. Given two views of a text sample via weak and strong augmentation techniques, SFLM generates a pseudo label on the weakly augmented version. Then, the model predicts the same pseudo label when fine-tuned with the strongly augmented version. This simple approach is shown to outperform other state-of-the-art supervised and semi-supervised counterparts on six sentence classification and six sentence-pair classification benchmarking tasks. In addition, SFLM only relies on a few in-domain unlabeled data. We conduct a comprehensive analysis to demonstrate the robustness of our proposed approach under various settings, including augmentation techniques, model scale, and few-shot knowledge transfer across tasks.
翻訳日:2021-10-05 15:37:41 公開日:2021-10-04
# 科学的文書要約のための情報基盤の活用

Leveraging Information Bottleneck for Scientific Document Summarization ( http://arxiv.org/abs/2110.01280v1 )

ライセンス: Link先を確認
Jiaxin Ju, Ming Liu, Huan Yee Koh, Yuan Jin, Lan Du and Shirui Pan(参考訳) 本稿では,情報ボトルネック原理に基づく科学的長文要約のための教師なし抽出手法を提案する。 文圧縮にInformation Bottleneck原則を用いた以前の研究に触発され、2つのステップで文書レベルの要約に拡張する。 最初のステップでは、signal(s)をクエリとして使用して、ソースドキュメントから重要なコンテンツを取得する。 そして、事前訓練された言語モデルにより、さらに文検索と編集を行い、最終的な抽出した要約を返す。 重要なことは、異なる信号で柔軟にマルチビューフレームワークに拡張できるということです。 3つの科学文書データセットの自動評価は、提案手法の有効性を検証する。 さらに人間による評価から,抽出された要約は,従来のシステムよりも多くの内容をカバーすることが示唆された。

This paper presents an unsupervised extractive approach to summarize scientific long documents based on the Information Bottleneck principle. Inspired by previous work which uses the Information Bottleneck principle for sentence compression, we extend it to document level summarization with two separate steps. In the first step, we use signal(s) as queries to retrieve the key content from the source document. Then, a pre-trained language model conducts further sentence search and edit to return the final extracted summaries. Importantly, our work can be flexibly extended to a multi-view framework by different signals. Automatic evaluation on three scientific document datasets verifies the effectiveness of the proposed framework. The further human evaluation suggests that the extracted summaries cover more content aspects than previous systems.
翻訳日:2021-10-05 15:37:24 公開日:2021-10-04
# 文学領域における主人公のタガー--新しいデータセットと人格関係の方法

Protagonists' Tagger in Literary Domain -- New Datasets and a Method for Person Entity Linkage ( http://arxiv.org/abs/2110.01349v1 )

ライセンス: Link先を確認
Weronika {\L}ajewska, Anna Wr\'oblewska(参考訳) 小説などの長文のセマンティックな注釈は、自然言語処理(NLP)において未解決の課題である。 本研究は、人物の実体を検知し、小説中の人物(特に主人公)を識別するユニークなアイデンティティを割り当てる問題を考察する。 我々は、個人エンティティリンク(エンティティ認識と曖昧さ)と新しいテストデータセットを作成する方法を準備した。 データセットは、小説読者が手動で注釈付けした13の古典小説から1,300の文章で構成されている。 本研究は,(1)人物の名前付き実体認識(NER),(2)名前付き実体曖昧化(NED)の2段階から構成される。 プロタゴニストのTaggerは、準備されたテストセットで83%以上の精度とリコールを達成している。 最後に,13冊の全文小説のコーパスを,3万5千点以上の文学的人物の言及を含む主人公タグ付きで収集した。

Semantic annotation of long texts, such as novels, remains an open challenge in Natural Language Processing (NLP). This research investigates the problem of detecting person entities and assigning them unique identities, i.e., recognizing people (especially main characters) in novels. We prepared a method for person entity linkage (named entity recognition and disambiguation) and new testing datasets. The datasets comprise 1,300 sentences from 13 classic novels of different genres that a novel reader had manually annotated. Our process of identifying literary characters in a text, implemented in protagonistTagger, comprises two stages: (1) named entity recognition (NER) of persons, (2) named entity disambiguation (NED) - matching each recognized person with the literary character's full name, based on approximate text matching. The protagonistTagger achieves both precision and recall of above 83% on the prepared testing sets. Finally, we gathered a corpus of 13 full-text novels tagged with protagonistTagger that comprises more than 35,000 mentions of literary characters.
翻訳日:2021-10-05 15:37:12 公開日:2021-10-04
# NLIの一般化:単純なヒューリスティックスを超える方法(ノー)

Generalization in NLI: Ways (Not) To Go Beyond Simple Heuristics ( http://arxiv.org/abs/2110.01518v1 )

ライセンス: Link先を確認
Prajjwal Bhargava, Aleksandr Drozd, Anna Rogers(参考訳) nluの最近の進歩の多くは、モデルの学習データセット固有のヒューリスティックによるものであることが示されている。 我々は, BERT ベースのアーキテクチャ(アダプタ, シームズ変換器, HEXデバイアス)における NLI (MNLI から HANS データセットまで) の一般化のケーススタディを行い, データをサブサンプリングし, モデルサイズを増大させた。 2つの成功戦略と3つの失敗戦略を報告し、トランスフォーマベースのモデルがどのように一般化するかについての洞察を提供する。

Much of recent progress in NLU was shown to be due to models' learning dataset-specific heuristics. We conduct a case study of generalization in NLI (from MNLI to the adversarially constructed HANS dataset) in a range of BERT-based architectures (adapters, Siamese Transformers, HEX debiasing), as well as with subsampling the data and increasing the model size. We report 2 successful and 3 unsuccessful strategies, all providing insights into how Transformer-based models learn to generalize.
翻訳日:2021-10-05 15:36:56 公開日:2021-10-04
# 機械学習を用いた画像分類器のベンチマーク安全モニタ

Benchmarking Safety Monitors for Image Classifiers with Machine Learning ( http://arxiv.org/abs/2110.01232v1 )

ライセンス: Link先を確認
Raul Sena Ferreira (LAAS), Jean Arlat (LAAS), Jeremie Guiochet (LAAS), H\'el\`ene Waeselynck (LAAS)(参考訳) 高精度機械学習(ML)画像分類器は、動作時に失敗しないことを保証できない。 したがって、自動運転車のような安全クリティカルなアプリケーションへの展開は、まだ未解決の問題である。 安全モニタなどのフォールトトレランス機構の使用は、ML分類器のエラーにもかかわらずシステムを安全な状態に保つ上で有望な方向である。 MLからの予測は安全性に直接影響を与えるコア情報であるため、MLモデル自体の監視に重点を置いている作業も多い。 したがって、安全クリティカルなアプリケーションの文脈でそのようなモニタの効率をチェックすることは、大きな課題である。 そこで本稿は,ml画像分類器のベンチマークモニタのためのベースラインフレームワークの構築を目的とする。 さらに,データ生成から評価まで,パイプライン全体をカバーするフレームワークを提案する。 本手法は通常文献で提案するよりも幅広い指標を用いて性能モニタリングを行う。 さらに,画像分類器のためのアウトオブディストリビューションデータの5つのカテゴリ(クラス新規性,ノイズ,異常,分布シフト,敵意攻撃)を含む79のベンチマークデータセットにおいて,3つの異なるモニタアプローチをベンチマークした。 その結果,このモニターはランダムなモニターほど正確ではないことがわかった。 再現性に関するすべての実験のコードも公開しています。

High-accurate machine learning (ML) image classifiers cannot guarantee that they will not fail at operation. Thus, their deployment in safety-critical applications such as autonomous vehicles is still an open issue. The use of fault tolerance mechanisms such as safety monitors is a promising direction to keep the system in a safe state despite errors of the ML classifier. As the prediction from the ML is the core information directly impacting safety, many works are focusing on monitoring the ML model itself. Checking the efficiency of such monitors in the context of safety-critical applications is thus a significant challenge. Therefore, this paper aims at establishing a baseline framework for benchmarking monitors for ML image classifiers. Furthermore, we propose a framework covering the entire pipeline, from data generation to evaluation. Our approach measures monitor performance with a broader set of metrics than usually proposed in the literature. Moreover, we benchmark three different monitor approaches in 79 benchmark datasets containing five categories of out-of-distribution data for image classifiers: class novelty, noise, anomalies, distributional shifts, and adversarial attacks. Our results indicate that these monitors are no more accurate than a random monitor. We also release the code of all experiments for reproducibility.
翻訳日:2021-10-05 15:35:56 公開日:2021-10-04
# BPFNet:バイモーダルパルププリントアライメントと融合のための統一フレームワーク

BPFNet: A Unified Framework for Bimodal Palmprint Alignment and Fusion ( http://arxiv.org/abs/2110.01179v1 )

ライセンス: Link先を確認
Zhaoqun Li, Xu Liang, Dandan Fan, Jinxing Li, David Zhang(参考訳) バイモーダルパームプリント認識は、パームプリントとパーム静脈画像を同時に活用し、多モデル情報融合による高精度化を実現し、強い反falsification特性を有する。 認識パイプラインでは,手のひらの検出と領域間一致(roi)のアライメントが2つの重要なステップである。 既存のほとんどの手法は、キーポイント検出アルゴリズムによってパームROIをローカライズするが、キーポイント検出タスクの本質的な困難により、結果は満足できない。 Besides, the ROI alignment and fusion algorithms at image-level are not fully investigaged.To bridge the gap, in this paper, we propose Bimodal Palmprint Fusion Network (BPFNet) which focuses on ROI localization, alignment and bimodal image fusion.BPFNet is an end-to-end framework containing two subnets: The detection network directly regresses the palmprint ROIs based on bounding box prediction and conducts alignment by translation estimation.In the downstream,the bimodal fusion network implements bimodal ROI image fusion leveraging a novel proposed cross-modal selection scheme. BPFNetの有効性を示すため,大規模なタッチレスパームプリントデータセットCUHKSZ-v1とTongJiについて実験を行い,提案手法は最先端の性能を実現する。

Bimodal palmprint recognition leverages palmprint and palm vein images simultaneously,which achieves high accuracy by multi-model information fusion and has strong anti-falsification property. In the recognition pipeline, the detection of palm and the alignment of region-of-interest (ROI) are two crucial steps for accurate matching. Most existing methods localize palm ROI by keypoint detection algorithms, however the intrinsic difficulties of keypoint detection tasks make the results unsatisfactory. Besides, the ROI alignment and fusion algorithms at image-level are not fully investigaged.To bridge the gap, in this paper, we propose Bimodal Palmprint Fusion Network (BPFNet) which focuses on ROI localization, alignment and bimodal image fusion.BPFNet is an end-to-end framework containing two subnets: The detection network directly regresses the palmprint ROIs based on bounding box prediction and conducts alignment by translation estimation.In the downstream,the bimodal fusion network implements bimodal ROI image fusion leveraging a novel proposed cross-modal selection scheme. To show the effectiveness of BPFNet,we carry out experiments on the large-scale touchless palmprint datasets CUHKSZ-v1 and TongJi and the proposed method achieves state-of-the-art performances.
翻訳日:2021-10-05 15:32:09 公開日:2021-10-04
# レシピ生成と食品検索のための構造表現の学習

Learning Structural Representations for Recipe Generation and Food Retrieval ( http://arxiv.org/abs/2110.01209v1 )

ライセンス: Link先を確認
Hao Wang, Guosheng Lin, Steven C. H. Hoi, Chunyan Miao(参考訳) 食物は人間の日常生活にとって重要である。 本稿では,レシピ生成と食品検索タスクに資する長めのレシピの構造表現を学ぶことに関心を寄せる。 画像キャプションタスクに類似した食品画像や食材に基づいて調理指示を生成するオープン研究課題を主に検討した。 しかし、画像キャプションデータセットと比較すると、ターゲットのレシピは長い段落であり、構造情報のアノテーションを持たない。 以上の制限に対処するため、食品レシピ生成タスクに取り組むために、構造認識ネットワーク(SGN)の新たなフレームワークを提案する。 提案手法は,(1)学習前の文レベルの木構造ラベルを得るための教師なし学習アプローチ,(2)学習前の木構造ラベルを監督した画像からターゲットレシピのツリーを生成する,(3)推論された木構造をレシピ生成手順に統合する,という,新しい考え方を体系的な枠組みで取り入れたものである。 提案モデルは高品質でコヒーレントなレシピを作成でき、ベンチマークRecipe1Mデータセット上で最先端のパフォーマンスを実現する。 また,本研究の食品間モーダル検索作業における学習木構造の有用性を検証した。

Food is significant to human daily life. In this paper, we are interested in learning structural representations for lengthy recipes, that can benefit the recipe generation and food retrieval tasks. We mainly investigate an open research task of generating cooking instructions based on food images and ingredients, which is similar to the image captioning task. However, compared with image captioning datasets, the target recipes are lengthy paragraphs and do not have annotations on structure information. To address the above limitations, we propose a novel framework of Structure-aware Generation Network (SGN) to tackle the food recipe generation task. Our approach brings together several novel ideas in a systematic framework: (1) exploiting an unsupervised learning approach to obtain the sentence-level tree structure labels before training; (2) generating trees of target recipes from images with the supervision of tree structure labels learned from (1); and (3) integrating the inferred tree structures into the recipe generation procedure. Our proposed model can produce high-quality and coherent recipes, and achieve the state-of-the-art performance on the benchmark Recipe1M dataset. We also validate the usefulness of our learned tree structures in the food cross-modal retrieval task, where the proposed model with tree representations can outperform state-of-the-art benchmark results.
翻訳日:2021-10-05 15:31:49 公開日:2021-10-04
# 空間的アンサンブル:学生教師のための新しいモデル平滑化機構

Spatial Ensemble: a Novel Model Smoothing Mechanism for Student-Teacher Framework ( http://arxiv.org/abs/2110.01253v1 )

ライセンス: Link先を確認
Tengteng Huang, Yifan Sun, Xun Wang, Haotian Yao, Chi Zhang(参考訳) モデルスムーシングは、教師が教師の指導のために監視信号を生成する学生-教師の枠組みにおいて、信頼性の高い教師モデルを得る上で重要である。 一般的なモデル平滑化手法は時間移動平均(tma)であり、教師のパラメータと最新の生徒パラメータを連続的に平均する。 本稿では,新しいモデル平滑化機構であるSpatial EnsembleをTMAと並列に提案する。 空間的アンサンブルは、生徒モデルの小さな断片をランダムにピックアップして、対応する教師モデルの断片を直接置き換えます。 結果として、異なる歴史学生モデルの断片を統一に縫い付け、「空間的アンサンブル」効果をもたらす。 空間的アンサンブルは、それと同等の学生・教師の学習性能を獲得し、時間的移動平均と価値ある相補性を示す。 彼らの統合は、Spatial-Temporal Smoothingと名付けられ、様々な最先端の手法で学生の学習フレームワークに一般的な(時には重要な)改善をもたらす。 例えば、byolの自己教師ありメソッドに基づいてimagenetで+0.9% top-1精度が向上する一方で、半教師付きアプローチフィクスマッチに基づいて、わずかのトレーニングラベルが利用可能な場合、cifar-10でtop-1精度が約+6%向上する。 コードとモデルは、https://github.com/tengteng95/Spatial_Ensemble.comで入手できる。

Model smoothing is of central importance for obtaining a reliable teacher model in the student-teacher framework, where the teacher generates surrogate supervision signals to train the student. A popular model smoothing method is the Temporal Moving Average (TMA), which continuously averages the teacher parameters with the up-to-date student parameters. In this paper, we propose "Spatial Ensemble", a novel model smoothing mechanism in parallel with TMA. Spatial Ensemble randomly picks up a small fragment of the student model to directly replace the corresponding fragment of the teacher model. Consequentially, it stitches different fragments of historical student models into a unity, yielding the "Spatial Ensemble" effect. Spatial Ensemble obtains comparable student-teacher learning performance by itself and demonstrates valuable complementarity with temporal moving average. Their integration, named Spatial-Temporal Smoothing, brings general (sometimes significant) improvement to the student-teacher learning framework on a variety of state-of-the-art methods. For example, based on the self-supervised method BYOL, it yields +0.9% top-1 accuracy improvement on ImageNet, while based on the semi-supervised approach FixMatch, it increases the top-1 accuracy by around +6% on CIFAR-10 when only few training labels are available. Codes and models are available at: https://github.com/tengteng95/Spatial_Ensemble.
翻訳日:2021-10-05 15:31:25 公開日:2021-10-04
# genco:データ制限画像生成における生成的コトレーニング

GenCo: Generative Co-training on Data-Limited Image Generation ( http://arxiv.org/abs/2110.01254v1 )

ライセンス: Link先を確認
Kaiwen Cui, Jiaxing Huang, Zhipeng Luo, Gongjie Zhang, Fangneng Zhan, Shijian Lu(参考訳) 効果的な生成型adversarial network(gans)のトレーニングには大量のトレーニングデータが必要である。 いくつかの先行研究は、大規模および手作りのデータ拡張を通じて限られたトレーニングデータの分布を拡大することでこの問題に対処している。 非常に異なる視点からデータ制限された画像生成を処理します。 具体的には,複数の相補的識別器を導入することで,識別器過適合問題を緩和する生成的協調学習ネットワークGenCoを設計する。 我々はGenCoのアイデアを2つの方法でインスタンス化する。 第一の方法は、重量差別共訓練(weco:weight-discrepancy co-training)である。 第二の方法はデータ分離共訓練(daco)であり、入力画像の異なるビュー(例えば、入力画像の周波数成分)で識別子を供給することにより共訓練を実現する。 複数のベンチマークに対する大規模な実験は、GenCoが限られたトレーニングデータで優れた世代を達成していることを示している。 さらにgencoは、一貫性と明確なパフォーマンス向上を組み合わせることで、拡張アプローチを補完する。

Training effective Generative Adversarial Networks (GANs) requires large amounts of training data, without which the trained models are usually sub-optimal with discriminator over-fitting. Several prior studies address this issue by expanding the distribution of the limited training data via massive and hand-crafted data augmentation. We handle data-limited image generation from a very different perspective. Specifically, we design GenCo, a Generative Co-training network that mitigates the discriminator over-fitting issue by introducing multiple complementary discriminators that provide diverse supervision from multiple distinctive views in training. We instantiate the idea of GenCo in two ways. The first way is Weight-Discrepancy Co-training (WeCo) which co-trains multiple distinctive discriminators by diversifying their parameters. The second way is Data-Discrepancy Co-training (DaCo) which achieves co-training by feeding discriminators with different views of the input images (e.g., different frequency components of the input images). Extensive experiments over multiple benchmarks show that GenCo achieves superior generation with limited training data. In addition, GenCo also complements the augmentation approach with consistent and clear performance gains when combined.
翻訳日:2021-10-05 15:30:57 公開日:2021-10-04
# PCAM: 点雲の剛性登録のためのクロスアテンション行列の製品

PCAM: Product of Cross-Attention Matrices for Rigid Registration of Point Clouds ( http://arxiv.org/abs/2110.01269v1 )

ライセンス: Link先を確認
Anh-Quan Cao and Gilles Puy and Alexandre Boulch and Renaud Marlet(参考訳) 部分重なりを持つ点雲の厳密な登録は通常2つのステップで解決される。 (a)点雲間の対応を見つけること (b)これらの対応をフィルタリングし、変換を推定するために最も信頼できるものだけを保持する。 近年,これらのステップを共同で解決するための深層網がいくつか提案されている。 我々はこれらの研究に基づいて、低レベルの幾何学的情報と高レベルの文脈情報の両方を混合してポイント対応を見つけることができる、クロスアテンション行列のポイントワイズな生成物であるニューラルネットワークPCAMを提案する。 これらのクロスアテンション行列はまた、各層におけるポイントクラウド間のコンテキスト情報の交換を可能にし、重なり合う領域内でより優れたマッチング機能を構築することができる。 実験の結果、PCAMは私たちのように、ステップを解く方法の最先端の結果を得ることがわかった。 (a)及び (b)ディープネットを介して共同で行う。 私たちのコードとトレーニングされたモデルは、https://github.com/valeoai/pcamで利用可能です。

Rigid registration of point clouds with partial overlaps is a longstanding problem usually solved in two steps: (a) finding correspondences between the point clouds; (b) filtering these correspondences to keep only the most reliable ones to estimate the transformation. Recently, several deep nets have been proposed to solve these steps jointly. We built upon these works and propose PCAM: a neural network whose key element is a pointwise product of cross-attention matrices that permits to mix both low-level geometric and high-level contextual information to find point correspondences. These cross-attention matrices also permits the exchange of context information between the point clouds, at each layer, allowing the network construct better matching features within the overlapping regions. The experiments show that PCAM achieves state-of-the-art results among methods which, like us, solve steps (a) and (b) jointly via deepnets. Our code and trained models are available at https://github.com/valeoai/PCAM.
翻訳日:2021-10-05 15:30:36 公開日:2021-10-04
# 水中ナビゲーションとマッピングのための3次元画像モザイク

3d sequential image mosaicing for underwater navigation and mapping ( http://arxiv.org/abs/2110.01382v1 )

ライセンス: Link先を確認
E. Nocerino (LIS), F. Menna (FBK), B. Chemisky (LIS), P. Drap (LIS)(参考訳) 完全な自律マッピング手法はますます一般的で信頼性が高くなっているが、人間のオペレーターは定期的に多くの3Dサーベイミッションで採用されている。 多くの水中アプリケーションでは、遠隔操作車両(rov)のダイバーやパイロットはいまだに置き換えられないと考えられており、地図化されたシーンをリアルタイムで可視化するためのツールは、ナビゲーションや測量作業のサポートと最大化に不可欠である。 水中探査において、画像モザイクは、しばしば自律型水中車両(AUV)やROV(英語版)と共に使用される大きな地図化された領域を視覚化する有効なアプローチであることが証明された。 そこで本研究では,画像に基づくリアルタイムナビゲーションとマッピングアルゴリズムを組み合わせた,画像モザイク修正アルゴリズムの利用を提案する。 1つは古典的なモザイクで、記録および処理された画像を段階的に追加し、2Dシーケンシャル画像モザイク (2DSIM) と呼ぶ。 2つ目は、画像を3d空間内の平面雲として投影するように幾何学的に変換し、3d逐次像面投影(3dsip)と呼ばれるインクリメンタルな点雲モザイクを提供する。 本論文では, 実施手順を詳述し, 様々な水中シナリオの実験を行い, 考察した。 計算作業、フレームレート能力、異なるよりコンパクトなアーキテクチャ(組込みシステム)への拡張性に関する技術的考察も提供される。

Although fully autonomous mapping methods are becoming more and more common and reliable, still the human operator is regularly employed in many 3D surveying missions. In a number of underwater applications, divers or pilots of remotely operated vehicles (ROVs) are still considered irreplaceable, and tools for real-time visualization of the mapped scene are essential to support and maximize the navigation and surveying efforts. For underwater exploration, image mosaicing has proved to be a valid and effective approach to visualize large mapped areas, often employed in conjunction with autonomous underwater vehicles (AUVs) and ROVs. In this work, we propose the use of a modified image mosaicing algorithm that coupled with image-based real-time navigation and mapping algorithms provides two visual navigation aids. The first is a classic image mosaic, where the recorded and processed images are incrementally added, named 2D sequential image mosaicing (2DSIM). The second one geometrically transform the images so that they are projected as planar point clouds in the 3D space providing an incremental point cloud mosaicing, named 3D sequential image plane projection (3DSIP). In the paper, the implemented procedure is detailed, and experiments in different underwater scenarios presented and discussed. Technical considerations about computational efforts, frame rate capabilities and scalability to different and more compact architectures (i.e. embedded systems) is also provided.
翻訳日:2021-10-05 15:30:18 公開日:2021-10-04
# 差よりも類似性を求める:適応物体検出のための類似性に基づくドメインアライメント

Seeking Similarities over Differences: Similarity-based Domain Alignment for Adaptive Object Detection ( http://arxiv.org/abs/2110.01428v1 )

ライセンス: Link先を確認
Farzaneh Rezaeianaran, Rakshith Shetty, Rahaf Aljundi, Daniel Olmeda Reino, Shanshan Zhang, Bernt Schiele(参考訳) 幅広いシナリオにわたってオブジェクト検出器を堅牢にデプロイするには、新しいデータを常にアノテートする必要なしに、入力分布のシフトに適応する必要がある。 これは、検出のためのUnsupervised Domain Adaptation (UDA)アルゴリズムの研究を動機付けている。 udaメソッドはラベル付きソースドメインからラベルなしのターゲットドメインへの適応を学習し、ソースドメインとターゲットドメインの検出器機能間のアライメントを誘導する。 しかし、どの機能をアライメントするか、どのようにアライメントを行うべきかについては合意がない。 本研究は,UDA設計空間の深部分析の基盤となるUDA法で一般的に使用される様々なコンポーネントを一般化するフレームワークを提案する。 具体的には、我々のフレームワークの直接実装である新しいUDAアルゴリズムViSGAを提案し、最適な設計選択を生かし、視覚的類似性に基づく特徴をインスタンスレベルで集約する簡易かつ効果的な手法を導入し、対角訓練によりグループアライメントを誘導する。 類似性に基づくグループ化と敵対的トレーニングの両方により、疎結合なドメインにまたがるすべてのインスタンスをマッチさせることなく、粗い機能グループに焦点を合わせることが可能になります。 最後に、ラベル付きデータを異なるソースから収集する設定に対するViSGAの適用性について検討する。 実験により,本手法は従来のSim2RealおよびAdverse Weatherのシングルソース手法よりも優れるだけでなく,マルチソース設定にも優れることが示された。

In order to robustly deploy object detectors across a wide range of scenarios, they should be adaptable to shifts in the input distribution without the need to constantly annotate new data. This has motivated research in Unsupervised Domain Adaptation (UDA) algorithms for detection. UDA methods learn to adapt from labeled source domains to unlabeled target domains, by inducing alignment between detector features from source and target domains. Yet, there is no consensus on what features to align and how to do the alignment. In our work, we propose a framework that generalizes the different components commonly used by UDA methods laying the ground for an in-depth analysis of the UDA design space. Specifically, we propose a novel UDA algorithm, ViSGA, a direct implementation of our framework, that leverages the best design choices and introduces a simple but effective method to aggregate features at instance-level based on visual similarity before inducing group alignment via adversarial training. We show that both similarity-based grouping and adversarial training allows our model to focus on coarsely aligning feature groups, without being forced to match all instances across loosely aligned domains. Finally, we examine the applicability of ViSGA to the setting where labeled data are gathered from different sources. Experiments show that not only our method outperforms previous single-source approaches on Sim2Real and Adverse Weather, but also generalizes well to the multi-source setting.
翻訳日:2021-10-05 15:29:50 公開日:2021-10-04
# ALSポイントクラウドセマンティックセグメンテーションのための新しい弱教師付きアプローチ

A new weakly supervised approach for ALS point cloud semantic segmentation ( http://arxiv.org/abs/2110.01462v1 )

ライセンス: Link先を確認
Puzuo Wang and Wei Yao(参考訳) 最先端の結果を継続的に上回る、新しいポイントクラウドセマンティックセグメンテーションスキームがあるが、効果的なモデルを学ぶ成功は通常、豊富なラベル付きデータの可用性に依存している。 しかしながら、データアノテーションは、特に都市部の複数のクラスを含む大規模空中レーザースキャニング(als)ポイント雲において、時間と労力のかかる作業である。 したがって、ラベリング作業を大幅に削減しながら、有望な結果を得る方法が不可欠である。 本研究では,ALSポイントクラウドのセマンティックセマンティックセグメンテーションのための,深層学習に基づく弱教師付きフレームワークを提案する。 クラスオーバーラップを予測確率でペナル化するためにエントロピー正則化を導入する。 さらに、電流とアンサンブル予測の違いを最小化して整合性制約を設計し、予測の堅牢性を改善する。 最後に,効率良く非パプラメトリックな方法で余分なスーパーバイザリーソースを作成するためのオンラインソフト擬似ラベル戦略を提案する。 3つのベンチマークデータセットを用いた広範囲な実験分析により,スパースポイントアノテーションの場合,提案手法は計算効率を損なうことなく分類性能を著しく向上させることを示した。 これは、現在の弱い監督手法を上回り、完全な監督競合に対して同等の結果を得る。 ISPRS 3D Labeling Vaihingenデータでは,ラベルの0.1%しか使用していないため,スパースラベル情報のみを訓練したモデルと比較して,平均F1スコアが6.9%,平均F1スコアが70.0%向上した。

While there are novel point cloud semantic segmentation schemes that continuously surpass state-of-the-art results, the success of learning an effective model usually rely on the availability of abundant labeled data. However, data annotation is a time-consuming and labor-intensive task, particularly for large-scale airborne laser scanning (ALS) point clouds involving multiple classes in urban areas. Thus, how to attain promising results while largely reducing labeling works become an essential issue. In this study, we propose a deep-learning based weakly supervised framework for semantic segmentation of ALS point clouds, exploiting potential information from unlabeled data subject to incomplete and sparse labels. Entropy regularization is introduced to penalize the class overlap in predictive probability. Additionally, a consistency constraint by minimizing difference between current and ensemble predictions is designed to improve the robustness of predictions. Finally, we propose an online soft pseudo-labeling strategy to create extra supervisory sources in an efficient and nonpaprametric way. Extensive experimental analysis using three benchmark datasets demonstrates that in case of sparse point annotations, our proposed method significantly boosts the classification performance without compromising the computational efficiency. It outperforms current weakly supervised methods and achieves a comparable result against full supervision competitors. For the ISPRS 3D Labeling Vaihingen data, by using only 0.1% of labels, our method achieves an overall accuracy of 83.0% and an average F1 score of 70.0%, which have increased by 6.9% and 12.8% respectively, compared to model trained by sparse label information only.
翻訳日:2021-10-05 15:29:23 公開日:2021-10-04
# 意味親和性と境界の移譲による弱ショットセマンティックセマンティックセグメンテーション

Weak-shot Semantic Segmentation by Transferring Semantic Affinity and Boundary ( http://arxiv.org/abs/2110.01519v1 )

ライセンス: Link先を確認
Siyuan Zhou and Li Niu and Jianlou Si and Chen Qian and Liqing Zhang(参考訳) 画像レベルのラベルを持つ弱教師付きセマンティックセグメンテーション(WSSS)は,従来のセグメンテーションタスクのアノテーション負担を軽減するために広く研究されている。 本稿では,既存の完全注釈付きベースカテゴリが,ベースカテゴリと新規カテゴリが重複しない場合でも,画像レベルラベルのみを用いた新規カテゴリのオブジェクトのセグメンテーションを支援することを示す。 私たちは、このタスクを弱いショットセマンティックセグメンテーションと呼び、補助的な完全アノテートカテゴリを持つwssとして扱うこともできる。 最近のWSSS法は、通常、クラスアクティベーションマップ(CAM)を取得し、親和性伝播によってそれらを洗練する。 セマンティック親和性と境界がクラスに依存しないという観察に基づいて,WSSSフレームワークに基づくセマンティック親和性と境界を基本カテゴリから新規なものに伝達する手法を提案する。 その結果,基本カテゴリの画素レベルのアノテーションは親和性学習や伝播を促進することができ,新たなカテゴリの高品質なCAMに繋がることがわかった。 PASCAL VOC 2012データセットの大規模な実験により,本手法は新たなカテゴリにおけるWSSSベースラインを大幅に上回っていることが示された。

Weakly-supervised semantic segmentation (WSSS) with image-level labels has been widely studied to relieve the annotation burden of the traditional segmentation task. In this paper, we show that existing fully-annotated base categories can help segment objects of novel categories with only image-level labels, even if base and novel categories have no overlap. We refer to this task as weak-shot semantic segmentation, which could also be treated as WSSS with auxiliary fully-annotated categories. Recent advanced WSSS methods usually obtain class activation maps (CAMs) and refine them by affinity propagation. Based on the observation that semantic affinity and boundary are class-agnostic, we propose a method under the WSSS framework to transfer semantic affinity and boundary from base categories to novel ones. As a result, we find that pixel-level annotation of base categories can facilitate affinity learning and propagation, leading to higher-quality CAMs of novel categories. Extensive experiments on PASCAL VOC 2012 dataset demonstrate that our method significantly outperforms WSSS baselines on novel categories.
翻訳日:2021-10-05 15:28:55 公開日:2021-10-04
# 全変動プリミティブと期待伝搬を用いた高速スケーラブル画像復元

Fast Scalable Image Restoration using Total Variation Priors and Expectation Propagation ( http://arxiv.org/abs/2110.01585v1 )

ライセンス: Link先を確認
Dan Yao, Stephen McLaughlin, Yoann Altmann(参考訳) 本稿では,全変動(TV)を用いた画像復元のためのスケーラブルなベイズ近似手法を提案する。 最大アフター推定に基づくほとんどの最適化手法とは対照的に、予測伝搬(EP)フレームワークを用いて最小平均二乗誤差(MMSE)推定器と限界(ピクセル単位)の分散をモンテカルロサンプリングに頼らずに近似する。 また,古典的異方性tvベースプリミティブに対して,期待最大化(em)により正規化パラメータを自動的に調整する反復スキームを提案する。 対角共分散行列による密度のガウス近似を用いることで、高並列化が可能となり、デノナイズ、デコンボリューション、圧縮センシング(CS)問題に対して大きな画像にスケールすることができる。 シミュレーション結果から,そのようなEP法は,サンプリング法で得られた手法と同等に,計算コストのごく一部で後続推定値を提供できることを示した。 さらに、EPは、変分ベイズの代替と対照的に、後方分散の強い過小評価を示さない。

This paper presents a scalable approximate Bayesian method for image restoration using total variation (TV) priors. In contrast to most optimization methods based on maximum a posteriori estimation, we use the expectation propagation (EP) framework to approximate minimum mean squared error (MMSE) estimators and marginal (pixel-wise) variances, without resorting to Monte Carlo sampling. For the classical anisotropic TV-based prior, we also propose an iterative scheme to automatically adjust the regularization parameter via expectation-maximization (EM). Using Gaussian approximating densities with diagonal covariance matrices, the resulting method allows highly parallelizable steps and can scale to large images for denoising, deconvolution and compressive sensing (CS) problems. The simulation results illustrate that such EP methods can provide a posteriori estimates on par with those obtained via sampling methods but at a fraction of the computational cost. Moreover, EP does not exhibit strong underestimation of posteriori variances, in contrast to variational Bayes alternatives.
翻訳日:2021-10-05 15:28:32 公開日:2021-10-04
# バグレポートにおける非自然言語アーティファクトの同定

Identifying non-natural language artifacts in bug reports ( http://arxiv.org/abs/2110.01336v1 )

ライセンス: Link先を確認
Thomas Hirsch, Birgit Hofer(参考訳) バグレポートは自然言語処理(NLP)のターゲットとして人気がある。 しかしながら、バグレポートにはコードスニペット、ログ出力、スタックトレースなどのアーティファクトが含まれていることが多い。 これらのアーティファクトは、バグレポートにノイズを注入するだけでなく、手元にあるNLPアプローチの本当の問題となり、取り除かなければなりません。 本稿では,Pythonで実装されたラインレベルにおいて,コンテンツを自然言語とアーティファクトに分類する機械学習アプローチを提案する。 GitHubのイシュートラッカからのデータを自動トレーニングセット生成にどのように使用できるかを示し、バグレポートのカスタム前処理アプローチを示す。 我々のモデルは手動でアノテートした検証セットに対して0.95ROC-AUCと0.93F1でスコアし、10k行を0.72秒で分類する。 我々は、同じタスクに対して、外部データセットと外部rモデルに対して、このモデルを評価した。 私たちのモデルとデータセットのPython実装は、オープンソースライセンスの下で公開されています。

Bug reports are a popular target for natural language processing (NLP). However, bug reports often contain artifacts such as code snippets, log outputs and stack traces. These artifacts not only inflate the bug reports with noise, but often constitute a real problem for the NLP approach at hand and have to be removed. In this paper, we present a machine learning based approach to classify content into natural language and artifacts at line level implemented in Python. We show how data from GitHub issue trackers can be used for automated training set generation, and present a custom preprocessing approach for bug reports. Our model scores at 0.95 ROC-AUC and 0.93 F1 against our manually annotated validation set, and classifies 10k lines in 0.72 seconds. We cross evaluated our model against a foreign dataset and a foreign R model for the same task. The Python implementation of our model and our datasets are made publicly available under an open source license.
翻訳日:2021-10-05 15:28:11 公開日:2021-10-04
# 情報検索への表現的アプローチのための概念的枠組みの提案

A Proposed Conceptual Framework for a Representational Approach to Information Retrieval ( http://arxiv.org/abs/2110.01529v1 )

ライセンス: Link先を確認
Jimmy Lin(参考訳) 本稿では,情報検索と自然言語処理の最近の展開を理解するための概念的枠組みについて概説する。 本稿では,コアテキスト検索問題を論理的スコアリングモデルと物理的検索モデルに分解する表現的アプローチを提案する。 スコアリングモデルは、クエリとドキュメントを表現空間にマッピングするエンコーダと、クエリ-ドキュメントスコアを計算する比較関数によって定義される。 物理検索モデルは、システムがクエリに対して任意に大きなコーパスからトップkスコアの文書を生成する方法を定義する。 スコアリングモデルは、密度対スパース表現と教師付き(学習)対教師なしアプローチの2次元でさらに分析することができる。 多段階のランキング設計を含む最近提案された多くの検索手法は、このフレームワークにおいて異なるパラメータ化と見なすことができ、統一されたビューは、多くのオープンリサーチの質問を示唆し、将来の作業のためのロードマップを提供する。 ボーナスとして、この概念的枠組みは、自然言語処理と情報アクセスの「技術」における文の類似性タスクとの接続を確立する。

This paper outlines a conceptual framework for understanding recent developments in information retrieval and natural language processing that attempts to integrate dense and sparse retrieval methods. I propose a representational approach that breaks the core text retrieval problem into a logical scoring model and a physical retrieval model. The scoring model is defined in terms of encoders, which map queries and documents into a representational space, and a comparison function that computes query-document scores. The physical retrieval model defines how a system produces the top-k scoring documents from an arbitrarily large corpus with respect to a query. The scoring model can be further analyzed along two dimensions: dense vs. sparse representations and supervised (learned) vs. unsupervised approaches. I show that many recently proposed retrieval methods, including multi-stage ranking designs, can be seen as different parameterizations in this framework, and that a unified view suggests a number of open research questions, providing a roadmap for future work. As a bonus, this conceptual framework establishes connections to sentence similarity tasks in natural language processing and information access "technologies" prior to the dawn of computing.
翻訳日:2021-10-05 15:27:55 公開日:2021-10-04
# 完全多層スパース行列分解における識別性

Identifiability in Exact Multilayer Sparse Matrix Factorization ( http://arxiv.org/abs/2110.01230v1 )

ライセンス: Link先を確認
L\'eon Zheng (LIP), R\'emi Gribonval (LIP), Elisa Riccietti (LIP)(参考訳) 多くのよく知られた行列 z は z = x^(l) 形式の分解に対応する高速変換に関連付けられている。 .. x^(1) では、各因子 x^(l) がスパースである。 共著の2つの因子を用いた場合の一般的な結果に基づき,これらの因子化の本質的一意性について検討する。 分割フーリエ変換, 離散コサイン変換, N = 2^L の離散正弦変換行列の2つの因子に対して, N/2-スパーシティを左因子に列で, 2-スパーシティを右因子に列で有するときに, スパース分解の識別可能性を示す。 また, 階層的因子分解法に基づき, 2つの因子を用いた解析を多層ケースに拡張できることを示した。 我々は、L因子の積である任意の行列が、まさにバタフライサポートであることを証明し、L因子への特異なスパース因子化を認める。 これは特に、サイズ 2^l のハダマールあるいは離散フーリエ変換行列に適用される。

Many well-known matrices Z are associated to fast transforms corresponding to factorizations of the form Z = X^(L). .. X^(1) , where each factor X^(l) is sparse. Based on general result for the case with two factors, established in a companion paper, we investigate essential uniqueness of such factorizations. We show some identifiability results for the sparse factorization into two factors of the discrete Fourier Transform, discrete cosine transform or discrete sine transform matrices of size N = 2^L , when enforcing N/2-sparsity by column on the left factor, and 2-sparsity by row on the right factor. We also show that the analysis with two factors can be extended to the multilayer case, based on a hierarchical factorization method. We prove that any matrix which is the product of L factors whose supports are exactly the so-called butterfly supports, admits a unique sparse factorization into L factors. This applies in particular to the Hadamard or the discrete Fourier transform matrix of size 2^L .
翻訳日:2021-10-05 15:25:40 公開日:2021-10-04
# 厳密な二層スパース行列分解における識別可能性

Identifiability in Exact Two-Layer Sparse Matrix Factorization ( http://arxiv.org/abs/2110.01235v1 )

ライセンス: Link先を確認
L\'eon Zheng (LIP), R\'emi Gribonval (LIP), Elisa Riccietti (LIP)(参考訳) スパース行列分解 (sparse matrix factorization) は、行列 Z を L スパース因子 X^(L) X^(L--1) の積で近似する問題である。 .. x^(1) である。 本稿では,この問題に現れる識別可能性の問題に焦点をあてる。 行列を2つのスパース因子に分解する問題は、避けられない置換とスケーリング同値まで、一意の解が認められる条件を与える。 一般的なフレームワークでは、所定のスパーシティパターンの任意のファミリーを考えることで、単に0でないエントリの数よりもスパーシティのより構造化された概念を捉えることができます。 これらの条件は、構造的なスパーシティ制約を持つ階数 1 の行列の和への完全行列分解の本質的な一意性に関連している。 アダマール行列や離散フーリエ変換行列のようなよく知られた行列の多層スパース行列分解において、これらの条件を更に活用して識別性特性を導出する。

Sparse matrix factorization is the problem of approximating a matrix Z by a product of L sparse factors X^(L) X^(L--1). .. X^(1). This paper focuses on identifiability issues that appear in this problem, in view of better understanding under which sparsity constraints the problem is well-posed. We give conditions under which the problem of factorizing a matrix into two sparse factors admits a unique solution, up to unavoidable permutation and scaling equivalences. Our general framework considers an arbitrary family of prescribed sparsity patterns, allowing us to capture more structured notions of sparsity than simply the count of nonzero entries. These conditions are shown to be related to essential uniqueness of exact matrix decomposition into a sum of rank-one matrices, with structured sparsity constraints. A companion paper further exploits these conditions to derive identifiability properties in multilayer sparse matrix factorization of some well-known matrices like the Hadamard or the discrete Fourier transform matrices.
翻訳日:2021-10-05 15:25:21 公開日:2021-10-04
# フェデレーション線形バンディットに対する非同期上信頼境界アルゴリズム

Asynchronous Upper Confidence Bound Algorithms for Federated Linear Bandits ( http://arxiv.org/abs/2110.01463v1 )

ライセンス: Link先を確認
Chuanhao Li and Hongning Wang(参考訳) 線形文脈帯域幅はオンライン学習の一般的な問題である。 主に集中学習環境で研究されている。 大規模分散モデル学習(例えばフェデレーション学習)の需要が急増する中、通信コストを削減しながら後悔を最小限に抑える方法が課題となっている。 本稿では,連合学習環境における線形文脈バンディットについて検討する。 本稿では,均質なクライアントと異質なクライアントの集合に対して,非同期モデル更新と通信を行う汎用フレームワークを提案する。 この分散学習フレームワークにおける後悔とコミュニケーションのコストについて,厳密な理論的分析を行い,提案手法の有効性を実証した。

Linear contextual bandit is a popular online learning problem. It has been mostly studied in centralized learning settings. With the surging demand of large-scale decentralized model learning, e.g., federated learning, how to retain regret minimization while reducing communication cost becomes an open challenge. In this paper, we study linear contextual bandit in a federated learning setting. We propose a general framework with asynchronous model update and communication for a collection of homogeneous clients and heterogeneous clients, respectively. Rigorous theoretical analysis is provided about the regret and communication cost under this distributed learning framework; and extensive empirical evaluations demonstrate the effectiveness of our solution.
翻訳日:2021-10-05 15:24:26 公開日:2021-10-04
# 大きなバッチ体験のリプレイ

Large Batch Experience Replay ( http://arxiv.org/abs/2110.01528v1 )

ライセンス: Link先を確認
Thibault Lahire, Matthieu Geist, Emmanuel Rachelson(参考訳) 深層強化学習(RL)エージェントの再生バッファを非均一にサンプリングして学習を高速化するアルゴリズムが提案されているが、これらのサンプリングスキームの理論的基礎はごくわずかである。 とりわけ、優先順位付けされたエクスペリエンス リプレイは、優れたパフォーマンスを提供できるにもかかわらず、ハイパーパラメータに敏感なヒューリスティックとして現れる。 本研究では,リプレイバッファサンプリング問題を,勾配を推定するための重要サンプリングとして用いた。 これにより、理論上最適なサンプリング分布が導出され、最良の理論収束速度が得られる。 理想的なサンプリングスキームの知識を生かし、優先順位付けされた体験再生の新たな理論基盤を示す。 最適なサンプリング分布を抽出可能とし,実例でよい結果が得られる近似法をいくつか作成し,リプレイバッファのサンプリング方法としてLaBER(Large Batch Experience Replay)を導入している。 laberは、深いq-ネットワーク、分散rlエージェント、アクタ-クリティックな方法と組み合わせることで、さまざまなatariゲームやpybullet環境において、実装されているベースエージェントや他の優先順位付けスキームと比較して、パフォーマンスが向上する。

Several algorithms have been proposed to sample non-uniformly the replay buffer of deep Reinforcement Learning (RL) agents to speed-up learning, but very few theoretical foundations of these sampling schemes have been provided. Among others, Prioritized Experience Replay appears as a hyperparameter sensitive heuristic, even though it can provide good performance. In this work, we cast the replay buffer sampling problem as an importance sampling one for estimating the gradient. This allows deriving the theoretically optimal sampling distribution, yielding the best theoretical convergence speed. Elaborating on the knowledge of the ideal sampling scheme, we exhibit new theoretical foundations of Prioritized Experience Replay. The optimal sampling distribution being intractable, we make several approximations providing good results in practice and introduce, among others, LaBER (Large Batch Experience Replay), an easy-to-code and efficient method for sampling the replay buffer. LaBER, which can be combined with Deep Q-Networks, distributional RL agents or actor-critic methods, yields improved performance over a diverse range of Atari games and PyBullet environments, compared to the base agent it is implemented on and to other prioritization schemes.
翻訳日:2021-10-05 15:24:15 公開日:2021-10-04
# 決定デッドライン」下における偽発見率のオンライン制御

Online Control of the False Discovery Rate under "Decision Deadlines" ( http://arxiv.org/abs/2110.01583v1 )

ライセンス: Link先を確認
Aaron Fisher(参考訳) オンラインテスト手順は、仮説テストのシーケンスにおける偽発見の程度を制御することを目的としており、早期テストの結果が後の段階における仮説の選択に影響を与える可能性がある。 通常、オンラインメソッドは、次のテストに進む前に、現在のテストに関する恒久的な決定をしなければならないと仮定する。 代わりに、各仮説は即時の予備決定を必要とするが、事前に決められた期限までその決定を更新できると仮定する。 大まかに言えば、これはベンジャミン・ホックバーグ型手順を仮説の移動窓の上に適用し、予備結果に基づいて次のテストのしきい値を決定することができる。 本手法は,テストの各段階での偽発見率(FDR)と,適応的に選択された停止時間を制御する。 これらの結果は任意のp値依存性構造でも適用できる。

Online testing procedures aim to control the extent of false discoveries over a sequence of hypothesis tests, allowing for the possibility that early-stage test results influence the choice of hypotheses to be tested in later stages. Typically, online methods assume that a permanent decision regarding the current test (reject or not reject) must be made before advancing to the next test. We instead assume that each hypothesis requires an immediate preliminary decision, but also allows us to update that decision until a preset deadline. Roughly speaking, this lets us apply a Benjamini-Hochberg-type procedure over a moving window of hypotheses, where the threshold parameters for upcoming tests can be determined based on preliminary results. Our method controls the false discovery rate (FDR) at every stage of testing, as well as at adaptively chosen stopping times. These results apply even under arbitrary p-value dependency structures.
翻訳日:2021-10-05 15:21:47 公開日:2021-10-04
# 音声合成におけるスパース性,自然性,知性,韻律の相互作用について

On the Interplay Between Sparsity, Naturalness, Intelligibility, and Prosody in Speech Synthesis ( http://arxiv.org/abs/2110.01147v1 )

ライセンス: Link先を確認
Cheng-I Jeff Lai, Erica Cooper, Yang Zhang, Shiyu Chang, Kaizhi Qian, Yi-Lun Liao, Yung-Sung Chuang, Alexander H. Liu, Junichi Yamagishi, David Cox, James Glass(参考訳) エンドツーエンドのテキスト音声(TTS)モデルは過度にパラメータ化されているか? これらのモデルはどの程度まで刈り取られるのか、そしてそれらの合成能力はどうなるのか? この研究は、スペクトログラム予測ネットワークとボコーダの両方を刈り取るための出発点となる。 我々は、スパルスティイとそれに続く合成音声に対する影響のトレードオフを徹底的に調査する。 さらに, 細粒度データ量と空隙量, 未発見テキストの活用のためのTS拡張, 知識蒸留とプルーニングの組み合わせなど, TTSプルーニングのいくつかの側面について検討した。 以上の結果から,TTSモデルは終末から終末までのモデルであるだけでなく,おそらく驚くべきことに,同じあるいは高い自然性や知性を持つ合成音声を生成できる可能性が示唆された。 私たちの実験はすべて公開モデルで行われ、本研究の知見は大規模な主観的テストと客観的な測定によって裏付けられています。 コードと200個のプルーニングされたモデルは、将来のTSの効率性の研究を促進するために利用可能である。

Are end-to-end text-to-speech (TTS) models over-parametrized? To what extent can these models be pruned, and what happens to their synthesis capabilities? This work serves as a starting point to explore pruning both spectrogram prediction networks and vocoders. We thoroughly investigate the tradeoffs between sparstiy and its subsequent effects on synthetic speech. Additionally, we explored several aspects of TTS pruning: amount of finetuning data versus sparsity, TTS-Augmentation to utilize unspoken text, and combining knowledge distillation and pruning. Our findings suggest that not only are end-to-end TTS models highly prunable, but also, perhaps surprisingly, pruned TTS models can produce synthetic speech with equal or higher naturalness and intelligibility, with similar prosody. All of our experiments are conducted on publicly available models, and findings in this work are backed by large-scale subjective tests and objective measures. Code and 200 pruned models are made available to facilitate future research on efficiency in TTS.
翻訳日:2021-10-05 15:20:54 公開日:2021-10-04
# 音声認識システムのための機械学習手法評価のためのノイズの多い音声データセットの構築

Building a Noisy Audio Dataset to Evaluate Machine Learning Approaches for Automatic Speech Recognition Systems ( http://arxiv.org/abs/2110.01425v1 )

ライセンス: Link先を確認
Julio Cesar Duarte and S\'ergio Colcher(参考訳) 音声認識システムは、パーソナルアシスタントや携帯電話に埋め込まれた日常生活の一部であり、人間と機械のインタラクションのファシリテーターとして、実用的な直感的な方法で情報へのアクセスを可能にする。 このようなシステムは通常、機械学習技術、特にディープニューラルネットワークを使って実装される。 音声からテキストを翻訳するタスクにおける高いパフォーマンスにもかかわらず、ノイズの多い環境での認識の問題に対処する研究はほとんどなく、一般的に使用されるデータセットにはノイズの多い音声サンプルが含まれておらず、データ拡張技術を用いてこの問題を軽減している。 本研究の目的は、ノイズの多い音声のデータセットを構築する過程を、電波伝送において一般的に見られる干渉による劣化音声の特定の場合において提示することである。 さらに,このようなデータを評価に用いる分類器の初期結果を示し,このデータセットを認識者の学習プロセスで活用することのメリットを示す。 このような認識器はノイズ集合の文字誤り率(SNR = 30)で平均0.4116となる。

Automatic speech recognition systems are part of people's daily lives, embedded in personal assistants and mobile phones, helping as a facilitator for human-machine interaction while allowing access to information in a practically intuitive way. Such systems are usually implemented using machine learning techniques, especially with deep neural networks. Even with its high performance in the task of transcribing text from speech, few works address the issue of its recognition in noisy environments and, usually, the datasets used do not contain noisy audio examples, while only mitigating this issue using data augmentation techniques. This work aims to present the process of building a dataset of noisy audios, in a specific case of degenerated audios due to interference, commonly present in radio transmissions. Additionally, we present initial results of a classifier that uses such data for evaluation, indicating the benefits of using this dataset in the recognizer's training process. Such recognizer achieves an average result of 0.4116 in terms of character error rate in the noisy set (SNR = 30).
翻訳日:2021-10-05 15:20:36 公開日:2021-10-04
# 非ペア学習で好きなように画像を強化する

Enhance Images as You Like with Unpaired Learning ( http://arxiv.org/abs/2110.01161v1 )

ライセンス: Link先を確認
Xiaopeng Sun, Muxingzi Li, Tianyu He, Lubin Fan(参考訳) 低照度画像強調は、与えられた画像が多くの拡張バージョンを持つため、不適切な性質を示すが、最近の研究では、入力から拡張バージョンへの決定論的マッピングの構築に焦点を当てている。 これとは対照的に,低照度から通常照度までの1対多の関係を,対応のない低照度および通常照度トレーニング画像のみに限定して学習するための,軽量な1パス条件生成対向ネットワーク(cGAN)を提案する。 この不適切な問題を変調符号学習タスクとして定式化することにより、ネットワークは、様々な参照画像に対して与えられた入力条件から拡張画像の集合を生成する。 したがって,各ユーザの好適な写真をいくつか提供して,様々なユーザの好みに容易に適応できる推定モデルを構築した。 提案手法は,従来のGANの6倍から10倍の精度で,ノイズやクリーンなデータセットの完全教師付き手法と同等に競合する視覚的,定量的な結果が得られる。

Low-light image enhancement exhibits an ill-posed nature, as a given image may have many enhanced versions, yet recent studies focus on building a deterministic mapping from input to an enhanced version. In contrast, we propose a lightweight one-path conditional generative adversarial network (cGAN) to learn a one-to-many relation from low-light to normal-light image space, given only sets of low- and normal-light training images without any correspondence. By formulating this ill-posed problem as a modulation code learning task, our network learns to generate a collection of enhanced images from a given input conditioned on various reference images. Therefore our inference model easily adapts to various user preferences, provided with a few favorable photos from each user. Our model achieves competitive visual and quantitative results on par with fully supervised methods on both noisy and clean datasets, while being 6 to 10 times lighter than state-of-the-art generative adversarial networks (GANs) approaches.
翻訳日:2021-10-05 15:17:58 公開日:2021-10-04
# pet画像再構成のための深部カーネル表現

Deep Kernel Representation for Image Reconstruction in PET ( http://arxiv.org/abs/2110.01174v1 )

ライセンス: Link先を確認
Siqi Li and Guobao Wang(参考訳) ポジトロン・エミッション・トモグラフィー(PET)の画像再構成は,不条件のトモグラフィ問題と低いカウント統計のため困難である。 カーネル法は、カーネル表現を用いて、反復PET画像再構成のフォワードモデルに画像先行情報を組み込むことでこの問題に対処する。 既存のカーネルメソッドは経験的プロセスを使用してカーネルを構築する。 本稿では,カーネル表現と学習可能なニューラルネットワークモデルとの等価性について述べる。 最適化されたカーネルモデルの自動学習を可能にするために,ディープニューラルネットワークを活用するディープカーネル手法を提案する。 提案手法は単独の被験者に直接適用できる。 トレーニングプロセスは利用可能な画像先行データを利用して、経験的にではなく、最適な堅牢なカーネルセットを形成する最善の方法を探す。 計算機シミュレーションと実患者データセットの結果から,提案する深層カーネル法は,動的pet画像再構成のための既存のカーネル法やニューラルネットワーク法よりも優れることが示された。

Image reconstruction for positron emission tomography (PET) is challenging because of the ill-conditioned tomographic problem and low counting statistics. Kernel methods address this challenge by using kernel representation to incorporate image prior information in the forward model of iterative PET image reconstruction. Existing kernel methods construct the kernels commonly using an empirical process, which may lead to suboptimal performance. In this paper, we describe the equivalence between the kernel representation and a trainable neural network model. A deep kernel method is proposed by exploiting deep neural networks to enable an automated learning of an optimized kernel model. The proposed method is directly applicable to single subjects. The training process utilizes available image prior data to seek the best way to form a set of robust kernels optimally rather than empirically. The results from computer simulations and a real patient dataset demonstrate that the proposed deep kernel method can outperform existing kernel method and neural network method for dynamic PET image reconstruction.
翻訳日:2021-10-05 15:17:39 公開日:2021-10-04
# ViTからの無料ランチ:微粒な視覚認識のための適応注意型マルチスケールフュージョントランス

A free lunch from ViT: Adaptive Attention Multi-scale Fusion Transformer for Fine-grained Visual Recognition ( http://arxiv.org/abs/2110.01240v1 )

ライセンス: Link先を確認
Yuan Zhang, Jian Cao, Ling Zhang, Xiangcheng Liu, Zhiyi Wang, Feng Ling, Weiqian Chen(参考訳) オブジェクト部分の微妙な表現を学ぶことは、きめ細かい視覚認識(fgvr)の分野で重要な役割を果たす。 視覚トランスフォーマー(vit)は、その注意機構により、コンピュータビジョンの有望な結果を達成する。 それでも、vitのパッチのサイズが固定されているため、ディープレイヤのクラストークンはグローバルレセプティブフィールドにフォーカスしており、fgvrのマルチグラニュリティー機能は生成できない。 ボックスアノテーションを使わずに領域の注意を捉え、FGVRのViT欠点を補うために、Adaptive attention multi-scale Fusion Transformer (AFTrans) という新しい手法を提案する。 提案手法におけるSelective Attention Collection Module (SACM) は,ViTの注意重みを利用して,入力パッチの相対的重要性に適応的に相関する。 マルチスケール(グローバルおよびローカル)パイプラインは、重み共有エンコーダによって監視され、エンドツーエンドで簡単にトレーニングすることができます。 総合的な実験により、AFTransは、CUB-200-2011、Stanford Dogs、iNat2017の3つの詳細なベンチマークでSOTA性能を達成できることが示された。

Learning subtle representation about object parts plays a vital role in fine-grained visual recognition (FGVR) field. The vision transformer (ViT) achieves promising results on computer vision due to its attention mechanism. Nonetheless, with the fixed size of patches in ViT, the class token in deep layer focuses on the global receptive field and cannot generate multi-granularity features for FGVR. To capture region attention without box annotations and compensate for ViT shortcomings in FGVR, we propose a novel method named Adaptive attention multi-scale Fusion Transformer (AFTrans). The Selective Attention Collection Module (SACM) in our approach leverages attention weights in ViT and filters them adaptively to corre-spond with the relative importance of input patches. The multiple scales (global and local) pipeline is supervised by our weights sharing encoder and can be easily trained end-to-end. Comprehensive experiments demonstrate that AFTrans can achieve SOTA performance on three published fine-grained benchmarks: CUB-200-2011, Stanford Dogs and iNat2017.
翻訳日:2021-10-05 15:17:22 公開日:2021-10-04
# 蒸留知識を用いた逆学習による軽量変形型登録

Light-weight Deformable Registration using Adversarial Learning with Distilling Knowledge ( http://arxiv.org/abs/2110.01293v1 )

ライセンス: Link先を確認
Minh Q. Tran, Tuong Do, Huy Tran, Erman Tjiputra, Quang D. Tran, Anh Nguyen(参考訳) 変形性登録は、画像誘導手術や放射線治療などの多くの医療処置において重要なステップである。 近年の学習手法は,入力画像間の非線形空間対応を最適化することにより精度の向上に重点を置いている。 したがって、これらの手法は計算コストが高く、リアルタイム展開には最新のグラフィックカードを必要とする。 本稿では,競争精度を向上しつつ,計算コストを大幅に削減する軽量変形型登録ネットワークを提案する。 特に,有効だが高価な教師ネットワークから学生ネットワークへの有意義な情報を活用した蒸留知識アルゴリズムを用いた新たな逆学習を提案する。 学生ネットワークは軽量で,典型的なCPU上での展開に適した設計をしている。 各種公開データセットに対する実験結果から,提案手法は最先端の精度を達成できる一方で,最近の手法よりもはるかに高速であることがわかった。 さらに、時間効率の変形可能な登録法には、逆学習アルゴリズムの使用が不可欠であることを示す。 最後に、ソースコードとトレーニングされたモデルは以下の通りである。

Deformable registration is a crucial step in many medical procedures such as image-guided surgery and radiation therapy. Most recent learning-based methods focus on improving the accuracy by optimizing the non-linear spatial correspondence between the input images. Therefore, these methods are computationally expensive and require modern graphic cards for real-time deployment. In this paper, we introduce a new Light-weight Deformable Registration network that significantly reduces the computational cost while achieving competitive accuracy. In particular, we propose a new adversarial learning with distilling knowledge algorithm that successfully leverages meaningful information from the effective but expensive teacher network to the student network. We design the student network such as it is light-weight and well suitable for deployment on a typical CPU. The extensively experimental results on different public datasets show that our proposed method achieves state-of-the-art accuracy while significantly faster than recent methods. We further show that the use of our adversarial learning algorithm is essential for a time-efficiency deformable registration method. Finally, our source code and trained models are available at: https://github.com/aioz-ai/LDR_ALDK.
翻訳日:2021-10-05 15:17:01 公開日:2021-10-04
# 自動左室分画を併用した心筋mriの合成速度マッピング

Synthetic Velocity Mapping Cardiac MRI Coupled with Automated Left Ventricle Segmentation ( http://arxiv.org/abs/2110.01304v1 )

ライセンス: Link先を確認
Xiaodan Xing, Yinzhe Wu, David Firmin, Peter Gatehouse, Guang Yang(参考訳) 心臓運動の時間的パターンは心疾患の診断に重要な情報を提供する。 このパターンは3方向の左心室速度マッピング(3Dir MVM)によって得ることができ、同時に心筋運動の大きさと位相情報を提供する心臓MRI技術である。 しかし、長い取得時間は呼吸アーチファクトを引き起こすことによってこのテクニックの使用を制限する一方で、時間短縮は時間分解能を低くし、心臓運動の不正確な評価を与える可能性がある。 本研究では,3次元MVMデータの時間分解能を高めるためのフレーム合成アルゴリズムを提案する。 我々のアルゴリズムは特徴的である 1) インプットとしてマグニチュード画像,位相画像,心筋セグメンテーションマスクをそれぞれ受け入れる3つの注意に基づくエンコーダ 2 補間フレーム及び対応する心筋セグメンテーション結果を出力する3つの復号器 3)心筋のピクセルを強調する損失機能。 我々のアルゴリズムは、時間分解能3Dir MVMを増大させるだけでなく、同時に心筋セグメンテーション結果を生成することもできる。

Temporal patterns of cardiac motion provide important information for cardiac disease diagnosis. This pattern could be obtained by three-directional CINE multi-slice left ventricular myocardial velocity mapping (3Dir MVM), which is a cardiac MR technique providing magnitude and phase information of the myocardial motion simultaneously. However, long acquisition time limits the usage of this technique by causing breathing artifacts, while shortening the time causes low temporal resolution and may provide an inaccurate assessment of cardiac motion. In this study, we proposed a frame synthesis algorithm to increase the temporal resolution of 3Dir MVM data. Our algorithm is featured by 1) three attention-based encoders which accept magnitude images, phase images, and myocardium segmentation masks respectively as inputs; 2) three decoders that output the interpolated frames and corresponding myocardium segmentation results; and 3) loss functions highlighting myocardium pixels. Our algorithm can not only increase the temporal resolution 3Dir MVMs, but can also generates the myocardium segmentation results at the same time.
翻訳日:2021-10-05 15:16:45 公開日:2021-10-04
# 帰納的バイアス推定:アイデンティティ転送のための学習一般化

Inductive Biased Estimation: Learning Generalizations for Identity Transfer ( http://arxiv.org/abs/2110.01571v1 )

ライセンス: Link先を確認
Gege Gao, Huaibo Huang, Chaoyou Fu, Ran He(参考訳) アイデンティティー転送は、しばしば、ソースとターゲットの顔画像の間に大きなポーズと表現または背景ギャップが存在する新しい状況に一般化するという課題に直面します。 このような状況における一般化を改善するために、バイアスは重要な役割を果たす。 本稿では, 対象状況に関する事前知識に基づいて, 個人識別推定にバイアスを明示的に利用することにより, 適切な一般化の学習を誘導するErrors-in-Variables Adapter (EVA) モデルを提案する。 姿勢・表情・背景要因の観点で、ソースフェイスとターゲット状況とをよりよく一致させるため、ソースアイデンティティに対するターゲット状況の因果効果としてバイアスをモデル化し、制御された介入試行によりその効果を推定する。 同一性ギャップを越えたターゲット面のスムーズな移動を実現するため,複数のカーネル回帰によって対象面の特異性を除去する。 カーネルは、他の知覚情報に不変なまま、対象画像の内部表現におけるアイデンティティ情報のみを操作する回帰を制約するために使用される。 これらの回帰後の表現とアイデンティティのバイアス推定を組み合わせることで、EVAは大きなギャップがあっても印象的な性能を示し、アイデンティティ推定における帰納的バイアスの有用性を支持する実証的な証拠を提供する。

Identity transfer often faces the challenge of generalizing to new situations where large pose and expression or background gaps exist between source and target face images. To improve generalization in such situations, biases take a key role~\cite{mitchell_1980_bias}. This paper proposes an Errors-in-Variables Adapter (EVA) model to induce learning of proper generalizations by explicitly employing biases to identity estimation based on prior knowledge about the target situation. To better match the source face with the target situation in terms of pose, expression, and background factors, we model the bias as a causal effect of the target situation on source identity and estimate this effect through a controlled intervention trial. To achieve smoother transfer for the target face across the identity gap, we eliminate the target face specificity through multiple kernel regressions. The kernels are used to constrain the regressions to operate only on identity information in the internal representations of the target image, while leaving other perceptual information invariant. Combining these post-regression representations with the biased estimation for identity, EVA shows impressive performance even in the presence of large gaps, providing empirical evidence supporting the utility of the inductive biases in identity estimation.
翻訳日:2021-10-05 15:16:28 公開日:2021-10-04
# 自動車の安全確保に向けた道路側インフラセンサの最適配置

Optimal Placement of Roadside Infrastructure Sensors towards Safer Autonomous Vehicle Deployments ( http://arxiv.org/abs/2110.01251v1 )

ライセンス: Link先を確認
Roshan Vijay, Jim Cherian, Rachid Riah, Niels de Boer and Apratim Choudhury(参考訳) 自動運転車は、世界中に展開するためにますます開発されている。 しかし、このような自動または自律走行車(AV)の車載検知と認識能力は、あらゆるシナリオや状況下での安全性を確保するには不十分かもしれない。 道路インフラストラクチャーセンサを用いたインフラ拡張環境認識は,少なくとも都市道路交差点や湾曲道路など,AVに介在する特定の地域を対象として,有効なソリューションとみなすことができる。 しかし、調達、設置、維持にはかなりのコストがかかる。 したがって、これらのセンサは、道路利用者の全体的な安全の観点から最大限の利益を得るために、戦略的かつ最適に配置されなければならない。 本稿では,V2X(Vehicle-to-everything)インフラストラクチャセンサの最適配置を実現するための新しい手法を提案する。 我々は,レイキャスティングにおける最近の進歩と線形最適化文献を組み合わせることで,都市都市計画者,交通分析,av展開運用者のためのツールを提供する。 代表環境における実験的な評価を通じて,本手法の利点と実用性を証明する。

Vehicles with driving automation are increasingly being developed for deployment across the world. However, the onboard sensing and perception capabilities of such automated or autonomous vehicles (AV) may not be sufficient to ensure safety under all scenarios and contexts. Infrastructure-augmented environment perception using roadside infrastructure sensors can be considered as an effective solution, at least for selected regions of interest such as urban road intersections or curved roads that present occlusions to the AV. However, they incur significant costs for procurement, installation and maintenance. Therefore these sensors must be placed strategically and optimally to yield maximum benefits in terms of the overall safety of road users. In this paper, we propose a novel methodology towards obtaining an optimal placement of V2X (Vehicle-to-everything) infrastructure sensors, which is particularly attractive to urban AV deployments, with various considerations including costs, coverage and redundancy. We combine the latest advances made in raycasting and linear optimization literature to deliver a tool for urban city planners, traffic analysis and AV deployment operators. Through experimental evaluation in representative environments, we prove the benefits and practicality of our approach.
翻訳日:2021-10-05 15:15:41 公開日:2021-10-04
# インセンティブによる平衡誘導: デザインとプレイを同時に行うグローバルオプティマ

Inducing Equilibria via Incentives: Simultaneous Design-and-Play Finds Global Optima ( http://arxiv.org/abs/2110.01212v1 )

ライセンス: Link先を確認
Boyi Liu, Jiayang Li, Zhuoran Yang, Hoi-To Wai, Mingyi Hong, Yu Marco Nie, Zhaoran Wang(参考訳) 利害関係者からなる社会システムにおいて所望の均衡を誘導するために、非効率な成果を是正するために、経済的インセンティブ(税、料金、補助金など)がしばしば求められる。 このようなインセンティブ設計問題は、上層レベルの「設計者」が、非協力的なゲームを下層レベルでプレイするエージェントの応答を期待しながら、インセンティブ付きエージェントの報酬を改訂するバイレベル構造を自然に有する。 機械学習で開発された既存の二段階最適化アルゴリズムは、この問題に適用された場合、ジレンマを生じさせる: 均衡エージェントにどのようなインセンティブが影響するかを予測するには、平衡問題を繰り返し解決する必要があるが、これは計算的に非効率である。 そこで本研究では,デザイナーとエージェントの問題を同時に1ループで解決する効率的な手法を提案する。 各イテレーションで、デザイナーとエージェントは、一階の情報に基づいて1ステップだけ移動します。 提案手法では, 設計者は平衡問題を繰り返し解決しないが, 最適性を保証するエージェントに対するインセンティブの全体的な影響を予測できる。 このアルゴリズムは,幅広い種類のゲームに対して,サブ線形速度で大域最適化に収束することを示す。

To induce a desired equilibrium in a social system comprised of self-interested agents, economic incentives (e.g., taxes, tolls, and subsidies) are often required to correct an inefficient outcome. Such an incentive design problem naturally possesses a bi-level structure, in which an upper-level "designer" revises the payoffs of the agents with incentives while anticipating the response of the agents, who play a non-cooperative game at the lower level. The existing bi-level optimization algorithms developed in machine learning raise a dilemma when applied to this problem: anticipating how incentives affect the agents at equilibrium requires solving the equilibrium problem repeatedly, which is computationally inefficient; bypassing the time-consuming step of equilibrium-finding can reduce the computational cost, but may lead to a sub-optimal solution. Therefore, we propose an efficient method that tackles the designer's and agents' problems simultaneously in a single loop. At each iteration, both the designer and the agents only move one step based on the first-order information. In the proposed scheme, although the designer does not solve the equilibrium problem repeatedly, it can anticipate the overall influence of the incentives on the agents, which guarantees optimality. We prove that the algorithm converges to the global optima at a sublinear rate for a broad class of games.
翻訳日:2021-10-05 15:13:33 公開日:2021-10-04
# 無線仮想ネットワーク埋め込みにおける入場制御のための強化学習

Reinforcement Learning for Admission Control in Wireless Virtual Network Embedding ( http://arxiv.org/abs/2110.01262v1 )

ライセンス: Link先を確認
Haitham Afifi, Fabian Sauer and Holger Karl(参考訳) 無線ネットワークにおけるサービス機能チェイン(SFC)の利用は、ネットワークやマルチメディアといった多くの領域で人気を博した。 ネットワークリソースを仮想ネットワーク埋め込み(VNE)アルゴリズムを介して受信するSFC要求に割り当てることにより、SFCの性能を最適化する。 受信するリクエストの負荷が(限られたネットワークリソースと競合する)増加すると、どのリクエストが承認され、どれが拒否されるかを決めるのが難しくなります。 本稿では,サービス寿命や着信要求の優先度など,さまざまな依存関係に対する受け入れポリシを学習可能な,深い強化学習(rl)ソリューションを提案する。 我々は、deep rlソリューションと、利用可能なリソースがあればいつでもリクエストを許可するfirst-come-first-serveベースラインを比較します。 本稿では,RLがベースラインより優れており,リソースが十分ある場合でも低拒否率で高い受け入れ率が得られることを示す。

Using Service Function Chaining (SFC) in wireless networks became popular in many domains like networking and multimedia. It relies on allocating network resources to incoming SFCs requests, via a Virtual Network Embedding (VNE) algorithm, so that it optimizes the performance of the SFC. When the load of incoming requests -- competing for the limited network resources - increases, it becomes challenging to decide which requests should be admitted and which one should be rejected. In this work, we propose a deep Reinforcement learning (RL) solution that can learn the admission policy for different dependencies, such as the service lifetime and the priority of incoming requests. We compare the deep RL solution to a first-come-first-serve baseline that admits a request whenever there are available resources. We show that deep RL outperforms the baseline and provides higher acceptance rate with low rejections even when there are enough resources.
翻訳日:2021-10-05 15:13:10 公開日:2021-10-04
# 新型コロナウイルスパンデミック時のスマートフォン使用状況の変化とアプリ利用嗜好との関連性の解析

Analysis of the Correlation between smartphone usage changes during the COVID-19 pandemic and usage preferences on apps ( http://arxiv.org/abs/2110.01331v1 )

ライセンス: Link先を確認
Yuxuan Yang and Maiko Shigeno(参考訳) 世界保健機関(who)は2020年3月に新型コロナウイルス(covid-19)パンデミック(covid-19)を発表した。 人々の生活に多大な影響を与えた。 本稿では,スマートフォンのアプリケーション利用の変化を利用して,パンデミックが人々の生活に与える影響を観察し分析する。 まず、パンデミック中の全利用者の日次利用変化傾向を観察することにより、パンデミック時の制限措置や政策が人々の生活に与える影響を理解し、分析することができる。 また、将来的なパンデミックの場合には、政府や保健省がより適切な規制措置を取ることも有益である。 第2に,使用変化の特徴を定義した上で,パンデミック時の使用変化パターンを,クラスタ毎に9つに分類し,日常的利用変化の多様性を示す。 パンデミックの異なる影響を理解し分析し、異なるタイプの人々に対する制限的な措置をより詳細に分析するのに役立つ。 最後に, 予測モデルにより, 利用者の好みや人口統計情報から, 各利用変化タイプの主な関連要因を見出す。 今後パンデミックや他の制限措置が実施されれば、スマートフォンのアクティビティの変化を予測するのに役立ち、措置やイベントのリスクを判断し、管理する新たな指標となる可能性がある。

Since the World Health Organization announced the COVID-19 pandemic in March 2020, curbing the spread of the virus has become an international priority. It has greatly affected people's lifestyles. In this article, we observe and analyze the impact of the pandemic on people's lives using changes in smartphone application usage. First, through observing the daily usage change trends of all users during the pandemic, we can understand and analyze the effects of restrictive measures and policies during the pandemic on people's lives. In addition, it is also helpful for the government and health departments to take more appropriate restrictive measures in the case of future pandemics. Second, we defined the usage change features and found 9 different usage change patterns during the pandemic according to clusters of users and show the diversity of daily usage changes. It helps to understand and analyze the different impacts of the pandemic and restrictive measures on different types of people in more detail. Finally, according to prediction models, we discover the main related factors of each usage change type from user preferences and demographic information. It helps to predict changes in smartphone activity during future pandemics or when other restrictive measures are implemented, which may become a new indicator to judge and manage the risks of measures or events.
翻訳日:2021-10-05 15:12:54 公開日:2021-10-04
# Pharmacoprint -- コンピュータ支援ドラッグデザインのためのツールとして、薬薬用指紋と人工知能の組み合わせ

Pharmacoprint -- a combination of pharmacophore fingerprint and artificial intelligence as a tool for computer-aided drug design ( http://arxiv.org/abs/2110.01339v1 )

ライセンス: Link先を確認
Dawid Warszycki, {\L}ukasz Struski, Marek \'Smieja, Rafa{\l} Kafel, Rafa{\l} Kurczab(参考訳) 構造指紋と薬理泳動モデリングは、類似性検索から機械学習(ML)まで、様々な分野で20年以上にわたって用いられてきた手法である。 その結果、シリコ技法の進歩により、これらの手法を薬用指紋と呼ばれる新しいアプローチに組み合わせた。 そこで本研究では,分子の存在,型,関係を符号化した高分解能な医薬用指紋Pharmacoprintを提案する。 MLアルゴリズム(論理回帰、サポートベクターマシン、線形支持ベクターマシン、ニューラルネットワーク)を用いて分類実験を行い、他の一般的な分子指紋(Estate, MACCS, PubChem, Substructure, Klekotha-Roth, CDK, Extended, GraphOnly)とChemAxon Pharophoric Featuresの指紋より優れていた。 Pharmacoprintは39973ビットで構成されており、いくつかの手法が次元削減に適用され、最良のアルゴリズムはビット文字列の長さを削減しただけでなく、MLテストの効率も改善した。 さらなる最適化により、識別テストでPharmacoprintを使用することと統計パラメータの最大化に最適なパラメータ設定が定義できるようになった。 最後に、定義された水素を入力データとして3次元構造のために生成されたPharmacoprintは、最も重要なビットを選択するための教師付きオートエンコーダでニューラルネットワークに適用され、マシューズ相関係数を0.962まで最大化することができた。 その結果,Pharmacoprintがコンピュータ支援ドラッグデザインの新しい視点ツールとなる可能性が示された。

Structural fingerprints and pharmacophore modeling are methodologies that have been used for at least two decades in various fields of cheminformatics: from similarity searching to machine learning (ML). Advances in silico techniques consequently led to combining both these methodologies into a new approach known as pharmacophore fingerprint. Herein, we propose a high-resolution, pharmacophore fingerprint called Pharmacoprint that encodes the presence, types, and relationships between pharmacophore features of a molecule. Pharmacoprint was evaluated in classification experiments by using ML algorithms (logistic regression, support vector machines, linear support vector machines, and neural networks) and outperformed other popular molecular fingerprints (i.e., Estate, MACCS, PubChem, Substructure, Klekotha-Roth, CDK, Extended, and GraphOnly) and ChemAxon Pharmacophoric Features fingerprint. Pharmacoprint consisted of 39973 bits; several methods were applied for dimensionality reduction, and the best algorithm not only reduced the length of bit string but also improved the efficiency of ML tests. Further optimization allowed us to define the best parameter settings for using Pharmacoprint in discrimination tests and for maximizing statistical parameters. Finally, Pharmacoprint generated for 3D structures with defined hydrogens as input data was applied to neural networks with a supervised autoencoder for selecting the most important bits and allowed to maximize Matthews Correlation Coefficient up to 0.962. The results show the potential of Pharmacoprint as a new, perspective tool for computer-aided drug design.
翻訳日:2021-10-05 15:12:32 公開日:2021-10-04
# 深層強化学習によるプリビレージエスカレーションの自動化

Automating Privilege Escalation with Deep Reinforcement Learning ( http://arxiv.org/abs/2110.01362v1 )

ライセンス: Link先を確認
Kalle Kujanp\"a\"a, Willie Victor, Alexander Ilin(参考訳) AIベースの防御ソリューションは、ネットワークや情報資産をインテリジェントな自動攻撃から守るために必要である。 機械学習ベースの防御を訓練するための十分な現実的なデータを集めることは、重要な実践的課題である。 リアルアタックが可能なインテリジェントなレッドチームエージェントは、この問題を軽減することができる。 しかし、機械学習を用いた完全自動攻撃の可能性を示す科学的証拠はほとんどない。 本研究では,エージェントの訓練に深層強化学習を用いることで,悪意あるアクターの潜在的な脅威を実証する。 本稿では,最先端強化学習アルゴリズムを用いて局所特権エスカレーションを行うエージェントを提案する。 以上の結果から, 自律エージェントはwindows 7環境において, 環境設定に応じて多様な手法を用いて権限をエスカレーションできることがわかった。 したがって, 本エージェントは, 侵入検知システムを訓練し評価するために, 現実的なアタックセンサデータを生成することができる。

AI-based defensive solutions are necessary to defend networks and information assets against intelligent automated attacks. Gathering enough realistic data for training machine learning-based defenses is a significant practical challenge. An intelligent red teaming agent capable of performing realistic attacks can alleviate this problem. However, there is little scientific evidence demonstrating the feasibility of fully automated attacks using machine learning. In this work, we exemplify the potential threat of malicious actors using deep reinforcement learning to train automated agents. We present an agent that uses a state-of-the-art reinforcement learning algorithm to perform local privilege escalation. Our results show that the autonomous agent can escalate privileges in a Windows 7 environment using a wide variety of different techniques depending on the environment configuration it encounters. Hence, our agent is usable for generating realistic attack sensor data for training and evaluating intrusion detection systems.
翻訳日:2021-10-05 15:12:01 公開日:2021-10-04
# ベイズ解析とスペクトル解析による表状データセットのグラフ構造解明

Unraveling the graph structure of tabular datasets through Bayesian and spectral analysis ( http://arxiv.org/abs/2110.01421v1 )

ライセンス: Link先を確認
Bruno Messias F. de Resende, Eric K. Tokuda, Luciano da Fontoura Costa(参考訳) ビッグデータ時代のグラフデータセットは、至る所で生成され分析されている。 その結果、これらのデータセットの特徴間の関係を見つけ、理解することは、非常に有益である。 そこで,これらの関係を包含するために,表型データセット全体や観測をシェープリー加法で重み付け有向グラフにマッピングする手法を提案する。 この関係のグラフを用いて,nested stochastic block model (nsbm) によって得られた階層的モジュラー構造の推論と磁気ラプラシアンのスペクトル空間の研究は,特徴のクラスを同定し,非自明な関係を解き放つのに役立つことを示す。 ブラジルの学生を対象に実施した社会経済調査: PeNSE 調査を事例として分析した。 カラムのスペクトル埋め込みは、物理的活動に関連する質問が別々のグループを形成することを示唆した。 nsbmアプローチの適用は、それと一致し、モジュラー構造の相補的な発見を可能にした: いくつかの質問群は、調査の設計者によって定性的に定義された分割との密着度が高いことを示した。 しかし、クラス \textit{Safety} からの質問は、クラス \textit{Drugs} のメソッドによって部分的にグループ化された。 驚いたことに、これらの質問を検査することで、これらの質問はどちらも関連しており、これらの質問の代替解釈が提案されている。 本手法は,表型データ解析のガイダンスと今後の調査の設計を提供することができる。

In the big-data age tabular datasets are being generated and analyzed everywhere. As a consequence, finding and understanding the relationships between the features of these datasets are of great relevance. Here, to encompass these relationships we propose a methodology that maps an entire tabular dataset or just an observation into a weighted directed graph using the Shapley additive explanations technique. With this graph of relationships, we show that the inference of the hierarchical modular structure obtained by the nested stochastic block model (nSBM) as well as the study of the spectral space of the magnetic Laplacian can help us identify the classes of features and unravel non-trivial relationships. As a case study, we analyzed a socioeconomic survey conducted with students in Brazil: the PeNSE survey. The spectral embedding of the columns suggested that questions related to physical activities form a separate group. The application of the nSBM approach, corroborated with that and allowed complementary findings about the modular structure: some groups of questions showed a high adherence with the divisions qualitatively defined by the designers of the survey. However, questions from the class \textit{Safety} were partly grouped by our method in the class \textit{Drugs}. Surprisingly, by inspecting these questions, we observed that they were related to both these topics, suggesting an alternative interpretation of these questions. Our method can provide guidance for tabular data analysis as well as the design of future surveys.
翻訳日:2021-10-05 15:11:21 公開日:2021-10-04
# HyperTeNet: 個人化リスト継続のためのハイパーグラフとトランスフォーマーベースニューラルネットワーク

HyperTeNet: Hypergraph and Transformer-based Neural Network for Personalized List Continuation ( http://arxiv.org/abs/2110.01467v1 )

ライセンス: Link先を確認
Vijaikumar M, Deepesh Hada, Shirish Shevade(参考訳) パーソナライズされたリスト継続(PLC)タスクは、パーソナライズされた方法で、次のアイテムをユーザ生成リスト(注文されたアイテムのシーケンス)にキュレートする。 このタスクの主な課題は、既存の作品が考慮していない相互作用するエンティティ(ユーザ、アイテム、リスト)間の三者関係を理解することである。 また、同一タイプのエンティティ間のマルチホップ関係を考慮に入れない。 さらに、リストにすでに存在するアイテムのシーケンシャルな情報を取得することも、キュレートされる次の関連するアイテムを決定する上で重要な役割を果たす。 本稿では,先述の課題を解決するために,リスト継続タスクをパーソナライズするためのハイパーグラフとトランスフォーマーベースのニューラルネットワークアーキテクチャであるhypertenetを提案する。 グラフ畳み込みを用いて、同一タイプのエンティティ間のマルチホップ関係を学習し、自己アテンションに基づくハイパーグラフニューラルネットワークを用いて、3ユニフォームハイパーグラフのハイパーリンク予測により相互作用するエンティティ間の3次関係を学習する。 さらに、エンティティ埋め込みはTransformerベースのアーキテクチャと共有され、交互最適化手順を通じて学習される。 結果として、このネットワークは、リストに追加される次の項目のキュレーションに必要なシーケンシャルな情報も学習する。 実験の結果,HyperTeNetは実世界のデータセット上で,他の最先端モデルよりも大幅に優れていた。 実装とデータセットはhttps://github.com/mvijaikumar/HyperTeNet.comで公開しています。

The personalized list continuation (PLC) task is to curate the next items to user-generated lists (ordered sequence of items) in a personalized way. The main challenge in this task is understanding the ternary relationships among the interacting entities (users, items, and lists) that the existing works do not consider. Further, they do not take into account the multi-hop relationships among entities of the same type. In addition, capturing the sequential information amongst the items already present in the list also plays a vital role in determining the next relevant items that get curated. In this work, we propose HyperTeNet -- a self-attention hypergraph and Transformer-based neural network architecture for the personalized list continuation task to address the challenges mentioned above. We use graph convolutions to learn the multi-hop relationship among the entities of the same type and leverage a self-attention-based hypergraph neural network to learn the ternary relationships among the interacting entities via hyperlink prediction in a 3-uniform hypergraph. Further, the entity embeddings are shared with a Transformer-based architecture and are learned through an alternating optimization procedure. As a result, this network also learns the sequential information needed to curate the next items to be added to the list. Experimental results demonstrate that HyperTeNet significantly outperforms the other state-of-the-art models on real-world datasets. Our implementation and datasets are available at https://github.com/mvijaikumar/HyperTeNet.
翻訳日:2021-10-05 15:10:55 公開日:2021-10-04
# 非凸確率最適化のための確率アンダーソン混合

Stochastic Anderson Mixing for Nonconvex Stochastic Optimization ( http://arxiv.org/abs/2110.01543v1 )

ライセンス: Link先を確認
Fuchao Wei, Chenglong Bao, Yang Liu(参考訳) Anderson Mixing (AM) は固定点反復の加速法である。 科学計算での成功と幅広い利用にもかかわらず、amの収束理論はいまだ不明であり、機械学習問題への応用は十分に検討されていない。 本稿では,従来のAMに減衰投影と適応正規化を導入することで,非凸確率最適化問題の解法として,Stochastic Anderson Mixing(SAM)方式を提案する。 軽度の仮定の下では、定常点へのほぼ確実な収束と最悪の反復複雑性を含むSAMの収束理論を確立する。 さらに、出力としてイテレートをランダムに選択すると、複雑性境界が向上する。 収束をさらに加速するため,提案したSAMに分散低減手法を組み込んだ。 また,より高速な収束やより優れた一般化能力を実証的に達成できるSAMの予条件混合戦略を提案する。 最後に、SAM法を用いて、バニラCNN、ResNets、WideResNet、ResNeXt、DenseNet、RNNなどの様々なニューラルネットワークをトレーニングする。 画像分類と言語モデルの実験結果から,本手法の利点が示された。

Anderson mixing (AM) is an acceleration method for fixed-point iterations. Despite its success and wide usage in scientific computing, the convergence theory of AM remains unclear, and its applications to machine learning problems are not well explored. In this paper, by introducing damped projection and adaptive regularization to classical AM, we propose a Stochastic Anderson Mixing (SAM) scheme to solve nonconvex stochastic optimization problems. Under mild assumptions, we establish the convergence theory of SAM, including the almost sure convergence to stationary points and the worst-case iteration complexity. Moreover, the complexity bound can be improved when randomly choosing an iterate as the output. To further accelerate the convergence, we incorporate a variance reduction technique into the proposed SAM. We also propose a preconditioned mixing strategy for SAM which can empirically achieve faster convergence or better generalization ability. Finally, we apply the SAM method to train various neural networks including the vanilla CNN, ResNets, WideResNet, ResNeXt, DenseNet and RNN. Experimental results on image classification and language model demonstrate the advantages of our method.
翻訳日:2021-10-05 15:10:31 公開日:2021-10-04
# バイアス付き毒性ラベルからの学習に関する実証的研究

An Empirical Investigation of Learning from Biased Toxicity Labels ( http://arxiv.org/abs/2110.01577v1 )

ライセンス: Link先を確認
Neel Nanda, Jonathan Uesato, Sven Gowal(参考訳) 人間のレーダからアノテーションを集めることは、収集したいラベルの量とそれらのラベルの品質のトレードオフをもたらすことが多い。 そのため、少量の高品質なラベルしか収集できないことが多い。 本稿では,オンラインコメントの有害性を予測するために,人間の注釈付きラベルの小さなデータセットと,合成されたラベル(アイデンティティグループに対するバイアスを示す)の大きなノイズの多いデータセットをどのように活用するかを検討する。 我々は,これらのアプローチの正確性と公平性,および両者のトレードオフを評価する。 すべてのデータに対する初期トレーニングとクリーンなデータの微調整によって、最高のAUCを持つモデルが生成されることは分かっていますが、すべてのフェアネス指標に対して、ひとつの戦略が最善を尽くすことはありませんでした。

Collecting annotations from human raters often results in a trade-off between the quantity of labels one wishes to gather and the quality of these labels. As such, it is often only possible to gather a small amount of high-quality labels. In this paper, we study how different training strategies can leverage a small dataset of human-annotated labels and a large but noisy dataset of synthetically generated labels (which exhibit bias against identity groups) for predicting toxicity of online comments. We evaluate the accuracy and fairness properties of these approaches, and trade-offs between the two. While we find that initial training on all of the data and fine-tuning on clean data produces models with the highest AUC, we find that no single strategy performs best across all fairness metrics.
翻訳日:2021-10-05 15:10:11 公開日:2021-10-04
# Solon: 冗長勾配によるコミュニケーション効率の良いビザンチン耐性分散トレーニング

Solon: Communication-efficient Byzantine-resilient Distributed Training via Redundant Gradients ( http://arxiv.org/abs/2110.01595v1 )

ライセンス: Link先を確認
Lingjiao Chen, Leshang Chen, Hongyi Wang, Susan Davidson, Edgar Dobriban(参考訳) 分散モデルトレーニングにおいて、ビザンチンレジリエンスを提供する必要性が高まっている。 既存のロバスト分散学習アルゴリズムは,パラメータサーバにおける高度なロバストアグリゲータの開発に重点を置いているが,通信コストとロバストネスのバランスにあまり注意を払っていない。本論文では,勾配冗長性を利用して通信効率とビザンチン堅牢性を同時に提供するアルゴリズムフレームワークであるsolonを提案する。 理論解析の結果,計算負荷,通信コスト,ビザンチンのロバスト性との根本的なトレードオフが示された。 また,コーディング理論とスパースリカバリからアイデアを借りて,最適なトレードオフを実現するための具体的なアルゴリズムを開発した。 さまざまなデータセットに関する実証実験は、Solonが既存のメソッドよりも大幅にスピードアップして同じ精度を実現していることを示している。 また、慎重に設計されたビザンツの攻撃がシグヌムとブリャンを破り、ソロンの収束に影響を与えないことを示す。

There has been a growing need to provide Byzantine-resilience in distributed model training. Existing robust distributed learning algorithms focus on developing sophisticated robust aggregators at the parameter servers, but pay less attention to balancing the communication cost and robustness.In this paper, we propose Solon, an algorithmic framework that exploits gradient redundancy to provide communication efficiency and Byzantine robustness simultaneously. Our theoretical analysis shows a fundamental trade-off among computational load, communication cost, and Byzantine robustness. We also develop a concrete algorithm to achieve the optimal trade-off, borrowing ideas from coding theory and sparse recovery. Empirical experiments on various datasets demonstrate that Solon provides significant speedups over existing methods to achieve the same accuracy, over 10 times faster than Bulyan and 80% faster than Draco. We also show that carefully designed Byzantine attacks break Signum and Bulyan, but do not affect the successful convergence of Solon.
翻訳日:2021-10-05 15:09:56 公開日:2021-10-04
# モジュロ誘導測定によるスパイク共分散推定

Spiked Covariance Estimation from Modulo-Reduced Measurements ( http://arxiv.org/abs/2110.01150v1 )

ライセンス: Link先を確認
Elad Romanov, Or Ordentlich(参考訳) ランク1のスパイクモデルを考える: $\bf{x}=\sqrt{\nu}\xi \bf{u}+ \bf{z}$ ここで$\nu$はスパイク強度、$\bf{u}\in\mathbb{s}^{k-1}$は未知の方向、$\xi\sim \mathcal{n}(0,1),\bf{z}\sim \mathcal{n}(\bf{0},\bf{i})$ である。 アナログ-デジタル変換の最近の進歩に触発され、高次元のレジーム(k\gg 1$)に焦点をあてて、n$ i.d. modulo-reduced Measurement $\bf{Y}=[\bf{X}]\mod \Delta$ から $\bf{u}\in \mathbb{S}^{k-1} を回復する問題を研究する。 我々は、ほとんどの方向において、$\bf{u}$と$\nu=\mathrm{poly}(k)$に対して、$n=\mathrm{poly}(k)$測定を用いて、高い精度で$\bf{u}$を推定するアルゴリズムを開発し、分析する。 定数に対して、我々のアルゴリズムは、$\bf{u}$を(情報理論的な意味で)$\bf{X}$を$\bf{Y}$から回収できる最小の$\Delta$で正確に推定する。 解析における重要なステップは、ランダムな方向における長さ $\approx\sqrt{\nu}$ の線分が格子 $\delta \mathbb{z}^k$ の点近くを通過する確率を推定することである。 数値実験により, このアルゴリズムは非漸近的な環境でもよく機能することが示された。

Consider the rank-1 spiked model: $\bf{X}=\sqrt{\nu}\xi \bf{u}+ \bf{Z}$, where $\nu$ is the spike intensity, $\bf{u}\in\mathbb{S}^{k-1}$ is an unknown direction and $\xi\sim \mathcal{N}(0,1),\bf{Z}\sim \mathcal{N}(\bf{0},\bf{I})$. Motivated by recent advances in analog-to-digital conversion, we study the problem of recovering $\bf{u}\in \mathbb{S}^{k-1}$ from $n$ i.i.d. modulo-reduced measurements $\bf{Y}=[\bf{X}]\mod \Delta$, focusing on the high-dimensional regime ($k\gg 1$). We develop and analyze an algorithm that, for most directions $\bf{u}$ and $\nu=\mathrm{poly}(k)$, estimates $\bf{u}$ to high accuracy using $n=\mathrm{poly}(k)$ measurements, provided that $\Delta\gtrsim \sqrt{\log k}$. Up to constants, our algorithm accurately estimates $\bf{u}$ at the smallest possible $\Delta$ that allows (in an information-theoretic sense) to recover $\bf{X}$ from $\bf{Y}$. A key step in our analysis involves estimating the probability that a line segment of length $\approx\sqrt{\nu}$ in a random direction $\bf{u}$ passes near a point in the lattice $\Delta \mathbb{Z}^k$. Numerical experiments show that the developed algorithm performs well even in a non-asymptotic setting.
翻訳日:2021-10-05 15:09:22 公開日:2021-10-04
# 音源フィルタネットワークにおける話者非依存感情の分離

Decoupling Speaker-Independent Emotions for Voice Conversion Via Source-Filter Networks ( http://arxiv.org/abs/2110.01164v1 )

ライセンス: Link先を確認
Zhaojie Luo, Shoufeng Lin, Rui Liu, Jun Baba, Yuichiro Yoshikawa and Ishiguro Hiroshi(参考訳) 感情音声変換(VC)は、言語情報と話者のアイデンティティを保持しながら、中立の声を感情的な(例えば幸福な)声に変換することを目的としている。 我々は、他の音声情報(話者、コンテンツなど)からの感情的特徴の分離が、目覚ましいパフォーマンスを達成するための鍵であることに注意する。 中性音声における音声表現の分離に関する最近の試みは、後者に含まれるより複雑な音響特性のため、感情的な音声ではうまく機能しない。 そこで本研究では,音色とピッチの特徴から,話者に依存しない感情特徴の適切なフィルタリングを実現するために,ソースフィルタに基づく感情VCモデル(SFEVC)を提案する。 我々のSFEVCモデルはマルチチャネルエンコーダと感情分離エンコーダと1つのデコーダで構成される。 すべてのエンコーダモジュールは、設計された情報ボトルネック自動エンコーダを採用する。 さらに、様々な感情の変換品質をさらに向上させるために、2次元ヴァレンス・オーラル(VA)空間に基づく新しい2段階トレーニング戦略を提案した。 実験結果から,SFEVCと2段階のトレーニング戦略は,非並列データを用いた話者非依存型感情VCにおいて,すべてのベースラインを上回り,最先端のパフォーマンスを達成することが示された。

Emotional voice conversion (VC) aims to convert a neutral voice to an emotional (e.g. happy) one while retaining the linguistic information and speaker identity. We note that the decoupling of emotional features from other speech information (such as speaker, content, etc.) is the key to achieving remarkable performance. Some recent attempts about speech representation decoupling on the neutral speech can not work well on the emotional speech, due to the more complex acoustic properties involved in the latter. To address this problem, here we propose a novel Source-Filter-based Emotional VC model (SFEVC) to achieve proper filtering of speaker-independent emotion features from both the timbre and pitch features. Our SFEVC model consists of multi-channel encoders, emotion separate encoders, and one decoder. Note that all encoder modules adopt a designed information bottlenecks auto-encoder. Additionally, to further improve the conversion quality for various emotions, a novel two-stage training strategy based on the 2D Valence-Arousal (VA) space was proposed. Experimental results show that the proposed SFEVC along with a two-stage training strategy outperforms all baselines and achieves the state-of-the-art performance in speaker-independent emotional VC with nonparallel data.
翻訳日:2021-10-05 15:05:20 公開日:2021-10-04
# 3d-transformer:3d空間におけるトランスフォーマによる分子表現

3D-Transformer: Molecular Representation with Transformer in 3D Space ( http://arxiv.org/abs/2110.01191v1 )

ライセンス: Link先を確認
Fang Wu, Qiang Zhang, Dragomir Radev, Jiyu Cui, Wen Zhang, Huabin Xing, Ningyu Zhang, Huajun Chen(参考訳) 3次元空間の空間構造は分子特性を決定するのに重要である。 近年の研究では、幾何学的深層学習を用いて分子を表現し、特性を予測する。 しかしながら、これらの論文は入力原子の長距離依存を捉えるのに計算コストが高く、原子間距離の非均一性は考慮されておらず、異なるスケールで文脈依存表現を学習できない。 このような問題に対処するため、3d空間情報を組み込んだ分子表現用トランスフォーマーの変種である3d-transformerを導入する。 3D-Transformerは原子間の直接接続を持つ完全連結グラフで動作する。 原子間距離の不均一性に対処するため,局所的な微細なパターンを利用したマルチスケール自己認識モジュールを開発した。 異なる大きさの分子が異なる空間的特徴に依存するため、小分子と大分子の異なる位置符号化方式を採用する適応的位置符号化モジュールを設計する。 最後に、原子の埋め込みから分子表現を得るため、注意スコア、仮想ノードのハンディキャップとそれ以前の距離支配的なダウンサンプリング法を克服し、原子の一部を選択できる注意深い遠点サンプリングアルゴリズムを提案する。 量子化学、物質科学、プロテオミクスという3つの重要な科学領域で3dトランスフォーマーを検証する。 本実験は, 結晶特性予測タスクおよびタンパク質-リガンド結合親和性予測タスクにおける最先端モデルに対する顕著な改善を示し, 量子化学分子データセットにおける優れた性能, 競合性能を示す。 この研究は、生化学的タスクが3次元分子表現から一貫した利益を得ることができるという明確な証拠を提供する。

Spatial structures in the 3D space are important to determine molecular properties. Recent papers use geometric deep learning to represent molecules and predict properties. These papers, however, are computationally expensive in capturing long-range dependencies of input atoms; and have not considered the non-uniformity of interatomic distances, thus failing to learn context-dependent representations at different scales. To deal with such issues, we introduce 3D-Transformer, a variant of the Transformer for molecular representations that incorporates 3D spatial information. 3D-Transformer operates on a fully-connected graph with direct connections between atoms. To cope with the non-uniformity of interatomic distances, we develop a multi-scale self-attention module that exploits local fine-grained patterns with increasing contextual scales. As molecules of different sizes rely on different kinds of spatial features, we design an adaptive position encoding module that adopts different position encoding methods for small and large molecules. Finally, to attain the molecular representation from atom embeddings, we propose an attentive farthest point sampling algorithm that selects a portion of atoms with the assistance of attention scores, overcoming handicaps of the virtual node and previous distance-dominant downsampling methods. We validate 3D-Transformer across three important scientific domains: quantum chemistry, material science, and proteomics. Our experiments show significant improvements over state-of-the-art models on the crystal property prediction task and the protein-ligand binding affinity prediction task, and show better or competitive performance in quantum chemistry molecular datasets. This work provides clear evidence that biochemical tasks can gain consistent benefits from 3D molecular representations and different tasks require different position encoding methods.
翻訳日:2021-10-05 15:04:59 公開日:2021-10-04
# 配電系統におけるスケーラブル電圧最適化のためのリスクアウェア学習

Risk-Aware Learning for Scalable Voltage Optimization in Distribution Grids ( http://arxiv.org/abs/2110.01490v1 )

ライセンス: Link先を確認
Shanny Lin, Shaohui Liu, and Hao Zhu(参考訳) 分散エネルギー資源(DER)のリアルタイム調整は配電系統における電圧分布の制御に不可欠である。 スケーラブルなニューラルネットワーク(NN)アーキテクチャを活用することで、マシンラーニングツールは、予測の平均損失を最小限に抑えて、分散化DER決定を達成できる。 本稿では,リアクティブ電力予測と電圧偏差に関する潜在的なリスクを考慮し,これらの学習可能なアプローチを改善することを目的とする。 具体的には,最悪のサンプルのみに基づいて,条件付きリスク損失(CVaR)を用いて,そのようなリスクを測定することを提案する。 そこで本研究では, CVaR損失目標に基づくトレーニングプロセスを加速するために, 最悪のサンプルを含む可能性が低いミニバッチを選択することを提案する。 ieee 123-busテストケースにおける実世界データを用いた数値実験により,分散der意思決定のためのリスクアウェア学習アルゴリズムの計算と安全性の向上が実証された。

Real-time coordination of distributed energy resources (DERs) is crucial for regulating the voltage profile in distribution grids. By capitalizing on a scalable neural network (NN) architecture, machine learning tools can attain decentralized DER decisions by minimizing the average loss of prediction. This paper aims to improve these learning-enabled approaches by accounting for the potential risks associated with reactive power prediction and voltage deviation. Specifically, we advocate to measure such risks using the conditional value-at-risk (CVaR) loss based on the worst-case samples only, which could lead to the learning efficiency issue. To tackle this issue, we propose to accelerate the training process under the CVaR loss objective by selecting the mini-batches that are more likely to contain the worst-case samples of interest. Numerical tests using real-world data on the IEEE 123-bus test case have demonstrated the computation and safety improvements of the proposed risk-aware learning algorithm for decentralized DER decision making in distribution systems.
翻訳日:2021-10-05 15:04:30 公開日:2021-10-04
# 分極調整畳み込み(PAC)符号のレートプロファイリングのための修正Q学習アルゴリズム

A Modified Q-Learning Algorithm for Rate-Profiling of Polarization Adjusted Convolutional (PAC) Codes ( http://arxiv.org/abs/2110.01563v1 )

ライセンス: Link先を確認
Samir Kumar Mishra, Digvijay Katyal and Sarvesha Anegundi Ganapathi(参考訳) 本稿では,arikanの分極支援畳み込み符号(pac)のレートプロファイル構築のための強化学習に基づくアルゴリズムを提案する。 この方法は、逐次キャンセルリスト(SCL)デコードおよび畳み込みプリコーディング多項式の任意のブロック長、レート、リストサイズに使用できる。 我々の知識を最大限に活用するために、我々は、強化学習エージェントが既存の文献よりもはるかに優れた利率を見出すのに役立つ新しい報酬と更新戦略を初めて提示する。 シミュレーションの結果,提案アルゴリズムを用いて構築したPAC符号は,様々なリスト長に対して,現代のレートプロファイリング設計で構築したPAC符号と比較して,フレーム消去率(FER)の点で優れていた。 さらに、(64, 32)のPAC符号を例として使用することにより、畳み込みプリコーディング多項式の選択がPAC符号のレートに顕著な影響があることが示されている。

In this paper, we propose a reinforcement learning based algorithm for rate-profile construction of Arikan's Polarization Assisted Convolutional (PAC) codes. This method can be used for any blocklength, rate, list size under successive cancellation list (SCL) decoding and convolutional precoding polynomial. To the best of our knowledge, we present, for the first time, a set of new reward and update strategies which help the reinforcement learning agent discover much better rate-profiles than those present in existing literature. Simulation results show that PAC codes constructed with the proposed algorithm perform better in terms of frame erasure rate (FER) compared to the PAC codes constructed with contemporary rate profiling designs for various list lengths. Further, by using a (64, 32) PAC code as an example, it is shown that the choice of convolutional precoding polynomial can have a significant impact on rate-profile construction of PAC codes.
翻訳日:2021-10-05 15:04:16 公開日:2021-10-04
# 微分ネット:パラメトリック偏微分方程式の神経場解

DiffNet: Neural Field Solutions of Parametric Partial Differential Equations ( http://arxiv.org/abs/2110.01601v1 )

ライセンス: Link先を確認
Biswajit Khara, Aditya Balu, Ameya Joshi, Soumik Sarkar, Chinmay Hegde, Adarsh Krishnamurthy, Baskar Ganapathysubramanian(参考訳) ニューラルネットワークをトレーニングするメッシュベースのアプローチでパラメトリック偏微分方程式(PDE)の解の場予測を行う。 このアプローチは、コロケーションに基づく手法を用いてPDEに対する解のポイントワイズ予測を行う「ニューラルPDEソルバ」に対する現在のアプローチとは対照的である。 このアプローチは、異なる境界条件を自然に強制するだけでなく、数値安定性と収束の解析を含むよく開発されたpde理論を、離散化された領域で提案するニューラルネットワークの容量境界を得るのを容易にするという利点がある。 我々は、パラメトリック楕円型PDE上の有限要素法(FEM)に基づく重み付きガレルキン損失関数を用いて、DiffNetと呼ばれるメッシュベースの戦略を探索する。 重み付きガレルキン損失(fem損失)は、改良された解を生み出し、 \textit{a priori}メッシュ収束を満たすエネルギー汎関数と似ており、ディリクレとノイマン境界条件をモデル化することができる。 我々は理論的に証明し,実験により,有限要素解に展開したメッシュ収束解析に類似した収束結果を示す。 これらの結果は、メッシュベースのニューラルネットワークアプローチがパラメトリックPDEを解決するための有望なアプローチであることを示している。

We consider a mesh-based approach for training a neural network to produce field predictions of solutions to parametric partial differential equations (PDEs). This approach contrasts current approaches for ``neural PDE solvers'' that employ collocation-based methods to make point-wise predictions of solutions to PDEs. This approach has the advantage of naturally enforcing different boundary conditions as well as ease of invoking well-developed PDE theory -- including analysis of numerical stability and convergence -- to obtain capacity bounds for our proposed neural networks in discretized domains. We explore our mesh-based strategy, called DiffNet, using a weighted Galerkin loss function based on the Finite Element Method (FEM) on a parametric elliptic PDE. The weighted Galerkin loss (FEM loss) is similar to an energy functional that produces improved solutions, satisfies \textit{a priori} mesh convergence, and can model Dirichlet and Neumann boundary conditions. We prove theoretically, and illustrate with experiments, convergence results analogous to mesh convergence analysis deployed in finite element solutions to PDEs. These results suggest that a mesh-based neural network approach serves as a promising approach for solving parametric PDEs.
翻訳日:2021-10-05 15:04:00 公開日:2021-10-04
# (参考訳) BERT、一時的なタグ付けにトランスフォーマーを導入

BERT got a Date: Introducing Transformers to Temporal Tagging ( http://arxiv.org/abs/2109.14927v2 )

ライセンス: CC BY 4.0
Satya Almasian, Dennis Aumiller, Michael Gertz(参考訳) テキスト中の時間表現は、言語理解において重要な役割を担い、それらを正しく識別することは、様々な検索や自然言語処理システムの基礎となる。 以前の研究は徐々にルールベースからニューラルネットワークアーキテクチャにシフトし、より精度の高い表現をタグ付けできるようになった。 しかし、ニューラルモデルは、ルールベースのモデルと同じレベルで異なる表現型を区別することはできない。 本研究は, 時空間タグ付けと型分類に最も適した変圧器アーキテクチャを特定し, 半教師付き訓練がシステムの性能に及ぼす影響について検討することを目的とする。 トークン分類の変種とエンコーダ-デコーダアーキテクチャを基礎として,roberta言語モデルを用いたトランスフォーマエンコーダ-デコーダモデルを提案する。 ルールベースシステムからの弱いラベル付きデータでトレーニングリソースを補足することで,従来の時間的タグ付けや型分類,特にレアクラスを超越したモデルを構築した。 私たちのコードと事前訓練済みの実験は、https://github.com/satya77/Transformer_Temporal_Taggerで利用可能です。

Temporal expressions in text play a significant role in language understanding and correctly identifying them is fundamental to various retrieval and natural language processing systems. Previous works have slowly shifted from rule-based to neural architectures, capable of tagging expressions with higher accuracy. However, neural models can not yet distinguish between different expression types at the same level as their rule-based counterparts. In this work, we aim to identify the most suitable transformer architecture for joint temporal tagging and type classification, as well as, investigating the effect of semi-supervised training on the performance of these systems. Based on our study of token classification variants and encoder-decoder architectures, we present a transformer encoder-decoder model using the RoBERTa language model as our best performing system. By supplementing training resources with weakly labeled data from rule-based systems, our model surpasses previous works in temporal tagging and type classification, especially on rare classes. Our code and pre-trained experiments are available at: https://github.com/satya77/Transformer_Temporal_Tagger
翻訳日:2021-10-05 11:11:56 公開日:2021-10-04
# 対応学習とメッシュリファインメントによる3次元ポス転送

3D Pose Transfer with Correspondence Learning and Mesh Refinement ( http://arxiv.org/abs/2109.15025v2 )

ライセンス: Link先を確認
Chaoyue Song, Jiacheng Wei, Ruibo Li, Fayao Liu and Guosheng Lin(参考訳) 3dポーズ転送は、最も難しい3d生成タスクの1つだ。 これは、ソースメッシュのポーズをターゲットメッシュに転送し、ターゲットメッシュのアイデンティティ(例えば、ボディシェイプ)を保持することを目的としている。 以前の作業では、ソースとターゲットメッシュ間の信頼できる対応を構築するためにキーポイントアノテーションが必要だったが、他の方法はソースとターゲット間の形状対応を考慮せず、生成品質が制限される。 本研究では,人間と動物のメッシュの3次元ポーズ伝達を支援するための通信抑制ネットワークを提案する。 ソースとターゲットメッシュの対応は、まず最適なトランスポート問題を解決することによって確立される。 そして、その密度の高い対応に従ってソースメッシュをワープし、粗いワープメッシュを得る。 これは条件付き正規化層であり、高品質のメッシュを生成するのに役立つ。 広範な実験結果から,提案するアーキテクチャは,ソースからターゲットメッシュへのポーズを効果的に移動でき,最先端の手法よりも良好な視覚性能が得られることがわかった。

3D pose transfer is one of the most challenging 3D generation tasks. It aims to transfer the pose of a source mesh to a target mesh and keep the identity (e.g., body shape) of the target mesh. Some previous works require key point annotations to build reliable correspondence between the source and target meshes, while other methods do not consider any shape correspondence between sources and targets, which leads to limited generation quality. In this work, we propose a correspondence-refinement network to help the 3D pose transfer for both human and animal meshes. The correspondence between source and target meshes is first established by solving an optimal transport problem. Then, we warp the source mesh according to the dense correspondence and obtain a coarse warped mesh. The warped mesh will be better refined with our proposed Elastic Instance Normalization, which is a conditional normalization layer and can help to generate high-quality meshes. Extensive experimental results show that the proposed architecture can effectively transfer the poses from source to target meshes and produce better results with satisfied visual performance than state-of-the-art methods.
翻訳日:2021-10-05 10:47:33 公開日:2021-10-04