このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210823となっている論文です。

PDF登録状況(公開日: 20210823)

TitleAuthorsAbstract論文公表日・翻訳日
# 「あとどれくらいですか?」 youtube における incel コミュニティの理解

"How over is it?" Understanding the Incel Community on YouTube ( http://arxiv.org/abs/2001.08293v7 )

ライセンス: Link先を確認
Kostantinos Papadamou, Savvas Zannettou, Jeremy Blackburn, Emiliano De Cristofaro, Gianluca Stringhini, and Michael Sirivianos(参考訳) YouTubeは、ユーザー生成ビデオコンテンツの世界で最大のホストだ。 残念ながら、このプラットフォームは不適切で有害で憎悪に満ちたコンテンツをホストしているとして非難されている。 憎しみと偽善的な内容の共有と出版にしばしば結びついているコミュニティの一つに、男性問題に焦点を当てた緩やかに定義された運動であるInvoluntary Celibates (Incels)がある。 本稿では,この10年間のコミュニティの発展と,youtubeのレコメンデーションアルゴリズムがユーザをインセル関連ビデオへと導くかを理解することで,youtube上のインセルコミュニティの分析に着手した。 Reddit内のIncelコミュニティで共有されたビデオを収集し、YouTubeに投稿されたコンテンツのデータ駆動によるキャラクタリゼーションを実行します。 中でも、YouTube上のIncelコミュニティは勢いを増しており、過去10年間で、Incel関連のビデオやコメントの数が大幅に増加した。 また、インセル関連ビデオから始めると、5ホップ以内にYouTubeの推奨アルゴリズムによってインセル関連ビデオが提案される確率が6.3%であることも判明した。 インセルのアクティビティは時間とともに増加していますが、プラットフォームはユーザーをこのような極端なコンテンツへと導く上でも積極的な役割を担っています。

YouTube is by far the largest host of user-generated video content worldwide. Alas, the platform has also come under fire for hosting inappropriate, toxic, and hateful content. One community that has often been linked to sharing and publishing hateful and misogynistic content are the Involuntary Celibates (Incels), a loosely defined movement ostensibly focusing on men's issues. In this paper, we set out to analyze the Incel community on YouTube by focusing on this community's evolution over the last decade and understanding whether YouTube's recommendation algorithm steers users towards Incel-related videos. We collect videos shared on Incel communities within Reddit and perform a data-driven characterization of the content posted on YouTube. Among other things, we find that the Incel community on YouTube is getting traction and that, during the last decade, the number of Incel-related videos and comments rose substantially. We also find that users have a 6.3% chance of being suggested an Incel-related video by YouTube's recommendation algorithm within five hops when starting from a non Incel-related video. Overall, our findings paint an alarming picture of online radicalization: not only Incel activity is increasing over time, but platforms may also play an active role in steering users towards such extreme content.
翻訳日:2023-06-06 06:59:50 公開日:2021-08-23
# 絡み合い分類器としての$\beta$-variational autoencoder

$\beta$-Variational Autoencoder as an Entanglement Classifier ( http://arxiv.org/abs/2004.14420v3 )

ライセンス: Link先を確認
Nahum S\'a and Itzhak Roditi(参考訳) 我々は、量子状態が測定値に基づいて絡み合っているか分離可能であるかを判別するために、$\beta$-variational autoencoder ($\beta$-vae) に似たアーキテクチャを使うことに集中する。 データを局所的および相関的な測定セットの2つのセットに分割した。 データの低次元表現である潜在空間を用いて,局所的なデータ集合に自身を制限しても,絡み合った状態と分離可能な状態の区別は不可能であることを示す。 一方、相関測定と局所測定の両方を考慮すると、潜在空間の構造において80%以上の精度が得られる。

We focus on using an architecture similar to the $\beta$-Variational Autoencoder ($\beta$-VAE) to discriminate if a quantum state is entangled or separable based on measurements. We split the data into two sets, the set of local and correlated measurements. Using the latent space, which is a low dimensional representation of the data, we show that restricting ourselves to the set of local data it is not possible to distinguish between entangled and separable states. Meanwhile, when considering both correlated and local measurements, an accuracy of over 80% is attained in the structure of the latent space.
翻訳日:2023-05-21 19:29:47 公開日:2021-08-23
# ナノメカニカル量子ビットの提案

Proposal for a nanomechanical qubit ( http://arxiv.org/abs/2008.10524v3 )

ライセンス: Link先を確認
F. Pistolesi, A.N. Cleland, and A. Bachtold(参考訳) メカニカル発振器は、幅広い周波数で非常に高い品質の要因で実証されている。 これらはまた、様々なフィールドと力に結合し、センサーとして理想的です。 したがって、機械的な量子ビットの実現は、量子計算とセンシングのための重要な新しいプラットフォームを提供する可能性がある。 ここでは、懸濁カーボンナノチューブの曲げモードの1つをナノチューブで定義された二重量子ドットの電荷状態に結合させることにより、機械振動子における十分な不調和性を誘導し、結合系を機械量子ビットとして使用できることを示す。 しかし、これはデバイスが超強結合状態に入るときにのみ達成できる。 我々は,アンハーモニティが現れる条件を議論し,ハミルトニアンをアンハーモニック振動子にマッピングできることを示し,エネルギー準位構造と量子ドットと機械振動子との非一貫性が量子ビットによってどのように受け継がれるかを解明する。 興味深いことに、量子ドットによる劣化は結合系において数桁の規模で減少することが期待されている。 2つの量子ビットをマイクロ波共振器に結合することで、量子ビット制御、読み出しプロトコル、cnotゲートの実現を概説し、最終的に量子ビットを静力量子センサとして使用できる方法について述べる。

Mechanical oscillators have been demonstrated with very high quality factors over a wide range of frequencies. These also couple to a wide variety of fields and forces, making them ideal as sensors. The realization of a mechanically-based quantum bit could therefore provide an important new platform for quantum computation and sensing. Here we show that by coupling one of the flexural modes of a suspended carbon nanotube to the charge states of a double quantum dot defined in the nanotube, it is possible to induce sufficient anharmonicity in the mechanical oscillator so that the coupled system can be used as a mechanical quantum bit. This can however only be achieved when the device enters the ultrastrong coupling regime. We discuss the conditions for the anharmonicity to appear, and we show that the Hamiltonian can be mapped onto an anharmonic oscillator, allowing us to work out the energy level structure and how decoherence from the quantum dot and the mechanical oscillator are inherited by the qubit. Remarkably, the dephasing due to the quantum dot is expected to be reduced by several orders of magnitude in the coupled system. We outline qubit control, readout protocols, the realization of a CNOT gate by coupling two qubits to microwave cavity, and finally how the qubit can be used as a static force quantum sensor.
翻訳日:2023-05-05 02:10:53 公開日:2021-08-23
# 量子ネットワークにまたがるグラフ状態の分散

Distributing Graph States Across Quantum Networks ( http://arxiv.org/abs/2009.10888v3 )

ライセンス: Link先を確認
Alex Fischer, Don Towsley(参考訳) グラフ状態は多成分量子状態の重要なクラスである。 量子ネットワーク上でグラフ状態を分散する新しい手法を提案する。 ローカル操作が自由なノード量子コンピュータと、連続的に生成可能なノード間で共有されるEPRペアからなる量子ネットワークを考える。 我々は,EPRペアの消費数,タイムステップ数,必要な古典的コミュニケーション量に対するアプローチの上限を,すべて以前の作業と同等かそれ以上に証明する。 また,多項式時間複雑性を有するネットワークフロー問題へのアプローチにより,グラフ状態の分散に要する時間ステップ数を最小化する問題も軽減する。

Graph states are an important class of multipartite entangled quantum states. We propose a new approach for distributing graph states across a quantum network. We consider a quantum network consisting of nodes-quantum computers within which local operations are free-and EPR pairs shared between nodes that can continually be generated. We prove upper bounds for our approach on the number of EPR pairs consumed, number of timesteps taken, and amount of classical communication required, all of which are equal to or better than that of prior work. We also reduce the problem of minimizing the number of timesteps taken to distribute a graph state using our approach to a network flow problem having polynomial time complexity.
翻訳日:2023-05-01 05:02:08 公開日:2021-08-23
# 振幅推定のための修正グローバー演算子

Modified Grover operator for amplitude estimation ( http://arxiv.org/abs/2010.11656v2 )

ライセンス: Link先を確認
Shumpei Uno, Yohichi Suzuki, Keigo Hisanaga, Rudy Raymond, Tomoki Tanaka, Tamiya Onodera, Naoki Yamamoto(参考訳) 本稿では,修正グロバー演算子を用いた量子振幅推定法を提案し,従来の標準グロバー演算子と同様,理想的な場合において2次精度で推定精度を向上させる。 この非分極雑音下では,量子フィッシャー情報によって特徴付けられる究極的な推定精度を,多数の量子ビットの限界で原則的に達成できるという意味では,従来の手法よりも優れており,従来の手法では究極的精度の値が得られない。 一般に、この優越性は洗練された適応的測定を必要とするが、提案手法が従来の手法よりも優れており、単純な非適応的計測戦略であっても究極の精度にアプローチできることを数値的に証明する。

In this paper, we propose a quantum amplitude estimation method that uses a modified Grover operator and quadratically improves the estimation accuracy in the ideal case, as in the conventional one using the standard Grover operator. Under the depolarizing noise, the proposed method can outperform the conventional one in the sense that it can in principle achieve the ultimate estimation accuracy characterized by the quantum Fisher information in the limit of a large number of qubits, while the conventional one cannot achieve the same value of ultimate accuracy. In general this superiority requires a sophisticated adaptive measurement, but we numerically demonstrate that the proposed method can outperform the conventional one and approach to the ultimate accuracy, even with a simple non-adaptive measurement strategy.
翻訳日:2023-04-28 01:07:26 公開日:2021-08-23
# 測定誘起臨界度と絡み合いクラスター:1Dおよび2Dクリフォード回路の研究

Measurement-induced criticality and entanglement clusters: a study of 1D and 2D Clifford circuits ( http://arxiv.org/abs/2012.03857v3 )

ライセンス: Link先を確認
Oliver Lunt, Marcin Szyniszewski, Arijeet Pal(参考訳) 量子力学における絡み合い遷移は、非平衡系における新しい相転移のクラスである。 多体量子系が監視されたランダムな測定で一元的進化を行うと、定常状態は体積と領域法的な絡み合いの間の相転移を示す。 $d+1$次元の非単位量子回路における測定誘起遷移と$d+1$次元の古典統計力学モデルとの対応がある。 ある極限において、これらのモデルはパーコレーションに写像されるが、解析的および数値的な証拠があり、これらの制限から離れて、普遍性クラスは一般にパーコレーションと区別されるべきである。 興味深いことに、これらの議論にもかかわらず、1D量子ビット回路上の数値は、2Dパーコレーションのそれに近いバルク指数を与える。 この研究の前半では、2次元クリフォード回路の臨界特性について研究する。 バルクでは、バルク指数のマッチングや臨界エンタングルメント成長のための逆のパワーローなど、パーコレーション図によって示唆される多くの特性、すなわち領域ローに飽和する$S(t,L) \sim L(1 - a/t)$が見つかる。 次に,グラフ状態に基づくアルゴリズムを用いて,定常状態における絡み合いクラスタの臨界特性を1次元および2次元で解析する。 単純な幾何写像からパーコレーションへのモデルである射影横場イジングモデルにおいて、エンタングルメントクラスタはパーコレーション表面指数によって制御されることを示す。 しかし、クリフォードモデルでは、表面パーコレーションとクラスター指数に大きなずれが見られ、任意の幾何写像がパーコレーションに分解されることが強調される。 パーコレーション普遍性クラスから逸脱する証拠を考えると、この結果はなぜ多くのバルク特性がパーコレーションと同様に振る舞うのかという疑問を提起する。

Entanglement transitions in quantum dynamics present a novel class of phase transitions in non-equilibrium systems. When a many-body quantum system undergoes unitary evolution interspersed with monitored random measurements, the steady-state can exhibit a phase transition between volume and area-law entanglement. There is a correspondence between measurement-induced transitions in non-unitary quantum circuits in $d$ spatial dimensions and classical statistical mechanical models in $d+1$ dimensions. In certain limits these models map to percolation, but there is analytical and numerical evidence to suggest that away from these limits the universality class should generically be distinct from percolation. Intriguingly, despite these arguments, numerics on 1D qubit circuits give bulk exponents which are nonetheless close to those of 2D percolation, with possible differences in surface behavior. In the first part of this work we study the critical properties of 2D Clifford circuits. In the bulk, we find many properties suggested by the percolation picture, including matching bulk exponents, and an inverse power-law for the critical entanglement growth, $S(t,L) \sim L(1 - a/t)$, which saturates to an area-law. We then utilize a graph-state based algorithm to analyze in 1D and 2D the critical properties of entanglement clusters in the steady state. We show that in a model with a simple geometric map to percolation, the projective transverse field Ising model, the entanglement clusters are governed by percolation surface exponents. However, in the Clifford models we find large deviations in the cluster exponents from those of surface percolation, highlighting the breakdown of any possible geometric map to percolation. Given the evidence for deviations from the percolation universality class, our results raise the question of why nonetheless many bulk properties behave similarly to percolation.
翻訳日:2023-04-21 20:54:55 公開日:2021-08-23
# 三角三重量子ドットにおけるコヒーレント時間依存振動と時間相関

Coherent time-dependent oscillations and temporal correlations in triangular triple quantum dots ( http://arxiv.org/abs/2012.09039v3 )

ライセンス: Link先を確認
Samuel L. Rudge and Daniel S. Kosov(参考訳) トリプル量子ドット(tqds)のゆらぎ挙動は、これまでのところ、全計数統計による長期限界における電流累積に主に焦点が当てられている。 TQDは、Aharonov-Bohm干渉やコヒーレント集団ブロッキングのような多くの興味深い特徴を持つ非自明なオープン量子系であるため、待ち時間分布(WTD)のような新しい変動時間統計は、現在の累積量だけよりも多くの情報を提供する可能性がある。 本論文では、ボルンマルコフマスター方程式を用いて、複数の輸送系に対して三角環ジオメトリに配列されたコヒーレント結合されたTQDの標準および高次WTDを計算する。 いずれの場合も、WTDは個々の時間依存のドット占有確率と直接対応するコヒーレント振動を示しており、Refでも報告されている。 [1]. しかし,本解析では,単一占有時間と単一待機時間の範囲を超えて,複数の電子と有限電子電子電子相互作用を有するtqdの待ち時間挙動を調査した。 高い占有率のこれらの状態において、量子コヒーレント効果は連続した待ち時間の間の相関を導入し、印加磁場によって調整できることを実証する。 また, 同一のFCSを持つTQD構成と, Aharonov-Bohm干渉による暗黒状態の調整を, 単一占有率よりも複雑な状況下で行うことができることを示す。

The fluctuation behavior of triple quantum dots (TQDs) has, so far, largely focused on current cumulants in the long-time limit via full counting statistics. Given that (TQDs) are non-trivial open quantum systems with many interesting features, such as Aharonov-Bohm interference and coherent population blocking, new fluctuating-time statistics, such as the waiting time distribution (WTD), may provide more information than just the current cumulants alone. In this paper, we use a Born-Markov master equation to calculate the standard and higher-order WTDs for coherentlycoupled TQDs arrayed in triangular ring geometries for several transport regimes. In all cases we find that the WTD displays coherent oscillations that correspond directly to individual time-dependent dot occupation probabilities, a result also reported recently in Ref.[1]. Our analysis, however, goes beyond the single-occupancy and single waiting time regimes, investigating waiting time behavior for TQDs occupied by multiple electrons and with finite electron-electron interactions. We demonstrate that, in these regimes of higher occupancy, quantum coherent effects introduce correlations between successive waiting times, which we can tune via an applied magnetic field. We also show that correlations can be used to distinguish between TQD configurations that have identical FCS and that dark states can be tuned with Aharonov-Bohm interference for more complicated regimes than single-occupancy.
翻訳日:2023-04-20 11:12:43 公開日:2021-08-23
# 地中準備のための適応的変分量子イマジナリー時間進化手法

Adaptive Variational Quantum Imaginary Time Evolution Approach for Ground State Preparation ( http://arxiv.org/abs/2102.01544v3 )

ライセンス: Link先を確認
Niladri Gomes, Anirban Mukherjee, Feng Zhang, Thomas Iadecola, Cai-Zhuang Wang, Kai-Ming Ho, Peter P. Orth and Yong-Xin Yao(参考訳) aqite (adaptive variational quantum imaginary time evolution) アプローチは、短期量子コンピュータ上で相互作用するハミルトニアンの基底状態の効率的な表現をもたらす。 これは、変分波動関数の虚時間進化に適用されるマクラクランの変分原理に基づいている。 変分パラメータは、マクラクラン距離によって定量化される正確な虚時発展の差を最小化する運動方程式に従って決定論的に進化する。 マクラクラン距離がアンサッツの品質によって制約される固定変分アンサッツで作業する代わりに、avqite法は、アンサッツを動的経路に沿って反復的に拡大して、マクラクラン距離を選択された閾値以下に保つ。 これにより、状態は予め定義された固定アンザッツによって設定された制限変動多様体ではなく、系のヒルベルト空間における量子想像時間進化経路に従うことができる。 AVQITE は H$_4$, H$_2$O および BeH$_2$ 分子の基底状態を作るために用いられ、化学精度でコンパクトな変量 ans\atze と基底状態エネルギーを生成する。 量子スピンモデルのavqite計算により,回路深さと系の大きさの多項式スケーリングが実証された。 最後に、量子ランツォス計算は、追加の量子リソースコストなしで自然にAVQITEと共に実行できることを示した。

An adaptive variational quantum imaginary time evolution (AVQITE) approach is introduced that yields efficient representations of ground states for interacting Hamiltonians on near-term quantum computers. It is based on McLachlan's variational principle applied to imaginary time evolution of variational wave functions. The variational parameters evolve deterministically according to equations of motions that minimize the difference to the exact imaginary time evolution, which is quantified by the McLachlan distance. Rather than working with a fixed variational ansatz, where the McLachlan distance is constrained by the quality of the ansatz, the AVQITE method iteratively expands the ansatz along the dynamical path to keep the McLachlan distance below a chosen threshold. This ensures the state is able to follow the quantum imaginary time evolution path in the system Hilbert space rather than in a restricted variational manifold set by a predefined fixed ansatz. AVQITE is used to prepare ground states of H$_4$, H$_2$O and BeH$_2$ molecules, where it yields compact variational ans\"atze and ground state energies within chemical accuracy. Polynomial scaling of circuit depth with system size is demonstrated through a set of AVQITE calculations of quantum spin models. Finally, it is shown that quantum Lanczos calculations can also be naturally performed alongside AVQITE without additional quantum resource costs.
翻訳日:2023-04-13 00:40:32 公開日:2021-08-23
# 実時間格子ゲージ理論の作用:ユニタリティ、収束、経路積分輪郭変形

Real-time lattice gauge theory actions: unitarity, convergence, and path integral contour deformations ( http://arxiv.org/abs/2103.02602v3 )

ライセンス: Link先を確認
Gurtej Kanwar, Michael L. Wagman(参考訳) ユークリッド格子ゲージ理論のウィルソン作用は、解析的にリアルタイムに継続すると、ユニタリ格子ゲージ理論の時間進化作用素に対応する正の定値移動行列を定義する。 hoshina, fujii, kikukawa (hfk) は、wilson action discretization を連続的実時間ゲージ理論に適用しても、ユニタリ理論や他のいかなるユニタリ理論に繋がらないことを指摘し、ユニタリな実時間移動行列(英語版)(unitary real-time transfer matrix)をもたらす別の実時間格子ゲージ理論の作用を提案した。 HFK作用を定義する文字展開はばらつきがあり、この研究では、数値モンテカルロ計算に適したU(1)HFK経路積分の収束表現を得るために経路積分輪郭変形を適用する。 また,ユークリッド熱・カーネル作用の解析的継続に基づく実時間格子ゲージ作用のクラスも紹介する。 同様の発散和がこれらの作用の定義に関与しているが、このクラスのある作用は特に単純であり、U(1) と SU(N) の実時間格子ゲージ理論の経路積分に対する絶対収束表現を与える経路積分輪郭変形を構成することができる。 実時間 U(1) と SU(3) 格子ゲージ理論のモンテカルロ計算を行い、(1 + 1)D における静的クォーク-反クォーク対の単位時間発展の正確な結果が再現されることを検証する。

The Wilson action for Euclidean lattice gauge theory defines a positive-definite transfer matrix that corresponds to a unitary lattice gauge theory time-evolution operator if analytically continued to real time. Hoshina, Fujii, and Kikukawa (HFK) recently pointed out that applying the Wilson action discretization to continuum real-time gauge theory does not lead to this, or any other, unitary theory and proposed an alternate real-time lattice gauge theory action that does result in a unitary real-time transfer matrix. The character expansion defining the HFK action is divergent, and in this work we apply a path integral contour deformation to obtain a convergent representation for U(1) HFK path integrals suitable for numerical Monte Carlo calculations. We also introduce a class of real-time lattice gauge theory actions based on analytic continuation of the Euclidean heat-kernel action. Similar divergent sums are involved in defining these actions, but for one action in this class this divergence takes a particularly simple form, allowing construction of a path integral contour deformation that provides absolutely convergent representations for U(1) and SU(N) real-time lattice gauge theory path integrals. We perform proof-of-principle Monte Carlo calculations of real-time U(1) and SU(3) lattice gauge theory and verify that exact results for unitary time evolution of static quark-antiquark pairs in (1 + 1)D are reproduced.
翻訳日:2023-04-09 07:52:28 公開日:2021-08-23
# 一般確率論 : 序説

General probabilistic theories: An introduction ( http://arxiv.org/abs/2103.07469v2 )

ライセンス: Link先を確認
Martin Pl\'avala(参考訳) 本稿では,一般確率論(GPT)の枠組みを紹介する。 GPTは、有限次元古典理論と量子理論の両方を一般化する操作理論のクラスであるが、ポープスク・ローリッヒボックスを含むボックスワールド理論など、他のよりエキゾチックな理論も含む。 我々はGPTの基本概念と要素を詳細に説明し、またいくつかのよく知られた結果も証明する。 レビューは自己完結しており、読者にGPTへの一貫した導入を提供することを目的としている。 ツールは主に凸幾何学を含むが、図式記法を導入し、図形を通して方程式を表現することもしばしばある。

We introduce the framework of general probabilistic theories (GPTs for short). GPTs are a class of operational theories that generalize both finite-dimensional classical and quantum theory, but they also include other, more exotic theories, such as the boxworld theory containing Popescu-Rohrlich boxes. We provide in-depth explanations of the basic concepts and elements of the framework of GPTs, and we also prove several well-known results. The review is self-contained and it is meant to provide the reader with consistent introduction to GPTs. Our tools mainly include convex geometry, but we also introduce diagrammatic notation and we often express equations via diagrams.
翻訳日:2023-04-08 08:33:02 公開日:2021-08-23
# 容量結合交換専用スピン量子ビットに対する2量子スイーツスポット

Two-qubit sweet spots for capacitively coupled exchange-only spin qubits ( http://arxiv.org/abs/2103.15681v4 )

ライセンス: Link先を確認
MengKe Feng, Lin Htoo Zaw, Teck Seng Koh(参考訳) 高忠実度2量子ビットゲートの実装は、半導体量子ドット量子ビットにおける普遍量子計算への進展のボトルネックである。 S = 1/2$, $S_z = -1/2$ decoherence-free subspace -- exchange-only (EO) spin qubits で符号化された2つの三重量子ドットスピン量子ビット間の容量結合を研究する。 CPHASEおよびCNOTゲートの正確なゲート配列を報告し、容量結合型EO量子ビットのパラメータ空間に複数の2QSSが存在することを理論的に示す。 ゲート操作は全電気的という利点があるが、クビットの電気的パラメータと結合する電荷ノイズはデコヒーレンスを引き起こす。 1/fスペクトルのノイズを仮定し、2量子ビットのゲートフィデリティと時間を計算することにより、フォールトトレランスに必要なノイズ閾値の有用な情報を提供する。 単一パラメータと複数パラメータの2QSSで2量子ゲートを探索する。 特に、共振器交換(RX)と常オン交換専用(AEON)量子ビット(AEON)の2つの既存のEO実装において、2QSSがRXとAEONの単一キュービットスイートスポット(1QSS)であるパラメータ空間における2量子ゲートの忠実度と位置の時間を比較する。 これらの結果は、高忠実性量子計算の実現に潜在的経路を与える。

The implementation of high fidelity two-qubit gates is a bottleneck in the progress towards universal quantum computation in semiconductor quantum dot qubits. We study capacitive coupling between two triple quantum dot spin qubits encoded in the $S = 1/2$, $S_z = -1/2$ decoherence-free subspace -- the exchange-only (EO) spin qubits. We report exact gate sequences for CPHASE and CNOT gates, and demonstrate theoretically, the existence of multiple two-qubit sweet spots (2QSS) in the parameter space of capacitively coupled EO qubits. Gate operations have the advantage of being all-electrical, but charge noise that couple to electrical parameters of the qubits cause decoherence. Assuming noise with a 1/f spectrum, two-qubit gate fidelities and times are calculated, which provide useful information on the noise threshold necessary for fault-tolerance. We study two-qubit gates at single and multiple parameter 2QSS. In particular, for two existing EO implementations -- the resonant exchange (RX) and the always-on exchange-only (AEON) qubits -- we compare two-qubit gate fidelities and times at positions in parameter space where the 2QSS are simultaneously single-qubit sweet spots (1QSS) for the RX and AEON. These results provide a potential route to the realization of high fidelity quantum computation.
翻訳日:2023-04-06 06:10:04 公開日:2021-08-23
# 連続可変エンタングルメント検出のための濾過支援による配向分離性基準

Realignment separability criterion assisted with filtration for detecting continuous-variable entanglement ( http://arxiv.org/abs/2104.07510v2 )

ライセンス: Link先を確認
Anaelle Hertz, Matthieu Arnhem, Ali Asadian and Nicolas J. Cerf(参考訳) 連続変数の絡み合いを検出するのに特に適しており、物理的に実装可能である(線形光学変換とホモダイン検出が必要である)。 さらに、弱い再定義基準は再定義基準の原定式化に還元され、特に高次元では計算が容易であるためさらに価値のある状態の族であるシュミット対称状態(schmidt-symmetric states)を定義する。 次に,特にガウス状態に着目し,ノイズのない増幅や減衰に基づく濾過法を導入し,絡み合い検出感度を高める。 いくつかの具体例では、元の再配置基準よりも優れている。

We introduce a weak form of the realignment separability criterion which is particularly suited to detect continuous-variable entanglement and is physically implementable (it requires linear optics transformations and homodyne detection). Moreover, we define a family of states, called Schmidt-symmetric states, for which the weak realignment criterion reduces to the original formulation of the realignment criterion, making it even more valuable as it is easily computable especially in higher dimensions. Then, we focus in particular on Gaussian states and introduce a filtration procedure based on noiseless amplification or attenuation, which enhances the entanglement detection sensitivity. In some specific examples, it does even better than the original realignment criterion.
翻訳日:2023-04-03 18:14:06 公開日:2021-08-23
# スパイクニューラルネットワークのヘシアン認識量子化

Hessian Aware Quantization of Spiking Neural Networks ( http://arxiv.org/abs/2104.14117v2 )

ライセンス: Link先を確認
Hin Wai Lui and Emre Neftci(参考訳) スパイキングニューラルネットワーク(SNN)の低レイテンシ、高スループット、エネルギー効率のメリットを実現するため、ニューロモルフィックハードウェア上で動作する際のメモリと計算要求の削減は重要なステップである。 ニューロモルフィックアーキテクチャは、可変および局所ビット精度を持つ超並列計算を可能にする。 しかし、ネットワークの異なる層や接続に、異なるビット精度を割り当てるべき方法は自明ではない。 本研究では,重みの摂動に対する損失の感度を測定し,SNNの定量化において,層固有のビット精度の割り当てを導出する方法を示す。 さらに、SNNトレーニングの現在の勾配に基づく方法は、複数の状態変数を持つ複雑なニューロンモデルを使用するが、これは計算とメモリ効率に理想的ではない。 この課題に対処するために,グラデーションベーストレーニングとの互換性を維持しつつ,状態変数の数を4倍に削減する簡易なニューロンモデルを提案する。 その結果,層状ビット精度を用いた場合のモデル精度への影響は,その層のヘッシアントレースとよく相関することがわかった。 最適量子化ネットワークの精度はわずか0.2%低下したが、ネットワークサイズは58%低下した。 これによりメモリ使用量が減少し、より単純なデジタル回路で固定点演算が可能となり、全体のスループットとエネルギー効率が向上する。

To achieve the low latency, high throughput, and energy efficiency benefits of Spiking Neural Networks (SNNs), reducing the memory and compute requirements when running on a neuromorphic hardware is an important step. Neuromorphic architecture allows massively parallel computation with variable and local bit-precisions. However, how different bit-precisions should be allocated to different layers or connections of the network is not trivial. In this work, we demonstrate how a layer-wise Hessian trace analysis can measure the sensitivity of the loss to any perturbation of the layer's weights, and this can be used to guide the allocation of a layer-specific bit-precision when quantizing an SNN. In addition, current gradient based methods of SNN training use a complex neuron model with multiple state variables, which is not ideal for compute and memory efficiency. To address this challenge, we present a simplified neuron model that reduces the number of state variables by 4-fold while still being compatible with gradient based training. We find that the impact on model accuracy when using a layer-wise bit-precision correlated well with that layer's Hessian trace. The accuracy of the optimal quantized network only dropped by 0.2%, yet the network size was reduced by 58%. This reduces memory usage and allows fixed-point arithmetic with simpler digital circuits to be used, increasing the overall throughput and energy efficiency.
翻訳日:2023-04-02 02:18:06 公開日:2021-08-23
# ウィグナー位相空間において、コンボリューションは真空がフォック状態の混合を最大化する理由を説明する

In Wigner phase space, convolution explains why the vacuum majorizes mixtures of Fock states ( http://arxiv.org/abs/2104.14996v2 )

ライセンス: Link先を確認
Luc Vanbever(参考訳) フォック状態の混合を表す非負のウィグナー関数は、真空状態のウィグナー関数によって主要なものであることを示す。 その結果、ウィグナー位相空間上の任意の凹関数の積分は、フォック状態の混合よりも真空状態の値が低い。 シャノン微分エントロピーは、重要な物理的重要性を持つ凹函数の例である。 重大化の原因は、ウィグナー関数が畳み込みの結果であるという事実にあることを証明します。 私の証明は、厳密に制約された関数を持つ負の指数分布の畳み込みに関する新しいメジャー化結果に基づいている。 離散的な設定で新しい偏化特性を幾何学的に解釈し、この関係を連続的な設定に拡張する。 この記事では、真空のウィグナー函数がフォック状態の混合(非負のウィグナー函数で表される他の多くの物理的状態)を拡大する理由を説明するために拡張されるかもしれない。

I show that a nonnegative Wigner function that represents a mixture of Fock states is majorized by the Wigner function of the vacuum state. As a consequence, the integration of any concave function over the Wigner phase space has a lower value for the vacuum state than for a mixture of Fock states. The Shannon differential entropy is an example of such concave function of significant physical importance. I demonstrate that the very cause of the majorization lies in the fact that a Wigner function is the result of a convolution. My proof is based on a new majorization result dedicated to the convolution of the negative exponential distribution with a precisely constrained function. I present a geometrical interpretation of the new majorization property in a discrete setting and extend this relation to a continuous setting. Findings presented in this article might be expanded upon to explain why the Wigner function of the vacuum majorizes - beyond mixtures of Fock states - many other physical states represented by a nonnegative Wigner function.
翻訳日:2023-04-01 23:53:33 公開日:2021-08-23
# 物質波・物質・微視的トランジスタ振動子

Matterwaves, Matterons, and the Atomtronic Transistor Oscillator ( http://arxiv.org/abs/2106.10550v2 )

ライセンス: Link先を確認
Dana Z. Anderson(参考訳) トリプルウェル原子トロントランジスタ回路の自己整合理論的な処理により、回路から放出されるコヒーレント物質波の利得機構、発振条件、および特性が明らかにされる。 大きな源にあるボース凝縮した原子の貯水池は、回路のダイナミクスを駆動する化学ポテンシャルを提供する。 この理論は、トランジスタゲート内に凝縮物が発生し、変位した基底状態、すなわち井戸内で双極子振動を起こすというアンサッツ理論に基づいている。 ゲート原子は凝縮し、振動はマターウェーブの真空への放出によって引き起こされる冷却の結果であることが示されている。 トランジスタトランスコンダクタンスや出力電流などの鍵回路パラメータは、古典的な等価回路モデルに遷移することによって導出される。 電圧様および電流様のマターウェーブ回路波場は、マイクロ波回路の類似性、およびこれら2つの間のインピーダンス関係に導入される。 これにより、古典コヒーレントな物質波という新しい概念が生まれ、これはコヒーレントな電磁波の双対であり、冷たい原子に付随するデブログリエ物質波とは区別される。 例えば、放出された原子束をデブログリー波長を減少させる原子電位にすると、古典的な物質波波長が増加する。 古典的な物質波場の量子化は、原子ではなく他の何かとして同定される光子の双対に繋がる。

A self-consistent theoretical treatment of a triple-well atomtronic transistor circuit reveals the mechanism of gain, conditions of oscillation, and properties of the subsequent coherent matterwaves emitted by the circuit. A Bose-condensed reservoir of atoms in a large source well provides a chemical potential that drives circuit dynamics. The theory is based on the ansatz that a condensate arises in the transistor gate well as a displaced ground state, that is, one that undergoes dipole oscillation in the well. That gate atoms remain condensed and oscillating is shown to be a consequence of the cooling induced by the emission of a matterwave into the vacuum. Key circuit parameters such as the transistor transconductance and output current are derived by transitioning to a classical equivalent circuit model. Voltage-like and current-like matterwave circuit wave fields are introduced in analogy with microwave circuits, as well as an impedance relationship between the two. This leads to a new notion of a classical coherent matterwave that is the dual of a coherent electromagnetic wave and which is distinct from a deBroglie matterwave associated with cold atoms. Subjecting the emitted atom flux to an atomic potential that will reduce the deBroglie wavelength, for example, will increase the classical matterwave wavelength. Quantization of the classical matterwave fields leads to the dual of the photon that is identified not as an atom but as something else, which is here dubbed a "matteron".
翻訳日:2023-03-26 06:18:19 公開日:2021-08-23
# 閾値に基づく量子最適化

Threshold-Based Quantum Optimization ( http://arxiv.org/abs/2106.13860v2 )

ライセンス: Link先を確認
John Golden, Andreas B\"artschi, Daniel O'Malley, Stephan Eidenbenz(参考訳) 本稿では,Threshold QAOA (Threshold QAOA) と呼ばれる量子交互演算子 Ansatz (QAOA) の変種について検討し,対象関数を符号化した標準位相分離演算子をしきい値関数で置き換える。 量子最適化アルゴリズムに到達するためにしきい値を変更する。 得られたGM-Th-QAOAは、Groverの量子探索アルゴリズムの一般化と、近似最適化の最小値と最大値を求める従兄弟を求めることができる。 私たちの主な発見は 2 GM-Th-QAOA(角としきい値)の最適パラメータ値が古典的外ループの反復($O(\log(p) \times \log M)$$$$$$p$はQAOAラウンドの数であり、$M$はソリューション値上の上限(しばしば入力グラフの頂点数やエッジ数)であり、他のQAOAアルゴリズムの悪名高い外ループパラメータ発見問題を排除することを実証的に示す。 (ii)GM-Th-QAOAは、メモリ要求を削減した一連のトリックによって、100キュービットまでの労力で古典的にシミュレートできる。 3) GM-Th-QAOAは近似比で非閾値のGM-QAOAを上回っている。 この第三の結果は、最適化問題(MaxCut, Max k-VertexCover, Max k-DensestSubgraph, MaxBisection)と、異なる入力エッジ密度や制約サイズなど、様々な実験的設計パラメータにまたがる。

We propose and study Th-QAOA (pronounced Threshold QAOA), a variation of the Quantum Alternating Operator Ansatz (QAOA) that replaces the standard phase separator operator, which encodes the objective function, with a threshold function that returns a value $1$ for solutions with an objective value above the threshold and a $0$ otherwise. We vary the threshold value to arrive at a quantum optimization algorithm. We focus on a combination with the Grover Mixer operator; the resulting GM-Th-QAOA can be viewed as a generalization of Grover's quantum search algorithm and its minimum/maximum finding cousin to approximate optimization. Our main findings include: (i) we provide intuitive arguments and show empirically that the optimum parameter values of GM-Th-QAOA (angles and threshold value) can be found with $O(\log(p) \times \log M)$ iterations of the classical outer loop, where $p$ is the number of QAOA rounds and $M$ is an upper bound on the solution value (often the number of vertices or edges in an input graph), thus eliminating the notorious outer-loop parameter finding issue of other QAOA algorithms; (ii) GM-Th-QAOA can be simulated classically with little effort up to 100 qubits through a set of tricks that cut down memory requirements; (iii) somewhat surprisingly, GM-Th-QAOA outperforms non-thresholded GM-QAOA in terms of approximation ratios achieved. This third result holds across a range of optimization problems (MaxCut, Max k-VertexCover, Max k-DensestSubgraph, MaxBisection) and various experimental design parameters, such as different input edge densities and constraint sizes.
翻訳日:2023-03-25 13:39:16 公開日:2021-08-23
# 気候危機のためのコンピューティング研究

Computing Research for the Climate Crisis ( http://arxiv.org/abs/2108.05926v2 )

ライセンス: Link先を確認
Nadya Bliss, Elizabeth Bradley, and Claire Monteleoni(参考訳) 気候変動は米国と世界にとって現実的な脅威である。 必然的に、この脅威に対する緩和、適応、レジリエンスにおいて、コンピューティングは重要な役割を果たすだろう。 ニーズは、デバイスやアーキテクチャ(例えば、山火事の監視のための低消費電力センサーシステム)からアルゴリズム(例えば、影響の予測と緩和の評価)、ロボット工学(例えば、監視とアクチュエータのための自律型UAV)まで、そしてデータ管理システムやエネルギ・アウェア・オペレーティングシステムからハードウェア/ソフトウェアの共同設計まで、あらゆるレベルのソフトウェアスタックにまたがる。 この白書の目的は、気候変動による課題に対処するコンピューティング研究の役割を強調することである。 その目的のために、エネルギー、環境正義、交通、インフラ、農業、環境監視および予測という、これらの課題が発生する6つの重要な影響領域を概説し、関連する問題に対処するのにコンピュータ研究が役立つ特定の方法を特定する。 これらの影響領域は、横断的なシステムレベルのイノベーションを実現する原動力となるでしょう。 さらに、この情報を、デバイスとアーキテクチャ、ソフトウェア、アルゴリズム/AI/ロボティクス、社会工学コンピューティングの4つの分野に分割します。 Ilkay Altintas(サンディエゴ・スーパーコンピュータ・センター)、Kyri Baker(コロラド・ボルダー大学)、Sujata Banerjee(VMware)、Andrew A. Chien(シカゴ大学)、Thomas Dietterich(オレゴン州立大学)、Ian Foster(アルゴンヌ国立研究所)、Carla P. Gomes(コーネル大学)、Chandra Krintz(カリフォルニア大学サンタバーバラ校)、Jessica Seddon(世界資源研究所)、Regan Zane(ユタ州立大学)の3名が貢献している。

Climate change is an existential threat to the United States and the world. Inevitably, computing will play a key role in mitigation, adaptation, and resilience in response to this threat. The needs span all areas of computing, from devices and architectures (e.g., low-power sensor systems for wildfire monitoring) to algorithms (e.g., predicting impacts and evaluating mitigation), and robotics (e.g., autonomous UAVs for monitoring and actuation) -- as well as every level of the software stack, from data management systems and energy-aware operating systems to hardware/software co-design. The goal of this white paper is to highlight the role of computing research in addressing climate change-induced challenges. To that end, we outline six key impact areas in which these challenges will arise -- energy, environmental justice, transportation, infrastructure, agriculture, and environmental monitoring and forecasting -- then identify specific ways in which computing research can help address the associated problems. These impact areas will create a driving force behind, and enable, cross-cutting, system-level innovation. We further break down this information into four broad areas of computing research: devices & architectures, software, algorithms/AI/robotics, and sociotechnical computing. Additional contributions by: Ilkay Altintas (San Diego Supercomputer Center), Kyri Baker (University of Colorado Boulder), Sujata Banerjee (VMware), Andrew A. Chien (University of Chicago), Thomas Dietterich (Oregon State University), Ian Foster (Argonne National Labs), Carla P. Gomes (Cornell University), Chandra Krintz (University of California, Santa Barbara), Jessica Seddon (World Resources Institute), and Regan Zane (Utah State University).
翻訳日:2023-03-18 17:05:38 公開日:2021-08-23
# 量子系の部分的測定

Partial Measurements of Quantum Systems ( http://arxiv.org/abs/2108.07828v2 )

ライセンス: Link先を確認
Jonathan Monroe(参考訳) 射影測定は量子力学において一般的に用いられる仮定である。 しかし、量子計測技術の進歩により、波動関数をそのままに保ちながら状態情報を正確に推定する部分的測定が可能となった。 この論文では、2つの現象を研究するために部分的測定を用いる。 まず, 射影的測定に加えて部分的測定を含むハイゼンベルクの1929年の思考実験のスタイルで不確実性関係を調べる。 弱部分計測は2つの非互換(非可換)可観測性の間の不確かさを減少させることができる。 第2報では,部分的測定から生じる可逆的ダイナミクスの基礎について検討する。 因果順序と逆因果順序の両方で、選択後のフィードバックプロトコルから得られる測定結果の前後の確率を比較する。 部分的測定の統計は、熱力学の一般化された第二法則に従ってエントロピーを生成する。 超伝導量子ビットを用いてこれらの実験を行う。 この論文はまた、これらの装置の製作過程を詳述し、ジョセフソン接合超伝導回路の高速かつ単一ステップのリソグラフィーを可能にする新しい製造技術について詳述している。 この技術は、従来の電子ビームリソグラフィーとは対照的に、ダイレクトライトフォトリソグラフィーシステムを利用して処理を単純化する。 その大きなリソグラフィー領域にもかかわらず、この方法で作製されたジョセフソン接合は、低い臨界電流と高いコヒーレンス時間を持つ。

Projective measurement is a commonly used assumption in quantum mechanics. However, advances in quantum measurement techniques allow for partial measurements, which accurately estimate state information while keeping the wavefunction intact. In this dissertation, we employ partial measurements to study two phenomena. First, we investigate an uncertainty relation -- in the style of Heisenberg's 1929 thought experiment -- which includes partial measurements in addition to projective measurements. We find that a weak partial measurement can decrease the uncertainty between two incompatible (non-commuting) observables. In the second study, we investigate the foundation of irreversible dynamics resulting from partial measurements. We do so by comparing the forward and time-reversed probabilities of measurement outcomes resulting from post-selected feedback protocols with both causal and reversed-causal order. We find that the statistics of partial measurements produce entropy in accordance with generalized second laws of thermodynamics. We perform these experiments using superconducting qubits. This dissertation also describes the fabrication process for these devices and details a novel fabrication technique that allows fast, single-step lithography of Josephson-junction superconducting circuits. The technique simplifies processing by utilizing a direct-write photolithography system, in contrast to traditional electron-beam lithography. Despite their large lithographic area, Josephson junctions made with this method have low critical currents and high coherence times.
翻訳日:2023-03-18 05:13:43 公開日:2021-08-23
# 寒冷原子における4波混合による狭帯域bi-photons生成実験

An experimental setup to generate narrowband bi-photons via four-wave mixing in cold atoms ( http://arxiv.org/abs/2108.08738v2 )

ライセンス: Link先を確認
N. Arias-T\'ellez, I. F. \'Angeles-Aguill\'on, D. Mart\'inez-Cara, A. Mart\'inez-Vallejo, L. Y. Villegas-Aguilar, L. A. Mendoza-L\'opez, Y. M. Torres, R. A. Guti\'errez-Arenas, R. J\'auregui and I. P\'erez Castillo and A. Cer\`e and D. Sahag\'un S\'anchez(参考訳) 我々は、磁気光学トラップに閉じ込められた$^{87}$Rbの低温ガス中で4波長混合を誘導することにより、近赤外および狭帯域相関光子対を生成するように設計された最近の実験装置を提案する。 実験的なセットアップとその自動化と制御のアプローチについて詳述する。 原子アンサンブルの光密度のキャラクタリゼーションと生成された光の基本的な統計測定について報告する。 光子対の非古典的性質は、ハンベリーブラウン-twiss干渉計においてコーシー-シュワルツの不等式を5.6$\times 10^5$で破ることによって確認される。 1/e$のコヒーレンス時間と4.4 \pm 0.1$ nsのアイドラー光子が観測結果から推定される。 10^{4}$ s$^{-1}$ pair-detection-rateの値を達成でき、280 (mhz s)$^{-1}$のスペクトル輝度が得られる。 高輝度と狭帯域スペクトルの組み合わせにより、この光子ペア源は量子状態の基礎研究において有効なツールとなり、量子技術でそれを使うための扉を開く。

We present our recently-built experimental setup designed to generate near-infrared and narrow-band correlated photon pairs by inducing four-wave mixing in a cold gas of $^{87}$Rb atoms confined in a magneto-optical trap. The experimental setup and its automation and control approach are described in detail. A characterization of the optical density of the atomic ensemble as well as the basic statistical measurements of the generated light are reported. The non-classical nature of the photons pairs is confirmed by observing a violation of Cauchy-Schwarz inequality by a factor of 5.6 $\times 10^5$ in a Hanbury Brown - Twiss interferometer. A $1/e$ coherence time for the heralded, idler photons of $4.4 \pm 0.1$ ns is estimated from our observations. We are able to achieve a value of $10^{4}$ s$^{-1}$ pair-detection-rate, which results in a spectral brightness of 280 (MHz s)$^{-1}$. The combination of high brightness and narrow-band spectrum makes this photon-pair source a viable tool in fundamental studies of quantum states and opens the door to use them in quantum technologies.
翻訳日:2023-03-18 01:18:31 公開日:2021-08-23
# サモアの災害におけるICT活用のパターン

Patterns of ICT usage in disaster in Samoa ( http://arxiv.org/abs/2108.09940v1 )

ライセンス: Link先を確認
Ioana Chan Mow, Agnes Wong Soon, Elisapeta Maua'i and Ainsley Anesone(参考訳) 本研究は,サモアにおける災害時のICT活用に焦点を当て,2015年に実施した研究の再現である。 調査では、サモア市民がテクノロジーをどのように利用し、さまざまな種類の情報で行動し、情報ソースやメディアが災害時の行動決定にどう影響するかを調査した。 従来の放送は依然として最も顕著で、最も重要であり、早期の警告や災害対応が支配的であることが判明した。 しかし,災害コミュニケーションにおけるモバイルおよびソーシャルメディアの利用が増加している。 また、人々は危機時の情報源として、公式記者を最も信頼していることも判明した。 この研究の意図は、災害時の生存を確保するために、影響を受けた個人がタイムリーかつ適切に行動する権限を与える早期警戒と災害に対する人々の中心的アプローチに、この研究の知見が貢献できることにある。

The study discussed in this paper focuses on ICT use during disasters in Samoa and is a replicate of a study carried out in 2015. The study used a survey to explore how Samoan citizens use technology, act on different types of information, and how the information source or media affects decisions to act during a disaster. Findings revealed that traditional broadcasting were still the most prominent, most important, and still predominate in early warning and disaster response. However, there were now increasing usage of mobile and social media in disaster communications. Findings also revealed that people trust official reporters the most as source of information in times of crisis. The intent is that findings from this study can contribute to a people-centred approach to early warning and disaster providing empowerment to affected individuals to act in a timely and appropriate manner to ensure survival in times of disaster.
翻訳日:2023-03-17 12:26:59 公開日:2021-08-23
# 過去の境界線を超越する:新型コロナ時代のデジタル余生

Transcending Old Boundaries: Digital Afterlife in the Age of COVID-19 ( http://arxiv.org/abs/2108.09939v1 )

ライセンス: Link先を確認
Mashiat Mostafa and Faheem Hussain(参考訳) 我々の探索研究の主な目的は、COVID-19時代のグローバル・サウスのレンズによるデジタルアフターライフの会話に貢献することである。 デジタルアフターライフは、ますますつながりつつある社会にとって、急速に挑戦になりつつある。 さらに、新型コロナウイルスのパンデミックで状況は悪化した。 現在進行中のこの研究は、インドネシア、インド、フィリピンなどの国々で、政策やデジタル喪サービスといったデジタル余生サービスに対して、グローバル・サウスにおける格差に対処することを目的としている。 研究課題「新型コロナウイルス感染拡大中、グローバル・サウスのデジタルアフターライフでどのようなサービスや政策フレームワークが利用可能か」に対処することで、グローバル・サウスの人々がデジタルフットプリントを管理する方法を見つけることを目指している。 我々の予備的な結果は、パンデミックの間、デジタルサービスやイノベーションに関するかなりの研究と死が起きていることを示している。 しかし、これらの作品の大部分は西洋中心であり、主に死後の個人資産管理を扱う。 文化的ニュアンス、社会経済的観点、宗教、政治的気候、地域インフラは概ね傍観的である。 我々は、Digital Afterlifeの製品とサービスデザインに大きな格差があることを発見しました。 我々のゴールは、グローバル南(インドネシア、インド、フィリピン)の3大ICTパワーハウスにおいて、より深いデータを収集し、デジタルアフターライフに関する課題とイノベーションを特定し、このパンデミックに苦しむ世界でより包括的で公平なデジタル空間を開発するための一連の勧告を提案することである。

The primary objective of our exploratory research is to contribute to the ongoing conversation on Digital Afterlife from the lenses of Global South during the COVID-19 period. Digital Afterlife is fast becoming a challenge for our increasingly connected society. Moreover, the situation got worse with the COVID-19 pandemic. The on-going research is to address the disparity in the Global South, specifically in countries like Indonesia, India and The Philippines compared to the Global North for Digital Afterlife services such as policies and digital mourning services. By addressing the research question, 'What services and policy frameworks are available for Digital Afterlife in the Global South during COVID-19?', we aim to find the multitude of ways people in the Global South are managing their digital footprints. Our preliminary findings show that some considerable research and death related digital services and innovation have taken place during the pandemic. However, overwhelming majority of these works are western-centric and mainly dealing with post-mortem personal asset management. Cultural nuances, socio-economic perspectives, religion, political climate, regional infrastructures are mostly sidelined. We found significant disparity in Digital Afterlife product and service designs, which got worse during the global pandemic. Our goal is to collect further in-depth data within the three big ICT powerhouses of global south (Indonesia, India and The Philippines), identify the challenges as well as the innovations around Digital Afterlife.We envision proposing a set of recommendations, based on our findings, for developing a more inclusive and equitable digital space in this pandemic-stricken world.
翻訳日:2023-03-17 12:26:44 公開日:2021-08-23
# 遠隔eラーニング機関における教員による教育・学習のためのオープン教材のコモディティ化

The Commodification of Open Educational Resources for Teaching and Learning by Academics in an Open Distance e-Learning Institution ( http://arxiv.org/abs/2108.09938v1 )

ライセンス: Link先を確認
Lancelord Siphamandla Mncube, Maureen Tanner and Wallace Chigona(参考訳) 高等教育機関では、オープン教育資源(OER)の利用が勢いを増している。 本研究は,odel(open distance e-learning)大学におけるoerの認識と知識の確立を目的とした。 この研究は、知覚の形成方法の確立も目指していた。 帰納的アプローチは、研究課題に答えるためにコモディフィケーションのレンズに従った。 コモディフィケーションの段階は、学者の事前知識、情報提供者、oerに関する学者の行動、そしてoerが教育や学習にどのように役立つと感じたかをよりよく理解することを可能にした。 この研究は定性的な方法を採用し、半構造化された面接を用いてデータを収集した。 この研究は、OERの以前の経験と知識を持つ学者が、教育、学習、研究にこれらのリソースを使うことに成功していることを示した。 oerはまた、アフリカの知識の促進、アフリカの学者の貢献の紹介、学術研究能力の向上、学生の成功率の向上、特に財政的に脆弱な学生のための有用なツールとみなされている。 得られた知覚に基づいて、ユーザ認知を定式化する新しいガイドラインを提案することができる。 しかし、これは政府および第三次機関トップマネジメントの支援により、堅固なoer政策によってのみ達成できる。 この発見は、特にCovid-19の緊急オンライン学習移行への対応として、OER戦略や政策の開発を考えると、高等教育機関に通知する可能性がある。

The use of open educational resources (OER) is gaining momentum in higher education institutions. This study sought to establish academics' perceptions and knowledge of OER for teaching and learning in an open distance e-learning (ODeL) university. The study also sought to establish how perceptions are formed. The inductive approach followed the lens of commodification to answer the research questions. The commodification phase allowed for a better understanding of the academics' prior knowledge, informers, academics behaviour about OER, and how they perceived OER to be useful for teaching and learning. The study employed a qualitative method, with semi-structured interviews to collect data. The study found that academics with prior experience and knowledge of OER are more successful in the use of these resources for teaching, learning, and research. OER is also perceived as a useful tool to promote African knowledge, showcase the contributions of African academics, improve academic research capabilities, improve student's success rate, particularly for financially vulnerable students. Based on the acquired perceptions, the study able to propose a new guideline to formulate user perceptions. However, this can only be achieved through a solid OER policy with the support of government and tertiary institution top management. The findings may inform higher education institutions when they consider the development of OER strategies and policies, especially in response to the Covid-19 emergency online learning transition.
翻訳日:2023-03-17 12:26:13 公開日:2021-08-23
# インドにおけるCOVID-19アウトブレイクのリアルタイム分析とモニタリングのためのインタラクティブダッシュボード:概念実証

An Interactive Dashboard for Real-Time Analytics and Monitoring of COVID-19 Outbreak in India: A proof of Concept ( http://arxiv.org/abs/2108.09937v1 )

ライセンス: Link先を確認
Arun Mitra, Biju Soman and Gurpreet Singh(参考訳) データ分析と可視化は医学研究、特に疫学の監視における発見の探索と伝達に不可欠である。 クラウドソースによるwebサイトcovid-19 india tracker, census 2011, google mobility reportによるcovid-19の感染状況と死亡状況に関するデータは、インドで発生したcovid-19のリアルタイム分析と監視システムの開発に使用されている。 データサイエンス技術を用いてSARS-CoV-2流行に追従する複数の指標のデータ可視化と分析のためのダッシュボードアプリケーションを開発した。 時間的傾向, 流行曲線, 成長率, 倍増時間, 有効再生数などの主要な疫学的パラメータを含む, インタラクティブでユーザフレンドリな, 基本的な疫学的監視のための地域レベルのツールが推定された。 これは、タイムリーで信頼性の高い意思決定支援ツールのギャップに対処しつつ、公衆衛生意思決定におけるデータサイエンス手法と疫学技術の適用を示す。

Data analysis and visualization are essential for exploring and communicating findings in medical research, especially in epidemiological surveillance. Data on COVID-19 diagnosed cases and mortality, from crowdsourced website COVID-19 India Tracker, Census 2011, and Google Mobility reports have been used to develop a real-time analytics and monitoring system for the COVID-19 outbreak in India. We have developed a dashboard application for data visualization and analysis of several indicators to follow the SARS-CoV-2 epidemic using data science techniques. A district-level tool for basic epidemiological surveillance, in an interactive and user-friendly manner which includes time trends, epidemic curves, key epidemiological parameters such as growth rate, doubling time, and effective reproduction number have been estimated. This demonstrates the application of data science methods and epidemiological techniques in public health decision-making while addressing the gap of timely and reliable decision aiding tools.
翻訳日:2023-03-17 12:25:50 公開日:2021-08-23
# ケニア難民のcovid-19における情報提供と不安

Information Sources and Anxiety among Refugees in Kenya during COVID-19 ( http://arxiv.org/abs/2108.09935v1 )

ライセンス: Link先を確認
Matthew A. McGee, Carleen Maitland and Dorothy Njoroge(参考訳) 新型コロナウイルスのパンデミックで、科学や公衆衛生の知識基盤が急速に変化し、難民の情報へのアクセスがますます重要になっている。 しかし、このアクセスは従来の対人コミュニケーションを阻害する社会的距離の要求によって複雑である。 多くの難民は情報を守るために代替情報ソースを頼らなければならない。 メディアの種類や情報ソースの違いは、ウイルスから引き起こされる不安と、推奨された保護行動に対する他人の定着感と関連している可能性がある。 ケニアのキャンプ地と非キャンプ地の両方に住む難民1000人を対象に調査を行った。 ロジットモデルを用いて、情報ソースと不安の関係と、これらの変数が難民のコミュニティメンバーの期待行動に与える影響を検証した。 私たちの主な貢献は、情報ソースが一貫して悪化(Facebookなど)するか、異なる不安(インターネットからのニュースなど)を緩和するか、あるいは混合効果(ラジオなど)を持つことである。 また,他者によるコンプライアンスに対する難民の期待に,不安や情報が大きな影響を与えていること,キャンプ間,キャンプ内,キャンプ外を問わず,地域によって異なることが確認された。 本研究の結果は, 難民メディア, 伝染病不安奨学金, 感染症対応管理に影響を及ぼす。

In the COVID-19 pandemic, refugees' access to information has become increasingly important given the rapid change in the scientific and public health knowledge-base. However, this access is complicated by social distancing requirements that disrupt traditional in-person communication. Many refugees must then rely on alternative information sources to stay informed. Differences in media types and information sources in turn may be related to anxieties arising from the virus and perceptions of others' adherence to recommended protective behaviors. We examine these relationships with survey data from 1,000 refugees living in both camps and non-camp settings in Kenya. Using logit models, we test relationships between information source and anxiety and the effect of these variables on refugees' expected behaviors of community members. Our primary contributions include the finding that information sources consistently exacerbate (e.g., Facebook) or ameliorate (e.g., news from the internet) different anxieties, or can have mixed effects (e.g., radio). We also find that anxiety and information have significant impacts on refugees' expectations of compliance by others and that, whether between camps or between camps and non-camp locales, findings vary by location. Our results have implications for refugee media and infectious disease anxiety scholarship as well as for managing infectious disease response.
翻訳日:2023-03-17 12:25:29 公開日:2021-08-23
# Prologによる数学の教育と学習

Teaching and learning mathematics with Prolog ( http://arxiv.org/abs/2108.09893v1 )

ライセンス: Link先を確認
Tom Bensky(参考訳) 手続き型コンピュータ言語は長い間、数学教育の多くの側面で使われてきた。 本稿では,同じ目的の宣言型言語である prolog の使用について検討する。 Prologの事実+ルールの側面は、数学の学習を補うためのコーディングレッスンを開発するための新しいプラットフォームであることに気付きました。 具体的な例を示す。

Procedural computer languages have long been used in many aspects of mathematics pedagogy. In this work, we examine the use of Prolog, a declarative language for the same purpose. We find the facts+rules aspect of Prolog to be a novel platform for developing coding lessons to supplement the learning of mathematics. Specific examples are presented.
翻訳日:2023-03-17 12:24:53 公開日:2021-08-23
# 匿名ピアレビューにおける学生の意識--オープンソースの堺プラットフォームを用いて

Students' Engagement in Anonymous Peer Review: Using the Open-Source Sakai Platform ( http://arxiv.org/abs/2108.09955v1 )

ライセンス: Link先を確認
Fazlyn Petersen and Bradley Groenewald(参考訳) すべての生徒に差別や偏見なしに質の高い教育を提供する必要がある。 しかし,大規模クラス,特に遠隔学習における品質教育の実践には課題がある。 文学は、特に大規模クラスでは、講師のフィードバックを提供することが面倒な作業になることを示している。 論文は、ピアレビュープロセスに学生を巻き込むことで、応募の質が向上すると述べている。 本研究はケーススタディとテーマ分析を用いた。 オープンソースのSakaiプラットフォームを使用した179人の情報システム学生から質的なデータを収集した。 生徒は自分の身元を知らずに別の生徒のレポートをレビューした。 この研究は自己決定理論を理論的基礎として用いた。 自主性が認識された成果は、匿名の査読が学生の力づけに役立ったことで支持されている。 匿名のピアレビューによって仕事の質が向上し、職場のスキルが発達し、能力の認知も高まった。 学生は、匿名のピアレビューによって、仲間から学ぶことができることを示した。 また、彼らの理解と作業中のエラーを見る能力も向上した。 堺プラットフォームで認識されている否定的な側面にもかかわらず、特にコビッドウイルスのパンデミックにおいて、リモートでフィードバックを提供するための有効な代替手段を提供する可能性がある。

There is a need to provide quality education without discrimination or prejudice to all students. However, there are challenges in implementing quality education in large classes, especially during remote learning. Literature indicates that providing lecturer feedback can become a tedious task, especially in large classes. Literature states that involving students in the peer review process can improve the quality of their submissions. This research used a case study and thematic analysis. Qualitative data were collected from 179 third-year Information Systems students who used the Opensource Sakai Platform. Students reviewed another student's report, without knowing their identity. The research used self-determination theory as a theoretical basis. The achievement of perceived autonomy is supported as an anonymous peer review helped students to empower themselves. Perceived competence was also achieved as the anonymous peer review improved the quality of work submitted and the development of workplace skills. Perceived relatedness is supported as students indicated that the anonymous peer review allowed them to learn from their peers. It also improved their understanding and the ability to see errors in their work. Despite the negative aspects identified using the Sakai platform, it may provide a viable alternative for providing feedback remotely, especially during the Covid-19 pandemic.
翻訳日:2023-03-17 12:18:41 公開日:2021-08-23
# 糖尿病自己管理の応用における文化の影響 : 南アフリカのケープ・フラットズ

Impact of Culture on the Adoption of Diabetes Self-Management Applications: Cape Flats, South Africa ( http://arxiv.org/abs/2108.09953v1 )

ライセンス: Link先を確認
Fazlyn Petersen(参考訳) 糖尿病は死亡率の高い世界的な健康問題である。 この研究は、低社会経済環境および少数集団における糖尿病患者の技術使用量の低さを示唆している。 我々は,患者の文化が技術採用の低さと利用の潜在的理由であると仮定する。 しかし、個々のレベルでの文化の増殖に関する研究は限られている。 そこで本研究では,南アフリカのケープ・フラットズにおいて,糖尿病患者のモバイル利用と利用に及ぼす文化の影響について検討した。 この研究は、計画行動理論(TPB)とホフステデの文化的側面から重要な構成要素を用いた。 439人の調査データを用いて, 純正サンプリングを用いて分析を行った。 その結果、ホフステデの次元と計画行動理論は、カルチャーがケープフラッツ地域における糖尿病患者のモバイル応用にどのように影響するかを特定できることがわかった。 しかし,本研究は,文化と糖尿病の自己管理活動とモバイルアプリケーションの採用との関係が,文化よりも強いことを示している。

Diabetes is a global health problem with a high mortality rate. The research indicates low levels of technology use amongst diabetic patients in low socioeconomic environments and minority groups. We posit that the culture of patients is a potential reason for the low adoption and use of technology. However, research on the proliferation of culture at an individual level is limited. Therefore, this paper assessed the influence of culture on mobile application adoption and use amongst diabetic patients in the Cape Flats, South Africa. This study used key constructs from the Theory of Planned Behaviour (TPB) and Hofstede's cultural dimensions. It was analysed using survey data from 439 respondents using purposive sampling. It was found that the dimensions of Hofstede and the Theory of Planned Behaviour can identify how culture influences mobile application adoption of diabetic patients in the geographical Cape Flats area. However, this research indicates a stronger relationship between culture and diabetes self-management activities than culture and the adoption of mobile applications.
翻訳日:2023-03-17 12:18:21 公開日:2021-08-23
# ICT-Buen Vivirパラドックス : デジタルツールによる先住民文化の保護

The ICT-Buen Vivir Paradox: Using Digital Tools to Defend Indigenous Cultures ( http://arxiv.org/abs/2108.09952v1 )

ライセンス: Link先を確認
Lorena P\'erez-Garc\'ia(参考訳) ICT4Dは、おそらくグローバル・ノースの政治的経済的な視点によって形成され、ICT導入を通じて国や地域間の社会経済的格差を減らし、エンパワーメントと人的発展の機会を開くことを目的としている。 これらの目的にもかかわらず、ICT4Dは批判されている。 1) ICT及びインターネットは,グローバル・ノース全体の社会に肯定的な影響を及ぼすが,グローバル・サウスにおける人々の生活に対する肯定的な影響は容易には証明できない。 2)ICT4Dの主な焦点は,ICTの生活環境に対する肯定的な変容の可能性ではなく,ICTの一連の人工物であると考えられる。 3)ICT4Dが目指す開発は,グローバルなヘゲモニックな関心を隠蔽し,社会経済的にあまり好まれない地域社会の中で新自由主義の再構築を求めるものである。 これらの理由から、ICT4Dは改正されるべきである。 本稿は,メキシコのウィクサリカ人の間で,彼らの聖地を守るためにictの支出を提示することを目的としている。 1)ICTに関連する「開発」がどうあるべきかについて、植民地以降の批判的枠組みの必要性に光を当てた。 2) 従来の見解と現代技術との緊張にもかかわらず、ICTが世界南部からの代替の声を聴けるかどうかの議論を促進する。

Arguably shaped by political economy perspectives from the Global North, ICT4D aims to reduce socioeconomic disparities across countries and regions through ICT implementations, as well as to open up opportunities for empowerment and human development. Despite these aims, ICT4D has been criticized because 1) although ICT and internet have positive effects on societies across the Global North, their positive impact on people's lives in the Global South cannot be easily proved; 2) ICT4D's primary focus seems to be on ICT's series of artefacts rather than on ICT's positive transformative potential of living conditions in the world; 3) the type of development ICT4D aims for could mask global hegemonic interests and seek neoliberal restructuring within less socioeconomically favoured communities within the Global South. For these reasons, claim scholars, ICT4D should be revised. By presenting ICT appropriations among Wixarika peoples in Mexico to protect their sacred land, this paper aims to 1) shed a light on the need for postcolonial critical frameworks on what 'development' associated with ICT should be and 2) to foster discussions on whether ICT can enable alternative voices from the Global South to be heard, despite tensions between traditional views and contemporary technologies.
翻訳日:2023-03-17 12:18:08 公開日:2021-08-23
# 何のためのデジタルレジリエンス? 韓国における事例研究

Digital Resilience for What? Case Study of South Korea ( http://arxiv.org/abs/2108.09950v1 )

ライセンス: Link先を確認
Kyung Ryul Park, Sundeep Sahay, J{\o}rn Braa and Pamod Amarakoon(参考訳) レジリエンスは学術研究の様々な分野において新たな話題となっている。 広く使われているにもかかわらず、特にICTや開発分野を含む多分野の研究においてレジリエンスの意味について、概念的な混乱が残っている。 デジタル技術のポテンシャルにより、レジリエンスの異なる概念化を通じて誰が誰のために、レジリエンスに関連する重要な社会制度的価値が強化されているのかを批判的に問う必要がある。 本研究では,韓国のパンデミックに対する対応に関する解釈的ケーススタディを行い,デジタルレジリエンスの重要な側面を明らかにするための時系列的物語を構築した。 我々は、市民、研究コミュニティ、民間セクターを含む様々な利害関係者の積極的な役割によって実現されるアジリティ、多様性、および複数を、パンデミックに対するデジタルレジリエンスの鍵として特定する。 韓国の場合の発見はICT4D研究に影響を及ぼすとともに、国家のシングルウィンドウプラットフォームが通常、より均質なレベルで実施され、複数の多様なプラットフォームによる包括的革新によってデジタルレジリエンスを達成する国の開発について論じている。

Resilience has become an emerging topic in various fields of academic research. In spite of its widespread use, there remains conceptual confusion over what resilience means particularly in multi-disciplinary studies including the field of ICT and Development. With the potential of digital technology, research is needed to critically question what key socio-institutional values related to resilience are being strengthened, for what and for whom through the different conceptualizations of resilience. In this study, we conduct an interpretive case study on South Korea's response to the pandemic and construct a chronological narrative to identify key aspects of digital resilience. We identify agility, diversity, and plurality - enabled by active roles of various stakeholders, including citizens, research communities, and private sector - as keys to digital resilience to the pandemic. Findings from the case of South Korea provide implications to ICT4D research while discussing how developing countries, where a national single window platform is typically implemented with greater level of homogeneity, achieve digital resilience with inclusive innovation with plurality of diverse platforms.
翻訳日:2023-03-17 12:17:46 公開日:2021-08-23
# 良いか悪いか? ICT4Dの批判的分析のための枠組み

For Better or for Worse? A Framework for Critical Analysis of ICT4D for Women ( http://arxiv.org/abs/2108.09947v1 )

ライセンス: Link先を確認
Abhipsa Pal and Rahul De'(参考訳) ictの普及は、女性のエンパワーメントの機会を提供し、ジェンダーベースのデジタル平等を高めている。 しかし、批判的な分析によれば、ICTの普及が拡大するにつれて、ジェンダーベースのデジタル分割を広げ、女性をオンラインの性的虐待に晒すという永続的な脅威が存在し、主に社会構造の性的な性質を特徴とする発展途上国で顕著である。 本稿では、ICTを女性のエンパワーメントのファシリテーターとして受け入れる代わりに、ジェンダーに焦点を当てたICT4D研究のための重要な研究枠組みを開発する。 批判的研究手法は、現状に挑戦し、より深い社会的不平等を明らかにすることによって、社会的現実を明らかにする適切なオントロジーを提供する。 本研究は,ICT4Dの文献からの成果と成果を調査し,そのメリットと課題について批判的な結論を導いた。 本研究は、今後のICT4D研究に資し、ジェンダー差別の分野を調査し、クリティカルライトにおけるICTの役割を理解する。

Diffusion of ICTs provide possibilities for women empowerment by greater participation and enhanced gender-based digital equality. However, a critical analysis reveals that as ICT diffusion widens, there is a persistent threat of widening the gender-based digital divide and exposes women to online sexual abuses, predominantly in developing countries characterized by the gendered nature of the social structure. Instead of accepting ICT as the facilitator to women empowerment, in this paper, we develop a critical research framework for a gender-focused examination of ICT4D studies. Critical research methodology provides the appropriate ontology unveiling social realities through challenging the status quo and exposing the deeper societal inequalities. Using the critical research framework developed, we investigate past ICT4D initiatives and artifacts from literature and draw critical conclusions of its benefits and issues. This study would aid future ICT4D research to investigate areas of gender discrimination and understand the role of ICTs in a critical light.
翻訳日:2023-03-17 12:17:27 公開日:2021-08-23
# 若年アイルランド消費者のパーソナライゼーション・プライバシー・パラドックスの調査--スマートスピーカーを事例として

Investigating Personalisation-Privacy Paradox Among Young Irish Consumers: A Case of Smart Speakers ( http://arxiv.org/abs/2108.09945v1 )

ライセンス: Link先を確認
Caoimhe O'Maonaigh and Deepak Saxena(参考訳) パーソナライゼーション(personalization)とは、消費者の関心に合うオンラインサービスのケータリングを指す。 パーソナライズされたサービスを提供するために、企業は消費者のデータを収集する。 この状況では、消費者は個人化された情報やサービスの利点を欲しがり、同時にプライバシーのリスクから身を守る必要がある。 しかし、プライバシーは彼らにとって不可欠な権利であると主張する個人は多いが、プライバシー保護行動に関わらないことで、オンライン環境では矛盾する行動をとる。 このパラドックスはパーソナライズ・プライバシーのパラドックスとして知られている。 パーソナライズとプライバシーのパラドックスは、ロケーションベースの広告からオンラインショッピングまで、様々なシナリオで研究されてきた。 本研究の目的は,スマートスピーカーの文脈におけるパーソナライズ・プライバシーのパラドックスを検討することである。 この研究は、若いアイルランドの消費者による探索的研究に基づいて、プライバシーリスクとそれに対応するプライバシー保護行動に対する認識の観点から、スマートスピーカーのユーザと非ユーザの違いを示唆している。 このようにして、パーソナライズとプライバシーのパラドックスの存在を説明し、さらなる研究のための洞察を提供する。

Personalisation refers to the catering of online services to match consumer's interests. In order to provide personalised service, companies gather data on the consumer. In this situation, consumers must navigate a trade-off when they want the benefits of personalised information and services while simultaneously wish to protect themselves from privacy risks. However, despite many individuals claiming that privacy is an essential right to them, they behave contradictorily in online environments by not engaging in privacy-preserving behaviours. This paradox is known as the personalisation-privacy Paradox. The personalisation-privacy paradox has been studied in many different scenarios, ranging from location-based advertising to online shopping. The objective of this study is to investigate the personalisation-privacy paradox in the context of smart speakers. Based on an exploratory study with young Irish consumers, this study suggests a difference between the users and non-users of smart speakers in terms of their perception of privacy risks and corresponding privacy-preserving behaviours. In so doing, it also explains the existence of the personalisation-privacy paradox and offers insights for further research.
翻訳日:2023-03-17 12:17:09 公開日:2021-08-23
# マラウイにおけるモバイル支払いの継続意図を決定づける要因

Factors that Determine Continuous Intention to Use Mobile Payments in Malawi ( http://arxiv.org/abs/2108.09944v1 )

ライセンス: Link先を確認
Jones Ntaukira, Priscilla Maliwichi and James Kamwachale Khomba(参考訳) 携帯電話の普及により、モバイル決済は発展途上国で広く利用されている。 しかし、マラウイでのモバイル支払いの利用は低く、ユーザーがモバイル支払いを継続的に使うよう促す制限が多数ある。 本研究の目的は,マラウイにおけるモバイル支払いの継続的意図の決定要因を検討することである。 技術受容モデルに基づく概念的枠組みを開発した。 データ分析では,SmartPLSソフトウェアを用いて,構造方程式モデリング部分最小方形を用いてデータを収集した。 本研究は,社会規範がモバイル支払いの継続意図に著しく影響を及ぼすことを示した(p=0.012)。 最も興味深いのは、事前知識 (p=0.000) とシームレスネス (p=0.000) が構造保証 (p=0.008) よりも強い影響を持っていたことである。 シームレス性は満足度(p=0.002)と社会規範(p=0.001)に大きく影響した。 シームレスさとサービス品質は満足度に著しく悪影響を及ぼした。 この研究の結果は、マラウイのモバイル決済産業を導くためのいくつかの考察を提供する。 また、既存のモバイル決済システムのビジネスモデル、マーケティング戦略、セキュリティ問題に対する顧客の関与、透明性、支払いシステムの相互運用性も改善される可能性がある。 規制当局はまた、この研究の結果がマラウイのモバイル決済政策の進展に非常に見識があるかもしれない。

The proliferation of mobile phones has made mobile payments to be widely used in developing economies. However, mobile payment usage in Malawi is low, and there are many limitations to encourage users to continuously use mobile payments. The purpose of this research was to examine determinants of continuous intention to use mobile payments in Malawi. A conceptual framework adapted from Technology Acceptance Model was developed. Data was collected through a survey while data analysis used Structural Equation Modelling Partial Least Squares using SmartPLS software. The findings of this study showed that society norms significantly influence continuous intention to use mobile payments (p=0.012). Most interestingly, prior knowledge (p=0.000) and seamlessness (p=0.000) had the strongest influence as compared to structural assurance (p=0.008). Seamlessness significantly influenced satisfaction (p=0.002) and society norms (p=0.001). Seamlessness and service quality had significantly negative effects on satisfaction. The findings of this research provide several considerations to guide the mobile payments industry in Malawi. The findings may also improve the existing mobile payments system's business models, marketing strategies, customer engagement on security issues, transparency, and interoperability of payment systems. Regulators may also find the findings of this study very insightful in advancing the mobile payments agenda in Malawi.
翻訳日:2023-03-17 12:16:48 公開日:2021-08-23
# 起業過程におけるデジタルプラットフォームの役割:パキスタンのスタートアップの資源的展望

Role of Digital Platforms in Entrepreneurial Processes: A Resource Enabling Perspective of Startups in Pakistan ( http://arxiv.org/abs/2108.09943v1 )

ライセンス: Link先を確認
Hareem Nassar and Fareesa Malik(参考訳) 本稿では、起業家プロセスにおける外部イネーブラーとしてのデジタルプラットフォームの役割について考察する。 最近のデジタルプラットフォームによるイノベーションと起業家精神の異なる側面への注入は、デジタル起業家精神を支持してきたが、変化した起業家プロセスはまだ検討されていない。 本研究は、パキスタンのデジタルプラットフォームベースのスタートアップに焦点を当て、外部資源の実現可能性を理解するための起業家的ブリコラージュ理論を提起する。 我々は、複数の質的ケーススタディアプローチに従い、デジタルプラットフォームのみで動作する2つのスタートアップからの半構造化インタビューを通じてデータを収集した。 1) XYLEXA と 2)トイサイクル。 この発見は、起業家プロセスが継続的なプロセスであることを示している。 デジタルプラットフォームは、起業家のプロセスの境界を低くしている。すなわち、エンドユーザーに支持された後も、製品やサービスは進化し続ける。 さらに、限られたリソースを持つプラットフォームベースのスタートアップは、利用可能なリソースを効率的に効率的に組み合わせることで、起業家的プロセス全体を通過することができる。

This article aims to explore the role of digital platforms as external enablers in entrepreneurial processes. The recent infusion of digital platforms into different aspects of innovation and entrepreneurship has supported digital entrepreneurship; however, the altered entrepreneurial processes are yet to be explored. This study focuses on digital platform-based startups of Pakistan and draws on entrepreneurial bricolage theory to understand the enabling external resources. We followed multiple qualitative case studies approach and collected data through semi-structured interviews from two startups operating solely on digital platforms, 1) XYLEXA and 2) Toycycle. The findings show that entrepreneurial process is a continuous process. Digital platforms have made entrepreneurial processes less bounded i.e. the products and services keep on evolving even after they have been endorsed to the end user. Moreover, platform-based startups having limited resources can move through the entire entrepreneurial process by combining available resources efficiently and effectively.
翻訳日:2023-03-17 12:16:25 公開日:2021-08-23
# DHIS2を用いた健康管理情報システムのデータ品質実践の合法化 マラウイの1例

Legitimization of Data Quality Practices in Health Management Information Systems Using DHIS2. Case of Malawi ( http://arxiv.org/abs/2108.09942v1 )

ライセンス: Link先を確認
Martin Bright Msendma, Wallace Chigona, Benjamin Kumwenda, Jens Kaasb{\o}ll and Chipo Kanjo(参考訳) 医療関係者は、データ品質管理を医療提供の2番目の優先事項と考えている。 医療従事者は、自身のオペレーションに侵入するデータ品質管理プラクティスを見つける。 DHIS2プラットフォームを用いたHealth Management Information System(HMIS)を用いて、同型性は、医療従事者間のデータ品質管理プラクティスの正当化につながり、その後、データ品質が向上することを示す。 このケーススタディでは、観察方法、半構造化インタビュー、アーティファクトのレビューを用いて、同型プロセスを通じてデータ品質管理の実践が利害関係者の間でどのように合法化されているかを調査した。 データは、リロングウェの保健省 (Malawi) HMIS Technical Working Groupのメンバーと、ティオロ地区の医療従事者やデータ処理員から収集された。 以上の結果から,模倣同型は道徳的・実用的正当性につながり,規範的同型はhmis構造内の認知的正当性につながり,データと報告の正確性とタイムラインの達成に寄与した。 この理解を通じて、まずIS研究における組織問題に関する文献に貢献する。 第2に、医療従事者間のデータ品質管理実践の正当化を支援するため、医療サービス管理者に同型力による収益化を動機とする実践に貢献する。

Medical doctors consider data quality management a secondary priority when delivering health care. Medical practitioners find data quality management practices intrusive to their operations. Using Health Management Information System (HMIS) that uses DHIS2 platform, our qualitative case study establishes that isomorphism leads to legitimization of data quality management practices among health practitioners and subsequently data quality. This case study employed the methods of observation, semi structured interviews and review of artefacts to explore how through isomorphic processes data quality management practices are legitimized among the stakeholders. Data was collected from Ministry of Health's (Malawi) HMIS Technical Working Group members in Lilongwe and from medical practitioners and data clerks in Thyolo district. From the findings we noted that mimetic isomorphism led to moral and pragmatic legitimacy while and normative isomorphism led to cognitive legitimacy within the HMIS structure and helped to attain correctness and timeliness of the data and reports respectively. Through this understanding we firstly contribute to literature on organizational issues in IS research. Secondly, we contribute to practice as we motivate health service managers to capitalize on isomorphic forces to help legitimization of data quality management practices among health practitioners.
翻訳日:2023-03-17 12:16:10 公開日:2021-08-23
# 無限相関長をもつウィグナー輸送方程式の決定論的解法

A Deterministic Solution of the Wigner Transport Equation with Infinite Correlation Length ( http://arxiv.org/abs/2108.09941v1 )

ライセンス: Link先を確認
Kyoung Yeon Kim and Byung-Gook Park(参考訳) 無限の相関長を持つウィグナー輸送方程式の新しい定式化を提案する。 最大相関長は有限値に制限されないので、非局所ポテンシャル項の有限積分範囲によるシミュレーション結果に不確実性はない。 一般に効率的なシミュレーションのために、WTEは有限体積法と完全に結合したニュートン・ラフソンスキームによってポアソン方程式と矛盾なく解かれる。 これにより,量子輸送定常状態と過渡シミュレータを実装し,コンバージェンスに優れる。

We propose a new formulation of the Wigner transport equation with infinite correlation length. Since the maximum correlation length is not limited to a finite value, there is no uncertainty in the simulation results owing to the finite integral range of the nonlocal potential term. For general and efficient simulation, the WTE is solved self-consistently with the Poisson equation through the finite volume method and the fully coupled Newton-Raphson scheme. Through this, we implemented a quantum transport steady state and transient simulator with excellent convergence.
翻訳日:2023-03-17 12:15:44 公開日:2021-08-23
# IoT導入のための南アフリカ農業セクターの準備

Readiness of the South African Agricultural Sector to Implement IoT ( http://arxiv.org/abs/2108.10081v1 )

ライセンス: Link先を確認
In'aam Soeker, Shallen Lusinga and Wallace Chigona(参考訳) 世界の人口が増加するにつれて、食糧需要も増加する。 この食料需要は多くの国で農業にプレッシャーを与えている。 気候変動が環境に与える影響は、人口増加に対応するために必要な食料を生産することを困難にしている。 これらの懸念から、農業部門は生産性を高めるためにより効率的で持続可能な農業方法に移行することを余儀なくされている。 農業における技術の利用は、食料生産と食料持続可能性を改善する可能性があり、食料安全保障の懸念に対処する証拠がある。 IoT(Internet of Things)は、気候変動が食料安全保障に与える影響を克服するための潜在的なツールとして提案されている。 しかし、南アフリカの農業セクターでIoTを実装する準備が整っているという研究の難しさがある。 そこで本研究では, 南アフリカの農業部門におけるIoTの広範な実装に向けた準備について検討する。 本研究は,南アフリカの特殊事例における PEST フレームワークのレンズによるデスクトップ研究を行う。 南アフリカの農業分野におけるIoTの実施を促進または妨げうる政治的、経済的、社会的、技術的要因を調べるために、テーマ文献と文書レビューが展開された。 この結果は、幅広い政治的、経済的、社会的、技術的構造が、南アフリカの農業部門におけるIoTの実装を可能にすることを示唆している。 最も重要なのは、現在のポリシー、技術基盤、インターネットへのアクセス、そして南アフリカを農業にIoTを実装する適切な位置に置くモバイル技術である。

As the world's population increases, so does the demand for food. This demand for food in turn puts pressure on agriculture in many countries. The impact of climate change on the environment has made it difficult to produce food that may be necessary to accommodate the growing population. Due to these concerns, the agriculture sector is forced to move towards more efficient and sustainable methods of farming to increase productivity. There is evidence that the use of technology in agriculture has the potential to improve food production and food sustainability; thereby addressing the concerns of food security. The Internet of Things (IoT) has been suggested as a potential tool for farmers to overcome the impact of climate change on food security. However, there is dearth of research on the readiness of implementing IoT in South Africa's agricultural sector. Therefore, this research aims to explore the readiness of the agricultural sector of South Africa for a wide implementation of IoT. This research conducts a desktop study through the lens of the PEST framework on the special case of South Africa. A thematic literature and documents review was deployed to examine the political, economic, societal and technological factors that may facilitate or impede the implementation of IoT in the agricultural sectors of South Africa. The findings suggest that the wide ranging political, economic, societal and technological constructs enable the implementation of IoT within South Africa's agricultural sector. The most important include current policies, technological infrastructure, access to internet, and mobile technology which places South Africa in a good position to implement IoT in agriculture.
翻訳日:2023-03-17 12:09:46 公開日:2021-08-23
# クラウドコンピューティングの採用 - 南アフリカの中小企業と中小企業の機会と課題

Cloud Computing Adoption: Opportunities and Challenges for Small, Medium and Micro Enterprises in South Africa ( http://arxiv.org/abs/2108.10079v1 )

ライセンス: Link先を確認
Simphiwe S. Sithole and Ephias Ruhode(参考訳) 本論文の目的は,南アフリカにおけるSMMEによるクラウドコンピューティング導入の機会と課題を,導入に影響を与える要因を考察することである。 TOEフレームワークは、クラウドコンピューティングの採用に影響を与える要因のコンテキスト化と、クラウドコンピューティングによって南アフリカのSMMEに提示される機会と課題の評価に使用される。 オンライン調査は、南アフリカのすべての地理的地域およびビジネス産業からSMMEのリーダーからのデータ収集に使用された。 目的を調査するために定量的研究手法を採用し, 関連性評価と結果提示に記述分析を適用した。 調査の結果,SMMEによるクラウドコンピューティング導入を考える上で,相対的優位性は重要な要因であることが明らかとなった。 従来,他の研究で重要な要因とされてきたトップマネジメントサポートは,本研究では重要でないことが判明した。 調査によると、クラウドコンピューティングはSMMEに機会を与え、競争力を向上させる。

The purpose of the paper is to determine the opportunities and challenges that lead to cloud computing adoption by SMMEs in South Africa by looking at the factors that influence adoption. The TOE framework is used to contextualize the factors that influence cloud computing adoption and evaluate the opportunities and challenges that are presented by cloud computing to SMMEs in South Africa. An online survey questionnaire was used to collect data from leaders of SMMEs from all geographical regions and business industries in South Africa. A quantitative research approach was adopted to investigate the objectives, and descriptive analysis was used to evaluate the relationships and present the results. The findings of the study show that relative advantage is an important factor in the consideration of cloud computing adoption by SMMEs, while government and regulatory support is perceived as a barrier. Top management support, which has been previously found by other studies to be a significant factor has been found to be insignificant in this study. The study has revealed that cloud computing presents opportunities to SMMEs and improves their competitiveness.
翻訳日:2023-03-17 12:09:26 公開日:2021-08-23
# 無限次相転移に対する忠実性と絡み合いエントロピー

Fidelity and entanglement entropy for infinite-order phase transitions ( http://arxiv.org/abs/2108.09966v1 )

ライセンス: Link先を確認
Jin Zhang(参考訳) 無限次量子相転移を持つ量子系の基底状態に対する忠実度と絡み合いエントロピーについて検討する。 特に、スピン=S$ truncationを持つ量子 O(2) モデルを考えると、$S = 1$の無限次ガウス(IOG)遷移と$S \ge 2$のベレジンスキー=コステリッツ=トゥーレス(Berezinskii-Kosterlitz-Thouless)遷移がある。 フィデリティ感受性(\chi_F$)のピークの高さは、IOG遷移に1/L$、BKT遷移に1/\ln(L)$のパワー則として有限熱力学値に収束することを示す。 $\chi_F$ のピーク位置は IOG 遷移と BKT 遷移の両方のギャップ位相内に存在する。 一方、結合定数(S^{\prime}_{vN}$)に対するブロック絡みエントロピーの微分は、$S = 1$$$S \ge 2$) に対して $\ln^{2}(L)$ [$\ln^{3}(L)$] として分岐するピーク高さを持ち、両方の遷移を正確に見つけるのに使うことができる。 有限サイズのスケーリングに対する高次補正を含め、中央電荷$c = 1$の値で結果を相互チェックする。 異なるシステムサイズ間の$\chi_F$の交差点は、IOGポイントは$S = 1$だが、ギャップ付きフェーズ内は$S \ge 2$であり、$S^{\prime}_{vN}$の交差点は、すべての$S$トランケーションの位相遷移ポイントである。 我々の研究は、無限次量子相転移を検出するために、$\chi_F$ または $S^{\prime}_{vN}$ の有限サイズのスケーリングを使い、この2つの手法の効率と正確性について議論する。

We study the fidelity and the entanglement entropy for the ground states of quantum systems that have infinite-order quantum phase transitions. In particular, we consider the quantum O(2) model with a spin-$S$ truncation, where there is an infinite-order Gaussian (IOG) transition for $S = 1$ and there are Berezinskii-Kosterlitz-Thouless (BKT) transitions for $S \ge 2$. We show that the height of the peak in the fidelity susceptibility ($\chi_F$) converges to a finite thermodynamic value as a power law of $1/L$ for the IOG transition and as $1/\ln(L)$ for BKT transitions. The peak position of $\chi_F$ resides inside the gapped phase for both the IOG transition and BKT transitions. On the other hand, the derivative of the block entanglement entropy with respect to the coupling constant ($S^{\prime}_{vN}$) has a peak height that diverges as $\ln^{2}(L)$ [$\ln^{3}(L)$] for $S = 1$ ($S \ge 2$) and can be used to locate both kinds of transitions accurately. We include higher-order corrections for finite-size scalings and crosscheck the results with the value of the central charge $c = 1$. The crossing point of $\chi_F$ between different system sizes is at the IOG point for $S = 1$ but is inside the gapped phase for $S \ge 2$, while those of $S^{\prime}_{vN}$ are at the phase-transition points for all $S$ truncations. Our work elaborates how to use the finite-size scaling of $\chi_F$ or $S^{\prime}_{vN}$ to detect infinite-order quantum phase transitions and discusses the efficiency and accuracy of the two methods.
翻訳日:2023-03-17 12:08:53 公開日:2021-08-23
# 定期的健康監視データセットの整理に関する体系的アプローチ--インド・パンジャブ州のnational vector borne disease control program dataを用いて

A Systematic Approach to Cleaning Routine Health Surveillance Datasets: An Illustration Using National Vector Borne Disease Control Programme Data of Punjab, India ( http://arxiv.org/abs/2108.09963v1 )

ライセンス: Link先を確認
Gurpreet Singh, Biju Soman and Arun Mitra(参考訳) ICT4Dとデータサイエンスの進歩は、定期的な健康情報システムを強化するために、体系的、再現可能、スケーラブルなデータクリーニングを促進する。 データクリーニングのための論理モデルを使用し、ルールベース、対話型、半自動的な方法でデータセットをスクリーニング、診断、編集するアルゴリズムを含んでいた。 計算ワークフローと運用定義が準備された。 モデルパフォーマンスは、2015年1月01日から2019年12月31日までインドのプンジャブにあるnational vector borne disease control programのdengue line-listを使用して示されている。 2015年と2016年のそれぞれ96.1%と98.9%の記録、2017年と2018年と2019年のすべてのケースで、推定日付のクリーニングとインプテーションが成功した。 年齢と性別に関する情報は98.4%、99.4%以上で削除された。 論理モデルアプリケーションは、時空間疫学を理解し、データベースの公衆衛生意思決定を容易にする分析可能なデータセットの開発につながった。

Advances in ICT4D and data science facilitate systematic, reproducible, and scalable data cleaning for strengthening routine health information systems. A logic model for data cleaning was used and it included an algorithm for screening, diagnosis, and editing datasets in a rule-based, interactive, and semi-automated manner. Apriori computational workflows and operational definitions were prepared. Model performance was illustrated using the dengue line-list of the National Vector Borne Disease Control Programme, Punjab, India from 01 January 2015 to 31 December 2019. Cleaning and imputation for an estimated date were successful for 96.1% and 98.9% records for the year 2015 and 2016 respectively, and for all cases in the year 2017, 2018, and 2019. Information for age and sex was cleaned and extracted for more than 98.4% and 99.4% records. The logic model application resulted in the development of an analysis-ready dataset that can be used to understand spatiotemporal epidemiology and facilitate data-based public health decision making.
翻訳日:2023-03-17 12:08:09 公開日:2021-08-23
# エチオピアにおけるデジタル政府革新導入におけるジェンダーの緩和効果

The Moderating Effect of Gender on Adopting Digital Government Innovations in Ethiopia ( http://arxiv.org/abs/2108.09960v1 )

ライセンス: Link先を確認
Debas Senshaw and Hossana Twinomurinzi(参考訳) デジタル政府のイノベーションは、市民へのサービス提供において政府が直面する多くの問題の解決策として認識されている。 資源の制約がある低所得国では特に重要である。 本研究は、エチオピアにおけるデジタル政府革新の導入に対するジェンダーのモデレーション効果を、ウタウトモデル(n=270)と構造方程式モデリング(sem)を用いて検討することを目的とした。 その結果、性別は、ファシリテーション条件と政府職員の使用行動の関係を緩和し、他の結果と矛盾するデジタル政府革新を採用することが判明した。 もう一つの重要な発見は、イノベーションは使いやすくないと見なされていたにもかかわらず、女性は仲間や上司の社会的影響により、それを使うであろうと特定したことである。 この結果は、外部支援を受ける女性政府職員は、たとえ支援されたとしても利用できない男性に比べて、デジタル政府革新を利用する傾向にあることを示唆している。 論文は、エチオピアのような低所得国の政府は、デジタル政府の女性を奨励する適切な政策を設計すべきだと推奨している。

Digital government innovation is being recognised as a solution to many problems faced by governments in providing services to their citizens. It is especially important for low-income countries where there are resource constraints. This research was aimed at exploring the moderating effect of gender on the adoption of a digital government innovation in Ethiopia based on the UTAUT model (n=270) and using structural equation modeling (SEM). The results reveal that gender only moderates the relationship between facilitating conditions and usage behavior of government employees to adopt the digital government innovation which is inconsistent with other findings. Another key finding was that even though the innovation was regarded as not being easy to use, women identified that they would still use it because of the social influence from the peers and the bosses. This finding suggests that women government employees who obtain external support are more likely to use digital government innovations compared with men who are unlikely to use it even if they were facilitated. The paper recommends that governments of low-income countries like Ethiopia should design appropriate policies that encourage women in digital government.
翻訳日:2023-03-17 12:07:50 公開日:2021-08-23
# 人工知能倫理: 包括的グローバル論説?

Artificial Intelligence Ethics: An Inclusive Global Discourse? ( http://arxiv.org/abs/2108.09959v1 )

ライセンス: Link先を確認
Cathy Roche, Dave Lewis and P.J. Wall(参考訳) テクノロジーは世界中に普及し、南半球に存在する多くの問題を解決する可能性を秘めていると広く受け入れられている。 さらに、人工知能(AI)の急速な進歩は、これまで不可能だった方法で、持続可能な開発目標(SDG)に概説された多くの課題に対処する可能性をもたらす。 しかし、このような先進的な技術がどのように管理され、管理されるべきなのか、AIの新たな倫理的枠組みや標準がグローバル・ノースに支配されているかどうか、多くの疑問がある。 本研究は,AI倫理の文書化が進む中で,現在進行中の国際談話への参加が平等かどうかを検討する。 具体的には、グローバル・サウスの両国と女性がこの議論で過小評価されているかどうかを探っている。 発見は、AI倫理文書におけるこれらの2つのテーマへの言及の欠如を示し、関連する倫理的含意とリスクが無視されていることを示唆している。 グローバル・サウスの両国や女性からの十分なインプットがなければ、そのような倫理的枠組みや基準は、限界化を補強する可能性と差別的である。

It is widely accepted that technology is ubiquitous across the planet and has the potential to solve many of the problems existing in the Global South. Moreover, the rapid advancement of artificial intelligence (AI) brings with it the potential to address many of the challenges outlined in the Sustainable Development Goals (SDGs) in ways which were never before possible. However, there are many questions about how such advanced technologies should be managed and governed, and whether or not the emerging ethical frameworks and standards for AI are dominated by the Global North. This research examines the growing body of documentation on AI ethics to examine whether or not there is equality of participation in the ongoing global discourse. Specifically, it seeks to discover if both countries in the Global South and women are underrepresented in this discourse. Findings indicate a dearth of references to both of these themes in the AI ethics documents, suggesting that the associated ethical implications and risks are being neglected. Without adequate input from both countries in the Global South and from women, such ethical frameworks and standards may be discriminatory with the potential to reinforce marginalisation.
翻訳日:2023-03-17 12:07:30 公開日:2021-08-23
# 地球観測と新しいアフリカの農村データスケープ:臨界研究のためのアジェンダの定義

Earth Observation and the New African Rural Datascapes: Defining an Agenda for Critical Research ( http://arxiv.org/abs/2108.09958v1 )

ライセンス: Link先を確認
Rose Pritchard, Wilhelm Kiwango and Andy Challinor(参考訳) 地球観測データの可用性が高まると、アフリカの農村の景観の利用と統治が変化し、その景観に住む人々の生活と幸福に大きな影響を与えることになる。 近年、アフリカの農業システムにおける利害関係者を対象としたEOデータアプリケーションの開発が急速に増加している。 しかし、EOのデータがどのようにアクセスされ、提示され、広められ、異なる社会・政治の文脈で使用されるか、あるいはそれが貧しく、疎外的な人々の幸福を増すか、あるいは減少させるのか、という批判的な奨学金はいまだにほとんどない。 既存のEO-for-development研究における3つの無視された領域を強調します。 (i)EOデータの展開を指示する「理想的」将来の景観の想像 二 大規模開発のためのEOネットワークにおける電力関係がコストと利益の分配を形成する方法 (iii)これら大規模政治のダイナミクスが地域規模の不平等とどのように相互作用し、辺境化した人々の回復力に影響を与えるか。 次に, 批判データ研究, ICT4D, 政治生態学における最近の考え方を考察した, 批判的EO研究のための枠組みを提案する。

The increasing availability of Earth Observation data could transform the use and governance of African rural landscapes, with major implications for the livelihoods and wellbeing of people living in those landscapes. Recent years have seen a rapid increase in the development of EO data applications targeted at stakeholders in African agricultural systems. But there is still relatively little critical scholarship questioning how EO data are accessed, presented, disseminated and used in different socio-political contexts, or of whether this increases or decreases the wellbeing of poorer and marginalized peoples. We highlight three neglected areas in existing EO-for-development research: (i) the imaginaries of 'ideal' future landscapes informing deployments of EO data; (ii) how power relationships in larger EO-for-development networks shape the distribution of costs and benefits; and (iii) how these larger-scale political dynamics interact with local-scale inequalities to influence the resilience of marginalised peoples. We then propose a framework for critical EO-for-development research drawing on recent thinking in critical data studies, ICT4D and political ecology.
翻訳日:2023-03-17 12:07:12 公開日:2021-08-23
# インドネシアにおけるパンデミック初期におけるCovid-19リスクファクターのマッピング

Mapping of Covid-19 Risk Factors of Cities and Regencies in Indonesia during the Initial Stages of the Pandemic ( http://arxiv.org/abs/2108.09957v1 )

ライセンス: Link先を確認
Setia Pramana, Achmad Fauzi Bagus Firmansyah and Mieke Nurmalasari(参考訳) 本研究の目的は,インドネシアにおける新型コロナウイルス(covid-19)パンデミックの初期段階のリスク要因を,リスク要因を特定し,複合リスク因子を開発することである。 被曝,感染,感受性の3つの危険因子について検討した。 多変量回帰とカノニカル相関分析を実施し,感染リスク要因と報告された新型コロナウイルスの発症初期との関係を計測した。 その結果,複合リスクファクターとパンデミックの初期段階におけるcovid-19感染者数との間に強い相関が認められた。 人口密度、通勤者の割合、国際曝露、感染しやすい公共の場所の数などの影響が観察される。 大規模な地域や都市、主にJavaはリスクスコアが高い。 ジャカルタ大都市圏に属する州が保有する最大のリスクスコアである。

The aims of this study are to identify risk factors and develop a composite risk factor of initial stage of COVID-19 pandemic in regency level in Indonesia. Three risk factors, i.e., exposure, transmission and susceptibility, are investigated. Multivariate regression, and Canonical correlation analysis are implemented to measure the association between the risk factors and the initial stage of reported COVID -19 cases. The result reveals strong correlation between the composite risk factor and the number of COVID-19 cases at the initial stage of pandemic. The influence of population density, percentage of people commuting, international exposures, and number of public places which prone to COVID-19 transmission are observed. Large regencies and cities, mostly in Java, have high risk score. The largest risk score owned by regencies that are part of the Jakarta Metropolitan Area.
翻訳日:2023-03-17 12:06:52 公開日:2021-08-23
# 政策実践コントラディション:マラウイ保健部門におけるクラウドコンピューティング導入の事例

Policy-Practice Contradiction: Case of Cloud Computing Adoption in the Malawi Health Sector ( http://arxiv.org/abs/2108.09956v1 )

ライセンス: Link先を確認
Deborah Amos Phiri and Chipo Kanjo(参考訳) 本稿では, 政策実施のダイナミクスと, 実践面での現実との矛盾について考察する。 論文は、政策を順守しているにもかかわらず、実際の実践は反対であることを示した。 マラウイの厚生労働省におけるデータ保存政策を事例として, 厚生労働省(MH)データの保管状況は, 多くの技術・組織・環境(TOE)要因に依存していることを示す。 クラウドコンピューティングの結果として、これらの要因のいくつかは、データをクラウドに格納する原因となり、データストレージポリシーと矛盾する。

This paper examines the dynamics of policy implementation and how policy contradicts reality on the ground when it comes to practice. The paper finds that despite having well-laid out policy; the actual practice is contrary. Taking data storage policy within the Ministry of Health in Malawi as a case study, the paper highlights that the contextual realities of where Ministry of Health (MoH) data is stored depends on a number of Technology-Organizational-Environmental (TOE) factors. In the wake of cloud computing; some of these factors act as causative factors for data to be stored in the cloud; contradicting the data storage policy.
翻訳日:2023-03-17 12:06:40 公開日:2021-08-23
# 量子照明によるターゲット検出:範囲方程式

Target Detection via Quantum Illumination: Range Equation ( http://arxiv.org/abs/2108.10151v1 )

ライセンス: Link先を確認
Hossein Allahverdi, M.H.Qamat, M. Nowshadi(参考訳) 本稿では,ガウス状態量子照明(QI)に基づく目標検出の基本原理を紹介する。 このようなシステムの性能は、最も古典的な光の状態、すなわちコヒーレントな状態を用いて目標領域を照らす古典的なシステムと比較されている。 最大範囲方程式を導出することにより, 量子照明に基づくターゲット検出システムは, 特に低伝送パワーにおいて有利であり, バイオメディカルイメージングやカレット検出といった短距離応用に適していることを実証した。

In this article, the basic principle of target detection based on Gaussian state quantum illumination (QI) has introduced. The performance of such system has compared with its classical counterpart, which employs the most classical state of light, i.e., coherent state, to illuminate the target region. By deriving the maximum range equation, we have demonstrated that the quantum illumination based target detection system is especially advantageous at low transmission powers, which make these systems suitable for short range applications like biomedical imaging or covert detection schemes.
翻訳日:2023-03-17 12:00:30 公開日:2021-08-23
# LGBTQIA+コミュニティにおけるデジタルコンタクトトレーシングの倫理的意味

The Ethical Implications of Digital Contact Tracing for LGBTQIA+ Communities ( http://arxiv.org/abs/2108.10096v1 )

ライセンス: Link先を確認
Izak van Zyl and Nyx McLean(参考訳) 新型コロナウイルス(covid-19)の流行は、公衆衛生の利益のために広範囲にわたるデジタル介入の導入につながった。 これらのうち、アフリカ大陸を含む世界中の国々において、デジタル接触追跡がターゲット制御の実行可能な手段として提案されている。 これはLGBTQIA+の人々を含む脆弱なコミュニティに重大な倫理的課題をもたらす。 本稿ではLGBTQIA+コミュニティにおけるデジタル接触追跡の倫理的意義について考察する。 我々は、特に自由のデジタル侵害について言及し、データ植民地化とビッグデータに関する議論を根拠にしています。 本稿では,分散化とユーザ制御による包括的技術開発に向けた重要な交差点フェミニズムを提案する。 このアプローチは、複数の生活経験を強調するフェミニストのケア倫理から学べる。

The onset of COVID-19 has led to the introduction of far-reaching digital interventions in the interest of public health. Among these, digital contact tracing has been proposed as a viable means of targeted control in countries across the globe, including on the African continent. This, in turn, creates significant ethical challenges for vulnerable communities, including LGBTQIA+ persons. In this research paper, we explore some of the ethical implications of digital contact tracing for the LGBTQIA+ community. We refer specifically to the digital infringement of freedoms, and ground our discussion in the discourse of data colonisation and Big Tech. We propose a critical intersectional feminism towards developing inclusive technology that is decentralised and user controlled. This approach is informed by a feminist ethics of care that emphasises multiple lived experiences.
翻訳日:2023-03-17 12:00:21 公開日:2021-08-23
# 情報メディアの競合ネットワーク間の組織的レジリエンス:香港における市民社会レジリエンスを事例として

Organizational Resilience between Competing Networks of Infomediaries: A Case Study in Civil Society Resilience in Hong Kong ( http://arxiv.org/abs/2108.10095v1 )

ライセンス: Link先を確認
Sophie Zinser and Hannah Thinyane(参考訳) 本研究では、香港の非政府組織(NGO)が、移民国内労働者の人口増加に伴うレジリエンス構築を支援するための情報通信技術(ICT)の利用において、いかに「先進国」(UNDP, 2003)とみなすことができるかを検討する。 また、mdwsは宗教団体や労働組合を含む既存の自己組織型コミュニティネットワークを効果的に活用している。 本研究は,NGO情報メディアがMDWコミュニティをどのように支援しているかを示す。 NGOは、地域の法的、心理的、文化的文脈に根ざしたICTを開発でき、MDWコミュニティのレジリエンスを向上させることができる。 本研究は,NGOインフォメーションとNGOコンペティションとの間の技術利用の断片化が,NGOインフォメーションがMDWコミュニティ内で持続するレジリエンスの構築を支援する能力を妨げることを示唆している。 本研究は,NGO情報メディアツール開発を,既存の香港のコミュニケーティブエコロジーにおけるMDWコミュニティとより緊密に連携させることを目的としている。 NGOは、草の根にあるMDW社会組織、地域社会のリーダー、そしてMDWコミュニティに影響を与える政府に様々なつながりを適応し、合理化できるインフォメディアであると考えている。 本研究は,香港のMDWで構築可能なレジリエンスネットワークの種類を,NGOインフォメータが理解するためのツールである。

This study explores how non-governmental organizations (NGOs) in Hong Kong can be considered as 'infomediaries' (UNDP, 2003) in their use of information and communication technologies (ICTs) to support resilience-building across a growing population of migrant domestic workers (MDWs). It also acknowledges MDWs effective existing self-organizing community networks, including religious groups and labour unions. This study maps how NGO infomediaries are currently supporting MDW communities. It posits that NGOs are uniquely capable of developing ICTs grounded in local legal, psychological, and cultural contexts to improve MDW community resilience. The study finds that the fragmented nature of technology use between NGO infomediaries and the competition between NGOs for funding hinders NGO infomediaries' ability to support building lasting resilience within the MDW community. Recommendations from this study seek to align NGO infomediary tool development more closely with the MDW community in Hong Kong's existing communicative ecologies. It considers NGOs as infomediaries capable of adapting and streamlining various linkages across grassroots MDW social organizations, local community leaders, and governments that impact the MDW community. This study is a tool for NGO infomediaries to understand the types of resilience networks that they are uniquely capable of building with MDWs in Hong Kong.
翻訳日:2023-03-17 12:00:08 公開日:2021-08-23
# 量子物理学における無限次元解析性

Infinite-dimensional analyticity in quantum physics ( http://arxiv.org/abs/2108.10094v1 )

ライセンス: Link先を確認
Paul E. Lammert(参考訳) バナッハ空間の開部分集合上でパラメータ化されたハミルトニアンの族について、固有状態の多くの興味深い性質とパラメータの熱状態解析関数を表わす方法で研究を行う。 そのような性質の例は電荷/電流密度である。 この装置は、パラメータ化空間が無限次元であるため、B型解析族(英語版)の加藤理論の一般化と見なすことができる。 これはバナッハ空間におけるホロモルフィズムの一般理論と、ヒルベルト・リギングに付随する作用素空間を持つセスキ線形形式の適切なクラスを同定することに基づいている。 したがって、適切なハミルトニアンに相応しい下界と現実の条件はセクター性に緩和され、ホロモルフィズムが用いられる。 パラメータ化 $x \mapsto {\mathsf{h}}_x$ of sesquilinear form が必要とされるソートであることを示すための便利な条件が与えられる({\it regular sectorial family})。 鍵写像 ${\mathcal R}(\zeta,x) = (\zeta - H_x)^{-1}$ と ${\mathcal E}(\beta,x) = e^{-\beta H_x}$ である。 これらは上述の様々な状態特性の分析を仲介する。 詳細な研究は、スカラー場とベクトルポテンシャル場と2体相互作用によってパラメータ化された非相対論的量子力学的ハミルトニアンによってなされる。

A study is made, of families of Hamiltonians parameterized over open subsets of Banach spaces in a way which renders many interesting properties of eigenstates and thermal states analytic functions of the parameter. Examples of such properties are charge/current densities. The apparatus can be considered a generalization of Kato's theory of analytic families of type B insofar as the parameterizing spaces are infinite dimensional. It is based on the general theory of holomorphy in Banach spaces and an identification of suitable classes of sesquilinear forms with operator spaces associated with Hilbert riggings. The conditions of lower-boundedness and reality appropriate to proper Hamiltonians is thus relaxed to sectoriality, so that holomorphy can be used. Convenient criteria are given to show that a parameterization $x \mapsto {\mathsf{h}}_x$ of sesquilinear forms is of the required sort ({\it regular sectorial families}). The key maps ${\mathcal R}(\zeta,x) = (\zeta - H_x)^{-1}$ and ${\mathcal E}(\beta,x) = e^{-\beta H_x}$, where $H_x$ is the closed sectorial operator associated to ${\mathsf {h}}_x$, are shown to be analytic. These mediate analyticity of the variety of state properties mentioned above. A detailed study is made of nonrelativistic quantum mechanical Hamiltonians parameterized by scalar- and vector-potential fields and two-body interactions.
翻訳日:2023-03-17 11:59:37 公開日:2021-08-23
# グローバル・サウス(AI4D)における人工知能の可能性とリスク

Artificial Intelligence in the Global South (AI4D): Potential and Risks ( http://arxiv.org/abs/2108.10093v1 )

ライセンス: Link先を確認
P.J. Wall, Deepak Saxena and Suzana Brown(参考訳) 人工知能は世界中のあらゆる地域で利用できるようになった。 これは、グローバル・サウスの持続可能な開発目標に概説された課題に対処するための、これまで予期せぬ多くの可能性を生み出した。 しかし、このような状況におけるAIの使用は、ユニークなリスクと課題のセットをもたらします。 これらのなかには、政府がそのような技術を使って自国民を抑圧する可能性があり、また、主にグローバル・ノースで設計・開発され、グローバル・サウスの社会的、文化的、政治的環境にAIを実装することから生じる倫理的な問題もある。 本稿では,AI4D(グローバル開発のためのAI)の新たなサブ分野における課題と課題と,グローバル・サウスにおけるAI技術の利用に伴う可能性とリスクについて考察する。 我々は、AIの使用にまつわる多くのリスクがあるが、その潜在的な利点は、グローバル・サウスにおいてそのような技術を設計、開発、実装、使用するための最も適切で効果的な方法に関する詳細な研究と調査を保証するのに十分である、と提案する。 我々は、幅広いICT4Dコミュニティに対して、AI4Dのあらゆる側面に関する詳細な研究と調査を継続するよう求め、結論付けた。

Artificial intelligence is becoming more widely available in all parts of the world. This has created many previously unforeseen possibilities for addressing the challenges outlined in the Sustainable Development Goals in the Global South. However, the use of AI in such contexts brings with it a unique set of risks and challenges. Among these are the potential for Governments to use such technologies to suppress their own people, and the ethical questions arising from implementing AI primarily designed and developed in the Global North into vastly different social, cultural, and political environments in the Global South. This paper examines the key issues and questions arising in the emerging sub-field of AI for global development (AI4D) and the potential and risks associated with using such technologies in the Global South. We propose that although there are many risks associated with the use of AI, the potential benefits are enough to warrant detailed research and investigation of the most appropriate and effective ways to design, develop, implement, and use such technologies in the Global South. We conclude by calling for the wider ICT4D community to continue to conduct detailed research and investigation of all aspects of AI4D.
翻訳日:2023-03-17 11:59:07 公開日:2021-08-23
# プライマリケアにおける患者情報システムにおける医療グラフ

Medical Graphs in Patient Information Systems in Primary Care ( http://arxiv.org/abs/2108.10092v1 )

ライセンス: Link先を確認
Thea Hvalen Thodesen, Uy Tran, Jens Kaasboll, Chipo Kanjo and Tiwonge Manda(参考訳) グラフは情報を視覚化するための非常に効果的なツールであり、医療分野を含む多くの分野で使われている。 ほとんどの発展途上国では、グラフは子供の成長を監視するために使われる。 したがって、これらの指標はしばしば線グラフを用いて表示され、who 2006子育て標準に基づく3つの指標(チューン、アンダーウェイト、ムダ)に基づいている。 電子カルテデータの情報可視化に関する文献のほとんどは、集約データ可視化ツールに焦点をあてている。 そこで, 本研究は, 個々の患者データに対するコンピュータ化されたグラフの要件を概観し, 時間とともに医療対策の展開を示すあらゆる種類の医用グラフを表示できるようにした。 この研究は、ユーザ中心のアプローチを用いて、ユーザ要求に適合するように、インタビューとWeb検索が使用されたデータ収集を解釈した。 この後、android向けの3つのフリーのオープンソースソフトウェアライブラリの1つを使ってプロトタイプの開発が進められた。 プロトタイプはその後、ユーザ要件の洗練に使用された。 健康労働者はグラフが完璧に発達したと解釈した。

Graphs are very effective tools in visualizing information and are used in many fields including the medical field. In most developing countries primary care, graphs are used to monitor child growth. These measures are therefore often displayed using line graphs, basing it on three indicators (stunting, underweight and wasting) based on the WHO 2006 Child Growth Standard. Most literature on information visualization of electronic health record data focuses on aggregate data visualization tools. This research therefore, was set out to provide such an overview of requirements for computerized graphs for individual patient data, implemented in a way that all kinds of medical graphs showing the development of medical measures over time can be displayed. This research was interpretive, using a user-centric approach for data collection where interviews and web search was used to ensure that the graphs developed are fit the user requirements. This followed prototype development using one of the three free, open source software libraries for Android that were evaluated. The prototype was then used to refine the user requirements. The health workers interpreted the graphs developed flawlessly.
翻訳日:2023-03-17 11:58:45 公開日:2021-08-23
# 性別データ 4人の女の子? バングラデシュにおけるポストコロニアルフェミニスト参加研究

Gender Data 4 Girls?: A Postcolonial Feminist Participatory Study in Bangladesh ( http://arxiv.org/abs/2108.10089v1 )

ライセンス: Link先を確認
Isobel Talks(参考訳) 大多数の世界の女性の生活に関する高品質な情報が男女不平等に対処する介入の効果を向上させるという論理に基づいて、主流の開発機関は近年、ジェンダーデータイニシアチブに多大な投資をしている。 しかし、開発方針や実践のためのジェンダーデータに対する批判的経験的および理論的調査は不足している。 ポストコロニアルフェミニスト理論は長い間、大多数の女性を対象とする国際開発プロジェクトを分析するための重要なレンズを提供してきた。 しかし、ポストコロニアルフェミニズムは、開発プロジェクトのデータを批判的に調査するために、未使用のままである。 本稿では,バングラデシュにおけるジェンダーデータ開発プロジェクトに関わる若い女性を対象に,参加行動研究プロジェクトの成果を提示することで,これらのギャップを解消する。 開発に対する植民地後のフェミニストの懸念を呼んだ「DataGirls」は、データが彼らのコミュニティから抽出され、外部のNGOの優先順位が彼ら自身よりもはるかに高いことを懸念していた。 しかし、「データガールズ」と子育てに関するコミュニティイベントを共同開発し、提供することで、西洋開発機関ではなく、大多数の女性によって男女のデータが制定されていることを保証することにより、植民地時代のフェミニストによる(データのための)開発に対する批判に、参加的アプローチが対処できることを実証する。

Premised on the logic that more, high-quality information on majority world women's lives will improve the effectiveness of interventions addressing gender inequality, mainstream development institutions have invested heavily in gender data initiatives of late. However, critical empirical and theoretical investigations into gender data for development policy and practice are lacking. Postcolonial feminist theory has long provided a critical lens through which to analyse international development projects that target women in the majority world. However, postcolonial feminism remains underutilised for critically investigating data for development projects. This paper addresses these gaps through presenting the findings from a participatory action research project with young women involved in a gender data for development project in Bangladesh. Echoing postcolonial feminist concerns with development, the 'DataGirls' had some concerns that data was being extracted from their communities, representing the priorities of external NGOs to a greater extent than their own. However, through collaborating to develop and deliver community events on child marriage with the 'DataGirls', this research demonstrates that participatory approaches can address some postcolonial feminist criticisms of (data for) development, by ensuring that gender data is enacted by and for majority world women rather than Western development institutions.
翻訳日:2023-03-17 11:58:31 公開日:2021-08-23
# 歳出、植民地化、デジタル技術。 アフリカの場所からの観察

Appropriation, coloniality, and digital technologies. Observations from within an African place ( http://arxiv.org/abs/2108.10087v1 )

ライセンス: Link先を確認
Gertjan van Stam(参考訳) 本稿では,アフリカにおけるデジタル技術の経験と理解について評価する。 デジタル技術の導入と存在(評価)についての哲学的考察を提供する。 デジタル技術は本質的に植民地化の力と結びついており、一般に現地のアフリカ人の知識方法とは無関係である。 輸入された技術は近代的で普遍的で、アフリカの文脈における整合性の重要性に敏感である。 感性は、個人からコミュニティへと焦点を移す非植民地的転換によって育むことができると論じられている。

This paper provides an assessment of experiences and understanding of digital technologies from within an African place. It provides philosophical reflections upon the introduction and existence - appropriation - of digital technologies. Digital technologies are inherently linked to a colonialising power and, in general, unaligned with local, African ways of knowing. Imported technologies are set in modern, universalised doing and unsensitive to the importance of aligned being in African contexts. Sensitivities, it is argued, can be fostered by a decolonial turn, where focus shifts from the individual to the community.
翻訳日:2023-03-17 11:58:07 公開日:2021-08-23
# デジタルプラットフォームへのアクセス:'モバイル'ネットワークのカバレッジレポートは頼りにできるか? ザンビアとジンバブエの農村からの観測

Access to Digital Platforms: Can 'Mobile' Network Coverage Reports be Relied Upon? Observations from Rural Zambia and Zimbabwe ( http://arxiv.org/abs/2108.10086v1 )

ライセンス: Link先を確認
Gertjan van Stam(参考訳) アフリカにおけるデジタルプラットフォームへのアクセスは、主に「モバイル」ネットワークを介して行われるため、ザムビアとジンバブエにおける「モバイル」アクセスに関する普遍化された報告とデジタルヘルスプラクティスと事例からの体験の不一致に対処する。 さらに、アフリカの文脈から、アクセスのような用語の意味と第4次産業革命について批判的な光を当てている。 また、アフリカにおけるデジタルプラットフォームへのアクセス方法の包括的理解を得るために、文脈研究と開発に投資する必要があると主張している。

As access to digital platforms in Africa is mostly through 'mobile' networks, this paper addresses the mismatch of universalised reports on 'mobile' access and the experiences from digital health practice and cases in Zambia and Zimbabwe. Further, the paper shines a critical light on the meaning of terms like access and the 4th industrial revolution from an African context. It argues for the need to invest in contextual research and development, also to gain a comprehensive understanding of how to access digital platforms in and from Africa.
翻訳日:2023-03-17 11:57:58 公開日:2021-08-23
# 医療調査のコンセプト化 : M-healthを事例として

Conceptualising Healthcare-Seeking as an Activity to Explain Technology Use: A Case of M-health ( http://arxiv.org/abs/2108.10082v1 )

ライセンス: Link先を確認
Karen Sowon and Wallace Chigona(参考訳) 本研究の目的は,ニュアンス的人間-技術間インタラクションを説明する手段としての情報システムの文脈に係わることである。 本稿では,テクノロジー活用に関するより豊かな説明を提供する活動として,医療検索の概念化を提案する。 これは、医療の探究を説明に必要最小限の文脈として概念化する活動理論に関する解釈論的研究である。 ATの中核的な側面のフレームワークは、ケニアの文脈から経験的なmHealthケースを分析し、ATが技術利用の研究にどのように適用できるかを説明するために使用される。 複雑な採用プロセスから、情報への信頼と情報への信頼を区別する継続性を決定するメカニズムや、潜在的技術対応戦略まで、複雑な技術相互作用の文脈で現れる様々な活用行動を説明することによって、技術利用を説明する。 この論文は、技術利用を研究するための新しい試みである。 したがって、医療を活動として概念化することで実現された設計と実装に関する洞察を提供しながら、より広範な利用方法を提供している。 このような知見は患者中心のシステムの設計に有用かもしれない。

The purpose of this paper is to engage with the Information Systems' contexts of use as a means to explain nuanced human-technology interaction. In this paper, we specifically propose the conceptualisation of healthcare-seeking as an activity to offer a richer explanation of technology utilisation. This is an interpretivist study drawing on Activity Theory to conceptualise healthcare-seeking as the minimum context needed to explicate use. A framework of the core aspects of AT is used to analyse one empirical mHealth case from a Kenyan context thus illustrating how AT can be applied to study technology use. The paper explicates technology use by explaining various utilisation behaviour that may emerge in a complex human-technology interaction context; ranging from a complex adoption process to mechanisms to determine continuance that differentiate trust in the intervention from trust in the information, and potential technology coping strategies. The paper is a novel attempt to operationalise AT to study technology use. It thus offers a broader explication of use while providing insights for design and implementation made possible by the conceptualisation of healthcare-seeking as an activity. Such insights may be useful in the design of patient-centred systems.
翻訳日:2023-03-17 11:57:47 公開日:2021-08-23
# 準正規モードを用いた共役損失共振器の古典モードと量子モード理論の接続

Connecting classical and quantum mode theories for coupled lossy cavity resonators using quasinormal modes ( http://arxiv.org/abs/2108.10194v1 )

ライセンス: Link先を確認
Juanjuan Ren, Sebastian Franke, and Stephen Hughes(参考訳) 本稿では、結合損失共振器を厳密に記述し、共振器間の距離の関数として量子結合パラメータを定量化する量子準正規化手法を提案する。 また、古典モードと量子準正規モードのパラメータと理論を直接接続し、共役開空共振器共振器に対する新しいユニークな洞察を提供する。 本稿では、結合マイクロディスク共振器の詳細な計算を行い、準正規モードの位相に依存する衝撃干渉効果を示す。 本研究は,これらの系で一般的に採用されているマスター方程式が一般に適用できないことを示し,量子化準正規モード結合パラメータを用いて捕獲される新しい物理を考察し,古典モードパラメータとの関連性を示す。 これらの新たな知見を用いて、共振器共振器の消散型Jaynes-Cummings型モデルの故障を修正するためのモデルも提示する。 さらに,準正規モード固有値の知識に基づく非対角モード展開と解析的結合モード理論を用いて,高品質因子に対するモード干渉効果を正確に捉えることにより,古典的および量子的ロスレスモードモデル(つまり正規モードを用いた)を改善する方法を示す。

We present a quantized quasinormal approach to rigorously describe coupled lossy resonators, and quantify the quantum coupling parameters as a function of distance between the resonators. We also make a direct connection between classical and quantum quasinormal modes parameters and theories, offering new and unique insights into coupled open cavity resonators. We present detailed calculations for coupled microdisk resonators and show striking interference effects that depend on the phase of the quasinormal modes, an effect that is also significant for high quality factor modes. Our results demonstrate that commonly adopted master equations for such systems are generally not applicable and we discuss the new physics that is captured using the quantized quasinormal mode coupling parameters and show how these relate to the classical mode parameters. Using these new insights, we also present several models to fix the failures of the dissipative Jaynes-Cummings type models for coupled cavity resonators. Additionally, we show how to improve the classical and quantum lossless mode models (i.e., using normal modes) by employing a non-diagonal mode expansion based on the knowledge of the quasinormal mode eigenfrequencies, and analytical coupled mode theory, to accurately capture the mode interference effects for high quality factors.
翻訳日:2023-03-17 11:48:48 公開日:2021-08-23
# 超伝導体の動的過程と熱力学の法則

Dynamic processes in superconductors and the laws of thermodynamics ( http://arxiv.org/abs/2110.00386v1 )

ライセンス: Link先を確認
A.V. Nikulov(参考訳) 磁場中の超伝導から常態への遷移は、ジュール加熱のため1933年以前には不可逆的な熱力学過程と見なされていた。 しかし、全ての物理学者はこの遷移が1933年以降可逆であると考えるようになったのは、マイスナー効果と熱力学の第二法則との明らかな矛盾のためである。 通常の状態でのジュール熱への表面遮蔽電流の運動エネルギーの散逸は、この電流が超伝導状態にどのように現れるかに依存しないため、この意見の急激な変化は論理に矛盾した。 平衡熱力学の枠組みで作られた従来の超伝導理論の矛盾は、ジョルジュ・ヒルシュが読者の注意を引き寄せるジュール加熱が、この歴史の結果として生じる。 熱力学の第2法則と矛盾することを避けるため、物理学者は前世紀の30世紀に、ジュール熱の発生なしに表面スクリーニング電流が減衰していると仮定した。 この仮定は、論理学と従来の超伝導理論だけでなく、実験結果とも矛盾する。

The transition from the superconducting to the normal state in a magnetic field was considered as a irreversible thermodynamic process before 1933 because of Joule heating. But all physicists became to consider this transition as reversible after 1933 because of the obvious contradiction of the Meissner effect with the second law of thermodynamics if this transition is considered as a irreversible process. This radical change of the opinion contradicted logic since the dissipation of the kinetic energy of the surface screening current into Joule heat in the normal state cannot depend on how this current appeared in the superconducting state. The inconsistency of the conventional theory of superconductivity, created in the framework of the equilibrium thermodynamics, with Joule heating, on which Jorge Hirsch draws reader's attention, is a consequence of this history. In order to avoid contradiction with the second law of thermodynamics, physicists postulated in the thirties of the last century that the surface screening current is damped without the generation of Joule heat. This postulate contradicts not only logic and the conventional theory of superconductivity but also experimental results.
翻訳日:2023-03-17 11:41:35 公開日:2021-08-23
# 量子統計によるトポロジカル遷移の電気回路エミュレーション

Electric circuit emulation of topological transitions driven by quantum statistics ( http://arxiv.org/abs/2108.10435v1 )

ライセンス: Link先を確認
Nikita A. Olekhno, Alina D. Rozenblit, Alexey A. Dmitriev, Daniel A. Bobylev, Maxim A. Gorlach(参考訳) トポロジカルな位相は、様々な自然現象の波動の波動の局所化や伝播など、多くの顕著な現象を示す。 特に興味深いのは、外部パラメータによって制御される異なる位相位相間の遷移である。 対照的に、この手紙では、粒子の量子統計によって駆動される2粒子相互作用系の位相遷移を予測する。 おもちゃモデルとして,ボソンとフェルミオンの間の分数量子統計に従う2つのアノニカル励起を持つ拡張1次元ハバードモデルについて検討した。 示すように、2粒子相互作用とトンネル過程の相互作用は、粒子の量子統計によって一次元系の一方または他方の端における存在と局在が支配される任意の対の位相的エッジ状態を可能にする。 提案方式の直接実現は困難であるため, 共振回路を用いた任意のペアの固有モードと固有エネルギーをエミュレートする厳密な手法を開発した。

Topological phases exhibit a plethora of striking phenomena including disorder-robust localization and propagation of waves of various nature. Of special interest are the transitions between the different topological phases which are typically controlled by the external parameters. In contrast, in this Letter, we predict the topological transition in the two-particle interacting system driven by the particles' quantum statistics. As a toy model, we investigate an extended one-dimensional Hubbard model with two anyonic excitations obeying fractional quantum statistics in-between bosons and fermions. As we demonstrate, the interplay of two-particle interactions and tunneling processes enables topological edge states of anyon pairs whose existence and localization at one or another edge of the one-dimensional system is governed by the quantum statistics of particles. Since a direct realization of the proposed system is challenging, we develop a rigorous method to emulate the eigenmodes and eigenenergies of anyon pairs with resonant electric circuits.
翻訳日:2023-03-17 11:41:20 公開日:2021-08-23
# 量子コンピュータにおけるミラーベンチマークの理論と実演

Theory of mirror benchmarking and demonstration on a quantum computer ( http://arxiv.org/abs/2108.10431v1 )

ライセンス: Link先を確認
Karl Mayer, Alex Hall, Thomas Gatterman, Si Khadir Halit, Kenny Lee, Justin Bohnet, Dan Gresh, Aaron Hankin, Kevin Gilmore and John Gaebler(参考訳) 量子コンピュータのシステムレベルの性能を測定するため、ミラーベンチマークと呼ばれる新しいプロトコルが最近提案された。 これらのプロトコルはランダムなゲート列を持つ回路を含み、続いてミラーリング、すなわち各ゲートを逆転させる。 トワイリング群が2つの設計を成すと、一様雑音仮定の下で、ミラーベンチマークがシーケンス長による生存確率の指数関数的減衰をもたらすという簡単な証明を与える。 崩壊速度は、誤差チャネルの二次関数である量によって決定され、ある種のエラーに対してはユニタリ性に等しい。 この結果は、雑音のコヒーレンスを推定する新しい方法をもたらす。 我々はHoneywell System Model H1上で動作するミラーベンチマーク実験のデータを示す。 このデータは、量子ビット数と回路深さの関数としてランダム回路の成功確率を示す一連の性能曲線を構成する。

A new class of protocols called mirror benchmarking was recently proposed to measure the system-level performance of quantum computers. These protocols involve circuits with random sequences of gates followed by mirroring, that is, inverting each gate in the sequence. We give a simple proof that mirror benchmarking leads to an exponential decay of the survival probability with sequence length, under the uniform noise assumption, provided the twirling group forms a 2-design. The decay rate is determined by a quantity that is a quadratic function of the error channel, and for certain types of errors is equal to the unitarity. This result yields a new method for estimating the coherence of noise. We present data from mirror benchmarking experiments run on the Honeywell System Model H1. This data constitutes a set of performance curves, indicating the success probability for random circuits as a function of qubit number and circuit depth.
翻訳日:2023-03-17 11:41:08 公開日:2021-08-23
# 原子ベル様状態の超高速合成と強電界イオン化

Ultrafast preparation and strong-field ionization of an atomic Bell-like state ( http://arxiv.org/abs/2108.10426v1 )

ライセンス: Link先を確認
S. Eckart, D. Trabert, J. Rist, A. Geyer, L. Ph. H. Schmidt, K. Fehre, M. Kunitski(参考訳) 分子は電子間のかなりの絡み合いを持つ多くの身体系である。 二原子分子の分子結合を破り、基底状態にある2つの原子をまだ絡み合ってベルのような状態にする方法はあるだろうか? フェムト秒時間スケールで単一酸素分子からそのような絡み合った原子状態の合成を可能にするスキームを提案する。 2つの中性酸素原子は原子価電子の磁気量子数に絡み合っている。 時間遅延プローブのステップでは、磁気量子数感度機構である非断熱トンネルイオン化を用いる。 次にベル状状態の単イオン化確率と二重イオン化確率を比較して相関関係を調べた。 実験結果は絡み合った状態の予測と一致する。

Molecules are many body systems with a substantial amount of entanglement between their electrons. Is there a way to break the molecular bond of a diatomic molecule and obtain two atoms in their ground state which are still entangled and form a Bell-like state? We present a scheme that allows for the preparation of such entangled atomic states from single oxygen molecules on femtosecond time scales. The two neutral oxygen atoms are entangled in the magnetic quantum number of their valence electrons. In a time-delayed probe step, we employ non-adiabatic tunnel ionization, which is a magnetic quantum number-sensitive mechanism. We then investigate correlations by comparing single and double ionization probabilities of the Bell-like state. The experimental results agree with the predictions for an entangled state.
翻訳日:2023-03-17 11:40:54 公開日:2021-08-23
# 対称量子状態のスペクトル特性と対称絡み合い証人

Spectral Properties of Symmetric Quantum States and Symmetric Entanglement Witnesses ( http://arxiv.org/abs/2108.10405v1 )

ライセンス: Link先を確認
Gabriel Champagne, Nathaniel Johnston, Mitchell MacDonald, Logan Pipes(参考訳) 対称(ボソニック)量子系における絡み合いの理論に興味を持つ作用素のスペクトルに関する2つの問題を紹介し、探求する。 まず、対称交叉証人に対する逆固有値問題、すなわち、それらの可能なスペクトルについて検討する。次に、対称空間に作用する任意のユニタリにより共役した後、分離可能な対称量子状態が分離可能であるかという問題を考察する。 これらの質問はどちらも非対称な環境で徹底的に研究され、我々は非対称な解と対比する。

We introduce and explore two questions concerning spectra of operators that are of interest in the theory of entanglement in symmetric (i.e., bosonic) quantum systems. First, we investigate the inverse eigenvalue problem for symmetric entanglement witnesses -- that is, we investigate what their possible spectra are. Second, we investigate the problem of characterizing which separable symmetric quantum states remain separable after conjugation by an arbitrary unitary acting on symmetric space -- that is, which states are separable in every orthonormal symmetric basis. Both of these questions have been investigated thoroughly in the non-symmetric setting, and we contrast the answers that we find with their non-symmetric counterparts.
翻訳日:2023-03-17 11:40:41 公開日:2021-08-23
# 厳密かつ非厳密な一次元空間における2つの区別可能なフェルミオンの絡み合いとフェルミオン化

Entanglement and fermionization of two distinguishable fermions in a strict and non strict one-dimensional space ( http://arxiv.org/abs/2108.10389v1 )

ライセンス: Link先を確認
Eloisa Cuestas (1 and 2), Mart\'in D. Jim\'enez (1 and 2) and Ana P. Majtey (1 and 2) ((1) Universidad Nacional de C\'ordoba, Argentina, (2) Instituto de F\'isica Enrique Gaviola, C\'ordoba, Argentina)(参考訳) ゼロレンジポテンシャルを介して相互作用する2つの区別可能な調和的に閉じ込められたフェルミオンのフェルミネーションレジームとエンタングルメント相関に対処する。 2つの異なる1次元空間のタイプと関連付ける基底状態の2つの代替表現を示す。 これらの空間は粒子間の異なる相関を誘導するので、適切な絡み合いの定義が必要となる。 基底状態の絡み合いは、これらの一次元空間の特徴によって強く条件付けられている。 また, 強魅力的な環境下では, 相対接地状態は非常に局所的な状態であり, 最大絡み合いに繋がることがわかった。 我々の分析は、強い反発的な状態において、基底状態はスレーター状態の重ね合わせからスレーター状態の有限重ね合わせへと滑らかに変化することを示した。 その結果, 相互作用状態から非相互作用状態に到達することで, 絡み合った状態が得られることがわかった。 絡み合った状態は、相互作用状態から強い反発状態へと状態が持ち込まれたときにも、閉じ込め誘起共鳴の近傍の散乱長を変化させて得られる。 最後に、相互作用のない第1の励起状態と第3の励起フェルミオン化状態が最大に絡み合っていることを示す。

The fermionization regime and entanglement correlations of two distinguishable harmonically confined fermions interacting via a zero-range potential is addressed. We present two alternative representations of the ground state that we associate with two different types of one-dimensional spaces. These spaces, in turn, induce different correlations between particles and thus require a suitable definition of entanglement. We find that the entanglement of the ground state is strongly conditioned by those one-dimensional space features. We also find that in the strongly attractive regime the relative ground state is a highly localized state leading to maximum entanglement. Our analysis shows that in the strongly repulsive regime the ground state changes smoothly from a superposition of Slater-like states to a finite superposition of Slaters, this lack of accessible states yields to Pauli blocking as a strong signature of fermionization. Our results indicate that entangled states could be obtained in current experiments by reaching the non-interacting regime from the interacting regime. Entangled states could also be obtained when a state is brought from the interacting regime into the strongly repulsive regime by changing the scattering length near the confinement-induced resonance. Finally, we show that the first excited state obtained in the absence of interactions and the third excited fermionized state are maximally entangled.
翻訳日:2023-03-17 11:40:28 公開日:2021-08-23
# 超伝導量子ビット中に析出するnb水素化物の発見

Discovery of Nb hydride precipitates in superconducting qubits ( http://arxiv.org/abs/2108.10385v1 )

ライセンス: Link先を確認
Jaeyel Lee, Zuhawn Sung, Akshay A. Murthy, Matt Reagor, Anna Grassellino, and Alexander Romanenko(参考訳) リゲッティ・コンピューティングで作製された超伝導量子ビットのシリコン基板上におけるニオブ膜中のニオブ水和物生成の最初の証拠を報告する。 室温および極低温原子スケール高分解能走査透過電子顕微鏡(hr-temおよびstem)、原子間力顕微鏡(afm)、tof-sims(time-of-flight secondary ion mass spectroscopy)などの補完技術を組み合わせて、リゲッティチップ領域に直接沈殿するニオブ水素化物の存在を明らかにする。 電子回折および高分解能透過電子顕微鏡(hr-tem)による超伝導ニオブ膜領域の室温および極低温温度(約106k)の解析を行い、結晶方位と原子構造が異なる3種類のnbハイドリドドメインの形成を明らかにした。 また、Nb粒内の小さな(〜5nm)不規則な形状ドメインから、大きな(~10-100nm)Nb粒まで、大きさや形態にも変化がある。 ニオブ水和物は非超伝導であり, 冷却温度の異なる場合, サイズや位置が変化しやすいことから, 超伝導量子ビットのデコヒーレンスを新たに未知にし, 準粒子と2レベル系(TLS)の損失の両面に寄与し, 冷却時のクビット性能の変化を説明できる可能性が示唆された。 超伝導量子ビット用Nb水素化物の生成を緩和する経路についても論じる。

We report the first evidence of the formation of niobium hydrides within niobium films on silicon substrates in superconducting qubits fabricated at Rigetti Computing. We combine complementary techniques including room and cryogenic temperature atomic scale high-resolution and scanning transmission electron microscopy (HR-TEM and STEM), atomic force microscopy (AFM), and the time-of-flight secondary ion mass spectroscopy (TOF-SIMS) to reveal the existence of the niobium hydride precipitates directly in the Rigetti chip areas. Electron diffraction and high-resolution transmission electron microscopy (HR-TEM) analyses are performed at room and cryogenic temperatures (~106 K) on superconducting qubit niobium film areas, and reveal the formation of three types of Nb hydride domains with different crystalline orientations and atomic structures. There is also variation in their size and morphology from small (~5 nm) irregular shape domains within the Nb grains to large (~10-100 nm) Nb grains fully converted to niobium hydride. As niobium hydrides are non-superconducting and can easily change in size and location upon different cooldowns to cryogenic temperatures, our findings highlight a new previously unknown source of decoherence in superconducting qubits, contributing to both quasiparticle and two-level system (TLS) losses, and offering a potential explanation for qubit performance changes upon cooldowns. A pathway to mitigate the formation of the Nb hydrides for superconducting qubit applications is also discussed.
翻訳日:2023-03-17 11:40:01 公開日:2021-08-23
# 逐次量子アンシャープ計測アタックを用いた量子鍵分散ネットワークの盗聴

Eavesdropping a Quantum Key Distribution network using sequential quantum unsharp measurement attacks ( http://arxiv.org/abs/2108.10369v1 )

ライセンス: Link先を確認
Yash Wath, Hariprasad M, Freya Shah and Shashank Gupta(参考訳) 本稿では,eavesdropperによる局所的な量子アンシャープ計測による量子鍵分布ネットワーク上の盗聴の可能性を検討する。 特に、AliceとBobの間で共有される純粋な2量子状態を考え、一方のデバイス非依存の量子鍵分布ネットワークを形成する量子ステアブルな相関を共有する。 共有状態の1つの量子ビットはアリスで、もう1ビットはボブの場所に行く際、複数のシーケンシャルな盗聴者によって傍受され、それによってボブの量子ステアブル相関を維持しながら何らかの正の鍵レートを得る。 このようにして、Bob氏は、減少しても正の秘密鍵レートを持つだろう。 しかし、この減少はそれほど鋭くなく、測定装置のデコヒーレンスや不完全性のために認識することができる。 最後に,ある特定のシナリオにおいて,非有界な盗聴者が秘密情報を得ることができることを示す。

We investigate the possibility of eavesdropping on a quantum key distribution network by local sequential quantum unsharp measurement attacks by the eavesdropper. In particular, we consider a pure two-qubit state shared between two parties Alice and Bob, sharing quantum steerable correlations that form the one-sided device-independent quantum key distribution network. One qubit of the shared state is with Alice and the other one while going to the Bob's place is intercepted by multiple sequential eavesdroppers who perform quantum unsharp measurement attacks thus gaining some positive key rate while preserving the quantum steerable correlations for the Bob. In this way, Bob will also have a positive secret key rate although reduced. However, this reduction is not that sharp and can be perceived due to decoherence and imperfection of the measurement devices. At the end, we show that an unbounded number of eavesdroppers can also get secret information in some specific scenario.
翻訳日:2023-03-17 11:39:32 公開日:2021-08-23
# 6g通信の再定義:信号処理は深い展開を伴うディープラーニングを満たす

Redefining Wireless Communication for 6G: Signal Processing Meets Deep Learning with Deep Unfolding ( http://arxiv.org/abs/2004.10715v5 )

ライセンス: Link先を確認
Anu Jagannath, Jithin Jagannath, and Tommaso Melodia(参考訳) 2019年は、データレートが4Gより大幅に向上する5G標準のロールアウトを目の当たりにした。 5gはまだ初期段階だが、研究コミュニティでは5gを超える通信技術へのシフトが増えている。 近年、無線通信を強化し、望まれるインテリジェンスでそれらを強化する機械学習アプローチの出現は、6Gの無線通信を再定義する大きな可能性を秘めている。 進化する通信システムは、物理層における基盤となる信号処理によってレイテンシ、スループット、信頼性の点でボトルネックとなる。 本稿では, 6gネットワークの物理層要件を満たすために, 深い展開技術を活用することで, 反復的信号処理アルゴリズムの再設計を動機付ける。 この目的のために、私たちはまず、想定される6G通信アーキテクチャによって引き起こされるサービス要件と重要な課題を提示します。 6Gネットワークの文脈において,従来のアルゴリズム原理とデータハングリー深層学習(DL)アプローチの欠点を概説する。 具体的には、ドメイン知識とDLの相互作用をスケッチすることで、深い展開信号処理を行う。 本稿では,次世代のセルネットワークが課す要件の文脈において,再検討した深層展開アプローチを明示的に位置づける。 最後に,今後の6Gネットワークにおいて,ハードウェア効率の高いエッジインテリジェンスを実現するためのオープンな研究課題について述べる。

The year 2019 witnessed the rollout of the 5G standard, which promises to offer significant data rate improvement over 4G. While 5G is still in its infancy, there has been an increased shift in the research community for communication technologies beyond 5G. The recent emergence of machine learning approaches for enhancing wireless communications and empowering them with much-desired intelligence holds immense potential for redefining wireless communication for 6G. The evolving communication systems will be bottlenecked in terms of latency, throughput, and reliability by the underlying signal processing at the physical layer. In this position paper, we motivate the need to redesign iterative signal processing algorithms by leveraging deep unfolding techniques to fulfill the physical layer requirements for 6G networks. To this end, we begin by presenting the service requirements and the key challenges posed by the envisioned 6G communication architecture. We outline the deficiencies of the traditional algorithmic principles and data-hungry deep learning (DL) approaches in the context of 6G networks. Specifically, deep unfolded signal processing is presented by sketching the interplay between domain knowledge and DL. The deep unfolded approaches reviewed in this article are positioned explicitly in the context of the requirements imposed by the next generation of cellular networks. Finally, this article motivates open research challenges to truly realize hardware-efficient edge intelligence for future 6G networks.
翻訳日:2022-12-10 18:50:31 公開日:2021-08-23
# 連続行動を伴う確率政策の反事実学習--モデルからオフライン評価へ

Counterfactual Learning of Stochastic Policies with Continuous Actions: from Models to Offline Evaluation ( http://arxiv.org/abs/2004.11722v5 )

ライセンス: Link先を確認
Houssam Zenati, Alberto Bietti, Matthieu Martin, Eustache Diemert, Julien Mairal(参考訳) ログデータからの反事実推論は、web広告やヘルスケアといった多くのアプリケーションでますます重要になっている。 本稿では,現実的リスク最小化(CRM)の観点から,継続的行動による確率的政策学習の問題に対処する。 CRMフレームワークは個別のアクションに対して魅力的でよく研究されていますが、継続的アクションのケースでは、モデル化、最適化、および実際のデータによるオフラインモデル選択に関する新たな課題が提起されます。 本稿はCRM推定パイプラインのこれらの3つの側面に貢献する。 まず,先行する離散化アプローチの欠点を克服した,コンテキストとアクションの結合カーネル埋め込みに基づくモデリング戦略を提案する。 第二に,反事実学習の最適化が重要であることを実証的に示し,近位点アルゴリズムと微分可能推定器の利点を示す。 最後に,実世界のログシステムにおけるオフラインポリシの評価プロトコルを提案する。これはテストデータ上でポリシをリプレイできないため課題であり,複数の合成的かつ現実的な評価設定とともに,新たな大規模データセットをリリースする。

Counterfactual reasoning from logged data has become increasingly important for many applications such as web advertising or healthcare. In this paper, we address the problem of learning stochastic policies with continuous actions from the viewpoint of counterfactual risk minimization (CRM). While the CRM framework is appealing and well studied for discrete actions, the continuous action case raises new challenges about modelization, optimization, and~offline model selection with real data which turns out to be particularly challenging. Our paper contributes to these three aspects of the CRM estimation pipeline. First, we introduce a modelling strategy based on a joint kernel embedding of contexts and actions, which overcomes the shortcomings of previous discretization approaches. Second, we empirically show that the optimization aspect of counterfactual learning is important, and we demonstrate the benefits of proximal point algorithms and differentiable estimators. Finally, we propose an evaluation protocol for offline policies in real-world logged systems, which is challenging since policies cannot be replayed on test data, and we release a new large-scale dataset along with multiple synthetic, yet realistic, evaluation setups.
翻訳日:2022-12-10 17:29:52 公開日:2021-08-23
# MFNets: 情報ソースの有向ネットワークとしての多要素代理データの効率的なオール・アット・オンス学習

MFNets: Data efficient all-at-once learning of multifidelity surrogates as directed networks of information sources ( http://arxiv.org/abs/2008.02672v2 )

ライセンス: Link先を確認
Alex Gorodetsky and John D. Jakeman and Gianluca Geraci(参考訳) 本稿では,コストと精度の異なる情報ソースのアンサンブルからサロゲートを構築する手法を提案する。 多面体サロゲートは、情報ソース間の接続を有向非巡回グラフとして符号化し、非線形最小二乗目標の勾配に基づく最小化により訓練する。 最先端技術の大部分は情報ソース間の階層的接続を前提としていますが、このアプローチは厳密な階層構造を認めない柔軟に構造化された情報ソースで動作するのです。 定式化には2つの利点がある: (1) アプリケーションに合わせて調整可能なパーシモーラスなマルチファイダリティネットワークによるデータ効率の向上、(2) トレーニングデータに対する制約 -- ノイズの多い非ネストされた情報ソースの評価を組み合わせることができる。 合成から物理に基づく計算力学シミュレーションに至るまでの数値的な例は、我々のアプローチにおける誤差は、特に低データ状態において、単一忠実性や階層的多忠実性アプローチよりも小さくなることを示している。

We present an approach for constructing a surrogate from ensembles of information sources of varying cost and accuracy. The multifidelity surrogate encodes connections between information sources as a directed acyclic graph, and is trained via gradient-based minimization of a nonlinear least squares objective. While the vast majority of state-of-the-art assumes hierarchical connections between information sources, our approach works with flexibly structured information sources that may not admit a strict hierarchy. The formulation has two advantages: (1) increased data efficiency due to parsimonious multifidelity networks that can be tailored to the application; and (2) no constraints on the training data -- we can combine noisy, non-nested evaluations of the information sources. Numerical examples ranging from synthetic to physics-based computational mechanics simulations indicate the error in our approach can be orders-of-magnitude smaller, particularly in the low-data regime, than single-fidelity and hierarchical multifidelity approaches.
翻訳日:2022-11-03 05:57:22 公開日:2021-08-23
# balanced dynamic multiple travel salesmen:アルゴリズムと連続近似

Balanced dynamic multiple travelling salesmen: algorithms and continuous approximations ( http://arxiv.org/abs/2008.12063v2 )

ライセンス: Link先を確認
Wolfgang Garn(参考訳) 動的ルーティングは、リアルタイムルーティングなど、顧客が事前に知らない場合に発生する。 バランスド・ダイナミック・マルチトラベル・セールスマン問題(bd-mtsp)を解決する2つのヒューリスティックが提案されている。 これらのヒューリスティックは、動的(オンライン、リアルタイム)ルーティングのための運用(戦術)ツールを表している。 ダイナミクスのいくつかのタイプとスコープが提案されている。 特にシーケンシャル・ダイナミクスに注意が向けられる。 バランスド動的最接近車両ヒューリスティック (bd-cvh) とバランスド動的割り当て車両ヒューリスティック (bd-avh) は、このタイプのダイナミクスに適用される。 アルゴリズムは幅広いテストインスタンスに適用される。 倉庫におけるタクシーサービスとパレット転送は、現実のシナリオでBD-mTSPアルゴリズムを使用する方法を示している。 BD-mTSPの連続近似モデルは導出され、動的ルーティングのための戦略的ツールとして機能する。 モデルは、アルゴリズムを実行する必要なく、車、顧客、動的スコープを使用してルート長を表現する。 回帰モデルを得るために機械学習アプローチが用いられた。 これらのモデルの2つの平均絶対パーセンテージ誤差は3%以下である。

Dynamic routing occurs when customers are not known in advance, e.g. for real-time routing. Two heuristics are proposed that solve the balanced dynamic multiple travelling salesmen problem (BD-mTSP). These heuristics represent operational (tactical) tools for dynamic (online, real-time) routing. Several types and scopes of dynamics are proposed. Particular attention is given to sequential dynamics. The balanced dynamic closest vehicle heuristic (BD-CVH) and the balanced dynamic assignment vehicle heuristic (BD-AVH) are applied to this type of dynamics. The algorithms are applied to a wide range of test instances. Taxi services and palette transfers in warehouses demonstrate how to use the BD-mTSP algorithms in real-world scenarios. Continuous approximation models for the BD-mTSP's are derived and serve as strategic tools for dynamic routing. The models express route lengths using vehicles, customers, and dynamic scopes without the need of running an algorithm. A machine learning approach was used to obtain regression models. The mean absolute percentage error of two of these models is below 3%.
翻訳日:2022-10-24 08:28:20 公開日:2021-08-23
# 読解用マルチスパンからの解答

Composing Answer from Multi-spans for Reading Comprehension ( http://arxiv.org/abs/2009.06141v2 )

ライセンス: Link先を確認
Zhuosheng Zhang, Yiqing Zhang, Hai Zhao, Xi Zhou, Xiang Zhou(参考訳) 本稿では,与えられた文から解をただ1つのスパンとして抽出できない非抽出機械読解(mrc)タスクに対して,解を生成する新しい手法を提案する。 このようなMRCに対してポインタネットワークスタイルの抽出デコーダを使用すると、人間のアノテータによって接地真実の答えが与えられる場合や、通路の一部から高度に言い換えられた場合、満足のいく性能が得られる。 一方、生成デコーダを使用すると、長い文に遭遇した場合、結果の答えをよく形づくられた構文と意味論で保証することができない。 そこで,本論文では,両陣営の明らかな欠点を解消するために,抽出されたマルチスパンからの回答作成手法を提案する。 すなわち、返された答えは不連続な多重スパンで構成されるが、与えられた節の連続するスパンはもはや1つではない。 提案手法は単純だが有効であり,MS MARCOの実証実験により,提案手法は長文を正確に生成する性能が向上し,競合する2つの典型的な1-spanとSeq2Seqのベースラインデコーダよりも大幅に優れていた。

This paper presents a novel method to generate answers for non-extraction machine reading comprehension (MRC) tasks whose answers cannot be simply extracted as one span from the given passages. Using a pointer network-style extractive decoder for such type of MRC may result in unsatisfactory performance when the ground-truth answers are given by human annotators or highly re-paraphrased from parts of the passages. On the other hand, using generative decoder cannot well guarantee the resulted answers with well-formed syntax and semantics when encountering long sentences. Therefore, to alleviate the obvious drawbacks of both sides, we propose an answer making-up method from extracted multi-spans that are learned by our model as highly confident $n$-gram candidates in the given passage. That is, the returned answers are composed of discontinuous multi-spans but not just one consecutive span in the given passages anymore. The proposed method is simple but effective: empirical experiments on MS MARCO show that the proposed method has a better performance on accurately generating long answers, and substantially outperforms two competitive typical one-span and Seq2Seq baseline decoders.
翻訳日:2022-10-18 11:21:57 公開日:2021-08-23
# 単眼深度推定のための適応的信頼閾値設定

Adaptive confidence thresholding for monocular depth estimation ( http://arxiv.org/abs/2009.12840v3 )

ライセンス: Link先を確認
Hyesong Choi, Hunsang Lee, Sunkyung Kim, Sunok Kim, Seungryong Kim, Kwanghoon Sohn, Dongbo Min(参考訳) 自己教師付き単眼深度推定は基底真理ラベルの欠如に対する魅力的な解決策となっているが、その再構成損失はしばしばオブジェクト境界を越えた過剰な結果をもたらし、明示的に咬合を処理できない。 本稿では,自己教師型ステレオマッチング法から生成されたステレオ画像の擬似基底真理深度マップを利用する新しい手法を提案する。 擬似基底深度マップの信頼度マップを推定し、不正確な擬似深度マップによる性能劣化を軽減する。 また、信頼マップ自体の予測誤差に対処するために、疑似深度マップ上で動的に条件付けられた閾値を学習するしきい値ネットワークを利用する。 しきい値付き信頼度マップでフィルタされた擬似深度ラベルを用いて、単眼深度ネットワークを監督する。 さらに,画素適応畳み込み(PAC)層による不確実性マップの助けを借りて,単眼深度マップを改良する確率的フレームワークを提案する。 実験結果は,最先端の単眼深度推定法よりも優れた性能を示す。 最後に,提案したしきい値学習は,既存の信頼度推定手法の性能向上にも有効であることを示す。

Self-supervised monocular depth estimation has become an appealing solution to the lack of ground truth labels, but its reconstruction loss often produces over-smoothed results across object boundaries and is incapable of handling occlusion explicitly. In this paper, we propose a new approach to leverage pseudo ground truth depth maps of stereo images generated from self-supervised stereo matching methods. The confidence map of the pseudo ground truth depth map is estimated to mitigate performance degeneration by inaccurate pseudo depth maps. To cope with the prediction error of the confidence map itself, we also leverage the threshold network that learns the threshold dynamically conditioned on the pseudo depth maps. The pseudo depth labels filtered out by the thresholded confidence map are used to supervise the monocular depth network. Furthermore, we propose the probabilistic framework that refines the monocular depth map with the help of its uncertainty map through the pixel-adaptive convolution (PAC) layer. Experimental results demonstrate superior performance to state-of-the-art monocular depth estimation methods. Lastly, we exhibit that the proposed threshold learning can also be used to improve the performance of existing confidence estimation approaches.
翻訳日:2022-10-14 03:45:12 公開日:2021-08-23
# プロ・アマチュア選手の心理生理学的データの収集と検証 : マルチモーダルeスポーツデータセット

Collection and Validation of Psychophysiological Data from Professional and Amateur Players: a Multimodal eSports Dataset ( http://arxiv.org/abs/2011.00958v2 )

ライセンス: Link先を確認
Anton Smerdov, Bo Zhou, Paul Lukowicz, Andrey Somov(参考訳) eスポーツにおける適切なトレーニングと分析には、正確な収集と注釈付きデータが必要である。 多くのeSports研究はゲーム内データ分析にのみ焦点をあてており、eSportsのアスリートの心理生理学的データに関する以前の研究は乏しい。 本稿では,リーグ・オブ・レジェンズ(League of Legends)の22試合のプロチームとアマチュアチームから収集した40時間以上の記録データについて述べる。 記録されたデータには、様々なセンサーから得られる運動、パルス、サッケード、自己報告アフターマッチサーベイ、ゲーム内データなどプレイヤーの生理活動が含まれている。 データセットの重要な特徴は、5人のプレーヤーによる同時データ収集であり、チームレベルでのセンサーデータの分析を容易にする。 データセットの収集時に、検証を実行しました。 特に,プロ選手のストレスと集中度は相関が低く,より独立したプレースタイルであることが示される。 また,チームコミュニケーションの欠如は,アマチュア選手ほどプロ選手に影響を与えないことを示した。 データセットの他のユースケースを検討するため,我々は3分間のセンサデータのセッションを用いて,スキル予測とプレーヤの再識別のための古典的機械学習アルゴリズムを訓練した。 最高のモデルは、それぞれスキル予測のための検証セットとプレイヤーのリイド問題で0.856と0.521(0.10)の精度を達成した。 データセットはhttps://github.com/smerdov/eSports Sensors Datasetで公開されている。

Proper training and analytics in eSports require accurately collected and annotated data. Most eSports research focuses exclusively on in-game data analysis, and there is a lack of prior work involving eSports athletes' psychophysiological data. In this paper, we present a dataset collected from professional and amateur teams in 22 matches in League of Legends video game with more than 40 hours of recordings. Recorded data include the players' physiological activity, e.g. movements, pulse, saccades, obtained from various sensors, self-reported aftermatch survey, and in-game data. An important feature of the dataset is simultaneous data collection from five players, which facilitates the analysis of sensor data on a team level. Upon the collection of dataset we carried out its validation. In particular, we demonstrate that stress and concentration levels for professional players are less correlated, meaning more independent playstyle. Also, we show that the absence of team communication does not affect the professional players as much as amateur ones. To investigate other possible use cases of the dataset, we have trained classical machine learning algorithms for skill prediction and player re-identification using 3-minute sessions of sensor data. Best models achieved 0.856 and 0.521 (0.10 for a chance level) accuracy scores on a validation set for skill prediction and player re-id problems, respectively. The dataset is available at https://github.com/smerdov/eSports Sensors Dataset.
翻訳日:2022-09-30 11:30:46 公開日:2021-08-23
# 意識に関する理論的コンピュータ科学の展望

A Theoretical Computer Science Perspective on Consciousness ( http://arxiv.org/abs/2011.09850v4 )

ライセンス: Link先を確認
Manuel Blum and Lenore Blum(参考訳) かつて哲学者や神学者の観念であった意識理解の探求は、現在では多くの分野の科学者によって活発に追求されている。 本稿では,理論計算機科学の観点から意識を研究する。 認知神経科学者のバーナード・バールズ(Bernard Baars)が提唱したグローバルワークスペース理論(GWT)を定式化し、彼、スタニスラス・デヘーネらによってさらに発展させた。 私たちの主な貢献は、CTM(Conscious Turing Machine)の正確な公式定義にあります。 我々はCTMを、アラン・チューリングのコンピュータの単純かつ強力な定義であるチューリングマシン(TM)の精神で定義する。 我々は、脳の複雑なモデルや認知のモデルを探しているのではなく、(明らかに複雑な)意識の単純なモデルを求めている。 CTMを正式に定義した後、CTMで意識を正式に定義する。 次に、CTMが意識を持っている理由を提案する。 定義と説明の合理性は、一般に受け入れられている人間の意識の直感的な概念、モデルが簡単に自然に説明できる関連する概念の広さ、科学的証拠との一致の程度によって判断できる。

The quest to understand consciousness, once the purview of philosophers and theologians, is now actively pursued by scientists of many stripes. This paper studies consciousness from the perspective of theoretical computer science. It formalizes the Global Workspace Theory (GWT) originated by cognitive neuroscientist Bernard Baars and further developed by him, Stanislas Dehaene, and others. Our major contribution lies in the precise formal definition of a Conscious Turing Machine (CTM), also called a Conscious AI. We define the CTM in the spirit of Alan Turing's simple yet powerful definition of a computer, the Turing Machine (TM). We are not looking for a complex model of the brain nor of cognition but for a simple model of (the admittedly complex concept of) consciousness. After formally defining CTM, we give a formal definition of consciousness in CTM. We then suggest why the CTM has the feeling of consciousness. The reasonableness of the definitions and explanations can be judged by how well they agree with commonly accepted intuitive concepts of human consciousness, the breadth of related concepts that the model explains easily and naturally, and the extent of its agreement with scientific evidence.
翻訳日:2022-09-24 04:13:29 公開日:2021-08-23
# (参考訳) CE-Dedup:画像重複に基づくコスト効果畳み込みニューラルネットワークトレーニング

CE-Dedup: Cost-Effective Convolutional Neural Nets Training based on Image Deduplication ( http://arxiv.org/abs/2109.00899v1 )

ライセンス: CC BY 4.0
Xuan Li, Liqiong Chang, Xue Liu(参考訳) 拡大を続ける大規模な画像データセットに貢献するConvolutional Neural Networks(CNN)は、ビジョンベースのタスクで人気を博している。 一般的に、ネットワークトレーニングの精度を高めるために、より大きなデータセットを持つことが好ましい。 しかし、データセットの品質の影響は関与しない。 重複に近い画像がデータセットに存在すると仮定するのは合理的である。 例えば、Street View House Numbers (SVHN)データセットは、0から9までのトリミングされたハウスプレート桁を持ち、同じ/類似のハウスプレートから繰り返し数字を持つ可能性が高い。 冗長な画像は、意識せずにデータセットの特定の部分を取り込みます。 cnnsトレーニングの精度向上にはほとんど貢献していないが、これらの重複画像は余分なリソースと計算消費をもたらす。 そこで本稿では,CE-Dedup と呼ばれる CNN トレーニング性能に対する近距離画像の影響を評価する枠組みを提案する。 具体的には、CE-Dedupはハッシュベースの画像重複と下流CNNに基づく画像分類タスクを関連付ける。 CE-Dedupは、デデューズ閾値を調整することにより、大きなデデューズ比と安定した精度とのトレードオフをバランスさせる。 CE-Dedupの有効性は、よく知られたCNNベンチマークの広範な実験を通じて検証される。 一方、CE-Dedupは同じ検証精度を維持しながら、データセットのサイズを23%削減できる。 一方、小さな検証精度(5%)の低下を許容すると、ce-dedupはデータセットのサイズを75%削減できる。

Attributed to the ever-increasing large image datasets, Convolutional Neural Networks (CNNs) have become popular for vision-based tasks. It is generally admirable to have larger-sized datasets for higher network training accuracies. However, the impact of dataset quality has not to be involved. It is reasonable to assume the near-duplicate images exist in the datasets. For instance, the Street View House Numbers (SVHN) dataset having cropped house plate digits from 0 to 9 are likely to have repetitive digits from the same/similar house plates. Redundant images may take up a certain portion of the dataset without consciousness. While contributing little to no accuracy improvement for the CNNs training, these duplicated images unnecessarily pose extra resource and computation consumption. To this end, this paper proposes a framework to assess the impact of the near-duplicate images on CNN training performance, called CE-Dedup. Specifically, CE-Dedup associates a hashing-based image deduplication approach with downstream CNNs-based image classification tasks. CE-Dedup balances the tradeoff between a large deduplication ratio and a stable accuracy by adjusting the deduplication threshold. The effectiveness of CE-Dedup is validated through extensive experiments on well-known CNN benchmarks. On one hand, while maintaining the same validation accuracy, CE-Dedup can reduce the dataset size by 23%. On the other hand, when allowing a small validation accuracy drop (by 5%), CE-Dedup can trim the dataset size by 75%.
翻訳日:2021-09-05 10:07:40 公開日:2021-08-23
# (参考訳) ウェハ製造における高精度欠陥検出

Fast Accurate Defect Detection in Wafer Fabrication ( http://arxiv.org/abs/2108.11757v1 )

ライセンス: CC BY 4.0
Thomas Olschewski(参考訳) オブジェクト分類のためのジェネリック高速手法を提案する。 さらに,次元還元法を提案する。 提案手法は,数製品数万チップの欠陥状態を,測定値や測定値の一部だけに基づいて予測する作業において,チップ製造から得られる実世界データに適用されている。 最適化のために多くの重みを持つ典型的なニューラルネットワークとは異なり、提案アルゴリズムは、グローバルな最適化を見つける機会を増やすために、非常に少数の変数だけを最適化しようとする。 私たちのアプローチは、高速で、現実世界のウエハデータで非常に優れたパフォーマンスを実現し、短い実装を可能にし、説明しやすい明確な意味を持つ値を計算できるという点で興味深いです。

A generic fast method for object classification is proposed. In addition, a method for dimensional reduction is presented. The presented algorithms have been applied to real-world data from chip fabrication successfully to the task of predicting defect states of tens of thousands of chips of several products based on measurements or even just part of measurements. Unlike typical neural networks with a large number of weights to optimize over, the presented algorithm tries optimizing only over a very small number of variables in order to increase chances to find a global optimum. Our approach is interesting in that it is fast, led to good to very good performance with real-world wafer data, allows for short implementations and computes values which have a clear meaning easy to explain.
翻訳日:2021-08-28 03:22:20 公開日:2021-08-23
# (参考訳) ペア無線音センサによる衝撃的騒音発生の判定

Determining the origin of impulsive noise events using paired wireless sound sensors ( http://arxiv.org/abs/2108.11758v1 )

ライセンス: CC BY 4.0
Fabian Nemazi and Jon Nordby(参考訳) 本研究は, 一対の無線ノイズセンサを用いて, 衝撃的ノイズ発生源の同定方法について検討する。 1つのセンサを既知のノイズ源に、もう1つのセンサをノイズ受信機に配置する。 機械学習モデルは2つのセンサーからデータを受け取り、与えられたノイズイベントが既知のノイズ源または他のソースに由来するかどうかを推定する。 プライバシーの問題を避けるために、このアプローチでは、音をプライバシー互換のスペクトログラムに変換する、最先端のプリプロセッシングを使用している。 このシステムは、騒音放射試験中に収集されたデータを用いて、射撃場と爆薬訓練施設で評価された。 畳み込みニューラルネットワークと相互相関の組み合わせは最良の結果を得た。 異なるスペクトログラム表現を用いて複数の代替モデルを構築した。 最善のモデルでは,インパルス雑音の70.8\%が検出され,リコールと精度の最適トレードオフにおいて,ノイズの90.3\%が正しく予測された。

This work investigates how to identify the source of impulsive noise events using a pair of wireless noise sensors. One sensor is placed at a known noise source, and another sensor is placed at the noise receiver. Machine learning models receive data from the two sensors and estimate whether a given noise event originates from the known noise source or another source. To avoid privacy issues, the approach uses on-edge preprocessing that converts the sound into privacy compatible spectrograms. The system was evaluated at a shooting range and explosives training facility, using data collected during noise emission testing. The combination of convolutional neural networks with cross-correlation achieved the best results. We created multiple alternative models using different spectrogram representations. The best model detected 70.8\% of the impulsive noise events and correctly predicted 90.3\% of the noise events in the optimal trade-off between recall and precision.
翻訳日:2021-08-28 03:21:10 公開日:2021-08-23
# (参考訳) センサトランスデューサ変換ルーチンのための機械学習

Machine Learning for Sensor Transducer Conversion Routines ( http://arxiv.org/abs/2108.11374v1 )

ライセンス: CC BY 4.0
Thomas Newton, James T. Meech and Phillip Stanley-Marbell(参考訳) デジタル出力を持つセンサは、ユニットレスadcサンプルを正しい単位で物理量に変換するソフトウェア変換ルーチンを必要とする。 これらの変換ルーチンは、低消費電力組み込みシステムの限られた計算資源から計算的に複雑である。 本稿では,BME680環境センサの精度を犠牲にすることなく,新しい複雑な変換ルーチンを学習するための機械学習手法を提案する。 本研究では, モデルにおける精度と計算オーバーヘッドのトレードオフをパレート解析し, 既存の産業標準変換ルーチンの計算オーバーヘッドを, 温度, 圧力, 湿度それぞれ62 %, 71 %, 18 %削減するモデルを提案する。 対応する RMS 誤差は 0.0114 $^\circ$C, 0.0280 KPa, 0.0337 % である。 これらの結果から,変換ルーチンを学習する機械学習手法は,高い精度を維持しつつ,計算オーバーヘッドを低減した変換ルーチンを生成できることが示唆された。

Sensors with digital outputs require software conversion routines to transform the unitless ADC samples to physical quantities with the correct units. These conversion routines are computationally complex given the limited computational resources of low-power embedded systems. This article presents a set of machine learning methods to learn new, less-complex conversion routines that do not sacrifice accuracy for the BME680 environmental sensor. We present a Pareto analysis of the tradeoff between accuracy and computational overhead for the models and present models that reduce the computational overhead of the existing industry-standard conversion routines for temperature, pressure, and humidity by 62 %, 71 %, and 18 % respectively. The corresponding RMS errors for these methods are 0.0114 $^\circ$C, 0.0280 KPa, and 0.0337 %. These results show that machine learning methods for learning conversion routines can produce conversion routines with reduced computational overhead while maintaining good accuracy.
翻訳日:2021-08-28 03:14:45 公開日:2021-08-23
# 長期・短期・突然の事象:グラフ型マルチビューモデルによる取引量移動予測

Long-term, Short-term and Sudden Event: Trading Volume Movement Prediction with Graph-based Multi-view Modeling ( http://arxiv.org/abs/2108.11318v1 )

ライセンス: Link先を確認
Liang Zhao, Wei Li, Ruihan Bao, Keiko Harimoto, YunfangWu and Xu Sun(参考訳) 取引量移動予測は、様々な金融アプリケーションにおいて鍵となる。 その重要性にもかかわらず、異なる情報源からの情報を包括的に理解する必要性があるため、この話題に関する研究はほとんどない。 例えば、複数の株式、最近の取引データ、突然のイベントの関係は、すべて取引市場を理解する上で不可欠である。 しかし,従来の手法のほとんどは過去数週間の変動情報を考慮に入れているだけであり,性能は低い。 この問題に対処するため,多視点情報,すなわち長期の株価トレンド,短期変動,突然の出来事情報を同時に時間的不均一グラフに組み込むグラフベースの手法を提案する。 また,より優れた予測のために,変動の異なる視点間の相関を強調するために,深い正準解析を行う。 実験結果から,本手法は強いベースラインを大きなマージンで上回ることがわかった。

Trading volume movement prediction is the key in a variety of financial applications. Despite its importance, there is few research on this topic because of its requirement for comprehensive understanding of information from different sources. For instance, the relation between multiple stocks, recent transaction data and suddenly released events are all essential for understanding trading market. However, most of the previous methods only take the fluctuation information of the past few weeks into consideration, thus yielding poor performance. To handle this issue, we propose a graphbased approach that can incorporate multi-view information, i.e., long-term stock trend, short-term fluctuation and sudden events information jointly into a temporal heterogeneous graph. Besides, our method is equipped with deep canonical analysis to highlight the correlations between different perspectives of fluctuation for better prediction. Experiment results show that our method outperforms strong baselines by a large margin.
翻訳日:2021-08-26 13:05:48 公開日:2021-08-23
# (参考訳) チャネルワイズトランスを用いた3次元物体検出の改善

Improving 3D Object Detection with Channel-wise Transformer ( http://arxiv.org/abs/2108.10723v1 )

ライセンス: CC BY 4.0
Hualian Sheng and Sijia Cai and Yuan Liu and Bing Deng and Jianqiang Huang and Xian-Sheng Hua and Min-Jian Zhao(参考訳) ポイントクラウドからの3dオブジェクト検出は近年急速に進歩しているが、フレキシブルで高性能な提案の精度向上の欠如は、既存の2段階検出器にとって大きなハードルとなっている。 従来の3dプロポーザルの改良作業は、キーポイントサンプリング、セット抽象化、マルチスケール機能融合などの人間設計のコンポーネントに依存しており、強力な3dオブジェクト表現を生成する。 しかし、そのような方法は、ポイント間のリッチなコンテキスト依存をキャプチャする能力に制限がある。 本稿では,高品質な領域提案ネットワークとチャネルワイズトランスフォーマティブアーキテクチャを用いて,手作りの最小限の設計で2段階の3dオブジェクト検出フレームワーク(ct3d)を構成する。 提案するct3dは,各提案のポイント特徴に対して,提案認識埋め込みとチャネル毎コンテキストアグリゲーションを同時に行う。 具体的には、CT3Dは空間的コンテキストモデリングに提案のキーポイントを使用し、符号化モジュール内の注意伝播を学習し、提案をポイント埋め込みにマッピングする。 次に、チャネルワイズデコーディングモジュールは、チャネルワイズ再重み付けによるクエリキーインタラクションを強化し、より正確なオブジェクト予測に寄与するマルチレベルコンテキストを効果的にマージする。 広範な実験により,ct3d法の性能とスケーラビリティが向上した。 驚くべきことに、ct3dはkitti test 3d detection benchmarkにおいて中等車カテゴリーの81.77%のapを達成し、最先端の3d検出器よりも優れている。

Though 3D object detection from point clouds has achieved rapid progress in recent years, the lack of flexible and high-performance proposal refinement remains a great hurdle for existing state-of-the-art two-stage detectors. Previous works on refining 3D proposals have relied on human-designed components such as keypoints sampling, set abstraction and multi-scale feature fusion to produce powerful 3D object representations. Such methods, however, have limited ability to capture rich contextual dependencies among points. In this paper, we leverage the high-quality region proposal network and a Channel-wise Transformer architecture to constitute our two-stage 3D object detection framework (CT3D) with minimal hand-crafted design. The proposed CT3D simultaneously performs proposal-aware embedding and channel-wise context aggregation for the point features within each proposal. Specifically, CT3D uses proposal's keypoints for spatial contextual modelling and learns attention propagation in the encoding module, mapping the proposal to point embeddings. Next, a new channel-wise decoding module enriches the query-key interaction via channel-wise re-weighting to effectively merge multi-level contexts, which contributes to more accurate object predictions. Extensive experiments demonstrate that our CT3D method has superior performance and excellent scalability. Remarkably, CT3D achieves the AP of 81.77% in the moderate car category on the KITTI test 3D detection benchmark, outperforms state-of-the-art 3D detectors.
翻訳日:2021-08-26 01:14:33 公開日:2021-08-23
# (参考訳) 深い確率層を有する変圧器の正則化

Regularizing Transformers With Deep Probabilistic Layers ( http://arxiv.org/abs/2108.10764v1 )

ライセンス: CC BY 4.0
Aurora Cobo Aguilera, Pablo Mart\'inez Olmos, Antonio Art\'es-Rodr\'iguez, Fernando P\'erez-Cruz(参考訳) 言語モデル(lm)は過去10年間でノンストップで成長し、シーケンシャル・ツー・シーケンス・アーキテクチャから最先端の注意に基づくトランスフォーマーまで成長してきた。 本研究では,BERT に深層生成モデルを組み込むことによって,より汎用的なモデルが実現し,よりリッチなテキストで欠落した/騒々しい単語を暗示したり,BLEU スコアを向上したりすることができることを示す。 より正確には、正規化層としてGaussian Mixture Variational Autoencoder (GMVAE)を使用し、トランスフォーマーだけでなく、最も関連性の高いエンコーダデコーダであるLM, seq2seqでも、注意なくその効果を証明している。

Language models (LM) have grown with non-stop in the last decade, from sequence-to-sequence architectures to the state-of-the-art and utter attention-based Transformers. In this work, we demonstrate how the inclusion of deep generative models within BERT can bring more versatile models, able to impute missing/noisy words with richer text or even improve BLEU score. More precisely, we use a Gaussian Mixture Variational Autoencoder (GMVAE) as a regularizer layer and prove its effectiveness not only in Transformers but also in the most relevant encoder-decoder based LM, seq2seq with and without attention.
翻訳日:2021-08-26 01:13:34 公開日:2021-08-23
# (参考訳) 直感的マッチングフィルタによるグラフ畳み込みニューラルネットワークの基礎理解

Understanding the Basis of Graph Convolutional Neural Networks via an Intuitive Matched Filtering Approach ( http://arxiv.org/abs/2108.10751v1 )

ライセンス: CC BY 4.0
Ljubisa Stankovic and Danilo Mandic(参考訳) グラフ畳み込みニューラルネットワーク(GCNN)は、不規則領域のデータ処理において好まれるモデルとなっているが、NNのブラックボックスの性質から、その解析と動作原理はめったに検討されていない。 この目的のために、GCNNの動作を再検討し、その畳み込み層が、選択したパターン(機能)と入力データのマッチングフィルタリングを効果的に実行することを示す。 これにより、整合フィルタの観点からGCNNの統一的な説明を提供することができ、非線型ReLU層と最大プール層も整合フィルタフレームワーク内で議論される。 次に、GCNNにおける情報伝達と学習に関するステップバイステップガイドが続く。 また、標準cnnと完全連結nnをgcnnの特別な場合として得ることも示されている。 慎重に選択された数値例は、GCNN操作の様々なステップをガイドし、視覚的にも数値的にも学習する。

Graph Convolutional Neural Networks (GCNN) are becoming a preferred model for data processing on irregular domains, yet their analysis and principles of operation are rarely examined due to the black box nature of NNs. To this end, we revisit the operation of GCNNs and show that their convolution layers effectively perform matched filtering of input data with the chosen patterns (features). This allows us to provide a unifying account of GCNNs through a matched filter perspective, whereby the nonlinear ReLU and max-pooling layers are also discussed within the matched filtering framework. This is followed by a step-by-step guide on information propagation and learning in GCNNs. It is also shown that standard CNNs and fully connected NNs can be obtained as a special case of GCNNs. A carefully chosen numerical example guides the reader through the various steps of GCNN operation and learning both visually and numerically.
翻訳日:2021-08-26 01:12:35 公開日:2021-08-23
# (参考訳) クラス不均衡と消費電力制約下におけるUAVスワムのフェデレーション学習

Federated Learning for UAV Swarms Under Class Imbalance and Power Consumption Constraints ( http://arxiv.org/abs/2108.10748v1 )

ライセンス: CC BY 4.0
Ilyes Mrad, Lutfi Samara, Alaa Awad Abdellatif, Abubakr Al-Abbasi, Ridha Hamila, Aiman Erbad(参考訳) 民間および軍事用途における無人航空機(uav)の使用は、従来のアプローチよりも多くの利点があるため増加を続けている。 このような利点が豊富にあるにもかかわらず、設計上の制約を考慮して、UAVの利用状況を調べることが不可欠である。 本稿では,各UAVが機械学習分類タスクを実行する際のUAVスワムの展開について検討する。 地上ベース処理ノードとのデータ交換を回避するため、UAVリーダとSwarmメンバ間の連合学習アプローチを採用し、地上間通信や地上間通信を過度に回避しつつ、局所学習モデルを改善する。 さらに, 提案手法では, uavsの厳密なエネルギー制約とクラス不均衡の問題を考慮し, これらの設計パラメータを考慮すれば, 分類精度, エネルギー消費量, uavsの可利用性において, 複数のベースラインアルゴリズムと比較して, uav群の性能が著しく向上することを示す。

The usage of unmanned aerial vehicles (UAVs) in civil and military applications continues to increase due to the numerous advantages that they provide over conventional approaches. Despite the abundance of such advantages, it is imperative to investigate the performance of UAV utilization while considering their design limitations. This paper investigates the deployment of UAV swarms when each UAV carries a machine learning classification task. To avoid data exchange with ground-based processing nodes, a federated learning approach is adopted between a UAV leader and the swarm members to improve the local learning model while avoiding excessive air-to-ground and ground-to-air communications. Moreover, the proposed deployment framework considers the stringent energy constraints of UAVs and the problem of class imbalance, where we show that considering these design parameters significantly improves the performances of the UAV swarm in terms of classification accuracy, energy consumption and availability of UAVs when compared with several baseline algorithms.
翻訳日:2021-08-26 00:45:26 公開日:2021-08-23
# (参考訳) edge-SR: 大衆の超解答

edge-SR: Super-Resolution For The Masses ( http://arxiv.org/abs/2108.10335v1 )

ライセンス: CC BY-SA 4.0
Pablo Navarrete Michelini, Yunhua Lu, Xingqun Jiang(参考訳) 古典的な画像スケーリング(例) bicubic)は1つの畳み込み層と1つのアップスケーリングフィルタと見なすことができる。 その実装は、すべてのディスプレイデバイスと画像処理ソフトウェアでユビキタスである。 過去10年間、複数の畳み込み層と多数のフィルタを用いた画像超解像(sr)タスクのためにディープラーニングシステムが導入された。 これらの手法は、アップスケールタスクのための画像品質のベンチマークを引き継いだ。 ディスプレイパネルやタブレット,ラップトップなど,エッジデバイス上でのディープラーニングアーキテクチャを,古典的なアップスケールに置き換えることは可能でしょうか? 一方、Edge-AIチップの現在のトレンドは、ディープラーニングタスクを効率的に実行できるハードウェアの急速な開発によって、この方向への有望な未来を示している。 一方、画像SRでは、エッジデバイス上でリアルタイムに実行可能な極端に小さなサイズに制限を押し上げるアーキテクチャはごくわずかである。 古典的なアップスケーラと小さなディープラーニング構成のギャップを埋めることを目的として,この問題に対する潜在的な解決策を探究する。 古典的なアップスケーリングからディープラーニングへの遷移として、画像のスケールアップに解釈可能なメカニズムを使用する一層アーキテクチャのセットであるエッジSR(eSR)を提案する。 確かに、一層アーキテクチャはディープラーニングシステムの品質に到達できない。 それでも、高速要求では、esrは画像品質と実行時のパフォーマンスのトレードオフがより良くなります。 イメージアップスケールのための古典的アーキテクチャとディープラーニングアーキテクチャのギャップを埋めることが、このテクノロジの大規模採用に不可欠である。 同様に、この問題を解決するための内部戦略を明らかにし、将来の改善と大規模ネットワークの理解を深めるための解釈可能なシステムを持つことが重要である。

Classic image scaling (e.g. bicubic) can be seen as one convolutional layer and a single upscaling filter. Its implementation is ubiquitous in all display devices and image processing software. In the last decade deep learning systems have been introduced for the task of image super-resolution (SR), using several convolutional layers and numerous filters. These methods have taken over the benchmarks of image quality for upscaling tasks. Would it be possible to replace classic upscalers with deep learning architectures on edge devices such as display panels, tablets, laptop computers, etc.? On one hand, the current trend in Edge-AI chips shows a promising future in this direction, with rapid development of hardware that can run deep-learning tasks efficiently. On the other hand, in image SR only few architectures have pushed the limit to extreme small sizes that can actually run on edge devices at real-time. We explore possible solutions to this problem with the aim to fill the gap between classic upscalers and small deep learning configurations. As a transition from classic to deep-learning upscaling we propose edge-SR (eSR), a set of one-layer architectures that use interpretable mechanisms to upscale images. Certainly, a one-layer architecture cannot reach the quality of deep learning systems. Nevertheless, we find that for high speed requirements, eSR becomes better at trading-off image quality and runtime performance. Filling the gap between classic and deep-learning architectures for image upscaling is critical for massive adoption of this technology. It is equally important to have an interpretable system that can reveal the inner strategies to solve this problem and guide us to future improvements and better understanding of larger networks.
翻訳日:2021-08-26 00:34:37 公開日:2021-08-23
# (参考訳) エンドツーエンドオープン語彙キーワード検索

End-to-End Open Vocabulary Keyword Search ( http://arxiv.org/abs/2108.10357v1 )

ライセンス: CC BY 4.0
Bolaji Yusuf, Alican Gok, Batuhan Gundogdu, Murat Saraclar(参考訳) 近年,音声コンテンツ検索に対するニューラルアプローチが普及している。 しかし、それらは語彙や不均衡なテスト設定に対処する能力に制限される傾向がある。 これらの制限は、クエリの集合が事前に知られておらず、システムがクエリを含むかどうかだけでなく、そのような発生の正確な場所を返すべきであるキーワード検索において、その適用性を制限する。 本研究では,キーワード検索に最適化されたモデルを提案する。 モデルはクエリと発話を入力として取り、そのフレームで発生したクエリの発話のフレーム毎に確率列を返す。 実験により, 提案手法は, 正負の試行比率が人工的にバランスの取れたタスクにおいて, 類似のエンドツーエンドモデルよりも優れるだけでなく, キーワード検索の難易度を, その固有不均衡で処理できることを示した。 さらに,LVCSRに基づくキーワード検索システムにおいて,出力のリスコア化に本システムを用いることで,後者を大幅に改善する。

Recently, neural approaches to spoken content retrieval have become popular. However, they tend to be restricted in their vocabulary or in their ability to deal with imbalanced test settings. These restrictions limit their applicability in keyword search, where the set of queries is not known beforehand, and where the system should return not just whether an utterance contains a query but the exact location of any such occurrences. In this work, we propose a model directly optimized for keyword search. The model takes a query and an utterance as input and returns a sequence of probabilities for each frame of the utterance of the query having occurred in that frame. Experiments show that the proposed model not only outperforms similar end-to-end models on a task where the ratio of positive and negative trials is artificially balanced, but it is also able to deal with the far more challenging task of keyword search with its inherent imbalance. Furthermore, using our system to rescore the outputs an LVCSR-based keyword search system leads to significant improvements on the latter.
翻訳日:2021-08-25 23:41:51 公開日:2021-08-23
# (参考訳) 単眼カメラを用いた船舶追跡

Marine vessel tracking using a monocular camera ( http://arxiv.org/abs/2108.10367v1 )

ライセンス: CC BY-SA 4.0
Tobias Jacob, Raffaele Galliera, Muddasar Ali, Sikha Bagui(参考訳) 本稿では,gpsデータのみを用いた新しいカメラキャリブレーション手法を提案する。 境界ボックスの位置と大きさを利用して距離を推定し、カメラから100mの距離あたり平均5.55mの予測誤差を達成することにより、ビデオ内の平面上を移動する物体を追跡する新しい方法を実現する。 このソリューションはエッジでリアルタイムで実行することができ、低電力のIoT環境で効率的な推論を実現すると同時に、複数の異なるコンテナを追跡することができる。

In this paper, a new technique for camera calibration using only GPS data is presented. A new way of tracking objects that move on a plane in a video is achieved by using the location and size of the bounding box to estimate the distance, achieving an average prediction error of 5.55m per 100m distance from the camera. This solution can be run in real-time at the edge, achieving efficient inference in a low-powered IoT environment while also being able to track multiple different vessels.
翻訳日:2021-08-25 23:31:59 公開日:2021-08-23
# (参考訳) ピアノ転写のためのスパース解析フィルタの学習

Learning Sparse Analytic Filters for Piano Transcription ( http://arxiv.org/abs/2108.10382v1 )

ライセンス: CC BY 4.0
Frank Cwitkowitz, Mojtaba Heydari and Zhiyao Duan(参考訳) 近年,様々な音声関連機械学習タスクにおいて,フィルタバンク学習が普及している。 これは、ダウンストリーム処理で活用できるタスク固有のオーディオ特性を発見する能力に起因している。 また、多種多様なオーディオアプリケーションに取り組むために使用されるほぼユビキタスなディープラーニング手法の自然な拡張でもある。 本研究では,低レベル音楽情報検索の課題であるピアノの書き起こしに対して,フロントエンドフィルタバンク学習モジュールのいくつかのバリエーションについて検討する。 我々は、特徴抽出段階のみを変更する標準的なピアノ転写モデルを構築した。 フィルタバンクモジュールは、複雑なフィルタが長い受容場を持つ1次元畳み込みカーネルであるように設計されている。 追加のバリエーションは、フィルタを本質的に解析し、フィルタバンクの間隔を促進するために変分ドロップアウトを適用するためにヒルベルト変換を用いる。 書き起こし結果はすべての実験で比較され,フィルタバンクの可視化と解析を提供する。

In recent years, filterbank learning has become an increasingly popular strategy for various audio-related machine learning tasks. This is partly due to its ability to discover task-specific audio characteristics which can be leveraged in downstream processing. It is also a natural extension of the nearly ubiquitous deep learning methods employed to tackle a diverse array of audio applications. In this work, several variations of a frontend filterbank learning module are investigated for piano transcription, a challenging low-level music information retrieval task. We build upon a standard piano transcription model, modifying only the feature extraction stage. The filterbank module is designed such that its complex filters are unconstrained 1D convolutional kernels with long receptive fields. Additional variations employ the Hilbert transform to render the filters intrinsically analytic and apply variational dropout to promote filterbank sparsity. Transcription results are compared across all experiments, and we offer visualization and analysis of the filterbanks.
翻訳日:2021-08-25 23:21:27 公開日:2021-08-23
# (参考訳) 効率的なビデオ推論のための動的ネットワーク量子化

Dynamic Network Quantization for Efficient Video Inference ( http://arxiv.org/abs/2108.10394v1 )

ライセンス: CC BY 4.0
Ximeng Sun, Rameswar Panda, Chun-Fu Chen, Aude Oliva, Rogerio Feris, Kate Saenko(参考訳) 深層畳み込みネットワークは最近、ビデオ認識で大きな成功を収めているが、強固な認識を実現するのに大量の計算リソースを必要とするため、実際の実現は依然として課題である。 本稿では,効率向上のための量子化の有効性を活かした動的ネットワーク量子化フレームワークを提案する。 具体的には、ビデオクリップを与えられた場合、認識ネットワークと並行して非常に軽量なネットワークを訓練し、ビデオ認識においてフレーム単位の精度を示す動的ポリシーを作成する。 我々は,ビデオ認識に必要な競合性能と資源効率を両立させるために,標準バックプロパゲーションと損失を用いて,両方のネットワークを効果的に訓練する。 4つの多種多様なベンチマークデータセットに関する広範囲な実験は、提案手法が既存の最先端メソッドを上回りながら、計算とメモリ使用量の大幅な節約をもたらすことを示している。

Deep convolutional networks have recently achieved great success in video recognition, yet their practical realization remains a challenge due to the large amount of computational resources required to achieve robust recognition. Motivated by the effectiveness of quantization for boosting efficiency, in this paper, we propose a dynamic network quantization framework, that selects optimal precision for each frame conditioned on the input for efficient video recognition. Specifically, given a video clip, we train a very lightweight network in parallel with the recognition network, to produce a dynamic policy indicating which numerical precision to be used per frame in recognizing videos. We train both networks effectively using standard backpropagation with a loss to achieve both competitive performance and resource efficiency required for video recognition. Extensive experiments on four challenging diverse benchmark datasets demonstrate that our proposed approach provides significant savings in computation and memory usage while outperforming the existing state-of-the-art methods.
翻訳日:2021-08-25 23:07:12 公開日:2021-08-23
# (参考訳) SreaMRAK A Streaming Multi-Resolution Adaptive Kernel Algorithm

SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm ( http://arxiv.org/abs/2108.10411v1 )

ライセンス: CC BY 4.0
Andreas Oslandsbotn, Zeljko Kereta, Valeriya Naumova, Yoav Freund, Alexander Cloninger(参考訳) カーネルリッジ回帰(KRR)は非線形非パラメトリック学習の一般的なスキームである。 しかし、既存のKRRの実装では、すべてのデータがメインメモリに格納されることが要求されるため、データサイズがメモリサイズを超える状況では、KRRの使用が著しく制限される。 このような応用は、データマイニング、バイオインフォマティクス、制御においてますます一般的になっている。 メモリに大きすぎるデータセットを計算するための強力なパラダイムは、計算のストリーミングモデルであり、1つのデータサンプルを一度に処理し、次のデータに移動する前に各サンプルを破棄する。 本稿では,KRRのストリーミング版であるStreaMRAKを提案する。 StreaMRAKは、問題をいくつかのレベルの解像度に分割することで既存のKRRスキームを改善する。 このアルゴリズムは、トレーニングモデルに新しいサンプルを連続的かつ効率的に統合することで、メモリ要求を減らす。 新たなサブサンプリング方式により、StreaMRAKは元のデータのスケッチを作成することで、メモリと計算の複雑さを低減し、サブサンプリング密度はカーネルの帯域幅とデータの局所次元に適応する。 本稿では,2つの合成問題と2重振り子の軌道予測に関する実証研究を行う。 その結果,提案アルゴリズムは高速かつ高精度であることがわかった。

Kernel ridge regression (KRR) is a popular scheme for non-linear non-parametric learning. However, existing implementations of KRR require that all the data is stored in the main memory, which severely limits the use of KRR in contexts where data size far exceeds the memory size. Such applications are increasingly common in data mining, bioinformatics, and control. A powerful paradigm for computing on data sets that are too large for memory is the streaming model of computation, where we process one data sample at a time, discarding each sample before moving on to the next one. In this paper, we propose StreaMRAK - a streaming version of KRR. StreaMRAK improves on existing KRR schemes by dividing the problem into several levels of resolution, which allows continual refinement to the predictions. The algorithm reduces the memory requirement by continuously and efficiently integrating new samples into the training model. With a novel sub-sampling scheme, StreaMRAK reduces memory and computational complexities by creating a sketch of the original data, where the sub-sampling density is adapted to the bandwidth of the kernel and the local dimensionality of the data. We present a showcase study on two synthetic problems and the prediction of the trajectory of a double pendulum. The results show that the proposed algorithm is fast and accurate.
翻訳日:2021-08-25 22:45:58 公開日:2021-08-23
# (参考訳) ニューラルマシン翻訳のための繰り返し複数の層を奥行きで共有する

Recurrent multiple shared layers in Depth for Neural Machine Translation ( http://arxiv.org/abs/2108.10417v1 )

ライセンス: CC BY-SA 4.0
GuoLiang Li and Yiyang Li(参考訳) より深いモデルを学ぶことは、通常、モデルパフォーマンスを改善するためのシンプルで効果的なアプローチであるが、より深いモデルはより大きなモデルパラメータを持ち、訓練することがより困難である。 より深いモデルを得るためには、単にモデルのレイヤーを積み重ねるだけではうまく機能しているように思えるが、以前の研究では、モデルにメリットはないと主張した。 本稿では,トランスフォーマーのエンコーダブロックとデコーダブロックを奥行き方向にループする再帰機構を持つ深層モデルを提案する。 モデルパラメータの増加に対処するために、異なる再帰モーメントでパラメータを共有することを選択する。 我々は,wmt16英語対ドイツ語およびwmt14英語対フランス翻訳タスクについて実験を行い,トランスフォーマーモデルパラメータの27.23%である0.35, 1.45ブルーポイントの浅層トランスフォーマーベース/ビッグベースを上回った。 深層トランス (20層エンコーダ, 6層デコーダ) と比較して, モデル性能と推論速度は類似しているが, モデルパラメータは前者の54.72%である。

Learning deeper models is usually a simple and effective approach to improve model performance, but deeper models have larger model parameters and are more difficult to train. To get a deeper model, simply stacking more layers of the model seems to work well, but previous works have claimed that it cannot benefit the model. We propose to train a deeper model with recurrent mechanism, which loops the encoder and decoder blocks of Transformer in the depth direction. To address the increasing of model parameters, we choose to share parameters in different recursive moments. We conduct our experiments on WMT16 English-to-German and WMT14 English-to-France translation tasks, our model outperforms the shallow Transformer-Base/Big baseline by 0.35, 1.45 BLEU points, which is 27.23% of Transformer-Big model parameters. Compared to the deep Transformer(20-layer encoder, 6-layer decoder), our model has similar model performance and infer speed, but our model parameters are 54.72% of the former.
翻訳日:2021-08-25 22:07:46 公開日:2021-08-23
# (参考訳) 自己監督型GNNのための共同学習型データ拡張

Jointly Learnable Data Augmentations for Self-Supervised GNNs ( http://arxiv.org/abs/2108.10420v1 )

ライセンス: CC BY 4.0
Zekarias T. Kefato and Sarunas Girdzijauskas and Hannes St\"ark(参考訳) 自己教師付き学習(SSL)は、手動ラベリングに頼ることなくオブジェクトの表現を学習することを目的としている。 近年,グラフ表現学習のためのSSLメソッドがSOTA半教師付きGNNに匹敵する性能を実現している。 siameseネットワークはデータ拡張に依存しており、これらの手法で使われる一般的なアーキテクチャである。 しかし、これらの手法はヒューリスティックなデータ拡張技術に依存している。 さらに、コントラスト項または他のトリック(例えば非対称性)を用いて、シームズネットワークで起こりうる自明な解を避ける。 本研究では,GNNのための新しいSSL方式であるGraphSurgeonを提案する。 まず、ヒューリスティックスの代わりに、グラフにエンコードされた固有の信号を利用して、埋め込みと共同で学習可能なデータ拡張手法を提案する。 さらに,学習可能なデータ拡張の柔軟性を生かして,埋め込み空間を補完する新たな戦略であるpost additionationを導入する。 この戦略は、メモリオーバーヘッドとランタイムコストを大幅に削減する。 第二に、真に対照的な用語をサンプリングすることは困難であるため、明示的な負のサンプリングを避ける。 第3に、エンジニアリングのトリックに頼るのではなく、ラプラシアン固有マップに動機づけられたスケーラブルな制約付き最適化目標を使用して、自明なソリューションを避けています。 graphsurgeonの実用性を検証するために、複数のドメインにまたがる14のパブリックデータセットと、数十億のエッジを持つ小規模から大規模のグラフを用いて、実証的な評価を行う。 その結果,GraphSurgeonは6つのSOTA半教師付きベースラインと同等であり,ノード分類タスクにおける5つのSOTA自己教師付きベースラインと同等であることがわかった。 ソースコードはhttps://github.com/zekarias-tilahun/graph-surgeonで入手できる。

Self-supervised Learning (SSL) aims at learning representations of objects without relying on manual labeling. Recently, a number of SSL methods for graph representation learning have achieved performance comparable to SOTA semi-supervised GNNs. A Siamese network, which relies on data augmentation, is the popular architecture used in these methods. However, these methods rely on heuristically crafted data augmentation techniques. Furthermore, they use either contrastive terms or other tricks (e.g., asymmetry) to avoid trivial solutions that can occur in Siamese networks. In this study, we propose, GraphSurgeon, a novel SSL method for GNNs with the following features. First, instead of heuristics we propose a learnable data augmentation method that is jointly learned with the embeddings by leveraging the inherent signal encoded in the graph. In addition, we take advantage of the flexibility of the learnable data augmentation and introduce a new strategy that augments in the embedding space, called post augmentation. This strategy has a significantly lower memory overhead and run-time cost. Second, as it is difficult to sample truly contrastive terms, we avoid explicit negative sampling. Third, instead of relying on engineering tricks, we use a scalable constrained optimization objective motivated by Laplacian Eigenmaps to avoid trivial solutions. To validate the practical use of GraphSurgeon, we perform empirical evaluation using 14 public datasets across a number of domains and ranging from small to large scale graphs with hundreds of millions of edges. Our finding shows that GraphSurgeon is comparable to six SOTA semi-supervised and on par with five SOTA self-supervised baselines in node classification tasks. The source code is available at https://github.com/zekarias-tilahun/graph-surgeon.
翻訳日:2021-08-25 21:58:34 公開日:2021-08-23
# (参考訳) 縦距離:アカウンタブル・インスタンス・アトリビューションに向けて

Longitudinal Distance: Towards Accountable Instance Attribution ( http://arxiv.org/abs/2108.10437v1 )

ライセンス: CC BY 4.0
Rosina O. Weber, Prateek Goel, Shideh Amiri, and Gideon Simpson(参考訳) 解釈可能な機械学習(IML)と説明可能な人工知能(XAI)のこれまでの研究は、エージェントのモデル(つまりIML)の解釈可能性を求めること、あるいはモデル(すなわちXAI)に加えてユーザのコンテキストに焦点を当てることに大きく分類することができる。 前者は特徴または例帰属に分類される。 ケースベース推論(cbr)を使用したり、インスパイアされたりする例やサンプルベースのメソッドは、エージェントの決定に責任を持つインスタンスを必ずしも帰属しないインスタンスを選択するための様々なアプローチに依存している。 さらに、既存のアプローチでは解釈可能性と説明可能性に注目しているが、説明責任に関しては不足している。 ケースベース推論の原則に着想を得た本論文では,CBRエージェントの構築に使用可能なニューラルネットワークエージェントの判断に対する属性インスタンスの使用を,縦断距離と呼ぶ擬似メトリックを導入する。

Previous research in interpretable machine learning (IML) and explainable artificial intelligence (XAI) can be broadly categorized as either focusing on seeking interpretability in the agent's model (i.e., IML) or focusing on the context of the user in addition to the model (i.e., XAI). The former can be categorized as feature or instance attribution. Example- or sample-based methods such as those using or inspired by case-based reasoning (CBR) rely on various approaches to select instances that are not necessarily attributing instances responsible for an agent's decision. Furthermore, existing approaches have focused on interpretability and explainability but fall short when it comes to accountability. Inspired in case-based reasoning principles, this paper introduces a pseudo-metric we call Longitudinal distance and its use to attribute instances to a neural network agent's decision that can be potentially used to build accountable CBR agents.
翻訳日:2021-08-25 21:39:51 公開日:2021-08-23
# (参考訳) 色だけ:ニューラルステインラーニングを用いた画像に基づく空間的遺伝子発現予測

All You Need is Color: Image based Spatial Gene Expression Prediction using Neural Stain Learning ( http://arxiv.org/abs/2108.10446v1 )

ライセンス: CC BY 4.0
Muhammad Dawood, Kim Branson, Nasir M. Rajpoot, Fayyaz ul Amir Afsar Minhas(参考訳) 「腫瘍部の定期組織像において、その染色吸収特性をモデル化して、所定の空間的位置における異なる遺伝子の発現レベルを予測することは可能か。」 本研究では,ヘマトキシリン&エオシン(H&E)ヒストロジーセクションのデジタル病理画像を用いて,空間転写学的遺伝子発現プロファイルの予測のための「ステイン・アウェア」機械学習手法を提案する。 遺伝子発現予測に使用される最近の深層学習法とは違って,提案手法であるNeural Stain Learning (NSL) は,問題固有の染色脱畳行列をエンドツーエンドに学習することで,組織と遺伝子発現パターンとの関係を明示的にモデル化する。 提案手法は,11個のトレーニング可能な重みパラメータのみで,細胞組成と形態的特徴を持つ古典回帰モデルと深層学習法の両方に優れる。 提案手法から得られた遺伝子発現予測は,他の手法と比較して,より大規模な遺伝子配列に対するシークエンシングによって得られた真の発現値と高い相関関係を示した。

"Is it possible to predict expression levels of different genes at a given spatial location in the routine histology image of a tumor section by modeling its stain absorption characteristics?" In this work, we propose a "stain-aware" machine learning approach for prediction of spatial transcriptomic gene expression profiles using digital pathology image of a routine Hematoxylin & Eosin (H&E) histology section. Unlike recent deep learning methods which are used for gene expression prediction, our proposed approach termed Neural Stain Learning (NSL) explicitly models the association of stain absorption characteristics of the tissue with gene expression patterns in spatial transcriptomics by learning a problem-specific stain deconvolution matrix in an end-to-end manner. The proposed method with only 11 trainable weight parameters outperforms both classical regression models with cellular composition and morphological features as well as deep learning methods. We have found that the gene expression predictions from the proposed approach show higher correlations with true expression values obtained through sequencing for a larger set of genes in comparison to other approaches.
翻訳日:2021-08-25 21:29:18 公開日:2021-08-23
# (参考訳) Differential Music:メロディック・ハーモニック・インターバルに基づく表現付きLSTMネットワークによる自動音楽生成

Differential Music: Automated Music Generation Using LSTM Networks with Representation Based on Melodic and Harmonic Intervals ( http://arxiv.org/abs/2108.10449v1 )

ライセンス: CC BY 4.0
Hooman Rafraf(参考訳) 本稿では,絶対ピッチではなく音楽の運動に基づく音楽情報の符号化に新たなアプローチをとるLSTMネットワークを用いた自動作曲のための生成AIモデルを提案する。 メロディはピッチの連続ではなく間隔の列として符号化され、和音は各音符が各時間ステップでメロディで作る間隔の組として符号化される。 実験結果は、音楽やトーンを聴くと約束を示す。 この方法にも弱点があり、主に構成の過剰な変調があるが、符号化の性質から期待されている。 この問題は後ほど論文で議論され、将来の仕事の潜在的な話題である。

This paper presents a generative AI model for automated music composition with LSTM networks that takes a novel approach at encoding musical information which is based on movement in music rather than absolute pitch. Melodies are encoded as a series of intervals rather than a series of pitches, and chords are encoded as the set of intervals that each chord note makes with the melody at each timestep. Experimental results show promise as they sound musical and tonal. There are also weaknesses to this method, mainly excessive modulations in the compositions, but that is expected from the nature of the encoding. This issue is discussed later in the paper and is a potential topic for future work.
翻訳日:2021-08-25 21:15:40 公開日:2021-08-23
# ベイズニューラルネットワークの解説

Explaining Bayesian Neural Networks ( http://arxiv.org/abs/2108.10346v1 )

ライセンス: Link先を確認
Kirill Bykov, Marina M.-C. H\"ohne, Adelaida Creosteanu, Klaus-Robert M\"uller, Frederick Klauschen, Shinichi Nakajima, Marius Kloft(参考訳) 意思決定においてDeep Neural Networks(DNN)のような高度な学習マシンをより透過的にするために、説明可能なAI(XAI)は、DNNの予測の解釈を提供することを目的としている。 これらの解釈は通常、ヒートマップの形で与えられ、それぞれが与えられたインスタンスの予測に関する関連するパターンを示す。 ベイジアンニューラルネットワーク(BNN)のようなベイジアンアプローチは、それまでの重量分布を通じて既に組み込まれていた、限定的な透明性(モデル透明性)を持っているが、特に、与えられたインスタンスに対する予測についての説明が欠けている。 本稿では,この2つの透明性の観点を,BNNの説明のための全体的説明フレームワークにまとめる。 ベイズフレームワーク内では、ネットワークの重み付けは確率分布に従う。 したがって、DNNの標準的な(決定論的)予測戦略は、BNNにおいて予測分布に拡張され、標準説明は説明分布に拡張される。 この観点から、BNNが複数の異種予測戦略を暗黙的に採用していることが判明した。 それらのいくつかは標準のDNNから受け継がれているが、BNNに固有の不確実性を考慮することで明らかになっているものもある。 おもちゃ/ベンチマークデータと病理学の実世界データに関する定量的・定性的な実験から,bnnを説明するための提案手法がより効果的で洞察に富んだ説明につながる可能性が示唆された。

To make advanced learning machines such as Deep Neural Networks (DNNs) more transparent in decision making, explainable AI (XAI) aims to provide interpretations of DNNs' predictions. These interpretations are usually given in the form of heatmaps, each one illustrating relevant patterns regarding the prediction for a given instance. Bayesian approaches such as Bayesian Neural Networks (BNNs) so far have a limited form of transparency (model transparency) already built-in through their prior weight distribution, but notably, they lack explanations of their predictions for given instances. In this work, we bring together these two perspectives of transparency into a holistic explanation framework for explaining BNNs. Within the Bayesian framework, the network weights follow a probability distribution. Hence, the standard (deterministic) prediction strategy of DNNs extends in BNNs to a predictive distribution, and thus the standard explanation extends to an explanation distribution. Exploiting this view, we uncover that BNNs implicitly employ multiple heterogeneous prediction strategies. While some of these are inherited from standard DNNs, others are revealed to us by considering the inherent uncertainty in BNNs. Our quantitative and qualitative experiments on toy/benchmark data and real-world data from pathology show that the proposed approach of explaining BNNs can lead to more effective and insightful explanations.
翻訳日:2021-08-25 14:30:09 公開日:2021-08-23
# 3次元シーンにおける4次元人体キャプチャの学習動作

Learning Motion Priors for 4D Human Body Capture in 3D Scenes ( http://arxiv.org/abs/2108.10399v1 )

ライセンス: Link先を確認
Siwei Zhang, Yan Zhang, Federica Bogo, Marc Pollefeys, Siyu Tang(参考訳) モノクロビデオから複雑なシーンで高品質な3Dモーションを復元することは、AR/VRからロボティクスまで、多くのアプリケーションにとって重要である。 しかし, 咬合や部分的視点を扱いながら, 現実的な人間とシーンの相互作用を捉えることは困難であり, 現在のアプローチは, 説得力のある結果を得るには程遠い。 この問題を解決するために, LEMO: LEMO: LEarning Human Motion priors for 4D human body capture を提案する。 大規模モーションキャプチャデータセットamassを活用することで,新たなモーションスムースネスを事前に導入し,シーケンス上で回収されたポーズによって提示されるジッタを強力に低減する。 さらに, 身体と身体の相互作用に頻発する接触や咬合を扱うために, 接触摩擦項と接触認識運動インフィラを設計した。 提案手法の有効性を証明するために,これらを3次元シーンにおける4次元人体キャプチャのための新しいパイプラインとして組み合わせた。 われわれのパイプラインでは、高品質な4D人体撮影、滑らかな動きの再構築、身体とシーンの相互作用を実証している。 コードとデータはhttps://sanweiliti.github.io/LEMO/LEMO.htmlで公開されている。

Recovering high-quality 3D human motion in complex scenes from monocular videos is important for many applications, ranging from AR/VR to robotics. However, capturing realistic human-scene interactions, while dealing with occlusions and partial views, is challenging; current approaches are still far from achieving compelling results. We address this problem by proposing LEMO: LEarning human MOtion priors for 4D human body capture. By leveraging the large-scale motion capture dataset AMASS, we introduce a novel motion smoothness prior, which strongly reduces the jitters exhibited by poses recovered over a sequence. Furthermore, to handle contacts and occlusions occurring frequently in body-scene interactions, we design a contact friction term and a contact-aware motion infiller obtained via per-instance self-supervised training. To prove the effectiveness of the proposed motion priors, we combine them into a novel pipeline for 4D human body capture in 3D scenes. With our pipeline, we demonstrate high-quality 4D human body capture, reconstructing smooth motions and physically plausible body-scene interactions. The code and data are available at https://sanweiliti.github.io/LEMO/LEMO.html.
翻訳日:2021-08-25 14:28:45 公開日:2021-08-23
# 1つのTSアライメントがすべてを支配する

One TTS Alignment To Rule Them All ( http://arxiv.org/abs/2108.10447v1 )

ライセンス: Link先を確認
Rohan Badlani, Adrian {\L}ancucki, Kevin J. Shih, Rafael Valle, Wei Ping, Bryan Catanzaro(参考訳) 音声テキストアライメントは、ニューラルテキスト音声(TTS)モデルの重要な構成要素である。 自動回帰TSモデルは通常、これらのアライメントをオンラインに学習するために注意機構を使用する。 しかし、これらのアライメントは脆く、長い発話やドメイン外テキストに一般化できないことが多く、単語の欠落や繰り返しにつながる。 ほとんどの非自己回帰的エンドツーエンドTSモデルは、外部ソースから抽出された時間に依存する。 本稿では,RAD-TTSで提案するアライメント機構を汎用的なアライメント学習フレームワークとして活用する。 このフレームワークは、フォワードサムアルゴリズム、ビタビアルゴリズム、およびシンプルで効率的な静的プリミティブを組み合わせる。 我々の実験では、アライメント学習フレームワークは自動回帰(Flowtron, Tacotron2)と非自己回帰(FastPitch, FastSpeech 2, RAD-TTS)の両方でテスト済みのTSアーキテクチャを改善した。 具体的には、既存の注意に基づくメカニズムのアライメント収束速度を改善し、トレーニングパイプラインを単純化し、長い発話のエラーに対してモデルをより堅牢にする。 最も重要なことは、このフレームワークが人間の評価者によって判断されるように、知覚された音声合成品質を改善することである。

Speech-to-text alignment is a critical component of neural textto-speech (TTS) models. Autoregressive TTS models typically use an attention mechanism to learn these alignments on-line. However, these alignments tend to be brittle and often fail to generalize to long utterances and out-of-domain text, leading to missing or repeating words. Most non-autoregressive endto-end TTS models rely on durations extracted from external sources. In this paper we leverage the alignment mechanism proposed in RAD-TTS as a generic alignment learning framework, easily applicable to a variety of neural TTS models. The framework combines forward-sum algorithm, the Viterbi algorithm, and a simple and efficient static prior. In our experiments, the alignment learning framework improves all tested TTS architectures, both autoregressive (Flowtron, Tacotron 2) and non-autoregressive (FastPitch, FastSpeech 2, RAD-TTS). Specifically, it improves alignment convergence speed of existing attention-based mechanisms, simplifies the training pipeline, and makes the models more robust to errors on long utterances. Most importantly, the framework improves the perceived speech synthesis quality, as judged by human evaluators.
翻訳日:2021-08-25 14:24:50 公開日:2021-08-23
# ComSum: コミットメッセージの要約と保存の意味

ComSum: Commit Messages Summarization and Meaning Preservation ( http://arxiv.org/abs/2108.10763v1 )

ライセンス: Link先を確認
Leshem Choshen, Idan Amit(参考訳) テキスト要約のための700万のコミットメッセージからなるデータセットであるComSumを提示する。 文書化コミット時には、ソフトウェアコードが変更され、メッセージと要約の両方がポストされる。 これらを集めて、開発者の作業要約データセットをキュレートします。 サイズ、実用性、挑戦的な言語ドメインの増大とともに、データセットは経験的ソフトウェア工学の生きた分野の恩恵を受ける。 コミットはタイプロジに従っているため,ルージュによるアウトプットの評価だけでなく,その意味の保存も提案する。

We present ComSum, a data set of 7 million commit messages for text summarization. When documenting commits, software code changes, both a message and its summary are posted. We gather and filter those to curate developers' work summarization data set. Along with its growing size, practicality and challenging language domain, the data set benefits from the living field of empirical software engineering. As commits follow a typology, we propose to not only evaluate outputs by Rouge, but by their meaning preservation.
翻訳日:2021-08-25 14:24:28 公開日:2021-08-23
# 繊維CUR分解による高速ロバストテンソル主成分分析

Fast Robust Tensor Principal Component Analysis via Fiber CUR Decomposition ( http://arxiv.org/abs/2108.10448v1 )

ライセンス: Link先を確認
HanQin Cai, Zehan Chao, Longxiu Huang, Deanna Needell(参考訳) 本稿では,基礎となる低乗数テンソルとスパースアウトリーテンソルをその和から分離することを目的としたテンソルロバスト主成分分析(TRPCA)の問題について検討する。 本研究では,大規模なTRPCA問題に対して,ロバストテンソルCUR (RTCUR) という高速非凸アルゴリズムを提案する。 RTCURは射影の交互化の枠組みを考え、最近開発されたテンソルファイバーCUR分解を利用して計算複雑性を劇的に下げる。 RTCURの性能優位性は、合成データセットの最先端技術に対して実証的に検証され、カラービデオ背景抽出のような実世界のアプリケーションでさらに実証される。

We study the problem of tensor robust principal component analysis (TRPCA), which aims to separate an underlying low-multilinear-rank tensor and a sparse outlier tensor from their sum. In this work, we propose a fast non-convex algorithm, coined Robust Tensor CUR (RTCUR), for large-scale TRPCA problems. RTCUR considers a framework of alternating projections and utilizes the recently developed tensor Fiber CUR decomposition to dramatically lower the computational complexity. The performance advantage of RTCUR is empirically verified against the state-of-the-arts on the synthetic datasets and is further demonstrated on the real-world application such as color video background subtraction.
翻訳日:2021-08-25 14:23:05 公開日:2021-08-23
# 包括的ジェンダーバイアス:トルコ語と英語の機械翻訳モデルにおける事例研究

Examining Covert Gender Bias: A Case Study in Turkish and English Machine Translation Models ( http://arxiv.org/abs/2108.10379v1 )

ライセンス: Link先を確認
Chloe Ciora, Nur Iren, Malihe Alikhani(参考訳) 機械翻訳(mt)がますます強力になり、アクセスしやすく、広く普及するにつれて、バイアスの持続の可能性はその進歩とともに高まっている。 機械翻訳では偏差の過剰な指標が研究されているが、隠蔽バイアスがさらに絡み合っている問題を露呈していると主張する。 トルコ語と英語のジェンダーニュートラル言語を用いて,mtモデルにおける性別バイアスと隠密バイアスについて検討した。 具体的には、非対称性マーキングを調査する手法を提案する。 また、人格の属性のバイアスを評価し、MTモデルにおけるオーバートバイアス指標を用いて職業的・人格的ステレオタイプを調べる。 我々の研究は、MTモデルにおけるより深いバイアス層を探求し、MTモデル開発における言語固有の学際方法論の継続的な必要性を実証する。

As Machine Translation (MT) has become increasingly more powerful, accessible, and widespread, the potential for the perpetuation of bias has grown alongside its advances. While overt indicators of bias have been studied in machine translation, we argue that covert biases expose a problem that is further entrenched. Through the use of the gender-neutral language Turkish and the gendered language English, we examine cases of both overt and covert gender bias in MT models. Specifically, we introduce a method to investigate asymmetrical gender markings. We also assess bias in the attribution of personhood and examine occupational and personality stereotypes through overt bias indicators in MT models. Our work explores a deeper layer of bias in MT models and demonstrates the continued need for language-specific, interdisciplinary methodology in MT model development.
翻訳日:2021-08-25 14:22:39 公開日:2021-08-23
# CBRによる知識ベースXAI:モデルが理解できる以上の説明がある

Knowledge-based XAI through CBR: There is more to explanations than models can tell ( http://arxiv.org/abs/2108.10363v1 )

ライセンス: Link先を確認
Rosina Weber, Manil Shrestha, Adam J Johs(参考訳) 知識に基づく説明可能な人工知能の根底にある仮説は、データ中心の人工知能エージェント(ニューラルネットワークなど)に必要なデータは、そのようなエージェントの人間への決定を説明するのに必要なデータよりも、内容の多様性が低いことである。 分類器は1つの視点から現象を表現するデータを使って高い精度を達成できるが、説明のオーディエンスは複数の利害関係者を伴い、多様な視点にまたがる。 したがって、エージェントが使用するデータを補完するためにドメイン知識を使うことを提案する。 我々は,cbr法に準拠した教師付きデータ分類問題として,知識に基づく説明可能な人工知能を定式化する。 この定式化において、入力は、データ中心エージェントの入力と出力の両方からなるケース問題であり、そのケースソリューションは、ドメイン知識と課題の専門家から得られた説明カテゴリである。 この定式化は一般的に正確な分類を導くものではなく、正しい説明カテゴリーの選択を妨げている。 知識ベースの説明可能な人工知能は、説明カテゴリを選択する際に正確性を高めるドメイン知識に合わせた機能を追加することで、この定式化のデータを拡張します。

The underlying hypothesis of knowledge-based explainable artificial intelligence is the data required for data-centric artificial intelligence agents (e.g., neural networks) are less diverse in contents than the data required to explain the decisions of such agents to humans. The idea is that a classifier can attain high accuracy using data that express a phenomenon from one perspective whereas the audience of explanations can entail multiple stakeholders and span diverse perspectives. We hence propose to use domain knowledge to complement the data used by agents. We formulate knowledge-based explainable artificial intelligence as a supervised data classification problem aligned with the CBR methodology. In this formulation, the inputs are case problems composed of both the inputs and outputs of the data-centric agent and case solutions, the outputs, are explanation categories obtained from domain knowledge and subject matter experts. This formulation does not typically lead to an accurate classification, preventing the selection of the correct explanation category. Knowledge-based explainable artificial intelligence extends the data in this formulation by adding features aligned with domain knowledge that can increase accuracy when selecting explanation categories.
翻訳日:2021-08-25 14:21:59 公開日:2021-08-23
# 階層型ネットワーク分割を用いた顔認識モデルの解析

Interpreting Face Inference Models using Hierarchical Network Dissection ( http://arxiv.org/abs/2108.10360v1 )

ライセンス: Link先を確認
Divyang Teotia, Agata Lapedriza, Sarah Ostadabbas(参考訳) 本稿では,顔中心推論モデルの内部表現を解釈する汎用パイプラインである階層型ネットワーク分割を提案する。 階層型ネットワーク分割法は,確率論的定式化を用いて,モデルの単位と「顔辞書」(対応するサンプル画像を含む顔概念の集合)の概念をペアリングする。 私たちのパイプラインは、オブジェクト中心およびシーン中心モデルの一般的な解釈可能性モデルであるNetwork Dissectionにインスパイアされています。 しかし,ネットワーク分割が対処できない顔中心モデルの2つの重要な課題は,(1) 概念の空間的重なり:(2) イメージの同じ領域に同時に発生する異なる顔概念,例えば、"nose"(顔面部分)と"pointy nose"(顔面属性)、(2) グローバル概念: 顔の特定の位置を指しない概念に親和性のある単位(例: 顔の特定の位置を参照しない単位)である。 年齢)。 単位概念ペアリングの定式化の有効性を検証するために,まずバイアスデータを用いた制御実験を行った。 これらの実験は、階層的ネットワーク分割を用いてトレーニングデータのバイアスを検出する方法を示している。 そして、広く使われている顔データセットに基づいて訓練された異なる顔中心推論モデルを識別する。 結果は、異なるタスクのために訓練されたモデルが異なる内部表現を持つことを示す。 さらに, 解析結果から, トレーニングデータのバイアスと, 顔中心推論タスクの興味深い特徴が明らかになった。

This paper presents Hierarchical Network Dissection, a general pipeline to interpret the internal representation of face-centric inference models. Using a probabilistic formulation, Hierarchical Network Dissection pairs units of the model with concepts in our "Face Dictionary" (a collection of facial concepts with corresponding sample images). Our pipeline is inspired by Network Dissection, a popular interpretability model for object-centric and scene-centric models. However, our formulation allows to deal with two important challenges of face-centric models that Network Dissection cannot address: (1) spacial overlap of concepts: there are different facial concepts that simultaneously occur in the same region of the image, like "nose" (facial part) and "pointy nose" (facial attribute); and (2) global concepts: there are units with affinity to concepts that do not refer to specific locations of the face (e.g. apparent age). To validate the effectiveness of our unit-concept pairing formulation, we first conduct controlled experiments on biased data. These experiments illustrate how Hierarchical Network Dissection can be used to discover bias in the training data. Then, we dissect different face-centric inference models trained on widely-used facial datasets. The results show models trained for different tasks have different internal representations. Furthermore, the interpretability results reveal some biases in the training data and some interesting characteristics of the face-centric inference tasks.
翻訳日:2021-08-25 14:21:13 公開日:2021-08-23
# スパースマルチビューカメラを用いた軽量多人数全モーションキャプチャ

Lightweight Multi-person Total Motion Capture Using Sparse Multi-view Cameras ( http://arxiv.org/abs/2108.10378v1 )

ライセンス: Link先を確認
Yuxiang Zhang, Zhe Li, Liang An, Mengcheng Li, Tao Yu, Yebin Liu(参考訳) 重度の閉塞、体から顔、手までの再現性の違い、観察スケールの大幅な変化、体の動きの速さなど、多人数のモーションキャプチャーは極めて困難である。 上記の課題を克服するために,スパースマルチビューカメラのみを用いた多人数対話型シナリオのための軽量な全モーションキャプチャシステムを提案する。 本手法は,手と顔のブートストラップアルゴリズムを新たに提案することにより,手と顔の高精度な位置決めと正確な関連付けを行うことができる。 ポーズ回帰法とキーポイント検出法を併用し、さらに画素整列精度を実現するための2段階パラメトリックフィッティング法を提案する。 さらに, 極端に自閉されたポーズと密接なインタラクションに対して, 画素配列の再構成を次のフレームに伝播させる新しいフィードバック機構が提案されている。 全体として,最初の軽量トータルキャプチャシステムを提案し,高速でロバストで高精度なマルチパーソントータルモーションキャプチャ性能を実現する。 その結果,提案手法は,スパースビュー設定時の既存手法よりも精度が高いことがわかった。

Multi-person total motion capture is extremely challenging when it comes to handle severe occlusions, different reconstruction granularities from body to face and hands, drastically changing observation scales and fast body movements. To overcome these challenges above, we contribute a lightweight total motion capture system for multi-person interactive scenarios using only sparse multi-view cameras. By contributing a novel hand and face bootstrapping algorithm, our method is capable of efficient localization and accurate association of the hands and faces even on severe occluded occasions. We leverage both pose regression and keypoints detection methods and further propose a unified two-stage parametric fitting method for achieving pixel-aligned accuracy. Moreover, for extremely self-occluded poses and close interactions, a novel feedback mechanism is proposed to propagate the pixel-aligned reconstructions into the next frame for more accurate association. Overall, we propose the first light-weight total capture system and achieves fast, robust and accurate multi-person total motion capture performance. The results and experiments show that our method achieves more accurate results than existing methods under sparse-view setups.
翻訳日:2021-08-25 14:20:46 公開日:2021-08-23
# Graph-LDA:Few-Shot分類の精度向上に先立つグラフ構造

Graph-LDA: Graph Structure Priors to Improve the Accuracy in Few-Shot Classification ( http://arxiv.org/abs/2108.10427v1 )

ライセンス: Link先を確認
Myriam Bontonou, Nicolas Farrugia, Vincent Gripon(参考訳) 利用可能なラベル付きサンプルの数がそれらの次元よりも少ない分類問題に直面するのは非常に一般的である。 これらの条件は不確定な設定を引き起こす可能性が高く、過剰適合のリスクが高い。 訓練された分類器の一般化能力を改善するために、一般的なソリューションには、データ分散に関する事前の使用が含まれる。 多くの選択肢の中で、グラフを通して表現されるデータ構造先行は、この分野でますます人気がある。 本稿では,観測されたクラス信号が,基礎となるグラフ構造と等方性に依存せず,一方が既知のグラフ演算子によって色付けされた2つのノイズ源で劣化することが想定されるジェネリックモデルを提案する。 このモデルでは、そのような信号を分類する最適な手法を導出する。 興味深いことに、この方法論は単一のパラメータを含み、利用可能なデータが不足している場合に特に適している。 様々な実データを用いて,提案モデルが現実のシナリオに実装可能であることを示し,一般的な代替モデルと比較して一般化精度が向上することを示した。

It is very common to face classification problems where the number of available labeled samples is small compared to their dimension. These conditions are likely to cause underdetermined settings, with high risk of overfitting. To improve the generalization ability of trained classifiers, common solutions include using priors about the data distribution. Among many options, data structure priors, often represented through graphs, are increasingly popular in the field. In this paper, we introduce a generic model where observed class signals are supposed to be deteriorated with two sources of noise, one independent of the underlying graph structure and isotropic, and the other colored by a known graph operator. Under this model, we derive an optimal methodology to classify such signals. Interestingly, this methodology includes a single parameter, making it particularly suitable for cases where available data is scarce. Using various real datasets, we showcase the ability of the proposed model to be implemented in real world scenarios, resulting in increased generalization accuracy compared to popular alternatives.
翻訳日:2021-08-25 14:15:13 公開日:2021-08-23
# CoverTheFace: 深層学習と統計的形状解析を用いた顔被覆モニタリングと実演

CoverTheFace: face covering monitoring and demonstrating using deep learning and statistical shape analysis ( http://arxiv.org/abs/2108.10430v1 )

ライセンス: Link先を確認
Yixin Hu and Xingyu Li(参考訳) マスクを着用することは、ワクチンの開発に成功し、広く普及しているにもかかわらず、新型コロナウイルス(covid-19)パンデミックに対する強力な保護である。 しかし、多くは誤って着用する。 この観察により,マスクを着用している人の状態を自動で監視する手法が考案された。 従来の研究とは異なり、われわれの研究はマスク検出に留まらず、適切なマスク着用についてパーソナライズされたデモを作成することに焦点を当てている。 パイプラインは、フェイスカバーの検出から始まります。 顔が不適切に覆われている画像に対して,マスクオーバーレイモジュールは,顔の形状を近似するために統計的形状解析(ssa)と密集したランドマークアライメントを組み込んで,対応する顔被覆例を生成する。 提案システムは,顔が適切にカバーされた画像の識別に成功していることを示す。 我々のマスクオーバーレイに関するアブレーション研究は、SSAモデルが顔の形状、向き、スケールの変化に対処するのに役立つことを示唆している。 最後のフェイスカバーの例、特にハーフプロフィールのフェイスイメージは、以前のアートを著しく上回っている。

Wearing a mask is a strong protection against the COVID-19 pandemic, even though the vaccine has been successfully developed and is widely available. However, many people wear them incorrectly. This observation prompts us to devise an automated approach to monitor the condition of people wearing masks. Unlike previous studies, our work goes beyond mask detection; it focuses on generating a personalized demonstration on proper mask-wearing, which helps people use masks better through visual demonstration rather than text explanation. The pipeline starts from the detection of face covering. For images where faces are improperly covered, our mask overlay module incorporates statistical shape analysis (SSA) and dense landmark alignment to approximate the geometry of a face and generates corresponding face-covering examples. Our results show that the proposed system successfully identifies images with faces covered properly. Our ablation study on mask overlay suggests that the SSA model helps to address variations in face shapes, orientations, and scales. The final face-covering examples, especially half profile face images, surpass previous arts by a noticeable margin.
翻訳日:2021-08-25 14:11:24 公開日:2021-08-23
# L1-regularized neural ranking for risk stratification and its application to prediction of time to distance metastasis in luminal node negative chemotherapy na\"ive breast cancer patients

L1-regularized neural ranking for risk stratification and its application to prediction of time to distant metastasis in luminal node negative chemotherapy na\"ive breast cancer patients ( http://arxiv.org/abs/2108.10365v1 )

ライセンス: Link先を確認
Fayyaz Minhas, Michael S. Toss, Noor ul Wahab, Emad Rakha and Nasir M. Rajpoot(参考訳) 早期癌患者が遠隔転移のリスクが高いか, 臨床病理学的因子が関与しているか予測できるか? 本稿では,このような疑問に答えるためのランキングベース検閲対応機械学習モデルを提案する。 提案モデルでは,L1-regulrizationにより最小数の臨床病理学的共変量を用いて,リスク層序の解釈式を生成することができる。 本手法を用いて, 早期, 光(ER+, HER2-)乳がん患者, 内分泌療法を受けたが化学療法を受けなかった患者 (n = 728) と遠隔転移 (TTDM) との関連性を検討した。 提案手法を用いて得られたTTDMリスク層序式は, 主に有糸分裂スコア, 組織型腫瘍, リンパ血管浸潤に基づく。 これらの発見は、遠隔転移のリスクを高めるためにこれらの共変量の既知の役割と共生する。 以上の結果から, リスク階層化式は, 遠隔転移リスクの高い症例 (p-value < 0.005) と低リスク症例 (concordance-index 0.73) の分類が可能であり, また, 遠隔転移までの期間にもとづく分類が可能であった。

Can we predict if an early stage cancer patient is at high risk of developing distant metastasis and what clinicopathological factors are associated with such a risk? In this paper, we propose a ranking based censoring-aware machine learning model for answering such questions. The proposed model is able to generate an interpretable formula for risk stratifi-cation using a minimal number of clinicopathological covariates through L1-regulrization. Using this approach, we analyze the association of time to distant metastasis (TTDM) with various clinical parameters for early stage, luminal (ER+ or HER2-) breast cancer patients who received endocrine therapy but no chemotherapy (n = 728). The TTDM risk stratification formula obtained using the proposed approach is primarily based on mitotic score, histolog-ical tumor type and lymphovascular invasion. These findings corroborate with the known role of these covariates in increased risk for distant metastasis. Our analysis shows that the proposed risk stratification formula can discriminate between cases with high and low risk of distant metastasis (p-value < 0.005) and can also rank cases based on their time to distant metastasis with a concordance-index of 0.73.
翻訳日:2021-08-25 14:09:41 公開日:2021-08-23
# 周辺環境を利用した携帯電話上での視覚文書からの情報抽出

Using Neighborhood Context to Improve Information Extraction from Visual Documents Captured on Mobile Phones ( http://arxiv.org/abs/2108.10395v1 )

ライセンス: Link先を確認
Kalpa Gunaratna, Vijay Srinivasan, Sandeep Nama, Hongxia Jin(参考訳) ビジュアルドキュメントからの情報抽出は、エンドユーザにとって便利でインテリジェントな支援を可能にする。 本研究では, 周辺言語モデルを用いて, 視覚文書の局所的コンテキストに注意を払い, 情報抽出精度を向上させる, 近隣情報抽出(NIE)アプローチを提案する。 我々は2つの異なるビジュアルドキュメントデータセットを収集し、我々のアプローチが最先端のグローバルなコンテキストベースIE技術より優れていることを示す。 実際、NIEは、小型と大型のモデルサイズの両方で既存のアプローチより優れている。 通常、小型モデルを必要とするモバイルプラットフォーム上でのNIEのオンデバイス実装は、実世界の実用的なアプリケーションにおけるNIEの有用性を示している。

Information Extraction from visual documents enables convenient and intelligent assistance to end users. We present a Neighborhood-based Information Extraction (NIE) approach that uses contextual language models and pays attention to the local neighborhood context in the visual documents to improve information extraction accuracy. We collect two different visual document datasets and show that our approach outperforms the state-of-the-art global context-based IE technique. In fact, NIE outperforms existing approaches in both small and large model sizes. Our on-device implementation of NIE on a mobile platform that generally requires small models showcases NIE's usefulness in practical real-world applications.
翻訳日:2021-08-25 14:09:13 公開日:2021-08-23
# 変分量子アルゴリズムにおける高速収束のための適応ショット割り当て

Adaptive shot allocation for fast convergence in variational quantum algorithms ( http://arxiv.org/abs/2108.10434v1 )

ライセンス: Link先を確認
Andi Gu, Angus Lowe, Pavel A. Dub, Patrick J. Coles, Andrew Arrasmith(参考訳) 変分量子アルゴリズム (vqas) は、短期量子コンピュータにおける化学や材料科学のような実用的な応用への有望なアプローチである。 しかしながら、VQAを実装するには、効率的な古典最適化戦略が必要である。 本稿では,各ステップにおける適応ショット数を用いた新しい確率的勾配降下法であるglobal coupled adaptive number of shots (gcans)法を提案する。 これらの改善により、現在のクラウドプラットフォーム上でVQAを実行するのに必要な時間と費用が削減される。 解析的に、凸集合 gCANS が最適点への幾何収束を達成することを証明した。 さらに,いくつかの化学構成問題に対するgcansの性能を数値的に検討した。 また,異なるスピン数を持つIsingモデルの基底状態の探索も検討し,手法のスケーリングについて検討する。 これらの問題に対して、gCANSは私たちが考慮している他のオプティマイザと良好に比較できる。

Variational Quantum Algorithms (VQAs) are a promising approach for practical applications like chemistry and materials science on near-term quantum computers as they typically reduce quantum resource requirements. However, in order to implement VQAs, an efficient classical optimization strategy is required. Here we present a new stochastic gradient descent method using an adaptive number of shots at each step, called the global Coupled Adaptive Number of Shots (gCANS) method, which improves on prior art in both the number of iterations as well as the number of shots required. These improvements reduce both the time and money required to run VQAs on current cloud platforms. We analytically prove that in a convex setting gCANS achieves geometric convergence to the optimum. Further, we numerically investigate the performance of gCANS on some chemical configuration problems. We also consider finding the ground state for an Ising model with different numbers of spins to examine the scaling of the method. We find that for these problems, gCANS compares favorably to all of the other optimizers we consider.
翻訳日:2021-08-25 14:09:03 公開日:2021-08-23
# 行動空間探索による無線システムの最適決定性資源配分のモデル自由学習

Model-Free Learning of Optimal Deterministic Resource Allocations in Wireless Systems via Action-Space Exploration ( http://arxiv.org/abs/2108.10352v1 )

ライセンス: Link先を確認
Hassaan Hashmi and Dionysios S. Kalogerias(参考訳) ワイヤレスシステムのリソース割り当ては、永続的で挑戦的な非凸制約付き最適化タスクを指しており、特に、不均一な目的と不正確あるいは未知のモデルやチャネル統計を持つ複数のユーザを含む現代の通信およびネットワーク設定においてタイムリーである。 本稿では,最適パラメータ化資源割り当てポリシーを効率よく学習するための,技術的基盤と拡張性のある原始双対決定性ポリシー勾配法を提案する。 提案手法は,深層ニューラルネットワークなどの一般的な普遍的政策表現の勾配を効率よく活用するだけでなく,行動空間の低次元摂動によって構築された関連するランダムネットワークサービスのゼロ階勾配近似を一貫したゼロ階勾配近似に頼っているため,真のモデルフリーである。 理論と数値シミュレーションの両方が提案手法の有効性と適用性を確認し、ほぼ最適性能とスケーラビリティの両面において現在の技術よりも優れていることを証明している。

Wireless systems resource allocation refers to perpetual and challenging nonconvex constrained optimization tasks, which are especially timely in modern communications and networking setups involving multiple users with heterogeneous objectives and imprecise or even unknown models and/or channel statistics. In this paper, we propose a technically grounded and scalable primal-dual deterministic policy gradient method for efficiently learning optimal parameterized resource allocation policies. Our method not only efficiently exploits gradient availability of popular universal policy representations, such as deep neural networks, but is also truly model-free, as it relies on consistent zeroth-order gradient approximations of the associated random network services constructed via low-dimensional perturbations in action space, thus fully bypassing any dependence on critics. Both theory and numerical simulations confirm the efficacy and applicability of the proposed approach, as well as its superiority over the current state of the art in terms of both achieving near-optimal performance and scalability.
翻訳日:2021-08-25 14:07:23 公開日:2021-08-23
# 自動車の縦軌道予測と高架道路の車線変化

Predicting Vehicles' Longitudinal Trajectories and Lane Changes on Highway On-Ramps ( http://arxiv.org/abs/2108.10397v1 )

ライセンス: Link先を確認
Nachuan Li, Riley Fischer, Wissam Kontar, Soyoung Ahn(参考訳) 高速道路を走行する車両は渋滞の原因の1つだ。 本稿では,高速道路における車両の縦方向の軌跡と車線変化(LC)を予測するための予測フレームワークを提案する。 具体的には,軌道の4秒間を入力し,最大15秒前の長手軌跡とLCの予測を出力する予測モデルを組み合わせる。 次世代シミュレーション(NGSIM)データに基づくトレーニングと検証により,開発したモデルの予測能力とその精度は,従来の長短メモリ(LSTM)モデルよりも優れていた。 最終的に、ここで提示された作業は、オンランプで経験する渋滞を緩和し、安全性を改善し、効果的な交通制御戦略を導くことができる。

Vehicles on highway on-ramps are one of the leading contributors to congestion. In this paper, we propose a prediction framework that predicts the longitudinal trajectories and lane changes (LCs) of vehicles on highway on-ramps and tapers. Specifically, our framework adopts a combination of prediction models that inputs a 4 seconds duration of a trajectory to output a forecast of the longitudinal trajectories and LCs up to 15 seconds ahead. Training and Validation based on next generation simulation (NGSIM) data show that the prediction power of the developed model and its accuracy outperforms a traditional long-short term memory (LSTM) model. Ultimately, the work presented here can alleviate the congestion experienced on on-ramps, improve safety, and guide effective traffic control strategies.
翻訳日:2021-08-25 14:07:05 公開日:2021-08-23
# 強化学習による電力グリッドカスケード故障軽減

Power Grid Cascading Failure Mitigation by Reinforcement Learning ( http://arxiv.org/abs/2108.10424v1 )

ライセンス: Link先を確認
Yongli Zhu(参考訳) 本稿では,強化学習(RL)に基づくカスケード障害軽減戦略を提案する。 マルチステージカスケード障害(MSCF)問題の動機と気候変動の課題との関連について紹介する。 mcsf問題のボトムレベル補正制御はdcopf(direct current optimal power flow)に基づいて定式化される。 そして、高レベルなRL戦略によりMSCF問題を緩和するために、物理学的インフォームド報酬、行動、状態が考案される。 さらに、浅層と深層の両方のニューラルネットワークアーキテクチャがテストされている。 提案手法によるIEEE 118バスシステム実験は,システム崩壊の低減に有望な性能を示す。

This paper proposes a cascading failure mitigation strategy based on Reinforcement Learning (RL). The motivation of the Multi-Stage Cascading Failure (MSCF) problem and its connection with the challenge of climate change are introduced. The bottom-level corrective control of the MCSF problem is formulated based on DCOPF (Direct Current Optimal Power Flow). Then, to mitigate the MSCF issue by a high-level RL-based strategy, physics-informed reward, action, and state are devised. Besides, both shallow and deep neural network architectures are tested. Experiments on the IEEE 118-bus system by the proposed mitigation strategy demonstrate a promising performance in reducing system collapses.
翻訳日:2021-08-25 14:06:53 公開日:2021-08-23
# ロバストリスク対応強化学習

Robust Risk-Aware Reinforcement Learning ( http://arxiv.org/abs/2108.10403v1 )

ライセンス: Link先を確認
Sebastian Jaimungal, Silvana Pesenti, Ye Sheng Wang, and Hariom Tatsat(参考訳) 本稿では、リスク認識性能基準の堅牢な最適化のための強化学習(RL)手法を提案する。 エージェントが様々なリスク・リワードプロファイルを表現できるようにするために,ランク依存型予測ユーティリティ(RDEU)を用いて政策の価値を評価する。 RDEUはエージェントがゲインを求め、同時にダウンサイドイベントから自身を保護する。 モデル不確実性に対する最適ポリシーを確固たるものにするために、我々はその分布ではなく、ワッサーシュタイン球の内部にある最悪の分布によってポリシーを評価する。 このように、我々の問題定式化は、ポリシー(外部問題)を選択するアクターと見なすことができ、敵は、その戦略(内部問題)の性能を悪化させるために行動する。 我々は,内外問題に対する明示的な政策勾配を定式化し,ロバスト・ポートフォリオ・アロケーション,ベンチマークの最適化,統計的仲裁という3つの原型的金融問題に対する効果を示す。

We present a reinforcement learning (RL) approach for robust optimisation of risk-aware performance criteria. To allow agents to express a wide variety of risk-reward profiles, we assess the value of a policy using rank dependent expected utility (RDEU). RDEU allows the agent to seek gains, while simultaneously protecting themselves against downside events. To robustify optimal policies against model uncertainty, we assess a policy not by its distribution, but rather, by the worst possible distribution that lies within a Wasserstein ball around it. Thus, our problem formulation may be viewed as an actor choosing a policy (the outer problem), and the adversary then acting to worsen the performance of that strategy (the inner problem). We develop explicit policy gradient formulae for the inner and outer problems, and show its efficacy on three prototypical financial problems: robust portfolio allocation, optimising a benchmark, and statistical arbitrage
翻訳日:2021-08-25 14:05:03 公開日:2021-08-23
# GitHub Copilotのコードコントリビューションに関する実証的サイバーセキュリティ評価

An Empirical Cybersecurity Evaluation of GitHub Copilot's Code Contributions ( http://arxiv.org/abs/2108.09293v2 )

ライセンス: Link先を確認
Hammond Pearce, Baleegh Ahmad, Benjamin Tan, Brendan Dolan-Gavitt, Ramesh Karri(参考訳) コンピュータコードを自動的に生成するツールを含む、人間がコンピュータシステムの設計を支援するAIベースのシステムを設計することへの関心は急速に高まっている。 最も有名なのは、オープンソースのGitHubコードでトレーニングされた言語モデルである、最初の自己記述型の‘AIペアプログラマ’であるGitHub Copilotである。 しかし、コードにはしばしばバグが含まれているため、Copilotが処理した大量の未検証コードを考えると、言語モデルが悪用可能なバグのあるコードから学べることは確かです。 これにより、copilotのコードコントリビュートに対するセキュリティの懸念が高まる。 本研究では,GitHub Copilotがセキュアでないコードを推奨する原因となる状況と状況について,体系的に調査する。 この分析を実行するために、copilotにハイリスクcweに関連するシナリオでコードを生成するように促します。 MITREの"Top 25"リストから引用)。 弱点の多様性、プロンプトの多様性、ドメインの多様性を考慮して、3つの異なるコード生成軸でcopilotのパフォーマンスを調べます。 総じて、Copilotが完成するための89のシナリオを生成し、1,692のプログラムを生成します。 これらのうち、約40%が脆弱であることが分かりました。

There is burgeoning interest in designing AI-based systems to assist humans in designing computing systems, including tools that automatically generate computer code. The most notable of these comes in the form of the first self-described `AI pair programmer', GitHub Copilot, a language model trained over open-source GitHub code. However, code often contains bugs - and so, given the vast quantity of unvetted code that Copilot has processed, it is certain that the language model will have learned from exploitable, buggy code. This raises concerns on the security of Copilot's code contributions. In this work, we systematically investigate the prevalence and conditions that can cause GitHub Copilot to recommend insecure code. To perform this analysis we prompt Copilot to generate code in scenarios relevant to high-risk CWEs (e.g. those from MITRE's "Top 25" list). We explore Copilot's performance on three distinct code generation axes -- examining how it performs given diversity of weaknesses, diversity of prompts, and diversity of domains. In total, we produce 89 different scenarios for Copilot to complete, producing 1,692 programs. Of these, we found approximately 40% to be vulnerable.
翻訳日:2021-08-25 09:21:19 公開日:2021-08-23
# (参考訳) DTWSSE:シームズエンコーダによる時系列データ拡張

DTWSSE: Data Augmentation with a Siamese Encoder for Time Series ( http://arxiv.org/abs/2108.09885v1 )

ライセンス: CC BY 4.0
Xinyu Yang, Xinlan Zhang, Zhenguo Zhang, Yahui Zhao, Rongyi Cui(参考訳) ラベル付き時系列データへのアクセスは、現実世界ではしばしば制限されるため、時系列分析の分野でのディープラーニングモデルのパフォーマンスが制限される。 データ拡張は、小さなサンプルサイズと時系列データセットの不均衡の問題を解決する効果的な方法である。 データ拡張の2つの重要な要素は距離メートル法と補間法の選択である。 SMOTEはユークリッド距離メートル法を使用し、オブジェクトに直接補間するため、時系列データではうまく機能しない。 そこで本研究では,DTWSSE と呼ばれる補間のためのシアムエンコーダを用いた DTW に基づく合成マイノリティオーバーサンプリング手法を提案する。 時系列距離を適度に測定するために、有効な方法の砦であることが証明されたdtwを距離メトリクスとして採用する。 DTW測定値に適応するために、教師なしの自己学習方式で訓練されたオートエンコーダを用いて補間を行う。 エンコーダは、dtw隠れ空間からユークリッド深層特徴空間への時系列データをマッピングするシームニューラルネットであり、デコーダは、dtw隠れ空間に深い特徴空間をマッピングするために使用される。 提案手法を,複数の異なるバランスのとれた時系列データセット上で検証した。 実験の結果,提案手法は下流深層学習モデルの性能向上につながることが示された。

Access to labeled time series data is often limited in the real world, which constrains the performance of deep learning models in the field of time series analysis. Data augmentation is an effective way to solve the problem of small sample size and imbalance in time series datasets. The two key factors of data augmentation are the distance metric and the choice of interpolation method. SMOTE does not perform well on time series data because it uses a Euclidean distance metric and interpolates directly on the object. Therefore, we propose a DTW-based synthetic minority oversampling technique using siamese encoder for interpolation named DTWSSE. In order to reasonably measure the distance of the time series, DTW, which has been verified to be an effective method forts, is employed as the distance metric. To adapt the DTW metric, we use an autoencoder trained in an unsupervised self-training manner for interpolation. The encoder is a Siamese Neural Network for mapping the time series data from the DTW hidden space to the Euclidean deep feature space, and the decoder is used to map the deep feature space back to the DTW hidden space. We validate the proposed methods on a number of different balanced or unbalanced time series datasets. Experimental results show that the proposed method can lead to better performance of the downstream deep learning model.
翻訳日:2021-08-25 00:17:45 公開日:2021-08-23
# (参考訳) グラフ異常検出のための生成的・対照的自己教師付き学習

Generative and Contrastive Self-Supervised Learning for Graph Anomaly Detection ( http://arxiv.org/abs/2108.09896v1 )

ライセンス: CC BY 4.0
Yu Zheng, Ming Jin, Yixin Liu, Lianhua Chi, Khoa T. Phan, Yi-Ping Phoebe Chen(参考訳) グラフデータからの異常検出は、サイバーセキュリティ、ファイナンス、ソーシャルネットワークなど、多くの重要なアプリケーションで実用上重要な意味を持つため、多くの注目を集めている。 既存のデータマイニングと機械学習の手法は、グラフデータの複雑な相互依存を効果的に捉えられない浅い方法か、文脈情報を効果的な異常検出のための監視信号として活用できないグラフオートエンコーダ手法である。 本稿では,これらの課題を克服するために,グラフ異常検出のための自己教師あり学習(sl-gad)を提案する。 本手法は,対象ノードに基づいて異なる文脈的サブグラフ(ビュー)を構築し,生成属性回帰と多視点コントラスト学習という2つのモジュールを用いて異常検出を行う。 生成属性回帰モジュールは属性空間内の異常をキャプチャできるが、マルチビューコントラスト学習モジュールは複数のサブグラフからよりリッチな構造情報を利用することができるため、構造空間内の異常を捕捉し、構造と属性情報を混合する。 本研究では,6つのベンチマークデータセットに対する広範な実験を行い,本手法が最先端の手法よりも高い性能を示すことを示した。

Anomaly detection from graph data has drawn much attention due to its practical significance in many critical applications including cybersecurity, finance, and social networks. Existing data mining and machine learning methods are either shallow methods that could not effectively capture the complex interdependency of graph data or graph autoencoder methods that could not fully exploit the contextual information as supervision signals for effective anomaly detection. To overcome these challenges, in this paper, we propose a novel method, Self-Supervised Learning for Graph Anomaly Detection (SL-GAD). Our method constructs different contextual subgraphs (views) based on a target node and employs two modules, generative attribute regression and multi-view contrastive learning for anomaly detection. While the generative attribute regression module allows us to capture the anomalies in the attribute space, the multi-view contrastive learning module can exploit richer structure information from multiple subgraphs, thus abling to capture the anomalies in the structure space, mixing of structure, and attribute information. We conduct extensive experiments on six benchmark datasets and the results demonstrate that our method outperforms state-of-the-art methods by a large margin.
翻訳日:2021-08-25 00:06:37 公開日:2021-08-23
# (参考訳) 境界不確かさ推定を用いた弱教師付アモーダルセグメンタ

A Weakly Supervised Amodal Segmenter with Boundary Uncertainty Estimation ( http://arxiv.org/abs/2108.09897v1 )

ライセンス: CC BY 4.0
Khoi Nguyen, Sinisa Todorovic(参考訳) 本稿では,弱教師付きアモーダルインスタンスセグメンテーション(amodal instance segmentation)に対処し,可視および遮蔽(amodal)オブジェクトのセグメンテーションと,地対可視(modal)セグメンテーションのみを提供するトレーニングを目標とする。 先行研究の後,訓練画像におけるオクルージョン生成にデータ操作を用い,セグメンタを訓練し,操作されたデータのアモーダルセグメンテーションを予測する。 トレーニング画像の予測結果は,テスト画像のアモーダルなインスタンスセグメンテーションに使用するMask-RCNNの標準トレーニングにおいて,擬似地下真実として捉えられている。 疑似地下真実を生成するために,境界不確実性推定(ASBU)に基づく新しいアモーダルセグメンタを定義し,2つのコントリビューションを行う。 まず、先行作業ではオクルーダーマスクを使用しますが、ASBUではオクルージョン境界を入力として使用しています。 次に、ASBUは予測の不確実性マップを推定する。 推定不確実性は、不確実性の高い領域において低いセグメンテーション損失が発生するように学習を規則化する。 ASBUは,COCOAデータセットとKINSデータセットの3つのタスク – アモーダルインスタンスセグメンテーション,アモーダル補完,オーダリングリカバリ – に関する技術状況に対して,大幅なパフォーマンス向上を実現している。

This paper addresses weakly supervised amodal instance segmentation, where the goal is to segment both visible and occluded (amodal) object parts, while training provides only ground-truth visible (modal) segmentations. Following prior work, we use data manipulation to generate occlusions in training images and thus train a segmenter to predict amodal segmentations of the manipulated data. The resulting predictions on training images are taken as the pseudo-ground truth for the standard training of Mask-RCNN, which we use for amodal instance segmentation of test images. For generating the pseudo-ground truth, we specify a new Amodal Segmenter based on Boundary Uncertainty estimation (ASBU) and make two contributions. First, while prior work uses the occluder's mask, our ASBU uses the occlusion boundary as input. Second, ASBU estimates an uncertainty map of the prediction. The estimated uncertainty regularizes learning such that lower segmentation loss is incurred on regions with high uncertainty. ASBU achieves significant performance improvement relative to the state of the art on the COCOA and KINS datasets in three tasks: amodal instance segmentation, amodal completion, and ordering recovery.
翻訳日:2021-08-24 23:38:25 公開日:2021-08-23
# (参考訳) シングルビュー3次元再構成のためのブラックボックス試験時間形状改善

Black-Box Test-Time Shape REFINEment for Single View 3D Reconstruction ( http://arxiv.org/abs/2108.09911v1 )

ライセンス: CC BY 4.0
Brandon Leung, Chih-Hui Ho, Nuno Vasconcelos(参考訳) 画像から物体の3次元形状、すなわち物体の3次元形状を復元する手法が近年進歩している。 シングルビュー3D再構築。 しかし,現在の手法では,入力画像の形状を真に理解するのではなく,単に「アレスト近傍」戦略を採用することが示唆されている。 本稿では,(1)粗い再構成と入力画像との矛盾,(2)ドメインをまたがる一般化ができないこと,等を厳格に示す。 そこで本研究では,黒箱法のパイプラインに容易に統合可能な後処理メッシュ改良ステップであるrefineを提案する。 テスト時には、REFINEはメッシュ毎のネットワークインスタンスを最適化し、メッシュと所定のオブジェクトビュー間の一貫性を促進する。 これは損失の正規化という新たな組み合わせと共に、ドメインギャップを減らし、アートパフォーマンスの状態を達成します。 我々は、この新パラダイムが、新しい再建ネットワークの導入に伴って、堅牢で正確な再構築に向けた重要なステップであると信じている。

Much recent progress has been made in reconstructing the 3D shape of an object from an image of it, i.e. single view 3D reconstruction. However, it has been suggested that current methods simply adopt a "nearest-neighbor" strategy, instead of genuinely understanding the shape behind the input image. In this paper, we rigorously show that for many state of the art methods, this issue manifests as (1) inconsistencies between coarse reconstructions and input images, and (2) inability to generalize across domains. We thus propose REFINE, a postprocessing mesh refinement step that can be easily integrated into the pipeline of any black-box method in the literature. At test time, REFINE optimizes a network per mesh instance, to encourage consistency between the mesh and the given object view. This, along with a novel combination of regularizing losses, reduces the domain gap and achieves state of the art performance. We believe that this novel paradigm is an important step towards robust, accurate reconstructions, remaining relevant as new reconstruction networks are introduced.
翻訳日:2021-08-24 23:13:57 公開日:2021-08-23
# (参考訳) 臨床シーケンスラベリングにおける注釈の粒度とコストの分析

Analyzing the Granularity and Cost of Annotation in Clinical Sequence Labeling ( http://arxiv.org/abs/2108.09913v1 )

ライセンス: CC BY 4.0
Haozhan Sun, Chenchen Xu, Hanna Suominen(参考訳) 最近のトップ研究で示されているように、よく注釈付けられたデータセットは、教師付き機械学習(ML)において、これまで以上に研究者にとって重要になっている。 しかし、データセットのアノテーションプロセスとその関連する人的労働コストは見落とされ続けている。 本研究は,看護シフトチェンジハンドオーバによる臨床記録を用いて,シーケンスラベリングにおけるアノテーションの粒度とMLパフォーマンスの関係を解析する。 まず, 看護知識に基づく追加情報なしに, テキスト言語特徴のみから派生したモデルについて検討した。 このシーケンスタグは、この粒度の下のほとんどのカテゴリでよく機能する。 次に,看護婦による追加のマニュアルアノテーションを含め,ほぼ同一のシーケンスタグ付け性能を示す。 最後に,投資のリターンが低かったため,詳細な粒度に注釈を付ける必要がなく,かつ推奨されないという,コミュニティへのガイドラインと参照を与える。 したがって,テキスト知識などの他の特徴を研究者や実践者に対して,シーケンスラベリング性能を向上させるための費用対効果の高い情報源として強調することを推奨する。

Well-annotated datasets, as shown in recent top studies, are becoming more important for researchers than ever before in supervised machine learning (ML). However, the dataset annotation process and its related human labor costs remain overlooked. In this work, we analyze the relationship between the annotation granularity and ML performance in sequence labeling, using clinical records from nursing shift-change handover. We first study a model derived from textual language features alone, without additional information based on nursing knowledge. We find that this sequence tagger performs well in most categories under this granularity. Then, we further include the additional manual annotations by a nurse, and find the sequence tagging performance remaining nearly the same. Finally, we give a guideline and reference to the community arguing it is not necessary and even not recommended to annotate in detailed granularity because of a low Return on Investment. Therefore we recommend emphasizing other features, like textual knowledge, for researchers and practitioners as a cost-effective source for increasing the sequence labeling performance.
翻訳日:2021-08-24 22:57:59 公開日:2021-08-23
# (参考訳) 実世界のX線セキュリティ検査に向けて:禁止項目検出のための高品質ベンチマークと横方向抑制モジュール

Towards Real-world X-ray Security Inspection: A High-Quality Benchmark and Lateral Inhibition Module for Prohibited Items Detection ( http://arxiv.org/abs/2108.09917v1 )

ライセンス: CC BY 4.0
Renshuai Tao, Yanlu Wei, Xiangjian Jiang, Hainan Li, Haotong Qin, Jiakai Wang, Yuqing Ma, Libo Zhang, Xianglong Liu(参考訳) X線画像における禁止アイテムの検出は、公共の安全を守る上で重要な役割を担い、しばしば色単調で光沢のない物体を扱い、不満足なパフォーマンスをもたらす。 これまで、特殊な高品質データセットが欠如しているため、この問題に触発する研究はまれである。 本研究ではまず,8カテゴリの102,928の共通禁止項目を含む,高品質なX線(HiXray)セキュリティ検査画像データセットを提示する。 これは、空港のセキュリティ検査から収集され、専門家のセキュリティ検査官によって注釈付された、禁止項目検出のための高品質のデータセットである。 また,正確な禁止項目検出のために,不適切な情報を無視し,特にオブジェクトが重なり合う場合に,識別可能な特徴に焦点をあてることで,人間がこれらの項目を認識できることに着想を得た横方向抑制モジュール(LIM)を提案する。 具体的には、厳密に設計されたフレキシブルな追加モジュールであるLIMは、双方向伝搬(BP)モジュールによって最大に流れるノイズ情報を抑圧し、境界活性化(BA)モジュールによって4方向から最も識別可能なカリスマ性境界を活性化する。 提案手法はHiXrayとOPIXrayで広範に評価し,SOTA検出法より優れていることを示す。

Prohibited items detection in X-ray images often plays an important role in protecting public safety, which often deals with color-monotonous and luster-insufficient objects, resulting in unsatisfactory performance. Till now, there have been rare studies touching this topic due to the lack of specialized high-quality datasets. In this work, we first present a High-quality X-ray (HiXray) security inspection image dataset, which contains 102,928 common prohibited items of 8 categories. It is the largest dataset of high quality for prohibited items detection, gathered from the real-world airport security inspection and annotated by professional security inspectors. Besides, for accurate prohibited item detection, we further propose the Lateral Inhibition Module (LIM) inspired by the fact that humans recognize these items by ignoring irrelevant information and focusing on identifiable characteristics, especially when objects are overlapped with each other. Specifically, LIM, the elaborately designed flexible additional module, suppresses the noisy information flowing maximumly by the Bidirectional Propagation (BP) module and activates the most identifiable charismatic, boundary, from four directions by Boundary Activation (BA) module. We evaluate our method extensively on HiXray and OPIXray and the results demonstrate that it outperforms SOTA detection methods.
翻訳日:2021-08-24 22:48:06 公開日:2021-08-23
# (参考訳) 非可換代数を用いた畳み込みフィルタとニューラルネットワーク

Convolutional Filtering and Neural Networks with Non Commutative Algebras ( http://arxiv.org/abs/2108.09923v1 )

ライセンス: CC BY 4.0
Alejandro Parada-Mayorga and Alejandro Ribeiro(参考訳) 本稿では,非可換代数に基づく代数的ニューラルネットワーク(AlgNN)の安定性について述べる。 AlgNNは代数、ベクトル空間、準同型によって決定される代数信号モデル(ASM)に関連付けられた各層を持つ積層構造である。 信号はベクトル空間の要素としてモデル化され、フィルターは代数の要素であり、準同型はフィルターを具体的作用素として実現する。 非可換代数における代数フィルタの準同型摂動に対する安定性について検討し、安定性が保証される条件を提供する。 シフト作用素とシフトと摂動の間の可換性は、安定であることのアーキテクチャの性質に影響を与えないことを示す。 これは、安定性を保証するのにシフト不変性が畳み込みアーキテクチャの必要特性であったかどうかという疑問に対する答えを提供する。 さらに、非可換代数におけるフィルタの周波数応答は可換代数におけるフィルタとはかなり異なるが、安定なフィルタに対するそれらの導関数は類似した挙動を持つことを示した。

In this paper we provide stability results for algebraic neural networks (AlgNNs) based on non commutative algebras. AlgNNs are stacked layered structures with each layer associated to an algebraic signal model (ASM) determined by an algebra, a vector space, and a homomorphism. Signals are modeled as elements of the vector space, filters are elements in the algebra, while the homomorphism provides a realization of the filters as concrete operators. We study the stability of the algebraic filters in non commutative algebras to perturbations on the homomorphisms, and we provide conditions under which stability is guaranteed. We show that the commutativity between shift operators and between shifts and perturbations does not affect the property of an architecture of being stable. This provides an answer to the question of whether shift invariance was a necessary attribute of convolutional architectures to guarantee stability. Additionally, we show that although the frequency responses of filters in non commutative algebras exhibit substantial differences with respect to filters in commutative algebras, their derivatives for stable filters have a similar behavior.
翻訳日:2021-08-24 22:33:46 公開日:2021-08-23
# (参考訳) TwitterにおけるSarcasm検出 -- データ拡張時のパフォーマンスへの影響: ワード埋め込み

Sarcasm Detection in Twitter -- Performance Impact when using Data Augmentation: Word Embeddings ( http://arxiv.org/abs/2108.09924v1 )

ライセンス: CC BY 4.0
Alif Tri Handoyo, Hidayaturrahman, Derwin Suhartono(参考訳) サルカスム(Sarcasm)は、通常、誰かをモックしたり、困らせたり、ユーモラスな目的のために使われる言葉である。 sarcasmは、主にソーシャルネットワークやマイクロブログウェブサイトで使われており、人々がモックしたり検閲したりすることで、人間が何を言ったかが意味なのかを判断するのが難しくなっている。 感情分析や意見マイニングといった自然言語処理アプリケーションにおける皮肉な発話の識別に失敗すると、分類アルゴリズムが混同され、誤った結果が生成される。 サルカズム検出に関するいくつかの研究は、異なる学習アルゴリズムを利用している。 しかし、これらの学習モデルのほとんどは、常に表現の内容のみに焦点を合わせており、文脈情報は孤立している。 その結果,サルコスティック表現における文脈情報の把握に失敗した。 さらに、いくつかの研究で使われるデータセットには、モデル結果に影響を与える不均衡データセットがある。 本稿では、RoBERTaを用いたTwitterにおける皮肉識別のための文脈モデルを提案し、単語埋め込みと文脈学習の構築にGlobal Vector representation(GloVe)を適用してデータセットを増強し、より多くのデータを生成し、データセットのバランスをとる。 この手法の有効性は、様々なデータセットとデータ拡張設定でテストされる。 特に、データ拡張を使用する場合のiSarcasmデータセットのパフォーマンスは3.2%向上し、サーカシック(sarcastic)とラベル付けされたデータの20%が増加し、結果、Fスコアはデータ拡張なしの37.2%に対して40.4%向上した。

Sarcasm is the use of words usually used to either mock or annoy someone, or for humorous purposes. Sarcasm is largely used in social networks and microblogging websites, where people mock or censure in a way that makes it difficult even for humans to tell if what is said is what is meant. Failure to identify sarcastic utterances in Natural Language Processing applications such as sentiment analysis and opinion mining will confuse classification algorithms and generate false results. Several studies on sarcasm detection have utilized different learning algorithms. However, most of these learning models have always focused on the contents of expression only, leaving the contextual information in isolation. As a result, they failed to capture the contextual information in the sarcastic expression. Moreover, some datasets used in several studies have an unbalanced dataset which impacting the model result. In this paper, we propose a contextual model for sarcasm identification in twitter using RoBERTa, and augmenting the dataset by applying Global Vector representation (GloVe) for the construction of word embedding and context learning to generate more data and balancing the dataset. The effectiveness of this technique is tested with various datasets and data augmentation settings. In particular, we achieve performance gain by 3.2% in the iSarcasm dataset when using data augmentation to increase 20% of data labeled as sarcastic, resulting F-score of 40.4% compared to 37.2% without data augmentation.
翻訳日:2021-08-24 22:08:24 公開日:2021-08-23
# (参考訳) SegMix: セマンティックセグメンテーションと対向ロバストネスのための共起駆動混合

SegMix: Co-occurrence Driven Mixup for Semantic Segmentation and Adversarial Robustness ( http://arxiv.org/abs/2108.09929v1 )

ライセンス: CC0 1.0
Md Amirul Islam, Matthew Kowal, Konstantinos G. Derpanis, Neil D. B. Bruce(参考訳) 本稿では,ネットワーク全体のカテゴリ間情報に関連する競合仮説から生じる干渉を効果的に解消する,畳み込みニューラルネットワークのトレーニング戦略を提案する。 この前提は機能バインディングの概念に基づいており、ネットワーク内の層と空間にまたがる活性化をうまく統合して正しい推論決定に達するプロセスとして定義される。 本研究は, (i) カテゴリクラスタリングや (ii) カテゴリの共起可能性に基づくイメージをブレンドすることにより, 高密度画像ラベリングのタスクを実現する。 次に、ブレンド画像の分割と分離を同時に行う機能バインディングネットワークを訓練する。 その後、ノイズの活性化を抑制する特徴が追加の望ましい特性と高い確率の予測を示す。 このプロセスを通じて,基本セグメンテーションとサリエンシネットワークの性能を向上すると同時に,敵攻撃に対するロバスト性を高めるための一般的なメカニズムを明らかにする。

In this paper, we present a strategy for training convolutional neural networks to effectively resolve interference arising from competing hypotheses relating to inter-categorical information throughout the network. The premise is based on the notion of feature binding, which is defined as the process by which activations spread across space and layers in the network are successfully integrated to arrive at a correct inference decision. In our work, this is accomplished for the task of dense image labelling by blending images based on (i) categorical clustering or (ii) the co-occurrence likelihood of categories. We then train a feature binding network which simultaneously segments and separates the blended images. Subsequent feature denoising to suppress noisy activations reveals additional desirable properties and high degrees of successful predictions. Through this process, we reveal a general mechanism, distinct from any prior methods, for boosting the performance of the base segmentation and saliency network while simultaneously increasing robustness to adversarial attacks.
翻訳日:2021-08-24 21:58:26 公開日:2021-08-23
# (参考訳) 連合学習は公平性と差別化されたプライバシーを満たす

Federated Learning Meets Fairness and Differential Privacy ( http://arxiv.org/abs/2108.09932v1 )

ライセンス: CC BY 4.0
Manisha Padala, Sankarshan Damle and Sujit Gujar(参考訳) ディープラーニングの成功は、バイアスのある予測からデータプライバシに至るまで、いくつかの倫理的な懸念を引き起こす。 研究者たちは、公正度メトリクスやフェデレーション学習(差分プライバシー)を導入することで、これらの問題に対処する。 まず,3つの尺度を同時に組み込んだ倫理的フェデレーション学習モデルを提案する。 成人、銀行、オランダのデータセットにおける実験では、正確性、公平性、プライバシーの間に生じる‘経験的相互作用’が強調されている。

Deep learning's unprecedented success raises several ethical concerns ranging from biased predictions to data privacy. Researchers tackle these issues by introducing fairness metrics, or federated learning, or differential privacy. A first, this work presents an ethical federated learning model, incorporating all three measures simultaneously. Experiments on the Adult, Bank and Dutch datasets highlight the resulting ``empirical interplay" between accuracy, fairness, and privacy.
翻訳日:2021-08-24 21:33:30 公開日:2021-08-23
# (参考訳) メンタルヘルスアセスメントのための顔行動のモデリングダイナミクス

Modeling Dynamics of Facial Behavior for Mental Health Assessment ( http://arxiv.org/abs/2108.09934v1 )

ライセンス: CC BY 4.0
Minh Tran, Ellen Bradley, Michelle Matvey, Joshua Woolley, Mohammad Soleymani(参考訳) 顔面行動単位(FAU)強度は、顔の行動分析のための一般的な記述法である。 しかし、FAUは、一度に数個しか活性化されないときにわずかに表現される。 本研究では,自然言語処理における単語表現に使用されるアルゴリズムを用いて,表情の動的表現の可能性を検討する。 具体的には、顔クラスタの埋め込みを学習するためにグローバルベクトル表現(GloVe)アルゴリズムを適用する前に、5.3Mフレームの時間的表情の大規模なデータセット上でクラスタリングを行う。 統合失調症の症状推定とうつ病重症度回帰という2つの下流課題における学習表現の有用性を評価する。 これらの実験結果から,FAU強度のみを用いたベースラインモデルによるメンタルヘルス症状の評価を改善するためのアプローチの有効性が示唆された。

Facial action unit (FAU) intensities are popular descriptors for the analysis of facial behavior. However, FAUs are sparsely represented when only a few are activated at a time. In this study, we explore the possibility of representing the dynamics of facial expressions by adopting algorithms used for word representation in natural language processing. Specifically, we perform clustering on a large dataset of temporal facial expressions with 5.3M frames before applying the Global Vector representation (GloVe) algorithm to learn the embeddings of the facial clusters. We evaluate the usefulness of our learned representations on two downstream tasks: schizophrenia symptom estimation and depression severity regression. These experimental results show the potential effectiveness of our approach for improving the assessment of mental health symptoms over baseline models that use FAU intensities alone.
翻訳日:2021-08-24 21:22:57 公開日:2021-08-23
# (参考訳) 人物再同定のためのGAN生成画像の品質探索

Exploring the Quality of GAN Generated Images for Person Re-Identification ( http://arxiv.org/abs/2108.09977v1 )

ライセンス: CC BY 4.0
Yiqi Jiang, Weihua Chen, Xiuyu Sun, Xiaoyu Shi, Fan Wang, Hao Li(参考訳) 近年、ドメイン間のギャップを埋め、特徴空間におけるデータ多様性を豊かにする能力から、人物再識別のための強化データ(ReID)の生成に強い効果が示されている。 しかし、ReIDの作業の多くは、追加のトレーニングサンプルとしてすべてのGAN生成データを選択したり、データセットレベルでのGAN生成の品質を評価し、ReIDタスクにおけるデータのイメージレベルの本質的な特徴を無視したりする。 本稿では,ReID サンプルの深部特性を分析し,ReID に優れた GAN 生成画像を作成するという課題を解決する。 具体的には、各データサンプルのID一貫性と多様性の制約について、異なる空間に画像をマッピングすることで検討する。 計量に基づくサンプリング法により,すべてのGAN生成データが拡張に有用ではないことを示す。 品質評価によってフィルタリングされたデータでトレーニングされたモデルは、大きなマージンで設定された完全な拡張でトレーニングされたモデルよりも優れています。 拡張実験により,教師付きReIDタスクと教師なしドメイン適応ReIDタスクの両方において,本手法の有効性が示された。

Recently, GAN based method has demonstrated strong effectiveness in generating augmentation data for person re-identification (ReID), on account of its ability to bridge the gap between domains and enrich the data variety in feature space. However, most of the ReID works pick all the GAN generated data as additional training samples or evaluate the quality of GAN generation at the entire data set level, ignoring the image-level essential feature of data in ReID task. In this paper, we analyze the in-depth characteristics of ReID sample and solve the problem of "What makes a GAN-generated image good for ReID". Specifically, we propose to examine each data sample with id-consistency and diversity constraints by mapping image onto different spaces. With a metric-based sampling method, we demonstrate that not every GAN-generated data is beneficial for augmentation. Models trained with data filtered by our quality evaluation outperform those trained with the full augmentation set by a large margin. Extensive experiments show the effectiveness of our method on both supervised ReID task and unsupervised domain adaptation ReID task.
翻訳日:2021-08-24 21:13:12 公開日:2021-08-23
# (参考訳) farsighted probabilistic sampling based local search for (weighted) partial maxsat (英語)

Farsighted Probabilistic Sampling based Local Search for (Weighted) Partial MaxSAT ( http://arxiv.org/abs/2108.09988v1 )

ライセンス: CC BY 4.0
Jiongzhi Zheng and Jianrong Zhou and Kun He(参考訳) 部分MaxSAT (PMS) と重み付き部分MaxSAT (WPMS) はどちらも、MaxSATの典型的な組合せ問題に対する実用的な一般化である。 本研究では, (w)pms という2つの問題を解くために, fps と呼ばれる遠視的確率的サンプリングに基づく局所探索アルゴリズムを提案する。 fpsアルゴリズムは、既存の(w)pms局所探索アルゴリズムで広く使われている反復ステップ毎に単一の変数を反転するメカニズムを、提案された遠視局所探索戦略に置き換え、高品質な局所最適解を提供する。 遠視戦略は確率的サンプリング技術を用いており、アルゴリズムを広く効率的に見渡すことができる。 これにより、FPSはより優れた探索方向を提供し、効率を低下させることなく性能を向上させることができる。 近年のMaxSAT評価において, (W)PMS問題の全ベンチマークにおいて, PMSとWPMS問題の両方を解くために, 最先端の局所探索アルゴリズムSATLike3.0を著しく上回っていることを示す。 さらに、最近のMaxSAT Evaluation(MSE2021)において、全4つのカテゴリー(PMSとWPMS、それぞれ2つの時間制限を伴う)のうち3つのカテゴリのチャンピオンであるSATLike, SATLike-cの拡張解法との比較を行った。 SATLike-c の局所探索成分を遠距離サンプリングによる局所探索手法に置き換え,結果の FPS-c は PMS と WPMS の両問題を解くために SATLike-c よりも優れている。

Partial MaxSAT (PMS) and Weighted Partial MaxSAT (WPMS) are both practical generalizations to the typical combinatorial problem of MaxSAT. In this work, we propose an effective farsighted probabilistic sampling based local search algorithm called FPS for solving these two problems, denoted as (W)PMS. The FPS algorithm replaces the mechanism of flipping a single variable per iteration step, that is widely used in existing (W)PMS local search algorithms, with the proposed farsighted local search strategy, and provides higher-quality local optimal solutions. The farsighted strategy employs the probabilistic sampling technique that allows the algorithm to look-ahead widely and efficiently. In this way, FPS can provide more and better search directions and improve the performance without reducing the efficiency. Extensive experiments on all the benchmarks of (W)PMS problems from the incomplete track of recent four years of MaxSAT Evaluations demonstrate that our method significantly outperforms SATLike3.0, the state-of-the-art local search algorithm, for solving both the PMS and WPMS problems. We furthermore do comparison with the extended solver of SATLike, SATLike-c, which is the champion of three categories among the total four (PMS and WPMS categories, each associated with two time limits) of the incomplete track in the recent MaxSAT Evaluation (MSE2021). We replace the local search component in SATLike-c with the proposed farsighted sampling local search approach, and the resulting solver FPS-c also outperforms SATLike-c for solving both the PMS and WPMS problems.
翻訳日:2021-08-24 20:58:34 公開日:2021-08-23
# (参考訳) MS-DARTS:平均シフトに基づく微分可能なアーキテクチャ検索

MS-DARTS: Mean-Shift Based Differentiable Architecture Search ( http://arxiv.org/abs/2108.09996v1 )

ライセンス: CC BY 4.0
Jun-Wei Hsieh, Ming-Ching Chang, Ping-Yang Chen, Cheng-Han Chou, Chih-Sheng Huang(参考訳) 微分可能アーキテクチャサーチ (DARTS) は、探索コストの低い効果的な連続緩和型ネットワークアーキテクチャサーチ (NAS) 手法である。 これはAuto-ML研究において大きな注目を集め、NASで最も有用なパラダイムの1つとなった。 DARTSは複雑なパラメータをよりよく制御する従来のNASアプローチよりも優れた効率性が得られるが、しばしば、継続的アーキテクチャを識別する際のアーキテクチャの劣化に悩まされる。 我々は,DARTSの最終離散化段階において,性能の劇的な低下を引き起こす妥当性の低下を観察した。 そこで本研究では,サンプリングと摂動に基づく安定性向上を目的とした平均シフト型DARTS(MS-DARTS)を提案する。 本手法は,ロスランドスケープを平滑化し,適切な帯域幅でアーキテクチャパラメータをサンプリングすることにより,DARTSの安定性と精度を向上させる。 平均シフトアプローチの収束と、安定性と精度に影響を与える帯域幅選択の影響について検討する。 CIFAR-10, CIFAR-100, ImageNet で行った評価の結果,MS-DARTS アーカイブは検索コストを削減した他の最先端NAS 手法よりも高い性能を示した。

Differentiable Architecture Search (DARTS) is an effective continuous relaxation-based network architecture search (NAS) method with low search cost. It has attracted significant attentions in Auto-ML research and becomes one of the most useful paradigms in NAS. Although DARTS can produce superior efficiency over traditional NAS approaches with better control of complex parameters, oftentimes it suffers from stabilization issues in producing deteriorating architectures when discretizing the continuous architecture. We observed considerable loss of validity causing dramatic decline in performance at this final discretization step of DARTS. To address this issue, we propose a Mean-Shift based DARTS (MS-DARTS) to improve stability based on sampling and perturbation. Our approach can improve bot the stability and accuracy of DARTS, by smoothing the loss landscape and sampling architecture parameters within a suitable bandwidth. We investigate the convergence of our mean-shift approach, together with the effects of bandwidth selection that affects stability and accuracy. Evaluations performed on CIFAR-10, CIFAR-100, and ImageNet show that MS-DARTS archives higher performance over other state-of-the-art NAS methods with reduced search cost.
翻訳日:2021-08-24 20:43:41 公開日:2021-08-23
# (参考訳) 機械学習を用いたクレジットカード不正検出に関する研究

Credit Card Fraud Detection using Machine Learning: A Study ( http://arxiv.org/abs/2108.10005v1 )

ライセンス: CC BY 4.0
Pooja Tiwari, Simran Mehta, Nishtha Sakhuja, Jitendra Kumar, Ashutosh Kumar Singh(参考訳) 世界が急速にデジタル化に向かっており、貨幣取引も現金化が進んでおり、クレジットカードの利用が急速に増加している。 また、それに伴う不正行為も増加しており、金融機関に大きな損失をもたらしている。 したがって、不正取引を非詐欺取引から分析し、検出する必要がある。 本稿では,クレジットカード詐欺を検知するための各種手法の包括的レビューを行う。 これらの手法には隠れマルコフモデル、決定木、ロジスティック回帰、サポートベクターマシン(svm)、遺伝的アルゴリズム、ニューラルネットワーク、ランダムフォレスト、ベイズ信念ネットワークが含まれる。 様々な技法の総合的な分析を行った。 論文は各論文に記載されているものと同じ長文と短文で締めくくります。

As the world is rapidly moving towards digitization and money transactions are becoming cashless, the use of credit cards has rapidly increased. The fraud activities associated with it have also been increasing which leads to a huge loss to the financial institutions. Therefore, we need to analyze and detect the fraudulent transaction from the non-fraudulent ones. In this paper, we present a comprehensive review of various methods used to detect credit card fraud. These methodologies include Hidden Markov Model, Decision Trees, Logistic Regression, Support Vector Machines (SVM), Genetic algorithm, Neural Networks, Random Forests, Bayesian Belief Network. A comprehensive analysis of various techniques is presented. We conclude the paper with the pros and cons of the same as stated in the respective papers.
翻訳日:2021-08-24 20:27:08 公開日:2021-08-23
# (参考訳) OBDMにおけるQDEFとその近似

QDEF and Its Approximations in OBDM ( http://arxiv.org/abs/2108.10021v1 )

ライセンス: CC BY 4.0
Gianluca Cima, Federico Croce, Maurizio Lenzerini(参考訳) 入力データセット(すなわちタプルの集合)が与えられた場合、オントロジーベースのデータ管理(OBDM)におけるクエリ定義性は、与えられたデータセットのタプルと特定の回答が一致するオントロジー上のクエリを見つける。 本稿では、OBDMシステムに関するデータセットのキャラクタリゼーションとして、そのようなクエリを参照する。 最初の貢献は、リコール(完全キャラクタリゼーション)と精度(音響キャラクタリゼーション)の観点から、完全キャラクタリゼーションの近似を提案することである。 第2のコントリビューションは、検証(与えられたクエリが完璧であるか、または与えられたデータセットの近似的なキャラクタリゼーションか)、存在(完全であるか、または与えられたデータセットの最適なキャラクタリゼーションが存在するか)、および計算(完全であるか、または与えられたデータセットの最適なキャラクタリゼーションを計算)という3つの計算問題の完全な複雑性解析を行うことである。

Given an input dataset (i.e., a set of tuples), query definability in Ontology-based Data Management (OBDM) amounts to find a query over the ontology whose certain answers coincide with the tuples in the given dataset. We refer to such a query as a characterization of the dataset with respect to the OBDM system. Our first contribution is to propose approximations of perfect characterizations in terms of recall (complete characterizations) and precision (sound characterizations). A second contribution is to present a thorough complexity analysis of three computational problems, namely verification (check whether a given query is a perfect, or an approximated characterization of a given dataset), existence (check whether a perfect, or a best approximated characterization of a given dataset exists), and computation (compute a perfect, or best approximated characterization of a given dataset).
翻訳日:2021-08-24 20:15:31 公開日:2021-08-23
# (参考訳) 構成可能な3dシーンレイアウトによるリアル画像合成

Realistic Image Synthesis with Configurable 3D Scene Layouts ( http://arxiv.org/abs/2108.10031v1 )

ライセンス: CC BY 4.0
Jaebong Jeong, Janghun Jo, Jingdong Wang, Sunghyun Cho, Jaesik Park(参考訳) 最近の条件付き画像合成手法は高品質な合成画像を提供する。 しかし、オブジェクトの位置や向きなどの画像内容の正確な調整は依然として困難であり、合成画像は幾何学的に無効な内容を持つことが多い。 3次元幾何学的な側面から合成画像のリッチな制御性を実現するために,構成可能な3次元シーンレイアウトに基づくリアルな画像合成手法を提案する。 提案手法はセマンティックなクラスラベルを持つ3Dシーンを入力として、入力された3Dシーンの色値を合成する3Dシーン描画ネットワークを訓練する。 トレーニング済みのペイントネットワークでは、入力された3dシーンの写実的なイメージをレンダリングして操作することができる。 絵画ネットワークを3Dカラー監視なしで訓練するために,市販の2Dセマンティック画像合成手法を利用する。 実験では,本手法が幾何学的正しい構造をもつ画像を生成し,視点や物体のポーズの変化や絵画スタイルの操作といった幾何学的操作をサポートすることを示す。

Recent conditional image synthesis approaches provide high-quality synthesized images. However, it is still challenging to accurately adjust image contents such as the positions and orientations of objects, and synthesized images often have geometrically invalid contents. To provide users with rich controllability on synthesized images in the aspect of 3D geometry, we propose a novel approach to realistic-looking image synthesis based on a configurable 3D scene layout. Our approach takes a 3D scene with semantic class labels as input and trains a 3D scene painting network that synthesizes color values for the input 3D scene. With the trained painting network, realistic-looking images for the input 3D scene can be rendered and manipulated. To train the painting network without 3D color supervision, we exploit an off-the-shelf 2D semantic image synthesis method. In experiments, we show that our approach produces images with geometrically correct structures and supports geometric manipulation such as the change of the viewpoint and object poses as well as manipulation of the painting style.
翻訳日:2021-08-24 19:25:13 公開日:2021-08-23
# (参考訳) 原始と双対の組合せ次元

Primal and Dual Combinatorial Dimensions ( http://arxiv.org/abs/2108.10037v1 )

ライセンス: CC BY 4.0
Pieter Kleer and Hans Simon(参考訳) 多値関数クラスに対する擬次元や脂肪散乱次元のような様々な組合せ次元の原始と双対の関係について厳密な境界を与える。 これらの次元概念は、学習理論の領域において重要な役割を果たす。 最初は、関数クラスの双対次元をその原始性の観点から有界にし、その後(ほとんど)一致する下界を与えるいくつかの(フォークロア)結果についてレビューする。 特に、Assouad (1983) によるよく知られた有界な多値函数クラスに対して、二元関数クラスの原始および双対VC次元に関連する適切な一般化を与える。

We give tight bounds on the relation between the primal and dual of various combinatorial dimensions, such as the pseudo-dimension and fat-shattering dimension, for multi-valued function classes. These dimensional notions play an important role in the area of learning theory. We first review some (folklore) results that bound the dual dimension of a function class in terms of its primal, and after that give (almost) matching lower bounds. In particular, we give an appropriate generalization to multi-valued function classes of a well-known bound due to Assouad (1983), that relates the primal and dual VC-dimension of a binary function class.
翻訳日:2021-08-24 19:09:09 公開日:2021-08-23
# (参考訳) 畳み込みニューラルネットワークを用いた脳波に基づく運転注意の分類

EEG-based Classification of Drivers Attention using Convolutional Neural Network ( http://arxiv.org/abs/2108.10062v1 )

ライセンス: CC BY 4.0
Fred Atilla and Maryam Alimardani(参考訳) 運転者の注意状態の正確な検出は、予期せぬ危険にリアルタイムで対応し、道路安全を改善する支援技術の開発に役立つ。 本研究は,参加者の脳活動について訓練した注意分類器の性能を比較した。 参加者は、クルージングレーンからランダムに外れた没入型シミュレータで運転タスクを実行した。 彼らは偏差を正す必要があり、その応答時間は注意の指標とみなされた。 参加者は2つのセッションでタスクを繰り返し、あるセッションでは審美的なフィードバックを受け取り、別のセッションではフィードバックを受けなかった。 脳波信号を用いて脳波スペクトルバンドパワーを用いたサポートベクトルマシン(SVM)と、スペクトル特徴または生脳波データを用いた畳み込みニューラルネットワーク(CNN)の3つの注意分類器を訓練した。 その結果, 審美的フィードバックにより得られた脳波データに基づくcnnモデルが最も精度が高かった(89%)。 モデルのトレーニングに参加者自身の脳活動を使用することで、最高のパフォーマンスが得られる一方で、オブジェクト間移動学習は高い(75%)パフォーマンスを示し、キャリブレーションなしのBrain-Computer Interface(BCI)システムの実現を約束している。 この結果から,CNNおよび生脳波信号は受動的BCIの訓練に有効であることが示唆された。

Accurate detection of a drivers attention state can help develop assistive technologies that respond to unexpected hazards in real time and therefore improve road safety. This study compares the performance of several attention classifiers trained on participants brain activity. Participants performed a driving task in an immersive simulator where the car randomly deviated from the cruising lane. They had to correct the deviation and their response time was considered as an indicator of attention level. Participants repeated the task in two sessions; in one session they received kinesthetic feedback and in another session no feedback. Using their EEG signals, we trained three attention classifiers; a support vector machine (SVM) using EEG spectral band powers, and a Convolutional Neural Network (CNN) using either spectral features or the raw EEG data. Our results indicated that the CNN model trained on raw EEG data obtained under kinesthetic feedback achieved the highest accuracy (89%). While using a participants own brain activity to train the model resulted in the best performances, inter-subject transfer learning still performed high (75%), showing promise for calibration-free Brain-Computer Interface (BCI) systems. Our findings show that CNN and raw EEG signals can be employed for effective training of a passive BCI for real-time attention classification.
翻訳日:2021-08-24 18:53:25 公開日:2021-08-23
# (参考訳) 2次元マントル対流のサロゲートモデリングのためのディープラーニング

Deep learning for surrogate modelling of 2D mantle convection ( http://arxiv.org/abs/2108.10105v1 )

ライセンス: CC BY 4.0
Siddhant Agarwal, Nicola Tosi, Pan Kessel, Doris Breuer, Gr\'egoire Montavon(参考訳) 伝統的に、スケーリング法則に基づく1Dモデルは、地球、火星、水星、金星などの地球惑星の内部の対流熱伝達岩をパラメータ化して、2Dまたは3Dでの高忠実な前進の計算的ボトルネックに取り組むために使われてきた。 しかし、これらはモデリングできる物理量に制限されている(例)。 深さ依存性物質特性) 平均マントル温度のような平均量のみを予測する。 最近,feedforward neural networks (fnn) が多数の2次元シミュレーションを用いてトレーニングすることで,この限界を克服し,複雑なモデル [agarwal et al] に間に合うように1次元平均温度プロファイル全体の進化を確実に予測できることを示した。 2020]. 熱水プルームや寒冷地などの対流構造の形で、より多くの情報を含む2次元の温度場を予測するためにこの手法を拡張した。 火星のような惑星のマントルの熱的進化に関する10,525の2次元シミュレーションのデータセットを用いて、深層学習技術が信頼できるパラメータ化サロゲート(すなわち、)を生成可能であることを示す。 基底となる偏微分方程式の温度(パラメータのみに基づく温度)のような状態変数を予測する代理。 まず、畳み込み型オートエンコーダを用いて、142の係数で温度場を圧縮し、FNNと長期記憶ネットワーク(LSTM)を用いて圧縮されたフィールドを予測する。 平均して、FNN予測は99.30%、LSTM予測は99.22%正確である。 LSTMとFNN予測の適切な直交分解(POD)は、平均相対精度が低いにもかかわらず、LSTMはFNNよりも流れのダイナミクスを捕えることを示す。 総和すると、FNN予測とLSTM予測からのPOD係数はそれぞれ、元のシミュレーションの係数に対して96.51%と97.66%となる。

Traditionally, 1D models based on scaling laws have been used to parameterized convective heat transfer rocks in the interior of terrestrial planets like Earth, Mars, Mercury and Venus to tackle the computational bottleneck of high-fidelity forward runs in 2D or 3D. However, these are limited in the amount of physics they can model (e.g. depth dependent material properties) and predict only mean quantities such as the mean mantle temperature. We recently showed that feedforward neural networks (FNN) trained using a large number of 2D simulations can overcome this limitation and reliably predict the evolution of entire 1D laterally-averaged temperature profile in time for complex models [Agarwal et al. 2020]. We now extend that approach to predict the full 2D temperature field, which contains more information in the form of convection structures such as hot plumes and cold downwellings. Using a dataset of 10,525 two-dimensional simulations of the thermal evolution of the mantle of a Mars-like planet, we show that deep learning techniques can produce reliable parameterized surrogates (i.e. surrogates that predict state variables such as temperature based only on parameters) of the underlying partial differential equations. We first use convolutional autoencoders to compress the temperature fields by a factor of 142 and then use FNN and long-short term memory networks (LSTM) to predict the compressed fields. On average, the FNN predictions are 99.30% and the LSTM predictions are 99.22% accurate with respect to unseen simulations. Proper orthogonal decomposition (POD) of the LSTM and FNN predictions shows that despite a lower mean absolute relative accuracy, LSTMs capture the flow dynamics better than FNNs. When summed, the POD coefficients from FNN predictions and from LSTM predictions amount to 96.51% and 97.66% relative to the coefficients of the original simulations, respectively.
翻訳日:2021-08-24 18:43:31 公開日:2021-08-23
# (参考訳) トランスダクティブとインダクティブの埋め込みを統合することでリンク予測精度が向上する

Integrating Transductive And Inductive Embeddings Improves Link Prediction Accuracy ( http://arxiv.org/abs/2108.10108v1 )

ライセンス: CC BY 4.0
Chitrank Gupta, Yash Jain, Abir De, Soumen Chakrabarti(参考訳) 近年では、帰納的グラフ埋め込みモデル \emph{viz. グラフニューラルネットワーク(GNN)は、オンラインソーシャルネットワークのリンク予測(LP)において、ますます正確になっている。 このようなネットワークの性能は、ネットワークやアプリケーションによって異なる入力ノードの特徴に強く依存する。 適切なノード機能の選択はアプリケーションに依存し、一般的には公開質問である。 さらに、プライバシや倫理的な問題から、パーソナライズされたノード機能の使用は制限されることが多い。 実際、オンラインソーシャルネットワークから入手可能な多くのデータは、ノード機能(例えばデモグラフィ)を含んでいない。 本稿では,初期ノード表現を得るためのトランスダクティブ手法(例えばnode2vec)を活用し,その後にインダクティブノード埋め込み技術が継承され,リンク予測精度が大幅に向上することを示す包括的実験解析を行う。 多様なGNN変種に対して,Node2Vecから得られたノード表現ベクトルは,GNNの高品質な入力機能として機能し,LP性能を向上させることを実証した。

In recent years, inductive graph embedding models, \emph{viz.}, graph neural networks (GNNs) have become increasingly accurate at link prediction (LP) in online social networks. The performance of such networks depends strongly on the input node features, which vary across networks and applications. Selecting appropriate node features remains application-dependent and generally an open question. Moreover, owing to privacy and ethical issues, use of personalized node features is often restricted. In fact, many publicly available data from online social network do not contain any node features (e.g., demography). In this work, we provide a comprehensive experimental analysis which shows that harnessing a transductive technique (e.g., Node2Vec) for obtaining initial node representations, after which an inductive node embedding technique takes over, leads to substantial improvements in link prediction accuracy. We demonstrate that, for a wide variety of GNN variants, node representation vectors obtained from Node2Vec serve as high quality input features to GNNs, thereby improving LP performance.
翻訳日:2021-08-24 18:41:34 公開日:2021-08-23
# (参考訳) VerbCL: 事例法におけるハイライト抽出のためのVerbatim Quotesのデータセット

VerbCL: A Dataset of Verbatim Quotes for Highlight Extraction in Case Law ( http://arxiv.org/abs/2108.10120v1 )

ライセンス: CC BY 4.0
Julien Rossi, Svitlana Vakulenko, Evangelos Kanoulas(参考訳) 法的意見の提出は、裁判所の決定から情報の検索、抽出、要約を必要とする専門家の業務である法的議論の重要な部分である。 引用目的の意見における法的に健全な部分の特定は、ハイライト抽出または通過検索タスクのドメイン固有の定式化と見なすことができる。 ウェブ検索などの他の分野の類似タスクは、注意と改善が著しいことから、法律分野の進歩は、トレーニングや評価のためのリソースの不足によって妨げられている。 本稿では,裁判所意見の引用グラフからなる新たなデータセットについて述べる。 特に、原論の文章が直接再利用されるような、動詞的な引用に焦点をあてる。 提案手法では,引用における使用法を示し,引用グラフにおける意見の関連性への寄与を測ることで,裁判所意見の異なるテキストの相対的重要性を説明する。 我々は,courtlistenerから派生した大規模データセットである verbcl をリリースし,このタスクの最初のベースライン結果を確立するための引用グラフに基づいて,単一文書要約タスクとしてハイライト抽出のタスクを導入する。

Citing legal opinions is a key part of legal argumentation, an expert task that requires retrieval, extraction and summarization of information from court decisions. The identification of legally salient parts in an opinion for the purpose of citation may be seen as a domain-specific formulation of a highlight extraction or passage retrieval task. As similar tasks in other domains such as web search show significant attention and improvement, progress in the legal domain is hindered by the lack of resources for training and evaluation. This paper presents a new dataset that consists of the citation graph of court opinions, which cite previously published court opinions in support of their arguments. In particular, we focus on the verbatim quotes, i.e., where the text of the original opinion is directly reused. With this approach, we explain the relative importance of different text spans of a court opinion by showcasing their usage in citations, and measuring their contribution to the relations between opinions in the citation graph. We release VerbCL, a large-scale dataset derived from CourtListener and introduce the task of highlight extraction as a single-document summarization task based on the citation graph establishing the first baseline results for this task on the VerbCL dataset.
翻訳日:2021-08-24 18:31:50 公開日:2021-08-23
# (参考訳) プレイヤーのパフォーマンスと試合結果予測のための機械学習手法に関する研究

A study on Machine Learning Approaches for Player Performance and Match Results Prediction ( http://arxiv.org/abs/2108.10125v1 )

ライセンス: CC BY 4.0
Harsh Mittal, Deepak Rikhari, Jitendra Kumar, Ashutosh Kumar Singh(参考訳) クリケットは世界でもっとも人気のあるスポーツの1つだ。 機械学習の分野において、クリケットの試合の結果を予測することは根本的な問題となっている。 複数の研究者がクリケットの試合やトーナメントの結果を予測したり、試合中の選手のパフォーマンスを予測したり、現在のパフォーマンス、フォーム、モラルなどに応じて選択すべき選手を予測することを試みた。 機械学習と人工知能の技術を使用して、詳細な詳細、特徴、パラメータを念頭に置いています。 これらの技法のいくつかについて、簡単な比較とともに議論する。

Cricket is unarguably one of the most popular sports in the world. Predicting the outcome of a cricket match has become a fundamental problem as we are advancing in the field of machine learning. Multiple researchers have tried to predict the outcome of a cricket match or a tournament, or to predict the performance of players during a match, or to predict the players who should be selected as per their current performance, form, morale, etc. using machine learning and artificial intelligence techniques keeping in mind extensive detailing, features, and parameters. We discuss some of these techniques along with a brief comparison among these techniques.
翻訳日:2021-08-24 18:15:22 公開日:2021-08-23
# (参考訳) 事例法及び法令法における法的探究

Legal Search in Case Law and Statute Law ( http://arxiv.org/abs/2108.10127v1 )

ライセンス: CC BY 4.0
Julien Rossi, Evangelos Kanoulas(参考訳) 本稿では,典型的法的文書収集の文脈において,文書の相互関連性を特定する手法について述べる。 本稿では,教師なしおよび教師なし学習を含む一般化言語モデルの利用について検討する。 本手法は,テキスト要約を用いて,全文に基づいて既存のベースラインをオーバーパフォーマンスし,今後の作業に向けた潜在的な改善方向を動機付ける。

In this work we describe a method to identify document pairwise relevance in the context of a typical legal document collection: limited resources, long queries and long documents. We review the usage of generalized language models, including supervised and unsupervised learning. We observe how our method, while using text summaries, overperforms existing baselines based on full text, and motivate potential improvement directions for future work.
翻訳日:2021-08-24 18:07:48 公開日:2021-08-23
# (参考訳) CGEMs: GPT-3を用いた自動コード生成のメトリクスモデル

CGEMs: A Metric Model for Automatic Code Generation using GPT-3 ( http://arxiv.org/abs/2108.10168v1 )

ライセンス: CC BY 4.0
Aishwarya Narasimhan (1), Krishna Prasad Agara Venkatesha Rao (2), Veena M B (1) ((1) B M S College of Engineering, (2) Sony India Software Centre Pvt. Ltd.)(参考訳) 今日のai技術は、ほぼすべての業界と生活の歩みにおいてその強みを見せている。 テキスト生成、テキスト要約、チャットボット、NLPは広く使われている。 そのようなパラダイムの1つは自動コード生成である。 AIは何でも生成できるため、出力スペースは制限されない。 自動運転車は安全性を検証するために1億マイルを走行するが、制約のない空間を監視しカバーするためのテストは書けない。 aiが生成するコンテンツを検証するための解決策の1つは、問題を制約し、それを抽象的から現実的なものに変換することである。 この場合、統計的に有意なサンプル数をテスト/検証するために後者のアプローチを用いる。 この仮説は、AI生成コードの検証が主な動機であり、AI生成コードが信頼できるかどうかを知るため、計量モデルCGEMを提案する。 プログラムが異なる命名規則で異なるロジックを持つことができるため、これは非常に難しいタスクであるが、メトリクスはプログラムの構造とロジックをキャプチャする必要がある。 これは、AIベースのテキスト生成、Q&A、翻訳などにおいて、文法が持つ重要性と似ている。 コンパイル、ロジック変換へのNL記述、必要な編集数、一般的に使用される静的コードメトリクスとNLPメトリクス。 これらのメトリクスはOpenAIのGPT-3を使って生成された80のコードに適用される。 ニューラルネットワークがバイナリ分類用に設計されたポスト(生成されたコードの許容/許容品質)。 このネットワークへの入力は、メトリクスから得られた特徴の値である。 分類精度は76.92%、F1スコアは55.56%である。 XAIはモデル解釈可能性のために拡張されている。

Today, AI technology is showing its strengths in almost every industry and walks of life. From text generation, text summarization, chatbots, NLP is being used widely. One such paradigm is automatic code generation. An AI could be generating anything; hence the output space is unconstrained. A self-driving car is driven for 100 million miles to validate its safety, but tests cannot be written to monitor and cover an unconstrained space. One of the solutions to validate AI-generated content is to constrain the problem and convert it from abstract to realistic, and this can be accomplished by either validating the unconstrained algorithm using theoretical proofs or by using Monte-Carlo simulation methods. In this case, we use the latter approach to test/validate a statistically significant number of samples. This hypothesis of validating the AI-generated code is the main motive of this work and to know if AI-generated code is reliable, a metric model CGEMs is proposed. This is an extremely challenging task as programs can have different logic with different naming conventions, but the metrics must capture the structure and logic of the program. This is similar to the importance grammar carries in AI-based text generation, Q&A, translations, etc. The various metrics that are garnered in this work to support the evaluation of generated code are as follows: Compilation, NL description to logic conversion, number of edits needed, some of the commonly used static-code metrics and NLP metrics. These metrics are applied to 80 codes generated using OpenAI's GPT-3. Post which a Neural network is designed for binary classification (acceptable/not acceptable quality of the generated code). The inputs to this network are the values of the features obtained from the metrics. The model achieves a classification accuracy of 76.92% and an F1 score of 55.56%. XAI is augmented for model interpretability.
翻訳日:2021-08-24 17:59:11 公開日:2021-08-23
# (参考訳) 生産システムにおけるBERTベースのクエリ-クラス関連分類器の展開:トレンチからの視点

Deploying a BERT-based Query-Title Relevance Classifier in a Production System: a View from the Trenches ( http://arxiv.org/abs/2108.10197v1 )

ライセンス: CC BY 4.0
Leonard Dahlmann, Tomer Lancewicki(参考訳) The Bidirectional Encoder Representations from Transformers (BERT) model has radically improve the performance of many natural Language Processing (NLP) tasks such as Text Classification and Named Entity Recognition (NER) applications。 しかしながら,BERTを低レイテンシ,高スループットの産業用ユースケースに拡張することは,その巨大さから困難である。 BERT Bidirectional Long Short-Term Memory (BertBiLSTM) という名前のコンパクトモデルを用いて,QTR分類器の配置を最適化した。 このモデルはCPU上で少なくとも0.2msの入力を推測することができる。 BertBiLSTMは、上記の実世界の生産タスクの精度と効率の点で、市販のBERTモデルの性能を上回っている。 この結果は2段階に分けて達成する。 まず、トレーニング済みのモデル、ebertを作成します。これは、独自のアイテムタイトルコーパスでトレーニングされた、bertのオリジナルのアーキテクチャです。 次に、QTRタスクに対して細いeBERTをチューニングする。 次に,EBERTモデルの性能を模倣するBertBiLSTMモデルを,KD(Knowledge Distillation)と呼ばれるプロセスを用いて訓練し,類似した目的を達成するためにデータ拡張の効果を示す。 実験の結果,提案モデルは他のコンパクトモデルよりも優れていることがわかった。

The Bidirectional Encoder Representations from Transformers (BERT) model has been radically improving the performance of many Natural Language Processing (NLP) tasks such as Text Classification and Named Entity Recognition (NER) applications. However, it is challenging to scale BERT for low-latency and high-throughput industrial use cases due to its enormous size. We successfully optimize a Query-Title Relevance (QTR) classifier for deployment via a compact model, which we name BERT Bidirectional Long Short-Term Memory (BertBiLSTM). The model is capable of inferring an input in at most 0.2ms on CPU. BertBiLSTM exceeds the off-the-shelf BERT model's performance in terms of accuracy and efficiency for the aforementioned real-world production task. We achieve this result in two phases. First, we create a pre-trained model, called eBERT, which is the original BERT architecture trained with our unique item title corpus. We then fine-tune eBERT for the QTR task. Second, we train the BertBiLSTM model to mimic the eBERT model's performance through a process called Knowledge Distillation (KD) and show the effect of data augmentation to achieve the resembling goal. Experimental results show that the proposed model outperforms other compact and production-ready models.
翻訳日:2021-08-24 17:51:17 公開日:2021-08-23
# (参考訳) 3次元ステレオネットワーク最適化のための分離可能な畳み込み

Separable Convolutions for Optimizing 3D Stereo Networks ( http://arxiv.org/abs/2108.10216v1 )

ライセンス: CC BY 4.0
Rafia Rahim, Faranak Shamsafar and Andreas Zell(参考訳) ディープラーニングに基づく3Dステレオネットワークは、2Dネットワークや従来のステレオ手法に比べて優れた性能を提供する。 しかし、この性能改善は計算複雑性の増大によるコストが伴うため、これらのネットワークは現実のアプリケーションでは実用的ではない。 特に、これらのネットワークは3d畳み込みを主要な作業馬として用い、格差を洗練し後退させます。 まず、ステレオネットワークにおけるこれらの3D畳み込みは、ネットワーク全体の94%を消費し、主要なボトルネックとして機能することを示す。 次に,パラメータ数と演算量を削減するために,分離可能な「プラグ&ラン」畳み込みを提案する。 アートステレオネットワークの既存の状態と統合すると、これらの畳み込みは性能を損なうことなく、演算数の最大7倍、パラメータの最大3.5倍の削減につながる。 実際、これらの混乱は、ほとんどのケースでパフォーマンスの改善につながります。

Deep learning based 3D stereo networks give superior performance compared to 2D networks and conventional stereo methods. However, this improvement in the performance comes at the cost of increased computational complexity, thus making these networks non-practical for the real-world applications. Specifically, these networks use 3D convolutions as a major work horse to refine and regress disparities. In this work first, we show that these 3D convolutions in stereo networks consume up to 94% of overall network operations and act as a major bottleneck. Next, we propose a set of "plug-&-run" separable convolutions to reduce the number of parameters and operations. When integrated with the existing state of the art stereo networks, these convolutions lead up to 7x reduction in number of operations and up to 3.5x reduction in parameters without compromising their performance. In fact these convolutions lead to improvement in their performance in the majority of cases.
翻訳日:2021-08-24 17:40:37 公開日:2021-08-23
# (参考訳) 特徴データのためのキューブサンプリングK-プロトタイプクラスタリング

Cube Sampled K-Prototype Clustering for Featured Data ( http://arxiv.org/abs/2108.10262v1 )

ライセンス: CC BY 4.0
Seemandhar Jain, Aditya A. Shastri, Kapil Ahuja, Yann Busnel, and Navneet Pratap Singh(参考訳) クラスタ化 大量のデータは現在、ますます重要になっています。 データのサイズが大きいため、クラスタリングアルゴリズムには時間を要することが多い。 クラスタリングの前にこのデータをサンプリングすることは、この時間を短縮するために一般的に使用される。 本研究では,K-Prototypeクラスタリングとともに,立方体サンプリングと呼ばれる確率的サンプリング手法を提案する。 立方体サンプリングは正確なサンプル選択のために使用される。 K-プロトタイプ(K-Prototype)は、データを数値化する際に最もよく使われるクラスタリングアルゴリズムである。 この研究の新規性は、主成分分析(PCA)を用いた立方体サンプリングにおいて重要な包含確率を得ることである。 UCIリポジトリからの複数のデータセットの実験では、立方体サンプルのK-Prototypeアルゴリズムが、類似のサンプルの他の一般的なクラスタリングアルゴリズム(K-Means, Hierarchical Clustering (HC), Spectral Clustering (SC))の中で最高のクラスタリング精度を提供することが示された。 アンサンプされたK-Prototype、K-Means、HC、SCと比較すると、計算複雑性の低減(データサイズが小さくなるため)の利点が加わり、最も正確である。

Clustering large amount of data is becoming increasingly important in the current times. Due to the large sizes of data, clustering algorithm often take too much time. Sampling this data before clustering is commonly used to reduce this time. In this work, we propose a probabilistic sampling technique called cube sampling along with K-Prototype clustering. Cube sampling is used because of its accurate sample selection. K-Prototype is most frequently used clustering algorithm when the data is numerical as well as categorical (very common in today's time). The novelty of this work is in obtaining the crucial inclusion probabilities for cube sampling using Principal Component Analysis (PCA). Experiments on multiple datasets from the UCI repository demonstrate that cube sampled K-Prototype algorithm gives the best clustering accuracy among similarly sampled other popular clustering algorithms (K-Means, Hierarchical Clustering (HC), Spectral Clustering (SC)). When compared with unsampled K-Prototype, K-Means, HC and SC, it still has the best accuracy with the added advantage of reduced computational complexity (due to reduced data size).
翻訳日:2021-08-24 17:29:01 公開日:2021-08-23
# (参考訳) ニューラルネットワーク, 整数計画, グリッド近傍探索に基づく分子設計

Molecular Design Based on Artificial Neural Networks, Integer Programming and Grid Neighbor Search ( http://arxiv.org/abs/2108.10266v1 )

ライセンス: CC BY 4.0
Naveed Ahmed Azam, Jianshen Zhu, Kazuya Haraguchi, Liang Zhao, Hiroshi Nagamochi and Tatsuya Akutsu(参考訳) 近年, 人工ニューラルネットワークと混合整数線形計画法を用いて, 望ましい化学特性を持つ化合物の分子構造を設計するための新しい枠組みが提案されている。 本フレームワークでは、予測関数およびグラフの構造に関するその他の要件を表す混合整数線形プログラムの実現可能な解として、目的とする化学値の化学グラフを推定する。 本稿では,探索空間における出力化学グラフの近傍を探索することにより,混合整数線形プログラムの他の実現可能な解を生成する手法を提案する。 この手順はフレームワークに新しいビルディングブロックとして組み込まれている。 計算実験の結果,提案手法は, 最大50個の非水素原子を持つ新しい化学グラフを生成できることが示唆された。

A novel framework has recently been proposed for designing the molecular structure of chemical compounds with a desired chemical property using both artificial neural networks and mixed integer linear programming. In the framework, a chemical graph with a target chemical value is inferred as a feasible solution of a mixed integer linear program that represents a prediction function and other requirements on the structure of graphs. In this paper, we propose a procedure for generating other feasible solutions of the mixed integer linear program by searching the neighbor of output chemical graph in a search space. The procedure is combined in the framework as a new building block. The results of our computational experiments suggest that the proposed method can generate an additional number of new chemical graphs with up to 50 non-hydrogen atoms.
翻訳日:2021-08-24 17:21:40 公開日:2021-08-23
# (参考訳) a simpleicial model for $kb4_n$: epistemic logic with agents that may die

A Simplicial Model for $KB4_n$: Epistemic Logic with Agents that May Die ( http://arxiv.org/abs/2108.10293v1 )

ライセンス: CC BY 4.0
Eric Goubault and J\'er\'emy Ledent and Sergio Rajsbaum(参考訳) multi-agent epistemic logic $s5$の標準的な意味論は、アクセシビリティの関係が反射的、対称的、推移的であるkripkeモデルに基づいている。 この1次元構造は、前者の著作で純粋に単純化されたモデルとして定式化されたペアワイズ相互作用を超えた暗黙の高次元情報を含んでいる。 ここでは、この理論をすべての単体モデル(純粋でないものを含む)に拡張する。 対応するクリプキモデルは、アクセシビリティ関係が対称で推移的であるが、反射的でないモデルである。 これは、一部のエージェントが死ぬ可能性がある状況について推論できる、疫学的な論理を$KB4$にします。

The standard semantics of multi-agent epistemic logic $S5$ is based on Kripke models whose accessibility relations are reflexive, symmetric and transitive. This one dimensional structure contains implicit higher-dimensional information beyond pairwise interactions, that has been formalized as pure simplicial models in previous work from the authors. Here we extend the theory to encompass all simplicial models - including the ones that are not pure. The corresponding Kripke models are those where the accessibility relation is symmetric and transitive, but might not be reflexive. This yields the epistemic logic $KB4$ which can reason about situations where some of the agents may die.
翻訳日:2021-08-24 17:20:40 公開日:2021-08-23
# (参考訳) 意味的潜在空間による顔合成のバイアスと偏見の探求

Exploring Biases and Prejudice of Facial Synthesis via Semantic Latent Space ( http://arxiv.org/abs/2108.10265v1 )

ライセンス: CC0 1.0
Xuyang Shen, Jo Plested, Sabrina Caldwell, Tom Gedeon(参考訳) ディープラーニング(DL)モデルは、より便利でスマートな生活を提供するために広く利用されている。 しかし、偏りのあるアルゴリズムは我々に悪影響を与える。 例えば、偏見付きアルゴリズムを対象とするグループは不公平に扱われ、偏見によるネガティブな結果を恐れる。 この研究は、偏りのある生成モデルの振る舞いをターゲットとし、偏りの原因を特定し、それらを排除する。 予想通り、偏りのあるデータが顔の前面モデルの偏りのある予測を引き起こすと結論付けることができる。 トレーニングデータにおける男女の顔の比率の変化は、テストデータに対する行動にかなりの影響を与える可能性がある: 50:50パーセントという明らかな選択は、女性の顔に対する偏った行動を減らすためにこのデータセットにとって最良のものではないことが分かりました。 不正確な性面の生成と生成の失敗は、これらのモデルの2つの挙動である。 さらに、顔のフロントエンドモデルのいくつかのレイヤだけがバイアス付きデータセットに対して脆弱である。 フェースフロンダライゼーションモデルにおけるジェネレータのスキップ接続の最適化は、モデルのバイアスを軽減することができる。 無限大のデータセットを使わずに全てのトレーニングバイアスを除去することは不可能であると結論し、我々の実験はバイアスを減らし定量化できることを示した。 完璧な偏見のない予測器の次は、既知のバイアスを最小限にしたものだと私たちは信じています。

Deep learning (DL) models are widely used to provide a more convenient and smarter life. However, biased algorithms will negatively influence us. For instance, groups targeted by biased algorithms will feel unfairly treated and even fearful of negative consequences of these biases. This work targets biased generative models' behaviors, identifying the cause of the biases and eliminating them. We can (as expected) conclude that biased data causes biased predictions of face frontalization models. Varying the proportions of male and female faces in the training data can have a substantial effect on behavior on the test data: we found that the seemingly obvious choice of 50:50 proportions was not the best for this dataset to reduce biased behavior on female faces, which was 71% unbiased as compared to our top unbiased rate of 84%. Failure in generation and generating incorrect gender faces are two behaviors of these models. In addition, only some layers in face frontalization models are vulnerable to biased datasets. Optimizing the skip-connections of the generator in face frontalization models can make models less biased. We conclude that it is likely to be impossible to eliminate all training bias without an unlimited size dataset, and our experiments show that the bias can be reduced and quantified. We believe the next best to a perfect unbiased predictor is one that has minimized the remaining known bias.
翻訳日:2021-08-24 16:44:44 公開日:2021-08-23
# Fluent: おしゃべりする人のためのAI強化の筆記ツール

Fluent: An AI Augmented Writing Tool for People who Stutter ( http://arxiv.org/abs/2108.09918v1 )

ライセンス: Link先を確認
Bhavya Ghai, Klaus Mueller(参考訳) 発声は、世界中の何百万人もの人々の個人的および専門的な生活に影響を与える言語障害である。 汚名や差別から身を守るために、異端者(pws)は異なる戦略を採り入れて混乱を隠そうとする。 一般的な戦略の1つは単語置換(英語版)であり、それは個人が単語を打つことを避け、代わりに代替語を使うものである。 このプロセス自体がストレスを引き起こし、負担を増加させます。 そこで本研究では,よりフルーレントに話すことができるスクリプト記述におけるpwを支援する,ai拡張ライティングツールであるfluentを提案する。 Fluentは、個人が発音に苦しむ可能性のある単語を識別する、新しいアクティブラーニングベースの方法である。 このような単語はインターフェイスでハイライトされる。 そのような単語の上にホバリングすると、Fluentは類似した意味を持つが話しやすい単語のセットを提示する。 ユーザーはこれらの提案を受け入れたり無視したりできる。 このようなユーザインタラクション(フィードバック)に基づいて、fluentは、各ユーザのパーソナライズされたニーズに合うように、その分類器を継続的に進化させます。 10名のシミュレートユーザを対象に,難解な単語を識別する能力を評価した。 20未満のインタラクションで平均80%以上の精度で難解な単語を識別できることが分かり、より多くのフィードバックを得て改善を続けました。 私たちのツールは、講演やプレゼンテーションなど、特定の重要な生活状況に役立ちます。 このツールのソースコードはgithub.com/bhavyaghai/Fluentで公開されている。

Stuttering is a speech disorder which impacts the personal and professional lives of millions of people worldwide. To save themselves from stigma and discrimination, people who stutter (PWS) may adopt different strategies to conceal their stuttering. One of the common strategies is word substitution where an individual avoids saying a word they might stutter on and use an alternative instead. This process itself can cause stress and add more burden. In this work, we present Fluent, an AI augmented writing tool which assists PWS in writing scripts which they can speak more fluently. Fluent embodies a novel active learning based method of identifying words an individual might struggle pronouncing. Such words are highlighted in the interface. On hovering over any such word, Fluent presents a set of alternative words which have similar meaning but are easier to speak. The user is free to accept or ignore these suggestions. Based on such user interaction (feedback), Fluent continuously evolves its classifier to better suit the personalized needs of each user. We evaluated our tool by measuring its ability to identify difficult words for 10 simulated users. We found that our tool can identify difficult words with a mean accuracy of over 80% in under 20 interactions and it keeps improving with more feedback. Our tool can be beneficial for certain important life situations like giving a talk, presentation, etc. The source code for this tool has been made publicly accessible at github.com/bhavyaghai/Fluent.
翻訳日:2021-08-24 16:07:39 公開日:2021-08-23
# 混合分布下におけるフェデレーション型マルチタスク学習

Federated Multi-Task Learning under a Mixture of Distributions ( http://arxiv.org/abs/2108.10252v1 )

ライセンス: Link先を確認
Othmane Marfoq, Giovanni Neglia, Aur\'elien Bellet, Laetitia Kameni, Richard Vidal(参考訳) スマートフォンやiotデバイスが生成するデータのサイズの増加は、マシンラーニングモデルのオンデバイス共同トレーニングのためのフレームワークであるfederated learning(fl)の開発を促した。 FLにおける最初の取り組みは、クライアント間で平均的なパフォーマンスを持つ単一のグローバルモデルを学ぶことに焦点を当てたが、グローバルモデルは、ローカルデータ分散の固有の不均一性のため、あるクライアントにとって任意に悪いかもしれない。 フェデレートされたマルチタスク学習(MTL)アプローチは、最適最適化問題を定式化することでパーソナライズされたモデルを学ぶことができる。 ペナリゼーション用語は、パーソナライズされたモデル間の複雑な関係を捉えることができるが、局所的なデータ分布に関する統計的仮定を明確にする。 本研究では,各局所データ分布が未知の基底分布の混合であるというフレキシブルな仮定の下で,フェデレーションMTLについて検討する。 この仮定は、既存のパーソナライズされたFLアプローチのほとんどを包含し、クライアントサーバと完全に分散された設定の両方に、EMのようなフェデレーションアルゴリズムをもたらす。 さらに、トレーニング時に見えない顧客にパーソナライズされたモデルを提供するための原則的な方法を提供する。 アルゴリズムの収束は、一般的な興味を持つ可能性のある新しいフェデレーションサロゲート最適化フレームワークによって分析される。 flベンチマークの実験結果は、たいていの場合、我々のアプローチは最先端の手法よりも高い精度と公平性を持つモデルを提供することを示している。

The increasing size of data generated by smartphones and IoT devices motivated the development of Federated Learning (FL), a framework for on-device collaborative training of machine learning models. First efforts in FL focused on learning a single global model with good average performance across clients, but the global model may be arbitrarily bad for a given client, due to the inherent heterogeneity of local data distributions. Federated multi-task learning (MTL) approaches can learn personalized models by formulating an opportune penalized optimization problem. The penalization term can capture complex relations among personalized models, but eschews clear statistical assumptions about local data distributions. In this work, we propose to study federated MTL under the flexible assumption that each local data distribution is a mixture of unknown underlying distributions. This assumption encompasses most of the existing personalized FL approaches and leads to federated EM-like algorithms for both client-server and fully decentralized settings. Moreover, it provides a principled way to serve personalized models to clients not seen at training time. The algorithms' convergence is analyzed through a novel federated surrogate optimization framework, which can be of general interest. Experimental results on FL benchmarks show that in most cases our approach provides models with higher accuracy and fairness than state-of-the-art methods.
翻訳日:2021-08-24 16:07:17 公開日:2021-08-23
# TACo:ビデオテキストアライメントのためのToken-Aware Cascade Contrastive Learning

TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment ( http://arxiv.org/abs/2108.09980v1 )

ライセンス: Link先を確認
Jianwei Yang, Yonatan Bisk, Jianfeng Gao(参考訳) コントラスト学習は、ビデオテキストアライメントとマルチモーダル表現学習のためのトランスフォーマーに基づく視覚言語モデルの訓練に広く用いられている。 本稿では,2つの新しい手法を用いてコントラスト学習を改善する,Token-Aware Cascade contrastive Learning (TACo) というアルゴリズムを提案する。 1つ目は、単語の構文クラスを考慮して計算されるトークン対応のコントラスト損失である。 これは、ビデオテキストペアの場合、名詞や動詞などのテキスト中の内容語は、関数語よりもビデオ内の視覚的内容と一致している可能性が高いという観察によって動機づけられる。 第2にカスケードサンプリング法を適用して,マルチモーダル核融合層の効率良く損失推定を行うための,少数のハード・ネガティブなサンプルを生成する。 TACoの有効性を検証するため,本実験では,テキスト・ビデオ検索(YouCook2,MSR-VTT,ActivityNet),ビデオ・アクション・ステップ・ローカライゼーション(CrossTask),ビデオ・アクション・セグメンテーション(COIN)など,一連の下流タスクの事前学習モデルを微調整した。 以上の結果から,本モデルでは,従来の手法よりも異なる実験環境において一貫した改善が得られ,YouCook2,MSR-VTT,ActivityNetの3つの公開テキストビデオ検索ベンチマークに新たな最先端設定が導入された。

Contrastive learning has been widely used to train transformer-based vision-language models for video-text alignment and multi-modal representation learning. This paper presents a new algorithm called Token-Aware Cascade contrastive learning (TACo) that improves contrastive learning using two novel techniques. The first is the token-aware contrastive loss which is computed by taking into account the syntactic classes of words. This is motivated by the observation that for a video-text pair, the content words in the text, such as nouns and verbs, are more likely to be aligned with the visual contents in the video than the function words. Second, a cascade sampling method is applied to generate a small set of hard negative examples for efficient loss estimation for multi-modal fusion layers. To validate the effectiveness of TACo, in our experiments we finetune pretrained models for a set of downstream tasks including text-video retrieval (YouCook2, MSR-VTT and ActivityNet), video action step localization (CrossTask), video action segmentation (COIN). The results show that our models attain consistent improvements across different experimental settings over previous methods, setting new state-of-the-art on three public text-video retrieval benchmarks of YouCook2, MSR-VTT and ActivityNet.
翻訳日:2021-08-24 16:06:53 公開日:2021-08-23
# Deep Relational Metric Learning

Deep Relational Metric Learning ( http://arxiv.org/abs/2108.10026v1 )

ライセンス: Link先を確認
Wenzhao Zheng, Borui Zhang, Jiwen Lu, Jie Zhou(参考訳) 本稿では,画像クラスタリングと検索のための深部リレーショナルメトリック学習(DRML)フレームワークを提案する。 既存のディープメトリック学習法は、クラス間距離を増加させ、クラス内距離を減少させる一般的な目的を持つ埋め込み空間を学習する。 しかし、従来のメトリクス学習の損失は、通常、目に見えないクラスのサンプルを特定するのに役立つクラス内変異を抑える。 この問題に対処するために,異なる側面の画像を特徴付ける特徴のアンサンブルを適応的に学習し,クラス間分布とクラス内分布の両方をモデル化する。 さらに,アンサンブル内の各特徴間の相関をキャプチャし,画像を表すグラフを構築するためのリレーショナルモジュールも採用する。 次に、グラフ上で関係推論を行い、アンサンブルを統合し、類似度を測定するための関係認識埋め込みを得る。 広く使われているCUB-200-2011、Cars196、Stanford Online Productsのデータセットに関する大規模な実験は、我々のフレームワークが既存の深層学習法を改善し、非常に競争力のある結果をもたらすことを示した。

This paper presents a deep relational metric learning (DRML) framework for image clustering and retrieval. Most existing deep metric learning methods learn an embedding space with a general objective of increasing interclass distances and decreasing intraclass distances. However, the conventional losses of metric learning usually suppress intraclass variations which might be helpful to identify samples of unseen classes. To address this problem, we propose to adaptively learn an ensemble of features that characterizes an image from different aspects to model both interclass and intraclass distributions. We further employ a relational module to capture the correlations among each feature in the ensemble and construct a graph to represent an image. We then perform relational inference on the graph to integrate the ensemble and obtain a relation-aware embedding to measure the similarities. Extensive experiments on the widely-used CUB-200-2011, Cars196, and Stanford Online Products datasets demonstrate that our framework improves existing deep metric learning methods and achieves very competitive results.
翻訳日:2021-08-24 16:06:24 公開日:2021-08-23
# ChiNet: マルチモーダル宇宙空間推定のための深部反復畳み込み学習

ChiNet: Deep Recurrent Convolutional Learning for Multimodal Spacecraft Pose Estimation ( http://arxiv.org/abs/2108.10282v1 )

ライセンス: Link先を確認
Duarte Rondao, Nabil Aouf, Mark A. Richardson(参考訳) 本稿では,ランデブーシーケンスからの時間情報を組み込んで,宇宙船の相対的な姿勢を推定する革新的な深層学習パイプラインを提案する。 畳み込みニューラルネットワーク(CNN)バックボーンによって抽出された特徴の処理のために、データのシーケンスをモデル化する上で、LSTMユニットのパフォーマンスを活用する。 3つの異なるトレーニング戦略が組み合わさって、特徴学習を容易にし、回帰によるエンドツーエンドのポーズ推定を改善する。 画像から特徴表現を自律的に確認するcnnの能力を利用して、熱赤外データを赤緑色(rgb)入力と融合させ、可視波長における画像空間オブジェクトからのアーティファクトの効果を緩和する。 chinetと呼ばれるフレームワークのそれぞれの貢献は、合成データセット上で実証され、完全なパイプラインは実験データ上で検証される。

This paper presents an innovative deep learning pipeline which estimates the relative pose of a spacecraft by incorporating the temporal information from a rendezvous sequence. It leverages the performance of long short-term memory (LSTM) units in modelling sequences of data for the processing of features extracted by a convolutional neural network (CNN) backbone. Three distinct training strategies, which follow a coarse-to-fine funnelled approach, are combined to facilitate feature learning and improve end-to-end pose estimation by regression. The capability of CNNs to autonomously ascertain feature representations from images is exploited to fuse thermal infrared data with red-green-blue (RGB) inputs, thus mitigating the effects of artefacts from imaging space objects in the visible wavelength. Each contribution of the proposed framework, dubbed ChiNet, is demonstrated on a synthetic dataset, and the complete pipeline is validated on experimental data.
翻訳日:2021-08-24 16:06:05 公開日:2021-08-23
# 意味保存型逆テキスト攻撃

Semantic-Preserving Adversarial Text Attacks ( http://arxiv.org/abs/2108.10015v1 )

ライセンス: Link先を確認
Xinghao Yang, Weifeng Liu, James Bailey, Tianqing Zhu, Dacheng Tao, Wei Liu(参考訳) ディープニューラルネットワーク(DNN)は、敵対的な画像に対して脆弱であることが知られているが、テキスト分類における堅牢性はほとんど研究されていない。 文字レベル、単語レベル、文レベル攻撃など、いくつかのテキスト攻撃手法が文献で提案されている。 しかし, 語彙的正しさ, 構文的健全性, 意味的類似性を同時に確保しつつ, 誤分類を誘発するために必要な単語変化の最小化は依然として課題である。 本稿では,ビグラムとユニグラムに基づく適応的セマンティック保存最適化法(BU-SPO)を提案する。 我々の方法には4つの大きなメリットがある。 まず,テキスト文書をユニグラム語レベルでだけでなく,bigramレベルでも攻撃し,意味を保ち,意味のない出力を発生させないことを提案する。 次に,同義語候補とセメム候補の両方において,入力語を選択肢に置き換えるハイブリッド手法を提案する。 第3に,単語置換の優先度を決定するための最適化アルゴリズム,すなわちセマンティック保存最適化(SPO)を設計し,変更コストの低減を図る。 最後に,セマンティックフィルタ(sof)を用いてspoをさらに改良し,最も意味的類似度の高い逆例を探索する。 IMDB, AG's News, Yahoo!におけるBU-SPOとBU-SPOFの有効性を評価する。 一般的な4つのDNNモデルを攻撃することで、テキストデータセットに回答する。 その結果,本手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を達成することができた。

Deep neural networks (DNNs) are known to be vulnerable to adversarial images, while their robustness in text classification is rarely studied. Several lines of text attack methods have been proposed in the literature, including character-level, word-level, and sentence-level attacks. However, it is still a challenge to minimize the number of word changes necessary to induce misclassification, while simultaneously ensuring lexical correctness, syntactic soundness, and semantic similarity. In this paper, we propose a Bigram and Unigram based adaptive Semantic Preservation Optimization (BU-SPO) method to examine the vulnerability of deep models. Our method has four major merits. Firstly, we propose to attack text documents not only at the unigram word level but also at the bigram level which better keeps semantics and avoids producing meaningless outputs. Secondly, we propose a hybrid method to replace the input words with options among both their synonyms candidates and sememe candidates, which greatly enriches the potential substitutions compared to only using synonyms. Thirdly, we design an optimization algorithm, i.e., Semantic Preservation Optimization (SPO), to determine the priority of word replacements, aiming to reduce the modification cost. Finally, we further improve the SPO with a semantic Filter (named SPOF) to find the adversarial example with the highest semantic similarity. We evaluate the effectiveness of our BU-SPO and BU-SPOF on IMDB, AG's News, and Yahoo! Answers text datasets by attacking four popular DNNs models. Results show that our methods achieve the highest attack success rates and semantics rates by changing the smallest number of words compared with existing methods.
翻訳日:2021-08-24 16:05:22 公開日:2021-08-23
# 説明可能な事実チェックに向けて

Towards Explainable Fact Checking ( http://arxiv.org/abs/2108.10274v1 )

ライセンス: Link先を確認
Isabelle Augenstein(参考訳) 過去10年で、偽情報や偽情報のオンライン化が大幅に増加し、ターゲットの偽情報キャンペーンから政治への影響、公衆衛生に関する偽情報の意図しない拡散などがあった。 この開発は、チェック価値のあるクレームを検出し、クレームに対するツイートのスタンスを決定するアプローチから、与えられた証拠文書のクレームの正確性を決定する方法まで、自動事実チェックの分野の研究を刺激してきた。 これらの自動手法は、しばしばコンテンツベースであり、自然言語処理を用いて、深層ニューラルネットワークを使用してテキストから高次特徴を学習し、予測を行う。 ディープニューラルネットワークはブラックボックスモデルであるため、内部の動作を簡単に説明できない。 同時に、特定の決定にどのように到達するか、特に意思決定に使用される場合は、説明することが望ましい。 これは以前から知られていたが、この問題は拡大するモデルによって悪化し、euの法律では意思決定に使用するモデルが必要となり、最近ではeuで運営されているオンラインプラットフォームがサービスに対して透過的な報告を提供するよう要求する法律によって悪化した。 それにもかかわらず、現在の説明可能性の解決策は、事実チェックの領域にはまだ欠けている。 本論文は,クレームチェック適性検出,スタンス検出,veracity予測を含む自動事実チェックについて述べる。 論文では、限定されたラベル付きデータによる学習の分野で、自然言語処理のためのより一般的な機械学習ソリューションを提案している。 最後に、論文は説明可能な事実チェックのための最初のソリューションを提示している。

The past decade has seen a substantial rise in the amount of mis- and disinformation online, from targeted disinformation campaigns to influence politics, to the unintentional spreading of misinformation about public health. This development has spurred research in the area of automatic fact checking, from approaches to detect check-worthy claims and determining the stance of tweets towards claims, to methods to determine the veracity of claims given evidence documents. These automatic methods are often content-based, using natural language processing methods, which in turn utilise deep neural networks to learn higher-order features from text in order to make predictions. As deep neural networks are black-box models, their inner workings cannot be easily explained. At the same time, it is desirable to explain how they arrive at certain decisions, especially if they are to be used for decision making. While this has been known for some time, the issues this raises have been exacerbated by models increasing in size, and by EU legislation requiring models to be used for decision making to provide explanations, and, very recently, by legislation requiring online platforms operating in the EU to provide transparent reporting on their services. Despite this, current solutions for explainability are still lacking in the area of fact checking. This thesis presents my research on automatic fact checking, including claim check-worthiness detection, stance detection and veracity prediction. Its contributions go beyond fact checking, with the thesis proposing more general machine learning solutions for natural language processing in the area of learning with limited labelled data. Finally, the thesis presents some first solutions for explainable fact checking.
翻訳日:2021-08-24 16:04:57 公開日:2021-08-23
# エッジ生成を利用したVoxel-based Shape Completion

Voxel-based Network for Shape Completion by Leveraging Edge Generation ( http://arxiv.org/abs/2108.09936v1 )

ライセンス: Link先を確認
Xiaogang Wang, Marcelo H Ang Jr and Gim Hee Lee(参考訳) ディープラーニング技術は、部分的な入力からオブジェクトの形を欠くことを目標として、ポイントクラウドの補完を大幅に改善した。 しかし,既存の手法では細かな細部を過度にスムーシングするため,現実的な構造を復元できない場合が多い。 本稿では,エッジ生成(VE-PCN)を活用して,点雲補完のためのボクセルネットワークを開発する。 まず点雲を正規のボクセル格子に埋め込み、幻覚した形状のエッジの助けを借りて完全な物体を生成する。 この分離されたアーキテクチャとマルチスケールグリッド機能学習は、より現実的な表面上の詳細を生成することができる。 我々は,公開可能な完成データセット上でモデルを評価し,既存の最先端のアプローチを定量的かつ質的に上回ることを示す。 ソースコードはhttps://github.com/xiaogangw/ve-pcnで入手できます。

Deep learning technique has yielded significant improvements in point cloud completion with the aim of completing missing object shapes from partial inputs. However, most existing methods fail to recover realistic structures due to over-smoothing of fine-grained details. In this paper, we develop a voxel-based network for point cloud completion by leveraging edge generation (VE-PCN). We first embed point clouds into regular voxel grids, and then generate complete objects with the help of the hallucinated shape edges. This decoupled architecture together with a multi-scale grid feature learning is able to generate more realistic on-surface details. We evaluate our model on the publicly available completion datasets and show that it outperforms existing state-of-the-art approaches quantitatively and qualitatively. Our source code is available at https://github.com/xiaogangw/VE-PCN.
翻訳日:2021-08-24 16:04:12 公開日:2021-08-23
# BiaSwap: バイアス調整スワップ強化によるデータセットバイアスの除去

BiaSwap: Removing dataset bias with bias-tailored swapping augmentation ( http://arxiv.org/abs/2108.10008v1 )

ライセンス: Link先を確認
Eungyeup Kim, Jihyeon Lee, Jaegul Choo(参考訳) ディープニューラルネットワークは、データセットに固有のスプリアス相関に基づいて意思決定することが多く、偏りのないデータ分散では一般化できない。 以前のアプローチでは、ネットワークが学習することを防ぐためにデータセットバイアスの種類を事前に定義していたが、実際のデータセットのバイアスタイプを認識することは、しばしば禁止されている。 本稿では,バイアスタイプの監督を必要とせず,非バイアス表現を学習するための新しいバイアス調整強化手法BiaSwapを提案する。 バイアスが分かり易い属性に対応すると仮定すると、バイアス付き分類器がそれらをどれだけ近道として活用できるかに基づいてトレーニング画像を分類し、教師なしの方法でバイアスガイドとバイアスパターンのサンプルに分割する。 その後、画像翻訳モデルのスタイル変換モジュールと、このようなバイアス付き分類器のクラスアクティベーションマップを統合することにより、分類器が学習したバイアス属性を主に転送することができる。 そのため、バイアスガイドとバイアスコントラストのペアが与えられた場合、バイアスガイド画像中のバイアス非関連画像を保存しつつ、バイアスコントラスト画像からバイアス特性を含むバイアススワップ画像を生成する。 このような拡張画像を考えると、biaswapは、合成データと実世界のデータセットの両方において、既存のベースラインに対するデバイアスの優位性を示している。 BiaSwapはバイアスを注意深く監視することなく、バイアスのないサンプルとバイアスを導くサンプルの両方で顕著なパフォーマンスを達成し、モデルの一般化能力の向上を示唆している。

Deep neural networks often make decisions based on the spurious correlations inherent in the dataset, failing to generalize in an unbiased data distribution. Although previous approaches pre-define the type of dataset bias to prevent the network from learning it, recognizing the bias type in the real dataset is often prohibitive. This paper proposes a novel bias-tailored augmentation-based approach, BiaSwap, for learning debiased representation without requiring supervision on the bias type. Assuming that the bias corresponds to the easy-to-learn attributes, we sort the training images based on how much a biased classifier can exploits them as shortcut and divide them into bias-guiding and bias-contrary samples in an unsupervised manner. Afterwards, we integrate the style-transferring module of the image translation model with the class activation maps of such biased classifier, which enables to primarily transfer the bias attributes learned by the classifier. Therefore, given the pair of bias-guiding and bias-contrary, BiaSwap generates the bias-swapped image which contains the bias attributes from the bias-contrary images, while preserving bias-irrelevant ones in the bias-guiding images. Given such augmented images, BiaSwap demonstrates the superiority in debiasing against the existing baselines over both synthetic and real-world datasets. Even without careful supervision on the bias, BiaSwap achieves a remarkable performance on both unbiased and bias-guiding samples, implying the improved generalization capability of the model.
翻訳日:2021-08-24 16:04:00 公開日:2021-08-23
# 領域一般化のためのトランスフォーマによる空間関係の発見

Discovering Spatial Relationships by Transformers for Domain Generalization ( http://arxiv.org/abs/2108.10046v1 )

ライセンス: Link先を確認
Cuicui Kang and Karthik Nandakumar(参考訳) 画像データの多様性の急激な増大により、領域一般化の問題は近年注目されている。 ドメインの一般化は難しい問題だが、コンピュータビジョンにおけるAI技術の急速な開発のおかげで、大きな発展を遂げている。 これらのアルゴリズムの多くは、畳み込みニューラルネット(CNN)に基づく深いアーキテクチャで提案されている。 しかし、CNNには識別的特徴を見つける能力があるものの、CNNフィルタに対する応答がほとんど局所的であるため、画像内の異なる位置間の関係をモデル化する作業は不十分である。 これらの局所的および大域的空間関係は、検討中の対象を区別するために特徴づけられるため、領域ギャップに対する一般化能力の向上に重要な役割を果たしている。 対象部品の関係をよりよいドメインの一般化にするために、本研究は自己注意モデルの利用を提案する。 しかし,2次元画像の特徴抽出には熟練していないシーケンスに対して,アテンションモデルを提案する。 これを考慮し,これらの局所的特徴の空間的関係を探索するハイブリッドアーキテクチャを提案し,識別的特徴とそれらの関係をエンコードした複合表現を導出し,ドメインの一般化を改善する。 3つのよく知られたベンチマークの評価は、提案手法を用いて画像の特徴間の関係をモデル化することの利点を示し、最先端のドメイン一般化性能を達成する。 より具体的には、提案されたアルゴリズムは、PACSとOffice-Homeデータベースでそれぞれ2.2\%$と3.4\%$で最先端である。

Due to the rapid increase in the diversity of image data, the problem of domain generalization has received increased attention recently. While domain generalization is a challenging problem, it has achieved great development thanks to the fast development of AI techniques in computer vision. Most of these advanced algorithms are proposed with deep architectures based on convolution neural nets (CNN). However, though CNNs have a strong ability to find the discriminative features, they do a poor job of modeling the relations between different locations in the image due to the response to CNN filters are mostly local. Since these local and global spatial relationships are characterized to distinguish an object under consideration, they play a critical role in improving the generalization ability against the domain gap. In order to get the object parts relationships to gain better domain generalization, this work proposes to use the self attention model. However, the attention models are proposed for sequence, which are not expert in discriminate feature extraction for 2D images. Considering this, we proposed a hybrid architecture to discover the spatial relationships between these local features, and derive a composite representation that encodes both the discriminative features and their relationships to improve the domain generalization. Evaluation on three well-known benchmarks demonstrates the benefits of modeling relationships between the features of an image using the proposed method and achieves state-of-the-art domain generalization performance. More specifically, the proposed algorithm outperforms the state-of-the-art by $2.2\%$ and $3.4\%$ on PACS and Office-Home databases, respectively.
翻訳日:2021-08-24 16:03:34 公開日:2021-08-23
# ディープベイズ画像集合分類 : 敵対的攻撃に対する防御的アプローチ

Deep Bayesian Image Set Classification: A Defence Approach against Adversarial Attacks ( http://arxiv.org/abs/2108.10217v1 )

ライセンス: Link先を確認
Nima Mirnateghi, Syed Afaq Ali Shah, Mohammed Bennamoun(参考訳) 近年、ディープラーニングは、物体認識、顔認識、シーン理解に優れた業績により、様々なコンピュータビジョンシステムにおいて不可欠な部分となっている。 しかし、ディープニューラルネットワーク(DNN)は敵にほぼ自信を持って騙される可能性がある。 実際には、注意深い摂動画像に対するディープラーニングシステムの脆弱性は、敵対的な例として知られ、物理的な世界のアプリケーションにおいて深刻なセキュリティの脅威となる。 この現象に対処するために、我々は、我々の知識に対して、初めて、敵対的防御に基づくイメージセットを提示する。 画像集合分類は、外見の多様性を扱う本質的な性質から、物体と顔の認識に例外的な性能を示した。 本稿では,幅広い敵攻撃に対する防御フレームワークとして,頑健なベイズ画像集合分類を提案する。 提案手法の性能を様々な投票戦略を用いて広範囲に実験する。 さらに,各画像集合における摂動画像の比率とともに,画像サイズ,摂動大きさの影響を解析する。 また,最新の防御手法とシングルショット認識タスクを用いて,本手法を評価した。 CIFAR-10, MNIST, ETH-80, Tiny ImageNetデータセットでは, 実験結果が優れていた。

Deep learning has become an integral part of various computer vision systems in recent years due to its outstanding achievements for object recognition, facial recognition, and scene understanding. However, deep neural networks (DNNs) are susceptible to be fooled with nearly high confidence by an adversary. In practice, the vulnerability of deep learning systems against carefully perturbed images, known as adversarial examples, poses a dire security threat in the physical world applications. To address this phenomenon, we present, what to our knowledge, is the first ever image set based adversarial defence approach. Image set classification has shown an exceptional performance for object and face recognition, owing to its intrinsic property of handling appearance variability. We propose a robust deep Bayesian image set classification as a defence framework against a broad range of adversarial attacks. We extensively experiment the performance of the proposed technique with several voting strategies. We further analyse the effects of image size, perturbation magnitude, along with the ratio of perturbed images in each image set. We also evaluate our technique with the recent state-of-the-art defence methods, and single-shot recognition task. The empirical results demonstrate superior performance on CIFAR-10, MNIST, ETH-80, and Tiny ImageNet datasets.
翻訳日:2021-08-24 16:03:08 公開日:2021-08-23
# 画像分類のための明らかなCNN分類器の融合

Fusion of evidential CNN classifiers for image classification ( http://arxiv.org/abs/2108.10233v1 )

ライセンス: Link先を確認
Zheng Tong and Philippe Xu and Thierry Denoeux(参考訳) 本稿では,畳み込みニューラルネットワークを結合する信念関数に基づく情報融合手法を提案する。 このアプローチでは、事前訓練されたDSベースのCNNアーキテクチャが入力画像から特徴を抽出し、異なるフレームのマス関数に変換する。 融合モジュールは、デンプスターの法則を用いてこれらの質量関数を集約する。 エンドツーエンドの学習手順によって、ソフトラベルの学習セットを使用してアーキテクチャ全体の微調整が可能になり、さらに分類性能が向上します。 この手法の有効性を3つのベンチマークデータベースを用いて実験的に実証した。

We propose an information-fusion approach based on belief functions to combine convolutional neural networks. In this approach, several pre-trained DS-based CNN architectures extract features from input images and convert them into mass functions on different frames of discernment. A fusion module then aggregates these mass functions using Dempster's rule. An end-to-end learning procedure allows us to fine-tune the overall architecture using a learning set with soft labels, which further improves the classification performance. The effectiveness of this approach is demonstrated experimentally using three benchmark databases.
翻訳日:2021-08-24 16:02:51 公開日:2021-08-23
# 周波数方向による効率的なストリーミング低調波テンソル近似

Effective Streaming Low-tubal-rank Tensor Approximation via Frequent Directions ( http://arxiv.org/abs/2108.10129v1 )

ライセンス: Link先を確認
Qianxin Yi, Chenhao Wang, Kaidong Wang, and Yao Wang(参考訳) 低指数テンソル近似は大規模多次元データの解析のために提案されている。 しかし、そのような正確な近似を見つけることは、限られた計算資源のため、ストリーミング環境では困難である。 本稿では,テンソルSingular Value Decomposition (t-SVD)に基づくストリーミングデータから,効率よく正確な低ツバルランクテンソル近似を構築するために,一般的な行列スケッチ手法である Frequent Directions を拡張した。 具体的には、新しいアルゴリズムではテンソルデータをスライスごとにスライスすることができるが、オリジナルのテンソルの主情報をキャプチャできるより小さなスケッチを維持および漸進的に更新するだけでよい。 厳密な理論解析により,スケッチサイズが線形に大きくなると,新しいアルゴリズムの近似誤差が任意に小さくなることを示した。 合成データと実多次元データの両方に対する広範な実験の結果は、効率と精度の両面で、他のスケッチアルゴリズムと比較してより優れていることが判明した。

Low-tubal-rank tensor approximation has been proposed to analyze large-scale and multi-dimensional data. However, finding such an accurate approximation is challenging in the streaming setting, due to the limited computational resources. To alleviate this issue, this paper extends a popular matrix sketching technique, namely Frequent Directions, for constructing an efficient and accurate low-tubal-rank tensor approximation from streaming data based on the tensor Singular Value Decomposition (t-SVD). Specifically, the new algorithm allows the tensor data to be observed slice by slice, but only needs to maintain and incrementally update a much smaller sketch which could capture the principal information of the original tensor. The rigorous theoretical analysis shows that the approximation error of the new algorithm can be arbitrarily small when the sketch size grows linearly. Extensive experimental results on both synthetic and real multi-dimensional data further reveal the superiority of the proposed algorithm compared with other sketching algorithms for getting low-tubal-rank approximation, in terms of both efficiency and accuracy.
翻訳日:2021-08-24 16:01:08 公開日:2021-08-23
# 双方向協調合成ネットワークを用いた顔認識

Face Photo-Sketch Recognition Using Bidirectional Collaborative Synthesis Network ( http://arxiv.org/abs/2108.09898v1 )

ライセンス: Link先を確認
Seho Bae, Nizam Ud Din, Hyunkyu Park, and Juneho Yi(参考訳) 本研究は,顔のスケッチ画像と顔写真データベースとのマッチング問題に対処するディープラーニングベースのフレームワークを特徴とする。 1)写真とスケッチの間には大きなモダリティギャップがあり,2) 深層学習ネットワークをトレーニングするにはペアのトレーニングサンプルの数が不十分であるため,写真スケッチマッチングの問題は難しい。 大きなモダリティギャップの問題を回避するために、我々のアプローチは2つのモダリティ間の中間潜在空間を使用することである。 双方向(photo -> sketch and sketch -> photo)協調合成ネットワークを用いて,この潜在空間における2つのモードの分布を効果的に調整する。 StyleGANのようなアーキテクチャを用いて、中間潜伏空間に豊かな表現力を持たせる。 トレーニングサンプル不足の問題を解決するために,3段階のトレーニング方式を提案する。 公開複合顔スケッチデータベースの広範な評価により,既存の最先端手法と比較して優れた性能が得られた。 提案手法は他のモダリティ対のマッチングに応用できる。

This research features a deep-learning based framework to address the problem of matching a given face sketch image against a face photo database. The problem of photo-sketch matching is challenging because 1) there is large modality gap between photo and sketch, and 2) the number of paired training samples is insufficient to train deep learning based networks. To circumvent the problem of large modality gap, our approach is to use an intermediate latent space between the two modalities. We effectively align the distributions of the two modalities in this latent space by employing a bidirectional (photo -> sketch and sketch -> photo) collaborative synthesis network. A StyleGAN-like architecture is utilized to make the intermediate latent space be equipped with rich representation power. To resolve the problem of insufficient training samples, we introduce a three-step training scheme. Extensive evaluation on public composite face sketch database confirms superior performance of our method compared to existing state-of-the-art methods. The proposed methodology can be employed in matching other modality pairs.
翻訳日:2021-08-24 15:59:07 公開日:2021-08-23
# ブール論理におけるリテラルの定量化と説明可能なAIへの応用

On Quantifying Literals in Boolean Logic and Its Applications to Explainable AI ( http://arxiv.org/abs/2108.09876v1 )

ライセンス: Link先を確認
Adnan Darwiche and Pierre Marquis(参考訳) 量化ブール論理は、存在的かつ普遍的に変数を定量化するための演算子をブール論理に追加することによって得られる。 これは、何十年にもわたって研究されてきた様々なアプリケーションを可能にすることで、ブール論理の到達範囲を広げる。 リテラル(可変状態)の存在量化とその応用も文献で研究されている。 本稿では、汎用リテラル量子化とその応用、特に説明可能なAIについて研究することでこれを補完する。 また,数量化のための新しい意味論を提供し,変数/文字間および存在/普遍的数量化間の相互作用について論じる。 さらに,量子化を効率的に行うことのできるブール公式や回路のクラスを同定する。 リテラル量子化は変数量子化よりも細粒度であり、後者は前者の言葉で定義できる。 これにより、リテラル量子化をプリミティブとする量化ブール論理が洗練される。

Quantified Boolean logic results from adding operators to Boolean logic for existentially and universally quantifying variables. This extends the reach of Boolean logic by enabling a variety of applications that have been explored over the decades. The existential quantification of literals (variable states) and its applications have also been studied in the literature. In this paper, we complement this by studying universal literal quantification and its applications, particularly to explainable AI. We also provide a novel semantics for quantification, discuss the interplay between variable/literal and existential/universal quantification. We further identify some classes of Boolean formulas and circuits on which quantification can be done efficiently. Literal quantification is more fine-grained than variable quantification as the latter can be defined in terms of the former. This leads to a refinement of quantified Boolean logic with literal quantification as its primitive.
翻訳日:2021-08-24 15:57:32 公開日:2021-08-23
# 多様体学習のための遺伝的プログラミング:局所トポロジーの保存

Genetic Programming for Manifold Learning: Preserving Local Topology ( http://arxiv.org/abs/2108.09914v1 )

ライセンス: Link先を確認
Andrew Lensen, Bing Xue, Mengjie Zhang(参考訳) マニフォールド学習は、ますます巨大なデータセットの世界で、貴重なツールである。 多様体学習アルゴリズムは、元のデータの最も重要な構造を保存する非線形変換を通じて、高次元データセットのより低い次元表現(埋め込み)を見つけることができる。 最先端多様体学習法は、元の空間と発見された埋め込み空間をマッピングせずに直接埋め込みを最適化する。 これにより、探索的データ分析における重要な要件である解釈可能性はほぼ不可能になる。 近年、遺伝的プログラミングは、元の空間から埋め込みへの関数写像を進化させることによって、多様体学習に非常に有望なアプローチとして現れている。 しかし、遺伝的プログラミングに基づく多様体学習は、他の手法の性能と一致しない。 本研究では,局所的なトポロジを保存した多様体学習に遺伝的プログラミングを用いる新しい手法を提案する。 これは,地域構造(トポロジー)が最重要課題であるタスクにおいて,大幅な改善が期待できる。 提案手法を様々なベースライン多様体学習法と比較し,従来の遺伝的プログラミング手法よりも明らかに改善するなど,他の手法よりも優れていることを見出した。 これらの結果は、進化した写像の解釈可能性や再利用可能性を考えると、特に有望である。

Manifold learning methods are an invaluable tool in today's world of increasingly huge datasets. Manifold learning algorithms can discover a much lower-dimensional representation (embedding) of a high-dimensional dataset through non-linear transformations that preserve the most important structure of the original data. State-of-the-art manifold learning methods directly optimise an embedding without mapping between the original space and the discovered embedded space. This makes interpretability - a key requirement in exploratory data analysis - nearly impossible. Recently, genetic programming has emerged as a very promising approach to manifold learning by evolving functional mappings from the original space to an embedding. However, genetic programming-based manifold learning has struggled to match the performance of other approaches. In this work, we propose a new approach to using genetic programming for manifold learning, which preserves local topology. This is expected to significantly improve performance on tasks where local neighbourhood structure (topology) is paramount. We compare our proposed approach with various baseline manifold learning methods and find that it often outperforms other methods, including a clear improvement over previous genetic programming approaches. These results are particularly promising, given the potential interpretability and reusability of the evolved mappings.
翻訳日:2021-08-24 15:57:19 公開日:2021-08-23
# APObind:De Novoドラッグデザインにおける機械学習応用のためのリガンド非結合タンパク質のデータセット

APObind: A Dataset of Ligand Unbound Protein Conformations for Machine Learning Applications in De Novo Drug Design ( http://arxiv.org/abs/2108.09926v1 )

ライセンス: Link先を確認
Rishal Aggarwal, Akash Gupta, U Deva Priyakumar(参考訳) タンパク質リガンド複合体構造は、受容体結合部位の検出、小さな分子ドッキング、結合親和性予測などの薬物設計に関連する重要なタスクを実行するベンチマーク機械学習手法を設計するために利用されてきた。 しかし、これらの方法は通常、タンパク質のリガンド結合(またはホロ)配座のみに基づいて訓練されるため、タンパク質構造がネイティブなアンバウンド配座(apo)にある場合、通常は新しく同定された受容体の配座である場合、うまく機能することが保証されない。 主な理由は、結合部位の局所構造が通常、リガンド結合によって変化するからである。 この問題を解決するため,我々は pdbbind データセットに存在するタンパク質の apo コンフォーメーションを提供することを目的とした apobind というデータセットを提案する。 さらに,本データセット上の3つのユースケースに特有の手法の性能について検討し,APObindデータセット上での検証の重要性を示す。

Protein-ligand complex structures have been utilised to design benchmark machine learning methods that perform important tasks related to drug design such as receptor binding site detection, small molecule docking and binding affinity prediction. However, these methods are usually trained on only ligand bound (or holo) conformations of the protein and therefore are not guaranteed to perform well when the protein structure is in its native unbound conformation (or apo), which is usually the conformation available for a newly identified receptor. A primary reason for this is that the local structure of the binding site usually changes upon ligand binding. To facilitate solutions for this problem, we propose a dataset called APObind that aims to provide apo conformations of proteins present in the PDBbind dataset, a popular dataset used in drug design. Furthermore, we explore the performance of methods specific to three use cases on this dataset, through which, the importance of validating them on the APObind dataset is demonstrated.
翻訳日:2021-08-24 15:57:04 公開日:2021-08-23
# 時間とともに進化するcovid-19の不確実性と密度依存型社会強化と無症候性感染症のモデル化

Modeling COVID-19 uncertainties evolving over time and density-dependent social reinforcement and asymptomatic infections ( http://arxiv.org/abs/2108.10029v1 )

ライセンス: Link先を確認
Qing Liu and Longbing Cao(参考訳) 新型コロナウイルス感染症2019(COVID-19)は、そのプロセスとデータの不確実性の両方をモデル化し、無症候性感染、感染の社会的強化、報告されたデータにおける様々な品質問題で表される、独特で未知の複雑な問題とモデリング課題を提示する。 これらの不確実性は、ワクチンを服用しながらも感受性の高い集団による圧倒的な突然変異優位の再発においてさらに驚くべきものとなる。 Here we introduce a novel hybrid approach to (1) characterizing and distinguishing Undocumented (U) and Documented (D) infections commonly seen during COVID-19 incubation periods and asymptomatic infections by expanding the foundational compartmental epidemic Susceptible-Infected-Recovered (SIR) model with two compartments, resulting in a new Susceptible-Undocumented infected-Documented infected-Recovered (SUDR) model; (2) characterizing the probabilistic density of infections by empowering SUDR to capture exogenous processes like clustering contagion interactions, superspreading and social reinforcement; and (3) approximating the density likelihood of COVID-19 prevalence over time by incorporating Bayesian inference into SUDR. 既存の新型コロナウイルスモデルとは異なり、SUDRは未知の感染過程における未文書の感染を特徴付ける。 新型コロナウイルス感染時の時間的伝達と社会強化の不確実性を把握するため、感染率を未記録の感染者の時間的変動密度関数によってモデル化する。 本研究は, 平均体後部分布から適切な先行点を抽出し, 一般のCOVID-19症例データで広く見られるランダム性, ノイズ, 空間性を扱うのに適したSUDRを同定した。

The novel coronavirus disease 2019 (COVID-19) presents unique and unknown problem complexities and modeling challenges, where an imperative task is to model both its process and data uncertainties, represented in implicit and high-proportional undocumented infections, asymptomatic contagion, social reinforcement of infections, and various quality issues in the reported data. These uncertainties become even more phenomenal in the overwhelming mutation-dominated resurgences with vaccinated but still susceptible populations. Here we introduce a novel hybrid approach to (1) characterizing and distinguishing Undocumented (U) and Documented (D) infections commonly seen during COVID-19 incubation periods and asymptomatic infections by expanding the foundational compartmental epidemic Susceptible-Infected-Recovered (SIR) model with two compartments, resulting in a new Susceptible-Undocumented infected-Documented infected-Recovered (SUDR) model; (2) characterizing the probabilistic density of infections by empowering SUDR to capture exogenous processes like clustering contagion interactions, superspreading and social reinforcement; and (3) approximating the density likelihood of COVID-19 prevalence over time by incorporating Bayesian inference into SUDR. Different from existing COVID-19 models, SUDR characterizes the undocumented infections during unknown transmission processes. To capture the uncertainties of temporal transmission and social reinforcement during the COVID-19 contagion, the transmission rate is modeled by a time-varying density function of undocumented infectious cases. We solve the modeling by sampling from the mean-field posterior distribution with reasonable priors, making SUDR suitable to handle the randomness, noise and sparsity of COVID-19 observations widely seen in the public COVID-19 case data.
翻訳日:2021-08-24 15:54:56 公開日:2021-08-23
# 構造変数選択のための排他的グループラッソ

Exclusive Group Lasso for Structured Variable Selection ( http://arxiv.org/abs/2108.10284v1 )

ライセンス: Link先を確認
David Gregoratti and Xavier Mestre and Carlos Buelga(参考訳) 構造的変数選択問題は、前定義されたグループに分割された共変数が、グループごとにゼロでないエントリが少ないスパースパターンに従って活性化される。 原子ノルムの概念に基づいた合成ノルムは、そのような排他的群空間パターンを促進するために適切に設計することができる。 結果として得られるノルムは、近位アルゴリズムのような回復をサポートする効率的で柔軟な正規化最適化アルゴリズムに役立ちます。 さらに, 推定支持体に構造原子を逐次含むことで解を構築できる能動集合アルゴリズムを提案する。 また、そのようなアルゴリズムは、通常の排他的群空間よりも厳密な構造に適合するように調整することができる。 漸近的整合性解析(パラメータ数と観測サイズで増加するグループ数の両方)は、従来の仮定の下で署名された支持回復の観点から、提案手法の有効性を確立する。 最後に、一連の数値シミュレーションがさらに結果を裏付ける。

A structured variable selection problem is considered in which the covariates, divided into predefined groups, activate according to sparse patterns with few nonzero entries per group. Capitalizing on the concept of atomic norm, a composite norm can be properly designed to promote such exclusive group sparsity patterns. The resulting norm lends itself to efficient and flexible regularized optimization algorithms for support recovery, like the proximal algorithm. Moreover, an active set algorithm is proposed that builds the solution by successively including structure atoms into the estimated support. It is also shown that such an algorithm can be tailored to match more rigid structures than plain exclusive group sparsity. Asymptotic consistency analysis (with both the number of parameters as well as the number of groups growing with the observation size) establishes the effectiveness of the proposed solution in terms of signed support recovery under conventional assumptions. Finally, a set of numerical simulations further corroborates the results.
翻訳日:2021-08-24 15:54:25 公開日:2021-08-23
# 機械の学習画像符号化:コンテンツ適応的アプローチ

Learned Image Coding for Machines: A Content-Adaptive Approach ( http://arxiv.org/abs/2108.09992v1 )

ライセンス: Link先を確認
Nam Le, Honglei Zhang, Francesco Cricri, Ramin Ghaznavi-Youvalari, Hamed Rezazadegan Tavakoli, Esa Rahtu(参考訳) 今日、Cisco Annual Internet Report (2018-2023)によると、インターネットトラフィックの最速成長カテゴリーは機械間通信である。 特に、画像とビデオの機械間通信は、新しい課題であり、データ圧縮の文脈で新しい視点を開く。 可能な解決策の1つは、現在の人間のターゲット画像とビデオコーディング標準をマシン消費のユースケースに適応させることである。 別のアプローチは、機械間通信のための全く新しい圧縮パラダイムとアーキテクチャを開発することである。 本稿では,画像圧縮に着目し,機械消費の圧縮効率向上を目的とした,エンドツーエンドの学習画像コーデックの潜在表現を最適化する推論時コンテンツ適応微調整方式を提案する。 実験の結果,予め訓練した画像コーデックに対して平均ビットレート(BDレート)を3.66%削減できることがわかった。 特に低ビットレートでは,提案手法により9.85%の大幅なビットレート削減が可能となった。 VVC(Versatile Video Coding)は,画像・ビデオコーデックの30.54%のBDレートを実現している。

Today, according to the Cisco Annual Internet Report (2018-2023), the fastest-growing category of Internet traffic is machine-to-machine communication. In particular, machine-to-machine communication of images and videos represents a new challenge and opens up new perspectives in the context of data compression. One possible solution approach consists of adapting current human-targeted image and video coding standards to the use case of machine consumption. Another approach consists of developing completely new compression paradigms and architectures for machine-to-machine communications. In this paper, we focus on image compression and present an inference-time content-adaptive finetuning scheme that optimizes the latent representation of an end-to-end learned image codec, aimed at improving the compression efficiency for machine-consumption. The conducted experiments show that our online finetuning brings an average bitrate saving (BD-rate) of -3.66% with respect to our pretrained image codec. In particular, at low bitrate points, our proposed method results in a significant bitrate saving of -9.85%. Overall, our pretrained-and-then-finetuned system achieves -30.54% BD-rate over the state-of-the-art image/video codec Versatile Video Coding (VVC).
翻訳日:2021-08-24 15:53:21 公開日:2021-08-23
# 機械のイメージコーディング--エンドツーエンドの学習アプローチ

Image coding for machines: an end-to-end learned approach ( http://arxiv.org/abs/2108.09993v1 )

ライセンス: Link先を確認
Nam Le, Honglei Zhang, Francesco Cricri, Ramin Ghaznavi-Youvalari, Esa Rahtu(参考訳) 近年では、深層学習に基づくコンピュータビジョンシステムが画像に応用され続けており、多くの場合、画像の唯一の消費形態を表している。 マシン消費を対象とする画像コーデックは、人間の消費を対象とする最先端のコーデックに対して、どの程度の精度で機能するのか? 本稿では,ニューラルネットワーク(nn)をベースとし,エンドツーエンド学習を行うマシンのためのイメージコーデックを提案する。 特に,コンピュータビジョンタスク損失,画像歪み損失,レート損失といった,競合する損失関数のバランスに関する微妙な問題に対処するトレーニング戦略を提案する。 我々のNNベースのコーデックは、オブジェクト検出タスクとインスタンスセグメンテーションタスクにおける最先端のVersa-tile Video Coding(VVC)標準よりも優れており、そのコンパクトさにより、それぞれ-37.87%と-32.90%のBDレートゲインを達成した。 我々の知る限りでは、これが最初のエンドツーエンドの機械学習画像コーデックである。

Over recent years, deep learning-based computer vision systems have been applied to images at an ever-increasing pace, oftentimes representing the only type of consumption for those images. Given the dramatic explosion in the number of images generated per day, a question arises: how much better would an image codec targeting machine-consumption perform against state-of-the-art codecs targeting human-consumption? In this paper, we propose an image codec for machines which is neural network (NN) based and end-to-end learned. In particular, we propose a set of training strategies that address the delicate problem of balancing competing loss functions, such as computer vision task losses, image distortion losses, and rate loss. Our experimental results show that our NN-based codec outperforms the state-of-the-art Versa-tile Video Coding (VVC) standard on the object detection and instance segmentation tasks, achieving -37.87% and -32.90% of BD-rate gain, respectively, while being fast thanks to its compact size. To the best of our knowledge, this is the first end-to-end learned machine-targeted image codec.
翻訳日:2021-08-24 15:53:04 公開日:2021-08-23
# 量子圧縮センシングを用いたディープニューラルネットワーク推論の高速化について

On the Acceleration of Deep Neural Network Inference using Quantized Compressed Sensing ( http://arxiv.org/abs/2108.10101v1 )

ライセンス: Link先を確認
Meshia C\'edric Oveneke(参考訳) リソース制限されたデバイス上でのディープニューラルネットワーク(DNN)推論の高速化は、より広範な包括的採用を保証する上で最も重要な障壁のひとつだ。 これを軽減するために、DNNのバイナリ量子化による高速な畳み込みとメモリ節約は、精度の大幅な低下にもかかわらず、最も有望な戦略の1つである。 そこで本研究では,量子化圧縮センシング(QCS)に基づく新しいバイナリ量子化関数を提案する。 理論的な議論では、提案手法は量子化誤差と結果の精度低下を低減しつつ、標準手法の実用的利点を保っている。

Accelerating deep neural network (DNN) inference on resource-limited devices is one of the most important barriers to ensuring a wider and more inclusive adoption. To alleviate this, DNN binary quantization for faster convolution and memory savings is one of the most promising strategies despite its serious drop in accuracy. The present paper therefore proposes a novel binary quantization function based on quantized compressed sensing (QCS). Theoretical arguments conjecture that our proposal preserves the practical benefits of standard methods, while reducing the quantization error and the resulting drop in accuracy.
翻訳日:2021-08-24 15:52:42 公開日:2021-08-23
# 新しいq-newton法はバックトラックライン探索を満たす:良好な収束保証、鞍点回避、二次収束率、簡単な実装

New Q-Newton's method meets Backtracking line search: good convergence guarantee, saddle points avoidance, quadratic rate of convergence, and easy implementation ( http://arxiv.org/abs/2108.10249v1 )

ライセンス: Link先を確認
Tuyen Trung Truong(参考訳) 最近の共同研究において、著者は、サドル点を回避し、2次収束率を持つNew Q-Newton法と呼ばれるニュートン法を修正した。 この方法の理論的収束保証は確立されていないが、小規模問題に対する実験により、適応立方正則化やBFGSといったニュートン法や、非有界二方向追跡勾配法のような一階法など、他のよく知られた修正法と非常に競合することを示した。 本稿では、より洗練されたハイパーパラメータとバックトラックライン探索を組み込んだ、New Q-Newton法(New Q-Newton法)の修正を提案し、収束保証問題を解消する。 この方法は非常に優れた理論的保証を持ち、これはある {\bf Morse 関数に対して以下の結果が得られる(新Q-ニュートン法では未知である)。 f:\mathbb{R}^m\rightarrow \mathbb{R}$ をモース函数とする。 このとき、New Q-Newton のメソッドで構築されたシーケンス $\{x_n\}$ に対して、ランダムな初期点 $x_0$ からバックトラックすると、次の2つの選択肢がある: i) $\lim _{n\rightarrow\infty}|||x_n||=\infty$, or i) $\{x_n\}$ は、$f$ の a {\bf局所最小値である点 $x_{\infty}$ に収束する。 さらに、$f$ がコンパクトな部分レベルを持つ場合、ケース ii) が発生する。 私たちの知る限り、モース関数は、これまでの文献において反復最適化アルゴリズムの最良の理論的保証である。 我々は,より簡易な新Q-Newton法Backtrackingを用いて,小規模で実験を行い,新Q-Newton法を大幅に改善することを発見した。

In a recent joint work, the author has developed a modification of Newton's method, named New Q-Newton's method, which can avoid saddle points and has quadratic rate of convergence. While good theoretical convergence guarantee has not been established for this method, experiments on small scale problems show that the method works very competitively against other well known modifications of Newton's method such as Adaptive Cubic Regularization and BFGS, as well as first order methods such as Unbounded Two-way Backtracking Gradient Descent. In this paper, we resolve the convergence guarantee issue by proposing a modification of New Q-Newton's method, named New Q-Newton's method Backtracking, which incorporates a more sophisticated use of hyperparameters and a Backtracking line search. This new method has very good theoretical guarantees, which for a {\bf Morse function} yields the following (which is unknown for New Q-Newton's method): {\bf Theorem.} Let $f:\mathbb{R}^m\rightarrow \mathbb{R}$ be a Morse function, that is all its critical points have invertible Hessian. Then for a sequence $\{x_n\}$ constructed by New Q-Newton's method Backtracking from a random initial point $x_0$, we have the following two alternatives: i) $\lim _{n\rightarrow\infty}||x_n||=\infty$, or ii) $\{x_n\}$ converges to a point $x_{\infty}$ which is a {\bf local minimum} of $f$, and the rate of convergence is {\bf quadratic}. Moreover, if $f$ has compact sublevels, then only case ii) happens. As far as we know, for Morse functions, this is the best theoretical guarantee for iterative optimization algorithms so far in the literature. We have tested in experiments on small scale, with some further simplified versions of New Q-Newton's method Backtracking, and found that the new method significantly improve New Q-Newton's method.
翻訳日:2021-08-24 15:52:32 公開日:2021-08-23
# 二重テキスト正規化のための統一トランスフォーマーベースフレームワーク

A Unified Transformer-based Framework for Duplex Text Normalization ( http://arxiv.org/abs/2108.09889v1 )

ライセンス: Link先を確認
Tuan Manh Lai, Yang Zhang, Evelina Bakhturina, Boris Ginsburg, Heng Ji(参考訳) テキスト正規化(TN)と逆テキスト正規化(ITN)はそれぞれ、テキスト音声合成と自動音声認識に欠かせない前処理と後処理のステップである。 重み付き有限状態トランスデューサからニューラルネットワークまで、多くの方法がTNまたはITNに提案されている。 優れたパフォーマンスにもかかわらず、これらの手法は2つのタスクのうち1つだけに取り組むことを目的としており、両方ではない。 その結果、完全な音声対話システムでは、TNとITNの2つの別々のモデルを構築する必要がある。 この不均一性はシステムの技術的な複雑さを増加させ、プロダクション環境でのメンテナンスコストを増加させる。 そこで本研究では,TNとITNを同時に処理可能な単一神経二重系構築のための統合フレームワークを提案する。 簡単なデータ拡張手法と組み合わせて,Google TNデータセットによる英語とロシア語の最先端結果を得る。 また、追加の微調整なしで、内部の英語TNデータセット上で95%以上の文レベルの精度に達することができる。 また、ドイツ語のスポケンウィキペディアコーパスからクリーンなデータセットを作成し、データセット上でのシステムのパフォーマンスを報告します。 全体として,提案する二重化テキスト正規化フレームワークは非常に効果的であり,様々なドメインや言語に適用可能であることを実験的に実証する。

Text normalization (TN) and inverse text normalization (ITN) are essential preprocessing and postprocessing steps for text-to-speech synthesis and automatic speech recognition, respectively. Many methods have been proposed for either TN or ITN, ranging from weighted finite-state transducers to neural networks. Despite their impressive performance, these methods aim to tackle only one of the two tasks but not both. As a result, in a complete spoken dialog system, two separate models for TN and ITN need to be built. This heterogeneity increases the technical complexity of the system, which in turn increases the cost of maintenance in a production setting. Motivated by this observation, we propose a unified framework for building a single neural duplex system that can simultaneously handle TN and ITN. Combined with a simple but effective data augmentation method, our systems achieve state-of-the-art results on the Google TN dataset for English and Russian. They can also reach over 95% sentence-level accuracy on an internal English TN dataset without any additional fine-tuning. In addition, we also create a cleaned dataset from the Spoken Wikipedia Corpora for German and report the performance of our systems on the dataset. Overall, experimental results demonstrate the proposed duplex text normalization framework is highly effective and applicable to a range of domains and languages
翻訳日:2021-08-24 15:51:46 公開日:2021-08-23
# イベントタイプと引数ロールの関連付けによるイベント抽出

Event Extraction by Associating Event Types and Argument Roles ( http://arxiv.org/abs/2108.10038v1 )

ライセンス: Link先を確認
Qian Li, Shu Guo, Jia Wu, Jianxin Li, Jiawei Sheng, Lihong Wang, Xiaohan Dong, Hao Peng(参考訳) イベント抽出(EE)は、テキストから構造的なイベント知識を取得するもので、イベントタイプ分類と要素抽出(つまり、異なる役割パターンの下でトリガと引数を識別する)の2つのサブタスクに分けられる。 異なるイベントタイプは常に異なる抽出スキーマ(すなわちロールパターン)を持っているため、eeに関する以前の作業は、通常独立した学習パラダイムに従い、異なるイベントタイプに対して独立して要素抽出を行う。 イベントタイプと引数ロール間の有意義な関連を無視し、頻度の低い型/ロールに対して比較的低いパフォーマンスをもたらす。 本稿では、eeタスクのための新しいニューラルアソシエーションフレームワークを提案する。 文書が与えられた場合、まず、異なるタイプの文ノードを関連付けるために文書レベルのグラフを構築し、グラフ注意ネットワークを用いて文の埋め込みを学習することで、型分類を行う。 次に、引数ロールの普遍的スキーマを構築して要素抽出を行い、抽出された要素の役割嗜好を高めるパラメータ継承機構を構築する。 このように、私たちのモデルは、EE中のタイプや役割の関連を考慮に入れ、それら間で暗黙の情報共有を可能にします。 実験の結果,提案手法は両サブタスクにおいて,最先端のEE手法よりも一貫して優れていることがわかった。 特にトレーニングデータが少ないタイプ/ロールの場合、パフォーマンスは既存のメソッドよりも優れている。

Event extraction (EE), which acquires structural event knowledge from texts, can be divided into two sub-tasks: event type classification and element extraction (namely identifying triggers and arguments under different role patterns). As different event types always own distinct extraction schemas (i.e., role patterns), previous work on EE usually follows an isolated learning paradigm, performing element extraction independently for different event types. It ignores meaningful associations among event types and argument roles, leading to relatively poor performance for less frequent types/roles. This paper proposes a novel neural association framework for the EE task. Given a document, it first performs type classification via constructing a document-level graph to associate sentence nodes of different types, and adopting a graph attention network to learn sentence embeddings. Then, element extraction is achieved by building a universal schema of argument roles, with a parameter inheritance mechanism to enhance role preference for extracted elements. As such, our model takes into account type and role associations during EE, enabling implicit information sharing among them. Experimental results show that our approach consistently outperforms most state-of-the-art EE methods in both sub-tasks. Particularly, for types/roles with less training data, the performance is superior to the existing methods.
翻訳日:2021-08-24 15:51:28 公開日:2021-08-23
# 文脈不整合を用いた人物再識別における多元対逆攻撃検出

Multi-Expert Adversarial Attack Detection in Person Re-identification Using Context Inconsistency ( http://arxiv.org/abs/2108.09891v1 )

ライセンス: Link先を確認
Xueping Wang, Shasha Li, Min Liu, Yaonan Wang and Amit K. Roy-Chowdhury(参考訳) ディープニューラルネットワーク(DNN)の成功は、人物再識別(ReID)の広範な応用を促進させた。 しかし、ReIDシステムは、視覚的に目立った敵対的摂動の悪意ある攻撃にDNNの加害性を継承する。 したがって、アドバー・サリアル攻撃の検出は、ReIDシステムの基本要件である。 本研究では,DNNベースのReIDシステムに適合するコンテキスト不整合をチェックすることで,この目標を達成するためのマルチエキスパート・アタック検出(MEAAD)手法を提案する。 Specifically,three kinds of context inconsistencies caused by adversar-ial attacks are employed to learn a detector for distinguish-ing the perturbed examples, i.e., a) the embedding distancesbetween a perturbed query person image and its top-K re-trievals are generally larger than those between a benignquery image and its top-K retrievals, b) the embedding dis-tances among the top-K retrievals of a perturbed query im-age are larger than those of a benign query image, c) thetop-K retrievals of a benign query image obtained with mul-tiple expert ReID models tend to be consistent, which isnot preserved when attacks are present. Market1501とDukeMTMC-ReIDデータセットの広範なエクスペラメントは、ReIDに対する最初の敵攻撃検出アプローチとして、MEAADは様々な敵の攻撃タックを効果的に検出し、高いROC-AUC(97.5%以上)を達成することを示している。

The success of deep neural networks (DNNs) haspromoted the widespread applications of person re-identification (ReID). However, ReID systems inherit thevulnerability of DNNs to malicious attacks of visually in-conspicuous adversarial perturbations. Detection of adver-sarial attacks is, therefore, a fundamental requirement forrobust ReID systems. In this work, we propose a Multi-Expert Adversarial Attack Detection (MEAAD) approach toachieve this goal by checking context inconsistency, whichis suitable for any DNN-based ReID systems. Specifically,three kinds of context inconsistencies caused by adversar-ial attacks are employed to learn a detector for distinguish-ing the perturbed examples, i.e., a) the embedding distancesbetween a perturbed query person image and its top-K re-trievals are generally larger than those between a benignquery image and its top-K retrievals, b) the embedding dis-tances among the top-K retrievals of a perturbed query im-age are larger than those of a benign query image, c) thetop-K retrievals of a benign query image obtained with mul-tiple expert ReID models tend to be consistent, which isnot preserved when attacks are present. Extensive exper-iments on the Market1501 and DukeMTMC-ReID datasetsshow that, as the first adversarial attack detection approachfor ReID,MEAADeffectively detects various adversarial at-tacks and achieves high ROC-AUC (over 97.5%).
翻訳日:2021-08-24 15:42:57 公開日:2021-08-23
# CANet: シャドー除去のためのコンテキスト認識ネットワーク

CANet: A Context-Aware Network for Shadow Removal ( http://arxiv.org/abs/2108.09894v1 )

ライセンス: Link先を確認
Zipei Chen, Chengjiang Long, Ling Zhang, Chunxia Xiao(参考訳) 本稿では,非シャドー領域からのコンテキスト情報を埋め込み特徴空間のシャドウ領域に転送する,シャドウ除去のための2段階のコンテキスト認識ネットワークcanetを提案する。 ステージiでは,シャドウパッチと非シャドウパッチの潜在的なマッチングペアを生成するためのcpm(contextual patch matching)モジュールを提案する。 シャドウ領域と非シャドウ領域間の潜在的なコンテキスト関係と組み合わせることで、よく設計されたコンテキスト特徴伝達(CFT)機構は、異なるスケールで非シャドウ領域からシャドウ領域へコンテキスト情報を転送することができる。 再構成された特徴写像により、LとA/Bチャネルの影を別々に除去する。 ステージIIでは、エンコーダデコーダを用いて現在の結果を洗練し、最終的なシャドウ除去結果を生成する。 提案したCANetを2つのベンチマークデータセットと複雑なシーンを持つ実世界の影画像で評価した。 提案したCANetの有効性を強く実証し,最先端技術に優れた性能を示した。

In this paper, we propose a novel two-stage context-aware network named CANet for shadow removal, in which the contextual information from non-shadow regions is transferred to shadow regions at the embedded feature spaces. At Stage-I, we propose a contextual patch matching (CPM) module to generate a set of potential matching pairs of shadow and non-shadow patches. Combined with the potential contextual relationships between shadow and non-shadow regions, our well-designed contextual feature transfer (CFT) mechanism can transfer contextual information from non-shadow to shadow regions at different scales. With the reconstructed feature maps, we remove shadows at L and A/B channels separately. At Stage-II, we use an encoder-decoder to refine current results and generate the final shadow removal results. We evaluate our proposed CANet on two benchmark datasets and some real-world shadow images with complex scenes. Extensive experimental results strongly demonstrate the efficacy of our proposed CANet and exhibit superior performance to state-of-the-arts.
翻訳日:2021-08-24 15:42:33 公開日:2021-08-23
# 第2回反UAVワークショップ・チャレンジ:方法と成果

The 2nd Anti-UAV Workshop & Challenge: Methods and Results ( http://arxiv.org/abs/2108.09909v1 )

ライセンス: Link先を確認
Jian Zhao, Gang Wang, Jianan Li, Lei Jin, Nana Fan, Min Wang, Xiaojuan Wang, Ting Yong, Yafeng Deng, Yandong Guo, Shiming Ge, Guodong Guo(参考訳) 第2回反UAVワークショップ「チャレンジ」は、マルチスケール物体追跡の新しい高精度な手法の研究を促進することを目的としている。 反UAVチャレンジで使用される反UAVデータセットが公開された。 データセットには$i.e.$とtest-devサブセットとtest-challengeサブセットの2つのサブセットがある。 どちらのサブセットも140個の熱赤外ビデオシーケンスで構成されており、複数のUAVが発生している。 世界から24チームが参加し、第2回対uavチャレンジに出場した。 本稿では,第2回反UAVワークショップ・チャレンジの概要を紹介するとともに,第2回反UAVワークショップ・チャレンジについて紹介する。 ベンチマークデータセットとその他の情報は、https://anti-uav.github.io/で見ることができる。

The 2nd Anti-UAV Workshop \& Challenge aims to encourage research in developing novel and accurate methods for multi-scale object tracking. The Anti-UAV dataset used for the Anti-UAV Challenge has been publicly released. There are two subsets in the dataset, $i.e.$, the test-dev subset and test-challenge subset. Both subsets consist of 140 thermal infrared video sequences, spanning multiple occurrences of multi-scale UAVs. Around 24 participating teams from the globe competed in the 2nd Anti-UAV Challenge. In this paper, we provide a brief summary of the 2nd Anti-UAV Workshop \& Challenge including brief introductions to the top three methods.The submission leaderboard will be reopened for researchers that are interested in the Anti-UAV challenge. The benchmark dataset and other information can be found at: https://anti-uav.github.io/.
翻訳日:2021-08-24 15:42:17 公開日:2021-08-23
# PR-GCN:6次元空間推定のためのポイントリファインメント付きディープグラフ畳み込みネットワーク

PR-GCN: A Deep Graph Convolutional Network with Point Refinement for 6D Pose Estimation ( http://arxiv.org/abs/2108.09916v1 )

ライセンス: Link先を確認
Guangyuan Zhou, Huiqun Wang, Jiaxin Chen and Di Huang(参考訳) RGB-D に基づく6D ポーズ推定は近年顕著な進歩を遂げているが,(1) 深度データの非効率な表現,(2) 異なるモダリティの不十分な統合の2つの大きな限界に悩まされている。 本稿では,グラフ畳み込みネットワーク (graph convolutional network with pointfine (pr-gcn)) という新しい深層学習手法を提案する。 まず、3dポイントの雲を磨くためにprn(pointfine network)を導入し、ノイズを除去した欠片を回収した。 その後,マルチモーダル融合グラフ畳み込みネットワーク(mmf-gcn)が提案され,グラフ畳み込みネットワーク内の局所情報伝搬を介して幾何・認識間相関を捉えるrgb-d結合が強化される。 広く使用されている3つのベンチマークで広範な実験が行われ、最先端のパフォーマンスが達成される。 また,提案した PRN および MMF-GCN モジュールは,他のフレームワークによく一般化されている。

RGB-D based 6D pose estimation has recently achieved remarkable progress, but still suffers from two major limitations: (1) ineffective representation of depth data and (2) insufficient integration of different modalities. This paper proposes a novel deep learning approach, namely Graph Convolutional Network with Point Refinement (PR-GCN), to simultaneously address the issues above in a unified way. It first introduces the Point Refinement Network (PRN) to polish 3D point clouds, recovering missing parts with noise removed. Subsequently, the Multi-Modal Fusion Graph Convolutional Network (MMF-GCN) is presented to strengthen RGB-D combination, which captures geometry-aware inter-modality correlation through local information propagation in the graph convolutional network. Extensive experiments are conducted on three widely used benchmarks, and state-of-the-art performance is reached. Besides, it is also shown that the proposed PRN and MMF-GCN modules are well generalized to other frameworks.
翻訳日:2021-08-24 15:42:05 公開日:2021-08-23
# 多視点表面再構成のための符号付き距離場学習

Learning Signed Distance Field for Multi-view Surface Reconstruction ( http://arxiv.org/abs/2108.09964v1 )

ライセンス: Link先を確認
Jingyang Zhang, Yao Yao, Long Quan(参考訳) 暗黙的神経表現に関する最近の研究は、多視点表面再構成に有望な結果を示している。 しかし、ほとんどのアプローチは比較的単純な幾何学に限られており、通常は複雑で凹凸な物体を再構成するためにきれいな物体マスクを必要とする。 本稿では,ステレオマッチングと特徴整合性の知識を活かし,暗黙的表面表現を最適化する新しい神経表面再構成フレームワークを提案する。 具体的には,サイン付き距離場(SDF)と表面光場をそれぞれ,シーン形状と外観を表すために適用する。 SDFはステレオマッチングから幾何学的に直接監督され、多視点特徴の一貫性とレンダリング画像の忠実度を最適化することにより洗練される。 本手法は,地形推定の堅牢性を向上し,複雑なシーントポロジの再構築を支援する。 DTU、EPFL、タンク、テンプルのデータセットに関する大規模な実験が行われた。 従来の最先端手法と比較して,マスキングを入力として使用せずに,広いオープンシーンでメッシュ再構成を実現する。

Recent works on implicit neural representations have shown promising results for multi-view surface reconstruction. However, most approaches are limited to relatively simple geometries and usually require clean object masks for reconstructing complex and concave objects. In this work, we introduce a novel neural surface reconstruction framework that leverages the knowledge of stereo matching and feature consistency to optimize the implicit surface representation. More specifically, we apply a signed distance field (SDF) and a surface light field to represent the scene geometry and appearance respectively. The SDF is directly supervised by geometry from stereo matching, and is refined by optimizing the multi-view feature consistency and the fidelity of rendered images. Our method is able to improve the robustness of geometry estimation and support reconstruction of complex scene topologies. Extensive experiments have been conducted on DTU, EPFL and Tanks and Temples datasets. Compared to previous state-of-the-art methods, our method achieves better mesh reconstruction in wide open scenes without masks as input.
翻訳日:2021-08-24 15:41:43 公開日:2021-08-23
# ぼやけ不変な動き推定と画素容積を用いたリカレントビデオデブラリング

Recurrent Video Deblurring with Blur-Invariant Motion Estimation and Pixel Volumes ( http://arxiv.org/abs/2108.09982v1 )

ライセンス: Link先を確認
Hyeongseok Son, Junyong Lee, Jonghyeop Lee, Sunghyun Cho, Seungyong Lee(参考訳) ビデオデブラリングの成功には,隣接するフレームからの情報を活用することが不可欠である。 最新のビデオデブラリング手法の多くは、ビデオフレーム間の動き補償を利用して、ターゲットフレームをデブラリングするのに役立つ複数のフレームから情報を集約する。 しかし、従来のデブロアリング法で採用した動き補償法はボケ不変ではなく、ボケ量が異なるボケフレームに対して精度が制限される。 この問題を軽減するために,複数のビデオフレームから情報を効果的に集約することで,映像を損なう2つの新しい手法を提案する。 まず,ボケフレーム間の動き推定精度を向上させるために,ボケ不変な動き推定学習を提案する。 第2に、動き補償では、推定された動きに干渉してフレームを整列する代わりに、候補シャープ画素を含む画素ボリュームを使用して、動き推定誤差を解消する。 これら2つのプロセスを組み合わせることで、従来のフレームの劣化をフル活用する効果的な繰り返しビデオデブロアリングネットワークを提案する。 実験により,本手法は,ディープラーニングを用いた最近の手法と比較して,定量的かつ質的に,最先端の性能を達成することが示された。

For the success of video deblurring, it is essential to utilize information from neighboring frames. Most state-of-the-art video deblurring methods adopt motion compensation between video frames to aggregate information from multiple frames that can help deblur a target frame. However, the motion compensation methods adopted by previous deblurring methods are not blur-invariant, and consequently, their accuracy is limited for blurry frames with different blur amounts. To alleviate this problem, we propose two novel approaches to deblur videos by effectively aggregating information from multiple video frames. First, we present blur-invariant motion estimation learning to improve motion estimation accuracy between blurry frames. Second, for motion compensation, instead of aligning frames by warping with estimated motions, we use a pixel volume that contains candidate sharp pixels to resolve motion estimation errors. We combine these two processes to propose an effective recurrent video deblurring network that fully exploits deblurred previous frames. Experiments show that our method achieves the state-of-the-art performance both quantitatively and qualitatively compared to recent methods that use deep learning.
翻訳日:2021-08-24 15:41:27 公開日:2021-08-23
# 医用画像分類作業における自己監督機能はどの程度可能か?

How Transferable Are Self-supervised Features in Medical Image Classification Tasks? ( http://arxiv.org/abs/2108.10048v1 )

ライセンス: Link先を確認
Tuan Truong, Sadegh Mohammadi, Matthias Lenga(参考訳) 転送学習は、医学分類タスクにおけるラベル付きデータの欠如を軽減するための標準的プラクティスとなっている。 教師付きイメージネット事前学習機能を用いた下流タスクの微調整は簡単であり,多くの研究で広く研究されているが,自己教師付き事前学習の有用性についてはほとんど研究されていない。 本稿では,3つの自己教師技術 (simclr, swav, dino) から初期化したモデルの性能を評価することにより,imagenetの自己教師付きプリトレーニングの伝達性を評価する。 選択された課題は, センチネル軸索リンパ節像における腫瘍検出, 底部画像における糖尿病網膜症分類, 胸部X線画像における複数の病態分類である。 本研究では, 自己教師付き事前学習モデルにより, 教師付きモデルよりもリッチな埋め込みが得られ, 線形評価と微調整の両面から下流タスクの恩恵を受けることを示す。 例えば、糖尿病性網膜症分類タスクにおけるkappaスコアの最大14.79%、腫瘍分類タスクにおけるaucの5.4%、肺炎検出における7.03%、胸部x線における病理状態の検出におけるaucの9.4%が改善されている。 さらに,複数のモデルから事前学習した埋め込みを融合するエンドツーエンドの移動学習手法として,動的ビジュアルメタ埋め込み(DVME)を導入する。 DVMEにより得られた集合表現は,1つの事前学習モデルを用いた場合と比較して,選択したタスクの性能が大幅に向上し,任意の事前学習モデルに一般化可能であることを示す。

Transfer learning has become a standard practice to mitigate the lack of labeled data in medical classification tasks. Whereas finetuning a downstream task using supervised ImageNet pretrained features is straightforward and extensively investigated in many works, there is little study on the usefulness of self-supervised pretraining. In this paper, we assess the transferability of ImageNet self-supervisedpretraining by evaluating the performance of models initialized with pretrained features from three self-supervised techniques (SimCLR, SwAV, and DINO) on selected medical classification tasks. The chosen tasks cover tumor detection in sentinel axillary lymph node images, diabetic retinopathy classification in fundus images, and multiple pathological condition classification in chest X-ray images. We demonstrate that self-supervised pretrained models yield richer embeddings than their supervised counterpart, which benefits downstream tasks in view of both linear evaluation and finetuning. For example, in view of linear evaluation at acritically small subset of the data, we see an improvement up to 14.79% in Kappa score in the diabetic retinopathy classification task, 5.4% in AUC in the tumor classification task, 7.03% AUC in the pneumonia detection, and 9.4% in AUC in the detection of pathological conditions in chest X-ray. In addition, we introduce Dynamic Visual Meta-Embedding (DVME) as an end-to-end transfer learning approach that fuses pretrained embeddings from multiple models. We show that the collective representation obtained by DVME leads to a significant improvement in the performance of selected tasks compared to using a single pretrained model approach and can be generalized to any combination of pretrained models.
翻訳日:2021-08-24 15:41:08 公開日:2021-08-23
# ODAM: Posed RGB Video を用いたオブジェクト検出・アソシエーション・マッピング

ODAM: Object Detection, Association, and Mapping using Posed RGB Video ( http://arxiv.org/abs/2108.10165v1 )

ライセンス: Link先を確認
Kejie Li, Daniel DeTone, Steven Chen, Minh Vo, Ian Reid, Hamid Rezatofighi, Chris Sweeney, Julian Straub, Richard Newcombe(参考訳) 物体を3Dで局所化し、その範囲を推定することは、拡張現実とロボティクスに多くの応用がある高レベルの3Dシーン理解への重要なステップである。 ポーズ付きRGBビデオを用いた3次元物体検出・アソシエーション・マッピングシステムであるODAMについて述べる。 提案システムはディープラーニングのフロントエンドを用いて、与えられたRGBフレームから3Dオブジェクトを検出し、グラフニューラルネットワーク(GNN)を用いてそれらをグローバルなオブジェクトベースマップに関連付ける。 これらのフレームからモデルへの関係に基づいて、バックエンドは、マルチビューの幾何学的制約とオブジェクトスケールの前に、スーパークアドリックとして表現されるオブジェクトバウンディングボリュームを最適化します。 提案手法をScanNet上で検証し,既存のRGB法よりも大幅に改善したことを示す。

Localizing objects and estimating their extent in 3D is an important step towards high-level 3D scene understanding, which has many applications in Augmented Reality and Robotics. We present ODAM, a system for 3D Object Detection, Association, and Mapping using posed RGB videos. The proposed system relies on a deep learning front-end to detect 3D objects from a given RGB frame and associate them to a global object-based map using a graph neural network (GNN). Based on these frame-to-model associations, our back-end optimizes object bounding volumes, represented as super-quadrics, under multi-view geometry constraints and the object scale prior. We validate the proposed system on ScanNet where we show a significant improvement over existing RGB-only methods.
翻訳日:2021-08-24 15:40:40 公開日:2021-08-23
# インスタンス認識のためのバランス学習に向けて

Towards Balanced Learning for Instance Recognition ( http://arxiv.org/abs/2108.10175v1 )

ライセンス: Link先を確認
Jiangmiao Pang, Kai Chen, Qi Li, Zhihai Xu, Huajun Feng, Jianping Shi, Wanli Ouyang, Dahua Lin(参考訳) インスタンス認識は、様々な深い畳み込みニューラルネットワークの開発とともに急速に進歩している。 ネットワークのアーキテクチャと比較すると、検知器の成功に欠かせないトレーニングプロセスは、比較的注目を集めていない。 本研究は,検出器の標準訓練実践を再考し,通常,試料レベル,特徴レベル,目標レベルという3つのレベルから構成されるトレーニングプロセスにおいて,検出性能が不均衡によって制限されることが多かった。 そこで本研究では,インスタンス認識のためのバランスのとれた学習のための簡易かつ効果的なフレームワークであるlibra r-cnnを提案する。 IoUバランスのサンプリング、バランスの取れた特徴ピラミッド、および目的の再重み付けを統合し、サンプル、特徴、目的レベルの不均衡を軽減する。 ms coco、lvis、pascal vocデータセットを用いた広範な実験により、全体的なバランス設計の有効性が証明された。

Instance recognition is rapidly advanced along with the developments of various deep convolutional neural networks. Compared to the architectures of networks, the training process, which is also crucial to the success of detectors, has received relatively less attention. In this work, we carefully revisit the standard training practice of detectors, and find that the detection performance is often limited by the imbalance during the training process, which generally consists in three levels - sample level, feature level, and objective level. To mitigate the adverse effects caused thereby, we propose Libra R-CNN, a simple yet effective framework towards balanced learning for instance recognition. It integrates IoU-balanced sampling, balanced feature pyramid, and objective re-weighting, respectively for reducing the imbalance at sample, feature, and objective level. Extensive experiments conducted on MS COCO, LVIS and Pascal VOC datasets prove the effectiveness of the overall balanced design.
翻訳日:2021-08-24 15:40:25 公開日:2021-08-23
# LivDet 2021 Fingerprint Liveness Detection competition -- 未知の世界へ

LivDet 2021 Fingerprint Liveness Detection Competition -- Into the unknown ( http://arxiv.org/abs/2108.10183v1 )

ライセンス: Link先を確認
Roberto Casula, Marco Micheletto, Giulia Orr\`u, Rita Delussu, Sara Concas, Andrea Panzino, Gian Luca Marcialis(参考訳) 国際指紋活力検出コンペティション(international fingerprint liveness detection competition)は、指紋提示攻撃検出の進歩を評価・報告することを目的とした、学界や業界に開放された国際二年次コンペティションである。 提案した"Liveness Detection in Action"と"Fingerprint representation"は,検証システムに組み込まれたPADの影響と,モバイルアプリケーションにおける機能セットの有効性とコンパクト性を評価することを目的としている。 さらに, 最終結果に特に影響を与えた新しいspoof作製法を実験した。 LivDetが達成した最大数である23のアルゴリズムが競技会に提出された。

The International Fingerprint Liveness Detection Competition is an international biennial competition open to academia and industry with the aim to assess and report advances in Fingerprint Presentation Attack Detection. The proposed "Liveness Detection in Action" and "Fingerprint representation" challenges were aimed to evaluate the impact of a PAD embedded into a verification system, and the effectiveness and compactness of feature sets for mobile applications. Furthermore, we experimented a new spoof fabrication method that has particularly affected the final results. Twenty-three algorithms were submitted to the competition, the maximum number ever achieved by LivDet.
翻訳日:2021-08-24 15:40:10 公開日:2021-08-23
# vogtareuth rehab depth datasets:リハビリテーションにおけるマーカーレス姿勢推定ベンチマーク

Vogtareuth Rehab Depth Datasets: Benchmark for Marker-less Posture Estimation in Rehabilitation ( http://arxiv.org/abs/2108.10272v1 )

ライセンス: Link先を確認
Soubarna Banik, Alejandro Mendoza Garcia, Lorenz Kiwull, Steffen Berweck, and Alois Knoll(参考訳) 単一深度カメラを用いた姿勢推定はリハビリテーション運動の分析に有用である。 コンピュータビジョン研究における姿勢推定の最近の進歩は、大規模ポーズデータセットの可用性によって可能になっている。 しかし、リハビリテーション演習に関わる複雑な姿勢は、既存のベンチマーク深度データセットには示されていない。 そこで本研究では,リハビリテーション訓練を行う成人・小児の深度画像と2次元ポーズ情報を含む2つのリハビリテーション特有のポーズデータセットを提案する。 非リハビリテーションベンチマークデータセットでトレーニングされた最先端のマーカーレス姿勢推定モデルを用いる。 リハビリデータセットで評価し、パフォーマンスが非リハビリからリハビリに著しく低下していることを確認し、これらのデータセットの必要性を強調します。 当社のデータセットは,ポーズモデルのトレーニングと,リハビリに特有の複雑な姿勢の検出に使用することができる。 データセットは研究コミュニティの利益のためにリリースされる予定だ。

Posture estimation using a single depth camera has become a useful tool for analyzing movements in rehabilitation. Recent advances in posture estimation in computer vision research have been possible due to the availability of large-scale pose datasets. However, the complex postures involved in rehabilitation exercises are not represented in the existing benchmark depth datasets. To address this limitation, we propose two rehabilitation-specific pose datasets containing depth images and 2D pose information of patients, both adult and children, performing rehab exercises. We use a state-of-the-art marker-less posture estimation model which is trained on a non-rehab benchmark dataset. We evaluate it on our rehab datasets, and observe that the performance degrades significantly from non-rehab to rehab, highlighting the need for these datasets. We show that our dataset can be used to train pose models to detect rehab-specific complex postures. The datasets will be released for the benefit of the research community.
翻訳日:2021-08-24 15:39:55 公開日:2021-08-23
# PW-MAD:汎用顔形態検出のための画素ワイズスーパービジョン

PW-MAD: Pixel-wise Supervision for Generalized Face Morphing Attack Detection ( http://arxiv.org/abs/2108.10291v1 )

ライセンス: Link先を確認
Naser Damer, Noemie Spiller, Meiling Fang, Fadi Boutros, Florian Kirchbuchner and Arjan Kuijper(参考訳) フェイスモーフィング攻撃画像は複数のidに対して検証することができ、この攻撃は境界チェックのようなアイデンティティ検証に基づくプロセスにとって大きな脆弱性となる。 しかし、顔の変形を検知する様々な方法が提案されているが、予期せぬ後変態過程への一般化性は低い。 主要なポストモーフィングプロセスは、パスポートやID文書を発行する際、多くの国で実施される印刷およびスキャン操作である。 本研究では,画像全体のラベルを1つだけ持つのではなく,トレーニングプロセス中に,画像の各ピクセルを攻撃に分類するネットワークを訓練する,画素単位の監視アプローチを適用することで,この一般化問題に対処する。 我々のPW-MAD(Pixel-wise morphing attack Detection)ソリューションは、確立されたベースラインのセットよりも精度が高い。 さらに, 本手法は, 未知の再帰攻撃に対する評価において, 関連する作業と比較して高い一般化性を示す。 当社のPW-MADアプローチに加えて、デジタルおよび再デジタル化された攻撃とボナファイドサンプルを備えた新たな顔変形攻撃データセット、すなわち、研究目的で公開されるLMA-DRDデータセットを作成しています。

A face morphing attack image can be verified to multiple identities, making this attack a major vulnerability to processes based on identity verification, such as border checks. Different methods have been proposed to detect face morphing attacks, however, with low generalizability to unexpected post-morphing processes. A major post-morphing process is the print and scan operation performed in many countries when issuing a passport or identity document. In this work, we address this generalization problem by adapting a pixel-wise supervision approach where we train a network to classify each pixel of the image into an attack or not during the training process, rather than only having one label for the whole image. Our pixel-wise morphing attack detection (PW-MAD) solution performs more accurately than a set of established baselines. More importantly, our approach shows high generalizability in comparison to related works, when evaluated on unknown re-digitized attacks. Additionally to our PW-MAD approach, we create a new face morphing attack dataset with digital and re-digitized attacks and bona fide samples, namely the LMA-DRD dataset that will be made publicly available for research purposes.
翻訳日:2021-08-24 15:39:40 公開日:2021-08-23
# ラベルなし新環境におけるランキングモデル

Ranking Models in Unlabeled New Environments ( http://arxiv.org/abs/2108.10310v1 )

ライセンス: Link先を確認
Xiaoxiao Sun, Yunzhong Hou, Weijian Deng, Hongdong Li, Liang Zheng(参考訳) 特定のソースドメインでトレーニングされた多数の既用モデルが提供され、モデルの相対的なパフォーマンスに基づいて、最も適切なモデルを異なるターゲットドメインに直接適用したいと考えるシナリオを考えてみましょう。 理想的には、新しいターゲット環境ごとにモデルパフォーマンス評価のためのバリデーションセットをアノテートする必要がありますが、こうしたアノテーションは、しばしば非常に高価です。 この状況下では,ラベルなしの新環境におけるランキングモデルの問題を紹介する。 本研究では,1)完全にラベル付けされたプロキシデータセットを採用し,2)所定のターゲット環境における真のモデルランキングをよく反映し,プロキシセットのパフォーマンスランキングをサロゲートとして使用することを提案する。 まず、ラベル付きデータセットをプロキシとして選択します。 特に、ラベルなしのターゲットドメインにもっと近いデータセットは、相対的なパフォーマンスランキングをよりよく保存できる。 そこで本研究では,ターゲットと類似した分布を持つ様々なデータセットから画像のサンプリングにより,プロキシセットを探索することを提案する。 十分なデータセットが公開されている人物再識別(re-id)タスクに関する問題とその解決策を分析し、注意深く構築されたプロキシセットが、新しい環境での相対的なパフォーマンスランキングを効果的に取得することを示す。 コードは \url{https://github.com/sxzrt/Proxy-Set} で入手できる。

Consider a scenario where we are supplied with a number of ready-to-use models trained on a certain source domain and hope to directly apply the most appropriate ones to different target domains based on the models' relative performance. Ideally we should annotate a validation set for model performance assessment on each new target environment, but such annotations are often very expensive. Under this circumstance, we introduce the problem of ranking models in unlabeled new environments. For this problem, we propose to adopt a proxy dataset that 1) is fully labeled and 2) well reflects the true model rankings in a given target environment, and use the performance rankings on the proxy sets as surrogates. We first select labeled datasets as the proxy. Specifically, datasets that are more similar to the unlabeled target domain are found to better preserve the relative performance rankings. Motivated by this, we further propose to search the proxy set by sampling images from various datasets that have similar distributions as the target. We analyze the problem and its solutions on the person re-identification (re-ID) task, for which sufficient datasets are publicly available, and show that a carefully constructed proxy set effectively captures relative performance ranking in new environments. Code is available at \url{https://github.com/sxzrt/Proxy-Set}.
翻訳日:2021-08-24 15:39:18 公開日:2021-08-23
# 自律運転のための簡易な3次元多物体追跡

Exploring Simple 3D Multi-Object Tracking for Autonomous Driving ( http://arxiv.org/abs/2108.10312v1 )

ライセンス: Link先を確認
Chenxu Luo, Xiaodong Yang, Alan Yuille(参考訳) lidar point cloudの3dマルチオブジェクトトラッキングは、自動運転車にとって重要な要素だ。 既存の手法は主に追跡・検出パイプラインに基づいており、検出関連のために必然的にヒューリスティックマッチングステップを必要とする。 本稿では,手作りの追跡パラダイムを簡素化するために,原点雲からの共同検出と追跡のためのエンドツーエンドのトレーニング可能なモデルを提案する。 我々のキーとなる設計は、与えられたスニペット内の各オブジェクトの最初の位置を予測し、トラッキングIDを取得し、その位置をモーション推定に基づいて更新することである。 推測において、ヒューリスティックマッチングステップは、単純な読み出し操作により完全に放棄することができる。 SimTrackは、追跡対象関連、新しく生まれたオブジェクト検出、デッドトラックキラーを単一の統一モデルに統合する。 我々は、nuScenesとWaymo Open Datasetの2つの大規模データセットに対して広範な評価を行う。 実験の結果,提案手法はヒューリスティックマッチングルールを除外しつつ,最先端手法と好適に比較できることがわかった。

3D multi-object tracking in LiDAR point clouds is a key ingredient for self-driving vehicles. Existing methods are predominantly based on the tracking-by-detection pipeline and inevitably require a heuristic matching step for the detection association. In this paper, we present SimTrack to simplify the hand-crafted tracking paradigm by proposing an end-to-end trainable model for joint detection and tracking from raw point clouds. Our key design is to predict the first-appear location of each object in a given snippet to get the tracking identity and then update the location based on motion estimation. In the inference, the heuristic matching step can be completely waived by a simple read-off operation. SimTrack integrates the tracked object association, newborn object detection, and dead track killing in a single unified model. We conduct extensive evaluations on two large-scale datasets: nuScenes and Waymo Open Dataset. Experimental results reveal that our simple approach compares favorably with the state-of-the-art methods while ruling out the heuristic matching rules.
翻訳日:2021-08-24 15:38:58 公開日:2021-08-23
# 入射発電機による明示的識別器の分布脆弱性の解明

Revealing Distributional Vulnerability of Explicit Discriminators by Implicit Generators ( http://arxiv.org/abs/2108.09976v1 )

ライセンス: Link先を確認
Zhilin Zhao and Longbing Cao and Kun-Yu Lin(参考訳) 観測可能な分布内分布(ID)サンプルをトレーニングした明示的識別器は、分布の脆弱性により、分布外分布(OOD)サンプルに対して高い信頼度を予測できる。 これは主に、OODサンプルが利用できない場合に、識別器を訓練するための限定的なIDサンプルが原因である。 この問題に対処するため,最先端手法では,データやネットワーク特性を考慮せず,一般的な仮定によって生成されたoodサンプルを用いて判別器を訓練する。 しかし、異なるネットワークアーキテクチャとトレーニングIDデータセットは多様な脆弱性を引き起こす可能性があるため、生成されたOODサンプルは通常、明示的な識別器の特定の分散脆弱性を誤る。 分布的脆弱性を解明し,パッチを当てるために,暗黙的生成器(fig)による識別法を新たに提案する。 シャノンエントロピーによれば、明示的な判別器は対応する暗黙的生成器を構成でき、余分な訓練コストなしで特定のoodサンプルを生成することができる。 次に、Langevin Dynamic samplerがジェネレータから高品質なOODサンプルを描画して脆弱性を明らかにする。 最後に、暗黙発生器の設計原理に基づいて構築された正規化器は、高エントロピーで生成されたOODサンプルを奨励することにより、分布上の脆弱性をパッチする。 4つのネットワーク,4つのIDデータセット,7つのOODデータセットに対する実験により,FIGが最先端のOOD検出性能を実現し,競争力のある分類能力を維持することを示す。

An explicit discriminator trained on observable in-distribution (ID) samples can make high-confidence prediction on out-of-distribution (OOD) samples due to its distributional vulnerability. This is primarily caused by the limited ID samples observable for training discriminators when OOD samples are unavailable. To address this issue, the state-of-the-art methods train the discriminator with OOD samples generated by general assumptions without considering the data and network characteristics. However, different network architectures and training ID datasets may cause diverse vulnerabilities, and the generated OOD samples thus usually misaddress the specific distributional vulnerability of the explicit discriminator. To reveal and patch the distributional vulnerabilities, we propose a novel method of \textit{fine-tuning explicit discriminators by implicit generators} (FIG). According to the Shannon entropy, an explicit discriminator can construct its corresponding implicit generator to generate specific OOD samples without extra training costs. A Langevin Dynamic sampler then draws high-quality OOD samples from the generator to reveal the vulnerability. Finally, a regularizer, constructed according to the design principle of the implicit generator, patches the distributional vulnerability by encouraging those generated OOD samples with high entropy. Our experiments on four networks, four ID datasets and seven OOD datasets demonstrate that FIG achieves state-of-the-art OOD detection performance and maintains a competitive classification capability.
翻訳日:2021-08-24 15:36:45 公開日:2021-08-23
# グラフ上の相対エントロピー規則化された最適輸送:新しいアルゴリズムと実験的比較

Relative Entropy-Regularized Optimal Transport on a Graph: a new algorithm and an experimental comparison ( http://arxiv.org/abs/2108.10004v1 )

ライセンス: Link先を確認
Sylvain Courtain, Guillaume Guex, Ilkka Kivimaki and Marco Saerens(参考訳) 本研究は, [21, 23] に続いて, ランダム化最短経路形式におけるグラフ問題の最適トランスポートを解くための, 新しい相対エントロピー正規化アルゴリズムについて検討する。 より正確には、単位フローを入力ノードの集合に注入し、期待輸送コストをパス相対エントロピー正規化項とともに最小化し、ランダム化されたルーティングポリシーを提供する。 この新しい定式化の主な利点は、実世界の問題でよく発生するエッジフローのキャパシティの制約に容易に対応できることである。 結果として得られる最適ルーティングポリシー、すなわち、各ノードのエッジに従う確率分布はマルコビアンであり、[8]で開発されたアルゴリズムの変種により入力と出力が所定の限界確率に制限されることで計算される。 さらに,最近開発された他の手法との比較により,導入したモデルから導出したノード間の距離測定により,半教師付き分類タスクにおいて競合する結果が得られた。

Following [21, 23], the present work investigates a new relative entropy-regularized algorithm for solving the optimal transport on a graph problem within the randomized shortest paths formalism. More precisely, a unit flow is injected into a set of input nodes and collected from a set of output nodes while minimizing the expected transportation cost together with a paths relative entropy regularization term, providing a randomized routing policy. The main advantage of this new formulation is the fact that it can easily accommodate edge flow capacity constraints which commonly occur in real-world problems. The resulting optimal routing policy, i.e., the probability distribution of following an edge in each node, is Markovian and is computed by constraining the input and output flows to the prescribed marginal probabilities thanks to a variant of the algorithm developed in [8]. Besides, experimental comparisons with other recently developed techniques show that the distance measure between nodes derived from the introduced model provides competitive results on semi-supervised classification tasks.
翻訳日:2021-08-24 15:36:21 公開日:2021-08-23
# グラフ注意多層パーセプトロン

Graph Attention Multi-Layer Perceptron ( http://arxiv.org/abs/2108.10097v1 )

ライセンス: Link先を確認
Wentao Zhang, Ziqi Yin, Zeang Sheng, Wen Ouyang, Xiaosen Li, Yangyu Tao, Zhi Yang, Bin Cui(参考訳) グラフニューラルネットワーク(GNN)は、最近、多くのグラフベースのアプリケーションで最先端のパフォーマンスを達成した。 高い表現力にもかかわらず、彼らは通常、複数の訓練エポックで高価な再帰的な近隣拡張を実行し、スケーラビリティの問題に直面します。 さらに、それらの多くは固定ホップ近傍に制限されており、異なるノードに対する実際の受容野要求に敏感であるため、柔軟性がない。 スケーラブルでフレキシブルなグラフ注意多層パーセプトロン(GAMLP)を導入することで、これらの制限を回避する。 非線形変換と特徴伝播の分離により、gamlpは予め計算した方法で伝播手順を実行することでスケーラビリティと効率を大幅に向上させる。 GAMLPの各ノードは3つの原則による受容野の注意によって柔軟で適応的であり、受信野の異なる大きさに伝播する特徴を利用する。 我々は,3つの大規模オープングラフベンチマーク(ogbn-papers100M,ogbn-products,ogbn-mag)について広範な評価を行い,GAMLPが最先端の性能を達成するだけでなく,高いスケーラビリティと効率を提供することを示した。

Graph neural networks (GNNs) have recently achieved state-of-the-art performance in many graph-based applications. Despite the high expressive power, they typically need to perform an expensive recursive neighborhood expansion in multiple training epochs and face a scalability issue. Moreover, most of them are inflexible since they are restricted to fixed-hop neighborhoods and insensitive to actual receptive field demands for different nodes. We circumvent these limitations by introducing a scalable and flexible Graph Attention Multilayer Perceptron (GAMLP). With the separation of the non-linear transformation and feature propagation, GAMLP significantly improves the scalability and efficiency by performing the propagation procedure in a pre-compute manner. With three principled receptive field attention, each node in GAMLP is flexible and adaptive in leveraging the propagated features over the different sizes of reception field. We conduct extensive evaluations on the three large open graph benchmarks (e.g., ogbn-papers100M, ogbn-products and ogbn-mag), demonstrating that GAMLP not only achieves the state-of-art performance, but also additionally provide high scalability and efficiency.
翻訳日:2021-08-24 15:36:02 公開日:2021-08-23
# Collect & Infer -- データ効率のよい強化学習を新たに検討

Collect & Infer -- a fresh look at data-efficient Reinforcement Learning ( http://arxiv.org/abs/2108.10273v1 )

ライセンス: Link先を確認
Martin Riedmiller, Jost Tobias Springenberg, Roland Hafner, Nicolas Heess(参考訳) 本稿では,データ効率の観点から強化学習(rl)を新たに見ることを提案する。 データ効率のよいRLは3つの主要な段階を経てきた: 純粋なオンラインRL: すべてのデータポイントが1回だけ考慮される、RL: 経験の一部で追加の学習を行うリプレイバッファ、最後にトランジションメモリベースのRL: 概念的には、すべてのトランジションがすべての更新ステップに格納され、再使用される。 明示的に記憶されたすべての経験から知識を推測することは、データ効率の大幅な向上につながるが、このデータがどのように収集されるかという問題は、非常に未検討である。 データ効率は両面を慎重に検討することでのみ達成できると我々は主張する。 我々は,この知見を,データ収集と知識推論の2つのプロセスとしてRLを明示的にモデル化する,「収集と推論」と呼ばれるパラダイムを通じて明確にすることを提案する。 本稿では、このパラダイムの意義、その考え方が文献にどのように反映されているか、そしてデータ効率のよいRLに関する今後の研究を導く方法について論じる。

This position paper proposes a fresh look at Reinforcement Learning (RL) from the perspective of data-efficiency. Data-efficient RL has gone through three major stages: pure on-line RL where every data-point is considered only once, RL with a replay buffer where additional learning is done on a portion of the experience, and finally transition memory based RL, where, conceptually, all transitions are stored and re-used in every update step. While inferring knowledge from all explicitly stored experience has lead to a tremendous gain in data-efficiency, the question of how this data is collected has been vastly understudied. We argue that data-efficiency can only be achieved through careful consideration of both aspects. We propose to make this insight explicit via a paradigm that we call 'Collect and Infer', which explicitly models RL as two separate but interconnected processes, concerned with data collection and knowledge inference respectively. We discuss implications of the paradigm, how its ideas are reflected in the literature, and how it can guide future research into data efficient RL.
翻訳日:2021-08-24 15:35:41 公開日:2021-08-23
# c5t5:トランスフォーマーによる有機分子の制御可能な生成

C5T5: Controllable Generation of Organic Molecules with Transformers ( http://arxiv.org/abs/2108.10307v1 )

ライセンス: Link先を確認
Daniel Rothchild, Alex Tamkin, Julie Yu, Ujval Misra, Joseph Gonzalez(参考訳) 望ましい性質を持つ有機材料を設計する方法は、医学、再生可能エネルギー、石油化学工学、農業などの分野に高い影響を与える。 しかし、候補化合物は、合成アクセシビリティやその他のドメインの専門家にとって直感的だが定量化が難しいメトリクスを含む、複数の制約を満たす必要があるため、望ましい特性を持つ物質を設計するために生成モデリングを使用することは困難である。 C5T5は、トランスフォーマーがゼロショット選択置換編集を可能とし、有機物を所望のプロパティ値に変化させる、新しい自己教師型事前学習法である。 C5T5はIUPACの名前で運営されており、有機化学者の豊富な構造情報を直感的にコード化しているが、MLコミュニティからは無視されている。 本手法では, 合成分子対を必要とせず, 分子特性を大まかに見積もるだけで, 長距離依存性や対称分子構造をグラフ法よりも容易にモデル化することができる。 C5T5はまた、ドメインエキスパートに強力なインターフェースを提供する: IUPAC名フラグメントを選択して置き換えることで、ユーザが生成プロセスのきめ細かい制御を許可する。 薬物発見に関連する4つの物理特性に対するC5T5の有効性を実証し,分子を望ましい性質値に変化させるための化学的に直感的な戦略を学習することを示した。

Methods for designing organic materials with desired properties have high potential impact across fields such as medicine, renewable energy, petrochemical engineering, and agriculture. However, using generative modeling to design substances with desired properties is difficult because candidate compounds must satisfy multiple constraints, including synthetic accessibility and other metrics that are intuitive to domain experts but challenging to quantify. We propose C5T5, a novel self-supervised pretraining method that enables transformers to make zero-shot select-and-replace edits, altering organic substances towards desired property values. C5T5 operates on IUPAC names -- a standardized molecular representation that intuitively encodes rich structural information for organic chemists but that has been largely ignored by the ML community. Our technique requires no edited molecule pairs to train and only a rough estimate of molecular properties, and it has the potential to model long-range dependencies and symmetric molecular structures more easily than graph-based methods. C5T5 also provides a powerful interface to domain experts: it grants users fine-grained control over the generative process by selecting and replacing IUPAC name fragments, which enables experts to leverage their intuitions about structure-activity relationships. We demonstrate C5T5's effectiveness on four physical properties relevant for drug discovery, showing that it learns successful and chemically intuitive strategies for altering molecules towards desired property values.
翻訳日:2021-08-24 15:35:20 公開日:2021-08-23
# 数個の勾配量子化器の速度歪み比較

Rate distortion comparison of a few gradient quantizers ( http://arxiv.org/abs/2108.09899v1 )

ライセンス: Link先を確認
Tharindu Adikari(参考訳) この記事では勾配圧縮の文脈について述べる。 勾配圧縮は、確率勾配勾配のような勾配に基づく手法を用いて、大規模機械学習モデルを分散的に訓練する際に発生する通信ボトルネックを緩和する一般的な手法である。 本稿では,勾配成分のガウス分布を仮定して,スケールドサインやtop-kのような勾配量子化スキームのレート歪みトレードオフを見出し,シャノンレート歪み限界と比較する。 ベクトル量化器との類似した比較も示す。

This article is in the context of gradient compression. Gradient compression is a popular technique for mitigating the communication bottleneck observed when training large machine learning models in a distributed manner using gradient-based methods such as stochastic gradient descent. In this article, assuming a Gaussian distribution for the components in gradient, we find the rate distortion trade-off of gradient quantization schemes such as Scaled-sign and Top-K, and compare with the Shannon rate distortion limit. A similar comparison with vector quantizers also is presented.
翻訳日:2021-08-24 15:34:01 公開日:2021-08-23
# オンラインレポートに基づく慢性痛経験の分析:RRCPデータセット

Analysis of Chronic Pain Experiences Based on Online Reports: the RRCP Dataset ( http://arxiv.org/abs/2108.10218v1 )

ライセンス: Link先を確認
Diogo A.P. Nunes, David Martins de Matos, Joana Ferreira Gomes, Fani Neto(参考訳) 慢性的な痛みは主要な健康問題として認識され、経済的、社会的、個人のレベルに影響を及ぼす。 個人的かつ主観的な経験であり、被験者の過去の経験、社会文化的埋め込み、および感情的および心理的負荷を含む複雑な認知過程に依存するため、慢性的な痛みを純粋に不安的な刺激として外的かつ公平に経験し、説明し、解釈することは不可能である。 したがって、言語コミュニケーションは、外部のエンティティにアクセスできない健康専門家に関連情報を伝達する鍵となる。 具体的には、慢性的な痛みに苦しむ患者が経験から説明し、その情報がどのように開示されるかによって、患者固有の性質と痛み自体の経験が明らかになる。 本稿では,ソーシャルメディアによる慢性痛経験のテキスト記述と,各種の慢性痛経験の議論を含むReddit Reports of chronic Pain (RRCP)データセットについて報告する。 各病理学において、その慢性的な痛みの連続した経験から生じる主な懸念を、それに関連する文書のサブセットで表されるように特定する。 これは潜在空間における文書クラスタリングによって得られる。 コサインの類似性により、異なる病理のどの懸念が痛みの全ての経験の中核であり、特定の形態に排他的であるかを決定する。 最後に, 慢性痛に関する記述の教師なし意味分析は, 慢性痛経験における病態の相違について臨床研究を反映している。

Chronic pain is recognized as a major health problem, with impacts at the economic, social, and individual levels. Being a private and subjective experience, dependent on a complex cognitive process involving the subject's past experiences, sociocultural embeddedness, as well as emotional and psychological loads, it is impossible to externally and impartially experience, describe, and interpret chronic pain as a purely noxious stimulus that would directly point to a causal agent and facilitate its mitigation. Verbal communication is, thus, key to convey relevant information to health professionals that would otherwise not be accessible to external entities. Specifically, what a patient suffering of chronic pain describes from the experience and how this information is disclosed reveals intrinsic qualities about the patient and the experience of pain itself. We present the Reddit Reports of Chronic Pain (RRCP) dataset, which comprises social media textual descriptions and discussion of various forms of chronic pain experiences, as reported from the perspective of different base pathologies. For each pathology, we identify the main concerns emergent of its consequent experience of chronic pain, as represented by the subset of documents explicitly related to it. This is obtained via document clustering in the latent space. By means of cosine similarity, we determine which concerns of different pathologies are core to all experiences of pain, and which are exclusive to certain forms. Finally, we argue that our unsupervised semantic analysis of descriptions of chronic pain echoes clinical research on how different pathologies manifest in terms of the chronic pain experience.
翻訳日:2021-08-24 15:33:52 公開日:2021-08-23
# 連続最適化問題としての制約付き外部エージェントによるネットワーク制御

Network control by a constrained external agent as a continuous optimization problem ( http://arxiv.org/abs/2108.10298v1 )

ライセンス: Link先を確認
Jannes Nys, Milan van den Heuvel, Koen Schoors, Bruno Merlevede(参考訳) ネットワークにおける制御を扱う社会科学研究は、通常、ヒューリスティックスや静的制御分布を記述する。 しかし、最適政策は、現実の制約を受ける社会経済ネットワークの制御を最適化する介入を必要とする。 我々は、ディープラーニングとネットワーク科学の最適化ツールを、現実世界のネットワークにおけるそのような介入を最適化できるフレームワークに統合する。 我々は、戦略上重要な企業ネットワークの脆弱性を、重要な同時的政策課題であるセンシティブな買収に特徴付けることができる、企業制御の文脈でこの枠組みを実証する。 このフレームワークは、現実世界の社会経済ネットワークを管理するための洞察を生み出し、このような複雑なシステムの理解と制御を改善するための新しい研究道を開く。

Social science studies dealing with control in networks typically resort to heuristics or describing the static control distribution. Optimal policies, however, require interventions that optimize control over a socioeconomic network subject to real-world constraints. We integrate optimisation tools from deep-learning with network science into a framework that is able to optimize such interventions in real-world networks. We demonstrate the framework in the context of corporate control, where it allows to characterize the vulnerability of strategically important corporate networks to sensitive takeovers, an important contemporaneous policy challenge. The framework produces insights that are relevant for governing real-world socioeconomic networks, and opens up new research avenues for improving our understanding and control of such complex systems.
翻訳日:2021-08-24 15:33:25 公開日:2021-08-23
# 光制約構造-運動からのバーストイメージング

Burst Imaging for Light-Constrained Structure-From-Motion ( http://arxiv.org/abs/2108.09895v1 )

ライセンス: Link先を確認
Ahalya Ravendran, Mitch Bryson, Donald G. Dansereau(参考訳) 極めて低い光条件下で撮影された画像はノイズが限られており、既存のロボットビジョンアルゴリズムが失敗する可能性がある。 本稿では,低光度で取得した画像から3次元再構成を支援する画像処理手法を提案する。 本手法は,バースト写真に基づく短時間露光画像のバースト内画像の直接登録手法を用いて,特徴量に基づく構造移動(SfM)の堅牢性と精度を向上させる。 我々は,撮影シーンにおけるSfMの性能向上を実証し,性能改善とカメラポーズ推定の定量的評価を行った。 さらに,本手法は,最先端技術よりも正確な復元によく収束することを示す。 本手法は,地下地雷や夜間運転などの環境で動作するロボットに応用可能な,低照度環境下でのロボットの動作を可能にするための重要なステップである。

Images captured under extremely low light conditions are noise-limited, which can cause existing robotic vision algorithms to fail. In this paper we develop an image processing technique for aiding 3D reconstruction from images acquired in low light conditions. Our technique, based on burst photography, uses direct methods for image registration within bursts of short exposure time images to improve the robustness and accuracy of feature-based structure-from-motion (SfM). We demonstrate improved SfM performance in challenging light-constrained scenes, including quantitative evaluations that show improved feature performance and camera pose estimates. Additionally, we show that our method converges more frequently to correct reconstructions than the state-of-the-art. Our method is a significant step towards allowing robots to operate in low light conditions, with potential applications to robots operating in environments such as underground mines and night time operation.
翻訳日:2021-08-24 15:31:28 公開日:2021-08-23
# 知識蒸留に基づく効率的な医用画像分割

Efficient Medical Image Segmentation Based on Knowledge Distillation ( http://arxiv.org/abs/2108.09987v1 )

ライセンス: Link先を確認
Dian Qin, Jiajun Bu, Zhe Liu, Xin Shen, Sheng Zhou, Jingjun Gu, Zhijua Wang, Lei Wu, Huifen Dai(参考訳) 近年,医用画像分割問題に対するより正確な予測結果を得るために畳み込みニューラルネットワークを適用している。 しかし,既存の手法の成功は,現実のシナリオでは実現不可能な膨大な計算複雑性と大規模ストレージに大きく依存している。 この問題に対処するために、医用画像分割ネットワークから知識を抽出し、別の軽量ネットワークを訓練することで効率的なアーキテクチャを提案する。 このアーキテクチャにより、軽量ネットワークは、実行効率を維持しながらセグメンテーション能力を大幅に改善することができる。 さらに,教師から学生ネットワークへ意味領域情報を伝達するために,医用画像セグメンテーションに適した新しい蒸留モジュールを考案する。 学生ネットワークは、異なる組織領域から計算された表現の差の程度を模倣するよう強制する。 このモジュールは、医療画像を扱う際に発生する曖昧な境界問題を避け、代わりに各意味領域の内部情報をエンコードして転送する。 モジュールから恩恵を受けた軽量ネットワークは、推論フェーズでの可搬性を維持しながら、実験で最大32.6%の改善を受けることができた。 この構造は、広く受け入れられている2つの公共CTデータセットLiTS17とKiTS19で検証されている。 提案手法により蒸留した軽量ネットワークは, 比較的高い動作速度とストレージ使用量を必要とするシナリオにおいて, 無視できない価値を有することを実証する。

Recent advances have been made in applying convolutional neural networks to achieve more precise prediction results for medical image segmentation problems. However, the success of existing methods has highly relied on huge computational complexity and massive storage, which is impractical in the real-world scenario. To deal with this problem, we propose an efficient architecture by distilling knowledge from well-trained medical image segmentation networks to train another lightweight network. This architecture empowers the lightweight network to get a significant improvement on segmentation capability while retaining its runtime efficiency. We further devise a novel distillation module tailored for medical image segmentation to transfer semantic region information from teacher to student network. It forces the student network to mimic the extent of difference of representations calculated from different tissue regions. This module avoids the ambiguous boundary problem encountered when dealing with medical imaging but instead encodes the internal information of each semantic region for transferring. Benefited from our module, the lightweight network could receive an improvement of up to 32.6% in our experiment while maintaining its portability in the inference phase. The entire structure has been verified on two widely accepted public CT datasets LiTS17 and KiTS19. We demonstrate that a lightweight network distilled by our method has non-negligible value in the scenario which requires relatively high operating speed and low storage usage.
翻訳日:2021-08-24 15:31:11 公開日:2021-08-23
# ZS-SLR:RGB-Dビデオからのゼロショット手話認識

ZS-SLR: Zero-Shot Sign Language Recognition from RGB-D Videos ( http://arxiv.org/abs/2108.10059v1 )

ライセンス: Link先を確認
Razieh Rastgoo, Kourosh Kiani, Sergio Escalera(参考訳) 手話認識(SLR)はコンピュータビジョンにおいて難しい研究分野である。 SLRにおけるアノテーションボトルネックに対処するため、ZES-SLR(Zero-Shot Sign Language Recognition)の問題を定式化し、RGBとDepthの2つの入力モードから2ストリームモデルを提案する。 視覚トランスフォーマビリティの恩恵を受けるために,人間検出と視覚特徴表現の2つの視覚トランスフォーマモデルを用いた。 トランスフォーマエンコーダ-デコーダアーキテクチャを高速かつ高精度な人間検出モデルとして構成し,現在の人間検出モデルの課題を克服する。 人間のキーポイントを考えると、検出された人体は9つの部分に分けられる。 視覚変換器とLSTMネットワークを用いて人体からの時空間表現を得る。 セマンティックスペースは、トランスフォーマー(BERT)モデルによる双方向エンコーダ表現を通じて、クラスラベルの言語埋め込みに視覚的特徴をマッピングする。 提案手法をモンタルバーノII, MSR Daily Activity 3D, CAD-60, NTU-60の4つのデータセットで評価し, 最先端のZS-SLRモデルと比較した。

Sign Language Recognition (SLR) is a challenging research area in computer vision. To tackle the annotation bottleneck in SLR, we formulate the problem of Zero-Shot Sign Language Recognition (ZS-SLR) and propose a two-stream model from two input modalities: RGB and Depth videos. To benefit from the vision Transformer capabilities, we use two vision Transformer models, for human detection and visual features representation. We configure a transformer encoder-decoder architecture, as a fast and accurate human detection model, to overcome the challenges of the current human detection models. Considering the human keypoints, the detected human body is segmented into nine parts. A spatio-temporal representation from human body is obtained using a vision Transformer and a LSTM network. A semantic space maps the visual features to the lingual embedding of the class labels via a Bidirectional Encoder Representations from Transformers (BERT) model. We evaluated the proposed model on four datasets, Montalbano II, MSR Daily Activity 3D, CAD-60, and NTU-60, obtaining state-of-the-art results compared to state-of-the-art ZS-SLR models.
翻訳日:2021-08-24 15:30:50 公開日:2021-08-23
# 2次元注意を有する多型潜時ベクトルによる画像再構成のための適応ganエンコーダ

Adaptable GAN Encoders for Image Reconstruction via Multi-type Latent Vectors with Two-scale Attentions ( http://arxiv.org/abs/2108.10201v1 )

ライセンス: Link先を確認
Cheng Yu, Wenmin Wang(参考訳) 現在のGAN(Deep Generative Adversarial Network)は高品質な(HQ)画像を合成できるが、画像再構成のための新しいGANエンコーダの発見は依然として好ましい。 遅延空間にイメージを埋め込む場合、既存のGANエンコーダは(人間の顔のような)整列画像に対してうまく機能するが、より一般化されたGANには適応しない。 我々の知る限り、現在最先端のGANエンコーダは、異なるGAN上のほとんどの本社構内合成画像から高忠実度画像を再構成する適切なエンコーダを持っていない。 パフォーマンスは限定的であり、特に非アライメントや実画像では顕著である。 このような問題に対処する新しい手法(MTV-TSA)を提案する。 潜時空間からマルチタイプ潜時ベクトル(mtv)を作成し、画像から2スケールの注意(tsa)を作成することで、様々な訓練済みganに適応可能なエンコーダセットを設計することができる。 2組の損失関数を一般化してエンコーダを最適化する。 設計されたエンコーダは、ganが合成されたほとんどのhq画像から高い忠実度画像を再構成する。 さらに,提案手法は実画像の再構成をうまく行い,学習属性の方向に基づいて処理することができる。 設計されたエンコーダは、統一された畳み込みブロックを持ち、対応する正規化層と最後のブロックを微調整することで、現在のGANアーキテクチャ(PGGAN、StyleGAN、BigGANなど)によく適合する。 このようなよく設計されたエンコーダは、より迅速に収束するように訓練することもできる。

Although current deep generative adversarial networks (GANs) could synthesize high-quality (HQ) images, discovering novel GAN encoders for image reconstruction is still favorable. When embedding images to latent space, existing GAN encoders work well for aligned images (such as the human face), but they do not adapt to more generalized GANs. To our knowledge, current state-of-the-art GAN encoders do not have a proper encoder to reconstruct high-fidelity images from most misaligned HQ synthesized images on different GANs. Their performances are limited, especially on non-aligned and real images. We propose a novel method (named MTV-TSA) to handle such problems. Creating multi-type latent vectors (MTV) from latent space and two-scale attentions (TSA) from images allows designing a set of encoders that can be adaptable to a variety of pre-trained GANs. We generalize two sets of loss functions to optimize the encoders. The designed encoders could make GANs reconstruct higher fidelity images from most synthesized HQ images. In addition, the proposed method can reconstruct real images well and process them based on learned attribute directions. The designed encoders have unified convolutional blocks and could match well in current GAN architectures (such as PGGAN, StyleGANs, and BigGAN) by fine-tuning the corresponding normalization layers and the last block. Such well-designed encoders can also be trained to converge more quickly.
翻訳日:2021-08-24 15:30:26 公開日:2021-08-23
# SwinIR: Swin Transformer を用いた画像復元

SwinIR: Image Restoration Using Swin Transformer ( http://arxiv.org/abs/2108.10257v1 )

ライセンス: Link先を確認
Jingyun Liang, Jiezhang Cao, Guolei Sun, Kai Zhang, Luc Van Gool, Radu Timofte(参考訳) 画像復元は、低品質の画像(例えば、ダウンスケール、ノイズ、圧縮画像)から高品質な画像を復元することを目的とした、長年の低レベルビジョン問題である。 最先端の画像復元手法は畳み込みニューラルネットワークに基づいているが、高レベルの視覚タスクにおいて印象的なパフォーマンスを示すTransformerを使った試みはほとんどない。 本稿では,Swin Transformerに基づく画像復元のための強力なベースラインモデルSwinIRを提案する。 swinirは、浅い特徴抽出、深い特徴抽出、高品質の画像再構成の3つの部分からなる。 特に、深い特徴抽出モジュールはいくつかの残余Swin Transformerブロック(RSTB)で構成され、それぞれが残余接続とともに複数のSwin Transformer層を有する。 画像スーパーレゾリューション(古典的,軽量,実世界の画像スーパーレゾリューションを含む)、画像デノイジング(グレースケールとカラー画像デノイジングを含む)、jpeg圧縮アーティファクト削減の3つの代表的なタスクについて実験を行った。 実験の結果、SwinIRは異なるタスクにおける最先端のメソッドを$\textbf{up to 0.14$\sim$0.45dB}$で上回り、パラメータの総数は$\textbf{up to 67%}$で減少することを示した。

Image restoration is a long-standing low-level vision problem that aims to restore high-quality images from low-quality images (e.g., downscaled, noisy and compressed images). While state-of-the-art image restoration methods are based on convolutional neural networks, few attempts have been made with Transformers which show impressive performance on high-level vision tasks. In this paper, we propose a strong baseline model SwinIR for image restoration based on the Swin Transformer. SwinIR consists of three parts: shallow feature extraction, deep feature extraction and high-quality image reconstruction. In particular, the deep feature extraction module is composed of several residual Swin Transformer blocks (RSTB), each of which has several Swin Transformer layers together with a residual connection. We conduct experiments on three representative tasks: image super-resolution (including classical, lightweight and real-world image super-resolution), image denoising (including grayscale and color image denoising) and JPEG compression artifact reduction. Experimental results demonstrate that SwinIR outperforms state-of-the-art methods on different tasks by $\textbf{up to 0.14$\sim$0.45dB}$, while the total number of parameters can be reduced by $\textbf{up to 67%}$.
翻訳日:2021-08-24 15:29:56 公開日:2021-08-23
# クロスクオリティLFW:非拘束環境におけるクロスリゾリューション画像認識のためのデータベース

Cross-Quality LFW: A Database for Analyzing Cross-Resolution Image Face Recognition in Unconstrained Environments ( http://arxiv.org/abs/2108.10290v1 )

ライセンス: Link先を確認
Martin Knoche, Stefan H\"ormann, Gerhard Rigoll(参考訳) 現実世界の顔認識アプリケーションは、様々な被写体間距離、カメラ設定の貧弱さ、モーションボケなどの撮影条件が異なるため、最適化された画質や解像度を扱うことが多い。 この特性は性能に無知な影響を及ぼす。 最近のクロスレゾリューション顔認識アプローチでは、画像品質の現実世界のエッジケースに対する堅牢性を測定するために、シンプルで任意で非現実的なダウン・アンド・アップ・スケーリング技術を用いた。 そこで本研究では,野生の有名なラベル付き顔(lfw)に由来する新しい標準ベンチマークデータセットを提案する。 ポーズ、年齢、類似性、敵対的な攻撃に焦点を当てた従来のデリバティブとは対照的に、XQLFW(Cross-Quality Labeled Faces in the Wild)データセットは品質差を最大化します。 必要に応じてよりリアルな合成劣化画像のみを含む。 提案するデータセットは,画像品質が最先端のアプローチに与える影響をさらに調査するために使用される。 XQLFWでは、これらのモデルがクロスクオリティのケースで異なる性能を示すので、LFWの性能によって一般化能力は正確には予測されない。 さらに,近年の深層学習モデルを用いて,クロスレゾリューションの応用を訓練し,画像品質に対する感受性を評価する。 クロスレゾリューション顔認識のさらなる研究を奨励し、画像品質のロバスト性の評価を喚起するために、評価のためのデータベースとコードを公開する。

Real-world face recognition applications often deal with suboptimal image quality or resolution due to different capturing conditions such as various subject-to-camera distances, poor camera settings, or motion blur. This characteristic has an unignorable effect on performance. Recent cross-resolution face recognition approaches used simple, arbitrary, and unrealistic down- and up-scaling techniques to measure robustness against real-world edge-cases in image quality. Thus, we propose a new standardized benchmark dataset derived from the famous Labeled Faces in the Wild (LFW). In contrast to previous derivatives, which focus on pose, age, similarity, and adversarial attacks, our Cross-Quality Labeled Faces in the Wild (XQLFW) dataset maximizes the quality difference. It contains only more realistic synthetically degraded images when necessary. Our proposed dataset is then used to further investigate the influence of image quality on several state-of-the-art approaches. With XQLFW, we show that these models perform differently in cross-quality cases, and hence, the generalizing capability is not accurately predicted by their performance on LFW. Additionally, we report baseline accuracy with recent deep learning models explicitly trained for cross-resolution applications and evaluate the susceptibility to image quality. To encourage further research in cross-resolution face recognition and incite the assessment of image quality robustness, we publish the database and code for evaluation.
翻訳日:2021-08-24 15:29:31 公開日:2021-08-23
# 単一正帰還デバイスを用いたパルス幅変調ニューロン

Pulse-Width Modulation Neuron Implemented by Single Positive-Feedback Device ( http://arxiv.org/abs/2108.09954v1 )

ライセンス: Link先を確認
Sung Yun Woo, Dongseok Kwon, Byung-Gook Park, Jong-Ho Lee, and Jong-Ho Bae(参考訳) パルス幅変調(PWM)機能を実装するための正フィードバック(PF)デバイスとその動作方式を提案し,PWM機能を実装する装置動作機構を解析した。 n−浮遊体(Qn)に蓄積される電荷量を調整することにより、浮遊体の電位は時間とともに直線的に変化する。 Qnがしきい値(Qth)に達すると、PF装置は突然オンになる。 Qnの線形時間変化特性とQthのゲートバイアス依存性から、パルス幅変換とハードシグモイド活性化機能を含む完全機能可能なPWMニューロン特性を単一PF装置から得られる。 単一PFデバイスを用いてPWMニューロンを実装できるので、PWMニューロン回路の面積を従来報告したニューロンよりも著しく減少させることが有用である。

Positive-feedback (PF) device and its operation scheme to implement pulse width modulation (PWM) function was proposed and demonstrated, and the device operation mechanism for implementing PWM function was analyzed. By adjusting the amount of the charge stored in the n- floating body (Qn), the potential of the floating body linearly changes with time. When Qn reaches to a threshold value (Qth), the PF device turns on abruptly. From the linear time-varying property of Qn and the gate bias dependency of Qth, fully functionable PWM neuron properties including voltage to pulse width conversion and hard-sigmoid activation function were successfully obtained from a single PF device. A PWM neuron can be implemented by using a single PF device, thus it is beneficial to extremely reduce the area of a PWM neuron circuit than the previously reported one.
翻訳日:2021-08-24 15:27:44 公開日:2021-08-23
# 限定語彙を用いた自動音声認識:調査

Automatic Speech Recognition using limited vocabulary: A survey ( http://arxiv.org/abs/2108.10254v1 )

ライセンス: Link先を確認
Jean Louis K. E. Fendji, Diane M. Tala, Blaise O. Yenke, and Marcellin Atemkeng(参考訳) 音声認識(Automatic Speech Recognition, ASR)は、膨大な数のアプリケーションと、音声処理をサポートするインターフェースやコンピューティングデバイスの普及により、活発な研究分野である。 しかし、ほとんどのアプリケーションは、未公開の言語を覆い隠す、十分なリソースを持つ言語に基づいている。 しかし、ASRは、人間から人間、人間から機械までを設計する際に、そのような言語を広めるには不確実な手段である。 アンダーリソース言語をターゲットにしたASRシステムを設計するためのアプローチは、限られた語彙から始めることである。 限定語彙を用いたASRは、少数の単語や文の認識に焦点を当てた音声認識問題のサブセットである。 本稿では,asrシステムを支えるメカニズムの包括的視点と,技術,ツール,プロジェクト,最近のコントリビュート,および限定語彙を用いたasrの今後の方向性について述べる。 これにより、限られた語彙を用いてASRシステムを設計する際に進むことができる。 限られた語彙に重点を置いているが、この調査で報告されたツールや技法は一般にASRシステムに適用されている。

Automatic Speech Recognition (ASR) is an active field of research due to its huge number of applications and the proliferation of interfaces or computing devices that can support speech processing. But the bulk of applications is based on well-resourced languages that overshadow under-resourced ones. Yet ASR represents an undeniable mean to promote such languages, especially when design human-to-human or human-to-machine systems involving illiterate people. An approach to design an ASR system targeting under-resourced languages is to start with a limited vocabulary. ASR using a limited vocabulary is a subset of the speech recognition problem that focuses on the recognition of a small number of words or sentences. This paper aims to provide a comprehensive view of mechanisms behind ASR systems as well as techniques, tools, projects, recent contributions, and possibly future directions in ASR using a limited vocabulary. This work consequently provides a way to go when designing ASR system using limited vocabulary. Although an emphasis is put on limited vocabulary, most of the tools and techniques reported in this survey applied to ASR systems in general.
翻訳日:2021-08-24 15:27:28 公開日:2021-08-23
# Anarchic Federated Learning

Anarchic Federated Learning ( http://arxiv.org/abs/2108.09875v1 )

ライセンス: Link先を確認
Haibo Yang, Xin Zhang, Prashant Khanduri, Jia Liu(参考訳) エッジネットワーク上にデプロイされた現在の連合学習(fl)システムは,データや計算能力の多様性が高い多数のワーカに対して,一貫して対処しなければならない。 この多様な労働者は、(1)労働者の意志でトレーニングを行う能力を与える柔軟な労働者参加、(2)サーバーとの非同期通信と共に各労働者のローカルな更新(計算資源に基づく)の数の変化、(3)労働者間の異種データなど、FLアルゴリズムの開発を必要とする。 このような課題に対処するため,本稿では,'Anarchic Federated Learning' (AFL) と呼ばれる新たなパラダイムを提案する。 従来のFLモデルとは対照的に、AFLの各作業員は、FLに参加するときの完全な自由(i)と、現在の状況(例えば、バッテリーレベル、通信チャネル、プライバシー問題)に基づいて各ラウンドで実行するローカルステップの数(i)がある。 しかし、AFLは、サーバーがカオス的なワーカーの振る舞いを扱う必要があるため、アルゴリズム設計における重大な課題も導入している。 この目的のために,AFedAvg-TSLR-CD と AFedAvg-TSLR-CS という2つのアナーキック型FedAvg-likeアルゴリズムを提案する。 一般の作業者情報到着プロセスでは,両アルゴリズムが新しいAFLパラダイムにおいて,非常に望ましい線形高速化効果を保っていることを示す。 さらに,我々の AFedAvg-TSLR アルゴリズムフレームワークは,高度な FL アルゴリズムをワーカーおよびサーバサイドオプティマイザとして利用することにより,AFL の高性能化を実現することができることを示す。 提案アルゴリズムを実世界のデータセットで広範な実験により検証する。

Present-day federated learning (FL) systems deployed over edge networks have to consistently deal with a large number of workers with high degrees of heterogeneity in data and/or computing capabilities. This diverse set of workers necessitates the development of FL algorithms that allow: (1) flexible worker participation that grants the workers' capability to engage in training at will, (2) varying number of local updates (based on computational resources) at each worker along with asynchronous communication with the server, and (3) heterogeneous data across workers. To address these challenges, in this work, we propose a new paradigm in FL called ``Anarchic Federated Learning'' (AFL). In stark contrast to conventional FL models, each worker in AFL has complete freedom to choose i) when to participate in FL, and ii) the number of local steps to perform in each round based on its current situation (e.g., battery level, communication channels, privacy concerns). However, AFL also introduces significant challenges in algorithmic design because the server needs to handle the chaotic worker behaviors. Toward this end, we propose two Anarchic FedAvg-like algorithms with two-sided learning rates for both cross-device and cross-silo settings, which are named AFedAvg-TSLR-CD and AFedAvg-TSLR-CS, respectively. For general worker information arrival processes, we show that both algorithms retain the highly desirable linear speedup effect in the new AFL paradigm. Moreover, we show that our AFedAvg-TSLR algorithmic framework can be viewed as a {\em meta-algorithm} for AFL in the sense that they can utilize advanced FL algorithms as worker- and/or server-side optimizers to achieve enhanced performance under AFL. We validate the proposed algorithms with extensive experiments on real-world datasets.
翻訳日:2021-08-24 15:25:31 公開日:2021-08-23
# トランスフォーマーを用いたフローサイトメトリーデータにおける細胞集団の自動同定

Automated Identification of Cell Populations in Flow Cytometry Data with Transformers ( http://arxiv.org/abs/2108.10072v1 )

ライセンス: Link先を確認
Matthias W\"odlinger, Michael Reiter, Lisa Weijler, Margarita Maurer-Granofszky, Angela Schumich, Michael Dworzak(参考訳) 急性リンパ芽球性白血病(ALL)は小児や青年期で最も頻度の高い血液悪性腫瘍である。 ALの強い予後因子は、患者に持続する白血病細胞の数を測定する最小残留疾患(英語版)(MRD)によって与えられる。 治療後の多パラメータフローサイトメトリー(FCM)データからの手動MDD評価は時間と主観的である。 本研究では,FCMデータから直接MDD値を計算するための自動手法を提案する。 本稿では,サンプル中の爆発細胞を直接同定するトランスフォーマーアーキテクチャに基づく,新しいニューラルネットワークアプローチを提案する。 本手法は,3つの臨床センターから入手可能なALL FCMデータに基づいて,教師付きで訓練し,評価する。 本手法は,200 B-ALL試料で試験した場合のf1中央値 ~0.93 に達する。

Acute Lymphoblastic Leukemia (ALL) is the most frequent hematologic malignancy in children and adolescents. A strong prognostic factor in ALL is given by the Minimal Residual Disease (MRD), which is a measure for the number of leukemic cells persistent in a patient. Manual MRD assessment from Multiparameter Flow Cytometry (FCM) data after treatment is time-consuming and subjective. In this work, we present an automated method to compute the MRD value directly from FCM data. We present a novel neural network approach based on the transformer architecture that learns to directly identify blast cells in a sample. We train our method in a supervised manner and evaluate it on publicly available ALL FCM data from three different clinical centers. Our method reaches a median f1 score of ~0.93 when tested on 200 B-ALL samples.
翻訳日:2021-08-24 15:24:55 公開日:2021-08-23
# DBAなし? 後悔するな! 証明可能な保証付き分析およびHTAPワークロードのインデックスチューニングのためのマルチアームバンド

No DBA? No regret! Multi-armed bandits for index tuning of analytical and HTAP workloads with provable guarantees ( http://arxiv.org/abs/2108.10130v1 )

ライセンス: Link先を確認
R. Malinga Perera, Bastian Oetomo, Benjamin I. P. Rubinstein, Renata Borovica-Gajic(参考訳) 物理データベース設計の自動化は、最適化された構造によって得られる大幅な性能向上のために、データベース研究に長期的な関心が保たれている。 相当な進歩にもかかわらず、今日の商用ソリューションの大部分は極めて手作業で、代表的トレーニングワークロードの特定と提供を期待されているデータベース管理者(dbas)によるオフライン呼び出しを必要とする。 クエリストアのような最新の進歩でさえ、動的環境に対する限定的なサポートしか提供しない。 静的なワークロードの代表を識別することはもはや現実的ではなく、物理的な設計ツールがクエリオプティマイザーのコスト見積に影響を受けやすい。 さらに、ハイブリッドトランザクションおよび分析処理(HTAP)システムのような現代のアプリケーション環境では、分析モデリングは不可能である。 我々は,dbaやクエリオプティマイザを回避し,戦略的な探索と直接的パフォーマンス観察を通じて実現可能な構造のメリットを学習する,オンラインインデックス選択の自動運転手法を提案する。 我々は,この問題を不確実性下での逐次的意思決定の1つ,特にバンディット学習環境において捉えている。 マルチアームバンディットは、完全な後見に最適なポリシーに収束する平均的なパフォーマンスを確実に保証するために、探索と搾取のバランスをとる。 最先端の商用チューニングツールに対する包括的実証評価は、シフトおよびアドホックなワークロードの最大75%のスピードアップと、分析処理環境での静的ワークロードの最大28%のスピードアップを示しています。 HTAP環境では、我々のソリューションは、シフトの最大59%のスピードアップと静的ワークロードの51%のスピードアップを提供します。 さらに,バンディットフレームワークは,収束速度と性能変動性(最大58%の速度アップ)において,深層強化学習(RL)よりも優れていた。

Automating physical database design has remained a long-term interest in database research due to substantial performance gains afforded by optimised structures. Despite significant progress, a majority of today's commercial solutions are highly manual, requiring offline invocation by database administrators (DBAs) who are expected to identify and supply representative training workloads. Even the latest advancements like query stores provide only limited support for dynamic environments. This status quo is untenable: identifying representative static workloads is no longer realistic; and physical design tools remain susceptible to the query optimiser's cost misestimates. Furthermore, modern application environments such as hybrid transactional and analytical processing (HTAP) systems render analytical modelling next to impossible. We propose a self-driving approach to online index selection that eschews the DBA and query optimiser, and instead learns the benefits of viable structures through strategic exploration and direct performance observation. We view the problem as one of sequential decision making under uncertainty, specifically within the bandit learning setting. Multi-armed bandits balance exploration and exploitation to provably guarantee average performance that converges to policies that are optimal with perfect hindsight. Our comprehensive empirical evaluation against a state-of-the-art commercial tuning tool demonstrates up to 75% speed-up on shifting and ad-hoc workloads and up to 28% speed-up on static workloads in analytical processing environments. In HTAP environments, our solution provides up to 59% speed-up on shifting and 51% speed-up on static workloads. Furthermore, our bandit framework outperforms deep reinforcement learning (RL) in terms of convergence speed and performance volatility (providing up to 58% speed-up).
翻訳日:2021-08-24 15:24:45 公開日:2021-08-23
# 小児自動睡眠停止 : 最先端の深層学習法の比較研究

Pediatric Automatic Sleep Staging: A comparative study of state-of-the-art deep learning methods ( http://arxiv.org/abs/2108.10211v1 )

ライセンス: Link先を確認
Huy Phan, Alfred Mertins, Mathias Baumert(参考訳) 近年の成人における自動睡眠ステージングの進歩にもかかわらず、最も先進的なアルゴリズムが小児集団に一般化し、夜間ポリソムノグラフィー(PSG)に特徴的な特徴を示すことが現在知られている。 そこで本研究では,小児期自動睡眠ステージングのための最先端の深層学習法について,大規模比較研究を行う。 多様な閉塞型睡眠時無呼吸 (osa) の重症度を対象とし, 1200名以上の小児のサンプルを評価するために, 異なる特徴を持つ6種類の深層ニューラルネットワークの選定を行った。 実験結果から,新規被験者を対象とした自動睡眠ステージリングは,成人に報告された専門家レベルと同等であり,全体の精度は87.0%,コーエンカッパは0.829,マクロF1スコアは83.5%であった。 デュアルチャネルeeg$\cdot$eogを使用するとさらに性能が向上し、精度88.2%、cohen's kappa 0.844、マクロf1-score 85.1%に達した。 また, 学習データとテストデータが7ヶ月間隔で記録された場合, 学習アルゴリズムはドリフトの概念にロバストであることが判明した。 詳細な分析は、自動スコアラー同士の「ほぼ完璧な」一致と、ステージングエラーにおける同様の行動パターンをさらに示している。

Despite the tremendous progress recently made towards automatic sleep staging in adults, it is currently known if the most advanced algorithms generalize to the pediatric population, which displays distinctive characteristics in overnight polysomnography (PSG). To answer the question, in this work, we conduct a large-scale comparative study on the state-of-the-art deep learning methods for pediatric automatic sleep staging. A selection of six different deep neural networks with diverging features are adopted to evaluate a sample of more than 1,200 children across a wide spectrum of obstructive sleep apnea (OSA) severity. Our experimental results show that the performance of automated pediatric sleep staging when evaluated on new subjects is equivalent to the expert-level one reported on adults, reaching an overall accuracy of 87.0%, a Cohen's kappa of 0.829, and a macro F1-score of 83.5% in case of single-channel EEG. The performance is further improved when dual-channel EEG$\cdot$EOG are used, reaching an accuracy of 88.2%, a Cohen's kappa of 0.844, and a macro F1-score of 85.1%. The results also show that the studied algorithms are robust to concept drift when the training and test data were recorded 7-months apart. Detailed analyses further demonstrate "almost perfect" agreement between the automatic scorers to one another and their similar behavioral patterns on the staging errors.
翻訳日:2021-08-24 15:24:13 公開日:2021-08-23
# 神経テンソル完成のための影響誘導データ拡張

Influence-guided Data Augmentation for Neural Tensor Completion ( http://arxiv.org/abs/2108.10248v1 )

ライセンス: Link先を確認
Sejoon Oh, Sungchul Kim, Ryan A. Rossi, Srijan Kumar(参考訳) 多次元データ(あるいはテンソル)の欠落値をより正確に予測する方法。 テンソル補完のタスクは、パーソナライズドレコメンデーション、画像とビデオの復元、ソーシャルネットワークにおけるリンク予測など、多くのアプリケーションにおいて不可欠である。 多くのテンソル分解とニューラルネットワークベースのテンソル補完アルゴリズムは、部分的に観測されたテンソルの欠落エントリを予測するために開発された。 しかし、実世界のテンソルは非常に小さく、これらの手法は少量のデータに過度に適合する傾向があるため、不正確な推定を行うことができる。 本稿では,これらの欠点を克服し,テンソルのデータ拡張手法を提案する。 本稿では,ニューラルテンソル完了法の予測精度を高める汎用データ拡張フレームワークであるDAINを提案する。 具体的には、DAINはまず神経モデルを訓練し、影響関数でテンソル細胞の重要性を見出す。 その後、dainは各実体(すなわち次元の指標)の重要性を計算するために細胞の重要性を集約する。 最後に、dainはエンティティの重要性の重み付けサンプリングと値予測によってテンソルを増強する。 広範囲な実験結果から,DAINは4つの実世界のテンソル上での神経テンソル完了の計算精度を高めるという点で,すべてのデータ拡張ベースラインより優れていた。 DAINのアブレーション研究はDAINの各成分の有効性を裏付ける。 さらに,DAINは大規模データセットにほぼ線形にスケールすることを示す。

How can we predict missing values in multi-dimensional data (or tensors) more accurately? The task of tensor completion is crucial in many applications such as personalized recommendation, image and video restoration, and link prediction in social networks. Many tensor factorization and neural network-based tensor completion algorithms have been developed to predict missing entries in partially observed tensors. However, they can produce inaccurate estimations as real-world tensors are very sparse, and these methods tend to overfit on the small amount of data. Here, we overcome these shortcomings by presenting a data augmentation technique for tensors. In this paper, we propose DAIN, a general data augmentation framework that enhances the prediction accuracy of neural tensor completion methods. Specifically, DAIN first trains a neural model and finds tensor cell importances with influence functions. After that, DAIN aggregates the cell importance to calculate the importance of each entity (i.e., an index of a dimension). Finally, DAIN augments the tensor by weighted sampling of entity importances and a value predictor. Extensive experimental results show that DAIN outperforms all data augmentation baselines in terms of enhancing imputation accuracy of neural tensor completion on four diverse real-world tensors. Ablation studies of DAIN substantiate the effectiveness of each component of DAIN. Furthermore, we show that DAIN scales near linearly to large datasets.
翻訳日:2021-08-24 15:23:48 公開日:2021-08-23
# 深層ニューラルネットワークによる微生物コロニー検出法 -比較解析-

Deep neural networks approach to microbial colony detection -- a comparative analysis ( http://arxiv.org/abs/2108.10103v1 )

ライセンス: Link先を確認
Sylwia Majchrowska, Jaros{\l}aw Paw{\l}owski, Natalia Czerep, Aleksander G\'orecki, Jakub Kuci\'nski, and Tomasz Golan(参考訳) 微生物コロニーの計数は微生物学の基本的な課題であり、多くの産業分野に応用されている。 それにもかかわらず、人工知能を用いた自動微生物計数に関する最近の研究は、統一された方法論の欠如と大規模なデータセットの可用性のため、ほとんど比較できない。 最近導入されたagarデータセットは、第2のニーズへの答えだが、研究はまだ不十分である。 この問題に対処するため,AGARデータセット上での3つのよく知られたディープラーニング手法,すなわち2段階,1段階,トランスフォーマーに基づくニューラルネットワークの性能を比較した。 得られた結果は将来の実験のベンチマークとして機能するかもしれない。

Counting microbial colonies is a fundamental task in microbiology and has many applications in numerous industry branches. Despite this, current studies towards automatic microbial counting using artificial intelligence are hardly comparable due to the lack of unified methodology and the availability of large datasets. The recently introduced AGAR dataset is the answer to the second need, but the research carried out is still not exhaustive. To tackle this problem, we compared the performance of three well-known deep learning approaches for object detection on the AGAR dataset, namely two-stage, one-stage and transformer based neural networks. The achieved results may serve as a benchmark for future experiments.
翻訳日:2021-08-24 15:21:58 公開日:2021-08-23
# 逆学習に基づく未知視線トモグラフィ再構成のためのアプローチ

An Adversarial Learning Based Approach for Unknown View Tomographic Reconstruction ( http://arxiv.org/abs/2108.09873v1 )

ライセンス: Link先を確認
Mona Zehni, Zhizhen Zhao(参考訳) 2次元断層画像再構成の目標は、様々な視点から投影線から画像を復元することである。 しばしば、射影線に関連する射影角が予め知られていると仮定される。 しかし、特定の状況下では、これらの角度は概して知られているか全く知られていない。 ランダムな投影線の集合から画像を再構成することがより困難になる。 本稿では,実測値と実測値とを一致させて画像と投影角分布を復元する逆学習に基づく手法を提案する。 分布の適合は、wasserstein生成逆ネットワーク構造に基づくジェネレータと批評家との間のmin-maxゲームを解決することによって達成される。 勾配バック伝搬による投影角分布の更新に対応するため,離散分布からのサンプルのグムベル・ソフトマックス再パラメータ化を用いて損失を近似する。 本理論解析は,画像の特異な復元と,回転までの投影分布と収束時の反射を検証する。 広範に数値実験を行ったところ, ノイズ汚染下での画像と投影角分布を正確に再現できる可能性が示された。

The goal of 2D tomographic reconstruction is to recover an image given its projection lines from various views. It is often presumed that projection angles associated with the projection lines are known in advance. Under certain situations, however, these angles are known only approximately or are completely unknown. It becomes more challenging to reconstruct the image from a collection of random projection lines. We propose an adversarial learning based approach to recover the image and the projection angle distribution by matching the empirical distribution of the measurements with the generated data. Fitting the distributions is achieved through solving a min-max game between a generator and a critic based on Wasserstein generative adversarial network structure. To accommodate the update of the projection angle distribution through gradient back propagation, we approximate the loss using the Gumbel-Softmax reparameterization of samples from discrete distributions. Our theoretical analysis verifies the unique recovery of the image and the projection distribution up to a rotation and reflection upon convergence. Our extensive numerical experiments showcase the potential of our method to accurately recover the image and the projection angle distribution under noise contamination.
翻訳日:2021-08-24 15:19:43 公開日:2021-08-23
# 主観的エンベロープに基づくパーキンソン病音声サンプルの多型再構成アルゴリズム

Subject Envelope based Multitype Reconstruction Algorithm of Speech Samples of Parkinson's Disease ( http://arxiv.org/abs/2108.09922v1 )

ライセンス: Link先を確認
Yongming Li, Chengyu Liu, Pin Wang, Hehua Zhang, Anhai Wei(参考訳) パーキンソン病(PD)のリスクは極めて深刻であり,現在PD音声認識は有効な診断方法である。 しかし, 病期, コーパス, その他の因子がデータ収集に与える影響から, PDの状態を反映した各試料の収集能力は異なる。 全く役に立たないサンプルはなく、100%完璧ではない。 この特徴は、サンプルを取り除いたり、サンプルを保持するだけでは適切でないことを意味する。 高品質な新しいサンプルを得るためには,サンプル変換を検討する必要がある。 残念なことに,既存のPD音声認識手法は,サンプル学習よりも特徴学習と分類器設計に重点を置いている。 以上の問題を解決するために,多型再構成演算子に基づくPD音声サンプル変換アルゴリズムを提案する。 アルゴリズムは4つの大きなステップに分けられる。 a型、b型、c型の3種類の再構成演算子がアルゴリズムで設計されている。 a型演算子に関して、最初のデータセットを取得するために線形変換を設計することで、元のデータセットを直接再構成する。 タイプB演算子は、第2の新しいデータセットを得るためにデータセットのクラスタリングと線形変換のために設計されている。 第3のオペレータ、すなわちタイプCオペレータは、クラスタリングと畳み込みによってデータセットを再構築し、第3のデータセットを取得する。 最後に、3つの新しいデータセットに基づいてベース分類器を訓練し、決定重み付けによって分類結果を融合する。 実験区間では,2つの代表的なPD音声データセットを用いて検証を行う。 その結果,提案アルゴリズムの有効性が示された。 他のアルゴリズムと比較して,提案アルゴリズムは分類精度の点で明らかに改善されている。

The risk of Parkinson's disease (PD) is extremely serious, and PD speech recognition is an effective method of diagnosis nowadays. However, due to the influence of the disease stage, corpus, and other factors on data collection, the ability of every samples within one subject to reflect the status of PD vary. No samples are useless totally, and not samples are 100% perfect. This characteristic means that it is not suitable just to remove some samples or keep some samples. It is necessary to consider the sample transformation for obtaining high quality new samples. Unfortunately, existing PD speech recognition methods focus mainly on feature learning and classifier design rather than sample learning, and few methods consider the sample transformation. To solve the problem above, a PD speech sample transformation algorithm based on multitype reconstruction operators is proposed in this paper. The algorithm is divided into four major steps. Three types of reconstruction operators are designed in the algorithm: types A, B and C. Concerning the type A operator, the original dataset is directly reconstructed by designing a linear transformation to obtain the first dataset. The type B operator is designed for clustering and linear transformation of the dataset to obtain the second new dataset. The third operator, namely, the type C operator, reconstructs the dataset by clustering and convolution to obtain the third dataset. Finally, the base classifier is trained based on the three new datasets, and then the classification results are fused by decision weighting. In the experimental section, two representative PD speech datasets are used for verification. The results show that the proposed algorithm is effective. Compared with other algorithms, the proposed algorithm achieves apparent improvements in terms of classification accuracy.
翻訳日:2021-08-24 15:19:26 公開日:2021-08-23
# back to the drawing board: a critical evaluation of poisoning attacks on federated learning

Back to the Drawing Board: A Critical Evaluation of Poisoning Attacks on Federated Learning ( http://arxiv.org/abs/2108.10241v1 )

ライセンス: Link先を確認
Virat Shejwalkar, Amir Houmansadr, Peter Kairouz and Daniel Ramage(参考訳) 近年の研究では、フェデレートラーニング(FL)は、妥協されたクライアントによる攻撃に弱いことが示されていますが、これらの研究は非現実的な仮定を多く作り、誤解を招く結論に達しています。 例えば、彼らはしばしば非現実的に高いパーセンテージの漏洩したクライアントを使い、敵に対して非現実的な能力を仮定する。 我々は,現実的な脅威モデルと敵対的能力のセットを慎重に特徴付けることにより,実用的fl環境下での中毒攻撃の最初の批判的解析を行う。 確立された信念とは裏腹に, FLは, 防御がなくても, 実際には非常に堅牢であることを示す。 実際、私たちはさらに前進して、2つの現実的な脅威モデルの下で最先端の毒殺攻撃を提案し、3つのベンチマークデータセットにわたる広範囲な実験を通して、特に単純な防御メカニズムを使用する場合において、効果的な毒殺攻撃がどのように存在するかを示す。 我々は過去の誤解を修正し、我々のコミュニティがこの分野でより正確な研究を行い、より強力な(そしてより現実的な)攻撃と防衛を構築することを奨励する具体的なガイドラインを与えます。

While recent works have indicated that federated learning (FL) is vulnerable to poisoning attacks by compromised clients, we show that these works make a number of unrealistic assumptions and arrive at somewhat misleading conclusions. For instance, they often use impractically high percentages of compromised clients or assume unrealistic capabilities for the adversary. We perform the first critical analysis of poisoning attacks under practical production FL environments by carefully characterizing the set of realistic threat models and adversarial capabilities. Our findings are rather surprising: contrary to the established belief, we show that FL, even without any defenses, is highly robust in practice. In fact, we go even further and propose novel, state-of-the-art poisoning attacks under two realistic threat models, and show via an extensive set of experiments across three benchmark datasets how (in)effective poisoning attacks are, especially when simple defense mechanisms are used. We correct previous misconceptions and give concrete guidelines that we hope will encourage our community to conduct more accurate research in this space and build stronger (and more realistic) attacks and defenses.
翻訳日:2021-08-24 15:18:58 公開日:2021-08-23
# ReSpawn:信頼できない記憶を考慮したスパイクニューラルネットワークのエネルギー効率の良いフォールトトレランス

ReSpawn: Energy-Efficient Fault-Tolerance for Spiking Neural Networks considering Unreliable Memories ( http://arxiv.org/abs/2108.10271v1 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Muhammad Abdullah Hanif, Muhammad Shafique(参考訳) スパイキングニューラルネットワーク(SNN)は、生物学的にインスパイアされた計算のために教師なし学習能力を持つ低エネルギーを持つ可能性を示している。 しかし、製造欠陥や電圧誘起近似誤差から生じる、ハードウェアによるメモリ障害の存在下で処理が実行されると、精度が低下する可能性がある。 最近の研究は、SNNにおけるフォールトモデリングとランダムなフォールトインジェクションに焦点が当てられているため、SNNハードウェアアーキテクチャにおけるメモリフォールトが正確性および各フォールト軽減技術に与える影響は、十分に調べられていない。 そこで本研究では,回復力とエネルギー効率のよいSNNのためのオフチップメモリとオンチップメモリの両方において,障害の負の影響を緩和する新しいフレームワークであるReSpawnを提案する。 ReSpawnの主なメカニズムは,(1)SNNの耐障害性の解析,(2)記憶における(a)フォールト・アウェア・マッピング(FAM)によるSNN耐障害性の向上,(b)フォールト・アウェア・トレーニング・アンド・マッピング(FATM)である。 トレーニングデータセットが完全に利用できない場合、FAMは、非デフォルトメモリセルに重要なビットを配置する効率的なビットシャッフル技術と、欠陥のあるセルに重要なビットを配置し、メモリアクセスエネルギーを最小化する。 一方、トレーニングデータセットが完全に利用可能であれば、FATMはデータマッピングとトレーニングプロセスにおける障害メモリセルを考慮して使用される。 実験の結果, 断層緩和技術のないベースラインSNNと比較して, 断層認識マッピング方式によるReSpawnは, 900個のニューロンを持つネットワークにおいて, 再トレーニングなしで精度を最大70%向上することがわかった。

Spiking neural networks (SNNs) have shown a potential for having low energy with unsupervised learning capabilities due to their biologically-inspired computation. However, they may suffer from accuracy degradation if their processing is performed under the presence of hardware-induced faults in memories, which can come from manufacturing defects or voltage-induced approximation errors. Since recent works still focus on the fault-modeling and random fault injection in SNNs, the impact of memory faults in SNN hardware architectures on accuracy and the respective fault-mitigation techniques are not thoroughly explored. Toward this, we propose ReSpawn, a novel framework for mitigating the negative impacts of faults in both the off-chip and on-chip memories for resilient and energy-efficient SNNs. The key mechanisms of ReSpawn are: (1) analyzing the fault tolerance of SNNs; and (2) improving the SNN fault tolerance through (a) fault-aware mapping (FAM) in memories, and (b) fault-aware training-and-mapping (FATM). If the training dataset is not fully available, FAM is employed through efficient bit-shuffling techniques that place the significant bits on the non-faulty memory cells and the insignificant bits on the faulty ones, while minimizing the memory access energy. Meanwhile, if the training dataset is fully available, FATM is employed by considering the faulty memory cells in the data mapping and training processes. The experimental results show that, compared to the baseline SNN without fault-mitigation techniques, ReSpawn with a fault-aware mapping scheme improves the accuracy by up to 70% for a network with 900 neurons without retraining.
翻訳日:2021-08-24 15:18:36 公開日:2021-08-23
# (参考訳) デカップリングパッチ校正による高解像度画像のスーパーピクセル生成

Generating Superpixels for High-resolution Images with Decoupled Patch Calibration ( http://arxiv.org/abs/2108.08607v2 )

ライセンス: CC BY 4.0
Yaxiong Wang and Yunchao Wei and Xueming Qian and Li Zhu and Yi Yang(参考訳) スーパーピクセルのセグメンテーションは最近、差別化可能なディープラーニングの進歩から大きな進歩を遂げている。 しかし、非常に高解像度のスーパーピクセルセグメンテーションは、高価なメモリと計算コストのために依然として困難であり、現在の高度なスーパーピクセルネットワークは処理に失敗している。 本稿では,高分解能スーパーピクセルセグメンテーションを効率的かつ正確に実装することを目的としたパッチキャリブレーションネットワーク(pcnet)を考案する。 PCNetは、GPUメモリの節約と計算コストの軽減のために、低解像度入力から高解像度出力を生成するという原則に従っている。 ダウンサンプリング操作によって破壊された細部を思い出すために,本スーパーピクセル生成部を協調的に増強する新しいデカップリングパッチ校正(DPC)ブランチを提案する。 特に、DPCは高解像度画像からローカルパッチを取り、動的にバイナリマスクを生成して、ネットワークを領域境界に集中させる。 dpcとメインブランチのパラメータを共有することで、高解像度パッチから学んだ詳細な知識を転送し、破壊した情報を校正する。 私たちの知る限りでは、ディープラーニングベースのスーパーピクセル生成を高解像度ケースで検討する最初の試みをしました。 本研究では,2つの公開データセットと1つの新しい構築データセットから評価ベンチマークを構築し,人間の細粒度から都市景観まで幅広い多様性をカバーした。 大規模な実験により、PCNetは定量化結果の最先端に対して良好に機能するだけでなく、1080Ti GPU上での3Kから5Kへの上界の分解能も向上できることが示された。

Superpixel segmentation has recently seen important progress benefiting from the advances in differentiable deep learning. However, the very high-resolution superpixel segmentation still remains challenging due to the expensive memory and computation cost, making the current advanced superpixel networks fail to process. In this paper, we devise Patch Calibration Networks (PCNet), aiming to efficiently and accurately implement high-resolution superpixel segmentation. PCNet follows the principle of producing high-resolution output from low-resolution input for saving GPU memory and relieving computation cost. To recall the fine details destroyed by the down-sampling operation, we propose a novel Decoupled Patch Calibration (DPC) branch for collaboratively augment the main superpixel generation branch. In particular, DPC takes a local patch from the high-resolution images and dynamically generates a binary mask to impose the network to focus on region boundaries. By sharing the parameters of DPC and main branches, the fine-detailed knowledge learned from high-resolution patches will be transferred to help calibrate the destroyed information. To the best of our knowledge, we make the first attempt to consider the deep-learning-based superpixel generation for high-resolution cases. To facilitate this research, we build evaluation benchmarks from two public datasets and one new constructed one, covering a wide range of diversities from fine-grained human parts to cityscapes. Extensive experiments demonstrate that our PCNet can not only perform favorably against the state-of-the-arts in the quantitative results but also improve the resolution upper bound from 3K to 5K on 1080Ti GPUs.
翻訳日:2021-08-24 12:32:40 公開日:2021-08-23
# (参考訳) 画像分類タスクにおける量子ニューラルネットワークモデルと古典ニューラルネットワークモデルの比較

Comparing concepts of quantum and classical neural network models for image classification task ( http://arxiv.org/abs/2108.08875v2 )

ライセンス: CC BY 4.0
Rafal Potempa and Sebastian Porebski(参考訳) 量子アーキテクチャはまだ開発中だが、利用可能な場合は、機械学習アルゴリズムが数値データのみを処理できる場合にのみ量子データを処理できる。 したがって、分類や回帰の問題においては、数値入力データを量子形式に転送し、量子コンピュータが利用可能な機械学習手法を利用できるようにする量子システムをシミュレートし、研究する必要がある。 本資料は、MNISTデータセットからの手書き桁の分類問題のために開発されたハイブリッド量子古典ニューラルネットワークのトレーニングと性能に関する実験結果を含む。 2つのモデルの比較結果: 類似のトレーニングパラメータの古典的および量子的ニューラルネットワークは、量子ネットワークが時間を要するが、古典的ネットワークを克服することを示している(より収束し、より高いトレーニングとテストの精度を達成する)。

While quantum architectures are still under development, when available, they will only be able to process quantum data when machine learning algorithms can only process numerical data. Therefore, in the issues of classification or regression, it is necessary to simulate and study quantum systems that will transfer the numerical input data to a quantum form and enable quantum computers to use the available methods of machine learning. This material includes the results of experiments on training and performance of a hybrid quantum-classical neural network developed for the problem of classification of handwritten digits from the MNIST data set. The comparative results of two models: classical and quantum neural networks of a similar number of training parameters, indicate that the quantum network, although its simulation is time-consuming, overcomes the classical network (it has better convergence and achieves higher training and testing accuracy).
翻訳日:2021-08-24 11:55:39 公開日:2021-08-23
# (参考訳) fastformer: 付加的な注意は必要なすべてだ

Fastformer: Additive Attention Can Be All You Need ( http://arxiv.org/abs/2108.09084v2 )

ライセンス: CC0 1.0
Chuhan Wu, Fangzhao Wu, Tao Qi, Yongfeng Huang(参考訳) Transformerは、テキスト理解のための強力なモデルである。 しかし、入力シーケンス長の2次複雑さのため、非効率である。 変圧器の加速には多くの方法があるが、長いシーケンスでは効率が悪いか、十分に効果的ではない。 本稿では,付加的注意に基づく効率的な変圧器モデルであるfastformerを提案する。 Fastformerでは、トークン間のペアワイズ相互作用をモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンション機構を使用し、さらにグローバルコンテキスト表現との相互作用に基づいて各トークン表現を変換する。 このように、fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。 5つのデータセットに関する広範囲な実験により、fastformerは既存の多くのトランスフォーマーモデルよりもはるかに効率的であり、同時に、同等あるいはそれ以上の長いテキストモデリング性能を達成することができる。

Transformer is a powerful model for text understanding. However, it is inefficient due to its quadratic complexity to input sequence length. Although there are many methods on Transformer acceleration, they are still either inefficient on long sequences or not effective enough. In this paper, we propose Fastformer, which is an efficient Transformer model based on additive attention. In Fastformer, instead of modeling the pair-wise interactions between tokens, we first use additive attention mechanism to model global contexts, and then further transform each token representation based on its interaction with global context representations. In this way, Fastformer can achieve effective context modeling with linear complexity. Extensive experiments on five datasets show that Fastformer is much more efficient than many existing Transformer models and can meanwhile achieve comparable or even better long text modeling performance.
翻訳日:2021-08-24 11:45:13 公開日:2021-08-23
# 意味的テキスト類似性のためのチェコ語ニュースデータセット

Czech News Dataset for Semantic Textual Similarity ( http://arxiv.org/abs/2108.08708v2 )

ライセンス: Link先を確認
Jakub Sido, Michal Sej\'ak, Ond\v{r}ej Pra\v{z}\'ak, Miloslav Konop\'ik, V\'aclav Moravec(参考訳) 本稿では,意味的類似性アノテーションを持つ文からなる新しいデータセットについて述べる。 このデータはチェコ語におけるジャーナリストの領域に由来する。 データの収集と注釈付けのプロセスについて詳述する。 データセットには、138,556人のアノテーションが列車とテストセットに分割されている。 合計485人のジャーナリズム学生が作成プロセスに参加した。 テストセットの信頼性を高めるために、アノテーションを平均9個の個別アノテーションとして計算する。 アノテーションアノテータ間のアノテータ間の合意を計測することで,データセットの品質を評価する。 合意番号の他に、収集したデータセットの詳細な統計情報を提供する。 本稿では,文の意味的類似性を予測するシステムを構築するための基礎実験を行った。 大量のトレーニングアノテーション(116 956)により、平均アノテータ (0,92対0,86対人相関係数) よりもはるかに優れた性能を発揮する。

This paper describes a novel dataset consisting of sentences with semantic similarity annotations. The data originate from the journalistic domain in the Czech language. We describe the process of collecting and annotating the data in detail. The dataset contains 138,556 human annotations divided into train and test sets. In total, 485 journalism students participated in the creation process. To increase the reliability of the test set, we compute the annotation as an average of 9 individual annotations. We evaluate the quality of the dataset by measuring inter and intra annotation annotators' agreements. Beside agreement numbers, we provide detailed statistics of the collected dataset. We conclude our paper with a baseline experiment of building a system for predicting the semantic similarity of sentences. Due to the massive number of training annotations (116 956), the model can perform significantly better than an average annotator (0,92 versus 0,86 of Person's correlation coefficients).
翻訳日:2021-08-24 11:30:16 公開日:2021-08-23
# instagramにおける違法薬物密売事件の検出--深層マルチモーダル・マルチラベル学習アプローチ

Detection of Illicit Drug Trafficking Events on Instagram: A Deep Multimodal Multilabel Learning Approach ( http://arxiv.org/abs/2108.08920v2 )

ライセンス: Link先を確認
Chuanbo Hu, Minglei Yin, Bin Liu, Xin Li, Yanfang Ye(参考訳) instagramやtwitterといったソーシャルメディアは、違法薬物のマーケティングや販売の重要なプラットフォームとなっている。 オンライン違法薬物取引の検出は、違法薬物のオンライン取引と戦うために重要になっている。 しかし、法的地位はしばしば空間的・時間的に変化し、同じ薬物、連邦法、州法でもその合法性に関して異なる規則を持つことができる。 一方、より多くの麻薬密売事件は、情報の多様性につながる広告コメントの新しい形態に変装している。 そのため、ソーシャルメディアからの違法薬物密売事件(idte)の正確な検出がさらに困難になっている。 本研究では,Instagram上でのIDTEのきめ細かい検出に関する最初の系統的研究を行う。 マルチモーダルidte(mm-idte)と呼ばれるデータセット上でのidteの検出とその有効性を示すために,dmml(deep multimodal multilabel learning)アプローチを提案する。 具体的には,本モデルでは,テキストと画像データを入力とし,マルチモーダル情報を組み合わせて複数の違法薬物のラベルを予測する。 BERTの成功にインスパイアされた我々は,予め訓練されたテキストと画像エンコーダを併用して,自己制御型双方向変換器を開発した。 我々は,不正薬物の詳細な検出を支援するために,手動で注釈付き複数の薬物ラベルを付加した大規模データセットMM-IDTEを構築した。 MM-IDTEデータセットの大規模な実験結果から, DMML法では, 特別な文字やスタイル変化があってもIDTEを正確に検出できることがわかった。

Social media such as Instagram and Twitter have become important platforms for marketing and selling illicit drugs. Detection of online illicit drug trafficking has become critical to combat the online trade of illicit drugs. However, the legal status often varies spatially and temporally; even for the same drug, federal and state legislation can have different regulations about its legality. Meanwhile, more drug trafficking events are disguised as a novel form of advertising commenting leading to information heterogeneity. Accordingly, accurate detection of illicit drug trafficking events (IDTEs) from social media has become even more challenging. In this work, we conduct the first systematic study on fine-grained detection of IDTEs on Instagram. We propose to take a deep multimodal multilabel learning (DMML) approach to detect IDTEs and demonstrate its effectiveness on a newly constructed dataset called multimodal IDTE(MM-IDTE). Specifically, our model takes text and image data as the input and combines multimodal information to predict multiple labels of illicit drugs. Inspired by the success of BERT, we have developed a self-supervised multimodal bidirectional transformer by jointly fine-tuning pretrained text and image encoders. We have constructed a large-scale dataset MM-IDTE with manually annotated multiple drug labels to support fine-grained detection of illicit drugs. Extensive experimental results on the MM-IDTE dataset show that the proposed DMML methodology can accurately detect IDTEs even in the presence of special characters and style changes attempting to evade detection.
翻訳日:2021-08-24 11:30:02 公開日:2021-08-23
# SplitGuard: スプリットラーニングにおけるトレーニングハイジャック攻撃の検出と緩和

SplitGuard: Detecting and Mitigating Training-Hijacking Attacks in Split Learning ( http://arxiv.org/abs/2108.09052v2 )

ライセンス: Link先を確認
Ege Erdogan, Alptekin Kupcu, A. Ercument Cicek(参考訳) 分割学習のような分散ディープラーニングフレームワークは、最近、参加者のグループが生データを共有せずにディープニューラルネットワークを協調的にトレーニングできるように提案されている。 特にスプリットラーニングは、クライアントとサーバの間のニューラルネットワークを分割して、クライアントが初期レイヤを計算し、サーバが残りのレイヤを計算することで、この目標を達成する。 しかし,本手法では,クライアントのプライベートデータを盗もうとする悪意のあるサーバに対して,クライアントモデルから選択したタスクを学習するためのユニークな攻撃ベクトルを導入する。 具体的な例がすでに提案されているように、このようなトレーニングハイジャック攻撃は、スプリットラーニングクライアントのデータプライバシに重大なリスクをもたらす。 本論文では,スプリット学習クライアントが,トレーニングハイジャック攻撃の対象であるか否かを検知する手法であるSplitGuardを提案する。 我々は,その効果を実験的に評価し,その利用に関する諸点を詳細に検討した。 スプリットガードは、敵が回収した情報の量を最小限に抑えつつ、トレーニングハイジャック攻撃を効果的に検出できると結論付けた。

Distributed deep learning frameworks, such as split learning, have recently been proposed to enable a group of participants to collaboratively train a deep neural network without sharing their raw data. Split learning in particular achieves this goal by dividing a neural network between a client and a server so that the client computes the initial set of layers, and the server computes the rest. However, this method introduces a unique attack vector for a malicious server attempting to steal the client's private data: the server can direct the client model towards learning a task of its choice. With a concrete example already proposed, such training-hijacking attacks present a significant risk for the data privacy of split learning clients. In this paper, we propose SplitGuard, a method by which a split learning client can detect whether it is being targeted by a training-hijacking attack or not. We experimentally evaluate its effectiveness, and discuss in detail various points related to its use. We conclude that SplitGuard can effectively detect training-hijacking attacks while minimizing the amount of information recovered by the adversaries.
翻訳日:2021-08-24 11:28:19 公開日:2021-08-23
# メタコントラストネットワークを用いた自己教師付きビデオ表現学習

Self-Supervised Video Representation Learning with Meta-Contrastive Network ( http://arxiv.org/abs/2108.08426v2 )

ライセンス: Link先を確認
Yuanze Lin, Xun Guo, Yan Lu(参考訳) 自己教師付き学習は、事前学習領域から下流タスクへの効果的な適応を目的とした、事前訓練ビデオ表現に成功している。 既存のアプローチは、インスタンスレベルの識別を学ぶために対照的な損失を利用するだけです。 しかし、カテゴリ情報の欠如は、この種の手法の一般化能力を制約する強正の問題につながる。 メタ学習のマルチタスクプロセスは、この問題に対する解決策を提供することができる。 本稿では,既存の自己教師ありアプローチの学習能力を高めるために,コントラスト学習とメタ学習を組み合わせたメタコントラストネットワーク(mcn)を提案する。 本手法は,モデルに依存しないメタラーニング(MAML)に基づく2つの訓練段階を含む。 本手法の有効性を広範囲に評価した。 2つの下流タスク、すなわちビデオアクション認識とビデオ検索において、MCNはUCF101およびHMDB51データセットに対する最先端のアプローチより優れている。 より具体的に言うと、r(2+1)dバックボーンでは、ビデオアクション認識では84.8%、54.5%、ビデオ検索では52.5%、23.7%のtop-1アキュラティを達成している。

Self-supervised learning has been successfully applied to pre-train video representations, which aims at efficient adaptation from pre-training domain to downstream tasks. Existing approaches merely leverage contrastive loss to learn instance-level discrimination. However, lack of category information will lead to hard-positive problem that constrains the generalization ability of this kind of methods. We find that the multi-task process of meta learning can provide a solution to this problem. In this paper, we propose a Meta-Contrastive Network (MCN), which combines the contrastive learning and meta learning, to enhance the learning ability of existing self-supervised approaches. Our method contains two training stages based on model-agnostic meta learning (MAML), each of which consists of a contrastive branch and a meta branch. Extensive evaluations demonstrate the effectiveness of our method. For two downstream tasks, i.e., video action recognition and video retrieval, MCN outperforms state-of-the-art approaches on UCF101 and HMDB51 datasets. To be more specific, with R(2+1)D backbone, MCN achieves Top-1 accuracies of 84.8% and 54.5% for video action recognition, as well as 52.5% and 23.7% for video retrieval.
翻訳日:2021-08-24 11:28:01 公開日:2021-08-23